diff --git a/atari_alien/config.yaml b/atari_alien/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..5be3da9139b25b87c39dac33b92353b14fe7e7c3
--- /dev/null
+++ b/atari_alien/config.yaml
@@ -0,0 +1,188 @@
+actent: 0.0003
+actor:
+  act: silu
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  maxstd: 1.0
+  minstd: 0.1
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  symlog_inputs: false
+  unimix: 0.01
+  units: 512
+  winit: normal
+actor_dist_cont: normal
+actor_dist_disc: onehot
+actor_grad_cont: backprop
+actor_grad_disc: reinforce
+actor_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+batch_length: 64
+batch_size: 16
+cont_head:
+  act: silu
+  dist: binary
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  units: 512
+  winit: normal
+critic:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  symlog_inputs: false
+  units: 512
+  winit: normal
+critic_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+critic_slowreg: logprob
+critic_type: vfunction
+data_loaders: 8
+decoder:
+  act: silu
+  cnn: resnet
+  cnn_blocks: 0
+  cnn_depth: 32
+  cnn_keys: image
+  cnn_sigmoid: false
+  fan: avg
+  image_dist: mse
+  inputs: [deter, stoch]
+  minres: 4
+  mlp_keys: $^
+  mlp_layers: 5
+  mlp_units: 1024
+  norm: layer
+  outscale: 1.0
+  resize: stride
+  vector_dist: symlog_mse
+  winit: normal
+disag_head:
+  act: silu
+  dist: mse
+  fan: avg
+  inputs: [deter, stoch, action]
+  layers: 2
+  norm: layer
+  outscale: 1.0
+  units: 512
+  winit: normal
+disag_models: 8
+disag_target: [stoch]
+dyn_loss: {free: 1.0, impl: kl}
+encoder: {act: silu, cnn: resnet, cnn_blocks: 0, cnn_depth: 32, cnn_keys: image, fan: avg,
+  minres: 4, mlp_keys: $^, mlp_layers: 5, mlp_units: 1024, norm: layer, resize: stride,
+  symlog_inputs: true, winit: normal}
+env:
+  atari:
+    actions: needed
+    gray: false
+    lives: unused
+    noops: 30
+    repeat: 4
+    resize: opencv
+    size: [64, 64]
+    sticky: false
+  dmc:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  dmlab:
+    episodic: true
+    repeat: 4
+    size: [64, 64]
+  loconav:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  minecraft:
+    break_speed: 100.0
+    size: [64, 64]
+envs: {amount: 1, checks: false, discretize: 0, length: 0, parallel: process, reset: true,
+  restart: true}
+eval_dir: ''
+expl_behavior: None
+expl_opt: {clip: 100.0, eps: 1e-05, lr: 0.0001, opt: adam, warmup: 0, wd: 0.0}
+expl_rewards: {disag: 0.1, extr: 1.0}
+filter: .*
+grad_heads: [decoder, reward, cont]
+horizon: 333
+imag_horizon: 15
+imag_unroll: false
+jax:
+  debug: false
+  debug_nans: false
+  jit: true
+  logical_cpus: 0
+  metrics_every: 10
+  platform: gpu
+  policy_devices: [1]
+  prealloc: true
+  precision: float32
+  train_devices: [1]
+logdir: ./logdir/atari_alien
+loss_scales: {actor: 1.0, cont: 1.0, critic: 1.0, dyn: 0.5, image: 1.0, rep: 0.1,
+  reward: 1.0, slowreg: 1.0, vector: 1.0}
+method: name
+model_opt: {clip: 1000.0, eps: 1e-08, lateclip: 0.0, lr: 0.0001, opt: adam, warmup: 0,
+  wd: 0.0}
+rep_loss: {free: 1.0, impl: kl}
+replay: uniform
+replay_online: false
+replay_size: 1000000.0
+retnorm: {decay: 0.99, impl: perc_ema, max: 1.0, perchi: 95.0, perclo: 5.0}
+return_lambda: 0.95
+reward_head:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  units: 512
+  winit: normal
+rssm: {act: silu, action_clip: 1.0, classes: 32, deter: 512, fan: avg, initial: learned,
+  norm: layer, stoch: 32, unimix: 0.01, units: 512, unroll: false, winit: normal}
+run:
+  actor_addr: ipc:///tmp/5551
+  actor_batch: 32
+  eval_eps: 100
+  eval_every: 100000.0
+  eval_fill: 0
+  eval_initial: false
+  eval_samples: 1
+  expl_until: 0
+  from_checkpoint: ''
+  log_every: 300
+  log_keys_max: ^$
+  log_keys_mean: (log_entropy)
+  log_keys_sum: ^$
+  log_keys_video: [image]
+  log_zeros: false
+  save_every: 900
+  script: train_eval
+  steps: 150000.0
+  sync_every: 10
+  train_fill: 0
+  train_ratio: 1024.0
+seed: 0
+slow_critic_fraction: 0.02
+slow_critic_update: 1
+task: atari_alien
+task_behavior: Greedy
+wrapper: {checks: false, discretize: 0, length: 0, reset: true}
diff --git a/atari_alien/metrics.jsonl b/atari_alien/metrics.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..f4b49385029e60dfc65bd66432a3a1a3fbd26815
--- /dev/null
+++ b/atari_alien/metrics.jsonl
@@ -0,0 +1,424 @@
+{"step": 3576, "episode/length": 893.0, "episode/score": 230.0, "episode/reward_rate": 0.025727069351230425}
+{"step": 4400, "eval_episode/length": 584.0, "eval_episode/score": 140.0, "eval_episode/reward_rate": 0.023931623931623933}
+{"step": 4404, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.774658203125, "train/action_min": 0.0, "train/action_std": 5.131165504455566, "train/actor_opt_grad_norm": 0.00023522968695033342, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": 0.0005829840083606541, "train/adv_mag": 0.00489669619128108, "train/adv_max": 0.00489669619128108, "train/adv_mean": 0.001086220028810203, "train/adv_min": 0.00032651424407958984, "train/adv_std": 0.0008021215326152742, "train/cont_avg": 0.998046875, "train/cont_loss_mean": 1.0779386758804321, "train/cont_loss_std": 0.4459554851055145, "train/cont_neg_acc": 0.5, "train/cont_neg_loss": 0.6054971814155579, "train/cont_pos_acc": 0.1956947147846222, "train/cont_pos_loss": 1.0788631439208984, "train/cont_pred": 0.3719715476036072, "train/cont_rate": 0.998046875, "train/dyn_loss_mean": 6.944710731506348, "train/dyn_loss_std": 0.28463834524154663, "train/extr_critic_critic_opt_grad_norm": 3.3164138793945312, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 2.3355555534362793, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.004892514552921057, "train/extr_return_normed_max": 0.004892514552921057, "train/extr_return_normed_mean": 0.001082038157619536, "train/extr_return_normed_min": 0.0003223323728889227, "train/extr_return_normed_std": 0.0008021215326152742, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.00489669619128108, "train/extr_return_raw_max": 0.00489669619128108, "train/extr_return_raw_mean": 0.0010862199123948812, "train/extr_return_raw_min": 0.00032651424407958984, "train/extr_return_raw_std": 0.0008021215326152742, "train/extr_reward_mag": 0.0005451440811157227, "train/extr_reward_max": 0.0005451440811157227, "train/extr_reward_mean": 0.0004518818750511855, "train/extr_reward_min": 0.00031280517578125, "train/extr_reward_std": 2.939170917670708e-05, "train/image_loss_mean": 3139.067138671875, "train/image_loss_std": 28.973487854003906, "train/model_loss_mean": 3149.85302734375, "train/model_loss_std": 28.972471237182617, "train/model_opt_grad_norm": 8131.59619140625, "train/model_opt_grad_steps": 1.0, "train/model_opt_loss": 3149.85302734375, "train/policy_entropy_mag": 2.8299293518066406, "train/policy_entropy_max": 2.8299293518066406, "train/policy_entropy_mean": 2.613025665283203, "train/policy_entropy_min": 1.6746675968170166, "train/policy_entropy_std": 0.11196392774581909, "train/policy_logprob_mag": 5.513686180114746, "train/policy_logprob_max": -0.4727570116519928, "train/policy_logprob_mean": -2.607424736022949, "train/policy_logprob_min": -5.513686180114746, "train/policy_logprob_std": 0.7228037118911743, "train/policy_randomness_mag": 0.9790883660316467, "train/policy_randomness_max": 0.9790883660316467, "train/policy_randomness_mean": 0.9040449261665344, "train/policy_randomness_min": 0.5793952345848083, "train/policy_randomness_std": 0.03873686119914055, "train/post_ent_mag": 107.69086456298828, "train/post_ent_max": 107.69086456298828, "train/post_ent_mean": 107.5240249633789, "train/post_ent_min": 107.298095703125, "train/post_ent_std": 0.058662720024585724, "train/prior_ent_mag": 108.09215545654297, "train/prior_ent_max": 108.09215545654297, "train/prior_ent_mean": 107.39315795898438, "train/prior_ent_min": 106.6469497680664, "train/prior_ent_std": 0.22554409503936768, "train/rep_loss_mean": 6.944710731506348, "train/rep_loss_std": 0.28463834524154663, "train/reward_avg": 0.234375, "train/reward_loss_mean": 5.541262626647949, "train/reward_loss_std": 9.5367431640625e-07, "train/reward_max_data": 10.0, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 1.0, "train/reward_neg_loss": 5.541263103485107, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541263580322266, "train/reward_pred": 0.0, "train/reward_rate": 0.0234375, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.669625997543335, "report/cont_loss_std": 0.33079326152801514, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.025729775428772, "report/cont_pos_acc": 0.6095890402793884, "report/cont_pos_loss": 0.6689291000366211, "report/cont_pred": 0.5380421876907349, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 6.99945068359375, "report/dyn_loss_std": 0.27662450075149536, "report/image_loss_mean": 2913.12353515625, "report/image_loss_std": 33.10042190551758, "report/model_loss_mean": 2923.50830078125, "report/model_loss_std": 33.10249710083008, "report/post_ent_mag": 107.28093719482422, "report/post_ent_max": 107.28093719482422, "report/post_ent_mean": 107.0368881225586, "report/post_ent_min": 106.82513427734375, "report/post_ent_std": 0.06876911222934723, "report/prior_ent_mag": 108.14480590820312, "report/prior_ent_max": 108.14480590820312, "report/prior_ent_mean": 107.52953338623047, "report/prior_ent_min": 106.87399291992188, "report/prior_ent_std": 0.20926335453987122, "report/rep_loss_mean": 6.99945068359375, "report/rep_loss_std": 0.27662450075149536, "report/reward_avg": 0.234375, "report/reward_loss_mean": 5.515634059906006, "report/reward_loss_std": 0.0019261565757915378, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.0005353689193725586, "report/reward_neg_acc": 1.0, "report/reward_neg_loss": 5.515595436096191, "report/reward_pos_acc": 0.0, "report/reward_pos_loss": 5.517234802246094, "report/reward_pred": 0.0004480100469663739, "report/reward_rate": 0.0234375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.6242222189903259, "eval/cont_loss_std": 0.3160099983215332, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.8964177370071411, "eval/cont_pos_acc": 0.6487279534339905, "eval/cont_pos_loss": 0.623689591884613, "eval/cont_pred": 0.5607786774635315, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 7.036160469055176, "eval/dyn_loss_std": 0.2603740692138672, "eval/image_loss_mean": 2912.28955078125, "eval/image_loss_std": 31.79776382446289, "eval/model_loss_mean": 2922.6513671875, "eval/model_loss_std": 31.81120491027832, "eval/post_ent_mag": 107.22616577148438, "eval/post_ent_max": 107.22616577148438, "eval/post_ent_mean": 107.02330017089844, "eval/post_ent_min": 106.82512664794922, "eval/post_ent_std": 0.06407413631677628, "eval/prior_ent_mag": 108.19294738769531, "eval/prior_ent_max": 108.19294738769531, "eval/prior_ent_mean": 107.53121185302734, "eval/prior_ent_min": 106.94190216064453, "eval/prior_ent_std": 0.21503739058971405, "eval/rep_loss_mean": 7.036160469055176, "eval/rep_loss_std": 0.2603740692138672, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 5.515802383422852, "eval/reward_loss_std": 0.0019170553423464298, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.0005409717559814453, "eval/reward_neg_acc": 1.0, "eval/reward_neg_loss": 5.515746593475342, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 5.517715930938721, "eval/reward_pred": 0.000444982317276299, "eval/reward_rate": 0.0283203125, "replay/size": 1038.0, "replay/inserts": 1038.0, "replay/samples": 112.0, "replay/insert_wait_avg": 3.3178770473237672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4219965253557478e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 1037.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": 3.1139259743023746e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 83.35576128959656, "timer/env.step_count": 1101.0, "timer/env.step_total": 2.8468594551086426, "timer/env.step_frac": 0.03415312164468172, "timer/env.step_avg": 0.002585703410634553, "timer/env.step_min": 0.002031564712524414, "timer/env.step_max": 0.025745630264282227, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 21.88000178337097, "timer/replay._sample_frac": 0.26248937619746465, "timer/replay._sample_avg": 0.19535715878009796, "timer/replay._sample_min": 0.0019528865814208984, "timer/replay._sample_max": 0.7805824279785156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.26010680198669434, "timer/agent.save_frac": 0.003120441802253178, "timer/agent.save_avg": 0.26010680198669434, "timer/agent.save_min": 0.26010680198669434, "timer/agent.save_max": 0.26010680198669434, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.04057502746582, "timer/agent.policy_frac": 0.12045448175540761, "timer/agent.policy_avg": 10.04057502746582, "timer/agent.policy_min": 10.04057502746582, "timer/agent.policy_max": 10.04057502746582, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 7.939338684082031e-05, "timer/dataset_train_frac": 9.524643001578491e-07, "timer/dataset_train_avg": 7.939338684082031e-05, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 7.939338684082031e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.90243744850159, "timer/agent.train_frac": 0.6706487540109437, "timer/agent.train_avg": 55.90243744850159, "timer/agent.train_min": 55.90243744850159, "timer/agent.train_max": 55.90243744850159, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.038744449615479, "timer/agent.report_frac": 0.13242929197496514, "timer/agent.report_avg": 5.519372224807739, "timer/agent.report_min": 0.09692835807800293, "timer/agent.report_max": 10.941816091537476, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001437664031982422, "timer/dataset_eval_frac": 1.7247326516371862e-06, "timer/dataset_eval_avg": 0.0001437664031982422, "timer/dataset_eval_min": 0.0001437664031982422, "timer/dataset_eval_max": 0.0001437664031982422}
+{"step": 6916, "episode/length": 834.0, "episode/score": 280.0, "episode/reward_rate": 0.033532934131736525}
+{"step": 9508, "episode/length": 647.0, "episode/score": 330.0, "episode/reward_rate": 0.04938271604938271}
+{"step": 10328, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.974074492583403, "train/action_min": 0.0, "train/action_std": 3.550770746695029, "train/actor_opt_grad_norm": 0.08777950673892691, "train/actor_opt_grad_steps": 745.0, "train/actor_opt_loss": 0.7068321338376483, "train/adv_mag": 0.8275832375763236, "train/adv_max": 0.8275832375763236, "train/adv_mean": 0.4891213961449024, "train/adv_min": 0.07604287852646431, "train/adv_std": 0.22719701141672763, "train/cont_avg": 0.9991817989864865, "train/cont_loss_mean": 0.006742297504191614, "train/cont_loss_std": 0.1530164799441991, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 7.105414325540716, "train/cont_pos_acc": 0.9999999995972659, "train/cont_pos_loss": 0.0009137496564673367, "train/cont_pred": 0.999086777503426, "train/cont_rate": 0.9991817989864865, "train/dyn_loss_mean": 1.1356215476989746, "train/dyn_loss_std": 0.009232839757336896, "train/extr_critic_critic_opt_grad_norm": 6.546030785586383, "train/extr_critic_critic_opt_grad_steps": 745.0, "train/extr_critic_critic_opt_loss": 3.7794293809581445, "train/extr_critic_mag": 0.7971002507854152, "train/extr_critic_max": 0.7971002507854152, "train/extr_critic_mean": 0.7959324929128884, "train/extr_critic_min": 0.7829737848526722, "train/extr_critic_std": 0.0005642894403425433, "train/extr_return_normed_mag": 0.85707420010019, "train/extr_return_normed_max": 0.85707420010019, "train/extr_return_normed_mean": 0.5306645966311162, "train/extr_return_normed_min": 0.1180750616492603, "train/extr_return_normed_std": 0.22710127286562645, "train/extr_return_rate": 0.8766988788706225, "train/extr_return_raw_mag": 1.61146345241247, "train/extr_return_raw_max": 1.61146345241247, "train/extr_return_raw_mean": 1.285053878846402, "train/extr_return_raw_min": 0.8724643156605747, "train/extr_return_raw_std": 0.22710127268943028, "train/extr_reward_mag": 0.07987681272867564, "train/extr_reward_max": 0.07987681272867564, "train/extr_reward_mean": 0.07968979372919814, "train/extr_reward_min": 0.07953225116471986, "train/extr_reward_std": 2.7201895130240922e-05, "train/image_loss_mean": 31.227449968054486, "train/image_loss_std": 4.837647695799132, "train/model_loss_mean": 32.2734700731329, "train/model_loss_std": 4.903988986401944, "train/model_opt_grad_norm": 107.65114337044793, "train/model_opt_grad_steps": 745.0, "train/model_opt_loss": 32.2734700731329, "train/policy_entropy_mag": 2.074810024048831, "train/policy_entropy_max": 2.074810024048831, "train/policy_entropy_mean": 1.4968354295234423, "train/policy_entropy_min": 1.2064487456872657, "train/policy_entropy_std": 0.07375353446381318, "train/policy_logprob_mag": 6.292485440099561, "train/policy_logprob_max": -0.42379432194236966, "train/policy_logprob_mean": -1.496411149566238, "train/policy_logprob_min": -6.292485440099561, "train/policy_logprob_std": 1.2938924693577998, "train/policy_randomness_mag": 0.7178350197705062, "train/policy_randomness_max": 0.7178350197705062, "train/policy_randomness_mean": 0.5178695286850672, "train/policy_randomness_min": 0.4174026287085301, "train/policy_randomness_std": 0.02551697225410592, "train/post_ent_mag": 44.22825899639645, "train/post_ent_max": 44.22825899639645, "train/post_ent_mean": 43.426644428356276, "train/post_ent_min": 43.3527861285854, "train/post_ent_std": 0.12368968866664816, "train/prior_ent_mag": 54.80440606297673, "train/prior_ent_max": 54.80440606297673, "train/prior_ent_mean": 53.75842478468611, "train/prior_ent_min": 53.48448637369517, "train/prior_ent_std": 0.15355841616621693, "train/rep_loss_mean": 1.1356215476989746, "train/rep_loss_std": 0.009232839757336896, "train/reward_avg": 0.33605627111486486, "train/reward_loss_mean": 0.3579048239500136, "train/reward_loss_std": 0.6812133387272322, "train/reward_max_data": 11.756756756756756, "train/reward_max_pred": 0.07988337648881448, "train/reward_neg_acc": 0.9597969365029319, "train/reward_neg_loss": 0.23027597677365347, "train/reward_pos_acc": 0.040433290036948955, "train/reward_pos_loss": 4.015072858011401, "train/reward_pred": 0.07958220102748759, "train/reward_rate": 0.033361486486486486, "train_stats/mean_log_entropy": 1.4906699061393738, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.007711964659392834, "report/cont_loss_std": 0.21122384071350098, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 6.76357364654541, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0011079945834353566, "report/cont_pred": 0.9988925457000732, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.0, "report/dyn_loss_std": 0.0, "report/image_loss_mean": 9.204349517822266, "report/image_loss_std": 4.592426776885986, "report/model_loss_mean": 9.941368103027344, "report/model_loss_std": 4.643309593200684, "report/post_ent_mag": 23.053897857666016, "report/post_ent_max": 23.053897857666016, "report/post_ent_mean": 22.250003814697266, "report/post_ent_min": 22.18073081970215, "report/post_ent_std": 0.12035991996526718, "report/prior_ent_mag": 34.9520263671875, "report/prior_ent_max": 34.9520263671875, "report/prior_ent_mean": 34.28243637084961, "report/prior_ent_min": 33.98238754272461, "report/prior_ent_std": 0.10076544433832169, "report/rep_loss_mean": 1.0, "report/rep_loss_std": 0.0, "report/reward_avg": 0.234375, "report/reward_loss_mean": 0.1293061524629593, "report/reward_loss_std": 0.5685247778892517, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.09706950187683105, "report/reward_neg_acc": 1.0, "report/reward_neg_loss": 0.04123067855834961, "report/reward_pos_acc": 0.0, "report/reward_pos_loss": 3.7991178035736084, "report/reward_pred": 0.09699273109436035, "report/reward_rate": 0.0234375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.021070018410682678, "eval/cont_loss_std": 0.3682604432106018, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.81472110748291, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0011082622222602367, "eval/cont_pred": 0.9988924264907837, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 1.0, "eval/dyn_loss_std": 0.0, "eval/image_loss_mean": 8.077221870422363, "eval/image_loss_std": 3.3977773189544678, "eval/model_loss_mean": 8.875303268432617, "eval/model_loss_std": 3.467212677001953, "eval/post_ent_mag": 23.061798095703125, "eval/post_ent_max": 23.061798095703125, "eval/post_ent_mean": 22.247486114501953, "eval/post_ent_min": 22.175434112548828, "eval/post_ent_std": 0.12666413187980652, "eval/prior_ent_mag": 34.9520263671875, "eval/prior_ent_max": 34.9520263671875, "eval/prior_ent_mean": 34.27796936035156, "eval/prior_ent_min": 34.024147033691406, "eval/prior_ent_std": 0.10911408066749573, "eval/rep_loss_mean": 1.0, "eval/rep_loss_std": 0.0, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.177011638879776, "eval/reward_loss_std": 0.7012878060340881, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.09710609912872314, "eval/reward_neg_acc": 0.9999999403953552, "eval/reward_neg_loss": 0.04123077541589737, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 3.799057960510254, "eval/reward_pred": 0.09699314832687378, "eval/reward_rate": 0.0361328125, "replay/size": 2519.0, "replay/inserts": 1481.0, "replay/samples": 23696.0, "replay/insert_wait_avg": 4.868343180695713e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2107570778269127e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.34014797210693, "timer/env.step_count": 1481.0, "timer/env.step_total": 6.6253342628479, "timer/env.step_frac": 0.022898081407930287, "timer/env.step_avg": 0.004473554532645443, "timer/env.step_min": 0.0027620792388916016, "timer/env.step_max": 0.025195837020874023, "timer/replay._sample_count": 23696.0, "timer/replay._sample_total": 335.5512878894806, "timer/replay._sample_frac": 1.1597121596890472, "timer/replay._sample_avg": 0.014160672176294757, "timer/replay._sample_min": 0.0068166255950927734, "timer/replay._sample_max": 0.04661393165588379, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1481.0, "timer/agent.policy_total": 105.23445224761963, "timer/agent.policy_frac": 0.3637049783280144, "timer/agent.policy_avg": 0.07105634858043189, "timer/agent.policy_min": 0.0029201507568359375, "timer/agent.policy_max": 0.08150029182434082, "timer/dataset_train_count": 1481.0, "timer/dataset_train_total": 0.13869762420654297, "timer/dataset_train_frac": 0.0004793583786371525, "timer/dataset_train_avg": 9.365133302264886e-05, "timer/dataset_train_min": 5.507469177246094e-05, "timer/dataset_train_max": 0.0002665519714355469, "timer/agent.train_count": 1481.0, "timer/agent.train_total": 176.15707993507385, "timer/agent.train_frac": 0.6088234943187207, "timer/agent.train_avg": 0.11894468597911806, "timer/agent.train_min": 0.1063392162322998, "timer/agent.train_max": 0.2086482048034668, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2626779079437256, "timer/agent.report_frac": 0.0009078515711862025, "timer/agent.report_avg": 0.1313389539718628, "timer/agent.report_min": 0.09886693954467773, "timer/agent.report_max": 0.16381096839904785, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.512901306152344e-05, "timer/dataset_eval_frac": 3.287791678004329e-07, "timer/dataset_eval_avg": 9.512901306152344e-05, "timer/dataset_eval_min": 9.512901306152344e-05, "timer/dataset_eval_max": 9.512901306152344e-05, "fps": 20.47287643206596}
+{"step": 12280, "episode/length": 692.0, "episode/score": 240.0, "episode/reward_rate": 0.03463203463203463}
+{"step": 14844, "episode/length": 640.0, "episode/score": 160.0, "episode/reward_rate": 0.0249609984399376}
+{"step": 16464, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.70376168045343, "train/action_min": 0.0, "train/action_std": 2.3469727265289406, "train/actor_opt_grad_norm": 0.05440404592994966, "train/actor_opt_grad_steps": 2250.0, "train/actor_opt_loss": 0.4198443051549344, "train/adv_mag": 1.1555578272327098, "train/adv_max": 1.1555578272327098, "train/adv_mean": 0.512144554284663, "train/adv_min": 0.06637745355468949, "train/adv_std": 0.24041096476557988, "train/cont_avg": 0.9988957822712419, "train/cont_loss_mean": 0.008668943961893567, "train/cont_loss_std": 0.1811479682762177, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 6.79272716613043, "train/cont_pos_acc": 0.9999999984417086, "train/cont_pos_loss": 0.0011795439861647882, "train/cont_pred": 0.9988211716701781, "train/cont_rate": 0.9988957822712419, "train/dyn_loss_mean": 1.0289244137558282, "train/dyn_loss_std": 0.10527724775338178, "train/extr_critic_critic_opt_grad_norm": 2.6088559565201304, "train/extr_critic_critic_opt_grad_steps": 2250.0, "train/extr_critic_critic_opt_loss": 2.008146323409735, "train/extr_critic_mag": 3.0272386603885226, "train/extr_critic_max": 3.0272386603885226, "train/extr_critic_mean": 3.0158972623301485, "train/extr_critic_min": 2.740008806091508, "train/extr_critic_std": 0.009298558868133019, "train/extr_return_normed_mag": 0.9670239414264953, "train/extr_return_normed_max": 0.9670239414264953, "train/extr_return_normed_mean": 0.573294698218115, "train/extr_return_normed_min": 0.1331366705738641, "train/extr_return_normed_std": 0.23861372616945528, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 3.921770931069368, "train/extr_return_raw_max": 3.921770931069368, "train/extr_return_raw_mean": 3.5280418318081526, "train/extr_return_raw_min": 3.0878836602167365, "train/extr_return_raw_std": 0.23861372694860097, "train/extr_reward_mag": 0.09723991272496242, "train/extr_reward_max": 0.09723991272496242, "train/extr_reward_mean": 0.08950922643047532, "train/extr_reward_min": 0.08392040012708676, "train/extr_reward_std": 0.0030958327206343965, "train/image_loss_mean": 9.159168455335829, "train/image_loss_std": 3.97313862532572, "train/model_loss_mean": 9.96424328423793, "train/model_loss_std": 4.033193649030199, "train/model_opt_grad_norm": 33.43828023025413, "train/model_opt_grad_steps": 2250.0, "train/model_opt_loss": 9.96424328423793, "train/policy_entropy_mag": 1.1978117165222666, "train/policy_entropy_max": 1.1978117165222666, "train/policy_entropy_mean": 0.8528334806168002, "train/policy_entropy_min": 0.735753221352116, "train/policy_entropy_std": 0.029969864999692813, "train/policy_logprob_mag": 7.10612415176591, "train/policy_logprob_max": -0.2663140233021741, "train/policy_logprob_mean": -0.8525336724675558, "train/policy_logprob_min": -7.10612415176591, "train/policy_logprob_std": 1.1930465678763544, "train/policy_randomness_mag": 0.4144144212595778, "train/policy_randomness_max": 0.4144144212595778, "train/policy_randomness_mean": 0.2950601450417166, "train/policy_randomness_min": 0.2545531505073597, "train/policy_randomness_std": 0.010368861909347032, "train/post_ent_mag": 26.112372890796536, "train/post_ent_max": 26.112372890796536, "train/post_ent_mean": 24.193275289597853, "train/post_ent_min": 23.166002435621873, "train/post_ent_std": 0.5392699971600295, "train/prior_ent_mag": 32.66424078099868, "train/prior_ent_max": 32.66424078099868, "train/prior_ent_mean": 31.706566530115463, "train/prior_ent_min": 31.199229770236546, "train/prior_ent_std": 0.26576144959217585, "train/rep_loss_mean": 1.0289244137558282, "train/rep_loss_std": 0.10527724775338178, "train/reward_avg": 0.3689236111111111, "train/reward_loss_mean": 0.17905099648568365, "train/reward_loss_std": 0.7248081748002495, "train/reward_max_data": 13.006535947712418, "train/reward_max_pred": 0.09720436965717989, "train/reward_neg_acc": 0.8949912281880411, "train/reward_neg_loss": 0.036759985136050805, "train/reward_pos_acc": 0.13127335294886353, "train/reward_pos_loss": 3.9292186709011303, "train/reward_pred": 0.08815625012894861, "train/reward_rate": 0.03655407475490196, "train_stats/mean_log_entropy": 0.929101288318634, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.007668094709515572, "report/cont_loss_std": 0.1958571970462799, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 6.272005558013916, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0015445976750925183, "report/cont_pred": 0.9984564781188965, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.0860544443130493, "report/dyn_loss_std": 0.3831992745399475, "report/image_loss_mean": 8.875422477722168, "report/image_loss_std": 4.3572001457214355, "report/model_loss_mean": 9.717841148376465, "report/model_loss_std": 4.410150051116943, "report/post_ent_mag": 45.2117919921875, "report/post_ent_max": 45.2117919921875, "report/post_ent_mean": 36.59878158569336, "report/post_ent_min": 29.60562515258789, "report/post_ent_std": 3.2930073738098145, "report/prior_ent_mag": 41.83104705810547, "report/prior_ent_max": 41.83104705810547, "report/prior_ent_mean": 39.17939758300781, "report/prior_ent_min": 36.332786560058594, "report/prior_ent_std": 1.4139734506607056, "report/rep_loss_mean": 1.0860544443130493, "report/rep_loss_std": 0.3831992745399475, "report/reward_avg": 0.380859375, "report/reward_loss_mean": 0.18311800062656403, "report/reward_loss_std": 0.7764397859573364, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.13084042072296143, "report/reward_neg_acc": 0.7817258834838867, "report/reward_neg_loss": 0.029221046715974808, "report/reward_pos_acc": 0.3589743673801422, "report/reward_pos_loss": 4.070002555847168, "report/reward_pred": 0.07087094336748123, "report/reward_rate": 0.0380859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.015062102116644382, "eval/cont_loss_std": 0.3148413300514221, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.131998062133789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.001134633319452405, "eval/cont_pred": 0.9988667368888855, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 1.1411209106445312, "eval/dyn_loss_std": 0.5234812498092651, "eval/image_loss_mean": 7.592652797698975, "eval/image_loss_std": 3.0965282917022705, "eval/model_loss_mean": 8.43246841430664, "eval/model_loss_std": 3.1947202682495117, "eval/post_ent_mag": 40.42888641357422, "eval/post_ent_max": 40.42888641357422, "eval/post_ent_mean": 33.06422424316406, "eval/post_ent_min": 29.54732894897461, "eval/post_ent_std": 1.7374218702316284, "eval/prior_ent_mag": 40.7099723815918, "eval/prior_ent_max": 40.7099723815918, "eval/prior_ent_mean": 38.224998474121094, "eval/prior_ent_min": 36.40638732910156, "eval/prior_ent_std": 1.1909334659576416, "eval/rep_loss_mean": 1.1411209106445312, "eval/rep_loss_std": 0.5234812498092651, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.14008021354675293, "eval/reward_loss_std": 0.6423521041870117, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.13080132007598877, "eval/reward_neg_acc": 0.6138415336608887, "eval/reward_neg_loss": 0.03468615189194679, "eval/reward_pos_acc": 0.37037038803100586, "eval/reward_pos_loss": 4.031853199005127, "eval/reward_pred": 0.08403842151165009, "eval/reward_rate": 0.0263671875, "replay/size": 4053.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.985652659986911e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507650034679429e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1008207798004, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.8743414878845215, "timer/env.step_frac": 0.022906773363770914, "timer/env.step_avg": 0.004481317788712204, "timer/env.step_min": 0.0026290416717529297, "timer/env.step_max": 0.033402442932128906, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 364.9906575679779, "timer/replay._sample_frac": 1.2162267887823957, "timer/replay._sample_avg": 0.014870870989568852, "timer/replay._sample_min": 0.000438690185546875, "timer/replay._sample_max": 0.04068493843078613, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.41702365875244, "timer/agent.policy_frac": 0.3646008810453651, "timer/agent.policy_avg": 0.07132791633556222, "timer/agent.policy_min": 0.0030372142791748047, "timer/agent.policy_max": 0.10021233558654785, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.15217900276184082, "timer/dataset_train_frac": 0.0005070929241926415, "timer/dataset_train_avg": 9.920404352140861e-05, "timer/dataset_train_min": 5.650520324707031e-05, "timer/dataset_train_max": 0.0003211498260498047, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.39173817634583, "timer/agent.train_frac": 0.6077682083721329, "timer/agent.train_avg": 0.11889943818536233, "timer/agent.train_min": 0.1056373119354248, "timer/agent.train_max": 0.2020578384399414, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25834059715270996, "timer/agent.report_frac": 0.000860846019952301, "timer/agent.report_avg": 0.12917029857635498, "timer/agent.report_min": 0.09814858436584473, "timer/agent.report_max": 0.16019201278686523, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.936622619628906e-05, "timer/dataset_eval_frac": 1.9782093911648828e-07, "timer/dataset_eval_avg": 5.936622619628906e-05, "timer/dataset_eval_min": 5.936622619628906e-05, "timer/dataset_eval_max": 5.936622619628906e-05, "fps": 20.445032458867612}
+{"step": 17240, "episode/length": 598.0, "episode/score": 260.0, "episode/reward_rate": 0.041736227045075125}
+{"step": 19892, "episode/length": 662.0, "episode/score": 230.0, "episode/reward_rate": 0.03469079939668175}
+{"step": 22088, "episode/length": 548.0, "episode/score": 290.0, "episode/reward_rate": 0.052823315118397086}
+{"step": 22568, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.701210171568627, "train/action_min": 0.0, "train/action_std": 1.3337496955410328, "train/actor_opt_grad_norm": 0.027725700803368895, "train/actor_opt_grad_steps": 3780.0, "train/actor_opt_loss": 0.07409195139931113, "train/adv_mag": 2.0915275855002062, "train/adv_max": 2.0915275855002062, "train/adv_mean": 0.2544328850797481, "train/adv_min": -0.21954393912764156, "train/adv_std": 0.3158716797049529, "train/cont_avg": 0.9987808925653595, "train/cont_loss_mean": 0.00668272707523155, "train/cont_loss_std": 0.13161946178953776, "train/cont_neg_acc": 0.0075075075970039715, "train/cont_neg_loss": 4.434280659164394, "train/cont_pos_acc": 0.9999999984417086, "train/cont_pos_loss": 0.0012456409010803708, "train/cont_pred": 0.9987135443812102, "train/cont_rate": 0.9987808925653595, "train/dyn_loss_mean": 1.4971865937600728, "train/dyn_loss_std": 1.0300422577686559, "train/extr_critic_critic_opt_grad_norm": 2.227423994759329, "train/extr_critic_critic_opt_grad_steps": 3780.0, "train/extr_critic_critic_opt_loss": 1.8892313234167162, "train/extr_critic_mag": 6.454183768602758, "train/extr_critic_max": 6.454183768602758, "train/extr_critic_mean": 4.862339752172333, "train/extr_critic_min": 3.4152068328234106, "train/extr_critic_std": 0.880441177234638, "train/extr_return_normed_mag": 2.2157764707515444, "train/extr_return_normed_max": 2.2157764707515444, "train/extr_return_normed_mean": 0.34755083748133353, "train/extr_return_normed_min": -0.1439512279630316, "train/extr_return_normed_std": 0.3707248958107693, "train/extr_return_rate": 0.9999446865000756, "train/extr_return_raw_mag": 13.78971139122458, "train/extr_return_raw_max": 13.78971139122458, "train/extr_return_raw_mean": 5.534787857454587, "train/extr_return_raw_min": 3.4209300115996717, "train/extr_return_raw_std": 1.7287603406345142, "train/extr_reward_mag": 1.3131953462276584, "train/extr_reward_max": 1.3131953462276584, "train/extr_reward_mean": 0.11768147516143478, "train/extr_reward_min": 0.011530229468750798, "train/extr_reward_std": 0.16054362931526175, "train/image_loss_mean": 7.998434490627712, "train/image_loss_std": 4.34728113498563, "train/model_loss_mean": 9.047455379386353, "train/model_loss_std": 4.433203695646299, "train/model_opt_grad_norm": 31.274582407832924, "train/model_opt_grad_steps": 3780.0, "train/model_opt_loss": 9.047455379386353, "train/policy_entropy_mag": 0.9288097507034252, "train/policy_entropy_max": 0.9288097507034252, "train/policy_entropy_mean": 0.28912652191383387, "train/policy_entropy_min": 0.11939741627258413, "train/policy_entropy_std": 0.17052130756315356, "train/policy_logprob_mag": 7.475682152642144, "train/policy_logprob_max": -0.01712004441670538, "train/policy_logprob_mean": -0.2892850538094838, "train/policy_logprob_min": -7.475682152642144, "train/policy_logprob_std": 0.9484966062252818, "train/policy_randomness_mag": 0.3213461271785443, "train/policy_randomness_max": 0.3213461271785443, "train/policy_randomness_mean": 0.10003091387596785, "train/policy_randomness_min": 0.04130867183257162, "train/policy_randomness_std": 0.058996324672430656, "train/post_ent_mag": 36.589446846955745, "train/post_ent_max": 36.589446846955745, "train/post_ent_mean": 29.61310937669542, "train/post_ent_min": 23.59723941329258, "train/post_ent_std": 2.433292783942877, "train/prior_ent_mag": 37.775421042847476, "train/prior_ent_max": 37.775421042847476, "train/prior_ent_mean": 31.856539695091495, "train/prior_ent_min": 27.76695467132369, "train/prior_ent_std": 2.0933975846159694, "train/rep_loss_mean": 1.4971865937600728, "train/rep_loss_std": 1.0300422577686559, "train/reward_avg": 0.3446691176470588, "train/reward_loss_mean": 0.14402606284696293, "train/reward_loss_std": 0.601956696681727, "train/reward_max_data": 13.071895424836601, "train/reward_max_pred": 0.9956631263097128, "train/reward_neg_acc": 0.7566740664781308, "train/reward_neg_loss": 0.03326692563037272, "train/reward_pos_acc": 0.6897265244445769, "train/reward_pos_loss": 3.3061492224923925, "train/reward_pred": 0.09058225412968716, "train/reward_rate": 0.03407118055555555, "train_stats/mean_log_entropy": 0.38602380951245624, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.004655384458601475, "report/cont_loss_std": 0.13431991636753082, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 4.300254821777344, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0004563623806461692, "report/cont_pred": 0.9995331764221191, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.929817795753479, "report/dyn_loss_std": 1.5770069360733032, "report/image_loss_mean": 7.722095012664795, "report/image_loss_std": 4.378147125244141, "report/model_loss_mean": 8.987430572509766, "report/model_loss_std": 4.5675177574157715, "report/post_ent_mag": 28.768001556396484, "report/post_ent_max": 28.768001556396484, "report/post_ent_mean": 24.079927444458008, "report/post_ent_min": 20.26486587524414, "report/post_ent_std": 1.4746592044830322, "report/prior_ent_mag": 32.316619873046875, "report/prior_ent_max": 32.316619873046875, "report/prior_ent_mean": 25.862051010131836, "report/prior_ent_min": 22.316268920898438, "report/prior_ent_std": 1.390908122062683, "report/rep_loss_mean": 1.929817795753479, "report/rep_loss_std": 1.5770069360733032, "report/reward_avg": 0.3125, "report/reward_loss_mean": 0.10278940945863724, "report/reward_loss_std": 0.3992276191711426, "report/reward_max_data": 10.0, "report/reward_max_pred": 2.9363012313842773, "report/reward_neg_acc": 0.7913306355476379, "report/reward_neg_loss": 0.03632386773824692, "report/reward_pos_acc": 0.9375, "report/reward_pos_loss": 2.1632211208343506, "report/reward_pred": 0.12112478911876678, "report/reward_rate": 0.03125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.00021671890863217413, "eval/cont_loss_std": 0.0009354932699352503, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00021671890863217413, "eval/cont_pred": 0.9997837543487549, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 2.7755868434906006, "eval/dyn_loss_std": 2.20796537399292, "eval/image_loss_mean": 6.268123149871826, "eval/image_loss_std": 3.1667370796203613, "eval/model_loss_mean": 8.07354736328125, "eval/model_loss_std": 3.6203153133392334, "eval/post_ent_mag": 27.084697723388672, "eval/post_ent_max": 27.084697723388672, "eval/post_ent_mean": 23.731204986572266, "eval/post_ent_min": 19.746959686279297, "eval/post_ent_std": 1.2280237674713135, "eval/prior_ent_mag": 32.316619873046875, "eval/prior_ent_max": 32.316619873046875, "eval/prior_ent_mean": 25.273767471313477, "eval/prior_ent_min": 22.58542251586914, "eval/prior_ent_std": 1.2371755838394165, "eval/rep_loss_mean": 2.7755868434906006, "eval/rep_loss_std": 2.20796537399292, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.1398550570011139, "eval/reward_loss_std": 0.6141143441200256, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 1.3038008213043213, "eval/reward_neg_acc": 0.608608603477478, "eval/reward_neg_loss": 0.045837026089429855, "eval/reward_pos_acc": 0.47999998927116394, "eval/reward_pos_loss": 3.896815061569214, "eval/reward_pred": 0.11593158543109894, "eval/reward_rate": 0.0244140625, "replay/size": 5579.0, "replay/inserts": 1526.0, "replay/samples": 24416.0, "replay/insert_wait_avg": 5.311765958253553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3277168980119738e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.6971101760864258e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1484467983246, "timer/env.step_count": 1526.0, "timer/env.step_total": 6.712982892990112, "timer/env.step_frac": 0.02236554266596186, "timer/env.step_avg": 0.0043990713584469935, "timer/env.step_min": 0.0026488304138183594, "timer/env.step_max": 0.03392601013183594, "timer/replay._sample_count": 24416.0, "timer/replay._sample_total": 394.99904680252075, "timer/replay._sample_frac": 1.3160122966350982, "timer/replay._sample_avg": 0.016177877080706126, "timer/replay._sample_min": 0.007998943328857422, "timer/replay._sample_max": 0.07984757423400879, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2530848979949951, "timer/agent.save_frac": 0.0008431990926311461, "timer/agent.save_avg": 0.2530848979949951, "timer/agent.save_min": 0.2530848979949951, "timer/agent.save_max": 0.2530848979949951, "timer/agent.policy_count": 1526.0, "timer/agent.policy_total": 108.6048424243927, "timer/agent.policy_frac": 0.3618370962198127, "timer/agent.policy_avg": 0.07116962151008696, "timer/agent.policy_min": 0.0032825469970703125, "timer/agent.policy_max": 0.2634100914001465, "timer/dataset_train_count": 1526.0, "timer/dataset_train_total": 0.17224526405334473, "timer/dataset_train_frac": 0.000573866917822432, "timer/dataset_train_avg": 0.00011287369859327963, "timer/dataset_train_min": 6.723403930664062e-05, "timer/dataset_train_max": 0.0003299713134765625, "timer/agent.train_count": 1526.0, "timer/agent.train_total": 183.29386353492737, "timer/agent.train_frac": 0.6106773681160709, "timer/agent.train_avg": 0.12011393416443471, "timer/agent.train_min": 0.10658693313598633, "timer/agent.train_max": 0.33338165283203125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25443077087402344, "timer/agent.report_frac": 0.0008476831167644864, "timer/agent.report_avg": 0.12721538543701172, "timer/agent.report_min": 0.09639835357666016, "timer/agent.report_max": 0.15803241729736328, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.817413330078125e-05, "timer/dataset_eval_frac": 1.9381787219398657e-07, "timer/dataset_eval_avg": 5.817413330078125e-05, "timer/dataset_eval_min": 5.817413330078125e-05, "timer/dataset_eval_max": 5.817413330078125e-05, "fps": 20.335362417732544}
+{"step": 24648, "episode/length": 639.0, "episode/score": 170.0, "episode/reward_rate": 0.0265625}
+{"step": 27388, "episode/length": 684.0, "episode/score": 210.0, "episode/reward_rate": 0.030656934306569343}
+{"step": 28704, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 7.700770159952001, "train/action_min": 0.0, "train/action_std": 4.313539212046106, "train/actor_opt_grad_norm": 0.018668745154380995, "train/actor_opt_grad_steps": 5310.0, "train/actor_opt_loss": 0.021340603304565033, "train/adv_mag": 1.189054890785342, "train/adv_max": 1.189054890785342, "train/adv_mean": 0.050597632711668034, "train/adv_min": -0.5079435914560081, "train/adv_std": 0.1338002009719026, "train/cont_avg": 0.9987872753267973, "train/cont_loss_mean": 0.0031745098337101763, "train/cont_loss_std": 0.057261290709801765, "train/cont_neg_acc": 0.21399371157277305, "train/cont_neg_loss": 1.7493210128104348, "train/cont_pos_acc": 0.9998528073036593, "train/cont_pos_loss": 0.0010293097596516068, "train/cont_pred": 0.9987581185266083, "train/cont_rate": 0.9987872753267973, "train/dyn_loss_mean": 2.076711199642007, "train/dyn_loss_std": 1.7572921654757332, "train/extr_critic_critic_opt_grad_norm": 1.2510064661113265, "train/extr_critic_critic_opt_grad_steps": 5310.0, "train/extr_critic_critic_opt_loss": 2.1958165963490806, "train/extr_critic_mag": 16.006511582268608, "train/extr_critic_max": 16.006511582268608, "train/extr_critic_mean": 8.122138406716141, "train/extr_critic_min": 2.1311217227013284, "train/extr_critic_std": 4.4778013151455545, "train/extr_return_normed_mag": 1.9466912021823959, "train/extr_return_normed_max": 1.9466912021823959, "train/extr_return_normed_mean": 0.39369827177789474, "train/extr_return_normed_min": -0.09701241919576051, "train/extr_return_normed_std": 0.34509219920713136, "train/extr_return_rate": 0.998355401886834, "train/extr_return_raw_mag": 34.458877226885626, "train/extr_return_raw_max": 34.458877226885626, "train/extr_return_raw_mean": 8.918496350057763, "train/extr_return_raw_min": 0.948131600236581, "train/extr_return_raw_std": 5.5993155046226155, "train/extr_reward_mag": 7.231966386433521, "train/extr_reward_max": 7.231966386433521, "train/extr_reward_mean": 0.1414049671220234, "train/extr_reward_min": -4.854077607198478e-07, "train/extr_reward_std": 0.5471255547470517, "train/image_loss_mean": 6.363115684658873, "train/image_loss_std": 3.9854453731985653, "train/model_loss_mean": 7.695431391398112, "train/model_loss_std": 4.290108520221087, "train/model_opt_grad_norm": 30.36446149988112, "train/model_opt_grad_steps": 5310.0, "train/model_opt_loss": 7.695431391398112, "train/policy_entropy_mag": 2.1929010480057958, "train/policy_entropy_max": 2.1929010480057958, "train/policy_entropy_mean": 0.742452840399898, "train/policy_entropy_min": 0.08146258818557839, "train/policy_entropy_std": 0.4563337648226545, "train/policy_logprob_mag": 7.49062055076649, "train/policy_logprob_max": -0.009665447055952611, "train/policy_logprob_mean": -0.7428492757619596, "train/policy_logprob_min": -7.49062055076649, "train/policy_logprob_std": 1.2433102489296908, "train/policy_randomness_mag": 0.7586917086364398, "train/policy_randomness_max": 0.7586917086364398, "train/policy_randomness_mean": 0.2568710603647762, "train/policy_randomness_min": 0.028184121815499917, "train/policy_randomness_std": 0.15788065018801908, "train/post_ent_mag": 29.992160996580434, "train/post_ent_max": 29.992160996580434, "train/post_ent_mean": 23.451198203890932, "train/post_ent_min": 18.17130886651332, "train/post_ent_std": 1.570705586788701, "train/prior_ent_mag": 35.41815377528371, "train/prior_ent_max": 35.41815377528371, "train/prior_ent_mean": 25.77649863249336, "train/prior_ent_min": 21.881366941663956, "train/prior_ent_std": 1.7710361005434023, "train/rep_loss_mean": 2.076711199642007, "train/rep_loss_std": 1.7572921654757332, "train/reward_avg": 0.36113664215686275, "train/reward_loss_mean": 0.08311446116981554, "train/reward_loss_std": 0.37308018474407445, "train/reward_max_data": 12.61437908496732, "train/reward_max_pred": 7.6015138018365, "train/reward_neg_acc": 0.8950229968899995, "train/reward_neg_loss": 0.02399542243706878, "train/reward_pos_acc": 0.9422083859350167, "train/reward_pos_loss": 1.6907103069467482, "train/reward_pred": 0.18194421131188185, "train/reward_rate": 0.03580090890522876, "train_stats/mean_log_entropy": 0.5578241646289825, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.007514533121138811, "report/cont_loss_std": 0.10309688001871109, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.8767497539520264, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0020221679005771875, "report/cont_pred": 0.9976844787597656, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.205735921859741, "report/dyn_loss_std": 2.060116767883301, "report/image_loss_mean": 5.42465353012085, "report/image_loss_std": 3.300367832183838, "report/model_loss_mean": 6.801392555236816, "report/model_loss_std": 3.6581690311431885, "report/post_ent_mag": 29.803333282470703, "report/post_ent_max": 29.803333282470703, "report/post_ent_mean": 23.640647888183594, "report/post_ent_min": 18.925901412963867, "report/post_ent_std": 1.4953689575195312, "report/prior_ent_mag": 40.64753723144531, "report/prior_ent_max": 40.64753723144531, "report/prior_ent_mean": 26.212684631347656, "report/prior_ent_min": 22.402982711791992, "report/prior_ent_std": 2.0960381031036377, "report/rep_loss_mean": 2.205735921859741, "report/rep_loss_std": 2.060116767883301, "report/reward_avg": 0.29296875, "report/reward_loss_mean": 0.045782677829265594, "report/reward_loss_std": 0.256172239780426, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.728787422180176, "report/reward_neg_acc": 0.9647886753082275, "report/reward_neg_loss": 0.016872689127922058, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 1.0036671161651611, "report/reward_pred": 0.22078779339790344, "report/reward_rate": 0.029296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012159444391727448, "eval/cont_loss_std": 0.2727149724960327, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.174436569213867, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00010019475303124636, "eval/cont_pred": 0.9998962879180908, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 4.863759994506836, "eval/dyn_loss_std": 2.8200061321258545, "eval/image_loss_mean": 6.885096073150635, "eval/image_loss_std": 3.857713460922241, "eval/model_loss_mean": 10.007978439331055, "eval/model_loss_std": 4.914661884307861, "eval/post_ent_mag": 32.321712493896484, "eval/post_ent_max": 32.321712493896484, "eval/post_ent_mean": 23.806989669799805, "eval/post_ent_min": 19.52996063232422, "eval/post_ent_std": 1.419463872909546, "eval/prior_ent_mag": 37.53651809692383, "eval/prior_ent_max": 37.53651809692383, "eval/prior_ent_mean": 26.325096130371094, "eval/prior_ent_min": 22.791950225830078, "eval/prior_ent_std": 1.7311474084854126, "eval/rep_loss_mean": 4.863759994506836, "eval/rep_loss_std": 2.8200061321258545, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.19246727228164673, "eval/reward_loss_std": 1.1969313621520996, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.302460670471191, "eval/reward_neg_acc": 0.9334676861763, "eval/reward_neg_loss": 0.023891642689704895, "eval/reward_pos_acc": 0.5, "eval/reward_pos_loss": 5.418312072753906, "eval/reward_pred": 0.11947024613618851, "eval/reward_rate": 0.03125, "replay/size": 7113.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.0414494460999886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318082810691625e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3709068298339844e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.091769695282, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.643466949462891, "timer/env.step_frac": 0.022138117803793066, "timer/env.step_avg": 0.004330812874486891, "timer/env.step_min": 0.002495288848876953, "timer/env.step_max": 0.030823945999145508, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 397.07916927337646, "timer/replay._sample_frac": 1.3231924676793938, "timer/replay._sample_avg": 0.016178258200512406, "timer/replay._sample_min": 0.007482290267944336, "timer/replay._sample_max": 0.04867672920227051, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.64613485336304, "timer/agent.policy_frac": 0.36537534822997475, "timer/agent.policy_avg": 0.07147727174273992, "timer/agent.policy_min": 0.003109455108642578, "timer/agent.policy_max": 0.08866667747497559, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.17138242721557617, "timer/dataset_train_frac": 0.0005711000584574533, "timer/dataset_train_avg": 0.00011172257315226608, "timer/dataset_train_min": 7.510185241699219e-05, "timer/dataset_train_max": 0.0002982616424560547, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.3182418346405, "timer/agent.train_frac": 0.6075416264157107, "timer/agent.train_avg": 0.1188515266197135, "timer/agent.train_min": 0.1063077449798584, "timer/agent.train_max": 0.20526933670043945, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2646818161010742, "timer/agent.report_frac": 0.0008820029165406183, "timer/agent.report_avg": 0.1323409080505371, "timer/agent.report_min": 0.10150456428527832, "timer/agent.report_max": 0.1631772518157959, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.8590962213464113e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "fps": 20.44566765735093}
+{"step": 29548, "episode/length": 539.0, "episode/score": 300.0, "episode/reward_rate": 0.05555555555555555}
+{"step": 31828, "episode/length": 569.0, "episode/score": 380.0, "episode/reward_rate": 0.06666666666666667}
+{"step": 34828, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.427084530101103, "train/action_min": 0.0, "train/action_std": 3.034689650816076, "train/actor_opt_grad_norm": 0.014755485926334765, "train/actor_opt_grad_steps": 6840.0, "train/actor_opt_loss": 0.015240894677345733, "train/adv_mag": 1.0025801214517331, "train/adv_max": 1.0025801214517331, "train/adv_mean": 0.03361597603941762, "train/adv_min": -0.45416759275922586, "train/adv_std": 0.1092532447301874, "train/cont_avg": 0.9985064338235294, "train/cont_loss_mean": 0.002710005505719725, "train/cont_loss_std": 0.04933057371632529, "train/cont_neg_acc": 0.5314049605003073, "train/cont_neg_loss": 1.1377710360891287, "train/cont_pos_acc": 0.9997440393454109, "train/cont_pos_loss": 0.001055559695196042, "train/cont_pred": 0.9984060993381575, "train/cont_rate": 0.9985064338235294, "train/dyn_loss_mean": 2.378326942718107, "train/dyn_loss_std": 2.5481979917077457, "train/extr_critic_critic_opt_grad_norm": 1.3124354357033774, "train/extr_critic_critic_opt_grad_steps": 6840.0, "train/extr_critic_critic_opt_loss": 2.25154777679568, "train/extr_critic_mag": 28.776469810336245, "train/extr_critic_max": 28.776469810336245, "train/extr_critic_mean": 13.150396730385575, "train/extr_critic_min": 1.6673199273402395, "train/extr_critic_std": 7.900210604948156, "train/extr_return_normed_mag": 1.8632635376811806, "train/extr_return_normed_max": 1.8632635376811806, "train/extr_return_normed_mean": 0.38429274083742126, "train/extr_return_normed_min": -0.11977288361602262, "train/extr_return_normed_std": 0.3382602253186157, "train/extr_return_rate": 0.989884216411441, "train/extr_return_raw_mag": 53.528690363067426, "train/extr_return_raw_max": 53.528690363067426, "train/extr_return_raw_mean": 14.041424314960155, "train/extr_return_raw_min": 0.47140319440879075, "train/extr_return_raw_std": 9.086186455745324, "train/extr_reward_mag": 9.889544000812606, "train/extr_reward_max": 9.889544000812606, "train/extr_reward_mean": 0.17037663170519998, "train/extr_reward_min": -3.506155575022978e-05, "train/extr_reward_std": 0.9428406416201124, "train/image_loss_mean": 4.686544228223414, "train/image_loss_std": 2.5249726117825975, "train/model_loss_mean": 6.1623235185161915, "train/model_loss_std": 3.314944949804568, "train/model_opt_grad_norm": 26.644280047198528, "train/model_opt_grad_steps": 6840.0, "train/model_opt_loss": 6.1623235185161915, "train/policy_entropy_mag": 2.3659905288733687, "train/policy_entropy_max": 2.3659905288733687, "train/policy_entropy_mean": 0.8434977948276046, "train/policy_entropy_min": 0.0810367753303129, "train/policy_entropy_std": 0.541785891928704, "train/policy_logprob_mag": 7.49311386993508, "train/policy_logprob_max": -0.009604046717773075, "train/policy_logprob_mean": -0.8431615603515525, "train/policy_logprob_min": -7.49311386993508, "train/policy_logprob_std": 1.3162263616237766, "train/policy_randomness_mag": 0.8185765610800849, "train/policy_randomness_max": 0.8185765610800849, "train/policy_randomness_mean": 0.2918302112934636, "train/policy_randomness_min": 0.028036800706211257, "train/policy_randomness_std": 0.18744505800647673, "train/post_ent_mag": 33.387930153242124, "train/post_ent_max": 33.387930153242124, "train/post_ent_mean": 25.560012804916482, "train/post_ent_min": 19.723002128351748, "train/post_ent_std": 1.7810069805656383, "train/prior_ent_mag": 44.68648795832216, "train/prior_ent_max": 44.68648795832216, "train/prior_ent_mean": 28.108387616724748, "train/prior_ent_min": 22.987417744655236, "train/prior_ent_std": 2.8954964011323217, "train/rep_loss_mean": 2.378326942718107, "train/rep_loss_std": 2.5481979917077457, "train/reward_avg": 0.37141288807189543, "train/reward_loss_mean": 0.04607314348610398, "train/reward_loss_std": 0.2662607678303532, "train/reward_max_data": 12.745098039215685, "train/reward_max_pred": 11.353840553682614, "train/reward_neg_acc": 0.9677910629440757, "train/reward_neg_loss": 0.010025792169305527, "train/reward_pos_acc": 0.9681521763209424, "train/reward_pos_loss": 0.9904612758580376, "train/reward_pred": 0.29037722638424707, "train/reward_rate": 0.036841299019607844, "train_stats/mean_log_entropy": 0.9536025822162628, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0017302562482655048, "report/cont_loss_std": 0.05426706746220589, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.7371551990509033, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.384851152077317e-05, "report/cont_pred": 0.9997948408126831, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.433002471923828, "report/dyn_loss_std": 2.564033269882202, "report/image_loss_mean": 3.954016923904419, "report/image_loss_std": 2.422482490539551, "report/model_loss_mean": 5.46442985534668, "report/model_loss_std": 3.156567335128784, "report/post_ent_mag": 35.48396301269531, "report/post_ent_max": 35.48396301269531, "report/post_ent_mean": 27.187705993652344, "report/post_ent_min": 21.220218658447266, "report/post_ent_std": 2.2611634731292725, "report/prior_ent_mag": 47.321903228759766, "report/prior_ent_max": 47.321903228759766, "report/prior_ent_mean": 29.956485748291016, "report/prior_ent_min": 23.794044494628906, "report/prior_ent_std": 3.3764827251434326, "report/rep_loss_mean": 2.433002471923828, "report/rep_loss_std": 2.564033269882202, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.048881590366363525, "report/reward_loss_std": 0.18951472640037537, "report/reward_max_data": 20.0, "report/reward_max_pred": 12.082677841186523, "report/reward_neg_acc": 0.9595436453819275, "report/reward_neg_loss": 0.009898468852043152, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6752104759216309, "report/reward_pred": 0.5388016700744629, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007079059258103371, "eval/cont_loss_std": 0.22606143355369568, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.23751163482666, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1186291885678656e-05, "eval/cont_pred": 0.9999881386756897, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.56859016418457, "eval/dyn_loss_std": 4.798324108123779, "eval/image_loss_mean": 6.260041236877441, "eval/image_loss_std": 3.3004539012908936, "eval/model_loss_mean": 11.640676498413086, "eval/model_loss_std": 5.350505828857422, "eval/post_ent_mag": 35.249969482421875, "eval/post_ent_max": 35.249969482421875, "eval/post_ent_mean": 26.659929275512695, "eval/post_ent_min": 21.285106658935547, "eval/post_ent_std": 1.977934718132019, "eval/prior_ent_mag": 47.321903228759766, "eval/prior_ent_max": 47.321903228759766, "eval/prior_ent_mean": 29.70205307006836, "eval/prior_ent_min": 24.777637481689453, "eval/prior_ent_std": 2.979393720626831, "eval/rep_loss_mean": 8.56859016418457, "eval/rep_loss_std": 4.798324108123779, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.23240166902542114, "eval/reward_loss_std": 1.3545844554901123, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.925931930541992, "eval/reward_neg_acc": 0.9395161271095276, "eval/reward_neg_loss": 0.03489042818546295, "eval/reward_pos_acc": 0.34375, "eval/reward_pos_loss": 6.355249881744385, "eval/reward_pred": 0.13605527579784393, "eval/reward_rate": 0.03125, "replay/size": 8644.0, "replay/inserts": 1531.0, "replay/samples": 24496.0, "replay/insert_wait_avg": 5.095866207668471e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3407541208996017e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1331613063812, "timer/env.step_count": 1531.0, "timer/env.step_total": 6.583082914352417, "timer/env.step_frac": 0.02193387390349809, "timer/env.step_avg": 0.004299858206631232, "timer/env.step_min": 0.00247955322265625, "timer/env.step_max": 0.027735233306884766, "timer/replay._sample_count": 24496.0, "timer/replay._sample_total": 396.58697986602783, "timer/replay._sample_frac": 1.3213700816658005, "timer/replay._sample_avg": 0.016189866911578536, "timer/replay._sample_min": 0.003057241439819336, "timer/replay._sample_max": 0.033264875411987305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1531.0, "timer/agent.policy_total": 109.69309878349304, "timer/agent.policy_frac": 0.3654814359933936, "timer/agent.policy_avg": 0.07164800704343112, "timer/agent.policy_min": 0.0030257701873779297, "timer/agent.policy_max": 0.08663821220397949, "timer/dataset_train_count": 1531.0, "timer/dataset_train_total": 0.16657447814941406, "timer/dataset_train_frac": 0.0005550019112329007, "timer/dataset_train_avg": 0.0001088010961132685, "timer/dataset_train_min": 7.128715515136719e-05, "timer/dataset_train_max": 0.0002818107604980469, "timer/agent.train_count": 1531.0, "timer/agent.train_total": 182.40239357948303, "timer/agent.train_frac": 0.6077382212133615, "timer/agent.train_avg": 0.11913938182853236, "timer/agent.train_min": 0.10625720024108887, "timer/agent.train_max": 0.4885709285736084, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2593555450439453, "timer/agent.report_frac": 0.0008641349190307918, "timer/agent.report_avg": 0.12967777252197266, "timer/agent.report_min": 0.10054254531860352, "timer/agent.report_max": 0.1588129997253418, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.103515625e-05, "timer/dataset_eval_frac": 2.0336025510921213e-07, "timer/dataset_eval_avg": 6.103515625e-05, "timer/dataset_eval_min": 6.103515625e-05, "timer/dataset_eval_max": 6.103515625e-05, "fps": 20.402842116276116}
+{"step": 35608, "episode/length": 944.0, "episode/score": 440.0, "episode/reward_rate": 0.04656084656084656}
+{"step": 38336, "episode/length": 681.0, "episode/score": 450.0, "episode/reward_rate": 0.06451612903225806}
+{"step": 40336, "episode/length": 499.0, "episode/score": 310.0, "episode/reward_rate": 0.062}
+{"step": 40944, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.35888751659518, "train/action_min": 0.0, "train/action_std": 3.315700381409888, "train/actor_opt_grad_norm": 0.01270630521687612, "train/actor_opt_grad_steps": 8370.0, "train/actor_opt_loss": 0.01089077890531793, "train/adv_mag": 0.8558291859096951, "train/adv_max": 0.8554669774435704, "train/adv_mean": 0.019557829775841407, "train/adv_min": -0.3346438722478019, "train/adv_std": 0.07891326748272952, "train/cont_avg": 0.9983404820261438, "train/cont_loss_mean": 0.0025918567649937567, "train/cont_loss_std": 0.04819004666389411, "train/cont_neg_acc": 0.5390710399531927, "train/cont_neg_loss": 1.009865050646858, "train/cont_pos_acc": 0.999699191719878, "train/cont_pos_loss": 0.0009633662784954794, "train/cont_pred": 0.9983464109352211, "train/cont_rate": 0.9983404820261438, "train/dyn_loss_mean": 2.5185677303987393, "train/dyn_loss_std": 3.00105986563988, "train/extr_critic_critic_opt_grad_norm": 1.4682906484292224, "train/extr_critic_critic_opt_grad_steps": 8370.0, "train/extr_critic_critic_opt_loss": 2.166940977370817, "train/extr_critic_mag": 47.11473799063489, "train/extr_critic_max": 47.11473799063489, "train/extr_critic_mean": 18.912141774994097, "train/extr_critic_min": 1.002731140142952, "train/extr_critic_std": 12.760934274960187, "train/extr_return_normed_mag": 1.600543614306481, "train/extr_return_normed_max": 1.600543614306481, "train/extr_return_normed_mean": 0.39134036734992383, "train/extr_return_normed_min": -0.0605939799718851, "train/extr_return_normed_std": 0.32113204467919915, "train/extr_return_rate": 0.9844478076579524, "train/extr_return_raw_mag": 72.07432374143912, "train/extr_return_raw_max": 72.07432374143912, "train/extr_return_raw_mean": 19.7351579977796, "train/extr_return_raw_min": 0.2534940367430643, "train/extr_return_raw_std": 13.896147952360266, "train/extr_reward_mag": 9.980721049838596, "train/extr_reward_max": 9.980721049838596, "train/extr_reward_mean": 0.2101735639708494, "train/extr_reward_min": -2.2641973557815052e-05, "train/extr_reward_std": 1.119168374663085, "train/image_loss_mean": 3.7550662015777787, "train/image_loss_std": 2.0036151588352675, "train/model_loss_mean": 5.312374049541997, "train/model_loss_std": 3.196612239663118, "train/model_opt_grad_norm": 24.185205484527387, "train/model_opt_grad_steps": 8370.0, "train/model_opt_loss": 5.312374049541997, "train/policy_entropy_mag": 2.575871230730044, "train/policy_entropy_max": 2.575871230730044, "train/policy_entropy_mean": 0.9670658532310935, "train/policy_entropy_min": 0.08239688436969433, "train/policy_entropy_std": 0.6604266474449557, "train/policy_logprob_mag": 7.491723309934529, "train/policy_logprob_max": -0.009791882459098606, "train/policy_logprob_mean": -0.9663172379817838, "train/policy_logprob_min": -7.491723309934529, "train/policy_logprob_std": 1.344508067455167, "train/policy_randomness_mag": 0.8911903036965264, "train/policy_randomness_max": 0.8911903036965264, "train/policy_randomness_mean": 0.33458183355191173, "train/policy_randomness_min": 0.028507366155584652, "train/policy_randomness_std": 0.22849194598353767, "train/post_ent_mag": 37.31475720374413, "train/post_ent_max": 37.31475720374413, "train/post_ent_mean": 28.808423671847077, "train/post_ent_min": 21.500543556961357, "train/post_ent_std": 2.285342161172356, "train/prior_ent_mag": 48.21126940359477, "train/prior_ent_max": 48.21126940359477, "train/prior_ent_mean": 31.486276115467344, "train/prior_ent_min": 24.841033661287593, "train/prior_ent_std": 3.473934814041736, "train/rep_loss_mean": 2.5185677303987393, "train/rep_loss_std": 3.00105986563988, "train/reward_avg": 0.40951797385620914, "train/reward_loss_mean": 0.04357535768835957, "train/reward_loss_std": 0.2429291241698795, "train/reward_max_data": 12.418300653594772, "train/reward_max_pred": 11.003078298631058, "train/reward_neg_acc": 0.9702666947265076, "train/reward_neg_loss": 0.009225105501565278, "train/reward_pos_acc": 0.9770067271843456, "train/reward_pos_loss": 0.8714600696283228, "train/reward_pred": 0.3454861409621301, "train/reward_rate": 0.04070286968954248, "train_stats/mean_log_entropy": 0.9073665340741476, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0018694187747314572, "report/cont_loss_std": 0.05322647839784622, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.7019977569580078, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00020751437114086002, "report/cont_pred": 0.999618411064148, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.585631847381592, "report/dyn_loss_std": 3.1848464012145996, "report/image_loss_mean": 3.695148468017578, "report/image_loss_std": 1.8538248538970947, "report/model_loss_mean": 5.29304838180542, "report/model_loss_std": 3.1841840744018555, "report/post_ent_mag": 40.209861755371094, "report/post_ent_max": 40.209861755371094, "report/post_ent_mean": 30.271427154541016, "report/post_ent_min": 23.023597717285156, "report/post_ent_std": 2.554011106491089, "report/prior_ent_mag": 49.29344940185547, "report/prior_ent_max": 49.29344940185547, "report/prior_ent_mean": 33.076438903808594, "report/prior_ent_min": 25.780946731567383, "report/prior_ent_std": 3.6920502185821533, "report/rep_loss_mean": 2.585631847381592, "report/rep_loss_std": 3.1848464012145996, "report/reward_avg": 0.458984375, "report/reward_loss_mean": 0.04465150833129883, "report/reward_loss_std": 0.17707568407058716, "report/reward_max_data": 20.0, "report/reward_max_pred": 9.981002807617188, "report/reward_neg_acc": 0.9529651999473572, "report/reward_neg_loss": 0.01266077533364296, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7248022556304932, "report/reward_pred": 0.37725552916526794, "report/reward_rate": 0.044921875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.263400220836047e-06, "eval/cont_loss_std": 6.510281673399732e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.263400220836047e-06, "eval/cont_pred": 0.9999927878379822, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.355552673339844, "eval/dyn_loss_std": 5.548715591430664, "eval/image_loss_mean": 6.046655654907227, "eval/image_loss_std": 3.1679513454437256, "eval/model_loss_mean": 11.979019165039062, "eval/model_loss_std": 5.77953577041626, "eval/post_ent_mag": 35.7993049621582, "eval/post_ent_max": 35.7993049621582, "eval/post_ent_mean": 29.092208862304688, "eval/post_ent_min": 21.353931427001953, "eval/post_ent_std": 2.064974308013916, "eval/prior_ent_mag": 49.29344940185547, "eval/prior_ent_max": 49.29344940185547, "eval/prior_ent_mean": 33.021156311035156, "eval/prior_ent_min": 27.0117130279541, "eval/prior_ent_std": 2.969972610473633, "eval/rep_loss_mean": 9.355552673339844, "eval/rep_loss_std": 5.548715591430664, "eval/reward_avg": 0.37109375, "eval/reward_loss_mean": 0.31902527809143066, "eval/reward_loss_std": 1.6692020893096924, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.987173080444336, "eval/reward_neg_acc": 0.9279918670654297, "eval/reward_neg_loss": 0.04413542523980141, "eval/reward_pos_acc": 0.2368421107530594, "eval/reward_pos_loss": 7.451694011688232, "eval/reward_pred": 0.15585026144981384, "eval/reward_rate": 0.037109375, "replay/size": 10173.0, "replay/inserts": 1529.0, "replay/samples": 24464.0, "replay/insert_wait_avg": 5.16490424825445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3343799808120478e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0124309062958, "timer/env.step_count": 1529.0, "timer/env.step_total": 6.546615362167358, "timer/env.step_frac": 0.02182114701844502, "timer/env.step_avg": 0.004281632022346212, "timer/env.step_min": 0.0025784969329833984, "timer/env.step_max": 0.032036781311035156, "timer/replay._sample_count": 24464.0, "timer/replay._sample_total": 397.6348886489868, "timer/replay._sample_frac": 1.3253947093051683, "timer/replay._sample_avg": 0.01625387870540332, "timer/replay._sample_min": 0.001972198486328125, "timer/replay._sample_max": 0.08078932762145996, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11594104766845703, "timer/agent.save_frac": 0.0003864541456439497, "timer/agent.save_avg": 0.11594104766845703, "timer/agent.save_min": 0.11594104766845703, "timer/agent.save_max": 0.11594104766845703, "timer/agent.policy_count": 1529.0, "timer/agent.policy_total": 109.43866777420044, "timer/agent.policy_frac": 0.36478044407560534, "timer/agent.policy_avg": 0.07157532228528479, "timer/agent.policy_min": 0.003125429153442383, "timer/agent.policy_max": 0.14097356796264648, "timer/dataset_train_count": 1529.0, "timer/dataset_train_total": 0.17187905311584473, "timer/dataset_train_frac": 0.0005729064378986632, "timer/dataset_train_avg": 0.00011241272277033664, "timer/dataset_train_min": 7.319450378417969e-05, "timer/dataset_train_max": 0.00040030479431152344, "timer/agent.train_count": 1529.0, "timer/agent.train_total": 182.5467185974121, "timer/agent.train_frac": 0.6084638494677167, "timer/agent.train_avg": 0.11938961320955664, "timer/agent.train_min": 0.10671544075012207, "timer/agent.train_max": 0.3231985569000244, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25535011291503906, "timer/agent.report_frac": 0.0008511317752523185, "timer/agent.report_avg": 0.12767505645751953, "timer/agent.report_min": 0.09785795211791992, "timer/agent.report_max": 0.15749216079711914, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.128715515136719e-05, "timer/dataset_eval_frac": 2.3761400464646954e-07, "timer/dataset_eval_avg": 7.128715515136719e-05, "timer/dataset_eval_min": 7.128715515136719e-05, "timer/dataset_eval_max": 7.128715515136719e-05, "fps": 20.384389003470474}
+{"step": 42400, "episode/length": 515.0, "episode/score": 280.0, "episode/reward_rate": 0.05426356589147287}
+{"step": 44412, "episode/length": 502.0, "episode/score": 380.0, "episode/reward_rate": 0.07554671968190854}
+{"step": 46680, "episode/length": 566.0, "episode/score": 410.0, "episode/reward_rate": 0.07054673721340388}
+{"step": 47072, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.395806605519812, "train/action_min": 0.0, "train/action_std": 3.872429292965559, "train/actor_opt_grad_norm": 0.01161494113054443, "train/actor_opt_grad_steps": 9900.0, "train/actor_opt_loss": 0.00684678859418936, "train/adv_mag": 1.0897974426450292, "train/adv_max": 1.0897974426450292, "train/adv_mean": 0.010786098424646565, "train/adv_min": -0.32184700395157134, "train/adv_std": 0.06097794294941659, "train/cont_avg": 0.9984043096405228, "train/cont_loss_mean": 0.002436849769956811, "train/cont_loss_std": 0.046068700267509116, "train/cont_neg_acc": 0.536772488601624, "train/cont_neg_loss": 0.9109408664554062, "train/cont_pos_acc": 0.9996865196944842, "train/cont_pos_loss": 0.0009236087825618692, "train/cont_pred": 0.9984336740830365, "train/cont_rate": 0.9984043096405228, "train/dyn_loss_mean": 2.652892659692203, "train/dyn_loss_std": 3.462718153311536, "train/extr_critic_critic_opt_grad_norm": 1.4209033605320003, "train/extr_critic_critic_opt_grad_steps": 9900.0, "train/extr_critic_critic_opt_loss": 1.972316336787604, "train/extr_critic_mag": 65.79087542864232, "train/extr_critic_max": 65.79087542864232, "train/extr_critic_mean": 22.4894074084712, "train/extr_critic_min": 0.6057134952420503, "train/extr_critic_std": 16.70562815822028, "train/extr_return_normed_mag": 1.543004277095296, "train/extr_return_normed_max": 1.543004277095296, "train/extr_return_normed_mean": 0.373831177166864, "train/extr_return_normed_min": -0.02732181201728511, "train/extr_return_normed_std": 0.3068156462479261, "train/extr_return_rate": 0.9770765698034, "train/extr_return_raw_mag": 89.9268890330994, "train/extr_return_raw_max": 89.9268890330994, "train/extr_return_raw_mean": 23.107510342317468, "train/extr_return_raw_min": 0.16486532995903413, "train/extr_return_raw_std": 17.556023840810738, "train/extr_reward_mag": 10.168392505521089, "train/extr_reward_max": 10.168392505521089, "train/extr_reward_mean": 0.2233994363569746, "train/extr_reward_min": -1.687162062701057e-05, "train/extr_reward_std": 1.174682612512626, "train/image_loss_mean": 3.2367339336794188, "train/image_loss_std": 1.7201973932241303, "train/model_loss_mean": 4.878422051473381, "train/model_loss_std": 3.2859504939683903, "train/model_opt_grad_norm": 20.722033668966855, "train/model_opt_grad_steps": 9900.0, "train/model_opt_loss": 4.878422051473381, "train/policy_entropy_mag": 2.560730839087293, "train/policy_entropy_max": 2.560730839087293, "train/policy_entropy_mean": 1.1067894385531059, "train/policy_entropy_min": 0.08183519191601697, "train/policy_entropy_std": 0.6767543955566058, "train/policy_logprob_mag": 7.492795283498328, "train/policy_logprob_max": -0.009714839322602047, "train/policy_logprob_mean": -1.1061665579384448, "train/policy_logprob_min": -7.492795283498328, "train/policy_logprob_std": 1.3444001261704888, "train/policy_randomness_mag": 0.885952085451363, "train/policy_randomness_max": 0.885952085451363, "train/policy_randomness_mean": 0.3829228774784437, "train/policy_randomness_min": 0.02831303395233513, "train/policy_randomness_std": 0.23414095612912397, "train/post_ent_mag": 39.26600916245405, "train/post_ent_max": 39.26600916245405, "train/post_ent_mean": 30.89847675647611, "train/post_ent_min": 22.088960186328762, "train/post_ent_std": 2.4892805214800866, "train/prior_ent_mag": 51.99799808178073, "train/prior_ent_max": 51.99799808178073, "train/prior_ent_mean": 33.67960092133167, "train/prior_ent_min": 26.04331667283002, "train/prior_ent_std": 3.8000498752967986, "train/rep_loss_mean": 2.652892659692203, "train/rep_loss_std": 3.462718153311536, "train/reward_avg": 0.4365808823529412, "train/reward_loss_mean": 0.04751566652622488, "train/reward_loss_std": 0.2573719433222721, "train/reward_max_data": 12.61437908496732, "train/reward_max_pred": 11.231187483843636, "train/reward_neg_acc": 0.9678485997362074, "train/reward_neg_loss": 0.009900924384447873, "train/reward_pos_acc": 0.9746356329886742, "train/reward_pos_loss": 0.8839828890133528, "train/reward_pred": 0.36586497616923713, "train/reward_rate": 0.04335171568627451, "train_stats/mean_log_entropy": 1.0210338632265727, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.005145450122654438, "report/cont_loss_std": 0.05382666736841202, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.26816222071647644, "report/cont_pos_acc": 0.9980372786521912, "report/cont_pos_loss": 0.0038548866286873817, "report/cont_pred": 0.9932457804679871, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.829652786254883, "report/dyn_loss_std": 3.3792269229888916, "report/image_loss_mean": 2.426933765411377, "report/image_loss_std": 1.5075048208236694, "report/model_loss_mean": 4.230649948120117, "report/model_loss_std": 3.104057550430298, "report/post_ent_mag": 40.358131408691406, "report/post_ent_max": 40.358131408691406, "report/post_ent_mean": 32.488807678222656, "report/post_ent_min": 23.36539649963379, "report/post_ent_std": 2.4285266399383545, "report/prior_ent_mag": 53.17580032348633, "report/prior_ent_max": 53.17580032348633, "report/prior_ent_mean": 35.46947479248047, "report/prior_ent_min": 25.51725959777832, "report/prior_ent_std": 3.9110565185546875, "report/rep_loss_mean": 2.829652786254883, "report/rep_loss_std": 3.3792269229888916, "report/reward_avg": 0.78125, "report/reward_loss_mean": 0.10077886283397675, "report/reward_loss_std": 0.540152907371521, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.655759811401367, "report/reward_neg_acc": 0.9534391760826111, "report/reward_neg_loss": 0.014623553492128849, "report/reward_pos_acc": 0.9113924503326416, "report/reward_pos_loss": 1.131371021270752, "report/reward_pred": 0.6465662121772766, "report/reward_rate": 0.0771484375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.401592013891786e-05, "eval/cont_loss_std": 0.0007402434712275863, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.401592013891786e-05, "eval/cont_pred": 0.9999562501907349, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.113382339477539, "eval/dyn_loss_std": 5.268896102905273, "eval/image_loss_mean": 5.227411270141602, "eval/image_loss_std": 3.0686542987823486, "eval/model_loss_mean": 11.046924591064453, "eval/model_loss_std": 5.827293872833252, "eval/post_ent_mag": 42.20296096801758, "eval/post_ent_max": 42.20296096801758, "eval/post_ent_mean": 30.91229820251465, "eval/post_ent_min": 23.050416946411133, "eval/post_ent_std": 2.552793264389038, "eval/prior_ent_mag": 53.17580032348633, "eval/prior_ent_max": 53.17580032348633, "eval/prior_ent_mean": 34.75000762939453, "eval/prior_ent_min": 28.29346466064453, "eval/prior_ent_std": 3.2766077518463135, "eval/rep_loss_mean": 9.113382339477539, "eval/rep_loss_std": 5.268896102905273, "eval/reward_avg": 0.400390625, "eval/reward_loss_mean": 0.35144057869911194, "eval/reward_loss_std": 1.9355090856552124, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.952348709106445, "eval/reward_neg_acc": 0.9471006989479065, "eval/reward_neg_loss": 0.019008830189704895, "eval/reward_pos_acc": 0.2682926654815674, "eval/reward_pos_loss": 8.321693420410156, "eval/reward_pred": 0.08914764970541, "eval/reward_rate": 0.0400390625, "replay/size": 11705.0, "replay/inserts": 1532.0, "replay/samples": 24512.0, "replay/insert_wait_avg": 5.04289532454767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323878687293349e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0018548965454, "timer/env.step_count": 1532.0, "timer/env.step_total": 6.539660215377808, "timer/env.step_frac": 0.021798732603280024, "timer/env.step_avg": 0.004268707712387603, "timer/env.step_min": 0.0027260780334472656, "timer/env.step_max": 0.027539730072021484, "timer/replay._sample_count": 24512.0, "timer/replay._sample_total": 397.36271715164185, "timer/replay._sample_frac": 1.3245342009257608, "timer/replay._sample_avg": 0.01621094635899322, "timer/replay._sample_min": 0.006556510925292969, "timer/replay._sample_max": 0.03868246078491211, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1532.0, "timer/agent.policy_total": 109.70482158660889, "timer/agent.policy_frac": 0.3656804776238474, "timer/agent.policy_avg": 0.07160889137507108, "timer/agent.policy_min": 0.003170013427734375, "timer/agent.policy_max": 0.08572030067443848, "timer/dataset_train_count": 1532.0, "timer/dataset_train_total": 0.1663963794708252, "timer/dataset_train_frac": 0.0005546511688342941, "timer/dataset_train_avg": 0.00010861382471985979, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.0005924701690673828, "timer/agent.train_count": 1532.0, "timer/agent.train_total": 182.3057713508606, "timer/agent.train_frac": 0.6076821472111501, "timer/agent.train_avg": 0.11899854526818576, "timer/agent.train_min": 0.10666251182556152, "timer/agent.train_max": 0.20221614837646484, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25875306129455566, "timer/agent.report_frac": 0.0008625048714574974, "timer/agent.report_avg": 0.12937653064727783, "timer/agent.report_min": 0.09892082214355469, "timer/agent.report_max": 0.15983223915100098, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001049041748046875, "timer/dataset_eval_frac": 3.496784206246436e-07, "timer/dataset_eval_avg": 0.0001049041748046875, "timer/dataset_eval_min": 0.0001049041748046875, "timer/dataset_eval_max": 0.0001049041748046875, "fps": 20.425103176821956}
+{"step": 49004, "episode/length": 580.0, "episode/score": 290.0, "episode/reward_rate": 0.04991394148020654}
+{"step": 50976, "episode/length": 492.0, "episode/score": 390.0, "episode/reward_rate": 0.07910750507099391}
+{"step": 52796, "episode/length": 454.0, "episode/score": 350.0, "episode/reward_rate": 0.07692307692307693}
+{"step": 53208, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 8.896445930778206, "train/action_min": 0.0, "train/action_std": 3.99059132631723, "train/actor_opt_grad_norm": 0.010186810760045207, "train/actor_opt_grad_steps": 11435.0, "train/actor_opt_loss": 0.005905002413972208, "train/adv_mag": 1.082925788767926, "train/adv_max": 1.082925788767926, "train/adv_mean": 0.009893338660884939, "train/adv_min": -0.34312874262596105, "train/adv_std": 0.0549539832470866, "train/cont_avg": 0.9983512581168831, "train/cont_loss_mean": 0.002537734692379802, "train/cont_loss_std": 0.048334879966181715, "train/cont_neg_acc": 0.6007812523748726, "train/cont_neg_loss": 0.9192760710284347, "train/cont_pos_acc": 0.9997139658246722, "train/cont_pos_loss": 0.0009234340293209266, "train/cont_pred": 0.9983514160304875, "train/cont_rate": 0.9983512581168831, "train/dyn_loss_mean": 2.7011313066854106, "train/dyn_loss_std": 3.719030847797146, "train/extr_critic_critic_opt_grad_norm": 1.4999712272123857, "train/extr_critic_critic_opt_grad_steps": 11435.0, "train/extr_critic_critic_opt_loss": 1.974639505534977, "train/extr_critic_mag": 86.26572125917906, "train/extr_critic_max": 86.26572125917906, "train/extr_critic_mean": 27.262192874759823, "train/extr_critic_min": 0.3271819732405923, "train/extr_critic_std": 20.564077835578424, "train/extr_return_normed_mag": 1.52773566060252, "train/extr_return_normed_max": 1.52773566060252, "train/extr_return_normed_mean": 0.3770301969988005, "train/extr_return_normed_min": -0.018964945846093612, "train/extr_return_normed_std": 0.3053068707322145, "train/extr_return_rate": 0.9558623812415383, "train/extr_return_raw_mag": 109.04966443544859, "train/extr_return_raw_max": 109.04966443544859, "train/extr_return_raw_mean": 27.961857609934622, "train/extr_return_raw_min": 0.08145176038726584, "train/extr_return_raw_std": 21.516715402727, "train/extr_reward_mag": 10.53565722626525, "train/extr_reward_max": 10.53565722626525, "train/extr_reward_mean": 0.2731597972912835, "train/extr_reward_min": -6.5727667375044385e-06, "train/extr_reward_std": 1.3339210262933334, "train/image_loss_mean": 2.8631065077595896, "train/image_loss_std": 1.5336987740033632, "train/model_loss_mean": 4.534331380546867, "train/model_loss_std": 3.3017077647246325, "train/model_opt_grad_norm": 18.424533955462568, "train/model_opt_grad_steps": 11435.0, "train/model_opt_loss": 4.534331380546867, "train/policy_entropy_mag": 2.5383013842941877, "train/policy_entropy_max": 2.5383013842941877, "train/policy_entropy_mean": 0.9898605501496947, "train/policy_entropy_min": 0.08050878834608313, "train/policy_entropy_std": 0.7034959878240313, "train/policy_logprob_mag": 7.494015114648001, "train/policy_logprob_max": -0.009532779334233953, "train/policy_logprob_mean": -0.98911347907859, "train/policy_logprob_min": -7.494015114648001, "train/policy_logprob_std": 1.3196048055376326, "train/policy_randomness_mag": 0.8781920288290296, "train/policy_randomness_max": 0.8781920288290296, "train/policy_randomness_mean": 0.3424682536876047, "train/policy_randomness_min": 0.027854129744621068, "train/policy_randomness_std": 0.24339291114698758, "train/post_ent_mag": 41.33077009622153, "train/post_ent_max": 41.33077009622153, "train/post_ent_mean": 32.58296379485687, "train/post_ent_min": 22.75230579871636, "train/post_ent_std": 2.665631586855108, "train/prior_ent_mag": 55.23370542154684, "train/prior_ent_max": 55.23370542154684, "train/prior_ent_mean": 35.39907113607828, "train/prior_ent_min": 26.97903348253919, "train/prior_ent_std": 4.104579533849444, "train/rep_loss_mean": 2.7011313066854106, "train/rep_loss_std": 3.719030847797146, "train/reward_avg": 0.47635957792207795, "train/reward_loss_mean": 0.04800833309335368, "train/reward_loss_std": 0.2478122886560567, "train/reward_max_data": 12.857142857142858, "train/reward_max_pred": 11.633147933266379, "train/reward_neg_acc": 0.9690244952579598, "train/reward_neg_loss": 0.009606016351532964, "train/reward_pos_acc": 0.9836504892869429, "train/reward_pos_loss": 0.823188134602138, "train/reward_pred": 0.40447198725365974, "train/reward_rate": 0.04735059862012987, "train_stats/mean_log_entropy": 0.8152777949968973, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002067787863779813, "report/cont_loss_std": 0.003785531036555767, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.016112858429551125, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001912303123390302, "report/cont_pred": 0.9988548755645752, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.699725866317749, "report/dyn_loss_std": 3.859889030456543, "report/image_loss_mean": 2.4366493225097656, "report/image_loss_std": 1.2410507202148438, "report/model_loss_mean": 4.076475620269775, "report/model_loss_std": 3.2024083137512207, "report/post_ent_mag": 42.220333099365234, "report/post_ent_max": 42.220333099365234, "report/post_ent_mean": 33.041526794433594, "report/post_ent_min": 22.82796287536621, "report/post_ent_std": 2.7884037494659424, "report/prior_ent_mag": 57.129425048828125, "report/prior_ent_max": 57.129425048828125, "report/prior_ent_mean": 36.15270233154297, "report/prior_ent_min": 27.66855239868164, "report/prior_ent_std": 4.492150783538818, "report/rep_loss_mean": 2.699725866317749, "report/rep_loss_std": 3.859889030456543, "report/reward_avg": 0.21484375, "report/reward_loss_mean": 0.019784295931458473, "report/reward_loss_std": 0.1386788934469223, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.85822868347168, "report/reward_neg_acc": 0.9810568690299988, "report/reward_neg_loss": 0.0048650093376636505, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7323578596115112, "report/reward_pred": 0.1986050307750702, "report/reward_rate": 0.0205078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0021868969779461622, "eval/cont_loss_std": 0.06445129215717316, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.061222553253174, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00017415429465472698, "eval/cont_pred": 0.999706506729126, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.422040939331055, "eval/dyn_loss_std": 5.580916404724121, "eval/image_loss_mean": 6.22556209564209, "eval/image_loss_std": 2.616619110107422, "eval/model_loss_mean": 13.392102241516113, "eval/model_loss_std": 5.223823070526123, "eval/post_ent_mag": 40.516090393066406, "eval/post_ent_max": 40.516090393066406, "eval/post_ent_mean": 31.765460968017578, "eval/post_ent_min": 24.46075439453125, "eval/post_ent_std": 2.785419225692749, "eval/prior_ent_mag": 57.129425048828125, "eval/prior_ent_max": 57.129425048828125, "eval/prior_ent_mean": 36.431053161621094, "eval/prior_ent_min": 28.87510108947754, "eval/prior_ent_std": 4.012480735778809, "eval/rep_loss_mean": 11.422040939331055, "eval/rep_loss_std": 5.580916404724121, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.31112849712371826, "eval/reward_loss_std": 1.8375999927520752, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.949908256530762, "eval/reward_neg_acc": 0.9517102241516113, "eval/reward_neg_loss": 0.027904460206627846, "eval/reward_pos_acc": 0.10000000894069672, "eval/reward_pos_loss": 9.695284843444824, "eval/reward_pred": 0.07944249361753464, "eval/reward_rate": 0.029296875, "replay/size": 13239.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.881519382282839e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3229394673990302e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10637497901917, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.530302047729492, "timer/env.step_frac": 0.021759957775592184, "timer/env.step_avg": 0.004257041752105275, "timer/env.step_min": 0.002562284469604492, "timer/env.step_max": 0.023194074630737305, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 396.60893034935, "timer/replay._sample_frac": 1.3215611643607286, "timer/replay._sample_avg": 0.016159099183073254, "timer/replay._sample_min": 0.0050241947174072266, "timer/replay._sample_max": 0.03921151161193848, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.75399327278137, "timer/agent.policy_frac": 0.365716967126921, "timer/agent.policy_avg": 0.07154758361980533, "timer/agent.policy_min": 0.00312042236328125, "timer/agent.policy_max": 0.08248233795166016, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.1637401580810547, "timer/dataset_train_frac": 0.0005456070638036329, "timer/dataset_train_avg": 0.00010674065063954021, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.00034046173095703125, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.36968302726746, "timer/agent.train_frac": 0.6076834690366613, "timer/agent.train_avg": 0.11888506064359025, "timer/agent.train_min": 0.10645842552185059, "timer/agent.train_max": 0.20355820655822754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.256636381149292, "timer/agent.report_frac": 0.0008551513814634353, "timer/agent.report_avg": 0.128318190574646, "timer/agent.report_min": 0.09760260581970215, "timer/agent.report_max": 0.15903377532958984, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.461143493652344e-05, "timer/dataset_eval_frac": 2.1529510974580433e-07, "timer/dataset_eval_avg": 6.461143493652344e-05, "timer/dataset_eval_min": 6.461143493652344e-05, "timer/dataset_eval_max": 6.461143493652344e-05, "fps": 20.44459342380476}
+{"step": 54988, "episode/length": 547.0, "episode/score": 410.0, "episode/reward_rate": 0.07481751824817519}
+{"step": 57824, "episode/length": 708.0, "episode/score": 510.0, "episode/reward_rate": 0.07052186177715092}
+{"step": 59336, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.547768187678717, "train/action_min": 0.0, "train/action_std": 3.7254011444016997, "train/actor_opt_grad_norm": 0.00882076290040429, "train/actor_opt_grad_steps": 12970.0, "train/actor_opt_loss": 0.005393410314580584, "train/adv_mag": 0.9391103727755203, "train/adv_max": 0.9388688231994903, "train/adv_mean": 0.010180830899199921, "train/adv_min": -0.3488592818087223, "train/adv_std": 0.04957035736613024, "train/cont_avg": 0.9982000612745098, "train/cont_loss_mean": 0.0022442043974134243, "train/cont_loss_std": 0.04539879369542558, "train/cont_neg_acc": 0.654325703400692, "train/cont_neg_loss": 0.7678361139917845, "train/cont_pos_acc": 0.9996929227137098, "train/cont_pos_loss": 0.0008326845642151812, "train/cont_pred": 0.998222702079349, "train/cont_rate": 0.9982000612745098, "train/dyn_loss_mean": 2.8038560315674426, "train/dyn_loss_std": 3.989255605959425, "train/extr_critic_critic_opt_grad_norm": 1.5565258677488838, "train/extr_critic_critic_opt_grad_steps": 12970.0, "train/extr_critic_critic_opt_loss": 1.9442079207476448, "train/extr_critic_mag": 107.70220019770603, "train/extr_critic_max": 107.70220019770603, "train/extr_critic_mean": 33.861660477382685, "train/extr_critic_min": 0.21556096061382418, "train/extr_critic_std": 25.497151019526463, "train/extr_return_normed_mag": 1.4877694646517436, "train/extr_return_normed_max": 1.4877694646517436, "train/extr_return_normed_mean": 0.37998592425016015, "train/extr_return_normed_min": -0.017713524443797427, "train/extr_return_normed_std": 0.30439368581849763, "train/extr_return_rate": 0.952120399942585, "train/extr_return_raw_mag": 131.1342556523342, "train/extr_return_raw_max": 131.1342556523342, "train/extr_return_raw_mean": 34.745851242464354, "train/extr_return_raw_min": 0.07010201087184981, "train/extr_return_raw_std": 26.50898090063357, "train/extr_reward_mag": 10.746573460647483, "train/extr_reward_max": 10.746573460647483, "train/extr_reward_mean": 0.32814205213894254, "train/extr_reward_min": -1.0269140106400633e-06, "train/extr_reward_std": 1.5048268032229803, "train/image_loss_mean": 2.5981593365762747, "train/image_loss_std": 1.4141169248842727, "train/model_loss_mean": 4.332026113871655, "train/model_loss_std": 3.3739164467730554, "train/model_opt_grad_norm": 17.733470779618408, "train/model_opt_grad_steps": 12970.0, "train/model_opt_loss": 4.332026113871655, "train/policy_entropy_mag": 2.5521424471163283, "train/policy_entropy_max": 2.5521424471163283, "train/policy_entropy_mean": 0.9005411053015515, "train/policy_entropy_min": 0.08030017840316872, "train/policy_entropy_std": 0.7197497346821953, "train/policy_logprob_mag": 7.494512931973326, "train/policy_logprob_max": -0.00950416536039971, "train/policy_logprob_mean": -0.9002973374977611, "train/policy_logprob_min": -7.494512931973326, "train/policy_logprob_std": 1.3242076175664765, "train/policy_randomness_mag": 0.8829807058658475, "train/policy_randomness_max": 0.8829807058658475, "train/policy_randomness_mean": 0.3115658473734762, "train/policy_randomness_min": 0.027781955629976745, "train/policy_randomness_std": 0.24901632156247408, "train/post_ent_mag": 43.50989634694617, "train/post_ent_max": 43.50989634694617, "train/post_ent_mean": 34.04954621059443, "train/post_ent_min": 22.677543989193985, "train/post_ent_std": 2.8557448558558045, "train/prior_ent_mag": 58.22414460525014, "train/prior_ent_max": 58.22414460525014, "train/prior_ent_mean": 36.957412495332605, "train/prior_ent_min": 27.368985743304485, "train/prior_ent_std": 4.427739286734388, "train/rep_loss_mean": 2.8038560315674426, "train/rep_loss_std": 3.989255605959425, "train/reward_avg": 0.495046977124183, "train/reward_loss_mean": 0.04930895570592553, "train/reward_loss_std": 0.24929401224929523, "train/reward_max_data": 12.287581699346406, "train/reward_max_pred": 11.470097142886493, "train/reward_neg_acc": 0.9676405425165214, "train/reward_neg_loss": 0.00996095732043138, "train/reward_pos_acc": 0.9842087369339139, "train/reward_pos_loss": 0.809578043573043, "train/reward_pred": 0.4254065190070595, "train/reward_rate": 0.049243004493464054, "train_stats/mean_log_entropy": 0.6368811726570129, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.002153252251446247, "report/cont_loss_std": 0.040879346430301666, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11352460086345673, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0019353044917806983, "report/cont_pred": 0.9969097375869751, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.632312774658203, "report/dyn_loss_std": 3.934894561767578, "report/image_loss_mean": 2.2913756370544434, "report/image_loss_std": 1.2705081701278687, "report/model_loss_mean": 3.924449920654297, "report/model_loss_std": 3.2160804271698, "report/post_ent_mag": 44.00139617919922, "report/post_ent_max": 44.00139617919922, "report/post_ent_mean": 34.47549819946289, "report/post_ent_min": 20.85075569152832, "report/post_ent_std": 2.975088357925415, "report/prior_ent_mag": 59.934898376464844, "report/prior_ent_max": 59.934898376464844, "report/prior_ent_mean": 37.48508071899414, "report/prior_ent_min": 26.845863342285156, "report/prior_ent_std": 4.4965081214904785, "report/rep_loss_mean": 2.632312774658203, "report/rep_loss_std": 3.934894561767578, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.0515335388481617, "report/reward_loss_std": 0.2149246335029602, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006155014038086, "report/reward_neg_acc": 0.9667013883590698, "report/reward_neg_loss": 0.009070099331438541, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6992695927619934, "report/reward_pred": 0.5577318668365479, "report/reward_rate": 0.0615234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.0002533712540753186, "eval/cont_loss_std": 0.002859085099771619, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0002533712540753186, "eval/cont_pred": 0.9997506737709045, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 10.21321964263916, "eval/dyn_loss_std": 5.857066631317139, "eval/image_loss_mean": 5.117016315460205, "eval/image_loss_std": 2.684319257736206, "eval/model_loss_mean": 11.47909927368164, "eval/model_loss_std": 5.853750705718994, "eval/post_ent_mag": 44.18904113769531, "eval/post_ent_max": 44.18904113769531, "eval/post_ent_mean": 33.035003662109375, "eval/post_ent_min": 25.114418029785156, "eval/post_ent_std": 2.764315605163574, "eval/prior_ent_mag": 59.934898376464844, "eval/prior_ent_max": 59.934898376464844, "eval/prior_ent_mean": 37.243309020996094, "eval/prior_ent_min": 30.467357635498047, "eval/prior_ent_std": 3.8955047130584717, "eval/rep_loss_mean": 10.21321964263916, "eval/rep_loss_std": 5.857066631317139, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.23389701545238495, "eval/reward_loss_std": 1.6396046876907349, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 8.107999801635742, "eval/reward_neg_acc": 0.9680638909339905, "eval/reward_neg_loss": 0.010303409770131111, "eval/reward_pos_acc": 0.04545454680919647, "eval/reward_pos_loss": 10.417569160461426, "eval/reward_pred": 0.030912380665540695, "eval/reward_rate": 0.021484375, "replay/size": 14771.0, "replay/inserts": 1532.0, "replay/samples": 24512.0, "replay/insert_wait_avg": 5.006167658315315e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3301134420748479e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.07161688804626, "timer/env.step_count": 1532.0, "timer/env.step_total": 6.6121721267700195, "timer/env.step_frac": 0.02203531342065236, "timer/env.step_avg": 0.004316039247238916, "timer/env.step_min": 0.0025980472564697266, "timer/env.step_max": 0.05167579650878906, "timer/replay._sample_count": 24512.0, "timer/replay._sample_total": 397.57078289985657, "timer/replay._sample_frac": 1.324919654257691, "timer/replay._sample_avg": 0.016219434680966732, "timer/replay._sample_min": 0.0057027339935302734, "timer/replay._sample_max": 0.07817268371582031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1793832778930664, "timer/agent.save_frac": 0.0005978015506877898, "timer/agent.save_avg": 0.1793832778930664, "timer/agent.save_min": 0.1793832778930664, "timer/agent.save_max": 0.1793832778930664, "timer/agent.policy_count": 1532.0, "timer/agent.policy_total": 109.73496317863464, "timer/agent.policy_frac": 0.36569591058515766, "timer/agent.policy_avg": 0.0716285660434952, "timer/agent.policy_min": 0.003168344497680664, "timer/agent.policy_max": 0.17655420303344727, "timer/dataset_train_count": 1532.0, "timer/dataset_train_total": 0.16880130767822266, "timer/dataset_train_frac": 0.0005625367351594628, "timer/dataset_train_avg": 0.00011018362119988424, "timer/dataset_train_min": 7.200241088867188e-05, "timer/dataset_train_max": 0.0009958744049072266, "timer/agent.train_count": 1532.0, "timer/agent.train_total": 182.2683870792389, "timer/agent.train_frac": 0.6074162860502779, "timer/agent.train_avg": 0.11897414300211416, "timer/agent.train_min": 0.10634064674377441, "timer/agent.train_max": 0.20546531677246094, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2571890354156494, "timer/agent.report_frac": 0.0008570921771371802, "timer/agent.report_avg": 0.1285945177078247, "timer/agent.report_min": 0.09612917900085449, "timer/agent.report_max": 0.16105985641479492, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.029273986816406e-05, "timer/dataset_eval_frac": 1.3427707787236965e-07, "timer/dataset_eval_avg": 4.029273986816406e-05, "timer/dataset_eval_min": 4.029273986816406e-05, "timer/dataset_eval_max": 4.029273986816406e-05, "fps": 20.42043022074113}
+{"step": 59524, "episode/length": 424.0, "episode/score": 420.0, "episode/reward_rate": 0.09647058823529411}
+{"step": 62076, "episode/length": 637.0, "episode/score": 520.0, "episode/reward_rate": 0.08150470219435736}
+{"step": 64760, "episode/length": 670.0, "episode/score": 630.0, "episode/reward_rate": 0.09239940387481371}
+{"step": 65480, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.20772800197849, "train/action_min": 0.0, "train/action_std": 3.7355404952903846, "train/actor_opt_grad_norm": 0.007925225718116219, "train/actor_opt_grad_steps": 14505.0, "train/actor_opt_loss": 0.004014578534661741, "train/adv_mag": 0.8122789292753517, "train/adv_max": 0.808070280915731, "train/adv_mean": 0.008586390730138723, "train/adv_min": -0.3960788109666341, "train/adv_std": 0.04505829227628646, "train/cont_avg": 0.9983258928571429, "train/cont_loss_mean": 0.0019469169275151972, "train/cont_loss_std": 0.04140599746333228, "train/cont_neg_acc": 0.6496240626600452, "train/cont_neg_loss": 0.80429456775257, "train/cont_pos_acc": 0.9997775976534014, "train/cont_pos_loss": 0.0006882491562500001, "train/cont_pred": 0.9984008313773515, "train/cont_rate": 0.9983258928571429, "train/dyn_loss_mean": 2.819546047743265, "train/dyn_loss_std": 4.192337872146012, "train/extr_critic_critic_opt_grad_norm": 1.4828785205042208, "train/extr_critic_critic_opt_grad_steps": 14505.0, "train/extr_critic_critic_opt_loss": 1.7895884939602442, "train/extr_critic_mag": 134.13183370813147, "train/extr_critic_max": 134.13183370813147, "train/extr_critic_mean": 42.66809452354134, "train/extr_critic_min": 0.2033799368065673, "train/extr_critic_std": 28.94102583922349, "train/extr_return_normed_mag": 1.47955735511594, "train/extr_return_normed_max": 1.47955735511594, "train/extr_return_normed_mean": 0.40636030129798045, "train/extr_return_normed_min": -0.022184540950027958, "train/extr_return_normed_std": 0.29335649118020934, "train/extr_return_rate": 0.960066674591659, "train/extr_return_raw_mag": 152.2686700697069, "train/extr_return_raw_max": 152.2686700697069, "train/extr_return_raw_mean": 43.537673813956125, "train/extr_return_raw_min": 0.05742400816895745, "train/extr_return_raw_std": 29.754462372172963, "train/extr_reward_mag": 10.636123886356106, "train/extr_reward_max": 10.636123886356106, "train/extr_reward_mean": 0.37833608357937304, "train/extr_reward_min": -2.2371093948166092e-07, "train/extr_reward_std": 1.65912000235025, "train/image_loss_mean": 2.444438615402618, "train/image_loss_std": 1.34685658015214, "train/model_loss_mean": 4.189221741317154, "train/model_loss_std": 3.4452561898664995, "train/model_opt_grad_norm": 16.673127292038558, "train/model_opt_grad_steps": 14505.0, "train/model_opt_loss": 4.189221741317154, "train/policy_entropy_mag": 2.5950745653796505, "train/policy_entropy_max": 2.5950745653796505, "train/policy_entropy_mean": 0.8921717718824164, "train/policy_entropy_min": 0.08034089686615127, "train/policy_entropy_std": 0.6999408285339157, "train/policy_logprob_mag": 7.4939869100397285, "train/policy_logprob_max": -0.009509627979442284, "train/policy_logprob_mean": -0.8920740206520279, "train/policy_logprob_min": -7.4939869100397285, "train/policy_logprob_std": 1.3323583602905273, "train/policy_randomness_mag": 0.8978342003636546, "train/policy_randomness_max": 0.8978342003636546, "train/policy_randomness_mean": 0.3086702563352399, "train/policy_randomness_min": 0.027796043240307988, "train/policy_randomness_std": 0.2421629120196615, "train/post_ent_mag": 45.37267271264807, "train/post_ent_max": 45.37267271264807, "train/post_ent_mean": 35.36726453706816, "train/post_ent_min": 21.565484183175222, "train/post_ent_std": 3.050053520636125, "train/prior_ent_mag": 60.8142056403222, "train/prior_ent_max": 60.8142056403222, "train/prior_ent_mean": 38.27337470611969, "train/prior_ent_min": 26.41823063887559, "train/prior_ent_std": 4.686389687773469, "train/rep_loss_mean": 2.819546047743265, "train/rep_loss_std": 4.192337872146012, "train/reward_avg": 0.5385044642857143, "train/reward_loss_mean": 0.051108581872729514, "train/reward_loss_std": 0.24917416956711125, "train/reward_max_data": 13.051948051948052, "train/reward_max_pred": 11.781150551585409, "train/reward_neg_acc": 0.9676336735099941, "train/reward_neg_loss": 0.00922808884310403, "train/reward_pos_acc": 0.9839566841528014, "train/reward_pos_loss": 0.794348756214241, "train/reward_pred": 0.4677029194963443, "train/reward_rate": 0.05349533279220779, "train_stats/mean_log_entropy": 0.8343323667844137, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0005955043598078191, "report/cont_loss_std": 0.012209452688694, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11158591508865356, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00048700932529754937, "report/cont_pred": 0.9987010955810547, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.5965733528137207, "report/dyn_loss_std": 4.258896827697754, "report/image_loss_mean": 2.328660011291504, "report/image_loss_std": 1.1976230144500732, "report/model_loss_mean": 3.9379262924194336, "report/model_loss_std": 3.3579258918762207, "report/post_ent_mag": 44.604209899902344, "report/post_ent_max": 44.604209899902344, "report/post_ent_mean": 35.03858947753906, "report/post_ent_min": 21.739046096801758, "report/post_ent_std": 3.04607892036438, "report/prior_ent_mag": 61.74578094482422, "report/prior_ent_max": 61.74578094482422, "report/prior_ent_mean": 37.76417922973633, "report/prior_ent_min": 29.52830696105957, "report/prior_ent_std": 4.655074119567871, "report/rep_loss_mean": 2.5965733528137207, "report/rep_loss_std": 4.258896827697754, "report/reward_avg": 0.56640625, "report/reward_loss_mean": 0.05072672665119171, "report/reward_loss_std": 0.2299925535917282, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.669231414794922, "report/reward_neg_acc": 0.9596690535545349, "report/reward_neg_loss": 0.012495058588683605, "report/reward_pos_acc": 0.9824561476707458, "report/reward_pos_loss": 0.6993237137794495, "report/reward_pred": 0.542290210723877, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0021888501942157745, "eval/cont_loss_std": 0.036320000886917114, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5621669292449951, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0016414620913565159, "eval/cont_pred": 0.9981851577758789, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.153291702270508, "eval/dyn_loss_std": 6.603043079376221, "eval/image_loss_mean": 5.5067548751831055, "eval/image_loss_std": 3.029177188873291, "eval/model_loss_mean": 12.658823013305664, "eval/model_loss_std": 6.647521495819092, "eval/post_ent_mag": 42.722381591796875, "eval/post_ent_max": 42.722381591796875, "eval/post_ent_mean": 33.18830108642578, "eval/post_ent_min": 25.53326416015625, "eval/post_ent_std": 2.8165555000305176, "eval/prior_ent_mag": 61.74578094482422, "eval/prior_ent_max": 61.74578094482422, "eval/prior_ent_mean": 37.17129898071289, "eval/prior_ent_min": 29.112335205078125, "eval/prior_ent_std": 4.431854248046875, "eval/rep_loss_mean": 11.153291702270508, "eval/rep_loss_std": 6.603043079376221, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.45790329575538635, "eval/reward_loss_std": 2.3818769454956055, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999401092529297, "eval/reward_neg_acc": 0.9514170289039612, "eval/reward_neg_loss": 0.04195882007479668, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 11.87326717376709, "eval/reward_pred": 0.09617771953344345, "eval/reward_rate": 0.03515625, "replay/size": 16307.0, "replay/inserts": 1536.0, "replay/samples": 24576.0, "replay/insert_wait_avg": 4.935543984174728e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323952650030454e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1610083580017, "timer/env.step_count": 1536.0, "timer/env.step_total": 6.5519118309021, "timer/env.step_frac": 0.021827991139634104, "timer/env.step_avg": 0.004265567598243554, "timer/env.step_min": 0.0024917125701904297, "timer/env.step_max": 0.0299375057220459, "timer/replay._sample_count": 24576.0, "timer/replay._sample_total": 398.0430908203125, "timer/replay._sample_frac": 1.3260985928777496, "timer/replay._sample_avg": 0.016196414828300476, "timer/replay._sample_min": 0.004080772399902344, "timer/replay._sample_max": 0.0419001579284668, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1536.0, "timer/agent.policy_total": 110.2146360874176, "timer/agent.policy_frac": 0.36718505408259, "timer/agent.policy_avg": 0.0717543203694125, "timer/agent.policy_min": 0.0030388832092285156, "timer/agent.policy_max": 0.08922624588012695, "timer/dataset_train_count": 1536.0, "timer/dataset_train_total": 0.16593027114868164, "timer/dataset_train_frac": 0.0005528042168314439, "timer/dataset_train_avg": 0.00010802752027908961, "timer/dataset_train_min": 7.367134094238281e-05, "timer/dataset_train_max": 0.00031447410583496094, "timer/agent.train_count": 1536.0, "timer/agent.train_total": 181.9853117465973, "timer/agent.train_frac": 0.6062923120565467, "timer/agent.train_avg": 0.11848002066835761, "timer/agent.train_min": 0.10661721229553223, "timer/agent.train_max": 0.20840048789978027, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19781947135925293, "timer/agent.report_frac": 0.0006590445322708733, "timer/agent.report_avg": 0.09890973567962646, "timer/agent.report_min": 0.09858870506286621, "timer/agent.report_max": 0.09923076629638672, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.650520324707031e-05, "timer/dataset_eval_frac": 1.8824964493614914e-07, "timer/dataset_eval_avg": 5.650520324707031e-05, "timer/dataset_eval_min": 5.650520324707031e-05, "timer/dataset_eval_max": 5.650520324707031e-05, "fps": 20.467584354252885}
+{"step": 68256, "episode/length": 873.0, "episode/score": 570.0, "episode/reward_rate": 0.06407322654462243}
+{"step": 71304, "episode/length": 761.0, "episode/score": 440.0, "episode/reward_rate": 0.05774278215223097}
+{"step": 71616, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.61368017258987, "train/action_min": 0.0, "train/action_std": 3.7102380235210743, "train/actor_opt_grad_norm": 0.008206146254867704, "train/actor_opt_grad_steps": 16040.0, "train/actor_opt_loss": 0.0037063150020377874, "train/adv_mag": 0.6827250130815443, "train/adv_max": 0.665648451817581, "train/adv_mean": 0.008792391709350483, "train/adv_min": -0.4045477837713715, "train/adv_std": 0.04625504020771949, "train/cont_avg": 0.9984298406862745, "train/cont_loss_mean": 0.0017513175488271028, "train/cont_loss_std": 0.03906380002346398, "train/cont_neg_acc": 0.6819121472595274, "train/cont_neg_loss": 0.7419786709721756, "train/cont_pos_acc": 0.9997825081052344, "train/cont_pos_loss": 0.000667605482980363, "train/cont_pred": 0.998464362683639, "train/cont_rate": 0.9984298406862745, "train/dyn_loss_mean": 2.9418646229637995, "train/dyn_loss_std": 4.420174006543128, "train/extr_critic_critic_opt_grad_norm": 1.4335133300887213, "train/extr_critic_critic_opt_grad_steps": 16040.0, "train/extr_critic_critic_opt_loss": 1.7028554935081333, "train/extr_critic_mag": 150.79370820288565, "train/extr_critic_max": 150.79370820288565, "train/extr_critic_mean": 50.951603010589004, "train/extr_critic_min": 0.20815707188026578, "train/extr_critic_std": 32.31666505103018, "train/extr_return_normed_mag": 1.4615301443081277, "train/extr_return_normed_max": 1.4615301443081277, "train/extr_return_normed_mean": 0.445113716172237, "train/extr_return_normed_min": -0.0225542635151666, "train/extr_return_normed_std": 0.29931831963701183, "train/extr_return_rate": 0.9617528385586209, "train/extr_return_raw_mag": 164.40334519529654, "train/extr_return_raw_max": 164.40334519529654, "train/extr_return_raw_mean": 51.92392688327365, "train/extr_return_raw_min": 0.11558129674955911, "train/extr_return_raw_std": 33.161471684773765, "train/extr_reward_mag": 11.293136758741989, "train/extr_reward_max": 11.293136758741989, "train/extr_reward_mean": 0.410670056452159, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.7550540110644173, "train/image_loss_mean": 2.3610224692650092, "train/image_loss_std": 1.3418191683058645, "train/model_loss_mean": 4.178734808965446, "train/model_loss_std": 3.5789992341808246, "train/model_opt_grad_norm": 16.0292807747336, "train/model_opt_grad_steps": 16040.0, "train/model_opt_loss": 4.178734808965446, "train/policy_entropy_mag": 2.571874615413691, "train/policy_entropy_max": 2.571874615413691, "train/policy_entropy_mean": 0.8940543621973275, "train/policy_entropy_min": 0.08031345353601804, "train/policy_entropy_std": 0.6672884243376115, "train/policy_logprob_mag": 7.494614975125182, "train/policy_logprob_max": -0.009505921110413432, "train/policy_logprob_mean": -0.8930048786736782, "train/policy_logprob_min": -7.494614975125182, "train/policy_logprob_std": 1.3195349850685767, "train/policy_randomness_mag": 0.8898075690456465, "train/policy_randomness_max": 0.8898075690456465, "train/policy_randomness_mean": 0.3093215878687653, "train/policy_randomness_min": 0.027786548498993605, "train/policy_randomness_std": 0.23086595778761346, "train/post_ent_mag": 47.174652099609375, "train/post_ent_max": 47.174652099609375, "train/post_ent_mean": 36.56426909702276, "train/post_ent_min": 21.44206533245012, "train/post_ent_std": 3.247077332602607, "train/prior_ent_mag": 63.047442592047396, "train/prior_ent_max": 63.047442592047396, "train/prior_ent_mean": 39.5639426786136, "train/prior_ent_min": 26.365884282230553, "train/prior_ent_std": 4.957295710744422, "train/rep_loss_mean": 2.9418646229637995, "train/rep_loss_std": 4.420174006543128, "train/reward_avg": 0.5522365196078431, "train/reward_loss_mean": 0.05084224298498989, "train/reward_loss_std": 0.2452069572568719, "train/reward_max_data": 13.4640522875817, "train/reward_max_pred": 12.351301841486514, "train/reward_neg_acc": 0.9686994085124895, "train/reward_neg_loss": 0.008874110110542354, "train/reward_pos_acc": 0.9873965873437769, "train/reward_pos_loss": 0.7728141678704156, "train/reward_pred": 0.48608116415980596, "train/reward_rate": 0.054808772467320264, "train_stats/mean_log_entropy": 0.8986510038375854, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.016342325136065483, "report/cont_loss_std": 0.3545471727848053, "report/cont_neg_acc": 0.25, "report/cont_neg_loss": 4.114208221435547, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.0002722623758018017, "report/cont_pred": 0.9987180233001709, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 3.104555130004883, "report/dyn_loss_std": 4.573243141174316, "report/image_loss_mean": 2.2479398250579834, "report/image_loss_std": 1.3363010883331299, "report/model_loss_mean": 4.193469047546387, "report/model_loss_std": 3.7733101844787598, "report/post_ent_mag": 47.52849578857422, "report/post_ent_max": 47.52849578857422, "report/post_ent_mean": 37.391326904296875, "report/post_ent_min": 18.54355239868164, "report/post_ent_std": 3.7611076831817627, "report/prior_ent_mag": 63.679073333740234, "report/prior_ent_max": 63.679073333740234, "report/prior_ent_mean": 40.52727127075195, "report/prior_ent_min": 25.502580642700195, "report/prior_ent_std": 5.410495758056641, "report/rep_loss_mean": 3.104555130004883, "report/rep_loss_std": 4.573243141174316, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.06645366549491882, "report/reward_loss_std": 0.3249155282974243, "report/reward_max_data": 20.0, "report/reward_max_pred": 14.200550079345703, "report/reward_neg_acc": 0.9672996401786804, "report/reward_neg_loss": 0.007749450393021107, "report/reward_pos_acc": 0.9736841917037964, "report/reward_pos_loss": 0.7987114787101746, "report/reward_pred": 0.6674178838729858, "report/reward_rate": 0.07421875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.989873665792402e-06, "eval/cont_loss_std": 7.427520176861435e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.989873665792402e-06, "eval/cont_pred": 0.9999920725822449, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.322221755981445, "eval/dyn_loss_std": 8.250753402709961, "eval/image_loss_mean": 5.617488384246826, "eval/image_loss_std": 3.238976001739502, "eval/model_loss_mean": 13.34261703491211, "eval/model_loss_std": 7.410148620605469, "eval/post_ent_mag": 48.82012176513672, "eval/post_ent_max": 48.82012176513672, "eval/post_ent_mean": 35.575042724609375, "eval/post_ent_min": 26.558273315429688, "eval/post_ent_std": 3.346251964569092, "eval/prior_ent_mag": 63.679073333740234, "eval/prior_ent_max": 63.679073333740234, "eval/prior_ent_mean": 40.41314697265625, "eval/prior_ent_min": 32.80271911621094, "eval/prior_ent_std": 4.786034107208252, "eval/rep_loss_mean": 12.322221755981445, "eval/rep_loss_std": 8.250753402709961, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.33178773522377014, "eval/reward_loss_std": 2.0324289798736572, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.992653846740723, "eval/reward_neg_acc": 0.9577889442443848, "eval/reward_neg_loss": 0.03139079734683037, "eval/reward_pos_acc": 0.06896551698446274, "eval/reward_pos_loss": 10.638509750366211, "eval/reward_pred": 0.07297243922948837, "eval/reward_rate": 0.0283203125, "replay/size": 17841.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 4.9513042206248215e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319675588545619e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3262033462524414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06835651397705, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.537837505340576, "timer/env.step_frac": 0.02178782721808271, "timer/env.step_avg": 0.004261954045202462, "timer/env.step_min": 0.001850128173828125, "timer/env.step_max": 0.03225207328796387, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 392.68335938453674, "timer/replay._sample_frac": 1.3086463496068295, "timer/replay._sample_avg": 0.01599915903620179, "timer/replay._sample_min": 0.0049512386322021484, "timer/replay._sample_max": 0.045148611068725586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.9115891456604, "timer/agent.policy_frac": 0.36628850313492073, "timer/agent.policy_avg": 0.07165031886940053, "timer/agent.policy_min": 0.0030930042266845703, "timer/agent.policy_max": 0.08192300796508789, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.15978121757507324, "timer/dataset_train_frac": 0.0005324827297063918, "timer/dataset_train_avg": 0.0001041598550033072, "timer/dataset_train_min": 6.937980651855469e-05, "timer/dataset_train_max": 0.0002493858337402344, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.18786454200745, "timer/agent.train_frac": 0.6071545385810156, "timer/agent.train_avg": 0.11876653490352507, "timer/agent.train_min": 0.10636711120605469, "timer/agent.train_max": 0.20198774337768555, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2605748176574707, "timer/agent.report_frac": 0.0008683848596522481, "timer/agent.report_avg": 0.13028740882873535, "timer/agent.report_min": 0.10011982917785645, "timer/agent.report_max": 0.16045498847961426, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.9114227294921875e-05, "timer/dataset_eval_frac": 1.636767963990037e-07, "timer/dataset_eval_avg": 4.9114227294921875e-05, "timer/dataset_eval_min": 4.9114227294921875e-05, "timer/dataset_eval_max": 4.9114227294921875e-05, "fps": 20.44729981832175}
+{"step": 73924, "episode/length": 654.0, "episode/score": 440.0, "episode/reward_rate": 0.06717557251908397}
+{"step": 75692, "episode/length": 441.0, "episode/score": 440.0, "episode/reward_rate": 0.09954751131221719}
+{"step": 77736, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.23696919360192, "train/action_min": 0.0, "train/action_std": 3.7412259485207353, "train/actor_opt_grad_norm": 0.00794694978695095, "train/actor_opt_grad_steps": 17570.0, "train/actor_opt_loss": 0.003415409601634, "train/adv_mag": 0.5414926257787966, "train/adv_max": 0.5128263203926335, "train/adv_mean": 0.006614521355444285, "train/adv_min": -0.4097494410923104, "train/adv_std": 0.041162745978415405, "train/cont_avg": 0.9985638786764706, "train/cont_loss_mean": 0.001582567636234175, "train/cont_loss_std": 0.036050424628089245, "train/cont_neg_acc": 0.7074970506932124, "train/cont_neg_loss": 0.7055534722840544, "train/cont_pos_acc": 0.9997633021641401, "train/cont_pos_loss": 0.0006235339716812442, "train/cont_pred": 0.9985640742420371, "train/cont_rate": 0.9985638786764706, "train/dyn_loss_mean": 2.894799874498953, "train/dyn_loss_std": 4.498968199187634, "train/extr_critic_critic_opt_grad_norm": 1.3585648330208522, "train/extr_critic_critic_opt_grad_steps": 17570.0, "train/extr_critic_critic_opt_loss": 1.6171977091458887, "train/extr_critic_mag": 168.8680506188885, "train/extr_critic_max": 168.8680506188885, "train/extr_critic_mean": 61.01005185195823, "train/extr_critic_min": 0.1754146977966907, "train/extr_critic_std": 36.98702205084508, "train/extr_return_normed_mag": 1.3937446771104351, "train/extr_return_normed_max": 1.3937446771104351, "train/extr_return_normed_mean": 0.4612697956998364, "train/extr_return_normed_min": -0.026697411521655976, "train/extr_return_normed_std": 0.2977114660677567, "train/extr_return_rate": 0.9562160080554438, "train/extr_return_raw_mag": 179.69737178827424, "train/extr_return_raw_max": 179.69737178827424, "train/extr_return_raw_mean": 61.84486194685394, "train/extr_return_raw_min": 0.10952893956229577, "train/extr_return_raw_std": 37.666259329303415, "train/extr_reward_mag": 11.602348433600532, "train/extr_reward_max": 11.602348433600532, "train/extr_reward_mean": 0.4439906378587087, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.8459187644759034, "train/image_loss_mean": 2.1767430508058836, "train/image_loss_std": 1.2201745556850059, "train/model_loss_mean": 3.9650060257880515, "train/model_loss_std": 3.5229051440369847, "train/model_opt_grad_norm": 15.43598278519375, "train/model_opt_grad_steps": 17570.0, "train/model_opt_loss": 3.9650060257880515, "train/policy_entropy_mag": 2.638911596310684, "train/policy_entropy_max": 2.638911596310684, "train/policy_entropy_mean": 0.9706400889976352, "train/policy_entropy_min": 0.0802338084851215, "train/policy_entropy_std": 0.7132132871478212, "train/policy_logprob_mag": 7.494990065206889, "train/policy_logprob_max": -0.009495111736255923, "train/policy_logprob_mean": -0.9712038585563111, "train/policy_logprob_min": -7.494990065206889, "train/policy_logprob_std": 1.3517376293543897, "train/policy_randomness_mag": 0.9130007753185198, "train/policy_randomness_max": 0.9130007753185198, "train/policy_randomness_mean": 0.3358184326123568, "train/policy_randomness_min": 0.027758993269279112, "train/policy_randomness_std": 0.24675486689689113, "train/post_ent_mag": 47.14324547262753, "train/post_ent_max": 47.14324547262753, "train/post_ent_mean": 37.31537538416245, "train/post_ent_min": 21.312460780922883, "train/post_ent_std": 3.205273894702687, "train/prior_ent_mag": 64.75255627102322, "train/prior_ent_max": 64.75255627102322, "train/prior_ent_mean": 40.26811941308913, "train/prior_ent_min": 26.54372238957025, "train/prior_ent_std": 4.943151941486433, "train/rep_loss_mean": 2.894799874498953, "train/rep_loss_std": 4.498968199187634, "train/reward_avg": 0.5700444240196079, "train/reward_loss_mean": 0.0498004833820696, "train/reward_loss_std": 0.2403273367219501, "train/reward_max_data": 13.333333333333334, "train/reward_max_pred": 12.221106579101164, "train/reward_neg_acc": 0.9728248551780102, "train/reward_neg_loss": 0.007907190538175842, "train/reward_pos_acc": 0.9884693770626791, "train/reward_pos_loss": 0.7464254295903873, "train/reward_pred": 0.5067442439350427, "train/reward_rate": 0.05662147671568627, "train_stats/mean_log_entropy": 0.8551788330078125, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002869430463761091, "report/cont_loss_std": 0.003080709371715784, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.03402212634682655, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002539663400966674, "report/cont_pred": 0.9988065958023071, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.508928060531616, "report/dyn_loss_std": 4.475338459014893, "report/image_loss_mean": 2.062926769256592, "report/image_loss_std": 1.1672433614730835, "report/model_loss_mean": 4.2298150062561035, "report/model_loss_std": 3.457890272140503, "report/post_ent_mag": 46.30745315551758, "report/post_ent_max": 46.30745315551758, "report/post_ent_mean": 38.34636688232422, "report/post_ent_min": 14.931793212890625, "report/post_ent_std": 3.125990390777588, "report/prior_ent_mag": 65.3876953125, "report/prior_ent_max": 65.3876953125, "report/prior_ent_mean": 41.487945556640625, "report/prior_ent_min": 27.853666305541992, "report/prior_ent_std": 4.702301502227783, "report/rep_loss_mean": 3.508928060531616, "report/rep_loss_std": 4.475338459014893, "report/reward_avg": 0.712890625, "report/reward_loss_mean": 0.06124451011419296, "report/reward_loss_std": 0.23349380493164062, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.005680084228516, "report/reward_neg_acc": 0.960084080696106, "report/reward_neg_loss": 0.011297998018562794, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7216483950614929, "report/reward_pred": 0.599856436252594, "report/reward_rate": 0.0703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0032694546971470118, "eval/cont_loss_std": 0.08887689560651779, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.8385651111602783, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0004979050136171281, "eval/cont_pred": 0.9994654059410095, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.588193893432617, "eval/dyn_loss_std": 8.549829483032227, "eval/image_loss_mean": 6.084744453430176, "eval/image_loss_std": 3.314600706100464, "eval/model_loss_mean": 15.13176441192627, "eval/model_loss_std": 7.761117935180664, "eval/post_ent_mag": 49.33110046386719, "eval/post_ent_max": 49.33110046386719, "eval/post_ent_mean": 36.729949951171875, "eval/post_ent_min": 27.246789932250977, "eval/post_ent_std": 3.571075439453125, "eval/prior_ent_mag": 65.3876953125, "eval/prior_ent_max": 65.3876953125, "eval/prior_ent_mean": 42.90495300292969, "eval/prior_ent_min": 31.02701759338379, "eval/prior_ent_std": 4.707761764526367, "eval/rep_loss_mean": 14.588193893432617, "eval/rep_loss_std": 8.549829483032227, "eval/reward_avg": 0.205078125, "eval/reward_loss_mean": 0.2908339202404022, "eval/reward_loss_std": 1.7214070558547974, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.742768287658691, "eval/reward_neg_acc": 0.9072781801223755, "eval/reward_neg_loss": 0.06681742519140244, "eval/reward_pos_acc": 0.0476190485060215, "eval/reward_pos_loss": 10.990288734436035, "eval/reward_pred": 0.19321665167808533, "eval/reward_rate": 0.0205078125, "replay/size": 19371.0, "replay/inserts": 1530.0, "replay/samples": 24480.0, "replay/insert_wait_avg": 5.019723979476231e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266221370572358e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4156103134155273e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06099033355713, "timer/env.step_count": 1530.0, "timer/env.step_total": 6.5531651973724365, "timer/env.step_frac": 0.02183944400799229, "timer/env.step_avg": 0.00428311450808656, "timer/env.step_min": 0.0025055408477783203, "timer/env.step_max": 0.029466867446899414, "timer/replay._sample_count": 24480.0, "timer/replay._sample_total": 399.1430549621582, "timer/replay._sample_frac": 1.3302064174301977, "timer/replay._sample_avg": 0.016304863356297314, "timer/replay._sample_min": 0.008118867874145508, "timer/replay._sample_max": 0.050850629806518555, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09190917015075684, "timer/agent.save_frac": 0.0003063016290407752, "timer/agent.save_avg": 0.09190917015075684, "timer/agent.save_min": 0.09190917015075684, "timer/agent.save_max": 0.09190917015075684, "timer/agent.policy_count": 1530.0, "timer/agent.policy_total": 109.17136716842651, "timer/agent.policy_frac": 0.3638305900646006, "timer/agent.policy_avg": 0.07135383475060557, "timer/agent.policy_min": 0.003046274185180664, "timer/agent.policy_max": 0.3604252338409424, "timer/dataset_train_count": 1530.0, "timer/dataset_train_total": 0.16335272789001465, "timer/dataset_train_frac": 0.0005443984161634162, "timer/dataset_train_avg": 0.00010676648881700304, "timer/dataset_train_min": 6.771087646484375e-05, "timer/dataset_train_max": 0.00023984909057617188, "timer/agent.train_count": 1530.0, "timer/agent.train_total": 182.9193012714386, "timer/agent.train_frac": 0.6096070704429116, "timer/agent.train_avg": 0.11955509887022131, "timer/agent.train_min": 0.10698628425598145, "timer/agent.train_max": 0.20312166213989258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25673937797546387, "timer/agent.report_frac": 0.0008556239772789672, "timer/agent.report_avg": 0.12836968898773193, "timer/agent.report_min": 0.09621739387512207, "timer/agent.report_max": 0.1605219841003418, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.506111145019531e-05, "timer/dataset_eval_frac": 1.5017317446064542e-07, "timer/dataset_eval_avg": 4.506111145019531e-05, "timer/dataset_eval_min": 4.506111145019531e-05, "timer/dataset_eval_max": 4.506111145019531e-05, "fps": 20.39444950388594}
+{"step": 77896, "episode/length": 550.0, "episode/score": 510.0, "episode/reward_rate": 0.09074410163339383}
+{"step": 79344, "episode/length": 361.0, "episode/score": 440.0, "episode/reward_rate": 0.12154696132596685}
+{"step": 81656, "episode/length": 577.0, "episode/score": 540.0, "episode/reward_rate": 0.09169550173010381}
+{"step": 83872, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.820045221864788, "train/action_min": 0.0, "train/action_std": 4.104537139531055, "train/actor_opt_grad_norm": 0.007911204725650012, "train/actor_opt_grad_steps": 19100.0, "train/actor_opt_loss": 0.0036951958378398366, "train/adv_mag": 0.5228545363822015, "train/adv_max": 0.5058637325670204, "train/adv_mean": 0.00666683020216285, "train/adv_min": -0.3960445604098389, "train/adv_std": 0.039470056802326556, "train/cont_avg": 0.9983660130718954, "train/cont_loss_mean": 0.001445021206434688, "train/cont_loss_std": 0.030983568397953135, "train/cont_neg_acc": 0.7634860063327178, "train/cont_neg_loss": 0.5440023536332058, "train/cont_pos_acc": 0.9997760984632704, "train/cont_pos_loss": 0.0006494228655995007, "train/cont_pred": 0.9983050394681544, "train/cont_rate": 0.9983660130718954, "train/dyn_loss_mean": 2.8467745749779, "train/dyn_loss_std": 4.654642946579877, "train/extr_critic_critic_opt_grad_norm": 1.3178513326676062, "train/extr_critic_critic_opt_grad_steps": 19100.0, "train/extr_critic_critic_opt_loss": 1.6242798426572014, "train/extr_critic_mag": 184.2784009945938, "train/extr_critic_max": 184.2784009945938, "train/extr_critic_mean": 70.24913605833365, "train/extr_critic_min": 0.1598877930173687, "train/extr_critic_std": 43.110882678063085, "train/extr_return_normed_mag": 1.3565627414416643, "train/extr_return_normed_max": 1.3565627414416643, "train/extr_return_normed_mean": 0.47519466904253743, "train/extr_return_normed_min": -0.028003696741816266, "train/extr_return_normed_std": 0.3099734030323091, "train/extr_return_rate": 0.959344838179794, "train/extr_return_raw_mag": 195.57350348179637, "train/extr_return_raw_max": 195.57350348179637, "train/extr_return_raw_mean": 71.18861189698862, "train/extr_return_raw_min": 0.10532287519206018, "train/extr_return_raw_std": 43.800309037850575, "train/extr_reward_mag": 12.104046933791217, "train/extr_reward_max": 12.104046933791217, "train/extr_reward_mean": 0.4815882117140527, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.9357605541453642, "train/image_loss_mean": 2.0426813667895747, "train/image_loss_std": 1.173332467188243, "train/model_loss_mean": 3.8047127287372264, "train/model_loss_std": 3.5776636179755714, "train/model_opt_grad_norm": 13.879218288496428, "train/model_opt_grad_steps": 19100.0, "train/model_opt_loss": 3.8047127287372264, "train/policy_entropy_mag": 2.6329789956410727, "train/policy_entropy_max": 2.6329789956410727, "train/policy_entropy_mean": 0.9720889396137662, "train/policy_entropy_min": 0.08021032644642724, "train/policy_entropy_std": 0.7173483628852695, "train/policy_logprob_mag": 7.495293240142025, "train/policy_logprob_max": -0.009491954497944296, "train/policy_logprob_mean": -0.9724391726107379, "train/policy_logprob_min": -7.495293240142025, "train/policy_logprob_std": 1.3398789338816226, "train/policy_randomness_mag": 0.91094823327719, "train/policy_randomness_max": 0.91094823327719, "train/policy_randomness_mean": 0.3363196974486307, "train/policy_randomness_min": 0.02775086900767158, "train/policy_randomness_std": 0.24818550313220306, "train/post_ent_mag": 47.53710276784461, "train/post_ent_max": 47.53710276784461, "train/post_ent_mean": 37.91698897118662, "train/post_ent_min": 19.651530970155804, "train/post_ent_std": 3.271089209450616, "train/prior_ent_mag": 66.19422119739009, "train/prior_ent_max": 66.19422119739009, "train/prior_ent_mean": 40.860673767289306, "train/prior_ent_min": 25.975134593988557, "train/prior_ent_std": 4.978518881828957, "train/rep_loss_mean": 2.8467745749779, "train/rep_loss_std": 4.654642946579877, "train/reward_avg": 0.607702716503268, "train/reward_loss_mean": 0.05252162094404495, "train/reward_loss_std": 0.23995031114497217, "train/reward_max_data": 14.117647058823529, "train/reward_max_pred": 12.391091876559788, "train/reward_neg_acc": 0.9702900807841931, "train/reward_neg_loss": 0.00891603071248658, "train/reward_pos_acc": 0.9890708849321004, "train/reward_pos_loss": 0.731521789934121, "train/reward_pred": 0.5450984344762915, "train/reward_rate": 0.06031071282679738, "train_stats/mean_log_entropy": 0.8427862127621969, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0033282798249274492, "report/cont_loss_std": 0.10332052409648895, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.013578323647379875, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.0033182601910084486, "report/cont_pred": 0.9980117678642273, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7033791542053223, "report/dyn_loss_std": 4.58742094039917, "report/image_loss_mean": 1.809370994567871, "report/image_loss_std": 1.112145185470581, "report/model_loss_mean": 3.477044105529785, "report/model_loss_std": 3.518512487411499, "report/post_ent_mag": 48.31425094604492, "report/post_ent_max": 48.31425094604492, "report/post_ent_mean": 39.093292236328125, "report/post_ent_min": 20.379940032958984, "report/post_ent_std": 3.309091091156006, "report/prior_ent_mag": 67.09063720703125, "report/prior_ent_max": 67.09063720703125, "report/prior_ent_mean": 41.789764404296875, "report/prior_ent_min": 30.110191345214844, "report/prior_ent_std": 4.884772777557373, "report/rep_loss_mean": 2.7033791542053223, "report/rep_loss_std": 4.58742094039917, "report/reward_avg": 0.556640625, "report/reward_loss_mean": 0.042317114770412445, "report/reward_loss_std": 0.17635776102542877, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.003158569335938, "report/reward_neg_acc": 0.9679420590400696, "report/reward_neg_loss": 0.005802559666335583, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6617833375930786, "report/reward_pred": 0.5009451508522034, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.004894885700196028, "eval/cont_loss_std": 0.1513819545507431, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.845465183258057, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00016314520325977355, "eval/cont_pred": 0.9998353123664856, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.350587844848633, "eval/dyn_loss_std": 8.430685997009277, "eval/image_loss_mean": 4.956970691680908, "eval/image_loss_std": 2.8734943866729736, "eval/model_loss_mean": 13.298812866210938, "eval/model_loss_std": 7.358936309814453, "eval/post_ent_mag": 50.802734375, "eval/post_ent_max": 50.802734375, "eval/post_ent_mean": 36.250938415527344, "eval/post_ent_min": 24.271018981933594, "eval/post_ent_std": 3.702272415161133, "eval/prior_ent_mag": 67.09063720703125, "eval/prior_ent_max": 67.09063720703125, "eval/prior_ent_mean": 41.06906509399414, "eval/prior_ent_min": 28.589412689208984, "eval/prior_ent_std": 5.069471836090088, "eval/rep_loss_mean": 13.350587844848633, "eval/rep_loss_std": 8.430685997009277, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.3265950083732605, "eval/reward_loss_std": 2.00358510017395, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997467994689941, "eval/reward_neg_acc": 0.9537688493728638, "eval/reward_neg_loss": 0.03320692107081413, "eval/reward_pos_acc": 0.17241379618644714, "eval/reward_pos_loss": 10.392841339111328, "eval/reward_pred": 0.08690774440765381, "eval/reward_rate": 0.0283203125, "replay/size": 20905.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.104706526735149e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446112344286744e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.98623633384705, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.545193195343018, "timer/env.step_frac": 0.02181831165100201, "timer/env.step_avg": 0.004266749149506531, "timer/env.step_min": 0.0022678375244140625, "timer/env.step_max": 0.031215190887451172, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 400.545889377594, "timer/replay._sample_frac": 1.3352142227346613, "timer/replay._sample_avg": 0.016319503315579936, "timer/replay._sample_min": 0.006469011306762695, "timer/replay._sample_max": 0.03648948669433594, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.9175341129303, "timer/agent.policy_frac": 0.3664085907948319, "timer/agent.policy_avg": 0.07165419433698195, "timer/agent.policy_min": 0.0029327869415283203, "timer/agent.policy_max": 0.08742785453796387, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.16401243209838867, "timer/dataset_train_frac": 0.0005467331905049918, "timer/dataset_train_avg": 0.00010691814348004476, "timer/dataset_train_min": 7.176399230957031e-05, "timer/dataset_train_max": 0.0002357959747314453, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.0946249961853, "timer/agent.train_frac": 0.6070099322608149, "timer/agent.train_avg": 0.11870575293102041, "timer/agent.train_min": 0.10623598098754883, "timer/agent.train_max": 0.20305776596069336, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26070666313171387, "timer/agent.report_frac": 0.0008690620820402575, "timer/agent.report_avg": 0.13035333156585693, "timer/agent.report_min": 0.09856271743774414, "timer/agent.report_max": 0.16214394569396973, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.91278076171875e-05, "timer/dataset_eval_frac": 1.9710173486554787e-07, "timer/dataset_eval_avg": 5.91278076171875e-05, "timer/dataset_eval_min": 5.91278076171875e-05, "timer/dataset_eval_max": 5.91278076171875e-05, "fps": 20.452816962330136}
+{"step": 83884, "episode/length": 556.0, "episode/score": 460.0, "episode/reward_rate": 0.08258527827648116}
+{"step": 85516, "episode/length": 407.0, "episode/score": 440.0, "episode/reward_rate": 0.10784313725490197}
+{"step": 88764, "episode/length": 811.0, "episode/score": 460.0, "episode/reward_rate": 0.05665024630541872}
+{"step": 90008, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.109717431006494, "train/action_min": 0.0, "train/action_std": 3.72443696275934, "train/actor_opt_grad_norm": 0.006941646183296651, "train/actor_opt_grad_steps": 20635.0, "train/actor_opt_loss": 0.002306569055643242, "train/adv_mag": 0.541065504992163, "train/adv_max": 0.5232212607349668, "train/adv_mean": 0.004426304264940539, "train/adv_min": -0.38868276687798564, "train/adv_std": 0.034427524641059436, "train/cont_avg": 0.998237114448052, "train/cont_loss_mean": 0.0015887210889871624, "train/cont_loss_std": 0.03434572791112354, "train/cont_neg_acc": 0.7804511297018009, "train/cont_neg_loss": 0.5474647172189254, "train/cont_pos_acc": 0.9998092333991806, "train/cont_pos_loss": 0.0006020268597295286, "train/cont_pred": 0.998285263389736, "train/cont_rate": 0.998237114448052, "train/dyn_loss_mean": 2.881280185340287, "train/dyn_loss_std": 4.77587189922085, "train/extr_critic_critic_opt_grad_norm": 1.2417145243712835, "train/extr_critic_critic_opt_grad_steps": 20635.0, "train/extr_critic_critic_opt_loss": 1.5536045873319948, "train/extr_critic_mag": 208.80407576127485, "train/extr_critic_max": 208.80407576127485, "train/extr_critic_mean": 78.63590163689155, "train/extr_critic_min": 0.06824111319207526, "train/extr_critic_std": 50.6486871025779, "train/extr_return_normed_mag": 1.313034736490869, "train/extr_return_normed_max": 1.313034736490869, "train/extr_return_normed_mean": 0.46198041233923526, "train/extr_return_normed_min": -0.020748509856110268, "train/extr_return_normed_std": 0.3116283254189925, "train/extr_return_rate": 0.9475408827329611, "train/extr_return_raw_mag": 219.32988312956576, "train/extr_return_raw_max": 219.32988312956576, "train/extr_return_raw_mean": 79.36059761047363, "train/extr_return_raw_min": 0.05049884585397584, "train/extr_return_raw_std": 51.22554881851394, "train/extr_reward_mag": 12.198150157928467, "train/extr_reward_max": 12.198150157928467, "train/extr_reward_mean": 0.5132221666636405, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.015823399865782, "train/image_loss_mean": 1.9369933086556275, "train/image_loss_std": 1.1344576443170573, "train/model_loss_mean": 3.718928098678589, "train/model_loss_std": 3.616015649461127, "train/model_opt_grad_norm": 13.97095214546501, "train/model_opt_grad_steps": 20635.0, "train/model_opt_loss": 3.718928098678589, "train/policy_entropy_mag": 2.628749799418759, "train/policy_entropy_max": 2.628749799418759, "train/policy_entropy_mean": 0.9425309137864546, "train/policy_entropy_min": 0.08020636971507754, "train/policy_entropy_std": 0.7229051454500719, "train/policy_logprob_mag": 7.495357525813115, "train/policy_logprob_max": -0.009491428200687681, "train/policy_logprob_mean": -0.9433265978639777, "train/policy_logprob_min": -7.495357525813115, "train/policy_logprob_std": 1.320592277235799, "train/policy_randomness_mag": 0.9094850312579762, "train/policy_randomness_max": 0.9094850312579762, "train/policy_randomness_mean": 0.3260933259477863, "train/policy_randomness_min": 0.02774950009226412, "train/policy_randomness_std": 0.25010801938834126, "train/post_ent_mag": 48.20611656486214, "train/post_ent_max": 48.20611656486214, "train/post_ent_mean": 38.29755562621278, "train/post_ent_min": 20.793639690845044, "train/post_ent_std": 3.3783896851849247, "train/prior_ent_mag": 67.44876841755656, "train/prior_ent_max": 67.44876841755656, "train/prior_ent_mean": 41.24676867893764, "train/prior_ent_min": 25.80086882702716, "train/prior_ent_std": 5.1312650674349305, "train/rep_loss_mean": 2.881280185340287, "train/rep_loss_std": 4.77587189922085, "train/reward_avg": 0.6242390422077922, "train/reward_loss_mean": 0.051577955823053016, "train/reward_loss_std": 0.23120044384683883, "train/reward_max_data": 14.415584415584416, "train/reward_max_pred": 12.944019100882791, "train/reward_neg_acc": 0.9718802548074102, "train/reward_neg_loss": 0.007934688642627087, "train/reward_pos_acc": 0.9918015185114625, "train/reward_pos_loss": 0.7154405244759151, "train/reward_pred": 0.5644582618366588, "train/reward_rate": 0.061884892451298704, "train_stats/mean_log_entropy": 0.8816070357958475, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.331150532583706e-06, "report/cont_loss_std": 7.57623856770806e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.331150532583706e-06, "report/cont_pred": 0.9999947547912598, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.659511089324951, "report/dyn_loss_std": 4.303513526916504, "report/image_loss_mean": 1.6638023853302002, "report/image_loss_std": 1.1231915950775146, "report/model_loss_mean": 3.2957332134246826, "report/model_loss_std": 3.3040342330932617, "report/post_ent_mag": 48.668914794921875, "report/post_ent_max": 48.668914794921875, "report/post_ent_mean": 39.18077850341797, "report/post_ent_min": 29.26944351196289, "report/post_ent_std": 3.0074825286865234, "report/prior_ent_mag": 68.42852783203125, "report/prior_ent_max": 68.42852783203125, "report/prior_ent_mean": 41.73075866699219, "report/prior_ent_min": 31.038299560546875, "report/prior_ent_std": 4.98516321182251, "report/rep_loss_mean": 2.659511089324951, "report/rep_loss_std": 4.303513526916504, "report/reward_avg": 0.556640625, "report/reward_loss_mean": 0.03621866554021835, "report/reward_loss_std": 0.17879027128219604, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.007267951965332, "report/reward_neg_acc": 0.9927611351013184, "report/reward_neg_loss": 0.0016847681254148483, "report/reward_pos_acc": 0.9824561476707458, "report/reward_pos_loss": 0.6220831871032715, "report/reward_pred": 0.5240511298179626, "report/reward_rate": 0.0556640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0025735939852893353, "eval/cont_loss_std": 0.062032535672187805, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.9063518047332764, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007126190466806293, "eval/cont_pred": 0.9992713928222656, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.238763809204102, "eval/dyn_loss_std": 7.992875576019287, "eval/image_loss_mean": 5.92043924331665, "eval/image_loss_std": 3.0342204570770264, "eval/model_loss_mean": 14.89370059967041, "eval/model_loss_std": 7.287436008453369, "eval/post_ent_mag": 49.164424896240234, "eval/post_ent_max": 49.164424896240234, "eval/post_ent_mean": 38.63874435424805, "eval/post_ent_min": 26.352563858032227, "eval/post_ent_std": 3.861586332321167, "eval/prior_ent_mag": 68.42852783203125, "eval/prior_ent_max": 68.42852783203125, "eval/prior_ent_mean": 43.22551345825195, "eval/prior_ent_min": 29.374130249023438, "eval/prior_ent_std": 5.382343292236328, "eval/rep_loss_mean": 14.238763809204102, "eval/rep_loss_std": 7.992875576019287, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4274303913116455, "eval/reward_loss_std": 2.4486281871795654, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.97362232208252, "eval/reward_neg_acc": 0.9496475458145142, "eval/reward_neg_loss": 0.02775799296796322, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 13.229840278625488, "eval/reward_pred": 0.07411450147628784, "eval/reward_rate": 0.0302734375, "replay/size": 22439.0, "replay/inserts": 1534.0, "replay/samples": 24544.0, "replay/insert_wait_avg": 5.087143750047746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3351110156232095e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1131067276001, "timer/env.step_count": 1534.0, "timer/env.step_total": 6.566282272338867, "timer/env.step_frac": 0.02187935856563173, "timer/env.step_avg": 0.0042804969180827036, "timer/env.step_min": 0.002279520034790039, "timer/env.step_max": 0.03235340118408203, "timer/replay._sample_count": 24544.0, "timer/replay._sample_total": 399.15385150909424, "timer/replay._sample_frac": 1.3300113942420688, "timer/replay._sample_avg": 0.016262787300729067, "timer/replay._sample_min": 0.0009884834289550781, "timer/replay._sample_max": 0.03863525390625, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 1534.0, "timer/agent.policy_total": 109.80528998374939, "timer/agent.policy_frac": 0.3658796884316518, "timer/agent.policy_avg": 0.07158102345746375, "timer/agent.policy_min": 0.003119230270385742, "timer/agent.policy_max": 0.08203935623168945, "timer/dataset_train_count": 1534.0, "timer/dataset_train_total": 0.16053509712219238, "timer/dataset_train_frac": 0.0005349153153377712, "timer/dataset_train_avg": 0.0001046513019049494, "timer/dataset_train_min": 6.985664367675781e-05, "timer/dataset_train_max": 0.00019049644470214844, "timer/agent.train_count": 1534.0, "timer/agent.train_total": 182.25172567367554, "timer/agent.train_frac": 0.6072767952753816, "timer/agent.train_avg": 0.11880816536745471, "timer/agent.train_min": 0.10637879371643066, "timer/agent.train_max": 0.20290732383728027, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25563907623291016, "timer/agent.report_frac": 0.0008518091029757753, "timer/agent.report_avg": 0.12781953811645508, "timer/agent.report_min": 0.10031843185424805, "timer/agent.report_max": 0.1553206443786621, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.079673767089844e-05, "timer/dataset_eval_frac": 2.0257941525386644e-07, "timer/dataset_eval_avg": 6.079673767089844e-05, "timer/dataset_eval_min": 6.079673767089844e-05, "timer/dataset_eval_max": 6.079673767089844e-05, "fps": 20.443901419915925}
+{"step": 76804, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.17041015625, "train/action_min": 0.0, "train/action_std": 3.7343766689300537, "train/actor_opt_grad_norm": 0.010511494241654873, "train/actor_opt_grad_steps": 18101.0, "train/actor_opt_loss": 0.005969152320176363, "train/adv_mag": 0.5862016677856445, "train/adv_max": 0.5862016677856445, "train/adv_mean": 0.007844377309083939, "train/adv_min": -0.4720994830131531, "train/adv_std": 0.045969706028699875, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 6.981527258176357e-05, "train/cont_loss_std": 0.0010731576476246119, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.006736191920936108, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.32987794233486e-05, "train/cont_pred": 0.9989673495292664, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.6119771003723145, "train/dyn_loss_std": 7.166189670562744, "train/extr_critic_critic_opt_grad_norm": 1.889979600906372, "train/extr_critic_critic_opt_grad_steps": 18101.0, "train/extr_critic_critic_opt_loss": 1.7678937911987305, "train/extr_critic_mag": 176.89157104492188, "train/extr_critic_max": 176.89157104492188, "train/extr_critic_mean": 66.36729431152344, "train/extr_critic_min": 0.17749691009521484, "train/extr_critic_std": 38.043521881103516, "train/extr_return_normed_mag": 1.3955583572387695, "train/extr_return_normed_max": 1.3955583572387695, "train/extr_return_normed_mean": 0.48061734437942505, "train/extr_return_normed_min": -0.03036855161190033, "train/extr_return_normed_std": 0.2921935021877289, "train/extr_return_rate": 0.9854817986488342, "train/extr_return_raw_mag": 188.08807373046875, "train/extr_return_raw_max": 188.08807373046875, "train/extr_return_raw_mean": 67.40202331542969, "train/extr_return_raw_min": 2.0265579223632812e-06, "train/extr_return_raw_std": 38.542022705078125, "train/extr_reward_mag": 10.016803741455078, "train/extr_reward_max": 10.016803741455078, "train/extr_reward_mean": 0.3924122154712677, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.7103585004806519, "train/image_loss_mean": 2.697254180908203, "train/image_loss_std": 2.7486181259155273, "train/model_loss_mean": 5.536549091339111, "train/model_loss_std": 6.637051582336426, "train/model_opt_grad_norm": 14.655351638793945, "train/model_opt_grad_steps": 18101.0, "train/model_opt_loss": 5.536549091339111, "train/policy_entropy_mag": 2.585178852081299, "train/policy_entropy_max": 2.585178852081299, "train/policy_entropy_mean": 0.9239142537117004, "train/policy_entropy_min": 0.08020740002393723, "train/policy_entropy_std": 0.7071813941001892, "train/policy_logprob_mag": 7.494992733001709, "train/policy_logprob_max": -0.00949143711477518, "train/policy_logprob_mean": -0.9076600670814514, "train/policy_logprob_min": -7.494992733001709, "train/policy_logprob_std": 1.304235577583313, "train/policy_randomness_mag": 0.8944104909896851, "train/policy_randomness_max": 0.8944104909896851, "train/policy_randomness_mean": 0.31965240836143494, "train/policy_randomness_min": 0.027749856933951378, "train/policy_randomness_std": 0.24466797709465027, "train/post_ent_mag": 47.519981384277344, "train/post_ent_max": 47.519981384277344, "train/post_ent_mean": 38.80674743652344, "train/post_ent_min": 19.104907989501953, "train/post_ent_std": 3.1662333011627197, "train/prior_ent_mag": 65.01219177246094, "train/prior_ent_max": 65.01219177246094, "train/prior_ent_mean": 41.96879577636719, "train/prior_ent_min": 19.592721939086914, "train/prior_ent_std": 4.931992530822754, "train/rep_loss_mean": 4.6119771003723145, "train/rep_loss_std": 7.166189670562744, "train/reward_avg": 0.5859375, "train/reward_loss_mean": 0.0720386877655983, "train/reward_loss_std": 0.42426878213882446, "train/reward_max_data": 10.0, "train/reward_max_pred": 10.004728317260742, "train/reward_neg_acc": 0.970954418182373, "train/reward_neg_loss": 0.007900996133685112, "train/reward_pos_acc": 0.9500000476837158, "train/reward_pos_loss": 1.1025176048278809, "train/reward_pred": 0.44436222314834595, "train/reward_rate": 0.05859375, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0005871625035069883, "report/cont_loss_std": 0.017903447151184082, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.5731542706489563, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.7468362532090396e-05, "report/cont_pred": 0.9994220733642578, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.341639041900635, "report/dyn_loss_std": 6.698851585388184, "report/image_loss_mean": 2.6707587242126465, "report/image_loss_std": 2.559422254562378, "report/model_loss_mean": 5.361526966094971, "report/model_loss_std": 6.074903964996338, "report/post_ent_mag": 50.94208908081055, "report/post_ent_max": 50.94208908081055, "report/post_ent_mean": 39.04296112060547, "report/post_ent_min": 18.84807586669922, "report/post_ent_std": 3.511060953140259, "report/prior_ent_mag": 65.01995849609375, "report/prior_ent_max": 65.01995849609375, "report/prior_ent_mean": 42.28764343261719, "report/prior_ent_min": 21.914810180664062, "report/prior_ent_std": 5.08101749420166, "report/rep_loss_mean": 4.341639041900635, "report/rep_loss_std": 6.698851585388184, "report/reward_avg": 0.5859375, "report/reward_loss_mean": 0.08519719541072845, "report/reward_loss_std": 0.4610746502876282, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.004801750183105, "report/reward_neg_acc": 0.9564315676689148, "report/reward_neg_loss": 0.015604210086166859, "report/reward_pos_acc": 0.9166666865348816, "report/reward_pos_loss": 1.2033244371414185, "report/reward_pred": 0.4613773822784424, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005132172256708145, "eval/cont_loss_std": 0.12018454819917679, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.466627836227417, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00031515536829829216, "eval/cont_pred": 0.9994102120399475, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.932586669921875, "eval/dyn_loss_std": 7.508526802062988, "eval/image_loss_mean": 5.735648155212402, "eval/image_loss_std": 3.218719005584717, "eval/model_loss_mean": 13.882469177246094, "eval/model_loss_std": 7.349715709686279, "eval/post_ent_mag": 49.00749206542969, "eval/post_ent_max": 49.00749206542969, "eval/post_ent_mean": 35.8393669128418, "eval/post_ent_min": 25.011489868164062, "eval/post_ent_std": 3.3839004039764404, "eval/prior_ent_mag": 65.01995849609375, "eval/prior_ent_max": 65.01995849609375, "eval/prior_ent_mean": 40.85821533203125, "eval/prior_ent_min": 33.00341796875, "eval/prior_ent_std": 4.780839443206787, "eval/rep_loss_mean": 12.932586669921875, "eval/rep_loss_std": 7.508526802062988, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.3821372389793396, "eval/reward_loss_std": 2.4099321365356445, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.018295288085938, "eval/reward_neg_acc": 0.9668341875076294, "eval/reward_neg_loss": 0.02701829932630062, "eval/reward_pos_acc": 0.17241379618644714, "eval/reward_pos_loss": 12.566389083862305, "eval/reward_pred": 0.06099938228726387, "eval/reward_rate": 0.0283203125, "replay/size": 50694.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.2410538537161692e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.375164304460798e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 80.15710639953613, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 14.903473377227783, "timer/replay._sample_frac": 0.18592828567117575, "timer/replay._sample_avg": 0.1330667265823909, "timer/replay._sample_min": 0.00991058349609375, "timer/replay._sample_max": 1.2201478481292725, "timer/env.step_count": 1.0, "timer/env.step_total": 0.0252687931060791, "timer/env.step_frac": 0.0003152408344199577, "timer/env.step_avg": 0.0252687931060791, "timer/env.step_min": 0.0252687931060791, "timer/env.step_max": 0.0252687931060791, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.446439504623413, "timer/agent.policy_frac": 0.11784905829232976, "timer/agent.policy_avg": 9.446439504623413, "timer/agent.policy_min": 9.446439504623413, "timer/agent.policy_max": 9.446439504623413, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 3.361701965332031e-05, "timer/dataset_train_frac": 4.193891367006089e-07, "timer/dataset_train_avg": 3.361701965332031e-05, "timer/dataset_train_min": 3.361701965332031e-05, "timer/dataset_train_max": 3.361701965332031e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.87019324302673, "timer/agent.train_frac": 0.7094841093634567, "timer/agent.train_avg": 56.87019324302673, "timer/agent.train_min": 56.87019324302673, "timer/agent.train_max": 56.87019324302673, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.308357000350952, "timer/agent.report_frac": 0.14107741045423258, "timer/agent.report_avg": 5.654178500175476, "timer/agent.report_min": 0.0992891788482666, "timer/agent.report_max": 11.209067821502686, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.654594421386719e-05, "timer/dataset_eval_frac": 1.0797039476760357e-06, "timer/dataset_eval_avg": 8.654594421386719e-05, "timer/dataset_eval_min": 8.654594421386719e-05, "timer/dataset_eval_max": 8.654594421386719e-05}
+{"step": 78620, "episode/length": 454.0, "episode/score": 390.0, "episode/reward_rate": 0.08571428571428572}
+{"step": 81316, "episode/length": 673.0, "episode/score": 1110.0, "episode/reward_rate": 0.09050445103857567}
+{"step": 82768, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.391543394767197, "train/action_min": 0.0, "train/action_std": 3.4725976342322844, "train/actor_opt_grad_norm": 0.008868082870272982, "train/actor_opt_grad_steps": 18850.0, "train/actor_opt_loss": 0.0025884068481839572, "train/adv_mag": 0.5984017526943411, "train/adv_max": 0.5670230572655697, "train/adv_mean": 0.005116169137621201, "train/adv_min": -0.44671990827426017, "train/adv_std": 0.043310779665640536, "train/cont_avg": 0.9983680264261745, "train/cont_loss_mean": 0.0021234010183776115, "train/cont_loss_std": 0.047645380485248356, "train/cont_neg_acc": 0.6498697937931865, "train/cont_neg_loss": 0.8920490323698687, "train/cont_pos_acc": 0.9997898796260757, "train/cont_pos_loss": 0.0006932705572437301, "train/cont_pred": 0.99838510735723, "train/cont_rate": 0.9983680264261745, "train/dyn_loss_mean": 3.7930568960689057, "train/dyn_loss_std": 4.813273596283573, "train/extr_critic_critic_opt_grad_norm": 1.5405849314376012, "train/extr_critic_critic_opt_grad_steps": 18850.0, "train/extr_critic_critic_opt_loss": 1.7725497172182838, "train/extr_critic_mag": 178.14037425406028, "train/extr_critic_max": 178.14037425406028, "train/extr_critic_mean": 65.69518615415433, "train/extr_critic_min": 0.6445267496493039, "train/extr_critic_std": 40.434882925660816, "train/extr_return_normed_mag": 1.3704778664064088, "train/extr_return_normed_max": 1.3704778664064088, "train/extr_return_normed_mean": 0.45354396524845353, "train/extr_return_normed_min": -0.04047400156432925, "train/extr_return_normed_std": 0.3060655397856796, "train/extr_return_rate": 0.9843213038156496, "train/extr_return_raw_mag": 189.0391964496382, "train/extr_return_raw_max": 189.0391964496382, "train/extr_return_raw_mean": 66.38055819312999, "train/extr_return_raw_min": 0.28838297174680955, "train/extr_return_raw_std": 40.955268898266276, "train/extr_reward_mag": 12.03756498810429, "train/extr_reward_max": 12.03756498810429, "train/extr_reward_mean": 0.4725948629163256, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.8377694579578887, "train/image_loss_mean": 2.317799900202143, "train/image_loss_std": 1.3574418313551269, "train/model_loss_mean": 4.671244821292442, "train/model_loss_std": 3.845726085189205, "train/model_opt_grad_norm": 14.979366648117168, "train/model_opt_grad_steps": 18850.0, "train/model_opt_loss": 4.671244821292442, "train/policy_entropy_mag": 2.5940896536679876, "train/policy_entropy_max": 2.5940896536679876, "train/policy_entropy_mean": 0.913554366402978, "train/policy_entropy_min": 0.08021914298902422, "train/policy_entropy_std": 0.689120576685707, "train/policy_logprob_mag": 7.495050180678399, "train/policy_logprob_max": -0.00949315312974805, "train/policy_logprob_mean": -0.912594946038803, "train/policy_logprob_min": -7.495050180678399, "train/policy_logprob_std": 1.3262634701376794, "train/policy_randomness_mag": 0.8974934456332418, "train/policy_randomness_max": 0.8974934456332418, "train/policy_randomness_mean": 0.31606812255094513, "train/policy_randomness_min": 0.02775391932551893, "train/policy_randomness_std": 0.23841936196256805, "train/post_ent_mag": 50.01543628769433, "train/post_ent_max": 50.01543628769433, "train/post_ent_mean": 39.66701062093645, "train/post_ent_min": 22.337460370671828, "train/post_ent_std": 3.5436087550732913, "train/prior_ent_mag": 65.90999562308292, "train/prior_ent_max": 65.90999562308292, "train/prior_ent_mean": 43.3485252841207, "train/prior_ent_min": 30.194335822291023, "train/prior_ent_std": 4.988851947272384, "train/rep_loss_mean": 3.7930568960689057, "train/rep_loss_std": 4.813273596283573, "train/reward_avg": 0.666094274328859, "train/reward_loss_mean": 0.07548743076372466, "train/reward_loss_std": 0.3230282254267059, "train/reward_max_data": 14.630872483221477, "train/reward_max_pred": 12.930768294622434, "train/reward_neg_acc": 0.9397540080467327, "train/reward_neg_loss": 0.01645552528234536, "train/reward_pos_acc": 0.9775325911957146, "train/reward_pos_loss": 0.9205155172604043, "train/reward_pred": 0.5467325406986595, "train/reward_rate": 0.06603266568791946, "train_stats/mean_log_entropy": 0.8600555956363678, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.2891337973996997e-05, "report/cont_loss_std": 0.00018079140863846987, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0011337121250107884, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.179571609100094e-05, "report/cont_pred": 0.99901282787323, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.6644535064697266, "report/dyn_loss_std": 5.221564292907715, "report/image_loss_mean": 2.1278982162475586, "report/image_loss_std": 1.4450076818466187, "report/model_loss_mean": 4.438948154449463, "report/model_loss_std": 4.27522611618042, "report/post_ent_mag": 54.348114013671875, "report/post_ent_max": 54.348114013671875, "report/post_ent_mean": 41.00464630126953, "report/post_ent_min": 17.823366165161133, "report/post_ent_std": 3.9197981357574463, "report/prior_ent_mag": 66.46370697021484, "report/prior_ent_max": 66.46370697021484, "report/prior_ent_mean": 44.511959075927734, "report/prior_ent_min": 28.252700805664062, "report/prior_ent_std": 5.343532085418701, "report/rep_loss_mean": 3.6644535064697266, "report/rep_loss_std": 5.221564292907715, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.11236485838890076, "report/reward_loss_std": 0.44260233640670776, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.69489860534668, "report/reward_neg_acc": 0.922587513923645, "report/reward_neg_loss": 0.02856592647731304, "report/reward_pos_acc": 0.9382716417312622, "report/reward_pos_loss": 1.0879498720169067, "report/reward_pred": 0.664501428604126, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01161414198577404, "eval/cont_loss_std": 0.19112974405288696, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.793032646179199, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.0034415123518556356, "eval/cont_pred": 0.9968810081481934, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.762677192687988, "eval/dyn_loss_std": 6.882351875305176, "eval/image_loss_mean": 4.588709354400635, "eval/image_loss_std": 3.102520704269409, "eval/model_loss_mean": 11.43647575378418, "eval/model_loss_std": 6.851064205169678, "eval/post_ent_mag": 50.599239349365234, "eval/post_ent_max": 50.599239349365234, "eval/post_ent_mean": 39.02457046508789, "eval/post_ent_min": 28.519027709960938, "eval/post_ent_std": 3.5782504081726074, "eval/prior_ent_mag": 66.46370697021484, "eval/prior_ent_max": 66.46370697021484, "eval/prior_ent_mean": 43.19109344482422, "eval/prior_ent_min": 29.78523063659668, "eval/prior_ent_std": 5.593241214752197, "eval/rep_loss_mean": 10.762677192687988, "eval/rep_loss_std": 6.882351875305176, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.37854650616645813, "eval/reward_loss_std": 2.1382031440734863, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002962112426758, "eval/reward_neg_acc": 0.9533940553665161, "eval/reward_neg_loss": 0.02893107570707798, "eval/reward_pos_acc": 0.1621621549129486, "eval/reward_pos_loss": 9.704773902893066, "eval/reward_pred": 0.06664133071899414, "eval/reward_rate": 0.0361328125, "replay/size": 52123.0, "replay/inserts": 1429.0, "replay/samples": 23856.0, "replay/insert_wait_avg": 5.052838816018769e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.297540348060654e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.0137791633606, "timer/replay._sample_count": 23856.0, "timer/replay._sample_total": 352.5502188205719, "timer/replay._sample_frac": 1.2198387905280401, "timer/replay._sample_avg": 0.014778262022995134, "timer/replay._sample_min": 0.0004668235778808594, "timer/replay._sample_max": 0.04171323776245117, "timer/env.step_count": 1491.0, "timer/env.step_total": 6.509323596954346, "timer/env.step_frac": 0.022522537215345192, "timer/env.step_avg": 0.004365743525790976, "timer/env.step_min": 0.002355813980102539, "timer/env.step_max": 0.030273914337158203, "timer/agent.policy_count": 1491.0, "timer/agent.policy_total": 106.68843197822571, "timer/agent.policy_frac": 0.36914652404140813, "timer/agent.policy_avg": 0.07155495102496694, "timer/agent.policy_min": 0.0031130313873291016, "timer/agent.policy_max": 0.08695101737976074, "timer/dataset_train_count": 1491.0, "timer/dataset_train_total": 0.1475839614868164, "timer/dataset_train_frac": 0.0005106468000039432, "timer/dataset_train_avg": 9.898320689927324e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002913475036621094, "timer/agent.train_count": 1491.0, "timer/agent.train_total": 174.3744969367981, "timer/agent.train_frac": 0.6033431950600375, "timer/agent.train_avg": 0.11695137286170228, "timer/agent.train_min": 0.10416865348815918, "timer/agent.train_max": 0.20396113395690918, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26248645782470703, "timer/agent.report_frac": 0.000908214336993049, "timer/agent.report_avg": 0.13124322891235352, "timer/agent.report_min": 0.09646821022033691, "timer/agent.report_max": 0.16601824760437012, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.176399230957031e-05, "timer/dataset_eval_frac": 2.483064735436258e-07, "timer/dataset_eval_avg": 7.176399230957031e-05, "timer/dataset_eval_min": 7.176399230957031e-05, "timer/dataset_eval_max": 7.176399230957031e-05, "fps": 20.634499937100433}
+{"step": 83336, "episode/length": 504.0, "episode/score": 490.0, "episode/reward_rate": 0.09504950495049505}
+{"step": 86008, "episode/length": 667.0, "episode/score": 600.0, "episode/reward_rate": 0.08982035928143713}
+{"step": 87668, "episode/length": 414.0, "episode/score": 500.0, "episode/reward_rate": 0.1180722891566265}
+{"step": 88960, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.585470876386088, "train/action_min": 0.0, "train/action_std": 3.2551478847380606, "train/actor_opt_grad_norm": 0.007743829653988923, "train/actor_opt_grad_steps": 20370.0, "train/actor_opt_loss": 0.002615522239296209, "train/adv_mag": 0.5287870607068462, "train/adv_max": 0.49384577428140947, "train/adv_mean": 0.005075468086814057, "train/adv_min": -0.43398347996896314, "train/adv_std": 0.038494461149938645, "train/cont_avg": 0.998374495967742, "train/cont_loss_mean": 0.0016688985129803767, "train/cont_loss_std": 0.036745060667131076, "train/cont_neg_acc": 0.7031496087397178, "train/cont_neg_loss": 0.7037255089550932, "train/cont_pos_acc": 0.9998231399443842, "train/cont_pos_loss": 0.0005975485666509016, "train/cont_pred": 0.998426765395749, "train/cont_rate": 0.998374495967742, "train/dyn_loss_mean": 3.204112120597593, "train/dyn_loss_std": 4.788837365181215, "train/extr_critic_critic_opt_grad_norm": 1.4104235518363215, "train/extr_critic_critic_opt_grad_steps": 20370.0, "train/extr_critic_critic_opt_loss": 1.6812544315092026, "train/extr_critic_mag": 200.28348113029233, "train/extr_critic_max": 200.28348113029233, "train/extr_critic_mean": 71.07914820025044, "train/extr_critic_min": 0.3628802876318655, "train/extr_critic_std": 46.34804656736313, "train/extr_return_normed_mag": 1.3386363091007356, "train/extr_return_normed_max": 1.3386363091007356, "train/extr_return_normed_mean": 0.4359902712606615, "train/extr_return_normed_min": -0.03580736441297397, "train/extr_return_normed_std": 0.3093277822579107, "train/extr_return_rate": 0.9740453297092069, "train/extr_return_raw_mag": 208.66017908896168, "train/extr_return_raw_max": 208.66017908896168, "train/extr_return_raw_mean": 71.84963447816911, "train/extr_return_raw_min": 0.23767458421568716, "train/extr_return_raw_std": 46.92742855933405, "train/extr_reward_mag": 13.3923340335969, "train/extr_reward_max": 13.3923340335969, "train/extr_reward_mean": 0.4961071281663833, "train/extr_reward_min": 0.0, "train/extr_reward_std": 1.937116252991461, "train/image_loss_mean": 2.0681109374569306, "train/image_loss_std": 1.2182961756183255, "train/model_loss_mean": 4.05399718284607, "train/model_loss_std": 3.699199301196683, "train/model_opt_grad_norm": 14.314740199427451, "train/model_opt_grad_steps": 20370.0, "train/model_opt_loss": 4.05399718284607, "train/policy_entropy_mag": 2.5513153645300095, "train/policy_entropy_max": 2.5513153645300095, "train/policy_entropy_mean": 0.8801473079189177, "train/policy_entropy_min": 0.0802124842520683, "train/policy_entropy_std": 0.6667535485759858, "train/policy_logprob_mag": 7.4953507238818755, "train/policy_logprob_max": -0.009492212966565163, "train/policy_logprob_mean": -0.8802769234103541, "train/policy_logprob_min": -7.4953507238818755, "train/policy_logprob_std": 1.3067371360717281, "train/policy_randomness_mag": 0.8826945562516489, "train/policy_randomness_max": 0.8826945562516489, "train/policy_randomness_mean": 0.3045100781225389, "train/policy_randomness_min": 0.027751615559381822, "train/policy_randomness_std": 0.23068090177351427, "train/post_ent_mag": 49.7114507859753, "train/post_ent_max": 49.7114507859753, "train/post_ent_mean": 39.54325162826046, "train/post_ent_min": 20.94889830927695, "train/post_ent_std": 3.49288021825975, "train/prior_ent_mag": 67.10294972081338, "train/prior_ent_max": 67.10294972081338, "train/prior_ent_mean": 42.82730801490045, "train/prior_ent_min": 27.713764412172377, "train/prior_ent_std": 5.022461045172907, "train/rep_loss_mean": 3.204112120597593, "train/rep_loss_std": 4.788837365181215, "train/reward_avg": 0.6470514112903226, "train/reward_loss_mean": 0.06175011279842546, "train/reward_loss_std": 0.272150063610846, "train/reward_max_data": 17.870967741935484, "train/reward_max_pred": 12.99453888554727, "train/reward_neg_acc": 0.9585145765735257, "train/reward_neg_loss": 0.012088189299608912, "train/reward_pos_acc": 0.9857876093156877, "train/reward_pos_loss": 0.7977964981909721, "train/reward_pred": 0.5593089466133425, "train/reward_rate": 0.06383568548387097, "train_stats/mean_log_entropy": 0.8221169312795004, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.7938713426701725e-05, "report/cont_loss_std": 0.00012486294144764543, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7938713426701725e-05, "report/cont_pred": 0.9999821186065674, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.7740883827209473, "report/dyn_loss_std": 4.703568458557129, "report/image_loss_mean": 1.8240089416503906, "report/image_loss_std": 0.9600242972373962, "report/model_loss_mean": 3.535910129547119, "report/model_loss_std": 3.3562188148498535, "report/post_ent_mag": 49.07585144042969, "report/post_ent_max": 49.07585144042969, "report/post_ent_mean": 39.599586486816406, "report/post_ent_min": 18.272075653076172, "report/post_ent_std": 3.351367712020874, "report/prior_ent_mag": 67.29685974121094, "report/prior_ent_max": 67.29685974121094, "report/prior_ent_mean": 42.10297393798828, "report/prior_ent_min": 22.340654373168945, "report/prior_ent_std": 4.697595119476318, "report/rep_loss_mean": 2.7740883827209473, "report/rep_loss_std": 4.703568458557129, "report/reward_avg": 0.546875, "report/reward_loss_mean": 0.04743022471666336, "report/reward_loss_std": 0.21535013616085052, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.802471160888672, "report/reward_neg_acc": 0.9752322435379028, "report/reward_neg_loss": 0.008056700229644775, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.7411200404167175, "report/reward_pred": 0.4711042046546936, "report/reward_rate": 0.0537109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.007407200988382101, "eval/cont_loss_std": 0.08130386471748352, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.5539263486862183, "eval/cont_pos_acc": 0.9960861206054688, "eval/cont_pos_loss": 0.006337692029774189, "eval/cont_pred": 0.9946274161338806, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.63461685180664, "eval/dyn_loss_std": 7.977914810180664, "eval/image_loss_mean": 4.705684661865234, "eval/image_loss_std": 3.0802934169769287, "eval/model_loss_mean": 12.061090469360352, "eval/model_loss_std": 7.477753639221191, "eval/post_ent_mag": 49.9814567565918, "eval/post_ent_max": 49.9814567565918, "eval/post_ent_mean": 38.13484191894531, "eval/post_ent_min": 25.84571075439453, "eval/post_ent_std": 3.4412238597869873, "eval/prior_ent_mag": 67.29685974121094, "eval/prior_ent_max": 67.29685974121094, "eval/prior_ent_mean": 42.27287673950195, "eval/prior_ent_min": 30.8076171875, "eval/prior_ent_std": 4.703842639923096, "eval/rep_loss_mean": 11.63461685180664, "eval/rep_loss_std": 7.977914810180664, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.367228627204895, "eval/reward_loss_std": 2.3670783042907715, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.936690330505371, "eval/reward_neg_acc": 0.967903733253479, "eval/reward_neg_loss": 0.02235865220427513, "eval/reward_pos_acc": 0.07407407462596893, "eval/reward_pos_loss": 13.101872444152832, "eval/reward_pred": 0.07946210354566574, "eval/reward_rate": 0.0263671875, "replay/size": 53671.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.868636759676675e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300636496038708e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.817941665649414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10875606536865, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 365.67475390434265, "timer/replay._sample_frac": 1.2184741248425708, "timer/replay._sample_avg": 0.01476400007688722, "timer/replay._sample_min": 0.0004119873046875, "timer/replay._sample_max": 0.04864811897277832, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.7636072635650635, "timer/env.step_frac": 0.02253718735914469, "timer/env.step_avg": 0.004369255338220325, "timer/env.step_min": 0.0024886131286621094, "timer/env.step_max": 0.03289461135864258, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.89831447601318, "timer/agent.policy_frac": 0.36952708721320243, "timer/agent.policy_avg": 0.07163973803360024, "timer/agent.policy_min": 0.0029783248901367188, "timer/agent.policy_max": 0.08871197700500488, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1487889289855957, "timer/dataset_train_frac": 0.0004957833651250982, "timer/dataset_train_avg": 9.611687918966131e-05, "timer/dataset_train_min": 5.698204040527344e-05, "timer/dataset_train_max": 0.0006244182586669922, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.11208868026733, "timer/agent.train_frac": 0.6034881855990171, "timer/agent.train_avg": 0.11699747330766623, "timer/agent.train_min": 0.10372066497802734, "timer/agent.train_max": 0.2084200382232666, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20584893226623535, "timer/agent.report_frac": 0.0006859144496983555, "timer/agent.report_avg": 0.10292446613311768, "timer/agent.report_min": 0.10229730606079102, "timer/agent.report_max": 0.10355162620544434, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.0067901611328125e-05, "timer/dataset_eval_frac": 1.668325252077034e-07, "timer/dataset_eval_avg": 5.0067901611328125e-05, "timer/dataset_eval_min": 5.0067901611328125e-05, "timer/dataset_eval_max": 5.0067901611328125e-05, "fps": 20.631226314126973}
+{"step": 89660, "episode/length": 497.0, "episode/score": 510.0, "episode/reward_rate": 0.10040160642570281}
+{"step": 92056, "episode/length": 598.0, "episode/score": 520.0, "episode/reward_rate": 0.08681135225375626}
+{"step": 93492, "episode/length": 358.0, "episode/score": 440.0, "episode/reward_rate": 0.12256267409470752}
+{"step": 94956, "episode/length": 365.0, "episode/score": 440.0, "episode/reward_rate": 0.12021857923497267}
+{"step": 95148, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.367207316609171, "train/action_min": 0.0, "train/action_std": 3.606717317135303, "train/actor_opt_grad_norm": 0.007152303835594809, "train/actor_opt_grad_steps": 21915.0, "train/actor_opt_loss": 0.002137181371304527, "train/adv_mag": 0.5269407688023208, "train/adv_max": 0.5025729144161398, "train/adv_mean": 0.004522160695148171, "train/adv_min": -0.40532895419504733, "train/adv_std": 0.03526854892442753, "train/cont_avg": 0.9982878449675324, "train/cont_loss_mean": 0.0016620156586786715, "train/cont_loss_std": 0.0356563372152931, "train/cont_neg_acc": 0.7232804255826133, "train/cont_neg_loss": 0.6608648363208409, "train/cont_pos_acc": 0.9998283320433133, "train/cont_pos_loss": 0.0005809888956373588, "train/cont_pred": 0.9983827649772942, "train/cont_rate": 0.9982878449675324, "train/dyn_loss_mean": 3.0648247545415703, "train/dyn_loss_std": 4.8877505389126865, "train/extr_critic_critic_opt_grad_norm": 1.3970423859435241, "train/extr_critic_critic_opt_grad_steps": 21915.0, "train/extr_critic_critic_opt_loss": 1.6350407190137095, "train/extr_critic_mag": 216.66488379936715, "train/extr_critic_max": 216.66488379936715, "train/extr_critic_mean": 77.19710258384804, "train/extr_critic_min": 0.21038206211932295, "train/extr_critic_std": 51.328283842507894, "train/extr_return_normed_mag": 1.3087929115666972, "train/extr_return_normed_max": 1.3087929115666972, "train/extr_return_normed_mean": 0.42972645289325095, "train/extr_return_normed_min": -0.029907188094039628, "train/extr_return_normed_std": 0.3069005595012145, "train/extr_return_rate": 0.9624746794050391, "train/extr_return_raw_mag": 226.78997128969664, "train/extr_return_raw_max": 226.78997128969664, "train/extr_return_raw_mean": 77.9599766917043, "train/extr_return_raw_min": 0.1796652747850333, "train/extr_return_raw_std": 51.95342295510428, "train/extr_reward_mag": 13.916958678852428, "train/extr_reward_max": 13.916958678852428, "train/extr_reward_mean": 0.5240056363793163, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.021746852955261, "train/image_loss_mean": 1.9444722672561547, "train/image_loss_std": 1.1507905644255798, "train/model_loss_mean": 3.843593131412159, "train/model_loss_std": 3.706767740187707, "train/model_opt_grad_norm": 13.639876266578575, "train/model_opt_grad_steps": 21915.0, "train/model_opt_loss": 3.843593131412159, "train/policy_entropy_mag": 2.5765976781968947, "train/policy_entropy_max": 2.5765976781968947, "train/policy_entropy_mean": 0.9328679105678161, "train/policy_entropy_min": 0.08022058131052302, "train/policy_entropy_std": 0.708800285667568, "train/policy_logprob_mag": 7.495152736639048, "train/policy_logprob_max": -0.009493332773495417, "train/policy_logprob_mean": -0.9343983163307239, "train/policy_logprob_min": -7.495152736639048, "train/policy_logprob_std": 1.3264786662993493, "train/policy_randomness_mag": 0.8914416366583341, "train/policy_randomness_max": 0.8914416366583341, "train/policy_randomness_mean": 0.32275015270555174, "train/policy_randomness_min": 0.02775441695536886, "train/policy_randomness_std": 0.24522807274932984, "train/post_ent_mag": 49.708889230505214, "train/post_ent_max": 49.708889230505214, "train/post_ent_mean": 39.70944151940284, "train/post_ent_min": 21.497038940330604, "train/post_ent_std": 3.4872952235209476, "train/prior_ent_mag": 68.4230034568093, "train/prior_ent_max": 68.4230034568093, "train/prior_ent_mean": 42.88663913677265, "train/prior_ent_min": 26.98005064431723, "train/prior_ent_std": 5.088342415822017, "train/rep_loss_mean": 3.0648247545415703, "train/rep_loss_std": 4.8877505389126865, "train/reward_avg": 0.661525974025974, "train/reward_loss_mean": 0.058563991715865474, "train/reward_loss_std": 0.25540113555533545, "train/reward_max_data": 26.623376623376622, "train/reward_max_pred": 13.793268953050886, "train/reward_neg_acc": 0.9641508444563135, "train/reward_neg_loss": 0.010378590609588019, "train/reward_pos_acc": 0.9893466168409818, "train/reward_pos_loss": 0.7625332447615537, "train/reward_pred": 0.5744315916067594, "train/reward_rate": 0.06441507711038962, "train_stats/mean_log_entropy": 0.7442359924316406, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.1336721399857197e-05, "report/cont_loss_std": 0.0001599850074853748, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1336721399857197e-05, "report/cont_pred": 0.9999886751174927, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.031107187271118, "report/dyn_loss_std": 4.785619735717773, "report/image_loss_mean": 2.0119941234588623, "report/image_loss_std": 1.0933384895324707, "report/model_loss_mean": 3.871366024017334, "report/model_loss_std": 3.5971524715423584, "report/post_ent_mag": 48.26220703125, "report/post_ent_max": 48.26220703125, "report/post_ent_mean": 39.931190490722656, "report/post_ent_min": 20.516921997070312, "report/post_ent_std": 3.0004525184631348, "report/prior_ent_mag": 69.6846923828125, "report/prior_ent_max": 69.6846923828125, "report/prior_ent_mean": 43.14009094238281, "report/prior_ent_min": 28.798507690429688, "report/prior_ent_std": 4.531470775604248, "report/rep_loss_mean": 3.031107187271118, "report/rep_loss_std": 4.785619735717773, "report/reward_avg": 0.498046875, "report/reward_loss_mean": 0.040696147829294205, "report/reward_loss_std": 0.1983235776424408, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.997026443481445, "report/reward_neg_acc": 0.9835560321807861, "report/reward_neg_loss": 0.004868157673627138, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7242380380630493, "report/reward_pred": 0.4335799515247345, "report/reward_rate": 0.0498046875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.06735250382917e-06, "eval/cont_loss_std": 4.570674354908988e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.06735250382917e-06, "eval/cont_pred": 0.9999949932098389, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.707451820373535, "eval/dyn_loss_std": 8.757272720336914, "eval/image_loss_mean": 4.86072301864624, "eval/image_loss_std": 2.8387248516082764, "eval/model_loss_mean": 13.448098182678223, "eval/model_loss_std": 7.697458744049072, "eval/post_ent_mag": 49.684181213378906, "eval/post_ent_max": 49.684181213378906, "eval/post_ent_mean": 38.48626708984375, "eval/post_ent_min": 28.829872131347656, "eval/post_ent_std": 3.7400991916656494, "eval/prior_ent_mag": 69.6846923828125, "eval/prior_ent_max": 69.6846923828125, "eval/prior_ent_mean": 43.37631607055664, "eval/prior_ent_min": 34.51734924316406, "eval/prior_ent_std": 5.205270767211914, "eval/rep_loss_mean": 13.707451820373535, "eval/rep_loss_std": 8.757272720336914, "eval/reward_avg": 0.224609375, "eval/reward_loss_mean": 0.36289912462234497, "eval/reward_loss_std": 2.303679943084717, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.922676086425781, "eval/reward_neg_acc": 0.9580419063568115, "eval/reward_neg_loss": 0.03129655122756958, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 14.794821739196777, "eval/reward_pred": 0.07973308861255646, "eval/reward_rate": 0.0224609375, "replay/size": 55218.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.832175907660239e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2801224444092822e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.428889274597168e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06087613105774, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 363.19546699523926, "timer/replay._sample_frac": 1.2104059405485645, "timer/replay._sample_avg": 0.0146733785954767, "timer/replay._sample_min": 0.0005614757537841797, "timer/replay._sample_max": 0.23690247535705566, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.818885564804077, "timer/env.step_frac": 0.022725007180962136, "timer/env.step_avg": 0.00440781225908473, "timer/env.step_min": 0.002526521682739258, "timer/env.step_max": 0.030248165130615234, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.66631293296814, "timer/agent.policy_frac": 0.3688128701078389, "timer/agent.policy_avg": 0.07153607817257152, "timer/agent.policy_min": 0.002943277359008789, "timer/agent.policy_max": 0.1762838363647461, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.14961791038513184, "timer/dataset_train_frac": 0.0004986251867097234, "timer/dataset_train_avg": 9.671487419853383e-05, "timer/dataset_train_min": 5.841255187988281e-05, "timer/dataset_train_max": 0.0022399425506591797, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.20549273490906, "timer/agent.train_frac": 0.6038957663236437, "timer/agent.train_avg": 0.11713347946665098, "timer/agent.train_min": 0.10268855094909668, "timer/agent.train_max": 0.2739999294281006, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25934600830078125, "timer/agent.report_frac": 0.0008643113079077546, "timer/agent.report_avg": 0.12967300415039062, "timer/agent.report_min": 0.09800839424133301, "timer/agent.report_max": 0.16133761405944824, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.9604644775390625e-05, "timer/dataset_eval_frac": 1.9864184076219613e-07, "timer/dataset_eval_avg": 5.9604644775390625e-05, "timer/dataset_eval_min": 5.9604644775390625e-05, "timer/dataset_eval_max": 5.9604644775390625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17763161659240723, "timer/agent.save_frac": 0.0005919852627332294, "timer/agent.save_avg": 0.17763161659240723, "timer/agent.save_min": 0.17763161659240723, "timer/agent.save_max": 0.17763161659240723, "fps": 20.621433738453156}
+{"step": 96952, "episode/length": 498.0, "episode/score": 500.0, "episode/reward_rate": 0.09819639278557114}
+{"step": 98512, "episode/length": 389.0, "episode/score": 480.0, "episode/reward_rate": 0.12051282051282051}
+{"step": 101312, "episode/length": 699.0, "episode/score": 570.0, "episode/reward_rate": 0.08}
+{"step": 101348, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.069996692288306, "train/action_min": 0.0, "train/action_std": 3.9105813841665946, "train/actor_opt_grad_norm": 0.006651659577243751, "train/actor_opt_grad_steps": 23460.0, "train/actor_opt_loss": 0.0013975398984433511, "train/adv_mag": 0.5138556511171403, "train/adv_max": 0.4902412043463799, "train/adv_mean": 0.003345013107055791, "train/adv_min": -0.378408214353746, "train/adv_std": 0.03229208474438037, "train/cont_avg": 0.9982925907258065, "train/cont_loss_mean": 0.0015135269674990395, "train/cont_loss_std": 0.03263481192994262, "train/cont_neg_acc": 0.7378676485489396, "train/cont_neg_loss": 0.577615148097239, "train/cont_pos_acc": 0.9997978452713259, "train/cont_pos_loss": 0.0006146297844503762, "train/cont_pred": 0.9982967718955009, "train/cont_rate": 0.9982925907258065, "train/dyn_loss_mean": 2.9987150438370245, "train/dyn_loss_std": 4.986406981560492, "train/extr_critic_critic_opt_grad_norm": 1.3531647263034698, "train/extr_critic_critic_opt_grad_steps": 23460.0, "train/extr_critic_critic_opt_loss": 1.5822940695670342, "train/extr_critic_mag": 239.01160150343372, "train/extr_critic_max": 239.01160150343372, "train/extr_critic_mean": 81.56566454979681, "train/extr_critic_min": 0.25125364949626305, "train/extr_critic_std": 55.42746116884293, "train/extr_return_normed_mag": 1.3104250407988025, "train/extr_return_normed_max": 1.3104250407988025, "train/extr_return_normed_mean": 0.42240989852336147, "train/extr_return_normed_min": -0.024769135243109155, "train/extr_return_normed_std": 0.30472799241542814, "train/extr_return_rate": 0.9507968391141584, "train/extr_return_raw_mag": 244.79083025532384, "train/extr_return_raw_max": 244.79083025532384, "train/extr_return_raw_mean": 82.17778401528635, "train/extr_return_raw_min": 0.2824777156415005, "train/extr_return_raw_std": 55.80132798225649, "train/extr_reward_mag": 13.786255762653965, "train/extr_reward_max": 13.786255762653965, "train/extr_reward_mean": 0.5419401653351322, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.0722487172772808, "train/image_loss_mean": 1.855870235350824, "train/image_loss_std": 1.0980989517704134, "train/model_loss_mean": 3.7150184923602687, "train/model_loss_std": 3.723079869054979, "train/model_opt_grad_norm": 13.965366486580141, "train/model_opt_grad_steps": 23460.0, "train/model_opt_loss": 3.7150184923602687, "train/policy_entropy_mag": 2.6144992397677513, "train/policy_entropy_max": 2.6144992397677513, "train/policy_entropy_mean": 0.9610296145562203, "train/policy_entropy_min": 0.08020994735340918, "train/policy_entropy_std": 0.7447203582332981, "train/policy_logprob_mag": 7.495225727942682, "train/policy_logprob_max": -0.009491905930542176, "train/policy_logprob_mean": -0.9613236346552448, "train/policy_logprob_min": -7.495225727942682, "train/policy_logprob_std": 1.3369436548602196, "train/policy_randomness_mag": 0.9045546743177598, "train/policy_randomness_max": 0.9045546743177598, "train/policy_randomness_mean": 0.3324934380669748, "train/policy_randomness_min": 0.027750737820902177, "train/policy_randomness_std": 0.25765556529644995, "train/post_ent_mag": 50.07133995794481, "train/post_ent_max": 50.07133995794481, "train/post_ent_mean": 40.02199896535566, "train/post_ent_min": 21.203244547690115, "train/post_ent_std": 3.480573325003347, "train/prior_ent_mag": 69.6412578951928, "train/prior_ent_max": 69.6412578951928, "train/prior_ent_mean": 43.08366423576109, "train/prior_ent_min": 27.239614941996912, "train/prior_ent_std": 5.111576994003788, "train/rep_loss_mean": 2.9987150438370245, "train/rep_loss_std": 4.986406981560492, "train/reward_avg": 0.6733870967741935, "train/reward_loss_mean": 0.05840573188277983, "train/reward_loss_std": 0.2599433819132467, "train/reward_max_data": 24.06451612903226, "train/reward_max_pred": 13.199200784006427, "train/reward_neg_acc": 0.9669425948973625, "train/reward_neg_loss": 0.009720009916852559, "train/reward_pos_acc": 0.9870303711583538, "train/reward_pos_loss": 0.754973187369685, "train/reward_pred": 0.593786387097451, "train/reward_rate": 0.06583921370967742, "train_stats/mean_log_entropy": 0.9180437922477722, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0005549087072722614, "report/cont_loss_std": 0.011308886110782623, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11623441427946091, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002150080690626055, "report/cont_pred": 0.9971487522125244, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.8359479904174805, "report/dyn_loss_std": 5.086880683898926, "report/image_loss_mean": 1.6328321695327759, "report/image_loss_std": 1.012013554573059, "report/model_loss_mean": 3.382042407989502, "report/model_loss_std": 3.66918683052063, "report/post_ent_mag": 49.86812973022461, "report/post_ent_max": 49.86812973022461, "report/post_ent_mean": 40.007598876953125, "report/post_ent_min": 16.213958740234375, "report/post_ent_std": 3.6752383708953857, "report/prior_ent_mag": 70.71983337402344, "report/prior_ent_max": 70.71983337402344, "report/prior_ent_mean": 42.947349548339844, "report/prior_ent_min": 18.818510055541992, "report/prior_ent_std": 5.506750583648682, "report/rep_loss_mean": 2.8359479904174805, "report/rep_loss_std": 5.086880683898926, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.04708678275346756, "report/reward_loss_std": 0.18302994966506958, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008490562438965, "report/reward_neg_acc": 0.9780104756355286, "report/reward_neg_loss": 0.005153979640454054, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6274610161781311, "report/reward_pred": 0.6248354911804199, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.003503071144223213, "eval/cont_loss_std": 0.061656609177589417, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.3821640014648438, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008051047916524112, "eval/cont_pred": 0.9987447261810303, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.704658508300781, "eval/dyn_loss_std": 9.049999237060547, "eval/image_loss_mean": 5.292411804199219, "eval/image_loss_std": 3.4629056453704834, "eval/model_loss_mean": 13.943260192871094, "eval/model_loss_std": 8.437280654907227, "eval/post_ent_mag": 50.16082000732422, "eval/post_ent_max": 50.16082000732422, "eval/post_ent_mean": 38.9982795715332, "eval/post_ent_min": 27.095792770385742, "eval/post_ent_std": 3.9160172939300537, "eval/prior_ent_mag": 70.71983337402344, "eval/prior_ent_max": 70.71983337402344, "eval/prior_ent_mean": 44.743492126464844, "eval/prior_ent_min": 32.97898864746094, "eval/prior_ent_std": 5.586122989654541, "eval/rep_loss_mean": 13.704658508300781, "eval/rep_loss_std": 9.049999237060547, "eval/reward_avg": 0.33203125, "eval/reward_loss_mean": 0.42455074191093445, "eval/reward_loss_std": 2.4070236682891846, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988003730773926, "eval/reward_neg_acc": 0.9393938779830933, "eval/reward_neg_loss": 0.04872133210301399, "eval/reward_pos_acc": 0.20588235557079315, "eval/reward_pos_loss": 11.367818832397461, "eval/reward_pred": 0.13397684693336487, "eval/reward_rate": 0.033203125, "replay/size": 56768.0, "replay/inserts": 1550.0, "replay/samples": 24800.0, "replay/insert_wait_avg": 4.944647512128276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3164935573454825e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0937144756317, "timer/replay._sample_count": 24800.0, "timer/replay._sample_total": 371.05333042144775, "timer/replay._sample_frac": 1.2364581879690724, "timer/replay._sample_avg": 0.014961827839574506, "timer/replay._sample_min": 0.0004570484161376953, "timer/replay._sample_max": 0.042435646057128906, "timer/env.step_count": 1550.0, "timer/env.step_total": 6.797662258148193, "timer/env.step_frac": 0.022651798189195924, "timer/env.step_avg": 0.004385588553643995, "timer/env.step_min": 0.002421855926513672, "timer/env.step_max": 0.029241561889648438, "timer/agent.policy_count": 1550.0, "timer/agent.policy_total": 111.1503415107727, "timer/agent.policy_frac": 0.3703854367792777, "timer/agent.policy_avg": 0.07170989774888561, "timer/agent.policy_min": 0.0028052330017089844, "timer/agent.policy_max": 0.08755350112915039, "timer/dataset_train_count": 1550.0, "timer/dataset_train_total": 0.1520853042602539, "timer/dataset_train_frac": 0.000506792701493265, "timer/dataset_train_avg": 9.811955113564769e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.00034308433532714844, "timer/agent.train_count": 1550.0, "timer/agent.train_total": 180.76002383232117, "timer/agent.train_frac": 0.6023452512098493, "timer/agent.train_avg": 0.11661937021440075, "timer/agent.train_min": 0.10232424736022949, "timer/agent.train_max": 0.20461082458496094, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26224422454833984, "timer/agent.report_frac": 0.000873874432880315, "timer/agent.report_avg": 0.13112211227416992, "timer/agent.report_min": 0.1019284725189209, "timer/agent.report_max": 0.16031575202941895, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.031990051269531e-05, "timer/dataset_eval_frac": 2.0100354523617797e-07, "timer/dataset_eval_avg": 6.031990051269531e-05, "timer/dataset_eval_min": 6.031990051269531e-05, "timer/dataset_eval_max": 6.031990051269531e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.659052464573325}
+{"step": 102964, "episode/length": 412.0, "episode/score": 480.0, "episode/reward_rate": 0.1162227602905569}
+{"step": 105228, "episode/length": 565.0, "episode/score": 570.0, "episode/reward_rate": 0.0989399293286219}
+{"step": 106792, "episode/length": 390.0, "episode/score": 470.0, "episode/reward_rate": 0.11764705882352941}
+{"step": 107540, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.116602350050403, "train/action_min": 0.0, "train/action_std": 3.814914632612659, "train/actor_opt_grad_norm": 0.006472148211492646, "train/actor_opt_grad_steps": 25010.0, "train/actor_opt_loss": 0.001671884524154349, "train/adv_mag": 0.4892391383647919, "train/adv_max": 0.4631332632034056, "train/adv_mean": 0.003296466359801519, "train/adv_min": -0.3693067990003094, "train/adv_std": 0.03057841425461154, "train/cont_avg": 0.9985446068548387, "train/cont_loss_mean": 0.0015105952049328064, "train/cont_loss_std": 0.03373171097257528, "train/cont_neg_acc": 0.7720959604238019, "train/cont_neg_loss": 0.5924395946139791, "train/cont_pos_acc": 0.9998421526724293, "train/cont_pos_loss": 0.000581846620125068, "train/cont_pred": 0.99853745583565, "train/cont_rate": 0.9985446068548387, "train/dyn_loss_mean": 2.9480407207242902, "train/dyn_loss_std": 5.043006398600917, "train/extr_critic_critic_opt_grad_norm": 1.3860963209982842, "train/extr_critic_critic_opt_grad_steps": 25010.0, "train/extr_critic_critic_opt_loss": 1.5664861894422961, "train/extr_critic_mag": 246.89258097987022, "train/extr_critic_max": 246.89258097987022, "train/extr_critic_mean": 85.99629656883978, "train/extr_critic_min": 0.130533782897457, "train/extr_critic_std": 56.8536933283652, "train/extr_return_normed_mag": 1.2963140006988279, "train/extr_return_normed_max": 1.2963140006988279, "train/extr_return_normed_mean": 0.41757218539714813, "train/extr_return_normed_min": -0.029169866142253722, "train/extr_return_normed_std": 0.2952690784008272, "train/extr_return_rate": 0.9605297015559289, "train/extr_return_raw_mag": 256.69259889664187, "train/extr_return_raw_max": 256.69259889664187, "train/extr_return_raw_mean": 86.6332639878796, "train/extr_return_raw_min": 0.13847291755580132, "train/extr_return_raw_std": 57.15950351838143, "train/extr_reward_mag": 14.186817495284542, "train/extr_reward_max": 14.186817495284542, "train/extr_reward_mean": 0.559364737233808, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.113513579676228, "train/image_loss_mean": 1.8018275891580888, "train/image_loss_std": 1.0924697253011888, "train/model_loss_mean": 3.6293913256737493, "train/model_loss_std": 3.7536118061311785, "train/model_opt_grad_norm": 12.736040361465946, "train/model_opt_grad_steps": 25010.0, "train/model_opt_loss": 3.6293913256737493, "train/policy_entropy_mag": 2.635549343785932, "train/policy_entropy_max": 2.635549343785932, "train/policy_entropy_mean": 0.9567263918538247, "train/policy_entropy_min": 0.08020613635739972, "train/policy_entropy_std": 0.7525128149217175, "train/policy_logprob_mag": 7.495248865312146, "train/policy_logprob_max": -0.009491400847271566, "train/policy_logprob_mean": -0.9562678794707021, "train/policy_logprob_min": -7.495248865312146, "train/policy_logprob_std": 1.3359389628133467, "train/policy_randomness_mag": 0.9118375147542646, "train/policy_randomness_max": 0.9118375147542646, "train/policy_randomness_mean": 0.3310046212327096, "train/policy_randomness_min": 0.027749419356546096, "train/policy_randomness_std": 0.2603515713445602, "train/post_ent_mag": 50.22107964792559, "train/post_ent_max": 50.22107964792559, "train/post_ent_mean": 40.326766992384385, "train/post_ent_min": 20.751287644909276, "train/post_ent_std": 3.439024935999224, "train/prior_ent_mag": 70.73351041732296, "train/prior_ent_max": 70.73351041732296, "train/prior_ent_mean": 43.325301902524885, "train/prior_ent_min": 26.847712916712606, "train/prior_ent_std": 5.14430481080086, "train/rep_loss_mean": 2.9480407207242902, "train/rep_loss_std": 5.043006398600917, "train/reward_avg": 0.6712449596774194, "train/reward_loss_mean": 0.05722874052101566, "train/reward_loss_std": 0.25216808261409884, "train/reward_max_data": 20.322580645161292, "train/reward_max_pred": 13.362942978643602, "train/reward_neg_acc": 0.9688335607128759, "train/reward_neg_loss": 0.009246277493695098, "train/reward_pos_acc": 0.9887213703124754, "train/reward_pos_loss": 0.7383639266414027, "train/reward_pred": 0.5976408575811694, "train/reward_rate": 0.06597782258064516, "train_stats/mean_log_entropy": 0.7770682374636332, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.7081156076746993e-05, "report/cont_loss_std": 0.0004176294314675033, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.006994720082730055, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.0270170352887362e-05, "report/cont_pred": 0.9990100860595703, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7902181148529053, "report/dyn_loss_std": 5.058316707611084, "report/image_loss_mean": 1.766037940979004, "report/image_loss_std": 0.9865362644195557, "report/model_loss_mean": 3.500622034072876, "report/model_loss_std": 3.6632845401763916, "report/post_ent_mag": 50.199378967285156, "report/post_ent_max": 50.199378967285156, "report/post_ent_mean": 40.03754806518555, "report/post_ent_min": 28.43734359741211, "report/post_ent_std": 3.460266351699829, "report/prior_ent_mag": 71.1999740600586, "report/prior_ent_max": 71.1999740600586, "report/prior_ent_mean": 42.7669677734375, "report/prior_ent_min": 32.42087173461914, "report/prior_ent_std": 5.097417831420898, "report/rep_loss_mean": 2.7902181148529053, "report/rep_loss_std": 5.058316707611084, "report/reward_avg": 0.6640625, "report/reward_loss_mean": 0.06042627990245819, "report/reward_loss_std": 0.27690577507019043, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.10581398010254, "report/reward_neg_acc": 0.9728317260742188, "report/reward_neg_loss": 0.011729645542800426, "report/reward_pos_acc": 0.9850746393203735, "report/reward_pos_loss": 0.7559886574745178, "report/reward_pred": 0.5973180532455444, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0028422677423805, "eval/cont_loss_std": 0.05658331140875816, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.7861969470977783, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.002076525706797838, "eval/cont_pred": 0.9983091354370117, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.36882495880127, "eval/dyn_loss_std": 8.366488456726074, "eval/image_loss_mean": 5.419399261474609, "eval/image_loss_std": 3.088754892349243, "eval/model_loss_mean": 14.460437774658203, "eval/model_loss_std": 7.702531814575195, "eval/post_ent_mag": 52.91291046142578, "eval/post_ent_max": 52.91291046142578, "eval/post_ent_mean": 39.44083786010742, "eval/post_ent_min": 29.774181365966797, "eval/post_ent_std": 3.653843879699707, "eval/prior_ent_mag": 71.1999740600586, "eval/prior_ent_max": 71.1999740600586, "eval/prior_ent_mean": 44.51904296875, "eval/prior_ent_min": 30.82401466369629, "eval/prior_ent_std": 5.14742374420166, "eval/rep_loss_mean": 14.36882495880127, "eval/rep_loss_std": 8.366488456726074, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.41690176725387573, "eval/reward_loss_std": 2.451430082321167, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.921520233154297, "eval/reward_neg_acc": 0.9606854319572449, "eval/reward_neg_loss": 0.023976963013410568, "eval/reward_pos_acc": 0.09375, "eval/reward_pos_loss": 12.597570419311523, "eval/reward_pred": 0.07019227743148804, "eval/reward_rate": 0.03125, "replay/size": 58316.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9809152765791545e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3296591065034694e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.339482307434082e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0115463733673, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 377.4679822921753, "timer/replay._sample_frac": 1.2581781829903729, "timer/replay._sample_avg": 0.015240147863863667, "timer/replay._sample_min": 0.0004513263702392578, "timer/replay._sample_max": 0.048267364501953125, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8228232860565186, "timer/env.step_frac": 0.02274186899981992, "timer/env.step_avg": 0.004407508582723849, "timer/env.step_min": 0.0024192333221435547, "timer/env.step_max": 0.03317856788635254, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.96830987930298, "timer/agent.policy_frac": 0.36988013035072265, "timer/agent.policy_avg": 0.07168495470239211, "timer/agent.policy_min": 0.002824068069458008, "timer/agent.policy_max": 0.08675265312194824, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15360212326049805, "timer/dataset_train_frac": 0.0005119873722104638, "timer/dataset_train_avg": 9.922617781685921e-05, "timer/dataset_train_min": 5.698204040527344e-05, "timer/dataset_train_max": 0.00029206275939941406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.83835196495056, "timer/agent.train_frac": 0.6027713071412774, "timer/agent.train_avg": 0.11682064080423163, "timer/agent.train_min": 0.10328912734985352, "timer/agent.train_max": 0.20055818557739258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2655494213104248, "timer/agent.report_frac": 0.0008851306708707336, "timer/agent.report_avg": 0.1327747106552124, "timer/agent.report_min": 0.09786128997802734, "timer/agent.report_max": 0.16768813133239746, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.749961853027344e-05, "timer/dataset_eval_frac": 2.9165416994111054e-07, "timer/dataset_eval_avg": 8.749961853027344e-05, "timer/dataset_eval_min": 8.749961853027344e-05, "timer/dataset_eval_max": 8.749961853027344e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63813704369876}
+{"step": 108164, "episode/length": 342.0, "episode/score": 460.0, "episode/reward_rate": 0.13411078717201166}
+{"step": 109608, "episode/length": 360.0, "episode/score": 500.0, "episode/reward_rate": 0.13573407202216067}
+{"step": 111272, "episode/length": 415.0, "episode/score": 350.0, "episode/reward_rate": 0.08173076923076923}
+{"step": 113388, "episode/length": 528.0, "episode/score": 910.0, "episode/reward_rate": 0.07939508506616257}
+{"step": 113728, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.171788369455646, "train/action_min": 0.0, "train/action_std": 3.746647297951483, "train/actor_opt_grad_norm": 0.006088169456850137, "train/actor_opt_grad_steps": 26560.0, "train/actor_opt_loss": 0.0009366153943354279, "train/adv_mag": 0.4741095810167251, "train/adv_max": 0.4409348556110936, "train/adv_mean": 0.002385632777969154, "train/adv_min": -0.37221558574707275, "train/adv_std": 0.028363332777254044, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0015061367401226415, "train/cont_loss_std": 0.0318985167993428, "train/cont_neg_acc": 0.7833891394548118, "train/cont_neg_loss": 0.5620367133207083, "train/cont_pos_acc": 0.9997725452146222, "train/cont_pos_loss": 0.0006345387051235393, "train/cont_pred": 0.9983073426831153, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.890676539944064, "train/dyn_loss_std": 5.15324070530553, "train/extr_critic_critic_opt_grad_norm": 1.3008903476499742, "train/extr_critic_critic_opt_grad_steps": 26560.0, "train/extr_critic_critic_opt_loss": 1.4982108039240682, "train/extr_critic_mag": 261.11197332566786, "train/extr_critic_max": 261.11197332566786, "train/extr_critic_mean": 92.36514269921088, "train/extr_critic_min": 0.3685221710512715, "train/extr_critic_std": 60.66310686911306, "train/extr_return_normed_mag": 1.2729001698955413, "train/extr_return_normed_max": 1.2729001698955413, "train/extr_return_normed_mean": 0.43298063287811894, "train/extr_return_normed_min": -0.02690938064648259, "train/extr_return_normed_std": 0.30251409228770965, "train/extr_return_rate": 0.9582107320908577, "train/extr_return_raw_mag": 261.9528406943044, "train/extr_return_raw_max": 261.9528406943044, "train/extr_return_raw_mean": 92.84459464780745, "train/extr_return_raw_min": 0.2950966549496497, "train/extr_return_raw_std": 60.917019517960085, "train/extr_reward_mag": 15.84164653901131, "train/extr_reward_max": 15.84164653901131, "train/extr_reward_mean": 0.5837628648165734, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.179524008689388, "train/image_loss_mean": 1.7174704067168698, "train/image_loss_std": 1.0572420500939892, "train/model_loss_mean": 3.508242570200274, "train/model_loss_std": 3.791232102917087, "train/model_opt_grad_norm": 12.78145326798962, "train/model_opt_grad_steps": 26560.0, "train/model_opt_loss": 3.508242570200274, "train/policy_entropy_mag": 2.6312310095756284, "train/policy_entropy_max": 2.6312310095756284, "train/policy_entropy_mean": 0.9532857483433139, "train/policy_entropy_min": 0.08020774087598247, "train/policy_entropy_std": 0.7408957262193003, "train/policy_logprob_mag": 7.495277457083425, "train/policy_logprob_max": -0.009491618692634566, "train/policy_logprob_mean": -0.9524288662018314, "train/policy_logprob_min": -7.495277457083425, "train/policy_logprob_std": 1.3300245400398008, "train/policy_randomness_mag": 0.9103434716501544, "train/policy_randomness_max": 0.9103434716501544, "train/policy_randomness_mean": 0.32981424149005645, "train/policy_randomness_min": 0.027749974532954153, "train/policy_randomness_std": 0.2563323348760605, "train/post_ent_mag": 50.62008514404297, "train/post_ent_max": 50.62008514404297, "train/post_ent_mean": 40.50448290917181, "train/post_ent_min": 20.45335785650438, "train/post_ent_std": 3.4928207551279375, "train/prior_ent_mag": 71.68397925592238, "train/prior_ent_max": 71.68397925592238, "train/prior_ent_mean": 43.46036029938728, "train/prior_ent_min": 25.626772714430285, "train/prior_ent_std": 5.232154123244747, "train/rep_loss_mean": 2.890676539944064, "train/rep_loss_std": 5.15324070530553, "train/reward_avg": 0.6864289314516129, "train/reward_loss_mean": 0.05486014260640067, "train/reward_loss_std": 0.24653427855622384, "train/reward_max_data": 24.06451612903226, "train/reward_max_pred": 16.00405800727106, "train/reward_neg_acc": 0.9732124501659024, "train/reward_neg_loss": 0.00785834002008121, "train/reward_pos_acc": 0.9910652291390204, "train/reward_pos_loss": 0.7105091998654027, "train/reward_pred": 0.6206406937491509, "train/reward_rate": 0.06713709677419355, "train_stats/mean_log_entropy": 0.7474707514047623, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.516749064961914e-06, "report/cont_loss_std": 9.48136075749062e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003306168073322624, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.200912477856036e-06, "report/cont_pred": 0.9990166425704956, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.738337993621826, "report/dyn_loss_std": 5.256640434265137, "report/image_loss_mean": 1.5565872192382812, "report/image_loss_std": 0.9620033502578735, "report/model_loss_mean": 3.2171850204467773, "report/model_loss_std": 3.75736665725708, "report/post_ent_mag": 49.84254837036133, "report/post_ent_max": 49.84254837036133, "report/post_ent_mean": 41.02577590942383, "report/post_ent_min": 20.405742645263672, "report/post_ent_std": 3.4003682136535645, "report/prior_ent_mag": 72.01425170898438, "report/prior_ent_max": 72.01425170898438, "report/prior_ent_mean": 43.671260833740234, "report/prior_ent_min": 27.625534057617188, "report/prior_ent_std": 4.9706268310546875, "report/rep_loss_mean": 2.738337993621826, "report/rep_loss_std": 5.256640434265137, "report/reward_avg": 0.244140625, "report/reward_loss_mean": 0.017587631940841675, "report/reward_loss_std": 0.10198506712913513, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.002193450927734, "report/reward_neg_acc": 0.9839839935302734, "report/reward_neg_loss": 0.003017920535057783, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5997933149337769, "report/reward_pred": 0.23220396041870117, "report/reward_rate": 0.0244140625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.8155715224565938e-06, "eval/cont_loss_std": 2.228426637884695e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8155715224565938e-06, "eval/cont_pred": 0.9999982118606567, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.079886436462402, "eval/dyn_loss_std": 10.230541229248047, "eval/image_loss_mean": 4.90562629699707, "eval/image_loss_std": 2.8495278358459473, "eval/model_loss_mean": 14.634346008300781, "eval/model_loss_std": 8.636077880859375, "eval/post_ent_mag": 50.185462951660156, "eval/post_ent_max": 50.185462951660156, "eval/post_ent_mean": 39.15668487548828, "eval/post_ent_min": 28.654603958129883, "eval/post_ent_std": 3.46531343460083, "eval/prior_ent_mag": 72.01425170898438, "eval/prior_ent_max": 72.01425170898438, "eval/prior_ent_mean": 44.242164611816406, "eval/prior_ent_min": 34.11616516113281, "eval/prior_ent_std": 4.812845706939697, "eval/rep_loss_mean": 15.079886436462402, "eval/rep_loss_std": 10.230541229248047, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.6807867288589478, "eval/reward_loss_std": 3.2059051990509033, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.975814819335938, "eval/reward_neg_acc": 0.9466666579246521, "eval/reward_neg_loss": 0.03432470187544823, "eval/reward_pos_acc": 0.06122449040412903, "eval/reward_pos_loss": 13.544061660766602, "eval/reward_pred": 0.08691570907831192, "eval/reward_rate": 0.0478515625, "replay/size": 59863.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.855755767131822e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3314914765015831e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 7.3909759521484375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11669278144836, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 380.17280435562134, "timer/replay._sample_frac": 1.266749945936768, "timer/replay._sample_avg": 0.015359276194070029, "timer/replay._sample_min": 0.0004706382751464844, "timer/replay._sample_max": 0.20088720321655273, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.806710481643677, "timer/env.step_frac": 0.02268021288172889, "timer/env.step_avg": 0.00439994213422345, "timer/env.step_min": 0.0024666786193847656, "timer/env.step_max": 0.03469443321228027, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.06919431686401, "timer/agent.policy_frac": 0.3700866929043066, "timer/agent.policy_avg": 0.07179650569933033, "timer/agent.policy_min": 0.002963542938232422, "timer/agent.policy_max": 0.16332006454467773, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15535926818847656, "timer/dataset_train_frac": 0.0005176628688948423, "timer/dataset_train_avg": 0.00010042615913928673, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.00025725364685058594, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.8516058921814, "timer/agent.train_frac": 0.602604287739108, "timer/agent.train_avg": 0.11690472261938034, "timer/agent.train_min": 0.10381579399108887, "timer/agent.train_max": 0.20119118690490723, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25411057472229004, "timer/agent.report_frac": 0.0008467059008521696, "timer/agent.report_avg": 0.12705528736114502, "timer/agent.report_min": 0.09608197212219238, "timer/agent.report_max": 0.15802860260009766, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.008148193359375e-05, "timer/dataset_eval_frac": 2.0019373589907716e-07, "timer/dataset_eval_avg": 6.008148193359375e-05, "timer/dataset_eval_min": 6.008148193359375e-05, "timer/dataset_eval_max": 6.008148193359375e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10321998596191406, "timer/agent.save_frac": 0.00034393283827461457, "timer/agent.save_avg": 0.10321998596191406, "timer/agent.save_min": 0.10321998596191406, "timer/agent.save_max": 0.10321998596191406, "fps": 20.617464917776335}
+{"step": 115052, "episode/length": 415.0, "episode/score": 480.0, "episode/reward_rate": 0.11298076923076923}
+{"step": 116500, "episode/length": 361.0, "episode/score": 500.0, "episode/reward_rate": 0.13812154696132597}
+{"step": 117728, "episode/length": 306.0, "episode/score": 420.0, "episode/reward_rate": 0.13680781758957655}
+{"step": 119724, "episode/length": 498.0, "episode/score": 480.0, "episode/reward_rate": 0.09619238476953908}
+{"step": 119920, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.131264963457662, "train/action_min": 0.0, "train/action_std": 3.8436058721234723, "train/actor_opt_grad_norm": 0.0062747369640536845, "train/actor_opt_grad_steps": 28110.0, "train/actor_opt_loss": 0.0012983597323322864, "train/adv_mag": 0.4736020113191297, "train/adv_max": 0.44557705069741893, "train/adv_mean": 0.0025538750291161706, "train/adv_min": -0.35709076850645005, "train/adv_std": 0.029014554475584337, "train/cont_avg": 0.9982232862903225, "train/cont_loss_mean": 0.0015592180671407526, "train/cont_loss_std": 0.03265155101629892, "train/cont_neg_acc": 0.7825641052081035, "train/cont_neg_loss": 0.5309369070891989, "train/cont_pos_acc": 0.9998231645553343, "train/cont_pos_loss": 0.0005666067296935521, "train/cont_pred": 0.9982554178084097, "train/cont_rate": 0.9982232862903225, "train/dyn_loss_mean": 2.965997369827763, "train/dyn_loss_std": 5.2585194772289645, "train/extr_critic_critic_opt_grad_norm": 1.3310428780894126, "train/extr_critic_critic_opt_grad_steps": 28110.0, "train/extr_critic_critic_opt_loss": 1.5355266171116984, "train/extr_critic_mag": 269.4060031029486, "train/extr_critic_max": 269.4060031029486, "train/extr_critic_mean": 94.60665534234816, "train/extr_critic_min": 0.16787398476754464, "train/extr_critic_std": 63.56735807849515, "train/extr_return_normed_mag": 1.2718463186294802, "train/extr_return_normed_max": 1.2718463186294802, "train/extr_return_normed_mean": 0.4292885484233979, "train/extr_return_normed_min": -0.025654182342752335, "train/extr_return_normed_std": 0.30496186392922553, "train/extr_return_rate": 0.954719469624181, "train/extr_return_raw_mag": 271.1558731571321, "train/extr_return_raw_max": 271.1558731571321, "train/extr_return_raw_mean": 95.14030540220199, "train/extr_return_raw_min": 0.09454343462092502, "train/extr_return_raw_std": 63.733604603428994, "train/extr_reward_mag": 19.05649551268547, "train/extr_reward_max": 19.05649551268547, "train/extr_reward_mean": 0.6078913485811602, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.2451994157606556, "train/image_loss_mean": 1.672230561317936, "train/image_loss_std": 1.0575747220746932, "train/model_loss_mean": 3.5110038465069184, "train/model_loss_std": 3.861461422520299, "train/model_opt_grad_norm": 13.220772524802916, "train/model_opt_grad_steps": 28110.0, "train/model_opt_loss": 3.5110038465069184, "train/policy_entropy_mag": 2.627412400707122, "train/policy_entropy_max": 2.627412400707122, "train/policy_entropy_mean": 0.9743772399040961, "train/policy_entropy_min": 0.08020401515306964, "train/policy_entropy_std": 0.7460348240790828, "train/policy_logprob_mag": 7.495218230832007, "train/policy_logprob_max": -0.009491112858297363, "train/policy_logprob_mean": -0.9730078412640479, "train/policy_logprob_min": -7.495218230832007, "train/policy_logprob_std": 1.330108094215393, "train/policy_randomness_mag": 0.9090223262386937, "train/policy_randomness_max": 0.9090223262386937, "train/policy_randomness_mean": 0.3371113969433692, "train/policy_randomness_min": 0.027748685486374363, "train/policy_randomness_std": 0.25811033883402423, "train/post_ent_mag": 51.377000181136594, "train/post_ent_max": 51.377000181136594, "train/post_ent_mean": 40.92876281738281, "train/post_ent_min": 20.1885436888664, "train/post_ent_std": 3.601903026334701, "train/prior_ent_mag": 72.63733254709551, "train/prior_ent_max": 72.63733254709551, "train/prior_ent_mean": 43.918960866620466, "train/prior_ent_min": 25.989858455042686, "train/prior_ent_std": 5.364434436059767, "train/rep_loss_mean": 2.965997369827763, "train/rep_loss_std": 5.2585194772289645, "train/reward_avg": 0.723664314516129, "train/reward_loss_mean": 0.05761566520217926, "train/reward_loss_std": 0.2495983132431584, "train/reward_max_data": 36.32258064516129, "train/reward_max_pred": 16.9063540181806, "train/reward_neg_acc": 0.9707798296405423, "train/reward_neg_loss": 0.0086330552472763, "train/reward_pos_acc": 0.9897587741574934, "train/reward_pos_loss": 0.7164520282899179, "train/reward_pred": 0.6438776500763431, "train/reward_rate": 0.0696257560483871, "train_stats/mean_log_entropy": 0.7727629542350769, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.001072257524356246, "report/cont_loss_std": 0.03002985566854477, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.06532027572393417, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.001009453902952373, "report/cont_pred": 0.998412013053894, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.641958236694336, "report/dyn_loss_std": 5.247948169708252, "report/image_loss_mean": 1.5719871520996094, "report/image_loss_std": 1.0430781841278076, "report/model_loss_mean": 3.203484296798706, "report/model_loss_std": 3.8099234104156494, "report/post_ent_mag": 52.312774658203125, "report/post_ent_max": 52.312774658203125, "report/post_ent_mean": 41.303672790527344, "report/post_ent_min": 19.035839080810547, "report/post_ent_std": 3.831791877746582, "report/prior_ent_mag": 73.053955078125, "report/prior_ent_max": 73.053955078125, "report/prior_ent_mean": 44.02222442626953, "report/prior_ent_min": 24.329547882080078, "report/prior_ent_std": 5.332783222198486, "report/rep_loss_mean": 2.641958236694336, "report/rep_loss_std": 5.247948169708252, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.04524994641542435, "report/reward_loss_std": 0.18929758667945862, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.007393836975098, "report/reward_neg_acc": 0.9812108874320984, "report/reward_neg_loss": 0.004314809571951628, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6394296288490295, "report/reward_pred": 0.5989025831222534, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001578873605467379, "eval/cont_loss_std": 0.033838775008916855, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.8651199340820312, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007347475620917976, "eval/cont_pred": 0.9990246295928955, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.934792518615723, "eval/dyn_loss_std": 9.020936965942383, "eval/image_loss_mean": 4.6504807472229, "eval/image_loss_std": 2.907381772994995, "eval/model_loss_mean": 12.869865417480469, "eval/model_loss_std": 7.986644268035889, "eval/post_ent_mag": 52.024654388427734, "eval/post_ent_max": 52.024654388427734, "eval/post_ent_mean": 40.93798828125, "eval/post_ent_min": 28.45954132080078, "eval/post_ent_std": 3.549592971801758, "eval/prior_ent_mag": 73.053955078125, "eval/prior_ent_max": 73.053955078125, "eval/prior_ent_mean": 46.167850494384766, "eval/prior_ent_min": 34.734493255615234, "eval/prior_ent_std": 5.132050514221191, "eval/rep_loss_mean": 12.934792518615723, "eval/rep_loss_std": 9.020936965942383, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.4569298028945923, "eval/reward_loss_std": 2.3945295810699463, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.95016098022461, "eval/reward_neg_acc": 0.9422491788864136, "eval/reward_neg_loss": 0.03370290249586105, "eval/reward_pos_acc": 0.0810810774564743, "eval/reward_pos_loss": 11.746794700622559, "eval/reward_pred": 0.1089320033788681, "eval/reward_rate": 0.0361328125, "replay/size": 61411.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.862784107218109e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234984197049794e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9371509552001953e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1316673755646, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 379.6097779273987, "timer/replay._sample_frac": 1.2648108120239794, "timer/replay._sample_avg": 0.015326622170841355, "timer/replay._sample_min": 0.00044465065002441406, "timer/replay._sample_max": 0.04435920715332031, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.863364934921265, "timer/env.step_frac": 0.022867846618573946, "timer/env.step_avg": 0.00443369827837291, "timer/env.step_min": 0.0023202896118164062, "timer/env.step_max": 0.03109455108642578, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.09150242805481, "timer/agent.policy_frac": 0.3701425557638421, "timer/agent.policy_avg": 0.07176453645223178, "timer/agent.policy_min": 0.003062009811401367, "timer/agent.policy_max": 0.0861959457397461, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15385198593139648, "timer/dataset_train_frac": 0.0005126149708783528, "timer/dataset_train_avg": 9.938758781097964e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.00027823448181152344, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.85200428962708, "timer/agent.train_frac": 0.6025755491616319, "timer/agent.train_avg": 0.116829460135418, "timer/agent.train_min": 0.10388588905334473, "timer/agent.train_max": 0.20202302932739258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19525909423828125, "timer/agent.report_frac": 0.0006505781144178536, "timer/agent.report_avg": 0.09762954711914062, "timer/agent.report_min": 0.09718894958496094, "timer/agent.report_max": 0.09807014465332031, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.888938903808594e-05, "timer/dataset_eval_frac": 1.9621184779677286e-07, "timer/dataset_eval_avg": 5.888938903808594e-05, "timer/dataset_eval_min": 5.888938903808594e-05, "timer/dataset_eval_max": 5.888938903808594e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62969552372082}
+{"step": 121260, "episode/length": 383.0, "episode/score": 460.0, "episode/reward_rate": 0.1171875}
+{"step": 123416, "episode/length": 538.0, "episode/score": 1090.0, "episode/reward_rate": 0.11131725417439703}
+{"step": 125236, "episode/length": 454.0, "episode/score": 500.0, "episode/reward_rate": 0.10989010989010989}
+{"step": 126108, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.038385960962865, "train/action_min": 0.0, "train/action_std": 3.884924151680686, "train/actor_opt_grad_norm": 0.006149806826097237, "train/actor_opt_grad_steps": 29655.0, "train/actor_opt_loss": 0.0009868810907864354, "train/adv_mag": 0.48017972165888007, "train/adv_max": 0.4591787473915459, "train/adv_mean": 0.0023664368460768774, "train/adv_min": -0.3362315302932417, "train/adv_std": 0.0282728611673047, "train/cont_avg": 0.9981229707792207, "train/cont_loss_mean": 0.0016643451538941787, "train/cont_loss_std": 0.03596008988273746, "train/cont_neg_acc": 0.7640547292001212, "train/cont_neg_loss": 0.5548400857304258, "train/cont_pos_acc": 0.9998219400257259, "train/cont_pos_loss": 0.0005824629567649487, "train/cont_pred": 0.9981875760214669, "train/cont_rate": 0.9981229707792207, "train/dyn_loss_mean": 2.878765423576553, "train/dyn_loss_std": 5.241650946728595, "train/extr_critic_critic_opt_grad_norm": 1.3082358469436695, "train/extr_critic_critic_opt_grad_steps": 29655.0, "train/extr_critic_critic_opt_loss": 1.5261849931308202, "train/extr_critic_mag": 271.55440194266185, "train/extr_critic_max": 271.55440194266185, "train/extr_critic_mean": 97.0331777349695, "train/extr_critic_min": 0.37144350231467904, "train/extr_critic_std": 64.46482759946352, "train/extr_return_normed_mag": 1.2933971758012648, "train/extr_return_normed_max": 1.2933971758012648, "train/extr_return_normed_mean": 0.4327689575684535, "train/extr_return_normed_min": -0.026125304035044143, "train/extr_return_normed_std": 0.3049849724614775, "train/extr_return_rate": 0.9617775636059898, "train/extr_return_raw_mag": 279.91572491534345, "train/extr_return_raw_max": 279.91572491534345, "train/extr_return_raw_mean": 97.53428196597409, "train/extr_return_raw_min": 0.27380818517896793, "train/extr_return_raw_std": 64.67506577132585, "train/extr_reward_mag": 27.125334504362826, "train/extr_reward_max": 27.125334504362826, "train/extr_reward_mean": 0.6154349609822422, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.312168837367714, "train/image_loss_mean": 1.5988922010768543, "train/image_loss_std": 1.0120329667221417, "train/model_loss_mean": 3.3852975027901784, "train/model_loss_std": 3.812399342462614, "train/model_opt_grad_norm": 12.34241222715997, "train/model_opt_grad_steps": 29655.0, "train/model_opt_loss": 3.3852975027901784, "train/policy_entropy_mag": 2.625355496034994, "train/policy_entropy_max": 2.625355496034994, "train/policy_entropy_mean": 0.9549966299688661, "train/policy_entropy_min": 0.08020777685882209, "train/policy_entropy_std": 0.7336934007607497, "train/policy_logprob_mag": 7.495320013591221, "train/policy_logprob_max": -0.00949162295596166, "train/policy_logprob_mean": -0.9550103626467965, "train/policy_logprob_min": -7.495320013591221, "train/policy_logprob_std": 1.3200513279283201, "train/policy_randomness_mag": 0.9083106839037561, "train/policy_randomness_max": 0.9083106839037561, "train/policy_randomness_mean": 0.33040616738718825, "train/policy_randomness_min": 0.027749986932068677, "train/policy_randomness_std": 0.25384049998088315, "train/post_ent_mag": 52.136819121125455, "train/post_ent_max": 52.136819121125455, "train/post_ent_mean": 41.244956846361035, "train/post_ent_min": 20.767202389704718, "train/post_ent_std": 3.6667691778827023, "train/prior_ent_mag": 73.47221622219334, "train/prior_ent_max": 73.47221622219334, "train/prior_ent_mean": 44.168333350838004, "train/prior_ent_min": 26.09321963322627, "train/prior_ent_std": 5.47889316856087, "train/rep_loss_mean": 2.878765423576553, "train/rep_loss_std": 5.241650946728595, "train/reward_avg": 0.7284902597402597, "train/reward_loss_mean": 0.057481718116572926, "train/reward_loss_std": 0.2472869757708017, "train/reward_max_data": 33.246753246753244, "train/reward_max_pred": 22.65848785871035, "train/reward_neg_acc": 0.9712748829420511, "train/reward_neg_loss": 0.008580804149342048, "train/reward_pos_acc": 0.9912330121188969, "train/reward_pos_loss": 0.7122701313588526, "train/reward_pred": 0.6594894725780982, "train/reward_rate": 0.07043298498376624, "train_stats/mean_log_entropy": 0.8353110949198405, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.001978224841877818, "report/cont_loss_std": 0.0382450632750988, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.0328603982925415, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0009705201373435557, "report/cont_pred": 0.9988600015640259, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.318166971206665, "report/dyn_loss_std": 5.490403175354004, "report/image_loss_mean": 1.7599661350250244, "report/image_loss_std": 1.0834779739379883, "report/model_loss_mean": 3.8605408668518066, "report/model_loss_std": 4.0983500480651855, "report/post_ent_mag": 54.377769470214844, "report/post_ent_max": 54.377769470214844, "report/post_ent_mean": 42.014774322509766, "report/post_ent_min": 15.878244400024414, "report/post_ent_std": 3.8979482650756836, "report/prior_ent_mag": 73.9106674194336, "report/prior_ent_max": 73.9106674194336, "report/prior_ent_mean": 45.295021057128906, "report/prior_ent_min": 21.533119201660156, "report/prior_ent_std": 5.759658336639404, "report/rep_loss_mean": 3.318166971206665, "report/rep_loss_std": 5.490403175354004, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.10769619047641754, "report/reward_loss_std": 0.6498751640319824, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.011021614074707, "report/reward_neg_acc": 0.9543524980545044, "report/reward_neg_loss": 0.015047518536448479, "report/reward_pos_acc": 0.9512194991111755, "report/reward_pos_loss": 1.1720259189605713, "report/reward_pred": 0.6522966027259827, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006852388381958008, "eval/cont_loss_std": 0.11802928894758224, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.7269232869148254, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.005443247500807047, "eval/cont_pred": 0.9963740110397339, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.19369125366211, "eval/dyn_loss_std": 9.22302532196045, "eval/image_loss_mean": 5.683477401733398, "eval/image_loss_std": 3.258366346359253, "eval/model_loss_mean": 15.258946418762207, "eval/model_loss_std": 8.454243659973145, "eval/post_ent_mag": 54.22716522216797, "eval/post_ent_max": 54.22716522216797, "eval/post_ent_mean": 41.190338134765625, "eval/post_ent_min": 28.864513397216797, "eval/post_ent_std": 3.623810052871704, "eval/prior_ent_mag": 73.9106674194336, "eval/prior_ent_max": 73.9106674194336, "eval/prior_ent_mean": 46.426536560058594, "eval/prior_ent_min": 34.91632080078125, "eval/prior_ent_std": 5.65040397644043, "eval/rep_loss_mean": 15.19369125366211, "eval/rep_loss_std": 9.22302532196045, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4524010121822357, "eval/reward_loss_std": 2.6028668880462646, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994441986083984, "eval/reward_neg_acc": 0.9566968679428101, "eval/reward_neg_loss": 0.03315136954188347, "eval/reward_pos_acc": 0.06451612710952759, "eval/reward_pos_loss": 13.881913185119629, "eval/reward_pred": 0.08724343776702881, "eval/reward_rate": 0.0302734375, "replay/size": 62958.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.957626924718205e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.324922250946183e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.8461217880249023e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1503188610077, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 379.8302252292633, "timer/replay._sample_frac": 1.2654666724014159, "timer/replay._sample_avg": 0.015345435731628285, "timer/replay._sample_min": 0.0003962516784667969, "timer/replay._sample_max": 0.037612199783325195, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.810690879821777, "timer/env.step_frac": 0.022690933348552073, "timer/env.step_avg": 0.004402515113006967, "timer/env.step_min": 0.002305269241333008, "timer/env.step_max": 0.03198838233947754, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.14530515670776, "timer/agent.policy_frac": 0.3702988075390866, "timer/agent.policy_avg": 0.07184570469082596, "timer/agent.policy_min": 0.0029549598693847656, "timer/agent.policy_max": 0.0901176929473877, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1607043743133545, "timer/dataset_train_frac": 0.0005354129721507068, "timer/dataset_train_avg": 0.00010388130207715222, "timer/dataset_train_min": 5.555152893066406e-05, "timer/dataset_train_max": 0.0018470287322998047, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.79026770591736, "timer/agent.train_frac": 0.6023324192756795, "timer/agent.train_avg": 0.11686507285450379, "timer/agent.train_min": 0.10296273231506348, "timer/agent.train_max": 0.20266056060791016, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26195359230041504, "timer/agent.report_frac": 0.0008727413427194105, "timer/agent.report_avg": 0.13097679615020752, "timer/agent.report_min": 0.0996243953704834, "timer/agent.report_max": 0.16232919692993164, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.9604644775390625e-05, "timer/dataset_eval_frac": 1.9858264686032897e-07, "timer/dataset_eval_avg": 5.9604644775390625e-05, "timer/dataset_eval_min": 5.9604644775390625e-05, "timer/dataset_eval_max": 5.9604644775390625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.614952236022425}
+{"step": 126616, "episode/length": 344.0, "episode/score": 470.0, "episode/reward_rate": 0.13333333333333333}
+{"step": 128088, "episode/length": 367.0, "episode/score": 460.0, "episode/reward_rate": 0.125}
+{"step": 129712, "episode/length": 405.0, "episode/score": 480.0, "episode/reward_rate": 0.11576354679802955}
+{"step": 132284, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.211310011340727, "train/action_min": 0.0, "train/action_std": 3.9363074118091212, "train/actor_opt_grad_norm": 0.0060428959768145316, "train/actor_opt_grad_steps": 31200.0, "train/actor_opt_loss": 0.000917782570254824, "train/adv_mag": 0.47766382050129674, "train/adv_max": 0.4539848938103645, "train/adv_mean": 0.002036580687267668, "train/adv_min": -0.33378334160773987, "train/adv_std": 0.027540504583908665, "train/cont_avg": 0.9984816028225807, "train/cont_loss_mean": 0.0011735932727164724, "train/cont_loss_std": 0.025718169851490762, "train/cont_neg_acc": 0.7926553689827354, "train/cont_neg_loss": 0.4397381900321846, "train/cont_pos_acc": 0.9998294964913399, "train/cont_pos_loss": 0.0004960203453903535, "train/cont_pred": 0.9984718434272274, "train/cont_rate": 0.9984816028225807, "train/dyn_loss_mean": 2.854724334901379, "train/dyn_loss_std": 5.295496651434129, "train/extr_critic_critic_opt_grad_norm": 1.272489103194206, "train/extr_critic_critic_opt_grad_steps": 31200.0, "train/extr_critic_critic_opt_loss": 1.4825872359737273, "train/extr_critic_mag": 272.7960425592238, "train/extr_critic_max": 272.7960425592238, "train/extr_critic_mean": 100.66549635856383, "train/extr_critic_min": 0.2935041758321947, "train/extr_critic_std": 64.45495204310264, "train/extr_return_normed_mag": 1.2758352429636064, "train/extr_return_normed_max": 1.2758352429636064, "train/extr_return_normed_mean": 0.4418737699908595, "train/extr_return_normed_min": -0.025462551919683333, "train/extr_return_normed_std": 0.2993212781606182, "train/extr_return_rate": 0.9632796191400097, "train/extr_return_raw_mag": 281.1260687058972, "train/extr_return_raw_max": 281.1260687058972, "train/extr_return_raw_mean": 101.10479810160976, "train/extr_return_raw_min": 0.21569908236063295, "train/extr_return_raw_std": 64.61589407151745, "train/extr_reward_mag": 28.918861813699046, "train/extr_reward_max": 28.918861813699046, "train/extr_reward_mean": 0.6296413348567101, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.3455566375486314, "train/image_loss_mean": 1.5571562482464698, "train/image_loss_std": 0.9922097575279974, "train/model_loss_mean": 3.3288561344146728, "train/model_loss_std": 3.8305604488618914, "train/model_opt_grad_norm": 12.530504131317139, "train/model_opt_grad_steps": 31200.0, "train/model_opt_loss": 3.3288561344146728, "train/policy_entropy_mag": 2.6444511890411375, "train/policy_entropy_max": 2.6444511890411375, "train/policy_entropy_mean": 0.9814525388902233, "train/policy_entropy_min": 0.08020386090201716, "train/policy_entropy_std": 0.7433158909120867, "train/policy_logprob_mag": 7.495388846243581, "train/policy_logprob_max": -0.009491102199160283, "train/policy_logprob_mean": -0.981908824366908, "train/policy_logprob_min": -7.495388846243581, "train/policy_logprob_std": 1.3189901644183744, "train/policy_randomness_mag": 0.9149173402017162, "train/policy_randomness_max": 0.9149173402017162, "train/policy_randomness_mean": 0.33955928125689105, "train/policy_randomness_min": 0.027748632058501244, "train/policy_randomness_std": 0.25716965198516845, "train/post_ent_mag": 52.565306411250944, "train/post_ent_max": 52.565306411250944, "train/post_ent_mean": 41.475318490305256, "train/post_ent_min": 20.376157249942903, "train/post_ent_std": 3.739040860822124, "train/prior_ent_mag": 74.25439822289252, "train/prior_ent_max": 74.25439822289252, "train/prior_ent_mean": 44.34973587528352, "train/prior_ent_min": 25.01896156803254, "train/prior_ent_std": 5.5161296383027105, "train/rep_loss_mean": 2.854724334901379, "train/rep_loss_std": 5.295496651434129, "train/reward_avg": 0.771484375, "train/reward_loss_mean": 0.05769170023981602, "train/reward_loss_std": 0.2433550591911039, "train/reward_max_data": 59.483870967741936, "train/reward_max_pred": 25.46624168888215, "train/reward_neg_acc": 0.9723893296334052, "train/reward_neg_loss": 0.008149429700607735, "train/reward_pos_acc": 0.9925624951239556, "train/reward_pos_loss": 0.7009414434432983, "train/reward_pred": 0.6804584027298035, "train/reward_rate": 0.07207661290322581, "train_stats/mean_log_entropy": 0.7326859434445699, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.70836460206192e-05, "report/cont_loss_std": 0.0005987685290165246, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0010467399843037128, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.510779788484797e-05, "report/cont_pred": 0.9980140924453735, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.846109390258789, "report/dyn_loss_std": 4.992932319641113, "report/image_loss_mean": 1.1730597019195557, "report/image_loss_std": 0.7688213586807251, "report/model_loss_mean": 2.9599051475524902, "report/model_loss_std": 3.5227935314178467, "report/post_ent_mag": 50.02608871459961, "report/post_ent_max": 50.02608871459961, "report/post_ent_mean": 41.60914993286133, "report/post_ent_min": 16.958377838134766, "report/post_ent_std": 3.902675151824951, "report/prior_ent_mag": 74.8958740234375, "report/prior_ent_max": 74.8958740234375, "report/prior_ent_mean": 44.66780090332031, "report/prior_ent_min": 21.457317352294922, "report/prior_ent_std": 5.805934429168701, "report/rep_loss_mean": 2.846109390258789, "report/rep_loss_std": 4.992932319641113, "report/reward_avg": 1.123046875, "report/reward_loss_mean": 0.0791424885392189, "report/reward_loss_std": 0.24293093383312225, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.858360290527344, "report/reward_neg_acc": 0.9560922384262085, "report/reward_neg_loss": 0.009234755299985409, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6427348852157593, "report/reward_pred": 1.0391647815704346, "report/reward_rate": 0.1103515625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.6812931537278928e-06, "eval/cont_loss_std": 2.9772958441753872e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.6812931537278928e-06, "eval/cont_pred": 0.9999973773956299, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.6481294631958, "eval/dyn_loss_std": 9.2671537399292, "eval/image_loss_mean": 5.674938201904297, "eval/image_loss_std": 3.0607850551605225, "eval/model_loss_mean": 15.32244873046875, "eval/model_loss_std": 8.069182395935059, "eval/post_ent_mag": 53.81981658935547, "eval/post_ent_max": 53.81981658935547, "eval/post_ent_mean": 42.335243225097656, "eval/post_ent_min": 31.1182804107666, "eval/post_ent_std": 3.742635488510132, "eval/prior_ent_mag": 74.8958740234375, "eval/prior_ent_max": 74.8958740234375, "eval/prior_ent_mean": 47.7592658996582, "eval/prior_ent_min": 35.9605712890625, "eval/prior_ent_std": 5.293410778045654, "eval/rep_loss_mean": 15.6481294631958, "eval/rep_loss_std": 9.2671537399292, "eval/reward_avg": 0.185546875, "eval/reward_loss_mean": 0.2586313486099243, "eval/reward_loss_std": 1.8683369159698486, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002248764038086, "eval/reward_neg_acc": 0.9502487778663635, "eval/reward_neg_loss": 0.04043416306376457, "eval/reward_pos_acc": 0.10526315867900848, "eval/reward_pos_loss": 11.800114631652832, "eval/reward_pred": 0.08086559921503067, "eval/reward_rate": 0.0185546875, "replay/size": 64502.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.995672196304242e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3321194160787553e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.130866050720215e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.03031754493713, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 379.70428586006165, "timer/replay._sample_frac": 1.2655530579945187, "timer/replay._sample_avg": 0.015370154058454568, "timer/replay._sample_min": 0.0004634857177734375, "timer/replay._sample_max": 0.08197975158691406, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.809361457824707, "timer/env.step_frac": 0.022695577945401578, "timer/env.step_avg": 0.004410208198072997, "timer/env.step_min": 0.0024433135986328125, "timer/env.step_max": 0.033391714096069336, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.91130304336548, "timer/agent.policy_frac": 0.36966698549307003, "timer/agent.policy_avg": 0.0718337454944077, "timer/agent.policy_min": 0.0029969215393066406, "timer/agent.policy_max": 0.1483139991760254, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.1583881378173828, "timer/dataset_train_frac": 0.0005279071098995194, "timer/dataset_train_avg": 0.0001025829908143671, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.0006816387176513672, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 180.92310690879822, "timer/agent.train_frac": 0.6030160831386662, "timer/agent.train_avg": 0.11717817804973978, "timer/agent.train_min": 0.10389566421508789, "timer/agent.train_max": 0.3238086700439453, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2597811222076416, "timer/agent.report_frac": 0.0008658495725810536, "timer/agent.report_avg": 0.1298905611038208, "timer/agent.report_min": 0.10155081748962402, "timer/agent.report_max": 0.15823030471801758, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.699562072753906e-05, "timer/dataset_eval_frac": 2.2329616978625759e-07, "timer/dataset_eval_avg": 6.699562072753906e-05, "timer/dataset_eval_min": 6.699562072753906e-05, "timer/dataset_eval_max": 6.699562072753906e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16249942779541016, "timer/agent.save_frac": 0.0005416100250304597, "timer/agent.save_avg": 0.16249942779541016, "timer/agent.save_min": 0.16249942779541016, "timer/agent.save_max": 0.16249942779541016, "fps": 20.583415861208888}
+{"step": 132880, "episode/length": 791.0, "episode/score": 540.0, "episode/reward_rate": 0.06691919191919192}
+{"step": 135688, "episode/length": 701.0, "episode/score": 660.0, "episode/reward_rate": 0.09259259259259259}
+{"step": 137108, "episode/length": 354.0, "episode/score": 410.0, "episode/reward_rate": 0.11267605633802817}
+{"step": 138476, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.253545587713068, "train/action_min": 0.0, "train/action_std": 4.023073442570575, "train/actor_opt_grad_norm": 0.005841610653858099, "train/actor_opt_grad_steps": 32745.0, "train/actor_opt_loss": 0.0008249666383113884, "train/adv_mag": 0.46499083791073265, "train/adv_max": 0.44115577115641014, "train/adv_mean": 0.0020911609316463945, "train/adv_min": -0.330321637453971, "train/adv_std": 0.026343566909819455, "train/cont_avg": 0.9983512581168831, "train/cont_loss_mean": 0.0012391528602447638, "train/cont_loss_std": 0.02813681289488501, "train/cont_neg_acc": 0.8307692332909657, "train/cont_neg_loss": 0.454243447848533, "train/cont_pos_acc": 0.9998474899050477, "train/cont_pos_loss": 0.0004228666004738951, "train/cont_pred": 0.9984095773913644, "train/cont_rate": 0.9983512581168831, "train/dyn_loss_mean": 2.902938237437954, "train/dyn_loss_std": 5.377415285482035, "train/extr_critic_critic_opt_grad_norm": 1.2706162960498364, "train/extr_critic_critic_opt_grad_steps": 32745.0, "train/extr_critic_critic_opt_loss": 1.4854537891103077, "train/extr_critic_mag": 277.4770505830839, "train/extr_critic_max": 277.4770505830839, "train/extr_critic_mean": 100.05089722670517, "train/extr_critic_min": 0.4093895244908023, "train/extr_critic_std": 65.6388806677484, "train/extr_return_normed_mag": 1.2672652726049547, "train/extr_return_normed_max": 1.2672652726049547, "train/extr_return_normed_mean": 0.4315054217329273, "train/extr_return_normed_min": -0.02465493236320674, "train/extr_return_normed_std": 0.2997062695877893, "train/extr_return_rate": 0.9570211520442715, "train/extr_return_raw_mag": 283.8694751293628, "train/extr_return_raw_max": 283.8694751293628, "train/extr_return_raw_mean": 100.50954149915026, "train/extr_return_raw_min": 0.41878235356749166, "train/extr_return_raw_std": 65.76625982507483, "train/extr_reward_mag": 27.95065840807828, "train/extr_reward_max": 27.95065840807828, "train/extr_reward_mean": 0.6100734270044735, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.3171015312145284, "train/image_loss_mean": 1.5267380127659091, "train/image_loss_std": 1.0139171047644182, "train/model_loss_mean": 3.3242407897850135, "train/model_loss_std": 3.903926451484878, "train/model_opt_grad_norm": 12.44878702968746, "train/model_opt_grad_steps": 32745.0, "train/model_opt_loss": 3.3242407897850135, "train/policy_entropy_mag": 2.6375780152035997, "train/policy_entropy_max": 2.6375780152035997, "train/policy_entropy_mean": 0.9722708053403086, "train/policy_entropy_min": 0.08020159873095425, "train/policy_entropy_std": 0.7447454186228962, "train/policy_logprob_mag": 7.495363829971908, "train/policy_logprob_max": -0.009490815541622314, "train/policy_logprob_mean": -0.972735361232386, "train/policy_logprob_min": -7.495363829971908, "train/policy_logprob_std": 1.3187416582912594, "train/policy_randomness_mag": 0.9125393853559123, "train/policy_randomness_max": 0.9125393853559123, "train/policy_randomness_mean": 0.3363826211977315, "train/policy_randomness_min": 0.027747849377428555, "train/policy_randomness_std": 0.25766423586514087, "train/post_ent_mag": 53.76154389319482, "train/post_ent_max": 53.76154389319482, "train/post_ent_mean": 41.682514661318294, "train/post_ent_min": 19.911259137190783, "train/post_ent_std": 3.791001319885254, "train/prior_ent_mag": 74.99400611976525, "train/prior_ent_max": 74.99400611976525, "train/prior_ent_mean": 44.59579551994027, "train/prior_ent_min": 25.07201605957824, "train/prior_ent_std": 5.62641995603388, "train/rep_loss_mean": 2.902938237437954, "train/rep_loss_std": 5.377415285482035, "train/reward_avg": 0.7059785917207793, "train/reward_loss_mean": 0.05450069724110427, "train/reward_loss_std": 0.23419576646252113, "train/reward_max_data": 30.584415584415584, "train/reward_max_pred": 21.326210356377935, "train/reward_neg_acc": 0.9725251085572428, "train/reward_neg_loss": 0.007715229298798488, "train/reward_pos_acc": 0.992154420196236, "train/reward_pos_loss": 0.6945314658926679, "train/reward_pred": 0.6437846453158886, "train/reward_rate": 0.06839742288961038, "train_stats/mean_log_entropy": 1.023723840713501, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.002611697418615222, "report/cont_loss_std": 0.05004867538809776, "report/cont_neg_acc": 0.6666666865348816, "report/cont_neg_loss": 0.7011103630065918, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0005593021051026881, "report/cont_pred": 0.9978218078613281, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.1487159729003906, "report/dyn_loss_std": 5.647660255432129, "report/image_loss_mean": 1.6045818328857422, "report/image_loss_std": 0.887968897819519, "report/model_loss_mean": 3.5693702697753906, "report/model_loss_std": 3.930091619491577, "report/post_ent_mag": 55.345970153808594, "report/post_ent_max": 55.345970153808594, "report/post_ent_mean": 42.4047966003418, "report/post_ent_min": 24.097017288208008, "report/post_ent_std": 4.2064900398254395, "report/prior_ent_mag": 75.08049011230469, "report/prior_ent_max": 75.08049011230469, "report/prior_ent_mean": 45.875370025634766, "report/prior_ent_min": 30.729948043823242, "report/prior_ent_std": 5.8477301597595215, "report/rep_loss_mean": 3.1487159729003906, "report/rep_loss_std": 5.647660255432129, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.07294704765081406, "report/reward_loss_std": 0.3079048693180084, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008378028869629, "report/reward_neg_acc": 0.9465968608856201, "report/reward_neg_loss": 0.01580827683210373, "report/reward_pos_acc": 0.9855072498321533, "report/reward_pos_loss": 0.8637807965278625, "report/reward_pred": 0.5765060782432556, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0055088018998503685, "eval/cont_loss_std": 0.14700183272361755, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.807392120361328, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.5664734494057484e-05, "eval/cont_pred": 0.9996121525764465, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 17.26445770263672, "eval/dyn_loss_std": 10.285057067871094, "eval/image_loss_mean": 6.210513591766357, "eval/image_loss_std": 3.79298996925354, "eval/model_loss_mean": 17.03158187866211, "eval/model_loss_std": 9.399828910827637, "eval/post_ent_mag": 54.893096923828125, "eval/post_ent_max": 54.893096923828125, "eval/post_ent_mean": 41.248138427734375, "eval/post_ent_min": 29.586137771606445, "eval/post_ent_std": 4.0027265548706055, "eval/prior_ent_mag": 75.08049011230469, "eval/prior_ent_max": 75.08049011230469, "eval/prior_ent_mean": 47.49079895019531, "eval/prior_ent_min": 34.43427658081055, "eval/prior_ent_std": 5.631468772888184, "eval/rep_loss_mean": 17.26445770263672, "eval/rep_loss_std": 10.285057067871094, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4568847417831421, "eval/reward_loss_std": 2.4700560569763184, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.959668159484863, "eval/reward_neg_acc": 0.9393325448036194, "eval/reward_neg_loss": 0.046182695776224136, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 12.062150955200195, "eval/reward_pred": 0.13607531785964966, "eval/reward_rate": 0.0341796875, "replay/size": 66050.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.904368743107917e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3272814664421771e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9669532775878906e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11665892601013, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 377.74048042297363, "timer/replay._sample_frac": 1.258645493971398, "timer/replay._sample_avg": 0.015251149887878457, "timer/replay._sample_min": 0.00047969818115234375, "timer/replay._sample_max": 0.04393744468688965, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.789769411087036, "timer/env.step_frac": 0.0226237671556945, "timer/env.step_avg": 0.004386155950314623, "timer/env.step_min": 0.002286195755004883, "timer/env.step_max": 0.029295682907104492, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.89190459251404, "timer/agent.policy_frac": 0.36949599862049975, "timer/agent.policy_avg": 0.07163559728198582, "timer/agent.policy_min": 0.0027523040771484375, "timer/agent.policy_max": 0.08602452278137207, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1524055004119873, "timer/dataset_train_frac": 0.0005078208619187678, "timer/dataset_train_avg": 9.845316564081868e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002288818359375, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.0636854171753, "timer/agent.train_frac": 0.603311012674622, "timer/agent.train_avg": 0.11696620504985485, "timer/agent.train_min": 0.10359621047973633, "timer/agent.train_max": 0.20122122764587402, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2541544437408447, "timer/agent.report_frac": 0.0008468521695875043, "timer/agent.report_avg": 0.12707722187042236, "timer/agent.report_min": 0.10040903091430664, "timer/agent.report_max": 0.15374541282653809, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.6921139109826202e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.630662817735605}
+{"step": 138980, "episode/length": 467.0, "episode/score": 550.0, "episode/reward_rate": 0.11538461538461539}
+{"step": 140648, "episode/length": 416.0, "episode/score": 460.0, "episode/reward_rate": 0.1079136690647482}
+{"step": 142772, "episode/length": 530.0, "episode/score": 470.0, "episode/reward_rate": 0.08662900188323917}
+{"step": 144660, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.101372700352822, "train/action_min": 0.0, "train/action_std": 4.084750363134568, "train/actor_opt_grad_norm": 0.006188443106328768, "train/actor_opt_grad_steps": 34290.0, "train/actor_opt_loss": 0.0007867188527099291, "train/adv_mag": 0.4608957932841393, "train/adv_max": 0.4393308446291954, "train/adv_mean": 0.002058272637500082, "train/adv_min": -0.3201532728249027, "train/adv_std": 0.026955895113848872, "train/cont_avg": 0.9982484879032258, "train/cont_loss_mean": 0.0014217436606215063, "train/cont_loss_std": 0.032442007361848275, "train/cont_neg_acc": 0.7842105281980414, "train/cont_neg_loss": 0.5589043697206549, "train/cont_pos_acc": 0.9998104587677986, "train/cont_pos_loss": 0.0005673717943446102, "train/cont_pred": 0.9982044842935378, "train/cont_rate": 0.9982484879032258, "train/dyn_loss_mean": 2.8318537896679294, "train/dyn_loss_std": 5.375983690446423, "train/extr_critic_critic_opt_grad_norm": 1.3061947276515344, "train/extr_critic_critic_opt_grad_steps": 34290.0, "train/extr_critic_critic_opt_loss": 1.491704450884173, "train/extr_critic_mag": 283.77042088662427, "train/extr_critic_max": 283.77042088662427, "train/extr_critic_mean": 103.64731410857169, "train/extr_critic_min": 0.2611399496755292, "train/extr_critic_std": 67.98686813846712, "train/extr_return_normed_mag": 1.2966785761617845, "train/extr_return_normed_max": 1.2966785761617845, "train/extr_return_normed_mean": 0.4388189519605329, "train/extr_return_normed_min": -0.025899012727783093, "train/extr_return_normed_std": 0.30491949146793734, "train/extr_return_rate": 0.9529486367779393, "train/extr_return_raw_mag": 295.8618899437689, "train/extr_return_raw_max": 295.8618899437689, "train/extr_return_raw_mean": 104.10723620999244, "train/extr_return_raw_min": 0.25741261857967346, "train/extr_return_raw_std": 68.15767270980342, "train/extr_reward_mag": 21.585134561600224, "train/extr_reward_max": 21.585134561600224, "train/extr_reward_mean": 0.6618871648465433, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.4313265023692963, "train/image_loss_mean": 1.475098692986273, "train/image_loss_std": 0.972722501139487, "train/model_loss_mean": 3.2331986934907975, "train/model_loss_std": 3.865704551819832, "train/model_opt_grad_norm": 12.080287954884191, "train/model_opt_grad_steps": 34290.0, "train/model_opt_loss": 3.2331986934907975, "train/policy_entropy_mag": 2.6306796104677264, "train/policy_entropy_max": 2.6306796104677264, "train/policy_entropy_mean": 0.9687196546985257, "train/policy_entropy_min": 0.08019956326292407, "train/policy_entropy_std": 0.7359419761165495, "train/policy_logprob_mag": 7.495408759578582, "train/policy_logprob_max": -0.0094905445592538, "train/policy_logprob_mean": -0.9685972290654337, "train/policy_logprob_min": -7.495408759578582, "train/policy_logprob_std": 1.3127342401012299, "train/policy_randomness_mag": 0.9101527014086324, "train/policy_randomness_max": 0.9101527014086324, "train/policy_randomness_mean": 0.3351540076155816, "train/policy_randomness_min": 0.02774714518698954, "train/policy_randomness_std": 0.2546184527297174, "train/post_ent_mag": 54.3542855785739, "train/post_ent_max": 54.3542855785739, "train/post_ent_mean": 41.847442454676475, "train/post_ent_min": 19.742167595894106, "train/post_ent_std": 3.8389818652983636, "train/prior_ent_mag": 75.72846246534779, "train/prior_ent_max": 75.72846246534779, "train/prior_ent_mean": 44.70202031289377, "train/prior_ent_min": 23.86923386358446, "train/prior_ent_std": 5.700668110386018, "train/rep_loss_mean": 2.8318537896679294, "train/rep_loss_std": 5.375983690446423, "train/reward_avg": 0.7651839717741935, "train/reward_loss_mean": 0.05756599505341822, "train/reward_loss_std": 0.2410095259066551, "train/reward_max_data": 33.483870967741936, "train/reward_max_pred": 17.457439570273124, "train/reward_neg_acc": 0.973856306845142, "train/reward_neg_loss": 0.00790123017354598, "train/reward_pos_acc": 0.9918951426782916, "train/reward_pos_loss": 0.6810187993511077, "train/reward_pred": 0.6989234520543006, "train/reward_rate": 0.07402973790322581, "train_stats/mean_log_entropy": 0.9135110974311829, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0005662040784955025, "report/cont_loss_std": 0.014066946692764759, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020214635878801346, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0005277530872263014, "report/cont_pred": 0.997644305229187, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7991909980773926, "report/dyn_loss_std": 5.689653396606445, "report/image_loss_mean": 1.3737072944641113, "report/image_loss_std": 0.9868398904800415, "report/model_loss_mean": 3.104033946990967, "report/model_loss_std": 4.041375637054443, "report/post_ent_mag": 54.86323928833008, "report/post_ent_max": 54.86323928833008, "report/post_ent_mean": 41.27466583251953, "report/post_ent_min": 20.96014404296875, "report/post_ent_std": 3.788886547088623, "report/prior_ent_mag": 75.72279357910156, "report/prior_ent_max": 75.72279357910156, "report/prior_ent_mean": 44.08207702636719, "report/prior_ent_min": 27.895477294921875, "report/prior_ent_std": 5.630680561065674, "report/rep_loss_mean": 2.7991909980773926, "report/rep_loss_std": 5.689653396606445, "report/reward_avg": 0.732421875, "report/reward_loss_mean": 0.050245702266693115, "report/reward_loss_std": 0.1978979855775833, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009306907653809, "report/reward_neg_acc": 0.9841939806938171, "report/reward_neg_loss": 0.0025505207013338804, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6537486910820007, "report/reward_pred": 0.6690027713775635, "report/reward_rate": 0.0732421875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.9483109099383e-06, "eval/cont_loss_std": 3.743654451682232e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.9483109099383e-06, "eval/cont_pred": 0.9999980926513672, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.66231918334961, "eval/dyn_loss_std": 9.612076759338379, "eval/image_loss_mean": 5.575239181518555, "eval/image_loss_std": 2.9901816844940186, "eval/model_loss_mean": 15.947408676147461, "eval/model_loss_std": 8.251317977905273, "eval/post_ent_mag": 54.96753692626953, "eval/post_ent_max": 54.96753692626953, "eval/post_ent_mean": 42.21531677246094, "eval/post_ent_min": 30.351150512695312, "eval/post_ent_std": 4.148072719573975, "eval/prior_ent_mag": 75.72279357910156, "eval/prior_ent_max": 75.72279357910156, "eval/prior_ent_mean": 47.55570602416992, "eval/prior_ent_min": 34.59188461303711, "eval/prior_ent_std": 4.771297931671143, "eval/rep_loss_mean": 16.66231918334961, "eval/rep_loss_std": 9.612076759338379, "eval/reward_avg": 0.234375, "eval/reward_loss_mean": 0.37477636337280273, "eval/reward_loss_std": 2.271641254425049, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.979799270629883, "eval/reward_neg_acc": 0.9530000686645508, "eval/reward_neg_loss": 0.05012182146310806, "eval/reward_pos_acc": 0.0416666679084301, "eval/reward_pos_loss": 13.90204906463623, "eval/reward_pred": 0.10723023116588593, "eval/reward_rate": 0.0234375, "replay/size": 67596.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.895600125212873e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.329528637721961e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9815902709961, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 378.9828248023987, "timer/replay._sample_frac": 1.2633536093332753, "timer/replay._sample_avg": 0.015321103848738627, "timer/replay._sample_min": 0.00044417381286621094, "timer/replay._sample_max": 0.052165985107421875, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.82049822807312, "timer/env.step_frac": 0.02273638932946401, "timer/env.step_avg": 0.004411706486463855, "timer/env.step_min": 0.0024461746215820312, "timer/env.step_max": 0.026941299438476562, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.44406652450562, "timer/agent.policy_frac": 0.36816948141628664, "timer/agent.policy_avg": 0.07143859412969315, "timer/agent.policy_min": 0.0024390220642089844, "timer/agent.policy_max": 0.08733558654785156, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15094876289367676, "timer/dataset_train_frac": 0.0005031934218273638, "timer/dataset_train_avg": 9.7638268365897e-05, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.00020265579223632812, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.35825371742249, "timer/agent.train_frac": 0.6045646119603134, "timer/agent.train_avg": 0.11730805544464586, "timer/agent.train_min": 0.10405588150024414, "timer/agent.train_max": 0.20209693908691406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26145172119140625, "timer/agent.report_frac": 0.0008715592212015981, "timer/agent.report_avg": 0.13072586059570312, "timer/agent.report_min": 0.09860348701477051, "timer/agent.report_max": 0.16284823417663574, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.222724914550781e-05, "timer/dataset_eval_frac": 2.0743689334166547e-07, "timer/dataset_eval_avg": 6.222724914550781e-05, "timer/dataset_eval_min": 6.222724914550781e-05, "timer/dataset_eval_max": 6.222724914550781e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61345325031105}
+{"step": 145040, "episode/length": 566.0, "episode/score": 480.0, "episode/reward_rate": 0.08465608465608465}
+{"step": 147996, "episode/length": 738.0, "episode/score": 1090.0, "episode/reward_rate": 0.07983761840324763}
+{"step": 149504, "episode/length": 376.0, "episode/score": 480.0, "episode/reward_rate": 0.1246684350132626}
+{"step": 150836, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.090598366477273, "train/action_min": 0.0, "train/action_std": 3.957988440216362, "train/actor_opt_grad_norm": 0.005733909599434633, "train/actor_opt_grad_steps": 35835.0, "train/actor_opt_loss": 0.0007622742333730705, "train/adv_mag": 0.4719820484131962, "train/adv_max": 0.449119527328324, "train/adv_mean": 0.0021033672197848896, "train/adv_min": -0.32637341920431556, "train/adv_std": 0.02675382559514278, "train/cont_avg": 0.9983829646915584, "train/cont_loss_mean": 0.0016213779980962027, "train/cont_loss_std": 0.03529520502656379, "train/cont_neg_acc": 0.8627906989219577, "train/cont_neg_loss": 0.44590520684485724, "train/cont_pos_acc": 0.9996568541248123, "train/cont_pos_loss": 0.0008623923901897395, "train/cont_pred": 0.9981899753019408, "train/cont_rate": 0.9983829646915584, "train/dyn_loss_mean": 2.8584377579874807, "train/dyn_loss_std": 5.445073072012368, "train/extr_critic_critic_opt_grad_norm": 1.2885044902176053, "train/extr_critic_critic_opt_grad_steps": 35835.0, "train/extr_critic_critic_opt_loss": 1.4945947094397112, "train/extr_critic_mag": 284.6663322944146, "train/extr_critic_max": 284.6663322944146, "train/extr_critic_mean": 103.94973408092152, "train/extr_critic_min": 0.4368610591083378, "train/extr_critic_std": 68.4540909606141, "train/extr_return_normed_mag": 1.2923841155194618, "train/extr_return_normed_max": 1.2923841155194618, "train/extr_return_normed_mean": 0.43740838224237616, "train/extr_return_normed_min": -0.02324681131731622, "train/extr_return_normed_std": 0.3036596667650458, "train/extr_return_rate": 0.958660591732372, "train/extr_return_raw_mag": 297.47142742206523, "train/extr_return_raw_max": 297.47142742206523, "train/extr_return_raw_mean": 104.42436703768644, "train/extr_return_raw_min": 0.3805793228214486, "train/extr_return_raw_std": 68.58524765906395, "train/extr_reward_mag": 30.202726029730464, "train/extr_reward_max": 30.202726029730464, "train/extr_reward_mean": 0.6700222052924045, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.472975003254878, "train/image_loss_mean": 1.464105502351538, "train/image_loss_std": 0.983208504203078, "train/model_loss_mean": 3.2385946372886756, "train/model_loss_std": 3.918774795222592, "train/model_opt_grad_norm": 12.259082075837371, "train/model_opt_grad_steps": 35835.0, "train/model_opt_loss": 3.2385946372886756, "train/policy_entropy_mag": 2.633697855008113, "train/policy_entropy_max": 2.633697855008113, "train/policy_entropy_mean": 0.9263952478959963, "train/policy_entropy_min": 0.08020153428827013, "train/policy_entropy_std": 0.7223153098837122, "train/policy_logprob_mag": 7.495399564891667, "train/policy_logprob_max": -0.009490800991218972, "train/policy_logprob_mean": -0.927850287456017, "train/policy_logprob_min": -7.495399564891667, "train/policy_logprob_std": 1.3077457462038313, "train/policy_randomness_mag": 0.9111969412921311, "train/policy_randomness_max": 0.9111969412921311, "train/policy_randomness_mean": 0.320510767303504, "train/policy_randomness_min": 0.027747827195018143, "train/policy_randomness_std": 0.24990395195298382, "train/post_ent_mag": 55.09977434827136, "train/post_ent_max": 55.09977434827136, "train/post_ent_mean": 42.12378979967786, "train/post_ent_min": 19.718761623679818, "train/post_ent_std": 3.900086628926265, "train/prior_ent_mag": 76.30406174102387, "train/prior_ent_max": 76.30406174102387, "train/prior_ent_mean": 45.0111790446492, "train/prior_ent_min": 24.091834384125548, "train/prior_ent_std": 5.768489515626586, "train/rep_loss_mean": 2.8584377579874807, "train/rep_loss_std": 5.445073072012368, "train/reward_avg": 0.7721819196428571, "train/reward_loss_mean": 0.05780511409915113, "train/reward_loss_std": 0.2440905629524163, "train/reward_max_data": 43.311688311688314, "train/reward_max_pred": 30.298907131343693, "train/reward_neg_acc": 0.974566758453072, "train/reward_neg_loss": 0.007829990833634873, "train/reward_pos_acc": 0.9911658628420397, "train/reward_pos_loss": 0.6897043899282232, "train/reward_pred": 0.7030321125473294, "train/reward_rate": 0.0733880377435065, "train_stats/mean_log_entropy": 0.8757679065068563, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.427371444151504e-05, "report/cont_loss_std": 0.00015323216211982071, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.427371444151504e-05, "report/cont_pred": 0.9999857544898987, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.738485097885132, "report/dyn_loss_std": 5.267023086547852, "report/image_loss_mean": 1.5299670696258545, "report/image_loss_std": 0.9901942014694214, "report/model_loss_mean": 3.2184479236602783, "report/model_loss_std": 3.820162296295166, "report/post_ent_mag": 53.58860778808594, "report/post_ent_max": 53.58860778808594, "report/post_ent_mean": 42.85139083862305, "report/post_ent_min": 22.836383819580078, "report/post_ent_std": 3.6816937923431396, "report/prior_ent_mag": 76.36753845214844, "report/prior_ent_max": 76.36753845214844, "report/prior_ent_mean": 45.76319885253906, "report/prior_ent_min": 25.923133850097656, "report/prior_ent_std": 5.302208423614502, "report/rep_loss_mean": 2.738485097885132, "report/rep_loss_std": 5.267023086547852, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.045375481247901917, "report/reward_loss_std": 0.18883171677589417, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.017817497253418, "report/reward_neg_acc": 0.9801047444343567, "report/reward_neg_loss": 0.003395936917513609, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.626396656036377, "report/reward_pred": 0.6362543106079102, "report/reward_rate": 0.0673828125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.4350724768519285e-06, "eval/cont_loss_std": 8.528078069502953e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4350724768519285e-06, "eval/cont_pred": 0.9999986290931702, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.153841018676758, "eval/dyn_loss_std": 9.122873306274414, "eval/image_loss_mean": 5.966325759887695, "eval/image_loss_std": 3.3196725845336914, "eval/model_loss_mean": 16.784503936767578, "eval/model_loss_std": 8.517053604125977, "eval/post_ent_mag": 56.442115783691406, "eval/post_ent_max": 56.442115783691406, "eval/post_ent_mean": 42.715919494628906, "eval/post_ent_min": 29.14358139038086, "eval/post_ent_std": 4.097870349884033, "eval/prior_ent_mag": 76.36753845214844, "eval/prior_ent_max": 76.36753845214844, "eval/prior_ent_mean": 47.71604919433594, "eval/prior_ent_min": 39.990631103515625, "eval/prior_ent_std": 4.779541969299316, "eval/rep_loss_mean": 17.153841018676758, "eval/rep_loss_std": 9.122873306274414, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.5258719325065613, "eval/reward_loss_std": 2.7499914169311523, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.995244026184082, "eval/reward_neg_acc": 0.9614994525909424, "eval/reward_neg_loss": 0.03401467576622963, "eval/reward_pos_acc": 0.027027025818824768, "eval/reward_pos_loss": 13.64649486541748, "eval/reward_pred": 0.07699394226074219, "eval/reward_rate": 0.0361328125, "replay/size": 69140.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.821027498788784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2990357499048499e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1457672119140625e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.00039410591125, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 370.416131734848, "timer/replay._sample_frac": 1.2347188170828782, "timer/replay._sample_avg": 0.014994176316987047, "timer/replay._sample_min": 0.000457763671875, "timer/replay._sample_max": 0.03123784065246582, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.784079313278198, "timer/env.step_frac": 0.022613568003791246, "timer/env.step_avg": 0.0043938337521231855, "timer/env.step_min": 0.0023031234741210938, "timer/env.step_max": 0.02993488311767578, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.74288535118103, "timer/agent.policy_frac": 0.36914246623317665, "timer/agent.policy_avg": 0.07172466667822605, "timer/agent.policy_min": 0.0029799938201904297, "timer/agent.policy_max": 0.2940635681152344, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.14742493629455566, "timer/dataset_train_frac": 0.0004914158087489352, "timer/dataset_train_avg": 9.548247169336506e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0003609657287597656, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 181.10332584381104, "timer/agent.train_frac": 0.6036769597705091, "timer/agent.train_avg": 0.11729490015790871, "timer/agent.train_min": 0.10301733016967773, "timer/agent.train_max": 0.20433974266052246, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25556516647338867, "timer/agent.report_frac": 0.0008518827691378455, "timer/agent.report_avg": 0.12778258323669434, "timer/agent.report_min": 0.09459185600280762, "timer/agent.report_max": 0.16097331047058105, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.031990051269531e-05, "timer/dataset_eval_frac": 2.0106607090456072e-07, "timer/dataset_eval_avg": 6.031990051269531e-05, "timer/dataset_eval_min": 6.031990051269531e-05, "timer/dataset_eval_max": 6.031990051269531e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09818911552429199, "timer/agent.save_frac": 0.0003272966217825287, "timer/agent.save_avg": 0.09818911552429199, "timer/agent.save_min": 0.09818911552429199, "timer/agent.save_max": 0.09818911552429199, "fps": 20.585589396245826}
+{"step": 151716, "episode/length": 552.0, "episode/score": 580.0, "episode/reward_rate": 0.10307414104882459}
+{"step": 154620, "episode/length": 725.0, "episode/score": 620.0, "episode/reward_rate": 0.08402203856749312}
+{"step": 156980, "episode/length": 589.0, "episode/score": 530.0, "episode/reward_rate": 0.08983050847457627}
+{"step": 157024, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.093912235383064, "train/action_min": 0.0, "train/action_std": 4.009219055791055, "train/actor_opt_grad_norm": 0.005828698096616614, "train/actor_opt_grad_steps": 37380.0, "train/actor_opt_loss": 0.0005370382894339385, "train/adv_mag": 0.4658657532545828, "train/adv_max": 0.4418467641838135, "train/adv_mean": 0.0018823353903327745, "train/adv_min": -0.33285433640403134, "train/adv_std": 0.02624595940353409, "train/cont_avg": 0.9983870967741936, "train/cont_loss_mean": 0.0010912335847996064, "train/cont_loss_std": 0.025328847304133945, "train/cont_neg_acc": 0.8288804087930053, "train/cont_neg_loss": 0.4196892226824025, "train/cont_pos_acc": 0.9998294811094961, "train/cont_pos_loss": 0.00045207118072018986, "train/cont_pred": 0.9983777307694958, "train/cont_rate": 0.9983870967741936, "train/dyn_loss_mean": 2.8712588863988078, "train/dyn_loss_std": 5.5205528720732655, "train/extr_critic_critic_opt_grad_norm": 1.2964890207013777, "train/extr_critic_critic_opt_grad_steps": 37380.0, "train/extr_critic_critic_opt_loss": 1.482109598959646, "train/extr_critic_mag": 284.8348646594632, "train/extr_critic_max": 284.8348646594632, "train/extr_critic_mean": 109.37454184255293, "train/extr_critic_min": 0.2606450103944348, "train/extr_critic_std": 68.86329781316942, "train/extr_return_normed_mag": 1.27492211826386, "train/extr_return_normed_max": 1.27492211826386, "train/extr_return_normed_mean": 0.45117384599101157, "train/extr_return_normed_min": -0.026574167958460748, "train/extr_return_normed_std": 0.3014416072637804, "train/extr_return_rate": 0.9593162428948188, "train/extr_return_raw_mag": 298.60706836331275, "train/extr_return_raw_max": 298.60706836331275, "train/extr_return_raw_mean": 109.8060053179341, "train/extr_return_raw_min": 0.30333656311230434, "train/extr_return_raw_std": 69.09140196769468, "train/extr_reward_mag": 29.100610099300262, "train/extr_reward_max": 29.100610099300262, "train/extr_reward_mean": 0.6814233704920738, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.481320378857274, "train/image_loss_mean": 1.4518883766666535, "train/image_loss_std": 0.9806908349837026, "train/model_loss_mean": 3.232378512044107, "train/model_loss_std": 3.963153442259758, "train/model_opt_grad_norm": 11.645374061215309, "train/model_opt_grad_steps": 37380.0, "train/model_opt_loss": 3.232378512044107, "train/policy_entropy_mag": 2.6283556845880325, "train/policy_entropy_max": 2.6283556845880325, "train/policy_entropy_mean": 0.9159988764793642, "train/policy_entropy_min": 0.08020187664416528, "train/policy_entropy_std": 0.7230971040264252, "train/policy_logprob_mag": 7.495404791062878, "train/policy_logprob_max": -0.009490858420969979, "train/policy_logprob_mean": -0.9166724662626943, "train/policy_logprob_min": -7.495404791062878, "train/policy_logprob_std": 1.302581916316863, "train/policy_randomness_mag": 0.9093486801270516, "train/policy_randomness_max": 0.9093486801270516, "train/policy_randomness_mean": 0.31691386795813037, "train/policy_randomness_min": 0.027747945619686958, "train/policy_randomness_std": 0.25017443212770646, "train/post_ent_mag": 55.603471079180316, "train/post_ent_max": 55.603471079180316, "train/post_ent_mean": 42.135946310720136, "train/post_ent_min": 18.06886583143665, "train/post_ent_std": 3.991192500822006, "train/prior_ent_mag": 76.94118263490738, "train/prior_ent_max": 76.94118263490738, "train/prior_ent_mean": 45.020111083984375, "train/prior_ent_min": 22.359743678185247, "train/prior_ent_std": 5.889836935843191, "train/rep_loss_mean": 2.8712588863988078, "train/rep_loss_std": 5.5205528720732655, "train/reward_avg": 0.7638608870967742, "train/reward_loss_mean": 0.05664357675179359, "train/reward_loss_std": 0.23794581082559402, "train/reward_max_data": 43.41935483870968, "train/reward_max_pred": 28.719807206430744, "train/reward_neg_acc": 0.9748091989947903, "train/reward_neg_loss": 0.0075533759539886825, "train/reward_pos_acc": 0.9926227615725609, "train/reward_pos_loss": 0.6817877100360009, "train/reward_pred": 0.7001576633222641, "train/reward_rate": 0.07290196572580646, "train_stats/mean_log_entropy": 0.9992354909578959, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 9.67202868196182e-05, "report/cont_loss_std": 0.001311087398789823, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020766006782650948, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.65157092246227e-05, "report/cont_pred": 0.9989677667617798, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.954850196838379, "report/dyn_loss_std": 5.422040939331055, "report/image_loss_mean": 1.5400054454803467, "report/image_loss_std": 1.0113636255264282, "report/model_loss_mean": 3.3660192489624023, "report/model_loss_std": 3.8869025707244873, "report/post_ent_mag": 53.6094856262207, "report/post_ent_max": 53.6094856262207, "report/post_ent_mean": 42.469276428222656, "report/post_ent_min": 15.017184257507324, "report/post_ent_std": 3.8715991973876953, "report/prior_ent_mag": 77.06118774414062, "report/prior_ent_max": 77.06118774414062, "report/prior_ent_mean": 45.60839080810547, "report/prior_ent_min": 19.830501556396484, "report/prior_ent_std": 5.632381916046143, "report/rep_loss_mean": 2.954850196838379, "report/rep_loss_std": 5.422040939331055, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.05300680547952652, "report/reward_loss_std": 0.22442741692066193, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008249282836914, "report/reward_neg_acc": 0.9719043374061584, "report/reward_neg_loss": 0.00680177379399538, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7578170299530029, "report/reward_pred": 0.5193926095962524, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0038806479424238205, "eval/cont_loss_std": 0.12328129261732101, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.946939468383789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.624032276798971e-05, "eval/cont_pred": 0.9999550580978394, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.194360733032227, "eval/dyn_loss_std": 9.631402015686035, "eval/image_loss_mean": 5.970283508300781, "eval/image_loss_std": 3.3251078128814697, "eval/model_loss_mean": 16.067670822143555, "eval/model_loss_std": 8.898336410522461, "eval/post_ent_mag": 56.776817321777344, "eval/post_ent_max": 56.776817321777344, "eval/post_ent_mean": 41.80937194824219, "eval/post_ent_min": 28.097301483154297, "eval/post_ent_std": 4.504852771759033, "eval/prior_ent_mag": 77.06118774414062, "eval/prior_ent_max": 77.06118774414062, "eval/prior_ent_mean": 47.797996520996094, "eval/prior_ent_min": 34.694278717041016, "eval/prior_ent_std": 5.78406286239624, "eval/rep_loss_mean": 16.194360733032227, "eval/rep_loss_std": 9.631402015686035, "eval/reward_avg": 0.234375, "eval/reward_loss_mean": 0.37689071893692017, "eval/reward_loss_std": 2.5739240646362305, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.04055118560791, "eval/reward_neg_acc": 0.968000054359436, "eval/reward_neg_loss": 0.01074768602848053, "eval/reward_pos_acc": 0.0416666679084301, "eval/reward_pos_loss": 15.632850646972656, "eval/reward_pred": 0.03857269138097763, "eval/reward_rate": 0.0234375, "replay/size": 70687.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.960092792375364e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3349302060078558e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.2202730178833008e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1543560028076, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 384.90279626846313, "timer/replay._sample_frac": 1.2823495264045504, "timer/replay._sample_avg": 0.01555037153637941, "timer/replay._sample_min": 0.00047969818115234375, "timer/replay._sample_max": 0.05331563949584961, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.734126567840576, "timer/env.step_frac": 0.022435545022633573, "timer/env.step_avg": 0.004353022991493585, "timer/env.step_min": 0.002445220947265625, "timer/env.step_max": 0.03336381912231445, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.83960819244385, "timer/agent.policy_frac": 0.3692753610792411, "timer/agent.policy_avg": 0.07164809837908458, "timer/agent.policy_min": 0.0029892921447753906, "timer/agent.policy_max": 0.08706378936767578, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15323829650878906, "timer/dataset_train_frac": 0.0005105316429502548, "timer/dataset_train_avg": 9.90551367219063e-05, "timer/dataset_train_min": 5.841255187988281e-05, "timer/dataset_train_max": 0.00024628639221191406, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.19086742401123, "timer/agent.train_frac": 0.6036589634645062, "timer/agent.train_avg": 0.11712402548417016, "timer/agent.train_min": 0.10407686233520508, "timer/agent.train_max": 0.20471525192260742, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25631237030029297, "timer/agent.report_frac": 0.0008539352009200741, "timer/agent.report_avg": 0.12815618515014648, "timer/agent.report_min": 0.09537267684936523, "timer/agent.report_max": 0.16093969345092773, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.817413330078125e-05, "timer/dataset_eval_frac": 1.9381405645912763e-07, "timer/dataset_eval_avg": 5.817413330078125e-05, "timer/dataset_eval_min": 5.817413330078125e-05, "timer/dataset_eval_max": 5.817413330078125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61483714390641}
+{"step": 159740, "episode/length": 689.0, "episode/score": 640.0, "episode/reward_rate": 0.09130434782608696}
+{"step": 162160, "episode/length": 604.0, "episode/score": 590.0, "episode/reward_rate": 0.09586776859504133}
+{"step": 163208, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.06092804939516, "train/action_min": 0.0, "train/action_std": 4.061887007374917, "train/actor_opt_grad_norm": 0.006249014809427242, "train/actor_opt_grad_steps": 38930.0, "train/actor_opt_loss": 0.0005659747466926356, "train/adv_mag": 0.5166959301117928, "train/adv_max": 0.4984888148884619, "train/adv_mean": 0.0016205716537107887, "train/adv_min": -0.3146601084739931, "train/adv_std": 0.0271141026229147, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0012850282791180602, "train/cont_loss_std": 0.029674370223484958, "train/cont_neg_acc": 0.8117424263195558, "train/cont_neg_loss": 0.5755793658518087, "train/cont_pos_acc": 0.9998546242713928, "train/cont_pos_loss": 0.00042641682914050294, "train/cont_pred": 0.998321932361972, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 2.8693103682610297, "train/dyn_loss_std": 5.5491668824226625, "train/extr_critic_critic_opt_grad_norm": 1.3161420775998023, "train/extr_critic_critic_opt_grad_steps": 38930.0, "train/extr_critic_critic_opt_loss": 1.4834167503541515, "train/extr_critic_mag": 296.0198418401903, "train/extr_critic_max": 296.0198418401903, "train/extr_critic_mean": 107.93765357232863, "train/extr_critic_min": 0.2166049203565044, "train/extr_critic_std": 72.32901052659558, "train/extr_return_normed_mag": 1.2821645279084481, "train/extr_return_normed_max": 1.2821645279084481, "train/extr_return_normed_mean": 0.43779140537784944, "train/extr_return_normed_min": -0.02191468133561073, "train/extr_return_normed_std": 0.30856265867910077, "train/extr_return_rate": 0.9551210168869265, "train/extr_return_raw_mag": 306.4223126811366, "train/extr_return_raw_max": 306.4223126811366, "train/extr_return_raw_mean": 108.31784298804499, "train/extr_return_raw_min": 0.39551531496953457, "train/extr_return_raw_std": 72.44262466430663, "train/extr_reward_mag": 36.97503587045977, "train/extr_reward_max": 36.97503587045977, "train/extr_reward_mean": 0.6876461046357308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.5745050114970054, "train/image_loss_mean": 1.4211204298080937, "train/image_loss_std": 0.9814898621651434, "train/model_loss_mean": 3.2008999824523925, "train/model_loss_std": 3.981283555492278, "train/model_opt_grad_norm": 12.265282704753261, "train/model_opt_grad_steps": 38930.0, "train/model_opt_loss": 3.2008999824523925, "train/policy_entropy_mag": 2.6437274148387293, "train/policy_entropy_max": 2.6437274148387293, "train/policy_entropy_mean": 0.9256431933372251, "train/policy_entropy_min": 0.08019889588317564, "train/policy_entropy_std": 0.7296868001261065, "train/policy_logprob_mag": 7.495461666968561, "train/policy_logprob_max": -0.009490460758247683, "train/policy_logprob_mean": -0.9257140555689412, "train/policy_logprob_min": -7.495461666968561, "train/policy_logprob_std": 1.3037638633481918, "train/policy_randomness_mag": 0.9146669337826391, "train/policy_randomness_max": 0.9146669337826391, "train/policy_randomness_mean": 0.3202505739465837, "train/policy_randomness_min": 0.02774691432714462, "train/policy_randomness_std": 0.25245431132854956, "train/post_ent_mag": 56.32171913885301, "train/post_ent_max": 56.32171913885301, "train/post_ent_mean": 42.2881578999181, "train/post_ent_min": 17.941667975148846, "train/post_ent_std": 4.026624231953774, "train/prior_ent_mag": 77.3923076506584, "train/prior_ent_max": 77.3923076506584, "train/prior_ent_mean": 45.16798056325605, "train/prior_ent_min": 22.1781345921178, "train/prior_ent_std": 5.940211000750142, "train/rep_loss_mean": 2.8693103682610297, "train/rep_loss_std": 5.5491668824226625, "train/reward_avg": 0.7758946572580645, "train/reward_loss_mean": 0.05690832472135944, "train/reward_loss_std": 0.2341054441467408, "train/reward_max_data": 43.61290322580645, "train/reward_max_pred": 23.651671981811525, "train/reward_neg_acc": 0.9743356981585103, "train/reward_neg_loss": 0.007425925828095886, "train/reward_pos_acc": 0.9926246712284703, "train/reward_pos_loss": 0.677172972309974, "train/reward_pred": 0.7040034951702241, "train/reward_rate": 0.07408644153225806, "train_stats/mean_log_entropy": 1.0234753489494324, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00023183303710538894, "report/cont_loss_std": 0.005002889316529036, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08653278648853302, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.294663035077974e-05, "report/cont_pred": 0.9981420040130615, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.5529468059539795, "report/dyn_loss_std": 5.0720744132995605, "report/image_loss_mean": 1.1999609470367432, "report/image_loss_std": 0.8264747858047485, "report/model_loss_mean": 2.787971258163452, "report/model_loss_std": 3.5804176330566406, "report/post_ent_mag": 56.67857360839844, "report/post_ent_max": 56.67857360839844, "report/post_ent_mean": 43.3013916015625, "report/post_ent_min": 16.049774169921875, "report/post_ent_std": 4.175996780395508, "report/prior_ent_mag": 77.37614440917969, "report/prior_ent_max": 77.37614440917969, "report/prior_ent_mean": 45.66802215576172, "report/prior_ent_min": 18.386457443237305, "report/prior_ent_std": 5.95622444152832, "report/rep_loss_mean": 2.5529468059539795, "report/rep_loss_std": 5.0720744132995605, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.0560104176402092, "report/reward_loss_std": 0.17769142985343933, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.009233474731445, "report/reward_neg_acc": 0.9722814559936523, "report/reward_neg_loss": 0.00912522990256548, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5673860311508179, "report/reward_pred": 0.8318755030632019, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009545428678393364, "eval/cont_loss_std": 0.2153611034154892, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.8606462478637695, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.2082275942666456e-05, "eval/cont_pred": 0.9999319314956665, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 16.332244873046875, "eval/dyn_loss_std": 10.67548942565918, "eval/image_loss_mean": 5.175197124481201, "eval/image_loss_std": 3.3293516635894775, "eval/model_loss_mean": 15.354480743408203, "eval/model_loss_std": 9.080245971679688, "eval/post_ent_mag": 56.589508056640625, "eval/post_ent_max": 56.589508056640625, "eval/post_ent_mean": 43.12568283081055, "eval/post_ent_min": 29.01830291748047, "eval/post_ent_std": 4.1011481285095215, "eval/prior_ent_mag": 77.37614440917969, "eval/prior_ent_max": 77.37614440917969, "eval/prior_ent_mean": 48.530494689941406, "eval/prior_ent_min": 32.859947204589844, "eval/prior_ent_std": 5.756381034851074, "eval/rep_loss_mean": 16.332244873046875, "eval/rep_loss_std": 10.67548942565918, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.37039223313331604, "eval/reward_loss_std": 2.1898462772369385, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999635696411133, "eval/reward_neg_acc": 0.9368104338645935, "eval/reward_neg_loss": 0.07551538199186325, "eval/reward_pos_acc": 0.14814814925193787, "eval/reward_pos_loss": 11.258994102478027, "eval/reward_pred": 0.18130889534950256, "eval/reward_rate": 0.0263671875, "replay/size": 72233.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.873855610560014e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.350617732606915e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.7865171432495117e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1095931529999, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 387.6941421031952, "timer/replay._sample_frac": 1.2918418835933163, "timer/replay._sample_avg": 0.015673275473124, "timer/replay._sample_min": 0.00047206878662109375, "timer/replay._sample_max": 0.04292011260986328, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.736808776855469, "timer/env.step_frac": 0.022447828828387213, "timer/env.step_avg": 0.00435757359434377, "timer/env.step_min": 0.002532482147216797, "timer/env.step_max": 0.023627758026123047, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.6938316822052, "timer/agent.policy_frac": 0.3688446960966423, "timer/agent.policy_avg": 0.07160014985912368, "timer/agent.policy_min": 0.0030527114868164062, "timer/agent.policy_max": 0.09217166900634766, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15510821342468262, "timer/dataset_train_frac": 0.0005168385715201259, "timer/dataset_train_avg": 0.00010032872795904438, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002465248107910156, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.28167009353638, "timer/agent.train_frac": 0.6040515672590198, "timer/agent.train_avg": 0.11725851881858756, "timer/agent.train_min": 0.10397624969482422, "timer/agent.train_max": 0.2067716121673584, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2581799030303955, "timer/agent.report_frac": 0.0008602854054677684, "timer/agent.report_avg": 0.12908995151519775, "timer/agent.report_min": 0.09623861312866211, "timer/agent.report_max": 0.1619412899017334, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.3855438232421875e-05, "timer/dataset_eval_frac": 1.1281025000477716e-07, "timer/dataset_eval_avg": 3.3855438232421875e-05, "timer/dataset_eval_min": 3.3855438232421875e-05, "timer/dataset_eval_max": 3.3855438232421875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.604641644220028}
+{"step": 165108, "episode/length": 736.0, "episode/score": 550.0, "episode/reward_rate": 0.07327001356852103}
+{"step": 166820, "episode/length": 427.0, "episode/score": 470.0, "episode/reward_rate": 0.10747663551401869}
+{"step": 169376, "episode/length": 638.0, "episode/score": 510.0, "episode/reward_rate": 0.0782472613458529}
+{"step": 169392, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.220867602856128, "train/action_min": 0.0, "train/action_std": 4.026072864408617, "train/actor_opt_grad_norm": 0.006388138169301795, "train/actor_opt_grad_steps": 40475.0, "train/actor_opt_loss": 0.0005782619179992796, "train/adv_mag": 0.4755314368899767, "train/adv_max": 0.45362807016868095, "train/adv_mean": 0.0017203361862871075, "train/adv_min": -0.3127303558897662, "train/adv_std": 0.02683156765029802, "train/cont_avg": 0.9983956473214286, "train/cont_loss_mean": 0.0010671748031164533, "train/cont_loss_std": 0.024719116486278822, "train/cont_neg_acc": 0.822834647546603, "train/cont_neg_loss": 0.4124132890907835, "train/cont_pos_acc": 0.9998728783873768, "train/cont_pos_loss": 0.0003659776630288375, "train/cont_pred": 0.9984577100772363, "train/cont_rate": 0.9983956473214286, "train/dyn_loss_mean": 2.9577899691346405, "train/dyn_loss_std": 5.594004002484408, "train/extr_critic_critic_opt_grad_norm": 1.3736611438261999, "train/extr_critic_critic_opt_grad_steps": 40475.0, "train/extr_critic_critic_opt_loss": 1.5040311867540532, "train/extr_critic_mag": 291.7922533704089, "train/extr_critic_max": 291.7922533704089, "train/extr_critic_mean": 103.85278260862673, "train/extr_critic_min": 0.18769921497865158, "train/extr_critic_std": 69.47295577804763, "train/extr_return_normed_mag": 1.2864486497718017, "train/extr_return_normed_max": 1.2864486497718017, "train/extr_return_normed_mean": 0.42444987111277394, "train/extr_return_normed_min": -0.026225650973327748, "train/extr_return_normed_std": 0.301310514474844, "train/extr_return_rate": 0.9605570698713327, "train/extr_return_raw_mag": 303.45007353943663, "train/extr_return_raw_max": 303.45007353943663, "train/extr_return_raw_mean": 104.25056298986658, "train/extr_return_raw_min": 0.1059779147281124, "train/extr_return_raw_std": 69.62455997219334, "train/extr_reward_mag": 31.56815496667639, "train/extr_reward_max": 31.56815496667639, "train/extr_reward_mean": 0.6676830013657545, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.4840835286425307, "train/image_loss_mean": 1.444244921207428, "train/image_loss_std": 1.0045079139920023, "train/model_loss_mean": 3.276905299781205, "train/model_loss_std": 4.026217897216995, "train/model_opt_grad_norm": 12.008864343940438, "train/model_opt_grad_steps": 40475.0, "train/model_opt_loss": 3.276905299781205, "train/policy_entropy_mag": 2.642563875619467, "train/policy_entropy_max": 2.642563875619467, "train/policy_entropy_mean": 0.9302494235627063, "train/policy_entropy_min": 0.08020154135180758, "train/policy_entropy_std": 0.7219385667280718, "train/policy_logprob_mag": 7.4954545126332865, "train/policy_logprob_max": -0.009490804783032313, "train/policy_logprob_mean": -0.9306302391863489, "train/policy_logprob_min": -7.4954545126332865, "train/policy_logprob_std": 1.300523215300077, "train/policy_randomness_mag": 0.914264372416905, "train/policy_randomness_max": 0.914264372416905, "train/policy_randomness_mean": 0.3218442200646772, "train/policy_randomness_min": 0.027747829505181933, "train/policy_randomness_std": 0.24977360578713478, "train/post_ent_mag": 56.40472394769842, "train/post_ent_max": 56.40472394769842, "train/post_ent_mean": 42.61375548622825, "train/post_ent_min": 18.423752673260577, "train/post_ent_std": 4.0842421178693895, "train/prior_ent_mag": 77.85950360979352, "train/prior_ent_max": 77.85950360979352, "train/prior_ent_mean": 45.60381512827688, "train/prior_ent_min": 22.67195430978552, "train/prior_ent_std": 5.963577341723751, "train/rep_loss_mean": 2.9577899691346405, "train/rep_loss_std": 5.594004002484408, "train/reward_avg": 0.7641918628246753, "train/reward_loss_mean": 0.05691924086445338, "train/reward_loss_std": 0.23582680716917112, "train/reward_max_data": 40.45454545454545, "train/reward_max_pred": 23.871536867959158, "train/reward_neg_acc": 0.9736393543032856, "train/reward_neg_loss": 0.007462503554831658, "train/reward_pos_acc": 0.9918353178284385, "train/reward_pos_loss": 0.6879039275181758, "train/reward_pred": 0.6927066259569936, "train/reward_rate": 0.07319779829545454, "train_stats/mean_log_entropy": 0.9766516089439392, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0026943369302898645, "report/cont_loss_std": 0.0859917476773262, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 2.7530853748321533, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.782461357739521e-06, "report/cont_pred": 0.999932050704956, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.838510513305664, "report/dyn_loss_std": 5.72493839263916, "report/image_loss_mean": 1.128512978553772, "report/image_loss_std": 0.8912714123725891, "report/model_loss_mean": 2.8816566467285156, "report/model_loss_std": 3.968583345413208, "report/post_ent_mag": 55.928306579589844, "report/post_ent_max": 55.928306579589844, "report/post_ent_mean": 41.33708953857422, "report/post_ent_min": 14.670825958251953, "report/post_ent_std": 4.839064598083496, "report/prior_ent_mag": 78.21094512939453, "report/prior_ent_max": 78.21094512939453, "report/prior_ent_mean": 44.26752471923828, "report/prior_ent_min": 18.92845916748047, "report/prior_ent_std": 6.675241470336914, "report/rep_loss_mean": 2.838510513305664, "report/rep_loss_std": 5.72493839263916, "report/reward_avg": 1.171875, "report/reward_loss_mean": 0.047343332320451736, "report/reward_loss_std": 0.1896478831768036, "report/reward_max_data": 500.0, "report/reward_max_pred": 195.0646209716797, "report/reward_neg_acc": 0.9790356159210205, "report/reward_neg_loss": 0.004774665459990501, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6274933815002441, "report/reward_pred": 0.8432629108428955, "report/reward_rate": 0.068359375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.03173120692372322, "eval/cont_loss_std": 0.590874195098877, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.828851699829102, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.071995812817477e-06, "eval/cont_pred": 0.9999938011169434, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 16.972360610961914, "eval/dyn_loss_std": 9.621631622314453, "eval/image_loss_mean": 5.8771281242370605, "eval/image_loss_std": 3.2366416454315186, "eval/model_loss_mean": 16.470592498779297, "eval/model_loss_std": 8.675719261169434, "eval/post_ent_mag": 55.96123504638672, "eval/post_ent_max": 55.96123504638672, "eval/post_ent_mean": 43.0219612121582, "eval/post_ent_min": 29.220741271972656, "eval/post_ent_std": 4.123873710632324, "eval/prior_ent_mag": 78.21094512939453, "eval/prior_ent_max": 78.21094512939453, "eval/prior_ent_mean": 48.33991241455078, "eval/prior_ent_min": 33.73258590698242, "eval/prior_ent_std": 5.808889389038086, "eval/rep_loss_mean": 16.972360610961914, "eval/rep_loss_std": 9.621631622314453, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.37831613421440125, "eval/reward_loss_std": 2.4172956943511963, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988729476928711, "eval/reward_neg_acc": 0.95390784740448, "eval/reward_neg_loss": 0.04612047225236893, "eval/reward_pos_acc": 0.19230769574642181, "eval/reward_pos_loss": 13.12951946258545, "eval/reward_pred": 0.11320613324642181, "eval/reward_rate": 0.025390625, "replay/size": 73779.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.933845796375349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3625791433711873e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1010637283325195e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.99483036994934, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 395.7319211959839, "timer/replay._sample_frac": 1.319129135352009, "timer/replay._sample_avg": 0.015998218030238674, "timer/replay._sample_min": 0.0004119873046875, "timer/replay._sample_max": 0.04852557182312012, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.701735734939575, "timer/env.step_frac": 0.02233950407303716, "timer/env.step_avg": 0.004334887280038535, "timer/env.step_min": 0.002396821975708008, "timer/env.step_max": 0.03276491165161133, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.51481008529663, "timer/agent.policy_frac": 0.3717224391759623, "timer/agent.policy_avg": 0.0721311837550431, "timer/agent.policy_min": 0.002857685089111328, "timer/agent.policy_max": 0.30455803871154785, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.1559617519378662, "timer/dataset_train_frac": 0.0005198814651090367, "timer/dataset_train_avg": 0.00010088082272824463, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023746490478515625, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.4102065563202, "timer/agent.train_frac": 0.6013777181888131, "timer/agent.train_avg": 0.11669482959658486, "timer/agent.train_min": 0.10338616371154785, "timer/agent.train_max": 0.20125651359558105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25770139694213867, "timer/agent.report_frac": 0.0008590194591831632, "timer/agent.report_avg": 0.12885069847106934, "timer/agent.report_min": 0.09671711921691895, "timer/agent.report_max": 0.16098427772521973, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.14984130859375e-05, "timer/dataset_eval_frac": 1.716643350901427e-07, "timer/dataset_eval_avg": 5.14984130859375e-05, "timer/dataset_eval_min": 5.14984130859375e-05, "timer/dataset_eval_max": 5.14984130859375e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09192180633544922, "timer/agent.save_frac": 0.0003064113012283997, "timer/agent.save_avg": 0.09192180633544922, "timer/agent.save_min": 0.09192180633544922, "timer/agent.save_max": 0.09192180633544922, "fps": 20.61257130337406}
+{"step": 171400, "episode/length": 505.0, "episode/score": 500.0, "episode/reward_rate": 0.09881422924901186}
+{"step": 173352, "episode/length": 487.0, "episode/score": 560.0, "episode/reward_rate": 0.11270491803278689}
+{"step": 175112, "episode/length": 439.0, "episode/score": 500.0, "episode/reward_rate": 0.11136363636363636}
+{"step": 175580, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.30004410282258, "train/action_min": 0.0, "train/action_std": 3.978149023363667, "train/actor_opt_grad_norm": 0.005876876675193348, "train/actor_opt_grad_steps": 42020.0, "train/actor_opt_loss": 0.0007070877386438717, "train/adv_mag": 0.4814800008650749, "train/adv_max": 0.4686045680315264, "train/adv_mean": 0.0019934583653417985, "train/adv_min": -0.2940807480004526, "train/adv_std": 0.02513167465165738, "train/cont_avg": 0.9984248991935484, "train/cont_loss_mean": 0.0011685039889837959, "train/cont_loss_std": 0.026266723183075116, "train/cont_neg_acc": 0.8510256427984971, "train/cont_neg_loss": 0.4195477879654321, "train/cont_pos_acc": 0.9998230930297606, "train/cont_pos_loss": 0.0005508028143708544, "train/cont_pred": 0.9983331495715726, "train/cont_rate": 0.9984248991935484, "train/dyn_loss_mean": 2.857098356370003, "train/dyn_loss_std": 5.56474184220837, "train/extr_critic_critic_opt_grad_norm": 1.3087148212617443, "train/extr_critic_critic_opt_grad_steps": 42020.0, "train/extr_critic_critic_opt_loss": 1.4855535568729523, "train/extr_critic_mag": 299.65848034274194, "train/extr_critic_max": 299.65848034274194, "train/extr_critic_mean": 108.77763514364919, "train/extr_critic_min": 0.12818063305270289, "train/extr_critic_std": 72.74016046831684, "train/extr_return_normed_mag": 1.2797835084699816, "train/extr_return_normed_max": 1.2797835084699816, "train/extr_return_normed_mean": 0.4378828281356442, "train/extr_return_normed_min": -0.02204711170446488, "train/extr_return_normed_std": 0.3070979427906775, "train/extr_return_rate": 0.9619048714637757, "train/extr_return_raw_mag": 309.1028717041016, "train/extr_return_raw_max": 309.1028717041016, "train/extr_return_raw_mean": 109.25074349680254, "train/extr_return_raw_min": 0.13998379174304465, "train/extr_return_raw_std": 72.88146231866652, "train/extr_reward_mag": 36.59952953707787, "train/extr_reward_max": 36.59952953707787, "train/extr_reward_mean": 0.7327345169359638, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.6446062495631555, "train/image_loss_mean": 1.3823394367771764, "train/image_loss_std": 0.9853440096301417, "train/model_loss_mean": 3.1561520868732083, "train/model_loss_std": 3.9921842221290835, "train/model_opt_grad_norm": 12.152554739675214, "train/model_opt_grad_steps": 42020.0, "train/model_opt_loss": 3.1561520868732083, "train/policy_entropy_mag": 2.654009545233942, "train/policy_entropy_max": 2.654009545233942, "train/policy_entropy_mean": 0.9092991129044563, "train/policy_entropy_min": 0.08019930230033014, "train/policy_entropy_std": 0.724615220485195, "train/policy_logprob_mag": 7.49546070098877, "train/policy_logprob_max": -0.009490510268557456, "train/policy_logprob_mean": -0.9089658179590779, "train/policy_logprob_min": -7.49546070098877, "train/policy_logprob_std": 1.2925429828705326, "train/policy_randomness_mag": 0.918224307029478, "train/policy_randomness_max": 0.918224307029478, "train/policy_randomness_mean": 0.3145959073497403, "train/policy_randomness_min": 0.02774705499891312, "train/policy_randomness_std": 0.25069966556564455, "train/post_ent_mag": 56.7530511671497, "train/post_ent_max": 56.7530511671497, "train/post_ent_mean": 42.583674867691535, "train/post_ent_min": 17.579330973471365, "train/post_ent_std": 4.130979034977575, "train/prior_ent_mag": 78.30372801749937, "train/prior_ent_max": 78.30372801749937, "train/prior_ent_mean": 45.48665276804278, "train/prior_ent_min": 21.728430434196227, "train/prior_ent_std": 6.006182196832472, "train/rep_loss_mean": 2.857098356370003, "train/rep_loss_std": 5.56474184220837, "train/reward_avg": 0.8249117943548387, "train/reward_loss_mean": 0.05838514850024254, "train/reward_loss_std": 0.23456187555866856, "train/reward_max_data": 47.41935483870968, "train/reward_max_pred": 28.297772118353073, "train/reward_neg_acc": 0.9763830715610134, "train/reward_neg_loss": 0.007022513559598836, "train/reward_pos_acc": 0.9942566917788598, "train/reward_pos_loss": 0.6655012511437939, "train/reward_pred": 0.7559480999746631, "train/reward_rate": 0.07858492943548387, "train_stats/mean_log_entropy": 0.8045886158943176, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0038394390139728785, "report/cont_loss_std": 0.12179398536682129, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 3.8993043899536133, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.155548984068446e-05, "report/cont_pred": 0.9999488592147827, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.679922580718994, "report/dyn_loss_std": 5.421413898468018, "report/image_loss_mean": 1.1594452857971191, "report/image_loss_std": 0.8462671041488647, "report/model_loss_mean": 2.826460599899292, "report/model_loss_std": 3.745806932449341, "report/post_ent_mag": 57.663795471191406, "report/post_ent_max": 57.663795471191406, "report/post_ent_mean": 42.93231964111328, "report/post_ent_min": 15.96922492980957, "report/post_ent_std": 4.401000022888184, "report/prior_ent_mag": 78.45794677734375, "report/prior_ent_max": 78.45794677734375, "report/prior_ent_mean": 45.62744903564453, "report/prior_ent_min": 20.08717918395996, "report/prior_ent_std": 6.011063575744629, "report/rep_loss_mean": 2.679922580718994, "report/rep_loss_std": 5.421413898468018, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.055222198367118835, "report/reward_loss_std": 0.17531262338161469, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.476527214050293, "report/reward_neg_acc": 0.9817596673965454, "report/reward_neg_loss": 0.003268566681072116, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5815350413322449, "report/reward_pred": 0.8514876961708069, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01237000897526741, "eval/cont_loss_std": 0.36843255162239075, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 5.904883861541748, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000838670355733484, "eval/cont_pred": 0.9983909130096436, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.95870304107666, "eval/dyn_loss_std": 11.517719268798828, "eval/image_loss_mean": 4.562599182128906, "eval/image_loss_std": 2.8146779537200928, "eval/model_loss_mean": 14.189632415771484, "eval/model_loss_std": 9.20543384552002, "eval/post_ent_mag": 57.432037353515625, "eval/post_ent_max": 57.432037353515625, "eval/post_ent_mean": 42.238521575927734, "eval/post_ent_min": 30.629514694213867, "eval/post_ent_std": 3.6360056400299072, "eval/prior_ent_mag": 78.45794677734375, "eval/prior_ent_max": 78.45794677734375, "eval/prior_ent_mean": 47.19682312011719, "eval/prior_ent_min": 33.035430908203125, "eval/prior_ent_std": 5.662829875946045, "eval/rep_loss_mean": 14.95870304107666, "eval/rep_loss_std": 11.517719268798828, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.6394424438476562, "eval/reward_loss_std": 3.162510871887207, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997204780578613, "eval/reward_neg_acc": 0.9417773485183716, "eval/reward_neg_loss": 0.046006955206394196, "eval/reward_pos_acc": 0.15555556118488312, "eval/reward_pos_loss": 13.549959182739258, "eval/reward_pred": 0.15364378690719604, "eval/reward_rate": 0.0439453125, "replay/size": 75326.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.8392652771745715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3530196570240456e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0712614059448242e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.071457862854, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.6673233509064, "timer/replay._sample_frac": 1.3019143044569694, "timer/replay._sample_avg": 0.015783262902024336, "timer/replay._sample_min": 0.0005393028259277344, "timer/replay._sample_max": 0.04922890663146973, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.740613698959351, "timer/env.step_frac": 0.022463361717128427, "timer/env.step_avg": 0.004357216353561313, "timer/env.step_min": 0.002297639846801758, "timer/env.step_max": 0.034941911697387695, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.36620712280273, "timer/agent.policy_frac": 0.37113228934190085, "timer/agent.policy_avg": 0.07198849846335019, "timer/agent.policy_min": 0.003113985061645508, "timer/agent.policy_max": 0.10512900352478027, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15476083755493164, "timer/dataset_train_frac": 0.0005157466113477018, "timer/dataset_train_avg": 0.0001000393261505699, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00022149085998535156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.60382652282715, "timer/agent.train_frac": 0.6018693940740313, "timer/agent.train_avg": 0.1167445549598107, "timer/agent.train_min": 0.10264253616333008, "timer/agent.train_max": 0.20801734924316406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25912904739379883, "timer/agent.report_frac": 0.0008635577979970102, "timer/agent.report_avg": 0.12956452369689941, "timer/agent.report_min": 0.09813618659973145, "timer/agent.report_max": 0.16099286079406738, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8751128504092905e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.620338605441656}
+{"step": 176868, "episode/length": 438.0, "episode/score": 460.0, "episode/reward_rate": 0.10478359908883828}
+{"step": 178380, "episode/length": 377.0, "episode/score": 450.0, "episode/reward_rate": 0.11904761904761904}
+{"step": 180160, "episode/length": 444.0, "episode/score": 460.0, "episode/reward_rate": 0.10337078651685393}
+{"step": 181776, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.221233933971774, "train/action_min": 0.0, "train/action_std": 4.026782954123712, "train/actor_opt_grad_norm": 0.006146868315315054, "train/actor_opt_grad_steps": 43570.0, "train/actor_opt_loss": 0.0006476370897050196, "train/adv_mag": 0.4579027818095299, "train/adv_max": 0.4375659780156228, "train/adv_mean": 0.0016530869311311342, "train/adv_min": -0.30426703681868894, "train/adv_std": 0.025288576116004297, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.001034598564344393, "train/cont_loss_std": 0.02324308326469984, "train/cont_neg_acc": 0.8583989518833911, "train/cont_neg_loss": 0.2942803928502638, "train/cont_pos_acc": 0.9998167880119816, "train/cont_pos_loss": 0.0005273451878173135, "train/cont_pred": 0.9982288133713507, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 2.8870958589738414, "train/dyn_loss_std": 5.689209122811595, "train/extr_critic_critic_opt_grad_norm": 1.3351391280851057, "train/extr_critic_critic_opt_grad_steps": 43570.0, "train/extr_critic_critic_opt_loss": 1.4976803671929144, "train/extr_critic_mag": 300.4958423245338, "train/extr_critic_max": 300.4958423245338, "train/extr_critic_mean": 106.32754777477633, "train/extr_critic_min": 0.08262466384518531, "train/extr_critic_std": 73.2328974323888, "train/extr_return_normed_mag": 1.2477727113231536, "train/extr_return_normed_max": 1.2477727113231536, "train/extr_return_normed_mean": 0.42341877183606547, "train/extr_return_normed_min": -0.021260621870732715, "train/extr_return_normed_std": 0.3057327122457566, "train/extr_return_rate": 0.9581741902136034, "train/extr_return_raw_mag": 304.5097892515121, "train/extr_return_raw_max": 304.5097892515121, "train/extr_return_raw_mean": 106.72440997708229, "train/extr_return_raw_min": 0.06284433807614409, "train/extr_return_raw_std": 73.36285151820029, "train/extr_reward_mag": 28.865006656031454, "train/extr_reward_max": 28.865006656031454, "train/extr_reward_mean": 0.6807227996087843, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.5293337314359605, "train/image_loss_mean": 1.3946452894518453, "train/image_loss_std": 0.9844042939524497, "train/model_loss_mean": 3.1842496795039024, "train/model_loss_std": 4.0677216745192, "train/model_opt_grad_norm": 11.638825905707575, "train/model_opt_grad_steps": 43570.0, "train/model_opt_loss": 3.1842496795039024, "train/policy_entropy_mag": 2.6614446009359054, "train/policy_entropy_max": 2.6614446009359054, "train/policy_entropy_mean": 0.9486915665288125, "train/policy_entropy_min": 0.08019946746287808, "train/policy_entropy_std": 0.7412443441729392, "train/policy_logprob_mag": 7.495455234281478, "train/policy_logprob_max": -0.009490537685492347, "train/policy_logprob_mean": -0.9475336824693987, "train/policy_logprob_min": -7.495455234281478, "train/policy_logprob_std": 1.3039973135917418, "train/policy_randomness_mag": 0.9207966562240354, "train/policy_randomness_max": 0.9207966562240354, "train/policy_randomness_mean": 0.3282247649085137, "train/policy_randomness_min": 0.027747112043922946, "train/policy_randomness_std": 0.256452946797494, "train/post_ent_mag": 57.29522646011845, "train/post_ent_max": 57.29522646011845, "train/post_ent_mean": 42.593082870975614, "train/post_ent_min": 17.222841465857723, "train/post_ent_std": 4.148803434064312, "train/prior_ent_mag": 78.69873465261152, "train/prior_ent_max": 78.69873465261152, "train/prior_ent_mean": 45.51946342222152, "train/prior_ent_min": 21.408930237062517, "train/prior_ent_std": 6.047458633299796, "train/rep_loss_mean": 2.8870958589738414, "train/rep_loss_std": 5.689209122811595, "train/reward_avg": 0.7743195564516129, "train/reward_loss_mean": 0.056312285099298726, "train/reward_loss_std": 0.23674626725335274, "train/reward_max_data": 46.25806451612903, "train/reward_max_pred": 21.544539789999686, "train/reward_neg_acc": 0.9760064082760964, "train/reward_neg_loss": 0.007019518728127643, "train/reward_pos_acc": 0.9933144042568822, "train/reward_pos_loss": 0.6801435882045377, "train/reward_pred": 0.6979318013114314, "train/reward_rate": 0.07370211693548387, "train_stats/mean_log_entropy": 0.7687607804934183, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00030980672454461455, "report/cont_loss_std": 0.0065956199541687965, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.16513052582740784, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014869165897835046, "report/cont_pred": 0.9990317225456238, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6372995376586914, "report/dyn_loss_std": 5.871596813201904, "report/image_loss_mean": 1.4689582586288452, "report/image_loss_std": 0.8950450420379639, "report/model_loss_mean": 3.0894901752471924, "report/model_loss_std": 4.131186485290527, "report/post_ent_mag": 59.298892974853516, "report/post_ent_max": 59.298892974853516, "report/post_ent_mean": 42.582969665527344, "report/post_ent_min": 17.06793975830078, "report/post_ent_std": 3.999217987060547, "report/prior_ent_mag": 78.76725006103516, "report/prior_ent_max": 78.76725006103516, "report/prior_ent_mean": 45.275360107421875, "report/prior_ent_min": 16.876232147216797, "report/prior_ent_std": 5.737289905548096, "report/rep_loss_mean": 2.6372995376586914, "report/rep_loss_std": 5.871596813201904, "report/reward_avg": 0.5859375, "report/reward_loss_mean": 0.03784230351448059, "report/reward_loss_std": 0.1429811418056488, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.44841957092285, "report/reward_neg_acc": 0.9761658310890198, "report/reward_neg_loss": 0.0049767689779400826, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5753887891769409, "report/reward_pred": 0.5615725517272949, "report/reward_rate": 0.0576171875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.9252564015914686e-05, "eval/cont_loss_std": 0.0005721261259168386, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.9252564015914686e-05, "eval/cont_pred": 0.9999809265136719, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.142166137695312, "eval/dyn_loss_std": 9.397370338439941, "eval/image_loss_mean": 5.110130310058594, "eval/image_loss_std": 2.7906792163848877, "eval/model_loss_mean": 15.267677307128906, "eval/model_loss_std": 8.07963752746582, "eval/post_ent_mag": 55.0782470703125, "eval/post_ent_max": 55.0782470703125, "eval/post_ent_mean": 43.1967658996582, "eval/post_ent_min": 30.52008056640625, "eval/post_ent_std": 3.767996311187744, "eval/prior_ent_mag": 78.76725006103516, "eval/prior_ent_max": 78.76725006103516, "eval/prior_ent_mean": 48.76687240600586, "eval/prior_ent_min": 37.07632827758789, "eval/prior_ent_std": 5.07467794418335, "eval/rep_loss_mean": 16.142166137695312, "eval/rep_loss_std": 9.397370338439941, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.4722285270690918, "eval/reward_loss_std": 2.8533852100372314, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007823944091797, "eval/reward_neg_acc": 0.9627766013145447, "eval/reward_neg_loss": 0.027112985029816628, "eval/reward_pos_acc": 0.03333333507180214, "eval/reward_pos_loss": 15.220391273498535, "eval/reward_pred": 0.06291636824607849, "eval/reward_rate": 0.029296875, "replay/size": 76875.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.852256750275505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351176499550846e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14131784439087, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 388.9215829372406, "timer/replay._sample_frac": 1.295794879993424, "timer/replay._sample_avg": 0.01569244605137349, "timer/replay._sample_min": 0.0004494190216064453, "timer/replay._sample_max": 0.05362582206726074, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.765681743621826, "timer/env.step_frac": 0.02254165401888957, "timer/env.step_avg": 0.004367773882260701, "timer/env.step_min": 0.002160787582397461, "timer/env.step_max": 0.028349637985229492, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.44293689727783, "timer/agent.policy_frac": 0.37130155120814035, "timer/agent.policy_avg": 0.07194508514995342, "timer/agent.policy_min": 0.002927064895629883, "timer/agent.policy_max": 0.08912968635559082, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15176701545715332, "timer/dataset_train_frac": 0.0005056518594212256, "timer/dataset_train_avg": 9.797741475607058e-05, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.0002162456512451172, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.5505166053772, "timer/agent.train_frac": 0.6015516887247897, "timer/agent.train_avg": 0.11655940387693815, "timer/agent.train_min": 0.10340166091918945, "timer/agent.train_max": 0.20429539680480957, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.27083778381347656, "timer/agent.report_frac": 0.000902367543924403, "timer/agent.report_avg": 0.13541889190673828, "timer/agent.report_min": 0.10622191429138184, "timer/agent.report_max": 0.16461586952209473, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.29425048828125e-05, "timer/dataset_eval_frac": 2.0970956393096543e-07, "timer/dataset_eval_avg": 6.29425048828125e-05, "timer/dataset_eval_min": 6.29425048828125e-05, "timer/dataset_eval_max": 6.29425048828125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.642358602184355}
+{"step": 182364, "episode/length": 550.0, "episode/score": 500.0, "episode/reward_rate": 0.08892921960072596}
+{"step": 184088, "episode/length": 430.0, "episode/score": 440.0, "episode/reward_rate": 0.09976798143851508}
+{"step": 185516, "episode/length": 356.0, "episode/score": 460.0, "episode/reward_rate": 0.12605042016806722}
+{"step": 187112, "episode/length": 398.0, "episode/score": 440.0, "episode/reward_rate": 0.10776942355889724}
+{"step": 187968, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.136302135836694, "train/action_min": 0.0, "train/action_std": 4.100279615771386, "train/actor_opt_grad_norm": 0.006171273363513812, "train/actor_opt_grad_steps": 45120.0, "train/actor_opt_loss": 0.0005828883090162567, "train/adv_mag": 0.4793151207508579, "train/adv_max": 0.46262751000542796, "train/adv_mean": 0.0016222247787218, "train/adv_min": -0.3060479832272376, "train/adv_std": 0.02614683441577419, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0010227867026474673, "train/cont_loss_std": 0.02441316100919193, "train/cont_neg_acc": 0.854497356074197, "train/cont_neg_loss": 0.38366229574690114, "train/cont_pos_acc": 0.9998673331352972, "train/cont_pos_loss": 0.0003834797157493643, "train/cont_pred": 0.9983659867317446, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.8635890545383575, "train/dyn_loss_std": 5.608427459962907, "train/extr_critic_critic_opt_grad_norm": 1.4060289009924858, "train/extr_critic_critic_opt_grad_steps": 45120.0, "train/extr_critic_critic_opt_loss": 1.5310206497869183, "train/extr_critic_mag": 302.9501413652974, "train/extr_critic_max": 302.9501413652974, "train/extr_critic_mean": 104.91715304466986, "train/extr_critic_min": 0.08752556693169379, "train/extr_critic_std": 74.26708093458606, "train/extr_return_normed_mag": 1.2713120387446495, "train/extr_return_normed_max": 1.2713120387446495, "train/extr_return_normed_mean": 0.4153951306496897, "train/extr_return_normed_min": -0.021745299116798466, "train/extr_return_normed_std": 0.30919420055804714, "train/extr_return_rate": 0.9579188150744284, "train/extr_return_raw_mag": 311.40191256615424, "train/extr_return_raw_max": 311.40191256615424, "train/extr_return_raw_mean": 105.3078610327936, "train/extr_return_raw_min": 0.06619856890230891, "train/extr_return_raw_std": 74.44591724026587, "train/extr_reward_mag": 34.06230084819178, "train/extr_reward_max": 34.06230084819178, "train/extr_reward_mean": 0.7013917586495799, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.645118498802185, "train/image_loss_mean": 1.3447000880395212, "train/image_loss_std": 0.9471126548705563, "train/model_loss_mean": 3.120396977086221, "train/model_loss_std": 3.9915841256418534, "train/model_opt_grad_norm": 12.030715311727215, "train/model_opt_grad_steps": 45120.0, "train/model_opt_loss": 3.120396977086221, "train/policy_entropy_mag": 2.667856437929215, "train/policy_entropy_max": 2.667856437929215, "train/policy_entropy_mean": 0.967254816332171, "train/policy_entropy_min": 0.08019872625027934, "train/policy_entropy_std": 0.7581591486930848, "train/policy_logprob_mag": 7.495456166421214, "train/policy_logprob_max": -0.009490421101931603, "train/policy_logprob_mean": -0.9658833815205482, "train/policy_logprob_min": -7.495456166421214, "train/policy_logprob_std": 1.309472741619233, "train/policy_randomness_mag": 0.9230150011277968, "train/policy_randomness_max": 0.9230150011277968, "train/policy_randomness_mean": 0.3346472090290439, "train/policy_randomness_min": 0.027746855623779758, "train/policy_randomness_std": 0.2623050675276787, "train/post_ent_mag": 57.699729993266445, "train/post_ent_max": 57.699729993266445, "train/post_ent_mean": 42.7400508511451, "train/post_ent_min": 17.12366777235462, "train/post_ent_std": 4.226937020209528, "train/prior_ent_mag": 79.03239952825732, "train/prior_ent_max": 79.03239952825732, "train/prior_ent_mean": 45.624116417669484, "train/prior_ent_min": 21.41475718713576, "train/prior_ent_std": 6.096354986006213, "train/rep_loss_mean": 2.8635890545383575, "train/rep_loss_std": 5.608427459962907, "train/reward_avg": 0.7934097782258065, "train/reward_loss_mean": 0.05652065261477424, "train/reward_loss_std": 0.2300743538045114, "train/reward_max_data": 40.58064516129032, "train/reward_max_pred": 22.52517848476287, "train/reward_neg_acc": 0.9768052220344543, "train/reward_neg_loss": 0.006774290386707552, "train/reward_pos_acc": 0.9940708798746909, "train/reward_pos_loss": 0.6648381544697669, "train/reward_pred": 0.7236305946303953, "train/reward_rate": 0.07582535282258064, "train_stats/mean_log_entropy": 0.786702960729599, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0001767385983839631, "report/cont_loss_std": 0.004872164689004421, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00033997147693298757, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00017657903663348407, "report/cont_pred": 0.9988586902618408, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.07539963722229, "report/dyn_loss_std": 5.518971920013428, "report/image_loss_mean": 1.3949952125549316, "report/image_loss_std": 0.9224606156349182, "report/model_loss_mean": 3.2887845039367676, "report/model_loss_std": 3.8591387271881104, "report/post_ent_mag": 55.81598663330078, "report/post_ent_max": 55.81598663330078, "report/post_ent_mean": 43.699920654296875, "report/post_ent_min": 16.849538803100586, "report/post_ent_std": 4.492931365966797, "report/prior_ent_mag": 79.15684509277344, "report/prior_ent_max": 79.15684509277344, "report/prior_ent_mean": 46.88934326171875, "report/prior_ent_min": 19.93824577331543, "report/prior_ent_std": 6.005491256713867, "report/rep_loss_mean": 3.07539963722229, "report/rep_loss_std": 5.518971920013428, "report/reward_avg": 0.625, "report/reward_loss_mean": 0.0483727753162384, "report/reward_loss_std": 0.20826363563537598, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.642919540405273, "report/reward_neg_acc": 0.9781478047370911, "report/reward_neg_loss": 0.005884249694645405, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6964914202690125, "report/reward_pred": 0.5630656480789185, "report/reward_rate": 0.0615234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.663072902782005e-07, "eval/cont_loss_std": 5.887192401132779e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.663072902782005e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.389379501342773, "eval/dyn_loss_std": 9.833005905151367, "eval/image_loss_mean": 4.802196979522705, "eval/image_loss_std": 2.8417863845825195, "eval/model_loss_mean": 14.813556671142578, "eval/model_loss_std": 8.97929859161377, "eval/post_ent_mag": 58.26361846923828, "eval/post_ent_max": 58.26361846923828, "eval/post_ent_mean": 43.199798583984375, "eval/post_ent_min": 30.932092666625977, "eval/post_ent_std": 3.945934295654297, "eval/prior_ent_mag": 79.15684509277344, "eval/prior_ent_max": 79.15684509277344, "eval/prior_ent_mean": 48.897396087646484, "eval/prior_ent_min": 37.22955322265625, "eval/prior_ent_std": 5.199416637420654, "eval/rep_loss_mean": 15.389379501342773, "eval/rep_loss_std": 9.833005905151367, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.7777317762374878, "eval/reward_loss_std": 3.7610511779785156, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.086695671081543, "eval/reward_neg_acc": 0.9538934826850891, "eval/reward_neg_loss": 0.01844249852001667, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 16.21661376953125, "eval/reward_pred": 0.07150581479072571, "eval/reward_rate": 0.046875, "replay/size": 78423.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.856469403249657e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363492273237046e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 4.1425228118896484e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0176589488983, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 386.99311232566833, "timer/replay._sample_frac": 1.289901113426075, "timer/replay._sample_avg": 0.01562472191237356, "timer/replay._sample_min": 0.0005068778991699219, "timer/replay._sample_max": 0.04294157028198242, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8151679039001465, "timer/env.step_frac": 0.022715889217244264, "timer/env.step_avg": 0.0044025632454135315, "timer/env.step_min": 0.002317667007446289, "timer/env.step_max": 0.0330805778503418, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.99783563613892, "timer/agent.policy_frac": 0.36997100779006165, "timer/agent.policy_avg": 0.07170402818872024, "timer/agent.policy_min": 0.0030684471130371094, "timer/agent.policy_max": 0.08645272254943848, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1511998176574707, "timer/dataset_train_frac": 0.000503969726939388, "timer/dataset_train_avg": 9.767430081231958e-05, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.0002715587615966797, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.81954383850098, "timer/agent.train_frac": 0.6026963361823304, "timer/agent.train_avg": 0.11680849085174481, "timer/agent.train_min": 0.10224318504333496, "timer/agent.train_max": 0.2030649185180664, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2521085739135742, "timer/agent.report_frac": 0.0008403124495965606, "timer/agent.report_avg": 0.1260542869567871, "timer/agent.report_min": 0.09744501113891602, "timer/agent.report_max": 0.1546635627746582, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.030632019042969e-05, "timer/dataset_eval_frac": 1.6767786391866457e-07, "timer/dataset_eval_avg": 5.030632019042969e-05, "timer/dataset_eval_min": 5.030632019042969e-05, "timer/dataset_eval_max": 5.030632019042969e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63760275420049}
+{"step": 188908, "episode/length": 448.0, "episode/score": 990.0, "episode/reward_rate": 0.111358574610245}
+{"step": 191604, "episode/length": 673.0, "episode/score": 630.0, "episode/reward_rate": 0.09347181008902077}
+{"step": 193756, "episode/length": 537.0, "episode/score": 600.0, "episode/reward_rate": 0.10966542750929369}
+{"step": 194140, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.240908932376218, "train/action_min": 0.0, "train/action_std": 4.03010782947788, "train/actor_opt_grad_norm": 0.005923200669311374, "train/actor_opt_grad_steps": 46665.0, "train/actor_opt_loss": 0.0004563933886056593, "train/adv_mag": 0.45637682341522984, "train/adv_max": 0.43126278109364696, "train/adv_mean": 0.0013754747293063844, "train/adv_min": -0.30574339236338416, "train/adv_std": 0.0246088246742336, "train/cont_avg": 0.9983766233766234, "train/cont_loss_mean": 0.0007858975820469864, "train/cont_loss_std": 0.016979635440092553, "train/cont_neg_acc": 0.8837270354192088, "train/cont_neg_loss": 0.26117402495153835, "train/cont_pos_acc": 0.9999046081846411, "train/cont_pos_loss": 0.00036224949147958206, "train/cont_pred": 0.9983311670941192, "train/cont_rate": 0.9983766233766234, "train/dyn_loss_mean": 2.844265781439744, "train/dyn_loss_std": 5.679775640561983, "train/extr_critic_critic_opt_grad_norm": 1.328331334637357, "train/extr_critic_critic_opt_grad_steps": 46665.0, "train/extr_critic_critic_opt_loss": 1.4709562636041023, "train/extr_critic_mag": 304.7047882080078, "train/extr_critic_max": 304.7047882080078, "train/extr_critic_mean": 109.78089300378576, "train/extr_critic_min": 0.2729754564049956, "train/extr_critic_std": 74.54939973509157, "train/extr_return_normed_mag": 1.2687549436247194, "train/extr_return_normed_max": 1.2687549436247194, "train/extr_return_normed_mean": 0.4347655912498375, "train/extr_return_normed_min": -0.020686458318506355, "train/extr_return_normed_std": 0.30919596098073115, "train/extr_return_rate": 0.9578755381819489, "train/extr_return_raw_mag": 311.4856984522436, "train/extr_return_raw_max": 311.4856984522436, "train/extr_return_raw_mean": 110.11321451756861, "train/extr_return_raw_min": 0.1773384758981864, "train/extr_return_raw_std": 74.65638289513527, "train/extr_reward_mag": 25.24511971411767, "train/extr_reward_max": 25.24511971411767, "train/extr_reward_mean": 0.7194588269506182, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.558221820887033, "train/image_loss_mean": 1.31548579714515, "train/image_loss_std": 0.9352817995981737, "train/model_loss_mean": 3.0794638333382545, "train/model_loss_std": 4.022947908995987, "train/model_opt_grad_norm": 11.882935527083161, "train/model_opt_grad_steps": 46665.0, "train/model_opt_loss": 3.0794638333382545, "train/policy_entropy_mag": 2.656795139436598, "train/policy_entropy_max": 2.656795139436598, "train/policy_entropy_mean": 0.9444689259126589, "train/policy_entropy_min": 0.08019877689612376, "train/policy_entropy_std": 0.7525661777366291, "train/policy_logprob_mag": 7.495474570757382, "train/policy_logprob_max": -0.009490419874669283, "train/policy_logprob_mean": -0.9437381605823318, "train/policy_logprob_min": -7.495474570757382, "train/policy_logprob_std": 1.3042076369384668, "train/policy_randomness_mag": 0.9191880531899341, "train/policy_randomness_max": 0.9191880531899341, "train/policy_randomness_mean": 0.32676382914379043, "train/policy_randomness_min": 0.027746873194134082, "train/policy_randomness_std": 0.2603700321603131, "train/post_ent_mag": 58.41729728896897, "train/post_ent_max": 58.41729728896897, "train/post_ent_mean": 42.74917134371671, "train/post_ent_min": 17.17211087338336, "train/post_ent_std": 4.270088873900376, "train/prior_ent_mag": 79.39532535107105, "train/prior_ent_max": 79.39532535107105, "train/prior_ent_mean": 45.60947698122495, "train/prior_ent_min": 21.63308871256841, "train/prior_ent_std": 6.125437083182397, "train/rep_loss_mean": 2.844265781439744, "train/rep_loss_std": 5.679775640561983, "train/reward_avg": 0.794439935064935, "train/reward_loss_mean": 0.056632675919923686, "train/reward_loss_std": 0.22994605417956004, "train/reward_max_data": 31.2987012987013, "train/reward_max_pred": 19.689474539323285, "train/reward_neg_acc": 0.9774714770255151, "train/reward_neg_loss": 0.006291025556327606, "train/reward_pos_acc": 0.9942455945850966, "train/reward_pos_loss": 0.6615893360856292, "train/reward_pred": 0.7370424564782675, "train/reward_rate": 0.07714209618506493, "train_stats/mean_log_entropy": 0.9527947902679443, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.761587661050726e-06, "report/cont_loss_std": 6.0905746067874134e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.761587661050726e-06, "report/cont_pred": 0.999995231628418, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.5775296688079834, "report/dyn_loss_std": 6.068604469299316, "report/image_loss_mean": 1.7789373397827148, "report/image_loss_std": 1.185302734375, "report/model_loss_mean": 3.9634268283843994, "report/model_loss_std": 4.401944637298584, "report/post_ent_mag": 54.559356689453125, "report/post_ent_max": 54.559356689453125, "report/post_ent_mean": 42.484649658203125, "report/post_ent_min": 18.10304832458496, "report/post_ent_std": 4.34471321105957, "report/prior_ent_mag": 79.72732543945312, "report/prior_ent_max": 79.72732543945312, "report/prior_ent_mean": 46.324951171875, "report/prior_ent_min": 26.828445434570312, "report/prior_ent_std": 6.2238240242004395, "report/rep_loss_mean": 3.5775296688079834, "report/rep_loss_std": 6.068604469299316, "report/reward_avg": 0.478515625, "report/reward_loss_mean": 0.03796708583831787, "report/reward_loss_std": 0.17919309437274933, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.844057083129883, "report/reward_neg_acc": 0.9764585494995117, "report/reward_neg_loss": 0.008724872022867203, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6458317637443542, "report/reward_pred": 0.467607706785202, "report/reward_rate": 0.0458984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0177147313952446, "eval/cont_loss_std": 0.4439149498939514, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.068553924560547, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.720093789321254e-06, "eval/cont_pred": 0.9999886751174927, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.624073028564453, "eval/dyn_loss_std": 10.787047386169434, "eval/image_loss_mean": 4.945069789886475, "eval/image_loss_std": 2.916163682937622, "eval/model_loss_mean": 14.740560531616211, "eval/model_loss_std": 8.791935920715332, "eval/post_ent_mag": 59.08317565917969, "eval/post_ent_max": 59.08317565917969, "eval/post_ent_mean": 42.850196838378906, "eval/post_ent_min": 30.886775970458984, "eval/post_ent_std": 3.980571746826172, "eval/prior_ent_mag": 79.72732543945312, "eval/prior_ent_max": 79.72732543945312, "eval/prior_ent_mean": 49.01002502441406, "eval/prior_ent_min": 33.53242492675781, "eval/prior_ent_std": 5.700318336486816, "eval/rep_loss_mean": 15.624073028564453, "eval/rep_loss_std": 10.787047386169434, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4033326506614685, "eval/reward_loss_std": 2.578467845916748, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.967763900756836, "eval/reward_neg_acc": 0.9577889442443848, "eval/reward_neg_loss": 0.025262318551540375, "eval/reward_pos_acc": 0.13793103396892548, "eval/reward_pos_loss": 13.375057220458984, "eval/reward_pred": 0.08675608038902283, "eval/reward_rate": 0.0283203125, "replay/size": 79966.0, "replay/inserts": 1543.0, "replay/samples": 24688.0, "replay/insert_wait_avg": 4.856754879015109e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3465222335835208e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.00151348114014, "timer/replay._sample_count": 24688.0, "timer/replay._sample_total": 386.3638119697571, "timer/replay._sample_frac": 1.287872875994828, "timer/replay._sample_avg": 0.015649862766111352, "timer/replay._sample_min": 0.0017125606536865234, "timer/replay._sample_max": 0.25563478469848633, "timer/env.step_count": 1543.0, "timer/env.step_total": 6.784500360488892, "timer/env.step_frac": 0.022614887110945878, "timer/env.step_avg": 0.004396954219370636, "timer/env.step_min": 0.002300739288330078, "timer/env.step_max": 0.04745817184448242, "timer/agent.policy_count": 1543.0, "timer/agent.policy_total": 110.90390419960022, "timer/agent.policy_frac": 0.36967781566399427, "timer/agent.policy_avg": 0.07187550499001959, "timer/agent.policy_min": 0.002916097640991211, "timer/agent.policy_max": 0.15918397903442383, "timer/dataset_train_count": 1543.0, "timer/dataset_train_total": 0.15803861618041992, "timer/dataset_train_frac": 0.0005267927296318628, "timer/dataset_train_avg": 0.0001024229528064938, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002548694610595703, "timer/agent.train_count": 1543.0, "timer/agent.train_total": 180.9493272304535, "timer/agent.train_frac": 0.603161381190262, "timer/agent.train_avg": 0.11727111291669053, "timer/agent.train_min": 0.10289144515991211, "timer/agent.train_max": 0.5996947288513184, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25492238998413086, "timer/agent.report_frac": 0.0008497370130772917, "timer/agent.report_avg": 0.12746119499206543, "timer/agent.report_min": 0.09390974044799805, "timer/agent.report_max": 0.1610126495361328, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.574920654296875e-05, "timer/dataset_eval_frac": 8.583025546831948e-08, "timer/dataset_eval_avg": 2.574920654296875e-05, "timer/dataset_eval_min": 2.574920654296875e-05, "timer/dataset_eval_max": 2.574920654296875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1606600284576416, "timer/agent.save_frac": 0.0005355307264732904, "timer/agent.save_avg": 0.1606600284576416, "timer/agent.save_min": 0.1606600284576416, "timer/agent.save_max": 0.1606600284576416, "fps": 20.57207483606928}
+{"step": 195840, "episode/length": 520.0, "episode/score": 580.0, "episode/reward_rate": 0.10748560460652591}
+{"step": 197972, "episode/length": 532.0, "episode/score": 540.0, "episode/reward_rate": 0.09943714821763602}
+{"step": 199568, "episode/length": 398.0, "episode/score": 530.0, "episode/reward_rate": 0.13032581453634084}
+{"step": 200328, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.214623629662299, "train/action_min": 0.0, "train/action_std": 4.074697282237391, "train/actor_opt_grad_norm": 0.006381222686820454, "train/actor_opt_grad_steps": 48210.0, "train/actor_opt_loss": 0.0008073829095484407, "train/adv_mag": 0.5231506987925498, "train/adv_max": 0.4934828374655016, "train/adv_mean": 0.0017652599623855373, "train/adv_min": -0.3186006970943943, "train/adv_std": 0.0266223399629516, "train/cont_avg": 0.9982232862903225, "train/cont_loss_mean": 0.001090515031935704, "train/cont_loss_std": 0.025824989378943723, "train/cont_neg_acc": 0.8398218851053078, "train/cont_neg_loss": 0.3947367151369468, "train/cont_pos_acc": 0.9998736908358913, "train/cont_pos_loss": 0.00038852487797605076, "train/cont_pred": 0.9982759033479999, "train/cont_rate": 0.9982232862903225, "train/dyn_loss_mean": 2.8071460047075827, "train/dyn_loss_std": 5.649005732997772, "train/extr_critic_critic_opt_grad_norm": 1.3193173346980926, "train/extr_critic_critic_opt_grad_steps": 48210.0, "train/extr_critic_critic_opt_loss": 1.491417081894413, "train/extr_critic_mag": 305.4978753858997, "train/extr_critic_max": 305.4978753858997, "train/extr_critic_mean": 110.91006430349043, "train/extr_critic_min": 0.08694382867505474, "train/extr_critic_std": 76.06292471116589, "train/extr_return_normed_mag": 1.3151603898694437, "train/extr_return_normed_max": 1.3151603898694437, "train/extr_return_normed_mean": 0.43816829727542017, "train/extr_return_normed_min": -0.016668271646279122, "train/extr_return_normed_std": 0.31211851508386673, "train/extr_return_rate": 0.9551621813927927, "train/extr_return_raw_mag": 325.60833188949096, "train/extr_return_raw_max": 325.60833188949096, "train/extr_return_raw_mean": 111.34124903525075, "train/extr_return_raw_min": 0.08879283658123666, "train/extr_return_raw_std": 76.34582625358335, "train/extr_reward_mag": 42.70626909194454, "train/extr_reward_max": 42.70626909194454, "train/extr_reward_mean": 0.7642653736375993, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.886591962845095, "train/image_loss_mean": 1.2845328373293723, "train/image_loss_std": 0.9200594694383682, "train/model_loss_mean": 3.028470839223554, "train/model_loss_std": 3.989616420192103, "train/model_opt_grad_norm": 11.131338122583205, "train/model_opt_grad_steps": 48210.0, "train/model_opt_loss": 3.028470839223554, "train/policy_entropy_mag": 2.6593397294321366, "train/policy_entropy_max": 2.6593397294321366, "train/policy_entropy_mean": 0.9459467718678136, "train/policy_entropy_min": 0.08019638994047719, "train/policy_entropy_std": 0.7616828053228317, "train/policy_logprob_mag": 7.495505935915054, "train/policy_logprob_max": -0.009490112587809563, "train/policy_logprob_mean": -0.9459799137807662, "train/policy_logprob_min": -7.495505935915054, "train/policy_logprob_std": 1.3010665424408452, "train/policy_randomness_mag": 0.9200684243632901, "train/policy_randomness_max": 0.9200684243632901, "train/policy_randomness_mean": 0.3272751313063406, "train/policy_randomness_min": 0.027746047343938582, "train/policy_randomness_std": 0.263524170364103, "train/post_ent_mag": 59.02885008781187, "train/post_ent_max": 59.02885008781187, "train/post_ent_mean": 42.76781143680696, "train/post_ent_min": 17.019819364240092, "train/post_ent_std": 4.335387163777505, "train/prior_ent_mag": 79.77684532903857, "train/prior_ent_max": 79.77684532903857, "train/prior_ent_mean": 45.6324699647965, "train/prior_ent_min": 21.091856796510758, "train/prior_ent_std": 6.209986978961576, "train/rep_loss_mean": 2.8071460047075827, "train/rep_loss_std": 5.649005732997772, "train/reward_avg": 0.8557207661290323, "train/reward_loss_mean": 0.05855989648449805, "train/reward_loss_std": 0.2311009435884414, "train/reward_max_data": 53.61290322580645, "train/reward_max_pred": 32.92139844586772, "train/reward_neg_acc": 0.9784163144326979, "train/reward_neg_loss": 0.0066427931873007644, "train/reward_pos_acc": 0.9939810737486808, "train/reward_pos_loss": 0.655111522828379, "train/reward_pred": 0.7879267036914825, "train/reward_rate": 0.08063886088709678, "train_stats/mean_log_entropy": 0.8622337182362875, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0008568198536522686, "report/cont_loss_std": 0.02029980719089508, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.6175066232681274, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00025403418112546206, "report/cont_pred": 0.9992386102676392, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.558492660522461, "report/dyn_loss_std": 5.173844814300537, "report/image_loss_mean": 1.032905101776123, "report/image_loss_std": 0.7571106553077698, "report/model_loss_mean": 2.6150906085968018, "report/model_loss_std": 3.5560967922210693, "report/post_ent_mag": 61.147560119628906, "report/post_ent_max": 61.147560119628906, "report/post_ent_mean": 43.26878356933594, "report/post_ent_min": 16.851985931396484, "report/post_ent_std": 4.188697814941406, "report/prior_ent_mag": 79.95711517333984, "report/prior_ent_max": 79.95711517333984, "report/prior_ent_mean": 45.61917495727539, "report/prior_ent_min": 18.023805618286133, "report/prior_ent_std": 5.976351261138916, "report/rep_loss_mean": 2.558492660522461, "report/rep_loss_std": 5.173844814300537, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.04623301699757576, "report/reward_loss_std": 0.16578876972198486, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.005667686462402, "report/reward_neg_acc": 0.9852321147918701, "report/reward_neg_loss": 0.0036497118417173624, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.577403724193573, "report/reward_pred": 0.7226523160934448, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.007224312052130699, "eval/cont_loss_std": 0.20138025283813477, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.6835014820098877, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.003245365107432e-05, "eval/cont_pred": 0.9996078610420227, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.22274112701416, "eval/dyn_loss_std": 10.45492935180664, "eval/image_loss_mean": 4.2517218589782715, "eval/image_loss_std": 3.1137146949768066, "eval/model_loss_mean": 13.169761657714844, "eval/model_loss_std": 9.209249496459961, "eval/post_ent_mag": 58.98257827758789, "eval/post_ent_max": 58.98257827758789, "eval/post_ent_mean": 44.262718200683594, "eval/post_ent_min": 29.126548767089844, "eval/post_ent_std": 4.4858479499816895, "eval/prior_ent_mag": 79.95711517333984, "eval/prior_ent_max": 79.95711517333984, "eval/prior_ent_mean": 49.02222442626953, "eval/prior_ent_min": 31.754016876220703, "eval/prior_ent_std": 6.175797939300537, "eval/rep_loss_mean": 14.22274112701416, "eval/rep_loss_std": 10.45492935180664, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.37716978788375854, "eval/reward_loss_std": 2.3110573291778564, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004664421081543, "eval/reward_neg_acc": 0.9438315033912659, "eval/reward_neg_loss": 0.06611983478069305, "eval/reward_pos_acc": 0.2222222238779068, "eval/reward_pos_loss": 11.86297607421875, "eval/reward_pred": 0.15764829516410828, "eval/reward_rate": 0.0263671875, "replay/size": 81513.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.78794440655995e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3400160580507463e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.7401914596557617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0665726661682, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 384.8194782733917, "timer/replay._sample_frac": 1.2824470078561976, "timer/replay._sample_avg": 0.015547005424749181, "timer/replay._sample_min": 0.0005786418914794922, "timer/replay._sample_max": 0.03793931007385254, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.774256229400635, "timer/env.step_frac": 0.022575844317511397, "timer/env.step_avg": 0.004378963302779984, "timer/env.step_min": 0.001994609832763672, "timer/env.step_max": 0.030744314193725586, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.88320565223694, "timer/agent.policy_frac": 0.36952868380843396, "timer/agent.policy_avg": 0.07167628031818807, "timer/agent.policy_min": 0.0026421546936035156, "timer/agent.policy_max": 0.08768510818481445, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1601419448852539, "timer/dataset_train_frac": 0.0005336880528289165, "timer/dataset_train_avg": 0.00010351774071444984, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.0027251243591308594, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.04294967651367, "timer/agent.train_frac": 0.6033426118341033, "timer/agent.train_avg": 0.11702840961636307, "timer/agent.train_min": 0.10301709175109863, "timer/agent.train_max": 0.20221543312072754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2627294063568115, "timer/agent.report_frac": 0.0008755703910048812, "timer/agent.report_avg": 0.13136470317840576, "timer/agent.report_min": 0.10083770751953125, "timer/agent.report_max": 0.16189169883728027, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8751433779518984e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62068503656301}
+{"step": 201316, "episode/length": 436.0, "episode/score": 580.0, "episode/reward_rate": 0.13272311212814644}
+{"step": 202848, "episode/length": 382.0, "episode/score": 470.0, "episode/reward_rate": 0.12010443864229765}
+{"step": 204592, "episode/length": 435.0, "episode/score": 580.0, "episode/reward_rate": 0.13073394495412843}
+{"step": 206516, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.297804002637987, "train/action_min": 0.0, "train/action_std": 4.136511341317908, "train/actor_opt_grad_norm": 0.006314368319830724, "train/actor_opt_grad_steps": 49755.0, "train/actor_opt_loss": 0.0006085975103035578, "train/adv_mag": 0.4739374969299738, "train/adv_max": 0.4535113981404862, "train/adv_mean": 0.0018274599908370685, "train/adv_min": -0.29295044372995177, "train/adv_std": 0.02584932805583268, "train/cont_avg": 0.9983956473214286, "train/cont_loss_mean": 0.0009117068283751598, "train/cont_loss_std": 0.020369954646424035, "train/cont_neg_acc": 0.8659946250338708, "train/cont_neg_loss": 0.317403351159614, "train/cont_pos_acc": 0.9998919007840095, "train/cont_pos_loss": 0.00035743902811327053, "train/cont_pred": 0.9984000735468679, "train/cont_rate": 0.9983956473214286, "train/dyn_loss_mean": 2.8642783505576, "train/dyn_loss_std": 5.721190492828171, "train/extr_critic_critic_opt_grad_norm": 1.380934290684663, "train/extr_critic_critic_opt_grad_steps": 49755.0, "train/extr_critic_critic_opt_loss": 1.5074504126201977, "train/extr_critic_mag": 303.04960384616606, "train/extr_critic_max": 303.04960384616606, "train/extr_critic_mean": 107.91146607832475, "train/extr_critic_min": 0.22482036692755564, "train/extr_critic_std": 74.95301283799209, "train/extr_return_normed_mag": 1.282544750284839, "train/extr_return_normed_max": 1.282544750284839, "train/extr_return_normed_mean": 0.4234234791297417, "train/extr_return_normed_min": -0.019064451250332324, "train/extr_return_normed_std": 0.30786923909342134, "train/extr_return_rate": 0.953654759115987, "train/extr_return_raw_mag": 318.5367250318651, "train/extr_return_raw_max": 318.5367250318651, "train/extr_return_raw_mean": 108.35898062470672, "train/extr_return_raw_min": 0.13430752233199944, "train/extr_return_raw_std": 75.3158838346407, "train/extr_reward_mag": 31.442331660877574, "train/extr_reward_max": 31.442331660877574, "train/extr_reward_mean": 0.7218941415285135, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.703858112359976, "train/image_loss_mean": 1.302946542764639, "train/image_loss_std": 0.9340937122122034, "train/model_loss_mean": 3.0802912727578895, "train/model_loss_std": 4.049425055454304, "train/model_opt_grad_norm": 11.170516435202066, "train/model_opt_grad_steps": 49755.0, "train/model_opt_loss": 3.0802912727578895, "train/policy_entropy_mag": 2.6626948180136742, "train/policy_entropy_max": 2.6626948180136742, "train/policy_entropy_mean": 0.9632012337059169, "train/policy_entropy_min": 0.08019854394452912, "train/policy_entropy_std": 0.7603246124533863, "train/policy_logprob_mag": 7.4954926069680745, "train/policy_logprob_max": -0.00949038848184146, "train/policy_logprob_mean": -0.9632350438601011, "train/policy_logprob_min": -7.4954926069680745, "train/policy_logprob_std": 1.3023695473547106, "train/policy_randomness_mag": 0.9212292026389729, "train/policy_randomness_max": 0.9212292026389729, "train/policy_randomness_mean": 0.3332447661207868, "train/policy_randomness_min": 0.02774679260449363, "train/policy_randomness_std": 0.2630542652173476, "train/post_ent_mag": 59.14174134390695, "train/post_ent_max": 59.14174134390695, "train/post_ent_mean": 42.900249431659645, "train/post_ent_min": 16.66779997441676, "train/post_ent_std": 4.354448587863477, "train/prior_ent_mag": 80.10668504392946, "train/prior_ent_max": 80.10668504392946, "train/prior_ent_mean": 45.774642052588526, "train/prior_ent_min": 20.81893863306417, "train/prior_ent_std": 6.226901497159686, "train/rep_loss_mean": 2.8642783505576, "train/rep_loss_std": 5.721190492828171, "train/reward_avg": 0.783406047077922, "train/reward_loss_mean": 0.05786600522696972, "train/reward_loss_std": 0.24527851018038663, "train/reward_max_data": 31.753246753246753, "train/reward_max_pred": 21.6346467686938, "train/reward_neg_acc": 0.977373297725405, "train/reward_neg_loss": 0.007061288745729132, "train/reward_pos_acc": 0.9907813888865632, "train/reward_pos_loss": 0.6799812781346308, "train/reward_pred": 0.7225885710545948, "train/reward_rate": 0.07591822240259741, "train_stats/mean_log_entropy": 0.7323207457860311, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.6201083781197667e-06, "report/cont_loss_std": 2.346320979995653e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6201083781197667e-06, "report/cont_pred": 0.9999984502792358, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.8078436851501465, "report/dyn_loss_std": 5.579455375671387, "report/image_loss_mean": 1.3626892566680908, "report/image_loss_std": 0.9184505343437195, "report/model_loss_mean": 3.1060237884521484, "report/model_loss_std": 4.008078575134277, "report/post_ent_mag": 61.39736557006836, "report/post_ent_max": 61.39736557006836, "report/post_ent_mean": 43.168739318847656, "report/post_ent_min": 14.424116134643555, "report/post_ent_std": 4.3649091720581055, "report/prior_ent_mag": 80.07186889648438, "report/prior_ent_max": 80.07186889648438, "report/prior_ent_mean": 46.16382598876953, "report/prior_ent_min": 18.206708908081055, "report/prior_ent_std": 6.019071578979492, "report/rep_loss_mean": 2.8078436851501465, "report/rep_loss_std": 5.579455375671387, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.05862678214907646, "report/reward_loss_std": 0.21342435479164124, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.949745178222656, "report/reward_neg_acc": 0.9662091135978699, "report/reward_neg_loss": 0.009659362025558949, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6608625054359436, "report/reward_pred": 0.7021883726119995, "report/reward_rate": 0.0751953125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.02119331993162632, "eval/cont_loss_std": 0.47896715998649597, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.847890853881836, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.046338967280462e-06, "eval/cont_pred": 0.9999939799308777, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 16.501968383789062, "eval/dyn_loss_std": 12.021646499633789, "eval/image_loss_mean": 4.607485294342041, "eval/image_loss_std": 2.865252733230591, "eval/model_loss_mean": 14.942159652709961, "eval/model_loss_std": 9.559674263000488, "eval/post_ent_mag": 59.81403350830078, "eval/post_ent_max": 59.81403350830078, "eval/post_ent_mean": 43.127357482910156, "eval/post_ent_min": 26.24774169921875, "eval/post_ent_std": 4.0922980308532715, "eval/prior_ent_mag": 80.07186889648438, "eval/prior_ent_max": 80.07186889648438, "eval/prior_ent_mean": 48.248016357421875, "eval/prior_ent_min": 30.528583526611328, "eval/prior_ent_std": 5.864936828613281, "eval/rep_loss_mean": 16.501968383789062, "eval/rep_loss_std": 12.021646499633789, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.41230061650276184, "eval/reward_loss_std": 2.5215606689453125, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.79957389831543, "eval/reward_neg_acc": 0.9426559209823608, "eval/reward_neg_loss": 0.04716460406780243, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 12.51047420501709, "eval/reward_pred": 0.15673920512199402, "eval/reward_rate": 0.029296875, "replay/size": 83060.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.895055532917795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3374923966203725e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.130866050720215e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0335292816162, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 383.19629740715027, "timer/replay._sample_frac": 1.2771782484599452, "timer/replay._sample_avg": 0.015481427658659917, "timer/replay._sample_min": 0.0004589557647705078, "timer/replay._sample_max": 0.05086922645568848, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.717264890670776, "timer/env.step_frac": 0.02238838074782584, "timer/env.step_avg": 0.004342123394098757, "timer/env.step_min": 0.002289295196533203, "timer/env.step_max": 0.026265621185302734, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.90412592887878, "timer/agent.policy_frac": 0.36963910731717725, "timer/agent.policy_avg": 0.07168980344465338, "timer/agent.policy_min": 0.0028760433197021484, "timer/agent.policy_max": 0.08723115921020508, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15218472480773926, "timer/dataset_train_frac": 0.0005072257263117292, "timer/dataset_train_avg": 9.83740948983447e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.0002562999725341797, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.06629157066345, "timer/agent.train_frac": 0.6034868569662818, "timer/agent.train_avg": 0.1170434981064405, "timer/agent.train_min": 0.10373306274414062, "timer/agent.train_max": 0.203477144241333, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26055264472961426, "timer/agent.report_frac": 0.0008684117583573649, "timer/agent.report_avg": 0.13027632236480713, "timer/agent.report_min": 0.0985260009765625, "timer/agent.report_max": 0.16202664375305176, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.605552673339844e-05, "timer/dataset_eval_frac": 2.534900913091334e-07, "timer/dataset_eval_avg": 7.605552673339844e-05, "timer/dataset_eval_min": 7.605552673339844e-05, "timer/dataset_eval_max": 7.605552673339844e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.62311441157253}
+{"step": 206944, "episode/length": 587.0, "episode/score": 520.0, "episode/reward_rate": 0.08673469387755102}
+{"step": 208404, "episode/length": 364.0, "episode/score": 460.0, "episode/reward_rate": 0.1232876712328767}
+{"step": 210400, "episode/length": 498.0, "episode/score": 570.0, "episode/reward_rate": 0.11422845691382766}
+{"step": 212700, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.396398138230847, "train/action_min": 0.0, "train/action_std": 4.177246099902738, "train/actor_opt_grad_norm": 0.006252296124735186, "train/actor_opt_grad_steps": 51300.0, "train/actor_opt_loss": 0.0007010094010902614, "train/adv_mag": 0.573919949896874, "train/adv_max": 0.5540263690294758, "train/adv_mean": 0.001905066752160858, "train/adv_min": -0.30314787039833685, "train/adv_std": 0.02686917476596371, "train/cont_avg": 0.9982799899193548, "train/cont_loss_mean": 0.0011449927167751456, "train/cont_loss_std": 0.02681893370169394, "train/cont_neg_acc": 0.8262626284902747, "train/cont_neg_loss": 0.4605400705853147, "train/cont_pos_acc": 0.9998674104290624, "train/cont_pos_loss": 0.0004561239061382777, "train/cont_pred": 0.9982877323704381, "train/cont_rate": 0.9982799899193548, "train/dyn_loss_mean": 2.8518268492914016, "train/dyn_loss_std": 5.7554067242530085, "train/extr_critic_critic_opt_grad_norm": 1.3754881274315618, "train/extr_critic_critic_opt_grad_steps": 51300.0, "train/extr_critic_critic_opt_loss": 1.509129358107044, "train/extr_critic_mag": 306.50511002079134, "train/extr_critic_max": 306.50511002079134, "train/extr_critic_mean": 112.31591585220829, "train/extr_critic_min": 0.12124397908487627, "train/extr_critic_std": 77.26420480051348, "train/extr_return_normed_mag": 1.3334095035829852, "train/extr_return_normed_max": 1.3334095035829852, "train/extr_return_normed_mean": 0.43611294857917293, "train/extr_return_normed_min": -0.018102120319681784, "train/extr_return_normed_std": 0.31259026190926953, "train/extr_return_rate": 0.9615722056358091, "train/extr_return_raw_mag": 335.0805916078629, "train/extr_return_raw_max": 335.0805916078629, "train/extr_return_raw_mean": 112.78823941138482, "train/extr_return_raw_min": 0.23012259223483383, "train/extr_return_raw_std": 77.4840335969002, "train/extr_reward_mag": 53.556425143826395, "train/extr_reward_max": 53.556425143826395, "train/extr_reward_mean": 0.7707666664354262, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.98137223182186, "train/image_loss_mean": 1.2736647194431674, "train/image_loss_std": 0.943402087688446, "train/model_loss_mean": 3.046242658553585, "train/model_loss_std": 4.078238342654321, "train/model_opt_grad_norm": 11.389956385089505, "train/model_opt_grad_steps": 51300.0, "train/model_opt_loss": 3.046242658553585, "train/policy_entropy_mag": 2.6609452509110976, "train/policy_entropy_max": 2.6609452509110976, "train/policy_entropy_mean": 0.9637111717654813, "train/policy_entropy_min": 0.08019872711550805, "train/policy_entropy_std": 0.7616082837504725, "train/policy_logprob_mag": 7.495499198667464, "train/policy_logprob_max": -0.009490417310547445, "train/policy_logprob_mean": -0.9651457528914175, "train/policy_logprob_min": -7.495499198667464, "train/policy_logprob_std": 1.3034341427587695, "train/policy_randomness_mag": 0.9206238950452497, "train/policy_randomness_max": 0.9206238950452497, "train/policy_randomness_mean": 0.3334211896504125, "train/policy_randomness_min": 0.027746855852104003, "train/policy_randomness_std": 0.2634983857793193, "train/post_ent_mag": 59.55119665822675, "train/post_ent_max": 59.55119665822675, "train/post_ent_mean": 42.822294395200664, "train/post_ent_min": 16.861901295569634, "train/post_ent_std": 4.386998565735356, "train/prior_ent_mag": 80.42676485123172, "train/prior_ent_max": 80.42676485123172, "train/prior_ent_mean": 45.692344985469695, "train/prior_ent_min": 20.926711611593923, "train/prior_ent_std": 6.275987086757537, "train/rep_loss_mean": 2.8518268492914016, "train/rep_loss_std": 5.7554067242530085, "train/reward_avg": 0.8660534274193549, "train/reward_loss_mean": 0.06033683988836504, "train/reward_loss_std": 0.23880097529580516, "train/reward_max_data": 62.58064516129032, "train/reward_max_pred": 29.093653980378182, "train/reward_neg_acc": 0.9765793488871667, "train/reward_neg_loss": 0.007308529396992057, "train/reward_pos_acc": 0.9933263271085677, "train/reward_pos_loss": 0.6636584554949114, "train/reward_pred": 0.7846113824075268, "train/reward_rate": 0.08112399193548388, "train_stats/mean_log_entropy": 0.9170776605606079, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0012058359570801258, "report/cont_loss_std": 0.0312742181122303, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.5027208924293518, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00022439754684455693, "report/cont_pred": 0.9984583258628845, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.074793577194214, "report/dyn_loss_std": 5.741001129150391, "report/image_loss_mean": 1.2966794967651367, "report/image_loss_std": 1.0206975936889648, "report/model_loss_mean": 3.2088990211486816, "report/model_loss_std": 4.121203422546387, "report/post_ent_mag": 59.86511993408203, "report/post_ent_max": 59.86511993408203, "report/post_ent_mean": 42.46221160888672, "report/post_ent_min": 16.83722496032715, "report/post_ent_std": 4.274673938751221, "report/prior_ent_mag": 80.03166198730469, "report/prior_ent_max": 80.03166198730469, "report/prior_ent_mean": 45.69044876098633, "report/prior_ent_min": 18.703662872314453, "report/prior_ent_std": 6.43607759475708, "report/rep_loss_mean": 3.074793577194214, "report/rep_loss_std": 5.741001129150391, "report/reward_avg": 0.869140625, "report/reward_loss_mean": 0.06613726168870926, "report/reward_loss_std": 0.2458055168390274, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.995038986206055, "report/reward_neg_acc": 0.9743863344192505, "report/reward_neg_loss": 0.010616364888846874, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6641036868095398, "report/reward_pred": 0.804618775844574, "report/reward_rate": 0.0849609375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00022853219707030803, "eval/cont_loss_std": 0.006940116640180349, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.22213132679462433, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1618433745752554e-05, "eval/cont_pred": 0.9992064237594604, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 17.24647331237793, "eval/dyn_loss_std": 10.692091941833496, "eval/image_loss_mean": 5.437105178833008, "eval/image_loss_std": 2.989598512649536, "eval/model_loss_mean": 16.220962524414062, "eval/model_loss_std": 8.823441505432129, "eval/post_ent_mag": 59.383056640625, "eval/post_ent_max": 59.383056640625, "eval/post_ent_mean": 43.642974853515625, "eval/post_ent_min": 28.711383819580078, "eval/post_ent_std": 4.659483909606934, "eval/prior_ent_mag": 80.03166198730469, "eval/prior_ent_max": 80.03166198730469, "eval/prior_ent_mean": 49.491397857666016, "eval/prior_ent_min": 32.548099517822266, "eval/prior_ent_std": 5.808766841888428, "eval/rep_loss_mean": 17.24647331237793, "eval/rep_loss_std": 10.692091941833496, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.4357445538043976, "eval/reward_loss_std": 2.7677624225616455, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.80111026763916, "eval/reward_neg_acc": 0.9739478826522827, "eval/reward_neg_loss": 0.02435234561562538, "eval/reward_pos_acc": 0.03846153989434242, "eval/reward_pos_loss": 16.226877212524414, "eval/reward_pred": 0.07441036403179169, "eval/reward_rate": 0.025390625, "replay/size": 84606.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.696044082937697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3449020866897406e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1381788253784, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 388.91930961608887, "timer/replay._sample_frac": 1.2958008579187243, "timer/replay._sample_avg": 0.015722805207636192, "timer/replay._sample_min": 0.0004894733428955078, "timer/replay._sample_max": 0.2152242660522461, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.711930274963379, "timer/env.step_frac": 0.022362800698102477, "timer/env.step_avg": 0.004341481419769326, "timer/env.step_min": 0.0022258758544921875, "timer/env.step_max": 0.030972003936767578, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.00999975204468, "timer/agent.policy_frac": 0.3698629750686624, "timer/agent.policy_avg": 0.07180465701943381, "timer/agent.policy_min": 0.0032172203063964844, "timer/agent.policy_max": 0.1032874584197998, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15412282943725586, "timer/dataset_train_frac": 0.0005135062458246112, "timer/dataset_train_avg": 9.969135151180845e-05, "timer/dataset_train_min": 6.341934204101562e-05, "timer/dataset_train_max": 0.0019922256469726562, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.0399935245514, "timer/agent.train_frac": 0.6031888186736856, "timer/agent.train_avg": 0.1171021950352855, "timer/agent.train_min": 0.10310649871826172, "timer/agent.train_max": 0.38886547088623047, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2716064453125, "timer/agent.report_frac": 0.0009049380068055977, "timer/agent.report_avg": 0.13580322265625, "timer/agent.report_min": 0.10736250877380371, "timer/agent.report_max": 0.1642439365386963, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.654594421386719e-05, "timer/dataset_eval_frac": 2.883536661432865e-07, "timer/dataset_eval_avg": 8.654594421386719e-05, "timer/dataset_eval_min": 8.654594421386719e-05, "timer/dataset_eval_max": 8.654594421386719e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0973963737487793, "timer/agent.save_frac": 0.00032450511337794483, "timer/agent.save_avg": 0.0973963737487793, "timer/agent.save_min": 0.0973963737487793, "timer/agent.save_max": 0.0973963737487793, "fps": 20.60224974319942}
+{"step": 212732, "episode/length": 582.0, "episode/score": 560.0, "episode/reward_rate": 0.09605488850771869}
+{"step": 214816, "episode/length": 520.0, "episode/score": 500.0, "episode/reward_rate": 0.09404990403071017}
+{"step": 216656, "episode/length": 459.0, "episode/score": 560.0, "episode/reward_rate": 0.11956521739130435}
+{"step": 218328, "episode/length": 417.0, "episode/score": 470.0, "episode/reward_rate": 0.11004784688995216}
+{"step": 218880, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.45549080141129, "train/action_min": 0.0, "train/action_std": 4.112250957181377, "train/actor_opt_grad_norm": 0.006623624352317664, "train/actor_opt_grad_steps": 52850.0, "train/actor_opt_loss": 0.0005679059329674102, "train/adv_mag": 0.5411135610072844, "train/adv_max": 0.5149138854395958, "train/adv_mean": 0.0018766208810824714, "train/adv_min": -0.30903507076924847, "train/adv_std": 0.027682968793857482, "train/cont_avg": 0.9985068044354839, "train/cont_loss_mean": 0.0008021573246929114, "train/cont_loss_std": 0.019003995427582625, "train/cont_neg_acc": 0.8750000014420478, "train/cont_neg_loss": 0.32930608138022144, "train/cont_pos_acc": 0.9998863108696476, "train/cont_pos_loss": 0.000356501515758161, "train/cont_pred": 0.9984665220783603, "train/cont_rate": 0.9985068044354839, "train/dyn_loss_mean": 2.865961946979646, "train/dyn_loss_std": 5.7504288027363435, "train/extr_critic_critic_opt_grad_norm": 1.391626529155239, "train/extr_critic_critic_opt_grad_steps": 52850.0, "train/extr_critic_critic_opt_loss": 1.4981820183415566, "train/extr_critic_mag": 306.5601871613533, "train/extr_critic_max": 306.5601871613533, "train/extr_critic_mean": 113.30122710197203, "train/extr_critic_min": 0.356059685830147, "train/extr_critic_std": 76.14879071635585, "train/extr_return_normed_mag": 1.324982343566033, "train/extr_return_normed_max": 1.324982343566033, "train/extr_return_normed_mean": 0.43709176125064975, "train/extr_return_normed_min": -0.015753279199763652, "train/extr_return_normed_std": 0.30600864781487375, "train/extr_return_rate": 0.9593788289254711, "train/extr_return_raw_mag": 336.1040535219254, "train/extr_return_raw_max": 336.1040535219254, "train/extr_return_raw_mean": 113.77141487367692, "train/extr_return_raw_min": 0.46662346807518795, "train/extr_return_raw_std": 76.58115108859154, "train/extr_reward_mag": 45.798506792130006, "train/extr_reward_max": 45.798506792130006, "train/extr_reward_mean": 0.7572014493326987, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.969908050567873, "train/image_loss_mean": 1.2708106798510397, "train/image_loss_std": 0.9129172117479386, "train/model_loss_mean": 3.0503757338370048, "train/model_loss_std": 4.0499060707707555, "train/model_opt_grad_norm": 11.59937478342364, "train/model_opt_grad_steps": 52850.0, "train/model_opt_loss": 3.0503757338370048, "train/policy_entropy_mag": 2.6510174212917206, "train/policy_entropy_max": 2.6510174212917206, "train/policy_entropy_mean": 0.9642472424814778, "train/policy_entropy_min": 0.08019791952063961, "train/policy_entropy_std": 0.7487416694241186, "train/policy_logprob_mag": 7.495494544121527, "train/policy_logprob_max": -0.009490298473786922, "train/policy_logprob_mean": -0.9649762503562435, "train/policy_logprob_min": -7.495494544121527, "train/policy_logprob_std": 1.3028974625372118, "train/policy_randomness_mag": 0.9171891024035792, "train/policy_randomness_max": 0.9171891024035792, "train/policy_randomness_mean": 0.33360665382877475, "train/policy_randomness_min": 0.02774657656348521, "train/policy_randomness_std": 0.25904684326341076, "train/post_ent_mag": 59.610731998566656, "train/post_ent_max": 59.610731998566656, "train/post_ent_mean": 42.794095734627014, "train/post_ent_min": 16.680228645570818, "train/post_ent_std": 4.403823675647859, "train/prior_ent_mag": 80.73363258607925, "train/prior_ent_max": 80.73363258607925, "train/prior_ent_mean": 45.66500642838017, "train/prior_ent_min": 20.506694953672348, "train/prior_ent_std": 6.306422510454731, "train/rep_loss_mean": 2.865961946979646, "train/rep_loss_std": 5.7504288027363435, "train/reward_avg": 0.8319682459677419, "train/reward_loss_mean": 0.05918574532674205, "train/reward_loss_std": 0.24105733527291207, "train/reward_max_data": 49.483870967741936, "train/reward_max_pred": 31.52572834261002, "train/reward_neg_acc": 0.9776076247615199, "train/reward_neg_loss": 0.007551184421660559, "train/reward_pos_acc": 0.9918586254119873, "train/reward_pos_loss": 0.6615505545370041, "train/reward_pred": 0.766473074113169, "train/reward_rate": 0.07905745967741935, "train_stats/mean_log_entropy": 0.8559756428003311, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.9772680388996378e-05, "report/cont_loss_std": 0.00038975279312580824, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009965122677385807, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0050931450678036e-05, "report/cont_pred": 0.9990230798721313, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.815950393676758, "report/dyn_loss_std": 5.784489154815674, "report/image_loss_mean": 1.1749407052993774, "report/image_loss_std": 0.8169102072715759, "report/model_loss_mean": 2.9247589111328125, "report/model_loss_std": 4.092116355895996, "report/post_ent_mag": 60.20951843261719, "report/post_ent_max": 60.20951843261719, "report/post_ent_mean": 42.607948303222656, "report/post_ent_min": 14.228883743286133, "report/post_ent_std": 4.7853264808654785, "report/prior_ent_mag": 80.83698272705078, "report/prior_ent_max": 80.83698272705078, "report/prior_ent_mean": 45.489009857177734, "report/prior_ent_min": 19.17645835876465, "report/prior_ent_std": 6.582856178283691, "report/rep_loss_mean": 2.815950393676758, "report/rep_loss_std": 5.784489154815674, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.0602278932929039, "report/reward_loss_std": 0.249640554189682, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.994293212890625, "report/reward_neg_acc": 0.9684543013572693, "report/reward_neg_loss": 0.010687734000384808, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7056071758270264, "report/reward_pred": 0.6875321865081787, "report/reward_rate": 0.0712890625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.1247771908529103e-05, "eval/cont_loss_std": 0.0003179706691298634, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1247771908529103e-05, "eval/cont_pred": 0.9999887943267822, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.202409744262695, "eval/dyn_loss_std": 10.791590690612793, "eval/image_loss_mean": 4.785271644592285, "eval/image_loss_std": 2.900787115097046, "eval/model_loss_mean": 15.152158737182617, "eval/model_loss_std": 9.370613098144531, "eval/post_ent_mag": 61.13665008544922, "eval/post_ent_max": 61.13665008544922, "eval/post_ent_mean": 42.63956069946289, "eval/post_ent_min": 28.202327728271484, "eval/post_ent_std": 3.99760365486145, "eval/prior_ent_mag": 80.83698272705078, "eval/prior_ent_max": 80.83698272705078, "eval/prior_ent_mean": 47.883792877197266, "eval/prior_ent_min": 30.246212005615234, "eval/prior_ent_std": 6.095618724822998, "eval/rep_loss_mean": 16.202409744262695, "eval/rep_loss_std": 10.791590690612793, "eval/reward_avg": 0.380859375, "eval/reward_loss_mean": 0.6454299688339233, "eval/reward_loss_std": 3.272380828857422, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003011703491211, "eval/reward_neg_acc": 0.9340101480484009, "eval/reward_neg_loss": 0.08920122683048248, "eval/reward_pos_acc": 0.10256410390138626, "eval/reward_pos_loss": 14.693769454956055, "eval/reward_pred": 0.20236095786094666, "eval/reward_rate": 0.0380859375, "replay/size": 86151.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.02577105772148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3764332799078192e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0116567611694336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.92767000198364, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 394.49252343177795, "timer/replay._sample_frac": 1.315292195045455, "timer/replay._sample_avg": 0.015958435413906874, "timer/replay._sample_min": 0.00046825408935546875, "timer/replay._sample_max": 0.04558873176574707, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.9040985107421875, "timer/env.step_frac": 0.023019211634246767, "timer/env.step_avg": 0.004468672175237662, "timer/env.step_min": 0.0021810531616210938, "timer/env.step_max": 0.03346538543701172, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.70694184303284, "timer/agent.policy_frac": 0.36911213240945945, "timer/agent.policy_avg": 0.07165497853917983, "timer/agent.policy_min": 0.0029938220977783203, "timer/agent.policy_max": 0.08696818351745605, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15641403198242188, "timer/dataset_train_frac": 0.0005215058416630496, "timer/dataset_train_avg": 0.00010123885565205299, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00021004676818847656, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.97252416610718, "timer/agent.train_frac": 0.603387223876044, "timer/agent.train_avg": 0.11713431984861306, "timer/agent.train_min": 0.10246920585632324, "timer/agent.train_max": 0.20250749588012695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19836640357971191, "timer/agent.report_frac": 0.0006613808041732194, "timer/agent.report_avg": 0.09918320178985596, "timer/agent.report_min": 0.09868717193603516, "timer/agent.report_max": 0.09967923164367676, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.887580871582031e-05, "timer/dataset_eval_frac": 1.6295865171591892e-07, "timer/dataset_eval_avg": 4.887580871582031e-05, "timer/dataset_eval_min": 4.887580871582031e-05, "timer/dataset_eval_max": 4.887580871582031e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.60351960288016}
+{"step": 220156, "episode/length": 456.0, "episode/score": 500.0, "episode/reward_rate": 0.10940919037199125}
+{"step": 223508, "episode/length": 837.0, "episode/score": 1750.0, "episode/reward_rate": 0.08949880668257756}
+{"step": 225068, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.251911906452921, "train/action_min": 0.0, "train/action_std": 4.138846101698937, "train/actor_opt_grad_norm": 0.006309770056735966, "train/actor_opt_grad_steps": 54395.0, "train/actor_opt_loss": 0.0006056987338572024, "train/adv_mag": 0.5425017590259577, "train/adv_max": 0.5250326423095418, "train/adv_mean": 0.001806588603299192, "train/adv_min": -0.30991893411650284, "train/adv_std": 0.02658393102177939, "train/cont_avg": 0.9982878449675324, "train/cont_loss_mean": 0.001067390761273023, "train/cont_loss_std": 0.025498600235914784, "train/cont_neg_acc": 0.8413385845075442, "train/cont_neg_loss": 0.3889647376137844, "train/cont_pos_acc": 0.9998856043660795, "train/cont_pos_loss": 0.00033787429527297843, "train/cont_pred": 0.9983596058634968, "train/cont_rate": 0.9982878449675324, "train/dyn_loss_mean": 2.890988527954399, "train/dyn_loss_std": 5.816415560709966, "train/extr_critic_critic_opt_grad_norm": 1.4243592263816238, "train/extr_critic_critic_opt_grad_steps": 54395.0, "train/extr_critic_critic_opt_loss": 1.5107574679634788, "train/extr_critic_mag": 309.3109448915952, "train/extr_critic_max": 309.3109448915952, "train/extr_critic_mean": 114.22302201506379, "train/extr_critic_min": 0.10267223785449932, "train/extr_critic_std": 77.40908810999487, "train/extr_return_normed_mag": 1.299525883677718, "train/extr_return_normed_max": 1.299525883677718, "train/extr_return_normed_mean": 0.4364169777987839, "train/extr_return_normed_min": -0.018044409553774378, "train/extr_return_normed_std": 0.3077113622581804, "train/extr_return_rate": 0.9551792117682371, "train/extr_return_raw_mag": 332.3087473287211, "train/extr_return_raw_max": 332.3087473287211, "train/extr_return_raw_mean": 114.67847095836292, "train/extr_return_raw_min": 0.08352188272749425, "train/extr_return_raw_std": 77.57941751356249, "train/extr_reward_mag": 50.4211648841957, "train/extr_reward_max": 50.4211648841957, "train/extr_reward_mean": 0.768192663982317, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9350900518429746, "train/image_loss_mean": 1.2538146926211071, "train/image_loss_std": 0.9407523649853545, "train/model_loss_mean": 3.0509210871411607, "train/model_loss_std": 4.119258872874371, "train/model_opt_grad_norm": 11.340478649387112, "train/model_opt_grad_steps": 54395.0, "train/model_opt_loss": 3.0509210871411607, "train/policy_entropy_mag": 2.646548381099453, "train/policy_entropy_max": 2.646548381099453, "train/policy_entropy_mean": 0.9531706815416162, "train/policy_entropy_min": 0.0801962014142569, "train/policy_entropy_std": 0.7467163290296283, "train/policy_logprob_mag": 7.495500781319358, "train/policy_logprob_max": -0.009490074027426444, "train/policy_logprob_mean": -0.9536605666984211, "train/policy_logprob_min": -7.495500781319358, "train/policy_logprob_std": 1.3001955732122643, "train/policy_randomness_mag": 0.9156429187043921, "train/policy_randomness_max": 0.9156429187043921, "train/policy_randomness_mean": 0.3297744301425946, "train/policy_randomness_min": 0.027745982148237043, "train/policy_randomness_std": 0.25834612151632064, "train/post_ent_mag": 60.25238596928584, "train/post_ent_max": 60.25238596928584, "train/post_ent_mean": 42.81288023118849, "train/post_ent_min": 15.738004684448242, "train/post_ent_std": 4.533556671885701, "train/prior_ent_mag": 81.04849010318905, "train/prior_ent_max": 81.04849010318905, "train/prior_ent_mean": 45.716199924419456, "train/prior_ent_min": 19.48423311307833, "train/prior_ent_std": 6.431802108690336, "train/rep_loss_mean": 2.890988527954399, "train/rep_loss_std": 5.816415560709966, "train/reward_avg": 0.8674918831168831, "train/reward_loss_mean": 0.06144590136389454, "train/reward_loss_std": 0.24842561418553452, "train/reward_max_data": 63.83116883116883, "train/reward_max_pred": 38.32658663043728, "train/reward_neg_acc": 0.9758567376570269, "train/reward_neg_loss": 0.0077439969263414475, "train/reward_pos_acc": 0.9918750296165417, "train/reward_pos_loss": 0.6744544258365384, "train/reward_pred": 0.7889284661837986, "train/reward_rate": 0.0807312804383117, "train_stats/mean_log_entropy": 0.950919896364212, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.000741691910661757, "report/cont_loss_std": 0.014669098891317844, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.20329128205776215, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014654136612080038, "report/cont_pred": 0.997428297996521, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.740365505218506, "report/dyn_loss_std": 5.483624458312988, "report/image_loss_mean": 1.099184274673462, "report/image_loss_std": 0.8441791534423828, "report/model_loss_mean": 2.7999401092529297, "report/model_loss_std": 3.8224844932556152, "report/post_ent_mag": 61.315589904785156, "report/post_ent_max": 61.315589904785156, "report/post_ent_mean": 43.36420822143555, "report/post_ent_min": 14.776651382446289, "report/post_ent_std": 4.717023849487305, "report/prior_ent_mag": 81.52668762207031, "report/prior_ent_max": 81.52668762207031, "report/prior_ent_mean": 46.10211181640625, "report/prior_ent_min": 19.20854377746582, "report/prior_ent_std": 6.7035746574401855, "report/rep_loss_mean": 2.740365505218506, "report/rep_loss_std": 5.483624458312988, "report/reward_avg": 0.83984375, "report/reward_loss_mean": 0.055794794112443924, "report/reward_loss_std": 0.2015364021062851, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.81757164001465, "report/reward_neg_acc": 0.9787007570266724, "report/reward_neg_loss": 0.005279043223708868, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6138452291488647, "report/reward_pred": 0.7872788906097412, "report/reward_rate": 0.0830078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005818749312311411, "eval/cont_loss_std": 0.14039160311222076, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.963994026184082, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.9756933145108633e-05, "eval/cont_pred": 0.9997951984405518, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.722774505615234, "eval/dyn_loss_std": 9.491897583007812, "eval/image_loss_mean": 4.443692207336426, "eval/image_loss_std": 2.761930465698242, "eval/model_loss_mean": 13.24354362487793, "eval/model_loss_std": 8.378226280212402, "eval/post_ent_mag": 61.200523376464844, "eval/post_ent_max": 61.200523376464844, "eval/post_ent_mean": 43.674652099609375, "eval/post_ent_min": 31.182065963745117, "eval/post_ent_std": 4.344618797302246, "eval/prior_ent_mag": 81.52668762207031, "eval/prior_ent_max": 81.52668762207031, "eval/prior_ent_mean": 48.315582275390625, "eval/prior_ent_min": 32.27851104736328, "eval/prior_ent_std": 6.012453556060791, "eval/rep_loss_mean": 13.722774505615234, "eval/rep_loss_std": 9.491897583007812, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5603682994842529, "eval/reward_loss_std": 3.1387157440185547, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001240730285645, "eval/reward_neg_acc": 0.9605263471603394, "eval/reward_neg_loss": 0.058280687779188156, "eval/reward_pos_acc": 0.1111111119389534, "eval/reward_pos_loss": 14.339882850646973, "eval/reward_pred": 0.1170928031206131, "eval/reward_rate": 0.03515625, "replay/size": 87698.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.008639561875682e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492052679918778e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0799357891083, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 388.9825963973999, "timer/replay._sample_frac": 1.2962632619022256, "timer/replay._sample_avg": 0.015715198626268582, "timer/replay._sample_min": 0.0005581378936767578, "timer/replay._sample_max": 0.0418086051940918, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.726478576660156, "timer/env.step_frac": 0.02241562255394318, "timer/env.step_avg": 0.004348079235074439, "timer/env.step_min": 0.0023660659790039062, "timer/env.step_max": 0.034240007400512695, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.05510973930359, "timer/agent.policy_frac": 0.3700850889855944, "timer/agent.policy_avg": 0.07178740125358991, "timer/agent.policy_min": 0.002991914749145508, "timer/agent.policy_max": 0.08627963066101074, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1567060947418213, "timer/dataset_train_frac": 0.0005222145037112778, "timer/dataset_train_avg": 0.00010129676453899243, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.0002605915069580078, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.85134744644165, "timer/agent.train_frac": 0.602677239885646, "timer/agent.train_avg": 0.11690455555684658, "timer/agent.train_min": 0.10322380065917969, "timer/agent.train_max": 0.20403552055358887, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2653522491455078, "timer/agent.report_frac": 0.0008842718805831571, "timer/agent.report_avg": 0.1326761245727539, "timer/agent.report_min": 0.10237455368041992, "timer/agent.report_max": 0.1629776954650879, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.082389831542969e-05, "timer/dataset_eval_frac": 2.693412277061787e-07, "timer/dataset_eval_avg": 8.082389831542969e-05, "timer/dataset_eval_min": 8.082389831542969e-05, "timer/dataset_eval_max": 8.082389831542969e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.619999394040537}
+{"step": 225396, "episode/length": 471.0, "episode/score": 530.0, "episode/reward_rate": 0.11016949152542373}
+{"step": 226980, "episode/length": 395.0, "episode/score": 990.0, "episode/reward_rate": 0.12626262626262627}
+{"step": 228860, "episode/length": 469.0, "episode/score": 500.0, "episode/reward_rate": 0.10425531914893617}
+{"step": 231256, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.969388309601815, "train/action_min": 0.0, "train/action_std": 4.173976047577397, "train/actor_opt_grad_norm": 0.006306828884407878, "train/actor_opt_grad_steps": 55940.0, "train/actor_opt_loss": 0.000452451321560206, "train/adv_mag": 0.5136417338925023, "train/adv_max": 0.48982579900372414, "train/adv_mean": 0.0018271809891801593, "train/adv_min": -0.2939763007144774, "train/adv_std": 0.0271013580262661, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0009642939841744501, "train/cont_loss_std": 0.023411518819745337, "train/cont_neg_acc": 0.8847435909968157, "train/cont_neg_loss": 0.29325211742515633, "train/cont_pos_acc": 0.9998736946813522, "train/cont_pos_loss": 0.0004326090663014274, "train/cont_pred": 0.9982521699320885, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 2.8616852221950406, "train/dyn_loss_std": 5.804159407461843, "train/extr_critic_critic_opt_grad_norm": 1.4024288742772995, "train/extr_critic_critic_opt_grad_steps": 55940.0, "train/extr_critic_critic_opt_loss": 1.5176688048147386, "train/extr_critic_mag": 309.5416813019783, "train/extr_critic_max": 309.5416813019783, "train/extr_critic_mean": 113.12755186019405, "train/extr_critic_min": 0.11386449413914834, "train/extr_critic_std": 79.06563602570564, "train/extr_return_normed_mag": 1.3189025740469655, "train/extr_return_normed_max": 1.3189025740469655, "train/extr_return_normed_mean": 0.4309865020936535, "train/extr_return_normed_min": -0.01749120033195903, "train/extr_return_normed_std": 0.3147165709926236, "train/extr_return_rate": 0.9486043010988543, "train/extr_return_raw_mag": 338.1777842860068, "train/extr_return_raw_max": 338.1777842860068, "train/extr_return_raw_mean": 113.58943097514491, "train/extr_return_raw_min": 0.08641706774341723, "train/extr_return_raw_std": 79.65114487678774, "train/extr_reward_mag": 35.91295556714458, "train/extr_reward_max": 35.91295556714458, "train/extr_reward_mean": 0.7528279708277794, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9061355167819607, "train/image_loss_mean": 1.2568428454860565, "train/image_loss_std": 0.9286146806132409, "train/model_loss_mean": 3.0341146084570116, "train/model_loss_std": 4.101419699576593, "train/model_opt_grad_norm": 11.348744429311445, "train/model_opt_grad_steps": 55940.0, "train/model_opt_loss": 3.0341146084570116, "train/policy_entropy_mag": 2.647552542532644, "train/policy_entropy_max": 2.647552542532644, "train/policy_entropy_mean": 0.9715983356198957, "train/policy_entropy_min": 0.0801951880897245, "train/policy_entropy_std": 0.7487309036716339, "train/policy_logprob_mag": 7.495476104367164, "train/policy_logprob_max": -0.009489980490217285, "train/policy_logprob_mean": -0.9709009293586978, "train/policy_logprob_min": -7.495476104367164, "train/policy_logprob_std": 1.3048327084510558, "train/policy_randomness_mag": 0.9159903353260409, "train/policy_randomness_max": 0.9159903353260409, "train/policy_randomness_mean": 0.33614996267903235, "train/policy_randomness_min": 0.02774563160154127, "train/policy_randomness_std": 0.25904311672333746, "train/post_ent_mag": 60.65687270625945, "train/post_ent_max": 60.65687270625945, "train/post_ent_mean": 42.79481821367818, "train/post_ent_min": 15.719424967611989, "train/post_ent_std": 4.571714822707638, "train/prior_ent_mag": 81.33982361824282, "train/prior_ent_max": 81.33982361824282, "train/prior_ent_mean": 45.70104237218057, "train/prior_ent_min": 19.532195521939187, "train/prior_ent_std": 6.489805329230524, "train/rep_loss_mean": 2.8616852221950406, "train/rep_loss_std": 5.804159407461843, "train/reward_avg": 0.8387726814516129, "train/reward_loss_mean": 0.05929633254005063, "train/reward_loss_std": 0.23345488511746929, "train/reward_max_data": 47.54838709677419, "train/reward_max_pred": 26.522876204213787, "train/reward_neg_acc": 0.9756019130829842, "train/reward_neg_loss": 0.007501648428038724, "train/reward_pos_acc": 0.9938314949312518, "train/reward_pos_loss": 0.6593904995149181, "train/reward_pred": 0.771781870049815, "train/reward_rate": 0.07981350806451613, "train_stats/mean_log_entropy": 0.8372305830319723, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00025095089222304523, "report/cont_loss_std": 0.004863225854933262, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.032089296728372574, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00018864490266423672, "report/cont_pred": 0.9979287981987, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.8274412155151367, "report/dyn_loss_std": 5.739953517913818, "report/image_loss_mean": 1.2520086765289307, "report/image_loss_std": 0.850825309753418, "report/model_loss_mean": 3.004852771759033, "report/model_loss_std": 3.9444973468780518, "report/post_ent_mag": 60.64939498901367, "report/post_ent_max": 60.64939498901367, "report/post_ent_mean": 43.197471618652344, "report/post_ent_min": 10.426286697387695, "report/post_ent_std": 4.781554222106934, "report/prior_ent_mag": 81.64220428466797, "report/prior_ent_max": 81.64220428466797, "report/prior_ent_mean": 45.98918533325195, "report/prior_ent_min": 14.696540832519531, "report/prior_ent_std": 6.538602352142334, "report/rep_loss_mean": 2.8274412155151367, "report/rep_loss_std": 5.739953517913818, "report/reward_avg": 1.171875, "report/reward_loss_mean": 0.05612840875983238, "report/reward_loss_std": 0.24651342630386353, "report/reward_max_data": 500.0, "report/reward_max_pred": 489.51580810546875, "report/reward_neg_acc": 0.9769149422645569, "report/reward_neg_loss": 0.008638500235974789, "report/reward_pos_acc": 0.98591548204422, "report/reward_pos_loss": 0.6935633420944214, "report/reward_pred": 1.1026766300201416, "report/reward_rate": 0.0693359375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2338207397988299e-06, "eval/cont_loss_std": 3.098989691352472e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2338207397988299e-06, "eval/cont_pred": 0.9999988079071045, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.840660095214844, "eval/dyn_loss_std": 12.282718658447266, "eval/image_loss_mean": 4.55825138092041, "eval/image_loss_std": 2.930501937866211, "eval/model_loss_mean": 15.170225143432617, "eval/model_loss_std": 9.811150550842285, "eval/post_ent_mag": 57.922569274902344, "eval/post_ent_max": 57.922569274902344, "eval/post_ent_mean": 43.33448028564453, "eval/post_ent_min": 30.06839370727539, "eval/post_ent_std": 4.579843997955322, "eval/prior_ent_mag": 81.64220428466797, "eval/prior_ent_max": 81.64220428466797, "eval/prior_ent_mean": 48.655052185058594, "eval/prior_ent_min": 32.20307159423828, "eval/prior_ent_std": 6.076033115386963, "eval/rep_loss_mean": 16.840660095214844, "eval/rep_loss_std": 12.282718658447266, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.5075764656066895, "eval/reward_loss_std": 2.5860533714294434, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007991790771484, "eval/reward_neg_acc": 0.9373103380203247, "eval/reward_neg_loss": 0.061728399246931076, "eval/reward_pos_acc": 0.02857142873108387, "eval/reward_pos_loss": 13.10596752166748, "eval/reward_pred": 0.15575248003005981, "eval/reward_rate": 0.0341796875, "replay/size": 89245.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.007560744775675e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3679593474000364e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9073486328125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.98707604408264, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.57714462280273, "timer/replay._sample_frac": 1.3086468583903732, "timer/replay._sample_avg": 0.015860421162847558, "timer/replay._sample_min": 0.0004146099090576172, "timer/replay._sample_max": 0.08098602294921875, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.812817811965942, "timer/env.step_frac": 0.022710371066001555, "timer/env.step_avg": 0.004403889988342562, "timer/env.step_min": 0.002132415771484375, "timer/env.step_max": 0.05665755271911621, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.28228616714478, "timer/agent.policy_frac": 0.37095693466071855, "timer/agent.policy_avg": 0.07193425091605997, "timer/agent.policy_min": 0.0029048919677734375, "timer/agent.policy_max": 0.18295907974243164, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1532437801361084, "timer/dataset_train_frac": 0.0005108346071335068, "timer/dataset_train_avg": 9.905868140666347e-05, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.00021195411682128906, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.52640438079834, "timer/agent.train_frac": 0.6017806058894026, "timer/agent.train_avg": 0.11669450832630791, "timer/agent.train_min": 0.10280084609985352, "timer/agent.train_max": 0.20430374145507812, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2627387046813965, "timer/agent.report_frac": 0.0008758334130460589, "timer/agent.report_avg": 0.13136935234069824, "timer/agent.report_min": 0.09733009338378906, "timer/agent.report_max": 0.16540861129760742, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.054473876953125e-05, "timer/dataset_eval_frac": 1.6848972107752995e-07, "timer/dataset_eval_avg": 5.054473876953125e-05, "timer/dataset_eval_min": 5.054473876953125e-05, "timer/dataset_eval_max": 5.054473876953125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1619718074798584, "timer/agent.save_frac": 0.0005399292850071211, "timer/agent.save_avg": 0.1619718074798584, "timer/agent.save_min": 0.1619718074798584, "timer/agent.save_max": 0.1619718074798584, "fps": 20.626308904336423}
+{"step": 231436, "episode/length": 643.0, "episode/score": 690.0, "episode/reward_rate": 0.10714285714285714}
+{"step": 233924, "episode/length": 621.0, "episode/score": 710.0, "episode/reward_rate": 0.11254019292604502}
+{"step": 235776, "episode/length": 462.0, "episode/score": 550.0, "episode/reward_rate": 0.11879049676025918}
+{"step": 237436, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.066573898513596, "train/action_min": 0.0, "train/action_std": 4.134824207850865, "train/actor_opt_grad_norm": 0.005985611633929823, "train/actor_opt_grad_steps": 57485.0, "train/actor_opt_loss": 0.00030717174767433587, "train/adv_mag": 0.5345353058406285, "train/adv_max": 0.5202469537397484, "train/adv_mean": 0.0016056113134597237, "train/adv_min": -0.2960331067442894, "train/adv_std": 0.0252251748612465, "train/cont_avg": 0.9981610186688312, "train/cont_loss_mean": 0.0008587355158703991, "train/cont_loss_std": 0.020431595353057577, "train/cont_neg_acc": 0.8750608291504157, "train/cont_neg_loss": 0.2870394711620191, "train/cont_pos_acc": 0.9998855343112698, "train/cont_pos_loss": 0.0003559131973075894, "train/cont_pred": 0.998169337774252, "train/cont_rate": 0.9981610186688312, "train/dyn_loss_mean": 2.866304589556409, "train/dyn_loss_std": 5.794091952311528, "train/extr_critic_critic_opt_grad_norm": 1.3794143436016975, "train/extr_critic_critic_opt_grad_steps": 57485.0, "train/extr_critic_critic_opt_loss": 1.5000544112998169, "train/extr_critic_mag": 314.3796252956638, "train/extr_critic_max": 314.3796252956638, "train/extr_critic_mean": 114.50532244397448, "train/extr_critic_min": 0.02394966645674272, "train/extr_critic_std": 81.28502345394779, "train/extr_return_normed_mag": 1.3043826493349941, "train/extr_return_normed_max": 1.3043826493349941, "train/extr_return_normed_mean": 0.42934368415312335, "train/extr_return_normed_min": -0.015952374495856174, "train/extr_return_normed_std": 0.31631227079537005, "train/extr_return_rate": 0.9432118809842444, "train/extr_return_raw_mag": 340.4997582373681, "train/extr_return_raw_max": 340.4997582373681, "train/extr_return_raw_mean": 114.9191529410226, "train/extr_return_raw_min": 0.01698688777710172, "train/extr_return_raw_std": 81.6131319813914, "train/extr_reward_mag": 40.511925047094174, "train/extr_reward_max": 40.511925047094174, "train/extr_reward_mean": 0.7885720540176738, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.913950753676427, "train/image_loss_mean": 1.2326071560382843, "train/image_loss_std": 0.9284869862067235, "train/model_loss_mean": 3.014152983566383, "train/model_loss_std": 4.086577754516106, "train/model_opt_grad_norm": 11.099408217838832, "train/model_opt_grad_steps": 57485.0, "train/model_opt_loss": 3.014152983566383, "train/policy_entropy_mag": 2.6508542934021393, "train/policy_entropy_max": 2.6508542934021393, "train/policy_entropy_mean": 0.9587546888884012, "train/policy_entropy_min": 0.08019480772026173, "train/policy_entropy_std": 0.7404871404945076, "train/policy_logprob_mag": 7.495512188255013, "train/policy_logprob_max": -0.00948991287233574, "train/policy_logprob_mean": -0.9594727177898605, "train/policy_logprob_min": -7.495512188255013, "train/policy_logprob_std": 1.300640488599802, "train/policy_randomness_mag": 0.9171326613271391, "train/policy_randomness_max": 0.9171326613271391, "train/policy_randomness_mean": 0.3317063659816593, "train/policy_randomness_min": 0.027745499916664966, "train/policy_randomness_std": 0.2561909727655448, "train/post_ent_mag": 60.99154853820801, "train/post_ent_max": 60.99154853820801, "train/post_ent_mean": 42.808786540836486, "train/post_ent_min": 15.654994091430268, "train/post_ent_std": 4.609931063342404, "train/prior_ent_mag": 81.50582291243913, "train/prior_ent_max": 81.50582291243913, "train/prior_ent_mean": 45.69627865878019, "train/prior_ent_min": 19.68429591438987, "train/prior_ent_std": 6.527871153571389, "train/rep_loss_mean": 2.866304589556409, "train/rep_loss_std": 5.794091952311528, "train/reward_avg": 0.8896864853896104, "train/reward_loss_mean": 0.06090435915469349, "train/reward_loss_std": 0.23408534348785104, "train/reward_max_data": 66.62337662337663, "train/reward_max_pred": 35.696087310840554, "train/reward_neg_acc": 0.9756075712767515, "train/reward_neg_loss": 0.007339571988929741, "train/reward_pos_acc": 0.9941846279354839, "train/reward_pos_loss": 0.6557755706372199, "train/reward_pred": 0.8101262545043771, "train/reward_rate": 0.08303951907467533, "train_stats/mean_log_entropy": 0.8460505803426107, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.00028370623476803303, "report/cont_loss_std": 0.0039418889209628105, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01699589006602764, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00021816826483700424, "report/cont_pred": 0.9959471821784973, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.6472957134246826, "report/dyn_loss_std": 5.493587970733643, "report/image_loss_mean": 1.0592797994613647, "report/image_loss_std": 0.8131879568099976, "report/model_loss_mean": 2.6926629543304443, "report/model_loss_std": 3.7574892044067383, "report/post_ent_mag": 61.6993408203125, "report/post_ent_max": 61.6993408203125, "report/post_ent_mean": 43.101593017578125, "report/post_ent_min": 18.051387786865234, "report/post_ent_std": 4.3429059982299805, "report/prior_ent_mag": 81.52167510986328, "report/prior_ent_max": 81.52167510986328, "report/prior_ent_mean": 45.990135192871094, "report/prior_ent_min": 29.070690155029297, "report/prior_ent_std": 6.40138578414917, "report/rep_loss_mean": 2.6472957134246826, "report/rep_loss_std": 5.493587970733643, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.044722042977809906, "report/reward_loss_std": 0.1957845240831375, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008333206176758, "report/reward_neg_acc": 0.9854319095611572, "report/reward_neg_loss": 0.007951345294713974, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6056212186813354, "report/reward_pred": 0.5968813896179199, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013407793827354908, "eval/cont_loss_std": 0.4284767210483551, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.717962265014648, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1357489711372182e-05, "eval/cont_pred": 0.9999887347221375, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.46697235107422, "eval/dyn_loss_std": 12.21127700805664, "eval/image_loss_mean": 4.771332740783691, "eval/image_loss_std": 3.2710163593292236, "eval/model_loss_mean": 15.222352027893066, "eval/model_loss_std": 10.47453498840332, "eval/post_ent_mag": 62.51958084106445, "eval/post_ent_max": 62.51958084106445, "eval/post_ent_mean": 43.15359115600586, "eval/post_ent_min": 30.60516929626465, "eval/post_ent_std": 4.148954391479492, "eval/prior_ent_mag": 81.52167510986328, "eval/prior_ent_max": 81.52167510986328, "eval/prior_ent_mean": 48.18523406982422, "eval/prior_ent_min": 31.313945770263672, "eval/prior_ent_std": 5.897465229034424, "eval/rep_loss_mean": 16.46697235107422, "eval/rep_loss_std": 12.21127700805664, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5574275255203247, "eval/reward_loss_std": 3.075139284133911, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.94478702545166, "eval/reward_neg_acc": 0.9625506401062012, "eval/reward_neg_loss": 0.04257875680923462, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 14.687164306640625, "eval/reward_pred": 0.11092974990606308, "eval/reward_rate": 0.03515625, "replay/size": 90790.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.751551112696576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2313856661898418e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1209547519684, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 356.754599571228, "timer/replay._sample_frac": 1.1887027344227392, "timer/replay._sample_avg": 0.01443182037100437, "timer/replay._sample_min": 0.008145570755004883, "timer/replay._sample_max": 0.040807247161865234, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.898089170455933, "timer/env.step_frac": 0.02298436367482831, "timer/env.step_avg": 0.004464782634599309, "timer/env.step_min": 0.002871274948120117, "timer/env.step_max": 0.03340554237365723, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.24362373352051, "timer/agent.policy_frac": 0.36733064448842007, "timer/agent.policy_avg": 0.07135509626765081, "timer/agent.policy_min": 0.0030524730682373047, "timer/agent.policy_max": 0.0819089412689209, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.14278435707092285, "timer/dataset_train_frac": 0.0004757560403902, "timer/dataset_train_avg": 9.241705959283032e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.00019240379333496094, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 181.65673780441284, "timer/agent.train_frac": 0.6052784216768237, "timer/agent.train_avg": 0.1175771765724355, "timer/agent.train_min": 0.10445189476013184, "timer/agent.train_max": 0.20441555976867676, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2617800235748291, "timer/agent.report_frac": 0.0008722484032851831, "timer/agent.report_avg": 0.13089001178741455, "timer/agent.report_min": 0.10360097885131836, "timer/agent.report_max": 0.15817904472351074, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.6743621826171875e-05, "timer/dataset_eval_frac": 1.8906917670266313e-07, "timer/dataset_eval_avg": 5.6743621826171875e-05, "timer/dataset_eval_min": 5.6743621826171875e-05, "timer/dataset_eval_max": 5.6743621826171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.590285107291376}
+{"step": 237668, "episode/length": 472.0, "episode/score": 520.0, "episode/reward_rate": 0.10993657505285412}
+{"step": 240560, "episode/length": 722.0, "episode/score": 640.0, "episode/reward_rate": 0.08852005532503458}
+{"step": 242744, "episode/length": 545.0, "episode/score": 2130.0, "episode/reward_rate": 0.11721611721611722}
+{"step": 243628, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.095858666204638, "train/action_min": 0.0, "train/action_std": 4.144172942253851, "train/actor_opt_grad_norm": 0.0060607728623454605, "train/actor_opt_grad_steps": 59030.0, "train/actor_opt_loss": 0.00022725647308576417, "train/adv_mag": 0.47021375433091195, "train/adv_max": 0.4532601589156735, "train/adv_mean": 0.0013302569417118642, "train/adv_min": -0.2980907718020101, "train/adv_std": 0.023250914256899586, "train/cont_avg": 0.9981665826612903, "train/cont_loss_mean": 0.0009081988981061005, "train/cont_loss_std": 0.021821827527691635, "train/cont_neg_acc": 0.8812500019283855, "train/cont_neg_loss": 0.31612407879963617, "train/cont_pos_acc": 0.9998926162719727, "train/cont_pos_loss": 0.00034340729115878014, "train/cont_pred": 0.9981690522163145, "train/cont_rate": 0.9981665826612903, "train/dyn_loss_mean": 2.8865274167829944, "train/dyn_loss_std": 5.867721659137357, "train/extr_critic_critic_opt_grad_norm": 1.397536688466226, "train/extr_critic_critic_opt_grad_steps": 59030.0, "train/extr_critic_critic_opt_loss": 1.5118838640951342, "train/extr_critic_mag": 314.2248817689957, "train/extr_critic_max": 314.2248817689957, "train/extr_critic_mean": 113.81952713997133, "train/extr_critic_min": 0.13538648390000865, "train/extr_critic_std": 80.68677855460875, "train/extr_return_normed_mag": 1.2373617583705534, "train/extr_return_normed_max": 1.2373617583705534, "train/extr_return_normed_mean": 0.4241981525574961, "train/extr_return_normed_min": -0.016625108503766597, "train/extr_return_normed_std": 0.3122534582691808, "train/extr_return_rate": 0.9501415991014049, "train/extr_return_raw_mag": 324.57357108823714, "train/extr_return_raw_max": 324.57357108823714, "train/extr_return_raw_mean": 114.16332195651147, "train/extr_return_raw_min": 0.10985466692532833, "train/extr_return_raw_std": 80.8010856628418, "train/extr_reward_mag": 38.904980407222624, "train/extr_reward_max": 38.904980407222624, "train/extr_reward_mean": 0.7512511970535402, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.6973748253237817, "train/image_loss_mean": 1.2281484230872124, "train/image_loss_std": 0.9287828829980666, "train/model_loss_mean": 3.019563361137144, "train/model_loss_std": 4.1384102052257905, "train/model_opt_grad_norm": 10.94281682352866, "train/model_opt_grad_steps": 59030.0, "train/model_opt_loss": 3.019563361137144, "train/policy_entropy_mag": 2.6514825697868103, "train/policy_entropy_max": 2.6514825697868103, "train/policy_entropy_mean": 0.9521797149412093, "train/policy_entropy_min": 0.08019443019743888, "train/policy_entropy_std": 0.7316556199904412, "train/policy_logprob_mag": 7.495513479171261, "train/policy_logprob_max": -0.00948988076659941, "train/policy_logprob_mean": -0.9531288939137612, "train/policy_logprob_min": -7.495513479171261, "train/policy_logprob_std": 1.2978500696920579, "train/policy_randomness_mag": 0.9173500334062884, "train/policy_randomness_max": 0.9173500334062884, "train/policy_randomness_mean": 0.3294315800551445, "train/policy_randomness_min": 0.02774536931707013, "train/policy_randomness_std": 0.25313547666995756, "train/post_ent_mag": 60.96970507714056, "train/post_ent_max": 60.96970507714056, "train/post_ent_mean": 42.89838126397902, "train/post_ent_min": 15.405010241846885, "train/post_ent_std": 4.656246311433853, "train/prior_ent_mag": 81.67308024744834, "train/prior_ent_max": 81.67308024744834, "train/prior_ent_mean": 45.78661528556577, "train/prior_ent_min": 19.0378666047127, "train/prior_ent_std": 6.553039009340348, "train/rep_loss_mean": 2.8865274167829944, "train/rep_loss_std": 5.867721659137357, "train/reward_avg": 0.8538936491935484, "train/reward_loss_mean": 0.05859029070744591, "train/reward_loss_std": 0.2304761449175496, "train/reward_max_data": 56.645161290322584, "train/reward_max_pred": 31.443359984121017, "train/reward_neg_acc": 0.9773748078653889, "train/reward_neg_loss": 0.006990531818836086, "train/reward_pos_acc": 0.9945693177561606, "train/reward_pos_loss": 0.6542577497420773, "train/reward_pred": 0.7763897382443951, "train/reward_rate": 0.07991431451612903, "train_stats/mean_log_entropy": 0.9623101751009623, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.887161048827693e-05, "report/cont_loss_std": 0.0006986011867411435, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0043447911739349365, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.0464721678290516e-05, "report/cont_pred": 0.9980151653289795, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.0284502506256104, "report/dyn_loss_std": 6.061262607574463, "report/image_loss_mean": 1.261322021484375, "report/image_loss_std": 1.003878116607666, "report/model_loss_mean": 3.145697832107544, "report/model_loss_std": 4.296114444732666, "report/post_ent_mag": 61.30718994140625, "report/post_ent_max": 61.30718994140625, "report/post_ent_mean": 42.84030532836914, "report/post_ent_min": 14.018887519836426, "report/post_ent_std": 4.658839702606201, "report/prior_ent_mag": 81.84688568115234, "report/prior_ent_max": 81.84688568115234, "report/prior_ent_mean": 45.65199279785156, "report/prior_ent_min": 20.47460174560547, "report/prior_ent_std": 6.415099143981934, "report/rep_loss_mean": 3.0284502506256104, "report/rep_loss_std": 6.061262607574463, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.06725664436817169, "report/reward_loss_std": 0.23459693789482117, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.01273250579834, "report/reward_neg_acc": 0.9793702960014343, "report/reward_neg_loss": 0.004332260228693485, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6299105882644653, "report/reward_pred": 0.9581552743911743, "report/reward_rate": 0.1005859375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006431034300476313, "eval/cont_loss_std": 0.20328326523303986, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.2852911949157715, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4479333913186565e-05, "eval/cont_pred": 0.9990668296813965, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 18.867633819580078, "eval/dyn_loss_std": 12.564193725585938, "eval/image_loss_mean": 5.456631660461426, "eval/image_loss_std": 3.3352441787719727, "eval/model_loss_mean": 17.219646453857422, "eval/model_loss_std": 10.185189247131348, "eval/post_ent_mag": 62.928707122802734, "eval/post_ent_max": 62.928707122802734, "eval/post_ent_mean": 44.7161979675293, "eval/post_ent_min": 30.43706512451172, "eval/post_ent_std": 4.5265960693359375, "eval/prior_ent_mag": 81.84688568115234, "eval/prior_ent_max": 81.84688568115234, "eval/prior_ent_mean": 50.02825927734375, "eval/prior_ent_min": 34.597923278808594, "eval/prior_ent_std": 6.046077728271484, "eval/rep_loss_mean": 18.867633819580078, "eval/rep_loss_std": 12.564193725585938, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4360038936138153, "eval/reward_loss_std": 2.4199929237365723, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998433113098145, "eval/reward_neg_acc": 0.9282101988792419, "eval/reward_neg_loss": 0.06809505075216293, "eval/reward_pos_acc": 0.2571428716182709, "eval/reward_pos_loss": 10.832056999206543, "eval/reward_pred": 0.19425958395004272, "eval/reward_rate": 0.0341796875, "replay/size": 92338.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.818735196608906e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3421730015629021e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.726912498474121e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0607786178589, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 388.111704826355, "timer/replay._sample_frac": 1.2934436370327258, "timer/replay._sample_avg": 0.015669884723286297, "timer/replay._sample_min": 0.0004961490631103516, "timer/replay._sample_max": 0.045603036880493164, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.71349573135376, "timer/env.step_frac": 0.02237378627849161, "timer/env.step_avg": 0.00433688354738615, "timer/env.step_min": 0.0024530887603759766, "timer/env.step_max": 0.02798628807067871, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.28510546684265, "timer/agent.policy_frac": 0.37087521394646955, "timer/agent.policy_avg": 0.07188960301475623, "timer/agent.policy_min": 0.003148794174194336, "timer/agent.policy_max": 0.08669710159301758, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15108466148376465, "timer/dataset_train_frac": 0.000503513528758045, "timer/dataset_train_avg": 9.75999105192278e-05, "timer/dataset_train_min": 5.626678466796875e-05, "timer/dataset_train_max": 0.0001761913299560547, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.74213647842407, "timer/agent.train_frac": 0.6023517545710546, "timer/agent.train_avg": 0.11675848609717317, "timer/agent.train_min": 0.10284090042114258, "timer/agent.train_max": 0.20535635948181152, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2579782009124756, "timer/agent.report_frac": 0.0008597531543468486, "timer/agent.report_avg": 0.1289891004562378, "timer/agent.report_min": 0.0965123176574707, "timer/agent.report_max": 0.16146588325500488, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.340576171875e-05, "timer/dataset_eval_frac": 1.7798314716354408e-07, "timer/dataset_eval_avg": 5.340576171875e-05, "timer/dataset_eval_min": 5.340576171875e-05, "timer/dataset_eval_max": 5.340576171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.634304855953584}
+{"step": 245316, "episode/length": 642.0, "episode/score": 600.0, "episode/reward_rate": 0.09175738724727839}
+{"step": 248520, "episode/length": 800.0, "episode/score": 820.0, "episode/reward_rate": 0.09987515605493133}
+{"step": 249816, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.045266822076613, "train/action_min": 0.0, "train/action_std": 4.175965442965108, "train/actor_opt_grad_norm": 0.006129317048696741, "train/actor_opt_grad_steps": 60580.0, "train/actor_opt_loss": 0.00018055933643124937, "train/adv_mag": 0.48757194703625095, "train/adv_max": 0.4632798321785465, "train/adv_mean": 0.001340724969551018, "train/adv_min": -0.3135088768697554, "train/adv_std": 0.024472818121073707, "train/cont_avg": 0.9982169858870967, "train/cont_loss_mean": 0.0007615763061911979, "train/cont_loss_std": 0.01820257167013984, "train/cont_neg_acc": 0.9031746042153191, "train/cont_neg_loss": 0.2474626656967014, "train/cont_pos_acc": 0.9998357561326796, "train/cont_pos_loss": 0.0003639226844924792, "train/cont_pred": 0.9981410849478937, "train/cont_rate": 0.9982169858870967, "train/dyn_loss_mean": 2.917180968869117, "train/dyn_loss_std": 5.875249487353909, "train/extr_critic_critic_opt_grad_norm": 1.368416319354888, "train/extr_critic_critic_opt_grad_steps": 60580.0, "train/extr_critic_critic_opt_loss": 1.4975153423124743, "train/extr_critic_mag": 313.8485611454133, "train/extr_critic_max": 313.8485611454133, "train/extr_critic_mean": 114.80989059940461, "train/extr_critic_min": 0.10169079919015207, "train/extr_critic_std": 80.440249166181, "train/extr_return_normed_mag": 1.2628210186958313, "train/extr_return_normed_max": 1.2628210186958313, "train/extr_return_normed_mean": 0.42986254768986853, "train/extr_return_normed_min": -0.017412875157089964, "train/extr_return_normed_std": 0.3136089600862995, "train/extr_return_rate": 0.9493792472347137, "train/extr_return_raw_mag": 329.3578780635711, "train/extr_return_raw_max": 329.3578780635711, "train/extr_return_raw_mean": 115.15457202542213, "train/extr_return_raw_min": 0.14437128419353207, "train/extr_return_raw_std": 80.63714666058941, "train/extr_reward_mag": 42.380659675598146, "train/extr_reward_max": 42.380659675598146, "train/extr_reward_mean": 0.7410667882811639, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.7842802463039273, "train/image_loss_mean": 1.2356472638345535, "train/image_loss_std": 0.9408312993664896, "train/model_loss_mean": 3.046999546789354, "train/model_loss_std": 4.160035619428081, "train/model_opt_grad_norm": 11.03308525393086, "train/model_opt_grad_steps": 60580.0, "train/model_opt_loss": 3.046999546789354, "train/policy_entropy_mag": 2.647536402363931, "train/policy_entropy_max": 2.647536402363931, "train/policy_entropy_mean": 0.9574151981261468, "train/policy_entropy_min": 0.08019354550107832, "train/policy_entropy_std": 0.7329845263111976, "train/policy_logprob_mag": 7.4955147097187655, "train/policy_logprob_max": -0.009489799206776004, "train/policy_logprob_mean": -0.9563517351304331, "train/policy_logprob_min": -7.4955147097187655, "train/policy_logprob_std": 1.295647814196925, "train/policy_randomness_mag": 0.9159847513321907, "train/policy_randomness_max": 0.9159847513321907, "train/policy_randomness_mean": 0.33124293185049486, "train/policy_randomness_min": 0.027745063182327057, "train/policy_randomness_std": 0.2535952474801771, "train/post_ent_mag": 60.99700575797789, "train/post_ent_max": 60.99700575797789, "train/post_ent_mean": 42.883320888396234, "train/post_ent_min": 14.762054135722499, "train/post_ent_std": 4.733677301099224, "train/prior_ent_mag": 81.92465254260648, "train/prior_ent_max": 81.92465254260648, "train/prior_ent_mean": 45.807933831983995, "train/prior_ent_min": 18.576064165176884, "train/prior_ent_std": 6.644455279073408, "train/rep_loss_mean": 2.917180968869117, "train/rep_loss_std": 5.875249487353909, "train/reward_avg": 0.8470262096774194, "train/reward_loss_mean": 0.060282127511116765, "train/reward_loss_std": 0.2481487233792582, "train/reward_max_data": 66.45161290322581, "train/reward_max_pred": 38.743200628219114, "train/reward_neg_acc": 0.9756800078576611, "train/reward_neg_loss": 0.007699080663282544, "train/reward_pos_acc": 0.9916196907720258, "train/reward_pos_loss": 0.6824459714274252, "train/reward_pred": 0.7675185834207843, "train/reward_rate": 0.0785219254032258, "train_stats/mean_log_entropy": 1.0119837522506714, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.733483708856511e-07, "report/cont_loss_std": 9.406390745425597e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.733483708856511e-07, "report/cont_pred": 0.9999996423721313, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.5971736907958984, "report/dyn_loss_std": 5.555021286010742, "report/image_loss_mean": 1.1119269132614136, "report/image_loss_std": 0.7133618593215942, "report/model_loss_mean": 2.7115468978881836, "report/model_loss_std": 3.7968828678131104, "report/post_ent_mag": 55.891944885253906, "report/post_ent_max": 55.891944885253906, "report/post_ent_mean": 43.18115234375, "report/post_ent_min": 13.173857688903809, "report/post_ent_std": 4.597360134124756, "report/prior_ent_mag": 81.97601318359375, "report/prior_ent_max": 81.97601318359375, "report/prior_ent_mean": 45.82189178466797, "report/prior_ent_min": 15.8309326171875, "report/prior_ent_std": 6.44070291519165, "report/rep_loss_mean": 2.5971736907958984, "report/rep_loss_std": 5.555021286010742, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.04131542891263962, "report/reward_loss_std": 0.21757785975933075, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998125076293945, "report/reward_neg_acc": 0.9854621291160583, "report/reward_neg_loss": 0.0022096747998148203, "report/reward_pos_acc": 0.9836066365242004, "report/reward_pos_loss": 0.6586735844612122, "report/reward_pred": 0.5914061069488525, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.011492692865431309, "eval/cont_loss_std": 0.3675176799297333, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.766313552856445, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1556695628532907e-06, "eval/cont_pred": 0.9999978542327881, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.742460250854492, "eval/dyn_loss_std": 11.575729370117188, "eval/image_loss_mean": 4.58689022064209, "eval/image_loss_std": 2.8022372722625732, "eval/model_loss_mean": 14.420921325683594, "eval/model_loss_std": 9.313050270080566, "eval/post_ent_mag": 63.49235534667969, "eval/post_ent_max": 63.49235534667969, "eval/post_ent_mean": 43.758975982666016, "eval/post_ent_min": 30.40369415283203, "eval/post_ent_std": 4.385869026184082, "eval/prior_ent_mag": 81.97601318359375, "eval/prior_ent_max": 81.97601318359375, "eval/prior_ent_mean": 48.662113189697266, "eval/prior_ent_min": 30.978120803833008, "eval/prior_ent_std": 5.927380084991455, "eval/rep_loss_mean": 15.742460250854492, "eval/rep_loss_std": 11.575729370117188, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.3770626187324524, "eval/reward_loss_std": 2.4365394115448, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003016471862793, "eval/reward_neg_acc": 0.9590818285942078, "eval/reward_neg_loss": 0.050747185945510864, "eval/reward_pos_acc": 0.04545454680919647, "eval/reward_pos_loss": 15.23924732208252, "eval/reward_pred": 0.11544433981180191, "eval/reward_rate": 0.021484375, "replay/size": 93885.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.883188544817716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3487910792838395e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 4.246830940246582e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09876585006714, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.0683128833771, "timer/replay._sample_frac": 1.3064642627662755, "timer/replay._sample_avg": 0.01583986396587658, "timer/replay._sample_min": 0.0005173683166503906, "timer/replay._sample_max": 0.21067214012145996, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.6860034465789795, "timer/env.step_frac": 0.02227934336097665, "timer/env.step_avg": 0.004321915608648338, "timer/env.step_min": 0.0022563934326171875, "timer/env.step_max": 0.0427699089050293, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.57007145881653, "timer/agent.policy_frac": 0.3717778416808227, "timer/agent.policy_avg": 0.07212027890033389, "timer/agent.policy_min": 0.0029222965240478516, "timer/agent.policy_max": 0.14510178565979004, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15507888793945312, "timer/dataset_train_frac": 0.0005167594991607942, "timer/dataset_train_avg": 0.00010024491786648553, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.00027632713317871094, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.4863748550415, "timer/agent.train_frac": 0.6014232492552622, "timer/agent.train_avg": 0.11666863274404751, "timer/agent.train_min": 0.10188007354736328, "timer/agent.train_max": 0.20298099517822266, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25628232955932617, "timer/agent.report_frac": 0.0008539932806233793, "timer/agent.report_avg": 0.12814116477966309, "timer/agent.report_min": 0.09716081619262695, "timer/agent.report_max": 0.15912151336669922, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.961822509765625e-05, "timer/dataset_eval_frac": 2.3198437654501497e-07, "timer/dataset_eval_avg": 6.961822509765625e-05, "timer/dataset_eval_min": 6.961822509765625e-05, "timer/dataset_eval_max": 6.961822509765625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.13376808166503906, "timer/agent.save_frac": 0.0004457468569926448, "timer/agent.save_avg": 0.13376808166503906, "timer/agent.save_min": 0.13376808166503906, "timer/agent.save_max": 0.13376808166503906, "fps": 20.618408021342916}
+{"step": 250360, "episode/length": 459.0, "episode/score": 510.0, "episode/reward_rate": 0.1108695652173913}
+{"step": 253400, "episode/length": 759.0, "episode/score": 640.0, "episode/reward_rate": 0.08289473684210526}
+{"step": 254996, "episode/length": 398.0, "episode/score": 470.0, "episode/reward_rate": 0.11779448621553884}
+{"step": 256008, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.116208574848791, "train/action_min": 0.0, "train/action_std": 4.129478974496164, "train/actor_opt_grad_norm": 0.006112727013626887, "train/actor_opt_grad_steps": 62130.0, "train/actor_opt_loss": 0.0003433203287004876, "train/adv_mag": 0.5351877146190213, "train/adv_max": 0.5126616618325633, "train/adv_mean": 0.001393338218088414, "train/adv_min": -0.30207776614735204, "train/adv_std": 0.024731354145032743, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.0008215562593525577, "train/cont_loss_std": 0.02127520531731138, "train/cont_neg_acc": 0.8680769246358138, "train/cont_neg_loss": 0.3100601160867462, "train/cont_pos_acc": 0.999917927480513, "train/cont_pos_loss": 0.00023424984158506936, "train/cont_pred": 0.9982363747012231, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.9397138918599777, "train/dyn_loss_std": 5.90465147572179, "train/extr_critic_critic_opt_grad_norm": 1.3689492956284555, "train/extr_critic_critic_opt_grad_steps": 62130.0, "train/extr_critic_critic_opt_loss": 1.4911458946043445, "train/extr_critic_mag": 315.00242900233116, "train/extr_critic_max": 315.00242900233116, "train/extr_critic_mean": 115.47574989564957, "train/extr_critic_min": 0.3898172286248976, "train/extr_critic_std": 80.97003050773374, "train/extr_return_normed_mag": 1.300366727382906, "train/extr_return_normed_max": 1.300366727382906, "train/extr_return_normed_mean": 0.4273108229521782, "train/extr_return_normed_min": -0.01648732283783536, "train/extr_return_normed_std": 0.31249457713096374, "train/extr_return_rate": 0.9511689816751788, "train/extr_return_raw_mag": 342.6431209441154, "train/extr_return_raw_max": 342.6431209441154, "train/extr_return_raw_mean": 115.83765012679561, "train/extr_return_raw_min": 0.530376733837071, "train/extr_return_raw_std": 81.20613260576802, "train/extr_reward_mag": 55.48162965466899, "train/extr_reward_max": 55.48162965466899, "train/extr_reward_mean": 0.7701823484513067, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.9810391279958908, "train/image_loss_mean": 1.2261451482772827, "train/image_loss_std": 0.9376472426999, "train/model_loss_mean": 3.052422425054735, "train/model_loss_std": 4.172721236751926, "train/model_opt_grad_norm": 11.314649735727619, "train/model_opt_grad_steps": 62130.0, "train/model_opt_loss": 3.052422425054735, "train/policy_entropy_mag": 2.6503588338052073, "train/policy_entropy_max": 2.6503588338052073, "train/policy_entropy_mean": 0.9552551050339976, "train/policy_entropy_min": 0.08019351497773201, "train/policy_entropy_std": 0.7420181997360722, "train/policy_logprob_mag": 7.495524335676624, "train/policy_logprob_max": -0.009489783176010656, "train/policy_logprob_mean": -0.954427832557309, "train/policy_logprob_min": -7.495524335676624, "train/policy_logprob_std": 1.2959969066804455, "train/policy_randomness_mag": 0.9169612469211701, "train/policy_randomness_max": 0.9169612469211701, "train/policy_randomness_mean": 0.33049559429768594, "train/policy_randomness_min": 0.027745052595292367, "train/policy_randomness_std": 0.25672068317090313, "train/post_ent_mag": 61.230431858185796, "train/post_ent_max": 61.230431858185796, "train/post_ent_mean": 42.75636183215726, "train/post_ent_min": 15.096192033829228, "train/post_ent_std": 4.749556104598507, "train/prior_ent_mag": 82.11469362320439, "train/prior_ent_max": 82.11469362320439, "train/prior_ent_mean": 45.70936855193107, "train/prior_ent_min": 18.81178768527123, "train/prior_ent_std": 6.690746879577636, "train/rep_loss_mean": 2.9397138918599777, "train/rep_loss_std": 5.90465147572179, "train/reward_avg": 0.8861517137096774, "train/reward_loss_mean": 0.06162739247083664, "train/reward_loss_std": 0.24209081078729322, "train/reward_max_data": 78.90322580645162, "train/reward_max_pred": 44.386336886498235, "train/reward_neg_acc": 0.9754523065782362, "train/reward_neg_loss": 0.007886179241411868, "train/reward_pos_acc": 0.9930439595253236, "train/reward_pos_loss": 0.67356738005915, "train/reward_pred": 0.7956458066740344, "train/reward_rate": 0.08117439516129032, "train_stats/mean_log_entropy": 0.8881034453709921, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 8.10766578069888e-05, "report/cont_loss_std": 0.0014247517101466656, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00214023538865149, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.906380051281303e-05, "report/cont_pred": 0.9989476203918457, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.9679813385009766, "report/dyn_loss_std": 5.768662929534912, "report/image_loss_mean": 1.2399816513061523, "report/image_loss_std": 0.8902410864830017, "report/model_loss_mean": 3.067866325378418, "report/model_loss_std": 3.995631456375122, "report/post_ent_mag": 61.47194290161133, "report/post_ent_max": 61.47194290161133, "report/post_ent_mean": 43.50850296020508, "report/post_ent_min": 11.37614917755127, "report/post_ent_std": 5.05797815322876, "report/prior_ent_mag": 82.37477111816406, "report/prior_ent_max": 82.37477111816406, "report/prior_ent_mean": 46.60935592651367, "report/prior_ent_min": 15.55463981628418, "report/prior_ent_std": 6.796516418457031, "report/rep_loss_mean": 2.9679813385009766, "report/rep_loss_std": 5.768662929534912, "report/reward_avg": 0.6640625, "report/reward_loss_mean": 0.047015026211738586, "report/reward_loss_std": 0.18244659900665283, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.98758316040039, "report/reward_neg_acc": 0.9770355224609375, "report/reward_neg_loss": 0.006544305942952633, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6344536542892456, "report/reward_pred": 0.6206711530685425, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0045227124355733395, "eval/cont_loss_std": 0.14427483081817627, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.6190595626831055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1923923921131063e-05, "eval/cont_pred": 0.9999785423278809, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.75796127319336, "eval/dyn_loss_std": 11.5460205078125, "eval/image_loss_mean": 4.345687389373779, "eval/image_loss_std": 3.024949073791504, "eval/model_loss_mean": 13.67034912109375, "eval/model_loss_std": 9.795296669006348, "eval/post_ent_mag": 62.75823211669922, "eval/post_ent_max": 62.75823211669922, "eval/post_ent_mean": 43.848350524902344, "eval/post_ent_min": 29.406835556030273, "eval/post_ent_std": 4.223426342010498, "eval/prior_ent_mag": 82.37477111816406, "eval/prior_ent_max": 82.37477111816406, "eval/prior_ent_mean": 48.70176315307617, "eval/prior_ent_min": 32.338661193847656, "eval/prior_ent_std": 6.0786333084106445, "eval/rep_loss_mean": 14.75796127319336, "eval/rep_loss_std": 11.5460205078125, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.4653626084327698, "eval/reward_loss_std": 2.8478784561157227, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.990091323852539, "eval/reward_neg_acc": 0.9656912088394165, "eval/reward_neg_loss": 0.026970500126481056, "eval/reward_pos_acc": 0.1515151411294937, "eval/reward_pos_loss": 13.630411148071289, "eval/reward_pred": 0.09557290375232697, "eval/reward_rate": 0.0322265625, "replay/size": 95433.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.875105480815089e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3820827007293701e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09819626808167, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 400.87210607528687, "timer/replay._sample_frac": 1.3358031173142493, "timer/replay._sample_avg": 0.01618508180213529, "timer/replay._sample_min": 0.0006277561187744141, "timer/replay._sample_max": 0.04644179344177246, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.707603693008423, "timer/env.step_frac": 0.022351362908614194, "timer/env.step_avg": 0.004333077321064873, "timer/env.step_min": 0.002429962158203125, "timer/env.step_max": 0.027264833450317383, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.55657196044922, "timer/agent.policy_frac": 0.37173356370590865, "timer/agent.policy_avg": 0.07206496896669846, "timer/agent.policy_min": 0.00290679931640625, "timer/agent.policy_max": 0.08737659454345703, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15560269355773926, "timer/dataset_train_frac": 0.000518505927368978, "timer/dataset_train_avg": 0.00010051853589001243, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023865699768066406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.47212672233582, "timer/agent.train_frac": 0.601376912512722, "timer/agent.train_avg": 0.11658406119013942, "timer/agent.train_min": 0.10347890853881836, "timer/agent.train_max": 0.20449471473693848, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26528000831604004, "timer/agent.report_frac": 0.0008839773501306284, "timer/agent.report_avg": 0.13264000415802002, "timer/agent.report_min": 0.1007237434387207, "timer/agent.report_max": 0.16455626487731934, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.946447949580547e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.631761322477775}
+{"step": 258264, "episode/length": 816.0, "episode/score": 680.0, "episode/reward_rate": 0.08200734394124846}
+{"step": 260236, "episode/length": 492.0, "episode/score": 600.0, "episode/reward_rate": 0.11764705882352941}
+{"step": 262200, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.266654328377015, "train/action_min": 0.0, "train/action_std": 4.080048524179766, "train/actor_opt_grad_norm": 0.007301937944946751, "train/actor_opt_grad_steps": 63680.0, "train/actor_opt_loss": 0.0007988519863792751, "train/adv_mag": 0.5418533029094819, "train/adv_max": 0.5265173700547987, "train/adv_mean": 0.0019762798935839634, "train/adv_min": -0.3231276783250993, "train/adv_std": 0.028949034544489077, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.001209817639127939, "train/cont_loss_std": 0.028385886862486498, "train/cont_neg_acc": 0.8335877882160303, "train/cont_neg_loss": 0.43454197933897376, "train/cont_pos_acc": 0.999848441154726, "train/cont_pos_loss": 0.00044803076337563005, "train/cont_pred": 0.9981758656040315, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.9391207418134138, "train/dyn_loss_std": 5.923354478036203, "train/extr_critic_critic_opt_grad_norm": 1.484192487501329, "train/extr_critic_critic_opt_grad_steps": 63680.0, "train/extr_critic_critic_opt_loss": 1.550971419580521, "train/extr_critic_mag": 314.8578145673198, "train/extr_critic_max": 314.8578145673198, "train/extr_critic_mean": 115.49964781730405, "train/extr_critic_min": 0.16847061418717907, "train/extr_critic_std": 80.47219696044922, "train/extr_return_normed_mag": 1.3058952104660773, "train/extr_return_normed_max": 1.3058952104660773, "train/extr_return_normed_mean": 0.4308709050378492, "train/extr_return_normed_min": -0.020309157062682413, "train/extr_return_normed_std": 0.3153227980098417, "train/extr_return_rate": 0.9591011916437456, "train/extr_return_raw_mag": 340.4562725436303, "train/extr_return_raw_max": 340.4562725436303, "train/extr_return_raw_mean": 116.00633815642325, "train/extr_return_raw_min": 0.3370166066838729, "train/extr_return_raw_std": 80.84458492648217, "train/extr_reward_mag": 41.740143419081164, "train/extr_reward_max": 41.740143419081164, "train/extr_reward_mean": 0.7656606280034588, "train/extr_reward_min": 0.0, "train/extr_reward_std": 2.969087428431357, "train/image_loss_mean": 1.2148066274581417, "train/image_loss_std": 0.9265498119015847, "train/model_loss_mean": 3.037546471626528, "train/model_loss_std": 4.174888576999788, "train/model_opt_grad_norm": 11.047513632620534, "train/model_opt_grad_steps": 63680.0, "train/model_opt_loss": 3.037546471626528, "train/policy_entropy_mag": 2.642942105570147, "train/policy_entropy_max": 2.642942105570147, "train/policy_entropy_mean": 0.9249722957611084, "train/policy_entropy_min": 0.08019386414558657, "train/policy_entropy_std": 0.7276454294881513, "train/policy_logprob_mag": 7.495525415482059, "train/policy_logprob_max": -0.009489809126863556, "train/policy_logprob_mean": -0.9249306924881474, "train/policy_logprob_min": -7.495525415482059, "train/policy_logprob_std": 1.2870641177700413, "train/policy_randomness_mag": 0.9143952358153559, "train/policy_randomness_max": 0.9143952358153559, "train/policy_randomness_mean": 0.3200184550016157, "train/policy_randomness_min": 0.027745173366800432, "train/policy_randomness_std": 0.25174804435622306, "train/post_ent_mag": 61.46328695974042, "train/post_ent_max": 61.46328695974042, "train/post_ent_mean": 42.96278787428333, "train/post_ent_min": 14.736407409175749, "train/post_ent_std": 4.755212891486384, "train/prior_ent_mag": 82.29593397571195, "train/prior_ent_max": 82.29593397571195, "train/prior_ent_mean": 45.91476548717868, "train/prior_ent_min": 18.758239912217665, "train/prior_ent_std": 6.6874243151757025, "train/rep_loss_mean": 2.9391207418134138, "train/rep_loss_std": 5.923354478036203, "train/reward_avg": 0.8494833669354839, "train/reward_loss_mean": 0.058057596450371125, "train/reward_loss_std": 0.22865453285555687, "train/reward_max_data": 53.87096774193548, "train/reward_max_pred": 35.65273834966844, "train/reward_neg_acc": 0.9762905555386697, "train/reward_neg_loss": 0.00701483100983164, "train/reward_pos_acc": 0.9934763873777082, "train/reward_pos_loss": 0.6546592339392632, "train/reward_pred": 0.7778402530377911, "train/reward_rate": 0.07908266129032258, "train_stats/mean_log_entropy": 0.9998040497303009, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0015548830851912498, "report/cont_loss_std": 0.030810056254267693, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.14499568939208984, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.0014146672328934073, "report/cont_pred": 0.99811190366745, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.721484661102295, "report/dyn_loss_std": 5.744743824005127, "report/image_loss_mean": 1.1532254219055176, "report/image_loss_std": 0.8057998418807983, "report/model_loss_mean": 2.8355183601379395, "report/model_loss_std": 3.9688291549682617, "report/post_ent_mag": 64.95475769042969, "report/post_ent_max": 64.95475769042969, "report/post_ent_mean": 43.260398864746094, "report/post_ent_min": 16.03560447692871, "report/post_ent_std": 4.775022506713867, "report/prior_ent_mag": 82.21832275390625, "report/prior_ent_max": 82.21832275390625, "report/prior_ent_mean": 46.14379119873047, "report/prior_ent_min": 17.033607482910156, "report/prior_ent_std": 6.4558539390563965, "report/rep_loss_mean": 2.721484661102295, "report/rep_loss_std": 5.744743824005127, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.04784729331731796, "report/reward_loss_std": 0.2184031754732132, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.00722599029541, "report/reward_neg_acc": 0.9761163592338562, "report/reward_neg_loss": 0.006659488193690777, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6980745196342468, "report/reward_pred": 0.5522105693817139, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.00676884176209569, "eval/cont_loss_std": 0.19349056482315063, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.0882911682128906, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0007384655182249844, "eval/cont_pred": 0.9984263181686401, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 18.4139404296875, "eval/dyn_loss_std": 11.960782051086426, "eval/image_loss_mean": 5.318943500518799, "eval/image_loss_std": 2.933931589126587, "eval/model_loss_mean": 16.768720626831055, "eval/model_loss_std": 9.64602279663086, "eval/post_ent_mag": 64.95475769042969, "eval/post_ent_max": 64.95475769042969, "eval/post_ent_mean": 44.38463592529297, "eval/post_ent_min": 29.37584686279297, "eval/post_ent_std": 4.810336112976074, "eval/prior_ent_mag": 82.21832275390625, "eval/prior_ent_max": 82.21832275390625, "eval/prior_ent_mean": 49.573402404785156, "eval/prior_ent_min": 31.236129760742188, "eval/prior_ent_std": 6.23137092590332, "eval/rep_loss_mean": 18.4139404296875, "eval/rep_loss_std": 11.960782051086426, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.3946448564529419, "eval/reward_loss_std": 2.603553295135498, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.96725845336914, "eval/reward_neg_acc": 0.9609609246253967, "eval/reward_neg_loss": 0.033947255462408066, "eval/reward_pos_acc": 0.07999999821186066, "eval/reward_pos_loss": 14.808119773864746, "eval/reward_pred": 0.08785823732614517, "eval/reward_rate": 0.0244140625, "replay/size": 96981.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.888658991771767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.365371837788466e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.115964889526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10726165771484, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 394.9802520275116, "timer/replay._sample_frac": 1.3161302723757595, "timer/replay._sample_avg": 0.015947200098009998, "timer/replay._sample_min": 0.0005495548248291016, "timer/replay._sample_max": 0.03863954544067383, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.731302738189697, "timer/env.step_frac": 0.02242965632023605, "timer/env.step_avg": 0.0043483867817762905, "timer/env.step_min": 0.0026831626892089844, "timer/env.step_max": 0.030269622802734375, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.34477043151855, "timer/agent.policy_frac": 0.37101658192633813, "timer/agent.policy_avg": 0.0719281462735908, "timer/agent.policy_min": 0.0030930042266845703, "timer/agent.policy_max": 0.08910894393920898, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15751290321350098, "timer/dataset_train_frac": 0.0005248553545270464, "timer/dataset_train_avg": 0.00010175252145574998, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.00023102760314941406, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69413328170776, "timer/agent.train_frac": 0.6020985039935393, "timer/agent.train_avg": 0.11672747628017298, "timer/agent.train_min": 0.10306835174560547, "timer/agent.train_max": 0.20293879508972168, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2023448944091797, "timer/agent.report_frac": 0.000674241913679392, "timer/agent.report_avg": 0.10117244720458984, "timer/agent.report_min": 0.09644746780395508, "timer/agent.report_max": 0.10589742660522461, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.8650970458984375e-05, "timer/dataset_eval_frac": 1.9543335984278286e-07, "timer/dataset_eval_avg": 5.8650970458984375e-05, "timer/dataset_eval_min": 5.8650970458984375e-05, "timer/dataset_eval_max": 5.8650970458984375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.631131404383204}
+{"step": 262320, "episode/length": 520.0, "episode/score": 500.0, "episode/reward_rate": 0.09404990403071017}
+{"step": 263872, "episode/length": 387.0, "episode/score": 980.0, "episode/reward_rate": 0.12371134020618557}
+{"step": 266616, "episode/length": 685.0, "episode/score": 1210.0, "episode/reward_rate": 0.10349854227405247}
+{"step": 268380, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.16191358690138, "train/action_min": 0.0, "train/action_std": 4.2131671951962755, "train/actor_opt_grad_norm": 0.0063408406514843755, "train/actor_opt_grad_steps": 65225.0, "train/actor_opt_loss": 0.00014460875168973775, "train/adv_mag": 0.5254328462791134, "train/adv_max": 0.49683471333670925, "train/adv_mean": 0.0013662658607038545, "train/adv_min": -0.3123017471138533, "train/adv_std": 0.0250765886883457, "train/cont_avg": 0.9982941862824676, "train/cont_loss_mean": 0.0008073847778481658, "train/cont_loss_std": 0.019676715572985188, "train/cont_neg_acc": 0.8697815983367145, "train/cont_neg_loss": 0.31066069966897675, "train/cont_pos_acc": 0.9999300996204475, "train/cont_pos_loss": 0.0002703910571228206, "train/cont_pred": 0.9983523429988267, "train/cont_rate": 0.9982941862824676, "train/dyn_loss_mean": 2.889244784008373, "train/dyn_loss_std": 5.890063775050176, "train/extr_critic_critic_opt_grad_norm": 1.4133424979525726, "train/extr_critic_critic_opt_grad_steps": 65225.0, "train/extr_critic_critic_opt_loss": 1.5016955323033518, "train/extr_critic_mag": 318.3660480449726, "train/extr_critic_max": 318.3660480449726, "train/extr_critic_mean": 118.09961056399655, "train/extr_critic_min": 0.1087878586409928, "train/extr_critic_std": 81.39346878249924, "train/extr_return_normed_mag": 1.2981701357798143, "train/extr_return_normed_max": 1.2981701357798143, "train/extr_return_normed_mean": 0.43306630849838257, "train/extr_return_normed_min": -0.02133039233891608, "train/extr_return_normed_std": 0.3131092821622824, "train/extr_return_rate": 0.9560560069300912, "train/extr_return_raw_mag": 343.80941504936715, "train/extr_return_raw_max": 343.80941504936715, "train/extr_return_raw_mean": 118.4554203578404, "train/extr_return_raw_min": 0.03931616057997854, "train/extr_return_raw_std": 81.60747223395806, "train/extr_reward_mag": 51.16269559984083, "train/extr_reward_max": 51.16269559984083, "train/extr_reward_mean": 0.7992540977217935, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.0274389099765133, "train/image_loss_mean": 1.202294705750106, "train/image_loss_std": 0.9274396718322456, "train/model_loss_mean": 2.997060822202014, "train/model_loss_std": 4.1446784750207675, "train/model_opt_grad_norm": 10.870523740718891, "train/model_opt_grad_steps": 65225.0, "train/model_opt_loss": 2.997060822202014, "train/policy_entropy_mag": 2.643183359852085, "train/policy_entropy_max": 2.643183359852085, "train/policy_entropy_mean": 0.9231623144118817, "train/policy_entropy_min": 0.08019338074055585, "train/policy_entropy_std": 0.7331732449593482, "train/policy_logprob_mag": 7.495524421914832, "train/policy_logprob_max": -0.009489760939757546, "train/policy_logprob_mean": -0.9227218500205449, "train/policy_logprob_min": -7.495524421914832, "train/policy_logprob_std": 1.2868484870179908, "train/policy_randomness_mag": 0.9144787018175249, "train/policy_randomness_max": 0.9144787018175249, "train/policy_randomness_mean": 0.31939224608532796, "train/policy_randomness_min": 0.027745006194749434, "train/policy_randomness_std": 0.253660539140949, "train/post_ent_mag": 61.75788426089596, "train/post_ent_max": 61.75788426089596, "train/post_ent_mean": 42.78495865363579, "train/post_ent_min": 14.765012976411102, "train/post_ent_std": 4.800988838270113, "train/prior_ent_mag": 82.53486459905452, "train/prior_ent_max": 82.53486459905452, "train/prior_ent_mean": 45.73431545108944, "train/prior_ent_min": 18.435090696656857, "train/prior_ent_std": 6.738868363491901, "train/rep_loss_mean": 2.889244784008373, "train/rep_loss_std": 5.890063775050176, "train/reward_avg": 0.8887352881493507, "train/reward_loss_mean": 0.06041186666962775, "train/reward_loss_std": 0.2326005730149034, "train/reward_max_data": 60.58441558441559, "train/reward_max_pred": 34.47318057270793, "train/reward_neg_acc": 0.9765887422995134, "train/reward_neg_loss": 0.007042864788105929, "train/reward_pos_acc": 0.9940917027461065, "train/reward_pos_loss": 0.651527498449598, "train/reward_pred": 0.8167923708240707, "train/reward_rate": 0.08319171063311688, "train_stats/mean_log_entropy": 0.8507786194483439, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0003064748889300972, "report/cont_loss_std": 0.00671753054484725, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.1341692954301834, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.451241693459451e-05, "report/cont_pred": 0.9982436895370483, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.802799940109253, "report/dyn_loss_std": 5.989333152770996, "report/image_loss_mean": 1.090498924255371, "report/image_loss_std": 0.8617073893547058, "report/model_loss_mean": 2.838186740875244, "report/model_loss_std": 4.042812347412109, "report/post_ent_mag": 61.56736373901367, "report/post_ent_max": 61.56736373901367, "report/post_ent_mean": 42.656009674072266, "report/post_ent_min": 12.863271713256836, "report/post_ent_std": 5.252129554748535, "report/prior_ent_mag": 82.64691925048828, "report/prior_ent_max": 82.64691925048828, "report/prior_ent_mean": 45.70793914794922, "report/prior_ent_min": 19.134605407714844, "report/prior_ent_std": 7.0212883949279785, "report/rep_loss_mean": 2.802799940109253, "report/rep_loss_std": 5.989333152770996, "report/reward_avg": 0.99609375, "report/reward_loss_mean": 0.0657014399766922, "report/reward_loss_std": 0.2112242728471756, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99614715576172, "report/reward_neg_acc": 0.9772727489471436, "report/reward_neg_loss": 0.00789346732199192, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5998470783233643, "report/reward_pred": 0.9550274610519409, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0001193533607874997, "eval/cont_loss_std": 0.0034333164803683758, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.10918790847063065, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.27369812616962e-05, "eval/cont_pred": 0.9991118907928467, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.9176025390625, "eval/dyn_loss_std": 12.654695510864258, "eval/image_loss_mean": 3.970487594604492, "eval/image_loss_std": 2.731673002243042, "eval/model_loss_mean": 13.53608512878418, "eval/model_loss_std": 9.921053886413574, "eval/post_ent_mag": 62.72114181518555, "eval/post_ent_max": 62.72114181518555, "eval/post_ent_mean": 43.51100158691406, "eval/post_ent_min": 27.91266632080078, "eval/post_ent_std": 4.576788902282715, "eval/prior_ent_mag": 82.64691925048828, "eval/prior_ent_max": 82.64691925048828, "eval/prior_ent_mean": 47.951927185058594, "eval/prior_ent_min": 30.24593734741211, "eval/prior_ent_std": 5.835611343383789, "eval/rep_loss_mean": 14.9176025390625, "eval/rep_loss_std": 12.654695510864258, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.6149162650108337, "eval/reward_loss_std": 3.2311198711395264, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.986675262451172, "eval/reward_neg_acc": 0.9542683959007263, "eval/reward_neg_loss": 0.04581543430685997, "eval/reward_pos_acc": 0.07500000298023224, "eval/reward_pos_loss": 14.614798545837402, "eval/reward_pred": 0.12003545463085175, "eval/reward_rate": 0.0390625, "replay/size": 98526.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.02839443367276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3506431795632569e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.86102294921875e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.085396528244, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 392.13867139816284, "timer/replay._sample_frac": 1.3067569296437083, "timer/replay._sample_avg": 0.01586321486238523, "timer/replay._sample_min": 0.0005106925964355469, "timer/replay._sample_max": 0.051168203353881836, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.777995586395264, "timer/env.step_frac": 0.022586889148260566, "timer/env.step_avg": 0.004387052159479135, "timer/env.step_min": 0.002336740493774414, "timer/env.step_max": 0.033463239669799805, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.33326148986816, "timer/agent.policy_frac": 0.3710052630947987, "timer/agent.policy_avg": 0.07206036342386289, "timer/agent.policy_min": 0.002808809280395508, "timer/agent.policy_max": 0.19489240646362305, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15685224533081055, "timer/dataset_train_frac": 0.0005226920308201256, "timer/dataset_train_avg": 0.00010152248888725602, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0013916492462158203, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.61249351501465, "timer/agent.train_frac": 0.6018703195975597, "timer/agent.train_avg": 0.11690129030098036, "timer/agent.train_min": 0.10250091552734375, "timer/agent.train_max": 0.3144218921661377, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26802754402160645, "timer/agent.report_frac": 0.0008931709010917487, "timer/agent.report_avg": 0.13401377201080322, "timer/agent.report_min": 0.1041727066040039, "timer/agent.report_max": 0.16385483741760254, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.939338684082031e-05, "timer/dataset_eval_frac": 2.645693118003755e-07, "timer/dataset_eval_avg": 7.939338684082031e-05, "timer/dataset_eval_min": 7.939338684082031e-05, "timer/dataset_eval_max": 7.939338684082031e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16739606857299805, "timer/agent.save_frac": 0.0005578281066311161, "timer/agent.save_avg": 0.16739606857299805, "timer/agent.save_min": 0.16739606857299805, "timer/agent.save_max": 0.16739606857299805, "fps": 20.592773772816784}
+{"step": 268948, "episode/length": 582.0, "episode/score": 440.0, "episode/reward_rate": 0.07547169811320754}
+{"step": 270636, "episode/length": 421.0, "episode/score": 1010.0, "episode/reward_rate": 0.12322274881516587}
+{"step": 273456, "episode/length": 704.0, "episode/score": 1100.0, "episode/reward_rate": 0.0851063829787234}
+{"step": 274576, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.218505465599799, "train/action_min": 0.0, "train/action_std": 4.224180058510073, "train/actor_opt_grad_norm": 0.006546951894978842, "train/actor_opt_grad_steps": 66770.0, "train/actor_opt_loss": 0.0003214781248501705, "train/adv_mag": 0.5941168102525896, "train/adv_max": 0.5634768807118938, "train/adv_mean": 0.0014953897034369983, "train/adv_min": -0.3446792353545466, "train/adv_std": 0.026259479082880482, "train/cont_avg": 0.9981413810483871, "train/cont_loss_mean": 0.000911112154626571, "train/cont_loss_std": 0.021200682800309227, "train/cont_neg_acc": 0.8997619056275913, "train/cont_neg_loss": 0.3171069964396468, "train/cont_pos_acc": 0.9998673700517223, "train/cont_pos_loss": 0.00038105191044759257, "train/cont_pred": 0.9981148596732847, "train/cont_rate": 0.9981413810483871, "train/dyn_loss_mean": 2.959820827361076, "train/dyn_loss_std": 5.9410499603517595, "train/extr_critic_critic_opt_grad_norm": 1.3900284640250666, "train/extr_critic_critic_opt_grad_steps": 66770.0, "train/extr_critic_critic_opt_loss": 1.4988516415319135, "train/extr_critic_mag": 320.5279769405242, "train/extr_critic_max": 320.5279769405242, "train/extr_critic_mean": 118.14337709488407, "train/extr_critic_min": 0.21543831979074785, "train/extr_critic_std": 82.77622739730343, "train/extr_return_normed_mag": 1.322142312603612, "train/extr_return_normed_max": 1.322142312603612, "train/extr_return_normed_mean": 0.4328001712599108, "train/extr_return_normed_min": -0.020564685365365397, "train/extr_return_normed_std": 0.3180355268139993, "train/extr_return_rate": 0.9496875489911726, "train/extr_return_raw_mag": 350.7011394869897, "train/extr_return_raw_max": 350.7011394869897, "train/extr_return_raw_mean": 118.53403778076172, "train/extr_return_raw_min": 0.2032827534752282, "train/extr_return_raw_std": 83.01467789680727, "train/extr_reward_mag": 68.8740167310161, "train/extr_reward_max": 68.8740167310161, "train/extr_reward_mean": 0.7866156030085779, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.0381786538708595, "train/image_loss_mean": 1.215756224047753, "train/image_loss_std": 0.9391158819198608, "train/model_loss_mean": 3.055016416118991, "train/model_loss_std": 4.193043884154289, "train/model_opt_grad_norm": 10.85364416183964, "train/model_opt_grad_steps": 66770.0, "train/model_opt_loss": 3.055016416118991, "train/policy_entropy_mag": 2.647764044423257, "train/policy_entropy_max": 2.647764044423257, "train/policy_entropy_mean": 0.9261750102043151, "train/policy_entropy_min": 0.08019332438707352, "train/policy_entropy_std": 0.7320829414552258, "train/policy_logprob_mag": 7.495530491490518, "train/policy_logprob_max": -0.009489750435515757, "train/policy_logprob_mean": -0.9266805675721937, "train/policy_logprob_min": -7.495530491490518, "train/policy_logprob_std": 1.288647064855022, "train/policy_randomness_mag": 0.916063509448882, "train/policy_randomness_max": 0.916063509448882, "train/policy_randomness_mean": 0.32043456771681383, "train/policy_randomness_min": 0.027744986765807673, "train/policy_randomness_std": 0.2532833169544897, "train/post_ent_mag": 61.96009004654423, "train/post_ent_max": 61.96009004654423, "train/post_ent_mean": 42.85695675265404, "train/post_ent_min": 14.606506015408424, "train/post_ent_std": 4.846084665483044, "train/prior_ent_mag": 82.68275687925278, "train/prior_ent_max": 82.68275687925278, "train/prior_ent_mean": 45.8250855230516, "train/prior_ent_min": 18.12104655850318, "train/prior_ent_std": 6.8031734312734296, "train/rep_loss_mean": 2.959820827361076, "train/rep_loss_std": 5.9410499603517595, "train/reward_avg": 0.8926411290322581, "train/reward_loss_mean": 0.06245657131075859, "train/reward_loss_std": 0.24491750626794753, "train/reward_max_data": 66.45161290322581, "train/reward_max_pred": 32.99551032896965, "train/reward_neg_acc": 0.9756182928239145, "train/reward_neg_loss": 0.007806094449704453, "train/reward_pos_acc": 0.993766434731022, "train/reward_pos_loss": 0.6661527568294155, "train/reward_pred": 0.8070821827457797, "train/reward_rate": 0.08302041330645162, "train_stats/mean_log_entropy": 0.9329403837521871, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4341944734042045e-05, "report/cont_loss_std": 0.0002856880018953234, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0004744180478155613, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3892213246435858e-05, "report/cont_pred": 0.9990100860595703, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6748340129852295, "report/dyn_loss_std": 5.277493953704834, "report/image_loss_mean": 0.9945878982543945, "report/image_loss_std": 0.6509120464324951, "report/model_loss_mean": 2.65966534614563, "report/model_loss_std": 3.5540263652801514, "report/post_ent_mag": 64.85884094238281, "report/post_ent_max": 64.85884094238281, "report/post_ent_mean": 43.44256591796875, "report/post_ent_min": 14.58001708984375, "report/post_ent_std": 4.372008800506592, "report/prior_ent_mag": 82.61479187011719, "report/prior_ent_max": 82.61479187011719, "report/prior_ent_mean": 46.36546325683594, "report/prior_ent_min": 18.459949493408203, "report/prior_ent_std": 6.442442417144775, "report/rep_loss_mean": 2.6748340129852295, "report/rep_loss_std": 5.277493953704834, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.06016252562403679, "report/reward_loss_std": 0.2493036687374115, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.010973930358887, "report/reward_neg_acc": 0.9808713793754578, "report/reward_neg_loss": 0.005459949374198914, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.6803447604179382, "report/reward_pred": 0.7562916278839111, "report/reward_rate": 0.0810546875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.137421107472619e-07, "eval/cont_loss_std": 1.2227729712321889e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.137421107472619e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.623409271240234, "eval/dyn_loss_std": 9.581287384033203, "eval/image_loss_mean": 4.124380111694336, "eval/image_loss_std": 2.4963386058807373, "eval/model_loss_mean": 13.3807373046875, "eval/model_loss_std": 8.131664276123047, "eval/post_ent_mag": 55.06708526611328, "eval/post_ent_max": 55.06708526611328, "eval/post_ent_mean": 43.919700622558594, "eval/post_ent_min": 30.267372131347656, "eval/post_ent_std": 4.192848205566406, "eval/prior_ent_mag": 82.61479187011719, "eval/prior_ent_max": 82.61479187011719, "eval/prior_ent_mean": 49.09513473510742, "eval/prior_ent_min": 32.098636627197266, "eval/prior_ent_std": 5.453046798706055, "eval/rep_loss_mean": 14.623409271240234, "eval/rep_loss_std": 9.581287384033203, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.48231080174446106, "eval/reward_loss_std": 2.771334171295166, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.414057731628418, "eval/reward_neg_acc": 0.9666328430175781, "eval/reward_neg_loss": 0.01812116429209709, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 13.598983764648438, "eval/reward_pred": 0.07468323409557343, "eval/reward_rate": 0.0341796875, "replay/size": 100075.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.966309795539713e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3461453134279393e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1477825641632, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 393.22769117355347, "timer/replay._sample_frac": 1.3101135974226041, "timer/replay._sample_avg": 0.015866191541863844, "timer/replay._sample_min": 0.0006031990051269531, "timer/replay._sample_max": 0.05278182029724121, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.7742509841918945, "timer/env.step_frac": 0.02256971857769347, "timer/env.step_avg": 0.004373305993668105, "timer/env.step_min": 0.002413034439086914, "timer/env.step_max": 0.029219865798950195, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.36156344413757, "timer/agent.policy_frac": 0.37102244265400025, "timer/agent.policy_avg": 0.07189255225573762, "timer/agent.policy_min": 0.002992868423461914, "timer/agent.policy_max": 0.08859801292419434, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15255975723266602, "timer/dataset_train_frac": 0.0005082821399823369, "timer/dataset_train_avg": 9.848919124123048e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00022792816162109375, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65560936927795, "timer/agent.train_frac": 0.6018888689629377, "timer/agent.train_avg": 0.11662724943142541, "timer/agent.train_min": 0.10238838195800781, "timer/agent.train_max": 0.20350146293640137, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2606489658355713, "timer/agent.report_frac": 0.0008684021038198135, "timer/agent.report_avg": 0.13032448291778564, "timer/agent.report_min": 0.0957038402557373, "timer/agent.report_max": 0.16494512557983398, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.220008850097656e-05, "timer/dataset_eval_frac": 1.405977020401787e-07, "timer/dataset_eval_avg": 4.220008850097656e-05, "timer/dataset_eval_min": 4.220008850097656e-05, "timer/dataset_eval_max": 4.220008850097656e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.641985280320153}
+{"step": 275336, "episode/length": 469.0, "episode/score": 540.0, "episode/reward_rate": 0.1148936170212766}
+{"step": 277300, "episode/length": 490.0, "episode/score": 530.0, "episode/reward_rate": 0.10590631364562118}
+{"step": 279092, "episode/length": 447.0, "episode/score": 530.0, "episode/reward_rate": 0.11607142857142858}
+{"step": 280760, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.314018790952622, "train/action_min": 0.0, "train/action_std": 4.071223931158743, "train/actor_opt_grad_norm": 0.0068292177462529755, "train/actor_opt_grad_steps": 68320.0, "train/actor_opt_loss": 0.00029521293531175734, "train/adv_mag": 0.5614656917510494, "train/adv_max": 0.5340727122560625, "train/adv_mean": 0.001454088118208024, "train/adv_min": -0.33152580900538353, "train/adv_std": 0.02618984235751052, "train/cont_avg": 0.9980594758064516, "train/cont_loss_mean": 0.0009127312954492041, "train/cont_loss_std": 0.020681667972986553, "train/cont_neg_acc": 0.8906862757661763, "train/cont_neg_loss": 0.26734065192895556, "train/cont_pos_acc": 0.999867296218872, "train/cont_pos_loss": 0.00039546990153520447, "train/cont_pred": 0.9980229923802038, "train/cont_rate": 0.9980594758064516, "train/dyn_loss_mean": 2.949815527085335, "train/dyn_loss_std": 5.903953413809499, "train/extr_critic_critic_opt_grad_norm": 1.473487348710337, "train/extr_critic_critic_opt_grad_steps": 68320.0, "train/extr_critic_critic_opt_loss": 1.5253689596729894, "train/extr_critic_mag": 321.75499277422506, "train/extr_critic_max": 321.75499277422506, "train/extr_critic_mean": 115.11066490911668, "train/extr_critic_min": 0.1064781581201861, "train/extr_critic_std": 83.99011043425529, "train/extr_return_normed_mag": 1.2989589564261899, "train/extr_return_normed_max": 1.2989589564261899, "train/extr_return_normed_mean": 0.41801029405286233, "train/extr_return_normed_min": -0.018808051798072073, "train/extr_return_normed_std": 0.31886812919570556, "train/extr_return_rate": 0.9490797692729581, "train/extr_return_raw_mag": 348.19414869739165, "train/extr_return_raw_max": 348.19414869739165, "train/extr_return_raw_mean": 115.49453691051852, "train/extr_return_raw_min": 0.08652943558521539, "train/extr_return_raw_std": 84.25205818914598, "train/extr_reward_mag": 67.74297917273736, "train/extr_reward_max": 67.74297917273736, "train/extr_reward_mean": 0.7787892779996318, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.073188059560714, "train/image_loss_mean": 1.2055390134934456, "train/image_loss_std": 0.9126457998829504, "train/model_loss_mean": 3.038326135758431, "train/model_loss_std": 4.149667827544674, "train/model_opt_grad_norm": 10.970456311010546, "train/model_opt_grad_steps": 68320.0, "train/model_opt_loss": 3.038326135758431, "train/policy_entropy_mag": 2.6552735728602257, "train/policy_entropy_max": 2.6552735728602257, "train/policy_entropy_mean": 0.9111427368656282, "train/policy_entropy_min": 0.0801929906971993, "train/policy_entropy_std": 0.7214846034203807, "train/policy_logprob_mag": 7.495531838940036, "train/policy_logprob_max": -0.00948969709777063, "train/policy_logprob_mean": -0.9124452852433728, "train/policy_logprob_min": -7.495531838940036, "train/policy_logprob_std": 1.28458243877657, "train/policy_randomness_mag": 0.918661630153656, "train/policy_randomness_max": 0.918661630153656, "train/policy_randomness_mean": 0.3152337602069301, "train/policy_randomness_min": 0.027744871269791357, "train/policy_randomness_std": 0.24961654466967428, "train/post_ent_mag": 62.05218936551002, "train/post_ent_max": 62.05218936551002, "train/post_ent_mean": 42.80318116218813, "train/post_ent_min": 14.422838567918348, "train/post_ent_std": 4.8987392871610576, "train/prior_ent_mag": 82.77009907384073, "train/prior_ent_max": 82.77009907384073, "train/prior_ent_mean": 45.77968474357359, "train/prior_ent_min": 17.984278402020855, "train/prior_ent_std": 6.848261002571352, "train/rep_loss_mean": 2.949815527085335, "train/rep_loss_std": 5.903953413809499, "train/reward_avg": 0.9008316532258065, "train/reward_loss_mean": 0.061985079102939176, "train/reward_loss_std": 0.253093508270479, "train/reward_max_data": 91.03225806451613, "train/reward_max_pred": 47.39476067327684, "train/reward_neg_acc": 0.9757974763070384, "train/reward_neg_loss": 0.008133896293434044, "train/reward_pos_acc": 0.9925447183270608, "train/reward_pos_loss": 0.6749246178134796, "train/reward_pred": 0.8062619359262528, "train/reward_rate": 0.08120589717741936, "train_stats/mean_log_entropy": 0.7952828605969747, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002871573669835925, "report/cont_loss_std": 0.008444525301456451, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.110784705815604e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002874271885957569, "report/cont_pred": 0.9987690448760986, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4235334396362305, "report/dyn_loss_std": 5.702564239501953, "report/image_loss_mean": 0.9602981805801392, "report/image_loss_std": 0.6802765130996704, "report/model_loss_mean": 2.4609150886535645, "report/model_loss_std": 3.817410707473755, "report/post_ent_mag": 62.65925216674805, "report/post_ent_max": 62.65925216674805, "report/post_ent_mean": 42.82194137573242, "report/post_ent_min": 10.585400581359863, "report/post_ent_std": 4.970745086669922, "report/prior_ent_mag": 82.92109680175781, "report/prior_ent_max": 82.92109680175781, "report/prior_ent_mean": 45.38190460205078, "report/prior_ent_min": 13.891002655029297, "report/prior_ent_std": 6.881928443908691, "report/rep_loss_mean": 2.4235334396362305, "report/rep_loss_std": 5.702564239501953, "report/reward_avg": 0.791015625, "report/reward_loss_mean": 0.04620976746082306, "report/reward_loss_std": 0.15702708065509796, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.7345027923584, "report/reward_neg_acc": 0.9830508232116699, "report/reward_neg_loss": 0.0022964212112128735, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5643872618675232, "report/reward_pred": 0.7714569568634033, "report/reward_rate": 0.078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.1043583703649347e-07, "eval/cont_loss_std": 3.7806985346833244e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.1043583703649347e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.7767391204834, "eval/dyn_loss_std": 12.211495399475098, "eval/image_loss_mean": 5.554360389709473, "eval/image_loss_std": 3.5735933780670166, "eval/model_loss_mean": 16.70523452758789, "eval/model_loss_std": 10.367359161376953, "eval/post_ent_mag": 58.82870101928711, "eval/post_ent_max": 58.82870101928711, "eval/post_ent_mean": 43.5914306640625, "eval/post_ent_min": 28.07556915283203, "eval/post_ent_std": 4.353377819061279, "eval/prior_ent_mag": 82.92109680175781, "eval/prior_ent_max": 82.92109680175781, "eval/prior_ent_mean": 49.67808151245117, "eval/prior_ent_min": 28.7933349609375, "eval/prior_ent_std": 6.392844200134277, "eval/rep_loss_mean": 17.7767391204834, "eval/rep_loss_std": 12.211495399475098, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.4848291575908661, "eval/reward_loss_std": 2.715829372406006, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.588423728942871, "eval/reward_neg_acc": 0.944388210773468, "eval/reward_neg_loss": 0.04028526693582535, "eval/reward_pos_acc": 0.11428571492433548, "eval/reward_pos_loss": 13.046368598937988, "eval/reward_pred": 0.12855809926986694, "eval/reward_rate": 0.0341796875, "replay/size": 101621.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.7918124772598645e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3620779400192597e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8328428268432617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.93232464790344, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.7195236682892, "timer/replay._sample_frac": 1.302692279423242, "timer/replay._sample_avg": 0.015795582295774952, "timer/replay._sample_min": 0.0004897117614746094, "timer/replay._sample_max": 0.049451589584350586, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.766551494598389, "timer/env.step_frac": 0.0225602608939926, "timer/env.step_avg": 0.004376812092236991, "timer/env.step_min": 0.002418994903564453, "timer/env.step_max": 0.035744428634643555, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.97632431983948, "timer/agent.policy_frac": 0.3700045483597568, "timer/agent.policy_avg": 0.07178287472175904, "timer/agent.policy_min": 0.0030813217163085938, "timer/agent.policy_max": 0.08778023719787598, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15369653701782227, "timer/dataset_train_frac": 0.0005124373879949409, "timer/dataset_train_avg": 9.941561256004027e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.000232696533203125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.89064598083496, "timer/agent.train_frac": 0.603104871051115, "timer/agent.train_avg": 0.11700559248436931, "timer/agent.train_min": 0.10169768333435059, "timer/agent.train_max": 0.204179048538208, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19874048233032227, "timer/agent.report_frac": 0.0006626177507330285, "timer/agent.report_avg": 0.09937024116516113, "timer/agent.report_min": 0.09700727462768555, "timer/agent.report_max": 0.10173320770263672, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.9475243939930274e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61678022487121}
+{"step": 281652, "episode/length": 639.0, "episode/score": 700.0, "episode/reward_rate": 0.1078125}
+{"step": 284292, "episode/length": 659.0, "episode/score": 640.0, "episode/reward_rate": 0.09545454545454546}
+{"step": 286880, "episode/length": 646.0, "episode/score": 660.0, "episode/reward_rate": 0.10046367851622875}
+{"step": 286944, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.200689538732751, "train/action_min": 0.0, "train/action_std": 4.153558833258493, "train/actor_opt_grad_norm": 0.00702487130486104, "train/actor_opt_grad_steps": 69865.0, "train/actor_opt_loss": 0.0004894637215518553, "train/adv_mag": 0.6398322784474918, "train/adv_max": 0.6236465693294228, "train/adv_mean": 0.0017810293334859326, "train/adv_min": -0.31023105790282224, "train/adv_std": 0.029331344179809093, "train/cont_avg": 0.9981610186688312, "train/cont_loss_mean": 0.0007891735791519301, "train/cont_loss_std": 0.01864663765323076, "train/cont_neg_acc": 0.8888461553133451, "train/cont_neg_loss": 0.28224110667624003, "train/cont_pos_acc": 0.9998792003501545, "train/cont_pos_loss": 0.00033590076413378737, "train/cont_pred": 0.9981458009063423, "train/cont_rate": 0.9981610186688312, "train/dyn_loss_mean": 2.923788722459372, "train/dyn_loss_std": 5.90859689340963, "train/extr_critic_critic_opt_grad_norm": 1.4223473532633348, "train/extr_critic_critic_opt_grad_steps": 69865.0, "train/extr_critic_critic_opt_loss": 1.4959113675278504, "train/extr_critic_mag": 321.6367211279931, "train/extr_critic_max": 321.6367211279931, "train/extr_critic_mean": 116.20504651750836, "train/extr_critic_min": 0.13846803021121334, "train/extr_critic_std": 82.80140834659726, "train/extr_return_normed_mag": 1.377578498481156, "train/extr_return_normed_max": 1.377578498481156, "train/extr_return_normed_mean": 0.4208940543331109, "train/extr_return_normed_min": -0.020397276393827293, "train/extr_return_normed_std": 0.3157729778390426, "train/extr_return_rate": 0.9482993073277659, "train/extr_return_raw_mag": 369.00309575068485, "train/extr_return_raw_max": 369.00309575068485, "train/extr_return_raw_mean": 116.67464813628754, "train/extr_return_raw_min": 0.2716938088485115, "train/extr_return_raw_std": 83.32446871175395, "train/extr_reward_mag": 80.01879005308275, "train/extr_reward_max": 80.01879005308275, "train/extr_reward_mean": 0.8086110068993135, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.4097304212582578, "train/image_loss_mean": 1.1846621493240455, "train/image_loss_std": 0.8993211373106226, "train/model_loss_mean": 3.0000748882045993, "train/model_loss_std": 4.144405405242722, "train/model_opt_grad_norm": 10.83121413069886, "train/model_opt_grad_steps": 69865.0, "train/model_opt_loss": 3.0000748882045993, "train/policy_entropy_mag": 2.655952801952114, "train/policy_entropy_max": 2.655952801952114, "train/policy_entropy_mean": 0.9154978200986787, "train/policy_entropy_min": 0.08019329801008299, "train/policy_entropy_std": 0.725159371828104, "train/policy_logprob_mag": 7.495528896133621, "train/policy_logprob_max": -0.009489756404095656, "train/policy_logprob_mean": -0.916602901824109, "train/policy_logprob_min": -7.495528896133621, "train/policy_logprob_std": 1.2823090158499681, "train/policy_randomness_mag": 0.918896624794254, "train/policy_randomness_max": 0.918896624794254, "train/policy_randomness_mean": 0.3167405142025514, "train/policy_randomness_min": 0.027744977529366294, "train/policy_randomness_std": 0.250887929038568, "train/post_ent_mag": 61.80454506812158, "train/post_ent_max": 61.80454506812158, "train/post_ent_mean": 42.778015855070834, "train/post_ent_min": 14.334346535918, "train/post_ent_std": 4.881034042928126, "train/prior_ent_mag": 82.95313604775961, "train/prior_ent_max": 82.95313604775961, "train/prior_ent_mean": 45.725556237357004, "train/prior_ent_min": 18.34051143348991, "train/prior_ent_std": 6.814980147720932, "train/rep_loss_mean": 2.923788722459372, "train/rep_loss_std": 5.90859689340963, "train/reward_avg": 0.881252536525974, "train/reward_loss_mean": 0.060350351652444956, "train/reward_loss_std": 0.23818095284816507, "train/reward_max_data": 65.84415584415585, "train/reward_max_pred": 43.55947132234449, "train/reward_neg_acc": 0.9767046106326116, "train/reward_neg_loss": 0.0070873299990054945, "train/reward_pos_acc": 0.9936281477476095, "train/reward_pos_loss": 0.6581945957301499, "train/reward_pred": 0.8121231366674622, "train/reward_rate": 0.08234197443181818, "train_stats/mean_log_entropy": 0.9845247864723206, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.7313602913636714e-05, "report/cont_loss_std": 0.0005838657962158322, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0060163880698382854, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.715929081721697e-06, "report/cont_pred": 0.9970781207084656, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.894509792327881, "report/dyn_loss_std": 6.271770477294922, "report/image_loss_mean": 1.2004063129425049, "report/image_loss_std": 0.9845684766769409, "report/model_loss_mean": 2.9775009155273438, "report/model_loss_std": 4.437859058380127, "report/post_ent_mag": 63.03635025024414, "report/post_ent_max": 63.03635025024414, "report/post_ent_mean": 41.25841522216797, "report/post_ent_min": 10.796880722045898, "report/post_ent_std": 5.5844407081604, "report/prior_ent_mag": 83.24148559570312, "report/prior_ent_max": 83.24148559570312, "report/prior_ent_mean": 44.293853759765625, "report/prior_ent_min": 13.007469177246094, "report/prior_ent_std": 7.50648832321167, "report/rep_loss_mean": 2.894509792327881, "report/rep_loss_std": 6.271770477294922, "report/reward_avg": 1.123046875, "report/reward_loss_mean": 0.040361419320106506, "report/reward_loss_std": 0.16225576400756836, "report/reward_max_data": 500.0, "report/reward_max_pred": 86.8725357055664, "report/reward_neg_acc": 0.9864442348480225, "report/reward_neg_loss": 0.005758445709943771, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5508883595466614, "report/reward_pred": 0.7285928130149841, "report/reward_rate": 0.0634765625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.525634610923589e-07, "eval/cont_loss_std": 4.3569111767283175e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.525634610923589e-07, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.913198471069336, "eval/dyn_loss_std": 11.82658863067627, "eval/image_loss_mean": 4.845282077789307, "eval/image_loss_std": 2.880607843399048, "eval/model_loss_mean": 15.427663803100586, "eval/model_loss_std": 9.4639892578125, "eval/post_ent_mag": 61.449642181396484, "eval/post_ent_max": 61.449642181396484, "eval/post_ent_mean": 44.78279495239258, "eval/post_ent_min": 31.53133773803711, "eval/post_ent_std": 4.6052117347717285, "eval/prior_ent_mag": 83.24148559570312, "eval/prior_ent_max": 83.24148559570312, "eval/prior_ent_mean": 49.16012954711914, "eval/prior_ent_min": 32.49030303955078, "eval/prior_ent_std": 5.727134704589844, "eval/rep_loss_mean": 16.913198471069336, "eval/rep_loss_std": 11.82658863067627, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.4344618320465088, "eval/reward_loss_std": 2.667515277862549, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.988356590270996, "eval/reward_neg_acc": 0.9478958249092102, "eval/reward_neg_loss": 0.050869736820459366, "eval/reward_pos_acc": 0.07692307978868484, "eval/reward_pos_loss": 15.158496856689453, "eval/reward_pred": 0.12311968207359314, "eval/reward_rate": 0.025390625, "replay/size": 103167.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.848872551171622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3465213590575066e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2313930988312, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 393.8556578159332, "timer/replay._sample_frac": 1.3118403567020804, "timer/replay._sample_avg": 0.01592236650290804, "timer/replay._sample_min": 0.0004584789276123047, "timer/replay._sample_max": 0.23675107955932617, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.754755258560181, "timer/env.step_frac": 0.022498497538319145, "timer/env.step_avg": 0.004369181926623661, "timer/env.step_min": 0.0023567676544189453, "timer/env.step_max": 0.04963397979736328, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.1591100692749, "timer/agent.policy_frac": 0.370244793264118, "timer/agent.policy_avg": 0.0719011061250161, "timer/agent.policy_min": 0.0029947757720947266, "timer/agent.policy_max": 0.0919044017791748, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15983295440673828, "timer/dataset_train_frac": 0.0005323658953749848, "timer/dataset_train_avg": 0.00010338483467447496, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.00025177001953125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.91848587989807, "timer/agent.train_frac": 0.6025968304398558, "timer/agent.train_avg": 0.11702360018104661, "timer/agent.train_min": 0.10384964942932129, "timer/agent.train_max": 0.24364662170410156, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2636435031890869, "timer/agent.report_frac": 0.0008781343631919926, "timer/agent.report_avg": 0.13182175159454346, "timer/agent.report_min": 0.10107612609863281, "timer/agent.report_max": 0.1625673770904541, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.269050598144531e-05, "timer/dataset_eval_frac": 1.7549965524125078e-07, "timer/dataset_eval_avg": 5.269050598144531e-05, "timer/dataset_eval_min": 5.269050598144531e-05, "timer/dataset_eval_max": 5.269050598144531e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09554290771484375, "timer/agent.save_frac": 0.00031823090426587276, "timer/agent.save_avg": 0.09554290771484375, "timer/agent.save_min": 0.09554290771484375, "timer/agent.save_max": 0.09554290771484375, "fps": 20.59604042788215}
+{"step": 288992, "episode/length": 527.0, "episode/score": 620.0, "episode/reward_rate": 0.11553030303030302}
+{"step": 290884, "episode/length": 472.0, "episode/score": 560.0, "episode/reward_rate": 0.11627906976744186}
+{"step": 292820, "episode/length": 483.0, "episode/score": 1030.0, "episode/reward_rate": 0.10950413223140495}
+{"step": 293132, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.19643318422379, "train/action_min": 0.0, "train/action_std": 4.111739164783109, "train/actor_opt_grad_norm": 0.007345517654152167, "train/actor_opt_grad_steps": 71410.0, "train/actor_opt_loss": 0.0006100510991546475, "train/adv_mag": 0.6772766563200181, "train/adv_max": 0.6529999012908628, "train/adv_mean": 0.0020413816388041126, "train/adv_min": -0.33138801715066357, "train/adv_std": 0.030597074654313827, "train/cont_avg": 0.9982610887096774, "train/cont_loss_mean": 0.0007838205202331998, "train/cont_loss_std": 0.019271334333565128, "train/cont_neg_acc": 0.9252487567823324, "train/cont_neg_loss": 0.2539396634670694, "train/cont_pos_acc": 0.9998672977570564, "train/cont_pos_loss": 0.0003475325444920112, "train/cont_pred": 0.9981969768001188, "train/cont_rate": 0.9982610887096774, "train/dyn_loss_mean": 2.9216229669509395, "train/dyn_loss_std": 5.934785919804727, "train/extr_critic_critic_opt_grad_norm": 1.423055842614943, "train/extr_critic_critic_opt_grad_steps": 71410.0, "train/extr_critic_critic_opt_loss": 1.4916200614744617, "train/extr_critic_mag": 320.3017407817225, "train/extr_critic_max": 320.3017407817225, "train/extr_critic_mean": 117.51922755087575, "train/extr_critic_min": 0.2303155383756084, "train/extr_critic_std": 82.73490509525422, "train/extr_return_normed_mag": 1.4345818673410724, "train/extr_return_normed_max": 1.4345818673410724, "train/extr_return_normed_mean": 0.42842228374173563, "train/extr_return_normed_min": -0.021714840227016998, "train/extr_return_normed_std": 0.31820628546899365, "train/extr_return_rate": 0.9538920183335581, "train/extr_return_raw_mag": 381.5113056798135, "train/extr_return_raw_max": 381.5113056798135, "train/extr_return_raw_mean": 118.05359772712954, "train/extr_return_raw_min": 0.18753437038263185, "train/extr_return_raw_std": 83.32445828837733, "train/extr_reward_mag": 81.02662879574683, "train/extr_reward_max": 81.02662879574683, "train/extr_reward_mean": 0.8276257107334752, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.561405531821712, "train/image_loss_mean": 1.176967239379883, "train/image_loss_std": 0.9081562134527391, "train/model_loss_mean": 2.993354059034778, "train/model_loss_std": 4.16800868895746, "train/model_opt_grad_norm": 10.699222195533014, "train/model_opt_grad_steps": 71410.0, "train/model_opt_loss": 2.993354059034778, "train/policy_entropy_mag": 2.6575594748220137, "train/policy_entropy_max": 2.6575594748220137, "train/policy_entropy_mean": 0.8966142785164618, "train/policy_entropy_min": 0.08019265460391198, "train/policy_entropy_std": 0.7232825386908747, "train/policy_logprob_mag": 7.495526064595868, "train/policy_logprob_max": -0.009489675136583466, "train/policy_logprob_mean": -0.8979068798403587, "train/policy_logprob_min": -7.495526064595868, "train/policy_logprob_std": 1.2800243270012641, "train/policy_randomness_mag": 0.9194524961133157, "train/policy_randomness_max": 0.9194524961133157, "train/policy_randomness_mean": 0.31020725907817964, "train/policy_randomness_min": 0.027744755016699915, "train/policy_randomness_std": 0.25023858931756787, "train/post_ent_mag": 62.55541406446888, "train/post_ent_max": 62.55541406446888, "train/post_ent_mean": 42.71714603054908, "train/post_ent_min": 13.52490743821667, "train/post_ent_std": 4.977707269114832, "train/prior_ent_mag": 83.11704879268524, "train/prior_ent_max": 83.11704879268524, "train/prior_ent_mean": 45.66119621030746, "train/prior_ent_min": 17.39877369788385, "train/prior_ent_std": 6.913881468003796, "train/rep_loss_mean": 2.9216229669509395, "train/rep_loss_std": 5.934785919804727, "train/reward_avg": 0.9218119959677419, "train/reward_loss_mean": 0.06262921731798879, "train/reward_loss_std": 0.24562521567267756, "train/reward_max_data": 82.38709677419355, "train/reward_max_pred": 46.39346802619196, "train/reward_neg_acc": 0.9747176908677624, "train/reward_neg_loss": 0.007966161739351529, "train/reward_pos_acc": 0.9931584869661639, "train/reward_pos_loss": 0.6685431315052894, "train/reward_pred": 0.8221996849583041, "train/reward_rate": 0.08342363911290322, "train_stats/mean_log_entropy": 0.8182403643925985, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.843319063889794e-05, "report/cont_loss_std": 0.0011233689729124308, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.03591960296034813, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.3587368761800462e-06, "report/cont_pred": 0.9990545511245728, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.1318588256835938, "report/dyn_loss_std": 5.712836742401123, "report/image_loss_mean": 1.2454864978790283, "report/image_loss_std": 1.0076608657836914, "report/model_loss_mean": 3.1870381832122803, "report/model_loss_std": 4.090170860290527, "report/post_ent_mag": 64.49871826171875, "report/post_ent_max": 64.49871826171875, "report/post_ent_mean": 42.050174713134766, "report/post_ent_min": 12.195119857788086, "report/post_ent_std": 4.419896125793457, "report/prior_ent_mag": 83.00481414794922, "report/prior_ent_max": 83.00481414794922, "report/prior_ent_mean": 45.30493927001953, "report/prior_ent_min": 17.166547775268555, "report/prior_ent_std": 6.762365341186523, "report/rep_loss_mean": 3.1318588256835938, "report/rep_loss_std": 5.712836742401123, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.06239800527691841, "report/reward_loss_std": 0.22585457563400269, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.001468658447266, "report/reward_neg_acc": 0.9721328616142273, "report/reward_neg_loss": 0.00616670586168766, "report/reward_pos_acc": 0.9890109896659851, "report/reward_pos_loss": 0.6389233469963074, "report/reward_pred": 0.8517013788223267, "report/reward_rate": 0.0888671875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.018284685909748077, "eval/cont_loss_std": 0.4150215983390808, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.240573883056641, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.759267888701288e-06, "eval/cont_pred": 0.9991413354873657, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 16.89258575439453, "eval/dyn_loss_std": 13.511330604553223, "eval/image_loss_mean": 4.959494590759277, "eval/image_loss_std": 3.7256557941436768, "eval/model_loss_mean": 15.580949783325195, "eval/model_loss_std": 11.537623405456543, "eval/post_ent_mag": 64.49871826171875, "eval/post_ent_max": 64.49871826171875, "eval/post_ent_mean": 43.97898864746094, "eval/post_ent_min": 28.668537139892578, "eval/post_ent_std": 4.619466304779053, "eval/prior_ent_mag": 83.00481414794922, "eval/prior_ent_max": 83.00481414794922, "eval/prior_ent_mean": 48.57511901855469, "eval/prior_ent_min": 30.998382568359375, "eval/prior_ent_std": 6.592249870300293, "eval/rep_loss_mean": 16.89258575439453, "eval/rep_loss_std": 13.511330604553223, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.46761825680732727, "eval/reward_loss_std": 2.584717273712158, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999898910522461, "eval/reward_neg_acc": 0.937688410282135, "eval/reward_neg_loss": 0.11620928347110748, "eval/reward_pos_acc": 0.20689654350280762, "eval/reward_pos_loss": 12.524582862854004, "eval/reward_pred": 0.2327926903963089, "eval/reward_rate": 0.0283203125, "replay/size": 104714.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.958705741818212e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3422892797971897e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0907735824585, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 395.04553174972534, "timer/replay._sample_frac": 1.3164201185984656, "timer/replay._sample_avg": 0.01596014591749052, "timer/replay._sample_min": 0.0004782676696777344, "timer/replay._sample_max": 0.048715829849243164, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.6399102210998535, "timer/env.step_frac": 0.02212633911343945, "timer/env.step_avg": 0.004292120375630157, "timer/env.step_min": 0.0022382736206054688, "timer/env.step_max": 0.028732776641845703, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.06045627593994, "timer/agent.policy_frac": 0.3700895397419572, "timer/agent.policy_avg": 0.07179085732122814, "timer/agent.policy_min": 0.002841472625732422, "timer/agent.policy_max": 0.0891873836517334, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1639864444732666, "timer/dataset_train_frac": 0.0005464561356405936, "timer/dataset_train_avg": 0.00010600287296268042, "timer/dataset_train_min": 6.389617919921875e-05, "timer/dataset_train_max": 0.00030541419982910156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.0036063194275, "timer/agent.train_frac": 0.6031628502223564, "timer/agent.train_avg": 0.1170029775820475, "timer/agent.train_min": 0.10233378410339355, "timer/agent.train_max": 0.20676422119140625, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26103806495666504, "timer/agent.report_frac": 0.0008698636810469529, "timer/agent.report_avg": 0.13051903247833252, "timer/agent.report_min": 0.0970604419708252, "timer/agent.report_max": 0.16397762298583984, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.9591064453125e-05, "timer/dataset_eval_frac": 1.6525354598913865e-07, "timer/dataset_eval_avg": 4.9591064453125e-05, "timer/dataset_eval_min": 4.9591064453125e-05, "timer/dataset_eval_max": 4.9591064453125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61911201895265}
+{"step": 296080, "episode/length": 814.0, "episode/score": 740.0, "episode/reward_rate": 0.09079754601226994}
+{"step": 297788, "episode/length": 426.0, "episode/score": 990.0, "episode/reward_rate": 0.117096018735363}
+{"step": 299308, "episode/length": 379.0, "episode/score": 980.0, "episode/reward_rate": 0.12631578947368421}
+{"step": 299320, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.017879363029234, "train/action_min": 0.0, "train/action_std": 4.191335613496842, "train/actor_opt_grad_norm": 0.008234808027684207, "train/actor_opt_grad_steps": 72960.0, "train/actor_opt_loss": 0.000489318562035952, "train/adv_mag": 0.8546199733211148, "train/adv_max": 0.8133936153304192, "train/adv_mean": 0.0021396845356526505, "train/adv_min": -0.36436678137510053, "train/adv_std": 0.03450211087061513, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0008465813136290711, "train/cont_loss_std": 0.020725668582362702, "train/cont_neg_acc": 0.8782716068956588, "train/cont_neg_loss": 0.3107394943915029, "train/cont_pos_acc": 0.99993051790422, "train/cont_pos_loss": 0.0002567312264671368, "train/cont_pred": 0.9983140530124788, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9170265643827378, "train/dyn_loss_std": 5.931807927162416, "train/extr_critic_critic_opt_grad_norm": 1.461367041064847, "train/extr_critic_critic_opt_grad_steps": 72960.0, "train/extr_critic_critic_opt_loss": 1.4874284951917587, "train/extr_critic_mag": 322.74703221474925, "train/extr_critic_max": 322.74703221474925, "train/extr_critic_mean": 119.00098158313382, "train/extr_critic_min": 0.15065393678603634, "train/extr_critic_std": 81.85552862844159, "train/extr_return_normed_mag": 1.5276869127827306, "train/extr_return_normed_max": 1.5276869127827306, "train/extr_return_normed_mean": 0.4306281751201999, "train/extr_return_normed_min": -0.021806114316437274, "train/extr_return_normed_std": 0.3127424450651292, "train/extr_return_rate": 0.9579318358052161, "train/extr_return_raw_mag": 409.030122523154, "train/extr_return_raw_max": 409.030122523154, "train/extr_return_raw_mean": 119.56571620818107, "train/extr_return_raw_min": 0.23165969251121785, "train/extr_return_raw_std": 82.52996333952873, "train/extr_reward_mag": 121.9066431660806, "train/extr_reward_max": 121.9066431660806, "train/extr_reward_mean": 0.822126954601657, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.847612047964527, "train/image_loss_mean": 1.1653106151088592, "train/image_loss_std": 0.8881922598808042, "train/model_loss_mean": 2.975273572244952, "train/model_loss_std": 4.143240174939556, "train/model_opt_grad_norm": 10.375437010488202, "train/model_opt_grad_steps": 72960.0, "train/model_opt_loss": 2.975273572244952, "train/policy_entropy_mag": 2.6608877366588963, "train/policy_entropy_max": 2.6608877366588963, "train/policy_entropy_mean": 0.9016386493559807, "train/policy_entropy_min": 0.08019249775717335, "train/policy_entropy_std": 0.7252161002928211, "train/policy_logprob_mag": 7.4955297039401145, "train/policy_logprob_max": -0.009489666700603501, "train/policy_logprob_mean": -0.9022207940778425, "train/policy_logprob_min": -7.4955297039401145, "train/policy_logprob_std": 1.2836075713557582, "train/policy_randomness_mag": 0.9206039959384549, "train/policy_randomness_max": 0.9206039959384549, "train/policy_randomness_mean": 0.3119455720147779, "train/policy_randomness_min": 0.02774470069956395, "train/policy_randomness_std": 0.2509075545495556, "train/post_ent_mag": 62.56265076668032, "train/post_ent_max": 62.56265076668032, "train/post_ent_mean": 42.647002410888675, "train/post_ent_min": 13.464933881452007, "train/post_ent_std": 4.987528361043623, "train/prior_ent_mag": 83.22760689027848, "train/prior_ent_max": 83.22760689027848, "train/prior_ent_mean": 45.58513757028887, "train/prior_ent_min": 17.06060100063201, "train/prior_ent_std": 6.927260331184633, "train/rep_loss_mean": 2.9170265643827378, "train/rep_loss_std": 5.931807927162416, "train/reward_avg": 0.9216859879032258, "train/reward_loss_mean": 0.05890045000180121, "train/reward_loss_std": 0.23061558911877295, "train/reward_max_data": 103.93548387096774, "train/reward_max_pred": 66.56947382650068, "train/reward_neg_acc": 0.9768879079049634, "train/reward_neg_loss": 0.007209650162352069, "train/reward_pos_acc": 0.9950816146789059, "train/reward_pos_loss": 0.6447401392844415, "train/reward_pred": 0.8331693257054975, "train/reward_rate": 0.08133190524193548, "train_stats/mean_log_entropy": 0.829317053159078, "report/cont_avg": 1.0, "report/cont_loss_mean": 6.32757576113363e-07, "report/cont_loss_std": 1.1501147128001321e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.32757576113363e-07, "report/cont_pred": 0.9999994039535522, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.5692529678344727, "report/dyn_loss_std": 5.668505668640137, "report/image_loss_mean": 1.1001691818237305, "report/image_loss_std": 0.8842169642448425, "report/model_loss_mean": 2.6944832801818848, "report/model_loss_std": 4.02091121673584, "report/post_ent_mag": 62.34385681152344, "report/post_ent_max": 62.34385681152344, "report/post_ent_mean": 43.291534423828125, "report/post_ent_min": 13.146318435668945, "report/post_ent_std": 4.565903663635254, "report/prior_ent_mag": 83.46818542480469, "report/prior_ent_max": 83.46818542480469, "report/prior_ent_mean": 45.74540710449219, "report/prior_ent_min": 17.497615814208984, "report/prior_ent_std": 6.305692672729492, "report/rep_loss_mean": 2.5692529678344727, "report/rep_loss_std": 5.668505668640137, "report/reward_avg": 0.732421875, "report/reward_loss_mean": 0.05276202782988548, "report/reward_loss_std": 0.2123986780643463, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99455451965332, "report/reward_neg_acc": 0.9768664836883545, "report/reward_neg_loss": 0.008294910192489624, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6320527791976929, "report/reward_pred": 0.7052417993545532, "report/reward_rate": 0.0712890625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00384716154076159, "eval/cont_loss_std": 0.12301256507635117, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.938326120376587, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1413495712986332e-06, "eval/cont_pred": 0.9999798536300659, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.612525939941406, "eval/dyn_loss_std": 12.5266695022583, "eval/image_loss_mean": 4.937771797180176, "eval/image_loss_std": 3.3399839401245117, "eval/model_loss_mean": 15.409151077270508, "eval/model_loss_std": 10.165397644042969, "eval/post_ent_mag": 63.6624755859375, "eval/post_ent_max": 63.6624755859375, "eval/post_ent_mean": 44.27608871459961, "eval/post_ent_min": 27.959686279296875, "eval/post_ent_std": 4.735470771789551, "eval/prior_ent_mag": 83.46818542480469, "eval/prior_ent_max": 83.46818542480469, "eval/prior_ent_mean": 49.56355667114258, "eval/prior_ent_min": 30.728931427001953, "eval/prior_ent_std": 6.738136291503906, "eval/rep_loss_mean": 16.612525939941406, "eval/rep_loss_std": 12.5266695022583, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.5000156164169312, "eval/reward_loss_std": 2.5442984104156494, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997787475585938, "eval/reward_neg_acc": 0.9339431524276733, "eval/reward_neg_loss": 0.07164077460765839, "eval/reward_pos_acc": 0.17499999701976776, "eval/reward_pos_loss": 11.03803825378418, "eval/reward_pred": 0.1814468652009964, "eval/reward_rate": 0.0390625, "replay/size": 106261.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.852056965646084e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266271672560156e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 8.001923561096191e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05573987960815, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 385.5248107910156, "timer/replay._sample_frac": 1.2848439791410102, "timer/replay._sample_avg": 0.015575501405584018, "timer/replay._sample_min": 0.0006430149078369141, "timer/replay._sample_max": 0.054168701171875, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.694981336593628, "timer/env.step_frac": 0.02231245880941943, "timer/env.step_avg": 0.004327719028179462, "timer/env.step_min": 0.0020422935485839844, "timer/env.step_max": 0.03324151039123535, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.23111534118652, "timer/agent.policy_frac": 0.3707015082791483, "timer/agent.policy_avg": 0.07190117345907339, "timer/agent.policy_min": 0.0028977394104003906, "timer/agent.policy_max": 0.08672690391540527, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.17122292518615723, "timer/dataset_train_frac": 0.0005706370598171436, "timer/dataset_train_avg": 0.00011068062390831107, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.010188102722167969, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.81319975852966, "timer/agent.train_frac": 0.6025987032645256, "timer/agent.train_avg": 0.1168798964179248, "timer/agent.train_min": 0.1033174991607666, "timer/agent.train_max": 0.2080979347229004, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.1930396556854248, "timer/agent.report_frac": 0.0006433459855254841, "timer/agent.report_avg": 0.0965198278427124, "timer/agent.report_min": 0.096343994140625, "timer/agent.report_max": 0.0966956615447998, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7242406922726261e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621425071169824}
+{"step": 301824, "episode/length": 628.0, "episode/score": 670.0, "episode/reward_rate": 0.10492845786963434}
+{"step": 304004, "episode/length": 544.0, "episode/score": 670.0, "episode/reward_rate": 0.12293577981651377}
+{"step": 305508, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.902214545708198, "train/action_min": 0.0, "train/action_std": 4.214772667203631, "train/actor_opt_grad_norm": 0.00906540537041358, "train/actor_opt_grad_steps": 74505.0, "train/actor_opt_loss": 0.0007453535224184835, "train/adv_mag": 0.822779514185794, "train/adv_max": 0.7991984406268442, "train/adv_mean": 0.002550598405537425, "train/adv_min": -0.3470420514221315, "train/adv_std": 0.035519819247064655, "train/cont_avg": 0.9981927252435064, "train/cont_loss_mean": 0.0007302281066823579, "train/cont_loss_std": 0.017463756346592016, "train/cont_neg_acc": 0.8846055994962008, "train/cont_neg_loss": 0.27001935011134864, "train/cont_pos_acc": 0.9999109816241574, "train/cont_pos_loss": 0.0002837206552779332, "train/cont_pred": 0.9981991865418174, "train/cont_rate": 0.9981927252435064, "train/dyn_loss_mean": 2.9048353572944543, "train/dyn_loss_std": 5.95145954714193, "train/extr_critic_critic_opt_grad_norm": 1.458955524416713, "train/extr_critic_critic_opt_grad_steps": 74505.0, "train/extr_critic_critic_opt_loss": 1.4846176133527385, "train/extr_critic_mag": 321.43612254749644, "train/extr_critic_max": 321.43612254749644, "train/extr_critic_mean": 122.3843257458179, "train/extr_critic_min": 0.03706397019423448, "train/extr_critic_std": 82.65181816398324, "train/extr_return_normed_mag": 1.5239859366571749, "train/extr_return_normed_max": 1.5239859366571749, "train/extr_return_normed_mean": 0.4413956074745624, "train/extr_return_normed_min": -0.02323031598435981, "train/extr_return_normed_std": 0.3154952912168069, "train/extr_return_rate": 0.9547310951468232, "train/extr_return_raw_mag": 409.6209330372996, "train/extr_return_raw_max": 409.6209330372996, "train/extr_return_raw_mean": 123.05916545917461, "train/extr_return_raw_min": 0.006350087873522773, "train/extr_return_raw_std": 83.56245625483525, "train/extr_reward_mag": 123.22695670189796, "train/extr_reward_max": 123.22695670189796, "train/extr_reward_mean": 0.8555883215619372, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.819475283870449, "train/image_loss_mean": 1.1470358832315966, "train/image_loss_std": 0.9004578607810008, "train/model_loss_mean": 2.952846850667681, "train/model_loss_std": 4.1635713840459845, "train/model_opt_grad_norm": 10.960843290601458, "train/model_opt_grad_steps": 74505.0, "train/model_opt_loss": 2.952846850667681, "train/policy_entropy_mag": 2.655902582329589, "train/policy_entropy_max": 2.655902582329589, "train/policy_entropy_mean": 0.895122625224002, "train/policy_entropy_min": 0.08019237486379487, "train/policy_entropy_std": 0.7266915831472966, "train/policy_logprob_mag": 7.495534478843986, "train/policy_logprob_max": -0.009489653045432521, "train/policy_logprob_mean": -0.8952710868476274, "train/policy_logprob_min": -7.495534478843986, "train/policy_logprob_std": 1.2803118902367432, "train/policy_randomness_mag": 0.9188792508143884, "train/policy_randomness_max": 0.9188792508143884, "train/policy_randomness_mean": 0.3096911817208513, "train/policy_randomness_min": 0.027744658267149676, "train/policy_randomness_std": 0.2514180373642352, "train/post_ent_mag": 62.400226444393006, "train/post_ent_max": 62.400226444393006, "train/post_ent_mean": 42.60302771531142, "train/post_ent_min": 13.510307151001768, "train/post_ent_std": 5.009362353907003, "train/prior_ent_mag": 83.29283662275834, "train/prior_ent_max": 83.29283662275834, "train/prior_ent_mean": 45.52055267234901, "train/prior_ent_min": 16.941466672079905, "train/prior_ent_std": 6.955524974055105, "train/rep_loss_mean": 2.9048353572944543, "train/rep_loss_std": 5.95145954714193, "train/reward_avg": 0.9184126420454546, "train/reward_loss_mean": 0.06217953896561226, "train/reward_loss_std": 0.23840821940790524, "train/reward_max_data": 63.701298701298704, "train/reward_max_pred": 42.34087176137156, "train/reward_neg_acc": 0.9761426096612756, "train/reward_neg_loss": 0.0073260379178062465, "train/reward_pos_acc": 0.9938248771351653, "train/reward_pos_loss": 0.6552633654761624, "train/reward_pred": 0.8372923265416901, "train/reward_rate": 0.08489752435064934, "train_stats/mean_log_entropy": 0.789997935295105, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 3.259630102547817e-05, "report/cont_loss_std": 0.0009285058476962149, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.010513406246900558, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8005813444688101e-06, "report/cont_pred": 0.9970989227294922, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.4303431510925293, "report/dyn_loss_std": 5.540643215179443, "report/image_loss_mean": 0.8578879833221436, "report/image_loss_std": 0.6895243525505066, "report/model_loss_mean": 2.3886189460754395, "report/model_loss_std": 3.7811975479125977, "report/post_ent_mag": 62.644508361816406, "report/post_ent_max": 62.644508361816406, "report/post_ent_mean": 42.265472412109375, "report/post_ent_min": 13.071413040161133, "report/post_ent_std": 4.84191370010376, "report/prior_ent_mag": 83.30451965332031, "report/prior_ent_max": 83.30451965332031, "report/prior_ent_mean": 45.165008544921875, "report/prior_ent_min": 15.938511848449707, "report/prior_ent_std": 7.060533046722412, "report/rep_loss_mean": 2.4303431510925293, "report/rep_loss_std": 5.540643215179443, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.07249249517917633, "report/reward_loss_std": 0.216944620013237, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998323440551758, "report/reward_neg_acc": 0.9867549538612366, "report/reward_neg_loss": 0.0054997908882796764, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5868602991104126, "report/reward_pred": 1.149418830871582, "report/reward_rate": 0.115234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.305159440169518e-07, "eval/cont_loss_std": 2.3480868549086154e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.305159440169518e-07, "eval/cont_pred": 0.9999992251396179, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 17.57724380493164, "eval/dyn_loss_std": 13.138669967651367, "eval/image_loss_mean": 4.677587032318115, "eval/image_loss_std": 3.00982666015625, "eval/model_loss_mean": 15.678855895996094, "eval/model_loss_std": 10.143139839172363, "eval/post_ent_mag": 61.742034912109375, "eval/post_ent_max": 61.742034912109375, "eval/post_ent_mean": 43.15085220336914, "eval/post_ent_min": 27.569435119628906, "eval/post_ent_std": 4.122041702270508, "eval/prior_ent_mag": 83.30451965332031, "eval/prior_ent_max": 83.30451965332031, "eval/prior_ent_mean": 48.3599853515625, "eval/prior_ent_min": 32.111202239990234, "eval/prior_ent_std": 6.1271209716796875, "eval/rep_loss_mean": 17.57724380493164, "eval/rep_loss_std": 13.138669967651367, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.4549217224121094, "eval/reward_loss_std": 2.6794323921203613, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.92269229888916, "eval/reward_neg_acc": 0.9465725421905518, "eval/reward_neg_loss": 0.0353582501411438, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 13.461390495300293, "eval/reward_pred": 0.10467830300331116, "eval/reward_rate": 0.03125, "replay/size": 107808.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.916631874917936e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3482131415516929e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0116567611694336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10191464424133, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.9812927246094, "timer/replay._sample_frac": 1.3028283847775575, "timer/replay._sample_avg": 0.015795947508266378, "timer/replay._sample_min": 0.0005958080291748047, "timer/replay._sample_max": 0.04322409629821777, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.727290153503418, "timer/env.step_frac": 0.022416685216681633, "timer/env.step_avg": 0.004348603848418499, "timer/env.step_min": 0.002519845962524414, "timer/env.step_max": 0.0313107967376709, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.55479598045349, "timer/agent.policy_frac": 0.3717230398636316, "timer/agent.policy_avg": 0.07211040464153426, "timer/agent.policy_min": 0.0027878284454345703, "timer/agent.policy_max": 0.29077720642089844, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15439558029174805, "timer/dataset_train_frac": 0.0005144771584505808, "timer/dataset_train_avg": 9.980321932239693e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.000293731689453125, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.48123288154602, "timer/agent.train_frac": 0.6013998047813164, "timer/agent.train_avg": 0.11666530890856239, "timer/agent.train_min": 0.10189270973205566, "timer/agent.train_max": 0.20664215087890625, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26162266731262207, "timer/agent.report_frac": 0.0008717794007504589, "timer/agent.report_avg": 0.13081133365631104, "timer/agent.report_min": 0.09851789474487305, "timer/agent.report_max": 0.16310477256774902, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.602836608886719e-05, "timer/dataset_eval_frac": 1.8669779616463475e-07, "timer/dataset_eval_avg": 5.602836608886719e-05, "timer/dataset_eval_min": 5.602836608886719e-05, "timer/dataset_eval_max": 5.602836608886719e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08901476860046387, "timer/agent.save_frac": 0.0002966151305831796, "timer/agent.save_avg": 0.08901476860046387, "timer/agent.save_min": 0.08901476860046387, "timer/agent.save_max": 0.08901476860046387, "fps": 20.618440944145714}
+{"step": 305884, "episode/length": 469.0, "episode/score": 540.0, "episode/reward_rate": 0.1148936170212766}
+{"step": 308036, "episode/length": 537.0, "episode/score": 500.0, "episode/reward_rate": 0.09293680297397769}
+{"step": 310148, "episode/length": 527.0, "episode/score": 520.0, "episode/reward_rate": 0.09848484848484848}
+{"step": 311700, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.004233083417338, "train/action_min": 0.0, "train/action_std": 4.194704904863912, "train/actor_opt_grad_norm": 0.007808050343526467, "train/actor_opt_grad_steps": 76050.0, "train/actor_opt_loss": 0.0004141744994652277, "train/adv_mag": 0.6816760931284197, "train/adv_max": 0.6539909776180021, "train/adv_mean": 0.002114687730218359, "train/adv_min": -0.3487218047341993, "train/adv_std": 0.030996386322282975, "train/cont_avg": 0.9982358870967742, "train/cont_loss_mean": 0.000844034571551058, "train/cont_loss_std": 0.01944554334307162, "train/cont_neg_acc": 0.9269230778400714, "train/cont_neg_loss": 0.24698263803622048, "train/cont_pos_acc": 0.9998799527845075, "train/cont_pos_loss": 0.0003642725016027087, "train/cont_pred": 0.9982203598945372, "train/cont_rate": 0.9982358870967742, "train/dyn_loss_mean": 2.9549111166308, "train/dyn_loss_std": 5.9611951520366055, "train/extr_critic_critic_opt_grad_norm": 1.4725973867600963, "train/extr_critic_critic_opt_grad_steps": 76050.0, "train/extr_critic_critic_opt_loss": 1.4814883870463218, "train/extr_critic_mag": 323.90371487525204, "train/extr_critic_max": 323.90371487525204, "train/extr_critic_mean": 123.93965168614541, "train/extr_critic_min": 0.20585252700313444, "train/extr_critic_std": 82.3999899833433, "train/extr_return_normed_mag": 1.3831023646939185, "train/extr_return_normed_max": 1.3831023646939185, "train/extr_return_normed_mean": 0.4429277725758091, "train/extr_return_normed_min": -0.025009244995852633, "train/extr_return_normed_std": 0.31189364752461834, "train/extr_return_rate": 0.9531657907270616, "train/extr_return_raw_mag": 374.1804967080393, "train/extr_return_raw_max": 374.1804967080393, "train/extr_return_raw_mean": 124.50119107154107, "train/extr_return_raw_min": 0.1991484540244264, "train/extr_return_raw_std": 82.86845137073148, "train/extr_reward_mag": 109.51721353223247, "train/extr_reward_max": 109.51721353223247, "train/extr_reward_mean": 0.8117788695519971, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.4734388259149367, "train/image_loss_mean": 1.1724492499905248, "train/image_loss_std": 0.9139597054450742, "train/model_loss_mean": 3.0069803407115323, "train/model_loss_std": 4.187112815918461, "train/model_opt_grad_norm": 10.941332721710205, "train/model_opt_grad_steps": 76050.0, "train/model_opt_loss": 3.0069803407115323, "train/policy_entropy_mag": 2.658245389692245, "train/policy_entropy_max": 2.658245389692245, "train/policy_entropy_mean": 0.8629072808450268, "train/policy_entropy_min": 0.08019271209355323, "train/policy_entropy_std": 0.7068150197305987, "train/policy_logprob_mag": 7.49553190354378, "train/policy_logprob_max": -0.009489689593113238, "train/policy_logprob_mean": -0.8637250788750187, "train/policy_logprob_min": -7.49553190354378, "train/policy_logprob_std": 1.2731633809305007, "train/policy_randomness_mag": 0.9196898075842088, "train/policy_randomness_max": 0.9196898075842088, "train/policy_randomness_mean": 0.2985454386280429, "train/policy_randomness_min": 0.027744774796789693, "train/policy_randomness_std": 0.2445412177232004, "train/post_ent_mag": 62.51230611493511, "train/post_ent_max": 62.51230611493511, "train/post_ent_mean": 42.56740213209583, "train/post_ent_min": 13.940264000431183, "train/post_ent_std": 4.996601193951022, "train/prior_ent_mag": 83.44110264931956, "train/prior_ent_max": 83.44110264931956, "train/prior_ent_mean": 45.531708600444176, "train/prior_ent_min": 17.393290212077478, "train/prior_ent_std": 6.9508638628067505, "train/rep_loss_mean": 2.9549111166308, "train/rep_loss_std": 5.9611951520366055, "train/reward_avg": 0.9133694556451613, "train/reward_loss_mean": 0.06074039154956418, "train/reward_loss_std": 0.23700523299555626, "train/reward_max_data": 85.54838709677419, "train/reward_max_pred": 44.91318198788551, "train/reward_neg_acc": 0.9761955161248485, "train/reward_neg_loss": 0.007256685401643476, "train/reward_pos_acc": 0.9936358021151634, "train/reward_pos_loss": 0.6554054456372415, "train/reward_pred": 0.8154415724738951, "train/reward_rate": 0.08269909274193549, "train_stats/mean_log_entropy": 0.791665236155192, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.573327719801455e-07, "report/cont_loss_std": 3.1612362363375723e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.573327719801455e-07, "report/cont_pred": 0.9999997615814209, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.8842263221740723, "report/dyn_loss_std": 6.220184803009033, "report/image_loss_mean": 1.2587697505950928, "report/image_loss_std": 1.0953186750411987, "report/model_loss_mean": 3.039911985397339, "report/model_loss_std": 4.548251152038574, "report/post_ent_mag": 57.6620979309082, "report/post_ent_max": 57.6620979309082, "report/post_ent_mean": 41.57344436645508, "report/post_ent_min": 11.265626907348633, "report/post_ent_std": 4.7772698402404785, "report/prior_ent_mag": 83.62151336669922, "report/prior_ent_max": 83.62151336669922, "report/prior_ent_mean": 44.56916809082031, "report/prior_ent_min": 12.493654251098633, "report/prior_ent_std": 6.5340471267700195, "report/rep_loss_mean": 2.8842263221740723, "report/rep_loss_std": 6.220184803009033, "report/reward_avg": 0.703125, "report/reward_loss_mean": 0.0506061427295208, "report/reward_loss_std": 0.20806929469108582, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.997522354125977, "report/reward_neg_acc": 0.9832108616828918, "report/reward_neg_loss": 0.005231122020632029, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6596539616584778, "report/reward_pred": 0.6522462368011475, "report/reward_rate": 0.0693359375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009049362502992153, "eval/cont_loss_std": 0.28679192066192627, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.624484062194824, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7201353330165148e-05, "eval/cont_pred": 0.9990698099136353, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 17.319202423095703, "eval/dyn_loss_std": 13.044118881225586, "eval/image_loss_mean": 4.349634170532227, "eval/image_loss_std": 2.5928409099578857, "eval/model_loss_mean": 15.326780319213867, "eval/model_loss_std": 10.150226593017578, "eval/post_ent_mag": 64.64833068847656, "eval/post_ent_max": 64.64833068847656, "eval/post_ent_mean": 43.07762145996094, "eval/post_ent_min": 27.197154998779297, "eval/post_ent_std": 4.4277801513671875, "eval/prior_ent_mag": 83.62151336669922, "eval/prior_ent_max": 83.62151336669922, "eval/prior_ent_mean": 48.485958099365234, "eval/prior_ent_min": 30.36188507080078, "eval/prior_ent_std": 6.210601806640625, "eval/rep_loss_mean": 17.319202423095703, "eval/rep_loss_std": 13.044118881225586, "eval/reward_avg": 0.37109375, "eval/reward_loss_mean": 0.5765763521194458, "eval/reward_loss_std": 3.1218459606170654, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999277114868164, "eval/reward_neg_acc": 0.9675456285476685, "eval/reward_neg_loss": 0.032577190548181534, "eval/reward_pos_acc": 0.05263157933950424, "eval/reward_pos_loss": 14.691923141479492, "eval/reward_pred": 0.07320301234722137, "eval/reward_rate": 0.037109375, "replay/size": 109356.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9906183582867766e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3607031923239853e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8924474716186523e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0292582511902, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.44835448265076, "timer/replay._sample_frac": 1.3113666206288732, "timer/replay._sample_avg": 0.01588535022943519, "timer/replay._sample_min": 0.00042700767517089844, "timer/replay._sample_max": 0.05095076560974121, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.8011345863342285, "timer/env.step_frac": 0.02266823784445779, "timer/env.step_avg": 0.004393497794789553, "timer/env.step_min": 0.0022928714752197266, "timer/env.step_max": 0.0346376895904541, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.17608332633972, "timer/agent.policy_frac": 0.3705508055259764, "timer/agent.policy_avg": 0.07181917527541326, "timer/agent.policy_min": 0.0029969215393066406, "timer/agent.policy_max": 0.08997750282287598, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15131211280822754, "timer/dataset_train_frac": 0.000504324523848758, "timer/dataset_train_avg": 9.77468428993718e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002605915069580078, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69631934165955, "timer/agent.train_frac": 0.6022623273306804, "timer/agent.train_avg": 0.11672888846360435, "timer/agent.train_min": 0.10245108604431152, "timer/agent.train_max": 0.20503950119018555, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2539360523223877, "timer/agent.report_frac": 0.0008463709632938118, "timer/agent.report_avg": 0.12696802616119385, "timer/agent.report_min": 0.09492659568786621, "timer/agent.report_max": 0.15900945663452148, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.175041198730469e-05, "timer/dataset_eval_frac": 2.058146340368114e-07, "timer/dataset_eval_avg": 6.175041198730469e-05, "timer/dataset_eval_min": 6.175041198730469e-05, "timer/dataset_eval_max": 6.175041198730469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.636781620310735}
+{"step": 312572, "episode/length": 605.0, "episode/score": 650.0, "episode/reward_rate": 0.10726072607260725}
+{"step": 314736, "episode/length": 540.0, "episode/score": 1130.0, "episode/reward_rate": 0.11829944547134935}
+{"step": 317288, "episode/length": 637.0, "episode/score": 710.0, "episode/reward_rate": 0.11128526645768025}
+{"step": 317896, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.047188445060485, "train/action_min": 0.0, "train/action_std": 4.211084956507529, "train/actor_opt_grad_norm": 0.008179438285409443, "train/actor_opt_grad_steps": 77600.0, "train/actor_opt_loss": 0.0004464744659579141, "train/adv_mag": 0.732478099773007, "train/adv_max": 0.6980339965512675, "train/adv_mean": 0.0022886058156619845, "train/adv_min": -0.3644520747084771, "train/adv_std": 0.03442963371353765, "train/cont_avg": 0.9983618951612904, "train/cont_loss_mean": 0.000732302383459312, "train/cont_loss_std": 0.017362143034934125, "train/cont_neg_acc": 0.9389322923962027, "train/cont_neg_loss": 0.18997987655593818, "train/cont_pos_acc": 0.999842151903337, "train/cont_pos_loss": 0.0004024337775217279, "train/cont_pred": 0.9982670280241197, "train/cont_rate": 0.9983618951612904, "train/dyn_loss_mean": 2.914559119747531, "train/dyn_loss_std": 5.954991312949888, "train/extr_critic_critic_opt_grad_norm": 1.4219423013348733, "train/extr_critic_critic_opt_grad_steps": 77600.0, "train/extr_critic_critic_opt_loss": 1.4807281286485734, "train/extr_critic_mag": 326.6546438893964, "train/extr_critic_max": 326.6546438893964, "train/extr_critic_mean": 124.51184938492314, "train/extr_critic_min": 0.2314334338711154, "train/extr_critic_std": 82.95541389219223, "train/extr_return_normed_mag": 1.4446306759311307, "train/extr_return_normed_max": 1.4446306759311307, "train/extr_return_normed_mean": 0.4367649793624878, "train/extr_return_normed_min": -0.024613736297432035, "train/extr_return_normed_std": 0.3098483479792072, "train/extr_return_rate": 0.9588516973680066, "train/extr_return_raw_mag": 398.2400390625, "train/extr_return_raw_max": 398.2400390625, "train/extr_return_raw_mean": 125.13281343521611, "train/extr_return_raw_min": 0.1762389501737949, "train/extr_return_raw_std": 83.91541034329322, "train/extr_reward_mag": 105.51992450221893, "train/extr_reward_max": 105.51992450221893, "train/extr_reward_mean": 0.8270772186017805, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7372104221774687, "train/image_loss_mean": 1.1429519307228826, "train/image_loss_std": 0.8916576416261734, "train/model_loss_mean": 2.952645875561622, "train/model_loss_std": 4.163309894069549, "train/model_opt_grad_norm": 10.424978653077156, "train/model_opt_grad_steps": 77600.0, "train/model_opt_loss": 2.952645875561622, "train/policy_entropy_mag": 2.650597744603311, "train/policy_entropy_max": 2.650597744603311, "train/policy_entropy_mean": 0.8390353479693012, "train/policy_entropy_min": 0.0801925782234438, "train/policy_entropy_std": 0.690728440976912, "train/policy_logprob_mag": 7.4955338416561, "train/policy_logprob_max": -0.00948967054005592, "train/policy_logprob_mean": -0.8383318151197126, "train/policy_logprob_min": -7.4955338416561, "train/policy_logprob_std": 1.2591493406603413, "train/policy_randomness_mag": 0.917043903950722, "train/policy_randomness_max": 0.917043903950722, "train/policy_randomness_mean": 0.2902863158333686, "train/policy_randomness_min": 0.027744728591172926, "train/policy_randomness_std": 0.23897564555368117, "train/post_ent_mag": 62.65776086622669, "train/post_ent_max": 62.65776086622669, "train/post_ent_mean": 42.5631102531187, "train/post_ent_min": 13.715332468094365, "train/post_ent_std": 5.042716795398343, "train/prior_ent_mag": 83.60005148610762, "train/prior_ent_max": 83.60005148610762, "train/prior_ent_mean": 45.523315675797, "train/prior_ent_min": 17.04942684173584, "train/prior_ent_std": 6.999184550008466, "train/rep_loss_mean": 2.914559119747531, "train/rep_loss_std": 5.954991312949888, "train/reward_avg": 0.9016507056451613, "train/reward_loss_mean": 0.06022615635827665, "train/reward_loss_std": 0.23126041283530574, "train/reward_max_data": 84.96774193548387, "train/reward_max_pred": 54.39619421189831, "train/reward_neg_acc": 0.9761783165316428, "train/reward_neg_loss": 0.007391469474250991, "train/reward_pos_acc": 0.9950147121183334, "train/reward_pos_loss": 0.6521304995782914, "train/reward_pred": 0.8213189803784894, "train/reward_rate": 0.08219506048387097, "train_stats/mean_log_entropy": 0.8431116541226705, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0002037054655374959, "report/cont_loss_std": 0.003863888094201684, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01303884107619524, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00017858779756352305, "report/cont_pred": 0.9979009032249451, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.829181432723999, "report/dyn_loss_std": 6.516332626342773, "report/image_loss_mean": 1.2524099349975586, "report/image_loss_std": 0.9118533730506897, "report/model_loss_mean": 2.994904041290283, "report/model_loss_std": 4.565075874328613, "report/post_ent_mag": 62.88920593261719, "report/post_ent_max": 62.88920593261719, "report/post_ent_mean": 42.178932189941406, "report/post_ent_min": 11.549173355102539, "report/post_ent_std": 5.184979438781738, "report/prior_ent_mag": 83.84208679199219, "report/prior_ent_max": 83.84208679199219, "report/prior_ent_mean": 44.973995208740234, "report/prior_ent_min": 13.061302185058594, "report/prior_ent_std": 7.244166851043701, "report/rep_loss_mean": 2.829181432723999, "report/rep_loss_std": 6.516332626342773, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.04478173330426216, "report/reward_loss_std": 0.20463664829730988, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99870491027832, "report/reward_neg_acc": 0.9864442348480225, "report/reward_neg_loss": 0.004456504713743925, "report/reward_pos_acc": 0.9846153855323792, "report/reward_pos_loss": 0.6397340297698975, "report/reward_pred": 0.618675708770752, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0016325911274179816, "eval/cont_loss_std": 0.03726953640580177, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 0.3722871243953705, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000543498492334038, "eval/cont_pred": 0.9973059296607971, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 15.869586944580078, "eval/dyn_loss_std": 12.070804595947266, "eval/image_loss_mean": 4.464488983154297, "eval/image_loss_std": 3.3030507564544678, "eval/model_loss_mean": 14.410703659057617, "eval/model_loss_std": 10.28525161743164, "eval/post_ent_mag": 65.18157958984375, "eval/post_ent_max": 65.18157958984375, "eval/post_ent_mean": 43.36949920654297, "eval/post_ent_min": 27.860076904296875, "eval/post_ent_std": 4.67922830581665, "eval/prior_ent_mag": 83.84208679199219, "eval/prior_ent_max": 83.84208679199219, "eval/prior_ent_mean": 48.69403839111328, "eval/prior_ent_min": 30.070451736450195, "eval/prior_ent_std": 6.620544910430908, "eval/rep_loss_mean": 15.869586944580078, "eval/rep_loss_std": 12.070804595947266, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.4228304624557495, "eval/reward_loss_std": 2.4426662921905518, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.971364974975586, "eval/reward_neg_acc": 0.9586276412010193, "eval/reward_neg_loss": 0.047122057527303696, "eval/reward_pos_acc": 0.1515151411294937, "eval/reward_pos_loss": 11.705467224121094, "eval/reward_pred": 0.12085850536823273, "eval/reward_rate": 0.0322265625, "replay/size": 110905.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.980316309870405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345048649531168e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.248453140258789e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1120982170105, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 391.9105484485626, "timer/replay._sample_frac": 1.3058805385618704, "timer/replay._sample_avg": 0.01581304666109436, "timer/replay._sample_min": 0.0004773139953613281, "timer/replay._sample_max": 0.036977291107177734, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.674391269683838, "timer/env.step_frac": 0.022239660811199945, "timer/env.step_avg": 0.0043088387796538655, "timer/env.step_min": 0.0025098323822021484, "timer/env.step_max": 0.0270388126373291, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.41185593605042, "timer/agent.policy_frac": 0.37123413750380935, "timer/agent.policy_avg": 0.07192501997162712, "timer/agent.policy_min": 0.0026750564575195312, "timer/agent.policy_max": 0.0914909839630127, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.1542649269104004, "timer/dataset_train_frac": 0.0005140243523233499, "timer/dataset_train_avg": 9.959001091697895e-05, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00018668174743652344, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65699887275696, "timer/agent.train_frac": 0.6019650655406908, "timer/agent.train_avg": 0.11662814646401352, "timer/agent.train_min": 0.1032252311706543, "timer/agent.train_max": 0.20650410652160645, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.265317440032959, "timer/agent.report_frac": 0.0008840611278559935, "timer/agent.report_avg": 0.1326587200164795, "timer/agent.report_min": 0.10062742233276367, "timer/agent.report_max": 0.1646900177001953, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.749961853027344e-05, "timer/dataset_eval_frac": 2.915564519061895e-07, "timer/dataset_eval_avg": 8.749961853027344e-05, "timer/dataset_eval_min": 8.749961853027344e-05, "timer/dataset_eval_max": 8.749961853027344e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.64446389575906}
+{"step": 319720, "episode/length": 607.0, "episode/score": 510.0, "episode/reward_rate": 0.08223684210526316}
+{"step": 322532, "episode/length": 702.0, "episode/score": 760.0, "episode/reward_rate": 0.10810810810810811}
+{"step": 324080, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.143682270665323, "train/action_min": 0.0, "train/action_std": 4.20076989973745, "train/actor_opt_grad_norm": 0.007798833984340872, "train/actor_opt_grad_steps": 79150.0, "train/actor_opt_loss": 0.0003990625949530025, "train/adv_mag": 0.7173588114880747, "train/adv_max": 0.6851425556886581, "train/adv_mean": 0.002280477188217065, "train/adv_min": -0.36523372362698275, "train/adv_std": 0.03253411256497906, "train/cont_avg": 0.9980279737903226, "train/cont_loss_mean": 0.0006972041994269911, "train/cont_loss_std": 0.016462243089938145, "train/cont_neg_acc": 0.9377697852018069, "train/cont_neg_loss": 0.19548597909374457, "train/cont_pos_acc": 0.9999115344016782, "train/cont_pos_loss": 0.0002707253195475067, "train/cont_pred": 0.9980426503765968, "train/cont_rate": 0.9980279737903226, "train/dyn_loss_mean": 2.9640330899146297, "train/dyn_loss_std": 5.982908270435948, "train/extr_critic_critic_opt_grad_norm": 1.4919786826256782, "train/extr_critic_critic_opt_grad_steps": 79150.0, "train/extr_critic_critic_opt_loss": 1.4964978141169394, "train/extr_critic_mag": 330.41832029281125, "train/extr_critic_max": 330.41832029281125, "train/extr_critic_mean": 130.0270515688004, "train/extr_critic_min": 0.20026461924276046, "train/extr_critic_std": 86.63958422753119, "train/extr_return_normed_mag": 1.3966741238870928, "train/extr_return_normed_max": 1.3966741238870928, "train/extr_return_normed_mean": 0.4499923621454546, "train/extr_return_normed_min": -0.024649235900611646, "train/extr_return_normed_std": 0.31790564185188663, "train/extr_return_rate": 0.9539932447095071, "train/extr_return_raw_mag": 390.7586906186996, "train/extr_return_raw_max": 390.7586906186996, "train/extr_return_raw_mean": 130.65242403091924, "train/extr_return_raw_min": 0.19458364155744354, "train/extr_return_raw_std": 87.39842763100901, "train/extr_reward_mag": 123.18130171991163, "train/extr_reward_max": 123.18130171991163, "train/extr_reward_mean": 0.8527485132217407, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7775697969621227, "train/image_loss_mean": 1.1361503428028477, "train/image_loss_std": 0.9054685773388031, "train/model_loss_mean": 2.9783339131262996, "train/model_loss_std": 4.193486861259706, "train/model_opt_grad_norm": 10.32823466331728, "train/model_opt_grad_steps": 79150.0, "train/model_opt_loss": 2.9783339131262996, "train/policy_entropy_mag": 2.655896614443871, "train/policy_entropy_max": 2.655896614443871, "train/policy_entropy_mean": 0.8210035808624759, "train/policy_entropy_min": 0.080192994494592, "train/policy_entropy_std": 0.6909704996693519, "train/policy_logprob_mag": 7.495529906980453, "train/policy_logprob_max": -0.009489731532671759, "train/policy_logprob_mean": -0.8198390122382871, "train/policy_logprob_min": -7.495529906980453, "train/policy_logprob_std": 1.2514073679524083, "train/policy_randomness_mag": 0.91887718554466, "train/policy_randomness_max": 0.91887718554466, "train/policy_randomness_mean": 0.2840477510806053, "train/policy_randomness_min": 0.027744872627719755, "train/policy_randomness_std": 0.23905939200232107, "train/post_ent_mag": 63.05997597479051, "train/post_ent_max": 63.05997597479051, "train/post_ent_mean": 42.47940924859816, "train/post_ent_min": 14.005488469523769, "train/post_ent_std": 5.102075259916244, "train/prior_ent_mag": 83.68804050568612, "train/prior_ent_max": 83.68804050568612, "train/prior_ent_mean": 45.45643775693832, "train/prior_ent_min": 17.323246285223192, "train/prior_ent_std": 7.092992582628804, "train/rep_loss_mean": 2.9640330899146297, "train/rep_loss_std": 5.982908270435948, "train/reward_avg": 0.9633946572580645, "train/reward_loss_mean": 0.06306650984671808, "train/reward_loss_std": 0.241447974212708, "train/reward_max_data": 98.0, "train/reward_max_pred": 49.16771789673836, "train/reward_neg_acc": 0.9754933753321248, "train/reward_neg_loss": 0.007371304448198287, "train/reward_pos_acc": 0.9934354605213288, "train/reward_pos_loss": 0.6584993581618032, "train/reward_pred": 0.8542847212283842, "train/reward_rate": 0.08610131048387097, "train_stats/mean_log_entropy": 0.8443504571914673, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.8388024614068854e-07, "report/cont_loss_std": 4.920113042317098e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8388024614068854e-07, "report/cont_pred": 0.9999998211860657, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.952719211578369, "report/dyn_loss_std": 5.625402450561523, "report/image_loss_mean": 1.2626487016677856, "report/image_loss_std": 0.8760634660720825, "report/model_loss_mean": 3.1063413619995117, "report/model_loss_std": 3.9298079013824463, "report/post_ent_mag": 60.118465423583984, "report/post_ent_max": 60.118465423583984, "report/post_ent_mean": 43.670719146728516, "report/post_ent_min": 10.23796272277832, "report/post_ent_std": 4.3275957107543945, "report/prior_ent_mag": 83.8404769897461, "report/prior_ent_max": 83.8404769897461, "report/prior_ent_mean": 46.43438720703125, "report/prior_ent_min": 12.001302719116211, "report/prior_ent_std": 6.341628074645996, "report/rep_loss_mean": 2.952719211578369, "report/rep_loss_std": 5.625402450561523, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.07206081598997116, "report/reward_loss_std": 0.3084838092327118, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.98967933654785, "report/reward_neg_acc": 0.9763185977935791, "report/reward_neg_loss": 0.011009903624653816, "report/reward_pos_acc": 0.9894737005233765, "report/reward_pos_loss": 0.6690744757652283, "report/reward_pred": 0.9201573729515076, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.1044652385171503e-06, "eval/cont_loss_std": 5.300841439748183e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1044652385171503e-06, "eval/cont_pred": 0.9999978542327881, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.64303207397461, "eval/dyn_loss_std": 14.689562797546387, "eval/image_loss_mean": 4.780601501464844, "eval/image_loss_std": 3.046835422515869, "eval/model_loss_mean": 16.38520050048828, "eval/model_loss_std": 11.35667610168457, "eval/post_ent_mag": 57.777610778808594, "eval/post_ent_max": 57.777610778808594, "eval/post_ent_mean": 43.07476806640625, "eval/post_ent_min": 28.13692283630371, "eval/post_ent_std": 4.648582458496094, "eval/prior_ent_mag": 83.8404769897461, "eval/prior_ent_max": 83.8404769897461, "eval/prior_ent_mean": 48.02794647216797, "eval/prior_ent_min": 32.171875, "eval/prior_ent_std": 6.518443584442139, "eval/rep_loss_mean": 18.64303207397461, "eval/rep_loss_std": 14.689562797546387, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.4187782108783722, "eval/reward_loss_std": 2.5204102993011475, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.990091323852539, "eval/reward_neg_acc": 0.9379379153251648, "eval/reward_neg_loss": 0.060211051255464554, "eval/reward_pos_acc": 0.03999999910593033, "eval/reward_pos_loss": 14.74712085723877, "eval/reward_pred": 0.13485415279865265, "eval/reward_rate": 0.0244140625, "replay/size": 112451.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.886192923838232e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3408924598743197e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 7.62939453125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1123089790344, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.3631932735443, "timer/replay._sample_frac": 1.3007237010755688, "timer/replay._sample_avg": 0.015781176959635525, "timer/replay._sample_min": 0.0006623268127441406, "timer/replay._sample_max": 0.07315897941589355, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.706940650939941, "timer/env.step_frac": 0.022348102527872265, "timer/env.step_avg": 0.004338253978615745, "timer/env.step_min": 0.0025186538696289062, "timer/env.step_max": 0.05189394950866699, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.42905497550964, "timer/agent.policy_frac": 0.37129118547181605, "timer/agent.policy_avg": 0.07207571473189499, "timer/agent.policy_min": 0.002727985382080078, "timer/agent.policy_max": 0.20582365989685059, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15654850006103516, "timer/dataset_train_frac": 0.0005216330532846338, "timer/dataset_train_avg": 0.00010126034932796582, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002300739288330078, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.7116687297821, "timer/agent.train_frac": 0.6021468074553599, "timer/agent.train_avg": 0.11688982453414108, "timer/agent.train_min": 0.1040503978729248, "timer/agent.train_max": 0.21873760223388672, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.1909937858581543, "timer/agent.report_frac": 0.000636407705195114, "timer/agent.report_avg": 0.09549689292907715, "timer/agent.report_min": 0.09425044059753418, "timer/agent.report_max": 0.09674334526062012, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.316734313964844e-05, "timer/dataset_eval_frac": 1.7715815562687454e-07, "timer/dataset_eval_avg": 5.316734313964844e-05, "timer/dataset_eval_min": 5.316734313964844e-05, "timer/dataset_eval_max": 5.316734313964844e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16817808151245117, "timer/agent.save_frac": 0.0005603838179266414, "timer/agent.save_avg": 0.16817808151245117, "timer/agent.save_min": 0.16817808151245117, "timer/agent.save_max": 0.16817808151245117, "fps": 20.60432607028603}
+{"step": 324644, "episode/length": 527.0, "episode/score": 670.0, "episode/reward_rate": 0.125}
+{"step": 327268, "episode/length": 655.0, "episode/score": 730.0, "episode/reward_rate": 0.11128048780487805}
+{"step": 329680, "episode/length": 602.0, "episode/score": 660.0, "episode/reward_rate": 0.10945273631840796}
+{"step": 330268, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.107155936104911, "train/action_min": 0.0, "train/action_std": 4.24909550028962, "train/actor_opt_grad_norm": 0.008162637585895015, "train/actor_opt_grad_steps": 80695.0, "train/actor_opt_loss": 0.0003370159734565171, "train/adv_mag": 0.7596100754552073, "train/adv_max": 0.726834655001566, "train/adv_mean": 0.0021691005480498496, "train/adv_min": -0.3777792009633857, "train/adv_std": 0.034018748627322445, "train/cont_avg": 0.998344916801948, "train/cont_loss_mean": 0.0006414648743509228, "train/cont_loss_std": 0.01567026212812698, "train/cont_neg_acc": 0.8982188308056984, "train/cont_neg_loss": 0.22385032096312307, "train/cont_pos_acc": 0.9998919131693902, "train/cont_pos_loss": 0.0002864229531929507, "train/cont_pred": 0.9983284798535433, "train/cont_rate": 0.998344916801948, "train/dyn_loss_mean": 2.955613984690084, "train/dyn_loss_std": 5.957811714766861, "train/extr_critic_critic_opt_grad_norm": 1.5053512515959802, "train/extr_critic_critic_opt_grad_steps": 80695.0, "train/extr_critic_critic_opt_loss": 1.5021825587594664, "train/extr_critic_mag": 333.9398081395533, "train/extr_critic_max": 333.9398081395533, "train/extr_critic_mean": 129.5223442672135, "train/extr_critic_min": 0.040447036167243856, "train/extr_critic_std": 87.2202141997102, "train/extr_return_normed_mag": 1.416204815561121, "train/extr_return_normed_max": 1.416204815561121, "train/extr_return_normed_mean": 0.4438660019016885, "train/extr_return_normed_min": -0.02200978756700824, "train/extr_return_normed_std": 0.3148897301841092, "train/extr_return_rate": 0.9543527279581342, "train/extr_return_raw_mag": 401.72010922122314, "train/extr_return_raw_max": 401.72010922122314, "train/extr_return_raw_mean": 130.12789193685953, "train/extr_return_raw_min": 0.03802068767348734, "train/extr_return_raw_std": 87.95118661360307, "train/extr_reward_mag": 130.36475596489845, "train/extr_reward_max": 130.36475596489845, "train/extr_reward_mean": 0.8572175090576147, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.8278691536420353, "train/image_loss_mean": 1.127103909656599, "train/image_loss_std": 0.8858341245682209, "train/model_loss_mean": 2.963757247119755, "train/model_loss_std": 4.157913293157305, "train/model_opt_grad_norm": 10.398872551979956, "train/model_opt_grad_steps": 80695.0, "train/model_opt_loss": 2.963757247119755, "train/policy_entropy_mag": 2.644717715003274, "train/policy_entropy_max": 2.644717715003274, "train/policy_entropy_mean": 0.8138138140950885, "train/policy_entropy_min": 0.0801924280822277, "train/policy_entropy_std": 0.682730469610784, "train/policy_logprob_mag": 7.495534036066625, "train/policy_logprob_max": -0.009489652186680537, "train/policy_logprob_mean": -0.8129173052775396, "train/policy_logprob_min": -7.495534036066625, "train/policy_logprob_std": 1.2468139281520596, "train/policy_randomness_mag": 0.9150095543304047, "train/policy_randomness_max": 0.9150095543304047, "train/policy_randomness_mean": 0.28156026123793093, "train/policy_randomness_min": 0.02774467659122371, "train/policy_randomness_std": 0.23620853882718396, "train/post_ent_mag": 62.779288973127095, "train/post_ent_max": 62.779288973127095, "train/post_ent_mean": 42.4556232303768, "train/post_ent_min": 13.044148302697517, "train/post_ent_std": 5.109440484604278, "train/prior_ent_mag": 83.81809358472948, "train/prior_ent_max": 83.81809358472948, "train/prior_ent_mean": 45.42748713802982, "train/prior_ent_min": 16.78591355410489, "train/prior_ent_std": 7.077208091686298, "train/rep_loss_mean": 2.955613984690084, "train/rep_loss_std": 5.957811714766861, "train/reward_avg": 0.9647676542207793, "train/reward_loss_mean": 0.06264348478092775, "train/reward_loss_std": 0.2413902527519635, "train/reward_max_data": 104.41558441558442, "train/reward_max_pred": 55.156184673309326, "train/reward_neg_acc": 0.9763253106699361, "train/reward_neg_loss": 0.006810260681108898, "train/reward_pos_acc": 0.9937141394460356, "train/reward_pos_loss": 0.6580890351301664, "train/reward_pred": 0.8614615045197598, "train/reward_rate": 0.08624188311688312, "train_stats/mean_log_entropy": 0.787261446317037, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00043086273944936693, "report/cont_loss_std": 0.00850801169872284, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05744338408112526, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0003192922449670732, "report/cont_pred": 0.9978622198104858, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.5299291610717773, "report/dyn_loss_std": 5.665390491485596, "report/image_loss_mean": 0.9489989280700684, "report/image_loss_std": 0.8370257019996643, "report/model_loss_mean": 2.5222082138061523, "report/model_loss_std": 3.9466042518615723, "report/post_ent_mag": 65.8132095336914, "report/post_ent_max": 65.8132095336914, "report/post_ent_mean": 41.88965606689453, "report/post_ent_min": 10.683388710021973, "report/post_ent_std": 4.90260648727417, "report/prior_ent_mag": 83.94464874267578, "report/prior_ent_max": 83.94464874267578, "report/prior_ent_mean": 44.545570373535156, "report/prior_ent_min": 13.293502807617188, "report/prior_ent_std": 7.019897937774658, "report/rep_loss_mean": 2.5299291610717773, "report/rep_loss_std": 5.665390491485596, "report/reward_avg": 0.9765625, "report/reward_loss_mean": 0.054821114987134933, "report/reward_loss_std": 0.16324520111083984, "report/reward_max_data": 20.0, "report/reward_max_pred": 10.031172752380371, "report/reward_neg_acc": 0.9881081581115723, "report/reward_neg_loss": 0.0024339037481695414, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5442976355552673, "report/reward_pred": 0.9624807834625244, "report/reward_rate": 0.0966796875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.9116471839406586e-08, "eval/cont_loss_std": 5.56435168164171e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.9116471839406586e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.514265060424805, "eval/dyn_loss_std": 13.14626693725586, "eval/image_loss_mean": 4.939522743225098, "eval/image_loss_std": 2.980555295944214, "eval/model_loss_mean": 16.47857666015625, "eval/model_loss_std": 10.447446823120117, "eval/post_ent_mag": 57.88321304321289, "eval/post_ent_max": 57.88321304321289, "eval/post_ent_mean": 43.80797576904297, "eval/post_ent_min": 30.20269775390625, "eval/post_ent_std": 4.039519309997559, "eval/prior_ent_mag": 83.94464874267578, "eval/prior_ent_max": 83.94464874267578, "eval/prior_ent_mean": 49.032257080078125, "eval/prior_ent_min": 33.1041259765625, "eval/prior_ent_std": 5.594477653503418, "eval/rep_loss_mean": 18.514265060424805, "eval/rep_loss_std": 13.14626693725586, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4304955005645752, "eval/reward_loss_std": 2.5406720638275146, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.996916770935059, "eval/reward_neg_acc": 0.9467336535453796, "eval/reward_neg_loss": 0.054032035171985626, "eval/reward_pos_acc": 0.10344827175140381, "eval/reward_pos_loss": 13.347085952758789, "eval/reward_pred": 0.1250542402267456, "eval/reward_rate": 0.0283203125, "replay/size": 113998.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.91940597603224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3543585461035187e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.862645149230957e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.21116828918457, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.8865444660187, "timer/replay._sample_frac": 1.3087006279778461, "timer/replay._sample_avg": 0.01587292115651336, "timer/replay._sample_min": 0.00044155120849609375, "timer/replay._sample_max": 0.04735088348388672, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.727479934692383, "timer/env.step_frac": 0.02240915943610732, "timer/env.step_avg": 0.004348726525334442, "timer/env.step_min": 0.0019605159759521484, "timer/env.step_max": 0.025630712509155273, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.19070482254028, "timer/agent.policy_frac": 0.3703749779069963, "timer/agent.policy_avg": 0.07187505159828073, "timer/agent.policy_min": 0.002916574478149414, "timer/agent.policy_max": 0.08809161186218262, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.16308212280273438, "timer/dataset_train_frac": 0.0005432247032383624, "timer/dataset_train_avg": 0.00010541830821120516, "timer/dataset_train_min": 6.365776062011719e-05, "timer/dataset_train_max": 0.0002295970916748047, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.88378190994263, "timer/agent.train_frac": 0.6025218280210769, "timer/agent.train_avg": 0.11692552159660156, "timer/agent.train_min": 0.10301065444946289, "timer/agent.train_max": 0.20137858390808105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2673966884613037, "timer/agent.report_frac": 0.0008906953395009221, "timer/agent.report_avg": 0.13369834423065186, "timer/agent.report_min": 0.10263371467590332, "timer/agent.report_max": 0.1647629737854004, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.7697296142578125e-05, "timer/dataset_eval_frac": 1.9218903970621114e-07, "timer/dataset_eval_avg": 5.7697296142578125e-05, "timer/dataset_eval_min": 5.7697296142578125e-05, "timer/dataset_eval_max": 5.7697296142578125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.611072053084836}
+{"step": 331744, "episode/length": 515.0, "episode/score": 1120.0, "episode/reward_rate": 0.12209302325581395}
+{"step": 333852, "episode/length": 526.0, "episode/score": 510.0, "episode/reward_rate": 0.0967741935483871}
+{"step": 336448, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.215803773941532, "train/action_min": 0.0, "train/action_std": 4.238252899723668, "train/actor_opt_grad_norm": 0.009300095404708577, "train/actor_opt_grad_steps": 82240.0, "train/actor_opt_loss": 0.0008155506939235032, "train/adv_mag": 0.7878338026423608, "train/adv_max": 0.7435832369712091, "train/adv_mean": 0.0028935412538797414, "train/adv_min": -0.4069966173941089, "train/adv_std": 0.037682724978414274, "train/cont_avg": 0.9982358870967742, "train/cont_loss_mean": 0.0008169890724738777, "train/cont_loss_std": 0.01912202320063333, "train/cont_neg_acc": 0.9022556399940548, "train/cont_neg_loss": 0.2827932388226097, "train/cont_pos_acc": 0.9998799408635786, "train/cont_pos_loss": 0.0003592993642257625, "train/cont_pred": 0.9981680785456012, "train/cont_rate": 0.9982358870967742, "train/dyn_loss_mean": 2.9236001183909757, "train/dyn_loss_std": 5.943063065313524, "train/extr_critic_critic_opt_grad_norm": 1.5640844760402557, "train/extr_critic_critic_opt_grad_steps": 82240.0, "train/extr_critic_critic_opt_loss": 1.5244227986181935, "train/extr_critic_mag": 334.4003570556641, "train/extr_critic_max": 334.4003570556641, "train/extr_critic_mean": 136.82503927907635, "train/extr_critic_min": 0.16286813059160787, "train/extr_critic_std": 88.95117689563382, "train/extr_return_normed_mag": 1.4400013227616586, "train/extr_return_normed_max": 1.4400013227616586, "train/extr_return_normed_mean": 0.46196762111879164, "train/extr_return_normed_min": -0.02370057495370988, "train/extr_return_normed_std": 0.31800497395377003, "train/extr_return_rate": 0.9610270134864315, "train/extr_return_raw_mag": 414.23589812247985, "train/extr_return_raw_max": 414.23589812247985, "train/extr_return_raw_mean": 137.6434596892326, "train/extr_return_raw_min": 0.17485459491370187, "train/extr_return_raw_std": 90.00757857291929, "train/extr_reward_mag": 120.84481688468686, "train/extr_reward_max": 120.84481688468686, "train/extr_reward_mean": 0.8921641009469186, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.018180706424098, "train/image_loss_mean": 1.1146627479983915, "train/image_loss_std": 0.8859481638477694, "train/model_loss_mean": 2.934401281418339, "train/model_loss_std": 4.151664378566126, "train/model_opt_grad_norm": 10.509538545916158, "train/model_opt_grad_steps": 82240.0, "train/model_opt_loss": 2.934401281418339, "train/policy_entropy_mag": 2.638395366361064, "train/policy_entropy_max": 2.638395366361064, "train/policy_entropy_mean": 0.8031605143700876, "train/policy_entropy_min": 0.08019175183388495, "train/policy_entropy_std": 0.6808113590363534, "train/policy_logprob_mag": 7.495538745387908, "train/policy_logprob_max": -0.009489539866485904, "train/policy_logprob_mean": -0.8031491618002614, "train/policy_logprob_min": -7.495538745387908, "train/policy_logprob_std": 1.242849922949268, "train/policy_randomness_mag": 0.9128221704113868, "train/policy_randomness_max": 0.9128221704113868, "train/policy_randomness_mean": 0.2778744726411758, "train/policy_randomness_min": 0.027744442621065724, "train/policy_randomness_std": 0.23554457137661597, "train/post_ent_mag": 63.07389413156817, "train/post_ent_max": 63.07389413156817, "train/post_ent_mean": 42.387071154194494, "train/post_ent_min": 12.497215117177655, "train/post_ent_std": 5.103744017693304, "train/prior_ent_mag": 83.8940694501323, "train/prior_ent_max": 83.8940694501323, "train/prior_ent_mean": 45.33713610249181, "train/prior_ent_min": 16.205062552421325, "train/prior_ent_std": 7.0833724729476435, "train/rep_loss_mean": 2.9236001183909757, "train/rep_loss_std": 5.943063065313524, "train/reward_avg": 0.9644657258064516, "train/reward_loss_mean": 0.06476147411571395, "train/reward_loss_std": 0.24289443291002705, "train/reward_max_data": 75.48387096774194, "train/reward_max_pred": 47.96457844395791, "train/reward_neg_acc": 0.9755961325860792, "train/reward_neg_loss": 0.00787964904410464, "train/reward_pos_acc": 0.9941916254258925, "train/reward_pos_loss": 0.6516484591268724, "train/reward_pred": 0.8870927741450648, "train/reward_rate": 0.0887789818548387, "train_stats/mean_log_entropy": 0.7322593927383423, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.065556443791138e-05, "report/cont_loss_std": 0.000172531814314425, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.0904589948477224e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0615937753755134e-05, "report/cont_pred": 0.9980363249778748, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1598286628723145, "report/dyn_loss_std": 5.801734447479248, "report/image_loss_mean": 1.267992377281189, "report/image_loss_std": 0.8278173804283142, "report/model_loss_mean": 3.2402849197387695, "report/model_loss_std": 3.9076666831970215, "report/post_ent_mag": 63.95998001098633, "report/post_ent_max": 63.95998001098633, "report/post_ent_mean": 42.90047073364258, "report/post_ent_min": 23.7718448638916, "report/post_ent_std": 4.767569065093994, "report/prior_ent_mag": 84.15277099609375, "report/prior_ent_max": 84.15277099609375, "report/prior_ent_mean": 45.96349334716797, "report/prior_ent_min": 23.424373626708984, "report/prior_ent_std": 6.79561185836792, "report/rep_loss_mean": 3.1598286628723145, "report/rep_loss_std": 5.801734447479248, "report/reward_avg": 1.494140625, "report/reward_loss_mean": 0.07638468593358994, "report/reward_loss_std": 0.26932409405708313, "report/reward_max_data": 500.0, "report/reward_max_pred": 20.000347137451172, "report/reward_neg_acc": 0.9740259647369385, "report/reward_neg_loss": 0.0072572906501591206, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7151217460632324, "report/reward_pred": 0.9106247425079346, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 7.729470962658525e-05, "eval/cont_loss_std": 0.001620423048734665, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.03786583989858627, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.035576421301812e-05, "eval/cont_pred": 0.9990200996398926, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.524986267089844, "eval/dyn_loss_std": 14.313292503356934, "eval/image_loss_mean": 5.105833053588867, "eval/image_loss_std": 3.2950143814086914, "eval/model_loss_mean": 17.291261672973633, "eval/model_loss_std": 11.423785209655762, "eval/post_ent_mag": 65.78375244140625, "eval/post_ent_max": 65.78375244140625, "eval/post_ent_mean": 43.59929656982422, "eval/post_ent_min": 26.650455474853516, "eval/post_ent_std": 4.452216625213623, "eval/prior_ent_mag": 84.15277099609375, "eval/prior_ent_max": 84.15277099609375, "eval/prior_ent_mean": 49.25666809082031, "eval/prior_ent_min": 29.032379150390625, "eval/prior_ent_std": 6.287117958068848, "eval/rep_loss_mean": 19.524986267089844, "eval/rep_loss_std": 14.313292503356934, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.4703596234321594, "eval/reward_loss_std": 2.947633743286133, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.984448432922363, "eval/reward_neg_acc": 0.9588354229927063, "eval/reward_neg_loss": 0.05088692158460617, "eval/reward_pos_acc": 0.1785714328289032, "eval/reward_pos_loss": 15.39160442352295, "eval/reward_pred": 0.14237947762012482, "eval/reward_rate": 0.02734375, "replay/size": 115543.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 5.0640414833636735e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3342856589258681e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.2633543014526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11081194877625, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 385.3261573314667, "timer/replay._sample_frac": 1.283946269144196, "timer/replay._sample_avg": 0.015587627723764833, "timer/replay._sample_min": 0.0004718303680419922, "timer/replay._sample_max": 0.04748082160949707, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.839336395263672, "timer/env.step_frac": 0.022789370202467178, "timer/env.step_avg": 0.004426754948390726, "timer/env.step_min": 0.0022432804107666016, "timer/env.step_max": 0.026591062545776367, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 110.60820627212524, "timer/agent.policy_frac": 0.3685578855153148, "timer/agent.policy_avg": 0.07159107202079304, "timer/agent.policy_min": 0.002877473831176758, "timer/agent.policy_max": 0.08552050590515137, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.16218304634094238, "timer/dataset_train_frac": 0.0005404105413190653, "timer/dataset_train_avg": 0.00010497284552811804, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.00033092498779296875, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 181.28797674179077, "timer/agent.train_frac": 0.6040701285121761, "timer/agent.train_avg": 0.11733849627300373, "timer/agent.train_min": 0.10381507873535156, "timer/agent.train_max": 0.2029118537902832, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26187562942504883, "timer/agent.report_frac": 0.0008725964510393797, "timer/agent.report_avg": 0.13093781471252441, "timer/agent.report_min": 0.09889817237854004, "timer/agent.report_max": 0.1629774570465088, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.76837158203125e-05, "timer/dataset_eval_frac": 1.5888703079598242e-07, "timer/dataset_eval_avg": 4.76837158203125e-05, "timer/dataset_eval_min": 4.76837158203125e-05, "timer/dataset_eval_max": 4.76837158203125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.59116203732889}
+{"step": 337096, "episode/length": 810.0, "episode/score": 1230.0, "episode/reward_rate": 0.09001233045622688}
+{"step": 340312, "episode/length": 803.0, "episode/score": 660.0, "episode/reward_rate": 0.08084577114427861}
+{"step": 342624, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.998955268364448, "train/action_min": 0.0, "train/action_std": 4.379048760835227, "train/actor_opt_grad_norm": 0.007374124315736646, "train/actor_opt_grad_steps": 83785.0, "train/actor_opt_loss": 0.00038000897675138055, "train/adv_mag": 0.7223811779509891, "train/adv_max": 0.6950623586580351, "train/adv_mean": 0.0020351977485703384, "train/adv_min": -0.3581789515719011, "train/adv_std": 0.03210676687031791, "train/cont_avg": 0.9981927252435064, "train/cont_loss_mean": 0.0006860558696764571, "train/cont_loss_std": 0.016826666865643373, "train/cont_neg_acc": 0.9078431381460499, "train/cont_neg_loss": 0.20802085534239723, "train/cont_pos_acc": 0.9998792255079592, "train/cont_pos_loss": 0.00034287658988748076, "train/cont_pred": 0.9981543561080833, "train/cont_rate": 0.9981927252435064, "train/dyn_loss_mean": 2.938469447098769, "train/dyn_loss_std": 5.97734810160352, "train/extr_critic_critic_opt_grad_norm": 1.517617567019029, "train/extr_critic_critic_opt_grad_steps": 83785.0, "train/extr_critic_critic_opt_loss": 1.5235719611118366, "train/extr_critic_mag": 338.898476340554, "train/extr_critic_max": 338.898476340554, "train/extr_critic_mean": 135.1411651512245, "train/extr_critic_min": 0.03667326639224956, "train/extr_critic_std": 92.82851593215744, "train/extr_return_normed_mag": 1.3908217553194466, "train/extr_return_normed_max": 1.3908217553194466, "train/extr_return_normed_mean": 0.44625531349863323, "train/extr_return_normed_min": -0.024174632044968666, "train/extr_return_normed_std": 0.32387988888598107, "train/extr_return_rate": 0.9572388719428669, "train/extr_return_raw_mag": 408.1193531581334, "train/extr_return_raw_max": 408.1193531581334, "train/extr_return_raw_mean": 135.72804537686434, "train/extr_return_raw_min": 0.01473378376126616, "train/extr_return_raw_std": 93.43525475341004, "train/extr_reward_mag": 132.68651081679704, "train/extr_reward_max": 132.68651081679704, "train/extr_reward_mean": 0.8646782659865045, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.799596895645191, "train/image_loss_mean": 1.1091354516419498, "train/image_loss_std": 0.9056455663272313, "train/model_loss_mean": 2.935573819395784, "train/model_loss_std": 4.183537226218681, "train/model_opt_grad_norm": 10.66860919184499, "train/model_opt_grad_steps": 83785.0, "train/model_opt_loss": 2.935573819395784, "train/policy_entropy_mag": 2.6513801286746927, "train/policy_entropy_max": 2.6513801286746927, "train/policy_entropy_mean": 0.8264761311667306, "train/policy_entropy_min": 0.08019183072950933, "train/policy_entropy_std": 0.6952479489437946, "train/policy_logprob_mag": 7.495538247096074, "train/policy_logprob_max": -0.00948955976198633, "train/policy_logprob_mean": -0.8256943705794099, "train/policy_logprob_min": -7.495538247096074, "train/policy_logprob_std": 1.2481098314384362, "train/policy_randomness_mag": 0.9173145905717627, "train/policy_randomness_max": 0.9173145905717627, "train/policy_randomness_mean": 0.28594112415592393, "train/policy_randomness_min": 0.027744469922277835, "train/policy_randomness_std": 0.24053928517288975, "train/post_ent_mag": 63.59466614661279, "train/post_ent_max": 63.59466614661279, "train/post_ent_mean": 42.2235002641554, "train/post_ent_min": 12.71107005453729, "train/post_ent_std": 5.2119602135249545, "train/prior_ent_mag": 84.05584518630783, "train/prior_ent_max": 84.05584518630783, "train/prior_ent_mean": 45.19870019887949, "train/prior_ent_min": 15.937059179528967, "train/prior_ent_std": 7.200132617702732, "train/rep_loss_mean": 2.938469447098769, "train/rep_loss_std": 5.97734810160352, "train/reward_avg": 0.9663529829545454, "train/reward_loss_mean": 0.06267062802012864, "train/reward_loss_std": 0.23136794838038358, "train/reward_max_data": 94.54545454545455, "train/reward_max_pred": 54.32386361159288, "train/reward_neg_acc": 0.9756012144800904, "train/reward_neg_loss": 0.007224154942661415, "train/reward_pos_acc": 0.9952880000913298, "train/reward_pos_loss": 0.6443313735646087, "train/reward_pred": 0.87451397617916, "train/reward_rate": 0.0872945413961039, "train_stats/mean_log_entropy": 0.9773221611976624, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00012410135241225362, "report/cont_loss_std": 0.0029320435132831335, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0008287429809570312, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00012203090591356158, "report/cont_pred": 0.9969552755355835, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.951975107192993, "report/dyn_loss_std": 6.097711086273193, "report/image_loss_mean": 1.2067264318466187, "report/image_loss_std": 0.8050134778022766, "report/model_loss_mean": 3.031681776046753, "report/model_loss_std": 4.233258247375488, "report/post_ent_mag": 62.968135833740234, "report/post_ent_max": 62.968135833740234, "report/post_ent_mean": 42.89834213256836, "report/post_ent_min": 12.770304679870605, "report/post_ent_std": 4.982028007507324, "report/prior_ent_mag": 84.32749938964844, "report/prior_ent_max": 84.32749938964844, "report/prior_ent_mean": 45.81409454345703, "report/prior_ent_min": 13.463896751403809, "report/prior_ent_std": 7.229186058044434, "report/rep_loss_mean": 2.951975107192993, "report/rep_loss_std": 6.097711086273193, "report/reward_avg": 0.634765625, "report/reward_loss_mean": 0.0536462776362896, "report/reward_loss_std": 0.26135075092315674, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006845474243164, "report/reward_neg_acc": 0.9822732210159302, "report/reward_neg_loss": 0.003180581843480468, "report/reward_pos_acc": 0.9846153855323792, "report/reward_pos_loss": 0.7982093095779419, "report/reward_pred": 0.5446097254753113, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.009890872985124588, "eval/cont_loss_std": 0.31456395983695984, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.07094669342041, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.602014061878435e-05, "eval/cont_pred": 0.9999446868896484, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 20.601139068603516, "eval/dyn_loss_std": 14.909782409667969, "eval/image_loss_mean": 5.270252704620361, "eval/image_loss_std": 2.9871139526367188, "eval/model_loss_mean": 18.137710571289062, "eval/model_loss_std": 11.111444473266602, "eval/post_ent_mag": 65.91728210449219, "eval/post_ent_max": 65.91728210449219, "eval/post_ent_mean": 43.60354232788086, "eval/post_ent_min": 26.3746337890625, "eval/post_ent_std": 4.294289588928223, "eval/prior_ent_mag": 84.32749938964844, "eval/prior_ent_max": 84.32749938964844, "eval/prior_ent_mean": 49.04231262207031, "eval/prior_ent_min": 29.064163208007812, "eval/prior_ent_std": 6.287501335144043, "eval/rep_loss_mean": 20.601139068603516, "eval/rep_loss_std": 14.909782409667969, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4968852996826172, "eval/reward_loss_std": 2.975435495376587, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006874084472656, "eval/reward_neg_acc": 0.9677743911743164, "eval/reward_neg_loss": 0.0328575074672699, "eval/reward_pos_acc": 0.032258063554763794, "eval/reward_pos_loss": 15.360742568969727, "eval/reward_pred": 0.04816389083862305, "eval/reward_rate": 0.0302734375, "replay/size": 117087.0, "replay/inserts": 1544.0, "replay/samples": 24704.0, "replay/insert_wait_avg": 4.939155875092344e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3061002900563373e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0314917564392, "timer/replay._sample_count": 24704.0, "timer/replay._sample_total": 380.47421622276306, "timer/replay._sample_frac": 1.268114270256757, "timer/replay._sample_avg": 0.015401320281038012, "timer/replay._sample_min": 0.0004899501800537109, "timer/replay._sample_max": 0.06009840965270996, "timer/env.step_count": 1544.0, "timer/env.step_total": 6.748754978179932, "timer/env.step_frac": 0.02249348872903803, "timer/env.step_avg": 0.0043709552967486605, "timer/env.step_min": 0.002354145050048828, "timer/env.step_max": 0.030717849731445312, "timer/agent.policy_count": 1544.0, "timer/agent.policy_total": 110.80782866477966, "timer/agent.policy_frac": 0.36932066036165195, "timer/agent.policy_avg": 0.07176672840983139, "timer/agent.policy_min": 0.002689361572265625, "timer/agent.policy_max": 0.3134803771972656, "timer/dataset_train_count": 1544.0, "timer/dataset_train_total": 0.15560126304626465, "timer/dataset_train_frac": 0.0005186164363458862, "timer/dataset_train_avg": 0.00010077802010768436, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.001323699951171875, "timer/agent.train_count": 1544.0, "timer/agent.train_total": 181.1102647781372, "timer/agent.train_frac": 0.6036375172415556, "timer/agent.train_avg": 0.1172993942863583, "timer/agent.train_min": 0.10386395454406738, "timer/agent.train_max": 0.20336246490478516, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26424741744995117, "timer/agent.report_frac": 0.0008807322721458287, "timer/agent.report_avg": 0.13212370872497559, "timer/agent.report_min": 0.09641098976135254, "timer/agent.report_max": 0.16783642768859863, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.535385131835938e-05, "timer/dataset_eval_frac": 2.844829748326828e-07, "timer/dataset_eval_avg": 8.535385131835938e-05, "timer/dataset_eval_min": 8.535385131835938e-05, "timer/dataset_eval_max": 8.535385131835938e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11145162582397461, "timer/agent.save_frac": 0.0003714664256459094, "timer/agent.save_avg": 0.11145162582397461, "timer/agent.save_min": 0.11145162582397461, "timer/agent.save_max": 0.11145162582397461, "fps": 20.583266420755372}
+{"step": 343612, "episode/length": 824.0, "episode/score": 640.0, "episode/reward_rate": 0.07636363636363637}
+{"step": 345920, "episode/length": 576.0, "episode/score": 1140.0, "episode/reward_rate": 0.11091854419410745}
+{"step": 348272, "episode/length": 587.0, "episode/score": 1180.0, "episode/reward_rate": 0.11734693877551021}
+{"step": 348816, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.001815697454637, "train/action_min": 0.0, "train/action_std": 4.343755288277903, "train/actor_opt_grad_norm": 0.007325979176488134, "train/actor_opt_grad_steps": 85330.0, "train/actor_opt_loss": -0.00013418351218206226, "train/adv_mag": 0.6985070902493692, "train/adv_max": 0.6651572998973632, "train/adv_mean": 0.0015125822945499807, "train/adv_min": -0.3863769530288635, "train/adv_std": 0.03199520759404667, "train/cont_avg": 0.9983492943548387, "train/cont_loss_mean": 0.0006639977082841142, "train/cont_loss_std": 0.016539325527279405, "train/cont_neg_acc": 0.9038978509845272, "train/cont_neg_loss": 0.23791714352198082, "train/cont_pos_acc": 0.9999178551858471, "train/cont_pos_loss": 0.00026166485793092145, "train/cont_pred": 0.9983382009690808, "train/cont_rate": 0.9983492943548387, "train/dyn_loss_mean": 2.9893581974890924, "train/dyn_loss_std": 6.010294649677892, "train/extr_critic_critic_opt_grad_norm": 1.4541552266766948, "train/extr_critic_critic_opt_grad_steps": 85330.0, "train/extr_critic_critic_opt_loss": 1.5050873979445427, "train/extr_critic_mag": 343.5639905375819, "train/extr_critic_max": 343.5639905375819, "train/extr_critic_mean": 132.49693820091986, "train/extr_critic_min": 0.08040309336877638, "train/extr_critic_std": 91.25180080782982, "train/extr_return_normed_mag": 1.3558338988211847, "train/extr_return_normed_max": 1.3558338988211847, "train/extr_return_normed_mean": 0.4395100389757464, "train/extr_return_normed_min": -0.021271562504191554, "train/extr_return_normed_std": 0.3182730468050126, "train/extr_return_rate": 0.9558594253755385, "train/extr_return_raw_mag": 397.3253774335307, "train/extr_return_raw_max": 397.3253774335307, "train/extr_return_raw_mean": 132.93397807459678, "train/extr_return_raw_min": 0.04496788268217877, "train/extr_return_raw_std": 91.79298026792465, "train/extr_reward_mag": 118.36558069413708, "train/extr_reward_max": 118.36558069413708, "train/extr_reward_mean": 0.8320481875250416, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.6056819831171345, "train/image_loss_mean": 1.1170808665214047, "train/image_loss_std": 0.9048405212740744, "train/model_loss_mean": 2.9733324481594945, "train/model_loss_std": 4.209418215290192, "train/model_opt_grad_norm": 10.78466931004678, "train/model_opt_grad_steps": 85330.0, "train/model_opt_loss": 2.9733324481594945, "train/policy_entropy_mag": 2.6564755901213615, "train/policy_entropy_max": 2.6564755901213615, "train/policy_entropy_mean": 0.8304635044067137, "train/policy_entropy_min": 0.08019195583558851, "train/policy_entropy_std": 0.6945978910692276, "train/policy_logprob_mag": 7.495536422729492, "train/policy_logprob_max": -0.009489587105570301, "train/policy_logprob_mean": -0.8309541417706398, "train/policy_logprob_min": -7.495536422729492, "train/policy_logprob_std": 1.2534271555562173, "train/policy_randomness_mag": 0.9190774975284454, "train/policy_randomness_max": 0.9190774975284454, "train/policy_randomness_mean": 0.28732065904525017, "train/policy_randomness_min": 0.02774451323334248, "train/policy_randomness_std": 0.24031438317991072, "train/post_ent_mag": 62.40731981338993, "train/post_ent_max": 62.40731981338993, "train/post_ent_mean": 42.3750614535424, "train/post_ent_min": 12.916508714614375, "train/post_ent_std": 5.156279234732351, "train/prior_ent_mag": 84.13788068217616, "train/prior_ent_max": 84.13788068217616, "train/prior_ent_mean": 45.35951668523973, "train/prior_ent_min": 16.29822570431617, "train/prior_ent_std": 7.130648486844955, "train/rep_loss_mean": 2.9893581974890924, "train/rep_loss_std": 6.010294649677892, "train/reward_avg": 0.9383190524193549, "train/reward_loss_mean": 0.06197265660570514, "train/reward_loss_std": 0.23587635976652946, "train/reward_max_data": 91.09677419354838, "train/reward_max_pred": 62.30023880620156, "train/reward_neg_acc": 0.975961608271445, "train/reward_neg_loss": 0.006954265023852067, "train/reward_pos_acc": 0.9939503638975082, "train/reward_pos_loss": 0.6557592226612953, "train/reward_pred": 0.8570740238312752, "train/reward_rate": 0.08526335685483871, "train_stats/mean_log_entropy": 0.9007532795270284, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0001956369524123147, "report/cont_loss_std": 0.00351863750256598, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05702579766511917, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.442333637503907e-05, "report/cont_pred": 0.9980723857879639, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.590102195739746, "report/dyn_loss_std": 5.543924808502197, "report/image_loss_mean": 0.9263333082199097, "report/image_loss_std": 0.8804758191108704, "report/model_loss_mean": 2.543381690979004, "report/model_loss_std": 3.867192268371582, "report/post_ent_mag": 63.95201873779297, "report/post_ent_max": 63.95201873779297, "report/post_ent_mean": 41.49116516113281, "report/post_ent_min": 12.056644439697266, "report/post_ent_std": 5.35453462600708, "report/prior_ent_mag": 84.29521942138672, "report/prior_ent_max": 84.29521942138672, "report/prior_ent_mean": 44.225914001464844, "report/prior_ent_min": 13.624958038330078, "report/prior_ent_std": 7.340409755706787, "report/rep_loss_mean": 2.590102195739746, "report/rep_loss_std": 5.543924808502197, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.06279146671295166, "report/reward_loss_std": 0.1806160807609558, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.9826602935791, "report/reward_neg_acc": 0.9923329949378967, "report/reward_neg_loss": 0.0019247533055022359, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5634338855743408, "report/reward_pred": 1.05866539478302, "report/reward_rate": 0.1083984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.252924673484813e-07, "eval/cont_loss_std": 2.5235337943740888e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.252924673484813e-07, "eval/cont_pred": 0.9999997615814209, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 19.371810913085938, "eval/dyn_loss_std": 14.585137367248535, "eval/image_loss_mean": 5.1447296142578125, "eval/image_loss_std": 3.4385225772857666, "eval/model_loss_mean": 17.240955352783203, "eval/model_loss_std": 11.754668235778809, "eval/post_ent_mag": 56.7237548828125, "eval/post_ent_max": 56.7237548828125, "eval/post_ent_mean": 43.22184753417969, "eval/post_ent_min": 26.172672271728516, "eval/post_ent_std": 4.223694324493408, "eval/prior_ent_mag": 84.29521942138672, "eval/prior_ent_max": 84.29521942138672, "eval/prior_ent_mean": 48.41457748413086, "eval/prior_ent_min": 28.892601013183594, "eval/prior_ent_std": 6.402472496032715, "eval/rep_loss_mean": 19.371810913085938, "eval/rep_loss_std": 14.585137367248535, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.47313806414604187, "eval/reward_loss_std": 2.5615341663360596, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997663497924805, "eval/reward_neg_acc": 0.9495459198951721, "eval/reward_neg_loss": 0.058495115488767624, "eval/reward_pos_acc": 0.060606058686971664, "eval/reward_pos_loss": 12.9249906539917, "eval/reward_pred": 0.1253902018070221, "eval/reward_rate": 0.0322265625, "replay/size": 118635.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.849692647771318e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3025424585169909e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.4437904357910156e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08144521713257, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 378.8420081138611, "timer/replay._sample_frac": 1.2624639548764471, "timer/replay._sample_avg": 0.01529562371260744, "timer/replay._sample_min": 0.0004849433898925781, "timer/replay._sample_max": 0.042116403579711914, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.724695444107056, "timer/env.step_frac": 0.022409567640015893, "timer/env.step_avg": 0.004344118503945126, "timer/env.step_min": 0.0022995471954345703, "timer/env.step_max": 0.030642986297607422, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 110.93479824066162, "timer/agent.policy_frac": 0.36968229795211616, "timer/agent.policy_avg": 0.07166330635701655, "timer/agent.policy_min": 0.002907276153564453, "timer/agent.policy_max": 0.08739995956420898, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.1505870819091797, "timer/dataset_train_frac": 0.0005018207033767718, "timer/dataset_train_avg": 9.727847668551659e-05, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.00019240379333496094, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 181.05894446372986, "timer/agent.train_frac": 0.6033660106266132, "timer/agent.train_avg": 0.11696314241843014, "timer/agent.train_min": 0.10391879081726074, "timer/agent.train_max": 0.20398569107055664, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25960397720336914, "timer/agent.report_frac": 0.0008651117266364976, "timer/agent.report_avg": 0.12980198860168457, "timer/agent.report_min": 0.09740257263183594, "timer/agent.report_max": 0.1622014045715332, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.692312475764278e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.633206899969384}
+{"step": 351320, "episode/length": 761.0, "episode/score": 1180.0, "episode/reward_rate": 0.08923884514435695}
+{"step": 352884, "episode/length": 390.0, "episode/score": 1010.0, "episode/reward_rate": 0.1329923273657289}
+{"step": 355024, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.986462796118952, "train/action_min": 0.0, "train/action_std": 4.271681957860147, "train/actor_opt_grad_norm": 0.007582670564372693, "train/actor_opt_grad_steps": 86880.0, "train/actor_opt_loss": 0.00010831570729234016, "train/adv_mag": 0.794396548886453, "train/adv_max": 0.765862129772863, "train/adv_mean": 0.0019791139990458406, "train/adv_min": -0.3753421072036989, "train/adv_std": 0.0346123545040046, "train/cont_avg": 0.9982610887096774, "train/cont_loss_mean": 0.0005741035841565454, "train/cont_loss_std": 0.014518768002506113, "train/cont_neg_acc": 0.9146825411016979, "train/cont_neg_loss": 0.22326864471575925, "train/cont_pos_acc": 0.9999368048483326, "train/cont_pos_loss": 0.00020567716015955926, "train/cont_pred": 0.9983150589850641, "train/cont_rate": 0.9982610887096774, "train/dyn_loss_mean": 2.969422037370743, "train/dyn_loss_std": 6.000376719813193, "train/extr_critic_critic_opt_grad_norm": 1.425396651990952, "train/extr_critic_critic_opt_grad_steps": 86880.0, "train/extr_critic_critic_opt_loss": 1.4726439552922403, "train/extr_critic_mag": 349.14328249039187, "train/extr_critic_max": 349.14328249039187, "train/extr_critic_mean": 136.88336363761655, "train/extr_critic_min": 0.048774499277914725, "train/extr_critic_std": 92.16355770480249, "train/extr_return_normed_mag": 1.4703877449035645, "train/extr_return_normed_max": 1.4703877449035645, "train/extr_return_normed_mean": 0.4506828142750648, "train/extr_return_normed_min": -0.02025236380436728, "train/extr_return_normed_std": 0.3184620141983032, "train/extr_return_rate": 0.9497110689840009, "train/extr_return_raw_mag": 435.02604251984627, "train/extr_return_raw_max": 435.02604251984627, "train/extr_return_raw_mean": 137.46085874495967, "train/extr_return_raw_min": 0.03609799207338402, "train/extr_return_raw_std": 92.92899531702841, "train/extr_reward_mag": 147.09796152422504, "train/extr_reward_max": 147.09796152422504, "train/extr_reward_mean": 0.8618735390324747, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.072617157813041, "train/image_loss_mean": 1.1085392925047106, "train/image_loss_std": 0.8975815738401105, "train/model_loss_mean": 2.953278467732091, "train/model_loss_std": 4.191805176581106, "train/model_opt_grad_norm": 10.259443679932625, "train/model_opt_grad_steps": 86880.0, "train/model_opt_loss": 2.953278467732091, "train/policy_entropy_mag": 2.652595021647792, "train/policy_entropy_max": 2.652595021647792, "train/policy_entropy_mean": 0.8323062971715004, "train/policy_entropy_min": 0.08019195362444848, "train/policy_entropy_std": 0.7041582857408831, "train/policy_logprob_mag": 7.495537714804373, "train/policy_logprob_max": -0.009489584047227136, "train/policy_logprob_mean": -0.8312514691583572, "train/policy_logprob_min": -7.495537714804373, "train/policy_logprob_std": 1.2564906435628092, "train/policy_randomness_mag": 0.9177349140567165, "train/policy_randomness_max": 0.9177349140567165, "train/policy_randomness_mean": 0.28795822003195365, "train/policy_randomness_min": 0.02774451242819909, "train/policy_randomness_std": 0.24362205353475386, "train/post_ent_mag": 62.87745700959236, "train/post_ent_max": 62.87745700959236, "train/post_ent_mean": 42.21349283033802, "train/post_ent_min": 13.196519273327242, "train/post_ent_std": 5.1568079117805725, "train/prior_ent_mag": 84.27998829503213, "train/prior_ent_max": 84.27998829503213, "train/prior_ent_mean": 45.19164704353579, "train/prior_ent_min": 16.231299535689814, "train/prior_ent_std": 7.2092143489468485, "train/rep_loss_mean": 2.969422037370743, "train/rep_loss_std": 6.000376719813193, "train/reward_avg": 0.9480216733870968, "train/reward_loss_mean": 0.06251183861205654, "train/reward_loss_std": 0.2388208300355942, "train/reward_max_data": 84.70967741935483, "train/reward_max_pred": 58.27910610937303, "train/reward_neg_acc": 0.9770383715629578, "train/reward_neg_loss": 0.007289143358056824, "train/reward_pos_acc": 0.9946929720140273, "train/reward_pos_loss": 0.6498361822097533, "train/reward_pred": 0.8727430899297037, "train/reward_rate": 0.08644783266129032, "train_stats/mean_log_entropy": 0.7256520390510559, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00013818926527164876, "report/cont_loss_std": 0.003184058703482151, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00011243043991271406, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00013821445463690907, "report/cont_pred": 0.9988903999328613, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.321296453475952, "report/dyn_loss_std": 6.411745548248291, "report/image_loss_mean": 1.3392267227172852, "report/image_loss_std": 1.0674114227294922, "report/model_loss_mean": 3.3894143104553223, "report/model_loss_std": 4.530625343322754, "report/post_ent_mag": 63.84748458862305, "report/post_ent_max": 63.84748458862305, "report/post_ent_mean": 42.45216369628906, "report/post_ent_min": 24.152118682861328, "report/post_ent_std": 4.809031963348389, "report/prior_ent_mag": 84.31307983398438, "report/prior_ent_max": 84.31307983398438, "report/prior_ent_mean": 45.962764739990234, "report/prior_ent_min": 27.965484619140625, "report/prior_ent_std": 6.518925666809082, "report/rep_loss_mean": 3.321296453475952, "report/rep_loss_std": 6.411745548248291, "report/reward_avg": 0.7421875, "report/reward_loss_mean": 0.05727139487862587, "report/reward_loss_std": 0.24238011240959167, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008611679077148, "report/reward_neg_acc": 0.9767932891845703, "report/reward_neg_loss": 0.007711625192314386, "report/reward_pos_acc": 0.9868420958518982, "report/reward_pos_loss": 0.6754643321037292, "report/reward_pred": 0.6935616731643677, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.005424438044428825, "eval/cont_loss_std": 0.1734565645456314, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.5533246994018555, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2706242387139355e-06, "eval/cont_pred": 0.9999949932098389, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.459186553955078, "eval/dyn_loss_std": 14.511927604675293, "eval/image_loss_mean": 4.6725897789001465, "eval/image_loss_std": 2.957191228866577, "eval/model_loss_mean": 16.756132125854492, "eval/model_loss_std": 10.967551231384277, "eval/post_ent_mag": 66.57345581054688, "eval/post_ent_max": 66.57345581054688, "eval/post_ent_mean": 43.117374420166016, "eval/post_ent_min": 27.85698699951172, "eval/post_ent_std": 4.696561813354492, "eval/prior_ent_mag": 84.31307983398438, "eval/prior_ent_max": 84.31307983398438, "eval/prior_ent_mean": 48.365325927734375, "eval/prior_ent_min": 30.495723724365234, "eval/prior_ent_std": 6.578559398651123, "eval/rep_loss_mean": 19.459186553955078, "eval/rep_loss_std": 14.511927604675293, "eval/reward_avg": 0.283203125, "eval/reward_loss_mean": 0.4026077389717102, "eval/reward_loss_std": 2.4143147468566895, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.848668098449707, "eval/reward_neg_acc": 0.9447236061096191, "eval/reward_neg_loss": 0.039497118443250656, "eval/reward_pos_acc": 0.03448275849223137, "eval/reward_pos_loss": 12.861056327819824, "eval/reward_pred": 0.11509139835834503, "eval/reward_rate": 0.0283203125, "replay/size": 120187.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.622893235118119e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2620284999768758e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.04582691192627, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 366.31031608581543, "timer/replay._sample_frac": 1.2208478946562389, "timer/replay._sample_avg": 0.01475154301247646, "timer/replay._sample_min": 0.0004987716674804688, "timer/replay._sample_max": 0.04330182075500488, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.598498106002808, "timer/env.step_frac": 0.021991634324378364, "timer/env.step_avg": 0.004251609604383253, "timer/env.step_min": 0.0024535655975341797, "timer/env.step_max": 0.02751946449279785, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 111.76358699798584, "timer/agent.policy_frac": 0.3724883900178098, "timer/agent.policy_avg": 0.07201262048839294, "timer/agent.policy_min": 0.0027480125427246094, "timer/agent.policy_max": 0.08573770523071289, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14554786682128906, "timer/dataset_train_frac": 0.0004850854561760406, "timer/dataset_train_avg": 9.378084202402646e-05, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.0006175041198730469, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 180.35454440116882, "timer/agent.train_frac": 0.6010899943431277, "timer/agent.train_avg": 0.1162078250007531, "timer/agent.train_min": 0.10370898246765137, "timer/agent.train_max": 0.20215225219726562, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2636895179748535, "timer/agent.report_frac": 0.0008788308129086408, "timer/agent.report_avg": 0.13184475898742676, "timer/agent.report_min": 0.0987856388092041, "timer/agent.report_max": 0.16490387916564941, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.649162292480469e-05, "timer/dataset_eval_frac": 1.5494840705933756e-07, "timer/dataset_eval_avg": 4.649162292480469e-05, "timer/dataset_eval_min": 4.649162292480469e-05, "timer/dataset_eval_max": 4.649162292480469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.689088793132417}
+{"step": 355176, "episode/length": 572.0, "episode/score": 1190.0, "episode/reward_rate": 0.12216404886561955}
+{"step": 357472, "episode/length": 573.0, "episode/score": 720.0, "episode/reward_rate": 0.1254355400696864}
+{"step": 359528, "episode/length": 513.0, "episode/score": 1120.0, "episode/reward_rate": 0.122568093385214}
+{"step": 361220, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.860384245841734, "train/action_min": 0.0, "train/action_std": 4.362708753155124, "train/actor_opt_grad_norm": 0.007649694745158476, "train/actor_opt_grad_steps": 88430.0, "train/actor_opt_loss": 0.00032406621449486157, "train/adv_mag": 0.7619816524367179, "train/adv_max": 0.7210367370997706, "train/adv_mean": 0.001839202253892924, "train/adv_min": -0.39167321180143666, "train/adv_std": 0.0318578333503777, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0007405465067130712, "train/cont_loss_std": 0.01809470613666382, "train/cont_neg_acc": 0.9104477620836514, "train/cont_neg_loss": 0.2251879598708585, "train/cont_pos_acc": 0.9998989055233617, "train/cont_pos_loss": 0.0002939708967831635, "train/cont_pred": 0.9982535400698261, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9900700369188864, "train/dyn_loss_std": 6.002551515640751, "train/extr_critic_critic_opt_grad_norm": 1.43546714667351, "train/extr_critic_critic_opt_grad_steps": 88430.0, "train/extr_critic_critic_opt_loss": 1.4616912426487092, "train/extr_critic_mag": 353.42266658659906, "train/extr_critic_max": 353.42266658659906, "train/extr_critic_mean": 135.11678235453945, "train/extr_critic_min": 0.45694392342721263, "train/extr_critic_std": 91.6923682182066, "train/extr_return_normed_mag": 1.4129439004005924, "train/extr_return_normed_max": 1.4129439004005924, "train/extr_return_normed_mean": 0.4394651547555001, "train/extr_return_normed_min": -0.021160893812174758, "train/extr_return_normed_std": 0.31459325869237226, "train/extr_return_rate": 0.948281717300415, "train/extr_return_raw_mag": 421.49044504473284, "train/extr_return_raw_max": 421.49044504473284, "train/extr_return_raw_mean": 135.6564223750945, "train/extr_return_raw_min": 0.4620238213769851, "train/extr_return_raw_std": 92.3743051590458, "train/extr_reward_mag": 140.57731880680208, "train/extr_reward_max": 140.57731880680208, "train/extr_reward_mean": 0.8369360335411564, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7331950879866076, "train/image_loss_mean": 1.1192936182022095, "train/image_loss_std": 0.894195088648027, "train/model_loss_mean": 2.974830639746881, "train/model_loss_std": 4.193886544627528, "train/model_opt_grad_norm": 10.374230637088898, "train/model_opt_grad_steps": 88430.0, "train/model_opt_loss": 2.974830639746881, "train/policy_entropy_mag": 2.648962677678754, "train/policy_entropy_max": 2.648962677678754, "train/policy_entropy_mean": 0.8535511470610095, "train/policy_entropy_min": 0.08019189291423368, "train/policy_entropy_std": 0.7014026799509602, "train/policy_logprob_mag": 7.495536613464355, "train/policy_logprob_max": -0.009489581036952233, "train/policy_logprob_mean": -0.8531468756737247, "train/policy_logprob_min": -7.495536613464355, "train/policy_logprob_std": 1.2613640000743251, "train/policy_randomness_mag": 0.9164782089571799, "train/policy_randomness_max": 0.9164782089571799, "train/policy_randomness_mean": 0.2953084371743664, "train/policy_randomness_min": 0.0277444914343857, "train/policy_randomness_std": 0.24266867714543497, "train/post_ent_mag": 63.756843689949285, "train/post_ent_max": 63.756843689949285, "train/post_ent_mean": 42.18853833598475, "train/post_ent_min": 13.538037115527738, "train/post_ent_std": 5.197963649995866, "train/prior_ent_mag": 84.45327350247291, "train/prior_ent_max": 84.45327350247291, "train/prior_ent_mean": 45.194343960669734, "train/prior_ent_min": 16.67487877261254, "train/prior_ent_std": 7.233606870712772, "train/rep_loss_mean": 2.9900700369188864, "train/rep_loss_std": 6.002551515640751, "train/reward_avg": 0.9273563508064516, "train/reward_loss_mean": 0.06075446783534942, "train/reward_loss_std": 0.23059718551174288, "train/reward_max_data": 87.80645161290323, "train/reward_max_pred": 57.48235016484414, "train/reward_neg_acc": 0.9771220976306546, "train/reward_neg_loss": 0.007080002431006682, "train/reward_pos_acc": 0.9948336566648176, "train/reward_pos_loss": 0.6443809382377133, "train/reward_pred": 0.8520927179244256, "train/reward_rate": 0.08451360887096775, "train_stats/mean_log_entropy": 0.7752111752827963, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.1433842195838224e-06, "report/cont_loss_std": 6.031017255736515e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.001770954579114914, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4153185929899337e-06, "report/cont_pred": 0.9990237951278687, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.947916030883789, "report/dyn_loss_std": 6.285027980804443, "report/image_loss_mean": 1.0551480054855347, "report/image_loss_std": 0.9289594888687134, "report/model_loss_mean": 2.881913185119629, "report/model_loss_std": 4.390748023986816, "report/post_ent_mag": 64.84649658203125, "report/post_ent_max": 64.84649658203125, "report/post_ent_mean": 42.087379455566406, "report/post_ent_min": 10.878361701965332, "report/post_ent_std": 5.537318706512451, "report/prior_ent_mag": 84.34343719482422, "report/prior_ent_max": 84.34343719482422, "report/prior_ent_mean": 45.053287506103516, "report/prior_ent_min": 13.154026985168457, "report/prior_ent_std": 7.320616722106934, "report/rep_loss_mean": 2.947916030883789, "report/rep_loss_std": 6.285027980804443, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.05801231041550636, "report/reward_loss_std": 0.25766974687576294, "report/reward_max_data": 20.0, "report/reward_max_pred": 18.78049659729004, "report/reward_neg_acc": 0.9830329418182373, "report/reward_neg_loss": 0.005199079401791096, "report/reward_pos_acc": 0.9876543283462524, "report/reward_pos_loss": 0.672862708568573, "report/reward_pred": 0.7454715967178345, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0040473733097314835, "eval/cont_loss_std": 0.1294350028038025, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.143943786621094, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.545498424908146e-07, "eval/cont_pred": 0.9999839663505554, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 22.040746688842773, "eval/dyn_loss_std": 13.536151885986328, "eval/image_loss_mean": 5.901029586791992, "eval/image_loss_std": 3.0065600872039795, "eval/model_loss_mean": 19.57904052734375, "eval/model_loss_std": 10.430888175964355, "eval/post_ent_mag": 65.97055053710938, "eval/post_ent_max": 65.97055053710938, "eval/post_ent_mean": 44.36759948730469, "eval/post_ent_min": 27.999832153320312, "eval/post_ent_std": 4.619358539581299, "eval/prior_ent_mag": 84.34343719482422, "eval/prior_ent_max": 84.34343719482422, "eval/prior_ent_mean": 49.461814880371094, "eval/prior_ent_min": 30.035247802734375, "eval/prior_ent_std": 5.874314785003662, "eval/rep_loss_mean": 22.040746688842773, "eval/rep_loss_std": 13.536151885986328, "eval/reward_avg": 0.244140625, "eval/reward_loss_mean": 0.44951650500297546, "eval/reward_loss_std": 2.8015758991241455, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.898832321166992, "eval/reward_neg_acc": 0.9509509205818176, "eval/reward_neg_loss": 0.03787343576550484, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 16.898773193359375, "eval/reward_pred": 0.11148729920387268, "eval/reward_rate": 0.0244140625, "replay/size": 121736.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.7048035554534935e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2600475776726542e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08092164993286, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 367.2053575515747, "timer/replay._sample_frac": 1.2236877823907366, "timer/replay._sample_avg": 0.014816226499014474, "timer/replay._sample_min": 0.0004544258117675781, "timer/replay._sample_max": 0.047446250915527344, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.638043642044067, "timer/env.step_frac": 0.0221208452891512, "timer/env.step_avg": 0.004285373558453239, "timer/env.step_min": 0.002334117889404297, "timer/env.step_max": 0.03146624565124512, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.77333283424377, "timer/agent.policy_frac": 0.37247730452066474, "timer/agent.policy_avg": 0.07215838142946661, "timer/agent.policy_min": 0.0027360916137695312, "timer/agent.policy_max": 0.2981736660003662, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.14506864547729492, "timer/dataset_train_frac": 0.0004834317512745062, "timer/dataset_train_avg": 9.365309585364424e-05, "timer/dataset_train_min": 5.888938903808594e-05, "timer/dataset_train_max": 0.0004305839538574219, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.34382271766663, "timer/agent.train_frac": 0.6009839670115762, "timer/agent.train_avg": 0.11642596689326444, "timer/agent.train_min": 0.10309815406799316, "timer/agent.train_max": 0.20369791984558105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2614126205444336, "timer/agent.report_frac": 0.0008711404214140319, "timer/agent.report_avg": 0.1307063102722168, "timer/agent.report_min": 0.10156607627868652, "timer/agent.report_max": 0.15984654426574707, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.4345855712890625e-05, "timer/dataset_eval_frac": 1.47779657130697e-07, "timer/dataset_eval_avg": 4.4345855712890625e-05, "timer/dataset_eval_min": 4.4345855712890625e-05, "timer/dataset_eval_max": 4.4345855712890625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10180068016052246, "timer/agent.save_frac": 0.00033924409322922793, "timer/agent.save_avg": 0.10180068016052246, "timer/agent.save_min": 0.10180068016052246, "timer/agent.save_max": 0.10180068016052246, "fps": 20.64647149625781}
+{"step": 361868, "episode/length": 584.0, "episode/score": 710.0, "episode/reward_rate": 0.12136752136752137}
+{"step": 364476, "episode/length": 651.0, "episode/score": 1230.0, "episode/reward_rate": 0.11349693251533742}
+{"step": 366756, "episode/length": 569.0, "episode/score": 1160.0, "episode/reward_rate": 0.11754385964912281}
+{"step": 367428, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.831918236517136, "train/action_min": 0.0, "train/action_std": 4.418388808158136, "train/actor_opt_grad_norm": 0.00805804883280108, "train/actor_opt_grad_steps": 89980.0, "train/actor_opt_loss": 0.0002569172874744606, "train/adv_mag": 0.7619949905141707, "train/adv_max": 0.7368646354444566, "train/adv_mean": 0.0021294141138271023, "train/adv_min": -0.39400654194816465, "train/adv_std": 0.03548928482998764, "train/cont_avg": 0.9982925907258065, "train/cont_loss_mean": 0.0006209474303223524, "train/cont_loss_std": 0.015670140739386475, "train/cont_neg_acc": 0.9022309719108221, "train/cont_neg_loss": 0.22217189187066416, "train/cont_pos_acc": 0.9999305663570281, "train/cont_pos_loss": 0.00025627093342264854, "train/cont_pred": 0.9982712076556298, "train/cont_rate": 0.9982925907258065, "train/dyn_loss_mean": 2.919765212458949, "train/dyn_loss_std": 5.975752812047158, "train/extr_critic_critic_opt_grad_norm": 1.447474044561386, "train/extr_critic_critic_opt_grad_steps": 89980.0, "train/extr_critic_critic_opt_loss": 1.4366248630708265, "train/extr_critic_mag": 358.1808894988029, "train/extr_critic_max": 358.1808894988029, "train/extr_critic_mean": 140.64144695651146, "train/extr_critic_min": 0.16637429729584724, "train/extr_critic_std": 93.33105495822045, "train/extr_return_normed_mag": 1.45809112364246, "train/extr_return_normed_max": 1.45809112364246, "train/extr_return_normed_mean": 0.4536642198601077, "train/extr_return_normed_min": -0.022581175492415506, "train/extr_return_normed_std": 0.31839270236030703, "train/extr_return_rate": 0.94837580303992, "train/extr_return_raw_mag": 438.9238415133569, "train/extr_return_raw_max": 438.9238415133569, "train/extr_return_raw_mean": 141.27245232366747, "train/extr_return_raw_min": 0.08846417397951647, "train/extr_return_raw_std": 94.38832183345671, "train/extr_reward_mag": 132.5293858066682, "train/extr_reward_max": 132.5293858066682, "train/extr_reward_mean": 0.8891856403120102, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.114186006976712, "train/image_loss_mean": 1.088389818899093, "train/image_loss_std": 0.8799848129672388, "train/model_loss_mean": 2.904150532137963, "train/model_loss_std": 4.168702797735891, "train/model_opt_grad_norm": 10.682143934311405, "train/model_opt_grad_steps": 89980.0, "train/model_opt_loss": 2.904150532137963, "train/policy_entropy_mag": 2.6410884088085544, "train/policy_entropy_max": 2.6410884088085544, "train/policy_entropy_mean": 0.8358164272000713, "train/policy_entropy_min": 0.08019164454552435, "train/policy_entropy_std": 0.6948103289450368, "train/policy_logprob_mag": 7.495539003802884, "train/policy_logprob_max": -0.009489562843115099, "train/policy_logprob_mean": -0.8359128209852403, "train/policy_logprob_min": -7.495539003802884, "train/policy_logprob_std": 1.255431123702757, "train/policy_randomness_mag": 0.9137538990666789, "train/policy_randomness_max": 0.9137538990666789, "train/policy_randomness_mean": 0.28917264178875957, "train/policy_randomness_min": 0.02774440547631633, "train/policy_randomness_std": 0.24038788166738326, "train/post_ent_mag": 63.449649736958165, "train/post_ent_max": 63.449649736958165, "train/post_ent_mean": 41.989861494495024, "train/post_ent_min": 12.78380390290291, "train/post_ent_std": 5.157747757819391, "train/prior_ent_mag": 84.48937077676096, "train/prior_ent_max": 84.48937077676096, "train/prior_ent_mean": 44.941609881001135, "train/prior_ent_min": 16.048071455186413, "train/prior_ent_std": 7.214482445870677, "train/rep_loss_mean": 2.919765212458949, "train/rep_loss_std": 5.975752812047158, "train/reward_avg": 0.9835559475806451, "train/reward_loss_mean": 0.06328065753463775, "train/reward_loss_std": 0.23912112780155675, "train/reward_max_data": 104.19354838709677, "train/reward_max_pred": 66.22972919094947, "train/reward_neg_acc": 0.9772236862490254, "train/reward_neg_loss": 0.00722844245648312, "train/reward_pos_acc": 0.994516961420736, "train/reward_pos_loss": 0.6455451161630692, "train/reward_pred": 0.8918277354009689, "train/reward_rate": 0.08790952620967742, "train_stats/mean_log_entropy": 0.790307362874349, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.5198405637638643e-05, "report/cont_loss_std": 0.00044353227713145316, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.005662019830197096, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.416744362359168e-05, "report/cont_pred": 0.9980437755584717, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.0778961181640625, "report/dyn_loss_std": 6.300671577453613, "report/image_loss_mean": 1.2578551769256592, "report/image_loss_std": 0.9819632768630981, "report/model_loss_mean": 3.150178909301758, "report/model_loss_std": 4.47736930847168, "report/post_ent_mag": 64.19279479980469, "report/post_ent_max": 64.19279479980469, "report/post_ent_mean": 41.43465805053711, "report/post_ent_min": 13.091733932495117, "report/post_ent_std": 5.049104690551758, "report/prior_ent_mag": 84.62252044677734, "report/prior_ent_max": 84.62252044677734, "report/prior_ent_mean": 44.71284866333008, "report/prior_ent_min": 14.134950637817383, "report/prior_ent_std": 7.073404312133789, "report/rep_loss_mean": 3.0778961181640625, "report/rep_loss_std": 6.300671577453613, "report/reward_avg": 0.60546875, "report/reward_loss_mean": 0.045560866594314575, "report/reward_loss_std": 0.2018575370311737, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.011273384094238, "report/reward_neg_acc": 0.982328474521637, "report/reward_neg_loss": 0.004655811470001936, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6802489757537842, "report/reward_pred": 0.5506064891815186, "report/reward_rate": 0.060546875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2399002713436857e-08, "eval/cont_loss_std": 9.430300451640505e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2399002713436857e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 19.279342651367188, "eval/dyn_loss_std": 13.668867111206055, "eval/image_loss_mean": 5.056593418121338, "eval/image_loss_std": 3.0282838344573975, "eval/model_loss_mean": 17.16016960144043, "eval/model_loss_std": 10.666326522827148, "eval/post_ent_mag": 54.132869720458984, "eval/post_ent_max": 54.132869720458984, "eval/post_ent_mean": 43.06841278076172, "eval/post_ent_min": 30.10436248779297, "eval/post_ent_std": 4.090324878692627, "eval/prior_ent_mag": 84.62252044677734, "eval/prior_ent_max": 84.62252044677734, "eval/prior_ent_mean": 48.611907958984375, "eval/prior_ent_min": 28.587295532226562, "eval/prior_ent_std": 6.185032367706299, "eval/rep_loss_mean": 19.279342651367188, "eval/rep_loss_std": 13.668867111206055, "eval/reward_avg": 0.322265625, "eval/reward_loss_mean": 0.5359704494476318, "eval/reward_loss_std": 3.180898904800415, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.964132308959961, "eval/reward_neg_acc": 0.9545913338661194, "eval/reward_neg_loss": 0.027282606810331345, "eval/reward_pos_acc": 0.09090908616781235, "eval/reward_pos_loss": 15.812018394470215, "eval/reward_pred": 0.08915092051029205, "eval/reward_rate": 0.0322265625, "replay/size": 123288.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.676353071153778e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259100114561848e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11780428886414, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 367.4809956550598, "timer/replay._sample_frac": 1.2244558316885408, "timer/replay._sample_avg": 0.014798687002861622, "timer/replay._sample_min": 0.0004596710205078125, "timer/replay._sample_max": 0.06495308876037598, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.613968133926392, "timer/env.step_frac": 0.022037906580045584, "timer/env.step_avg": 0.004261577405880407, "timer/env.step_min": 0.002250194549560547, "timer/env.step_max": 0.02909684181213379, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 111.48000645637512, "timer/agent.policy_frac": 0.37145415854460717, "timer/agent.policy_avg": 0.07182990106725201, "timer/agent.policy_min": 0.0027000904083251953, "timer/agent.policy_max": 0.0880885124206543, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14744305610656738, "timer/dataset_train_frac": 0.0004912839358395848, "timer/dataset_train_avg": 9.50019691408295e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.00022220611572265625, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 180.69700407981873, "timer/agent.train_frac": 0.6020869188616927, "timer/agent.train_avg": 0.11642848201019247, "timer/agent.train_min": 0.10309576988220215, "timer/agent.train_max": 0.20185089111328125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2580885887145996, "timer/agent.report_frac": 0.0008599576067342832, "timer/agent.report_avg": 0.1290442943572998, "timer/agent.report_min": 0.09679388999938965, "timer/agent.report_max": 0.16129469871520996, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.412101745605469e-05, "timer/dataset_eval_frac": 1.8033257834967723e-07, "timer/dataset_eval_avg": 5.412101745605469e-05, "timer/dataset_eval_min": 5.412101745605469e-05, "timer/dataset_eval_max": 5.412101745605469e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.684012147849103}
+{"step": 368496, "episode/length": 434.0, "episode/score": 1010.0, "episode/reward_rate": 0.11724137931034483}
+{"step": 371064, "episode/length": 641.0, "episode/score": 730.0, "episode/reward_rate": 0.11370716510903427}
+{"step": 373276, "episode/length": 552.0, "episode/score": 660.0, "episode/reward_rate": 0.11934900542495479}
+{"step": 373620, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.921846648185484, "train/action_min": 0.0, "train/action_std": 4.333239693795481, "train/actor_opt_grad_norm": 0.008849036879837513, "train/actor_opt_grad_steps": 91530.0, "train/actor_opt_loss": 0.0005277639628245872, "train/adv_mag": 0.8491694283100867, "train/adv_max": 0.8172567026269051, "train/adv_mean": 0.0025814247683170364, "train/adv_min": -0.4049518247765879, "train/adv_std": 0.03862897854658865, "train/cont_avg": 0.9982988911290323, "train/cont_loss_mean": 0.0007904539880622183, "train/cont_loss_std": 0.019519861625929943, "train/cont_neg_acc": 0.8951822931412607, "train/cont_neg_loss": 0.27202148097345, "train/cont_pos_acc": 0.9999052220775235, "train/cont_pos_loss": 0.0002792662977126365, "train/cont_pred": 0.998338984674023, "train/cont_rate": 0.9982988911290323, "train/dyn_loss_mean": 3.00916403647392, "train/dyn_loss_std": 6.020799061559861, "train/extr_critic_critic_opt_grad_norm": 1.4978853125726024, "train/extr_critic_critic_opt_grad_steps": 91530.0, "train/extr_critic_critic_opt_loss": 1.4567074583422752, "train/extr_critic_mag": 356.47852970246345, "train/extr_critic_max": 356.47852970246345, "train/extr_critic_mean": 141.71970357587261, "train/extr_critic_min": 0.6000385830479283, "train/extr_critic_std": 93.08958373531219, "train/extr_return_normed_mag": 1.5020634274328908, "train/extr_return_normed_max": 1.5020634274328908, "train/extr_return_normed_mean": 0.4581609847084169, "train/extr_return_normed_min": -0.02059460753544925, "train/extr_return_normed_std": 0.3183449609625724, "train/extr_return_rate": 0.9505066014105273, "train/extr_return_raw_mag": 451.6387470860635, "train/extr_return_raw_max": 451.6387470860635, "train/extr_return_raw_mean": 142.48397807459676, "train/extr_return_raw_min": 0.5959884506815504, "train/extr_return_raw_std": 94.33888690087103, "train/extr_reward_mag": 152.17397365570068, "train/extr_reward_max": 152.17397365570068, "train/extr_reward_mean": 0.8952107379513402, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.318333525811473, "train/image_loss_mean": 1.098465895268225, "train/image_loss_std": 0.877227412116143, "train/model_loss_mean": 2.9684327079403783, "train/model_loss_std": 4.186556283889279, "train/model_opt_grad_norm": 10.0744065284729, "train/model_opt_grad_steps": 91530.0, "train/model_opt_loss": 2.9684327079403783, "train/policy_entropy_mag": 2.633375903098814, "train/policy_entropy_max": 2.633375903098814, "train/policy_entropy_mean": 0.8332053715182889, "train/policy_entropy_min": 0.08019188623274526, "train/policy_entropy_std": 0.6877920977530941, "train/policy_logprob_mag": 7.495535459826069, "train/policy_logprob_max": -0.009489590999099516, "train/policy_logprob_mean": -0.8334216360122927, "train/policy_logprob_min": -7.495535459826069, "train/policy_logprob_std": 1.2563855178894536, "train/policy_randomness_mag": 0.9110855540921611, "train/policy_randomness_max": 0.9110855540921611, "train/policy_randomness_mean": 0.2882692821564213, "train/policy_randomness_min": 0.027744489139126194, "train/policy_randomness_std": 0.2379597399503954, "train/post_ent_mag": 63.1556767371393, "train/post_ent_max": 63.1556767371393, "train/post_ent_mean": 41.935064352712324, "train/post_ent_min": 13.098435180417953, "train/post_ent_std": 5.1412081318516885, "train/prior_ent_mag": 84.62279416976436, "train/prior_ent_max": 84.62279416976436, "train/prior_ent_mean": 44.952963010726435, "train/prior_ent_min": 16.235003256028698, "train/prior_ent_std": 7.221523850963962, "train/rep_loss_mean": 3.00916403647392, "train/rep_loss_std": 6.020799061559861, "train/reward_avg": 1.0102696572580645, "train/reward_loss_mean": 0.0636779333314588, "train/reward_loss_std": 0.23770027660554455, "train/reward_max_data": 122.12903225806451, "train/reward_max_pred": 63.69058927105319, "train/reward_neg_acc": 0.9765172081608926, "train/reward_neg_loss": 0.007711974320362412, "train/reward_pos_acc": 0.994442634044155, "train/reward_pos_loss": 0.6416237585006221, "train/reward_pred": 0.9044819639575097, "train/reward_rate": 0.08871597782258064, "train_stats/mean_log_entropy": 0.8011542359987894, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.38753870007713e-07, "report/cont_loss_std": 6.908140221639769e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.38753870007713e-07, "report/cont_pred": 0.9999997615814209, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.9047129154205322, "report/dyn_loss_std": 5.541753768920898, "report/image_loss_mean": 1.1567866802215576, "report/image_loss_std": 0.665945827960968, "report/model_loss_mean": 2.952998161315918, "report/model_loss_std": 3.7467494010925293, "report/post_ent_mag": 59.382568359375, "report/post_ent_max": 59.382568359375, "report/post_ent_mean": 44.58981704711914, "report/post_ent_min": 23.13313102722168, "report/post_ent_std": 3.9315478801727295, "report/prior_ent_mag": 84.70330810546875, "report/prior_ent_max": 84.70330810546875, "report/prior_ent_mean": 47.59316635131836, "report/prior_ent_min": 29.52348518371582, "report/prior_ent_std": 6.007498264312744, "report/rep_loss_mean": 2.9047129154205322, "report/rep_loss_std": 5.541753768920898, "report/reward_avg": 0.76171875, "report/reward_loss_mean": 0.053383562713861465, "report/reward_loss_std": 0.2228952795267105, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.014644622802734, "report/reward_neg_acc": 0.9883720874786377, "report/reward_neg_loss": 0.006576241459697485, "report/reward_pos_acc": 0.9871795177459717, "report/reward_pos_loss": 0.6210723519325256, "report/reward_pred": 0.7256845235824585, "report/reward_rate": 0.076171875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0015400259289890528, "eval/cont_loss_std": 0.047903358936309814, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.7713200449943542, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.360713890288025e-05, "eval/cont_pred": 0.9987884759902954, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 19.244613647460938, "eval/dyn_loss_std": 13.29543685913086, "eval/image_loss_mean": 4.854775428771973, "eval/image_loss_std": 2.8109052181243896, "eval/model_loss_mean": 16.96621322631836, "eval/model_loss_std": 10.499436378479004, "eval/post_ent_mag": 66.74771881103516, "eval/post_ent_max": 66.74771881103516, "eval/post_ent_mean": 43.477760314941406, "eval/post_ent_min": 27.081523895263672, "eval/post_ent_std": 4.773257255554199, "eval/prior_ent_mag": 84.70330810546875, "eval/prior_ent_max": 84.70330810546875, "eval/prior_ent_mean": 48.180145263671875, "eval/prior_ent_min": 29.28357696533203, "eval/prior_ent_std": 6.463863849639893, "eval/rep_loss_mean": 19.244613647460938, "eval/rep_loss_std": 13.29543685913086, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.5631279945373535, "eval/reward_loss_std": 3.135044813156128, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.010233879089355, "eval/reward_neg_acc": 0.9294354319572449, "eval/reward_neg_loss": 0.06730382144451141, "eval/reward_pos_acc": 0.0625, "eval/reward_pos_loss": 15.933677673339844, "eval/reward_pred": 0.1750657558441162, "eval/reward_rate": 0.03125, "replay/size": 124836.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.843531960972828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3293125678710542e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0265579223632812e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0066649913788, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 387.7113811969757, "timer/replay._sample_frac": 1.2923425591498685, "timer/replay._sample_avg": 0.015653721786053607, "timer/replay._sample_min": 0.0005931854248046875, "timer/replay._sample_max": 0.03864884376525879, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.698065519332886, "timer/env.step_frac": 0.022326389047141224, "timer/env.step_avg": 0.004326915710163363, "timer/env.step_min": 0.00229644775390625, "timer/env.step_max": 0.03047966957092285, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.19472455978394, "timer/agent.policy_frac": 0.37064084747243636, "timer/agent.policy_avg": 0.0718312174158811, "timer/agent.policy_min": 0.0028374195098876953, "timer/agent.policy_max": 0.08957505226135254, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15283966064453125, "timer/dataset_train_frac": 0.0005094542171218875, "timer/dataset_train_avg": 9.873363090731992e-05, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.0002541542053222656, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.76377892494202, "timer/agent.train_frac": 0.6025325435024471, "timer/agent.train_avg": 0.1167724670057765, "timer/agent.train_min": 0.1017920970916748, "timer/agent.train_max": 0.2045001983642578, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26516175270080566, "timer/agent.report_frac": 0.0008838528727634287, "timer/agent.report_avg": 0.13258087635040283, "timer/agent.report_min": 0.10193371772766113, "timer/agent.report_max": 0.16322803497314453, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.859623602407928e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63806137328137}
+{"step": 376492, "episode/length": 803.0, "episode/score": 1150.0, "episode/reward_rate": 0.08208955223880597}
+{"step": 378756, "episode/length": 565.0, "episode/score": 1150.0, "episode/reward_rate": 0.11484098939929328}
+{"step": 379800, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.904654422883064, "train/action_min": 0.0, "train/action_std": 4.2943434776798375, "train/actor_opt_grad_norm": 0.008152007352140162, "train/actor_opt_grad_steps": 93080.0, "train/actor_opt_loss": -2.3525160679766133e-05, "train/adv_mag": 0.7962761316568621, "train/adv_max": 0.7689595987719874, "train/adv_mean": 0.0019012155006660784, "train/adv_min": -0.38310891841688466, "train/adv_std": 0.03588457663934077, "train/cont_avg": 0.9983114919354839, "train/cont_loss_mean": 0.0005415748681241187, "train/cont_loss_std": 0.013770283359310517, "train/cont_neg_acc": 0.9217171723192389, "train/cont_neg_loss": 0.1839296162248419, "train/cont_pos_acc": 0.9999305432842623, "train/cont_pos_loss": 0.0002202005000866038, "train/cont_pred": 0.9983092965618257, "train/cont_rate": 0.9983114919354839, "train/dyn_loss_mean": 2.9503217097251646, "train/dyn_loss_std": 6.020136522477673, "train/extr_critic_critic_opt_grad_norm": 1.482533855976597, "train/extr_critic_critic_opt_grad_steps": 93080.0, "train/extr_critic_critic_opt_loss": 1.445027535192428, "train/extr_critic_mag": 359.85595604681197, "train/extr_critic_max": 359.85595604681197, "train/extr_critic_mean": 144.42604197840538, "train/extr_critic_min": 0.23197631989755937, "train/extr_critic_std": 95.27918388612808, "train/extr_return_normed_mag": 1.4489936878604273, "train/extr_return_normed_max": 1.4489936878604273, "train/extr_return_normed_mean": 0.46123930792654716, "train/extr_return_normed_min": -0.02248807870031845, "train/extr_return_normed_std": 0.3215152103093363, "train/extr_return_rate": 0.9487311482429505, "train/extr_return_raw_mag": 440.2614905572707, "train/extr_return_raw_max": 440.2614905572707, "train/extr_return_raw_mean": 144.99404882615613, "train/extr_return_raw_min": 0.38929606357292695, "train/extr_return_raw_std": 96.11997488698651, "train/extr_reward_mag": 143.61690392032747, "train/extr_reward_max": 143.61690392032747, "train/extr_reward_mean": 0.8896382385684598, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.238497264923588, "train/image_loss_mean": 1.0721836897634691, "train/image_loss_std": 0.8632779044489707, "train/model_loss_mean": 2.905988028741652, "train/model_loss_std": 4.181539684726346, "train/model_opt_grad_norm": 10.374755825534944, "train/model_opt_grad_steps": 93080.0, "train/model_opt_loss": 2.905988028741652, "train/policy_entropy_mag": 2.624984521250571, "train/policy_entropy_max": 2.624984521250571, "train/policy_entropy_mean": 0.8144587174538643, "train/policy_entropy_min": 0.08019180898704836, "train/policy_entropy_std": 0.6844732446055258, "train/policy_logprob_mag": 7.495537856317336, "train/policy_logprob_max": -0.009489579582887311, "train/policy_logprob_mean": -0.8149837968810912, "train/policy_logprob_min": -7.495537856317336, "train/policy_logprob_std": 1.2475275131963914, "train/policy_randomness_mag": 0.9081823364380868, "train/policy_randomness_max": 0.9081823364380868, "train/policy_randomness_mean": 0.281783385815159, "train/policy_randomness_min": 0.027744462389138438, "train/policy_randomness_std": 0.23681149463499745, "train/post_ent_mag": 63.820855737501574, "train/post_ent_max": 63.820855737501574, "train/post_ent_mean": 41.901851235666584, "train/post_ent_min": 12.822549226207117, "train/post_ent_std": 5.176401378262428, "train/prior_ent_mag": 84.72213784494707, "train/prior_ent_max": 84.72213784494707, "train/prior_ent_mean": 44.86155806510679, "train/prior_ent_min": 16.183204152507166, "train/prior_ent_std": 7.253794885450794, "train/rep_loss_mean": 2.9503217097251646, "train/rep_loss_std": 6.020136522477673, "train/reward_avg": 1.005796370967742, "train/reward_loss_mean": 0.06306975680974222, "train/reward_loss_std": 0.23895262893169156, "train/reward_max_data": 116.19354838709677, "train/reward_max_pred": 74.49072746769075, "train/reward_neg_acc": 0.9782350759352407, "train/reward_neg_loss": 0.006898121282668604, "train/reward_pos_acc": 0.9935209035873414, "train/reward_pos_loss": 0.6468058855302872, "train/reward_pred": 0.9094081349911228, "train/reward_rate": 0.08820564516129033, "train_stats/mean_log_entropy": 0.8206640183925629, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.0193781640264206e-05, "report/cont_loss_std": 0.0006666246918030083, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.020665332674980164, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0022582500823773e-05, "report/cont_pred": 0.9990334510803223, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.00537109375, "report/dyn_loss_std": 5.883467197418213, "report/image_loss_mean": 1.1371841430664062, "report/image_loss_std": 0.8640469312667847, "report/model_loss_mean": 2.9976375102996826, "report/model_loss_std": 4.096353054046631, "report/post_ent_mag": 65.02047729492188, "report/post_ent_max": 65.02047729492188, "report/post_ent_mean": 42.75203323364258, "report/post_ent_min": 11.388076782226562, "report/post_ent_std": 5.107367992401123, "report/prior_ent_mag": 84.62544250488281, "report/prior_ent_max": 84.62544250488281, "report/prior_ent_mean": 45.48188781738281, "report/prior_ent_min": 14.059198379516602, "report/prior_ent_std": 6.827469825744629, "report/rep_loss_mean": 3.00537109375, "report/rep_loss_std": 5.883467197418213, "report/reward_avg": 0.830078125, "report/reward_loss_mean": 0.05720050632953644, "report/reward_loss_std": 0.19789215922355652, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008779525756836, "report/reward_neg_acc": 0.97444087266922, "report/reward_neg_loss": 0.005588055122643709, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6273663640022278, "report/reward_pred": 0.7636113166809082, "report/reward_rate": 0.0830078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.4173043534101453e-07, "eval/cont_loss_std": 9.318415322923101e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.4173043534101453e-07, "eval/cont_pred": 0.9999995827674866, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 18.37615966796875, "eval/dyn_loss_std": 13.317298889160156, "eval/image_loss_mean": 5.192959785461426, "eval/image_loss_std": 3.117447853088379, "eval/model_loss_mean": 16.877382278442383, "eval/model_loss_std": 11.02607536315918, "eval/post_ent_mag": 56.67625427246094, "eval/post_ent_max": 56.67625427246094, "eval/post_ent_mean": 43.60026550292969, "eval/post_ent_min": 26.86870765686035, "eval/post_ent_std": 4.743197917938232, "eval/prior_ent_mag": 84.62544250488281, "eval/prior_ent_max": 84.62544250488281, "eval/prior_ent_mean": 48.73704528808594, "eval/prior_ent_min": 31.49663543701172, "eval/prior_ent_std": 6.359741687774658, "eval/rep_loss_mean": 18.37615966796875, "eval/rep_loss_std": 13.317298889160156, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.6587274074554443, "eval/reward_loss_std": 3.5387511253356934, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002290725708008, "eval/reward_neg_acc": 0.9725610613822937, "eval/reward_neg_loss": 0.020857971161603928, "eval/reward_pos_acc": 0.07500000298023224, "eval/reward_pos_loss": 16.350317001342773, "eval/reward_pred": 0.04808495193719864, "eval/reward_rate": 0.0390625, "replay/size": 126381.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.927780250129576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363882175927024e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.97599506378174, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 391.108544588089, "timer/replay._sample_frac": 1.3037994740376821, "timer/replay._sample_avg": 0.015821543065861206, "timer/replay._sample_min": 0.0005545616149902344, "timer/replay._sample_max": 0.06236696243286133, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.6931374073028564, "timer/env.step_frac": 0.022312243370939542, "timer/env.step_avg": 0.004332127771717059, "timer/env.step_min": 0.002363443374633789, "timer/env.step_max": 0.027963876724243164, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.08813619613647, "timer/agent.policy_frac": 0.370323419287322, "timer/agent.policy_avg": 0.07190170627581649, "timer/agent.policy_min": 0.002869844436645508, "timer/agent.policy_max": 0.1683027744293213, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15411067008972168, "timer/dataset_train_frac": 0.000513743341552894, "timer/dataset_train_avg": 9.97480065305642e-05, "timer/dataset_train_min": 5.9604644775390625e-05, "timer/dataset_train_max": 0.0001964569091796875, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.86905574798584, "timer/agent.train_frac": 0.6029450980220232, "timer/agent.train_avg": 0.11706734999869634, "timer/agent.train_min": 0.10404634475708008, "timer/agent.train_max": 0.25864315032958984, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.196502685546875, "timer/agent.report_frac": 0.0006550613675107371, "timer/agent.report_avg": 0.0982513427734375, "timer/agent.report_min": 0.09763383865356445, "timer/agent.report_max": 0.09886884689331055, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.389617919921875e-05, "timer/dataset_eval_frac": 2.1300430784680943e-07, "timer/dataset_eval_avg": 6.389617919921875e-05, "timer/dataset_eval_min": 6.389617919921875e-05, "timer/dataset_eval_max": 6.389617919921875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16216754913330078, "timer/agent.save_frac": 0.0005406017541464285, "timer/agent.save_avg": 0.16216754913330078, "timer/agent.save_min": 0.16216754913330078, "timer/agent.save_max": 0.16216754913330078, "fps": 20.600608199432692}
+{"step": 381264, "episode/length": 626.0, "episode/score": 2200.0, "episode/reward_rate": 0.11483253588516747}
+{"step": 384828, "episode/length": 890.0, "episode/score": 720.0, "episode/reward_rate": 0.08080808080808081}
+{"step": 385996, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.974974396940949, "train/action_min": 0.0, "train/action_std": 4.283031983809038, "train/actor_opt_grad_norm": 0.008144930688446605, "train/actor_opt_grad_steps": 94625.0, "train/actor_opt_loss": 0.0003080904421291029, "train/adv_mag": 0.7602343886316597, "train/adv_max": 0.7294867312559834, "train/adv_mean": 0.0021656046736071204, "train/adv_min": -0.41492452211194225, "train/adv_std": 0.03494503138006314, "train/cont_avg": 0.9984844257305194, "train/cont_loss_mean": 0.00042619355589666963, "train/cont_loss_std": 0.009783483143008186, "train/cont_neg_acc": 0.9342741942213427, "train/cont_neg_loss": 0.13398114037968592, "train/cont_pos_acc": 0.9999237648852459, "train/cont_pos_loss": 0.00022293284292710798, "train/cont_pred": 0.9984469866597807, "train/cont_rate": 0.9984844257305194, "train/dyn_loss_mean": 2.9621216229030063, "train/dyn_loss_std": 6.0101496739821, "train/extr_critic_critic_opt_grad_norm": 1.4481109191070904, "train/extr_critic_critic_opt_grad_steps": 94625.0, "train/extr_critic_critic_opt_loss": 1.4582413318869356, "train/extr_critic_mag": 360.4061580509334, "train/extr_critic_max": 360.4061580509334, "train/extr_critic_mean": 142.65869100991782, "train/extr_critic_min": 0.11961571117500205, "train/extr_critic_std": 94.23686842484908, "train/extr_return_normed_mag": 1.4043372323760739, "train/extr_return_normed_max": 1.4043372323760739, "train/extr_return_normed_mean": 0.4522406764618762, "train/extr_return_normed_min": -0.021397324018906077, "train/extr_return_normed_std": 0.3139096849731037, "train/extr_return_rate": 0.9521518674763766, "train/extr_return_raw_mag": 431.01600528073, "train/extr_return_raw_max": 431.01600528073, "train/extr_return_raw_mean": 143.31343029071758, "train/extr_return_raw_min": 0.09307753398119435, "train/extr_return_raw_std": 94.92205280452579, "train/extr_reward_mag": 141.27516349569544, "train/extr_reward_max": 141.27516349569544, "train/extr_reward_mean": 0.8686680275124389, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.153595157257922, "train/image_loss_mean": 1.0810389360050103, "train/image_loss_std": 0.8753242531380097, "train/model_loss_mean": 2.9206758551783376, "train/model_loss_std": 4.184138677336953, "train/model_opt_grad_norm": 10.26034911267169, "train/model_opt_grad_steps": 94625.0, "train/model_opt_loss": 2.9206758551783376, "train/policy_entropy_mag": 2.6393995238589003, "train/policy_entropy_max": 2.6393995238589003, "train/policy_entropy_mean": 0.8225813461588575, "train/policy_entropy_min": 0.0801917314045615, "train/policy_entropy_std": 0.6851013697587051, "train/policy_logprob_mag": 7.49553842358775, "train/policy_logprob_max": -0.00948956978882288, "train/policy_logprob_mean": -0.8231358992588984, "train/policy_logprob_min": -7.49553842358775, "train/policy_logprob_std": 1.2480048459845703, "train/policy_randomness_mag": 0.9131695844910361, "train/policy_randomness_max": 0.9131695844910361, "train/policy_randomness_mean": 0.28459362047059195, "train/policy_randomness_min": 0.027744435499627868, "train/policy_randomness_std": 0.23702881320730432, "train/post_ent_mag": 63.76817794898888, "train/post_ent_max": 63.76817794898888, "train/post_ent_mean": 41.88077542688939, "train/post_ent_min": 12.745751337571578, "train/post_ent_std": 5.18182373046875, "train/prior_ent_mag": 84.78729639424907, "train/prior_ent_max": 84.78729639424907, "train/prior_ent_mean": 44.885241644723074, "train/prior_ent_min": 15.904097798582795, "train/prior_ent_std": 7.243212275690847, "train/rep_loss_mean": 2.9621216229030063, "train/rep_loss_std": 6.0101496739821, "train/reward_avg": 1.0237418831168832, "train/reward_loss_mean": 0.06193775566318979, "train/reward_loss_std": 0.2355216368065252, "train/reward_max_data": 139.02597402597402, "train/reward_max_pred": 73.77055168771125, "train/reward_neg_acc": 0.9773792295486896, "train/reward_neg_loss": 0.006847552602124921, "train/reward_pos_acc": 0.9950904323683156, "train/reward_pos_loss": 0.6437822773859099, "train/reward_pred": 0.8882715729149905, "train/reward_rate": 0.08657797280844155, "train_stats/mean_log_entropy": 0.8588317632675171, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.181540134595707e-05, "report/cont_loss_std": 0.001243315520696342, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.039707452058792114, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.041561058125808e-06, "report/cont_pred": 0.9990584254264832, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.126478672027588, "report/dyn_loss_std": 6.137044906616211, "report/image_loss_mean": 1.1820600032806396, "report/image_loss_std": 0.9736177325248718, "report/model_loss_mean": 3.1027936935424805, "report/model_loss_std": 4.3652825355529785, "report/post_ent_mag": 60.82978439331055, "report/post_ent_max": 60.82978439331055, "report/post_ent_mean": 41.20069122314453, "report/post_ent_min": 9.478015899658203, "report/post_ent_std": 5.8904032707214355, "report/prior_ent_mag": 84.43096923828125, "report/prior_ent_max": 84.43096923828125, "report/prior_ent_mean": 44.25807189941406, "report/prior_ent_min": 15.222111701965332, "report/prior_ent_std": 7.571315288543701, "report/rep_loss_mean": 3.126478672027588, "report/rep_loss_std": 6.137044906616211, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 0.044804494827985764, "report/reward_loss_std": 0.17686548829078674, "report/reward_max_data": 20.0, "report/reward_max_pred": 13.226387023925781, "report/reward_neg_acc": 0.9802083969116211, "report/reward_neg_loss": 0.004445991013199091, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6501820683479309, "report/reward_pred": 0.5656185150146484, "report/reward_rate": 0.0625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007407824508845806, "eval/cont_loss_std": 0.2369285523891449, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.585419178009033, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8854471761642344e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.361310958862305, "eval/dyn_loss_std": 14.439839363098145, "eval/image_loss_mean": 4.963700294494629, "eval/image_loss_std": 3.059938669204712, "eval/model_loss_mean": 16.90658187866211, "eval/model_loss_std": 10.839886665344238, "eval/post_ent_mag": 66.50918579101562, "eval/post_ent_max": 66.50918579101562, "eval/post_ent_mean": 43.29833221435547, "eval/post_ent_min": 26.166095733642578, "eval/post_ent_std": 4.628609657287598, "eval/prior_ent_mag": 84.43096923828125, "eval/prior_ent_max": 84.43096923828125, "eval/prior_ent_mean": 48.76522445678711, "eval/prior_ent_min": 29.046066284179688, "eval/prior_ent_std": 6.46426248550415, "eval/rep_loss_mean": 19.361310958862305, "eval/rep_loss_std": 14.439839363098145, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.31868866086006165, "eval/reward_loss_std": 2.032276153564453, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.985962867736816, "eval/reward_neg_acc": 0.9718876481056213, "eval/reward_neg_loss": 0.029804933816194534, "eval/reward_pos_acc": 0.1428571492433548, "eval/reward_pos_loss": 10.594695091247559, "eval/reward_pred": 0.07602887600660324, "eval/reward_rate": 0.02734375, "replay/size": 127930.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.761445283735853e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3264919420147497e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.041459083557129e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.121160030365, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 391.21755170822144, "timer/replay._sample_frac": 1.3035320524172294, "timer/replay._sample_avg": 0.0157850852044957, "timer/replay._sample_min": 0.0006117820739746094, "timer/replay._sample_max": 0.04039502143859863, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.661121606826782, "timer/env.step_frac": 0.022194774957396666, "timer/env.step_avg": 0.0043002721800043785, "timer/env.step_min": 0.002444028854370117, "timer/env.step_max": 0.030197858810424805, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.47364115715027, "timer/agent.policy_frac": 0.3714287961097839, "timer/agent.policy_avg": 0.07196490713825066, "timer/agent.policy_min": 0.002844095230102539, "timer/agent.policy_max": 0.08814597129821777, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15569567680358887, "timer/dataset_train_frac": 0.000518776072929467, "timer/dataset_train_avg": 0.00010051367127410514, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.00019359588623046875, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.65723729133606, "timer/agent.train_frac": 0.6019476843054249, "timer/agent.train_avg": 0.11662830038175342, "timer/agent.train_min": 0.10322904586791992, "timer/agent.train_max": 0.20290136337280273, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2573986053466797, "timer/agent.report_frac": 0.0008576489752359919, "timer/agent.report_avg": 0.12869930267333984, "timer/agent.report_min": 0.09560370445251465, "timer/agent.report_max": 0.16179490089416504, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8748023185794668e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.643678806375767}
+{"step": 388404, "episode/length": 893.0, "episode/score": 750.0, "episode/reward_rate": 0.08389261744966443}
+{"step": 390208, "episode/length": 450.0, "episode/score": 1050.0, "episode/reward_rate": 0.12416851441241686}
+{"step": 392184, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.890851420740928, "train/action_min": 0.0, "train/action_std": 4.3234191386930405, "train/actor_opt_grad_norm": 0.007663921927732806, "train/actor_opt_grad_steps": 96170.0, "train/actor_opt_loss": 0.00021945460940778796, "train/adv_mag": 0.7127491038653159, "train/adv_max": 0.6871899464438038, "train/adv_mean": 0.001982304992833956, "train/adv_min": -0.37164696704956796, "train/adv_std": 0.03263741170446719, "train/cont_avg": 0.9983555947580646, "train/cont_loss_mean": 0.0006464113674461661, "train/cont_loss_std": 0.015221577523271431, "train/cont_neg_acc": 0.9287634412607839, "train/cont_neg_loss": 0.20439424741464143, "train/cont_pos_acc": 0.9998988936024328, "train/cont_pos_loss": 0.00030343705004883204, "train/cont_pred": 0.9983198358166603, "train/cont_rate": 0.9983555947580646, "train/dyn_loss_mean": 3.078790263206728, "train/dyn_loss_std": 6.082589518639349, "train/extr_critic_critic_opt_grad_norm": 1.4474238853300772, "train/extr_critic_critic_opt_grad_steps": 96170.0, "train/extr_critic_critic_opt_loss": 1.4543919624820831, "train/extr_critic_mag": 361.2675787156628, "train/extr_critic_max": 361.2675787156628, "train/extr_critic_mean": 145.1051774547946, "train/extr_critic_min": 0.1903317097694643, "train/extr_critic_std": 94.76275181924143, "train/extr_return_normed_mag": 1.3610027436287173, "train/extr_return_normed_max": 1.3610027436287173, "train/extr_return_normed_mean": 0.45641102925423654, "train/extr_return_normed_min": -0.02127208150322399, "train/extr_return_normed_std": 0.31252331695249, "train/extr_return_rate": 0.9504167118380147, "train/extr_return_raw_mag": 420.83330708165323, "train/extr_return_raw_max": 420.83330708165323, "train/extr_return_raw_mean": 145.70638614777596, "train/extr_return_raw_min": 0.25603531955951647, "train/extr_return_raw_std": 95.19707336425782, "train/extr_reward_mag": 121.40569987758514, "train/extr_reward_max": 121.40569987758514, "train/extr_reward_mean": 0.8409006405261255, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.64211455622027, "train/image_loss_mean": 1.0967128415261544, "train/image_loss_std": 0.8873043552521737, "train/model_loss_mean": 3.0082579028221867, "train/model_loss_std": 4.241285234881985, "train/model_opt_grad_norm": 10.09055635390743, "train/model_opt_grad_steps": 96170.0, "train/model_opt_loss": 3.0082579028221867, "train/policy_entropy_mag": 2.6306589618805916, "train/policy_entropy_max": 2.6306589618805916, "train/policy_entropy_mean": 0.8162559482359117, "train/policy_entropy_min": 0.08019168175035907, "train/policy_entropy_std": 0.6797995113557385, "train/policy_logprob_mag": 7.495539120704897, "train/policy_logprob_max": -0.009489565853390001, "train/policy_logprob_mean": -0.816826658479629, "train/policy_logprob_min": -7.495539120704897, "train/policy_logprob_std": 1.2456364485525315, "train/policy_randomness_mag": 0.910145555773089, "train/policy_randomness_max": 0.910145555773089, "train/policy_randomness_mean": 0.28240518435355155, "train/policy_randomness_min": 0.027744418430712917, "train/policy_randomness_std": 0.2351944944550914, "train/post_ent_mag": 63.136873946651335, "train/post_ent_max": 63.136873946651335, "train/post_ent_mean": 41.79738737537015, "train/post_ent_min": 12.965825403890301, "train/post_ent_std": 5.21372246896067, "train/prior_ent_mag": 84.82081170851184, "train/prior_ent_max": 84.82081170851184, "train/prior_ent_mean": 44.84565761935326, "train/prior_ent_min": 16.127187636590772, "train/prior_ent_std": 7.323121676906463, "train/rep_loss_mean": 3.078790263206728, "train/rep_loss_std": 6.082589518639349, "train/reward_avg": 1.0041582661290323, "train/reward_loss_mean": 0.06362448535378902, "train/reward_loss_std": 0.24064900884705206, "train/reward_max_data": 140.96774193548387, "train/reward_max_pred": 77.98754220777943, "train/reward_neg_acc": 0.9762615296148485, "train/reward_neg_loss": 0.00751636553285343, "train/reward_pos_acc": 0.9934302218498722, "train/reward_pos_loss": 0.6539742796651778, "train/reward_pred": 0.8928770688272292, "train/reward_rate": 0.08717237903225807, "train_stats/mean_log_entropy": 0.9109739363193512, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.472953100455925e-05, "report/cont_loss_std": 0.0015836136881262064, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02555970288813114, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4837215530860703e-05, "report/cont_pred": 0.998080849647522, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.960190534591675, "report/dyn_loss_std": 6.534354209899902, "report/image_loss_mean": 1.09480881690979, "report/image_loss_std": 0.9693548679351807, "report/model_loss_mean": 2.927539587020874, "report/model_loss_std": 4.540182590484619, "report/post_ent_mag": 62.42613220214844, "report/post_ent_max": 62.42613220214844, "report/post_ent_mean": 40.633201599121094, "report/post_ent_min": 11.669112205505371, "report/post_ent_std": 5.899287223815918, "report/prior_ent_mag": 84.76676940917969, "report/prior_ent_max": 84.76676940917969, "report/prior_ent_mean": 43.67256164550781, "report/prior_ent_min": 14.499116897583008, "report/prior_ent_std": 7.813568592071533, "report/rep_loss_mean": 2.960190534591675, "report/rep_loss_std": 6.534354209899902, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.056551672518253326, "report/reward_loss_std": 0.1875472366809845, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.998685836791992, "report/reward_neg_acc": 0.9754011034965515, "report/reward_neg_loss": 0.005797470919787884, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5897559523582458, "report/reward_pred": 0.862524688243866, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.003428664291277528, "eval/cont_loss_std": 0.10452046990394592, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.342284679412842, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00016487571701873094, "eval/cont_pred": 0.9998136758804321, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 17.526634216308594, "eval/dyn_loss_std": 14.267782211303711, "eval/image_loss_mean": 4.500924110412598, "eval/image_loss_std": 3.0025808811187744, "eval/model_loss_mean": 15.300146102905273, "eval/model_loss_std": 10.651880264282227, "eval/post_ent_mag": 65.18672180175781, "eval/post_ent_max": 65.18672180175781, "eval/post_ent_mean": 42.66193389892578, "eval/post_ent_min": 25.745241165161133, "eval/post_ent_std": 5.273681163787842, "eval/prior_ent_mag": 84.76676940917969, "eval/prior_ent_max": 84.76676940917969, "eval/prior_ent_mean": 47.86605453491211, "eval/prior_ent_min": 27.94251251220703, "eval/prior_ent_std": 6.960723876953125, "eval/rep_loss_mean": 17.526634216308594, "eval/rep_loss_std": 14.267782211303711, "eval/reward_avg": 0.21484375, "eval/reward_loss_mean": 0.279812216758728, "eval/reward_loss_std": 1.9084919691085815, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008748054504395, "eval/reward_neg_acc": 0.9481037855148315, "eval/reward_neg_loss": 0.05740691348910332, "eval/reward_pos_acc": 0.1818181872367859, "eval/reward_pos_loss": 10.40936279296875, "eval/reward_pred": 0.1394421011209488, "eval/reward_rate": 0.021484375, "replay/size": 129477.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.979665616904063e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3277445135381658e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.4884939193725586e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06383514404297, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 390.1042194366455, "timer/replay._sample_frac": 1.3000707641071756, "timer/replay._sample_avg": 0.015760513067091367, "timer/replay._sample_min": 0.000457763671875, "timer/replay._sample_max": 0.05187344551086426, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.65583610534668, "timer/env.step_frac": 0.02218140050816722, "timer/env.step_avg": 0.004302415064865339, "timer/env.step_min": 0.0020744800567626953, "timer/env.step_max": 0.032204627990722656, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.0052125453949, "timer/agent.policy_frac": 0.36993865819287364, "timer/agent.policy_avg": 0.07175514708816735, "timer/agent.policy_min": 0.0027399063110351562, "timer/agent.policy_max": 0.08692002296447754, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1618785858154297, "timer/dataset_train_frac": 0.0005394804933347643, "timer/dataset_train_avg": 0.00010464032696537149, "timer/dataset_train_min": 6.389617919921875e-05, "timer/dataset_train_max": 0.0003619194030761719, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.02212023735046, "timer/agent.train_frac": 0.6032786995155628, "timer/agent.train_avg": 0.11701494520837134, "timer/agent.train_min": 0.1037595272064209, "timer/agent.train_max": 0.20843791961669922, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2635040283203125, "timer/agent.report_frac": 0.0008781599028547367, "timer/agent.report_avg": 0.13175201416015625, "timer/agent.report_min": 0.10294747352600098, "timer/agent.report_max": 0.16055655479431152, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.05718994140625e-05, "timer/dataset_eval_frac": 2.3518962016927194e-07, "timer/dataset_eval_avg": 7.05718994140625e-05, "timer/dataset_eval_min": 7.05718994140625e-05, "timer/dataset_eval_max": 7.05718994140625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621106795221603}
+{"step": 392628, "episode/length": 604.0, "episode/score": 1190.0, "episode/reward_rate": 0.11570247933884298}
+{"step": 395072, "episode/length": 610.0, "episode/score": 610.0, "episode/reward_rate": 0.09983633387888707}
+{"step": 397560, "episode/length": 621.0, "episode/score": 680.0, "episode/reward_rate": 0.10932475884244373}
+{"step": 398368, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.913816784274193, "train/action_min": 0.0, "train/action_std": 4.255678864448301, "train/actor_opt_grad_norm": 0.008258495191412587, "train/actor_opt_grad_steps": 97720.0, "train/actor_opt_loss": 0.00021217266249667801, "train/adv_mag": 0.7518875878664755, "train/adv_max": 0.725158572293097, "train/adv_mean": 0.0018928722574679752, "train/adv_min": -0.39304915714648464, "train/adv_std": 0.034594098839067645, "train/cont_avg": 0.9982673891129032, "train/cont_loss_mean": 0.0005240716594423317, "train/cont_loss_std": 0.013229850338172542, "train/cont_neg_acc": 0.9370646774768829, "train/cont_neg_loss": 0.18045830886140082, "train/cont_pos_acc": 0.9999494433403016, "train/cont_pos_loss": 0.0001844251071190225, "train/cont_pred": 0.9982832897093988, "train/cont_rate": 0.9982673891129032, "train/dyn_loss_mean": 3.000903057282971, "train/dyn_loss_std": 6.084062982374622, "train/extr_critic_critic_opt_grad_norm": 1.5278192216350186, "train/extr_critic_critic_opt_grad_steps": 97720.0, "train/extr_critic_critic_opt_loss": 1.4829096363436791, "train/extr_critic_mag": 364.0782878260459, "train/extr_critic_max": 364.0782878260459, "train/extr_critic_mean": 144.77436119817918, "train/extr_critic_min": 0.22881346441084338, "train/extr_critic_std": 96.12960849885017, "train/extr_return_normed_mag": 1.3904785286995673, "train/extr_return_normed_max": 1.3904785286995673, "train/extr_return_normed_mean": 0.45349511600309805, "train/extr_return_normed_min": -0.024832599477902534, "train/extr_return_normed_std": 0.31824252009391785, "train/extr_return_rate": 0.9517200612252759, "train/extr_return_raw_mag": 430.1081789078251, "train/extr_return_raw_max": 430.1081789078251, "train/extr_return_raw_mean": 145.3494916362147, "train/extr_return_raw_min": 0.0071651888776555536, "train/extr_return_raw_std": 96.70061537219632, "train/extr_reward_mag": 145.24716873168944, "train/extr_reward_max": 145.24716873168944, "train/extr_reward_mean": 0.8441940265317117, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.022056190429195, "train/image_loss_mean": 1.089252999905617, "train/image_loss_std": 0.8791855223717228, "train/model_loss_mean": 2.95210949220965, "train/model_loss_std": 4.23602706386197, "train/model_opt_grad_norm": 10.090893293196155, "train/model_opt_grad_steps": 97720.0, "train/model_opt_loss": 2.95210949220965, "train/policy_entropy_mag": 2.631027521625642, "train/policy_entropy_max": 2.631027521625642, "train/policy_entropy_mean": 0.8046812345904689, "train/policy_entropy_min": 0.08019166689726615, "train/policy_entropy_std": 0.6686627553355309, "train/policy_logprob_mag": 7.495537028774138, "train/policy_logprob_max": -0.009489559748720738, "train/policy_logprob_mean": -0.804085176221786, "train/policy_logprob_min": -7.495537028774138, "train/policy_logprob_std": 1.2383284299604354, "train/policy_randomness_mag": 0.9102730708737528, "train/policy_randomness_max": 0.9102730708737528, "train/policy_randomness_mean": 0.27840060668606914, "train/policy_randomness_min": 0.027744413275391826, "train/policy_randomness_std": 0.2313414421773726, "train/post_ent_mag": 63.73960642660818, "train/post_ent_max": 63.73960642660818, "train/post_ent_mean": 41.79086466143208, "train/post_ent_min": 12.964269634985154, "train/post_ent_std": 5.19649138604441, "train/prior_ent_mag": 84.98451523319368, "train/prior_ent_max": 84.98451523319368, "train/prior_ent_mean": 44.84420414586221, "train/prior_ent_min": 16.284139996190223, "train/prior_ent_std": 7.323462092491888, "train/rep_loss_mean": 3.000903057282971, "train/rep_loss_std": 6.084062982374622, "train/reward_avg": 0.9975428427419355, "train/reward_loss_mean": 0.0617906091193999, "train/reward_loss_std": 0.2381959621944735, "train/reward_max_data": 122.38709677419355, "train/reward_max_pred": 64.37598485023744, "train/reward_neg_acc": 0.9769871654049043, "train/reward_neg_loss": 0.006856234858353292, "train/reward_pos_acc": 0.9931265654102448, "train/reward_pos_loss": 0.654883833085337, "train/reward_pred": 0.8661140684158571, "train/reward_rate": 0.08532006048387097, "train_stats/mean_log_entropy": 0.8192651470502218, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00019849228556267917, "report/cont_loss_std": 0.003366517135873437, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01516969595104456, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00016919443442020565, "report/cont_pred": 0.9979127049446106, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.565690040588379, "report/dyn_loss_std": 6.122676372528076, "report/image_loss_mean": 0.8310382962226868, "report/image_loss_std": 0.7832688689231873, "report/model_loss_mean": 2.427391529083252, "report/model_loss_std": 4.200327396392822, "report/post_ent_mag": 63.33941650390625, "report/post_ent_max": 63.33941650390625, "report/post_ent_mean": 40.8118782043457, "report/post_ent_min": 9.49515151977539, "report/post_ent_std": 6.56983757019043, "report/prior_ent_mag": 85.0715560913086, "report/prior_ent_max": 85.0715560913086, "report/prior_ent_mean": 43.253456115722656, "report/prior_ent_min": 12.02670669555664, "report/prior_ent_std": 8.604540824890137, "report/rep_loss_mean": 2.565690040588379, "report/rep_loss_std": 6.122676372528076, "report/reward_avg": 0.927734375, "report/reward_loss_mean": 0.05674055963754654, "report/reward_loss_std": 0.1822298914194107, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.002519607543945, "report/reward_neg_acc": 0.9838883280754089, "report/reward_neg_loss": 0.004511263687163591, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5795950889587402, "report/reward_pred": 0.8959362506866455, "report/reward_rate": 0.0908203125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.02558121643960476, "eval/cont_loss_std": 0.4781271815299988, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.547057151794434, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 6.803369615226984e-06, "eval/cont_pred": 0.9997466206550598, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 17.923503875732422, "eval/dyn_loss_std": 14.680221557617188, "eval/image_loss_mean": 4.041788101196289, "eval/image_loss_std": 2.8737363815307617, "eval/model_loss_mean": 15.257695198059082, "eval/model_loss_std": 11.226334571838379, "eval/post_ent_mag": 66.50491333007812, "eval/post_ent_max": 66.50491333007812, "eval/post_ent_mean": 42.15386199951172, "eval/post_ent_min": 26.405799865722656, "eval/post_ent_std": 5.19581413269043, "eval/prior_ent_mag": 85.0715560913086, "eval/prior_ent_max": 85.0715560913086, "eval/prior_ent_mean": 47.04045486450195, "eval/prior_ent_min": 28.439905166625977, "eval/prior_ent_std": 7.525742053985596, "eval/rep_loss_mean": 17.923503875732422, "eval/rep_loss_std": 14.680221557617188, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.4362240731716156, "eval/reward_loss_std": 2.6882588863372803, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.984161376953125, "eval/reward_neg_acc": 0.9576612710952759, "eval/reward_neg_loss": 0.0482204295694828, "eval/reward_pos_acc": 0.1875, "eval/reward_pos_loss": 12.464336395263672, "eval/reward_pred": 0.13177621364593506, "eval/reward_rate": 0.03125, "replay/size": 131023.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.836535237893405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3068877401512313e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 2074.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.029705286026, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 380.1457061767578, "timer/replay._sample_frac": 1.2670268959347049, "timer/replay._sample_avg": 0.015368115547249265, "timer/replay._sample_min": 0.0004699230194091797, "timer/replay._sample_max": 0.04755854606628418, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.752946376800537, "timer/env.step_frac": 0.02250759260774789, "timer/env.step_avg": 0.004368011886675638, "timer/env.step_min": 0.0024023056030273438, "timer/env.step_max": 0.03438115119934082, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 110.83326196670532, "timer/agent.policy_frac": 0.3694076286914495, "timer/agent.policy_avg": 0.07169033762400086, "timer/agent.policy_min": 0.0028946399688720703, "timer/agent.policy_max": 0.15426135063171387, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15134119987487793, "timer/dataset_train_frac": 0.000504420719710405, "timer/dataset_train_avg": 9.789210858659633e-05, "timer/dataset_train_min": 5.91278076171875e-05, "timer/dataset_train_max": 0.0002357959747314453, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 181.1033444404602, "timer/agent.train_frac": 0.6036180459791798, "timer/agent.train_avg": 0.1171431723418242, "timer/agent.train_min": 0.10407876968383789, "timer/agent.train_max": 0.2510192394256592, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2565007209777832, "timer/agent.report_frac": 0.00085491775133817, "timer/agent.report_avg": 0.1282503604888916, "timer/agent.report_min": 0.0970916748046875, "timer/agent.report_max": 0.1594090461730957, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.47930772750561e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0861520767211914, "timer/agent.save_frac": 0.0002871451566406081, "timer/agent.save_avg": 0.0861520767211914, "timer/agent.save_min": 0.0861520767211914, "timer/agent.save_max": 0.0861520767211914, "fps": 20.610167030669427}
+{"step": 399676, "episode/length": 528.0, "episode/score": 520.0, "episode/reward_rate": 0.09829867674858223}
+{"step": 400000, "eval_episode/length": 786.0, "eval_episode/score": 580.0, "eval_episode/reward_rate": 0.07369758576874205}
+{"step": 400004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.099671898818597, "train/action_min": 0.0, "train/action_std": 4.345529637685636, "train/actor_opt_grad_norm": 0.007398300031881507, "train/actor_opt_grad_steps": 98700.0, "train/actor_opt_loss": -0.00010676501573825812, "train/adv_mag": 0.6141877817671474, "train/adv_max": 0.5889995857709791, "train/adv_mean": 0.001242854953910332, "train/adv_min": -0.39546674926106523, "train/adv_std": 0.028735053657395083, "train/cont_avg": 0.9983326981707317, "train/cont_loss_mean": 0.0005188883285608539, "train/cont_loss_std": 0.013172230153164802, "train/cont_neg_acc": 0.9142857151372092, "train/cont_neg_loss": 0.19337526259845877, "train/cont_pos_acc": 0.9999761552345462, "train/cont_pos_loss": 0.00014686612656325198, "train/cont_pred": 0.9983865764082932, "train/cont_rate": 0.9983326981707317, "train/dyn_loss_mean": 2.916073525824198, "train/dyn_loss_std": 5.913633765243903, "train/extr_critic_critic_opt_grad_norm": 1.5259704735220931, "train/extr_critic_critic_opt_grad_steps": 98700.0, "train/extr_critic_critic_opt_loss": 1.439645752674196, "train/extr_critic_mag": 364.42359738233614, "train/extr_critic_max": 364.42359738233614, "train/extr_critic_mean": 145.23283795612613, "train/extr_critic_min": 0.5494305913041277, "train/extr_critic_std": 95.59856154279011, "train/extr_return_normed_mag": 1.24295813572116, "train/extr_return_normed_max": 1.24295813572116, "train/extr_return_normed_mean": 0.45282734966859584, "train/extr_return_normed_min": -0.020480612951626138, "train/extr_return_normed_std": 0.31251753539573857, "train/extr_return_rate": 0.9459048349682878, "train/extr_return_raw_mag": 388.122528820503, "train/extr_return_raw_max": 388.122528820503, "train/extr_return_raw_mean": 145.61460094917112, "train/extr_return_raw_min": 0.4290756648633538, "train/extr_return_raw_std": 95.87339224466463, "train/extr_reward_mag": 107.63989185705418, "train/extr_reward_max": 107.63989185705418, "train/extr_reward_mean": 0.8419165102446952, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.343681475011314, "train/image_loss_mean": 1.0274090214473446, "train/image_loss_std": 0.8428041775052141, "train/model_loss_mean": 2.8388273541520284, "train/model_loss_std": 4.102719987311015, "train/model_opt_grad_norm": 9.915709832819497, "train/model_opt_grad_steps": 98700.0, "train/model_opt_loss": 2.8388273541520284, "train/policy_entropy_mag": 2.6314057082664677, "train/policy_entropy_max": 2.6314057082664677, "train/policy_entropy_mean": 0.8020332862691182, "train/policy_entropy_min": 0.08019180650391229, "train/policy_entropy_std": 0.6761615683392781, "train/policy_logprob_mag": 7.495536850719917, "train/policy_logprob_max": -0.009489554116820417, "train/policy_logprob_mean": -0.8026242052636495, "train/policy_logprob_min": -7.495536850719917, "train/policy_logprob_std": 1.2357303572864067, "train/policy_randomness_mag": 0.9104039145679008, "train/policy_randomness_max": 0.9104039145679008, "train/policy_randomness_mean": 0.27748448020074423, "train/policy_randomness_min": 0.027744461668700707, "train/policy_randomness_std": 0.23393585405698636, "train/post_ent_mag": 63.224852771293826, "train/post_ent_max": 63.224852771293826, "train/post_ent_mean": 41.9132505277308, "train/post_ent_min": 12.323341485930651, "train/post_ent_std": 5.2841326667041315, "train/prior_ent_mag": 84.96370827279439, "train/prior_ent_max": 84.96370827279439, "train/prior_ent_mean": 44.86717019430021, "train/prior_ent_min": 15.257943572067633, "train/prior_ent_std": 7.364211512774956, "train/rep_loss_mean": 2.916073525824198, "train/rep_loss_std": 5.913633765243903, "train/reward_avg": 1.0194359756097562, "train/reward_loss_mean": 0.06125532690344787, "train/reward_loss_std": 0.2397956924467552, "train/reward_max_data": 134.14634146341464, "train/reward_max_pred": 88.23822300608565, "train/reward_neg_acc": 0.9784267631972708, "train/reward_neg_loss": 0.006692650875576385, "train/reward_pos_acc": 0.9928813140566756, "train/reward_pos_loss": 0.6444245635009394, "train/reward_pred": 0.901356313286758, "train/reward_rate": 0.08591368140243902, "train_stats/mean_log_entropy": 0.8328790664672852, "eval_stats/mean_log_entropy": 0.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.870384145760909e-05, "report/cont_loss_std": 0.001258481410332024, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.019867200404405594, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.92009518085979e-06, "report/cont_pred": 0.998075008392334, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.9654171466827393, "report/dyn_loss_std": 5.493913650512695, "report/image_loss_mean": 1.1269173622131348, "report/image_loss_std": 0.8222349286079407, "report/model_loss_mean": 2.9930789470672607, "report/model_loss_std": 3.820402145385742, "report/post_ent_mag": 63.97736358642578, "report/post_ent_max": 63.97736358642578, "report/post_ent_mean": 41.860504150390625, "report/post_ent_min": 25.560272216796875, "report/post_ent_std": 4.41393518447876, "report/prior_ent_mag": 84.98860931396484, "report/prior_ent_max": 84.98860931396484, "report/prior_ent_mean": 44.96831512451172, "report/prior_ent_min": 27.84816551208496, "report/prior_ent_std": 6.732574939727783, "report/rep_loss_mean": 2.9654171466827393, "report/rep_loss_std": 5.493913650512695, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.08686250448226929, "report/reward_loss_std": 0.2646775543689728, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.006942749023438, "report/reward_neg_acc": 0.9735391736030579, "report/reward_neg_loss": 0.010761496610939503, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6768079400062561, "report/reward_pred": 1.0391743183135986, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0076589626260101795, "eval/cont_loss_std": 0.24495507776737213, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.8423943519592285, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.7507817296500434e-07, "eval/cont_pred": 0.9999992251396179, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 19.542190551757812, "eval/dyn_loss_std": 14.87089729309082, "eval/image_loss_mean": 4.41523551940918, "eval/image_loss_std": 2.6686253547668457, "eval/model_loss_mean": 16.565927505493164, "eval/model_loss_std": 10.920223236083984, "eval/post_ent_mag": 65.65839385986328, "eval/post_ent_max": 65.65839385986328, "eval/post_ent_mean": 42.421478271484375, "eval/post_ent_min": 27.8917236328125, "eval/post_ent_std": 4.596161365509033, "eval/prior_ent_mag": 84.98860931396484, "eval/prior_ent_max": 84.98860931396484, "eval/prior_ent_mean": 47.30582809448242, "eval/prior_ent_min": 29.039770126342773, "eval/prior_ent_std": 6.45636510848999, "eval/rep_loss_mean": 19.542190551757812, "eval/rep_loss_std": 14.87089729309082, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.41771775484085083, "eval/reward_loss_std": 2.5734870433807373, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.99959659576416, "eval/reward_neg_acc": 0.9688128232955933, "eval/reward_neg_loss": 0.03521215543150902, "eval/reward_pos_acc": 0.06666667014360428, "eval/reward_pos_loss": 13.091404914855957, "eval/reward_pred": 0.08849003911018372, "eval/reward_rate": 0.029296875, "replay/size": 131432.0, "replay/inserts": 409.0, "replay/samples": 6544.0, "replay/insert_wait_avg": 4.886706475815155e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3119579818837508e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 57839.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": 2.905075912701148e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 2.4586915969848633e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 451.43393445014954, "timer/replay._sample_count": 6544.0, "timer/replay._sample_total": 101.25437426567078, "timer/replay._sample_frac": 0.22429499986304638, "timer/replay._sample_avg": 0.0154728567031893, "timer/replay._sample_min": 0.0004248619079589844, "timer/replay._sample_max": 0.05118989944458008, "timer/env.step_count": 409.0, "timer/env.step_total": 1.7941982746124268, "timer/env.step_frac": 0.003974442632005004, "timer/env.step_avg": 0.004386792847463146, "timer/env.step_min": 0.0023658275604248047, "timer/env.step_max": 0.025510549545288086, "timer/agent.policy_count": 58311.0, "timer/agent.policy_total": 219.39662432670593, "timer/agent.policy_frac": 0.485999406743609, "timer/agent.policy_avg": 0.003762525498219992, "timer/agent.policy_min": 0.0023407936096191406, "timer/agent.policy_max": 1.7789576053619385, "timer/dataset_train_count": 409.0, "timer/dataset_train_total": 0.04060983657836914, "timer/dataset_train_frac": 8.995743004528952e-05, "timer/dataset_train_avg": 9.929055398134264e-05, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.0013020038604736328, "timer/agent.train_count": 409.0, "timer/agent.train_total": 47.811594009399414, "timer/agent.train_frac": 0.10591050065306755, "timer/agent.train_avg": 0.11689876285916727, "timer/agent.train_min": 0.10428762435913086, "timer/agent.train_max": 0.19957470893859863, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26380157470703125, "timer/agent.report_frac": 0.000584363634577768, "timer/agent.report_avg": 0.13190078735351562, "timer/agent.report_min": 0.09609580039978027, "timer/agent.report_max": 0.16770577430725098, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.580352783203125e-05, "timer/dataset_eval_frac": 1.457655767774315e-07, "timer/dataset_eval_avg": 6.580352783203125e-05, "timer/dataset_eval_min": 6.580352783203125e-05, "timer/dataset_eval_max": 6.580352783203125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 3.623721120917376}
+{"step": 401604, "episode/length": 481.0, "episode/score": 1040.0, "episode/reward_rate": 0.11410788381742738}
+{"step": 404200, "episode/length": 648.0, "episode/score": 1200.0, "episode/reward_rate": 0.10939907550077041}
+{"step": 405760, "episode/length": 389.0, "episode/score": 980.0, "episode/reward_rate": 0.12307692307692308}
+{"step": 406192, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.937966482979911, "train/action_min": 0.0, "train/action_std": 4.307817002395531, "train/actor_opt_grad_norm": 0.008449327838667607, "train/actor_opt_grad_steps": 99675.0, "train/actor_opt_loss": 0.0003803667710103169, "train/adv_mag": 0.7725354853001508, "train/adv_max": 0.7446557150839211, "train/adv_mean": 0.002050031047802249, "train/adv_min": -0.42628318893832046, "train/adv_std": 0.03543828592284933, "train/cont_avg": 0.9982244318181818, "train/cont_loss_mean": 0.0005941695355380592, "train/cont_loss_std": 0.01576334975724733, "train/cont_neg_acc": 0.9368766417184214, "train/cont_neg_loss": 0.16719965352576835, "train/cont_pos_acc": 0.9999427590277288, "train/cont_pos_loss": 0.0002336315890840568, "train/cont_pred": 0.9982427025770212, "train/cont_rate": 0.9982244318181818, "train/dyn_loss_mean": 3.1100750495861105, "train/dyn_loss_std": 6.058798514403306, "train/extr_critic_critic_opt_grad_norm": 1.5162509931372357, "train/extr_critic_critic_opt_grad_steps": 99675.0, "train/extr_critic_critic_opt_loss": 1.4884188569985426, "train/extr_critic_mag": 365.98877151291094, "train/extr_critic_max": 365.98877151291094, "train/extr_critic_mean": 146.54294105628867, "train/extr_critic_min": 0.16969904110029146, "train/extr_critic_std": 98.21695042895033, "train/extr_return_normed_mag": 1.4167994508495578, "train/extr_return_normed_max": 1.4167994508495578, "train/extr_return_normed_mean": 0.45574197714979, "train/extr_return_normed_min": -0.021490395226358594, "train/extr_return_normed_std": 0.321021779887862, "train/extr_return_rate": 0.9503927846233566, "train/extr_return_raw_mag": 443.1113737032011, "train/extr_return_raw_max": 443.1113737032011, "train/extr_return_raw_mean": 147.17415272105825, "train/extr_return_raw_min": 0.16198759651652161, "train/extr_return_raw_std": 98.89977001834225, "train/extr_reward_mag": 145.1725908502356, "train/extr_reward_max": 145.1725908502356, "train/extr_reward_mean": 0.8848893199261133, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.0985408742706495, "train/image_loss_mean": 1.07717474946728, "train/image_loss_std": 0.8949253435258742, "train/model_loss_mean": 3.00885977528312, "train/model_loss_std": 4.233158223040692, "train/model_opt_grad_norm": 11.927385039143749, "train/model_opt_grad_steps": 99675.0, "train/model_opt_loss": 3.00885977528312, "train/policy_entropy_mag": 2.6430600246825775, "train/policy_entropy_max": 2.6430600246825775, "train/policy_entropy_mean": 0.8011862705280255, "train/policy_entropy_min": 0.08019158481196924, "train/policy_entropy_std": 0.6856406300098865, "train/policy_logprob_mag": 7.495536770139422, "train/policy_logprob_max": -0.009489556030648482, "train/policy_logprob_mean": -0.7999932266675033, "train/policy_logprob_min": -7.495536770139422, "train/policy_logprob_std": 1.2372139568452711, "train/policy_randomness_mag": 0.9144360314715992, "train/policy_randomness_max": 0.9144360314715992, "train/policy_randomness_mean": 0.27719143149140596, "train/policy_randomness_min": 0.02774438483326079, "train/policy_randomness_std": 0.23721538329279268, "train/post_ent_mag": 63.18142702672389, "train/post_ent_max": 63.18142702672389, "train/post_ent_mean": 41.78844451904297, "train/post_ent_min": 12.874140169713405, "train/post_ent_std": 5.294266019548688, "train/prior_ent_mag": 84.80607540576489, "train/prior_ent_max": 84.80607540576489, "train/prior_ent_mean": 44.88812929624087, "train/prior_ent_min": 15.868947673153567, "train/prior_ent_std": 7.377777756034554, "train/rep_loss_mean": 3.1100750495861105, "train/rep_loss_std": 6.058798514403306, "train/reward_avg": 1.0412439123376624, "train/reward_loss_mean": 0.06504582207311284, "train/reward_loss_std": 0.2450071896438475, "train/reward_max_data": 135.32467532467533, "train/reward_max_pred": 89.91469080417187, "train/reward_neg_acc": 0.976141579352416, "train/reward_neg_loss": 0.007644581467112792, "train/reward_pos_acc": 0.9943369274789636, "train/reward_pos_loss": 0.6527237191602782, "train/reward_pred": 0.9330086719680142, "train/reward_rate": 0.08896864853896104, "train_stats/mean_log_entropy": 0.6895444989204407, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0003117030719295144, "report/cont_loss_std": 0.004995387513190508, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.056878767907619476, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001454923185519874, "report/cont_pred": 0.997087836265564, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.354447841644287, "report/dyn_loss_std": 6.046488285064697, "report/image_loss_mean": 1.2122641801834106, "report/image_loss_std": 1.0382944345474243, "report/model_loss_mean": 3.282116651535034, "report/model_loss_std": 4.316707134246826, "report/post_ent_mag": 64.0205078125, "report/post_ent_max": 64.0205078125, "report/post_ent_mean": 41.47491455078125, "report/post_ent_min": 11.71335220336914, "report/post_ent_std": 5.648550033569336, "report/prior_ent_mag": 84.69708251953125, "report/prior_ent_max": 84.69708251953125, "report/prior_ent_mean": 45.2152099609375, "report/prior_ent_min": 16.767166137695312, "report/prior_ent_std": 7.81599760055542, "report/rep_loss_mean": 3.354447841644287, "report/rep_loss_std": 6.046488285064697, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.05687202885746956, "report/reward_loss_std": 0.21314547955989838, "report/reward_max_data": 20.0, "report/reward_max_pred": 17.56822967529297, "report/reward_neg_acc": 0.9765458703041077, "report/reward_neg_loss": 0.0038566754665225744, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6351093053817749, "report/reward_pred": 0.7943090796470642, "report/reward_rate": 0.083984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 9.051175584318116e-05, "eval/cont_loss_std": 0.0028946835082024336, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.051175584318116e-05, "eval/cont_pred": 0.9999135732650757, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.608704566955566, "eval/dyn_loss_std": 11.634530067443848, "eval/image_loss_mean": 4.039431095123291, "eval/image_loss_std": 2.6377193927764893, "eval/model_loss_mean": 13.850143432617188, "eval/model_loss_std": 9.263535499572754, "eval/post_ent_mag": 60.461891174316406, "eval/post_ent_max": 60.461891174316406, "eval/post_ent_mean": 42.68578338623047, "eval/post_ent_min": 29.395328521728516, "eval/post_ent_std": 4.249070644378662, "eval/prior_ent_mag": 84.69708251953125, "eval/prior_ent_max": 84.69708251953125, "eval/prior_ent_mean": 47.59165573120117, "eval/prior_ent_min": 31.291744232177734, "eval/prior_ent_std": 5.992480278015137, "eval/rep_loss_mean": 15.608704566955566, "eval/rep_loss_std": 11.634530067443848, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.4454003572463989, "eval/reward_loss_std": 2.389312505722046, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.000630378723145, "eval/reward_neg_acc": 0.931104302406311, "eval/reward_neg_loss": 0.07335363328456879, "eval/reward_pos_acc": 0.18918918073177338, "eval/reward_pos_loss": 10.369997024536133, "eval/reward_pred": 0.20587147772312164, "eval/reward_rate": 0.0361328125, "replay/size": 132979.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.884113245189151e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3293531068926407e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05695629119873, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 392.0552797317505, "timer/replay._sample_frac": 1.3066028682610158, "timer/replay._sample_avg": 0.015839337416441116, "timer/replay._sample_min": 0.0005369186401367188, "timer/replay._sample_max": 0.06990838050842285, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.651074409484863, "timer/env.step_frac": 0.02216603971357405, "timer/env.step_avg": 0.00429933704556229, "timer/env.step_min": 0.002528667449951172, "timer/env.step_max": 0.026508808135986328, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.81474351882935, "timer/agent.policy_frac": 0.37264506346027043, "timer/agent.policy_avg": 0.07227843795658005, "timer/agent.policy_min": 0.002962350845336914, "timer/agent.policy_max": 0.18094134330749512, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15906643867492676, "timer/dataset_train_frac": 0.0005301208165310997, "timer/dataset_train_avg": 0.00010282252015185957, "timer/dataset_train_min": 5.8650970458984375e-05, "timer/dataset_train_max": 0.0030553340911865234, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.22358226776123, "timer/agent.train_frac": 0.6006312417995008, "timer/agent.train_avg": 0.11649876035407966, "timer/agent.train_min": 0.10304999351501465, "timer/agent.train_max": 0.3047308921813965, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2597026824951172, "timer/agent.report_frac": 0.0008655112872740115, "timer/agent.report_avg": 0.1298513412475586, "timer/agent.report_min": 0.09641385078430176, "timer/agent.report_max": 0.16328883171081543, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.200241088867188e-05, "timer/dataset_eval_frac": 2.399624783862538e-07, "timer/dataset_eval_avg": 7.200241088867188e-05, "timer/dataset_eval_min": 7.200241088867188e-05, "timer/dataset_eval_max": 7.200241088867188e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1583089828491211, "timer/agent.save_frac": 0.000527596443041586, "timer/agent.save_avg": 0.1583089828491211, "timer/agent.save_min": 0.1583089828491211, "timer/agent.save_max": 0.1583089828491211, "fps": 20.62130535199208}
+{"step": 408708, "episode/length": 736.0, "episode/score": 730.0, "episode/reward_rate": 0.09769335142469471}
+{"step": 410720, "episode/length": 502.0, "episode/score": 650.0, "episode/reward_rate": 0.1272365805168986}
+{"step": 412384, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.888010726436493, "train/action_min": 0.0, "train/action_std": 4.382036712092738, "train/actor_opt_grad_norm": 0.0074621035582235744, "train/actor_opt_grad_steps": 101220.0, "train/actor_opt_loss": -4.170177862174422e-05, "train/adv_mag": 0.7399303471849811, "train/adv_max": 0.721811663431506, "train/adv_mean": 0.0016763144834898882, "train/adv_min": -0.3846732542399437, "train/adv_std": 0.03264229613085908, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0005268762147170973, "train/cont_loss_std": 0.013133715873405824, "train/cont_neg_acc": 0.9310776947584367, "train/cont_neg_loss": 0.1593689213290575, "train/cont_pos_acc": 0.9999178924868184, "train/cont_pos_loss": 0.0002544466978980081, "train/cont_pred": 0.9982113645922753, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.9963803398993707, "train/dyn_loss_std": 6.064345845868511, "train/extr_critic_critic_opt_grad_norm": 1.475701537055354, "train/extr_critic_critic_opt_grad_steps": 101220.0, "train/extr_critic_critic_opt_loss": 1.459633449585207, "train/extr_critic_mag": 366.4561365927419, "train/extr_critic_max": 366.4561365927419, "train/extr_critic_mean": 145.93650684971962, "train/extr_critic_min": 0.26657269308643955, "train/extr_critic_std": 97.96787675426852, "train/extr_return_normed_mag": 1.3989169274607012, "train/extr_return_normed_max": 1.3989169274607012, "train/extr_return_normed_mean": 0.4540280640125275, "train/extr_return_normed_min": -0.018940227184324494, "train/extr_return_normed_std": 0.31958249057492905, "train/extr_return_rate": 0.9473921002880219, "train/extr_return_raw_mag": 438.1960504347278, "train/extr_return_raw_max": 438.1960504347278, "train/extr_return_raw_mean": 146.45399622763358, "train/extr_return_raw_min": 0.46960023548735697, "train/extr_return_raw_std": 98.65394789172757, "train/extr_reward_mag": 144.92953110971757, "train/extr_reward_max": 144.92953110971757, "train/extr_reward_mean": 0.8685319546730288, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.099370956420898, "train/image_loss_mean": 1.065492900725334, "train/image_loss_std": 0.8670625079062677, "train/model_loss_mean": 2.9266566245786607, "train/model_loss_std": 4.212722907527801, "train/model_opt_grad_norm": 9.851773637340914, "train/model_opt_grad_steps": 101220.0, "train/model_opt_loss": 2.9266566245786607, "train/policy_entropy_mag": 2.6410017059695337, "train/policy_entropy_max": 2.6410017059695337, "train/policy_entropy_mean": 0.8198663277010764, "train/policy_entropy_min": 0.08019155076434535, "train/policy_entropy_std": 0.6938795489649618, "train/policy_logprob_mag": 7.495538037823093, "train/policy_logprob_max": -0.00948955369812827, "train/policy_logprob_mean": -0.81915463132243, "train/policy_logprob_min": -7.495538037823093, "train/policy_logprob_std": 1.2469659159260411, "train/policy_randomness_mag": 0.9137239010103287, "train/policy_randomness_max": 0.9137239010103287, "train/policy_randomness_mean": 0.2836542881304218, "train/policy_randomness_min": 0.02774437299418834, "train/policy_randomness_std": 0.24006585353805174, "train/post_ent_mag": 63.74767672631048, "train/post_ent_max": 63.74767672631048, "train/post_ent_mean": 41.62859529064548, "train/post_ent_min": 13.01520662923013, "train/post_ent_std": 5.292303386811287, "train/prior_ent_mag": 84.9835678592805, "train/prior_ent_max": 84.9835678592805, "train/prior_ent_mean": 44.677779413038685, "train/prior_ent_min": 15.873075848241006, "train/prior_ent_std": 7.401026002822384, "train/rep_loss_mean": 2.9963803398993707, "train/rep_loss_std": 6.064345845868511, "train/reward_avg": 1.0367943548387097, "train/reward_loss_mean": 0.06280864024114224, "train/reward_loss_std": 0.2393277322092364, "train/reward_max_data": 157.03225806451613, "train/reward_max_pred": 83.66754212533274, "train/reward_neg_acc": 0.9771134207325597, "train/reward_neg_loss": 0.007150559317726161, "train/reward_pos_acc": 0.9935319904358156, "train/reward_pos_loss": 0.6508615528383562, "train/reward_pred": 0.9031753099733784, "train/reward_rate": 0.08672505040322581, "train_stats/mean_log_entropy": 0.7558348476886749, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00012871749640908092, "report/cont_loss_std": 0.003078982001170516, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.011929078958928585, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00010562480747466907, "report/cont_pred": 0.997968852519989, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.164287567138672, "report/dyn_loss_std": 6.26764440536499, "report/image_loss_mean": 1.145806074142456, "report/image_loss_std": 0.9437037110328674, "report/model_loss_mean": 3.129175901412964, "report/model_loss_std": 4.419370651245117, "report/post_ent_mag": 63.883392333984375, "report/post_ent_max": 63.883392333984375, "report/post_ent_mean": 41.11002731323242, "report/post_ent_min": 11.495229721069336, "report/post_ent_std": 5.0090789794921875, "report/prior_ent_mag": 85.15937805175781, "report/prior_ent_max": 85.15937805175781, "report/prior_ent_mean": 44.430503845214844, "report/prior_ent_min": 15.09370231628418, "report/prior_ent_std": 7.2233662605285645, "report/rep_loss_mean": 3.164287567138672, "report/rep_loss_std": 6.26764440536499, "report/reward_avg": 1.513671875, "report/reward_loss_mean": 0.08466838300228119, "report/reward_loss_std": 0.3116026520729065, "report/reward_max_data": 500.0, "report/reward_max_pred": 485.9578552246094, "report/reward_neg_acc": 0.9662309288978577, "report/reward_neg_loss": 0.009356251917779446, "report/reward_pos_acc": 0.990566074848175, "report/reward_pos_loss": 0.7368999123573303, "report/reward_pred": 1.404834508895874, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0031115824822336435, "eval/cont_loss_std": 0.09946548193693161, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.1844522953033447, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7678015638011857e-06, "eval/cont_pred": 0.999957799911499, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.08310317993164, "eval/dyn_loss_std": 13.222284317016602, "eval/image_loss_mean": 3.6107964515686035, "eval/image_loss_std": 2.5241897106170654, "eval/model_loss_mean": 13.168706893920898, "eval/model_loss_std": 10.013452529907227, "eval/post_ent_mag": 66.75040435791016, "eval/post_ent_max": 66.75040435791016, "eval/post_ent_mean": 42.458560943603516, "eval/post_ent_min": 26.65077018737793, "eval/post_ent_std": 5.028687953948975, "eval/prior_ent_mag": 85.15937805175781, "eval/prior_ent_max": 85.15937805175781, "eval/prior_ent_mean": 46.72496795654297, "eval/prior_ent_min": 28.48450469970703, "eval/prior_ent_std": 6.759260654449463, "eval/rep_loss_mean": 15.08310317993164, "eval/rep_loss_std": 13.222284317016602, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5049366354942322, "eval/reward_loss_std": 2.8598880767822266, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999554634094238, "eval/reward_neg_acc": 0.9514170289039612, "eval/reward_neg_loss": 0.04431687667965889, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 13.146389961242676, "eval/reward_pred": 0.13554975390434265, "eval/reward_rate": 0.03515625, "replay/size": 134527.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.9565805637251195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3418360890036098e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0952773094177, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 387.9288794994354, "timer/replay._sample_frac": 1.2926857196071617, "timer/replay._sample_avg": 0.015662503209764027, "timer/replay._sample_min": 0.0004639625549316406, "timer/replay._sample_max": 0.04530739784240723, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.710972309112549, "timer/env.step_frac": 0.022362805470587596, "timer/env.step_avg": 0.004335253429659269, "timer/env.step_min": 0.002469778060913086, "timer/env.step_max": 0.034211158752441406, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.26635241508484, "timer/agent.policy_frac": 0.3707700881289178, "timer/agent.policy_avg": 0.07187748864023569, "timer/agent.policy_min": 0.0027534961700439453, "timer/agent.policy_max": 0.08795619010925293, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15427827835083008, "timer/dataset_train_frac": 0.0005140976550316023, "timer/dataset_train_avg": 9.966297051087214e-05, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.00018286705017089844, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.73420691490173, "timer/agent.train_frac": 0.6022560852517284, "timer/agent.train_avg": 0.1167533636401174, "timer/agent.train_min": 0.10348200798034668, "timer/agent.train_max": 0.20195412635803223, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26545047760009766, "timer/agent.report_frac": 0.0008845539989168206, "timer/agent.report_avg": 0.13272523880004883, "timer/agent.report_min": 0.09825778007507324, "timer/agent.report_max": 0.16719269752502441, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.103515625e-05, "timer/dataset_eval_frac": 2.0338592728691557e-07, "timer/dataset_eval_avg": 6.103515625e-05, "timer/dataset_eval_min": 6.103515625e-05, "timer/dataset_eval_max": 6.103515625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.632135957929318}
+{"step": 413252, "episode/length": 632.0, "episode/score": 680.0, "episode/reward_rate": 0.10742496050552923}
+{"step": 416328, "episode/length": 768.0, "episode/score": 1150.0, "episode/reward_rate": 0.0858257477243173}
+{"step": 418408, "episode/length": 519.0, "episode/score": 650.0, "episode/reward_rate": 0.12307692307692308}
+{"step": 418576, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.8855224609375, "train/action_min": 0.0, "train/action_std": 4.390042811055337, "train/actor_opt_grad_norm": 0.00887406055004366, "train/actor_opt_grad_steps": 102770.0, "train/actor_opt_loss": 0.0004070492888610217, "train/adv_mag": 0.7308184477590746, "train/adv_max": 0.7055059205139836, "train/adv_mean": 0.001927466121466545, "train/adv_min": -0.38078046061338916, "train/adv_std": 0.03470353645182425, "train/cont_avg": 0.998273689516129, "train/cont_loss_mean": 0.0005308824857999823, "train/cont_loss_std": 0.013713193784245035, "train/cont_neg_acc": 0.9224806206170902, "train/cont_neg_loss": 0.18454865371089443, "train/cont_pos_acc": 0.9999557921963353, "train/cont_pos_loss": 0.00021693697382843422, "train/cont_pred": 0.9982802514106996, "train/cont_rate": 0.998273689516129, "train/dyn_loss_mean": 3.1679086039143223, "train/dyn_loss_std": 6.058790240749236, "train/extr_critic_critic_opt_grad_norm": 1.5998548403862984, "train/extr_critic_critic_opt_grad_steps": 102770.0, "train/extr_critic_critic_opt_loss": 1.5358976740990915, "train/extr_critic_mag": 366.2150798182334, "train/extr_critic_max": 366.2150798182334, "train/extr_critic_mean": 146.30676052954888, "train/extr_critic_min": 0.0575723817271571, "train/extr_critic_std": 99.43993835449218, "train/extr_return_normed_mag": 1.3922813596264008, "train/extr_return_normed_max": 1.3922813596264008, "train/extr_return_normed_mean": 0.4499672841641211, "train/extr_return_normed_min": -0.022849736476857816, "train/extr_return_normed_std": 0.32184924800549786, "train/extr_return_rate": 0.9478226288672417, "train/extr_return_raw_mag": 439.59941760647683, "train/extr_return_raw_max": 439.59941760647683, "train/extr_return_raw_mean": 146.904760988297, "train/extr_return_raw_min": 0.0406255588029331, "train/extr_return_raw_std": 99.99561408258253, "train/extr_reward_mag": 123.80896546763759, "train/extr_reward_max": 123.80896546763759, "train/extr_reward_mean": 0.8666196411655795, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.8051903678524877, "train/image_loss_mean": 1.0823198726100307, "train/image_loss_std": 0.8838764071464539, "train/model_loss_mean": 3.050082314398981, "train/model_loss_std": 4.225602665255146, "train/model_opt_grad_norm": 10.15815760397142, "train/model_opt_grad_steps": 102770.0, "train/model_opt_loss": 3.050082314398981, "train/policy_entropy_mag": 2.6352049596848026, "train/policy_entropy_max": 2.6352049596848026, "train/policy_entropy_mean": 0.8214990781199547, "train/policy_entropy_min": 0.08019160580250524, "train/policy_entropy_std": 0.6868364572525024, "train/policy_logprob_mag": 7.495537410243865, "train/policy_logprob_max": -0.009489562068014375, "train/policy_logprob_mean": -0.8204406446026218, "train/policy_logprob_min": -7.495537410243865, "train/policy_logprob_std": 1.244719248433267, "train/policy_randomness_mag": 0.9117183677611812, "train/policy_randomness_max": 0.9117183677611812, "train/policy_randomness_mean": 0.2842191797110342, "train/policy_randomness_min": 0.02774439205325419, "train/policy_randomness_std": 0.23762911000559406, "train/post_ent_mag": 62.993801732217115, "train/post_ent_max": 62.993801732217115, "train/post_ent_mean": 41.80359255883001, "train/post_ent_min": 12.13327698861399, "train/post_ent_std": 5.309796871677522, "train/prior_ent_mag": 84.97470422560168, "train/prior_ent_max": 84.97470422560168, "train/prior_ent_mean": 44.897573064988656, "train/prior_ent_min": 15.028146682247039, "train/prior_ent_std": 7.402648655060799, "train/rep_loss_mean": 3.1679086039143223, "train/rep_loss_std": 6.058790240749236, "train/reward_avg": 0.9861391129032258, "train/reward_loss_mean": 0.06648639269894169, "train/reward_loss_std": 0.2557164838237147, "train/reward_max_data": 106.25806451612904, "train/reward_max_pred": 54.496723279645366, "train/reward_neg_acc": 0.9754641502134261, "train/reward_neg_loss": 0.008103715109398528, "train/reward_pos_acc": 0.9924436553832023, "train/reward_pos_loss": 0.6680962354906144, "train/reward_pred": 0.8803992580982947, "train/reward_rate": 0.08891759072580645, "train_stats/mean_log_entropy": 0.7909557620684305, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.053026037174277e-06, "report/cont_loss_std": 5.58709871256724e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.2057167118182406e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.0236966520315036e-06, "report/cont_pred": 0.9990214705467224, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.1026337146759033, "report/dyn_loss_std": 6.039322376251221, "report/image_loss_mean": 1.159236192703247, "report/image_loss_std": 1.0724430084228516, "report/model_loss_mean": 3.0889744758605957, "report/model_loss_std": 4.375807762145996, "report/post_ent_mag": 64.29124450683594, "report/post_ent_max": 64.29124450683594, "report/post_ent_mean": 42.23301696777344, "report/post_ent_min": 9.01359748840332, "report/post_ent_std": 5.7486653327941895, "report/prior_ent_mag": 84.75965118408203, "report/prior_ent_max": 84.75965118408203, "report/prior_ent_mean": 45.515525817871094, "report/prior_ent_min": 9.335275650024414, "report/prior_ent_std": 7.2856059074401855, "report/rep_loss_mean": 3.1026337146759033, "report/rep_loss_std": 6.039322376251221, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.06815594434738159, "report/reward_loss_std": 0.259047269821167, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.986343383789062, "report/reward_neg_acc": 0.9761388301849365, "report/reward_neg_loss": 0.00626590009778738, "report/reward_pos_acc": 0.9803922176361084, "report/reward_pos_loss": 0.6275933980941772, "report/reward_pred": 0.9873154759407043, "report/reward_rate": 0.099609375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.020050331950187683, "eval/cont_loss_std": 0.3869437277317047, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.8434953689575195, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0308256150892703e-06, "eval/cont_pred": 0.9999798536300659, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 17.257247924804688, "eval/dyn_loss_std": 15.380922317504883, "eval/image_loss_mean": 4.0299072265625, "eval/image_loss_std": 2.7414631843566895, "eval/model_loss_mean": 14.894224166870117, "eval/model_loss_std": 11.34762954711914, "eval/post_ent_mag": 65.29952239990234, "eval/post_ent_max": 65.29952239990234, "eval/post_ent_mean": 43.112335205078125, "eval/post_ent_min": 26.732791900634766, "eval/post_ent_std": 5.514775276184082, "eval/prior_ent_mag": 84.75965118408203, "eval/prior_ent_max": 84.75965118408203, "eval/prior_ent_mean": 47.9499397277832, "eval/prior_ent_min": 28.593730926513672, "eval/prior_ent_std": 7.436579704284668, "eval/rep_loss_mean": 17.257247924804688, "eval/rep_loss_std": 15.380922317504883, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.4899173080921173, "eval/reward_loss_std": 2.881883382797241, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003567695617676, "eval/reward_neg_acc": 0.9585020542144775, "eval/reward_neg_loss": 0.024836251512169838, "eval/reward_pos_acc": 0.1388888955116272, "eval/reward_pos_loss": 13.253809928894043, "eval/reward_pred": 0.08364999294281006, "eval/reward_rate": 0.03515625, "replay/size": 136075.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.937174400309875e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3548409137922973e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8328428268432617e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10876536369324, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.91043162345886, "timer/replay._sample_frac": 1.3125589022569537, "timer/replay._sample_avg": 0.015904006444745593, "timer/replay._sample_min": 0.0004112720489501953, "timer/replay._sample_max": 0.04672574996948242, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.679011583328247, "timer/env.step_frac": 0.022255303257251228, "timer/env.step_avg": 0.00431460696597432, "timer/env.step_min": 0.002190113067626953, "timer/env.step_max": 0.0346524715423584, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.43699264526367, "timer/agent.policy_frac": 0.371322018902768, "timer/agent.policy_avg": 0.07198772134706956, "timer/agent.policy_min": 0.003039836883544922, "timer/agent.policy_max": 0.08573269844055176, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15268611907958984, "timer/dataset_train_frac": 0.0005087692753477357, "timer/dataset_train_avg": 9.863444384986424e-05, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.0002238750457763672, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.63448071479797, "timer/agent.train_frac": 0.6018967173314389, "timer/agent.train_avg": 0.11668894103023125, "timer/agent.train_min": 0.10218453407287598, "timer/agent.train_max": 0.20526337623596191, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26061558723449707, "timer/agent.report_frac": 0.0008684037832705902, "timer/agent.report_avg": 0.13030779361724854, "timer/agent.report_min": 0.1005549430847168, "timer/agent.report_max": 0.16006064414978027, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.462501525878906e-05, "timer/dataset_eval_frac": 2.4865989891482555e-07, "timer/dataset_eval_avg": 7.462501525878906e-05, "timer/dataset_eval_min": 7.462501525878906e-05, "timer/dataset_eval_max": 7.462501525878906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.630979462109604}
+{"step": 420600, "episode/length": 547.0, "episode/score": 600.0, "episode/reward_rate": 0.10948905109489052}
+{"step": 423384, "episode/length": 695.0, "episode/score": 820.0, "episode/reward_rate": 0.11637931034482758}
+{"step": 424768, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.949068721648185, "train/action_min": 0.0, "train/action_std": 4.3724724892647036, "train/actor_opt_grad_norm": 0.010059799488273359, "train/actor_opt_grad_steps": 104320.0, "train/actor_opt_loss": 0.0009145763279691216, "train/adv_mag": 0.8461566204986265, "train/adv_max": 0.8150522827140747, "train/adv_mean": 0.002511942644712455, "train/adv_min": -0.41767305395295545, "train/adv_std": 0.03857486584494191, "train/cont_avg": 0.9983807963709678, "train/cont_loss_mean": 0.000586671690072557, "train/cont_loss_std": 0.01480910196172948, "train/cont_neg_acc": 0.9242547440335034, "train/cont_neg_loss": 0.1843407367453223, "train/cont_pos_acc": 0.9999178755667901, "train/cont_pos_loss": 0.00027321327609738987, "train/cont_pred": 0.9983688581374384, "train/cont_rate": 0.9983807963709678, "train/dyn_loss_mean": 3.0152408799817487, "train/dyn_loss_std": 6.051877083316926, "train/extr_critic_critic_opt_grad_norm": 1.545633610602348, "train/extr_critic_critic_opt_grad_steps": 104320.0, "train/extr_critic_critic_opt_loss": 1.5203611220082929, "train/extr_critic_mag": 368.03783805601057, "train/extr_critic_max": 368.03783805601057, "train/extr_critic_mean": 147.16128397295552, "train/extr_critic_min": 0.3193046846697407, "train/extr_critic_std": 97.58676935011341, "train/extr_return_normed_mag": 1.4857396602630615, "train/extr_return_normed_max": 1.4857396602630615, "train/extr_return_normed_mean": 0.453434637477321, "train/extr_return_normed_min": -0.023121787793934347, "train/extr_return_normed_std": 0.31779887166715437, "train/extr_return_rate": 0.9558632046945633, "train/extr_return_raw_mag": 467.4127598916331, "train/extr_return_raw_max": 467.4127598916331, "train/extr_return_raw_mean": 147.93812334614415, "train/extr_return_raw_min": 0.441004490919952, "train/extr_return_raw_std": 98.35589442099294, "train/extr_reward_mag": 158.2726983716411, "train/extr_reward_max": 158.2726983716411, "train/extr_reward_mean": 0.9091230702015661, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.412563221685348, "train/image_loss_mean": 1.0489216716058793, "train/image_loss_std": 0.8556638963760869, "train/model_loss_mean": 2.924511800273772, "train/model_loss_std": 4.193810244529478, "train/model_opt_grad_norm": 10.073006417674403, "train/model_opt_grad_steps": 104320.0, "train/model_opt_loss": 2.924511800273772, "train/policy_entropy_mag": 2.617835101773662, "train/policy_entropy_max": 2.617835101773662, "train/policy_entropy_mean": 0.8195742172579612, "train/policy_entropy_min": 0.08019160162056646, "train/policy_entropy_std": 0.6698085592639061, "train/policy_logprob_mag": 7.495538782304333, "train/policy_logprob_max": -0.009489563606198757, "train/policy_logprob_mean": -0.8190950205249171, "train/policy_logprob_min": -7.495538782304333, "train/policy_logprob_std": 1.236450695222424, "train/policy_randomness_mag": 0.9057088071300138, "train/policy_randomness_max": 0.9057088071300138, "train/policy_randomness_mean": 0.28355322845520514, "train/policy_randomness_min": 0.027744390683308723, "train/policy_randomness_std": 0.23173786074884475, "train/post_ent_mag": 62.98566183274792, "train/post_ent_max": 62.98566183274792, "train/post_ent_mean": 42.00171545705488, "train/post_ent_min": 12.746830488020374, "train/post_ent_std": 5.343239578124016, "train/prior_ent_mag": 85.05414532076928, "train/prior_ent_max": 85.05414532076928, "train/prior_ent_mean": 45.087542232390376, "train/prior_ent_min": 15.799970977537093, "train/prior_ent_std": 7.404965289946525, "train/rep_loss_mean": 3.0152408799817487, "train/rep_loss_std": 6.051877083316926, "train/reward_avg": 1.0272177419354838, "train/reward_loss_mean": 0.06585893018111105, "train/reward_loss_std": 0.24621494229762786, "train/reward_max_data": 122.19354838709677, "train/reward_max_pred": 86.81282720873433, "train/reward_neg_acc": 0.9760290753456854, "train/reward_neg_loss": 0.00786695501001011, "train/reward_pos_acc": 0.9940279926023176, "train/reward_pos_loss": 0.6475448050806599, "train/reward_pred": 0.9416677396143637, "train/reward_rate": 0.09107862903225807, "train_stats/mean_log_entropy": 0.7482647597789764, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.0026904314290732145, "report/cont_loss_std": 0.08169928938150406, "report/cont_neg_acc": 0.800000011920929, "report/cont_neg_loss": 0.5309931039810181, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.817154204938561e-05, "report/cont_pred": 0.9959651231765747, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.6509437561035156, "report/dyn_loss_std": 6.482914447784424, "report/image_loss_mean": 0.8289417624473572, "report/image_loss_std": 0.7489902973175049, "report/model_loss_mean": 2.491990566253662, "report/model_loss_std": 4.366476058959961, "report/post_ent_mag": 67.0751953125, "report/post_ent_max": 67.0751953125, "report/post_ent_mean": 41.76825714111328, "report/post_ent_min": 13.867437362670898, "report/post_ent_std": 5.771847724914551, "report/prior_ent_mag": 84.95628356933594, "report/prior_ent_max": 84.95628356933594, "report/prior_ent_mean": 44.369720458984375, "report/prior_ent_min": 16.80130386352539, "report/prior_ent_std": 7.844009876251221, "report/rep_loss_mean": 2.6509437561035156, "report/rep_loss_std": 6.482914447784424, "report/reward_avg": 1.1328125, "report/reward_loss_mean": 0.0697920098900795, "report/reward_loss_std": 0.19265371561050415, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009637832641602, "report/reward_neg_acc": 0.9834801554679871, "report/reward_neg_loss": 0.00804820191115141, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5530969500541687, "report/reward_pred": 1.1236954927444458, "report/reward_rate": 0.11328125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.071885311735969e-07, "eval/cont_loss_std": 1.2319870620558504e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.071885311735969e-07, "eval/cont_pred": 0.9999995231628418, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 22.10912322998047, "eval/dyn_loss_std": 14.947478294372559, "eval/image_loss_mean": 5.471019268035889, "eval/image_loss_std": 3.0890564918518066, "eval/model_loss_mean": 19.293420791625977, "eval/model_loss_std": 11.413664817810059, "eval/post_ent_mag": 55.26556396484375, "eval/post_ent_max": 55.26556396484375, "eval/post_ent_mean": 42.88116455078125, "eval/post_ent_min": 26.538692474365234, "eval/post_ent_std": 4.327413082122803, "eval/prior_ent_mag": 84.95628356933594, "eval/prior_ent_max": 84.95628356933594, "eval/prior_ent_mean": 48.20232009887695, "eval/prior_ent_min": 33.35481262207031, "eval/prior_ent_std": 6.217493534088135, "eval/rep_loss_mean": 22.10912322998047, "eval/rep_loss_std": 14.947478294372559, "eval/reward_avg": 0.3515625, "eval/reward_loss_mean": 0.5569276809692383, "eval/reward_loss_std": 3.140162944793701, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.9931001663208, "eval/reward_neg_acc": 0.9585020542144775, "eval/reward_neg_loss": 0.041872650384902954, "eval/reward_pos_acc": 0.0833333358168602, "eval/reward_pos_loss": 14.692328453063965, "eval/reward_pred": 0.111392080783844, "eval/reward_rate": 0.03515625, "replay/size": 137623.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.933169953890857e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3320174944185163e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0101251602173, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 380.45277404785156, "timer/replay._sample_frac": 1.2681331133230078, "timer/replay._sample_avg": 0.015360657866919071, "timer/replay._sample_min": 0.0005259513854980469, "timer/replay._sample_max": 0.043617963790893555, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.714668035507202, "timer/env.step_frac": 0.022381471398411314, "timer/env.step_avg": 0.004337640849810854, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 0.02853250503540039, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.21433162689209, "timer/agent.policy_frac": 0.3707019273682821, "timer/agent.policy_avg": 0.07184388347990445, "timer/agent.policy_min": 0.0030295848846435547, "timer/agent.policy_max": 0.08721733093261719, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15208840370178223, "timer/dataset_train_frac": 0.0005069442360339039, "timer/dataset_train_avg": 9.824832280476888e-05, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.0002541542053222656, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.7072470188141, "timer/agent.train_frac": 0.6023371608618517, "timer/agent.train_avg": 0.1167359476865724, "timer/agent.train_min": 0.10385799407958984, "timer/agent.train_max": 0.19982552528381348, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2590165138244629, "timer/agent.report_frac": 0.0008633592405794232, "timer/agent.report_avg": 0.12950825691223145, "timer/agent.report_min": 0.09707188606262207, "timer/agent.report_max": 0.16194462776184082, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.389617919921875e-05, "timer/dataset_eval_frac": 2.1298007580609375e-07, "timer/dataset_eval_avg": 6.389617919921875e-05, "timer/dataset_eval_min": 6.389617919921875e-05, "timer/dataset_eval_max": 6.389617919921875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63800366143095}
+{"step": 425508, "episode/length": 530.0, "episode/score": 1190.0, "episode/reward_rate": 0.12994350282485875}
+{"step": 427172, "episode/length": 415.0, "episode/score": 970.0, "episode/reward_rate": 0.11538461538461539}
+{"step": 429460, "episode/length": 571.0, "episode/score": 720.0, "episode/reward_rate": 0.1258741258741259}
+{"step": 430952, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.813480129489651, "train/action_min": 0.0, "train/action_std": 4.35446023321771, "train/actor_opt_grad_norm": 0.008931847603677155, "train/actor_opt_grad_steps": 105865.0, "train/actor_opt_loss": 0.0008106180579272563, "train/adv_mag": 0.7415008003061468, "train/adv_max": 0.7110615601980841, "train/adv_mean": 0.0026445650003185986, "train/adv_min": -0.425565686996107, "train/adv_std": 0.03549284307745757, "train/cont_avg": 0.9982307731331169, "train/cont_loss_mean": 0.0005918817722079971, "train/cont_loss_std": 0.015513618883698814, "train/cont_neg_acc": 0.9326666674613953, "train/cont_neg_loss": 0.23609840231859924, "train/cont_pos_acc": 0.9999554621708857, "train/cont_pos_loss": 0.0001956109109006029, "train/cont_pred": 0.9982525775958966, "train/cont_rate": 0.9982307731331169, "train/dyn_loss_mean": 2.9791277941171224, "train/dyn_loss_std": 6.037470458389877, "train/extr_critic_critic_opt_grad_norm": 1.54558542099866, "train/extr_critic_critic_opt_grad_steps": 105865.0, "train/extr_critic_critic_opt_loss": 1.5157609365203164, "train/extr_critic_mag": 368.3521082494166, "train/extr_critic_max": 368.3521082494166, "train/extr_critic_mean": 149.12617591758828, "train/extr_critic_min": 0.1062513551154694, "train/extr_critic_std": 100.73168222006265, "train/extr_return_normed_mag": 1.3911722526921855, "train/extr_return_normed_max": 1.3911722526921855, "train/extr_return_normed_mean": 0.45828939587264866, "train/extr_return_normed_min": -0.021707169548305986, "train/extr_return_normed_std": 0.3247600242302015, "train/extr_return_rate": 0.9478321632781586, "train/extr_return_raw_mag": 441.38944848791346, "train/extr_return_raw_max": 441.38944848791346, "train/extr_return_raw_mean": 149.95224127831398, "train/extr_return_raw_min": 0.046751008753803884, "train/extr_return_raw_std": 101.43331215598367, "train/extr_reward_mag": 145.10973225011455, "train/extr_reward_max": 145.10973225011455, "train/extr_reward_mean": 0.8961454844707019, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.173025471823556, "train/image_loss_mean": 1.0333409208755988, "train/image_loss_std": 0.8581624600020322, "train/model_loss_mean": 2.885591640100851, "train/model_loss_std": 4.189980003740881, "train/model_opt_grad_norm": 9.413282595671616, "train/model_opt_grad_steps": 105865.0, "train/model_opt_loss": 2.885591640100851, "train/policy_entropy_mag": 2.6135469783436167, "train/policy_entropy_max": 2.6135469783436167, "train/policy_entropy_mean": 0.8311756740916859, "train/policy_entropy_min": 0.08019156294403137, "train/policy_entropy_std": 0.6864763649253102, "train/policy_logprob_mag": 7.495537463720742, "train/policy_logprob_max": -0.009489562174958456, "train/policy_logprob_mean": -0.82990123234786, "train/policy_logprob_min": -7.495537463720742, "train/policy_logprob_std": 1.2399744855893122, "train/policy_randomness_mag": 0.9042252166704698, "train/policy_randomness_max": 0.9042252166704698, "train/policy_randomness_mean": 0.28756705149040596, "train/policy_randomness_min": 0.02774437717706352, "train/policy_randomness_std": 0.2375045267792491, "train/post_ent_mag": 63.53013345792696, "train/post_ent_max": 63.53013345792696, "train/post_ent_mean": 41.62801977875945, "train/post_ent_min": 12.719051735741752, "train/post_ent_std": 5.439271090866684, "train/prior_ent_mag": 85.10727557888279, "train/prior_ent_max": 85.10727557888279, "train/prior_ent_mean": 44.67908834482168, "train/prior_ent_min": 15.367080100170977, "train/prior_ent_std": 7.507078743600226, "train/rep_loss_mean": 2.9791277941171224, "train/rep_loss_std": 6.037470458389877, "train/reward_avg": 1.0385805600649352, "train/reward_loss_mean": 0.06418215444722733, "train/reward_loss_std": 0.23695633841025365, "train/reward_max_data": 135.7792207792208, "train/reward_max_pred": 75.94880633539968, "train/reward_neg_acc": 0.9765488687273743, "train/reward_neg_loss": 0.007402000035606809, "train/reward_pos_acc": 0.9944766852762792, "train/reward_pos_loss": 0.6428146064281464, "train/reward_pred": 0.9315836479911557, "train/reward_rate": 0.0899705762987013, "train_stats/mean_log_entropy": 0.7265600164731344, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.1302230379660614e-05, "report/cont_loss_std": 0.0005162311717867851, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0056779407896101475, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.577276998432353e-05, "report/cont_pred": 0.999013364315033, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.0080652236938477, "report/dyn_loss_std": 5.945568084716797, "report/image_loss_mean": 1.103232502937317, "report/image_loss_std": 0.8643134832382202, "report/model_loss_mean": 2.9689812660217285, "report/model_loss_std": 4.105762481689453, "report/post_ent_mag": 63.45769119262695, "report/post_ent_max": 63.45769119262695, "report/post_ent_mean": 39.88313293457031, "report/post_ent_min": 11.314352035522461, "report/post_ent_std": 5.020848751068115, "report/prior_ent_mag": 85.04812622070312, "report/prior_ent_max": 85.04812622070312, "report/prior_ent_mean": 43.1411247253418, "report/prior_ent_min": 13.593320846557617, "report/prior_ent_std": 7.406780242919922, "report/rep_loss_mean": 3.0080652236938477, "report/rep_loss_std": 5.945568084716797, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.06088806688785553, "report/reward_loss_std": 0.20969341695308685, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.009047508239746, "report/reward_neg_acc": 0.975321888923645, "report/reward_neg_loss": 0.009354100562632084, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5829495787620544, "report/reward_pred": 0.8906269669532776, "report/reward_rate": 0.08984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.1994706028417568e-07, "eval/cont_loss_std": 2.628335323606734e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1994706028417568e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 20.072792053222656, "eval/dyn_loss_std": 15.251588821411133, "eval/image_loss_mean": 4.475264072418213, "eval/image_loss_std": 2.736201286315918, "eval/model_loss_mean": 16.87645721435547, "eval/model_loss_std": 11.153936386108398, "eval/post_ent_mag": 57.284942626953125, "eval/post_ent_max": 57.284942626953125, "eval/post_ent_mean": 42.90332794189453, "eval/post_ent_min": 27.242877960205078, "eval/post_ent_std": 4.428134441375732, "eval/prior_ent_mag": 85.04812622070312, "eval/prior_ent_max": 85.04812622070312, "eval/prior_ent_mean": 47.958343505859375, "eval/prior_ent_min": 29.138282775878906, "eval/prior_ent_std": 6.407463550567627, "eval/rep_loss_mean": 20.072792053222656, "eval/rep_loss_std": 15.251588821411133, "eval/reward_avg": 0.2734375, "eval/reward_loss_mean": 0.35751622915267944, "eval/reward_loss_std": 2.276557683944702, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998175621032715, "eval/reward_neg_acc": 0.959839403629303, "eval/reward_neg_loss": 0.04979843646287918, "eval/reward_pos_acc": 0.2142857313156128, "eval/reward_pos_loss": 11.303478240966797, "eval/reward_pred": 0.14513199031352997, "eval/reward_rate": 0.02734375, "replay/size": 139169.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.872467662816214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3690851484202474e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.862645149230957e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14439058303833, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.4597568511963, "timer/replay._sample_frac": 1.3009063940615981, "timer/replay._sample_avg": 0.015785080726519903, "timer/replay._sample_min": 0.0004627704620361328, "timer/replay._sample_max": 0.07099699974060059, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.792195081710815, "timer/env.step_frac": 0.022629758525610954, "timer/env.step_avg": 0.004393399147290308, "timer/env.step_min": 0.0023238658905029297, "timer/env.step_max": 0.028193235397338867, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.13593697547913, "timer/agent.policy_frac": 0.3702749092181755, "timer/agent.policy_avg": 0.07188611706046515, "timer/agent.policy_min": 0.0029478073120117188, "timer/agent.policy_max": 0.14013242721557617, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15519499778747559, "timer/dataset_train_frac": 0.0005170677935576448, "timer/dataset_train_avg": 0.00010038486273446028, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00023508071899414062, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.8641233444214, "timer/agent.train_frac": 0.6025903832255138, "timer/agent.train_avg": 0.11698843683339029, "timer/agent.train_min": 0.10401701927185059, "timer/agent.train_max": 0.2474956512451172, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2594575881958008, "timer/agent.report_frac": 0.0008644425694306584, "timer/agent.report_avg": 0.1297287940979004, "timer/agent.report_min": 0.09643769264221191, "timer/agent.report_max": 0.16301989555358887, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.936622619628906e-05, "timer/dataset_eval_frac": 1.977922228730266e-07, "timer/dataset_eval_avg": 5.936622619628906e-05, "timer/dataset_eval_min": 5.936622619628906e-05, "timer/dataset_eval_max": 5.936622619628906e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10883688926696777, "timer/agent.save_frac": 0.0003626151035358324, "timer/agent.save_avg": 0.10883688926696777, "timer/agent.save_min": 0.10883688926696777, "timer/agent.save_max": 0.10883688926696777, "fps": 20.60210050101342}
+{"step": 431084, "episode/length": 405.0, "episode/score": 990.0, "episode/reward_rate": 0.12315270935960591}
+{"step": 433052, "episode/length": 491.0, "episode/score": 950.0, "episode/reward_rate": 0.09349593495934959}
+{"step": 434644, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.1306532663316583}
+{"step": 436452, "episode/length": 451.0, "episode/score": 1070.0, "episode/reward_rate": 0.12831858407079647}
+{"step": 437140, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.778407730594758, "train/action_min": 0.0, "train/action_std": 4.371754815501552, "train/actor_opt_grad_norm": 0.008829341448783393, "train/actor_opt_grad_steps": 107410.0, "train/actor_opt_loss": 0.00029550621476676406, "train/adv_mag": 0.769494296177741, "train/adv_max": 0.7517417071327086, "train/adv_mean": 0.0021103161334248134, "train/adv_min": -0.41641384026696604, "train/adv_std": 0.035511855054045874, "train/cont_avg": 0.9980657762096774, "train/cont_loss_mean": 0.0005497509962033117, "train/cont_loss_std": 0.014960960423714153, "train/cont_neg_acc": 0.927662669474842, "train/cont_neg_loss": 0.2157807233025216, "train/cont_pos_acc": 0.9999620795249939, "train/cont_pos_loss": 0.0001473880139232757, "train/cont_pred": 0.9981291297943361, "train/cont_rate": 0.9980657762096774, "train/dyn_loss_mean": 3.0054404858619934, "train/dyn_loss_std": 6.0633148839396815, "train/extr_critic_critic_opt_grad_norm": 1.508813750743866, "train/extr_critic_critic_opt_grad_steps": 107410.0, "train/extr_critic_critic_opt_loss": 1.4906581563334311, "train/extr_critic_mag": 371.5923396941154, "train/extr_critic_max": 371.5923396941154, "train/extr_critic_mean": 152.99349409534085, "train/extr_critic_min": 0.05213857158537834, "train/extr_critic_std": 103.36234647689326, "train/extr_return_normed_mag": 1.412550797001008, "train/extr_return_normed_max": 1.412550797001008, "train/extr_return_normed_mean": 0.4620793069562604, "train/extr_return_normed_min": -0.021593911272864186, "train/extr_return_normed_std": 0.3279449433088303, "train/extr_return_rate": 0.9428486716362738, "train/extr_return_raw_mag": 455.0183847735005, "train/extr_return_raw_max": 455.0183847735005, "train/extr_return_raw_mean": 153.66204494353263, "train/extr_return_raw_min": 0.15123352457359884, "train/extr_return_raw_std": 104.08947197698778, "train/extr_reward_mag": 160.27914784954442, "train/extr_reward_max": 160.27914784954442, "train/extr_reward_mean": 0.8822867132002308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.341080569451855, "train/image_loss_mean": 1.0356003607473065, "train/image_loss_std": 0.8554407811933948, "train/model_loss_mean": 2.9029294398523144, "train/model_loss_std": 4.209867343594951, "train/model_opt_grad_norm": 9.993010213298183, "train/model_opt_grad_steps": 107410.0, "train/model_opt_loss": 2.9029294398523144, "train/policy_entropy_mag": 2.6205336816849245, "train/policy_entropy_max": 2.6205336816849245, "train/policy_entropy_mean": 0.8435158875680739, "train/policy_entropy_min": 0.08019175630423331, "train/policy_entropy_std": 0.6909118444688859, "train/policy_logprob_mag": 7.495538207023374, "train/policy_logprob_max": -0.00948957960091291, "train/policy_logprob_mean": -0.8433745614943966, "train/policy_logprob_min": -7.495538207023374, "train/policy_logprob_std": 1.2477948327218333, "train/policy_randomness_mag": 0.9066424492866763, "train/policy_randomness_max": 0.9066424492866763, "train/policy_randomness_mean": 0.29183647459553136, "train/policy_randomness_min": 0.0277444442313525, "train/policy_randomness_std": 0.23903909690918462, "train/post_ent_mag": 63.83545542070942, "train/post_ent_max": 63.83545542070942, "train/post_ent_mean": 41.482224445958295, "train/post_ent_min": 12.983505196725169, "train/post_ent_std": 5.355677450856855, "train/prior_ent_mag": 85.1842767038653, "train/prior_ent_max": 85.1842767038653, "train/prior_ent_mean": 44.51360798497354, "train/prior_ent_min": 15.749421218133742, "train/prior_ent_std": 7.501603997138239, "train/rep_loss_mean": 3.0054404858619934, "train/rep_loss_std": 6.0633148839396815, "train/reward_avg": 1.0553805443548387, "train/reward_loss_mean": 0.06351501701339599, "train/reward_loss_std": 0.23720743040884695, "train/reward_max_data": 154.0, "train/reward_max_pred": 82.64207302831835, "train/reward_neg_acc": 0.9763034928229547, "train/reward_neg_loss": 0.006852999720121583, "train/reward_pos_acc": 0.9955583626224148, "train/reward_pos_loss": 0.6477809413786857, "train/reward_pred": 0.9211202717596485, "train/reward_rate": 0.08891759072580645, "train_stats/mean_log_entropy": 0.653024286031723, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.00012650061398744583, "report/cont_loss_std": 0.0016415691934525967, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0020675023552030325, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00011888883454957977, "report/cont_pred": 0.995984673500061, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 3.216679573059082, "report/dyn_loss_std": 6.0434489250183105, "report/image_loss_mean": 1.1018342971801758, "report/image_loss_std": 1.059971809387207, "report/model_loss_mean": 3.094778537750244, "report/model_loss_std": 4.29968786239624, "report/post_ent_mag": 67.66268920898438, "report/post_ent_max": 67.66268920898438, "report/post_ent_mean": 41.41692352294922, "report/post_ent_min": 21.522064208984375, "report/post_ent_std": 5.229324817657471, "report/prior_ent_mag": 85.17948913574219, "report/prior_ent_max": 85.17948913574219, "report/prior_ent_mean": 44.575897216796875, "report/prior_ent_min": 23.867630004882812, "report/prior_ent_std": 7.746463298797607, "report/rep_loss_mean": 3.216679573059082, "report/rep_loss_std": 6.0434489250183105, "report/reward_avg": 1.513671875, "report/reward_loss_mean": 0.06280995905399323, "report/reward_loss_std": 0.1953527331352234, "report/reward_max_data": 500.0, "report/reward_max_pred": 451.4073791503906, "report/reward_neg_acc": 0.984749436378479, "report/reward_neg_loss": 0.005032538902014494, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5631842017173767, "report/reward_pred": 1.4594156742095947, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.019009213894605637, "eval/cont_loss_std": 0.41640305519104004, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.268918037414551, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006451362860389054, "eval/cont_pred": 0.9984268546104431, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 4.815122127532959, "eval/dyn_loss_std": 7.6764397621154785, "eval/image_loss_mean": 1.1952170133590698, "eval/image_loss_std": 1.780800223350525, "eval/model_loss_mean": 4.269201278686523, "eval/model_loss_std": 6.045570373535156, "eval/post_ent_mag": 64.42546844482422, "eval/post_ent_max": 64.42546844482422, "eval/post_ent_mean": 40.73478698730469, "eval/post_ent_min": 10.931775093078613, "eval/post_ent_std": 6.186013221740723, "eval/prior_ent_mag": 85.17948913574219, "eval/prior_ent_max": 85.17948913574219, "eval/prior_ent_mean": 44.251182556152344, "eval/prior_ent_min": 13.042776107788086, "eval/prior_ent_std": 8.6533784866333, "eval/rep_loss_mean": 4.815122127532959, "eval/rep_loss_std": 7.6764397621154785, "eval/reward_avg": 1.298828125, "eval/reward_loss_mean": 0.16590160131454468, "eval/reward_loss_std": 0.8449660539627075, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 19.871915817260742, "eval/reward_neg_acc": 0.9641256332397461, "eval/reward_neg_loss": 0.023103874176740646, "eval/reward_pos_acc": 0.9545454382896423, "eval/reward_pos_loss": 1.1308679580688477, "eval/reward_pred": 1.1388373374938965, "eval/reward_rate": 0.12890625, "replay/size": 140716.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.01233836336142e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34470698597667e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.591179847717285e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05183601379395, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 386.8321409225464, "timer/replay._sample_frac": 1.2892177100518158, "timer/replay._sample_avg": 0.015628318556987167, "timer/replay._sample_min": 0.0004856586456298828, "timer/replay._sample_max": 0.04087710380554199, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.817589044570923, "timer/env.step_frac": 0.02272137086425795, "timer/env.step_avg": 0.004406974172314753, "timer/env.step_min": 0.0022919178009033203, "timer/env.step_max": 0.030580520629882812, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.81888175010681, "timer/agent.policy_frac": 0.36933245675927895, "timer/agent.policy_avg": 0.07163470054951959, "timer/agent.policy_min": 0.002835512161254883, "timer/agent.policy_max": 0.08963394165039062, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1540694236755371, "timer/dataset_train_frac": 0.0005134760237509569, "timer/dataset_train_avg": 9.959238763770983e-05, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.00027561187744140625, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 181.01291680335999, "timer/agent.train_frac": 0.6032721519325697, "timer/agent.train_avg": 0.11700899599441499, "timer/agent.train_min": 0.10402750968933105, "timer/agent.train_max": 0.20317482948303223, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2629122734069824, "timer/agent.report_frac": 0.0008762228450250038, "timer/agent.report_avg": 0.1314561367034912, "timer/agent.report_min": 0.10209345817565918, "timer/agent.report_max": 0.16081881523132324, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.033348083496094e-05, "timer/dataset_eval_frac": 2.344044341449308e-07, "timer/dataset_eval_avg": 7.033348083496094e-05, "timer/dataset_eval_min": 7.033348083496094e-05, "timer/dataset_eval_max": 7.033348083496094e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.621722122293388}
+{"step": 438236, "episode/length": 445.0, "episode/score": 1040.0, "episode/reward_rate": 0.12331838565022421}
+{"step": 440416, "episode/length": 544.0, "episode/score": 1030.0, "episode/reward_rate": 0.09908256880733946}
+{"step": 442184, "episode/length": 441.0, "episode/score": 1040.0, "episode/reward_rate": 0.1244343891402715}
+{"step": 443332, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.937347215221774, "train/action_min": 0.0, "train/action_std": 4.37919060337928, "train/actor_opt_grad_norm": 0.00840087122013492, "train/actor_opt_grad_steps": 108960.0, "train/actor_opt_loss": 8.074554423200748e-05, "train/adv_mag": 0.8114534978905031, "train/adv_max": 0.7787695764533935, "train/adv_mean": 0.0017873627287166704, "train/adv_min": -0.4223038384991307, "train/adv_std": 0.03427137471134624, "train/cont_avg": 0.9982988911290323, "train/cont_loss_mean": 0.0006070696066512456, "train/cont_loss_std": 0.014598652890534015, "train/cont_neg_acc": 0.9177002597224805, "train/cont_neg_loss": 0.22011203219571243, "train/cont_pos_acc": 0.9999304856023481, "train/cont_pos_loss": 0.00024319165938152998, "train/cont_pred": 0.9982911913625656, "train/cont_rate": 0.9982988911290323, "train/dyn_loss_mean": 3.0065395047587735, "train/dyn_loss_std": 6.082631289574408, "train/extr_critic_critic_opt_grad_norm": 1.498802327340649, "train/extr_critic_critic_opt_grad_steps": 108960.0, "train/extr_critic_critic_opt_loss": 1.476039969536566, "train/extr_critic_mag": 374.7565959315146, "train/extr_critic_max": 374.7565959315146, "train/extr_critic_mean": 153.49426884805, "train/extr_critic_min": 0.04261377011576006, "train/extr_critic_std": 104.38800890522619, "train/extr_return_normed_mag": 1.424320537428702, "train/extr_return_normed_max": 1.424320537428702, "train/extr_return_normed_mean": 0.4561686506194453, "train/extr_return_normed_min": -0.020249162229799455, "train/extr_return_normed_std": 0.3253219763117452, "train/extr_return_rate": 0.9480704453683668, "train/extr_return_raw_mag": 466.70694776965723, "train/extr_return_raw_max": 466.70694776965723, "train/extr_return_raw_mean": 154.0715334984564, "train/extr_return_raw_min": 0.2811893911944231, "train/extr_return_raw_std": 105.03591914023123, "train/extr_reward_mag": 171.736579415106, "train/extr_reward_max": 171.736579415106, "train/extr_reward_mean": 0.8849404348481086, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.342846593549175, "train/image_loss_mean": 1.0402025457351438, "train/image_loss_std": 0.8550600874808527, "train/model_loss_mean": 2.9065318984370077, "train/model_loss_std": 4.211096445206673, "train/model_opt_grad_norm": 9.607567679497503, "train/model_opt_grad_steps": 108960.0, "train/model_opt_loss": 2.9065318984370077, "train/policy_entropy_mag": 2.6178841421681067, "train/policy_entropy_max": 2.6178841421681067, "train/policy_entropy_mean": 0.8359032100246798, "train/policy_entropy_min": 0.08019170636130918, "train/policy_entropy_std": 0.6890326415338824, "train/policy_logprob_mag": 7.495538053204936, "train/policy_logprob_max": -0.009489565889441198, "train/policy_logprob_mean": -0.836507506908909, "train/policy_logprob_min": -7.495538053204936, "train/policy_logprob_std": 1.2454904317855835, "train/policy_randomness_mag": 0.9057257736882856, "train/policy_randomness_max": 0.9057257736882856, "train/policy_randomness_mean": 0.28920267166629915, "train/policy_randomness_min": 0.027744426902744077, "train/policy_randomness_std": 0.23838893953830964, "train/post_ent_mag": 63.602462719332785, "train/post_ent_max": 63.602462719332785, "train/post_ent_mean": 41.33362404607957, "train/post_ent_min": 12.334166416045159, "train/post_ent_std": 5.325519515622046, "train/prior_ent_mag": 85.10393642302482, "train/prior_ent_max": 85.10393642302482, "train/prior_ent_mean": 44.35358699675529, "train/prior_ent_min": 15.012561527375253, "train/prior_ent_std": 7.46565013393279, "train/rep_loss_mean": 3.0065395047587735, "train/rep_loss_std": 6.082631289574408, "train/reward_avg": 1.0535534274193548, "train/reward_loss_mean": 0.061798597679984184, "train/reward_loss_std": 0.22912751590051958, "train/reward_max_data": 156.32258064516128, "train/reward_max_pred": 90.92518986732729, "train/reward_neg_acc": 0.9783324418529388, "train/reward_neg_loss": 0.00694530182743385, "train/reward_pos_acc": 0.9960452675819397, "train/reward_pos_loss": 0.6298907856787405, "train/reward_pred": 0.9312459868769492, "train/reward_rate": 0.08824344758064516, "train_stats/mean_log_entropy": 0.7140082915623983, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 5.284392955218209e-06, "report/cont_loss_std": 0.00011428285506553948, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00016791862435638905, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.966125743521843e-06, "report/cont_pred": 0.9980422854423523, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.494391918182373, "report/dyn_loss_std": 5.553468704223633, "report/image_loss_mean": 0.841326117515564, "report/image_loss_std": 0.8484265208244324, "report/model_loss_mean": 2.387146472930908, "report/model_loss_std": 3.910742998123169, "report/post_ent_mag": 67.48918151855469, "report/post_ent_max": 67.48918151855469, "report/post_ent_mean": 40.94548034667969, "report/post_ent_min": 11.092578887939453, "report/post_ent_std": 5.428455352783203, "report/prior_ent_mag": 85.36573028564453, "report/prior_ent_max": 85.36573028564453, "report/prior_ent_mean": 43.59347152709961, "report/prior_ent_min": 13.984474182128906, "report/prior_ent_std": 7.501100063323975, "report/rep_loss_mean": 2.494391918182373, "report/rep_loss_std": 5.553468704223633, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.049179915338754654, "report/reward_loss_std": 0.1963413804769516, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.018658638000488, "report/reward_neg_acc": 0.9883102774620056, "report/reward_neg_loss": 0.0019861264154314995, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.5842323899269104, "report/reward_pred": 0.7970269918441772, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002179817296564579, "eval/cont_loss_std": 0.045642461627721786, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.9970625638961792, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0012073025573045015, "eval/cont_pred": 0.998841404914856, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.339838027954102, "eval/dyn_loss_std": 8.462380409240723, "eval/image_loss_mean": 2.0406887531280518, "eval/image_loss_std": 2.000917673110962, "eval/model_loss_mean": 7.308979034423828, "eval/model_loss_std": 6.692609786987305, "eval/post_ent_mag": 64.8868637084961, "eval/post_ent_max": 64.8868637084961, "eval/post_ent_mean": 43.673179626464844, "eval/post_ent_min": 11.176501274108887, "eval/post_ent_std": 4.793922424316406, "eval/prior_ent_mag": 85.36573028564453, "eval/prior_ent_max": 85.36573028564453, "eval/prior_ent_mean": 48.25595474243164, "eval/prior_ent_min": 13.251546859741211, "eval/prior_ent_std": 6.914416790008545, "eval/rep_loss_mean": 8.339838027954102, "eval/rep_loss_std": 8.462380409240723, "eval/reward_avg": 1.025390625, "eval/reward_loss_mean": 0.26220789551734924, "eval/reward_loss_std": 1.2796857357025146, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 11.327560424804688, "eval/reward_neg_acc": 0.9347116351127625, "eval/reward_neg_loss": 0.06896410882472992, "eval/reward_pos_acc": 0.8380952477455139, "eval/reward_pos_loss": 1.9535512924194336, "eval/reward_pred": 0.7918533086776733, "eval/reward_rate": 0.1025390625, "replay/size": 142264.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.991080409796663e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3000011752126137e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08304595947266, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 379.27977752685547, "timer/replay._sample_frac": 1.2639160480198492, "timer/replay._sample_avg": 0.0153132985112587, "timer/replay._sample_min": 0.0003952980041503906, "timer/replay._sample_max": 0.04362797737121582, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.7767555713653564, "timer/env.step_frac": 0.02258293383319157, "timer/env.step_avg": 0.004377749077109403, "timer/env.step_min": 0.0022771358489990234, "timer/env.step_max": 0.030116558074951172, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.00991082191467, "timer/agent.policy_frac": 0.36993063192549364, "timer/agent.policy_avg": 0.0717118286963273, "timer/agent.policy_min": 0.003070354461669922, "timer/agent.policy_max": 0.08910655975341797, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15852785110473633, "timer/dataset_train_frac": 0.0005282799319697192, "timer/dataset_train_avg": 0.00010240817254827928, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.00023174285888671875, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.92470908164978, "timer/agent.train_frac": 0.6029154646280295, "timer/agent.train_avg": 0.11687642705532932, "timer/agent.train_min": 0.10373687744140625, "timer/agent.train_max": 0.20378422737121582, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25515127182006836, "timer/agent.report_frac": 0.0008502688680870278, "timer/agent.report_avg": 0.12757563591003418, "timer/agent.report_min": 0.09724640846252441, "timer/agent.report_max": 0.15790486335754395, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.364418029785156e-05, "timer/dataset_eval_frac": 1.787644487756113e-07, "timer/dataset_eval_avg": 5.364418029785156e-05, "timer/dataset_eval_min": 5.364418029785156e-05, "timer/dataset_eval_max": 5.364418029785156e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.632926413380144}
+{"step": 444104, "episode/length": 479.0, "episode/score": 1030.0, "episode/reward_rate": 0.1125}
+{"step": 446184, "episode/length": 519.0, "episode/score": 1000.0, "episode/reward_rate": 0.09807692307692308}
+{"step": 447716, "episode/length": 382.0, "episode/score": 1000.0, "episode/reward_rate": 0.13315926892950392}
+{"step": 449520, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.855627047631048, "train/action_min": 0.0, "train/action_std": 4.323877677609843, "train/actor_opt_grad_norm": 0.008545550667951185, "train/actor_opt_grad_steps": 110510.0, "train/actor_opt_loss": 0.00031996665007359443, "train/adv_mag": 0.8039890902657663, "train/adv_max": 0.7748253898274514, "train/adv_mean": 0.0019801074817927832, "train/adv_min": -0.4113365828029571, "train/adv_std": 0.03496499100039082, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.0006064514561239271, "train/cont_loss_std": 0.014225085128548691, "train/cont_neg_acc": 0.932923498212314, "train/cont_neg_loss": 0.16259018294308739, "train/cont_pos_acc": 0.999867235460589, "train/cont_pos_loss": 0.000344678463467184, "train/cont_pred": 0.9982322585198187, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 3.028007176614577, "train/dyn_loss_std": 6.058867756012948, "train/extr_critic_critic_opt_grad_norm": 1.4919375977208538, "train/extr_critic_critic_opt_grad_steps": 110510.0, "train/extr_critic_critic_opt_loss": 1.4695758165851716, "train/extr_critic_mag": 379.0660388577369, "train/extr_critic_max": 379.0660388577369, "train/extr_critic_mean": 155.67302521736391, "train/extr_critic_min": 0.3966094563084264, "train/extr_critic_std": 105.7857934274981, "train/extr_return_normed_mag": 1.425900678480825, "train/extr_return_normed_max": 1.425900678480825, "train/extr_return_normed_mean": 0.46003433158320767, "train/extr_return_normed_min": -0.01953763693210579, "train/extr_return_normed_std": 0.3277577034888729, "train/extr_return_rate": 0.947597494048457, "train/extr_return_raw_mag": 470.2036225349672, "train/extr_return_raw_max": 470.2036225349672, "train/extr_return_raw_mean": 156.31692805136404, "train/extr_return_raw_min": 0.48702676925383837, "train/extr_return_raw_std": 106.4890370522776, "train/extr_reward_mag": 190.31656486142066, "train/extr_reward_max": 190.31656486142066, "train/extr_reward_mean": 0.8992668082637172, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.6861842816875825, "train/image_loss_mean": 1.025452648439715, "train/image_loss_std": 0.8478858213270865, "train/model_loss_mean": 2.9058665813938265, "train/model_loss_std": 4.190978314799647, "train/model_opt_grad_norm": 9.850961765166252, "train/model_opt_grad_steps": 110510.0, "train/model_opt_loss": 2.9058665813938265, "train/policy_entropy_mag": 2.6270507950936595, "train/policy_entropy_max": 2.6270507950936595, "train/policy_entropy_mean": 0.8145859110739924, "train/policy_entropy_min": 0.08019153754557333, "train/policy_entropy_std": 0.6896301073412742, "train/policy_logprob_mag": 7.495539006879253, "train/policy_logprob_max": -0.009489551420894362, "train/policy_logprob_mean": -0.8144089914137317, "train/policy_logprob_min": -7.495539006879253, "train/policy_logprob_std": 1.2414972605243806, "train/policy_randomness_mag": 0.9088972180120407, "train/policy_randomness_max": 0.9088972180120407, "train/policy_randomness_mean": 0.28182739192439665, "train/policy_randomness_min": 0.02774436852383998, "train/policy_randomness_std": 0.23859564873480027, "train/post_ent_mag": 63.30950162333827, "train/post_ent_max": 63.30950162333827, "train/post_ent_mean": 41.31287302817068, "train/post_ent_min": 12.459166000735376, "train/post_ent_std": 5.342807865142822, "train/prior_ent_mag": 85.18447014593309, "train/prior_ent_max": 85.18447014593309, "train/prior_ent_mean": 44.34272825179561, "train/prior_ent_min": 15.13106443343624, "train/prior_ent_std": 7.4908833103795205, "train/rep_loss_mean": 3.028007176614577, "train/rep_loss_std": 6.058867756012948, "train/reward_avg": 1.1021295362903225, "train/reward_loss_mean": 0.06300316448173215, "train/reward_loss_std": 0.2347031879809595, "train/reward_max_data": 194.6451612903226, "train/reward_max_pred": 102.55054975940335, "train/reward_neg_acc": 0.9780723979396205, "train/reward_neg_loss": 0.0070440535178227775, "train/reward_pos_acc": 0.9948117094655191, "train/reward_pos_loss": 0.6397922708142189, "train/reward_pred": 0.9496763629298056, "train/reward_rate": 0.08862147177419355, "train_stats/mean_log_entropy": 0.6571384072303772, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.311457229595362e-08, "report/cont_loss_std": 5.178257538318576e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.311457229595362e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.005497932434082, "report/dyn_loss_std": 5.637523174285889, "report/image_loss_mean": 0.9738912582397461, "report/image_loss_std": 0.7449299693107605, "report/model_loss_mean": 2.8731536865234375, "report/model_loss_std": 3.8966922760009766, "report/post_ent_mag": 64.76299285888672, "report/post_ent_max": 64.76299285888672, "report/post_ent_mean": 42.10179138183594, "report/post_ent_min": 11.751214981079102, "report/post_ent_std": 5.574112415313721, "report/prior_ent_mag": 85.01902770996094, "report/prior_ent_max": 85.01902770996094, "report/prior_ent_mean": 45.244232177734375, "report/prior_ent_min": 12.159807205200195, "report/prior_ent_std": 7.254479885101318, "report/rep_loss_mean": 3.005497932434082, "report/rep_loss_std": 5.637523174285889, "report/reward_avg": 1.11328125, "report/reward_loss_mean": 0.09596338868141174, "report/reward_loss_std": 0.3569340705871582, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.941539764404297, "report/reward_neg_acc": 0.9671052694320679, "report/reward_neg_loss": 0.016066676005721092, "report/reward_pos_acc": 0.9821429252624512, "report/reward_pos_loss": 0.746550977230072, "report/reward_pred": 1.0287798643112183, "report/reward_rate": 0.109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0013218718813732266, "eval/cont_loss_std": 0.04219965264201164, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.3510491847991943, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.490396809662343e-06, "eval/cont_pred": 0.9997446537017822, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 6.602123260498047, "eval/dyn_loss_std": 9.794909477233887, "eval/image_loss_mean": 1.7803815603256226, "eval/image_loss_std": 1.841713309288025, "eval/model_loss_mean": 5.963573455810547, "eval/model_loss_std": 7.307038307189941, "eval/post_ent_mag": 64.46450805664062, "eval/post_ent_max": 64.46450805664062, "eval/post_ent_mean": 42.49119186401367, "eval/post_ent_min": 10.712493896484375, "eval/post_ent_std": 4.9826340675354, "eval/prior_ent_mag": 85.01902770996094, "eval/prior_ent_max": 85.01902770996094, "eval/prior_ent_mean": 46.28966522216797, "eval/prior_ent_min": 12.759923934936523, "eval/prior_ent_std": 6.871284484863281, "eval/rep_loss_mean": 6.602123260498047, "eval/rep_loss_std": 9.794909477233887, "eval/reward_avg": 1.982421875, "eval/reward_loss_mean": 0.22059571743011475, "eval/reward_loss_std": 1.0918664932250977, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 138.1105499267578, "eval/reward_neg_acc": 0.9347116351127625, "eval/reward_neg_loss": 0.05615958943963051, "eval/reward_pos_acc": 0.8666666746139526, "eval/reward_pos_loss": 1.6598032712936401, "eval/reward_pred": 1.0217251777648926, "eval/reward_rate": 0.1025390625, "replay/size": 143811.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.852519315831801e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2880883528173702e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.7418136596679688e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16977977752686, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 368.7548542022705, "timer/replay._sample_frac": 1.2284876061660037, "timer/replay._sample_avg": 0.014897982151029028, "timer/replay._sample_min": 0.0005116462707519531, "timer/replay._sample_max": 0.049335479736328125, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.7577879428863525, "timer/env.step_frac": 0.02251321884533126, "timer/env.step_avg": 0.0043683179979873, "timer/env.step_min": 0.002441883087158203, "timer/env.step_max": 0.03097987174987793, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.18805003166199, "timer/agent.policy_frac": 0.37041720227156066, "timer/agent.policy_avg": 0.07187333550850807, "timer/agent.policy_min": 0.002788066864013672, "timer/agent.policy_max": 0.1819319725036621, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1547679901123047, "timer/dataset_train_frac": 0.0005156015046784929, "timer/dataset_train_avg": 0.00010004394965242708, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.0013997554779052734, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.9071979522705, "timer/agent.train_frac": 0.6026829152699891, "timer/agent.train_avg": 0.11694065801698159, "timer/agent.train_min": 0.10406279563903809, "timer/agent.train_max": 0.2624378204345703, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19953036308288574, "timer/agent.report_frac": 0.0006647250207225032, "timer/agent.report_avg": 0.09976518154144287, "timer/agent.report_min": 0.09849166870117188, "timer/agent.report_max": 0.10103869438171387, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.221366882324219e-05, "timer/dataset_eval_frac": 1.7394712039946442e-07, "timer/dataset_eval_avg": 5.221366882324219e-05, "timer/dataset_eval_min": 5.221366882324219e-05, "timer/dataset_eval_max": 5.221366882324219e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1570448875427246, "timer/agent.save_frac": 0.0005231868699744512, "timer/agent.save_avg": 0.1570448875427246, "timer/agent.save_min": 0.1570448875427246, "timer/agent.save_max": 0.1570448875427246, "fps": 20.61347228116682}
+{"step": 449728, "episode/length": 502.0, "episode/score": 970.0, "episode/reward_rate": 0.09542743538767395}
+{"step": 451464, "episode/length": 433.0, "episode/score": 1040.0, "episode/reward_rate": 0.12442396313364056}
+{"step": 453276, "episode/length": 452.0, "episode/score": 1050.0, "episode/reward_rate": 0.12362030905077263}
+{"step": 455492, "episode/length": 553.0, "episode/score": 990.0, "episode/reward_rate": 0.08844765342960288}
+{"step": 455720, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.915430081275202, "train/action_min": 0.0, "train/action_std": 4.315697500782628, "train/actor_opt_grad_norm": 0.009365968739673975, "train/actor_opt_grad_steps": 112060.0, "train/actor_opt_loss": 0.0003574418262771008, "train/adv_mag": 0.9499523624297112, "train/adv_max": 0.9118178023445991, "train/adv_mean": 0.0027129511424215207, "train/adv_min": -0.47752721453866653, "train/adv_std": 0.04225529548261435, "train/cont_avg": 0.998305191532258, "train/cont_loss_mean": 0.0004711848557493185, "train/cont_loss_std": 0.012335065949635248, "train/cont_neg_acc": 0.9442307703770124, "train/cont_neg_loss": 0.1449765637441813, "train/cont_pos_acc": 0.9999179105604848, "train/cont_pos_loss": 0.0001966365635413887, "train/cont_pred": 0.9983116407548228, "train/cont_rate": 0.998305191532258, "train/dyn_loss_mean": 3.0042832943700977, "train/dyn_loss_std": 6.059658776560138, "train/extr_critic_critic_opt_grad_norm": 1.5142679552878102, "train/extr_critic_critic_opt_grad_steps": 112060.0, "train/extr_critic_critic_opt_loss": 1.4707945239159368, "train/extr_critic_mag": 380.53032836914065, "train/extr_critic_max": 380.53032836914065, "train/extr_critic_mean": 157.70271463701803, "train/extr_critic_min": 0.1429944392173521, "train/extr_critic_std": 104.8364476357737, "train/extr_return_normed_mag": 1.572217268328513, "train/extr_return_normed_max": 1.572217268328513, "train/extr_return_normed_mean": 0.4642757538826235, "train/extr_return_normed_min": -0.021914104528484805, "train/extr_return_normed_std": 0.32713985645001936, "train/extr_return_rate": 0.9488794161427405, "train/extr_return_raw_mag": 519.2764231035786, "train/extr_return_raw_max": 519.2764231035786, "train/extr_return_raw_mean": 158.58586799867692, "train/extr_return_raw_min": 0.2598006038728448, "train/extr_return_raw_std": 106.52818652737525, "train/extr_reward_mag": 224.80225707023374, "train/extr_reward_max": 224.80225707023374, "train/extr_reward_mean": 0.9530837447412552, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.715261976180538, "train/image_loss_mean": 1.0221515797799634, "train/image_loss_std": 0.8465063818039432, "train/model_loss_mean": 2.887976884841919, "train/model_loss_std": 4.190624973850865, "train/model_opt_grad_norm": 9.804473003264397, "train/model_opt_grad_steps": 112060.0, "train/model_opt_loss": 2.887976884841919, "train/policy_entropy_mag": 2.612435568532636, "train/policy_entropy_max": 2.612435568532636, "train/policy_entropy_mean": 0.8200402873177682, "train/policy_entropy_min": 0.0801916352683498, "train/policy_entropy_std": 0.6877240519369802, "train/policy_logprob_mag": 7.495537850164598, "train/policy_logprob_max": -0.009489554437177796, "train/policy_logprob_mean": -0.8200611452902516, "train/policy_logprob_min": -7.495537850164598, "train/policy_logprob_std": 1.2414504035826652, "train/policy_randomness_mag": 0.9038406948889456, "train/policy_randomness_max": 0.9038406948889456, "train/policy_randomness_mean": 0.28371447420889334, "train/policy_randomness_min": 0.027744402291793976, "train/policy_randomness_std": 0.23793619832684917, "train/post_ent_mag": 63.77374306955645, "train/post_ent_max": 63.77374306955645, "train/post_ent_mean": 41.28343392649005, "train/post_ent_min": 12.543176810972152, "train/post_ent_std": 5.329998988489951, "train/prior_ent_mag": 85.15514423001197, "train/prior_ent_max": 85.15514423001197, "train/prior_ent_mean": 44.30941752772178, "train/prior_ent_min": 15.196580154665055, "train/prior_ent_std": 7.471782665867959, "train/rep_loss_mean": 3.0042832943700977, "train/rep_loss_std": 6.059658776560138, "train/reward_avg": 1.1219128024193548, "train/reward_loss_mean": 0.06278415613116757, "train/reward_loss_std": 0.2317643328059104, "train/reward_max_data": 185.03225806451613, "train/reward_max_pred": 134.08556790505685, "train/reward_neg_acc": 0.9799403036794355, "train/reward_neg_loss": 0.006301517326069335, "train/reward_pos_acc": 0.9951511525338695, "train/reward_pos_loss": 0.6351585507392883, "train/reward_pred": 1.0000540873696726, "train/reward_rate": 0.09029737903225807, "train_stats/mean_log_entropy": 0.6623327881097794, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00019648332090582699, "report/cont_loss_std": 0.004933961667120457, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.15658119320869446, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.3614614696707577e-05, "report/cont_pred": 0.9991216659545898, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.587432861328125, "report/dyn_loss_std": 5.482934951782227, "report/image_loss_mean": 0.7923126220703125, "report/image_loss_std": 0.7227399349212646, "report/model_loss_mean": 2.4096293449401855, "report/model_loss_std": 3.6989548206329346, "report/post_ent_mag": 64.33280944824219, "report/post_ent_max": 64.33280944824219, "report/post_ent_mean": 40.486610412597656, "report/post_ent_min": 10.710773468017578, "report/post_ent_std": 5.6387224197387695, "report/prior_ent_mag": 85.01463317871094, "report/prior_ent_max": 85.01463317871094, "report/prior_ent_mean": 43.062957763671875, "report/prior_ent_min": 11.456653594970703, "report/prior_ent_std": 7.626471996307373, "report/rep_loss_mean": 2.587432861328125, "report/rep_loss_std": 5.482934951782227, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.06466073542833328, "report/reward_loss_std": 0.1803373545408249, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.872671127319336, "report/reward_neg_acc": 0.9824945330619812, "report/reward_neg_loss": 0.0057344501838088036, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5542845726013184, "report/reward_pred": 1.0784616470336914, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.009960120543837547, "eval/cont_loss_std": 0.14861519634723663, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 1.5500215291976929, "eval/cont_pos_acc": 0.9970616698265076, "eval/cont_pos_loss": 0.0054349652491509914, "eval/cont_pred": 0.9966574907302856, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.092365264892578, "eval/dyn_loss_std": 9.113279342651367, "eval/image_loss_mean": 2.3192825317382812, "eval/image_loss_std": 2.5803050994873047, "eval/model_loss_mean": 7.410139560699463, "eval/model_loss_std": 7.6980414390563965, "eval/post_ent_mag": 65.57623291015625, "eval/post_ent_max": 65.57623291015625, "eval/post_ent_mean": 41.56450653076172, "eval/post_ent_min": 10.32730484008789, "eval/post_ent_std": 5.888691425323486, "eval/prior_ent_mag": 85.01463317871094, "eval/prior_ent_max": 85.01463317871094, "eval/prior_ent_mean": 46.0119743347168, "eval/prior_ent_min": 12.450926780700684, "eval/prior_ent_std": 8.411057472229004, "eval/rep_loss_mean": 8.092365264892578, "eval/rep_loss_std": 9.113279342651367, "eval/reward_avg": 1.826171875, "eval/reward_loss_mean": 0.22547800838947296, "eval/reward_loss_std": 1.3858258724212646, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 173.4002685546875, "eval/reward_neg_acc": 0.9647058844566345, "eval/reward_neg_loss": 0.020014654844999313, "eval/reward_pos_acc": 0.8202247023582458, "eval/reward_pos_loss": 2.383997678756714, "eval/reward_pred": 0.87837815284729, "eval/reward_rate": 0.0869140625, "replay/size": 145361.0, "replay/inserts": 1550.0, "replay/samples": 24800.0, "replay/insert_wait_avg": 4.966797367219002e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3402392787318075e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.169331073761, "timer/replay._sample_count": 24800.0, "timer/replay._sample_total": 388.5654571056366, "timer/replay._sample_frac": 1.2944875338052237, "timer/replay._sample_avg": 0.01566796198006599, "timer/replay._sample_min": 0.0004420280456542969, "timer/replay._sample_max": 0.04427599906921387, "timer/env.step_count": 1550.0, "timer/env.step_total": 6.801924705505371, "timer/env.step_frac": 0.02266029204640472, "timer/env.step_avg": 0.004388338519680885, "timer/env.step_min": 0.00252532958984375, "timer/env.step_max": 0.03213381767272949, "timer/agent.policy_count": 1550.0, "timer/agent.policy_total": 111.34582734107971, "timer/agent.policy_frac": 0.37094338366539703, "timer/agent.policy_avg": 0.07183601763940627, "timer/agent.policy_min": 0.002862215042114258, "timer/agent.policy_max": 0.08454251289367676, "timer/dataset_train_count": 1550.0, "timer/dataset_train_total": 0.1571509838104248, "timer/dataset_train_frac": 0.0005235411067755217, "timer/dataset_train_avg": 0.00010138773149059665, "timer/dataset_train_min": 6.246566772460938e-05, "timer/dataset_train_max": 0.0002722740173339844, "timer/agent.train_count": 1550.0, "timer/agent.train_total": 180.70636200904846, "timer/agent.train_frac": 0.6020147406886257, "timer/agent.train_avg": 0.11658474968325708, "timer/agent.train_min": 0.10252547264099121, "timer/agent.train_max": 0.2017064094543457, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19563913345336914, "timer/agent.report_frac": 0.0006517625659941071, "timer/agent.report_avg": 0.09781956672668457, "timer/agent.report_min": 0.09729433059692383, "timer/agent.report_max": 0.09834480285644531, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.914138793945312e-05, "timer/dataset_eval_frac": 2.303412800105915e-07, "timer/dataset_eval_avg": 6.914138793945312e-05, "timer/dataset_eval_min": 6.914138793945312e-05, "timer/dataset_eval_max": 6.914138793945312e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.653464409794342}
+{"step": 457668, "episode/length": 543.0, "episode/score": 1030.0, "episode/reward_rate": 0.09926470588235294}
+{"step": 459948, "episode/length": 569.0, "episode/score": 990.0, "episode/reward_rate": 0.08596491228070176}
+{"step": 461628, "episode/length": 419.0, "episode/score": 990.0, "episode/reward_rate": 0.11666666666666667}
+{"step": 461916, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.891779119318182, "train/action_min": 0.0, "train/action_std": 4.266901237624032, "train/actor_opt_grad_norm": 0.008660066776074372, "train/actor_opt_grad_steps": 113605.0, "train/actor_opt_loss": 0.0003141651124749771, "train/adv_mag": 0.8496232991675278, "train/adv_max": 0.8159668582987476, "train/adv_mean": 0.0024075946181822817, "train/adv_min": -0.46493515391628465, "train/adv_std": 0.03784748093019445, "train/cont_avg": 0.9982054078733766, "train/cont_loss_mean": 0.0004805852163765258, "train/cont_loss_std": 0.011753689856768758, "train/cont_neg_acc": 0.9583333343712251, "train/cont_neg_loss": 0.11774675913057023, "train/cont_pos_acc": 0.9999046759171919, "train/cont_pos_loss": 0.00022932534917509894, "train/cont_pred": 0.9981723323270872, "train/cont_rate": 0.9982054078733766, "train/dyn_loss_mean": 2.96972073208202, "train/dyn_loss_std": 6.0414573310257556, "train/extr_critic_critic_opt_grad_norm": 1.4725978235145667, "train/extr_critic_critic_opt_grad_steps": 113605.0, "train/extr_critic_critic_opt_loss": 1.4329159917769494, "train/extr_critic_mag": 380.91585075081167, "train/extr_critic_max": 380.91585075081167, "train/extr_critic_mean": 163.62254442487443, "train/extr_critic_min": 0.3622552868607756, "train/extr_critic_std": 106.97609760234883, "train/extr_return_normed_mag": 1.479627759425671, "train/extr_return_normed_max": 1.479627759425671, "train/extr_return_normed_mean": 0.4774226060548386, "train/extr_return_normed_min": -0.020897260504206278, "train/extr_return_normed_std": 0.32829707860946655, "train/extr_return_rate": 0.9471768949713025, "train/extr_return_raw_mag": 494.03656957056614, "train/extr_return_raw_max": 494.03656957056614, "train/extr_return_raw_mean": 164.41397377113242, "train/extr_return_raw_min": 0.5005868074469807, "train/extr_return_raw_std": 107.99167008833452, "train/extr_reward_mag": 200.10942837479826, "train/extr_reward_max": 200.10942837479826, "train/extr_reward_mean": 0.9385584538633173, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.315500682050532, "train/image_loss_mean": 1.0161002262846215, "train/image_loss_std": 0.8470688984765635, "train/model_loss_mean": 2.861366188371336, "train/model_loss_std": 4.1845258257605815, "train/model_opt_grad_norm": 10.293679051585011, "train/model_opt_grad_steps": 113605.0, "train/model_opt_loss": 2.861366188371336, "train/policy_entropy_mag": 2.620234348557212, "train/policy_entropy_max": 2.620234348557212, "train/policy_entropy_mean": 0.8184986447359061, "train/policy_entropy_min": 0.08019154446272107, "train/policy_entropy_std": 0.6906064024993351, "train/policy_logprob_mag": 7.495539442285315, "train/policy_logprob_max": -0.009489552970588594, "train/policy_logprob_mean": -0.8174324654913568, "train/policy_logprob_min": -7.495539442285315, "train/policy_logprob_std": 1.2384581387817086, "train/policy_randomness_mag": 0.9065388893926298, "train/policy_randomness_max": 0.9065388893926298, "train/policy_randomness_mean": 0.28318110272868885, "train/policy_randomness_min": 0.027744370899707466, "train/policy_randomness_std": 0.23893342283251998, "train/post_ent_mag": 64.15192854249632, "train/post_ent_max": 64.15192854249632, "train/post_ent_mean": 41.371351787022185, "train/post_ent_min": 12.826038307957836, "train/post_ent_std": 5.317808538288265, "train/prior_ent_mag": 85.24036362883332, "train/prior_ent_max": 85.24036362883332, "train/prior_ent_mean": 44.3586321000929, "train/prior_ent_min": 15.522524499273919, "train/prior_ent_std": 7.461306438817607, "train/rep_loss_mean": 2.96972073208202, "train/rep_loss_std": 6.0414573310257556, "train/reward_avg": 1.1040229301948052, "train/reward_loss_mean": 0.06295294912120739, "train/reward_loss_std": 0.23123763414559426, "train/reward_max_data": 186.16883116883116, "train/reward_max_pred": 119.1606054491811, "train/reward_neg_acc": 0.9796960051957663, "train/reward_neg_loss": 0.006343550038941253, "train/reward_pos_acc": 0.9960767170051475, "train/reward_pos_loss": 0.6333857252226247, "train/reward_pred": 0.9802574879163272, "train/reward_rate": 0.09064275568181818, "train_stats/mean_log_entropy": 0.6560168862342834, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.090324980803416e-06, "report/cont_loss_std": 8.40544598759152e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.090324980803416e-06, "report/cont_pred": 0.9999969601631165, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.028494358062744, "report/dyn_loss_std": 6.183339595794678, "report/image_loss_mean": 1.2079262733459473, "report/image_loss_std": 0.9194408655166626, "report/model_loss_mean": 3.086824417114258, "report/model_loss_std": 4.286792278289795, "report/post_ent_mag": 59.3482780456543, "report/post_ent_max": 59.3482780456543, "report/post_ent_mean": 41.21292495727539, "report/post_ent_min": 13.020515441894531, "report/post_ent_std": 4.934233665466309, "report/prior_ent_mag": 85.14054870605469, "report/prior_ent_max": 85.14054870605469, "report/prior_ent_mean": 44.178993225097656, "report/prior_ent_min": 17.384347915649414, "report/prior_ent_std": 6.95175838470459, "report/rep_loss_mean": 3.028494358062744, "report/rep_loss_std": 6.183339595794678, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.06179841607809067, "report/reward_loss_std": 0.2192651331424713, "report/reward_max_data": 500.0, "report/reward_max_pred": 86.26386260986328, "report/reward_neg_acc": 0.9762675166130066, "report/reward_neg_loss": 0.0059350929223001, "report/reward_pos_acc": 0.9896907806396484, "report/reward_pos_loss": 0.5956675410270691, "report/reward_pred": 1.008623719215393, "report/reward_rate": 0.0947265625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.0088849573294283e-07, "eval/cont_loss_std": 6.171369932417292e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.0088849573294283e-07, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 8.516401290893555, "eval/dyn_loss_std": 12.326663970947266, "eval/image_loss_mean": 1.9452468156814575, "eval/image_loss_std": 2.338768482208252, "eval/model_loss_mean": 7.433563709259033, "eval/model_loss_std": 9.333379745483398, "eval/post_ent_mag": 61.01083755493164, "eval/post_ent_max": 61.01083755493164, "eval/post_ent_mean": 42.109649658203125, "eval/post_ent_min": 10.666967391967773, "eval/post_ent_std": 5.079868316650391, "eval/prior_ent_mag": 85.14054870605469, "eval/prior_ent_max": 85.14054870605469, "eval/prior_ent_mean": 46.155242919921875, "eval/prior_ent_min": 11.570516586303711, "eval/prior_ent_std": 7.118797779083252, "eval/rep_loss_mean": 8.516401290893555, "eval/rep_loss_std": 12.326663970947266, "eval/reward_avg": 2.36328125, "eval/reward_loss_mean": 0.37847599387168884, "eval/reward_loss_std": 1.7322745323181152, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 500.34844970703125, "eval/reward_neg_acc": 0.9409090876579285, "eval/reward_neg_loss": 0.05189496651291847, "eval/reward_pos_acc": 0.8263888955116272, "eval/reward_pos_loss": 2.37424898147583, "eval/reward_pred": 1.8152263164520264, "eval/reward_rate": 0.140625, "replay/size": 146910.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.843945192321029e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3434998522734472e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05744528770447, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 386.87686800956726, "timer/replay._sample_frac": 1.2893426711629088, "timer/replay._sample_avg": 0.01560994464209035, "timer/replay._sample_min": 0.00048065185546875, "timer/replay._sample_max": 0.053926706314086914, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.749183893203735, "timer/env.step_frac": 0.022492972593072657, "timer/env.step_avg": 0.004357123236412999, "timer/env.step_min": 0.002401590347290039, "timer/env.step_max": 0.029878616333007812, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.30244755744934, "timer/agent.policy_frac": 0.3709371298910083, "timer/agent.policy_avg": 0.07185438835212998, "timer/agent.policy_min": 0.002996206283569336, "timer/agent.policy_max": 0.08685469627380371, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15277361869812012, "timer/dataset_train_frac": 0.000509147901834717, "timer/dataset_train_avg": 9.862725545391874e-05, "timer/dataset_train_min": 5.984306335449219e-05, "timer/dataset_train_max": 0.00024437904357910156, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.64139604568481, "timer/agent.train_frac": 0.6020227089265531, "timer/agent.train_avg": 0.1166180736253614, "timer/agent.train_min": 0.10339474678039551, "timer/agent.train_max": 0.200089693069458, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2583503723144531, "timer/agent.report_frac": 0.000861003039157181, "timer/agent.report_avg": 0.12917518615722656, "timer/agent.report_min": 0.0981147289276123, "timer/agent.report_max": 0.16023564338684082, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.459785461425781e-05, "timer/dataset_eval_frac": 1.8195800661405912e-07, "timer/dataset_eval_avg": 5.459785461425781e-05, "timer/dataset_eval_min": 5.459785461425781e-05, "timer/dataset_eval_max": 5.459785461425781e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.647948682167957}
+{"step": 463372, "episode/length": 435.0, "episode/score": 1040.0, "episode/reward_rate": 0.12385321100917432}
+{"step": 464940, "episode/length": 391.0, "episode/score": 1010.0, "episode/reward_rate": 0.1326530612244898}
+{"step": 466508, "episode/length": 391.0, "episode/score": 990.0, "episode/reward_rate": 0.12755102040816327}
+{"step": 468100, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.789456668976815, "train/action_min": 0.0, "train/action_std": 4.180311959789646, "train/actor_opt_grad_norm": 0.009082442637713205, "train/actor_opt_grad_steps": 115150.0, "train/actor_opt_loss": 0.0003518580598320994, "train/adv_mag": 0.8939600839730232, "train/adv_max": 0.8757396542256878, "train/adv_mean": 0.0028449826974763473, "train/adv_min": -0.4612366634030496, "train/adv_std": 0.04062698525526831, "train/cont_avg": 0.9981476814516129, "train/cont_loss_mean": 0.0005771500298264973, "train/cont_loss_std": 0.01353514636981407, "train/cont_neg_acc": 0.9636363641365425, "train/cont_neg_loss": 0.12502364271152613, "train/cont_pos_acc": 0.9998862789523217, "train/cont_pos_loss": 0.00033169315147645533, "train/cont_pred": 0.9980746726835927, "train/cont_rate": 0.9981476814516129, "train/dyn_loss_mean": 2.962599143674297, "train/dyn_loss_std": 5.989515766020744, "train/extr_critic_critic_opt_grad_norm": 1.565593546436679, "train/extr_critic_critic_opt_grad_steps": 115150.0, "train/extr_critic_critic_opt_loss": 1.46905152105516, "train/extr_critic_mag": 388.44125385899696, "train/extr_critic_max": 388.44125385899696, "train/extr_critic_mean": 168.97971880512853, "train/extr_critic_min": 0.01125249401215584, "train/extr_critic_std": 110.58050980106476, "train/extr_return_normed_mag": 1.5304588717799033, "train/extr_return_normed_max": 1.5304588717799033, "train/extr_return_normed_mean": 0.4877624200236413, "train/extr_return_normed_min": -0.019265502727320118, "train/extr_return_normed_std": 0.33405947666014396, "train/extr_return_rate": 0.9491507537903324, "train/extr_return_raw_mag": 519.5981090914819, "train/extr_return_raw_max": 519.5981090914819, "train/extr_return_raw_mean": 169.93387485627204, "train/extr_return_raw_min": 0.009453541289023574, "train/extr_return_raw_std": 111.97606954266948, "train/extr_reward_mag": 224.07855495329827, "train/extr_reward_max": 224.07855495329827, "train/extr_reward_mean": 0.9769012797263361, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8269982768643285, "train/image_loss_mean": 0.9999607974483121, "train/image_loss_std": 0.8283570420357489, "train/model_loss_mean": 2.8409675105925527, "train/model_loss_std": 4.132927645406415, "train/model_opt_grad_norm": 9.924016183422458, "train/model_opt_grad_steps": 115150.0, "train/model_opt_loss": 2.8409675105925527, "train/policy_entropy_mag": 2.629477414777202, "train/policy_entropy_max": 2.629477414777202, "train/policy_entropy_mean": 0.7921421704753753, "train/policy_entropy_min": 0.0801914781332016, "train/policy_entropy_std": 0.688917456134673, "train/policy_logprob_mag": 7.495539489869149, "train/policy_logprob_max": -0.009489549888718514, "train/policy_logprob_mean": -0.7923764090384207, "train/policy_logprob_min": -7.495539489869149, "train/policy_logprob_std": 1.235202060207244, "train/policy_randomness_mag": 0.9097367701991912, "train/policy_randomness_max": 0.9097367701991912, "train/policy_randomness_mean": 0.2740623890392242, "train/policy_randomness_min": 0.027744347974658013, "train/policy_randomness_std": 0.2383490885457685, "train/post_ent_mag": 63.98740943170363, "train/post_ent_max": 63.98740943170363, "train/post_ent_mean": 41.155541056971394, "train/post_ent_min": 12.237398061444683, "train/post_ent_std": 5.365044169272146, "train/prior_ent_mag": 85.2116936468309, "train/prior_ent_max": 85.2116936468309, "train/prior_ent_mean": 44.156209416543284, "train/prior_ent_min": 15.169029968015609, "train/prior_ent_std": 7.521287364344443, "train/rep_loss_mean": 2.962599143674297, "train/rep_loss_std": 5.989515766020744, "train/reward_avg": 1.1232358870967742, "train/reward_loss_mean": 0.06287008149008597, "train/reward_loss_std": 0.2252540490319652, "train/reward_max_data": 156.58064516129033, "train/reward_max_pred": 114.44728714727586, "train/reward_neg_acc": 0.9805306888395741, "train/reward_neg_loss": 0.006062064469311266, "train/reward_pos_acc": 0.9964522530955653, "train/reward_pos_loss": 0.6227753669984879, "train/reward_pred": 1.0132754764249248, "train/reward_rate": 0.09232610887096775, "train_stats/mean_log_entropy": 0.5549946824709574, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 7.990009180502966e-06, "report/cont_loss_std": 0.00010278827539877966, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0007722191512584686, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.7444776757620275e-06, "report/cont_pred": 0.997066855430603, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.828836441040039, "report/dyn_loss_std": 5.854581356048584, "report/image_loss_mean": 0.8383569717407227, "report/image_loss_std": 0.7804545164108276, "report/model_loss_mean": 2.5909390449523926, "report/model_loss_std": 4.0099592208862305, "report/post_ent_mag": 64.71737670898438, "report/post_ent_max": 64.71737670898438, "report/post_ent_mean": 41.56780242919922, "report/post_ent_min": 12.748476028442383, "report/post_ent_std": 5.021976947784424, "report/prior_ent_mag": 85.30938720703125, "report/prior_ent_max": 85.30938720703125, "report/prior_ent_mean": 44.40755081176758, "report/prior_ent_min": 14.308701515197754, "report/prior_ent_std": 7.435575485229492, "report/rep_loss_mean": 2.828836441040039, "report/rep_loss_std": 5.854581356048584, "report/reward_avg": 0.966796875, "report/reward_loss_mean": 0.05527215078473091, "report/reward_loss_std": 0.16396023333072662, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.992347717285156, "report/reward_neg_acc": 0.9827213287353516, "report/reward_neg_loss": 0.0031859474256634712, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5474336743354797, "report/reward_pred": 0.9523699283599854, "report/reward_rate": 0.095703125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.012418404221534729, "eval/cont_loss_std": 0.27772146463394165, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.945474624633789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008619221625849605, "eval/cont_pred": 0.9982625246047974, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.046354293823242, "eval/dyn_loss_std": 10.639636039733887, "eval/image_loss_mean": 2.2628817558288574, "eval/image_loss_std": 2.2851874828338623, "eval/model_loss_mean": 8.151378631591797, "eval/model_loss_std": 8.756033897399902, "eval/post_ent_mag": 67.98883056640625, "eval/post_ent_max": 67.98883056640625, "eval/post_ent_mean": 42.79277038574219, "eval/post_ent_min": 22.813982009887695, "eval/post_ent_std": 5.194868564605713, "eval/prior_ent_mag": 85.30938720703125, "eval/prior_ent_max": 85.30938720703125, "eval/prior_ent_mean": 47.557865142822266, "eval/prior_ent_min": 26.460205078125, "eval/prior_ent_std": 7.571707725524902, "eval/rep_loss_mean": 9.046354293823242, "eval/rep_loss_std": 10.639636039733887, "eval/reward_avg": 2.91015625, "eval/reward_loss_mean": 0.44826456904411316, "eval/reward_loss_std": 2.1740481853485107, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.5577392578125, "eval/reward_neg_acc": 0.9284164905548096, "eval/reward_neg_loss": 0.06363923847675323, "eval/reward_pos_acc": 0.6960784792900085, "eval/reward_pos_loss": 3.924975872039795, "eval/reward_pred": 2.7314553260803223, "eval/reward_rate": 0.099609375, "replay/size": 148456.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 5.066471914116192e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3863091943797597e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09831738471985, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 402.6606845855713, "timer/replay._sample_frac": 1.341762553334708, "timer/replay._sample_avg": 0.016278326511383057, "timer/replay._sample_min": 0.00048470497131347656, "timer/replay._sample_max": 0.05060863494873047, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.767071008682251, "timer/env.step_frac": 0.02254951333168258, "timer/env.step_avg": 0.004377148129807407, "timer/env.step_min": 0.002309560775756836, "timer/env.step_max": 0.029119491577148438, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.5149838924408, "timer/agent.policy_frac": 0.3715948322012112, "timer/agent.policy_avg": 0.07213129617881035, "timer/agent.policy_min": 0.0029006004333496094, "timer/agent.policy_max": 0.29030823707580566, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.16062068939208984, "timer/dataset_train_frac": 0.0005352268909464675, "timer/dataset_train_avg": 0.00010389436571286536, "timer/dataset_train_min": 6.103515625e-05, "timer/dataset_train_max": 0.0004780292510986328, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.44879484176636, "timer/agent.train_frac": 0.601298922347621, "timer/agent.train_avg": 0.11671978967772727, "timer/agent.train_min": 0.10064911842346191, "timer/agent.train_max": 0.20181870460510254, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26787614822387695, "timer/agent.report_frac": 0.0008926279579250865, "timer/agent.report_avg": 0.13393807411193848, "timer/agent.report_min": 0.10471510887145996, "timer/agent.report_max": 0.163161039352417, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.797645568847656e-05, "timer/dataset_eval_frac": 2.9315877694739806e-07, "timer/dataset_eval_avg": 8.797645568847656e-05, "timer/dataset_eval_min": 8.797645568847656e-05, "timer/dataset_eval_max": 8.797645568847656e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09801268577575684, "timer/agent.save_frac": 0.00032660191709807753, "timer/agent.save_avg": 0.09801268577575684, "timer/agent.save_min": 0.09801268577575684, "timer/agent.save_max": 0.09801268577575684, "fps": 20.60531310575918}
+{"step": 468100, "episode/length": 397.0, "episode/score": 990.0, "episode/reward_rate": 0.12562814070351758}
+{"step": 469756, "episode/length": 413.0, "episode/score": 1040.0, "episode/reward_rate": 0.13285024154589373}
+{"step": 471332, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.12944162436548223}
+{"step": 473280, "episode/length": 486.0, "episode/score": 1040.0, "episode/reward_rate": 0.11088295687885011}
+{"step": 474288, "train_stats/mean_log_entropy": 0.6165118217468262, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.770389286164315, "train/action_min": 0.0, "train/action_std": 4.2081216058423445, "train/actor_opt_grad_norm": 0.009901481390660329, "train/actor_opt_grad_steps": 116700.0, "train/actor_opt_loss": 0.0006625309870830073, "train/adv_mag": 0.9172083587415757, "train/adv_max": 0.8876296232784948, "train/adv_mean": 0.0029775802558575496, "train/adv_min": -0.5216997685932344, "train/adv_std": 0.041418464517881795, "train/cont_avg": 0.998336693548387, "train/cont_loss_mean": 0.0006527646510717134, "train/cont_loss_std": 0.016839030201509512, "train/cont_neg_acc": 0.933994710445404, "train/cont_neg_loss": 0.2210127902628413, "train/cont_pos_acc": 0.999930489063263, "train/cont_pos_loss": 0.00025202746481653204, "train/cont_pred": 0.9983558154875233, "train/cont_rate": 0.998336693548387, "train/dyn_loss_mean": 2.9358006308155673, "train/dyn_loss_std": 6.022521222022272, "train/extr_critic_critic_opt_grad_norm": 1.597360412536129, "train/extr_critic_critic_opt_grad_steps": 116700.0, "train/extr_critic_critic_opt_loss": 1.495277250966718, "train/extr_critic_mag": 391.7539881552419, "train/extr_critic_max": 391.7539881552419, "train/extr_critic_mean": 173.5516349546371, "train/extr_critic_min": 0.39813293026339625, "train/extr_critic_std": 113.50612143239667, "train/extr_return_normed_mag": 1.5117368521228913, "train/extr_return_normed_max": 1.5117368521228913, "train/extr_return_normed_mean": 0.4881461983726871, "train/extr_return_normed_min": -0.019589399209906978, "train/extr_return_normed_std": 0.33451888234384597, "train/extr_return_rate": 0.9436517611626656, "train/extr_return_raw_mag": 526.0575022051411, "train/extr_return_raw_max": 526.0575022051411, "train/extr_return_raw_mean": 174.57440077258696, "train/extr_return_raw_min": 0.3989194319037075, "train/extr_return_raw_std": 114.75788081999748, "train/extr_reward_mag": 228.95533938254079, "train/extr_reward_max": 228.95533938254079, "train/extr_reward_mean": 0.9481244742870331, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.848460843486171, "train/image_loss_mean": 0.9911707858885488, "train/image_loss_std": 0.8121801883943619, "train/model_loss_mean": 2.815982367915492, "train/model_loss_std": 4.150012696173883, "train/model_opt_grad_norm": 10.16408903060421, "train/model_opt_grad_steps": 116700.0, "train/model_opt_loss": 2.815982367915492, "train/policy_entropy_mag": 2.6318068381278747, "train/policy_entropy_max": 2.6318068381278747, "train/policy_entropy_mean": 0.8006324160483576, "train/policy_entropy_min": 0.08019153350783932, "train/policy_entropy_std": 0.6939003209913931, "train/policy_logprob_mag": 7.495539914408038, "train/policy_logprob_max": -0.009489545310216565, "train/policy_logprob_mean": -0.8018162085163978, "train/policy_logprob_min": -7.495539914408038, "train/policy_logprob_std": 1.2396330048961024, "train/policy_randomness_mag": 0.9105426942148517, "train/policy_randomness_max": 0.9105426942148517, "train/policy_randomness_mean": 0.27699981197234125, "train/policy_randomness_min": 0.027744367105826256, "train/policy_randomness_std": 0.24007304185821163, "train/post_ent_mag": 63.41632584602602, "train/post_ent_max": 63.41632584602602, "train/post_ent_mean": 41.17875289916992, "train/post_ent_min": 12.454603527438255, "train/post_ent_std": 5.326364624884821, "train/prior_ent_mag": 85.31745315059538, "train/prior_ent_max": 85.31745315059538, "train/prior_ent_mean": 44.12662040956559, "train/prior_ent_min": 15.525304234412408, "train/prior_ent_std": 7.498512474183113, "train/rep_loss_mean": 2.9358006308155673, "train/rep_loss_std": 6.022521222022272, "train/reward_avg": 1.1528477822580645, "train/reward_loss_mean": 0.06267844501041597, "train/reward_loss_std": 0.23347175726967473, "train/reward_max_data": 203.67741935483872, "train/reward_max_pred": 145.6134915198049, "train/reward_neg_acc": 0.9799191828696958, "train/reward_neg_loss": 0.006297591005662276, "train/reward_pos_acc": 0.9948658324057056, "train/reward_pos_loss": 0.6302340276779667, "train/reward_pred": 1.0249912073535303, "train/reward_rate": 0.09076360887096774, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 0.0012099780142307281, "report/cont_loss_std": 0.03562391176819801, "report/cont_neg_acc": 0.800000011920929, "report/cont_neg_loss": 0.23708827793598175, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.25771283719223e-05, "report/cont_pred": 0.995773196220398, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 2.9737942218780518, "report/dyn_loss_std": 6.309571266174316, "report/image_loss_mean": 1.039650559425354, "report/image_loss_std": 0.908426821231842, "report/model_loss_mean": 2.8656880855560303, "report/model_loss_std": 4.399746417999268, "report/post_ent_mag": 67.4949951171875, "report/post_ent_max": 67.4949951171875, "report/post_ent_mean": 40.600563049316406, "report/post_ent_min": 12.30377197265625, "report/post_ent_std": 5.350386619567871, "report/prior_ent_mag": 85.53841400146484, "report/prior_ent_max": 85.53841400146484, "report/prior_ent_mean": 43.88258743286133, "report/prior_ent_min": 16.906736373901367, "report/prior_ent_std": 7.957067489624023, "report/rep_loss_mean": 2.9737942218780518, "report/rep_loss_std": 6.309571266174316, "report/reward_avg": 2.109375, "report/reward_loss_mean": 0.040551163256168365, "report/reward_loss_std": 0.16149349510669708, "report/reward_max_data": 1000.0, "report/reward_max_pred": 437.035400390625, "report/reward_neg_acc": 0.9864158630371094, "report/reward_neg_loss": 0.0022083758376538754, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5882236361503601, "report/reward_pred": 1.093418836593628, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0061293793842196465, "eval/cont_loss_std": 0.19216443598270416, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.151902675628662, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00012178019824204966, "eval/cont_pred": 0.9998791217803955, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.545018196105957, "eval/dyn_loss_std": 10.27078628540039, "eval/image_loss_mean": 2.963564395904541, "eval/image_loss_std": 2.9571080207824707, "eval/model_loss_mean": 10.238157272338867, "eval/model_loss_std": 8.889284133911133, "eval/post_ent_mag": 61.981529235839844, "eval/post_ent_max": 61.981529235839844, "eval/post_ent_mean": 41.900245666503906, "eval/post_ent_min": 18.26495933532715, "eval/post_ent_std": 4.345605373382568, "eval/prior_ent_mag": 85.53841400146484, "eval/prior_ent_max": 85.53841400146484, "eval/prior_ent_mean": 47.16399383544922, "eval/prior_ent_min": 26.025888442993164, "eval/prior_ent_std": 6.690155506134033, "eval/rep_loss_mean": 11.545018196105957, "eval/rep_loss_std": 10.27078628540039, "eval/reward_avg": 0.908203125, "eval/reward_loss_mean": 0.3414517641067505, "eval/reward_loss_std": 1.9590728282928467, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.013962745666504, "eval/reward_neg_acc": 0.9527390003204346, "eval/reward_neg_loss": 0.05311695486307144, "eval/reward_pos_acc": 0.7634408473968506, "eval/reward_pos_loss": 3.227900743484497, "eval/reward_pred": 0.7402074337005615, "eval/reward_rate": 0.0908203125, "replay/size": 150003.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.943756419146685e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3613323280714216e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1072995662689, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 393.5370283126831, "timer/replay._sample_frac": 1.3113210804317117, "timer/replay._sample_avg": 0.0158992012084956, "timer/replay._sample_min": 0.0006721019744873047, "timer/replay._sample_max": 0.04648709297180176, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.810117244720459, "timer/env.step_frac": 0.022692274578335163, "timer/env.step_avg": 0.004402144308158021, "timer/env.step_min": 0.002397298812866211, "timer/env.step_max": 0.034739017486572266, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.10996007919312, "timer/agent.policy_frac": 0.3702341137312393, "timer/agent.policy_avg": 0.07182285719404856, "timer/agent.policy_min": 0.0028574466705322266, "timer/agent.policy_max": 0.08764910697937012, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.16259312629699707, "timer/dataset_train_frac": 0.0005417833106091898, "timer/dataset_train_avg": 0.00010510221480090308, "timer/dataset_train_min": 6.031990051269531e-05, "timer/dataset_train_max": 0.00028324127197265625, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.73735737800598, "timer/agent.train_frac": 0.6022424567453616, "timer/agent.train_avg": 0.11683087096186553, "timer/agent.train_min": 0.1008749008178711, "timer/agent.train_max": 0.2023460865020752, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2565948963165283, "timer/agent.report_frac": 0.0008550105135309036, "timer/agent.report_avg": 0.12829744815826416, "timer/agent.report_min": 0.09629416465759277, "timer/agent.report_max": 0.16030073165893555, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.3882598876953125e-05, "timer/dataset_eval_frac": 1.7954444611919515e-07, "timer/dataset_eval_avg": 5.3882598876953125e-05, "timer/dataset_eval_min": 5.3882598876953125e-05, "timer/dataset_eval_max": 5.3882598876953125e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.617924494120558}
+{"step": 474816, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
+{"step": 476228, "episode/length": 352.0, "episode/score": 350.0, "episode/reward_rate": 0.09915014164305949}
+{"step": 477916, "episode/length": 421.0, "episode/score": 1030.0, "episode/reward_rate": 0.12796208530805686}
+{"step": 480404, "episode/length": 621.0, "episode/score": 1000.0, "episode/reward_rate": 0.0819935691318328}
+{"step": 480480, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.637942997101815, "train/action_min": 0.0, "train/action_std": 4.222673586876161, "train/actor_opt_grad_norm": 0.009052596547670903, "train/actor_opt_grad_steps": 118250.0, "train/actor_opt_loss": 9.534505671698783e-05, "train/adv_mag": 0.9342455988930117, "train/adv_max": 0.898626601984424, "train/adv_mean": 0.0026972955795269713, "train/adv_min": -0.5256042246856997, "train/adv_std": 0.042171829314001145, "train/cont_avg": 0.9979397681451613, "train/cont_loss_mean": 0.0007117038715604956, "train/cont_loss_std": 0.017481890149464847, "train/cont_neg_acc": 0.9241784051270552, "train/cont_neg_loss": 0.18443419155666543, "train/cont_pos_acc": 0.9998925462845834, "train/cont_pos_loss": 0.00034115996249986605, "train/cont_pred": 0.9978963428928006, "train/cont_rate": 0.9979397681451613, "train/dyn_loss_mean": 2.960293477581393, "train/dyn_loss_std": 6.0482738833273615, "train/extr_critic_critic_opt_grad_norm": 1.517991461676936, "train/extr_critic_critic_opt_grad_steps": 118250.0, "train/extr_critic_critic_opt_loss": 1.4795173168182374, "train/extr_critic_mag": 395.81772598758823, "train/extr_critic_max": 395.81772598758823, "train/extr_critic_mean": 180.99312483264555, "train/extr_critic_min": 0.054289077174279, "train/extr_critic_std": 119.67149131528792, "train/extr_return_normed_mag": 1.5194746690411722, "train/extr_return_normed_max": 1.5194746690411722, "train/extr_return_normed_mean": 0.4964811209709414, "train/extr_return_normed_min": -0.019914797740949, "train/extr_return_normed_std": 0.34308948843709886, "train/extr_return_rate": 0.9443851282519679, "train/extr_return_raw_mag": 542.221257954259, "train/extr_return_raw_max": 542.221257954259, "train/extr_return_raw_mean": 181.9429461079259, "train/extr_return_raw_min": 0.08186586051465823, "train/extr_return_raw_std": 120.83311747889366, "train/extr_reward_mag": 269.95731724769837, "train/extr_reward_max": 269.95731724769837, "train/extr_reward_mean": 0.9830321534987418, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.687969113934424, "train/image_loss_mean": 0.9915136752590057, "train/image_loss_std": 0.8335273588857343, "train/model_loss_mean": 2.830023948607906, "train/model_loss_std": 4.179050716277092, "train/model_opt_grad_norm": 10.132528142006166, "train/model_opt_grad_steps": 118250.0, "train/model_opt_loss": 2.830023948607906, "train/policy_entropy_mag": 2.6243803008910147, "train/policy_entropy_max": 2.6243803008910147, "train/policy_entropy_mean": 0.7785553866817105, "train/policy_entropy_min": 0.08019157840359596, "train/policy_entropy_std": 0.6935926645032822, "train/policy_logprob_mag": 7.495540335870558, "train/policy_logprob_max": -0.009489550663819237, "train/policy_logprob_mean": -0.7790277792561439, "train/policy_logprob_min": -7.495540335870558, "train/policy_logprob_std": 1.233051412336288, "train/policy_randomness_mag": 0.9079732883361078, "train/policy_randomness_max": 0.9079732883361078, "train/policy_randomness_mean": 0.269361680842215, "train/policy_randomness_min": 0.02774438271599431, "train/policy_randomness_std": 0.23996659709561255, "train/post_ent_mag": 64.8266816662204, "train/post_ent_max": 64.8266816662204, "train/post_ent_mean": 40.97730678435295, "train/post_ent_min": 12.289185647041567, "train/post_ent_std": 5.434286520558019, "train/prior_ent_mag": 85.35433984571888, "train/prior_ent_max": 85.35433984571888, "train/prior_ent_mean": 43.970378014349166, "train/prior_ent_min": 15.156771456810736, "train/prior_ent_std": 7.591332927826913, "train/rep_loss_mean": 2.960293477581393, "train/rep_loss_std": 6.0482738833273615, "train/reward_avg": 1.1587071572580645, "train/reward_loss_mean": 0.061622475231847454, "train/reward_loss_std": 0.22778417987208213, "train/reward_max_data": 222.58064516129033, "train/reward_max_pred": 156.90062463821903, "train/reward_neg_acc": 0.9813021621396465, "train/reward_neg_loss": 0.005742446722973499, "train/reward_pos_acc": 0.9954558295588339, "train/reward_pos_loss": 0.6294420084645671, "train/reward_pred": 1.0334731086607902, "train/reward_rate": 0.09003276209677419, "train_stats/mean_log_entropy": 0.5574047490954399, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00017040420789271593, "report/cont_loss_std": 0.0037593701854348183, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.005583218764513731, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001544997503515333, "report/cont_pred": 0.9969391822814941, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.8943593502044678, "report/dyn_loss_std": 5.885982990264893, "report/image_loss_mean": 1.0018532276153564, "report/image_loss_std": 0.8421162366867065, "report/model_loss_mean": 2.795267105102539, "report/model_loss_std": 4.075945854187012, "report/post_ent_mag": 62.418304443359375, "report/post_ent_max": 62.418304443359375, "report/post_ent_mean": 40.75157928466797, "report/post_ent_min": 15.011302947998047, "report/post_ent_std": 5.034144878387451, "report/prior_ent_mag": 84.89031982421875, "report/prior_ent_max": 84.89031982421875, "report/prior_ent_mean": 43.88902282714844, "report/prior_ent_min": 16.129623413085938, "report/prior_ent_std": 7.5652008056640625, "report/rep_loss_mean": 2.8943593502044678, "report/rep_loss_std": 5.885982990264893, "report/reward_avg": 1.38671875, "report/reward_loss_mean": 0.056627657264471054, "report/reward_loss_std": 0.20039984583854675, "report/reward_max_data": 500.0, "report/reward_max_pred": 493.5869445800781, "report/reward_neg_acc": 0.9785637259483337, "report/reward_neg_loss": 0.0037641278468072414, "report/reward_pos_acc": 0.9890109896659851, "report/reward_pos_loss": 0.598624050617218, "report/reward_pred": 1.3502095937728882, "report/reward_rate": 0.0888671875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.011203201487660408, "eval/cont_loss_std": 0.26217901706695557, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.790290355682373, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.912557288771495e-05, "eval/cont_pred": 0.9989142417907715, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.764432907104492, "eval/dyn_loss_std": 10.001213073730469, "eval/image_loss_mean": 2.6240367889404297, "eval/image_loss_std": 2.694629192352295, "eval/model_loss_mean": 8.754585266113281, "eval/model_loss_std": 8.392265319824219, "eval/post_ent_mag": 66.9154281616211, "eval/post_ent_max": 66.9154281616211, "eval/post_ent_mean": 42.089839935302734, "eval/post_ent_min": 15.80984878540039, "eval/post_ent_std": 5.549526691436768, "eval/prior_ent_mag": 84.89031982421875, "eval/prior_ent_max": 84.89031982421875, "eval/prior_ent_mean": 46.70237731933594, "eval/prior_ent_min": 17.997295379638672, "eval/prior_ent_std": 7.811718463897705, "eval/rep_loss_mean": 9.764432907104492, "eval/rep_loss_std": 10.001213073730469, "eval/reward_avg": 1.552734375, "eval/reward_loss_mean": 0.26068562269210815, "eval/reward_loss_std": 1.2868374586105347, "eval/reward_max_data": 510.0, "eval/reward_max_pred": 10.01354694366455, "eval/reward_neg_acc": 0.9333333969116211, "eval/reward_neg_loss": 0.05420849844813347, "eval/reward_pos_acc": 0.8256880640983582, "eval/reward_pos_loss": 1.9939569234848022, "eval/reward_pred": 0.9048530459403992, "eval/reward_rate": 0.1064453125, "replay/size": 151551.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.901442416878634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3859523821246716e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1223795413971, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 403.7614233493805, "timer/replay._sample_frac": 1.3453226112839347, "timer/replay._sample_avg": 0.01630173705383481, "timer/replay._sample_min": 0.0006825923919677734, "timer/replay._sample_max": 0.04072165489196777, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.752707481384277, "timer/env.step_frac": 0.022499846534946084, "timer/env.step_avg": 0.004362214135261161, "timer/env.step_min": 0.002231597900390625, "timer/env.step_max": 0.030078887939453125, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.48057055473328, "timer/agent.policy_frac": 0.37145037542712245, "timer/agent.policy_avg": 0.07201587245137808, "timer/agent.policy_min": 0.0029401779174804688, "timer/agent.policy_max": 0.08854842185974121, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.16145849227905273, "timer/dataset_train_frac": 0.0005379755169400225, "timer/dataset_train_avg": 0.00010430135160145526, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.000301361083984375, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.56260895729065, "timer/agent.train_frac": 0.6016299392041337, "timer/agent.train_avg": 0.1166425122463118, "timer/agent.train_min": 0.10282778739929199, "timer/agent.train_max": 0.20204591751098633, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19808721542358398, "timer/agent.report_frac": 0.0006600214743274786, "timer/agent.report_avg": 0.09904360771179199, "timer/agent.report_min": 0.0970919132232666, "timer/agent.report_max": 0.10099530220031738, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.790855407714844e-05, "timer/dataset_eval_frac": 1.263103209266657e-07, "timer/dataset_eval_avg": 3.790855407714844e-05, "timer/dataset_eval_min": 3.790855407714844e-05, "timer/dataset_eval_max": 3.790855407714844e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63013673200093}
+{"step": 482108, "episode/length": 425.0, "episode/score": 1040.0, "episode/reward_rate": 0.1267605633802817}
+{"step": 484212, "episode/length": 525.0, "episode/score": 1000.0, "episode/reward_rate": 0.09695817490494296}
+{"step": 486348, "episode/length": 533.0, "episode/score": 1010.0, "episode/reward_rate": 0.09737827715355805}
+{"step": 486668, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.684311111252029, "train/action_min": 0.0, "train/action_std": 4.283125222503365, "train/actor_opt_grad_norm": 0.00879848138247798, "train/actor_opt_grad_steps": 119795.0, "train/actor_opt_loss": 0.0003145223550161193, "train/adv_mag": 0.8935487024582826, "train/adv_max": 0.8699035307803711, "train/adv_mean": 0.002609402198621475, "train/adv_min": -0.5259338088043324, "train/adv_std": 0.04056472188563316, "train/cont_avg": 0.9983575994318182, "train/cont_loss_mean": 0.0006964324818151895, "train/cont_loss_std": 0.018957987992501698, "train/cont_neg_acc": 0.9096354176290333, "train/cont_neg_loss": 0.3048142792702743, "train/cont_pos_acc": 0.9999237505646495, "train/cont_pos_loss": 0.00024324744392252844, "train/cont_pred": 0.9983737414533441, "train/cont_rate": 0.9983575994318182, "train/dyn_loss_mean": 2.9380623164115014, "train/dyn_loss_std": 5.995185170854841, "train/extr_critic_critic_opt_grad_norm": 1.5277143229137768, "train/extr_critic_critic_opt_grad_steps": 119795.0, "train/extr_critic_critic_opt_loss": 1.4681885103126624, "train/extr_critic_mag": 418.0571445613713, "train/extr_critic_max": 418.0571445613713, "train/extr_critic_mean": 184.50864930586383, "train/extr_critic_min": 0.5477858472180057, "train/extr_critic_std": 120.11363834529728, "train/extr_return_normed_mag": 1.481473226438869, "train/extr_return_normed_max": 1.481473226438869, "train/extr_return_normed_mean": 0.4964985516551253, "train/extr_return_normed_min": -0.01641824355881129, "train/extr_return_normed_std": 0.336843865742157, "train/extr_return_rate": 0.9485893156621363, "train/extr_return_raw_mag": 540.1487599162313, "train/extr_return_raw_max": 540.1487599162313, "train/extr_return_raw_mean": 185.44877490749607, "train/extr_return_raw_min": 0.6900639503143687, "train/extr_return_raw_std": 121.31229564121791, "train/extr_reward_mag": 251.12063443815552, "train/extr_reward_max": 251.12063443815552, "train/extr_reward_mean": 0.9764562282082322, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.27506919727697, "train/image_loss_mean": 0.9886843891112835, "train/image_loss_std": 0.8321258805014871, "train/model_loss_mean": 2.8154278544636515, "train/model_loss_std": 4.142941056907951, "train/model_opt_grad_norm": 9.88299890926906, "train/model_opt_grad_steps": 119795.0, "train/model_opt_loss": 2.8154278544636515, "train/policy_entropy_mag": 2.634996596868936, "train/policy_entropy_max": 2.634996596868936, "train/policy_entropy_mean": 0.7747015972416122, "train/policy_entropy_min": 0.08019145999055405, "train/policy_entropy_std": 0.6890365965180583, "train/policy_logprob_mag": 7.495540779906434, "train/policy_logprob_max": -0.009489546070334974, "train/policy_logprob_mean": -0.7746719102580826, "train/policy_logprob_min": -7.495540779906434, "train/policy_logprob_std": 1.2287260595854226, "train/policy_randomness_mag": 0.9116462755512882, "train/policy_randomness_max": 0.9116462755512882, "train/policy_randomness_mean": 0.2680283629081466, "train/policy_randomness_min": 0.027744341726330193, "train/policy_randomness_std": 0.23839030579313056, "train/post_ent_mag": 63.65826279776437, "train/post_ent_max": 63.65826279776437, "train/post_ent_mean": 41.112069712056744, "train/post_ent_min": 12.258333794482343, "train/post_ent_std": 5.390705777453138, "train/prior_ent_mag": 85.37601163789823, "train/prior_ent_max": 85.37601163789823, "train/prior_ent_mean": 44.07369821721857, "train/prior_ent_min": 15.083612281006651, "train/prior_ent_std": 7.527534045182265, "train/rep_loss_mean": 2.9380623164115014, "train/rep_loss_std": 5.995185170854841, "train/reward_avg": 1.1424512987012987, "train/reward_loss_mean": 0.06320963006515007, "train/reward_loss_std": 0.23001497964580336, "train/reward_max_data": 191.42857142857142, "train/reward_max_pred": 146.5956052185653, "train/reward_neg_acc": 0.981098253231544, "train/reward_neg_loss": 0.00602054681595681, "train/reward_pos_acc": 0.995073987679048, "train/reward_pos_loss": 0.6238719457155698, "train/reward_pred": 1.041651013996694, "train/reward_rate": 0.0927544135551948, "train_stats/mean_log_entropy": 0.5128140946229299, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0001827236992539838, "report/cont_loss_std": 0.002495845314115286, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.017152640968561172, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00013286105240695179, "report/cont_pred": 0.9969888925552368, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.946363925933838, "report/dyn_loss_std": 5.981154918670654, "report/image_loss_mean": 0.909899115562439, "report/image_loss_std": 0.8549373745918274, "report/model_loss_mean": 2.751786231994629, "report/model_loss_std": 4.212080478668213, "report/post_ent_mag": 64.1407241821289, "report/post_ent_max": 64.1407241821289, "report/post_ent_mean": 41.390708923339844, "report/post_ent_min": 23.357709884643555, "report/post_ent_std": 5.5630693435668945, "report/prior_ent_mag": 85.56208801269531, "report/prior_ent_max": 85.56208801269531, "report/prior_ent_mean": 44.28049850463867, "report/prior_ent_min": 25.049089431762695, "report/prior_ent_std": 7.718149662017822, "report/rep_loss_mean": 2.946363925933838, "report/rep_loss_std": 5.981154918670654, "report/reward_avg": 1.162109375, "report/reward_loss_mean": 0.07388626039028168, "report/reward_loss_std": 0.22478976845741272, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.97835350036621, "report/reward_neg_acc": 0.9845645427703857, "report/reward_neg_loss": 0.004804934840649366, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6094142198562622, "report/reward_pred": 1.1086372137069702, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012821046635508537, "eval/cont_loss_std": 0.39686983823776245, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.548085689544678, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.187921902281232e-05, "eval/cont_pred": 0.9993113279342651, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.6326265335083, "eval/dyn_loss_std": 10.675060272216797, "eval/image_loss_mean": 2.1632168292999268, "eval/image_loss_std": 2.154505491256714, "eval/model_loss_mean": 8.20495891571045, "eval/model_loss_std": 8.233166694641113, "eval/post_ent_mag": 65.66504669189453, "eval/post_ent_max": 65.66504669189453, "eval/post_ent_mean": 42.034263610839844, "eval/post_ent_min": 16.556047439575195, "eval/post_ent_std": 5.348145008087158, "eval/prior_ent_mag": 85.56208801269531, "eval/prior_ent_max": 85.56208801269531, "eval/prior_ent_mean": 46.61567687988281, "eval/prior_ent_min": 17.625568389892578, "eval/prior_ent_std": 7.682160377502441, "eval/rep_loss_mean": 9.6326265335083, "eval/rep_loss_std": 10.675060272216797, "eval/reward_avg": 2.6953125, "eval/reward_loss_mean": 0.24934500455856323, "eval/reward_loss_std": 1.4892361164093018, "eval/reward_max_data": 1000.0, "eval/reward_max_pred": 43.894405364990234, "eval/reward_neg_acc": 0.9671958088874817, "eval/reward_neg_loss": 0.033728986978530884, "eval/reward_pos_acc": 0.7721519470214844, "eval/reward_pos_loss": 2.82854962348938, "eval/reward_pred": 0.6273455619812012, "eval/reward_rate": 0.0771484375, "replay/size": 153098.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 4.9730385975754486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.364000473934832e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.12872767448425, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 398.65873885154724, "timer/replay._sample_frac": 1.3282925028220802, "timer/replay._sample_avg": 0.016106122287150422, "timer/replay._sample_min": 0.00048661231994628906, "timer/replay._sample_max": 0.22981858253479004, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.826211214065552, "timer/env.step_frac": 0.02274427798684161, "timer/env.step_avg": 0.004412547649686847, "timer/env.step_min": 0.0023255348205566406, "timer/env.step_max": 0.045125722885131836, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.37583255767822, "timer/agent.policy_frac": 0.37109354183007437, "timer/agent.policy_avg": 0.07199472046391611, "timer/agent.policy_min": 0.00305938720703125, "timer/agent.policy_max": 0.14460444450378418, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1569828987121582, "timer/dataset_train_frac": 0.0005230518915284239, "timer/dataset_train_avg": 0.00010147569406086503, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.00027823448181152344, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.53775453567505, "timer/agent.train_frac": 0.6015344013702146, "timer/agent.train_avg": 0.11670184520728834, "timer/agent.train_min": 0.10244417190551758, "timer/agent.train_max": 0.20146989822387695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2592639923095703, "timer/agent.report_frac": 0.000863842639518216, "timer/agent.report_avg": 0.12963199615478516, "timer/agent.report_min": 0.09870600700378418, "timer/agent.report_max": 0.16055798530578613, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.4784897219291267e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09094095230102539, "timer/agent.save_frac": 0.0003030064899340751, "timer/agent.save_avg": 0.09094095230102539, "timer/agent.save_min": 0.09094095230102539, "timer/agent.save_max": 0.09094095230102539, "fps": 20.61649926821042}
+{"step": 487884, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
+{"step": 489476, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.12814070351758794}
+{"step": 491060, "episode/length": 395.0, "episode/score": 980.0, "episode/reward_rate": 0.12373737373737374}
+{"step": 492864, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.51225822202621, "train/action_min": 0.0, "train/action_std": 4.26674736238295, "train/actor_opt_grad_norm": 0.008314907926345063, "train/actor_opt_grad_steps": 121340.0, "train/actor_opt_loss": -0.0001234717503423106, "train/adv_mag": 0.8430058248581425, "train/adv_max": 0.806234268892196, "train/adv_mean": 0.002086018116836297, "train/adv_min": -0.4760538432867296, "train/adv_std": 0.038759553414439, "train/cont_avg": 0.9980594758064516, "train/cont_loss_mean": 0.000607714471133976, "train/cont_loss_std": 0.014351467403159566, "train/cont_neg_acc": 0.9454106286815975, "train/cont_neg_loss": 0.14624527259059214, "train/cont_pos_acc": 0.9999052347675447, "train/cont_pos_loss": 0.0003056933798566706, "train/cont_pred": 0.9980168227226504, "train/cont_rate": 0.9980594758064516, "train/dyn_loss_mean": 2.920506435824979, "train/dyn_loss_std": 6.037536913348783, "train/extr_critic_critic_opt_grad_norm": 1.4882790411672284, "train/extr_critic_critic_opt_grad_steps": 121340.0, "train/extr_critic_critic_opt_loss": 1.4567547836611348, "train/extr_critic_mag": 421.33545748802925, "train/extr_critic_max": 421.33545748802925, "train/extr_critic_mean": 189.0769016388924, "train/extr_critic_min": 0.014505284063277706, "train/extr_critic_std": 123.69575352822581, "train/extr_return_normed_mag": 1.416524987836038, "train/extr_return_normed_max": 1.416524987836038, "train/extr_return_normed_mean": 0.5008204552435106, "train/extr_return_normed_min": -0.01841364102738519, "train/extr_return_normed_std": 0.3413238029326162, "train/extr_return_rate": 0.9460887605144132, "train/extr_return_raw_mag": 524.2922233335433, "train/extr_return_raw_max": 524.2922233335433, "train/extr_return_raw_mean": 189.83821475121283, "train/extr_return_raw_min": 0.12512722274282903, "train/extr_return_raw_std": 124.70263671875, "train/extr_reward_mag": 230.08698167493267, "train/extr_reward_max": 230.08698167493267, "train/extr_reward_mean": 0.9689268506342364, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.068494084573561, "train/image_loss_mean": 0.9787217274788887, "train/image_loss_std": 0.8344516784914078, "train/model_loss_mean": 2.7946374570169756, "train/model_loss_std": 4.172977832055861, "train/model_opt_grad_norm": 9.766130819628316, "train/model_opt_grad_steps": 121340.0, "train/model_opt_loss": 2.7946374570169756, "train/policy_entropy_mag": 2.6347982145124864, "train/policy_entropy_max": 2.6347982145124864, "train/policy_entropy_mean": 0.7602574948341616, "train/policy_entropy_min": 0.08019129898278944, "train/policy_entropy_std": 0.6881519921364323, "train/policy_logprob_mag": 7.4955406065910095, "train/policy_logprob_max": -0.009489546854409479, "train/policy_logprob_mean": -0.761482415276189, "train/policy_logprob_min": -7.4955406065910095, "train/policy_logprob_std": 1.2271882418663271, "train/policy_randomness_mag": 0.9115776408103204, "train/policy_randomness_max": 0.9115776408103204, "train/policy_randomness_mean": 0.2630310477748994, "train/policy_randomness_min": 0.027744285906514815, "train/policy_randomness_std": 0.23808425501469643, "train/post_ent_mag": 64.26780009115896, "train/post_ent_max": 64.26780009115896, "train/post_ent_mean": 40.858990946123676, "train/post_ent_min": 11.94937063032581, "train/post_ent_std": 5.433817343558035, "train/prior_ent_mag": 85.26123952557964, "train/prior_ent_max": 85.26123952557964, "train/prior_ent_mean": 43.817803733579574, "train/prior_ent_min": 14.692461936704573, "train/prior_ent_std": 7.61133943680794, "train/rep_loss_mean": 2.920506435824979, "train/rep_loss_std": 6.037536913348783, "train/reward_avg": 1.174710181451613, "train/reward_loss_mean": 0.06300414200992353, "train/reward_loss_std": 0.23405433768226255, "train/reward_max_data": 219.29032258064515, "train/reward_max_pred": 157.64715051958638, "train/reward_neg_acc": 0.9811207271391346, "train/reward_neg_loss": 0.0061484145729111565, "train/reward_pos_acc": 0.9946977553829071, "train/reward_pos_loss": 0.6293725071414824, "train/reward_pred": 1.0556834493913958, "train/reward_rate": 0.09194178427419354, "train_stats/mean_log_entropy": 0.5512059330940247, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.500757538356993e-07, "report/cont_loss_std": 1.1426795936131384e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.500757538356993e-07, "report/cont_pred": 0.999999463558197, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.052100658416748, "report/dyn_loss_std": 5.6025166511535645, "report/image_loss_mean": 1.0231056213378906, "report/image_loss_std": 0.90984046459198, "report/model_loss_mean": 2.914637565612793, "report/model_loss_std": 3.888087511062622, "report/post_ent_mag": 55.84491729736328, "report/post_ent_max": 55.84491729736328, "report/post_ent_mean": 40.13616943359375, "report/post_ent_min": 9.67637825012207, "report/post_ent_std": 5.4299845695495605, "report/prior_ent_mag": 85.34580993652344, "report/prior_ent_max": 85.34580993652344, "report/prior_ent_mean": 43.298614501953125, "report/prior_ent_min": 12.460680961608887, "report/prior_ent_std": 7.560462951660156, "report/rep_loss_mean": 3.052100658416748, "report/rep_loss_std": 5.6025166511535645, "report/reward_avg": 1.455078125, "report/reward_loss_mean": 0.060270920395851135, "report/reward_loss_std": 0.19713793694972992, "report/reward_max_data": 500.0, "report/reward_max_pred": 249.48460388183594, "report/reward_neg_acc": 0.985991358757019, "report/reward_neg_loss": 0.0059084841050207615, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5857744812965393, "report/reward_pred": 1.1907025575637817, "report/reward_rate": 0.09375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.011471875943243504, "eval/cont_loss_std": 0.2709754705429077, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.7505292892456055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00024084403412416577, "eval/cont_pred": 0.9997509121894836, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 6.78057336807251, "eval/dyn_loss_std": 8.37985610961914, "eval/image_loss_mean": 1.4242112636566162, "eval/image_loss_std": 1.4645483493804932, "eval/model_loss_mean": 5.917000770568848, "eval/model_loss_std": 6.43658971786499, "eval/post_ent_mag": 62.683685302734375, "eval/post_ent_max": 62.683685302734375, "eval/post_ent_mean": 42.349037170410156, "eval/post_ent_min": 19.648300170898438, "eval/post_ent_std": 4.735988140106201, "eval/prior_ent_mag": 85.34580993652344, "eval/prior_ent_max": 85.34580993652344, "eval/prior_ent_mean": 46.13702392578125, "eval/prior_ent_min": 25.845060348510742, "eval/prior_ent_std": 7.152929782867432, "eval/rep_loss_mean": 6.78057336807251, "eval/rep_loss_std": 8.37985610961914, "eval/reward_avg": 1.42578125, "eval/reward_loss_mean": 0.41297343373298645, "eval/reward_loss_std": 1.8136335611343384, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008833885192871, "eval/reward_neg_acc": 0.9396355748176575, "eval/reward_neg_loss": 0.052094150334596634, "eval/reward_pos_acc": 0.801369845867157, "eval/reward_pos_loss": 2.5831925868988037, "eval/reward_pred": 1.0548721551895142, "eval/reward_rate": 0.142578125, "replay/size": 154647.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.934602741120783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3706663333653941e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.15367555618286, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 393.6016893386841, "timer/replay._sample_frac": 1.311333897908605, "timer/replay._sample_avg": 0.015881281848720306, "timer/replay._sample_min": 0.0004451274871826172, "timer/replay._sample_max": 0.05009007453918457, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.753313302993774, "timer/env.step_frac": 0.022499518923031436, "timer/env.step_avg": 0.0043597890916680275, "timer/env.step_min": 0.0023756027221679688, "timer/env.step_max": 0.03366279602050781, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.22778582572937, "timer/agent.policy_frac": 0.3705694611922542, "timer/agent.policy_avg": 0.07180618839621006, "timer/agent.policy_min": 0.002855062484741211, "timer/agent.policy_max": 0.08697724342346191, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.1552879810333252, "timer/dataset_train_frac": 0.0005173615840138474, "timer/dataset_train_avg": 0.00010025047193888005, "timer/dataset_train_min": 6.079673767089844e-05, "timer/dataset_train_max": 0.0002486705780029297, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.82056546211243, "timer/agent.train_frac": 0.6024266240520062, "timer/agent.train_avg": 0.11673374142163488, "timer/agent.train_min": 0.10340285301208496, "timer/agent.train_max": 0.20183300971984863, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.260317325592041, "timer/agent.report_frac": 0.0008672801527739904, "timer/agent.report_avg": 0.1301586627960205, "timer/agent.report_min": 0.09930586814880371, "timer/agent.report_max": 0.1610114574432373, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.628036499023438e-05, "timer/dataset_eval_frac": 2.2082143377860452e-07, "timer/dataset_eval_avg": 6.628036499023438e-05, "timer/dataset_eval_min": 6.628036499023438e-05, "timer/dataset_eval_max": 6.628036499023438e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.641181214269952}
+{"step": 493096, "episode/length": 508.0, "episode/score": 390.0, "episode/reward_rate": 0.07662082514734773}
+{"step": 494800, "episode/length": 425.0, "episode/score": 1040.0, "episode/reward_rate": 0.12910798122065728}
+{"step": 496364, "episode/length": 390.0, "episode/score": 500.0, "episode/reward_rate": 0.1278772378516624}
+{"step": 497872, "episode/length": 376.0, "episode/score": 970.0, "episode/reward_rate": 0.1273209549071618}
+{"step": 499052, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.514203471522178, "train/action_min": 0.0, "train/action_std": 4.2694098426449685, "train/actor_opt_grad_norm": 0.008243764528343755, "train/actor_opt_grad_steps": 122890.0, "train/actor_opt_loss": 0.0003000183374693264, "train/adv_mag": 0.8403522474150504, "train/adv_max": 0.8065142722860459, "train/adv_mean": 0.0027391660423158864, "train/adv_min": -0.5142110820739499, "train/adv_std": 0.040663175092589474, "train/cont_avg": 0.9980531754032258, "train/cont_loss_mean": 0.0005611657126634086, "train/cont_loss_std": 0.014406666398581035, "train/cont_neg_acc": 0.9418465242111426, "train/cont_neg_loss": 0.17064269444454308, "train/cont_pos_acc": 0.9999431171724873, "train/cont_pos_loss": 0.00022475799909034002, "train/cont_pred": 0.9980570681633488, "train/cont_rate": 0.9980531754032258, "train/dyn_loss_mean": 2.951056589618806, "train/dyn_loss_std": 6.058966655115928, "train/extr_critic_critic_opt_grad_norm": 1.5034559622887642, "train/extr_critic_critic_opt_grad_steps": 122890.0, "train/extr_critic_critic_opt_loss": 1.4379608485006516, "train/extr_critic_mag": 425.07002583165325, "train/extr_critic_max": 425.07002583165325, "train/extr_critic_mean": 194.20491894137476, "train/extr_critic_min": 0.0737267832602224, "train/extr_critic_std": 125.17403529997794, "train/extr_return_normed_mag": 1.4560845175097066, "train/extr_return_normed_max": 1.4560845175097066, "train/extr_return_normed_mean": 0.5083486307051874, "train/extr_return_normed_min": -0.018525255789920207, "train/extr_return_normed_std": 0.34182714098884215, "train/extr_return_rate": 0.9474147846621852, "train/extr_return_raw_mag": 545.8785398421749, "train/extr_return_raw_max": 545.8785398421749, "train/extr_return_raw_mean": 195.21805080290764, "train/extr_return_raw_min": 0.3233587622766443, "train/extr_return_raw_std": 126.46615236343877, "train/extr_reward_mag": 238.2889722208823, "train/extr_reward_max": 238.2889722208823, "train/extr_reward_mean": 1.0117824081451663, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.695506452745007, "train/image_loss_mean": 0.978565998231211, "train/image_loss_std": 0.8403741440465373, "train/model_loss_mean": 2.8127224799125425, "train/model_loss_std": 4.1929460279403195, "train/model_opt_grad_norm": 9.690433133033014, "train/model_opt_grad_steps": 122890.0, "train/model_opt_loss": 2.8127224799125425, "train/policy_entropy_mag": 2.664629353246381, "train/policy_entropy_max": 2.664629353246381, "train/policy_entropy_mean": 0.7380231691944984, "train/policy_entropy_min": 0.08019132575681133, "train/policy_entropy_std": 0.6811162971681164, "train/policy_logprob_mag": 7.495540449696202, "train/policy_logprob_max": -0.00948955295307021, "train/policy_logprob_mean": -0.7374633958262782, "train/policy_logprob_min": -7.495540449696202, "train/policy_logprob_std": 1.2155553986949306, "train/policy_randomness_mag": 0.9218985061491689, "train/policy_randomness_max": 0.9218985061491689, "train/policy_randomness_mean": 0.25533849952682375, "train/policy_randomness_min": 0.02774429529184295, "train/policy_randomness_std": 0.2356500712133223, "train/post_ent_mag": 64.70420692197739, "train/post_ent_max": 64.70420692197739, "train/post_ent_mean": 40.94499378819619, "train/post_ent_min": 11.925119415406257, "train/post_ent_std": 5.425044533514208, "train/prior_ent_mag": 85.41648411904612, "train/prior_ent_max": 85.41648411904612, "train/prior_ent_mean": 43.90286023539881, "train/prior_ent_min": 14.869543924639302, "train/prior_ent_std": 7.604708797700943, "train/rep_loss_mean": 2.951056589618806, "train/rep_loss_std": 6.058966655115928, "train/reward_avg": 1.1685987903225807, "train/reward_loss_mean": 0.06296135946627586, "train/reward_loss_std": 0.23380247392962056, "train/reward_max_data": 200.0, "train/reward_max_pred": 150.28864284023163, "train/reward_neg_acc": 0.9819407251573378, "train/reward_neg_loss": 0.006097855672029959, "train/reward_pos_acc": 0.9954786266050031, "train/reward_pos_loss": 0.6243863032710167, "train/reward_pred": 1.0601979342199142, "train/reward_rate": 0.09240171370967742, "train_stats/mean_log_entropy": 0.5934157520532608, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 5.010936001781374e-05, "report/cont_loss_std": 0.0009874932002276182, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.003257421776652336, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.068532871315256e-05, "report/cont_pred": 0.9970396757125854, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.500636339187622, "report/dyn_loss_std": 5.845066547393799, "report/image_loss_mean": 0.8931839466094971, "report/image_loss_std": 0.7545015811920166, "report/model_loss_mean": 2.468681812286377, "report/model_loss_std": 4.052016735076904, "report/post_ent_mag": 66.13055419921875, "report/post_ent_max": 66.13055419921875, "report/post_ent_mean": 40.82411193847656, "report/post_ent_min": 13.169107437133789, "report/post_ent_std": 5.027995586395264, "report/prior_ent_mag": 85.45742797851562, "report/prior_ent_max": 85.45742797851562, "report/prior_ent_mean": 43.45074462890625, "report/prior_ent_min": 16.47756576538086, "report/prior_ent_std": 7.575879096984863, "report/rep_loss_mean": 2.500636339187622, "report/rep_loss_std": 5.845066547393799, "report/reward_avg": 1.025390625, "report/reward_loss_mean": 0.07506603002548218, "report/reward_loss_std": 0.35663720965385437, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.99916648864746, "report/reward_neg_acc": 0.9836956262588501, "report/reward_neg_loss": 0.013130529783666134, "report/reward_pos_acc": 0.9903846383094788, "report/reward_pos_loss": 0.6229569315910339, "report/reward_pred": 0.9899320602416992, "report/reward_rate": 0.1015625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 2.007178591156844e-05, "eval/cont_loss_std": 0.00048272759886458516, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.014484899118542671, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.932170552114258e-06, "eval/cont_pred": 0.9990316033363342, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 6.875465393066406, "eval/dyn_loss_std": 9.232433319091797, "eval/image_loss_mean": 1.609050989151001, "eval/image_loss_std": 2.0936083793640137, "eval/model_loss_mean": 5.921405792236328, "eval/model_loss_std": 7.403754234313965, "eval/post_ent_mag": 63.00032424926758, "eval/post_ent_max": 63.00032424926758, "eval/post_ent_mean": 40.767578125, "eval/post_ent_min": 9.81734848022461, "eval/post_ent_std": 5.2292094230651855, "eval/prior_ent_mag": 85.45742797851562, "eval/prior_ent_max": 85.45742797851562, "eval/prior_ent_mean": 44.5219612121582, "eval/prior_ent_min": 13.155806541442871, "eval/prior_ent_std": 7.457271575927734, "eval/rep_loss_mean": 6.875465393066406, "eval/rep_loss_std": 9.232433319091797, "eval/reward_avg": 1.171875, "eval/reward_loss_mean": 0.18705560266971588, "eval/reward_loss_std": 1.05540931224823, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 11.323044776916504, "eval/reward_neg_acc": 0.9734513163566589, "eval/reward_neg_loss": 0.009141674265265465, "eval/reward_pos_acc": 0.8916667103767395, "eval/reward_pos_loss": 1.5273405313491821, "eval/reward_pred": 0.9882037043571472, "eval/reward_rate": 0.1171875, "replay/size": 156194.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.144570516476573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318382391408711e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11508560180664, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 388.45127153396606, "timer/replay._sample_frac": 1.2943410383887335, "timer/replay._sample_avg": 0.01569373268963987, "timer/replay._sample_min": 0.0004794597625732422, "timer/replay._sample_max": 0.04828643798828125, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.7812416553497314, "timer/env.step_frac": 0.02259547080664615, "timer/env.step_avg": 0.004383478768810427, "timer/env.step_min": 0.0023169517517089844, "timer/env.step_max": 0.0346376895904541, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 110.97393608093262, "timer/agent.policy_frac": 0.36977126910632235, "timer/agent.policy_avg": 0.07173492959336304, "timer/agent.policy_min": 0.0028600692749023438, "timer/agent.policy_max": 0.08798027038574219, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1581559181213379, "timer/dataset_train_frac": 0.000526984232745899, "timer/dataset_train_avg": 0.00010223394836544143, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.00022912025451660156, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.98175477981567, "timer/agent.train_frac": 0.6030411780764086, "timer/agent.train_avg": 0.11698885247564038, "timer/agent.train_min": 0.10268926620483398, "timer/agent.train_max": 0.20186281204223633, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.257735013961792, "timer/agent.report_frac": 0.0008587872663747245, "timer/agent.report_avg": 0.128867506980896, "timer/agent.report_min": 0.09841442108154297, "timer/agent.report_max": 0.15932059288024902, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.3392181396484375e-05, "timer/dataset_eval_frac": 1.4458513909579746e-07, "timer/dataset_eval_avg": 4.3392181396484375e-05, "timer/dataset_eval_min": 4.3392181396484375e-05, "timer/dataset_eval_max": 4.3392181396484375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.61736614265617}
+{"step": 499632, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
+{"step": 501404, "episode/length": 442.0, "episode/score": 530.0, "episode/reward_rate": 0.11738148984198646}
+{"step": 502992, "episode/length": 396.0, "episode/score": 990.0, "episode/reward_rate": 0.12594458438287154}
+{"step": 504528, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.1328125}
+{"step": 505236, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.74142059722504, "train/action_min": 0.0, "train/action_std": 4.260925285227887, "train/actor_opt_grad_norm": 0.008598497089046937, "train/actor_opt_grad_steps": 124435.0, "train/actor_opt_loss": 5.5199341609118344e-05, "train/adv_mag": 0.9368558842446897, "train/adv_max": 0.9041914465752515, "train/adv_mean": 0.002229770405687919, "train/adv_min": -0.5450242345596289, "train/adv_std": 0.04205641459504312, "train/cont_avg": 0.9982244318181818, "train/cont_loss_mean": 0.0004960391873769539, "train/cont_loss_std": 0.012479886710071912, "train/cont_neg_acc": 0.9264411036681411, "train/cont_neg_loss": 0.15930888011803462, "train/cont_pos_acc": 0.9999300280174652, "train/cont_pos_loss": 0.0001787274120276311, "train/cont_pred": 0.9982544094711155, "train/cont_rate": 0.9982244318181818, "train/dyn_loss_mean": 2.901699253490993, "train/dyn_loss_std": 6.019851059108586, "train/extr_critic_critic_opt_grad_norm": 1.4326650674466963, "train/extr_critic_critic_opt_grad_steps": 124435.0, "train/extr_critic_critic_opt_loss": 1.4171041497936496, "train/extr_critic_mag": 432.5707339992771, "train/extr_critic_max": 432.5707339992771, "train/extr_critic_mean": 198.41746109801454, "train/extr_critic_min": 0.304681590625218, "train/extr_critic_std": 126.44602243002359, "train/extr_return_normed_mag": 1.5080029414845753, "train/extr_return_normed_max": 1.5080029414845753, "train/extr_return_normed_mean": 0.5115515895478138, "train/extr_return_normed_min": -0.01968870909170961, "train/extr_return_normed_std": 0.34087475302157466, "train/extr_return_rate": 0.9507762259477145, "train/extr_return_raw_mag": 572.2913275384284, "train/extr_return_raw_max": 572.2913275384284, "train/extr_return_raw_mean": 199.25222401804737, "train/extr_return_raw_min": 0.2932204886576971, "train/extr_return_raw_std": 127.6517567324948, "train/extr_reward_mag": 296.3120599412299, "train/extr_reward_max": 296.3120599412299, "train/extr_reward_mean": 1.03725045261445, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.220180307115827, "train/image_loss_mean": 0.9575856374455737, "train/image_loss_std": 0.8099422919285761, "train/model_loss_mean": 2.761818425995963, "train/model_loss_std": 4.142329428103063, "train/model_opt_grad_norm": 9.365717986961464, "train/model_opt_grad_steps": 124435.0, "train/model_opt_loss": 2.761818425995963, "train/policy_entropy_mag": 2.6659624065671648, "train/policy_entropy_max": 2.6659624065671648, "train/policy_entropy_mean": 0.7220021896548086, "train/policy_entropy_min": 0.08019134261971944, "train/policy_entropy_std": 0.6672616608731159, "train/policy_logprob_mag": 7.495541448716994, "train/policy_logprob_max": -0.009489546070334974, "train/policy_logprob_mean": -0.7228774385792869, "train/policy_logprob_min": -7.495541448716994, "train/policy_logprob_std": 1.2079831764295503, "train/policy_randomness_mag": 0.9223597103899176, "train/policy_randomness_max": 0.9223597103899176, "train/policy_randomness_mean": 0.2497956192532143, "train/policy_randomness_min": 0.02774430106260947, "train/policy_randomness_std": 0.2308566973774464, "train/post_ent_mag": 64.1048780664221, "train/post_ent_max": 64.1048780664221, "train/post_ent_mean": 40.878177271260846, "train/post_ent_min": 12.197156655323969, "train/post_ent_std": 5.4328196791859416, "train/prior_ent_mag": 85.44709391408152, "train/prior_ent_max": 85.44709391408152, "train/prior_ent_mean": 43.81474596494204, "train/prior_ent_min": 14.629962345222374, "train/prior_ent_std": 7.60345907025523, "train/rep_loss_mean": 2.901699253490993, "train/rep_loss_std": 6.019851059108586, "train/reward_avg": 1.2096058238636365, "train/reward_loss_mean": 0.06271719027842794, "train/reward_loss_std": 0.224867441050418, "train/reward_max_data": 236.36363636363637, "train/reward_max_pred": 190.15185590223834, "train/reward_neg_acc": 0.9823206043862677, "train/reward_neg_loss": 0.005702911996337065, "train/reward_pos_acc": 0.9961780661886389, "train/reward_pos_loss": 0.6189443902535872, "train/reward_pred": 1.0976811891252345, "train/reward_rate": 0.09332513189935066, "train_stats/mean_log_entropy": 0.577861599624157, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.0605541319819167e-05, "report/cont_loss_std": 0.0003047186473850161, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00014074341743253171, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0478329386387486e-05, "report/cont_pred": 0.9990131855010986, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.46551251411438, "report/dyn_loss_std": 5.62190055847168, "report/image_loss_mean": 0.7243624925613403, "report/image_loss_std": 0.6973767876625061, "report/model_loss_mean": 2.275674343109131, "report/model_loss_std": 3.843975305557251, "report/post_ent_mag": 63.48088836669922, "report/post_ent_max": 63.48088836669922, "report/post_ent_mean": 40.18597412109375, "report/post_ent_min": 8.514884948730469, "report/post_ent_std": 5.922592639923096, "report/prior_ent_mag": 85.41072082519531, "report/prior_ent_max": 85.41072082519531, "report/prior_ent_mean": 42.84046936035156, "report/prior_ent_min": 10.152230262756348, "report/prior_ent_std": 8.018906593322754, "report/rep_loss_mean": 2.46551251411438, "report/rep_loss_std": 5.62190055847168, "report/reward_avg": 1.15234375, "report/reward_loss_mean": 0.07199375331401825, "report/reward_loss_std": 0.24734444916248322, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.993528366088867, "report/reward_neg_acc": 0.9900771975517273, "report/reward_neg_loss": 0.0017697304720059037, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6163800358772278, "report/reward_pred": 1.1079119443893433, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.008997360244393349, "eval/cont_loss_std": 0.2724704444408417, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.359658718109131, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0004833448911085725, "eval/cont_pred": 0.9986060261726379, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 7.664610862731934, "eval/dyn_loss_std": 9.687416076660156, "eval/image_loss_mean": 1.7893850803375244, "eval/image_loss_std": 2.1813738346099854, "eval/model_loss_mean": 6.637744426727295, "eval/model_loss_std": 7.4848198890686035, "eval/post_ent_mag": 67.2686538696289, "eval/post_ent_max": 67.2686538696289, "eval/post_ent_mean": 40.486698150634766, "eval/post_ent_min": 8.937691688537598, "eval/post_ent_std": 5.486998081207275, "eval/prior_ent_mag": 85.41072082519531, "eval/prior_ent_max": 85.41072082519531, "eval/prior_ent_mean": 44.440128326416016, "eval/prior_ent_min": 9.957850456237793, "eval/prior_ent_std": 7.778867244720459, "eval/rep_loss_mean": 7.664610862731934, "eval/rep_loss_std": 9.687416076660156, "eval/reward_avg": 1.58203125, "eval/reward_loss_mean": 0.24059581756591797, "eval/reward_loss_std": 1.2254173755645752, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 456.54052734375, "eval/reward_neg_acc": 0.9451152682304382, "eval/reward_neg_loss": 0.03615204989910126, "eval/reward_pos_acc": 0.8938053250312805, "eval/reward_pos_loss": 1.888810634613037, "eval/reward_pred": 1.327275037765503, "eval/reward_rate": 0.1103515625, "replay/size": 157740.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 5.0234455340584066e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3436683553619188e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4007091522216797e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16355443000793, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 390.69681668281555, "timer/replay._sample_frac": 1.3016131069767103, "timer/replay._sample_avg": 0.015794664322558844, "timer/replay._sample_min": 0.00047469139099121094, "timer/replay._sample_max": 0.25588107109069824, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.769870042800903, "timer/env.step_frac": 0.022553937488035376, "timer/env.step_avg": 0.0043789586305309856, "timer/env.step_min": 0.0024428367614746094, "timer/env.step_max": 0.030167818069458008, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.11834716796875, "timer/agent.policy_frac": 0.3701926683903235, "timer/agent.policy_avg": 0.07187473943594357, "timer/agent.policy_min": 0.002891063690185547, "timer/agent.policy_max": 0.16119384765625, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15813374519348145, "timer/dataset_train_frac": 0.0005268252686231933, "timer/dataset_train_avg": 0.00010228573427780172, "timer/dataset_train_min": 6.222724914550781e-05, "timer/dataset_train_max": 0.00025177001953125, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.9030909538269, "timer/agent.train_frac": 0.6026817322887541, "timer/agent.train_avg": 0.11701364227285052, "timer/agent.train_min": 0.1028904914855957, "timer/agent.train_max": 0.38030338287353516, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2630746364593506, "timer/agent.report_frac": 0.000876437637337128, "timer/agent.report_avg": 0.1315373182296753, "timer/agent.report_min": 0.10163521766662598, "timer/agent.report_max": 0.1614394187927246, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.772445678710938e-05, "timer/dataset_eval_frac": 2.589403531508125e-07, "timer/dataset_eval_avg": 7.772445678710938e-05, "timer/dataset_eval_min": 7.772445678710938e-05, "timer/dataset_eval_max": 7.772445678710938e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15241789817810059, "timer/agent.save_frac": 0.000507782826824305, "timer/agent.save_avg": 0.15241789817810059, "timer/agent.save_min": 0.15241789817810059, "timer/agent.save_max": 0.15241789817810059, "fps": 20.60070772728962}
+{"step": 506272, "episode/length": 435.0, "episode/score": 1040.0, "episode/reward_rate": 0.12614678899082568}
+{"step": 508036, "episode/length": 440.0, "episode/score": 1080.0, "episode/reward_rate": 0.13378684807256236}
+{"step": 509568, "episode/length": 382.0, "episode/score": 1010.0, "episode/reward_rate": 0.13577023498694518}
+{"step": 511108, "episode/length": 384.0, "episode/score": 1000.0, "episode/reward_rate": 0.13246753246753246}
+{"step": 511428, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.778173828125, "train/action_min": 0.0, "train/action_std": 4.189904196031632, "train/actor_opt_grad_norm": 0.00831214319313726, "train/actor_opt_grad_steps": 125980.0, "train/actor_opt_loss": 0.00016122742305334039, "train/adv_mag": 0.8683860400992055, "train/adv_max": 0.8418173380436436, "train/adv_mean": 0.0022952646252134955, "train/adv_min": -0.4926260087759264, "train/adv_std": 0.03910227786869772, "train/cont_avg": 0.9981035786290322, "train/cont_loss_mean": 0.00048553819578497464, "train/cont_loss_std": 0.012581676892725022, "train/cont_neg_acc": 0.9438405805739803, "train/cont_neg_loss": 0.1259614558047174, "train/cont_pos_acc": 0.9999241925054981, "train/cont_pos_loss": 0.00023186669783665218, "train/cont_pred": 0.9980728249396047, "train/cont_rate": 0.9981035786290322, "train/dyn_loss_mean": 2.854296193584319, "train/dyn_loss_std": 6.015217285771524, "train/extr_critic_critic_opt_grad_norm": 1.4654156469529676, "train/extr_critic_critic_opt_grad_steps": 125980.0, "train/extr_critic_critic_opt_loss": 1.4278204741016511, "train/extr_critic_mag": 430.32334594726564, "train/extr_critic_max": 430.32334594726564, "train/extr_critic_mean": 196.36636928435294, "train/extr_critic_min": 0.019101918897321147, "train/extr_critic_std": 128.08822641680317, "train/extr_return_normed_mag": 1.4338282642825957, "train/extr_return_normed_max": 1.4338282642825957, "train/extr_return_normed_mean": 0.5043201786856497, "train/extr_return_normed_min": -0.020422874733565317, "train/extr_return_normed_std": 0.34325369596481325, "train/extr_return_rate": 0.9478520316462363, "train/extr_return_raw_mag": 546.5866807506931, "train/extr_return_raw_max": 546.5866807506931, "train/extr_return_raw_mean": 197.22926694808467, "train/extr_return_raw_min": 0.016177411161498317, "train/extr_return_raw_std": 129.0130595545615, "train/extr_reward_mag": 270.15799240604525, "train/extr_reward_max": 270.15799240604525, "train/extr_reward_mean": 0.9921621441841125, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.741088474950483, "train/image_loss_mean": 0.9473715489910495, "train/image_loss_std": 0.8036520923337629, "train/model_loss_mean": 2.721081821380123, "train/model_loss_std": 4.130520708330216, "train/model_opt_grad_norm": 9.433996489740187, "train/model_opt_grad_steps": 125980.0, "train/model_opt_loss": 2.721081821380123, "train/policy_entropy_mag": 2.6663698119501915, "train/policy_entropy_max": 2.6663698119501915, "train/policy_entropy_mean": 0.7461954805158799, "train/policy_entropy_min": 0.08019151134837059, "train/policy_entropy_std": 0.680400308485954, "train/policy_logprob_mag": 7.4955403051068705, "train/policy_logprob_max": -0.009489542263890467, "train/policy_logprob_mean": -0.7457620932209876, "train/policy_logprob_min": -7.4955403051068705, "train/policy_logprob_std": 1.2169545427445443, "train/policy_randomness_mag": 0.922500664572562, "train/policy_randomness_max": 0.922500664572562, "train/policy_randomness_mean": 0.2581659236261922, "train/policy_randomness_min": 0.027744359499023808, "train/policy_randomness_std": 0.235402355271001, "train/post_ent_mag": 64.02303722750756, "train/post_ent_max": 64.02303722750756, "train/post_ent_mean": 40.8288708348428, "train/post_ent_min": 11.459428110430318, "train/post_ent_std": 5.471854972839355, "train/prior_ent_mag": 85.34046945879537, "train/prior_ent_max": 85.34046945879537, "train/prior_ent_mean": 43.70540303876323, "train/prior_ent_min": 14.121440678258097, "train/prior_ent_std": 7.631209678034629, "train/rep_loss_mean": 2.854296193584319, "train/rep_loss_std": 6.015217285771524, "train/reward_avg": 1.1896421370967742, "train/reward_loss_mean": 0.06064701284612379, "train/reward_loss_std": 0.21958668039691065, "train/reward_max_data": 231.5483870967742, "train/reward_max_pred": 180.07798596659015, "train/reward_neg_acc": 0.9829734883000774, "train/reward_neg_loss": 0.005392279762834791, "train/reward_pos_acc": 0.9964670838848237, "train/reward_pos_loss": 0.6137684106826782, "train/reward_pred": 1.0844999167226976, "train/reward_rate": 0.09094002016129032, "train_stats/mean_log_entropy": 0.5529550760984421, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.000381141813704744, "report/cont_loss_std": 0.007204300258308649, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08004281669855118, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00022524813539348543, "report/cont_pred": 0.9979854226112366, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.789937734603882, "report/dyn_loss_std": 6.327368259429932, "report/image_loss_mean": 1.0131028890609741, "report/image_loss_std": 0.9142370820045471, "report/model_loss_mean": 2.7257940769195557, "report/model_loss_std": 4.414274215698242, "report/post_ent_mag": 64.3248291015625, "report/post_ent_max": 64.3248291015625, "report/post_ent_mean": 41.16630172729492, "report/post_ent_min": 11.819802284240723, "report/post_ent_std": 5.807612419128418, "report/prior_ent_mag": 85.36447143554688, "report/prior_ent_max": 85.36447143554688, "report/prior_ent_mean": 43.74005889892578, "report/prior_ent_min": 12.73692512512207, "report/prior_ent_std": 7.890550136566162, "report/rep_loss_mean": 2.789937734603882, "report/rep_loss_std": 6.327368259429932, "report/reward_avg": 1.6015625, "report/reward_loss_mean": 0.03834724426269531, "report/reward_loss_std": 0.14078019559383392, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.62603759765625, "report/reward_neg_acc": 0.9885297417640686, "report/reward_neg_loss": 0.003576170187443495, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5513543486595154, "report/reward_pred": 1.5749452114105225, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0042593758553266525, "eval/cont_loss_std": 0.1319194883108139, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.413813829421997, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00011768786498578265, "eval/cont_pred": 0.9979363679885864, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.93783950805664, "eval/dyn_loss_std": 11.392610549926758, "eval/image_loss_mean": 2.5403690338134766, "eval/image_loss_std": 2.835448980331421, "eval/model_loss_mean": 9.361064910888672, "eval/model_loss_std": 9.272544860839844, "eval/post_ent_mag": 63.050228118896484, "eval/post_ent_max": 63.050228118896484, "eval/post_ent_mean": 40.76845932006836, "eval/post_ent_min": 9.427783966064453, "eval/post_ent_std": 5.1532464027404785, "eval/prior_ent_mag": 85.36447143554688, "eval/prior_ent_max": 85.36447143554688, "eval/prior_ent_mean": 44.93999481201172, "eval/prior_ent_min": 12.52328109741211, "eval/prior_ent_std": 7.905792713165283, "eval/rep_loss_mean": 10.93783950805664, "eval/rep_loss_std": 11.392610549926758, "eval/reward_avg": 1.42578125, "eval/reward_loss_mean": 0.25373274087905884, "eval/reward_loss_std": 1.5509034395217896, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 14.228713035583496, "eval/reward_neg_acc": 0.9687162637710571, "eval/reward_neg_loss": 0.017665855586528778, "eval/reward_pos_acc": 0.8350515961647034, "eval/reward_pos_loss": 2.509753465652466, "eval/reward_pred": 0.764176607131958, "eval/reward_rate": 0.0947265625, "replay/size": 159288.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.988462117907305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3666713576600224e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1537141799927, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 397.2792646884918, "timer/replay._sample_frac": 1.3235860358211526, "timer/replay._sample_avg": 0.016040021991621925, "timer/replay._sample_min": 0.0003845691680908203, "timer/replay._sample_max": 0.0509645938873291, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.718042612075806, "timer/env.step_frac": 0.022382007267273754, "timer/env.step_avg": 0.0043398208088345, "timer/env.step_min": 0.0016100406646728516, "timer/env.step_max": 0.03485250473022461, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.32516717910767, "timer/agent.policy_frac": 0.3708938517827219, "timer/agent.policy_avg": 0.07191548267384217, "timer/agent.policy_min": 0.0030400753021240234, "timer/agent.policy_max": 0.08761405944824219, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15918397903442383, "timer/dataset_train_frac": 0.0005303415267384172, "timer/dataset_train_avg": 0.00010283202780001539, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.00022172927856445312, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.71607947349548, "timer/agent.train_frac": 0.6020784382668867, "timer/agent.train_avg": 0.11674165340665082, "timer/agent.train_min": 0.10361838340759277, "timer/agent.train_max": 0.20170044898986816, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2676513195037842, "timer/agent.report_frac": 0.0008917141679722216, "timer/agent.report_avg": 0.1338256597518921, "timer/agent.report_min": 0.10014128684997559, "timer/agent.report_max": 0.1675100326538086, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.53131103515625e-05, "timer/dataset_eval_frac": 1.8428261167007575e-07, "timer/dataset_eval_avg": 5.53131103515625e-05, "timer/dataset_eval_min": 5.53131103515625e-05, "timer/dataset_eval_max": 5.53131103515625e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.628172185979754}
+{"step": 512784, "episode/length": 418.0, "episode/score": 1010.0, "episode/reward_rate": 0.12171837708830549}
+{"step": 514360, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.1319796954314721}
+{"step": 517140, "episode/length": 694.0, "episode/score": 1130.0, "episode/reward_rate": 0.09064748201438849}
+{"step": 517620, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.732831007434475, "train/action_min": 0.0, "train/action_std": 4.151557145580169, "train/actor_opt_grad_norm": 0.008258327619443017, "train/actor_opt_grad_steps": 127530.0, "train/actor_opt_loss": -7.614914906767925e-05, "train/adv_mag": 0.8684623998980369, "train/adv_max": 0.8406255765307334, "train/adv_mean": 0.0020307221254927668, "train/adv_min": -0.5083770305879655, "train/adv_std": 0.0401478128627904, "train/cont_avg": 0.9981917842741935, "train/cont_loss_mean": 0.0006893828030417725, "train/cont_loss_std": 0.017278426925298435, "train/cont_neg_acc": 0.9264322924427688, "train/cont_neg_loss": 0.2030826253413971, "train/cont_pos_acc": 0.9998989728189284, "train/cont_pos_loss": 0.00027164759453082954, "train/cont_pred": 0.9981712941200502, "train/cont_rate": 0.9981917842741935, "train/dyn_loss_mean": 3.003509267683952, "train/dyn_loss_std": 6.047262883955432, "train/extr_critic_critic_opt_grad_norm": 1.5058978957514608, "train/extr_critic_critic_opt_grad_steps": 127530.0, "train/extr_critic_critic_opt_loss": 1.4270415306091309, "train/extr_critic_mag": 432.1384596301663, "train/extr_critic_max": 432.1384596301663, "train/extr_critic_mean": 202.81033630371093, "train/extr_critic_min": 0.47317631167750207, "train/extr_critic_std": 129.20794421780494, "train/extr_return_normed_mag": 1.4093139075463819, "train/extr_return_normed_max": 1.4093139075463819, "train/extr_return_normed_mean": 0.516244290721032, "train/extr_return_normed_min": -0.016327313551371316, "train/extr_return_normed_std": 0.3419728929958036, "train/extr_return_rate": 0.9506750310620954, "train/extr_return_raw_mag": 543.7531883978074, "train/extr_return_raw_max": 543.7531883978074, "train/extr_return_raw_mean": 203.58416088473413, "train/extr_return_raw_min": 0.8095369252939558, "train/extr_return_raw_std": 130.2209478070659, "train/extr_reward_mag": 297.067397111462, "train/extr_reward_max": 297.067397111462, "train/extr_reward_mean": 1.0389799502588088, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.271627539973105, "train/image_loss_mean": 0.9400121988788728, "train/image_loss_std": 0.7952009600977744, "train/model_loss_mean": 2.8068756595734627, "train/model_loss_std": 4.149441811346239, "train/model_opt_grad_norm": 9.759654281985375, "train/model_opt_grad_steps": 127530.0, "train/model_opt_loss": 2.8068756595734627, "train/policy_entropy_mag": 2.6738605530031267, "train/policy_entropy_max": 2.6738605530031267, "train/policy_entropy_mean": 0.7163725076183196, "train/policy_entropy_min": 0.08019152687441918, "train/policy_entropy_std": 0.6708298737002957, "train/policy_logprob_mag": 7.49553965906943, "train/policy_logprob_max": -0.009489521666640235, "train/policy_logprob_mean": -0.7165208547346054, "train/policy_logprob_min": -7.49553965906943, "train/policy_logprob_std": 1.2040738682593068, "train/policy_randomness_mag": 0.9250922826028639, "train/policy_randomness_max": 0.9250922826028639, "train/policy_randomness_mean": 0.2478478826822773, "train/policy_randomness_min": 0.02774436483460088, "train/policy_randomness_std": 0.23209121275332667, "train/post_ent_mag": 64.15001427435107, "train/post_ent_max": 64.15001427435107, "train/post_ent_mean": 40.81571020310925, "train/post_ent_min": 10.991720064224735, "train/post_ent_std": 5.537848497206165, "train/prior_ent_mag": 85.44012677592616, "train/prior_ent_max": 85.44012677592616, "train/prior_ent_mean": 43.79039584744361, "train/prior_ent_min": 13.832713016386956, "train/prior_ent_std": 7.711428205428585, "train/rep_loss_mean": 3.003509267683952, "train/rep_loss_std": 6.047262883955432, "train/reward_avg": 1.2179939516129032, "train/reward_loss_mean": 0.06406850906149034, "train/reward_loss_std": 0.2331861683437901, "train/reward_max_data": 228.58064516129033, "train/reward_max_pred": 176.0698156910558, "train/reward_neg_acc": 0.9813903977794032, "train/reward_neg_loss": 0.006284119431380062, "train/reward_pos_acc": 0.9950562538639192, "train/reward_pos_loss": 0.6239812258751162, "train/reward_pred": 1.098022932775559, "train/reward_rate": 0.09376260080645162, "train_stats/mean_log_entropy": 0.6580243607362112, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.54650115291588e-05, "report/cont_loss_std": 0.00033475185045972466, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004952451679855585, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.803589829156408e-06, "report/cont_pred": 0.9980506896972656, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.6178841590881348, "report/dyn_loss_std": 5.667433261871338, "report/image_loss_mean": 0.8368892669677734, "report/image_loss_std": 0.8267233371734619, "report/model_loss_mean": 2.475682497024536, "report/model_loss_std": 3.927664041519165, "report/post_ent_mag": 64.40811920166016, "report/post_ent_max": 64.40811920166016, "report/post_ent_mean": 40.65589904785156, "report/post_ent_min": 9.49496078491211, "report/post_ent_std": 6.219564437866211, "report/prior_ent_mag": 85.2727279663086, "report/prior_ent_max": 85.2727279663086, "report/prior_ent_mean": 43.23469543457031, "report/prior_ent_min": 12.274469375610352, "report/prior_ent_std": 8.192832946777344, "report/rep_loss_mean": 2.6178841590881348, "report/rep_loss_std": 5.667433261871338, "report/reward_avg": 1.162109375, "report/reward_loss_mean": 0.06804737448692322, "report/reward_loss_std": 0.18771280348300934, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.990646362304688, "report/reward_neg_acc": 0.9823399782180786, "report/reward_neg_loss": 0.006405356805771589, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5413327217102051, "report/reward_pred": 1.166400671005249, "report/reward_rate": 0.115234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.9708984331809916e-06, "eval/cont_loss_std": 7.255790114868432e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.9708984331809916e-06, "eval/cont_pred": 0.9999960064888, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 8.31751823425293, "eval/dyn_loss_std": 9.609565734863281, "eval/image_loss_mean": 2.1382734775543213, "eval/image_loss_std": 2.177325963973999, "eval/model_loss_mean": 7.4171881675720215, "eval/model_loss_std": 7.497715950012207, "eval/post_ent_mag": 53.27337646484375, "eval/post_ent_max": 53.27337646484375, "eval/post_ent_mean": 42.20281219482422, "eval/post_ent_min": 13.87414836883545, "eval/post_ent_std": 5.292804718017578, "eval/prior_ent_mag": 85.2727279663086, "eval/prior_ent_max": 85.2727279663086, "eval/prior_ent_mean": 46.4539909362793, "eval/prior_ent_min": 13.310190200805664, "eval/prior_ent_std": 7.073787689208984, "eval/rep_loss_mean": 8.31751823425293, "eval/rep_loss_std": 9.609565734863281, "eval/reward_avg": 1.884765625, "eval/reward_loss_mean": 0.28839972615242004, "eval/reward_loss_std": 1.460174798965454, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 436.13482666015625, "eval/reward_neg_acc": 0.946178674697876, "eval/reward_neg_loss": 0.06362457573413849, "eval/reward_pos_acc": 0.7789474129676819, "eval/reward_pos_loss": 2.486464023590088, "eval/reward_pred": 1.1637680530548096, "eval/reward_rate": 0.0927734375, "replay/size": 160836.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.914533876325425e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3478908889977506e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0090215206146, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 394.7162868976593, "timer/replay._sample_frac": 1.3156813915028787, "timer/replay._sample_avg": 0.015936542591152264, "timer/replay._sample_min": 0.0005195140838623047, "timer/replay._sample_max": 0.053432464599609375, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.65372633934021, "timer/env.step_frac": 0.02217842085419758, "timer/env.step_avg": 0.004298272829031144, "timer/env.step_min": 0.0023071765899658203, "timer/env.step_max": 0.03189444541931152, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.2709641456604, "timer/agent.policy_frac": 0.3708920604509708, "timer/agent.policy_avg": 0.07188046779435427, "timer/agent.policy_min": 0.0028142929077148438, "timer/agent.policy_max": 0.08692002296447754, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15809392929077148, "timer/dataset_train_frac": 0.0005269639175830862, "timer/dataset_train_avg": 0.00010212786129894798, "timer/dataset_train_min": 6.127357482910156e-05, "timer/dataset_train_max": 0.0002772808074951172, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.69372129440308, "timer/agent.train_frac": 0.6022942922800973, "timer/agent.train_avg": 0.11672721013850328, "timer/agent.train_min": 0.10273218154907227, "timer/agent.train_max": 0.2049243450164795, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26392388343811035, "timer/agent.report_frac": 0.000879719823425294, "timer/agent.report_avg": 0.13196194171905518, "timer/agent.report_min": 0.10318970680236816, "timer/agent.report_max": 0.1607341766357422, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.245208740234375e-05, "timer/dataset_eval_frac": 1.7483503374827545e-07, "timer/dataset_eval_avg": 5.245208740234375e-05, "timer/dataset_eval_min": 5.245208740234375e-05, "timer/dataset_eval_max": 5.245208740234375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.63819649473018}
+{"step": 518796, "episode/length": 413.0, "episode/score": 1010.0, "episode/reward_rate": 0.12560386473429952}
+{"step": 520328, "episode/length": 382.0, "episode/score": 1000.0, "episode/reward_rate": 0.13315926892950392}
+{"step": 521900, "episode/length": 392.0, "episode/score": 980.0, "episode/reward_rate": 0.12468193384223919}
+{"step": 523800, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.72618408203125, "train/action_min": 0.0, "train/action_std": 4.159176009701144, "train/actor_opt_grad_norm": 0.009547782430966054, "train/actor_opt_grad_steps": 129080.0, "train/actor_opt_loss": 0.0003422245389218358, "train/adv_mag": 0.8916004912507149, "train/adv_max": 0.8640242491037615, "train/adv_mean": 0.002763243696632168, "train/adv_min": -0.5434518754962951, "train/adv_std": 0.04355118334774048, "train/cont_avg": 0.9981413810483871, "train/cont_loss_mean": 0.0005979991017220214, "train/cont_loss_std": 0.015544696491466543, "train/cont_neg_acc": 0.9371391098330341, "train/cont_neg_loss": 0.18388178019112397, "train/cont_pos_acc": 0.9999747326297145, "train/cont_pos_loss": 0.00020418590105888065, "train/cont_pred": 0.998203371801684, "train/cont_rate": 0.9981413810483871, "train/dyn_loss_mean": 2.945411851329188, "train/dyn_loss_std": 5.9877526098682035, "train/extr_critic_critic_opt_grad_norm": 1.471448237665238, "train/extr_critic_critic_opt_grad_steps": 129080.0, "train/extr_critic_critic_opt_loss": 1.43206871017333, "train/extr_critic_mag": 435.25638821509574, "train/extr_critic_max": 435.25638821509574, "train/extr_critic_mean": 203.72474217568674, "train/extr_critic_min": 0.13797441451780257, "train/extr_critic_std": 131.52172221522179, "train/extr_return_normed_mag": 1.5072222721192146, "train/extr_return_normed_max": 1.5072222721192146, "train/extr_return_normed_mean": 0.5138690252457896, "train/extr_return_normed_min": -0.020038166491975706, "train/extr_return_normed_std": 0.34672899919171485, "train/extr_return_rate": 0.9455196215260413, "train/extr_return_raw_mag": 585.5260866226688, "train/extr_return_raw_max": 585.5260866226688, "train/extr_return_raw_mean": 204.78394096128403, "train/extr_return_raw_min": 0.06412941431589124, "train/extr_return_raw_std": 132.95469296363092, "train/extr_reward_mag": 301.25324420928956, "train/extr_reward_max": 301.25324420928956, "train/extr_reward_mean": 1.06759525422127, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.153055754015522, "train/image_loss_mean": 0.9620660985669782, "train/image_loss_std": 0.8142820077557718, "train/model_loss_mean": 2.7923475773103776, "train/model_loss_std": 4.129957192943942, "train/model_opt_grad_norm": 9.488295478205528, "train/model_opt_grad_steps": 129080.0, "train/model_opt_loss": 2.7923475773103776, "train/policy_entropy_mag": 2.6761658345499346, "train/policy_entropy_max": 2.6761658345499346, "train/policy_entropy_mean": 0.722665031879179, "train/policy_entropy_min": 0.08019136796074529, "train/policy_entropy_std": 0.6793559289747669, "train/policy_logprob_mag": 7.495541009595318, "train/policy_logprob_max": -0.009489512521653407, "train/policy_logprob_mean": -0.7228322332905185, "train/policy_logprob_min": -7.495541009595318, "train/policy_logprob_std": 1.20910853416689, "train/policy_randomness_mag": 0.92588985466188, "train/policy_randomness_max": 0.92588985466188, "train/policy_randomness_mean": 0.25002494637043243, "train/policy_randomness_min": 0.027744309748372723, "train/policy_randomness_std": 0.23504102460799678, "train/post_ent_mag": 63.66454526839718, "train/post_ent_max": 63.66454526839718, "train/post_ent_mean": 40.80597192087481, "train/post_ent_min": 11.424729617949454, "train/post_ent_std": 5.5740340478958625, "train/prior_ent_mag": 85.36729701872795, "train/prior_ent_max": 85.36729701872795, "train/prior_ent_mean": 43.77145809050529, "train/prior_ent_min": 14.062132275489068, "train/prior_ent_std": 7.731964009807956, "train/rep_loss_mean": 2.945411851329188, "train/rep_loss_std": 5.9877526098682035, "train/reward_avg": 1.2503780241935485, "train/reward_loss_mean": 0.06243636555248691, "train/reward_loss_std": 0.22862596617590997, "train/reward_max_data": 257.2258064516129, "train/reward_max_pred": 215.4526992059523, "train/reward_neg_acc": 0.9827796190015732, "train/reward_neg_loss": 0.0058617161827222, "train/reward_pos_acc": 0.9949840826372947, "train/reward_pos_loss": 0.6223515829732341, "train/reward_pred": 1.135296151330394, "train/reward_rate": 0.09205519153225807, "train_stats/mean_log_entropy": 0.5248158772786459, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.426920375204645e-05, "report/cont_loss_std": 0.00089445331832394, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02838999591767788, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.550993475684663e-06, "report/cont_pred": 0.9990442395210266, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.9316067695617676, "report/dyn_loss_std": 5.9337615966796875, "report/image_loss_mean": 0.9661824703216553, "report/image_loss_std": 0.8566704988479614, "report/model_loss_mean": 2.777080774307251, "report/model_loss_std": 4.090664863586426, "report/post_ent_mag": 65.33905792236328, "report/post_ent_max": 65.33905792236328, "report/post_ent_mean": 40.355865478515625, "report/post_ent_min": 10.687398910522461, "report/post_ent_std": 6.340590000152588, "report/prior_ent_mag": 85.48976135253906, "report/prior_ent_max": 85.48976135253906, "report/prior_ent_mean": 43.36609649658203, "report/prior_ent_min": 11.36390495300293, "report/prior_ent_std": 8.207401275634766, "report/rep_loss_mean": 2.9316067695617676, "report/rep_loss_std": 5.9337615966796875, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.05190001428127289, "report/reward_loss_std": 0.19901524484157562, "report/reward_max_data": 20.0, "report/reward_max_pred": 20.002553939819336, "report/reward_neg_acc": 0.9851537942886353, "report/reward_neg_loss": 0.006111712660640478, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5849663019180298, "report/reward_pred": 0.771731972694397, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01486919540911913, "eval/cont_loss_std": 0.2879924774169922, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.7675065994262695, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.003842836245894432, "eval/cont_pred": 0.9970057606697083, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.3905029296875, "eval/dyn_loss_std": 9.925394058227539, "eval/image_loss_mean": 2.6602072715759277, "eval/image_loss_std": 2.897611379623413, "eval/model_loss_mean": 8.740845680236816, "eval/model_loss_std": 8.581231117248535, "eval/post_ent_mag": 65.33905792236328, "eval/post_ent_max": 65.33905792236328, "eval/post_ent_mean": 41.58430480957031, "eval/post_ent_min": 22.56509017944336, "eval/post_ent_std": 4.951150894165039, "eval/prior_ent_mag": 85.48976135253906, "eval/prior_ent_max": 85.48976135253906, "eval/prior_ent_mean": 46.40316390991211, "eval/prior_ent_min": 23.585779190063477, "eval/prior_ent_std": 7.3596978187561035, "eval/rep_loss_mean": 9.3905029296875, "eval/rep_loss_std": 9.925394058227539, "eval/reward_avg": 1.201171875, "eval/reward_loss_mean": 0.43146735429763794, "eval/reward_loss_std": 1.9300187826156616, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 19.878067016601562, "eval/reward_neg_acc": 0.9490587115287781, "eval/reward_neg_loss": 0.05917298421263695, "eval/reward_pos_acc": 0.719008207321167, "eval/reward_pos_loss": 3.209829330444336, "eval/reward_pred": 0.8762854337692261, "eval/reward_rate": 0.1181640625, "replay/size": 162381.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.970371530279759e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3665763305614682e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9570481777191, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 395.97620248794556, "timer/replay._sample_frac": 1.3201096786808517, "timer/replay._sample_avg": 0.01601845479320168, "timer/replay._sample_min": 0.00042700767517089844, "timer/replay._sample_max": 0.05472993850708008, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.734023809432983, "timer/env.step_frac": 0.022449960253786722, "timer/env.step_avg": 0.004358591462416171, "timer/env.step_min": 0.002088308334350586, "timer/env.step_max": 0.03254342079162598, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.12358021736145, "timer/agent.policy_frac": 0.3704649745436978, "timer/agent.policy_avg": 0.07192464738987796, "timer/agent.policy_min": 0.002965211868286133, "timer/agent.policy_max": 0.16234803199768066, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15932297706604004, "timer/dataset_train_frac": 0.0005311526367989995, "timer/dataset_train_avg": 0.00010312166800390941, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.002515554428100586, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.80039477348328, "timer/agent.train_frac": 0.6027542805607365, "timer/agent.train_avg": 0.1170229092385005, "timer/agent.train_min": 0.10218644142150879, "timer/agent.train_max": 0.25156521797180176, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20202183723449707, "timer/agent.report_frac": 0.0006735025513212905, "timer/agent.report_avg": 0.10101091861724854, "timer/agent.report_min": 0.09602212905883789, "timer/agent.report_max": 0.10599970817565918, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.935264587402344e-05, "timer/dataset_eval_frac": 1.645323761313416e-07, "timer/dataset_eval_avg": 4.935264587402344e-05, "timer/dataset_eval_min": 4.935264587402344e-05, "timer/dataset_eval_max": 4.935264587402344e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09522509574890137, "timer/agent.save_frac": 0.0003174624377970349, "timer/agent.save_avg": 0.09522509574890137, "timer/agent.save_min": 0.09522509574890137, "timer/agent.save_max": 0.09522509574890137, "fps": 20.601786422979693}
+{"step": 523872, "episode/length": 492.0, "episode/score": 1120.0, "episode/reward_rate": 0.12778904665314403}
+{"step": 525632, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
+{"step": 527160, "episode/length": 381.0, "episode/score": 1010.0, "episode/reward_rate": 0.13612565445026178}
+{"step": 529408, "episode/length": 561.0, "episode/score": 1120.0, "episode/reward_rate": 0.1103202846975089}
+{"step": 529988, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.573611569094968, "train/action_min": 0.0, "train/action_std": 4.229502989100172, "train/actor_opt_grad_norm": 0.009007611565969208, "train/actor_opt_grad_steps": 130625.0, "train/actor_opt_loss": 0.0003388512840702587, "train/adv_mag": 0.9439749051998187, "train/adv_max": 0.9228168026386917, "train/adv_mean": 0.003135688842354733, "train/adv_min": -0.5627602302021795, "train/adv_std": 0.04418884537049702, "train/cont_avg": 0.9980722402597403, "train/cont_loss_mean": 0.000618334199751873, "train/cont_loss_std": 0.016471656061198253, "train/cont_neg_acc": 0.9108527138713718, "train/cont_neg_loss": 0.2354303103602909, "train/cont_pos_acc": 0.9999491386599355, "train/cont_pos_loss": 0.00020086522182813154, "train/cont_pred": 0.998099292253519, "train/cont_rate": 0.9980722402597403, "train/dyn_loss_mean": 2.8638364200468187, "train/dyn_loss_std": 6.005446056266884, "train/extr_critic_critic_opt_grad_norm": 1.4969530852584096, "train/extr_critic_critic_opt_grad_steps": 130625.0, "train/extr_critic_critic_opt_loss": 1.4667016879304664, "train/extr_critic_mag": 440.15601616401176, "train/extr_critic_max": 440.15601616401176, "train/extr_critic_mean": 209.08049546278917, "train/extr_critic_min": 0.16629787466742776, "train/extr_critic_std": 135.94150567983652, "train/extr_return_normed_mag": 1.5533349196632187, "train/extr_return_normed_max": 1.5533349196632187, "train/extr_return_normed_mean": 0.5221707774447156, "train/extr_return_normed_min": -0.018548292966891956, "train/extr_return_normed_std": 0.3537780441247024, "train/extr_return_rate": 0.941460410108814, "train/extr_return_raw_mag": 611.094136622045, "train/extr_return_raw_max": 611.094136622045, "train/extr_return_raw_mean": 210.29891918231914, "train/extr_return_raw_min": 0.15626117015331561, "train/extr_return_raw_std": 137.50050740427784, "train/extr_reward_mag": 314.2421270098005, "train/extr_reward_max": 314.2421270098005, "train/extr_reward_mean": 1.0863765493615882, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.610347096022073, "train/image_loss_mean": 0.9391879706413715, "train/image_loss_std": 0.79844205836197, "train/model_loss_mean": 2.7194258733229204, "train/model_loss_std": 4.128654323615037, "train/model_opt_grad_norm": 9.597927790183526, "train/model_opt_grad_steps": 130625.0, "train/model_opt_loss": 2.7194258733229204, "train/policy_entropy_mag": 2.678665932122763, "train/policy_entropy_max": 2.678665932122763, "train/policy_entropy_mean": 0.7364307365247181, "train/policy_entropy_min": 0.08019131630078538, "train/policy_entropy_std": 0.6892804193806339, "train/policy_logprob_mag": 7.495541266032627, "train/policy_logprob_max": -0.009489545290201129, "train/policy_logprob_mean": -0.736054356609072, "train/policy_logprob_min": -7.495541266032627, "train/policy_logprob_std": 1.214957579389795, "train/policy_randomness_mag": 0.9267548322677612, "train/policy_randomness_max": 0.9267548322677612, "train/policy_randomness_mean": 0.25478755489185256, "train/policy_randomness_min": 0.02774429196709549, "train/policy_randomness_std": 0.2384746643629941, "train/post_ent_mag": 63.96635060496145, "train/post_ent_max": 63.96635060496145, "train/post_ent_mean": 40.72075638213715, "train/post_ent_min": 11.868056012438489, "train/post_ent_std": 5.555210463412396, "train/prior_ent_mag": 85.39517429896763, "train/prior_ent_max": 85.39517429896763, "train/prior_ent_mean": 43.64619455709086, "train/prior_ent_min": 14.504004397949615, "train/prior_ent_std": 7.728745206609949, "train/rep_loss_mean": 2.8638364200468187, "train/rep_loss_std": 6.005446056266884, "train/reward_avg": 1.2266005478896105, "train/reward_loss_mean": 0.061317710060771406, "train/reward_loss_std": 0.21812823105168033, "train/reward_max_data": 245.06493506493507, "train/reward_max_pred": 218.72596016797152, "train/reward_neg_acc": 0.9827765930782665, "train/reward_neg_loss": 0.005628092476777587, "train/reward_pos_acc": 0.9967529998197184, "train/reward_pos_loss": 0.6085037252345642, "train/reward_pred": 1.1419205549475435, "train/reward_rate": 0.09240564123376624, "train_stats/mean_log_entropy": 0.666248194873333, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.965927241253667e-06, "report/cont_loss_std": 0.00014042595284990966, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0025199453812092543, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.048158194156713e-06, "report/cont_pred": 0.9980497360229492, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7442479133605957, "report/dyn_loss_std": 5.507061004638672, "report/image_loss_mean": 0.8349181413650513, "report/image_loss_std": 0.6974136829376221, "report/model_loss_mean": 2.559363842010498, "report/model_loss_std": 3.75462007522583, "report/post_ent_mag": 66.61811828613281, "report/post_ent_max": 66.61811828613281, "report/post_ent_mean": 40.94077682495117, "report/post_ent_min": 9.410491943359375, "report/post_ent_std": 5.843165874481201, "report/prior_ent_mag": 85.44381713867188, "report/prior_ent_max": 85.44381713867188, "report/prior_ent_mean": 43.99202346801758, "report/prior_ent_min": 11.922394752502441, "report/prior_ent_std": 7.94992733001709, "report/rep_loss_mean": 2.7442479133605957, "report/rep_loss_std": 5.507061004638672, "report/reward_avg": 2.587890625, "report/reward_loss_mean": 0.07789000868797302, "report/reward_loss_std": 0.24845018982887268, "report/reward_max_data": 1000.0, "report/reward_max_pred": 453.2655334472656, "report/reward_neg_acc": 0.9801761507987976, "report/reward_neg_loss": 0.009297267533838749, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6148056387901306, "report/reward_pred": 1.6496784687042236, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012716825120151043, "eval/cont_loss_std": 0.28072577714920044, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.3105692863464355, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0003922602627426386, "eval/cont_pred": 0.9996248483657837, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 5.85791015625, "eval/dyn_loss_std": 8.148310661315918, "eval/image_loss_mean": 1.3738467693328857, "eval/image_loss_std": 1.6802963018417358, "eval/model_loss_mean": 5.129461288452148, "eval/model_loss_std": 6.150710582733154, "eval/post_ent_mag": 66.61811828613281, "eval/post_ent_max": 66.61811828613281, "eval/post_ent_mean": 40.636356353759766, "eval/post_ent_min": 10.150833129882812, "eval/post_ent_std": 5.464157581329346, "eval/prior_ent_mag": 85.44381713867188, "eval/prior_ent_max": 85.44381713867188, "eval/prior_ent_mean": 44.228004455566406, "eval/prior_ent_min": 10.714874267578125, "eval/prior_ent_std": 7.879630088806152, "eval/rep_loss_mean": 5.85791015625, "eval/rep_loss_std": 8.148310661315918, "eval/reward_avg": 2.51953125, "eval/reward_loss_mean": 0.22815144062042236, "eval/reward_loss_std": 1.1338739395141602, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 420.08905029296875, "eval/reward_neg_acc": 0.9430449604988098, "eval/reward_neg_loss": 0.051217079162597656, "eval/reward_pos_acc": 0.8648648858070374, "eval/reward_pos_loss": 1.6834765672683716, "eval/reward_pred": 1.6001313924789429, "eval/reward_rate": 0.1083984375, "replay/size": 163928.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.039617024318742e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3668034719357431e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0492413043976, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 397.99226808547974, "timer/replay._sample_frac": 1.3264231775934394, "timer/replay._sample_avg": 0.016079196351223325, "timer/replay._sample_min": 0.0005059242248535156, "timer/replay._sample_max": 0.05573248863220215, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.787365913391113, "timer/env.step_frac": 0.022620840112391367, "timer/env.step_avg": 0.004387437565217268, "timer/env.step_min": 0.002304553985595703, "timer/env.step_max": 0.028900146484375, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.16601848602295, "timer/agent.policy_frac": 0.3704925831598618, "timer/agent.policy_avg": 0.07185909404397088, "timer/agent.policy_min": 0.003011465072631836, "timer/agent.policy_max": 0.08475351333618164, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.1610572338104248, "timer/dataset_train_frac": 0.0005367693419595536, "timer/dataset_train_avg": 0.00010410939483543944, "timer/dataset_train_min": 5.984306335449219e-05, "timer/dataset_train_max": 0.0014004707336425781, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.68952250480652, "timer/agent.train_frac": 0.6021995647091086, "timer/agent.train_avg": 0.11679994990614513, "timer/agent.train_min": 0.10388779640197754, "timer/agent.train_max": 0.20425748825073242, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2632334232330322, "timer/agent.report_frac": 0.0008773007459998341, "timer/agent.report_avg": 0.1316167116165161, "timer/agent.report_min": 0.09897446632385254, "timer/agent.report_max": 0.1642589569091797, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.984306335449219e-05, "timer/dataset_eval_frac": 1.9944414154935947e-07, "timer/dataset_eval_avg": 5.984306335449219e-05, "timer/dataset_eval_min": 5.984306335449219e-05, "timer/dataset_eval_max": 5.984306335449219e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.622004386135927}
+{"step": 531056, "episode/length": 411.0, "episode/score": 1040.0, "episode/reward_rate": 0.13349514563106796}
+{"step": 532784, "episode/length": 431.0, "episode/score": 1040.0, "episode/reward_rate": 0.12731481481481483}
+{"step": 534592, "episode/length": 451.0, "episode/score": 1010.0, "episode/reward_rate": 0.11504424778761062}
+{"step": 536172, "episode/length": 394.0, "episode/score": 1000.0, "episode/reward_rate": 0.12658227848101267}
+{"step": 536176, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.622579857610887, "train/action_min": 0.0, "train/action_std": 4.183437316648422, "train/actor_opt_grad_norm": 0.008938618710324649, "train/actor_opt_grad_steps": 132170.0, "train/actor_opt_loss": 0.00018486590232339128, "train/adv_mag": 0.810308864135896, "train/adv_max": 0.765928539633751, "train/adv_mean": 0.0025920876067527477, "train/adv_min": -0.534132570028305, "train/adv_std": 0.03964022936960382, "train/cont_avg": 0.9980531754032258, "train/cont_loss_mean": 0.0005425204175550838, "train/cont_loss_std": 0.014107986134812593, "train/cont_neg_acc": 0.9510948914681038, "train/cont_neg_loss": 0.16248961268476197, "train/cont_pos_acc": 0.9999304548386605, "train/cont_pos_loss": 0.00020624292021610604, "train/cont_pred": 0.998042514247279, "train/cont_rate": 0.9980531754032258, "train/dyn_loss_mean": 2.8585087668511173, "train/dyn_loss_std": 5.9890709938541535, "train/extr_critic_critic_opt_grad_norm": 1.5162546438555564, "train/extr_critic_critic_opt_grad_steps": 132170.0, "train/extr_critic_critic_opt_loss": 1.489866102895429, "train/extr_critic_mag": 448.02176080519155, "train/extr_critic_max": 448.02176080519155, "train/extr_critic_mean": 221.1559336016255, "train/extr_critic_min": 0.336261692354756, "train/extr_critic_std": 139.89398720033708, "train/extr_return_normed_mag": 1.3874401196356743, "train/extr_return_normed_max": 1.3874401196356743, "train/extr_return_normed_mean": 0.5359163718838845, "train/extr_return_normed_min": -0.01638024247611963, "train/extr_return_normed_std": 0.3510486823897208, "train/extr_return_rate": 0.9477566830573544, "train/extr_return_raw_mag": 564.0269082346271, "train/extr_return_raw_max": 564.0269082346271, "train/extr_return_raw_mean": 222.1965359595514, "train/extr_return_raw_min": 0.3928306244043333, "train/extr_return_raw_std": 140.97034099948021, "train/extr_reward_mag": 244.96855292166433, "train/extr_reward_max": 244.96855292166433, "train/extr_reward_mean": 1.0638977462245571, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.01312066970333, "train/image_loss_mean": 0.9199622100399386, "train/image_loss_std": 0.7997547472676924, "train/model_loss_mean": 2.6991795093782485, "train/model_loss_std": 4.115546538752894, "train/model_opt_grad_norm": 9.415645368637577, "train/model_opt_grad_steps": 132170.0, "train/model_opt_loss": 2.6991795093782485, "train/policy_entropy_mag": 2.6536245745997276, "train/policy_entropy_max": 2.6536245745997276, "train/policy_entropy_mean": 0.6826795114624885, "train/policy_entropy_min": 0.08019122106413687, "train/policy_entropy_std": 0.6640838375014644, "train/policy_logprob_mag": 7.495541689472814, "train/policy_logprob_max": -0.009489545328242163, "train/policy_logprob_mean": -0.6824795663356781, "train/policy_logprob_min": -7.495541689472814, "train/policy_logprob_std": 1.1945632534642374, "train/policy_randomness_mag": 0.9180911156439012, "train/policy_randomness_max": 0.9180911156439012, "train/policy_randomness_mean": 0.23619090876271648, "train/policy_randomness_min": 0.027744259000305208, "train/policy_randomness_std": 0.22975724656735697, "train/post_ent_mag": 63.979081529186615, "train/post_ent_max": 63.979081529186615, "train/post_ent_mean": 40.63386764526367, "train/post_ent_min": 11.556879665005592, "train/post_ent_std": 5.553134244488132, "train/prior_ent_mag": 85.3478014546056, "train/prior_ent_max": 85.3478014546056, "train/prior_ent_mean": 43.51714128063571, "train/prior_ent_min": 14.028683047140799, "train/prior_ent_std": 7.722616220289661, "train/rep_loss_mean": 2.8585087668511173, "train/rep_loss_std": 5.9890709938541535, "train/reward_avg": 1.1975806451612903, "train/reward_loss_mean": 0.06356949611536918, "train/reward_loss_std": 0.2252167425809368, "train/reward_max_data": 181.48387096774192, "train/reward_max_pred": 139.649191136514, "train/reward_neg_acc": 0.9833266277467051, "train/reward_neg_loss": 0.00513352112874629, "train/reward_pos_acc": 0.996469348092233, "train/reward_pos_loss": 0.6147666788870289, "train/reward_pred": 1.1082024339706666, "train/reward_rate": 0.09615045362903225, "train_stats/mean_log_entropy": 0.5655269548296928, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0010579617228358984, "report/cont_loss_std": 0.033362358808517456, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 1.0680948495864868, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4915025531081483e-05, "report/cont_pred": 0.9996495246887207, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.4975240230560303, "report/dyn_loss_std": 6.292148590087891, "report/image_loss_mean": 1.1095428466796875, "report/image_loss_std": 0.9904175996780396, "report/model_loss_mean": 3.268040657043457, "report/model_loss_std": 4.367053031921387, "report/post_ent_mag": 65.74606323242188, "report/post_ent_max": 65.74606323242188, "report/post_ent_mean": 40.49610900878906, "report/post_ent_min": 9.280044555664062, "report/post_ent_std": 5.892971515655518, "report/prior_ent_mag": 85.65809631347656, "report/prior_ent_max": 85.65809631347656, "report/prior_ent_mean": 43.68355178833008, "report/prior_ent_min": 12.606760025024414, "report/prior_ent_std": 7.844944953918457, "report/rep_loss_mean": 3.4975240230560303, "report/rep_loss_std": 6.292148590087891, "report/reward_avg": 0.859375, "report/reward_loss_mean": 0.0589253306388855, "report/reward_loss_std": 0.23807094991207123, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.990997314453125, "report/reward_neg_acc": 0.9797224998474121, "report/reward_neg_loss": 0.0038094751071184874, "report/reward_pos_acc": 0.9885057210922241, "report/reward_pos_loss": 0.6525294184684753, "report/reward_pred": 0.805039644241333, "report/reward_rate": 0.0849609375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.006397471763193607, "eval/cont_loss_std": 0.14285506308078766, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.1296966075897217, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00028534073499031365, "eval/cont_pred": 0.999627947807312, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.13890266418457, "eval/dyn_loss_std": 9.564531326293945, "eval/image_loss_mean": 2.4546005725860596, "eval/image_loss_std": 2.3094561100006104, "eval/model_loss_mean": 8.254837036132812, "eval/model_loss_std": 7.607320785522461, "eval/post_ent_mag": 67.1383056640625, "eval/post_ent_max": 67.1383056640625, "eval/post_ent_mean": 41.63128662109375, "eval/post_ent_min": 12.641746520996094, "eval/post_ent_std": 5.053733825683594, "eval/prior_ent_mag": 85.65809631347656, "eval/prior_ent_max": 85.65809631347656, "eval/prior_ent_mean": 46.45075988769531, "eval/prior_ent_min": 25.423059463500977, "eval/prior_ent_std": 7.161067485809326, "eval/rep_loss_mean": 9.13890266418457, "eval/rep_loss_std": 9.564531326293945, "eval/reward_avg": 1.552734375, "eval/reward_loss_mean": 0.3104967772960663, "eval/reward_loss_std": 1.5725247859954834, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 498.1481628417969, "eval/reward_neg_acc": 0.9452953934669495, "eval/reward_neg_loss": 0.07280410826206207, "eval/reward_pos_acc": 0.8363636136054993, "eval/reward_pos_loss": 2.2855067253112793, "eval/reward_pred": 1.35103178024292, "eval/reward_rate": 0.107421875, "replay/size": 165475.0, "replay/inserts": 1547.0, "replay/samples": 24752.0, "replay/insert_wait_avg": 5.053487529890261e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3686143434964693e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7136335372924805e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.01120257377625, "timer/replay._sample_count": 24752.0, "timer/replay._sample_total": 400.4402017593384, "timer/replay._sample_frac": 1.3347508303822937, "timer/replay._sample_avg": 0.016178094770496865, "timer/replay._sample_min": 0.0004532337188720703, "timer/replay._sample_max": 0.03933072090148926, "timer/env.step_count": 1547.0, "timer/env.step_total": 6.778866291046143, "timer/env.step_frac": 0.022595377215552943, "timer/env.step_avg": 0.00438194330384366, "timer/env.step_min": 0.0024428367614746094, "timer/env.step_max": 0.03542757034301758, "timer/agent.policy_count": 1547.0, "timer/agent.policy_total": 111.02090072631836, "timer/agent.policy_frac": 0.37005585049450623, "timer/agent.policy_avg": 0.07176528812302414, "timer/agent.policy_min": 0.0028121471405029297, "timer/agent.policy_max": 0.0894773006439209, "timer/dataset_train_count": 1547.0, "timer/dataset_train_total": 0.15673446655273438, "timer/dataset_train_frac": 0.0005224287133551006, "timer/dataset_train_avg": 0.00010131510442969256, "timer/dataset_train_min": 6.151199340820312e-05, "timer/dataset_train_max": 0.00020360946655273438, "timer/agent.train_count": 1547.0, "timer/agent.train_total": 180.83849787712097, "timer/agent.train_frac": 0.6027724842463197, "timer/agent.train_avg": 0.11689624943576016, "timer/agent.train_min": 0.10361003875732422, "timer/agent.train_max": 0.20136547088623047, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26589298248291016, "timer/agent.report_frac": 0.0008862768463371763, "timer/agent.report_avg": 0.13294649124145508, "timer/agent.report_min": 0.10359382629394531, "timer/agent.report_max": 0.16229915618896484, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.6743621826171875e-05, "timer/dataset_eval_frac": 1.8913834329975713e-07, "timer/dataset_eval_avg": 5.6743621826171875e-05, "timer/dataset_eval_min": 5.6743621826171875e-05, "timer/dataset_eval_max": 5.6743621826171875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.624597209973857}
+{"step": 537868, "episode/length": 423.0, "episode/score": 1040.0, "episode/reward_rate": 0.12971698113207547}
+{"step": 539620, "episode/length": 437.0, "episode/score": 1040.0, "episode/reward_rate": 0.12557077625570776}
+{"step": 541208, "episode/length": 396.0, "episode/score": 1010.0, "episode/reward_rate": 0.1309823677581864}
+{"step": 542356, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.570636303393872, "train/action_min": 0.0, "train/action_std": 4.23859835599924, "train/actor_opt_grad_norm": 0.009008514536121353, "train/actor_opt_grad_steps": 133715.0, "train/actor_opt_loss": -0.00016757359934345387, "train/adv_mag": 0.8871958025477149, "train/adv_max": 0.8622457486661997, "train/adv_mean": 0.0020629145571086616, "train/adv_min": -0.5418546203669016, "train/adv_std": 0.04221349496200874, "train/cont_avg": 0.9981102881493507, "train/cont_loss_mean": 0.0006184173319947472, "train/cont_loss_std": 0.016212168588303124, "train/cont_neg_acc": 0.945952381832259, "train/cont_neg_loss": 0.19509721337946806, "train/cont_pos_acc": 0.9999173604822779, "train/cont_pos_loss": 0.0002132522899819663, "train/cont_pred": 0.9981236252691839, "train/cont_rate": 0.9981102881493507, "train/dyn_loss_mean": 2.8389493536639523, "train/dyn_loss_std": 5.984667347623156, "train/extr_critic_critic_opt_grad_norm": 1.4910490195472519, "train/extr_critic_critic_opt_grad_steps": 133715.0, "train/extr_critic_critic_opt_loss": 1.4797599300161584, "train/extr_critic_mag": 458.9487163989575, "train/extr_critic_max": 458.9487163989575, "train/extr_critic_mean": 224.58747635878527, "train/extr_critic_min": 0.0880069113396979, "train/extr_critic_std": 143.98649260285612, "train/extr_return_normed_mag": 1.4681896520899487, "train/extr_return_normed_max": 1.4681896520899487, "train/extr_return_normed_mean": 0.5328492748659927, "train/extr_return_normed_min": -0.01588443154015566, "train/extr_return_normed_std": 0.3540038758671129, "train/extr_return_rate": 0.9429087669818432, "train/extr_return_raw_mag": 609.4030686415636, "train/extr_return_raw_max": 609.4030686415636, "train/extr_return_raw_mean": 225.43470863243203, "train/extr_return_raw_min": 0.176175501271659, "train/extr_return_raw_std": 145.31799281727183, "train/extr_reward_mag": 326.3925526111157, "train/extr_reward_max": 326.3925526111157, "train/extr_reward_mean": 1.128735431603023, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.873459007832912, "train/image_loss_mean": 0.9081067744787638, "train/image_loss_std": 0.789558436189379, "train/model_loss_mean": 2.674562873778405, "train/model_loss_std": 4.102741143920205, "train/model_opt_grad_norm": 9.32084872815516, "train/model_opt_grad_steps": 133715.0, "train/model_opt_loss": 2.674562873778405, "train/policy_entropy_mag": 2.6353989731181753, "train/policy_entropy_max": 2.6353989731181753, "train/policy_entropy_mean": 0.70069740383656, "train/policy_entropy_min": 0.0801912151373826, "train/policy_entropy_std": 0.6620475092491547, "train/policy_logprob_mag": 7.495540913049277, "train/policy_logprob_max": -0.009489546082430071, "train/policy_logprob_mean": -0.6999753438807154, "train/policy_logprob_min": -7.495540913049277, "train/policy_logprob_std": 1.2003998168103107, "train/policy_randomness_mag": 0.9117854891659377, "train/policy_randomness_max": 0.9117854891659377, "train/policy_randomness_mean": 0.24242466939734175, "train/policy_randomness_min": 0.027744256988071002, "train/policy_randomness_std": 0.22905272303463578, "train/post_ent_mag": 63.91836733632273, "train/post_ent_max": 63.91836733632273, "train/post_ent_mean": 40.46174886629179, "train/post_ent_min": 11.350370258479924, "train/post_ent_std": 5.539113797150649, "train/prior_ent_mag": 85.4347755630295, "train/prior_ent_max": 85.4347755630295, "train/prior_ent_mean": 43.317815830181175, "train/prior_ent_min": 13.907425756578322, "train/prior_ent_std": 7.750807375102848, "train/rep_loss_mean": 2.8389493536639523, "train/rep_loss_std": 5.984667347623156, "train/reward_avg": 1.3141106939935066, "train/reward_loss_mean": 0.06246806852906555, "train/reward_loss_std": 0.2215775367501494, "train/reward_max_data": 261.5584415584416, "train/reward_max_pred": 218.5240694516665, "train/reward_neg_acc": 0.9836249409557937, "train/reward_neg_loss": 0.00512869135580969, "train/reward_pos_acc": 0.9961691022693336, "train/reward_pos_loss": 0.6102828979492188, "train/reward_pred": 1.201327770561367, "train/reward_rate": 0.09517045454545454, "train_stats/mean_log_entropy": 0.5545439223448435, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.5047578472149326e-06, "report/cont_loss_std": 2.969273555208929e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.000505303090903908, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0122863614014932e-06, "report/cont_pred": 0.9990229606628418, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.844665765762329, "report/dyn_loss_std": 6.198886394500732, "report/image_loss_mean": 0.9985476732254028, "report/image_loss_std": 0.7340095043182373, "report/model_loss_mean": 2.7397119998931885, "report/model_loss_std": 4.201289176940918, "report/post_ent_mag": 66.98870849609375, "report/post_ent_max": 66.98870849609375, "report/post_ent_mean": 40.98748779296875, "report/post_ent_min": 10.533506393432617, "report/post_ent_std": 5.746786117553711, "report/prior_ent_mag": 85.65858459472656, "report/prior_ent_max": 85.65858459472656, "report/prior_ent_mean": 44.029029846191406, "report/prior_ent_min": 13.865348815917969, "report/prior_ent_std": 7.631373882293701, "report/rep_loss_mean": 2.844665765762329, "report/rep_loss_std": 6.198886394500732, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.0343632847070694, "report/reward_loss_std": 0.1389436274766922, "report/reward_max_data": 500.0, "report/reward_max_pred": 497.39093017578125, "report/reward_neg_acc": 0.9886128306388855, "report/reward_neg_loss": 0.0018728352151811123, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5754972696304321, "report/reward_pred": 1.490217685699463, "report/reward_rate": 0.056640625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.004541098140180111, "eval/cont_loss_std": 0.10940473526716232, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.2092466354370117, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.001001317403279245, "eval/cont_pred": 0.9974399209022522, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.647180557250977, "eval/dyn_loss_std": 9.659070014953613, "eval/image_loss_mean": 2.402674674987793, "eval/image_loss_std": 2.37111496925354, "eval/model_loss_mean": 7.8044114112854, "eval/model_loss_std": 7.8033342361450195, "eval/post_ent_mag": 66.98870849609375, "eval/post_ent_max": 66.98870849609375, "eval/post_ent_mean": 40.82438659667969, "eval/post_ent_min": 19.0750789642334, "eval/post_ent_std": 4.820864677429199, "eval/prior_ent_mag": 85.65858459472656, "eval/prior_ent_max": 85.65858459472656, "eval/prior_ent_mean": 45.65755081176758, "eval/prior_ent_min": 22.041622161865234, "eval/prior_ent_std": 7.421983242034912, "eval/rep_loss_mean": 8.647180557250977, "eval/rep_loss_std": 9.659070014953613, "eval/reward_avg": 1.123046875, "eval/reward_loss_mean": 0.20888766646385193, "eval/reward_loss_std": 1.2360258102416992, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007591247558594, "eval/reward_neg_acc": 0.9581958055496216, "eval/reward_neg_loss": 0.014485348016023636, "eval/reward_pos_acc": 0.8956521153450012, "eval/reward_pos_loss": 1.7455114126205444, "eval/reward_pred": 0.9416691660881042, "eval/reward_rate": 0.1123046875, "replay/size": 167020.0, "replay/inserts": 1545.0, "replay/samples": 24720.0, "replay/insert_wait_avg": 4.926391404037722e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3236378388883226e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.296401023864746e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0636398792267, "timer/replay._sample_count": 24720.0, "timer/replay._sample_total": 387.2014853954315, "timer/replay._sample_frac": 1.290397882100201, "timer/replay._sample_avg": 0.01566349050952393, "timer/replay._sample_min": 0.00041747093200683594, "timer/replay._sample_max": 0.06626129150390625, "timer/env.step_count": 1545.0, "timer/env.step_total": 6.7641990184783936, "timer/env.step_frac": 0.0225425480448112, "timer/env.step_avg": 0.004378122342057212, "timer/env.step_min": 0.002416372299194336, "timer/env.step_max": 0.02996969223022461, "timer/agent.policy_count": 1545.0, "timer/agent.policy_total": 111.14163088798523, "timer/agent.policy_frac": 0.3703935302948364, "timer/agent.policy_avg": 0.0719363306718351, "timer/agent.policy_min": 0.0030755996704101562, "timer/agent.policy_max": 0.16033220291137695, "timer/dataset_train_count": 1545.0, "timer/dataset_train_total": 0.15488123893737793, "timer/dataset_train_frac": 0.0005161613016482652, "timer/dataset_train_avg": 0.00010024675659377212, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.00025582313537597656, "timer/agent.train_count": 1545.0, "timer/agent.train_total": 180.6863341331482, "timer/agent.train_frac": 0.6021600424692344, "timer/agent.train_avg": 0.11694908358132569, "timer/agent.train_min": 0.10345029830932617, "timer/agent.train_max": 0.27013087272644043, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2617156505584717, "timer/agent.report_frac": 0.000872200479417667, "timer/agent.report_avg": 0.13085782527923584, "timer/agent.report_min": 0.09519791603088379, "timer/agent.report_max": 0.1665177345275879, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.747245788574219e-05, "timer/dataset_eval_frac": 2.2486049263715968e-07, "timer/dataset_eval_avg": 6.747245788574219e-05, "timer/dataset_eval_min": 6.747245788574219e-05, "timer/dataset_eval_max": 6.747245788574219e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1595168113708496, "timer/agent.save_frac": 0.0005316099325964782, "timer/agent.save_avg": 0.1595168113708496, "timer/agent.save_min": 0.1595168113708496, "timer/agent.save_max": 0.1595168113708496, "fps": 20.594401828610213}
+{"step": 542860, "episode/length": 412.0, "episode/score": 1040.0, "episode/reward_rate": 0.13317191283292978}
+{"step": 544500, "episode/length": 409.0, "episode/score": 990.0, "episode/reward_rate": 0.12195121951219512}
+{"step": 546724, "episode/length": 555.0, "episode/score": 940.0, "episode/reward_rate": 0.08093525179856115}
+{"step": 548272, "episode/length": 386.0, "episode/score": 1000.0, "episode/reward_rate": 0.12919896640826872}
+{"step": 548552, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.524419969128024, "train/action_min": 0.0, "train/action_std": 4.277720060656147, "train/actor_opt_grad_norm": 0.008254830177212435, "train/actor_opt_grad_steps": 135260.0, "train/actor_opt_loss": -7.824605520234458e-05, "train/adv_mag": 0.8243430632737375, "train/adv_max": 0.7927468242183808, "train/adv_mean": 0.0018085982471670685, "train/adv_min": -0.5269006699323654, "train/adv_std": 0.038095113977549534, "train/cont_avg": 0.9982421875, "train/cont_loss_mean": 0.0004320617508504537, "train/cont_loss_std": 0.011358911416552602, "train/cont_neg_acc": 0.958333333625513, "train/cont_neg_loss": 0.11803388529020128, "train/cont_pos_acc": 0.9999305171351279, "train/cont_pos_loss": 0.00022430818617923487, "train/cont_pred": 0.9982007245863638, "train/cont_rate": 0.9982421875, "train/dyn_loss_mean": 2.8298411461614794, "train/dyn_loss_std": 5.984831363924088, "train/extr_critic_critic_opt_grad_norm": 1.4801022156592338, "train/extr_critic_critic_opt_grad_steps": 135260.0, "train/extr_critic_critic_opt_loss": 1.4819670807930732, "train/extr_critic_mag": 455.6148494597404, "train/extr_critic_max": 455.6148494597404, "train/extr_critic_mean": 217.52715483634702, "train/extr_critic_min": 0.784919088117538, "train/extr_critic_std": 144.08468426119896, "train/extr_return_normed_mag": 1.3786941059174076, "train/extr_return_normed_max": 1.3786941059174076, "train/extr_return_normed_mean": 0.5120687652018763, "train/extr_return_normed_min": -0.015946966475777088, "train/extr_return_normed_std": 0.35198589140369047, "train/extr_return_rate": 0.941199646457549, "train/extr_return_raw_mag": 575.2557816043977, "train/extr_return_raw_max": 575.2557816043977, "train/extr_return_raw_mean": 218.2721243581464, "train/extr_return_raw_min": 0.7838798598599462, "train/extr_return_raw_std": 144.98829591812625, "train/extr_reward_mag": 302.51098731256303, "train/extr_reward_max": 302.51098731256303, "train/extr_reward_mean": 1.0399606270174826, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.641585917626657, "train/image_loss_mean": 0.9248058311400875, "train/image_loss_std": 0.7920495617774225, "train/model_loss_mean": 2.6848666960193266, "train/model_loss_std": 4.106918011942217, "train/model_opt_grad_norm": 9.423611970101634, "train/model_opt_grad_steps": 135260.0, "train/model_opt_loss": 2.6848666960193266, "train/policy_entropy_mag": 2.6394137782435263, "train/policy_entropy_max": 2.6394137782435263, "train/policy_entropy_mean": 0.7119198818360606, "train/policy_entropy_min": 0.080191260912726, "train/policy_entropy_std": 0.6654272260204438, "train/policy_logprob_mag": 7.4955414772033695, "train/policy_logprob_max": -0.0094895392235729, "train/policy_logprob_mean": -0.7112885686659044, "train/policy_logprob_min": -7.4955414772033695, "train/policy_logprob_std": 1.202789383549844, "train/policy_randomness_mag": 0.9131745165394198, "train/policy_randomness_max": 0.9131745165394198, "train/policy_randomness_mean": 0.2463073815068891, "train/policy_randomness_min": 0.027744272831947574, "train/policy_randomness_std": 0.2302220252252394, "train/post_ent_mag": 64.1088125413464, "train/post_ent_max": 64.1088125413464, "train/post_ent_mean": 40.453686695714154, "train/post_ent_min": 11.668991941021334, "train/post_ent_std": 5.5473381842336345, "train/prior_ent_mag": 85.57192166236139, "train/prior_ent_max": 85.57192166236139, "train/prior_ent_mean": 43.31542717718309, "train/prior_ent_min": 14.164319038391113, "train/prior_ent_std": 7.732639448104366, "train/rep_loss_mean": 2.8298411461614794, "train/rep_loss_std": 5.984831363924088, "train/reward_avg": 1.2310987903225807, "train/reward_loss_mean": 0.06172411050046644, "train/reward_loss_std": 0.2227743516045232, "train/reward_max_data": 247.09677419354838, "train/reward_max_pred": 198.74986911281462, "train/reward_neg_acc": 0.983613557584824, "train/reward_neg_loss": 0.0054068872419696665, "train/reward_pos_acc": 0.9959489876224149, "train/reward_pos_loss": 0.6108390204368099, "train/reward_pred": 1.1283225617101116, "train/reward_rate": 0.09330267137096775, "train_stats/mean_log_entropy": 0.6333291381597519, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.8107826349478273e-07, "report/cont_loss_std": 2.5464319151069503e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.606890666356776e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.5577246870179806e-07, "report/cont_pred": 0.9990233182907104, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.839996337890625, "report/dyn_loss_std": 6.014777183532715, "report/image_loss_mean": 0.9660557508468628, "report/image_loss_std": 0.7958081960678101, "report/model_loss_mean": 2.7087278366088867, "report/model_loss_std": 4.057977676391602, "report/post_ent_mag": 63.28681945800781, "report/post_ent_max": 63.28681945800781, "report/post_ent_mean": 40.40770721435547, "report/post_ent_min": 11.067152976989746, "report/post_ent_std": 6.043416500091553, "report/prior_ent_mag": 85.77013397216797, "report/prior_ent_max": 85.77013397216797, "report/prior_ent_mean": 43.14668273925781, "report/prior_ent_min": 12.757515907287598, "report/prior_ent_std": 7.9459547996521, "report/rep_loss_mean": 2.839996337890625, "report/rep_loss_std": 6.014777183532715, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.038673680275678635, "report/reward_loss_std": 0.14728888869285583, "report/reward_max_data": 500.0, "report/reward_max_pred": 495.7462463378906, "report/reward_neg_acc": 0.9854319095611572, "report/reward_neg_loss": 0.003502779873088002, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5751695036888123, "report/reward_pred": 1.07706618309021, "report/reward_rate": 0.0615234375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01976640336215496, "eval/cont_loss_std": 0.4819476008415222, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.739558219909668, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1667336113750935e-05, "eval/cont_pred": 0.9989999532699585, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 6.971177101135254, "eval/dyn_loss_std": 9.221096992492676, "eval/image_loss_mean": 1.679643988609314, "eval/image_loss_std": 1.9971741437911987, "eval/model_loss_mean": 6.196059226989746, "eval/model_loss_std": 7.2073283195495605, "eval/post_ent_mag": 63.28681945800781, "eval/post_ent_max": 63.28681945800781, "eval/post_ent_mean": 39.993995666503906, "eval/post_ent_min": 9.510119438171387, "eval/post_ent_std": 5.472739219665527, "eval/prior_ent_mag": 85.77013397216797, "eval/prior_ent_max": 85.77013397216797, "eval/prior_ent_mean": 43.955772399902344, "eval/prior_ent_min": 12.100055694580078, "eval/prior_ent_std": 7.912930011749268, "eval/rep_loss_mean": 6.971177101135254, "eval/rep_loss_std": 9.221096992492676, "eval/reward_avg": 1.083984375, "eval/reward_loss_mean": 0.3139421343803406, "eval/reward_loss_std": 1.7738250494003296, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008322715759277, "eval/reward_neg_acc": 0.9627601504325867, "eval/reward_neg_loss": 0.02775670774281025, "eval/reward_pos_acc": 0.792792797088623, "eval/reward_pos_loss": 2.667881965637207, "eval/reward_pred": 0.7822318077087402, "eval/reward_rate": 0.1083984375, "replay/size": 168569.0, "replay/inserts": 1549.0, "replay/samples": 24784.0, "replay/insert_wait_avg": 4.926752936386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3212010197057656e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.817941665649414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.13150668144226, "timer/replay._sample_count": 24784.0, "timer/replay._sample_total": 386.6337938308716, "timer/replay._sample_frac": 1.2882146166721586, "timer/replay._sample_avg": 0.015600136936365057, "timer/replay._sample_min": 0.0005767345428466797, "timer/replay._sample_max": 0.0596623420715332, "timer/env.step_count": 1549.0, "timer/env.step_total": 6.76332688331604, "timer/env.step_frac": 0.02253454480037177, "timer/env.step_avg": 0.004366253636743731, "timer/env.step_min": 0.002390623092651367, "timer/env.step_max": 0.0312960147857666, "timer/agent.policy_count": 1549.0, "timer/agent.policy_total": 111.02845406532288, "timer/agent.policy_frac": 0.36993268481861785, "timer/agent.policy_avg": 0.07167750423842664, "timer/agent.policy_min": 0.003175020217895508, "timer/agent.policy_max": 0.0895242691040039, "timer/dataset_train_count": 1549.0, "timer/dataset_train_total": 0.15544795989990234, "timer/dataset_train_frac": 0.0005179328275751264, "timer/dataset_train_avg": 0.00010035375074235142, "timer/dataset_train_min": 5.7697296142578125e-05, "timer/dataset_train_max": 0.001169443130493164, "timer/agent.train_count": 1549.0, "timer/agent.train_total": 180.98829007148743, "timer/agent.train_frac": 0.6030299586760389, "timer/agent.train_avg": 0.11684202070464005, "timer/agent.train_min": 0.10349559783935547, "timer/agent.train_max": 0.2017374038696289, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25924229621887207, "timer/agent.report_frac": 0.0008637623523278755, "timer/agent.report_avg": 0.12962114810943604, "timer/agent.report_min": 0.09736394882202148, "timer/agent.report_max": 0.16187834739685059, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.078315734863281e-05, "timer/dataset_eval_frac": 1.6920302006991138e-07, "timer/dataset_eval_avg": 5.078315734863281e-05, "timer/dataset_eval_min": 5.078315734863281e-05, "timer/dataset_eval_max": 5.078315734863281e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.643130604259927}
+{"step": 549816, "episode/length": 385.0, "episode/score": 1010.0, "episode/reward_rate": 0.13471502590673576}
+{"step": 551392, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.12944162436548223}
+{"step": 552956, "episode/length": 390.0, "episode/score": 500.0, "episode/reward_rate": 0.1278772378516624}
+{"step": 554512, "episode/length": 388.0, "episode/score": 1010.0, "episode/reward_rate": 0.13367609254498714}
+{"step": 554744, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.629297662550403, "train/action_min": 0.0, "train/action_std": 4.2385633084081835, "train/actor_opt_grad_norm": 0.008347364136528585, "train/actor_opt_grad_steps": 136810.0, "train/actor_opt_loss": 2.5549652571410868e-05, "train/adv_mag": 0.8282620881834338, "train/adv_max": 0.7820058663045206, "train/adv_mean": 0.0021922167666425887, "train/adv_min": -0.5530232818857316, "train/adv_std": 0.0388866888539445, "train/cont_avg": 0.9981539818548387, "train/cont_loss_mean": 0.0004949739415884863, "train/cont_loss_std": 0.013048318334507609, "train/cont_neg_acc": 0.9474637689797775, "train/cont_neg_loss": 0.19097283186117428, "train/cont_pos_acc": 0.9999368321511053, "train/cont_pos_loss": 0.00019811933091312434, "train/cont_pred": 0.998146273628358, "train/cont_rate": 0.9981539818548387, "train/dyn_loss_mean": 2.8544283113171978, "train/dyn_loss_std": 5.9487061162148755, "train/extr_critic_critic_opt_grad_norm": 1.5066957708328002, "train/extr_critic_critic_opt_grad_steps": 136810.0, "train/extr_critic_critic_opt_loss": 1.483598602971723, "train/extr_critic_mag": 462.4238287156628, "train/extr_critic_max": 462.4238287156628, "train/extr_critic_mean": 223.3142552529612, "train/extr_critic_min": 0.4184259945346463, "train/extr_critic_std": 146.94248932869203, "train/extr_return_normed_mag": 1.4036422917919775, "train/extr_return_normed_max": 1.4036422917919775, "train/extr_return_normed_mean": 0.5230048427658697, "train/extr_return_normed_min": -0.01598745762340484, "train/extr_return_normed_std": 0.35626616054965604, "train/extr_return_rate": 0.9441583133512927, "train/extr_return_raw_mag": 589.8307367140247, "train/extr_return_raw_max": 589.8307367140247, "train/extr_return_raw_mean": 224.22450502457158, "train/extr_return_raw_min": 0.41448661882670657, "train/extr_return_raw_std": 147.92253767444242, "train/extr_reward_mag": 311.10055867472005, "train/extr_reward_max": 311.10055867472005, "train/extr_reward_mean": 1.1014258519295723, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.351955924495574, "train/image_loss_mean": 0.9168366912872561, "train/image_loss_std": 0.7955064819705102, "train/model_loss_mean": 2.6909055879039148, "train/model_loss_std": 4.085839396138345, "train/model_opt_grad_norm": 9.284371588307042, "train/model_opt_grad_steps": 136810.0, "train/model_opt_loss": 2.6909055879039148, "train/policy_entropy_mag": 2.6485708759677027, "train/policy_entropy_max": 2.6485708759677027, "train/policy_entropy_mean": 0.7043543136888935, "train/policy_entropy_min": 0.08019126187409124, "train/policy_entropy_std": 0.6622468886836883, "train/policy_logprob_mag": 7.495541129573699, "train/policy_logprob_max": -0.009489509475327307, "train/policy_logprob_mean": -0.7040828374124343, "train/policy_logprob_min": -7.495541129573699, "train/policy_logprob_std": 1.2003730697016561, "train/policy_randomness_mag": 0.9163426545358473, "train/policy_randomness_max": 0.9163426545358473, "train/policy_randomness_mean": 0.24368987285321758, "train/policy_randomness_min": 0.02774427310834008, "train/policy_randomness_std": 0.22912170425538095, "train/post_ent_mag": 64.47098521571006, "train/post_ent_max": 64.47098521571006, "train/post_ent_mean": 40.34063393377489, "train/post_ent_min": 11.288635312357256, "train/post_ent_std": 5.657245171454645, "train/prior_ent_mag": 85.48267556467364, "train/prior_ent_max": 85.48267556467364, "train/prior_ent_mean": 43.22035372334142, "train/prior_ent_min": 13.77777579522902, "train/prior_ent_std": 7.828258016032557, "train/rep_loss_mean": 2.8544283113171978, "train/rep_loss_std": 5.9487061162148755, "train/reward_avg": 1.2561113911290323, "train/reward_loss_mean": 0.06091692812981144, "train/reward_loss_std": 0.21185549478377066, "train/reward_max_data": 237.74193548387098, "train/reward_max_pred": 205.91049663174536, "train/reward_neg_acc": 0.9837615193859224, "train/reward_neg_loss": 0.00537646425974315, "train/reward_pos_acc": 0.9978054727277448, "train/reward_pos_loss": 0.5958127148689762, "train/reward_pred": 1.1731249482400956, "train/reward_rate": 0.09409652217741936, "train_stats/mean_log_entropy": 0.49960069358348846, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.835824362700805e-06, "report/cont_loss_std": 0.00018848870240617543, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003175107412971556, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.53311132939416e-06, "report/cont_pred": 0.999016284942627, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.990330696105957, "report/dyn_loss_std": 5.769729137420654, "report/image_loss_mean": 0.975397527217865, "report/image_loss_std": 0.7998998761177063, "report/model_loss_mean": 2.8204822540283203, "report/model_loss_std": 4.041445732116699, "report/post_ent_mag": 66.69134521484375, "report/post_ent_max": 66.69134521484375, "report/post_ent_mean": 40.783512115478516, "report/post_ent_min": 8.570542335510254, "report/post_ent_std": 6.206616401672363, "report/prior_ent_mag": 85.33364868164062, "report/prior_ent_max": 85.33364868164062, "report/prior_ent_mean": 43.81017303466797, "report/prior_ent_min": 10.710262298583984, "report/prior_ent_std": 8.096071243286133, "report/rep_loss_mean": 2.990330696105957, "report/rep_loss_std": 5.769729137420654, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.0508786141872406, "report/reward_loss_std": 0.23275165259838104, "report/reward_max_data": 500.0, "report/reward_max_pred": 460.6080017089844, "report/reward_neg_acc": 0.9822361469268799, "report/reward_neg_loss": 0.0073824129067361355, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.672160267829895, "report/reward_pred": 1.0555729866027832, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.011873890645802021, "eval/cont_loss_std": 0.3659886419773102, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.03043270111084, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.588868852006271e-05, "eval/cont_pred": 0.9992190003395081, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.364928245544434, "eval/dyn_loss_std": 11.216643333435059, "eval/image_loss_mean": 2.9596610069274902, "eval/image_loss_std": 2.642821788787842, "eval/model_loss_mean": 10.838089942932129, "eval/model_loss_std": 9.0842924118042, "eval/post_ent_mag": 64.1777114868164, "eval/post_ent_max": 64.1777114868164, "eval/post_ent_mean": 39.849037170410156, "eval/post_ent_min": 16.617013931274414, "eval/post_ent_std": 5.055892467498779, "eval/prior_ent_mag": 85.33364868164062, "eval/prior_ent_max": 85.33364868164062, "eval/prior_ent_mean": 45.28725051879883, "eval/prior_ent_min": 18.530132293701172, "eval/prior_ent_std": 7.984744071960449, "eval/rep_loss_mean": 12.364928245544434, "eval/rep_loss_std": 11.216643333435059, "eval/reward_avg": 1.484375, "eval/reward_loss_mean": 0.4475977420806885, "eval/reward_loss_std": 1.9708099365234375, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 10.007698059082031, "eval/reward_neg_acc": 0.9207383394241333, "eval/reward_neg_loss": 0.08119022846221924, "eval/reward_pos_acc": 0.6699029207229614, "eval/reward_pos_loss": 3.723921537399292, "eval/reward_pred": 0.7751047611236572, "eval/reward_rate": 0.1005859375, "replay/size": 170117.0, "replay/inserts": 1548.0, "replay/samples": 24768.0, "replay/insert_wait_avg": 4.863708210237883e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3547061487685803e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0273494720459, "timer/replay._sample_count": 24768.0, "timer/replay._sample_total": 393.9960243701935, "timer/replay._sample_frac": 1.3132003634452092, "timer/replay._sample_avg": 0.01590746222424877, "timer/replay._sample_min": 0.0004482269287109375, "timer/replay._sample_max": 0.04857182502746582, "timer/env.step_count": 1548.0, "timer/env.step_total": 6.775743246078491, "timer/env.step_frac": 0.022583751974617233, "timer/env.step_avg": 0.004377095120205744, "timer/env.step_min": 0.0022826194763183594, "timer/env.step_max": 0.03485274314880371, "timer/agent.policy_count": 1548.0, "timer/agent.policy_total": 111.20331764221191, "timer/agent.policy_frac": 0.3706439357541734, "timer/agent.policy_avg": 0.07183676850272087, "timer/agent.policy_min": 0.0029878616333007812, "timer/agent.policy_max": 0.08577227592468262, "timer/dataset_train_count": 1548.0, "timer/dataset_train_total": 0.15614795684814453, "timer/dataset_train_frac": 0.0005204457431061401, "timer/dataset_train_avg": 0.0001008707731577161, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002276897430419922, "timer/agent.train_count": 1548.0, "timer/agent.train_total": 180.67340087890625, "timer/agent.train_frac": 0.6021897710219912, "timer/agent.train_avg": 0.11671408325510739, "timer/agent.train_min": 0.10384249687194824, "timer/agent.train_max": 0.20777153968811035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25762152671813965, "timer/agent.report_frac": 0.0008586601427218978, "timer/agent.report_avg": 0.12881076335906982, "timer/agent.report_min": 0.09596967697143555, "timer/agent.report_max": 0.1616518497467041, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.341934204101562e-05, "timer/dataset_eval_frac": 2.1137853649880183e-07, "timer/dataset_eval_avg": 6.341934204101562e-05, "timer/dataset_eval_min": 6.341934204101562e-05, "timer/dataset_eval_max": 6.341934204101562e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.636890422166154}
+{"step": 556188, "episode/length": 418.0, "episode/score": 1040.0, "episode/reward_rate": 0.13126491646778043}
+{"step": 557968, "episode/length": 444.0, "episode/score": 1070.0, "episode/reward_rate": 0.1303370786516854}
+{"step": 559520, "episode/length": 387.0, "episode/score": 500.0, "episode/reward_rate": 0.12886597938144329}
+{"step": 560928, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.43102082283266, "train/action_min": 0.0, "train/action_std": 4.256174224422824, "train/actor_opt_grad_norm": 0.009313737162418904, "train/actor_opt_grad_steps": 138360.0, "train/actor_opt_loss": -4.22308324393652e-05, "train/adv_mag": 0.8971579966045196, "train/adv_max": 0.8688922368711041, "train/adv_mean": 0.0023134408395215416, "train/adv_min": -0.5713256476386901, "train/adv_std": 0.043803988649479805, "train/cont_avg": 0.9981539818548387, "train/cont_loss_mean": 0.0004503395410235263, "train/cont_loss_std": 0.012118242459832411, "train/cont_neg_acc": 0.9128676477600547, "train/cont_neg_loss": 0.21255054458468148, "train/cont_pos_acc": 0.9999557941190658, "train/cont_pos_loss": 0.00016515313272876163, "train/cont_pred": 0.9981814007605275, "train/cont_rate": 0.9981539818548387, "train/dyn_loss_mean": 2.814077369628414, "train/dyn_loss_std": 6.038288827096262, "train/extr_critic_critic_opt_grad_norm": 1.5031581794061968, "train/extr_critic_critic_opt_grad_steps": 138360.0, "train/extr_critic_critic_opt_loss": 1.4446290116156302, "train/extr_critic_mag": 466.3120804325227, "train/extr_critic_max": 466.3120804325227, "train/extr_critic_mean": 228.982330125378, "train/extr_critic_min": 0.40361740742960284, "train/extr_critic_std": 146.7298287668536, "train/extr_return_normed_mag": 1.5182635053511588, "train/extr_return_normed_max": 1.5182635053511588, "train/extr_return_normed_mean": 0.5297183609777881, "train/extr_return_normed_min": -0.018223278699142316, "train/extr_return_normed_std": 0.3540553908194265, "train/extr_return_rate": 0.9471245446512776, "train/extr_return_raw_mag": 643.8912709882183, "train/extr_return_raw_max": 643.8912709882183, "train/extr_return_raw_mean": 229.9510028469947, "train/extr_return_raw_min": 0.5956537070667236, "train/extr_return_raw_std": 148.21002856839087, "train/extr_reward_mag": 355.39112525447723, "train/extr_reward_max": 355.39112525447723, "train/extr_reward_mean": 1.1659153449919917, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.08641291126128, "train/image_loss_mean": 0.9048500449426713, "train/image_loss_std": 0.7957262542939956, "train/model_loss_mean": 2.654132407711398, "train/model_loss_std": 4.137717814599314, "train/model_opt_grad_norm": 9.110830267014043, "train/model_opt_grad_steps": 138360.0, "train/model_opt_loss": 2.654132407711398, "train/policy_entropy_mag": 2.643903584634104, "train/policy_entropy_max": 2.643903584634104, "train/policy_entropy_mean": 0.7033059381669567, "train/policy_entropy_min": 0.08019129042663882, "train/policy_entropy_std": 0.6617185185032506, "train/policy_logprob_mag": 7.495541286468506, "train/policy_logprob_max": -0.009489522441740958, "train/policy_logprob_mean": -0.7050360918045044, "train/policy_logprob_min": -7.495541286468506, "train/policy_logprob_std": 1.203313757527259, "train/policy_randomness_mag": 0.9147278820314715, "train/policy_randomness_max": 0.9147278820314715, "train/policy_randomness_mean": 0.243327159074045, "train/policy_randomness_min": 0.027744283058470296, "train/policy_randomness_std": 0.22893890113599838, "train/post_ent_mag": 64.3380842639554, "train/post_ent_max": 64.3380842639554, "train/post_ent_mean": 40.17369086973129, "train/post_ent_min": 11.050009287557295, "train/post_ent_std": 5.647691735913677, "train/prior_ent_mag": 85.48150767664755, "train/prior_ent_max": 85.48150767664755, "train/prior_ent_mean": 43.01866238501764, "train/prior_ent_min": 13.594467969094554, "train/prior_ent_std": 7.843377239473404, "train/rep_loss_mean": 2.814077369628414, "train/rep_loss_std": 6.038288827096262, "train/reward_avg": 1.3575478830645162, "train/reward_loss_mean": 0.06038558377373603, "train/reward_loss_std": 0.21606320979133728, "train/reward_max_data": 306.7096774193548, "train/reward_max_pred": 244.01655126387072, "train/reward_neg_acc": 0.9846203188742361, "train/reward_neg_loss": 0.004804274934389057, "train/reward_pos_acc": 0.9963121056556702, "train/reward_pos_loss": 0.6059024972300375, "train/reward_pred": 1.2241127006469235, "train/reward_rate": 0.09265372983870968, "train_stats/mean_log_entropy": 0.5847525199254354, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00013979212963022292, "report/cont_loss_std": 0.0030322407837957144, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00663788802921772, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001270757056772709, "report/cont_pred": 0.9979374408721924, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.436537742614746, "report/dyn_loss_std": 5.660854339599609, "report/image_loss_mean": 0.7420558929443359, "report/image_loss_std": 0.735646665096283, "report/model_loss_mean": 2.2713799476623535, "report/model_loss_std": 3.832223415374756, "report/post_ent_mag": 63.15690612792969, "report/post_ent_max": 63.15690612792969, "report/post_ent_mean": 40.91716003417969, "report/post_ent_min": 18.079238891601562, "report/post_ent_std": 5.247657299041748, "report/prior_ent_mag": 85.42079162597656, "report/prior_ent_max": 85.42079162597656, "report/prior_ent_mean": 43.493431091308594, "report/prior_ent_min": 21.982418060302734, "report/prior_ent_std": 7.57152795791626, "report/rep_loss_mean": 2.436537742614746, "report/rep_loss_std": 5.660854339599609, "report/reward_avg": 1.201171875, "report/reward_loss_mean": 0.06726193428039551, "report/reward_loss_std": 0.18036560714244843, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.992267608642578, "report/reward_neg_acc": 0.9878048896789551, "report/reward_neg_loss": 0.002973780268803239, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5425726771354675, "report/reward_pred": 1.1970558166503906, "report/reward_rate": 0.119140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002294521313160658, "eval/cont_loss_std": 0.07335594296455383, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.3485381603240967, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0278130275764852e-06, "eval/cont_pred": 0.9999057054519653, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.915779113769531, "eval/dyn_loss_std": 10.650845527648926, "eval/image_loss_mean": 2.684208869934082, "eval/image_loss_std": 2.700484275817871, "eval/model_loss_mean": 9.462434768676758, "eval/model_loss_std": 8.778715133666992, "eval/post_ent_mag": 61.954246520996094, "eval/post_ent_max": 61.954246520996094, "eval/post_ent_mean": 41.21324157714844, "eval/post_ent_min": 13.006675720214844, "eval/post_ent_std": 5.739012718200684, "eval/prior_ent_mag": 85.42079162597656, "eval/prior_ent_max": 85.42079162597656, "eval/prior_ent_mean": 45.704185485839844, "eval/prior_ent_min": 13.891134262084961, "eval/prior_ent_std": 7.827920913696289, "eval/rep_loss_mean": 10.915779113769531, "eval/rep_loss_std": 10.650845527648926, "eval/reward_avg": 2.060546875, "eval/reward_loss_mean": 0.22646445035934448, "eval/reward_loss_std": 1.501918077468872, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 493.75677490234375, "eval/reward_neg_acc": 0.9645833969116211, "eval/reward_neg_loss": 0.037287335842847824, "eval/reward_pos_acc": 0.796875, "eval/reward_pos_loss": 3.0641212463378906, "eval/reward_pred": 1.3606146574020386, "eval/reward_rate": 0.0625, "replay/size": 171663.0, "replay/inserts": 1546.0, "replay/samples": 24736.0, "replay/insert_wait_avg": 4.843474976612402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3240346779027546e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0378506183624, "timer/replay._sample_count": 24736.0, "timer/replay._sample_total": 384.1103308200836, "timer/replay._sample_frac": 1.280206247406626, "timer/replay._sample_avg": 0.01552839306355448, "timer/replay._sample_min": 0.0005500316619873047, "timer/replay._sample_max": 0.05403494834899902, "timer/env.step_count": 1546.0, "timer/env.step_total": 6.7296977043151855, "timer/env.step_frac": 0.022429495780101172, "timer/env.step_avg": 0.004352973935520818, "timer/env.step_min": 0.0024118423461914062, "timer/env.step_max": 0.032654523849487305, "timer/agent.policy_count": 1546.0, "timer/agent.policy_total": 111.26019358634949, "timer/agent.policy_frac": 0.37082052600046295, "timer/agent.policy_avg": 0.07196649002998026, "timer/agent.policy_min": 0.0031599998474121094, "timer/agent.policy_max": 0.1580183506011963, "timer/dataset_train_count": 1546.0, "timer/dataset_train_total": 0.15524864196777344, "timer/dataset_train_frac": 0.0005174301897171109, "timer/dataset_train_avg": 0.00010041956142805527, "timer/dataset_train_min": 6.0558319091796875e-05, "timer/dataset_train_max": 0.0002205371856689453, "timer/agent.train_count": 1546.0, "timer/agent.train_total": 180.704003572464, "timer/agent.train_frac": 0.6022706908479795, "timer/agent.train_avg": 0.1168848664763674, "timer/agent.train_min": 0.1011970043182373, "timer/agent.train_max": 0.29716062545776367, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26190185546875, "timer/agent.report_frac": 0.0008728960527112959, "timer/agent.report_avg": 0.130950927734375, "timer/agent.report_min": 0.09985756874084473, "timer/agent.report_max": 0.16204428672790527, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.580352783203125e-05, "timer/dataset_eval_frac": 2.1931742177333157e-07, "timer/dataset_eval_avg": 6.580352783203125e-05, "timer/dataset_eval_min": 6.580352783203125e-05, "timer/dataset_eval_max": 6.580352783203125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10111498832702637, "timer/agent.save_frac": 0.000337007441289936, "timer/agent.save_avg": 0.10111498832702637, "timer/agent.save_min": 0.10111498832702637, "timer/agent.save_max": 0.10111498832702637, "fps": 20.60955263408318}
+{"step": 561080, "episode/length": 389.0, "episode/score": 1010.0, "episode/reward_rate": 0.13333333333333333}
+{"step": 562848, "episode/length": 441.0, "episode/score": 1040.0, "episode/reward_rate": 0.1244343891402715}
+{"step": 564548, "episode/length": 424.0, "episode/score": 1040.0, "episode/reward_rate": 0.12941176470588237}
+{"step": 566100, "episode/length": 387.0, "episode/score": 1010.0, "episode/reward_rate": 0.13402061855670103}
+{"step": 567132, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.522559381300404, "train/action_min": 0.0, "train/action_std": 4.227317708538425, "train/actor_opt_grad_norm": 0.008463122456845256, "train/actor_opt_grad_steps": 139910.0, "train/actor_opt_loss": 1.4658649375163686e-06, "train/adv_mag": 0.8528635449947849, "train/adv_max": 0.8123363416041097, "train/adv_mean": 0.002315948921058143, "train/adv_min": -0.579356286698772, "train/adv_std": 0.040249421423481355, "train/cont_avg": 0.9980972782258064, "train/cont_loss_mean": 0.00045598347997699356, "train/cont_loss_std": 0.010837416919065769, "train/cont_neg_acc": 0.9617647059700069, "train/cont_neg_loss": 0.12212650976693235, "train/cont_pos_acc": 0.9999305548206452, "train/cont_pos_loss": 0.00023362501851504472, "train/cont_pred": 0.9980682157701062, "train/cont_rate": 0.9980972782258064, "train/dyn_loss_mean": 2.7785945477024203, "train/dyn_loss_std": 5.932648987923899, "train/extr_critic_critic_opt_grad_norm": 1.422500116594376, "train/extr_critic_critic_opt_grad_steps": 139910.0, "train/extr_critic_critic_opt_loss": 1.3830561914751607, "train/extr_critic_mag": 469.0593220372354, "train/extr_critic_max": 469.0593220372354, "train/extr_critic_mean": 237.85013757521105, "train/extr_critic_min": 0.7140764236450196, "train/extr_critic_std": 148.71937757922757, "train/extr_return_normed_mag": 1.4366167310745486, "train/extr_return_normed_max": 1.4366167310745486, "train/extr_return_normed_mean": 0.5448670196917749, "train/extr_return_normed_min": -0.016438910022618308, "train/extr_return_normed_std": 0.3536101188390486, "train/extr_return_rate": 0.9434488892555237, "train/extr_return_raw_mag": 617.0955611690398, "train/extr_return_raw_max": 617.0955611690398, "train/extr_return_raw_mean": 238.8325208110194, "train/extr_return_raw_min": 0.6119843403776383, "train/extr_return_raw_std": 150.0643780123803, "train/extr_reward_mag": 311.83043650350265, "train/extr_reward_max": 311.83043650350265, "train/extr_reward_mean": 1.1663522902996308, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.25676943256009, "train/image_loss_mean": 0.8741518824331223, "train/image_loss_std": 0.7667463940958823, "train/model_loss_mean": 2.6042200211555726, "train/model_loss_std": 4.059353150090864, "train/model_opt_grad_norm": 9.534470776588686, "train/model_opt_grad_steps": 139910.0, "train/model_opt_loss": 2.6042200211555726, "train/policy_entropy_mag": 2.6509131523870653, "train/policy_entropy_max": 2.6509131523870653, "train/policy_entropy_mean": 0.7013166931367689, "train/policy_entropy_min": 0.0801913358992146, "train/policy_entropy_std": 0.6612198356659181, "train/policy_logprob_mag": 7.495541111115487, "train/policy_logprob_max": -0.009489512521653407, "train/policy_logprob_mean": -0.7008662973680804, "train/policy_logprob_min": -7.495541111115487, "train/policy_logprob_std": 1.1965566135221912, "train/policy_randomness_mag": 0.9171530269807385, "train/policy_randomness_max": 0.9171530269807385, "train/policy_randomness_mean": 0.24263892856336408, "train/policy_randomness_min": 0.02774429872872368, "train/policy_randomness_std": 0.22876636760850105, "train/post_ent_mag": 64.49232433688256, "train/post_ent_max": 64.49232433688256, "train/post_ent_mean": 40.22441147835024, "train/post_ent_min": 10.932606866282802, "train/post_ent_std": 5.71536477304274, "train/prior_ent_mag": 85.55191172938193, "train/prior_ent_max": 85.55191172938193, "train/prior_ent_mean": 43.02766706405147, "train/prior_ent_min": 13.553074043027816, "train/prior_ent_std": 7.906899852137411, "train/rep_loss_mean": 2.7785945477024203, "train/rep_loss_std": 5.932648987923899, "train/reward_avg": 1.2826990927419355, "train/reward_loss_mean": 0.06245543825770578, "train/reward_loss_std": 0.218338972810776, "train/reward_max_data": 247.2258064516129, "train/reward_max_pred": 224.0798059278919, "train/reward_neg_acc": 0.9847473640595713, "train/reward_neg_loss": 0.0049564712260278965, "train/reward_pos_acc": 0.9961844644238872, "train/reward_pos_loss": 0.6031666928722013, "train/reward_pred": 1.2156243191611382, "train/reward_rate": 0.09634576612903226, "train_stats/mean_log_entropy": 0.5788671523332596, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.7290991308982484e-05, "report/cont_loss_std": 0.0003137681633234024, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0005560701247304678, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6764324755058624e-05, "report/cont_pred": 0.9990072846412659, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.732835054397583, "report/dyn_loss_std": 5.817767143249512, "report/image_loss_mean": 0.8805837035179138, "report/image_loss_std": 0.8106783628463745, "report/model_loss_mean": 2.5787158012390137, "report/model_loss_std": 3.9937856197357178, "report/post_ent_mag": 63.50186538696289, "report/post_ent_max": 63.50186538696289, "report/post_ent_mean": 39.77324295043945, "report/post_ent_min": 11.33822250366211, "report/post_ent_std": 5.602456569671631, "report/prior_ent_mag": 85.44088745117188, "report/prior_ent_max": 85.44088745117188, "report/prior_ent_mean": 42.7337646484375, "report/prior_ent_min": 13.87458610534668, "report/prior_ent_std": 7.708364963531494, "report/rep_loss_mean": 2.732835054397583, "report/rep_loss_std": 5.817767143249512, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.0584135577082634, "report/reward_loss_std": 0.19230253994464874, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.2074890136719, "report/reward_neg_acc": 0.9892124533653259, "report/reward_neg_loss": 0.002796729328110814, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5899270176887512, "report/reward_pred": 1.399657130241394, "report/reward_rate": 0.0947265625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.101942367526703e-10, "eval/cont_loss_std": 4.278708054528124e-09, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.101942367526703e-10, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 7.590677261352539, "eval/dyn_loss_std": 10.430801391601562, "eval/image_loss_mean": 1.794440507888794, "eval/image_loss_std": 2.2057130336761475, "eval/model_loss_mean": 6.6363630294799805, "eval/model_loss_std": 8.625200271606445, "eval/post_ent_mag": 58.87184143066406, "eval/post_ent_max": 58.87184143066406, "eval/post_ent_mean": 40.02444076538086, "eval/post_ent_min": 10.730945587158203, "eval/post_ent_std": 6.292339324951172, "eval/prior_ent_mag": 85.44088745117188, "eval/prior_ent_max": 85.44088745117188, "eval/prior_ent_mean": 44.38425064086914, "eval/prior_ent_min": 19.822040557861328, "eval/prior_ent_std": 8.092750549316406, "eval/rep_loss_mean": 7.590677261352539, "eval/rep_loss_std": 10.430801391601562, "eval/reward_avg": 2.294921875, "eval/reward_loss_mean": 0.2875162363052368, "eval/reward_loss_std": 1.9271997213363647, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 497.68023681640625, "eval/reward_neg_acc": 0.9679828882217407, "eval/reward_neg_loss": 0.03825719654560089, "eval/reward_pos_acc": 0.8160919547080994, "eval/reward_pos_loss": 2.972064733505249, "eval/reward_pred": 2.063326358795166, "eval/reward_rate": 0.0849609375, "replay/size": 173214.0, "replay/inserts": 1551.0, "replay/samples": 24816.0, "replay/insert_wait_avg": 4.6357118568445005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345687263016544e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1267466545105, "timer/replay._sample_count": 24816.0, "timer/replay._sample_total": 397.0985677242279, "timer/replay._sample_frac": 1.3231028961952067, "timer/replay._sample_avg": 0.016001715333826078, "timer/replay._sample_min": 0.0005288124084472656, "timer/replay._sample_max": 0.05028271675109863, "timer/env.step_count": 1551.0, "timer/env.step_total": 6.779414653778076, "timer/env.step_frac": 0.022588505454271185, "timer/env.step_avg": 0.004370995908303079, "timer/env.step_min": 0.0021834373474121094, "timer/env.step_max": 0.03385448455810547, "timer/agent.policy_count": 1551.0, "timer/agent.policy_total": 112.20250701904297, "timer/agent.policy_frac": 0.37385040910134, "timer/agent.policy_avg": 0.07234204192072403, "timer/agent.policy_min": 0.0031404495239257812, "timer/agent.policy_max": 0.08474850654602051, "timer/dataset_train_count": 1551.0, "timer/dataset_train_total": 0.15115928649902344, "timer/dataset_train_frac": 0.0005036515011873625, "timer/dataset_train_avg": 9.745924339073078e-05, "timer/dataset_train_min": 4.9591064453125e-05, "timer/dataset_train_max": 0.00023221969604492188, "timer/agent.train_count": 1551.0, "timer/agent.train_total": 179.8019506931305, "timer/agent.train_frac": 0.599086728181906, "timer/agent.train_avg": 0.11592646724250838, "timer/agent.train_min": 0.1003577709197998, "timer/agent.train_max": 0.2014479637145996, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2670421600341797, "timer/agent.report_frac": 0.0008897646178185646, "timer/agent.report_avg": 0.13352108001708984, "timer/agent.report_min": 0.10311484336853027, "timer/agent.report_max": 0.16392731666564941, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.38690185546875e-05, "timer/dataset_eval_frac": 1.4616830736911e-07, "timer/dataset_eval_avg": 4.38690185546875e-05, "timer/dataset_eval_min": 4.38690185546875e-05, "timer/dataset_eval_max": 4.38690185546875e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.670147746569636}
+{"step": 567656, "episode/length": 388.0, "episode/score": 1010.0, "episode/reward_rate": 0.13367609254498714}
+{"step": 569192, "episode/length": 383.0, "episode/score": 1010.0, "episode/reward_rate": 0.13541666666666666}
+{"step": 570768, "episode/length": 393.0, "episode/score": 1010.0, "episode/reward_rate": 0.1319796954314721}
+{"step": 572384, "episode/length": 403.0, "episode/score": 1000.0, "episode/reward_rate": 0.12376237623762376}
+{"step": 573340, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.49245369203629, "train/action_min": 0.0, "train/action_std": 4.252911229287425, "train/actor_opt_grad_norm": 0.00888071960108655, "train/actor_opt_grad_steps": 141460.0, "train/actor_opt_loss": 6.81238217251326e-05, "train/adv_mag": 0.8032347458024178, "train/adv_max": 0.7608393446091682, "train/adv_mean": 0.0023170836176734976, "train/adv_min": -0.5759858454427411, "train/adv_std": 0.0391242416395295, "train/cont_avg": 0.9981350806451613, "train/cont_loss_mean": 0.00046326417811489253, "train/cont_loss_std": 0.012129790313511534, "train/cont_neg_acc": 0.9519900506112113, "train/cont_neg_loss": 0.13145021559646702, "train/cont_pos_acc": 0.9999494302657342, "train/cont_pos_loss": 0.00021388112058440625, "train/cont_pred": 0.9981240814731968, "train/cont_rate": 0.9981350806451613, "train/dyn_loss_mean": 2.81670650359123, "train/dyn_loss_std": 6.0197634266268825, "train/extr_critic_critic_opt_grad_norm": 1.461587756679904, "train/extr_critic_critic_opt_grad_steps": 141460.0, "train/extr_critic_critic_opt_loss": 1.38480236722577, "train/extr_critic_mag": 471.9542990407636, "train/extr_critic_max": 471.9542990407636, "train/extr_critic_mean": 240.06158919795868, "train/extr_critic_min": 0.2118902391003024, "train/extr_critic_std": 150.1031726960213, "train/extr_return_normed_mag": 1.4000536499484892, "train/extr_return_normed_max": 1.4000536499484892, "train/extr_return_normed_mean": 0.5444299647884984, "train/extr_return_normed_min": -0.018502044627412912, "train/extr_return_normed_std": 0.3537426594764956, "train/extr_return_rate": 0.9446300045136482, "train/extr_return_raw_mag": 607.1060729980469, "train/extr_return_raw_max": 607.1060729980469, "train/extr_return_raw_mean": 241.0528134253717, "train/extr_return_raw_min": 0.26636456185698343, "train/extr_return_raw_std": 151.3008593159337, "train/extr_reward_mag": 301.84224712617936, "train/extr_reward_max": 301.84224712617936, "train/extr_reward_mean": 1.1357327753497708, "train/extr_reward_min": 0.0, "train/extr_reward_std": 8.7125399251138, "train/image_loss_mean": 0.8981354794194621, "train/image_loss_std": 0.7836579876561318, "train/model_loss_mean": 2.6503770512919274, "train/model_loss_std": 4.123357063724149, "train/model_opt_grad_norm": 9.04110793452109, "train/model_opt_grad_steps": 141460.0, "train/model_opt_loss": 2.6503770512919274, "train/policy_entropy_mag": 2.676191883702432, "train/policy_entropy_max": 2.676191883702432, "train/policy_entropy_mean": 0.6980487198598924, "train/policy_entropy_min": 0.08019128701379222, "train/policy_entropy_std": 0.6723537277790808, "train/policy_logprob_mag": 7.495541480279738, "train/policy_logprob_max": -0.0094895392235729, "train/policy_logprob_mean": -0.6975781396512062, "train/policy_logprob_min": -7.495541480279738, "train/policy_logprob_std": 1.1936180007073187, "train/policy_randomness_mag": 0.9258988680378083, "train/policy_randomness_max": 0.9258988680378083, "train/policy_randomness_mean": 0.2415082859416162, "train/policy_randomness_min": 0.027744281820712553, "train/policy_randomness_std": 0.23261843044911662, "train/post_ent_mag": 64.05552080215946, "train/post_ent_max": 64.05552080215946, "train/post_ent_mean": 40.11238376248267, "train/post_ent_min": 10.724203743473176, "train/post_ent_std": 5.564268493652344, "train/prior_ent_mag": 85.57256779824534, "train/prior_ent_max": 85.57256779824534, "train/prior_ent_mean": 42.95568382509293, "train/prior_ent_min": 13.072426202220301, "train/prior_ent_std": 7.8047973786630935, "train/rep_loss_mean": 2.81670650359123, "train/rep_loss_std": 6.0197634266268825, "train/reward_avg": 1.2472908266129032, "train/reward_loss_mean": 0.06175439095785541, "train/reward_loss_std": 0.2170449775072836, "train/reward_max_data": 234.96774193548387, "train/reward_max_pred": 192.97781048436318, "train/reward_neg_acc": 0.9848945198520538, "train/reward_neg_loss": 0.005014600030957691, "train/reward_pos_acc": 0.9968411810936466, "train/reward_pos_loss": 0.6004012680822803, "train/reward_pred": 1.1641299201596167, "train/reward_rate": 0.09553931451612903, "train_stats/mean_log_entropy": 0.5428801774978638, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00011924693535547704, "report/cont_loss_std": 0.002076268196105957, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.452839519013651e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00011932975030504167, "report/cont_pred": 0.9989063739776611, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4278602600097656, "report/dyn_loss_std": 5.622130870819092, "report/image_loss_mean": 0.6532862186431885, "report/image_loss_std": 0.5661038160324097, "report/model_loss_mean": 2.1681227684020996, "report/model_loss_std": 3.6814615726470947, "report/post_ent_mag": 65.86893463134766, "report/post_ent_max": 65.86893463134766, "report/post_ent_mean": 41.54779052734375, "report/post_ent_min": 12.769685745239258, "report/post_ent_std": 5.810888290405273, "report/prior_ent_mag": 85.43775177001953, "report/prior_ent_max": 85.43775177001953, "report/prior_ent_mean": 44.088775634765625, "report/prior_ent_min": 13.715690612792969, "report/prior_ent_std": 7.658426761627197, "report/rep_loss_mean": 2.4278602600097656, "report/rep_loss_std": 5.622130870819092, "report/reward_avg": 1.40625, "report/reward_loss_mean": 0.05800117552280426, "report/reward_loss_std": 0.205339252948761, "report/reward_max_data": 500.0, "report/reward_max_pred": 496.662109375, "report/reward_neg_acc": 0.9838535785675049, "report/reward_neg_loss": 0.0031035002321004868, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5948426723480225, "report/reward_pred": 1.3793085813522339, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.752871180040529e-06, "eval/cont_loss_std": 8.455922215944156e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.752871180040529e-06, "eval/cont_pred": 0.9999962449073792, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 7.927306175231934, "eval/dyn_loss_std": 9.590767860412598, "eval/image_loss_mean": 1.7596228122711182, "eval/image_loss_std": 2.0531070232391357, "eval/model_loss_mean": 6.720088958740234, "eval/model_loss_std": 7.475980758666992, "eval/post_ent_mag": 63.11636734008789, "eval/post_ent_max": 63.11636734008789, "eval/post_ent_mean": 40.053443908691406, "eval/post_ent_min": 9.865046501159668, "eval/post_ent_std": 5.770777702331543, "eval/prior_ent_mag": 85.43775177001953, "eval/prior_ent_max": 85.43775177001953, "eval/prior_ent_mean": 43.5408935546875, "eval/prior_ent_min": 10.39450740814209, "eval/prior_ent_std": 8.119527816772461, "eval/rep_loss_mean": 7.927306175231934, "eval/rep_loss_std": 9.590767860412598, "eval/reward_avg": 1.337890625, "eval/reward_loss_mean": 0.20407867431640625, "eval/reward_loss_std": 1.4285567998886108, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 19.993167877197266, "eval/reward_neg_acc": 0.9712153673171997, "eval/reward_neg_loss": 0.055245377123355865, "eval/reward_pos_acc": 0.895348846912384, "eval/reward_pos_loss": 1.8273999691009521, "eval/reward_pred": 0.8141106963157654, "eval/reward_rate": 0.083984375, "replay/size": 174766.0, "replay/inserts": 1552.0, "replay/samples": 24832.0, "replay/insert_wait_avg": 4.472499041213203e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3628321670994317e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05760407447815, "timer/replay._sample_count": 24832.0, "timer/replay._sample_total": 405.0960645675659, "timer/replay._sample_frac": 1.350060985180085, "timer/replay._sample_avg": 0.01631346909502118, "timer/replay._sample_min": 0.0006539821624755859, "timer/replay._sample_max": 0.05440664291381836, "timer/env.step_count": 1552.0, "timer/env.step_total": 6.6748480796813965, "timer/env.step_frac": 0.0222452222141473, "timer/env.step_avg": 0.004300804175052447, "timer/env.step_min": 0.002202749252319336, "timer/env.step_max": 0.03193521499633789, "timer/agent.policy_count": 1552.0, "timer/agent.policy_total": 113.13924670219421, "timer/agent.policy_frac": 0.37705842200256856, "timer/agent.policy_avg": 0.07289899916378494, "timer/agent.policy_min": 0.002847433090209961, "timer/agent.policy_max": 0.08716249465942383, "timer/dataset_train_count": 1552.0, "timer/dataset_train_total": 0.14707016944885254, "timer/dataset_train_frac": 0.0004901397846673062, "timer/dataset_train_avg": 9.476170711910602e-05, "timer/dataset_train_min": 5.054473876953125e-05, "timer/dataset_train_max": 0.00030112266540527344, "timer/agent.train_count": 1552.0, "timer/agent.train_total": 178.8918333053589, "timer/agent.train_frac": 0.5961916341268779, "timer/agent.train_avg": 0.11526535651118484, "timer/agent.train_min": 0.10068631172180176, "timer/agent.train_max": 0.879737138748169, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26407861709594727, "timer/agent.report_frac": 0.0008800930671645287, "timer/agent.report_avg": 0.13203930854797363, "timer/agent.report_min": 0.10101890563964844, "timer/agent.report_max": 0.16305971145629883, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.956390380859375e-05, "timer/dataset_eval_frac": 9.852742742442085e-08, "timer/dataset_eval_avg": 2.956390380859375e-05, "timer/dataset_eval_min": 2.956390380859375e-05, "timer/dataset_eval_max": 2.956390380859375e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.688039193703005}
+{"step": 573964, "episode/length": 394.0, "episode/score": 990.0, "episode/reward_rate": 0.12658227848101267}
+{"step": 575580, "episode/length": 403.0, "episode/score": 460.0, "episode/reward_rate": 0.11386138613861387}
+{"step": 577156, "episode/length": 393.0, "episode/score": 1000.0, "episode/reward_rate": 0.12944162436548223}
+{"step": 578704, "episode/length": 386.0, "episode/score": 980.0, "episode/reward_rate": 0.12661498708010335}
+{"step": 579564, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.531478490584936, "train/action_min": 0.0, "train/action_std": 4.2684035652723065, "train/actor_opt_grad_norm": 0.008523196114812238, "train/actor_opt_grad_steps": 143015.0, "train/actor_opt_loss": -0.00021712334116786317, "train/adv_mag": 0.8303434268977398, "train/adv_max": 0.7939136055990671, "train/adv_mean": 0.0020137655642545912, "train/adv_min": -0.5559367717076571, "train/adv_std": 0.04143243212587176, "train/cont_avg": 0.9981720753205128, "train/cont_loss_mean": 0.00026956051913240006, "train/cont_loss_std": 0.007067020221457941, "train/cont_neg_acc": 0.9651851857150042, "train/cont_neg_loss": 0.07068921886675483, "train/cont_pos_acc": 0.9999748926896316, "train/cont_pos_loss": 0.00012910837229203795, "train/cont_pred": 0.9981547510012602, "train/cont_rate": 0.9981720753205128, "train/dyn_loss_mean": 2.8222725207989035, "train/dyn_loss_std": 5.983276932667463, "train/extr_critic_critic_opt_grad_norm": 1.4726249266129274, "train/extr_critic_critic_opt_grad_steps": 143015.0, "train/extr_critic_critic_opt_loss": 1.4011947474418542, "train/extr_critic_mag": 469.56989112267127, "train/extr_critic_max": 469.56989112267127, "train/extr_critic_mean": 236.7553097651555, "train/extr_critic_min": 0.34835940370192897, "train/extr_critic_std": 151.97351274734888, "train/extr_return_normed_mag": 1.4494484387911284, "train/extr_return_normed_max": 1.4494484387911284, "train/extr_return_normed_mean": 0.5350301831196516, "train/extr_return_normed_min": -0.017089337838861424, "train/extr_return_normed_std": 0.35656874292553997, "train/extr_return_rate": 0.9414847539021418, "train/extr_return_raw_mag": 630.4733620668069, "train/extr_return_raw_max": 630.4733620668069, "train/extr_return_raw_mean": 237.62077458699545, "train/extr_return_raw_min": 0.37946189856395507, "train/extr_return_raw_std": 153.21002299969012, "train/extr_reward_mag": 320.88054728507996, "train/extr_reward_max": 320.88054728507996, "train/extr_reward_mean": 1.1873581929084582, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.714384318926395, "train/image_loss_mean": 0.8968186195080097, "train/image_loss_std": 0.7787636889097018, "train/model_loss_mean": 2.652490605146457, "train/model_loss_std": 4.098202094053611, "train/model_opt_grad_norm": 9.56079379411844, "train/model_opt_grad_steps": 143015.0, "train/model_opt_loss": 2.652490605146457, "train/policy_entropy_mag": 2.694159066065764, "train/policy_entropy_max": 2.694159066065764, "train/policy_entropy_mean": 0.7118781176515114, "train/policy_entropy_min": 0.08019122605522473, "train/policy_entropy_std": 0.6817706066828507, "train/policy_logprob_mag": 7.495541367775354, "train/policy_logprob_max": -0.009489530195983557, "train/policy_logprob_mean": -0.7127600883444151, "train/policy_logprob_min": -7.495541367775354, "train/policy_logprob_std": 1.202292187855794, "train/policy_randomness_mag": 0.9321150867602764, "train/policy_randomness_max": 0.9321150867602764, "train/policy_randomness_mean": 0.24629293143367156, "train/policy_randomness_min": 0.027744260736000843, "train/policy_randomness_std": 0.235876447115189, "train/post_ent_mag": 63.96662734105037, "train/post_ent_max": 63.96662734105037, "train/post_ent_mean": 40.18090172303029, "train/post_ent_min": 11.577051401138306, "train/post_ent_std": 5.554796267778445, "train/prior_ent_mag": 85.49149068196614, "train/prior_ent_max": 85.49149068196614, "train/prior_ent_mean": 43.015160536154724, "train/prior_ent_min": 13.98099124737275, "train/prior_ent_std": 7.785457406288538, "train/rep_loss_mean": 2.8222725207989035, "train/rep_loss_std": 5.983276932667463, "train/reward_avg": 1.328563201121795, "train/reward_loss_mean": 0.062038908330484845, "train/reward_loss_std": 0.22050710710195395, "train/reward_max_data": 292.37179487179486, "train/reward_max_pred": 254.35949016228702, "train/reward_neg_acc": 0.9843280349786465, "train/reward_neg_loss": 0.004935693181603431, "train/reward_pos_acc": 0.9958893381632291, "train/reward_pos_loss": 0.6057316118325943, "train/reward_pred": 1.2412686726221671, "train/reward_rate": 0.09531500400641026, "train_stats/mean_log_entropy": 0.5983697026968002, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.0011187964119017124, "report/cont_loss_std": 0.02204696461558342, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0359494686126709, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.000982205499894917, "report/cont_pred": 0.9954389333724976, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.6856229305267334, "report/dyn_loss_std": 6.072021484375, "report/image_loss_mean": 0.7647577524185181, "report/image_loss_std": 0.7984117865562439, "report/model_loss_mean": 2.4455976486206055, "report/model_loss_std": 4.146334648132324, "report/post_ent_mag": 64.7384033203125, "report/post_ent_max": 64.7384033203125, "report/post_ent_mean": 38.76435089111328, "report/post_ent_min": 9.437649726867676, "report/post_ent_std": 6.711664199829102, "report/prior_ent_mag": 85.4190444946289, "report/prior_ent_max": 85.4190444946289, "report/prior_ent_mean": 41.484275817871094, "report/prior_ent_min": 13.267634391784668, "report/prior_ent_std": 8.877897262573242, "report/rep_loss_mean": 2.6856229305267334, "report/rep_loss_std": 6.072021484375, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.06834729015827179, "report/reward_loss_std": 0.2491627186536789, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.9340515136719, "report/reward_neg_acc": 0.9869281053543091, "report/reward_neg_loss": 0.004892796743661165, "report/reward_pos_acc": 0.990566074848175, "report/reward_pos_loss": 0.6178871393203735, "report/reward_pred": 1.4914264678955078, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.024359870702028275, "eval/cont_loss_std": 0.46464523673057556, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.313261032104492, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.629503109754296e-06, "eval/cont_pred": 0.9999903440475464, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.590311050415039, "eval/dyn_loss_std": 11.705463409423828, "eval/image_loss_mean": 2.4857845306396484, "eval/image_loss_std": 2.6905336380004883, "eval/model_loss_mean": 9.245092391967773, "eval/model_loss_std": 9.517420768737793, "eval/post_ent_mag": 66.80845642089844, "eval/post_ent_max": 66.80845642089844, "eval/post_ent_mean": 40.71915817260742, "eval/post_ent_min": 9.966093063354492, "eval/post_ent_std": 5.194430351257324, "eval/prior_ent_mag": 85.4190444946289, "eval/prior_ent_max": 85.4190444946289, "eval/prior_ent_mean": 45.08018493652344, "eval/prior_ent_min": 20.914405822753906, "eval/prior_ent_std": 7.703454494476318, "eval/rep_loss_mean": 10.590311050415039, "eval/rep_loss_std": 11.705463409423828, "eval/reward_avg": 2.0703125, "eval/reward_loss_mean": 0.3807612955570221, "eval/reward_loss_std": 1.8821791410446167, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 500.21697998046875, "eval/reward_neg_acc": 0.9593406915664673, "eval/reward_neg_loss": 0.04264719411730766, "eval/reward_pos_acc": 0.7368420958518982, "eval/reward_pos_loss": 3.079742431640625, "eval/reward_pred": 1.3336901664733887, "eval/reward_rate": 0.111328125, "replay/size": 176322.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.566267400903383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3322174395877475e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0462589263916, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 400.4303569793701, "timer/replay._sample_frac": 1.3345620719024032, "timer/replay._sample_avg": 0.01608412423599655, "timer/replay._sample_min": 0.0006899833679199219, "timer/replay._sample_max": 0.043929338455200195, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.682205438613892, "timer/env.step_frac": 0.022270584084346786, "timer/env.step_avg": 0.004294476502965226, "timer/env.step_min": 0.0014574527740478516, "timer/env.step_max": 0.03255009651184082, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.95733189582825, "timer/agent.policy_frac": 0.3797992093072044, "timer/agent.policy_avg": 0.07323735983022381, "timer/agent.policy_min": 0.003153085708618164, "timer/agent.policy_max": 0.26274752616882324, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.1464524269104004, "timer/dataset_train_frac": 0.0004880994931729131, "timer/dataset_train_avg": 9.41210969861185e-05, "timer/dataset_train_min": 5.2928924560546875e-05, "timer/dataset_train_max": 0.00021123886108398438, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.09351444244385, "timer/agent.train_frac": 0.5935535243121773, "timer/agent.train_avg": 0.11445598614552946, "timer/agent.train_min": 0.10027956962585449, "timer/agent.train_max": 0.20258307456970215, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2618408203125, "timer/agent.report_frac": 0.0008726681720658804, "timer/agent.report_avg": 0.13092041015625, "timer/agent.report_min": 0.09835171699523926, "timer/agent.report_max": 0.16348910331726074, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.435943603515625e-05, "timer/dataset_eval_frac": 1.8117018432311764e-07, "timer/dataset_eval_avg": 5.435943603515625e-05, "timer/dataset_eval_min": 5.435943603515625e-05, "timer/dataset_eval_max": 5.435943603515625e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09466886520385742, "timer/agent.save_frac": 0.0003155142328472821, "timer/agent.save_avg": 0.09466886520385742, "timer/agent.save_min": 0.09466886520385742, "timer/agent.save_max": 0.09466886520385742, "fps": 20.74248398467191}
+{"step": 580184, "episode/length": 369.0, "episode/score": 900.0, "episode/reward_rate": 0.11081081081081082}
+{"step": 581732, "episode/length": 386.0, "episode/score": 1010.0, "episode/reward_rate": 0.13178294573643412}
+{"step": 583268, "episode/length": 383.0, "episode/score": 990.0, "episode/reward_rate": 0.13020833333333334}
+{"step": 585080, "episode/length": 452.0, "episode/score": 510.0, "episode/reward_rate": 0.11037527593818984}
+{"step": 585788, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.67638648248488, "train/action_min": 0.0, "train/action_std": 4.258477517097227, "train/actor_opt_grad_norm": 0.008190843327752044, "train/actor_opt_grad_steps": 144570.0, "train/actor_opt_loss": -0.00026699847739139167, "train/adv_mag": 0.8279578357934951, "train/adv_max": 0.801055440595073, "train/adv_mean": 0.0020596254305635213, "train/adv_min": -0.5522132015035999, "train/adv_std": 0.03990067813184953, "train/cont_avg": 0.9981728830645161, "train/cont_loss_mean": 0.0005382761819835113, "train/cont_loss_std": 0.014435520429706486, "train/cont_neg_acc": 0.9568627456970075, "train/cont_neg_loss": 0.1291471098214057, "train/cont_pos_acc": 0.9999052609166791, "train/cont_pos_loss": 0.00024169545763401762, "train/cont_pred": 0.9981498029924208, "train/cont_rate": 0.9981728830645161, "train/dyn_loss_mean": 2.7933974865944156, "train/dyn_loss_std": 5.974839044386341, "train/extr_critic_critic_opt_grad_norm": 1.4984840500739314, "train/extr_critic_critic_opt_grad_steps": 144570.0, "train/extr_critic_critic_opt_loss": 1.3751177364780056, "train/extr_critic_mag": 473.39091619676157, "train/extr_critic_max": 473.39091619676157, "train/extr_critic_mean": 236.8392600767074, "train/extr_critic_min": 0.12004563577713505, "train/extr_critic_std": 153.69822377850932, "train/extr_return_normed_mag": 1.3823480429187898, "train/extr_return_normed_max": 1.3823480429187898, "train/extr_return_normed_mean": 0.5320813550103095, "train/extr_return_normed_min": -0.016748003397257096, "train/extr_return_normed_std": 0.35768582109482056, "train/extr_return_rate": 0.9396636078434606, "train/extr_return_raw_mag": 605.7458698887979, "train/extr_return_raw_max": 605.7458698887979, "train/extr_return_raw_mean": 237.73057782573085, "train/extr_return_raw_min": 0.16313782590892045, "train/extr_return_raw_std": 154.8367859871157, "train/extr_reward_mag": 327.3736192026446, "train/extr_reward_max": 327.3736192026446, "train/extr_reward_mean": 1.1694113831366262, "train/extr_reward_min": 0.0, "train/extr_reward_std": 9.581548709254111, "train/image_loss_mean": 0.8822754340787088, "train/image_loss_std": 0.7664637719431231, "train/model_loss_mean": 2.619543633922454, "train/model_loss_std": 4.0799379964028635, "train/model_opt_grad_norm": 9.46882224852039, "train/model_opt_grad_steps": 144570.0, "train/model_opt_loss": 2.619543633922454, "train/policy_entropy_mag": 2.7128380052505, "train/policy_entropy_max": 2.7128380052505, "train/policy_entropy_mean": 0.7154909587675525, "train/policy_entropy_min": 0.08019121861265552, "train/policy_entropy_std": 0.6873559855645702, "train/policy_logprob_mag": 7.495541701778289, "train/policy_logprob_max": -0.00948953694033046, "train/policy_logprob_mean": -0.7152917456242346, "train/policy_logprob_min": -7.495541701778289, "train/policy_logprob_std": 1.2020563017937445, "train/policy_randomness_mag": 0.9385775543028309, "train/policy_randomness_max": 0.9385775543028309, "train/policy_randomness_mean": 0.24754288984883216, "train/policy_randomness_min": 0.02774425811104236, "train/policy_randomness_std": 0.2378088556951092, "train/post_ent_mag": 64.42236938476563, "train/post_ent_max": 64.42236938476563, "train/post_ent_mean": 40.09486475298482, "train/post_ent_min": 10.971583458685107, "train/post_ent_std": 5.642177311066658, "train/prior_ent_mag": 85.48163053451046, "train/prior_ent_max": 85.48163053451046, "train/prior_ent_mean": 42.90939503331338, "train/prior_ent_min": 13.124764922357375, "train/prior_ent_std": 7.859725226125409, "train/rep_loss_mean": 2.7933974865944156, "train/rep_loss_std": 5.974839044386341, "train/reward_avg": 1.3355594758064515, "train/reward_loss_mean": 0.06069142808837275, "train/reward_loss_std": 0.20929769200663412, "train/reward_max_data": 278.06451612903226, "train/reward_max_pred": 229.83175912672473, "train/reward_neg_acc": 0.9853792194397218, "train/reward_neg_loss": 0.004809015407978046, "train/reward_pos_acc": 0.9974758551966759, "train/reward_pos_loss": 0.594960823751265, "train/reward_pred": 1.221291188270815, "train/reward_rate": 0.09478326612903226, "train_stats/mean_log_entropy": 0.5963603109121323, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.1959062905807514e-06, "report/cont_loss_std": 3.9093185478122905e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.5282648493885063e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.173338543798309e-06, "report/cont_pred": 0.9990212917327881, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.541783332824707, "report/dyn_loss_std": 5.781337261199951, "report/image_loss_mean": 0.7176253795623779, "report/image_loss_std": 0.6868672966957092, "report/model_loss_mean": 2.306434392929077, "report/model_loss_std": 3.944887399673462, "report/post_ent_mag": 64.87156677246094, "report/post_ent_max": 64.87156677246094, "report/post_ent_mean": 41.0252799987793, "report/post_ent_min": 13.699472427368164, "report/post_ent_std": 5.695637226104736, "report/prior_ent_mag": 85.80474853515625, "report/prior_ent_max": 85.80474853515625, "report/prior_ent_mean": 43.41014862060547, "report/prior_ent_min": 13.932944297790527, "report/prior_ent_std": 7.927798271179199, "report/rep_loss_mean": 2.541783332824707, "report/rep_loss_std": 5.781337261199951, "report/reward_avg": 1.474609375, "report/reward_loss_mean": 0.0637366846203804, "report/reward_loss_std": 0.22188273072242737, "report/reward_max_data": 500.0, "report/reward_max_pred": 495.7575988769531, "report/reward_neg_acc": 0.9869989156723022, "report/reward_neg_loss": 0.0031567784026265144, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6173530220985413, "report/reward_pred": 1.4264814853668213, "report/reward_rate": 0.0986328125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0233401320874691, "eval/cont_loss_std": 0.4769412577152252, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.881988525390625, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0002490993938408792, "eval/cont_pred": 0.9997532367706299, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.964237213134766, "eval/dyn_loss_std": 10.119269371032715, "eval/image_loss_mean": 1.9826977252960205, "eval/image_loss_std": 1.9769270420074463, "eval/model_loss_mean": 7.90155029296875, "eval/model_loss_std": 7.962370872497559, "eval/post_ent_mag": 63.816925048828125, "eval/post_ent_max": 63.816925048828125, "eval/post_ent_mean": 40.22188186645508, "eval/post_ent_min": 8.965988159179688, "eval/post_ent_std": 5.737738132476807, "eval/prior_ent_mag": 85.80474853515625, "eval/prior_ent_max": 85.80474853515625, "eval/prior_ent_mean": 44.9569206237793, "eval/prior_ent_min": 10.109262466430664, "eval/prior_ent_std": 8.476109504699707, "eval/rep_loss_mean": 8.964237213134766, "eval/rep_loss_std": 10.119269371032715, "eval/reward_avg": 2.08984375, "eval/reward_loss_mean": 0.5169702768325806, "eval/reward_loss_std": 2.292407989501953, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.1898498535156, "eval/reward_neg_acc": 0.9383259415626526, "eval/reward_neg_loss": 0.08143828809261322, "eval/reward_pos_acc": 0.6896551847457886, "eval/reward_pos_loss": 3.9261348247528076, "eval/reward_pred": 1.2784702777862549, "eval/reward_rate": 0.11328125, "replay/size": 177878.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.386227664113964e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3728700290915285e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14612460136414, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 408.03497314453125, "timer/replay._sample_frac": 1.3594544113686575, "timer/replay._sample_avg": 0.016389579576820825, "timer/replay._sample_min": 0.0006878376007080078, "timer/replay._sample_max": 0.05563759803771973, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.638769149780273, "timer/env.step_frac": 0.02211845699689604, "timer/env.step_avg": 0.004266561150244392, "timer/env.step_min": 0.002095460891723633, "timer/env.step_max": 0.03268861770629883, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.85652422904968, "timer/agent.policy_frac": 0.3793369792139312, "timer/agent.policy_avg": 0.07317257341198566, "timer/agent.policy_min": 0.002810239791870117, "timer/agent.policy_max": 0.08797669410705566, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.15003418922424316, "timer/dataset_train_frac": 0.0004998704861623966, "timer/dataset_train_avg": 9.642300078678867e-05, "timer/dataset_train_min": 5.173683166503906e-05, "timer/dataset_train_max": 0.00020241737365722656, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.34747052192688, "timer/agent.train_frac": 0.5942021432353897, "timer/agent.train_avg": 0.11461919699352627, "timer/agent.train_min": 0.10051107406616211, "timer/agent.train_max": 0.20162749290466309, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2619178295135498, "timer/agent.report_frac": 0.000872634387205276, "timer/agent.report_avg": 0.1309589147567749, "timer/agent.report_min": 0.10012626647949219, "timer/agent.report_max": 0.16179156303405762, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.033348083496094e-05, "timer/dataset_eval_frac": 2.34330797801816e-07, "timer/dataset_eval_avg": 7.033348083496094e-05, "timer/dataset_eval_min": 7.033348083496094e-05, "timer/dataset_eval_max": 7.033348083496094e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.73513010536844}
+{"step": 586592, "episode/length": 377.0, "episode/score": 970.0, "episode/reward_rate": 0.12698412698412698}
+{"step": 588308, "episode/length": 428.0, "episode/score": 520.0, "episode/reward_rate": 0.11888111888111888}
+{"step": 589908, "episode/length": 399.0, "episode/score": 1010.0, "episode/reward_rate": 0.13}
+{"step": 591516, "episode/length": 401.0, "episode/score": 1010.0, "episode/reward_rate": 0.12935323383084577}
+{"step": 592012, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.598531478490585, "train/action_min": 0.0, "train/action_std": 4.288714190324147, "train/actor_opt_grad_norm": 0.00884146500343027, "train/actor_opt_grad_steps": 146125.0, "train/actor_opt_loss": -1.4703496407701796e-05, "train/adv_mag": 0.9112789848676095, "train/adv_max": 0.878114804912072, "train/adv_mean": 0.0024664113695554335, "train/adv_min": -0.5665715320561177, "train/adv_std": 0.0428981254211603, "train/cont_avg": 0.9981658153044872, "train/cont_loss_mean": 0.00040496759523163856, "train/cont_loss_std": 0.01040006851270832, "train/cont_neg_acc": 0.9428395068203962, "train/cont_neg_loss": 0.1329615670775015, "train/cont_pos_acc": 0.9999372168229177, "train/cont_pos_loss": 0.00015259936738413847, "train/cont_pred": 0.998166201206354, "train/cont_rate": 0.9981658153044872, "train/dyn_loss_mean": 2.7711227169403663, "train/dyn_loss_std": 5.967305259826856, "train/extr_critic_critic_opt_grad_norm": 1.496478489194161, "train/extr_critic_critic_opt_grad_steps": 146125.0, "train/extr_critic_critic_opt_loss": 1.370509236286848, "train/extr_critic_mag": 479.05677501971905, "train/extr_critic_max": 479.05677501971905, "train/extr_critic_mean": 236.60135914729193, "train/extr_critic_min": 0.2470400448028858, "train/extr_critic_std": 154.16822428581042, "train/extr_return_normed_mag": 1.49367482539935, "train/extr_return_normed_max": 1.49367482539935, "train/extr_return_normed_mean": 0.5319993589551021, "train/extr_return_normed_min": -0.016296636140069518, "train/extr_return_normed_std": 0.35961043414397115, "train/extr_return_rate": 0.9396927215349979, "train/extr_return_raw_mag": 654.275746467786, "train/extr_return_raw_max": 654.275746467786, "train/extr_return_raw_mean": 237.66982494256436, "train/extr_return_raw_min": 0.20540075628266025, "train/extr_return_raw_std": 155.7585451175005, "train/extr_reward_mag": 361.0062338755681, "train/extr_reward_max": 361.0062338755681, "train/extr_reward_mean": 1.228173081500408, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.58055647672751, "train/image_loss_mean": 0.8717162876557081, "train/image_loss_std": 0.7766437041453826, "train/model_loss_mean": 2.5959485387190795, "train/model_loss_std": 4.087073535491259, "train/model_opt_grad_norm": 9.521804393866123, "train/model_opt_grad_steps": 146125.0, "train/model_opt_loss": 2.5959485387190795, "train/policy_entropy_mag": 2.7222297894649015, "train/policy_entropy_max": 2.7222297894649015, "train/policy_entropy_mean": 0.7267097773460242, "train/policy_entropy_min": 0.08019125595306739, "train/policy_entropy_std": 0.696877156312649, "train/policy_logprob_mag": 7.495541655100309, "train/policy_logprob_max": -0.009489543073309155, "train/policy_logprob_mean": -0.7278012524430568, "train/policy_logprob_min": -7.495541655100309, "train/policy_logprob_std": 1.2092827268135853, "train/policy_randomness_mag": 0.9418268899122874, "train/policy_randomness_max": 0.9418268899122874, "train/policy_randomness_mean": 0.25142433245976764, "train/policy_randomness_min": 0.027744271099949494, "train/policy_randomness_std": 0.24110295422948325, "train/post_ent_mag": 64.2790075937907, "train/post_ent_max": 64.2790075937907, "train/post_ent_mean": 40.05283974378537, "train/post_ent_min": 11.383715932185833, "train/post_ent_std": 5.682564934094747, "train/prior_ent_mag": 85.5586810967861, "train/prior_ent_max": 85.5586810967861, "train/prior_ent_mean": 42.85448619646904, "train/prior_ent_min": 13.456200984808115, "train/prior_ent_std": 7.887025298216404, "train/rep_loss_mean": 2.7711227169403663, "train/rep_loss_std": 5.967305259826856, "train/reward_avg": 1.3835887419871795, "train/reward_loss_mean": 0.061153664659613215, "train/reward_loss_std": 0.2174031701989663, "train/reward_max_data": 304.7435897435897, "train/reward_max_pred": 269.32925728651196, "train/reward_neg_acc": 0.9860881716012955, "train/reward_neg_loss": 0.00425548164639622, "train/reward_pos_acc": 0.9959393063416848, "train/reward_pos_loss": 0.604934784464347, "train/reward_pred": 1.2835979434924247, "train/reward_rate": 0.09525866386217949, "train_stats/mean_log_entropy": 0.5944947749376297, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.0030068440828472376, "report/cont_loss_std": 0.08404777944087982, "report/cont_neg_acc": 0.75, "report/cont_neg_loss": 0.7692869901657104, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 1.823996740313305e-06, "report/cont_pred": 0.9973394870758057, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.457202434539795, "report/dyn_loss_std": 5.805233478546143, "report/image_loss_mean": 0.6822742819786072, "report/image_loss_std": 0.6721416115760803, "report/model_loss_mean": 2.2291905879974365, "report/model_loss_std": 3.9261693954467773, "report/post_ent_mag": 66.38172912597656, "report/post_ent_max": 66.38172912597656, "report/post_ent_mean": 39.173240661621094, "report/post_ent_min": 10.183300018310547, "report/post_ent_std": 6.1062822341918945, "report/prior_ent_mag": 85.90655517578125, "report/prior_ent_max": 85.90655517578125, "report/prior_ent_mean": 41.64582824707031, "report/prior_ent_min": 11.899201393127441, "report/prior_ent_std": 8.539728164672852, "report/rep_loss_mean": 2.457202434539795, "report/rep_loss_std": 5.805233478546143, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.06958799064159393, "report/reward_loss_std": 0.21278589963912964, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.01159954071045, "report/reward_neg_acc": 0.9944629073143005, "report/reward_neg_loss": 0.0008577867411077023, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5825083255767822, "report/reward_pred": 1.1449816226959229, "report/reward_rate": 0.1181640625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.018765494227409363, "eval/cont_loss_std": 0.6001884937286377, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 19.215417861938477, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.386222940411244e-07, "eval/cont_pred": 0.9999995827674866, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.099044799804688, "eval/dyn_loss_std": 10.735466957092285, "eval/image_loss_mean": 2.9161877632141113, "eval/image_loss_std": 2.6713945865631104, "eval/model_loss_mean": 10.692239761352539, "eval/model_loss_std": 9.063482284545898, "eval/post_ent_mag": 65.98933410644531, "eval/post_ent_max": 65.98933410644531, "eval/post_ent_mean": 40.649322509765625, "eval/post_ent_min": 15.96289348602295, "eval/post_ent_std": 5.111268520355225, "eval/prior_ent_mag": 85.90655517578125, "eval/prior_ent_max": 85.90655517578125, "eval/prior_ent_mean": 45.591712951660156, "eval/prior_ent_min": 21.385597229003906, "eval/prior_ent_std": 7.405174255371094, "eval/rep_loss_mean": 12.099044799804688, "eval/rep_loss_std": 10.735466957092285, "eval/reward_avg": 1.38671875, "eval/reward_loss_mean": 0.49786022305488586, "eval/reward_loss_std": 2.4850926399230957, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 489.84033203125, "eval/reward_neg_acc": 0.9527390003204346, "eval/reward_neg_loss": 0.08151399344205856, "eval/reward_pos_acc": 0.6774193644523621, "eval/reward_pos_loss": 4.665799140930176, "eval/reward_pred": 1.1459403038024902, "eval/reward_rate": 0.0908203125, "replay/size": 179434.0, "replay/inserts": 1556.0, "replay/samples": 24896.0, "replay/insert_wait_avg": 4.350066491448174e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3607843829304516e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0926856994629, "timer/replay._sample_count": 24896.0, "timer/replay._sample_total": 407.08164644241333, "timer/replay._sample_frac": 1.3565197215439562, "timer/replay._sample_avg": 0.016351287212500537, "timer/replay._sample_min": 0.0006639957427978516, "timer/replay._sample_max": 0.0472102165222168, "timer/env.step_count": 1556.0, "timer/env.step_total": 6.689467191696167, "timer/env.step_frac": 0.02229133701177756, "timer/env.step_avg": 0.004299143439393424, "timer/env.step_min": 0.0017099380493164062, "timer/env.step_max": 0.02827143669128418, "timer/agent.policy_count": 1556.0, "timer/agent.policy_total": 113.78116178512573, "timer/agent.policy_frac": 0.3791533989571322, "timer/agent.policy_avg": 0.07312413996473376, "timer/agent.policy_min": 0.0029990673065185547, "timer/agent.policy_max": 0.08800530433654785, "timer/dataset_train_count": 1556.0, "timer/dataset_train_total": 0.14841151237487793, "timer/dataset_train_frac": 0.0004945522481794482, "timer/dataset_train_avg": 9.538014934118118e-05, "timer/dataset_train_min": 5.030632019042969e-05, "timer/dataset_train_max": 0.00021266937255859375, "timer/agent.train_count": 1556.0, "timer/agent.train_total": 178.30675673484802, "timer/agent.train_frac": 0.5941722848700779, "timer/agent.train_avg": 0.11459303132059642, "timer/agent.train_min": 0.10045576095581055, "timer/agent.train_max": 0.20229578018188477, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26525306701660156, "timer/agent.report_frac": 0.0008839038059136418, "timer/agent.report_avg": 0.13262653350830078, "timer/agent.report_min": 0.09788274765014648, "timer/agent.report_max": 0.16737031936645508, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7240284129034894e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "fps": 20.738988555831344}
+{"step": 593212, "episode/length": 423.0, "episode/score": 1030.0, "episode/reward_rate": 0.12735849056603774}
+{"step": 594844, "episode/length": 407.0, "episode/score": 900.0, "episode/reward_rate": 0.10049019607843138}
+{"step": 596464, "episode/length": 404.0, "episode/score": 980.0, "episode/reward_rate": 0.11851851851851852}
+{"step": 598224, "episode/length": 439.0, "episode/score": 1040.0, "episode/reward_rate": 0.125}
+{"step": 598228, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.599698761970766, "train/action_min": 0.0, "train/action_std": 4.280535648715111, "train/actor_opt_grad_norm": 0.009087720167853178, "train/actor_opt_grad_steps": 147680.0, "train/actor_opt_loss": 3.594421154444248e-05, "train/adv_mag": 0.9169245827582575, "train/adv_max": 0.889073996774612, "train/adv_mean": 0.002488328796067846, "train/adv_min": -0.5976778834096848, "train/adv_std": 0.04341245378938413, "train/cont_avg": 0.9981728830645161, "train/cont_loss_mean": 0.0004707801707510152, "train/cont_loss_std": 0.012961287424028276, "train/cont_neg_acc": 0.9338164260421974, "train/cont_neg_loss": 0.14640405818661986, "train/cont_pos_acc": 0.9999368559929632, "train/cont_pos_loss": 0.00019448439164370076, "train/cont_pred": 0.9981887663564374, "train/cont_rate": 0.9981728830645161, "train/dyn_loss_mean": 2.74986401988614, "train/dyn_loss_std": 5.970182486503355, "train/extr_critic_critic_opt_grad_norm": 1.4926708786718308, "train/extr_critic_critic_opt_grad_steps": 147680.0, "train/extr_critic_critic_opt_loss": 1.368987097278718, "train/extr_critic_mag": 486.69103905462447, "train/extr_critic_max": 486.69103905462447, "train/extr_critic_mean": 241.75853241951233, "train/extr_critic_min": 0.6651998412224555, "train/extr_critic_std": 155.09558445099862, "train/extr_return_normed_mag": 1.5129687539992793, "train/extr_return_normed_max": 1.5129687539992793, "train/extr_return_normed_mean": 0.5418542221669228, "train/extr_return_normed_min": -0.015722873380347606, "train/extr_return_normed_std": 0.36009668304074194, "train/extr_return_rate": 0.9397799526491473, "train/extr_return_raw_mag": 665.1759505733366, "train/extr_return_raw_max": 665.1759505733366, "train/extr_return_raw_mean": 242.841013656124, "train/extr_return_raw_min": 0.4438067536793589, "train/extr_return_raw_std": 156.5573001984627, "train/extr_reward_mag": 362.76597779181697, "train/extr_reward_max": 362.76597779181697, "train/extr_reward_mean": 1.2281202327820562, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.651505824058287, "train/image_loss_mean": 0.8620448408588286, "train/image_loss_std": 0.7714837228098224, "train/model_loss_mean": 2.574575794896772, "train/model_loss_std": 4.083711725665677, "train/model_opt_grad_norm": 9.062338767513152, "train/model_opt_grad_steps": 147680.0, "train/model_opt_loss": 2.574575794896772, "train/policy_entropy_mag": 2.732323694229126, "train/policy_entropy_max": 2.732323694229126, "train/policy_entropy_mean": 0.7214501934666787, "train/policy_entropy_min": 0.08019123750348245, "train/policy_entropy_std": 0.6948063146683477, "train/policy_logprob_mag": 7.495541544883482, "train/policy_logprob_max": -0.009489544565158506, "train/policy_logprob_mean": -0.7221694465606443, "train/policy_logprob_min": -7.495541544883482, "train/policy_logprob_std": 1.2059712579173427, "train/policy_randomness_mag": 0.9453191426492507, "train/policy_randomness_max": 0.9453191426492507, "train/policy_randomness_mean": 0.2496046434487066, "train/policy_randomness_min": 0.027744264636308916, "train/policy_randomness_std": 0.24038649076415647, "train/post_ent_mag": 64.73678251697172, "train/post_ent_max": 64.73678251697172, "train/post_ent_mean": 39.964547434160785, "train/post_ent_min": 10.80048390357725, "train/post_ent_std": 5.644258031537456, "train/prior_ent_mag": 85.54473000803301, "train/prior_ent_max": 85.54473000803301, "train/prior_ent_mean": 42.75185263849074, "train/prior_ent_min": 13.180835779251591, "train/prior_ent_std": 7.861043151732414, "train/rep_loss_mean": 2.74986401988614, "train/rep_loss_std": 5.970182486503355, "train/reward_avg": 1.3658014112903225, "train/reward_loss_mean": 0.06214173061232413, "train/reward_loss_std": 0.21406472604120932, "train/reward_max_data": 288.0, "train/reward_max_pred": 261.9443259639125, "train/reward_neg_acc": 0.98555069123545, "train/reward_neg_loss": 0.004705838027650551, "train/reward_pos_acc": 0.9973713559489097, "train/reward_pos_loss": 0.5965452017322663, "train/reward_pred": 1.2850218365269324, "train/reward_rate": 0.09718371975806452, "train_stats/mean_log_entropy": 0.6715895235538483, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0009660539217293262, "report/cont_loss_std": 0.024095123633742332, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.027303406968712807, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0009145130752585828, "report/cont_pred": 0.9974151253700256, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7495784759521484, "report/dyn_loss_std": 6.147716999053955, "report/image_loss_mean": 0.8127040266990662, "report/image_loss_std": 0.8296472430229187, "report/model_loss_mean": 2.5155301094055176, "report/model_loss_std": 4.254148006439209, "report/post_ent_mag": 67.1090087890625, "report/post_ent_max": 67.1090087890625, "report/post_ent_mean": 39.6309700012207, "report/post_ent_min": 8.160504341125488, "report/post_ent_std": 6.378988742828369, "report/prior_ent_mag": 85.5476303100586, "report/prior_ent_max": 85.5476303100586, "report/prior_ent_mean": 42.37897491455078, "report/prior_ent_min": 9.456280708312988, "report/prior_ent_std": 8.317572593688965, "report/rep_loss_mean": 2.7495784759521484, "report/rep_loss_std": 6.147716999053955, "report/reward_avg": 1.23046875, "report/reward_loss_mean": 0.05211290717124939, "report/reward_loss_std": 0.20348988473415375, "report/reward_max_data": 500.0, "report/reward_max_pred": 483.841796875, "report/reward_neg_acc": 0.9820675849914551, "report/reward_neg_loss": 0.008050154894590378, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6017377972602844, "report/reward_pred": 1.1997779607772827, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.024589821696281433, "eval/cont_loss_std": 0.5089522004127502, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.374433517456055, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.55116894247476e-05, "eval/cont_pred": 0.9998543858528137, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.883739471435547, "eval/dyn_loss_std": 10.54198932647705, "eval/image_loss_mean": 2.9050331115722656, "eval/image_loss_std": 2.6206159591674805, "eval/model_loss_mean": 9.836156845092773, "eval/model_loss_std": 8.68930721282959, "eval/post_ent_mag": 67.1090087890625, "eval/post_ent_max": 67.1090087890625, "eval/post_ent_mean": 40.556915283203125, "eval/post_ent_min": 19.781902313232422, "eval/post_ent_std": 5.296761512756348, "eval/prior_ent_mag": 85.5476303100586, "eval/prior_ent_max": 85.5476303100586, "eval/prior_ent_mean": 45.58028030395508, "eval/prior_ent_min": 23.904579162597656, "eval/prior_ent_std": 7.709063529968262, "eval/rep_loss_mean": 10.883739471435547, "eval/rep_loss_std": 10.54198932647705, "eval/reward_avg": 0.830078125, "eval/reward_loss_mean": 0.3762892484664917, "eval/reward_loss_std": 1.9194598197937012, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004725456237793, "eval/reward_neg_acc": 0.9542065858840942, "eval/reward_neg_loss": 0.0526181161403656, "eval/reward_pos_acc": 0.6705882549285889, "eval/reward_pos_loss": 3.9519028663635254, "eval/reward_pred": 0.6195381879806519, "eval/reward_rate": 0.0830078125, "replay/size": 180988.0, "replay/inserts": 1554.0, "replay/samples": 24864.0, "replay/insert_wait_avg": 4.355204765093986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37912452297628e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 59913.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.816319465637207e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1459467411041, "timer/replay._sample_count": 24864.0, "timer/replay._sample_total": 411.80405831336975, "timer/replay._sample_frac": 1.3720127250912977, "timer/replay._sample_avg": 0.016562261032551873, "timer/replay._sample_min": 0.0009930133819580078, "timer/replay._sample_max": 0.04908609390258789, "timer/env.step_count": 1554.0, "timer/env.step_total": 6.689103364944458, "timer/env.step_frac": 0.022286169237241957, "timer/env.step_avg": 0.004304442319784079, "timer/env.step_min": 0.0019545555114746094, "timer/env.step_max": 0.035645246505737305, "timer/agent.policy_count": 1554.0, "timer/agent.policy_total": 113.72205424308777, "timer/agent.policy_frac": 0.37888918866920634, "timer/agent.policy_avg": 0.07318021508564207, "timer/agent.policy_min": 0.002996206283569336, "timer/agent.policy_max": 0.1775219440460205, "timer/dataset_train_count": 1554.0, "timer/dataset_train_total": 0.1479027271270752, "timer/dataset_train_frac": 0.0004927693634811972, "timer/dataset_train_avg": 9.517550008177297e-05, "timer/dataset_train_min": 5.3882598876953125e-05, "timer/dataset_train_max": 0.00022721290588378906, "timer/agent.train_count": 1554.0, "timer/agent.train_total": 178.28884649276733, "timer/agent.train_frac": 0.594007176937003, "timer/agent.train_avg": 0.11472898744708322, "timer/agent.train_min": 0.10030770301818848, "timer/agent.train_max": 0.20131230354309082, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.267777681350708, "timer/agent.report_frac": 0.0008921582458739118, "timer/agent.report_avg": 0.133888840675354, "timer/agent.report_min": 0.10191941261291504, "timer/agent.report_max": 0.16585826873779297, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.3882598876953125e-05, "timer/dataset_eval_frac": 1.795213277473657e-07, "timer/dataset_eval_avg": 5.3882598876953125e-05, "timer/dataset_eval_min": 5.3882598876953125e-05, "timer/dataset_eval_max": 5.3882598876953125e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15891242027282715, "timer/agent.save_frac": 0.0005294504956613647, "timer/agent.save_avg": 0.15891242027282715, "timer/agent.save_min": 0.15891242027282715, "timer/agent.save_max": 0.15891242027282715, "fps": 20.7086581491988}
+{"step": 599964, "episode/length": 434.0, "episode/score": 1040.0, "episode/reward_rate": 0.12413793103448276}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.80059814453125, "train/action_min": 0.0, "train/action_std": 4.219600200653076, "train/actor_opt_grad_norm": 0.010520683601498604, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0015639609191566706, "train/adv_mag": 0.8927021026611328, "train/adv_max": 0.8927021026611328, "train/adv_mean": 0.003956018481403589, "train/adv_min": -0.7956993579864502, "train/adv_std": 0.054934751242399216, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 0.00011236605496378615, "train/cont_loss_std": 0.003589094150811434, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.11490724980831146, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.5208772197183862e-07, "train/cont_pred": 0.9991292953491211, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.6697587966918945, "train/dyn_loss_std": 5.415921211242676, "train/extr_critic_critic_opt_grad_norm": 1.5826665163040161, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.3732415437698364, "train/extr_critic_mag": 491.24639892578125, "train/extr_critic_max": 491.24639892578125, "train/extr_critic_mean": 259.4638366699219, "train/extr_critic_min": 0.0002872943878173828, "train/extr_critic_std": 141.85116577148438, "train/extr_return_normed_mag": 1.4176626205444336, "train/extr_return_normed_max": 1.4176626205444336, "train/extr_return_normed_mean": 0.5877447724342346, "train/extr_return_normed_min": -0.01441318541765213, "train/extr_return_normed_std": 0.3318384885787964, "train/extr_return_rate": 0.9788411855697632, "train/extr_return_raw_mag": 621.14794921875, "train/extr_return_raw_max": 621.14794921875, "train/extr_return_raw_mean": 261.1796875, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 143.93148803710938, "train/extr_reward_mag": 500.6406555175781, "train/extr_reward_max": 500.6406555175781, "train/extr_reward_mean": 1.625246524810791, "train/extr_reward_min": 0.0, "train/extr_reward_std": 16.595638275146484, "train/image_loss_mean": 0.7776200771331787, "train/image_loss_std": 0.7053849697113037, "train/model_loss_mean": 2.4587440490722656, "train/model_loss_std": 3.6504156589508057, "train/model_opt_grad_norm": 7.251718521118164, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.4587440490722656, "train/policy_entropy_mag": 2.684438705444336, "train/policy_entropy_max": 2.684438705444336, "train/policy_entropy_mean": 0.6181504130363464, "train/policy_entropy_min": 0.08019116520881653, "train/policy_entropy_std": 0.5625900626182556, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6096831560134888, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1280453205108643, "train/policy_randomness_mag": 0.928752064704895, "train/policy_randomness_max": 0.928752064704895, "train/policy_randomness_mean": 0.21386536955833435, "train/policy_randomness_min": 0.027744239196181297, "train/policy_randomness_std": 0.1946428120136261, "train/post_ent_mag": 64.93806457519531, "train/post_ent_max": 64.93806457519531, "train/post_ent_mean": 40.65435791015625, "train/post_ent_min": 15.156026840209961, "train/post_ent_std": 5.523922443389893, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.53082275390625, "train/prior_ent_min": 18.886539459228516, "train/prior_ent_std": 7.384696960449219, "train/rep_loss_mean": 2.6697587966918945, "train/rep_loss_std": 5.415921211242676, "train/reward_avg": 2.099609375, "train/reward_loss_mean": 0.07915620505809784, "train/reward_loss_std": 0.2537969648838043, "train/reward_max_data": 500.0, "train/reward_max_pred": 491.0333251953125, "train/reward_neg_acc": 0.9735391736030579, "train/reward_neg_loss": 0.01126720942556858, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6054409742355347, "train/reward_pred": 1.8448355197906494, "train/reward_rate": 0.1142578125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.711930159828626e-06, "report/cont_loss_std": 0.0001397740124957636, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004471975844353437, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.451041834523494e-07, "report/cont_pred": 0.9990274906158447, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.7234702110290527, "report/dyn_loss_std": 5.51052188873291, "report/image_loss_mean": 0.7880902886390686, "report/image_loss_std": 0.7362015247344971, "report/model_loss_mean": 2.4974992275238037, "report/model_loss_std": 3.7938475608825684, "report/post_ent_mag": 64.90459442138672, "report/post_ent_max": 64.90459442138672, "report/post_ent_mean": 40.761817932128906, "report/post_ent_min": 16.399959564208984, "report/post_ent_std": 5.577918529510498, "report/prior_ent_mag": 85.1936264038086, "report/prior_ent_max": 85.1936264038086, "report/prior_ent_mean": 43.55133056640625, "report/prior_ent_min": 18.844942092895508, "report/prior_ent_std": 7.415652275085449, "report/rep_loss_mean": 2.7234702110290527, "report/rep_loss_std": 5.51052188873291, "report/reward_avg": 2.099609375, "report/reward_loss_mean": 0.07532208412885666, "report/reward_loss_std": 0.23280145227909088, "report/reward_max_data": 500.0, "report/reward_max_pred": 497.3918762207031, "report/reward_neg_acc": 0.9823594689369202, "report/reward_neg_loss": 0.008359154686331749, "report/reward_pos_acc": 0.9914530515670776, "report/reward_pos_loss": 0.5944278836250305, "report/reward_pred": 1.9978504180908203, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002640486229211092, "eval/cont_loss_std": 0.04898378252983093, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.014866437762975693, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0026285352651029825, "eval/cont_pred": 0.9972838163375854, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.182963371276855, "eval/dyn_loss_std": 10.793025970458984, "eval/image_loss_mean": 3.3326125144958496, "eval/image_loss_std": 3.23372745513916, "eval/model_loss_mean": 10.31784439086914, "eval/model_loss_std": 9.400382995605469, "eval/post_ent_mag": 62.389686584472656, "eval/post_ent_max": 62.389686584472656, "eval/post_ent_mean": 39.99258804321289, "eval/post_ent_min": 12.325700759887695, "eval/post_ent_std": 5.2909722328186035, "eval/prior_ent_mag": 85.1936264038086, "eval/prior_ent_max": 85.1936264038086, "eval/prior_ent_mean": 45.26927947998047, "eval/prior_ent_min": 14.195111274719238, "eval/prior_ent_std": 7.2824554443359375, "eval/rep_loss_mean": 11.182963371276855, "eval/rep_loss_std": 10.793025970458984, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2728145122528076, "eval/reward_loss_std": 1.569656491279602, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010217666625977, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.02484184317290783, "eval/reward_pos_acc": 0.7802197933197021, "eval/reward_pos_loss": 2.815215826034546, "eval/reward_pred": 0.6641682386398315, "eval/reward_rate": 0.0888671875, "replay/size": 336216.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.930764743259975e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.092548779078892e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 93.91599106788635, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 17.448565006256104, "timer/replay._sample_frac": 0.18578907391440463, "timer/replay._sample_avg": 0.15579075898442948, "timer/replay._sample_min": 0.01990818977355957, "timer/replay._sample_max": 0.7409021854400635, "timer/env.step_count": 1.0, "timer/env.step_total": 0.027825355529785156, "timer/env.step_frac": 0.00029627920882687424, "timer/env.step_avg": 0.027825355529785156, "timer/env.step_min": 0.027825355529785156, "timer/env.step_max": 0.027825355529785156, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.221211433410645, "timer/agent.policy_frac": 0.10883355770608151, "timer/agent.policy_avg": 10.221211433410645, "timer/agent.policy_min": 10.221211433410645, "timer/agent.policy_max": 10.221211433410645, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.0001308917999267578, "timer/dataset_train_frac": 1.3937115334506115e-06, "timer/dataset_train_avg": 0.0001308917999267578, "timer/dataset_train_min": 0.0001308917999267578, "timer/dataset_train_max": 0.0001308917999267578, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.728724241256714, "timer/agent.train_frac": 0.5933890874981418, "timer/agent.train_avg": 55.728724241256714, "timer/agent.train_min": 55.728724241256714, "timer/agent.train_max": 55.728724241256714, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.358327865600586, "timer/agent.report_frac": 0.12094136191769853, "timer/agent.report_avg": 5.679163932800293, "timer/agent.report_min": 0.09894275665283203, "timer/agent.report_max": 11.259385108947754, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00015616416931152344, "timer/dataset_eval_frac": 1.6628070207835163e-06, "timer/dataset_eval_avg": 0.00015616416931152344, "timer/dataset_eval_min": 0.00015616416931152344, "timer/dataset_eval_max": 0.00015616416931152344}
+{"step": 595628, "episode/length": 406.0, "episode/score": 1010.0, "episode/reward_rate": 0.12530712530712532}
+{"step": 597344, "episode/length": 428.0, "episode/score": 520.0, "episode/reward_rate": 0.12121212121212122}
+{"step": 599124, "episode/length": 444.0, "episode/score": 1040.0, "episode/reward_rate": 0.12359550561797752}
+{"step": 599908, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.552995539035926, "train/action_min": 0.0, "train/action_std": 4.267400368541276, "train/actor_opt_grad_norm": 0.009043502958719524, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": 0.0002466963164992268, "train/adv_mag": 0.8927655789722391, "train/adv_max": 0.844369844615865, "train/adv_mean": 0.0026835660251630805, "train/adv_min": -0.6054186174253218, "train/adv_std": 0.042274546720797106, "train/cont_avg": 0.9980535182823129, "train/cont_loss_mean": 0.0003993037167700682, "train/cont_loss_std": 0.009962216457329977, "train/cont_neg_acc": 0.9657552093267441, "train/cont_neg_loss": 0.09198566269347097, "train/cont_pos_acc": 0.9999333652509313, "train/cont_pos_loss": 0.0001809856834382426, "train/cont_pred": 0.9980198023270588, "train/cont_rate": 0.9980535182823129, "train/dyn_loss_mean": 2.8922441670683776, "train/dyn_loss_std": 6.1442958254392455, "train/extr_critic_critic_opt_grad_norm": 1.5348969308697447, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.40954260112477, "train/extr_critic_mag": 491.4321496665072, "train/extr_critic_max": 491.4321496665072, "train/extr_critic_mean": 245.0358991558049, "train/extr_critic_min": 0.20763004799278414, "train/extr_critic_std": 158.77975495007573, "train/extr_return_normed_mag": 1.482915220617437, "train/extr_return_normed_max": 1.482915220617437, "train/extr_return_normed_mean": 0.5447391565559673, "train/extr_return_normed_min": -0.016299669725858435, "train/extr_return_normed_std": 0.3651515255574466, "train/extr_return_rate": 0.9405010391254814, "train/extr_return_raw_mag": 657.7441042945499, "train/extr_return_raw_max": 657.7441042945499, "train/extr_return_raw_mean": 246.21355661405187, "train/extr_return_raw_min": 0.14194789938032737, "train/extr_return_raw_std": 160.1324594199252, "train/extr_reward_mag": 347.26527521561604, "train/extr_reward_max": 347.26527521561604, "train/extr_reward_mean": 1.2774955747889825, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.421935263134184, "train/image_loss_mean": 0.8772031968953659, "train/image_loss_std": 0.8088811984678514, "train/model_loss_mean": 2.6788458807938764, "train/model_loss_std": 4.220568094123789, "train/model_opt_grad_norm": 8.993757766931235, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.6788458807938764, "train/policy_entropy_mag": 2.745807860173336, "train/policy_entropy_max": 2.745807860173336, "train/policy_entropy_mean": 0.7101222134771801, "train/policy_entropy_min": 0.0801912147779854, "train/policy_entropy_std": 0.6955917303254004, "train/policy_logprob_mag": 7.495541760710632, "train/policy_logprob_max": -0.009489541151085678, "train/policy_logprob_mean": -0.7101672636408384, "train/policy_logprob_min": -7.495541760710632, "train/policy_logprob_std": 1.2002057323650437, "train/policy_randomness_mag": 0.9499843396297117, "train/policy_randomness_max": 0.9499843396297117, "train/policy_randomness_mean": 0.2456854286850715, "train/policy_randomness_min": 0.02774425677093519, "train/policy_randomness_std": 0.2406582275823671, "train/post_ent_mag": 64.62917060592548, "train/post_ent_max": 64.62917060592548, "train/post_ent_mean": 40.13657828090953, "train/post_ent_min": 11.360807778883954, "train/post_ent_std": 5.701839288075765, "train/prior_ent_mag": 85.27702305592648, "train/prior_ent_max": 85.27702305592648, "train/prior_ent_mean": 43.05845418917079, "train/prior_ent_min": 13.57813937647813, "train/prior_ent_std": 7.842976534447702, "train/rep_loss_mean": 2.8922441670683776, "train/rep_loss_std": 6.1442958254392455, "train/reward_avg": 1.4391342474489797, "train/reward_loss_mean": 0.06589688864999077, "train/reward_loss_std": 0.22611325350748437, "train/reward_max_data": 296.1224489795918, "train/reward_max_pred": 264.24175123616953, "train/reward_neg_acc": 0.984765099830368, "train/reward_neg_loss": 0.0048102443419289174, "train/reward_pos_acc": 0.996228196993977, "train/reward_pos_loss": 0.6027117436434947, "train/reward_pred": 1.3440437110102907, "train/reward_rate": 0.10236633715986394, "train_stats/mean_log_entropy": 0.6338589588801066, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.083451883867383e-05, "report/cont_loss_std": 0.0006963358609937131, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.015215713530778885, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1185115909029264e-06, "report/cont_pred": 0.9980752468109131, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.9104933738708496, "report/dyn_loss_std": 6.63697624206543, "report/image_loss_mean": 0.8843896389007568, "report/image_loss_std": 0.8072523474693298, "report/model_loss_mean": 2.6911606788635254, "report/model_loss_std": 4.5183820724487305, "report/post_ent_mag": 62.12235641479492, "report/post_ent_max": 62.12235641479492, "report/post_ent_mean": 38.46465301513672, "report/post_ent_min": 9.677496910095215, "report/post_ent_std": 6.085579872131348, "report/prior_ent_mag": 85.44685363769531, "report/prior_ent_max": 85.44685363769531, "report/prior_ent_mean": 41.67298889160156, "report/prior_ent_min": 9.949363708496094, "report/prior_ent_std": 8.423983573913574, "report/rep_loss_mean": 2.9104933738708496, "report/rep_loss_std": 6.63697624206543, "report/reward_avg": 1.9140625, "report/reward_loss_mean": 0.060444049537181854, "report/reward_loss_std": 0.21324129402637482, "report/reward_max_data": 500.0, "report/reward_max_pred": 498.1419982910156, "report/reward_neg_acc": 0.982758641242981, "report/reward_neg_loss": 0.0026203393936157227, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6194066405296326, "report/reward_pred": 1.8561937808990479, "report/reward_rate": 0.09375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.00932073500007391, "eval/cont_loss_std": 0.15756119787693024, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.1071743965148926, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.0010938569903373718, "eval/cont_pred": 0.998245358467102, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.552420616149902, "eval/dyn_loss_std": 9.858175277709961, "eval/image_loss_mean": 1.4304665327072144, "eval/image_loss_std": 2.0099611282348633, "eval/model_loss_mean": 5.593683242797852, "eval/model_loss_std": 7.487226486206055, "eval/post_ent_mag": 66.42255401611328, "eval/post_ent_max": 66.42255401611328, "eval/post_ent_mean": 40.08976364135742, "eval/post_ent_min": 8.313209533691406, "eval/post_ent_std": 5.989234924316406, "eval/prior_ent_mag": 85.44685363769531, "eval/prior_ent_max": 85.44685363769531, "eval/prior_ent_mean": 44.296932220458984, "eval/prior_ent_min": 10.298454284667969, "eval/prior_ent_std": 8.254927635192871, "eval/rep_loss_mean": 6.552420616149902, "eval/rep_loss_std": 9.858175277709961, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.22244369983673096, "eval/reward_loss_std": 1.3541243076324463, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 495.4407958984375, "eval/reward_neg_acc": 0.9669966697692871, "eval/reward_neg_loss": 0.025687260553240776, "eval/reward_pos_acc": 0.8869564533233643, "eval/reward_pos_loss": 1.7776751518249512, "eval/reward_pred": 1.458669662475586, "eval/reward_rate": 0.1123046875, "replay/size": 337630.0, "replay/inserts": 1414.0, "replay/samples": 23616.0, "replay/insert_wait_avg": 6.034654134402349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4347011642404364e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.175569534301758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.04024267196655, "timer/replay._sample_count": 23616.0, "timer/replay._sample_total": 357.0731656551361, "timer/replay._sample_frac": 1.2353752624695258, "timer/replay._sample_avg": 0.01511996805789025, "timer/replay._sample_min": 0.00045943260192871094, "timer/replay._sample_max": 0.05849266052246094, "timer/env.step_count": 1476.0, "timer/env.step_total": 6.739894151687622, "timer/env.step_frac": 0.023318186040055214, "timer/env.step_avg": 0.004566323951007874, "timer/env.step_min": 0.002471446990966797, "timer/env.step_max": 0.027735471725463867, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 104.60271286964417, "timer/agent.policy_frac": 0.3618967099621432, "timer/agent.policy_avg": 0.07086904665965052, "timer/agent.policy_min": 0.0027942657470703125, "timer/agent.policy_max": 0.08408689498901367, "timer/dataset_train_count": 1476.0, "timer/dataset_train_total": 0.148484468460083, "timer/dataset_train_frac": 0.0005137155542337366, "timer/dataset_train_avg": 0.00010059923337403997, "timer/dataset_train_min": 5.6743621826171875e-05, "timer/dataset_train_max": 0.00023365020751953125, "timer/agent.train_count": 1476.0, "timer/agent.train_total": 176.24397468566895, "timer/agent.train_frac": 0.6097558355764642, "timer/agent.train_avg": 0.11940648691440986, "timer/agent.train_min": 0.10545015335083008, "timer/agent.train_max": 0.20592546463012695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26792073249816895, "timer/agent.report_frac": 0.0009269322846584853, "timer/agent.report_avg": 0.13396036624908447, "timer/agent.report_min": 0.09982824325561523, "timer/agent.report_max": 0.1680924892425537, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.748603820800781e-05, "timer/dataset_eval_frac": 2.6808044960004814e-07, "timer/dataset_eval_avg": 7.748603820800781e-05, "timer/dataset_eval_min": 7.748603820800781e-05, "timer/dataset_eval_max": 7.748603820800781e-05, "fps": 20.425010326939525}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.9244384765625, "train/action_min": 0.0, "train/action_std": 4.697518348693848, "train/actor_opt_grad_norm": 0.016320565715432167, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0011316790478304029, "train/adv_mag": 0.7286381125450134, "train/adv_max": 0.6964573860168457, "train/adv_mean": 0.004094002768397331, "train/adv_min": -0.7286381125450134, "train/adv_std": 0.04551151394844055, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 1.8620850141815026e-06, "train/cont_loss_std": 4.387021544971503e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002239158930024132, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.645023644414323e-06, "train/cont_pred": 0.9990220069885254, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.479942321777344, "train/dyn_loss_std": 11.161032676696777, "train/extr_critic_critic_opt_grad_norm": 1.9849591255187988, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.613417625427246, "train/extr_critic_mag": 471.7684020996094, "train/extr_critic_max": 471.7684020996094, "train/extr_critic_mean": 213.68182373046875, "train/extr_critic_min": 0.0015625953674316406, "train/extr_critic_std": 155.7254638671875, "train/extr_return_normed_mag": 1.3580801486968994, "train/extr_return_normed_max": 1.3580801486968994, "train/extr_return_normed_mean": 0.48323169350624084, "train/extr_return_normed_min": -0.013372155837714672, "train/extr_return_normed_std": 0.3624884784221649, "train/extr_return_rate": 0.9645833969116211, "train/extr_return_raw_mag": 595.0224609375, "train/extr_return_raw_max": 595.0224609375, "train/extr_return_raw_mean": 215.4580535888672, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 157.27035522460938, "train/extr_reward_mag": 500.21697998046875, "train/extr_reward_max": 500.21697998046875, "train/extr_reward_mean": 0.8271592259407043, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.112972736358643, "train/image_loss_mean": 1.0253962278366089, "train/image_loss_std": 1.2398933172225952, "train/model_loss_mean": 3.7968883514404297, "train/model_loss_std": 7.798177242279053, "train/model_opt_grad_norm": 16.713119506835938, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 3.7968883514404297, "train/policy_entropy_mag": 2.789952278137207, "train/policy_entropy_max": 2.789952278137207, "train/policy_entropy_mean": 0.8599753379821777, "train/policy_entropy_min": 0.08019199222326279, "train/policy_entropy_std": 0.693661093711853, "train/policy_logprob_mag": 7.495527267456055, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8486829400062561, "train/policy_logprob_min": -7.495527267456055, "train/policy_logprob_std": 1.2181719541549683, "train/policy_randomness_mag": 0.9652572870254517, "train/policy_randomness_max": 0.9652572870254517, "train/policy_randomness_mean": 0.2975310683250427, "train/policy_randomness_min": 0.02774452604353428, "train/policy_randomness_std": 0.23999027907848358, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 40.437129974365234, "train/post_ent_min": 11.543006896972656, "train/post_ent_std": 5.289157390594482, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.41434097290039, "train/prior_ent_min": 16.537145614624023, "train/prior_ent_std": 7.535503387451172, "train/rep_loss_mean": 4.479942321777344, "train/rep_loss_std": 11.161032676696777, "train/reward_avg": 0.87890625, "train/reward_loss_mean": 0.08352505415678024, "train/reward_loss_std": 0.5106813907623291, "train/reward_max_data": 20.0, "train/reward_max_pred": 19.99587631225586, "train/reward_neg_acc": 0.9882352948188782, "train/reward_neg_loss": 0.0030449938494712114, "train/reward_pos_acc": 0.9438202381134033, "train/reward_pos_loss": 0.9290178418159485, "train/reward_pred": 0.8002982139587402, "train/reward_rate": 0.0869140625, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.184859214248718e-07, "report/cont_loss_std": 1.0119909347849898e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.901505836751312e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.223993409548711e-07, "report/cont_pred": 0.999022901058197, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.004364967346191, "report/dyn_loss_std": 10.690486907958984, "report/image_loss_mean": 0.9520645141601562, "report/image_loss_std": 1.1628392934799194, "report/model_loss_mean": 3.413623332977295, "report/model_loss_std": 7.3210344314575195, "report/post_ent_mag": 67.86429595947266, "report/post_ent_max": 67.86429595947266, "report/post_ent_mean": 40.5509147644043, "report/post_ent_min": 11.52761173248291, "report/post_ent_std": 5.289287090301514, "report/prior_ent_mag": 85.20230102539062, "report/prior_ent_max": 85.20230102539062, "report/prior_ent_mean": 43.393089294433594, "report/prior_ent_min": 16.44979476928711, "report/prior_ent_std": 7.410187244415283, "report/rep_loss_mean": 4.004364967346191, "report/rep_loss_std": 10.690486907958984, "report/reward_avg": 0.87890625, "report/reward_loss_mean": 0.05893905460834503, "report/reward_loss_std": 0.2578498423099518, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.981853485107422, "report/reward_neg_acc": 0.9850267767906189, "report/reward_neg_loss": 0.00271642510779202, "report/reward_pos_acc": 0.9887640476226807, "report/reward_pos_loss": 0.6495925188064575, "report/reward_pred": 0.8402549624443054, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0010671888012439013, "eval/cont_loss_std": 0.023478088900446892, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 0.7258426547050476, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0003587084647733718, "eval/cont_pred": 0.9991871118545532, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.131207466125488, "eval/dyn_loss_std": 10.658343315124512, "eval/image_loss_mean": 3.333681106567383, "eval/image_loss_std": 3.2352774143218994, "eval/model_loss_mean": 10.274496078491211, "eval/model_loss_std": 9.359673500061035, "eval/post_ent_mag": 62.27135467529297, "eval/post_ent_max": 62.27135467529297, "eval/post_ent_mean": 39.950164794921875, "eval/post_ent_min": 12.697128295898438, "eval/post_ent_std": 5.268039226531982, "eval/prior_ent_mag": 85.20230102539062, "eval/prior_ent_max": 85.20230102539062, "eval/prior_ent_mean": 45.26390838623047, "eval/prior_ent_min": 14.259897232055664, "eval/prior_ent_std": 7.268096446990967, "eval/rep_loss_mean": 11.131207466125488, "eval/rep_loss_std": 10.658343315124512, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.26102322340011597, "eval/reward_loss_std": 1.6095061302185059, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.009495735168457, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.022901853546500206, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.702421188354492, "eval/reward_pred": 0.6743959188461304, "eval/reward_rate": 0.0888671875, "replay/size": 338138.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.430511474609375e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 94.14106011390686, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 16.231906414031982, "timer/replay._sample_frac": 0.1724211135331601, "timer/replay._sample_avg": 0.14492773583957128, "timer/replay._sample_min": 0.020041704177856445, "timer/replay._sample_max": 0.7407333850860596, "timer/env.step_count": 1.0, "timer/env.step_total": 0.02808356285095215, "timer/env.step_frac": 0.0002983136456820454, "timer/env.step_avg": 0.02808356285095215, "timer/env.step_min": 0.02808356285095215, "timer/env.step_max": 0.02808356285095215, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 8.312555074691772, "timer/agent.policy_frac": 0.08829893209863919, "timer/agent.policy_avg": 8.312555074691772, "timer/agent.policy_min": 8.312555074691772, "timer/agent.policy_max": 8.312555074691772, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 4.506111145019531e-05, "timer/dataset_train_frac": 4.786552371056072e-07, "timer/dataset_train_avg": 4.506111145019531e-05, "timer/dataset_train_min": 4.506111145019531e-05, "timer/dataset_train_max": 4.506111145019531e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 59.17894196510315, "timer/agent.train_frac": 0.6286198805653881, "timer/agent.train_avg": 59.17894196510315, "timer/agent.train_min": 59.17894196510315, "timer/agent.train_max": 59.17894196510315, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.37165904045105, "timer/agent.report_frac": 0.12079382818391682, "timer/agent.report_avg": 5.685829520225525, "timer/agent.report_min": 0.09814834594726562, "timer/agent.report_max": 11.273510694503784, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010585784912109375, "timer/dataset_eval_frac": 1.1244599220893631e-06, "timer/dataset_eval_avg": 0.00010585784912109375, "timer/dataset_eval_min": 0.00010585784912109375, "timer/dataset_eval_max": 0.00010585784912109375}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.9085693359375, "train/action_min": 0.0, "train/action_std": 4.710562229156494, "train/actor_opt_grad_norm": 0.016402725130319595, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0012299430090934038, "train/adv_mag": 0.8396719694137573, "train/adv_max": 0.8396719694137573, "train/adv_mean": 0.004164631478488445, "train/adv_min": -0.7583818435668945, "train/adv_std": 0.04643939062952995, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 8.311740771205223e-07, "train/cont_loss_std": 1.3982193195261061e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022391631500795484, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.131045324764273e-07, "train/cont_pred": 0.9990230798721313, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 4.543844223022461, "train/dyn_loss_std": 11.188632011413574, "train/extr_critic_critic_opt_grad_norm": 2.125328540802002, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.6166009902954102, "train/extr_critic_mag": 471.3492431640625, "train/extr_critic_max": 471.3492431640625, "train/extr_critic_mean": 213.39309692382812, "train/extr_critic_min": 0.0012763738632202148, "train/extr_critic_std": 155.77708435058594, "train/extr_return_normed_mag": 1.540175199508667, "train/extr_return_normed_max": 1.540175199508667, "train/extr_return_normed_mean": 0.4826410114765167, "train/extr_return_normed_min": -0.013369926251471043, "train/extr_return_normed_std": 0.36187657713890076, "train/extr_return_rate": 0.9573568105697632, "train/extr_return_raw_mag": 674.023193359375, "train/extr_return_raw_max": 674.023193359375, "train/extr_return_raw_mean": 215.1999969482422, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 157.00424194335938, "train/extr_reward_mag": 443.9737548828125, "train/extr_reward_max": 443.9737548828125, "train/extr_reward_mean": 0.8392443060874939, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.625566005706787, "train/image_loss_mean": 1.0370140075683594, "train/image_loss_std": 1.2330151796340942, "train/model_loss_mean": 3.849191665649414, "train/model_loss_std": 7.814447402954102, "train/model_opt_grad_norm": 16.6935977935791, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 3.849191665649414, "train/policy_entropy_mag": 2.7580292224884033, "train/policy_entropy_max": 2.7580292224884033, "train/policy_entropy_mean": 0.8573606014251709, "train/policy_entropy_min": 0.08019197732210159, "train/policy_entropy_std": 0.6872104406356812, "train/policy_logprob_mag": 7.495527267456055, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8475095629692078, "train/policy_logprob_min": -7.495527267456055, "train/policy_logprob_std": 1.211454153060913, "train/policy_randomness_mag": 0.9542126655578613, "train/policy_randomness_max": 0.9542126655578613, "train/policy_randomness_mean": 0.29662641882896423, "train/policy_randomness_min": 0.02774452045559883, "train/policy_randomness_std": 0.23775850236415863, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 40.34760284423828, "train/post_ent_min": 11.260551452636719, "train/post_ent_std": 5.270246982574463, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.44416046142578, "train/prior_ent_min": 16.53714942932129, "train/prior_ent_std": 7.502679824829102, "train/rep_loss_mean": 4.543844223022461, "train/rep_loss_std": 11.188632011413574, "train/reward_avg": 0.87890625, "train/reward_loss_mean": 0.08587008714675903, "train/reward_loss_std": 0.5255563259124756, "train/reward_max_data": 20.0, "train/reward_max_pred": 19.99587059020996, "train/reward_neg_acc": 0.9893048405647278, "train/reward_neg_loss": 0.002746337791904807, "train/reward_pos_acc": 0.932584285736084, "train/reward_pos_loss": 0.9591364860534668, "train/reward_pred": 0.7931766510009766, "train/reward_rate": 0.0869140625, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.56215866254206e-07, "report/cont_loss_std": 8.360926585737616e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 6.313761696219444e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.950415473103931e-07, "report/cont_pred": 0.9990230202674866, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.956798553466797, "report/dyn_loss_std": 10.418914794921875, "report/image_loss_mean": 0.954562246799469, "report/image_loss_std": 1.1539387702941895, "report/model_loss_mean": 3.384657382965088, "report/model_loss_std": 7.152098655700684, "report/post_ent_mag": 67.84964752197266, "report/post_ent_max": 67.84964752197266, "report/post_ent_mean": 40.50956344604492, "report/post_ent_min": 11.123908996582031, "report/post_ent_std": 5.320223331451416, "report/prior_ent_mag": 85.20147705078125, "report/prior_ent_max": 85.20147705078125, "report/prior_ent_mean": 43.39961242675781, "report/prior_ent_min": 16.43112564086914, "report/prior_ent_std": 7.417322635650635, "report/rep_loss_mean": 3.956798553466797, "report/rep_loss_std": 10.418914794921875, "report/reward_avg": 0.87890625, "report/reward_loss_mean": 0.056015342473983765, "report/reward_loss_std": 0.20374830067157745, "report/reward_max_data": 20.0, "report/reward_max_pred": 19.980449676513672, "report/reward_neg_acc": 0.9871658086776733, "report/reward_neg_loss": 0.002459730952978134, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6186501383781433, "report/reward_pred": 0.8289207220077515, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002038139384239912, "eval/cont_loss_std": 0.037579987198114395, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.013492069207131863, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0020269430242478848, "eval/cont_pred": 0.9975665211677551, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.146415710449219, "eval/dyn_loss_std": 10.592673301696777, "eval/image_loss_mean": 3.2950997352600098, "eval/image_loss_std": 3.198768138885498, "eval/model_loss_mean": 10.241355895996094, "eval/model_loss_std": 9.30871295928955, "eval/post_ent_mag": 62.23483657836914, "eval/post_ent_max": 62.23483657836914, "eval/post_ent_mean": 39.9890251159668, "eval/post_ent_min": 12.850265502929688, "eval/post_ent_std": 5.2508673667907715, "eval/prior_ent_mag": 85.20147705078125, "eval/prior_ent_max": 85.20147705078125, "eval/prior_ent_mean": 45.340179443359375, "eval/prior_ent_min": 14.655635833740234, "eval/prior_ent_std": 7.260190486907959, "eval/rep_loss_mean": 11.146415710449219, "eval/rep_loss_std": 10.592673301696777, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2563682794570923, "eval/reward_loss_std": 1.5682257413864136, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.009488105773926, "eval/reward_neg_acc": 0.9581993222236633, "eval/reward_neg_loss": 0.020396141335368156, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.6757311820983887, "eval/reward_pred": 0.6467517614364624, "eval/reward_rate": 0.0888671875, "replay/size": 338138.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5837805611746653e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9116061074393135e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 94.63873076438904, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 18.89224648475647, "timer/replay._sample_frac": 0.19962489281254503, "timer/replay._sample_avg": 0.16868077218532562, "timer/replay._sample_min": 0.021038532257080078, "timer/replay._sample_max": 0.7373075485229492, "timer/env.step_count": 1.0, "timer/env.step_total": 0.026013851165771484, "timer/env.step_frac": 0.0002748753174906278, "timer/env.step_avg": 0.026013851165771484, "timer/env.step_min": 0.026013851165771484, "timer/env.step_max": 0.026013851165771484, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 8.605638027191162, "timer/agent.policy_frac": 0.09093146069990743, "timer/agent.policy_avg": 8.605638027191162, "timer/agent.policy_min": 8.605638027191162, "timer/agent.policy_max": 8.605638027191162, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 4.744529724121094e-05, "timer/dataset_train_frac": 5.013306587905319e-07, "timer/dataset_train_avg": 4.744529724121094e-05, "timer/dataset_train_min": 4.744529724121094e-05, "timer/dataset_train_max": 4.744529724121094e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 57.91796588897705, "timer/agent.train_frac": 0.6119900956107349, "timer/agent.train_avg": 57.91796588897705, "timer/agent.train_min": 57.91796588897705, "timer/agent.train_max": 57.91796588897705, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.092010498046875, "timer/agent.report_frac": 0.11720371150857205, "timer/agent.report_avg": 5.5460052490234375, "timer/agent.report_min": 0.10241413116455078, "timer/agent.report_max": 10.989596366882324, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012803077697753906, "timer/dataset_eval_frac": 1.352837003871938e-06, "timer/dataset_eval_avg": 0.00012803077697753906, "timer/dataset_eval_min": 0.00012803077697753906, "timer/dataset_eval_max": 0.00012803077697753906}
+{"step": 595548, "episode/length": 386.0, "episode/score": 1010.0, "episode/reward_rate": 0.1343669250645995}
+{"step": 598800, "episode/length": 812.0, "episode/score": 1220.0, "episode/reward_rate": 0.0897908979089791}
+{"step": 599904, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.57647248352466, "train/action_min": 0.0, "train/action_std": 4.296214327520254, "train/actor_opt_grad_norm": 0.009325921560834054, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": -8.116826558737366e-05, "train/adv_mag": 0.9062635560019486, "train/adv_max": 0.8704182469114965, "train/adv_mean": 0.002308972207149772, "train/adv_min": -0.6338192482992094, "train/adv_std": 0.04438248604890846, "train/cont_avg": 0.9979737988945578, "train/cont_loss_mean": 0.00046685156952824483, "train/cont_loss_std": 0.011734312681573884, "train/cont_neg_acc": 0.9455729178152978, "train/cont_neg_loss": 0.13878373053205983, "train/cont_pos_acc": 0.9999533218591392, "train/cont_pos_loss": 0.00016701825471089436, "train/cont_pred": 0.9980010840357566, "train/cont_rate": 0.9979737988945578, "train/dyn_loss_mean": 2.9316706592533865, "train/dyn_loss_std": 6.246062132777, "train/extr_critic_critic_opt_grad_norm": 1.518946846731666, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.4068831310791223, "train/extr_critic_mag": 478.09886595018867, "train/extr_critic_max": 478.09886595018867, "train/extr_critic_mean": 241.51473490397134, "train/extr_critic_min": 0.6683804818562099, "train/extr_critic_std": 157.86678625612842, "train/extr_return_normed_mag": 1.459674132519028, "train/extr_return_normed_max": 1.459674132519028, "train/extr_return_normed_mean": 0.5416464789384077, "train/extr_return_normed_min": -0.014416949799740496, "train/extr_return_normed_std": 0.36630651760263505, "train/extr_return_rate": 0.9383734172704269, "train/extr_return_raw_mag": 641.5367643395249, "train/extr_return_raw_max": 641.5367643395249, "train/extr_return_raw_mean": 242.51779548489318, "train/extr_return_raw_min": 0.767409597622503, "train/extr_return_raw_std": 159.25349646847263, "train/extr_reward_mag": 373.82363246087317, "train/extr_reward_max": 373.82363246087317, "train/extr_reward_mean": 1.314982835127383, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.136161114893802, "train/image_loss_mean": 0.8752488343894076, "train/image_loss_std": 0.8194588982329076, "train/model_loss_mean": 2.7023086580289464, "train/model_loss_std": 4.30002084232512, "train/model_opt_grad_norm": 9.617367692545157, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.7023086580289464, "train/policy_entropy_mag": 2.7477813221159435, "train/policy_entropy_max": 2.7477813221159435, "train/policy_entropy_mean": 0.7167929435262874, "train/policy_entropy_min": 0.08019125892394253, "train/policy_entropy_std": 0.6988263308596449, "train/policy_logprob_mag": 7.4955418418053865, "train/policy_logprob_max": -0.009489543545915156, "train/policy_logprob_mean": -0.7163406006332969, "train/policy_logprob_min": -7.4955418418053865, "train/policy_logprob_std": 1.2021106700507962, "train/policy_randomness_mag": 0.9506671132684565, "train/policy_randomness_max": 0.9506671132684565, "train/policy_randomness_mean": 0.24799334668383308, "train/policy_randomness_min": 0.027744272001543824, "train/policy_randomness_std": 0.24177732333845023, "train/post_ent_mag": 64.92049846519419, "train/post_ent_max": 64.92049846519419, "train/post_ent_mean": 40.15661911737351, "train/post_ent_min": 10.899073801884034, "train/post_ent_std": 5.75366650471071, "train/prior_ent_mag": 85.2315007423868, "train/prior_ent_max": 85.2315007423868, "train/prior_ent_mean": 43.07812762098248, "train/prior_ent_min": 13.406817896836468, "train/prior_ent_std": 7.880405571995949, "train/rep_loss_mean": 2.9316706592533865, "train/rep_loss_std": 6.246062132777, "train/reward_avg": 1.4928784013605443, "train/reward_loss_mean": 0.06759058565002721, "train/reward_loss_std": 0.2363613933122077, "train/reward_max_data": 325.9183673469388, "train/reward_max_pred": 295.2015065627844, "train/reward_neg_acc": 0.9844595137096587, "train/reward_neg_loss": 0.00505149755155712, "train/reward_pos_acc": 0.9960438682108509, "train/reward_pos_loss": 0.6138526566174566, "train/reward_pred": 1.39623486671318, "train/reward_rate": 0.10283136692176871, "train_stats/mean_log_entropy": 0.7494380176067352, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0007979315123520792, "report/cont_loss_std": 0.014822282828390598, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.08172464370727539, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0006395622622221708, "report/cont_pred": 0.997643768787384, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1140222549438477, "report/dyn_loss_std": 5.841949939727783, "report/image_loss_mean": 1.05511474609375, "report/image_loss_std": 0.7889345288276672, "report/model_loss_mean": 2.9862122535705566, "report/model_loss_std": 3.9767563343048096, "report/post_ent_mag": 63.13870620727539, "report/post_ent_max": 63.13870620727539, "report/post_ent_mean": 40.80775451660156, "report/post_ent_min": 24.263023376464844, "report/post_ent_std": 5.204126358032227, "report/prior_ent_mag": 85.4893569946289, "report/prior_ent_max": 85.4893569946289, "report/prior_ent_mean": 43.99688720703125, "report/prior_ent_min": 26.264907836914062, "report/prior_ent_std": 7.29604434967041, "report/rep_loss_mean": 3.1140222549438477, "report/rep_loss_std": 5.841949939727783, "report/reward_avg": 1.875, "report/reward_loss_mean": 0.061886437237262726, "report/reward_loss_std": 0.23321276903152466, "report/reward_max_data": 500.0, "report/reward_max_pred": 487.6586608886719, "report/reward_neg_acc": 0.9752688407897949, "report/reward_neg_loss": 0.005501066334545612, "report/reward_pos_acc": 0.9893616437911987, "report/reward_pos_loss": 0.619741678237915, "report/reward_pred": 1.8099265098571777, "report/reward_rate": 0.091796875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.006266305688768625, "eval/cont_loss_std": 0.1121489554643631, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.2720904350280762, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.001302289660088718, "eval/cont_pred": 0.9969396591186523, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.721066951751709, "eval/dyn_loss_std": 9.726577758789062, "eval/image_loss_mean": 1.414163589477539, "eval/image_loss_std": 1.930135726928711, "eval/model_loss_mean": 5.699645519256592, "eval/model_loss_std": 7.328468322753906, "eval/post_ent_mag": 64.86320495605469, "eval/post_ent_max": 64.86320495605469, "eval/post_ent_mean": 40.04857635498047, "eval/post_ent_min": 7.332216739654541, "eval/post_ent_std": 5.891317844390869, "eval/prior_ent_mag": 85.4893569946289, "eval/prior_ent_max": 85.4893569946289, "eval/prior_ent_mean": 44.088035583496094, "eval/prior_ent_min": 12.858902931213379, "eval/prior_ent_std": 8.16807746887207, "eval/rep_loss_mean": 6.721066951751709, "eval/rep_loss_std": 9.726577758789062, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.24657519161701202, "eval/reward_loss_std": 1.4345463514328003, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 496.07086181640625, "eval/reward_neg_acc": 0.9669966697692871, "eval/reward_neg_loss": 0.022840620949864388, "eval/reward_pos_acc": 0.8434782028198242, "eval/reward_pos_loss": 2.0150511264801025, "eval/reward_pred": 1.4355829954147339, "eval/reward_rate": 0.1123046875, "replay/size": 339551.0, "replay/inserts": 1413.0, "replay/samples": 23600.0, "replay/insert_wait_avg": 5.306627256011423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3533891257593187e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0712614059448242e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.1931965351105, "timer/replay._sample_count": 23600.0, "timer/replay._sample_total": 345.1035740375519, "timer/replay._sample_frac": 1.1933322712024914, "timer/replay._sample_avg": 0.014623032798201352, "timer/replay._sample_min": 0.003380298614501953, "timer/replay._sample_max": 0.04916119575500488, "timer/env.step_count": 1475.0, "timer/env.step_total": 6.447173118591309, "timer/env.step_frac": 0.022293654193239528, "timer/env.step_avg": 0.004370964826163599, "timer/env.step_min": 0.002339601516723633, "timer/env.step_max": 0.02842092514038086, "timer/agent.policy_count": 1475.0, "timer/agent.policy_total": 106.02909564971924, "timer/agent.policy_frac": 0.36663758663785306, "timer/agent.policy_avg": 0.07188413264387745, "timer/agent.policy_min": 0.003225088119506836, "timer/agent.policy_max": 0.09471654891967773, "timer/dataset_train_count": 1475.0, "timer/dataset_train_total": 0.14169073104858398, "timer/dataset_train_frac": 0.0004899518133421286, "timer/dataset_train_avg": 9.606151257531118e-05, "timer/dataset_train_min": 5.125999450683594e-05, "timer/dataset_train_max": 0.0006639957427978516, "timer/agent.train_count": 1475.0, "timer/agent.train_total": 175.28136897087097, "timer/agent.train_frac": 0.6061047461384187, "timer/agent.train_avg": 0.11883482642092948, "timer/agent.train_min": 0.10514974594116211, "timer/agent.train_max": 0.2060253620147705, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.27036070823669434, "timer/agent.report_frac": 0.0009348792138817494, "timer/agent.report_avg": 0.13518035411834717, "timer/agent.report_min": 0.10406780242919922, "timer/agent.report_max": 0.16629290580749512, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.747245788574219e-05, "timer/dataset_eval_frac": 2.3331274281049855e-07, "timer/dataset_eval_avg": 6.747245788574219e-05, "timer/dataset_eval_min": 6.747245788574219e-05, "timer/dataset_eval_max": 6.747245788574219e-05, "fps": 20.400532739410995}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 10.2901611328125, "train/action_min": 0.0, "train/action_std": 4.289059162139893, "train/actor_opt_grad_norm": 0.014407658949494362, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0013097781920805573, "train/adv_mag": 2.080950975418091, "train/adv_max": 2.080950975418091, "train/adv_mean": 0.0069726863875985146, "train/adv_min": -0.7859571576118469, "train/adv_std": 0.08586059510707855, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 3.1767215205036337e-06, "train/cont_loss_std": 9.867282642517239e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003158335108309984, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.250000942984116e-08, "train/cont_pred": 0.9990264177322388, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.5467095375061035, "train/dyn_loss_std": 5.250852584838867, "train/extr_critic_critic_opt_grad_norm": 1.062768816947937, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.248591661453247, "train/extr_critic_mag": 491.0856628417969, "train/extr_critic_max": 491.0856628417969, "train/extr_critic_mean": 278.556396484375, "train/extr_critic_min": 0.00014007091522216797, "train/extr_critic_std": 139.05001831054688, "train/extr_return_normed_mag": 2.643968105316162, "train/extr_return_normed_max": 2.643968105316162, "train/extr_return_normed_mean": 0.6348918080329895, "train/extr_return_normed_min": -0.014130305498838425, "train/extr_return_normed_std": 0.33380377292633057, "train/extr_return_rate": 0.9760417342185974, "train/extr_return_raw_mag": 1153.2294921875, "train/extr_return_raw_max": 1153.2294921875, "train/extr_return_raw_mean": 281.5815124511719, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 144.82244873046875, "train/extr_reward_mag": 872.6878662109375, "train/extr_reward_max": 872.6878662109375, "train/extr_reward_mean": 1.9564090967178345, "train/extr_reward_min": 0.0, "train/extr_reward_std": 21.575271606445312, "train/image_loss_mean": 0.6957722902297974, "train/image_loss_std": 0.5828337669372559, "train/model_loss_mean": 2.2976388931274414, "train/model_loss_std": 3.541167736053467, "train/model_opt_grad_norm": 6.788210868835449, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.2976388931274414, "train/policy_entropy_mag": 2.7610976696014404, "train/policy_entropy_max": 2.7610976696014404, "train/policy_entropy_mean": 0.6234089732170105, "train/policy_entropy_min": 0.08019119501113892, "train/policy_entropy_std": 0.6184643507003784, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6163680553436279, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1405043601989746, "train/policy_randomness_mag": 0.9552742838859558, "train/policy_randomness_max": 0.9552742838859558, "train/policy_randomness_mean": 0.215684711933136, "train/policy_randomness_min": 0.027744250372052193, "train/policy_randomness_std": 0.2139739841222763, "train/post_ent_mag": 66.66848754882812, "train/post_ent_max": 66.66848754882812, "train/post_ent_mean": 41.070091247558594, "train/post_ent_min": 9.712577819824219, "train/post_ent_std": 5.499189853668213, "train/prior_ent_mag": 85.2204360961914, "train/prior_ent_max": 85.2204360961914, "train/prior_ent_mean": 43.717140197753906, "train/prior_ent_min": 11.684405326843262, "train/prior_ent_std": 7.529991626739502, "train/rep_loss_mean": 2.5467095375061035, "train/rep_loss_std": 5.250852584838867, "train/reward_avg": 3.056640625, "train/reward_loss_mean": 0.07383778691291809, "train/reward_loss_std": 0.2474716305732727, "train/reward_max_data": 1000.0, "train/reward_max_pred": 904.6007080078125, "train/reward_neg_acc": 0.9889867305755615, "train/reward_neg_loss": 0.005689166020601988, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6072769165039062, "train/reward_pred": 2.915665626525879, "train/reward_rate": 0.11328125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.0255042980134021e-05, "report/cont_loss_std": 0.00027269512065686285, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.008512397296726704, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.9440537926129764e-06, "report/cont_pred": 0.9990297555923462, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.4936914443969727, "report/dyn_loss_std": 5.18566370010376, "report/image_loss_mean": 0.684738278388977, "report/image_loss_std": 0.5818017721176147, "report/model_loss_mean": 2.2511157989501953, "report/model_loss_std": 3.5144267082214355, "report/post_ent_mag": 66.67901611328125, "report/post_ent_max": 66.67901611328125, "report/post_ent_mean": 41.14529037475586, "report/post_ent_min": 9.870960235595703, "report/post_ent_std": 5.522439956665039, "report/prior_ent_mag": 85.18087005615234, "report/prior_ent_max": 85.18087005615234, "report/prior_ent_mean": 43.83300018310547, "report/prior_ent_min": 13.671812057495117, "report/prior_ent_std": 7.532557964324951, "report/rep_loss_mean": 2.4936914443969727, "report/rep_loss_std": 5.18566370010376, "report/reward_avg": 3.056640625, "report/reward_loss_mean": 0.07015234977006912, "report/reward_loss_std": 0.22348935902118683, "report/reward_max_data": 1000.0, "report/reward_max_pred": 916.15380859375, "report/reward_neg_acc": 0.9867841005325317, "report/reward_neg_loss": 0.00284946640022099, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5969714522361755, "report/reward_pred": 2.9424960613250732, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0017100769327953458, "eval/cont_loss_std": 0.037082891911268234, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5115643739700317, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0012116857105866075, "eval/cont_pred": 0.9986099004745483, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.428930282592773, "eval/dyn_loss_std": 10.98974609375, "eval/image_loss_mean": 3.377382278442383, "eval/image_loss_std": 3.24904465675354, "eval/model_loss_mean": 10.488557815551758, "eval/model_loss_std": 9.547894477844238, "eval/post_ent_mag": 62.491798400878906, "eval/post_ent_max": 62.491798400878906, "eval/post_ent_mean": 39.95321273803711, "eval/post_ent_min": 13.041940689086914, "eval/post_ent_std": 5.284353733062744, "eval/prior_ent_mag": 85.18087005615234, "eval/prior_ent_max": 85.18087005615234, "eval/prior_ent_mean": 45.267215728759766, "eval/prior_ent_min": 15.999159812927246, "eval/prior_ent_std": 7.300042152404785, "eval/rep_loss_mean": 11.428930282592773, "eval/rep_loss_std": 10.98974609375, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2521076202392578, "eval/reward_loss_std": 1.504040241241455, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010307312011719, "eval/reward_neg_acc": 0.9603429436683655, "eval/reward_neg_loss": 0.024517329409718513, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.585533857345581, "eval/reward_pred": 0.6811578273773193, "eval/reward_rate": 0.0888671875, "replay/size": 340060.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5710081372942244e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8094267163957869e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 91.31889510154724, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 16.88162088394165, "timer/replay._sample_frac": 0.18486448905420036, "timer/replay._sample_avg": 0.15072875789233617, "timer/replay._sample_min": 0.021919727325439453, "timer/replay._sample_max": 0.6156051158905029, "timer/env.step_count": 1.0, "timer/env.step_total": 0.028339862823486328, "timer/env.step_frac": 0.0003103395282211004, "timer/env.step_avg": 0.028339862823486328, "timer/env.step_min": 0.028339862823486328, "timer/env.step_max": 0.028339862823486328, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.01303505897522, "timer/agent.policy_frac": 0.10964910435940618, "timer/agent.policy_avg": 10.01303505897522, "timer/agent.policy_min": 10.01303505897522, "timer/agent.policy_max": 10.01303505897522, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.00036787986755371094, "timer/dataset_train_frac": 4.028518601157252e-06, "timer/dataset_train_avg": 0.00036787986755371094, "timer/dataset_train_min": 0.00036787986755371094, "timer/dataset_train_max": 0.00036787986755371094, "timer/agent.train_count": 1.0, "timer/agent.train_total": 54.81596660614014, "timer/agent.train_frac": 0.6002697091898057, "timer/agent.train_avg": 54.81596660614014, "timer/agent.train_min": 54.81596660614014, "timer/agent.train_max": 54.81596660614014, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.328552961349487, "timer/agent.report_frac": 0.12405486234532359, "timer/agent.report_avg": 5.664276480674744, "timer/agent.report_min": 0.10422062873840332, "timer/agent.report_max": 11.224332332611084, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001628398895263672, "timer/dataset_eval_frac": 1.7832003918278699e-06, "timer/dataset_eval_avg": 0.0001628398895263672, "timer/dataset_eval_min": 0.0001628398895263672, "timer/dataset_eval_max": 0.0001628398895263672}
+{"step": 595540, "episode/length": 384.0, "episode/score": 1010.0, "episode/reward_rate": 0.13246753246753246}
+{"step": 597240, "episode/length": 424.0, "episode/score": 1030.0, "episode/reward_rate": 0.12705882352941175}
+{"step": 599148, "episode/length": 476.0, "episode/score": 1150.0, "episode/reward_rate": 0.13836477987421383}
+{"step": 599888, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.505929959874575, "train/action_min": 0.0, "train/action_std": 4.309066981685405, "train/actor_opt_grad_norm": 0.009043202079756528, "train/actor_opt_grad_steps": 148140.0, "train/actor_opt_loss": 4.69565735069669e-06, "train/adv_mag": 0.8703936798637416, "train/adv_max": 0.8450953807352352, "train/adv_mean": 0.0022394525610073034, "train/adv_min": -0.5647800867857576, "train/adv_std": 0.04125098205570664, "train/cont_avg": 0.9980203018707483, "train/cont_loss_mean": 0.0004738948827033077, "train/cont_loss_std": 0.012367012383810069, "train/cont_neg_acc": 0.9396766179533147, "train/cont_neg_loss": 0.14834143706713715, "train/cont_pos_acc": 0.9999400093441918, "train/cont_pos_loss": 0.00018751173109468781, "train/cont_pred": 0.9980182274669206, "train/cont_rate": 0.9980203018707483, "train/dyn_loss_mean": 2.923486378728127, "train/dyn_loss_std": 6.192875469622969, "train/extr_critic_critic_opt_grad_norm": 1.5234711243181813, "train/extr_critic_critic_opt_grad_steps": 148140.0, "train/extr_critic_critic_opt_loss": 1.4105694034472616, "train/extr_critic_mag": 479.9635908684763, "train/extr_critic_max": 479.9635908684763, "train/extr_critic_mean": 238.7665125009965, "train/extr_critic_min": 0.18724277879105133, "train/extr_critic_std": 158.41417133564852, "train/extr_return_normed_mag": 1.442368363442064, "train/extr_return_normed_max": 1.442368363442064, "train/extr_return_normed_mean": 0.5328527989030696, "train/extr_return_normed_min": -0.016546538391080844, "train/extr_return_normed_std": 0.3660747666342729, "train/extr_return_rate": 0.9383167271711388, "train/extr_return_raw_mag": 636.4296731754225, "train/extr_return_raw_max": 636.4296731754225, "train/extr_return_raw_mean": 239.74352300734748, "train/extr_return_raw_min": 0.19723479682579637, "train/extr_return_raw_std": 159.62207648867653, "train/extr_reward_mag": 359.9990141797228, "train/extr_reward_max": 359.9990141797228, "train/extr_reward_mean": 1.24978624963436, "train/extr_reward_min": 0.0, "train/extr_reward_std": 10.177221692338282, "train/image_loss_mean": 0.8878355164106201, "train/image_loss_std": 0.8203588415976284, "train/model_loss_mean": 2.710295141959677, "train/model_loss_std": 4.2666316778481415, "train/model_opt_grad_norm": 9.103645516090653, "train/model_opt_grad_steps": 148140.0, "train/model_opt_loss": 2.710295141959677, "train/policy_entropy_mag": 2.7526135428422163, "train/policy_entropy_max": 2.7526135428422163, "train/policy_entropy_mean": 0.7202671525024232, "train/policy_entropy_min": 0.08019124072830693, "train/policy_entropy_std": 0.7047223639326031, "train/policy_logprob_mag": 7.495541598521123, "train/policy_logprob_max": -0.00948953551246601, "train/policy_logprob_mean": -0.7197901730229255, "train/policy_logprob_min": -7.495541598521123, "train/policy_logprob_std": 1.2057621349282817, "train/policy_randomness_mag": 0.9523389469198629, "train/policy_randomness_max": 0.9523389469198629, "train/policy_randomness_mean": 0.249195338613322, "train/policy_randomness_min": 0.02774426581806877, "train/policy_randomness_std": 0.2438172100960803, "train/post_ent_mag": 64.70798879091431, "train/post_ent_max": 64.70798879091431, "train/post_ent_mean": 40.11747848095537, "train/post_ent_min": 11.183928113405397, "train/post_ent_std": 5.723175431595368, "train/prior_ent_mag": 85.31182664105681, "train/prior_ent_max": 85.31182664105681, "train/prior_ent_mean": 43.05336618747841, "train/prior_ent_min": 13.626302816429916, "train/prior_ent_std": 7.860983183594788, "train/rep_loss_mean": 2.923486378728127, "train/rep_loss_std": 6.192875469622969, "train/reward_avg": 1.4780638818027212, "train/reward_loss_mean": 0.06789389191841592, "train/reward_loss_std": 0.23719296893294978, "train/reward_max_data": 316.25850340136054, "train/reward_max_pred": 260.3360893483065, "train/reward_neg_acc": 0.9825101551555452, "train/reward_neg_loss": 0.005955281758484538, "train/reward_pos_acc": 0.9952415333313196, "train/reward_pos_loss": 0.6147246908168403, "train/reward_pred": 1.356688138173551, "train/reward_rate": 0.1020142431972789, "train_stats/mean_log_entropy": 0.6263254483540853, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.5610726627055556e-05, "report/cont_loss_std": 0.001034619053825736, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.0034541345667094e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.559662582119927e-05, "report/cont_pred": 0.9989884495735168, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.8961126804351807, "report/dyn_loss_std": 6.179245948791504, "report/image_loss_mean": 0.9870845079421997, "report/image_loss_std": 0.7733777165412903, "report/model_loss_mean": 2.7940914630889893, "report/model_loss_std": 4.2080512046813965, "report/post_ent_mag": 62.95891189575195, "report/post_ent_max": 62.95891189575195, "report/post_ent_mean": 39.9592399597168, "report/post_ent_min": 9.48430061340332, "report/post_ent_std": 4.9017839431762695, "report/prior_ent_mag": 85.66050720214844, "report/prior_ent_max": 85.66050720214844, "report/prior_ent_mean": 42.77919387817383, "report/prior_ent_min": 11.370144844055176, "report/prior_ent_std": 7.276822090148926, "report/rep_loss_mean": 2.8961126804351807, "report/rep_loss_std": 6.179245948791504, "report/reward_avg": 1.884765625, "report/reward_loss_mean": 0.0693037211894989, "report/reward_loss_std": 0.2542142868041992, "report/reward_max_data": 500.0, "report/reward_max_pred": 492.8524169921875, "report/reward_neg_acc": 0.9709364771842957, "report/reward_neg_loss": 0.011385178193449974, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6356860399246216, "report/reward_pred": 1.7760777473449707, "report/reward_rate": 0.0927734375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.012755610048770905, "eval/cont_loss_std": 0.16353479027748108, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 1.8960247039794922, "eval/cont_pos_acc": 0.9970587491989136, "eval/cont_pos_loss": 0.005370242055505514, "eval/cont_pred": 0.9956594109535217, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.589444160461426, "eval/dyn_loss_std": 9.983875274658203, "eval/image_loss_mean": 1.4300215244293213, "eval/image_loss_std": 2.024502754211426, "eval/model_loss_mean": 5.665221214294434, "eval/model_loss_std": 7.592042922973633, "eval/post_ent_mag": 65.58479309082031, "eval/post_ent_max": 65.58479309082031, "eval/post_ent_mean": 40.20240020751953, "eval/post_ent_min": 9.204084396362305, "eval/post_ent_std": 6.134604454040527, "eval/prior_ent_mag": 85.66050720214844, "eval/prior_ent_max": 85.66050720214844, "eval/prior_ent_mean": 43.99639129638672, "eval/prior_ent_min": 9.679401397705078, "eval/prior_ent_std": 8.302460670471191, "eval/rep_loss_mean": 6.589444160461426, "eval/rep_loss_std": 9.983875274658203, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.2687780261039734, "eval/reward_loss_std": 1.5304887294769287, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 302.69110107421875, "eval/reward_neg_acc": 0.9680967926979065, "eval/reward_neg_loss": 0.029115911573171616, "eval/reward_pos_acc": 0.8434782028198242, "eval/reward_pos_loss": 2.1631505489349365, "eval/reward_pred": 1.253306269645691, "eval/reward_rate": 0.1123046875, "replay/size": 341469.0, "replay/inserts": 1409.0, "replay/samples": 23536.0, "replay/insert_wait_avg": 5.208489910095951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3208952507625868e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.115964889526367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 288.95430994033813, "timer/replay._sample_count": 23536.0, "timer/replay._sample_total": 363.23339915275574, "timer/replay._sample_frac": 1.257061710648145, "timer/replay._sample_avg": 0.015433098196497099, "timer/replay._sample_min": 0.00041866302490234375, "timer/replay._sample_max": 0.09631800651550293, "timer/env.step_count": 1471.0, "timer/env.step_total": 6.808677911758423, "timer/env.step_frac": 0.02356316440880998, "timer/env.step_avg": 0.004628604970603958, "timer/env.step_min": 0.0026006698608398438, "timer/env.step_max": 0.034124135971069336, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 104.35741186141968, "timer/agent.policy_frac": 0.361155408559114, "timer/agent.policy_avg": 0.07094317597649197, "timer/agent.policy_min": 0.0031676292419433594, "timer/agent.policy_max": 0.09104609489440918, "timer/dataset_train_count": 1471.0, "timer/dataset_train_total": 0.151780366897583, "timer/dataset_train_frac": 0.0005252746253513985, "timer/dataset_train_avg": 0.00010318175859794902, "timer/dataset_train_min": 5.817413330078125e-05, "timer/dataset_train_max": 0.00044846534729003906, "timer/agent.train_count": 1471.0, "timer/agent.train_total": 176.28681063652039, "timer/agent.train_frac": 0.6100854168706438, "timer/agent.train_avg": 0.11984147561966035, "timer/agent.train_min": 0.10619688034057617, "timer/agent.train_max": 0.20819830894470215, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.26271891593933105, "timer/agent.report_frac": 0.0009092057356527264, "timer/agent.report_avg": 0.13135945796966553, "timer/agent.report_min": 0.10266447067260742, "timer/agent.report_max": 0.16005444526672363, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.083747863769531e-05, "timer/dataset_eval_frac": 3.1436623546626107e-07, "timer/dataset_eval_avg": 9.083747863769531e-05, "timer/dataset_eval_min": 9.083747863769531e-05, "timer/dataset_eval_max": 9.083747863769531e-05, "fps": 20.361611241754222}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.919189453125, "train/action_min": 0.0, "train/action_std": 4.763094902038574, "train/actor_opt_grad_norm": 0.007469731383025646, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.0005293449503369629, "train/adv_mag": 0.9735181927680969, "train/adv_max": 0.9735181927680969, "train/adv_mean": 0.003345634788274765, "train/adv_min": -0.7257456183433533, "train/adv_std": 0.03932726010680199, "train/cont_avg": 0.9990234375, "train/cont_loss_mean": 3.123486749245785e-07, "train/cont_loss_std": 3.927013494831044e-06, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.29703819565475e-05, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.21773873931852e-07, "train/cont_pred": 0.9990233182907104, "train/cont_rate": 0.9990234375, "train/dyn_loss_mean": 2.673576831817627, "train/dyn_loss_std": 5.754738807678223, "train/extr_critic_critic_opt_grad_norm": 1.381637454032898, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.3448448181152344, "train/extr_critic_mag": 484.89068603515625, "train/extr_critic_max": 484.89068603515625, "train/extr_critic_mean": 234.94630432128906, "train/extr_critic_min": 0.00018656253814697266, "train/extr_critic_std": 159.26556396484375, "train/extr_return_normed_mag": 1.352850317955017, "train/extr_return_normed_max": 1.352850317955017, "train/extr_return_normed_mean": 0.5313732028007507, "train/extr_return_normed_min": -0.013346838764846325, "train/extr_return_normed_std": 0.37077099084854126, "train/extr_return_rate": 0.9151692986488342, "train/extr_return_raw_mag": 592.9038696289062, "train/extr_return_raw_max": 592.9038696289062, "train/extr_return_raw_mean": 236.3982391357422, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 160.90762329101562, "train/extr_reward_mag": 500.04974365234375, "train/extr_reward_max": 500.04974365234375, "train/extr_reward_mean": 1.3268667459487915, "train/extr_reward_min": 0.0, "train/extr_reward_std": 17.220260620117188, "train/image_loss_mean": 0.7784419059753418, "train/image_loss_std": 0.744170606136322, "train/model_loss_mean": 2.423708915710449, "train/model_loss_std": 3.9234864711761475, "train/model_opt_grad_norm": 7.1850996017456055, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.423708915710449, "train/policy_entropy_mag": 2.791579008102417, "train/policy_entropy_max": 2.791579008102417, "train/policy_entropy_mean": 0.8645632863044739, "train/policy_entropy_min": 0.0801914781332016, "train/policy_entropy_std": 0.7566852569580078, "train/policy_logprob_mag": 7.49553918838501, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.8549119234085083, "train/policy_logprob_min": -7.49553918838501, "train/policy_logprob_std": 1.2444514036178589, "train/policy_randomness_mag": 0.9658200740814209, "train/policy_randomness_max": 0.9658200740814209, "train/policy_randomness_mean": 0.29911836981773376, "train/policy_randomness_min": 0.027744347229599953, "train/policy_randomness_std": 0.26179513335227966, "train/post_ent_mag": 67.82240295410156, "train/post_ent_max": 67.82240295410156, "train/post_ent_mean": 39.70154571533203, "train/post_ent_min": 8.497734069824219, "train/post_ent_std": 6.331284046173096, "train/prior_ent_mag": 85.22042846679688, "train/prior_ent_max": 85.22042846679688, "train/prior_ent_mean": 42.578102111816406, "train/prior_ent_min": 10.28565788269043, "train/prior_ent_std": 8.358355522155762, "train/rep_loss_mean": 2.673576831817627, "train/rep_loss_std": 5.754738807678223, "train/reward_avg": 1.19140625, "train/reward_loss_mean": 0.04112059995532036, "train/reward_loss_std": 0.14758364856243134, "train/reward_max_data": 500.0, "train/reward_max_pred": 499.2762145996094, "train/reward_neg_acc": 0.9873949885368347, "train/reward_neg_loss": 0.001815376221202314, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.5608229637145996, "train/reward_pred": 1.175591230392456, "train/reward_rate": 0.0703125, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4142495956548373e-06, "report/cont_loss_std": 2.345051325391978e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.977300578611903e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4058790611670702e-06, "report/cont_pred": 0.9990220665931702, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6086392402648926, "report/dyn_loss_std": 5.671748161315918, "report/image_loss_mean": 0.7528027296066284, "report/image_loss_std": 0.6592075824737549, "report/model_loss_mean": 2.359610080718994, "report/model_loss_std": 3.8019134998321533, "report/post_ent_mag": 67.83888244628906, "report/post_ent_max": 67.83888244628906, "report/post_ent_mean": 39.703556060791016, "report/post_ent_min": 8.336932182312012, "report/post_ent_std": 6.401758193969727, "report/prior_ent_mag": 85.18473052978516, "report/prior_ent_max": 85.18473052978516, "report/prior_ent_mean": 42.52101516723633, "report/prior_ent_min": 10.113420486450195, "report/prior_ent_std": 8.369726181030273, "report/rep_loss_mean": 2.6086392402648926, "report/rep_loss_std": 5.671748161315918, "report/reward_avg": 1.19140625, "report/reward_loss_mean": 0.0416223406791687, "report/reward_loss_std": 0.15339156985282898, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.879150390625, "report/reward_neg_acc": 0.9873949885368347, "report/reward_neg_loss": 0.0018732864409685135, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5671932101249695, "report/reward_pred": 1.1769075393676758, "report/reward_rate": 0.0703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001789817470125854, "eval/cont_loss_std": 0.04130301624536514, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.09047512710094452, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.001703126123175025, "eval/cont_pred": 0.9980151653289795, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.117673873901367, "eval/dyn_loss_std": 10.64471435546875, "eval/image_loss_mean": 3.3284201622009277, "eval/image_loss_std": 3.2205443382263184, "eval/model_loss_mean": 10.249551773071289, "eval/model_loss_std": 9.258655548095703, "eval/post_ent_mag": 62.50816345214844, "eval/post_ent_max": 62.50816345214844, "eval/post_ent_mean": 39.99137878417969, "eval/post_ent_min": 12.916196823120117, "eval/post_ent_std": 5.257755279541016, "eval/prior_ent_mag": 85.18473052978516, "eval/prior_ent_max": 85.18473052978516, "eval/prior_ent_mean": 45.28280258178711, "eval/prior_ent_min": 14.344482421875, "eval/prior_ent_std": 7.32644510269165, "eval/rep_loss_mean": 11.117673873901367, "eval/rep_loss_std": 10.64471435546875, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.24873775243759155, "eval/reward_loss_std": 1.4170230627059937, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.01032829284668, "eval/reward_neg_acc": 0.9560557007789612, "eval/reward_neg_loss": 0.02051517553627491, "eval/reward_pos_acc": 0.791208803653717, "eval/reward_pos_loss": 2.588646173477173, "eval/reward_pred": 0.6476538181304932, "eval/reward_rate": 0.0888671875, "replay/size": 341982.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.6668013163975308e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9243785313197544e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 93.41970109939575, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 17.44376564025879, "timer/replay._sample_frac": 0.1867246997686189, "timer/replay._sample_avg": 0.15574790750231063, "timer/replay._sample_min": 0.02174067497253418, "timer/replay._sample_max": 0.7548568248748779, "timer/env.step_count": 1.0, "timer/env.step_total": 0.03582167625427246, "timer/env.step_frac": 0.0003834488425108455, "timer/env.step_avg": 0.03582167625427246, "timer/env.step_min": 0.03582167625427246, "timer/env.step_max": 0.03582167625427246, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.733927249908447, "timer/agent.policy_frac": 0.10419565825362513, "timer/agent.policy_avg": 9.733927249908447, "timer/agent.policy_min": 9.733927249908447, "timer/agent.policy_max": 9.733927249908447, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 5.14984130859375e-05, "timer/dataset_train_frac": 5.512585940640587e-07, "timer/dataset_train_avg": 5.14984130859375e-05, "timer/dataset_train_min": 5.14984130859375e-05, "timer/dataset_train_max": 5.14984130859375e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.091527223587036, "timer/agent.train_frac": 0.6004250341574883, "timer/agent.train_avg": 56.091527223587036, "timer/agent.train_min": 56.091527223587036, "timer/agent.train_max": 56.091527223587036, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.081090688705444, "timer/agent.report_frac": 0.11861620791224216, "timer/agent.report_avg": 5.540545344352722, "timer/agent.report_min": 0.10289525985717773, "timer/agent.report_max": 10.978195428848267, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.000202178955078125, "timer/dataset_eval_frac": 2.164200406325564e-06, "timer/dataset_eval_avg": 0.000202178955078125, "timer/dataset_eval_min": 0.000202178955078125, "timer/dataset_eval_max": 0.000202178955078125}
+{"step": 597136, "episode/length": 783.0, "episode/score": 1100.0, "episode/reward_rate": 0.0778061224489796}
+{"step": 598744, "episode/length": 401.0, "episode/score": 1000.0, "episode/reward_rate": 0.12686567164179105}
+{"step": 599828, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.592617692618534, "train/action_min": 0.0, "train/action_std": 4.266545399304094, "train/actor_opt_grad_norm": 0.00961782091843157, "train/actor_opt_grad_steps": 148130.0, "train/actor_opt_loss": 0.00019729051361129426, "train/adv_mag": 1.0078029141343874, "train/adv_max": 0.966947766624648, "train/adv_mean": 0.0027516158941580217, "train/adv_min": -0.6589424268952732, "train/adv_std": 0.04752283346164843, "train/cont_avg": 0.9981883081896552, "train/cont_loss_mean": 0.0003654988730583338, "train/cont_loss_std": 0.009370787642794295, "train/cont_neg_acc": 0.9484496130499729, "train/cont_neg_loss": 0.11775829334825509, "train/cont_pos_acc": 0.9999662374628001, "train/cont_pos_loss": 0.00015432512537600227, "train/cont_pred": 0.9981719954260464, "train/cont_rate": 0.9981883081896552, "train/dyn_loss_mean": 2.9235131641914105, "train/dyn_loss_std": 6.20031062159045, "train/extr_critic_critic_opt_grad_norm": 1.478262357465152, "train/extr_critic_critic_opt_grad_steps": 148130.0, "train/extr_critic_critic_opt_loss": 1.3917869929609628, "train/extr_critic_mag": 506.57575241615035, "train/extr_critic_max": 506.57575241615035, "train/extr_critic_mean": 246.66811123551994, "train/extr_critic_min": 0.668879770410472, "train/extr_critic_std": 158.29231051740976, "train/extr_return_normed_mag": 1.6307960288277987, "train/extr_return_normed_max": 1.6307960288277987, "train/extr_return_normed_mean": 0.550106339208011, "train/extr_return_normed_min": -0.015900847274039325, "train/extr_return_normed_std": 0.36701535623649073, "train/extr_return_rate": 0.9438349086662818, "train/extr_return_raw_mag": 719.598831702923, "train/extr_return_raw_max": 719.598831702923, "train/extr_return_raw_mean": 247.86980075178477, "train/extr_return_raw_min": 0.8093468708530116, "train/extr_return_raw_std": 160.20609025626348, "train/extr_reward_mag": 405.84305068706647, "train/extr_reward_max": 405.84305068706647, "train/extr_reward_mean": 1.358854507988897, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.958910453730615, "train/image_loss_mean": 0.8729064501565078, "train/image_loss_std": 0.807002973145452, "train/model_loss_mean": 2.694345336124815, "train/model_loss_std": 4.258003512744246, "train/model_opt_grad_norm": 9.285036843398522, "train/model_opt_grad_steps": 148130.0, "train/model_opt_loss": 2.694345336124815, "train/policy_entropy_mag": 2.741768878081749, "train/policy_entropy_max": 2.741768878081749, "train/policy_entropy_mean": 0.6990632349047168, "train/policy_entropy_min": 0.08019121890438013, "train/policy_entropy_std": 0.6912457540117461, "train/policy_logprob_mag": 7.495541723843279, "train/policy_logprob_max": -0.009489538604072456, "train/policy_logprob_mean": -0.6983669766064348, "train/policy_logprob_min": -7.495541723843279, "train/policy_logprob_std": 1.1934686586774628, "train/policy_randomness_mag": 0.9485869514531102, "train/policy_randomness_max": 0.9485869514531102, "train/policy_randomness_mean": 0.24185928712631094, "train/policy_randomness_min": 0.027744258285082618, "train/policy_randomness_std": 0.23915462175319935, "train/post_ent_mag": 64.8772156814049, "train/post_ent_max": 64.8772156814049, "train/post_ent_mean": 40.247472065892715, "train/post_ent_min": 10.636414192462789, "train/post_ent_std": 5.711438613102354, "train/prior_ent_mag": 85.28959550528691, "train/prior_ent_max": 85.28959550528691, "train/prior_ent_mean": 43.16535865520609, "train/prior_ent_min": 12.942228271221293, "train/prior_ent_std": 7.828296325946677, "train/rep_loss_mean": 2.9235131641914105, "train/rep_loss_std": 6.20031062159045, "train/reward_avg": 1.5334051724137931, "train/reward_loss_mean": 0.06696549504995346, "train/reward_loss_std": 0.2261545508072294, "train/reward_max_data": 337.1034482758621, "train/reward_max_pred": 299.15797273701634, "train/reward_neg_acc": 0.9832441325845389, "train/reward_neg_loss": 0.005201192096614375, "train/reward_pos_acc": 0.9971535822440838, "train/reward_pos_loss": 0.6044427329096301, "train/reward_pred": 1.4235898083653944, "train/reward_rate": 0.10331357758620689, "train_stats/mean_log_entropy": 0.7867594957351685, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.965299910646536e-08, "report/cont_loss_std": 8.763540222389565e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.965299910646536e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.0956053733825684, "report/dyn_loss_std": 6.122330188751221, "report/image_loss_mean": 0.9942407011985779, "report/image_loss_std": 0.8864707946777344, "report/model_loss_mean": 2.9163055419921875, "report/model_loss_std": 4.26287841796875, "report/post_ent_mag": 57.52455520629883, "report/post_ent_max": 57.52455520629883, "report/post_ent_mean": 40.418609619140625, "report/post_ent_min": 9.214859008789062, "report/post_ent_std": 5.636730194091797, "report/prior_ent_mag": 85.36527252197266, "report/prior_ent_max": 85.36527252197266, "report/prior_ent_mean": 43.62339782714844, "report/prior_ent_min": 9.48548412322998, "report/prior_ent_std": 7.250607967376709, "report/rep_loss_mean": 3.0956053733825684, "report/rep_loss_std": 6.122330188751221, "report/reward_avg": 1.787109375, "report/reward_loss_mean": 0.06470144540071487, "report/reward_loss_std": 0.3185465633869171, "report/reward_max_data": 500.0, "report/reward_max_pred": 498.789306640625, "report/reward_neg_acc": 0.9776595234870911, "report/reward_neg_loss": 0.006288694683462381, "report/reward_pos_acc": 0.9761905074119568, "report/reward_pos_loss": 0.7183679342269897, "report/reward_pred": 1.7368090152740479, "report/reward_rate": 0.08203125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.019328469410538673, "eval/cont_loss_std": 0.39738157391548157, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 4.802393913269043, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.0005713484133593738, "eval/cont_pred": 0.9987851977348328, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.468146324157715, "eval/dyn_loss_std": 9.369248390197754, "eval/image_loss_mean": 1.4088919162750244, "eval/image_loss_std": 1.9976773262023926, "eval/model_loss_mean": 5.530977249145508, "eval/model_loss_std": 7.1700568199157715, "eval/post_ent_mag": 64.01929473876953, "eval/post_ent_max": 64.01929473876953, "eval/post_ent_mean": 40.1487922668457, "eval/post_ent_min": 7.739168167114258, "eval/post_ent_std": 5.851747512817383, "eval/prior_ent_mag": 85.36527252197266, "eval/prior_ent_max": 85.36527252197266, "eval/prior_ent_mean": 44.191802978515625, "eval/prior_ent_min": 9.083107948303223, "eval/prior_ent_std": 8.303360939025879, "eval/rep_loss_mean": 6.468146324157715, "eval/rep_loss_std": 9.369248390197754, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.22186914086341858, "eval/reward_loss_std": 1.278944969177246, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 497.6153259277344, "eval/reward_neg_acc": 0.9680967926979065, "eval/reward_neg_loss": 0.021855473518371582, "eval/reward_pos_acc": 0.8782608509063721, "eval/reward_pos_loss": 1.8028466701507568, "eval/reward_pred": 1.4237960577011108, "eval/reward_rate": 0.1123046875, "replay/size": 343376.0, "replay/inserts": 1394.0, "replay/samples": 23296.0, "replay/insert_wait_avg": 5.0849517756589346e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4162653095119602e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.9355287551879883e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.36564326286316, "timer/replay._sample_count": 23296.0, "timer/replay._sample_total": 365.311146736145, "timer/replay._sample_frac": 1.2624551505732562, "timer/replay._sample_avg": 0.015681282054264466, "timer/replay._sample_min": 0.0004341602325439453, "timer/replay._sample_max": 0.04165768623352051, "timer/env.step_count": 1456.0, "timer/env.step_total": 6.5582380294799805, "timer/env.step_frac": 0.02266419038393718, "timer/env.step_avg": 0.00450428436090658, "timer/env.step_min": 0.002482891082763672, "timer/env.step_max": 0.03240394592285156, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 103.48434734344482, "timer/agent.policy_frac": 0.35762485890364815, "timer/agent.policy_avg": 0.07107441438423408, "timer/agent.policy_min": 0.0031042098999023438, "timer/agent.policy_max": 0.08481264114379883, "timer/dataset_train_count": 1456.0, "timer/dataset_train_total": 0.15777802467346191, "timer/dataset_train_frac": 0.0005452548647253692, "timer/dataset_train_avg": 0.00010836402793507, "timer/dataset_train_min": 6.29425048828125e-05, "timer/dataset_train_max": 0.0035393238067626953, "timer/agent.train_count": 1456.0, "timer/agent.train_total": 177.8183147907257, "timer/agent.train_frac": 0.6145108064166189, "timer/agent.train_avg": 0.12212796345516876, "timer/agent.train_min": 0.10825204849243164, "timer/agent.train_max": 0.2087879180908203, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2743995189666748, "timer/agent.report_frac": 0.0009482795395907007, "timer/agent.report_avg": 0.1371997594833374, "timer/agent.report_min": 0.1054697036743164, "timer/agent.report_max": 0.1689298152923584, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.581710815429688e-05, "timer/dataset_eval_frac": 2.620114374995919e-07, "timer/dataset_eval_avg": 7.581710815429688e-05, "timer/dataset_eval_min": 7.581710815429688e-05, "timer/dataset_eval_max": 7.581710815429688e-05, "fps": 20.125680697624563}
+{"step": 594004, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.10009765625, "train/action_min": 0.0, "train/action_std": 4.221034049987793, "train/actor_opt_grad_norm": 0.011781970039010048, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.00048358988715335727, "train/adv_mag": 0.8793120980262756, "train/adv_max": 0.8793120980262756, "train/adv_mean": 0.0026548486202955246, "train/adv_min": -0.6841374039649963, "train/adv_std": 0.04383329302072525, "train/cont_avg": 0.998046875, "train/cont_loss_mean": 4.440043630893342e-05, "train/cont_loss_std": 0.0008023229893296957, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009383453871123493, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.2651034164009616e-05, "train/cont_pred": 0.9980064630508423, "train/cont_rate": 0.998046875, "train/dyn_loss_mean": 2.798854351043701, "train/dyn_loss_std": 5.660184860229492, "train/extr_critic_critic_opt_grad_norm": 1.329728603363037, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.4022725820541382, "train/extr_critic_mag": 475.6094970703125, "train/extr_critic_max": 475.6094970703125, "train/extr_critic_mean": 242.92408752441406, "train/extr_critic_min": 3.6835670471191406e-05, "train/extr_critic_std": 161.8624267578125, "train/extr_return_normed_mag": 1.3274027109146118, "train/extr_return_normed_max": 1.3274027109146118, "train/extr_return_normed_mean": 0.5487130880355835, "train/extr_return_normed_min": -0.013337976299226284, "train/extr_return_normed_std": 0.3746810853481293, "train/extr_return_rate": 0.9145182967185974, "train/extr_return_raw_mag": 582.2317504882812, "train/extr_return_raw_max": 582.2317504882812, "train/extr_return_raw_mean": 244.0769805908203, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 162.70948791503906, "train/extr_reward_mag": 498.88037109375, "train/extr_reward_max": 498.88037109375, "train/extr_reward_mean": 1.2693344354629517, "train/extr_reward_min": 0.0, "train/extr_reward_std": 11.19693374633789, "train/image_loss_mean": 0.8906815052032471, "train/image_loss_std": 0.683410108089447, "train/model_loss_mean": 2.64449143409729, "train/model_loss_std": 3.832873582839966, "train/model_opt_grad_norm": 7.5805840492248535, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 2.64449143409729, "train/policy_entropy_mag": 2.7745702266693115, "train/policy_entropy_max": 2.7745702266693115, "train/policy_entropy_mean": 0.6832858920097351, "train/policy_entropy_min": 0.08019115775823593, "train/policy_entropy_std": 0.7046073079109192, "train/policy_logprob_mag": 7.495542049407959, "train/policy_logprob_max": -0.00948954839259386, "train/policy_logprob_mean": -0.6792235374450684, "train/policy_logprob_min": -7.495542049407959, "train/policy_logprob_std": 1.1758332252502441, "train/policy_randomness_mag": 0.9599354267120361, "train/policy_randomness_max": 0.9599354267120361, "train/policy_randomness_mean": 0.23640067875385284, "train/policy_randomness_min": 0.027744237333536148, "train/policy_randomness_std": 0.24377740919589996, "train/post_ent_mag": 64.17669677734375, "train/post_ent_max": 64.17669677734375, "train/post_ent_mean": 41.21454620361328, "train/post_ent_min": 20.624731063842773, "train/post_ent_std": 4.865030288696289, "train/prior_ent_mag": 85.22042846679688, "train/prior_ent_max": 85.22042846679688, "train/prior_ent_mean": 44.215484619140625, "train/prior_ent_min": 23.281845092773438, "train/prior_ent_std": 7.256644248962402, "train/rep_loss_mean": 2.798854351043701, "train/rep_loss_std": 5.660184860229492, "train/reward_avg": 1.611328125, "train/reward_loss_mean": 0.07445301115512848, "train/reward_loss_std": 0.22490094602108002, "train/reward_max_data": 500.0, "train/reward_max_pred": 473.4515075683594, "train/reward_neg_acc": 0.9823982119560242, "train/reward_neg_loss": 0.008457722142338753, "train/reward_pos_acc": 0.9999999403953552, "train/reward_pos_loss": 0.596102774143219, "train/reward_pred": 1.5447068214416504, "train/reward_rate": 0.1123046875, "train/params_agent/wm/model_opt": 15693955.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1059858.0, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00011078693205490708, "report/cont_loss_std": 0.0031701165717095137, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.05065452307462692, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1875514246639796e-05, "report/cont_pred": 0.99812912940979, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.8216171264648438, "report/dyn_loss_std": 5.655733585357666, "report/image_loss_mean": 0.886755108833313, "report/image_loss_std": 0.6758187413215637, "report/model_loss_mean": 2.6485204696655273, "report/model_loss_std": 3.82515025138855, "report/post_ent_mag": 64.18399810791016, "report/post_ent_max": 64.18399810791016, "report/post_ent_mean": 41.35414123535156, "report/post_ent_min": 21.306129455566406, "report/post_ent_std": 4.818498134613037, "report/prior_ent_mag": 85.17665100097656, "report/prior_ent_max": 85.17665100097656, "report/prior_ent_mean": 44.216026306152344, "report/prior_ent_min": 24.24230194091797, "report/prior_ent_std": 7.225021839141846, "report/rep_loss_mean": 2.8216171264648438, "report/rep_loss_std": 5.655733585357666, "report/reward_avg": 1.611328125, "report/reward_loss_mean": 0.06868445873260498, "report/reward_loss_std": 0.19509130716323853, "report/reward_max_data": 500.0, "report/reward_max_pred": 19.99837875366211, "report/reward_neg_acc": 0.9878987669944763, "report/reward_neg_loss": 0.004198160488158464, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5784065127372742, "report/reward_pred": 1.094677209854126, "report/reward_rate": 0.1123046875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001193382777273655, "eval/cont_loss_std": 0.022300103679299355, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.2706451714038849, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0009299890953116119, "eval/cont_pred": 0.9985095262527466, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.374866485595703, "eval/dyn_loss_std": 11.0084810256958, "eval/image_loss_mean": 3.376953125, "eval/image_loss_std": 3.3184938430786133, "eval/model_loss_mean": 10.458094596862793, "eval/model_loss_std": 9.649768829345703, "eval/post_ent_mag": 62.516502380371094, "eval/post_ent_max": 62.516502380371094, "eval/post_ent_mean": 39.884403228759766, "eval/post_ent_min": 12.395282745361328, "eval/post_ent_std": 5.2743988037109375, "eval/prior_ent_mag": 85.17665100097656, "eval/prior_ent_max": 85.17665100097656, "eval/prior_ent_mean": 45.305320739746094, "eval/prior_ent_min": 13.802094459533691, "eval/prior_ent_std": 7.337748050689697, "eval/rep_loss_mean": 11.374866485595703, "eval/rep_loss_std": 11.0084810256958, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.2550285756587982, "eval/reward_loss_std": 1.5452145338058472, "eval/reward_max_data": 20.0, "eval/reward_max_pred": 10.010356903076172, "eval/reward_neg_acc": 0.9571275115013123, "eval/reward_neg_loss": 0.02201765403151512, "eval/reward_pos_acc": 0.8021978139877319, "eval/reward_pos_loss": 2.644031047821045, "eval/reward_pred": 0.6839714646339417, "eval/reward_rate": 0.0888671875, "replay/size": 343904.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.5667506626674107e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.783881868634905e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 92.21573829650879, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 18.126039266586304, "timer/replay._sample_frac": 0.19656123348819451, "timer/replay._sample_avg": 0.1618396363088063, "timer/replay._sample_min": 0.022192001342773438, "timer/replay._sample_max": 0.7250394821166992, "timer/env.step_count": 1.0, "timer/env.step_total": 0.037042856216430664, "timer/env.step_frac": 0.0004016977676557091, "timer/env.step_avg": 0.037042856216430664, "timer/env.step_min": 0.037042856216430664, "timer/env.step_max": 0.037042856216430664, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 9.811337232589722, "timer/agent.policy_frac": 0.10639547450178763, "timer/agent.policy_avg": 9.811337232589722, "timer/agent.policy_min": 9.811337232589722, "timer/agent.policy_max": 9.811337232589722, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 0.0001571178436279297, "timer/dataset_train_frac": 1.7038072516725493e-06, "timer/dataset_train_avg": 0.0001571178436279297, "timer/dataset_train_min": 0.0001571178436279297, "timer/dataset_train_max": 0.0001571178436279297, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.20272660255432, "timer/agent.train_frac": 0.598625870402474, "timer/agent.train_avg": 55.20272660255432, "timer/agent.train_min": 55.20272660255432, "timer/agent.train_max": 55.20272660255432, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.298843622207642, "timer/agent.report_frac": 0.12252619597185838, "timer/agent.report_avg": 5.649421811103821, "timer/agent.report_min": 0.10311770439147949, "timer/agent.report_max": 11.195725917816162, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00020742416381835938, "timer/dataset_eval_frac": 2.249335825425065e-06, "timer/dataset_eval_avg": 0.00020742416381835938, "timer/dataset_eval_min": 0.00020742416381835938, "timer/dataset_eval_max": 0.00020742416381835938}
+{"step": 595564, "episode/length": 390.0, "episode/score": 1010.0, "episode/reward_rate": 0.13043478260869565}
+{"step": 597508, "episode/length": 485.0, "episode/score": 1110.0, "episode/reward_rate": 0.12757201646090535}
+{"step": 599100, "episode/length": 397.0, "episode/score": 1010.0, "episode/reward_rate": 0.1306532663316583}
+{"step": 599864, "train/action_mag": 17.0, "train/action_max": 17.0, "train/action_mean": 9.541582081415882, "train/action_min": 0.0, "train/action_std": 4.322859032513344, "train/actor_opt_grad_norm": 0.009405079468357542, "train/actor_opt_grad_steps": 148135.0, "train/actor_opt_loss": 0.0002484895479788626, "train/adv_mag": 0.9281012373019571, "train/adv_max": 0.8883332579511486, "train/adv_mean": 0.0030115703953669417, "train/adv_min": -0.6463575222312588, "train/adv_std": 0.04518986279655197, "train/cont_avg": 0.9982542273116438, "train/cont_loss_mean": 0.0006431868773125889, "train/cont_loss_std": 0.017823473843157207, "train/cont_neg_acc": 0.918635171698773, "train/cont_neg_loss": 0.24277749841075286, "train/cont_pos_acc": 0.9999664597315331, "train/cont_pos_loss": 0.00015456042289550088, "train/cont_pred": 0.9983028312251992, "train/cont_rate": 0.9982542273116438, "train/dyn_loss_mean": 2.891135952244066, "train/dyn_loss_std": 6.076391553225583, "train/extr_critic_critic_opt_grad_norm": 1.4966786728329855, "train/extr_critic_critic_opt_grad_steps": 148135.0, "train/extr_critic_critic_opt_loss": 1.4070659982015008, "train/extr_critic_mag": 492.71980724596, "train/extr_critic_max": 492.71980724596, "train/extr_critic_mean": 246.26416987588962, "train/extr_critic_min": 0.04695858775752865, "train/extr_critic_std": 157.26227747250908, "train/extr_return_normed_mag": 1.5472016252883494, "train/extr_return_normed_max": 1.5472016252883494, "train/extr_return_normed_mean": 0.5498564131047627, "train/extr_return_normed_min": -0.016997096919748066, "train/extr_return_normed_std": 0.3639707398945338, "train/extr_return_rate": 0.9465508648793991, "train/extr_return_raw_mag": 683.179904467439, "train/extr_return_raw_max": 683.179904467439, "train/extr_return_raw_mean": 247.57930306212543, "train/extr_return_raw_min": 0.057550478709282746, "train/extr_return_raw_std": 158.95534290679512, "train/extr_reward_mag": 416.1450466260518, "train/extr_reward_max": 416.1450466260518, "train/extr_reward_mean": 1.4060276971287924, "train/extr_reward_min": 0.0, "train/extr_reward_std": 12.88173713259501, "train/image_loss_mean": 0.8717575281450193, "train/image_loss_std": 0.8051811334205, "train/model_loss_mean": 2.674501753833196, "train/model_loss_std": 4.17490271836111, "train/model_opt_grad_norm": 9.041272636962264, "train/model_opt_grad_steps": 148135.0, "train/model_opt_loss": 2.674501753833196, "train/policy_entropy_mag": 2.751478080880152, "train/policy_entropy_max": 2.751478080880152, "train/policy_entropy_mean": 0.6952602746960235, "train/policy_entropy_min": 0.08019122511964955, "train/policy_entropy_std": 0.6876257123195961, "train/policy_logprob_mag": 7.4955416509549915, "train/policy_logprob_max": -0.009489539474861263, "train/policy_logprob_mean": -0.6959200509606975, "train/policy_logprob_min": -7.4955416509549915, "train/policy_logprob_std": 1.1956993708871815, "train/policy_randomness_mag": 0.9519461042260471, "train/policy_randomness_max": 0.9519461042260471, "train/policy_randomness_mean": 0.24054355378428552, "train/policy_randomness_min": 0.027744260386959332, "train/policy_randomness_std": 0.2379021746655033, "train/post_ent_mag": 64.39434568849329, "train/post_ent_max": 64.39434568849329, "train/post_ent_mean": 40.18327302802099, "train/post_ent_min": 10.985470278622353, "train/post_ent_std": 5.712901053363329, "train/prior_ent_mag": 85.15435367740997, "train/prior_ent_max": 85.15435367740997, "train/prior_ent_mean": 43.10224972032521, "train/prior_ent_min": 13.730051974727683, "train/prior_ent_std": 7.815881111850477, "train/rep_loss_mean": 2.891135952244066, "train/rep_loss_std": 6.076391553225583, "train/reward_avg": 1.5742722602739727, "train/reward_loss_mean": 0.06741945325613838, "train/reward_loss_std": 0.22983960572579135, "train/reward_max_data": 337.8082191780822, "train/reward_max_pred": 310.0088753765576, "train/reward_neg_acc": 0.982891854358046, "train/reward_neg_loss": 0.005486699154485681, "train/reward_pos_acc": 0.9967487768767631, "train/reward_pos_loss": 0.6077463647274122, "train/reward_pred": 1.4694550911041155, "train/reward_rate": 0.1031343642979452, "train_stats/mean_log_entropy": 0.6049447655677795, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 4.894013545708731e-05, "report/cont_loss_std": 0.0007514728349633515, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009071831591427326, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 1.3556250451074447e-05, "report/cont_pred": 0.9961154460906982, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.755746364593506, "report/dyn_loss_std": 5.685604572296143, "report/image_loss_mean": 0.8346996307373047, "report/image_loss_std": 0.7730435729026794, "report/model_loss_mean": 2.54890513420105, "report/model_loss_std": 3.896986961364746, "report/post_ent_mag": 66.52307891845703, "report/post_ent_max": 66.52307891845703, "report/post_ent_mean": 40.33024597167969, "report/post_ent_min": 8.001229286193848, "report/post_ent_std": 5.958309173583984, "report/prior_ent_mag": 85.30345916748047, "report/prior_ent_max": 85.30345916748047, "report/prior_ent_mean": 43.21773910522461, "report/prior_ent_min": 9.79346752166748, "report/prior_ent_std": 8.010944366455078, "report/rep_loss_mean": 2.755746364593506, "report/rep_loss_std": 5.685604572296143, "report/reward_avg": 1.54296875, "report/reward_loss_mean": 0.06070858612656593, "report/reward_loss_std": 0.17968201637268066, "report/reward_max_data": 500.0, "report/reward_max_pred": 499.6680603027344, "report/reward_neg_acc": 0.9868995547294617, "report/reward_neg_loss": 0.001830575754866004, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5600813627243042, "report/reward_pred": 1.5210185050964355, "report/reward_rate": 0.10546875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.015972105786204338, "eval/cont_loss_std": 0.30217474699020386, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 3.7577037811279297, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.001298647141084075, "eval/cont_pred": 0.998001754283905, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.700911521911621, "eval/dyn_loss_std": 10.036812782287598, "eval/image_loss_mean": 1.379934549331665, "eval/image_loss_std": 1.916265845298767, "eval/model_loss_mean": 5.7009687423706055, "eval/model_loss_std": 7.5987138748168945, "eval/post_ent_mag": 65.48609924316406, "eval/post_ent_max": 65.48609924316406, "eval/post_ent_mean": 40.03720474243164, "eval/post_ent_min": 9.193115234375, "eval/post_ent_std": 5.942865371704102, "eval/prior_ent_mag": 85.30345916748047, "eval/prior_ent_max": 85.30345916748047, "eval/prior_ent_mean": 44.04267120361328, "eval/prior_ent_min": 11.002328872680664, "eval/prior_ent_std": 8.354676246643066, "eval/rep_loss_mean": 6.700911521911621, "eval/rep_loss_std": 10.036812782287598, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.28451502323150635, "eval/reward_loss_std": 1.6997288465499878, "eval/reward_max_data": 500.0, "eval/reward_max_pred": 490.9971923828125, "eval/reward_neg_acc": 0.976897656917572, "eval/reward_neg_loss": 0.018198048695921898, "eval/reward_pos_acc": 0.834782600402832, "eval/reward_pos_loss": 2.3895769119262695, "eval/reward_pred": 1.4240652322769165, "eval/reward_rate": 0.1123046875, "replay/size": 345307.0, "replay/inserts": 1403.0, "replay/samples": 23440.0, "replay/insert_wait_avg": 5.0851301219067404e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.405794872765655e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 100000.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.11806440353394, "timer/replay._sample_count": 23440.0, "timer/replay._sample_total": 357.68067955970764, "timer/replay._sample_frac": 1.2371440030826923, "timer/replay._sample_avg": 0.015259414656984114, "timer/replay._sample_min": 0.0007188320159912109, "timer/replay._sample_max": 0.03995800018310547, "timer/env.step_count": 1465.0, "timer/env.step_total": 6.674329996109009, "timer/env.step_frac": 0.02308513655097446, "timer/env.step_avg": 0.004555856652634136, "timer/env.step_min": 0.0024406909942626953, "timer/env.step_max": 0.0318906307220459, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 104.56305146217346, "timer/agent.policy_frac": 0.361662117785316, "timer/agent.policy_avg": 0.07137409656121055, "timer/agent.policy_min": 0.002955198287963867, "timer/agent.policy_max": 0.08639669418334961, "timer/dataset_train_count": 1465.0, "timer/dataset_train_total": 0.14871430397033691, "timer/dataset_train_frac": 0.0005143722315557919, "timer/dataset_train_avg": 0.00010151147028691939, "timer/dataset_train_min": 5.793571472167969e-05, "timer/dataset_train_max": 0.00027680397033691406, "timer/agent.train_count": 1465.0, "timer/agent.train_total": 176.3954722881317, "timer/agent.train_frac": 0.6101157070625975, "timer/agent.train_avg": 0.12040646572568718, "timer/agent.train_min": 0.10698175430297852, "timer/agent.train_max": 0.21014738082885742, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.25662970542907715, "timer/agent.report_frac": 0.0008876294394074545, "timer/agent.report_avg": 0.12831485271453857, "timer/agent.report_min": 0.09534287452697754, "timer/agent.report_max": 0.1612868309020996, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.1021575927734375e-05, "timer/dataset_eval_frac": 1.7647315131620924e-07, "timer/dataset_eval_avg": 5.1021575927734375e-05, "timer/dataset_eval_min": 5.1021575927734375e-05, "timer/dataset_eval_max": 5.1021575927734375e-05, "fps": 20.267505424090263}
diff --git a/atari_alien/scores.jsonl b/atari_alien/scores.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..d2738d72e8dbe72d37691a018e89c14a0a6e10ac
--- /dev/null
+++ b/atari_alien/scores.jsonl
@@ -0,0 +1,312 @@
+{"step": 3576, "episode/score": 230.0}
+{"step": 4400, "eval_episode/score": 140.0}
+{"step": 6916, "episode/score": 280.0}
+{"step": 9508, "episode/score": 330.0}
+{"step": 12280, "episode/score": 240.0}
+{"step": 14844, "episode/score": 160.0}
+{"step": 17240, "episode/score": 260.0}
+{"step": 19892, "episode/score": 230.0}
+{"step": 22088, "episode/score": 290.0}
+{"step": 24648, "episode/score": 170.0}
+{"step": 27388, "episode/score": 210.0}
+{"step": 29548, "episode/score": 300.0}
+{"step": 31828, "episode/score": 380.0}
+{"step": 35608, "episode/score": 440.0}
+{"step": 38336, "episode/score": 450.0}
+{"step": 40336, "episode/score": 310.0}
+{"step": 42400, "episode/score": 280.0}
+{"step": 44412, "episode/score": 380.0}
+{"step": 46680, "episode/score": 410.0}
+{"step": 49004, "episode/score": 290.0}
+{"step": 50976, "episode/score": 390.0}
+{"step": 52796, "episode/score": 350.0}
+{"step": 54988, "episode/score": 410.0}
+{"step": 57824, "episode/score": 510.0}
+{"step": 59524, "episode/score": 420.0}
+{"step": 62076, "episode/score": 520.0}
+{"step": 64760, "episode/score": 630.0}
+{"step": 68256, "episode/score": 570.0}
+{"step": 71304, "episode/score": 440.0}
+{"step": 73924, "episode/score": 440.0}
+{"step": 75692, "episode/score": 440.0}
+{"step": 77896, "episode/score": 510.0}
+{"step": 79344, "episode/score": 440.0}
+{"step": 81656, "episode/score": 540.0}
+{"step": 83884, "episode/score": 460.0}
+{"step": 85516, "episode/score": 440.0}
+{"step": 88764, "episode/score": 460.0}
+{"step": 78620, "episode/score": 390.0}
+{"step": 81316, "episode/score": 1110.0}
+{"step": 83336, "episode/score": 490.0}
+{"step": 86008, "episode/score": 600.0}
+{"step": 87668, "episode/score": 500.0}
+{"step": 89660, "episode/score": 510.0}
+{"step": 92056, "episode/score": 520.0}
+{"step": 93492, "episode/score": 440.0}
+{"step": 94956, "episode/score": 440.0}
+{"step": 96952, "episode/score": 500.0}
+{"step": 98512, "episode/score": 480.0}
+{"step": 101312, "episode/score": 570.0}
+{"step": 102964, "episode/score": 480.0}
+{"step": 105228, "episode/score": 570.0}
+{"step": 106792, "episode/score": 470.0}
+{"step": 108164, "episode/score": 460.0}
+{"step": 109608, "episode/score": 500.0}
+{"step": 111272, "episode/score": 350.0}
+{"step": 113388, "episode/score": 910.0}
+{"step": 115052, "episode/score": 480.0}
+{"step": 116500, "episode/score": 500.0}
+{"step": 117728, "episode/score": 420.0}
+{"step": 119724, "episode/score": 480.0}
+{"step": 121260, "episode/score": 460.0}
+{"step": 123416, "episode/score": 1090.0}
+{"step": 125236, "episode/score": 500.0}
+{"step": 126616, "episode/score": 470.0}
+{"step": 128088, "episode/score": 460.0}
+{"step": 129712, "episode/score": 480.0}
+{"step": 132880, "episode/score": 540.0}
+{"step": 135688, "episode/score": 660.0}
+{"step": 137108, "episode/score": 410.0}
+{"step": 138980, "episode/score": 550.0}
+{"step": 140648, "episode/score": 460.0}
+{"step": 142772, "episode/score": 470.0}
+{"step": 145040, "episode/score": 480.0}
+{"step": 147996, "episode/score": 1090.0}
+{"step": 149504, "episode/score": 480.0}
+{"step": 151716, "episode/score": 580.0}
+{"step": 154620, "episode/score": 620.0}
+{"step": 156980, "episode/score": 530.0}
+{"step": 159740, "episode/score": 640.0}
+{"step": 162160, "episode/score": 590.0}
+{"step": 165108, "episode/score": 550.0}
+{"step": 166820, "episode/score": 470.0}
+{"step": 169376, "episode/score": 510.0}
+{"step": 171400, "episode/score": 500.0}
+{"step": 173352, "episode/score": 560.0}
+{"step": 175112, "episode/score": 500.0}
+{"step": 176868, "episode/score": 460.0}
+{"step": 178380, "episode/score": 450.0}
+{"step": 180160, "episode/score": 460.0}
+{"step": 182364, "episode/score": 500.0}
+{"step": 184088, "episode/score": 440.0}
+{"step": 185516, "episode/score": 460.0}
+{"step": 187112, "episode/score": 440.0}
+{"step": 188908, "episode/score": 990.0}
+{"step": 191604, "episode/score": 630.0}
+{"step": 193756, "episode/score": 600.0}
+{"step": 195840, "episode/score": 580.0}
+{"step": 197972, "episode/score": 540.0}
+{"step": 199568, "episode/score": 530.0}
+{"step": 201316, "episode/score": 580.0}
+{"step": 202848, "episode/score": 470.0}
+{"step": 204592, "episode/score": 580.0}
+{"step": 206944, "episode/score": 520.0}
+{"step": 208404, "episode/score": 460.0}
+{"step": 210400, "episode/score": 570.0}
+{"step": 212732, "episode/score": 560.0}
+{"step": 214816, "episode/score": 500.0}
+{"step": 216656, "episode/score": 560.0}
+{"step": 218328, "episode/score": 470.0}
+{"step": 220156, "episode/score": 500.0}
+{"step": 223508, "episode/score": 1750.0}
+{"step": 225396, "episode/score": 530.0}
+{"step": 226980, "episode/score": 990.0}
+{"step": 228860, "episode/score": 500.0}
+{"step": 231436, "episode/score": 690.0}
+{"step": 233924, "episode/score": 710.0}
+{"step": 235776, "episode/score": 550.0}
+{"step": 237668, "episode/score": 520.0}
+{"step": 240560, "episode/score": 640.0}
+{"step": 242744, "episode/score": 2130.0}
+{"step": 245316, "episode/score": 600.0}
+{"step": 248520, "episode/score": 820.0}
+{"step": 250360, "episode/score": 510.0}
+{"step": 253400, "episode/score": 640.0}
+{"step": 254996, "episode/score": 470.0}
+{"step": 258264, "episode/score": 680.0}
+{"step": 260236, "episode/score": 600.0}
+{"step": 262320, "episode/score": 500.0}
+{"step": 263872, "episode/score": 980.0}
+{"step": 266616, "episode/score": 1210.0}
+{"step": 268948, "episode/score": 440.0}
+{"step": 270636, "episode/score": 1010.0}
+{"step": 273456, "episode/score": 1100.0}
+{"step": 275336, "episode/score": 540.0}
+{"step": 277300, "episode/score": 530.0}
+{"step": 279092, "episode/score": 530.0}
+{"step": 281652, "episode/score": 700.0}
+{"step": 284292, "episode/score": 640.0}
+{"step": 286880, "episode/score": 660.0}
+{"step": 288992, "episode/score": 620.0}
+{"step": 290884, "episode/score": 560.0}
+{"step": 292820, "episode/score": 1030.0}
+{"step": 296080, "episode/score": 740.0}
+{"step": 297788, "episode/score": 990.0}
+{"step": 299308, "episode/score": 980.0}
+{"step": 301824, "episode/score": 670.0}
+{"step": 304004, "episode/score": 670.0}
+{"step": 305884, "episode/score": 540.0}
+{"step": 308036, "episode/score": 500.0}
+{"step": 310148, "episode/score": 520.0}
+{"step": 312572, "episode/score": 650.0}
+{"step": 314736, "episode/score": 1130.0}
+{"step": 317288, "episode/score": 710.0}
+{"step": 319720, "episode/score": 510.0}
+{"step": 322532, "episode/score": 760.0}
+{"step": 324644, "episode/score": 670.0}
+{"step": 327268, "episode/score": 730.0}
+{"step": 329680, "episode/score": 660.0}
+{"step": 331744, "episode/score": 1120.0}
+{"step": 333852, "episode/score": 510.0}
+{"step": 337096, "episode/score": 1230.0}
+{"step": 340312, "episode/score": 660.0}
+{"step": 343612, "episode/score": 640.0}
+{"step": 345920, "episode/score": 1140.0}
+{"step": 348272, "episode/score": 1180.0}
+{"step": 351320, "episode/score": 1180.0}
+{"step": 352884, "episode/score": 1010.0}
+{"step": 355176, "episode/score": 1190.0}
+{"step": 357472, "episode/score": 720.0}
+{"step": 359528, "episode/score": 1120.0}
+{"step": 361868, "episode/score": 710.0}
+{"step": 364476, "episode/score": 1230.0}
+{"step": 366756, "episode/score": 1160.0}
+{"step": 368496, "episode/score": 1010.0}
+{"step": 371064, "episode/score": 730.0}
+{"step": 373276, "episode/score": 660.0}
+{"step": 376492, "episode/score": 1150.0}
+{"step": 378756, "episode/score": 1150.0}
+{"step": 381264, "episode/score": 2200.0}
+{"step": 384828, "episode/score": 720.0}
+{"step": 388404, "episode/score": 750.0}
+{"step": 390208, "episode/score": 1050.0}
+{"step": 392628, "episode/score": 1190.0}
+{"step": 395072, "episode/score": 610.0}
+{"step": 397560, "episode/score": 680.0}
+{"step": 399676, "episode/score": 520.0}
+{"step": 400000, "eval_episode/score": 580.0}
+{"step": 401604, "episode/score": 1040.0}
+{"step": 404200, "episode/score": 1200.0}
+{"step": 405760, "episode/score": 980.0}
+{"step": 408708, "episode/score": 730.0}
+{"step": 410720, "episode/score": 650.0}
+{"step": 413252, "episode/score": 680.0}
+{"step": 416328, "episode/score": 1150.0}
+{"step": 418408, "episode/score": 650.0}
+{"step": 420600, "episode/score": 600.0}
+{"step": 423384, "episode/score": 820.0}
+{"step": 425508, "episode/score": 1190.0}
+{"step": 427172, "episode/score": 970.0}
+{"step": 429460, "episode/score": 720.0}
+{"step": 431084, "episode/score": 990.0}
+{"step": 433052, "episode/score": 950.0}
+{"step": 434644, "episode/score": 1010.0}
+{"step": 436452, "episode/score": 1070.0}
+{"step": 438236, "episode/score": 1040.0}
+{"step": 440416, "episode/score": 1030.0}
+{"step": 442184, "episode/score": 1040.0}
+{"step": 444104, "episode/score": 1030.0}
+{"step": 446184, "episode/score": 1000.0}
+{"step": 447716, "episode/score": 1000.0}
+{"step": 449728, "episode/score": 970.0}
+{"step": 451464, "episode/score": 1040.0}
+{"step": 453276, "episode/score": 1050.0}
+{"step": 455492, "episode/score": 990.0}
+{"step": 457668, "episode/score": 1030.0}
+{"step": 459948, "episode/score": 990.0}
+{"step": 461628, "episode/score": 990.0}
+{"step": 463372, "episode/score": 1040.0}
+{"step": 464940, "episode/score": 1010.0}
+{"step": 466508, "episode/score": 990.0}
+{"step": 468100, "episode/score": 990.0}
+{"step": 469756, "episode/score": 1040.0}
+{"step": 471332, "episode/score": 1010.0}
+{"step": 473280, "episode/score": 1040.0}
+{"step": 474816, "episode/score": 1010.0}
+{"step": 476228, "episode/score": 350.0}
+{"step": 477916, "episode/score": 1030.0}
+{"step": 480404, "episode/score": 1000.0}
+{"step": 482108, "episode/score": 1040.0}
+{"step": 484212, "episode/score": 1000.0}
+{"step": 486348, "episode/score": 1010.0}
+{"step": 487884, "episode/score": 1010.0}
+{"step": 489476, "episode/score": 1010.0}
+{"step": 491060, "episode/score": 980.0}
+{"step": 493096, "episode/score": 390.0}
+{"step": 494800, "episode/score": 1040.0}
+{"step": 496364, "episode/score": 500.0}
+{"step": 497872, "episode/score": 970.0}
+{"step": 499632, "episode/score": 1040.0}
+{"step": 501404, "episode/score": 530.0}
+{"step": 502992, "episode/score": 990.0}
+{"step": 504528, "episode/score": 1010.0}
+{"step": 506272, "episode/score": 1040.0}
+{"step": 508036, "episode/score": 1080.0}
+{"step": 509568, "episode/score": 1010.0}
+{"step": 511108, "episode/score": 1000.0}
+{"step": 512784, "episode/score": 1010.0}
+{"step": 514360, "episode/score": 1010.0}
+{"step": 517140, "episode/score": 1130.0}
+{"step": 518796, "episode/score": 1010.0}
+{"step": 520328, "episode/score": 1000.0}
+{"step": 521900, "episode/score": 980.0}
+{"step": 523872, "episode/score": 1120.0}
+{"step": 525632, "episode/score": 1040.0}
+{"step": 527160, "episode/score": 1010.0}
+{"step": 529408, "episode/score": 1120.0}
+{"step": 531056, "episode/score": 1040.0}
+{"step": 532784, "episode/score": 1040.0}
+{"step": 534592, "episode/score": 1010.0}
+{"step": 536172, "episode/score": 1000.0}
+{"step": 537868, "episode/score": 1040.0}
+{"step": 539620, "episode/score": 1040.0}
+{"step": 541208, "episode/score": 1010.0}
+{"step": 542860, "episode/score": 1040.0}
+{"step": 544500, "episode/score": 990.0}
+{"step": 546724, "episode/score": 940.0}
+{"step": 548272, "episode/score": 1000.0}
+{"step": 549816, "episode/score": 1010.0}
+{"step": 551392, "episode/score": 1010.0}
+{"step": 552956, "episode/score": 500.0}
+{"step": 554512, "episode/score": 1010.0}
+{"step": 556188, "episode/score": 1040.0}
+{"step": 557968, "episode/score": 1070.0}
+{"step": 559520, "episode/score": 500.0}
+{"step": 561080, "episode/score": 1010.0}
+{"step": 562848, "episode/score": 1040.0}
+{"step": 564548, "episode/score": 1040.0}
+{"step": 566100, "episode/score": 1010.0}
+{"step": 567656, "episode/score": 1010.0}
+{"step": 569192, "episode/score": 1010.0}
+{"step": 570768, "episode/score": 1010.0}
+{"step": 572384, "episode/score": 1000.0}
+{"step": 573964, "episode/score": 990.0}
+{"step": 575580, "episode/score": 460.0}
+{"step": 577156, "episode/score": 1000.0}
+{"step": 578704, "episode/score": 980.0}
+{"step": 580184, "episode/score": 900.0}
+{"step": 581732, "episode/score": 1010.0}
+{"step": 583268, "episode/score": 990.0}
+{"step": 585080, "episode/score": 510.0}
+{"step": 586592, "episode/score": 970.0}
+{"step": 588308, "episode/score": 520.0}
+{"step": 589908, "episode/score": 1010.0}
+{"step": 591516, "episode/score": 1010.0}
+{"step": 593212, "episode/score": 1030.0}
+{"step": 594844, "episode/score": 900.0}
+{"step": 596464, "episode/score": 980.0}
+{"step": 598224, "episode/score": 1040.0}
+{"step": 599964, "episode/score": 1040.0}
+{"step": 595628, "episode/score": 1010.0}
+{"step": 597344, "episode/score": 520.0}
+{"step": 599124, "episode/score": 1040.0}
+{"step": 595548, "episode/score": 1010.0}
+{"step": 598800, "episode/score": 1220.0}
+{"step": 595540, "episode/score": 1010.0}
+{"step": 597240, "episode/score": 1030.0}
+{"step": 599148, "episode/score": 1150.0}
+{"step": 597136, "episode/score": 1100.0}
+{"step": 598744, "episode/score": 1000.0}
+{"step": 595564, "episode/score": 1010.0}
+{"step": 597508, "episode/score": 1110.0}
+{"step": 599100, "episode/score": 1010.0}
diff --git a/atari_ms_pacman/config.yaml b/atari_ms_pacman/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..4273eeac87b4d84700e37278af1c010d726cab7e
--- /dev/null
+++ b/atari_ms_pacman/config.yaml
@@ -0,0 +1,188 @@
+actent: 0.0003
+actor:
+  act: silu
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  maxstd: 1.0
+  minstd: 0.1
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  symlog_inputs: false
+  unimix: 0.01
+  units: 512
+  winit: normal
+actor_dist_cont: normal
+actor_dist_disc: onehot
+actor_grad_cont: backprop
+actor_grad_disc: reinforce
+actor_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+batch_length: 64
+batch_size: 16
+cont_head:
+  act: silu
+  dist: binary
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  units: 512
+  winit: normal
+critic:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  symlog_inputs: false
+  units: 512
+  winit: normal
+critic_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+critic_slowreg: logprob
+critic_type: vfunction
+data_loaders: 8
+decoder:
+  act: silu
+  cnn: resnet
+  cnn_blocks: 0
+  cnn_depth: 32
+  cnn_keys: image
+  cnn_sigmoid: false
+  fan: avg
+  image_dist: mse
+  inputs: [deter, stoch]
+  minres: 4
+  mlp_keys: $^
+  mlp_layers: 5
+  mlp_units: 1024
+  norm: layer
+  outscale: 1.0
+  resize: stride
+  vector_dist: symlog_mse
+  winit: normal
+disag_head:
+  act: silu
+  dist: mse
+  fan: avg
+  inputs: [deter, stoch, action]
+  layers: 2
+  norm: layer
+  outscale: 1.0
+  units: 512
+  winit: normal
+disag_models: 8
+disag_target: [stoch]
+dyn_loss: {free: 1.0, impl: kl}
+encoder: {act: silu, cnn: resnet, cnn_blocks: 0, cnn_depth: 32, cnn_keys: image, fan: avg,
+  minres: 4, mlp_keys: $^, mlp_layers: 5, mlp_units: 1024, norm: layer, resize: stride,
+  symlog_inputs: true, winit: normal}
+env:
+  atari:
+    actions: needed
+    gray: false
+    lives: unused
+    noops: 30
+    repeat: 4
+    resize: opencv
+    size: [64, 64]
+    sticky: false
+  dmc:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  dmlab:
+    episodic: true
+    repeat: 4
+    size: [64, 64]
+  loconav:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  minecraft:
+    break_speed: 100.0
+    size: [64, 64]
+envs: {amount: 1, checks: false, discretize: 0, length: 0, parallel: process, reset: true,
+  restart: true}
+eval_dir: ''
+expl_behavior: None
+expl_opt: {clip: 100.0, eps: 1e-05, lr: 0.0001, opt: adam, warmup: 0, wd: 0.0}
+expl_rewards: {disag: 0.1, extr: 1.0}
+filter: .*
+grad_heads: [decoder, reward, cont]
+horizon: 333
+imag_horizon: 15
+imag_unroll: false
+jax:
+  debug: false
+  debug_nans: false
+  jit: true
+  logical_cpus: 0
+  metrics_every: 10
+  platform: gpu
+  policy_devices: [1]
+  prealloc: true
+  precision: float32
+  train_devices: [1]
+logdir: ./logdir/atari_ms_pacman
+loss_scales: {actor: 1.0, cont: 1.0, critic: 1.0, dyn: 0.5, image: 1.0, rep: 0.1,
+  reward: 1.0, slowreg: 1.0, vector: 1.0}
+method: name
+model_opt: {clip: 1000.0, eps: 1e-08, lateclip: 0.0, lr: 0.0001, opt: adam, warmup: 0,
+  wd: 0.0}
+rep_loss: {free: 1.0, impl: kl}
+replay: uniform
+replay_online: false
+replay_size: 2000000.0
+retnorm: {decay: 0.99, impl: perc_ema, max: 1.0, perchi: 95.0, perclo: 5.0}
+return_lambda: 0.95
+reward_head:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  units: 512
+  winit: normal
+rssm: {act: silu, action_clip: 1.0, classes: 32, deter: 512, fan: avg, initial: learned,
+  norm: layer, stoch: 32, unimix: 0.01, units: 512, unroll: false, winit: normal}
+run:
+  actor_addr: ipc:///tmp/5551
+  actor_batch: 32
+  eval_eps: 100
+  eval_every: 100000.0
+  eval_fill: 0
+  eval_initial: false
+  eval_samples: 1
+  expl_until: 0
+  from_checkpoint: ''
+  log_every: 300
+  log_keys_max: ^$
+  log_keys_mean: (log_entropy)
+  log_keys_sum: ^$
+  log_keys_video: [image]
+  log_zeros: false
+  save_every: 900
+  script: train_eval
+  steps: 150000.0
+  sync_every: 10
+  train_fill: 0
+  train_ratio: 1024.0
+seed: 0
+slow_critic_fraction: 0.02
+slow_critic_update: 1
+task: atari_ms_pacman
+task_behavior: Greedy
+wrapper: {checks: false, discretize: 0, length: 0, reset: true}
diff --git a/atari_ms_pacman/metrics.jsonl b/atari_ms_pacman/metrics.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..fb0d45f18d2ced43e05b6156c4e1550555304992
--- /dev/null
+++ b/atari_ms_pacman/metrics.jsonl
@@ -0,0 +1,426 @@
+{"step": 1656, "episode/length": 413.0, "episode/score": 310.0, "episode/reward_rate": 0.0748792270531401}
+{"step": 3000, "episode/length": 335.0, "episode/score": 120.0, "episode/reward_rate": 0.03571428571428571}
+{"step": 4400, "eval_episode/length": 427.0, "eval_episode/score": 220.0, "eval_episode/reward_rate": 0.0514018691588785}
+{"step": 4404, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.15545654296875, "train/action_min": 0.0, "train/action_std": 2.3541314601898193, "train/actor_opt_grad_norm": 0.0003135006409138441, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": 0.0006238474743440747, "train/adv_mag": 0.005417875945568085, "train/adv_max": 0.005417875945568085, "train/adv_mean": 0.0013578481739386916, "train/adv_min": 0.00033855438232421875, "train/adv_std": 0.0010099780047312379, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.0498342514038086, "train/cont_loss_std": 0.45540112257003784, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 0.2373046875, "train/cont_pos_loss": 1.0498342514038086, "train/cont_pred": 0.3849179148674011, "train/cont_rate": 1.0, "train/dyn_loss_mean": 7.1566009521484375, "train/dyn_loss_std": 0.318080335855484, "train/extr_critic_critic_opt_grad_norm": 3.813673496246338, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 2.6201608180999756, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.005413290113210678, "train/extr_return_normed_max": 0.005413290113210678, "train/extr_return_normed_mean": 0.0013532622251659632, "train/extr_return_normed_min": 0.00033396846265532076, "train/extr_return_normed_std": 0.0010099781211465597, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.005417875945568085, "train/extr_return_raw_max": 0.005417875945568085, "train/extr_return_raw_mean": 0.0013578480575233698, "train/extr_return_raw_min": 0.00033855438232421875, "train/extr_return_raw_std": 0.0010099780047312379, "train/extr_reward_mag": 0.0005875825881958008, "train/extr_reward_max": 0.0005875825881958008, "train/extr_reward_mean": 0.0004912138683721423, "train/extr_reward_min": 0.00033855438232421875, "train/extr_reward_std": 2.8911064873682335e-05, "train/image_loss_mean": 3179.68798828125, "train/image_loss_std": 31.03468132019043, "train/model_loss_mean": 3190.57275390625, "train/model_loss_std": 31.021028518676758, "train/model_opt_grad_norm": 7144.72705078125, "train/model_opt_grad_steps": 1.0, "train/model_opt_loss": 3190.57275390625, "train/policy_entropy_mag": 2.1778950691223145, "train/policy_entropy_max": 2.1778950691223145, "train/policy_entropy_mean": 1.899208426475525, "train/policy_entropy_min": 0.8509911298751831, "train/policy_entropy_std": 0.1401910036802292, "train/policy_logprob_mag": 5.04573917388916, "train/policy_logprob_max": -0.22019942104816437, "train/policy_logprob_mean": -1.9008209705352783, "train/policy_logprob_min": -5.04573917388916, "train/policy_logprob_std": 0.7259012460708618, "train/policy_randomness_mag": 0.9912027716636658, "train/policy_randomness_max": 0.9912027716636658, "train/policy_randomness_mean": 0.8643669486045837, "train/policy_randomness_min": 0.3873027563095093, "train/policy_randomness_std": 0.06380368024110794, "train/post_ent_mag": 107.42266845703125, "train/post_ent_max": 107.42266845703125, "train/post_ent_mean": 107.16478729248047, "train/post_ent_min": 106.95243835449219, "train/post_ent_std": 0.0730372741818428, "train/prior_ent_mag": 108.0188980102539, "train/prior_ent_max": 108.0188980102539, "train/prior_ent_mean": 107.43780517578125, "train/prior_ent_min": 106.70498657226562, "train/prior_ent_std": 0.22046849131584167, "train/rep_loss_mean": 7.1566009521484375, "train/rep_loss_std": 0.318080335855484, "train/reward_avg": 0.64453125, "train/reward_loss_mean": 5.541262626647949, "train/reward_loss_std": 9.5367431640625e-07, "train/reward_max_data": 10.0, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 1.0, "train/reward_neg_loss": 5.541263103485107, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541263103485107, "train/reward_pred": 0.0, "train/reward_rate": 0.064453125, "train/params_agent/wm/model_opt": 15689347.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1055241.0, "report/cont_avg": 1.0, "report/cont_loss_mean": 0.5764130353927612, "report/cont_loss_std": 0.31912803649902344, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 0.70703125, "report/cont_pos_loss": 0.5764130353927612, "report/cont_pred": 0.5880664587020874, "report/cont_rate": 1.0, "report/dyn_loss_mean": 7.755127906799316, "report/dyn_loss_std": 0.28994694352149963, "report/image_loss_mean": 2944.9873046875, "report/image_loss_std": 35.78359603881836, "report/model_loss_mean": 2955.73291015625, "report/model_loss_std": 35.79470443725586, "report/post_ent_mag": 106.47481536865234, "report/post_ent_max": 106.47481536865234, "report/post_ent_mean": 106.21865844726562, "report/post_ent_min": 105.95092010498047, "report/post_ent_std": 0.08591103553771973, "report/prior_ent_mag": 108.14049530029297, "report/prior_ent_max": 108.14049530029297, "report/prior_ent_mean": 107.52365112304688, "report/prior_ent_min": 106.65373229980469, "report/prior_ent_std": 0.21071220934391022, "report/rep_loss_mean": 7.755127906799316, "report/rep_loss_std": 0.28994694352149963, "report/reward_avg": 0.64453125, "report/reward_loss_mean": 5.516025543212891, "report/reward_loss_std": 0.0018523510079830885, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.0005784034729003906, "report/reward_neg_acc": 1.0, "report/reward_neg_loss": 5.5160064697265625, "report/reward_pos_acc": 0.0, "report/reward_pos_loss": 5.516295433044434, "report/reward_pred": 0.000491279293783009, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.5800530314445496, "eval/cont_loss_std": 0.31842753291130066, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.349982500076294, "eval/cont_pos_acc": 0.7074363827705383, "eval/cont_pos_loss": 0.5785463452339172, "eval/cont_pred": 0.5866451263427734, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 7.755470275878906, "eval/dyn_loss_std": 0.3068793714046478, "eval/image_loss_mean": 2942.71630859375, "eval/image_loss_std": 37.10575485229492, "eval/model_loss_mean": 2953.4658203125, "eval/model_loss_std": 37.1246223449707, "eval/post_ent_mag": 106.47251892089844, "eval/post_ent_max": 106.47251892089844, "eval/post_ent_mean": 106.22462463378906, "eval/post_ent_min": 105.97747802734375, "eval/post_ent_std": 0.08635253459215164, "eval/prior_ent_mag": 108.18354797363281, "eval/prior_ent_max": 108.18354797363281, "eval/prior_ent_mean": 107.5233383178711, "eval/prior_ent_min": 106.84690856933594, "eval/prior_ent_std": 0.21391159296035767, "eval/rep_loss_mean": 7.755470275878906, "eval/rep_loss_std": 0.3068793714046478, "eval/reward_avg": 0.56640625, "eval/reward_loss_mean": 5.516025543212891, "eval/reward_loss_std": 0.0019268690375611186, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.0005855560302734375, "eval/reward_neg_acc": 1.0, "eval/reward_neg_loss": 5.516008377075195, "eval/reward_pos_acc": 0.0, "eval/reward_pos_loss": 5.516304969787598, "eval/reward_pred": 0.000491021666675806, "eval/reward_rate": 0.056640625, "replay/size": 1038.0, "replay/inserts": 1038.0, "replay/samples": 112.0, "replay/insert_wait_avg": 2.8160036414115185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2729849134172712e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 1037.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": 8.155662735264924e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 1.551849501473563e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 82.68812942504883, "timer/env.step_count": 1101.0, "timer/env.step_total": 2.800624370574951, "timer/env.step_frac": 0.03386972700977021, "timer/env.step_avg": 0.0025437096917120356, "timer/env.step_min": 0.0009887218475341797, "timer/env.step_max": 0.03000664710998535, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 18.166231393814087, "timer/replay._sample_frac": 0.21969575947755043, "timer/replay._sample_avg": 0.16219849458762578, "timer/replay._sample_min": 0.0016021728515625, "timer/replay._sample_max": 0.6537623405456543, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2857041358947754, "timer/agent.save_frac": 0.003455201343667434, "timer/agent.save_avg": 0.2857041358947754, "timer/agent.save_min": 0.2857041358947754, "timer/agent.save_max": 0.2857041358947754, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 8.098095655441284, "timer/agent.policy_frac": 0.09793540755788481, "timer/agent.policy_avg": 8.098095655441284, "timer/agent.policy_min": 8.098095655441284, "timer/agent.policy_max": 8.098095655441284, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 7.486343383789062e-05, "timer/dataset_train_frac": 9.053709928914191e-07, "timer/dataset_train_avg": 7.486343383789062e-05, "timer/dataset_train_min": 7.486343383789062e-05, "timer/dataset_train_max": 7.486343383789062e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.944143295288086, "timer/agent.train_frac": 0.6886616457674748, "timer/agent.train_avg": 56.944143295288086, "timer/agent.train_min": 56.944143295288086, "timer/agent.train_max": 56.944143295288086, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.503360986709595, "timer/agent.report_frac": 0.13911744124211456, "timer/agent.report_avg": 5.751680493354797, "timer/agent.report_min": 0.10643506050109863, "timer/agent.report_max": 11.396925926208496, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011992454528808594, "timer/dataset_eval_frac": 1.450323596892942e-06, "timer/dataset_eval_avg": 0.00011992454528808594, "timer/dataset_eval_min": 0.00011992454528808594, "timer/dataset_eval_max": 0.00011992454528808594}
+{"step": 5960, "episode/length": 739.0, "episode/score": 330.0, "episode/reward_rate": 0.03918918918918919}
+{"step": 7140, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 5.638385548311121, "train/action_min": 0.0, "train/action_std": 1.5158339993042105, "train/actor_opt_grad_norm": 0.12359947908450575, "train/actor_opt_grad_steps": 345.0, "train/actor_opt_loss": 0.6459508093402666, "train/adv_mag": 1.178027094067896, "train/adv_max": 1.178027094067896, "train/adv_mean": 0.7040921312702053, "train/adv_min": 0.11080303373198737, "train/adv_std": 0.32698254229720025, "train/cont_avg": 0.9986931295955882, "train/cont_loss_mean": 0.010090068197100396, "train/cont_loss_std": 0.19661199013519173, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 6.512746717415604, "train/cont_pos_acc": 0.9999999973703834, "train/cont_pos_loss": 0.0016907100066686433, "train/cont_pred": 0.9983112706857569, "train/cont_rate": 0.9986931295955882, "train/dyn_loss_mean": 1.2867329786805546, "train/dyn_loss_std": 0.022430543756533607, "train/extr_critic_critic_opt_grad_norm": 9.9311302689945, "train/extr_critic_critic_opt_grad_steps": 345.0, "train/extr_critic_critic_opt_loss": 5.217134665040409, "train/extr_critic_mag": 0.4455070881282582, "train/extr_critic_max": 0.4455070881282582, "train/extr_critic_mean": 0.4451102803710883, "train/extr_critic_min": 0.4397366800728966, "train/extr_critic_std": 0.0002256763436973335, "train/extr_return_normed_mag": 1.1864618941703264, "train/extr_return_normed_max": 1.1864618941703264, "train/extr_return_normed_mean": 0.716883323757964, "train/extr_return_normed_min": 0.12369354975902859, "train/extr_return_normed_std": 0.3269621685749906, "train/extr_return_rate": 0.9009804177810165, "train/extr_return_raw_mag": 1.779788656050668, "train/extr_return_raw_max": 1.779788656050668, "train/extr_return_raw_mean": 1.2458030725555385, "train/extr_return_raw_min": 0.5712257290724665, "train/extr_return_raw_std": 0.37182129040250883, "train/extr_reward_mag": 0.12821703272707322, "train/extr_reward_max": 0.12821703272707322, "train/extr_reward_mean": 0.12789217386778226, "train/extr_reward_min": 0.1274985373020172, "train/extr_reward_std": 5.063037165468011e-05, "train/image_loss_mean": 74.78153335346894, "train/image_loss_std": 6.366162542034598, "train/model_loss_mean": 76.20634867163265, "train/model_loss_std": 6.5279364691061135, "train/model_opt_grad_norm": 203.59136250439812, "train/model_opt_grad_steps": 345.0, "train/model_opt_loss": 76.20634867163265, "train/policy_entropy_mag": 1.3661556918831432, "train/policy_entropy_max": 1.3661556918831432, "train/policy_entropy_mean": 0.9294759195078822, "train/policy_entropy_min": 0.6296074581058586, "train/policy_entropy_std": 0.06889681811170544, "train/policy_logprob_mag": 6.107387795167811, "train/policy_logprob_max": -0.1848326425122864, "train/policy_logprob_mean": -0.9290695622125092, "train/policy_logprob_min": -6.107387795167811, "train/policy_logprob_std": 1.0530666200553669, "train/policy_randomness_mag": 0.621764246155234, "train/policy_randomness_max": 0.621764246155234, "train/policy_randomness_mean": 0.42302271745660724, "train/policy_randomness_min": 0.2865466999218744, "train/policy_randomness_std": 0.03135629322872881, "train/post_ent_mag": 56.71233367919922, "train/post_ent_max": 56.71233367919922, "train/post_ent_mean": 55.98295817655676, "train/post_ent_min": 55.78935656828039, "train/post_ent_std": 0.1369062988087535, "train/prior_ent_mag": 66.81395721435547, "train/prior_ent_max": 66.81395721435547, "train/prior_ent_mean": 65.85914780111874, "train/prior_ent_min": 65.57520961761475, "train/prior_ent_std": 0.14786620898281827, "train/rep_loss_mean": 1.2867329786805546, "train/rep_loss_std": 0.022430543756533607, "train/reward_avg": 0.5529067095588235, "train/reward_loss_mean": 0.6426856449859983, "train/reward_loss_std": 0.6899945090442676, "train/reward_max_data": 27.058823529411764, "train/reward_max_pred": 0.12824461039374857, "train/reward_neg_acc": 0.045755098738214546, "train/reward_neg_loss": 0.4826177545987508, "train/reward_pos_acc": 0.9544299122165231, "train/reward_pos_loss": 3.6036069673650406, "train/reward_pred": 0.12768669396310167, "train/reward_rate": 0.05282054227941176, "train_stats/mean_log_entropy": 0.9885789155960083, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.007762555032968521, "report/cont_loss_std": 0.21284492313861847, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 6.8154730796813965, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0011079023825004697, "report/cont_pred": 0.9988927245140076, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 1.0099372863769531, "report/dyn_loss_std": 0.04349302873015404, "report/image_loss_mean": 18.786109924316406, "report/image_loss_std": 4.342064380645752, "report/model_loss_mean": 19.666866302490234, "report/model_loss_std": 4.496755123138428, "report/post_ent_mag": 44.34779357910156, "report/post_ent_max": 44.34779357910156, "report/post_ent_mean": 42.47108459472656, "report/post_ent_min": 40.615272521972656, "report/post_ent_std": 0.9296315908432007, "report/prior_ent_mag": 49.01396560668945, "report/prior_ent_max": 49.01396560668945, "report/prior_ent_mean": 47.723915100097656, "report/prior_ent_min": 47.536109924316406, "report/prior_ent_std": 0.18109367787837982, "report/rep_loss_mean": 1.0099372863769531, "report/rep_loss_std": 0.04349302873015404, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.26703396439552307, "report/reward_loss_std": 0.8374979496002197, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.12124121189117432, "report/reward_neg_acc": 0.0, "report/reward_neg_loss": 0.056251004338264465, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 3.5946407318115234, "report/reward_pred": 0.12085647881031036, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01429612748324871, "eval/cont_loss_std": 0.2982510030269623, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.756283760070801, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0011024122359231114, "eval/cont_pred": 0.9988980889320374, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 1.0212379693984985, "eval/dyn_loss_std": 0.06582365930080414, "eval/image_loss_mean": 18.00473403930664, "eval/image_loss_std": 4.5460944175720215, "eval/model_loss_mean": 18.860794067382812, "eval/model_loss_std": 4.722339630126953, "eval/post_ent_mag": 44.86981201171875, "eval/post_ent_max": 44.86981201171875, "eval/post_ent_mean": 42.20130157470703, "eval/post_ent_min": 40.558021545410156, "eval/post_ent_std": 0.9863786697387695, "eval/prior_ent_mag": 49.01396560668945, "eval/prior_ent_max": 49.01396560668945, "eval/prior_ent_mean": 47.722530364990234, "eval/prior_ent_min": 47.51434326171875, "eval/prior_ent_std": 0.18452994525432587, "eval/rep_loss_mean": 1.0212379693984985, "eval/rep_loss_std": 0.06582365930080414, "eval/reward_avg": 0.48828125, "eval/reward_loss_mean": 0.22902163863182068, "eval/reward_loss_std": 0.7625397443771362, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.12137734889984131, "eval/reward_neg_acc": 0.0, "eval/reward_neg_loss": 0.05625177547335625, "eval/reward_pos_acc": 1.0, "eval/reward_pos_loss": 3.594578742980957, "eval/reward_pred": 0.1208588108420372, "eval/reward_rate": 0.048828125, "replay/size": 1722.0, "replay/inserts": 684.0, "replay/samples": 10944.0, "replay/insert_wait_avg": 5.914802439728676e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3697304223713122e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4007091522216797e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 289.29596495628357, "timer/env.step_count": 684.0, "timer/env.step_total": 2.6868174076080322, "timer/env.step_frac": 0.009287434783316268, "timer/env.step_avg": 0.003928095625157942, "timer/env.step_min": 0.002263784408569336, "timer/env.step_max": 0.026247501373291016, "timer/replay._sample_count": 10944.0, "timer/replay._sample_total": 170.52397799491882, "timer/replay._sample_frac": 0.5894447163156501, "timer/replay._sample_avg": 0.01558150383725501, "timer/replay._sample_min": 0.00047469139099121094, "timer/replay._sample_max": 0.04506063461303711, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 684.0, "timer/agent.policy_total": 191.506041765213, "timer/agent.policy_frac": 0.6619727371384253, "timer/agent.policy_avg": 0.2799795932239956, "timer/agent.policy_min": 0.0030164718627929688, "timer/agent.policy_max": 0.32524991035461426, "timer/dataset_train_count": 684.0, "timer/dataset_train_total": 0.08871603012084961, "timer/dataset_train_frac": 0.00030666183033094073, "timer/dataset_train_avg": 0.00012970179842229475, "timer/dataset_train_min": 6.771087646484375e-05, "timer/dataset_train_max": 0.0005164146423339844, "timer/agent.train_count": 684.0, "timer/agent.train_total": 93.91835141181946, "timer/agent.train_frac": 0.3246445259822817, "timer/agent.train_avg": 0.1373075313038296, "timer/agent.train_min": 0.09963202476501465, "timer/agent.train_max": 0.4445009231567383, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4962584972381592, "timer/agent.report_frac": 0.0017154006877114598, "timer/agent.report_avg": 0.2481292486190796, "timer/agent.report_min": 0.09910988807678223, "timer/agent.report_max": 0.39714860916137695, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.893013000488281e-05, "timer/dataset_eval_frac": 3.074019024714753e-07, "timer/dataset_eval_avg": 8.893013000488281e-05, "timer/dataset_eval_min": 8.893013000488281e-05, "timer/dataset_eval_max": 8.893013000488281e-05, "fps": 9.457110193395314}
+{"step": 7884, "episode/length": 480.0, "episode/score": 200.0, "episode/reward_rate": 0.04158004158004158}
+{"step": 9964, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.137532838633363, "train/action_min": 0.0, "train/action_std": 1.8076404358299685, "train/actor_opt_grad_norm": 0.06711240834228589, "train/actor_opt_grad_steps": 1040.0, "train/actor_opt_loss": 0.35339832673190347, "train/adv_mag": 1.3441934241375453, "train/adv_max": 1.3441934241375453, "train/adv_mean": 0.6071687676537205, "train/adv_min": 0.07100714518177048, "train/adv_std": 0.3308703727285627, "train/cont_avg": 0.9984319982394366, "train/cont_loss_mean": 0.010750983963461436, "train/cont_loss_std": 0.20138950665117797, "train/cont_neg_acc": 0.0, "train/cont_neg_loss": 5.665763274315865, "train/cont_pos_acc": 0.9999999966419918, "train/cont_pos_loss": 0.0020181067225615115, "train/cont_pred": 0.9979850162922497, "train/cont_rate": 0.9984319982394366, "train/dyn_loss_mean": 2.1610918128994148, "train/dyn_loss_std": 1.4917581662745543, "train/extr_critic_critic_opt_grad_norm": 4.7314969116533305, "train/extr_critic_critic_opt_grad_steps": 1040.0, "train/extr_critic_critic_opt_loss": 3.057451412711345, "train/extr_critic_mag": 1.5950877632893308, "train/extr_critic_max": 1.5950877632893308, "train/extr_critic_mean": 1.5778459310531616, "train/extr_critic_min": 1.5238833813600137, "train/extr_critic_std": 0.01685095795194133, "train/extr_return_normed_mag": 1.3474161373057836, "train/extr_return_normed_max": 1.3474161373057836, "train/extr_return_normed_mean": 0.6310881581944479, "train/extr_return_normed_min": 0.09410553309627034, "train/extr_return_normed_std": 0.3251343787136212, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 3.25601018650431, "train/extr_return_raw_max": 3.25601018650431, "train/extr_return_raw_mean": 2.323779406681867, "train/extr_return_raw_min": 1.6585544364553102, "train/extr_return_raw_std": 0.4092853782882153, "train/extr_reward_mag": 0.18253210900535047, "train/extr_reward_max": 0.18253210900535047, "train/extr_reward_mean": 0.12263712927069463, "train/extr_reward_min": 0.08861913143748969, "train/extr_reward_std": 0.02397069070948547, "train/image_loss_mean": 15.260967214342575, "train/image_loss_std": 5.422516305681685, "train/model_loss_mean": 16.78736635664819, "train/model_loss_std": 5.576770345929643, "train/model_opt_grad_norm": 45.06565279356191, "train/model_opt_grad_steps": 1040.0, "train/model_opt_loss": 16.78736635664819, "train/policy_entropy_mag": 1.064006592186404, "train/policy_entropy_max": 1.064006592186404, "train/policy_entropy_mean": 0.5816857764418696, "train/policy_entropy_min": 0.34941952213854854, "train/policy_entropy_std": 0.09170428839262942, "train/policy_logprob_mag": 6.544369052833234, "train/policy_logprob_max": -0.09359649937390022, "train/policy_logprob_mean": -0.5816891069563341, "train/policy_logprob_min": -6.544369052833234, "train/policy_logprob_std": 1.038942062518966, "train/policy_randomness_mag": 0.48425026531790344, "train/policy_randomness_max": 0.48425026531790344, "train/policy_randomness_mean": 0.26473660284364725, "train/policy_randomness_min": 0.15902767613740035, "train/policy_randomness_std": 0.04173642002098577, "train/post_ent_mag": 53.93947794739629, "train/post_ent_max": 53.93947794739629, "train/post_ent_mean": 43.47021006194638, "train/post_ent_min": 34.69987493165782, "train/post_ent_std": 5.325722059733431, "train/prior_ent_mag": 54.49026752525652, "train/prior_ent_max": 54.49026752525652, "train/prior_ent_mean": 45.8274785431338, "train/prior_ent_min": 39.32270350926359, "train/prior_ent_std": 4.642194079471306, "train/rep_loss_mean": 2.1610918128994148, "train/rep_loss_std": 1.4917581662745543, "train/reward_avg": 0.498321963028169, "train/reward_loss_mean": 0.2189932408886896, "train/reward_loss_std": 0.747839716118826, "train/reward_max_data": 28.591549295774648, "train/reward_max_pred": 0.18074037827236553, "train/reward_neg_acc": 0.18845259503159725, "train/reward_neg_loss": 0.05330249494020368, "train/reward_pos_acc": 0.9189417811346726, "train/reward_pos_loss": 3.569592257620583, "train/reward_pred": 0.12277977934605638, "train/reward_rate": 0.04724636883802817, "train_stats/mean_log_entropy": 0.7135610580444336, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.01651535928249359, "report/cont_loss_std": 0.25708168745040894, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 4.711203575134277, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0027209785766899586, "report/cont_pred": 0.9972655773162842, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.441474676132202, "report/dyn_loss_std": 2.027635335922241, "report/image_loss_mean": 14.894776344299316, "report/image_loss_std": 5.531839847564697, "report/model_loss_mean": 16.555233001708984, "report/model_loss_std": 5.831520080566406, "report/post_ent_mag": 45.087615966796875, "report/post_ent_max": 45.087615966796875, "report/post_ent_mean": 34.785247802734375, "report/post_ent_min": 25.865909576416016, "report/post_ent_std": 5.094290733337402, "report/prior_ent_mag": 45.204551696777344, "report/prior_ent_max": 45.204551696777344, "report/prior_ent_mean": 38.207061767578125, "report/prior_ent_min": 31.168628692626953, "report/prior_ent_std": 4.763246536254883, "report/rep_loss_mean": 2.441474676132202, "report/rep_loss_std": 2.027635335922241, "report/reward_avg": 0.390625, "report/reward_loss_mean": 0.1790572702884674, "report/reward_loss_std": 0.6736926436424255, "report/reward_max_data": 10.0, "report/reward_max_pred": 0.4084911346435547, "report/reward_neg_acc": 0.5386179089546204, "report/reward_neg_loss": 0.04466650262475014, "report/reward_pos_acc": 0.625, "report/reward_pos_loss": 3.4850704669952393, "report/reward_pred": 0.10759210586547852, "report/reward_rate": 0.0390625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.01909218542277813, "eval/cont_loss_std": 0.28504645824432373, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.555337905883789, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.0013029853580519557, "eval/cont_pred": 0.9986647367477417, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 2.114743232727051, "eval/dyn_loss_std": 2.277151346206665, "eval/image_loss_mean": 11.8428955078125, "eval/image_loss_std": 6.810554027557373, "eval/model_loss_mean": 13.314261436462402, "eval/model_loss_std": 7.166015625, "eval/post_ent_mag": 40.239540100097656, "eval/post_ent_max": 40.239540100097656, "eval/post_ent_mean": 31.547012329101562, "eval/post_ent_min": 25.387187957763672, "eval/post_ent_std": 3.7139856815338135, "eval/prior_ent_mag": 43.97866439819336, "eval/prior_ent_max": 43.97866439819336, "eval/prior_ent_mean": 35.305641174316406, "eval/prior_ent_min": 30.96994972229004, "eval/prior_ent_std": 3.952749729156494, "eval/rep_loss_mean": 2.114743232727051, "eval/rep_loss_std": 2.277151346206665, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.18342840671539307, "eval/reward_loss_std": 0.653630256652832, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 0.37000036239624023, "eval/reward_neg_acc": 0.5173469185829163, "eval/reward_neg_loss": 0.04574759677052498, "eval/reward_pos_acc": 0.9318181872367859, "eval/reward_pos_loss": 3.249955654144287, "eval/reward_pred": 0.11115015298128128, "eval/reward_rate": 0.04296875, "replay/size": 2428.0, "replay/inserts": 706.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 5.369145876962808e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2705878225331941e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3113021850585938e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06125569343567, "timer/env.step_count": 706.0, "timer/env.step_total": 2.7028582096099854, "timer/env.step_frac": 0.009007688124758837, "timer/env.step_avg": 0.0038284110617705174, "timer/env.step_min": 0.0022940635681152344, "timer/env.step_max": 0.02127671241760254, "timer/replay._sample_count": 11296.0, "timer/replay._sample_total": 187.4909794330597, "timer/replay._sample_frac": 0.6248423476058971, "timer/replay._sample_avg": 0.016597997471056985, "timer/replay._sample_min": 0.0006611347198486328, "timer/replay._sample_max": 0.05016326904296875, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 706.0, "timer/agent.policy_total": 198.21802425384521, "timer/agent.policy_frac": 0.6605918641370985, "timer/agent.policy_avg": 0.28076207401394504, "timer/agent.policy_min": 0.0029544830322265625, "timer/agent.policy_max": 0.33022165298461914, "timer/dataset_train_count": 706.0, "timer/dataset_train_total": 0.09075736999511719, "timer/dataset_train_frac": 0.0003024628080868978, "timer/dataset_train_avg": 0.00012855151557382037, "timer/dataset_train_min": 7.748603820800781e-05, "timer/dataset_train_max": 0.002372264862060547, "timer/agent.train_count": 706.0, "timer/agent.train_total": 97.9281644821167, "timer/agent.train_frac": 0.3263605767955834, "timer/agent.train_avg": 0.13870844827495282, "timer/agent.train_min": 0.1011965274810791, "timer/agent.train_max": 0.45035815238952637, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.519305944442749, "timer/agent.report_frac": 0.0017306664375667002, "timer/agent.report_avg": 0.2596529722213745, "timer/agent.report_min": 0.10826349258422852, "timer/agent.report_max": 0.4110424518585205, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.296966552734375e-05, "timer/dataset_eval_frac": 2.765090925704569e-07, "timer/dataset_eval_avg": 8.296966552734375e-05, "timer/dataset_eval_min": 8.296966552734375e-05, "timer/dataset_eval_max": 8.296966552734375e-05, "fps": 9.410801695543656}
+{"step": 11720, "episode/length": 958.0, "episode/score": 540.0, "episode/reward_rate": 0.047966631908237745}
+{"step": 12736, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 0.8785630378170289, "train/action_min": 0.0, "train/action_std": 1.6007621918899426, "train/actor_opt_grad_norm": 0.03210925492390558, "train/actor_opt_grad_steps": 1740.0, "train/actor_opt_loss": 0.1472958649468163, "train/adv_mag": 2.415463069210882, "train/adv_max": 2.415463069210882, "train/adv_mean": 0.3454603282869726, "train/adv_min": -0.35685714729724155, "train/adv_std": 0.2994694232508756, "train/cont_avg": 0.9985563858695652, "train/cont_loss_mean": 0.006992768843306491, "train/cont_loss_std": 0.13155447324042788, "train/cont_neg_acc": 0.05864197540062445, "train/cont_neg_loss": 3.7943345782933413, "train/cont_pos_acc": 0.9999716376912766, "train/cont_pos_loss": 0.0013580436699566485, "train/cont_pred": 0.9985371551651886, "train/cont_rate": 0.9985563858695652, "train/dyn_loss_mean": 2.585451779158219, "train/dyn_loss_std": 2.435918573020161, "train/extr_critic_critic_opt_grad_norm": 2.7384812520897905, "train/extr_critic_critic_opt_grad_steps": 1740.0, "train/extr_critic_critic_opt_loss": 2.5579025779945264, "train/extr_critic_mag": 3.2020615632983223, "train/extr_critic_max": 3.2020615632983223, "train/extr_critic_mean": 2.961442470550537, "train/extr_critic_min": 2.1326148337212163, "train/extr_critic_std": 0.30218710264433984, "train/extr_return_normed_mag": 2.4856811848239624, "train/extr_return_normed_max": 2.4856811848239624, "train/extr_return_normed_mean": 0.564488210539887, "train/extr_return_normed_min": -0.15305567156273342, "train/extr_return_normed_std": 0.35617379757805145, "train/extr_return_rate": 0.9997348759485327, "train/extr_return_raw_mag": 8.526541502579398, "train/extr_return_raw_max": 8.526541502579398, "train/extr_return_raw_mean": 3.75547562820324, "train/extr_return_raw_min": 1.8701605468556501, "train/extr_return_raw_std": 0.8743646714998328, "train/extr_reward_mag": 1.5939323953960254, "train/extr_reward_max": 1.5939323953960254, "train/extr_reward_mean": 0.13080154208169467, "train/extr_reward_min": 0.006347975869109665, "train/extr_reward_std": 0.09951727848122086, "train/image_loss_mean": 12.337111113727957, "train/image_loss_std": 5.712299609529799, "train/model_loss_mean": 14.092607871345852, "train/model_loss_std": 6.088438510894775, "train/model_opt_grad_norm": 44.27340090102044, "train/model_opt_grad_steps": 1740.0, "train/model_opt_loss": 14.092607871345852, "train/policy_entropy_mag": 0.7216733802055967, "train/policy_entropy_max": 0.7216733802055967, "train/policy_entropy_mean": 0.4012117528397104, "train/policy_entropy_min": 0.19861312588487845, "train/policy_entropy_std": 0.08782213618573935, "train/policy_logprob_mag": 6.643851031427798, "train/policy_logprob_max": -0.04007443647993648, "train/policy_logprob_mean": -0.40056764129279315, "train/policy_logprob_min": -6.643851031427798, "train/policy_logprob_std": 0.9246149598688319, "train/policy_randomness_mag": 0.3284477075372917, "train/policy_randomness_max": 0.3284477075372917, "train/policy_randomness_mean": 0.1825993390402932, "train/policy_randomness_min": 0.09039272886255513, "train/policy_randomness_std": 0.03996957636073879, "train/post_ent_mag": 39.74338940606601, "train/post_ent_max": 39.74338940606601, "train/post_ent_mean": 31.877180956412055, "train/post_ent_min": 25.679955496304277, "train/post_ent_std": 2.375130599823551, "train/prior_ent_mag": 43.17557166279226, "train/prior_ent_max": 43.17557166279226, "train/prior_ent_mean": 34.83507905490156, "train/prior_ent_min": 29.947398337765016, "train/prior_ent_std": 2.426697145337644, "train/rep_loss_mean": 2.585451779158219, "train/rep_loss_std": 2.435918573020161, "train/reward_avg": 0.509369338768116, "train/reward_loss_mean": 0.197232766535835, "train/reward_loss_std": 0.6836829967256906, "train/reward_max_data": 37.2463768115942, "train/reward_max_pred": 2.475749841634778, "train/reward_neg_acc": 0.47244251076725946, "train/reward_neg_loss": 0.049997580926055496, "train/reward_pos_acc": 0.8778056580087413, "train/reward_pos_loss": 3.2068746435469477, "train/reward_pred": 0.1320563454342925, "train/reward_rate": 0.04691745923913043, "train_stats/mean_log_entropy": 0.5980747938156128, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00953235849738121, "report/cont_loss_std": 0.20918156206607819, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 4.731833457946777, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0002910653129220009, "report/cont_pred": 0.9996926784515381, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.4638309478759766, "report/dyn_loss_std": 2.6064183712005615, "report/image_loss_mean": 12.584364891052246, "report/image_loss_std": 5.436820030212402, "report/model_loss_mean": 14.255029678344727, "report/model_loss_std": 5.821617126464844, "report/post_ent_mag": 35.64330291748047, "report/post_ent_max": 35.64330291748047, "report/post_ent_mean": 28.890920639038086, "report/post_ent_min": 20.70429039001465, "report/post_ent_std": 2.1932976245880127, "report/prior_ent_mag": 41.99977493286133, "report/prior_ent_max": 41.99977493286133, "report/prior_ent_mean": 32.63873291015625, "report/prior_ent_min": 24.685203552246094, "report/prior_ent_std": 2.5206990242004395, "report/rep_loss_mean": 2.4638309478759766, "report/rep_loss_std": 2.6064183712005615, "report/reward_avg": 0.478515625, "report/reward_loss_mean": 0.18283426761627197, "report/reward_loss_std": 0.6776605844497681, "report/reward_max_data": 50.0, "report/reward_max_pred": 1.8484210968017578, "report/reward_neg_acc": 0.6169561147689819, "report/reward_neg_loss": 0.043033573776483536, "report/reward_pos_acc": 0.7777777910232544, "report/reward_pos_loss": 3.224276065826416, "report/reward_pred": 0.11475645005702972, "report/reward_rate": 0.0439453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.021862421184778214, "eval/cont_loss_std": 0.3017943501472473, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.366261959075928, "eval/cont_pos_acc": 0.9970645904541016, "eval/cont_pos_loss": 0.009446767158806324, "eval/cont_pred": 0.9923762083053589, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 2.6939988136291504, "eval/dyn_loss_std": 2.570775270462036, "eval/image_loss_mean": 13.280631065368652, "eval/image_loss_std": 7.0696210861206055, "eval/model_loss_mean": 15.15144157409668, "eval/model_loss_std": 7.641282081604004, "eval/post_ent_mag": 36.588653564453125, "eval/post_ent_max": 36.588653564453125, "eval/post_ent_mean": 29.340999603271484, "eval/post_ent_min": 23.956724166870117, "eval/post_ent_std": 1.9550496339797974, "eval/prior_ent_mag": 41.99977493286133, "eval/prior_ent_max": 41.99977493286133, "eval/prior_ent_mean": 33.06361389160156, "eval/prior_ent_min": 28.153018951416016, "eval/prior_ent_std": 2.4816062450408936, "eval/rep_loss_mean": 2.6939988136291504, "eval/rep_loss_std": 2.570775270462036, "eval/reward_avg": 0.52734375, "eval/reward_loss_mean": 0.23254932463169098, "eval/reward_loss_std": 0.8159404993057251, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 1.839911937713623, "eval/reward_neg_acc": 0.5917525887489319, "eval/reward_neg_loss": 0.046437736600637436, "eval/reward_pos_acc": 0.6481481790542603, "eval/reward_pos_loss": 3.57566499710083, "eval/reward_pred": 0.1203838512301445, "eval/reward_rate": 0.052734375, "replay/size": 3121.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.071125333271329e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1615594916185432e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1771917343139648e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.23597717285156, "timer/env.step_count": 693.0, "timer/env.step_total": 2.503582000732422, "timer/env.step_frac": 0.00833871418178196, "timer/env.step_avg": 0.0036126724397293245, "timer/env.step_min": 0.0022764205932617188, "timer/env.step_max": 0.016190767288208008, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 210.2866439819336, "timer/replay._sample_frac": 0.7004045483225602, "timer/replay._sample_avg": 0.018965245669366304, "timer/replay._sample_min": 0.0004980564117431641, "timer/replay._sample_max": 0.05342674255371094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1601243019104004, "timer/agent.save_frac": 0.0005333281621283307, "timer/agent.save_avg": 0.1601243019104004, "timer/agent.save_min": 0.1601243019104004, "timer/agent.save_max": 0.1601243019104004, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.3527352809906, "timer/agent.policy_frac": 0.6606561183931503, "timer/agent.policy_avg": 0.2862232832337527, "timer/agent.policy_min": 0.0027604103088378906, "timer/agent.policy_max": 0.3337829113006592, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.0903775691986084, "timer/dataset_train_frac": 0.00030102178309755436, "timer/dataset_train_avg": 0.0001304149627685547, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.0011980533599853516, "timer/agent.train_count": 693.0, "timer/agent.train_total": 97.97147846221924, "timer/agent.train_frac": 0.32631491863420214, "timer/agent.train_avg": 0.14137298479396715, "timer/agent.train_min": 0.10119748115539551, "timer/agent.train_max": 0.4477217197418213, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5141355991363525, "timer/agent.report_frac": 0.0017124383425919502, "timer/agent.report_avg": 0.25706779956817627, "timer/agent.report_min": 0.10916805267333984, "timer/agent.report_max": 0.4049675464630127, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.1975250244140625e-05, "timer/dataset_eval_frac": 1.7311466378400575e-07, "timer/dataset_eval_avg": 5.1975250244140625e-05, "timer/dataset_eval_min": 5.1975250244140625e-05, "timer/dataset_eval_max": 5.1975250244140625e-05, "fps": 9.232328785799785}
+{"step": 13700, "episode/length": 494.0, "episode/score": 110.0, "episode/reward_rate": 0.022222222222222223}
+{"step": 15512, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 2.1564003764719204, "train/action_min": 0.0, "train/action_std": 2.4415463882943857, "train/actor_opt_grad_norm": 0.027028632593219696, "train/actor_opt_grad_steps": 2430.0, "train/actor_opt_loss": 0.06172408558347303, "train/adv_mag": 2.0629607611808223, "train/adv_max": 2.0629607611808223, "train/adv_mean": 0.1181763185431128, "train/adv_min": -0.7289395794488381, "train/adv_std": 0.20861944275489752, "train/cont_avg": 0.9981884057971014, "train/cont_loss_mean": 0.005887110173532256, "train/cont_loss_std": 0.10745552970721568, "train/cont_neg_acc": 0.400292399159649, "train/cont_neg_loss": 2.3544647465541697, "train/cont_pos_acc": 0.9998012841611669, "train/cont_pos_loss": 0.0014165500486315991, "train/cont_pred": 0.9980983889621237, "train/cont_rate": 0.9981884057971014, "train/dyn_loss_mean": 2.4033044991285903, "train/dyn_loss_std": 2.747987342917401, "train/extr_critic_critic_opt_grad_norm": 2.220568975676661, "train/extr_critic_critic_opt_grad_steps": 2430.0, "train/extr_critic_critic_opt_loss": 2.2604658275410747, "train/extr_critic_mag": 5.512517929077148, "train/extr_critic_max": 5.512517929077148, "train/extr_critic_mean": 4.586815865143485, "train/extr_critic_min": 0.8187056140623231, "train/extr_critic_std": 1.4326040900271872, "train/extr_return_normed_mag": 2.276164842688519, "train/extr_return_normed_max": 2.276164842688519, "train/extr_return_normed_mean": 0.5908398857151252, "train/extr_return_normed_min": -0.18525271646786426, "train/extr_return_normed_std": 0.32126367308091425, "train/extr_return_rate": 0.9990536717401035, "train/extr_return_raw_mag": 16.567850320235543, "train/extr_return_raw_max": 16.567850320235543, "train/extr_return_raw_mean": 5.347308200338612, "train/extr_return_raw_min": 0.2693242162897967, "train/extr_return_raw_std": 2.1148137838944145, "train/extr_reward_mag": 3.444603380949601, "train/extr_reward_max": 3.444603380949601, "train/extr_reward_mean": 0.1286696470949961, "train/extr_reward_min": 0.0010711611181065657, "train/extr_reward_std": 0.227254128974417, "train/image_loss_mean": 10.501934037692305, "train/image_loss_std": 5.644695392553357, "train/model_loss_mean": 12.109715641408727, "train/model_loss_std": 6.144037156865217, "train/model_opt_grad_norm": 38.88617996547533, "train/model_opt_grad_steps": 2430.0, "train/model_opt_loss": 12.109715641408727, "train/policy_entropy_mag": 1.335484346617823, "train/policy_entropy_max": 1.335484346617823, "train/policy_entropy_mean": 0.5824471405450848, "train/policy_entropy_min": 0.11713233428156894, "train/policy_entropy_std": 0.3120298374822174, "train/policy_logprob_mag": 6.615557871003082, "train/policy_logprob_max": -0.016981886861764866, "train/policy_logprob_mean": -0.5830335306084674, "train/policy_logprob_min": -6.615557871003082, "train/policy_logprob_std": 1.0340642376222473, "train/policy_randomness_mag": 0.6078051151572794, "train/policy_randomness_max": 0.6078051151572794, "train/policy_randomness_mean": 0.2650831168976383, "train/policy_randomness_min": 0.05330922249434651, "train/policy_randomness_std": 0.14201089842379958, "train/post_ent_mag": 34.03942072218743, "train/post_ent_max": 34.03942072218743, "train/post_ent_mean": 26.013522327810094, "train/post_ent_min": 19.254653433094855, "train/post_ent_std": 2.19985268254211, "train/prior_ent_mag": 39.726636914239414, "train/prior_ent_max": 39.726636914239414, "train/prior_ent_mean": 28.878800046616707, "train/prior_ent_min": 23.228175204733144, "train/prior_ent_std": 2.501727924830672, "train/rep_loss_mean": 2.4033044991285903, "train/rep_loss_std": 2.747987342917401, "train/reward_avg": 0.4833276721014493, "train/reward_loss_mean": 0.15991181815448013, "train/reward_loss_std": 0.5853720717671989, "train/reward_max_data": 34.20289855072464, "train/reward_max_pred": 4.889971187149269, "train/reward_neg_acc": 0.7304486502771792, "train/reward_neg_loss": 0.04271931032501701, "train/reward_pos_acc": 0.8635305097137672, "train/reward_pos_loss": 2.689234194548234, "train/reward_pred": 0.13933450653069263, "train/reward_rate": 0.04444067028985507, "train_stats/mean_log_entropy": 0.28896668553352356, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00584873603656888, "report/cont_loss_std": 0.06048433110117912, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.9131794571876526, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.004073138348758221, "report/cont_pred": 0.9951193332672119, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.612924098968506, "report/dyn_loss_std": 2.5671658515930176, "report/image_loss_mean": 10.917308807373047, "report/image_loss_std": 5.687234401702881, "report/model_loss_mean": 12.642167091369629, "report/model_loss_std": 6.200098991394043, "report/post_ent_mag": 31.334529876708984, "report/post_ent_max": 31.334529876708984, "report/post_ent_mean": 25.352806091308594, "report/post_ent_min": 19.457550048828125, "report/post_ent_std": 1.7482914924621582, "report/prior_ent_mag": 36.981651306152344, "report/prior_ent_max": 36.981651306152344, "report/prior_ent_mean": 28.20947265625, "report/prior_ent_min": 24.262165069580078, "report/prior_ent_std": 1.8952556848526, "report/rep_loss_mean": 2.612924098968506, "report/rep_loss_std": 2.5671658515930176, "report/reward_avg": 0.44921875, "report/reward_loss_mean": 0.15125462412834167, "report/reward_loss_std": 0.42515477538108826, "report/reward_max_data": 10.0, "report/reward_max_pred": 6.61634635925293, "report/reward_neg_acc": 0.6768916249275208, "report/reward_neg_loss": 0.06874998658895493, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 1.905375361442566, "report/reward_pred": 0.24286402761936188, "report/reward_rate": 0.044921875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01086229644715786, "eval/cont_loss_std": 0.19464214146137238, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.6996047496795654, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.003643622389063239, "eval/cont_pred": 0.9966438412666321, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 3.371058940887451, "eval/dyn_loss_std": 3.2487220764160156, "eval/image_loss_mean": 11.311969757080078, "eval/image_loss_std": 6.562618732452393, "eval/model_loss_mean": 13.569693565368652, "eval/model_loss_std": 7.40781831741333, "eval/post_ent_mag": 31.497570037841797, "eval/post_ent_max": 31.497570037841797, "eval/post_ent_mean": 25.787559509277344, "eval/post_ent_min": 18.962364196777344, "eval/post_ent_std": 1.892474889755249, "eval/prior_ent_mag": 36.981651306152344, "eval/prior_ent_max": 36.981651306152344, "eval/prior_ent_mean": 27.657812118530273, "eval/prior_ent_min": 24.194168090820312, "eval/prior_ent_std": 1.6849045753479004, "eval/rep_loss_mean": 3.371058940887451, "eval/rep_loss_std": 3.2487220764160156, "eval/reward_avg": 0.48828125, "eval/reward_loss_mean": 0.2242266833782196, "eval/reward_loss_std": 0.7087637186050415, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 3.338136672973633, "eval/reward_neg_acc": 0.5759753584861755, "eval/reward_neg_loss": 0.0778716504573822, "eval/reward_pos_acc": 0.7400000095367432, "eval/reward_pos_loss": 3.0752227306365967, "eval/reward_pred": 0.2311243712902069, "eval/reward_rate": 0.048828125, "replay/size": 3815.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.48323120644869e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0901895654991655e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2218952178955078e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1443827152252, "timer/env.step_count": 694.0, "timer/env.step_total": 2.465353012084961, "timer/env.step_frac": 0.00821389022770441, "timer/env.step_avg": 0.0035523818617938917, "timer/env.step_min": 0.0022296905517578125, "timer/env.step_max": 0.025836467742919922, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 194.74091625213623, "timer/replay._sample_frac": 0.6488241242112632, "timer/replay._sample_avg": 0.01753790672299498, "timer/replay._sample_min": 0.0004942417144775391, "timer/replay._sample_max": 0.05043649673461914, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.90847063064575, "timer/agent.policy_frac": 0.66270928954672, "timer/agent.policy_avg": 0.28661162915078636, "timer/agent.policy_min": 0.0029191970825195312, "timer/agent.policy_max": 0.33124494552612305, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.0799551010131836, "timer/dataset_train_frac": 0.00026638879691793003, "timer/dataset_train_avg": 0.000115209079269717, "timer/dataset_train_min": 7.271766662597656e-05, "timer/dataset_train_max": 0.0003790855407714844, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.14304232597351, "timer/agent.train_frac": 0.3236543740954903, "timer/agent.train_avg": 0.13997556531120103, "timer/agent.train_min": 0.10132479667663574, "timer/agent.train_max": 0.44907665252685547, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5224218368530273, "timer/agent.report_frac": 0.0017405684295237914, "timer/agent.report_avg": 0.26121091842651367, "timer/agent.report_min": 0.11058998107910156, "timer/agent.report_max": 0.4118318557739258, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010228157043457031, "timer/dataset_eval_frac": 3.407745615936258e-07, "timer/dataset_eval_avg": 0.00010228157043457031, "timer/dataset_eval_min": 0.00010228157043457031, "timer/dataset_eval_max": 0.00010228157043457031, "fps": 9.248466399509194}
+{"step": 16516, "episode/length": 703.0, "episode/score": 800.0, "episode/reward_rate": 0.02556818181818182}
+{"step": 17940, "episode/length": 355.0, "episode/score": 220.0, "episode/reward_rate": 0.06179775280898876}
+{"step": 18340, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 0.9547574755171655, "train/action_min": 0.0, "train/action_std": 1.1689382279422922, "train/actor_opt_grad_norm": 0.03314960265243557, "train/actor_opt_grad_steps": 3130.0, "train/actor_opt_loss": 0.0541507800201505, "train/adv_mag": 2.0420840474921214, "train/adv_max": 2.0420840474921214, "train/adv_mean": 0.09207589071716221, "train/adv_min": -0.5562688798551828, "train/adv_std": 0.2005946727495798, "train/cont_avg": 0.9985145246478874, "train/cont_loss_mean": 0.0043520779994135495, "train/cont_loss_std": 0.08428231890804813, "train/cont_neg_acc": 0.38505747349097813, "train/cont_neg_loss": 2.0563145091050656, "train/cont_pos_acc": 0.9998759644132265, "train/cont_pos_loss": 0.0012333475012341502, "train/cont_pred": 0.9983438715128832, "train/cont_rate": 0.9985145246478874, "train/dyn_loss_mean": 2.700305928646679, "train/dyn_loss_std": 2.8081063183260637, "train/extr_critic_critic_opt_grad_norm": 1.5558459204687198, "train/extr_critic_critic_opt_grad_steps": 3130.0, "train/extr_critic_critic_opt_loss": 2.0540834900359033, "train/extr_critic_mag": 8.397517096828407, "train/extr_critic_max": 8.397517096828407, "train/extr_critic_mean": 6.7916180247991855, "train/extr_critic_min": 1.041420812338171, "train/extr_critic_std": 2.036369566346558, "train/extr_return_normed_mag": 2.5850382640328204, "train/extr_return_normed_max": 2.5850382640328204, "train/extr_return_normed_mean": 0.5775743701928099, "train/extr_return_normed_min": -0.11227614527017298, "train/extr_return_normed_std": 0.2980972043645214, "train/extr_return_rate": 0.9995195395509962, "train/extr_return_raw_mag": 29.23950721848179, "train/extr_return_raw_max": 29.23950721848179, "train/extr_return_raw_mean": 7.756543461705597, "train/extr_return_raw_min": 0.4538403077864311, "train/extr_return_raw_std": 3.1618765878005766, "train/extr_reward_mag": 7.989014538241104, "train/extr_reward_max": 7.989014538241104, "train/extr_reward_mean": 0.1523315743871138, "train/extr_reward_min": 0.00044387327113621673, "train/extr_reward_std": 0.45583314333163516, "train/image_loss_mean": 9.47384436701385, "train/image_loss_std": 5.0682501389946735, "train/model_loss_mean": 11.218888605144661, "train/model_loss_std": 5.706657993961388, "train/model_opt_grad_norm": 36.13146000177088, "train/model_opt_grad_steps": 3130.0, "train/model_opt_loss": 11.218888605144661, "train/policy_entropy_mag": 1.4910450283910188, "train/policy_entropy_max": 1.4910450283910188, "train/policy_entropy_mean": 0.589507541186373, "train/policy_entropy_min": 0.09533932227903688, "train/policy_entropy_std": 0.29299526084476796, "train/policy_logprob_mag": 6.724187528583365, "train/policy_logprob_max": -0.013415782633696643, "train/policy_logprob_mean": -0.5886814552293697, "train/policy_logprob_min": -6.724187528583365, "train/policy_logprob_std": 1.0342684950627072, "train/policy_randomness_mag": 0.6786038325705999, "train/policy_randomness_max": 0.6786038325705999, "train/policy_randomness_mean": 0.26829644429012084, "train/policy_randomness_min": 0.043390795063804576, "train/policy_randomness_std": 0.13334788843779496, "train/post_ent_mag": 30.951681808686594, "train/post_ent_max": 30.951681808686594, "train/post_ent_mean": 25.064634806673293, "train/post_ent_min": 17.567236255592025, "train/post_ent_std": 1.9507923361281274, "train/prior_ent_mag": 38.51078253732601, "train/prior_ent_max": 38.51078253732601, "train/prior_ent_mean": 27.904841006641657, "train/prior_ent_min": 22.673076172949564, "train/prior_ent_std": 2.2117184937839776, "train/rep_loss_mean": 2.700305928646679, "train/rep_loss_std": 2.8081063183260637, "train/reward_avg": 0.585662411971831, "train/reward_loss_mean": 0.12050857410674364, "train/reward_loss_std": 0.48754431957929906, "train/reward_max_data": 135.6338028169014, "train/reward_max_pred": 8.904323839805496, "train/reward_neg_acc": 0.842945697441907, "train/reward_neg_loss": 0.03335925224433902, "train/reward_pos_acc": 0.9195206669014944, "train/reward_pos_loss": 2.1164721183373896, "train/reward_pred": 0.1670254612682571, "train/reward_rate": 0.04181338028169014, "train_stats/mean_log_entropy": 0.7476411163806915, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.005782765336334705, "report/cont_loss_std": 0.14841215312480927, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 2.949906349182129, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.1270645447657444e-05, "report/cont_pred": 0.9997128248214722, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.6552999019622803, "report/dyn_loss_std": 2.722503185272217, "report/image_loss_mean": 8.662466049194336, "report/image_loss_std": 5.027266502380371, "report/model_loss_mean": 10.384273529052734, "report/model_loss_std": 5.779212951660156, "report/post_ent_mag": 30.218942642211914, "report/post_ent_max": 30.218942642211914, "report/post_ent_mean": 25.439300537109375, "report/post_ent_min": 18.512746810913086, "report/post_ent_std": 1.7736308574676514, "report/prior_ent_mag": 38.40803527832031, "report/prior_ent_max": 38.40803527832031, "report/prior_ent_mean": 28.12716293334961, "report/prior_ent_min": 23.54898452758789, "report/prior_ent_std": 1.9523471593856812, "report/rep_loss_mean": 2.6552999019622803, "report/rep_loss_std": 2.722503185272217, "report/reward_avg": 0.615234375, "report/reward_loss_mean": 0.1228441596031189, "report/reward_loss_std": 0.42849844694137573, "report/reward_max_data": 50.0, "report/reward_max_pred": 8.982189178466797, "report/reward_neg_acc": 0.8652850389480591, "report/reward_neg_loss": 0.03525451570749283, "report/reward_pos_acc": 0.9830508232116699, "report/reward_pos_loss": 1.5554543733596802, "report/reward_pred": 0.27030545473098755, "report/reward_rate": 0.0576171875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.008298983797430992, "eval/cont_loss_std": 0.11259540170431137, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 0.9951171875, "eval/cont_pos_loss": 0.008298983797430992, "eval/cont_pred": 0.9953824281692505, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 4.211881637573242, "eval/dyn_loss_std": 3.300969123840332, "eval/image_loss_mean": 12.069208145141602, "eval/image_loss_std": 5.6050896644592285, "eval/model_loss_mean": 14.897417068481445, "eval/model_loss_std": 6.705602645874023, "eval/post_ent_mag": 32.53506088256836, "eval/post_ent_max": 32.53506088256836, "eval/post_ent_mean": 26.556251525878906, "eval/post_ent_min": 18.265396118164062, "eval/post_ent_std": 1.9879932403564453, "eval/prior_ent_mag": 38.40803527832031, "eval/prior_ent_max": 38.40803527832031, "eval/prior_ent_mean": 28.218963623046875, "eval/prior_ent_min": 23.30068588256836, "eval/prior_ent_std": 1.7274894714355469, "eval/rep_loss_mean": 4.211881637573242, "eval/rep_loss_std": 3.300969123840332, "eval/reward_avg": 0.56640625, "eval/reward_loss_mean": 0.29278096556663513, "eval/reward_loss_std": 1.2000974416732788, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 4.624062538146973, "eval/reward_neg_acc": 0.873706042766571, "eval/reward_neg_loss": 0.026257667690515518, "eval/reward_pos_acc": 0.3448275923728943, "eval/reward_pos_loss": 4.731772422790527, "eval/reward_pred": 0.0853184312582016, "eval/reward_rate": 0.056640625, "replay/size": 4522.0, "replay/inserts": 707.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 5.377738445449247e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.301206490275209e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0004382133484, "timer/env.step_count": 707.0, "timer/env.step_total": 2.743281841278076, "timer/env.step_frac": 0.009144259447138418, "timer/env.step_avg": 0.0038801723356125545, "timer/env.step_min": 0.0022881031036376953, "timer/env.step_max": 0.025058507919311523, "timer/replay._sample_count": 11312.0, "timer/replay._sample_total": 187.43811964988708, "timer/replay._sample_frac": 0.6247928195244453, "timer/replay._sample_avg": 0.016569847918130046, "timer/replay._sample_min": 0.0005578994750976562, "timer/replay._sample_max": 0.07253861427307129, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 707.0, "timer/agent.policy_total": 198.40693521499634, "timer/agent.policy_frac": 0.6613554846673164, "timer/agent.policy_avg": 0.2806321573055111, "timer/agent.policy_min": 0.002859354019165039, "timer/agent.policy_max": 0.3264799118041992, "timer/dataset_train_count": 707.0, "timer/dataset_train_total": 0.08797883987426758, "timer/dataset_train_frac": 0.0002932623712092731, "timer/dataset_train_avg": 0.00012443966035964298, "timer/dataset_train_min": 7.462501525878906e-05, "timer/dataset_train_max": 0.0003504753112792969, "timer/agent.train_count": 707.0, "timer/agent.train_total": 97.66612339019775, "timer/agent.train_frac": 0.3255532690946987, "timer/agent.train_avg": 0.13814161724214674, "timer/agent.train_min": 0.09988021850585938, "timer/agent.train_max": 0.4396545886993408, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49918198585510254, "timer/agent.report_frac": 0.0016639375223182313, "timer/agent.report_avg": 0.24959099292755127, "timer/agent.report_min": 0.09934353828430176, "timer/agent.report_max": 0.3998384475708008, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010609626770019531, "timer/dataset_eval_frac": 3.5365370908139764e-07, "timer/dataset_eval_avg": 0.00010609626770019531, "timer/dataset_eval_min": 0.00010609626770019531, "timer/dataset_eval_max": 0.00010609626770019531, "fps": 9.426325816791584}
+{"step": 20244, "episode/length": 575.0, "episode/score": 300.0, "episode/reward_rate": 0.052083333333333336}
+{"step": 21172, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 0.5583693813270246, "train/action_min": 0.0, "train/action_std": 0.9484683426333146, "train/actor_opt_grad_norm": 0.027097687990942473, "train/actor_opt_grad_steps": 3840.0, "train/actor_opt_loss": 0.02419938889174709, "train/adv_mag": 2.286429744371226, "train/adv_max": 2.286429744371226, "train/adv_mean": 0.06368441957140893, "train/adv_min": -0.5219911991710394, "train/adv_std": 0.20225892730162176, "train/cont_avg": 0.9982944542253521, "train/cont_loss_mean": 0.003323492572177765, "train/cont_loss_std": 0.060343762010515875, "train/cont_neg_acc": 0.49016393598963004, "train/cont_neg_loss": 1.2020669298124362, "train/cont_pos_acc": 0.9997104658207423, "train/cont_pos_loss": 0.0011889215015670883, "train/cont_pred": 0.998206077327191, "train/cont_rate": 0.9982944542253521, "train/dyn_loss_mean": 2.7443212690487715, "train/dyn_loss_std": 2.97852236452237, "train/extr_critic_critic_opt_grad_norm": 1.2614824805461184, "train/extr_critic_critic_opt_grad_steps": 3840.0, "train/extr_critic_critic_opt_loss": 2.1311319881761577, "train/extr_critic_mag": 13.550322599813972, "train/extr_critic_max": 13.550322599813972, "train/extr_critic_mean": 9.023867889189384, "train/extr_critic_min": 1.6907184426213655, "train/extr_critic_std": 3.4271444518801193, "train/extr_return_normed_mag": 2.8046452025292625, "train/extr_return_normed_max": 2.8046452025292625, "train/extr_return_normed_mean": 0.4675480798936226, "train/extr_return_normed_min": -0.13181836068840094, "train/extr_return_normed_std": 0.31347776004965877, "train/extr_return_rate": 0.9974444785588225, "train/extr_return_raw_mag": 48.92451552270164, "train/extr_return_raw_max": 48.92451552270164, "train/extr_return_raw_mean": 10.068196189235634, "train/extr_return_raw_min": 0.1906018122820787, "train/extr_return_raw_std": 5.202000500450672, "train/extr_reward_mag": 19.61672663352859, "train/extr_reward_max": 19.61672663352859, "train/extr_reward_mean": 0.18142130016021327, "train/extr_reward_min": -6.128364885357064e-07, "train/extr_reward_std": 0.8571149828568311, "train/image_loss_mean": 8.109823932110423, "train/image_loss_std": 4.833400800194539, "train/model_loss_mean": 9.829111193267392, "train/model_loss_std": 5.642302398950282, "train/model_opt_grad_norm": 39.8836213770047, "train/model_opt_grad_steps": 3840.0, "train/model_opt_loss": 9.829111193267392, "train/policy_entropy_mag": 1.670992181334697, "train/policy_entropy_max": 1.670992181334697, "train/policy_entropy_mean": 0.42063373872931575, "train/policy_entropy_min": 0.07152799989136172, "train/policy_entropy_std": 0.3076009897279068, "train/policy_logprob_mag": 6.7801080555982995, "train/policy_logprob_max": -0.009259659298498866, "train/policy_logprob_mean": -0.4189427973518909, "train/policy_logprob_min": -6.7801080555982995, "train/policy_logprob_std": 0.9647506668534077, "train/policy_randomness_mag": 0.7605013083404218, "train/policy_randomness_max": 0.7605013083404218, "train/policy_randomness_mean": 0.19143866296385376, "train/policy_randomness_min": 0.03255379535782505, "train/policy_randomness_std": 0.13999524103923583, "train/post_ent_mag": 30.50450212183133, "train/post_ent_max": 30.50450212183133, "train/post_ent_mean": 24.81343973186654, "train/post_ent_min": 16.886280973192672, "train/post_ent_std": 1.9963353049587196, "train/prior_ent_mag": 39.73981169579734, "train/prior_ent_max": 39.73981169579734, "train/prior_ent_mean": 28.051989058373678, "train/prior_ent_min": 22.323449416899344, "train/prior_ent_std": 2.3991229618099372, "train/rep_loss_mean": 2.7443212690487715, "train/rep_loss_std": 2.97852236452237, "train/reward_avg": 0.5614546654929577, "train/reward_loss_mean": 0.06937106273753542, "train/reward_loss_std": 0.32938362846911795, "train/reward_max_data": 114.22535211267606, "train/reward_max_pred": 24.370217753128266, "train/reward_neg_acc": 0.9315310087002499, "train/reward_neg_loss": 0.018492080717229506, "train/reward_pos_acc": 0.9624547941583983, "train/reward_pos_loss": 1.285647364569382, "train/reward_pred": 0.27278381313236666, "train/reward_rate": 0.040850572183098594, "train_stats/mean_log_entropy": 0.5721347332000732, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0007171300239861012, "report/cont_loss_std": 0.02131999097764492, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.6821142435073853, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.1052622438874096e-05, "report/cont_pred": 0.9994556903839111, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.71122670173645, "report/dyn_loss_std": 2.97149920463562, "report/image_loss_mean": 7.071392059326172, "report/image_loss_std": 3.776468276977539, "report/model_loss_mean": 8.746567726135254, "report/model_loss_std": 4.589937210083008, "report/post_ent_mag": 29.808555603027344, "report/post_ent_max": 29.808555603027344, "report/post_ent_mean": 24.76952362060547, "report/post_ent_min": 16.046649932861328, "report/post_ent_std": 1.8449305295944214, "report/prior_ent_mag": 41.88589096069336, "report/prior_ent_max": 41.88589096069336, "report/prior_ent_mean": 28.179691314697266, "report/prior_ent_min": 21.857765197753906, "report/prior_ent_std": 2.4544835090637207, "report/rep_loss_mean": 2.71122670173645, "report/rep_loss_std": 2.97149920463562, "report/reward_avg": 0.33203125, "report/reward_loss_mean": 0.04772249609231949, "report/reward_loss_std": 0.2542434334754944, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.733392715454102, "report/reward_neg_acc": 0.9525251984596252, "report/reward_neg_loss": 0.01346281822770834, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 1.0452837944030762, "report/reward_pred": 0.24908126890659332, "report/reward_rate": 0.033203125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009105423465371132, "eval/cont_loss_std": 0.21213437616825104, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.398686170578003, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.002472192980349064, "eval/cont_pred": 0.9971941113471985, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 4.940925598144531, "eval/dyn_loss_std": 3.3765957355499268, "eval/image_loss_mean": 10.914302825927734, "eval/image_loss_std": 5.9238386154174805, "eval/model_loss_mean": 14.198521614074707, "eval/model_loss_std": 7.322474479675293, "eval/post_ent_mag": 31.894319534301758, "eval/post_ent_max": 31.894319534301758, "eval/post_ent_mean": 25.999408721923828, "eval/post_ent_min": 16.379711151123047, "eval/post_ent_std": 2.2951865196228027, "eval/prior_ent_mag": 41.88589096069336, "eval/prior_ent_max": 41.88589096069336, "eval/prior_ent_mean": 28.10432243347168, "eval/prior_ent_min": 21.096576690673828, "eval/prior_ent_std": 2.3698346614837646, "eval/rep_loss_mean": 4.940925598144531, "eval/rep_loss_std": 3.3765957355499268, "eval/reward_avg": 0.537109375, "eval/reward_loss_mean": 0.310558021068573, "eval/reward_loss_std": 1.3163034915924072, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 8.677757263183594, "eval/reward_neg_acc": 0.9060887694358826, "eval/reward_neg_loss": 0.031393226236104965, "eval/reward_pos_acc": 0.30909091234207153, "eval/reward_pos_loss": 5.228933334350586, "eval/reward_pred": 0.11434943974018097, "eval/reward_rate": 0.0537109375, "replay/size": 5230.0, "replay/inserts": 708.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 5.502485286044536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3311703999837239e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1920928955078125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.18166875839233, "timer/env.step_count": 708.0, "timer/env.step_total": 2.727999210357666, "timer/env.step_frac": 0.009087827453425727, "timer/env.step_avg": 0.0038531062293187374, "timer/env.step_min": 0.002096414566040039, "timer/env.step_max": 0.0197598934173584, "timer/replay._sample_count": 11328.0, "timer/replay._sample_total": 189.21687412261963, "timer/replay._sample_frac": 0.6303412027298538, "timer/replay._sample_avg": 0.016703466995287748, "timer/replay._sample_min": 0.0006818771362304688, "timer/replay._sample_max": 0.06031537055969238, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 708.0, "timer/agent.policy_total": 198.34758305549622, "timer/agent.policy_frac": 0.6607584796096944, "timer/agent.policy_avg": 0.280151953468215, "timer/agent.policy_min": 0.002992391586303711, "timer/agent.policy_max": 0.32392263412475586, "timer/dataset_train_count": 708.0, "timer/dataset_train_total": 0.09081530570983887, "timer/dataset_train_frac": 0.0003025344821536505, "timer/dataset_train_avg": 0.00012827020580485717, "timer/dataset_train_min": 8.058547973632812e-05, "timer/dataset_train_max": 0.0005090236663818359, "timer/agent.train_count": 708.0, "timer/agent.train_total": 97.88740420341492, "timer/agent.train_frac": 0.3260938771121354, "timer/agent.train_avg": 0.13825904548504933, "timer/agent.train_min": 0.1011514663696289, "timer/agent.train_max": 0.44675397872924805, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.519312858581543, "timer/agent.report_frac": 0.0017299952416465613, "timer/agent.report_avg": 0.2596564292907715, "timer/agent.report_min": 0.11585545539855957, "timer/agent.report_max": 0.4034574031829834, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.9591064453125e-05, "timer/dataset_eval_frac": 1.6520350712367926e-07, "timer/dataset_eval_avg": 4.9591064453125e-05, "timer/dataset_eval_min": 4.9591064453125e-05, "timer/dataset_eval_max": 4.9591064453125e-05, "fps": 9.433997295150428}
+{"step": 21788, "episode/length": 385.0, "episode/score": 250.0, "episode/reward_rate": 0.06476683937823834}
+{"step": 23940, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 0.5477056088654891, "train/action_min": 0.0, "train/action_std": 0.9842092412105505, "train/actor_opt_grad_norm": 0.025090175235401028, "train/actor_opt_grad_steps": 4540.0, "train/actor_opt_loss": 0.018250087535926614, "train/adv_mag": 3.426031546316285, "train/adv_max": 3.426031546316285, "train/adv_mean": 0.0532091094477885, "train/adv_min": -0.4761037087958792, "train/adv_std": 0.20567259419223535, "train/cont_avg": 0.9983723958333334, "train/cont_loss_mean": 0.002031695902073609, "train/cont_loss_std": 0.04396080326704828, "train/cont_neg_acc": 0.705952384074529, "train/cont_neg_loss": 0.8703177285535882, "train/cont_pos_acc": 0.9997446441995925, "train/cont_pos_loss": 0.0008027906729311972, "train/cont_pred": 0.9983133535454238, "train/cont_rate": 0.9983723958333334, "train/dyn_loss_mean": 2.731973965962728, "train/dyn_loss_std": 2.9311542821967085, "train/extr_critic_critic_opt_grad_norm": 1.3823781307192817, "train/extr_critic_critic_opt_grad_steps": 4540.0, "train/extr_critic_critic_opt_loss": 2.2983215304388516, "train/extr_critic_mag": 19.6618999812914, "train/extr_critic_max": 19.6618999812914, "train/extr_critic_mean": 10.350806982620902, "train/extr_critic_min": 2.0969886261483897, "train/extr_critic_std": 4.893864773321843, "train/extr_return_normed_mag": 3.991009853888249, "train/extr_return_normed_max": 3.991009853888249, "train/extr_return_normed_mean": 0.4289935870447021, "train/extr_return_normed_min": -0.1094418535400452, "train/extr_return_normed_std": 0.3414709701918174, "train/extr_return_rate": 0.9941548221353171, "train/extr_return_raw_mag": 85.62859504810278, "train/extr_return_raw_max": 85.62859504810278, "train/extr_return_raw_mean": 11.458286534184994, "train/extr_return_raw_min": 0.33979886511097784, "train/extr_return_raw_std": 7.090859530628592, "train/extr_reward_mag": 52.493126288704254, "train/extr_reward_max": 52.493126288704254, "train/extr_reward_mean": 0.22508429563131885, "train/extr_reward_min": -0.0001123193381489187, "train/extr_reward_std": 1.4340224637501482, "train/image_loss_mean": 7.213288348654042, "train/image_loss_std": 4.322872745817986, "train/model_loss_mean": 8.91278000154357, "train/model_loss_std": 5.1738118365191035, "train/model_opt_grad_norm": 39.00279025755067, "train/model_opt_grad_steps": 4540.0, "train/model_opt_loss": 8.91278000154357, "train/policy_entropy_mag": 1.8007416828818943, "train/policy_entropy_max": 1.8007416828818943, "train/policy_entropy_mean": 0.3862856652425683, "train/policy_entropy_min": 0.07120515449323515, "train/policy_entropy_std": 0.32338767293570697, "train/policy_logprob_mag": 6.781739925992662, "train/policy_logprob_max": -0.009210625798373983, "train/policy_logprob_mean": -0.3868961684081865, "train/policy_logprob_min": -6.781739925992662, "train/policy_logprob_std": 0.9767505854800127, "train/policy_randomness_mag": 0.81955285348754, "train/policy_randomness_max": 0.81955285348754, "train/policy_randomness_mean": 0.17580618050651273, "train/policy_randomness_min": 0.032406862069299255, "train/policy_randomness_std": 0.14718007134354633, "train/post_ent_mag": 30.070017137389254, "train/post_ent_max": 30.070017137389254, "train/post_ent_mean": 24.48922165580418, "train/post_ent_min": 16.554389981256016, "train/post_ent_std": 1.888764991276506, "train/prior_ent_mag": 40.725234930066094, "train/prior_ent_max": 40.725234930066094, "train/prior_ent_mean": 27.68995644389719, "train/prior_ent_min": 21.6528881183569, "train/prior_ent_std": 2.4618239299110742, "train/rep_loss_mean": 2.731973965962728, "train/rep_loss_std": 2.9311542821967085, "train/reward_avg": 0.590041893115942, "train/reward_loss_mean": 0.05827555403221345, "train/reward_loss_std": 0.2929217729015627, "train/reward_max_data": 116.81159420289855, "train/reward_max_pred": 47.58709881271141, "train/reward_neg_acc": 0.95282459863718, "train/reward_neg_loss": 0.013129679725734868, "train/reward_pos_acc": 0.9701978486517201, "train/reward_pos_loss": 1.0353481709093288, "train/reward_pred": 0.375468026144781, "train/reward_rate": 0.044369904891304345, "train_stats/mean_log_entropy": 0.41818103194236755, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0008976602111943066, "report/cont_loss_std": 0.018272629007697105, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.027039356529712677, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.000846502254717052, "report/cont_pred": 0.9973962306976318, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.7077255249023438, "report/dyn_loss_std": 3.0509328842163086, "report/image_loss_mean": 6.404083251953125, "report/image_loss_std": 3.8004860877990723, "report/model_loss_mean": 8.07236385345459, "report/model_loss_std": 4.793112754821777, "report/post_ent_mag": 29.301570892333984, "report/post_ent_max": 29.301570892333984, "report/post_ent_mean": 24.71550750732422, "report/post_ent_min": 17.680034637451172, "report/post_ent_std": 1.8821625709533691, "report/prior_ent_mag": 41.93528366088867, "report/prior_ent_max": 41.93528366088867, "report/prior_ent_mean": 27.379913330078125, "report/prior_ent_min": 22.004627227783203, "report/prior_ent_std": 2.5941882133483887, "report/rep_loss_mean": 2.7077255249023438, "report/rep_loss_std": 3.0509328842163086, "report/reward_avg": 0.419921875, "report/reward_loss_mean": 0.04274749383330345, "report/reward_loss_std": 0.2137635499238968, "report/reward_max_data": 50.0, "report/reward_max_pred": 47.25654220581055, "report/reward_neg_acc": 0.944388210773468, "report/reward_neg_loss": 0.015287472866475582, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.8186891078948975, "report/reward_pred": 0.3847329318523407, "report/reward_rate": 0.0341796875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.031178507953882217, "eval/cont_loss_std": 0.38427773118019104, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 2.8418681621551514, "eval/cont_pos_acc": 0.9921644926071167, "eval/cont_pos_loss": 0.022919878363609314, "eval/cont_pred": 0.9901024103164673, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 5.176082134246826, "eval/dyn_loss_std": 3.9908196926116943, "eval/image_loss_mean": 9.18045425415039, "eval/image_loss_std": 5.799427032470703, "eval/model_loss_mean": 12.689326286315918, "eval/model_loss_std": 7.716940402984619, "eval/post_ent_mag": 29.800098419189453, "eval/post_ent_max": 29.800098419189453, "eval/post_ent_mean": 24.89535140991211, "eval/post_ent_min": 17.24327850341797, "eval/post_ent_std": 1.9737498760223389, "eval/prior_ent_mag": 41.93528366088867, "eval/prior_ent_max": 41.93528366088867, "eval/prior_ent_mean": 27.632747650146484, "eval/prior_ent_min": 21.644453048706055, "eval/prior_ent_std": 2.659698724746704, "eval/rep_loss_mean": 5.176082134246826, "eval/rep_loss_std": 3.9908196926116943, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.3720444142818451, "eval/reward_loss_std": 1.4609274864196777, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.908866882324219, "eval/reward_neg_acc": 0.8722966313362122, "eval/reward_neg_loss": 0.09900178760290146, "eval/reward_pos_acc": 0.35849058628082275, "eval/reward_pos_loss": 5.374391555786133, "eval/reward_pred": 0.3363967537879944, "eval/reward_rate": 0.0517578125, "replay/size": 5922.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 4.999899450754155e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3960363892461523e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.238719940185547e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1762390136719, "timer/env.step_count": 692.0, "timer/env.step_total": 2.309053659439087, "timer/env.step_frac": 0.007692326571304395, "timer/env.step_avg": 0.0033367827448541718, "timer/env.step_min": 0.0016400814056396484, "timer/env.step_max": 0.017484664916992188, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 223.91838479042053, "timer/replay._sample_frac": 0.7459563939043886, "timer/replay._sample_avg": 0.020223842556938272, "timer/replay._sample_min": 0.0006530284881591797, "timer/replay._sample_max": 0.05415773391723633, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2707047462463379, "timer/agent.save_frac": 0.0009018193683011943, "timer/agent.save_avg": 0.2707047462463379, "timer/agent.save_min": 0.2707047462463379, "timer/agent.save_max": 0.2707047462463379, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 197.70998859405518, "timer/agent.policy_frac": 0.6586463646946095, "timer/agent.policy_avg": 0.2857080760029699, "timer/agent.policy_min": 0.0029587745666503906, "timer/agent.policy_max": 0.42351293563842773, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.09934043884277344, "timer/dataset_train_frac": 0.0003309403807882637, "timer/dataset_train_avg": 0.00014355554746065525, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0068683624267578125, "timer/agent.train_count": 692.0, "timer/agent.train_total": 98.80594658851624, "timer/agent.train_frac": 0.3291597859749852, "timer/agent.train_avg": 0.14278315980999456, "timer/agent.train_min": 0.10337495803833008, "timer/agent.train_max": 0.4541287422180176, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5196053981781006, "timer/agent.report_frac": 0.0017310010941753273, "timer/agent.report_avg": 0.2598026990890503, "timer/agent.report_min": 0.10624217987060547, "timer/agent.report_max": 0.4133632183074951, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0002205371856689453, "timer/dataset_eval_frac": 7.346923473809688e-07, "timer/dataset_eval_avg": 0.0002205371856689453, "timer/dataset_eval_min": 0.0002205371856689453, "timer/dataset_eval_max": 0.0002205371856689453, "fps": 9.221020296655867}
+{"step": 23952, "episode/length": 540.0, "episode/score": 210.0, "episode/reward_rate": 0.038817005545286505}
+{"step": 25932, "episode/length": 494.0, "episode/score": 250.0, "episode/reward_rate": 0.050505050505050504}
+{"step": 26716, "train_stats/mean_log_entropy": 0.5233942121267319, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 1.3843826072803442, "train/action_min": 0.0, "train/action_std": 2.007227713647096, "train/actor_opt_grad_norm": 0.028556718437028103, "train/actor_opt_grad_steps": 5230.0, "train/actor_opt_loss": 0.029785235992808273, "train/adv_mag": 4.071278682653455, "train/adv_max": 4.071278682653455, "train/adv_mean": 0.05405456362211186, "train/adv_min": -0.47061272980510327, "train/adv_std": 0.2190156969903172, "train/cont_avg": 0.9982025588768116, "train/cont_loss_mean": 0.001656946273742242, "train/cont_loss_std": 0.036409502860371264, "train/cont_neg_acc": 0.8198924742398723, "train/cont_neg_loss": 0.5100274643740587, "train/cont_pos_acc": 0.9997730315595433, "train/cont_pos_loss": 0.0006237824766659301, "train/cont_pred": 0.9981999276340872, "train/cont_rate": 0.9982025588768116, "train/dyn_loss_mean": 2.6108341251594434, "train/dyn_loss_std": 3.0311239111250727, "train/extr_critic_critic_opt_grad_norm": 1.5052176385686018, "train/extr_critic_critic_opt_grad_steps": 5230.0, "train/extr_critic_critic_opt_loss": 2.292991118154664, "train/extr_critic_mag": 26.45249897500743, "train/extr_critic_max": 26.45249897500743, "train/extr_critic_mean": 11.935180125029191, "train/extr_critic_min": 2.442807826442995, "train/extr_critic_std": 6.8122049207272735, "train/extr_return_normed_mag": 4.4980622547260225, "train/extr_return_normed_max": 4.4980622547260225, "train/extr_return_normed_mean": 0.40293092788129614, "train/extr_return_normed_min": -0.10927279361024284, "train/extr_return_normed_std": 0.379012999975163, "train/extr_return_rate": 0.9908326250919397, "train/extr_return_raw_mag": 117.8407661880272, "train/extr_return_raw_max": 117.8407661880272, "train/extr_return_raw_mean": 13.326070840807928, "train/extr_return_raw_min": 0.16986566177312878, "train/extr_return_raw_std": 9.760361270628113, "train/extr_reward_mag": 85.32659721374512, "train/extr_reward_max": 85.32659721374512, "train/extr_reward_mean": 0.28808485230673914, "train/extr_reward_min": -0.00014488075090491253, "train/extr_reward_std": 2.1010306486185044, "train/image_loss_mean": 6.261540606401969, "train/image_loss_std": 3.9844671643298604, "train/model_loss_mean": 7.878998860068943, "train/model_loss_std": 4.919472431791002, "train/model_opt_grad_norm": 34.75323265186255, "train/model_opt_grad_steps": 5230.0, "train/model_opt_loss": 7.878998860068943, "train/policy_entropy_mag": 2.0133708922759346, "train/policy_entropy_max": 2.0133708922759346, "train/policy_entropy_mean": 0.6759507267371468, "train/policy_entropy_min": 0.07454232547594153, "train/policy_entropy_std": 0.43408962479536084, "train/policy_logprob_mag": 6.725581169128418, "train/policy_logprob_max": -0.009716324143759583, "train/policy_logprob_mean": -0.6748933839625206, "train/policy_logprob_min": -6.725581169128418, "train/policy_logprob_std": 1.1003489399301833, "train/policy_randomness_mag": 0.9163245757420858, "train/policy_randomness_max": 0.9163245757420858, "train/policy_randomness_mean": 0.3076384305090144, "train/policy_randomness_min": 0.03392567377591479, "train/policy_randomness_std": 0.19756269908469656, "train/post_ent_mag": 29.817969308383223, "train/post_ent_max": 29.817969308383223, "train/post_ent_mean": 24.36005888123443, "train/post_ent_min": 17.126959883648418, "train/post_ent_std": 1.8946234039638354, "train/prior_ent_mag": 41.88107283219047, "train/prior_ent_max": 41.88107283219047, "train/prior_ent_mean": 27.315184828163922, "train/prior_ent_min": 22.01512925521187, "train/prior_ent_std": 2.635519622028738, "train/rep_loss_mean": 2.6108341251594434, "train/rep_loss_std": 3.0311239111250727, "train/reward_avg": 0.6006567028985508, "train/reward_loss_mean": 0.0493008856513146, "train/reward_loss_std": 0.25398442257141723, "train/reward_max_data": 125.5072463768116, "train/reward_max_pred": 68.65618338101152, "train/reward_neg_acc": 0.9629814236060433, "train/reward_neg_loss": 0.0105743447109463, "train/reward_pos_acc": 0.9811709134475045, "train/reward_pos_loss": 0.8665381695913232, "train/reward_pred": 0.4377906026615613, "train/reward_rate": 0.045346467391304345, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.002666859421879053, "report/cont_loss_std": 0.04447789862751961, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.14490555226802826, "report/cont_pos_acc": 0.9980410933494568, "report/cont_pos_loss": 0.0022489200346171856, "report/cont_pred": 0.9959074258804321, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.2576608657836914, "report/dyn_loss_std": 3.1179983615875244, "report/image_loss_mean": 5.064008712768555, "report/image_loss_std": 4.251708030700684, "report/model_loss_mean": 6.45156192779541, "report/model_loss_std": 5.210707664489746, "report/post_ent_mag": 29.27608299255371, "report/post_ent_max": 29.27608299255371, "report/post_ent_mean": 24.27151107788086, "report/post_ent_min": 16.881404876708984, "report/post_ent_std": 2.007232189178467, "report/prior_ent_mag": 42.575809478759766, "report/prior_ent_max": 42.575809478759766, "report/prior_ent_mean": 27.134387969970703, "report/prior_ent_min": 22.57238006591797, "report/prior_ent_std": 2.8428843021392822, "report/rep_loss_mean": 2.2576608657836914, "report/rep_loss_std": 3.1179983615875244, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.030290044844150543, "report/reward_loss_std": 0.14901073276996613, "report/reward_max_data": 200.0, "report/reward_max_pred": 38.63288497924805, "report/reward_neg_acc": 0.9736307859420776, "report/reward_neg_loss": 0.005951502826064825, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6618111729621887, "report/reward_pred": 0.357727974653244, "report/reward_rate": 0.037109375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.442102625849657e-06, "eval/cont_loss_std": 0.0001221623388119042, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.442102625849657e-06, "eval/cont_pred": 0.9999916553497314, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 5.250373840332031, "eval/dyn_loss_std": 3.6998488903045654, "eval/image_loss_mean": 8.31054973602295, "eval/image_loss_std": 5.0116753578186035, "eval/model_loss_mean": 11.899947166442871, "eval/model_loss_std": 6.891386985778809, "eval/post_ent_mag": 30.8231201171875, "eval/post_ent_max": 30.8231201171875, "eval/post_ent_mean": 24.806533813476562, "eval/post_ent_min": 18.23784828186035, "eval/post_ent_std": 2.163220167160034, "eval/prior_ent_mag": 42.575809478759766, "eval/prior_ent_max": 42.575809478759766, "eval/prior_ent_mean": 27.557050704956055, "eval/prior_ent_min": 21.635406494140625, "eval/prior_ent_std": 2.617084264755249, "eval/rep_loss_mean": 5.250373840332031, "eval/rep_loss_std": 3.6998488903045654, "eval/reward_avg": 0.44921875, "eval/reward_loss_mean": 0.43916523456573486, "eval/reward_loss_std": 1.8325378894805908, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.952832221984863, "eval/reward_neg_acc": 0.8783230781555176, "eval/reward_neg_loss": 0.11142446845769882, "eval/reward_pos_acc": 0.30434784293174744, "eval/reward_pos_loss": 7.407218933105469, "eval/reward_pred": 0.3219873309135437, "eval/reward_rate": 0.044921875, "replay/size": 6616.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.726459382246825e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0908551793277092e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3160367012024, "timer/env.step_count": 694.0, "timer/env.step_total": 2.378260374069214, "timer/env.step_frac": 0.007919192062445369, "timer/env.step_avg": 0.0034268881470737953, "timer/env.step_min": 0.0017998218536376953, "timer/env.step_max": 0.015520572662353516, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 205.4981391429901, "timer/replay._sample_frac": 0.6842729459281232, "timer/replay._sample_avg": 0.018506676796018563, "timer/replay._sample_min": 0.0005178451538085938, "timer/replay._sample_max": 0.04894208908081055, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.72269821166992, "timer/agent.policy_frac": 0.6617119098750889, "timer/agent.policy_avg": 0.2863439455499567, "timer/agent.policy_min": 0.002667665481567383, "timer/agent.policy_max": 0.330371618270874, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.11119627952575684, "timer/dataset_train_frac": 0.0003702642081561262, "timer/dataset_train_avg": 0.00016022518663653723, "timer/dataset_train_min": 7.581710815429688e-05, "timer/dataset_train_max": 0.022100210189819336, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.83511400222778, "timer/agent.train_frac": 0.3257738583556503, "timer/agent.train_avg": 0.14097278674672592, "timer/agent.train_min": 0.10121798515319824, "timer/agent.train_max": 0.4553236961364746, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4991030693054199, "timer/agent.report_frac": 0.0016619261321765492, "timer/agent.report_avg": 0.24955153465270996, "timer/agent.report_min": 0.10691547393798828, "timer/agent.report_max": 0.39218759536743164, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.745887756347656e-05, "timer/dataset_eval_frac": 1.9132803627348386e-07, "timer/dataset_eval_avg": 5.745887756347656e-05, "timer/dataset_eval_min": 5.745887756347656e-05, "timer/dataset_eval_max": 5.745887756347656e-05, "fps": 9.242986793925015}
+{"step": 28016, "episode/length": 520.0, "episode/score": 340.0, "episode/reward_rate": 0.05758157389635317}
+{"step": 29532, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 2.554145060794454, "train/action_min": 0.0, "train/action_std": 2.640293148201956, "train/actor_opt_grad_norm": 0.027790943344294185, "train/actor_opt_grad_steps": 5930.0, "train/actor_opt_loss": 0.03581741027219195, "train/adv_mag": 2.586775150097592, "train/adv_max": 2.586775150097592, "train/adv_mean": 0.04687895175909072, "train/adv_min": -0.4685776707991748, "train/adv_std": 0.16764409378380843, "train/cont_avg": 0.9983357174295775, "train/cont_loss_mean": 0.001309181043549396, "train/cont_loss_std": 0.03129067459442115, "train/cont_neg_acc": 0.7755747149730551, "train/cont_neg_loss": 0.5938544212599638, "train/cont_pos_acc": 0.9999035521292351, "train/cont_pos_loss": 0.0004086803987903154, "train/cont_pred": 0.9984068375238231, "train/cont_rate": 0.9983357174295775, "train/dyn_loss_mean": 2.5444529996791356, "train/dyn_loss_std": 3.141346424398288, "train/extr_critic_critic_opt_grad_norm": 1.7918981145805037, "train/extr_critic_critic_opt_grad_steps": 5930.0, "train/extr_critic_critic_opt_loss": 2.328005931746792, "train/extr_critic_mag": 35.639184468229054, "train/extr_critic_max": 35.639184468229054, "train/extr_critic_mean": 15.136232295506437, "train/extr_critic_min": 2.0567515567994454, "train/extr_critic_std": 8.986179237634364, "train/extr_return_normed_mag": 3.064620854149402, "train/extr_return_normed_max": 3.064620854149402, "train/extr_return_normed_mean": 0.398998263856055, "train/extr_return_normed_min": -0.08669099350735335, "train/extr_return_normed_std": 0.3440811449373272, "train/extr_return_rate": 0.9914264737720221, "train/extr_return_raw_mag": 106.28276894797742, "train/extr_return_raw_max": 106.28276894797742, "train/extr_return_raw_mean": 16.71861723778953, "train/extr_return_raw_min": 0.14238138098112293, "train/extr_return_raw_std": 11.700093000707492, "train/extr_reward_mag": 65.99180620488985, "train/extr_reward_max": 65.99180620488985, "train/extr_reward_mean": 0.2951529408004922, "train/extr_reward_min": -0.00010503345811870737, "train/extr_reward_std": 1.9855896780188655, "train/image_loss_mean": 5.761463124987105, "train/image_loss_std": 3.838292095023142, "train/model_loss_mean": 7.3336324826092785, "train/model_loss_std": 4.8606165093435365, "train/model_opt_grad_norm": 34.602857616585744, "train/model_opt_grad_steps": 5930.0, "train/model_opt_loss": 7.3336324826092785, "train/policy_entropy_mag": 2.1009411576768042, "train/policy_entropy_max": 2.1009411576768042, "train/policy_entropy_mean": 0.9858002545128406, "train/policy_entropy_min": 0.07816412709128688, "train/policy_entropy_std": 0.5536676242317952, "train/policy_logprob_mag": 6.694203658842705, "train/policy_logprob_max": -0.010270443403909743, "train/policy_logprob_mean": -0.9847004782985633, "train/policy_logprob_min": -6.694203658842705, "train/policy_logprob_std": 1.1643590574533167, "train/policy_randomness_mag": 0.9561795189347065, "train/policy_randomness_max": 0.9561795189347065, "train/policy_randomness_mean": 0.44865702827211834, "train/policy_randomness_min": 0.03557402724531335, "train/policy_randomness_std": 0.2519849948060345, "train/post_ent_mag": 30.882190247656595, "train/post_ent_max": 30.882190247656595, "train/post_ent_mean": 24.733519137745173, "train/post_ent_min": 17.421860600861027, "train/post_ent_std": 1.9772080233399296, "train/prior_ent_mag": 42.690890997228486, "train/prior_ent_max": 42.690890997228486, "train/prior_ent_mean": 27.539475857372015, "train/prior_ent_min": 22.172130154891754, "train/prior_ent_std": 2.8167000085535183, "train/rep_loss_mean": 2.5444529996791356, "train/rep_loss_std": 3.141346424398288, "train/reward_avg": 0.5442616637323944, "train/reward_loss_mean": 0.04418850509108792, "train/reward_loss_std": 0.24422145508964296, "train/reward_max_data": 98.87323943661971, "train/reward_max_pred": 50.252157587400625, "train/reward_neg_acc": 0.9686649416533994, "train/reward_neg_loss": 0.007628081300833696, "train/reward_pos_acc": 0.9793640274397084, "train/reward_pos_loss": 0.8493471380690454, "train/reward_pred": 0.42251034458758124, "train/reward_rate": 0.04416538292253521, "train_stats/mean_log_entropy": 0.9727743268013, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0002111980866175145, "report/cont_loss_std": 0.0034417633432894945, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.06308673322200775, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014973616634961218, "report/cont_pred": 0.9989374876022339, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.6001710891723633, "report/dyn_loss_std": 3.213541269302368, "report/image_loss_mean": 6.51158332824707, "report/image_loss_std": 3.7190780639648438, "report/model_loss_mean": 8.121481895446777, "report/model_loss_std": 4.882821559906006, "report/post_ent_mag": 31.35761260986328, "report/post_ent_max": 31.35761260986328, "report/post_ent_mean": 24.928386688232422, "report/post_ent_min": 17.805530548095703, "report/post_ent_std": 1.8697816133499146, "report/prior_ent_mag": 42.96824264526367, "report/prior_ent_max": 42.96824264526367, "report/prior_ent_mean": 27.853321075439453, "report/prior_ent_min": 22.841432571411133, "report/prior_ent_std": 2.8535704612731934, "report/rep_loss_mean": 2.6001710891723633, "report/rep_loss_std": 3.213541269302368, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.04958467558026314, "report/reward_loss_std": 0.19028377532958984, "report/reward_max_data": 200.0, "report/reward_max_pred": 182.38949584960938, "report/reward_neg_acc": 0.9481328129768372, "report/reward_neg_loss": 0.011819858103990555, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6563394069671631, "report/reward_pred": 0.7502590417861938, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.03173257037997246, "eval/cont_loss_std": 0.28193849325180054, "eval/cont_neg_acc": 0.75, "eval/cont_neg_loss": 0.7342091202735901, "eval/cont_pos_acc": 0.989215612411499, "eval/cont_pos_loss": 0.028977759182453156, "eval/cont_pred": 0.9853838682174683, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 6.058699131011963, "eval/dyn_loss_std": 4.534753799438477, "eval/image_loss_mean": 7.950077056884766, "eval/image_loss_std": 5.779480934143066, "eval/model_loss_mean": 11.986980438232422, "eval/model_loss_std": 8.2427978515625, "eval/post_ent_mag": 31.029354095458984, "eval/post_ent_max": 31.029354095458984, "eval/post_ent_mean": 24.509458541870117, "eval/post_ent_min": 17.764148712158203, "eval/post_ent_std": 2.31490421295166, "eval/prior_ent_mag": 42.96824264526367, "eval/prior_ent_max": 42.96824264526367, "eval/prior_ent_mean": 27.355953216552734, "eval/prior_ent_min": 21.96517562866211, "eval/prior_ent_std": 2.983739137649536, "eval/rep_loss_mean": 6.058699131011963, "eval/rep_loss_std": 4.534753799438477, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.3699513375759125, "eval/reward_loss_std": 1.6434872150421143, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994690895080566, "eval/reward_neg_acc": 0.9014228582382202, "eval/reward_neg_loss": 0.10432770103216171, "eval/reward_pos_acc": 0.20000000298023224, "eval/reward_pos_loss": 6.904293060302734, "eval/reward_pred": 0.26457250118255615, "eval/reward_rate": 0.0390625, "replay/size": 7320.0, "replay/inserts": 704.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 5.224550312215632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2721019712361423e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1472005844116, "timer/env.step_count": 704.0, "timer/env.step_total": 2.7209386825561523, "timer/env.step_frac": 0.009065347527007607, "timer/env.step_avg": 0.003864969719539989, "timer/env.step_min": 0.0022509098052978516, "timer/env.step_max": 0.022130250930786133, "timer/replay._sample_count": 11264.0, "timer/replay._sample_total": 192.57614874839783, "timer/replay._sample_frac": 0.6416056800577717, "timer/replay._sample_avg": 0.017096604114737023, "timer/replay._sample_min": 0.0005128383636474609, "timer/replay._sample_max": 0.06129169464111328, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 704.0, "timer/agent.policy_total": 198.13195204734802, "timer/agent.policy_frac": 0.660115941983029, "timer/agent.policy_avg": 0.2814374318854375, "timer/agent.policy_min": 0.0029201507568359375, "timer/agent.policy_max": 0.32738518714904785, "timer/dataset_train_count": 704.0, "timer/dataset_train_total": 0.0902245044708252, "timer/dataset_train_frac": 0.00030060085283204564, "timer/dataset_train_avg": 0.0001281598074869676, "timer/dataset_train_min": 7.62939453125e-05, "timer/dataset_train_max": 0.0003829002380371094, "timer/agent.train_count": 704.0, "timer/agent.train_total": 98.08104634284973, "timer/agent.train_frac": 0.32677648217900335, "timer/agent.train_avg": 0.1393196681006388, "timer/agent.train_min": 0.10252046585083008, "timer/agent.train_max": 0.44817471504211426, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.494187593460083, "timer/agent.report_frac": 0.0016464841001277326, "timer/agent.report_avg": 0.2470937967300415, "timer/agent.report_min": 0.09782218933105469, "timer/agent.report_max": 0.3963654041290283, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010895729064941406, "timer/dataset_eval_frac": 3.6301284981923913e-07, "timer/dataset_eval_avg": 0.00010895729064941406, "timer/dataset_eval_min": 0.00010895729064941406, "timer/dataset_eval_max": 0.00010895729064941406, "fps": 9.381766953722074}
+{"step": 30496, "episode/length": 619.0, "episode/score": 410.0, "episode/reward_rate": 0.05967741935483871}
+{"step": 32108, "episode/length": 402.0, "episode/score": 410.0, "episode/reward_rate": 0.10173697270471464}
+{"step": 32372, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 2.982721892880722, "train/action_min": 0.0, "train/action_std": 2.9895530720831642, "train/actor_opt_grad_norm": 0.02551862129180784, "train/actor_opt_grad_steps": 6640.0, "train/actor_opt_loss": 0.034441936079045415, "train/adv_mag": 2.04426281049218, "train/adv_max": 2.04426281049218, "train/adv_mean": 0.04158473640522906, "train/adv_min": -0.49512307996481236, "train/adv_std": 0.1523435008777699, "train/cont_avg": 0.9983357174295775, "train/cont_loss_mean": 0.0008977051011563265, "train/cont_loss_std": 0.022064353156335054, "train/cont_neg_acc": 0.8969135814242892, "train/cont_neg_loss": 0.2963132439396792, "train/cont_pos_acc": 0.9998483859317403, "train/cont_pos_loss": 0.0004438427869489984, "train/cont_pred": 0.9982652118508245, "train/cont_rate": 0.9983357174295775, "train/dyn_loss_mean": 2.599943097208587, "train/dyn_loss_std": 3.328119583532844, "train/extr_critic_critic_opt_grad_norm": 1.6664125986502205, "train/extr_critic_critic_opt_grad_steps": 6640.0, "train/extr_critic_critic_opt_loss": 2.2229323269615713, "train/extr_critic_mag": 47.59908617046517, "train/extr_critic_max": 47.59908617046517, "train/extr_critic_mean": 20.537224715864156, "train/extr_critic_min": 1.462411363359908, "train/extr_critic_std": 11.705211102122991, "train/extr_return_normed_mag": 2.6524031649173145, "train/extr_return_normed_max": 2.6524031649173145, "train/extr_return_normed_mean": 0.45754252730960576, "train/extr_return_normed_min": -0.05348496839509044, "train/extr_return_normed_std": 0.34543879980772313, "train/extr_return_rate": 0.987456028730097, "train/extr_return_raw_mag": 117.5591352220992, "train/extr_return_raw_max": 117.5591352220992, "train/extr_return_raw_mean": 22.331740795726507, "train/extr_return_raw_min": 0.2665727155309328, "train/extr_return_raw_std": 14.893063088537941, "train/extr_reward_mag": 66.77826760520398, "train/extr_reward_max": 66.77826760520398, "train/extr_reward_mean": 0.37579339113033994, "train/extr_reward_min": -0.00010936025162817726, "train/extr_reward_std": 2.485740431597535, "train/image_loss_mean": 5.407361500699755, "train/image_loss_std": 3.6582383135674705, "train/model_loss_mean": 7.0173006729340885, "train/model_loss_std": 4.816597904957516, "train/model_opt_grad_norm": 33.15259320970992, "train/model_opt_grad_steps": 6640.0, "train/model_opt_loss": 7.0173006729340885, "train/policy_entropy_mag": 2.0802041963792184, "train/policy_entropy_max": 2.0802041963792184, "train/policy_entropy_mean": 0.984716062814417, "train/policy_entropy_min": 0.07724286080665992, "train/policy_entropy_std": 0.5365736610452894, "train/policy_logprob_mag": 6.722291885966986, "train/policy_logprob_max": -0.010147247699574686, "train/policy_logprob_mean": -0.9840506592266997, "train/policy_logprob_min": -6.722291885966986, "train/policy_logprob_std": 1.1479582366809038, "train/policy_randomness_mag": 0.9467417219994774, "train/policy_randomness_max": 0.9467417219994774, "train/policy_randomness_mean": 0.44816359205984735, "train/policy_randomness_min": 0.03515474062780259, "train/policy_randomness_std": 0.24420519613883865, "train/post_ent_mag": 32.32106566093337, "train/post_ent_max": 32.32106566093337, "train/post_ent_mean": 25.124259277128836, "train/post_ent_min": 17.709957754108267, "train/post_ent_std": 2.171340030683598, "train/prior_ent_mag": 44.68265925662618, "train/prior_ent_max": 44.68265925662618, "train/prior_ent_mean": 27.92149594803931, "train/prior_ent_min": 22.056035162697377, "train/prior_ent_std": 3.2503269020940215, "train/rep_loss_mean": 2.599943097208587, "train/rep_loss_std": 3.328119583532844, "train/reward_avg": 0.5863501320422535, "train/reward_loss_mean": 0.049075690111224084, "train/reward_loss_std": 0.2563536443131071, "train/reward_max_data": 84.22535211267606, "train/reward_max_pred": 60.32989839097144, "train/reward_neg_acc": 0.9681665402063182, "train/reward_neg_loss": 0.008090825833406456, "train/reward_pos_acc": 0.9780568228641027, "train/reward_pos_loss": 0.8394229000722858, "train/reward_pred": 0.4810014858212269, "train/reward_rate": 0.04947458186619718, "train_stats/mean_log_entropy": 0.9614862501621246, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0001725589099805802, "report/cont_loss_std": 0.004054898861795664, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0670989453792572, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.1587496525608e-05, "report/cont_pred": 0.9981288909912109, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.329594373703003, "report/dyn_loss_std": 3.4158401489257812, "report/image_loss_mean": 4.478858947753906, "report/image_loss_std": 3.1127126216888428, "report/model_loss_mean": 5.9048357009887695, "report/model_loss_std": 4.428269863128662, "report/post_ent_mag": 31.965547561645508, "report/post_ent_max": 31.965547561645508, "report/post_ent_mean": 24.831247329711914, "report/post_ent_min": 16.818071365356445, "report/post_ent_std": 2.2886600494384766, "report/prior_ent_mag": 46.30859375, "report/prior_ent_max": 46.30859375, "report/prior_ent_mean": 27.691909790039062, "report/prior_ent_min": 21.951976776123047, "report/prior_ent_std": 3.6156961917877197, "report/rep_loss_mean": 2.329594373703003, "report/rep_loss_std": 3.4158401489257812, "report/reward_avg": 0.33203125, "report/reward_loss_mean": 0.0280475877225399, "report/reward_loss_std": 0.17544861137866974, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.99782943725586, "report/reward_neg_acc": 0.9737372994422913, "report/reward_neg_loss": 0.004157877527177334, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7236596941947937, "report/reward_pred": 0.3028864860534668, "report/reward_rate": 0.033203125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.015057072043418884, "eval/cont_loss_std": 0.17221872508525848, "eval/cont_neg_acc": 0.75, "eval/cont_neg_loss": 0.39065277576446533, "eval/cont_pos_acc": 0.996078372001648, "eval/cont_pos_loss": 0.013584147207438946, "eval/cont_pred": 0.9901682734489441, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 7.109687805175781, "eval/dyn_loss_std": 4.7710371017456055, "eval/image_loss_mean": 9.49659538269043, "eval/image_loss_std": 6.069840431213379, "eval/model_loss_mean": 14.367950439453125, "eval/model_loss_std": 8.603137969970703, "eval/post_ent_mag": 32.091094970703125, "eval/post_ent_max": 32.091094970703125, "eval/post_ent_mean": 26.06283950805664, "eval/post_ent_min": 15.379927635192871, "eval/post_ent_std": 2.7989108562469482, "eval/prior_ent_mag": 46.30859375, "eval/prior_ent_max": 46.30859375, "eval/prior_ent_mean": 29.27294921875, "eval/prior_ent_min": 21.382850646972656, "eval/prior_ent_std": 3.604506492614746, "eval/rep_loss_mean": 7.109687805175781, "eval/rep_loss_std": 4.7710371017456055, "eval/reward_avg": 0.634765625, "eval/reward_loss_mean": 0.5904842615127563, "eval/reward_loss_std": 2.261800527572632, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997153282165527, "eval/reward_neg_acc": 0.8759124279022217, "eval/reward_neg_loss": 0.12466858327388763, "eval/reward_pos_acc": 0.32307693362236023, "eval/reward_pos_loss": 7.463056564331055, "eval/reward_pred": 0.34287065267562866, "eval/reward_rate": 0.0634765625, "replay/size": 8030.0, "replay/inserts": 710.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 5.587053970551827e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3670870955561249e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.238719940185547e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.38354206085205, "timer/env.step_count": 710.0, "timer/env.step_total": 2.7952888011932373, "timer/env.step_frac": 0.009305732204952042, "timer/env.step_avg": 0.003937026480553855, "timer/env.step_min": 0.0020966529846191406, "timer/env.step_max": 0.02133488655090332, "timer/replay._sample_count": 11360.0, "timer/replay._sample_total": 186.04946398735046, "timer/replay._sample_frac": 0.6193730279326034, "timer/replay._sample_avg": 0.016377593660858315, "timer/replay._sample_min": 0.0007770061492919922, "timer/replay._sample_max": 0.04648637771606445, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18493890762329102, "timer/agent.save_frac": 0.000615675900065876, "timer/agent.save_avg": 0.18493890762329102, "timer/agent.save_min": 0.18493890762329102, "timer/agent.save_max": 0.18493890762329102, "timer/agent.policy_count": 710.0, "timer/agent.policy_total": 198.86444473266602, "timer/agent.policy_frac": 0.6620350881020632, "timer/agent.policy_avg": 0.2800907672291071, "timer/agent.policy_min": 0.0030417442321777344, "timer/agent.policy_max": 0.5316329002380371, "timer/dataset_train_count": 710.0, "timer/dataset_train_total": 0.09163308143615723, "timer/dataset_train_frac": 0.0003050536018301365, "timer/dataset_train_avg": 0.00012906067807909468, "timer/dataset_train_min": 7.748603820800781e-05, "timer/dataset_train_max": 0.001127004623413086, "timer/agent.train_count": 710.0, "timer/agent.train_total": 97.54306721687317, "timer/agent.train_frac": 0.3247284007228092, "timer/agent.train_avg": 0.13738460171390587, "timer/agent.train_min": 0.10017156600952148, "timer/agent.train_max": 0.45075154304504395, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5141141414642334, "timer/agent.report_frac": 0.0017115256646120897, "timer/agent.report_avg": 0.2570570707321167, "timer/agent.report_min": 0.10485172271728516, "timer/agent.report_max": 0.40926241874694824, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.91278076171875e-05, "timer/dataset_eval_frac": 1.9684103600193024e-07, "timer/dataset_eval_avg": 5.91278076171875e-05, "timer/dataset_eval_min": 5.91278076171875e-05, "timer/dataset_eval_max": 5.91278076171875e-05, "fps": 9.454363548138582}
+{"step": 34696, "episode/length": 646.0, "episode/score": 750.0, "episode/reward_rate": 0.080370942812983}
+{"step": 35144, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5566397404325185, "train/action_min": 0.0, "train/action_std": 3.307052228761756, "train/actor_opt_grad_norm": 0.020914973839577557, "train/actor_opt_grad_steps": 7340.0, "train/actor_opt_loss": 0.02515712109785797, "train/adv_mag": 1.8542283687038699, "train/adv_max": 1.854083310002866, "train/adv_mean": 0.03359331071808718, "train/adv_min": -0.5060054798057114, "train/adv_std": 0.12483440447544707, "train/cont_avg": 0.9983299365942029, "train/cont_loss_mean": 0.0009355613024060891, "train/cont_loss_std": 0.02471616738704683, "train/cont_neg_acc": 0.8786549714573643, "train/cont_neg_loss": 0.36276025805222034, "train/cont_pos_acc": 0.9998723372169163, "train/cont_pos_loss": 0.0003117471019718125, "train/cont_pred": 0.998359431391177, "train/cont_rate": 0.9983299365942029, "train/dyn_loss_mean": 2.5865597172059873, "train/dyn_loss_std": 3.4974808762038965, "train/extr_critic_critic_opt_grad_norm": 1.7789812848187876, "train/extr_critic_critic_opt_grad_steps": 7340.0, "train/extr_critic_critic_opt_loss": 2.2412680923074917, "train/extr_critic_mag": 60.063161711761914, "train/extr_critic_max": 60.063161711761914, "train/extr_critic_mean": 25.180239470108695, "train/extr_critic_min": 1.0495667837668157, "train/extr_critic_std": 15.714850563933885, "train/extr_return_normed_mag": 2.440930017526599, "train/extr_return_normed_max": 2.440930017526599, "train/extr_return_normed_mean": 0.45738967562067334, "train/extr_return_normed_min": -0.03856648645107297, "train/extr_return_normed_std": 0.33850859429525293, "train/extr_return_rate": 0.9859979411830073, "train/extr_return_raw_mag": 135.08965964939284, "train/extr_return_raw_max": 135.08965964939284, "train/extr_return_raw_mean": 26.999931224878285, "train/extr_return_raw_min": 0.053383531777755074, "train/extr_return_raw_std": 18.40601984659831, "train/extr_reward_mag": 85.3962208568186, "train/extr_reward_max": 85.3962208568186, "train/extr_reward_mean": 0.4064868453188219, "train/extr_reward_min": -0.000184871148372042, "train/extr_reward_std": 2.6871198450309643, "train/image_loss_mean": 5.020887388699297, "train/image_loss_std": 3.4219314153643623, "train/model_loss_mean": 6.619759538899297, "train/model_loss_std": 4.708111718081046, "train/model_opt_grad_norm": 30.37200717649598, "train/model_opt_grad_steps": 7340.0, "train/model_opt_loss": 6.619759538899297, "train/policy_entropy_mag": 1.9729024586470232, "train/policy_entropy_max": 1.9729024586470232, "train/policy_entropy_mean": 0.8654024419577225, "train/policy_entropy_min": 0.07731917748848598, "train/policy_entropy_std": 0.4789329663566921, "train/policy_logprob_mag": 6.761652068815369, "train/policy_logprob_max": -0.010143608651191427, "train/policy_logprob_mean": -0.8661436049834542, "train/policy_logprob_min": -6.761652068815369, "train/policy_logprob_std": 1.1011702046878096, "train/policy_randomness_mag": 0.8979065997013147, "train/policy_randomness_max": 0.8979065997013147, "train/policy_randomness_mean": 0.39386162118635315, "train/policy_randomness_min": 0.03518947392054226, "train/policy_randomness_std": 0.21797178404918616, "train/post_ent_mag": 32.422037096991055, "train/post_ent_max": 32.422037096991055, "train/post_ent_mean": 25.5552202584087, "train/post_ent_min": 18.625481564065684, "train/post_ent_std": 2.1304843874945156, "train/prior_ent_mag": 46.652734673541524, "train/prior_ent_max": 46.652734673541524, "train/prior_ent_mean": 28.35859185370846, "train/prior_ent_min": 22.35122227323228, "train/prior_ent_std": 3.4723806277565332, "train/rep_loss_mean": 2.5865597172059873, "train/rep_loss_std": 3.4974808762038965, "train/reward_avg": 0.5961277173913043, "train/reward_loss_mean": 0.04600077824316163, "train/reward_loss_std": 0.23666387850391693, "train/reward_max_data": 83.33333333333333, "train/reward_max_pred": 60.5550887895667, "train/reward_neg_acc": 0.9676856510881064, "train/reward_neg_loss": 0.007883175505676132, "train/reward_pos_acc": 0.9867441593736842, "train/reward_pos_loss": 0.7746227107186249, "train/reward_pred": 0.5054407497678978, "train/reward_rate": 0.04950747282608696, "train_stats/mean_log_entropy": 1.0896769762039185, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 8.657128091726918e-06, "report/cont_loss_std": 0.00013871067494619638, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0018236365867778659, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.882956313347677e-06, "report/cont_pred": 0.9990184307098389, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 2.3976736068725586, "report/dyn_loss_std": 3.5552802085876465, "report/image_loss_mean": 4.6558837890625, "report/image_loss_std": 2.850332498550415, "report/model_loss_mean": 6.136692523956299, "report/model_loss_std": 4.189956188201904, "report/post_ent_mag": 31.971925735473633, "report/post_ent_max": 31.971925735473633, "report/post_ent_mean": 25.09377098083496, "report/post_ent_min": 18.735828399658203, "report/post_ent_std": 1.9436242580413818, "report/prior_ent_mag": 47.815101623535156, "report/prior_ent_max": 47.815101623535156, "report/prior_ent_mean": 27.656972885131836, "report/prior_ent_min": 22.65502166748047, "report/prior_ent_std": 3.622392177581787, "report/rep_loss_mean": 2.3976736068725586, "report/rep_loss_std": 3.5552802085876465, "report/reward_avg": 0.537109375, "report/reward_loss_mean": 0.04219631105661392, "report/reward_loss_std": 0.21535766124725342, "report/reward_max_data": 10.0, "report/reward_max_pred": 9.9976806640625, "report/reward_neg_acc": 0.9824562072753906, "report/reward_neg_loss": 0.004008527845144272, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.7149956226348877, "report/reward_pred": 0.4919467270374298, "report/reward_rate": 0.0537109375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.017290540039539337, "eval/cont_loss_std": 0.32193365693092346, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.900880813598633, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.812254479067633e-06, "eval/cont_pred": 0.9999865889549255, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 7.19781494140625, "eval/dyn_loss_std": 5.383665561676025, "eval/image_loss_mean": 8.176837921142578, "eval/image_loss_std": 5.433755874633789, "eval/model_loss_mean": 13.175324440002441, "eval/model_loss_std": 8.710774421691895, "eval/post_ent_mag": 31.779958724975586, "eval/post_ent_max": 31.779958724975586, "eval/post_ent_mean": 24.999509811401367, "eval/post_ent_min": 17.823177337646484, "eval/post_ent_std": 2.0408475399017334, "eval/prior_ent_mag": 47.815101623535156, "eval/prior_ent_max": 47.815101623535156, "eval/prior_ent_mean": 28.42942237854004, "eval/prior_ent_min": 22.121620178222656, "eval/prior_ent_std": 3.6758573055267334, "eval/rep_loss_mean": 7.19781494140625, "eval/rep_loss_std": 5.383665561676025, "eval/reward_avg": 0.64453125, "eval/reward_loss_mean": 0.6625065803527832, "eval/reward_loss_std": 2.5918924808502197, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.954595565795898, "eval/reward_neg_acc": 0.8789144158363342, "eval/reward_neg_loss": 0.09091073274612427, "eval/reward_pos_acc": 0.22727271914482117, "eval/reward_pos_loss": 8.959307670593262, "eval/reward_pred": 0.2839222550392151, "eval/reward_rate": 0.064453125, "replay/size": 8723.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.1543826148623515e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1447231146852348e-06, "replay/sample_wait_frac": 0.9993686868686869, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.205371856689453e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1579656600952, "timer/env.step_count": 693.0, "timer/env.step_total": 2.3331499099731445, "timer/env.step_frac": 0.007773073437655323, "timer/env.step_avg": 0.0033667386868299343, "timer/env.step_min": 0.0022530555725097656, "timer/env.step_max": 0.024309158325195312, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 214.19663953781128, "timer/replay._sample_frac": 0.7136130439409086, "timer/replay._sample_avg": 0.019317878746195102, "timer/replay._sample_min": 0.0006296634674072266, "timer/replay._sample_max": 0.05099987983703613, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.38809823989868, "timer/agent.policy_frac": 0.6576140593364257, "timer/agent.policy_avg": 0.28483131059148437, "timer/agent.policy_min": 0.002897024154663086, "timer/agent.policy_max": 0.3386080265045166, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.10397028923034668, "timer/dataset_train_frac": 0.0003463852408570915, "timer/dataset_train_avg": 0.00015002927738866766, "timer/dataset_train_min": 8.106231689453125e-05, "timer/dataset_train_max": 0.00803375244140625, "timer/agent.train_count": 693.0, "timer/agent.train_total": 99.036452293396, "timer/agent.train_frac": 0.3299477729188331, "timer/agent.train_avg": 0.14290974356911398, "timer/agent.train_min": 0.10380434989929199, "timer/agent.train_max": 0.44953179359436035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.491945743560791, "timer/agent.report_frac": 0.0016389561492360328, "timer/agent.report_avg": 0.2459728717803955, "timer/agent.report_min": 0.10033583641052246, "timer/agent.report_max": 0.39160990715026855, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00015163421630859375, "timer/dataset_eval_frac": 5.051813833263626e-07, "timer/dataset_eval_avg": 0.00015163421630859375, "timer/dataset_eval_min": 0.00015163421630859375, "timer/dataset_eval_max": 0.00015163421630859375, "fps": 9.23438771629859}
+{"step": 37544, "episode/length": 711.0, "episode/score": 660.0, "episode/reward_rate": 0.08707865168539326}
+{"step": 37916, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.526908542798913, "train/action_min": 0.0, "train/action_std": 3.201544295186582, "train/actor_opt_grad_norm": 0.02007754967696425, "train/actor_opt_grad_steps": 8030.0, "train/actor_opt_loss": 0.024567822068659723, "train/adv_mag": 1.7095958702806113, "train/adv_max": 1.7086560276971348, "train/adv_mean": 0.03373279259202705, "train/adv_min": -0.5499522310236226, "train/adv_std": 0.12467676833056021, "train/cont_avg": 0.9985139266304348, "train/cont_loss_mean": 0.0006999706370218031, "train/cont_loss_std": 0.01765932886316306, "train/cont_neg_acc": 0.8625731018551609, "train/cont_neg_loss": 0.30932296720933855, "train/cont_pos_acc": 0.9999432615611864, "train/cont_pos_loss": 0.00022167476343720014, "train/cont_pred": 0.9985940827839617, "train/cont_rate": 0.9985139266304348, "train/dyn_loss_mean": 2.6642387638921323, "train/dyn_loss_std": 3.6209650765294614, "train/extr_critic_critic_opt_grad_norm": 1.871305619460949, "train/extr_critic_critic_opt_grad_steps": 8030.0, "train/extr_critic_critic_opt_loss": 2.2522629879523013, "train/extr_critic_mag": 72.70403228980908, "train/extr_critic_max": 72.70403228980908, "train/extr_critic_mean": 31.686854625093765, "train/extr_critic_min": 0.9510874108991761, "train/extr_critic_std": 18.338989948880844, "train/extr_return_normed_mag": 2.372782764227494, "train/extr_return_normed_max": 2.372782764227494, "train/extr_return_normed_mean": 0.4942702331404755, "train/extr_return_normed_min": -0.042609932225035584, "train/extr_return_normed_std": 0.3388110695109851, "train/extr_return_rate": 0.9882378966911979, "train/extr_return_raw_mag": 152.71371581588966, "train/extr_return_raw_max": 152.71371581588966, "train/extr_return_raw_mean": 33.80620580479719, "train/extr_return_raw_min": 0.02919877266538316, "train/extr_return_raw_std": 21.352480335512023, "train/extr_reward_mag": 91.9204953926197, "train/extr_reward_max": 91.9204953926197, "train/extr_reward_mean": 0.4849437647971554, "train/extr_reward_min": -0.00023791928222213966, "train/extr_reward_std": 3.158751852270486, "train/image_loss_mean": 4.975894648095836, "train/image_loss_std": 3.4903870285421177, "train/model_loss_mean": 6.6316821402397705, "train/model_loss_std": 4.882330303606779, "train/model_opt_grad_norm": 30.924667496612106, "train/model_opt_grad_steps": 8030.0, "train/model_opt_loss": 6.6316821402397705, "train/policy_entropy_mag": 1.9897646852161572, "train/policy_entropy_max": 1.9897646852161572, "train/policy_entropy_mean": 0.8477792100629945, "train/policy_entropy_min": 0.07812284958967264, "train/policy_entropy_std": 0.4468290166578431, "train/policy_logprob_mag": 6.7538000397060225, "train/policy_logprob_max": -0.010278753490875597, "train/policy_logprob_mean": -0.84653833983601, "train/policy_logprob_min": -6.7538000397060225, "train/policy_logprob_std": 1.0842980526495671, "train/policy_randomness_mag": 0.9055809257687002, "train/policy_randomness_max": 0.9055809257687002, "train/policy_randomness_mean": 0.38584094246228534, "train/policy_randomness_min": 0.03555524117056874, "train/policy_randomness_std": 0.2033606506344201, "train/post_ent_mag": 34.55234231810639, "train/post_ent_max": 34.55234231810639, "train/post_ent_mean": 26.06872376151707, "train/post_ent_min": 19.42562100507211, "train/post_ent_std": 2.399915325468865, "train/prior_ent_mag": 48.39581873796988, "train/prior_ent_max": 48.39581873796988, "train/prior_ent_mean": 28.90205164923184, "train/prior_ent_min": 22.254665430041328, "train/prior_ent_std": 3.9221738075864487, "train/rep_loss_mean": 2.6642387638921323, "train/rep_loss_std": 3.6209650765294614, "train/reward_avg": 0.7114753170289855, "train/reward_loss_mean": 0.056544307268400124, "train/reward_loss_std": 0.2577221460532451, "train/reward_max_data": 123.33333333333333, "train/reward_max_pred": 76.73590252364892, "train/reward_neg_acc": 0.9547700976979905, "train/reward_neg_loss": 0.01104084110947029, "train/reward_pos_acc": 0.9876975520797397, "train/reward_pos_loss": 0.8078808836314989, "train/reward_pred": 0.5811913726122483, "train/reward_rate": 0.056768002717391304, "train_stats/mean_log_entropy": 0.9930464625358582, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.002722939010709524, "report/cont_loss_std": 0.06993042677640915, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 1.0946118831634521, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.000586170528549701, "report/cont_pred": 0.9984397292137146, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.3533074855804443, "report/dyn_loss_std": 3.5864102840423584, "report/image_loss_mean": 4.139431476593018, "report/image_loss_std": 3.341085195541382, "report/model_loss_mean": 5.585314750671387, "report/model_loss_std": 4.674506187438965, "report/post_ent_mag": 32.556114196777344, "report/post_ent_max": 32.556114196777344, "report/post_ent_mean": 26.04901123046875, "report/post_ent_min": 19.799182891845703, "report/post_ent_std": 2.5081429481506348, "report/prior_ent_mag": 48.51614761352539, "report/prior_ent_max": 48.51614761352539, "report/prior_ent_mean": 28.586933135986328, "report/prior_ent_min": 22.362743377685547, "report/prior_ent_std": 3.8827810287475586, "report/rep_loss_mean": 2.3533074855804443, "report/rep_loss_std": 3.5864102840423584, "report/reward_avg": 0.37109375, "report/reward_loss_mean": 0.031175846233963966, "report/reward_loss_std": 0.16374050080776215, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.00839900970459, "report/reward_neg_acc": 0.9726166129112244, "report/reward_neg_loss": 0.005396462045609951, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7000830173492432, "report/reward_pred": 0.34311267733573914, "report/reward_rate": 0.037109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007387886289507151, "eval/cont_loss_std": 0.1825014054775238, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.656326770782471, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0018659518100321293, "eval/cont_pred": 0.9988526105880737, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 7.5751953125, "eval/dyn_loss_std": 5.491846561431885, "eval/image_loss_mean": 8.880324363708496, "eval/image_loss_std": 6.039140224456787, "eval/model_loss_mean": 13.955092430114746, "eval/model_loss_std": 8.855717658996582, "eval/post_ent_mag": 39.29143524169922, "eval/post_ent_max": 39.29143524169922, "eval/post_ent_mean": 26.12880516052246, "eval/post_ent_min": 18.499008178710938, "eval/post_ent_std": 2.9067375659942627, "eval/prior_ent_mag": 48.51614761352539, "eval/prior_ent_max": 48.51614761352539, "eval/prior_ent_mean": 28.627614974975586, "eval/prior_ent_min": 22.58053970336914, "eval/prior_ent_std": 3.6584432125091553, "eval/rep_loss_mean": 7.5751953125, "eval/rep_loss_std": 5.491846561431885, "eval/reward_avg": 0.595703125, "eval/reward_loss_mean": 0.5222629308700562, "eval/reward_loss_std": 1.9966319799423218, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.000019073486328, "eval/reward_neg_acc": 0.8712357878684998, "eval/reward_neg_loss": 0.16102060675621033, "eval/reward_pos_acc": 0.44262298941612244, "eval/reward_pos_loss": 6.225153923034668, "eval/reward_pred": 0.47307896614074707, "eval/reward_rate": 0.0595703125, "replay/size": 9416.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.805871762582578e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1973394804014617e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2069940567016602e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.090713262558, "timer/env.step_count": 693.0, "timer/env.step_total": 2.405359983444214, "timer/env.step_frac": 0.008015442921553175, "timer/env.step_avg": 0.0034709379270479275, "timer/env.step_min": 0.002179384231567383, "timer/env.step_max": 0.019980907440185547, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 197.79596161842346, "timer/replay._sample_frac": 0.6591205688040273, "timer/replay._sample_avg": 0.017838741127202695, "timer/replay._sample_min": 0.0004966259002685547, "timer/replay._sample_max": 0.05096626281738281, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.97489047050476, "timer/agent.policy_frac": 0.659716818018593, "timer/agent.policy_avg": 0.285678052626991, "timer/agent.policy_min": 0.002692699432373047, "timer/agent.policy_max": 0.33323192596435547, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08652472496032715, "timer/dataset_train_frac": 0.00028832856578478715, "timer/dataset_train_avg": 0.00012485530297305506, "timer/dataset_train_min": 7.748603820800781e-05, "timer/dataset_train_max": 0.001241445541381836, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.38633179664612, "timer/agent.train_frac": 0.3278553032414738, "timer/agent.train_avg": 0.1419716187541791, "timer/agent.train_min": 0.10266518592834473, "timer/agent.train_max": 0.4463691711425781, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.518709659576416, "timer/agent.report_frac": 0.0017285095361234389, "timer/agent.report_avg": 0.259354829788208, "timer/agent.report_min": 0.1071939468383789, "timer/agent.report_max": 0.4115157127380371, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.341934204101562e-05, "timer/dataset_eval_frac": 2.1133390417692872e-07, "timer/dataset_eval_avg": 6.341934204101562e-05, "timer/dataset_eval_min": 6.341934204101562e-05, "timer/dataset_eval_max": 6.341934204101562e-05, "fps": 9.236920669678373}
+{"step": 39100, "episode/length": 388.0, "episode/score": 270.0, "episode/reward_rate": 0.06940874035989718}
+{"step": 40720, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.078945965834067, "train/action_min": 0.0, "train/action_std": 3.2911785790618038, "train/actor_opt_grad_norm": 0.018292856704391226, "train/actor_opt_grad_steps": 8730.0, "train/actor_opt_loss": 0.019048622235472143, "train/adv_mag": 1.1891511485610209, "train/adv_max": 1.1891511485610209, "train/adv_mean": 0.02593270538401016, "train/adv_min": -0.5562324893306678, "train/adv_std": 0.0953329686127918, "train/cont_avg": 0.9981156470070423, "train/cont_loss_mean": 0.0008485343242637741, "train/cont_loss_std": 0.01914423440644947, "train/cont_neg_acc": 0.8937158477110941, "train/cont_neg_loss": 0.22940780626362778, "train/cont_pos_acc": 0.9998069195680215, "train/cont_pos_loss": 0.0004236049111933797, "train/cont_pred": 0.9980592542970684, "train/cont_rate": 0.9981156470070423, "train/dyn_loss_mean": 2.6105053223354715, "train/dyn_loss_std": 3.772948594160483, "train/extr_critic_critic_opt_grad_norm": 1.9388961053230394, "train/extr_critic_critic_opt_grad_steps": 8730.0, "train/extr_critic_critic_opt_loss": 2.074336705073504, "train/extr_critic_mag": 87.76706555863501, "train/extr_critic_max": 87.76706555863501, "train/extr_critic_mean": 39.06141839900487, "train/extr_critic_min": 0.9632175724271318, "train/extr_critic_std": 21.31802252648582, "train/extr_return_normed_mag": 1.8020664990787776, "train/extr_return_normed_max": 1.8020664990787776, "train/extr_return_normed_mean": 0.5135326843026659, "train/extr_return_normed_min": -0.036985993791948744, "train/extr_return_normed_std": 0.31829606248459347, "train/extr_return_rate": 0.9851031127110333, "train/extr_return_raw_mag": 135.98201311138314, "train/extr_return_raw_max": 135.98201311138314, "train/extr_return_raw_mean": 40.97411300766636, "train/extr_return_raw_min": 0.23258891491822795, "train/extr_return_raw_std": 23.54203699676084, "train/extr_reward_mag": 59.861684114160674, "train/extr_reward_max": 59.861684114160674, "train/extr_reward_mean": 0.47523513541255197, "train/extr_reward_min": -7.650214181819432e-05, "train/extr_reward_std": 2.5613598202315853, "train/image_loss_mean": 4.527993054457114, "train/image_loss_std": 3.2439930472575442, "train/model_loss_mean": 6.1422550308872275, "train/model_loss_std": 4.751962980753939, "train/model_opt_grad_norm": 28.130401477007798, "train/model_opt_grad_steps": 8730.0, "train/model_opt_loss": 6.1422550308872275, "train/policy_entropy_mag": 1.9617373070246737, "train/policy_entropy_max": 1.9617373070246737, "train/policy_entropy_mean": 0.8363106779649224, "train/policy_entropy_min": 0.07506731876604994, "train/policy_entropy_std": 0.4169347500297385, "train/policy_logprob_mag": 6.766472796319237, "train/policy_logprob_max": -0.009807186555379713, "train/policy_logprob_mean": -0.8364345322192555, "train/policy_logprob_min": -6.766472796319237, "train/policy_logprob_std": 1.0690067234173628, "train/policy_randomness_mag": 0.8928251157344227, "train/policy_randomness_max": 0.8928251157344227, "train/policy_randomness_mean": 0.38062138666569345, "train/policy_randomness_min": 0.03416460878412488, "train/policy_randomness_std": 0.18975518119167273, "train/post_ent_mag": 35.504433134911764, "train/post_ent_max": 35.504433134911764, "train/post_ent_mean": 26.557075742264868, "train/post_ent_min": 19.527638260747345, "train/post_ent_std": 2.669548958120212, "train/prior_ent_mag": 49.52149173575388, "train/prior_ent_max": 49.52149173575388, "train/prior_ent_mean": 29.41596211178202, "train/prior_ent_min": 22.22591389400858, "train/prior_ent_std": 4.288728102831773, "train/rep_loss_mean": 2.6105053223354715, "train/rep_loss_std": 3.772948594160483, "train/reward_avg": 0.6468694982394366, "train/reward_loss_mean": 0.04711029169635034, "train/reward_loss_std": 0.218861396883575, "train/reward_max_data": 83.09859154929578, "train/reward_max_pred": 49.982431156534545, "train/reward_neg_acc": 0.9702793578027, "train/reward_neg_loss": 0.007916434213820793, "train/reward_pos_acc": 0.9941935035544383, "train/reward_pos_loss": 0.7108895476435272, "train/reward_pred": 0.5573967825359022, "train/reward_rate": 0.0556915713028169, "train_stats/mean_log_entropy": 0.989651620388031, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.7697318223072216e-05, "report/cont_loss_std": 0.00126452196855098, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.7697318223072216e-05, "report/cont_pred": 0.9999531507492065, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.5734665393829346, "report/dyn_loss_std": 3.8035526275634766, "report/image_loss_mean": 4.063671112060547, "report/image_loss_std": 2.8779635429382324, "report/model_loss_mean": 5.638852119445801, "report/model_loss_std": 4.459741115570068, "report/post_ent_mag": 36.97379684448242, "report/post_ent_max": 36.97379684448242, "report/post_ent_mean": 26.86701202392578, "report/post_ent_min": 20.64263153076172, "report/post_ent_std": 2.762354612350464, "report/prior_ent_mag": 49.98607635498047, "report/prior_ent_max": 49.98607635498047, "report/prior_ent_mean": 29.339759826660156, "report/prior_ent_min": 22.26153564453125, "report/prior_ent_std": 4.271550178527832, "report/rep_loss_mean": 2.5734665393829346, "report/rep_loss_std": 3.8035526275634766, "report/reward_avg": 0.6640625, "report/reward_loss_mean": 0.031052876263856888, "report/reward_loss_std": 0.1361796110868454, "report/reward_max_data": 200.0, "report/reward_max_pred": 116.60702514648438, "report/reward_neg_acc": 0.9734423160552979, "report/reward_neg_loss": 0.005698102060705423, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5826600790023804, "report/reward_pred": 0.6162328720092773, "report/reward_rate": 0.0439453125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.025878338143229485, "eval/cont_loss_std": 0.41132935881614685, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 4.1744537353515625, "eval/cont_pos_acc": 0.9960822463035583, "eval/cont_pos_loss": 0.013688597828149796, "eval/cont_pred": 0.9938571453094482, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 8.667069435119629, "eval/dyn_loss_std": 6.0894646644592285, "eval/image_loss_mean": 8.50148868560791, "eval/image_loss_std": 5.6848626136779785, "eval/model_loss_mean": 14.372091293334961, "eval/model_loss_std": 9.168146133422852, "eval/post_ent_mag": 38.382110595703125, "eval/post_ent_max": 38.382110595703125, "eval/post_ent_mean": 25.495067596435547, "eval/post_ent_min": 17.378950119018555, "eval/post_ent_std": 2.6153697967529297, "eval/prior_ent_mag": 49.98607635498047, "eval/prior_ent_max": 49.98607635498047, "eval/prior_ent_mean": 28.98373031616211, "eval/prior_ent_min": 22.11646270751953, "eval/prior_ent_std": 3.911799192428589, "eval/rep_loss_mean": 8.667069435119629, "eval/rep_loss_std": 6.0894646644592285, "eval/reward_avg": 0.634765625, "eval/reward_loss_mean": 0.6444821357727051, "eval/reward_loss_std": 2.441434383392334, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.986751556396484, "eval/reward_neg_acc": 0.8863399624824524, "eval/reward_neg_loss": 0.12497825175523758, "eval/reward_pos_acc": 0.20000000298023224, "eval/reward_pos_loss": 8.309162139892578, "eval/reward_pred": 0.3746403753757477, "eval/reward_rate": 0.0634765625, "replay/size": 10117.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.092158297159192e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2289312868757696e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7285346984863281e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1124608516693, "timer/env.step_count": 701.0, "timer/env.step_total": 2.6474547386169434, "timer/env.step_frac": 0.00882154220155973, "timer/env.step_avg": 0.003776682936686082, "timer/env.step_min": 0.0022385120391845703, "timer/env.step_max": 0.019733905792236328, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 196.43925857543945, "timer/replay._sample_frac": 0.6545521569413595, "timer/replay._sample_avg": 0.017514199231048452, "timer/replay._sample_min": 0.0005183219909667969, "timer/replay._sample_max": 0.048688650131225586, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1680898666381836, "timer/agent.save_frac": 0.000560089594951081, "timer/agent.save_avg": 0.1680898666381836, "timer/agent.save_min": 0.1680898666381836, "timer/agent.save_max": 0.1680898666381836, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.57307648658752, "timer/agent.policy_frac": 0.6616622179667919, "timer/agent.policy_avg": 0.2832711504801534, "timer/agent.policy_min": 0.002870798110961914, "timer/agent.policy_max": 0.3951270580291748, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09520697593688965, "timer/dataset_train_frac": 0.0003172376637301499, "timer/dataset_train_avg": 0.00013581594284863002, "timer/dataset_train_min": 6.985664367675781e-05, "timer/dataset_train_max": 0.0041773319244384766, "timer/agent.train_count": 701.0, "timer/agent.train_total": 97.98740243911743, "timer/agent.train_frac": 0.3265022790491453, "timer/agent.train_avg": 0.1397823144637909, "timer/agent.train_min": 0.10062098503112793, "timer/agent.train_max": 0.45020437240600586, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20432400703430176, "timer/agent.report_frac": 0.0006808248029903996, "timer/agent.report_avg": 0.10216200351715088, "timer/agent.report_min": 0.0985560417175293, "timer/agent.report_max": 0.10576796531677246, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.319450378417969e-05, "timer/dataset_eval_frac": 2.438902522623214e-07, "timer/dataset_eval_avg": 7.319450378417969e-05, "timer/dataset_eval_min": 7.319450378417969e-05, "timer/dataset_eval_max": 7.319450378417969e-05, "fps": 9.34282147808166}
+{"step": 41364, "episode/length": 565.0, "episode/score": 550.0, "episode/reward_rate": 0.05653710247349823}
+{"step": 43568, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 3.885198888644366, "train/action_min": 0.0, "train/action_std": 3.3896785588331624, "train/actor_opt_grad_norm": 0.017276467020872613, "train/actor_opt_grad_steps": 9440.0, "train/actor_opt_loss": 0.013790664481143402, "train/adv_mag": 1.3041766772807484, "train/adv_max": 1.3041766772807484, "train/adv_mean": 0.02117386351103409, "train/adv_min": -0.5607640268936963, "train/adv_std": 0.09440792472639555, "train/cont_avg": 0.9983632262323944, "train/cont_loss_mean": 0.0009372227909551211, "train/cont_loss_std": 0.02491719564527493, "train/cont_neg_acc": 0.8809523818984865, "train/cont_neg_loss": 0.42788447703083327, "train/cont_pos_acc": 0.9999586654381013, "train/cont_pos_loss": 0.00029051305662659626, "train/cont_pred": 0.9983937975386499, "train/cont_rate": 0.9983632262323944, "train/dyn_loss_mean": 2.7540736399905783, "train/dyn_loss_std": 3.9174394305323212, "train/extr_critic_critic_opt_grad_norm": 1.955711994372623, "train/extr_critic_critic_opt_grad_steps": 9440.0, "train/extr_critic_critic_opt_loss": 2.0619687412826107, "train/extr_critic_mag": 104.65250482693524, "train/extr_critic_max": 104.65250482693524, "train/extr_critic_mean": 43.732793727391204, "train/extr_critic_min": 0.5852095912879621, "train/extr_critic_std": 23.75298837205054, "train/extr_return_normed_mag": 1.9125320592396695, "train/extr_return_normed_max": 1.9125320592396695, "train/extr_return_normed_mean": 0.5180871919007368, "train/extr_return_normed_min": -0.03724313109562221, "train/extr_return_normed_std": 0.3169501371366877, "train/extr_return_rate": 0.984103628447358, "train/extr_return_raw_mag": 158.99833518014827, "train/extr_return_raw_max": 158.99833518014827, "train/extr_return_raw_mean": 45.46053292717732, "train/extr_return_raw_min": 0.10814020919128203, "train/extr_return_raw_std": 25.901821566299652, "train/extr_reward_mag": 75.39656331505574, "train/extr_reward_max": 75.39656331505574, "train/extr_reward_mean": 0.47074622944207256, "train/extr_reward_min": -3.705897801358935e-05, "train/extr_reward_std": 2.7185168467776877, "train/image_loss_mean": 4.413687826881946, "train/image_loss_std": 3.211029076240432, "train/model_loss_mean": 6.114915109016526, "train/model_loss_std": 4.839109400628319, "train/model_opt_grad_norm": 27.385611063997512, "train/model_opt_grad_steps": 9440.0, "train/model_opt_loss": 6.114915109016526, "train/policy_entropy_mag": 1.9015612316803194, "train/policy_entropy_max": 1.9015612316803194, "train/policy_entropy_mean": 0.762329767287617, "train/policy_entropy_min": 0.07312511474313871, "train/policy_entropy_std": 0.41591314614658625, "train/policy_logprob_mag": 6.779608101911948, "train/policy_logprob_max": -0.009504809529638626, "train/policy_logprob_mean": -0.7627195984544889, "train/policy_logprob_min": -6.779608101911948, "train/policy_logprob_std": 1.0654847118216502, "train/policy_randomness_mag": 0.8654378064921204, "train/policy_randomness_max": 0.8654378064921204, "train/policy_randomness_mean": 0.34695122233578857, "train/policy_randomness_min": 0.0332806736335788, "train/policy_randomness_std": 0.18929022991321456, "train/post_ent_mag": 37.359178677411144, "train/post_ent_max": 37.359178677411144, "train/post_ent_mean": 27.341666664875728, "train/post_ent_min": 19.855815645674586, "train/post_ent_std": 2.9382977183436005, "train/prior_ent_mag": 50.92508622290383, "train/prior_ent_max": 50.92508622290383, "train/prior_ent_mean": 30.259517562221472, "train/prior_ent_min": 22.403519966232945, "train/prior_ent_std": 4.613099628770855, "train/rep_loss_mean": 2.7540736399905783, "train/rep_loss_std": 3.9174394305323212, "train/reward_avg": 0.6802926936619719, "train/reward_loss_mean": 0.047845882901423414, "train/reward_loss_std": 0.23969003820503262, "train/reward_max_data": 115.21126760563381, "train/reward_max_pred": 54.87249500650755, "train/reward_neg_acc": 0.9687267214479581, "train/reward_neg_loss": 0.007188341550817582, "train/reward_pos_acc": 0.9872979421011159, "train/reward_pos_loss": 0.757585194748892, "train/reward_pred": 0.5488370243512409, "train/reward_rate": 0.054412411971830985, "train_stats/mean_log_entropy": 0.8884918093681335, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 8.432832692051306e-05, "report/cont_loss_std": 0.001244343351572752, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0019779379945248365, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.876432937337086e-05, "report/cont_pred": 0.9969983696937561, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 2.4864277839660645, "report/dyn_loss_std": 3.9172065258026123, "report/image_loss_mean": 3.858488082885742, "report/image_loss_std": 2.7890024185180664, "report/model_loss_mean": 5.405457019805908, "report/model_loss_std": 4.395034313201904, "report/post_ent_mag": 35.15925979614258, "report/post_ent_max": 35.15925979614258, "report/post_ent_mean": 27.35991859436035, "report/post_ent_min": 20.52117156982422, "report/post_ent_std": 2.2640397548675537, "report/prior_ent_mag": 52.03541564941406, "report/prior_ent_max": 52.03541564941406, "report/prior_ent_mean": 29.718107223510742, "report/prior_ent_min": 22.077529907226562, "report/prior_ent_std": 4.175443172454834, "report/rep_loss_mean": 2.4864277839660645, "report/rep_loss_std": 3.9172065258026123, "report/reward_avg": 0.8203125, "report/reward_loss_mean": 0.055027931928634644, "report/reward_loss_std": 0.2255539745092392, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.564231872558594, "report/reward_neg_acc": 0.9809321761131287, "report/reward_neg_loss": 0.004737876355648041, "report/reward_pos_acc": 0.987500011920929, "report/reward_pos_loss": 0.6484505534172058, "report/reward_pred": 0.7706047296524048, "report/reward_rate": 0.078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.010987106710672379, "eval/cont_loss_std": 0.35130974650382996, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.247407913208008, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.3119897580036195e-06, "eval/cont_pred": 0.9999967217445374, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 7.722605228424072, "eval/dyn_loss_std": 5.762089729309082, "eval/image_loss_mean": 6.89929723739624, "eval/image_loss_std": 4.992685794830322, "eval/model_loss_mean": 12.156084060668945, "eval/model_loss_std": 8.289155006408691, "eval/post_ent_mag": 37.77660369873047, "eval/post_ent_max": 37.77660369873047, "eval/post_ent_mean": 26.69491958618164, "eval/post_ent_min": 20.56584930419922, "eval/post_ent_std": 2.535072088241577, "eval/prior_ent_mag": 52.03541564941406, "eval/prior_ent_max": 52.03541564941406, "eval/prior_ent_mean": 29.799129486083984, "eval/prior_ent_min": 22.24602508544922, "eval/prior_ent_std": 4.07038688659668, "eval/rep_loss_mean": 7.722605228424072, "eval/rep_loss_std": 5.762089729309082, "eval/reward_avg": 0.576171875, "eval/reward_loss_mean": 0.6122366189956665, "eval/reward_loss_std": 2.4914369583129883, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.990930557250977, "eval/reward_neg_acc": 0.9036269783973694, "eval/reward_neg_loss": 0.13065850734710693, "eval/reward_pos_acc": 0.23728813230991364, "eval/reward_pos_loss": 8.488896369934082, "eval/reward_pred": 0.3757338225841522, "eval/reward_rate": 0.0576171875, "replay/size": 10829.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.856993493069424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4313695470938522e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.42752504348755, "timer/env.step_count": 712.0, "timer/env.step_total": 2.87221622467041, "timer/env.step_frac": 0.009560429671863956, "timer/env.step_avg": 0.004034011551503385, "timer/env.step_min": 0.0025141239166259766, "timer/env.step_max": 0.02480483055114746, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 190.55734968185425, "timer/replay._sample_frac": 0.634287253320982, "timer/replay._sample_avg": 0.016727295442578498, "timer/replay._sample_min": 0.008363723754882812, "timer/replay._sample_max": 0.04999494552612305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.1238672733307, "timer/agent.policy_frac": 0.6594730867108526, "timer/agent.policy_avg": 0.27826385852995883, "timer/agent.policy_min": 0.0035233497619628906, "timer/agent.policy_max": 0.31455206871032715, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09958672523498535, "timer/dataset_train_frac": 0.0003314833593245824, "timer/dataset_train_avg": 0.00013986899611655247, "timer/dataset_train_min": 8.845329284667969e-05, "timer/dataset_train_max": 0.0005564689636230469, "timer/agent.train_count": 712.0, "timer/agent.train_total": 98.24432945251465, "timer/agent.train_frac": 0.3270150743953756, "timer/agent.train_avg": 0.1379836087816217, "timer/agent.train_min": 0.1000821590423584, "timer/agent.train_max": 0.43409156799316406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5052566528320312, "timer/agent.report_frac": 0.0016817921485685916, "timer/agent.report_avg": 0.2526283264160156, "timer/agent.report_min": 0.10677981376647949, "timer/agent.report_max": 0.39847683906555176, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.821487426757812e-05, "timer/dataset_eval_frac": 2.9363113201697755e-07, "timer/dataset_eval_avg": 8.821487426757812e-05, "timer/dataset_eval_min": 8.821487426757812e-05, "timer/dataset_eval_max": 8.821487426757812e-05, "fps": 9.479512246437386}
+{"step": 44756, "episode/length": 847.0, "episode/score": 1850.0, "episode/reward_rate": 0.07193396226415094}
+{"step": 46344, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 3.864486915477808, "train/action_min": 0.0, "train/action_std": 3.4162189511285312, "train/actor_opt_grad_norm": 0.017046729926073898, "train/actor_opt_grad_steps": 10140.0, "train/actor_opt_loss": 0.012445548667396972, "train/adv_mag": 1.348443669685419, "train/adv_max": 1.3469539682070415, "train/adv_mean": 0.0197284946123651, "train/adv_min": -0.6581358503604281, "train/adv_std": 0.0961522908638353, "train/cont_avg": 0.9984573143115942, "train/cont_loss_mean": 0.0008288759216328259, "train/cont_loss_std": 0.022062593075937963, "train/cont_neg_acc": 0.918181819265539, "train/cont_neg_loss": 0.30497580546679354, "train/cont_pos_acc": 0.9999432460121487, "train/cont_pos_loss": 0.00027010529105201135, "train/cont_pred": 0.9984397404435752, "train/cont_rate": 0.9984573143115942, "train/dyn_loss_mean": 2.7877776139024375, "train/dyn_loss_std": 4.029675663381383, "train/extr_critic_critic_opt_grad_norm": 1.9496633505475693, "train/extr_critic_critic_opt_grad_steps": 10140.0, "train/extr_critic_critic_opt_loss": 2.0472879858984463, "train/extr_critic_mag": 113.24006630717844, "train/extr_critic_max": 113.24006630717844, "train/extr_critic_mean": 47.230365974315696, "train/extr_critic_min": 0.4747733845227007, "train/extr_critic_std": 26.336632521256156, "train/extr_return_normed_mag": 1.8769063431283701, "train/extr_return_normed_max": 1.8769063431283701, "train/extr_return_normed_mean": 0.5135031791700833, "train/extr_return_normed_min": -0.039315025875533836, "train/extr_return_normed_std": 0.31984052990657696, "train/extr_return_rate": 0.9667384227116903, "train/extr_return_raw_mag": 169.4329407180565, "train/extr_return_raw_max": 169.4329407180565, "train/extr_return_raw_mean": 48.97559622059698, "train/extr_return_raw_min": 0.08138174034547115, "train/extr_return_raw_std": 28.300873466159988, "train/extr_reward_mag": 81.8407351590585, "train/extr_reward_max": 81.8407351590585, "train/extr_reward_mean": 0.5116740279439567, "train/extr_reward_min": -5.3497328274491906e-05, "train/extr_reward_std": 2.744148522183515, "train/image_loss_mean": 4.313172437142635, "train/image_loss_std": 3.128631187521893, "train/model_loss_mean": 6.035871602486873, "train/model_loss_std": 4.8375000124392304, "train/model_opt_grad_norm": 26.208379303199656, "train/model_opt_grad_steps": 10140.0, "train/model_opt_loss": 6.035871602486873, "train/policy_entropy_mag": 1.90988546523495, "train/policy_entropy_max": 1.90988546523495, "train/policy_entropy_mean": 0.7223965931629789, "train/policy_entropy_min": 0.07230041748371677, "train/policy_entropy_std": 0.4241364809913912, "train/policy_logprob_mag": 6.783627302750297, "train/policy_logprob_max": -0.009377694175835106, "train/policy_logprob_mean": -0.7239238049672998, "train/policy_logprob_min": -6.783627302750297, "train/policy_logprob_std": 1.0715940603311511, "train/policy_randomness_mag": 0.8692263295685035, "train/policy_randomness_max": 0.8692263295685035, "train/policy_randomness_mean": 0.32877685691135516, "train/policy_randomness_min": 0.032905337873144425, "train/policy_randomness_std": 0.19303283073763916, "train/post_ent_mag": 39.97214469356813, "train/post_ent_max": 39.97214469356813, "train/post_ent_mean": 28.261014965997227, "train/post_ent_min": 20.490592071975488, "train/post_ent_std": 3.322154328443002, "train/prior_ent_mag": 52.43761963775192, "train/prior_ent_max": 52.43761963775192, "train/prior_ent_mean": 31.208894867827926, "train/prior_ent_min": 22.922205192455348, "train/prior_ent_std": 5.078808901966482, "train/rep_loss_mean": 2.7877776139024375, "train/rep_loss_std": 4.029675663381383, "train/reward_avg": 0.8262567934782609, "train/reward_loss_mean": 0.04920376324351283, "train/reward_loss_std": 0.23717842402233594, "train/reward_max_data": 166.95652173913044, "train/reward_max_pred": 66.52175296562305, "train/reward_neg_acc": 0.9697683246239371, "train/reward_neg_loss": 0.006806643807963616, "train/reward_pos_acc": 0.9883722472881925, "train/reward_pos_loss": 0.7358874289885812, "train/reward_pred": 0.6066758537638015, "train/reward_rate": 0.058692821557971016, "train_stats/mean_log_entropy": 0.9337819218635559, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00012900140427518636, "report/cont_loss_std": 0.0034998394548892975, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004502474330365658, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00012472625530790538, "report/cont_pred": 0.9989091157913208, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.3503150939941406, "report/dyn_loss_std": 3.9842634201049805, "report/image_loss_mean": 4.283992290496826, "report/image_loss_std": 2.6538023948669434, "report/model_loss_mean": 6.349491119384766, "report/model_loss_std": 4.440512657165527, "report/post_ent_mag": 42.15093231201172, "report/post_ent_max": 42.15093231201172, "report/post_ent_mean": 30.105419158935547, "report/post_ent_min": 21.218212127685547, "report/post_ent_std": 3.871345281600952, "report/prior_ent_mag": 53.770179748535156, "report/prior_ent_max": 53.770179748535156, "report/prior_ent_mean": 33.041900634765625, "report/prior_ent_min": 23.996339797973633, "report/prior_ent_std": 5.755326271057129, "report/rep_loss_mean": 3.3503150939941406, "report/rep_loss_std": 3.9842634201049805, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.05518069118261337, "report/reward_loss_std": 0.26711344718933105, "report/reward_max_data": 400.0, "report/reward_max_pred": 312.34161376953125, "report/reward_neg_acc": 0.9599589705467224, "report/reward_neg_loss": 0.01332166139036417, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.8705946207046509, "report/reward_pred": 0.7988808155059814, "report/reward_rate": 0.048828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012718262150883675, "eval/cont_loss_std": 0.23057867586612701, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.838624358177185, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.009145060554146767, "eval/cont_pred": 0.9967749118804932, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.355011940002441, "eval/dyn_loss_std": 6.585913181304932, "eval/image_loss_mean": 9.294878959655762, "eval/image_loss_std": 5.818490028381348, "eval/model_loss_mean": 15.569921493530273, "eval/model_loss_std": 9.64157485961914, "eval/post_ent_mag": 37.79269027709961, "eval/post_ent_max": 37.79269027709961, "eval/post_ent_mean": 28.68441390991211, "eval/post_ent_min": 19.460472106933594, "eval/post_ent_std": 2.979663610458374, "eval/prior_ent_mag": 53.770179748535156, "eval/prior_ent_max": 53.770179748535156, "eval/prior_ent_mean": 31.254480361938477, "eval/prior_ent_min": 23.78806495666504, "eval/prior_ent_std": 4.590217113494873, "eval/rep_loss_mean": 9.355011940002441, "eval/rep_loss_std": 6.585913181304932, "eval/reward_avg": 0.64453125, "eval/reward_loss_mean": 0.6493174433708191, "eval/reward_loss_std": 2.680558443069458, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.996230125427246, "eval/reward_neg_acc": 0.9217119216918945, "eval/reward_neg_loss": 0.06049693375825882, "eval/reward_pos_acc": 0.13636362552642822, "eval/reward_pos_loss": 9.196135520935059, "eval/reward_pred": 0.16490918397903442, "eval/reward_rate": 0.064453125, "replay/size": 11523.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.869716655280473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0704358647810965e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1920928955078125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0412685871124, "timer/env.step_count": 694.0, "timer/env.step_total": 2.191591501235962, "timer/env.step_frac": 0.007304300210288128, "timer/env.step_avg": 0.0031579128259884176, "timer/env.step_min": 0.0019006729125976562, "timer/env.step_max": 0.021056652069091797, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 204.96617126464844, "timer/replay._sample_frac": 0.6831265986503441, "timer/replay._sample_avg": 0.018458769025994998, "timer/replay._sample_min": 0.0005664825439453125, "timer/replay._sample_max": 0.05208086967468262, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 197.52174544334412, "timer/agent.policy_frac": 0.6583152590091008, "timer/agent.policy_avg": 0.2846134660566918, "timer/agent.policy_min": 0.0028810501098632812, "timer/agent.policy_max": 0.32915806770324707, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.09822964668273926, "timer/dataset_train_frac": 0.00032738711959624903, "timer/dataset_train_avg": 0.00014154127764083466, "timer/dataset_train_min": 8.225440979003906e-05, "timer/dataset_train_max": 0.006299495697021484, "timer/agent.train_count": 694.0, "timer/agent.train_total": 99.02451968193054, "timer/agent.train_frac": 0.33003633182940056, "timer/agent.train_avg": 0.1426866277837616, "timer/agent.train_min": 0.1028444766998291, "timer/agent.train_max": 0.448732852935791, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5288910865783691, "timer/agent.report_frac": 0.001762727804308072, "timer/agent.report_avg": 0.26444554328918457, "timer/agent.report_min": 0.10826230049133301, "timer/agent.report_max": 0.42062878608703613, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.435943603515625e-05, "timer/dataset_eval_frac": 1.8117319757756527e-07, "timer/dataset_eval_avg": 5.435943603515625e-05, "timer/dataset_eval_min": 5.435943603515625e-05, "timer/dataset_eval_max": 5.435943603515625e-05, "fps": 9.251855452503966}
+{"step": 47308, "episode/length": 637.0, "episode/score": 420.0, "episode/reward_rate": 0.06583072100313479}
+{"step": 49116, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 3.925430076709692, "train/action_min": 0.0, "train/action_std": 3.448339303334554, "train/actor_opt_grad_norm": 0.01702821377556825, "train/actor_opt_grad_steps": 10830.0, "train/actor_opt_loss": 0.010766023935740004, "train/adv_mag": 1.4892985017403313, "train/adv_max": 1.4865293217741924, "train/adv_mean": 0.018192426126494167, "train/adv_min": -0.6344798159772072, "train/adv_std": 0.09802931881901147, "train/cont_avg": 0.9977779664855072, "train/cont_loss_mean": 0.000846855428513347, "train/cont_loss_std": 0.02180338868366443, "train/cont_neg_acc": 0.9520114958286285, "train/cont_neg_loss": 0.19891803812035883, "train/cont_pos_acc": 0.9999005034349967, "train/cont_pos_loss": 0.00036496826267769694, "train/cont_pred": 0.9977613359257795, "train/cont_rate": 0.9977779664855072, "train/dyn_loss_mean": 2.948476425115613, "train/dyn_loss_std": 4.221900718799536, "train/extr_critic_critic_opt_grad_norm": 1.9914414623509282, "train/extr_critic_critic_opt_grad_steps": 10830.0, "train/extr_critic_critic_opt_loss": 1.9393008498178013, "train/extr_critic_mag": 128.6822663459225, "train/extr_critic_max": 128.6822663459225, "train/extr_critic_mean": 50.550278926241226, "train/extr_critic_min": 0.44871869121772656, "train/extr_critic_std": 29.750968822534535, "train/extr_return_normed_mag": 2.0225341285484424, "train/extr_return_normed_max": 2.0225341285484424, "train/extr_return_normed_mean": 0.5040019962234773, "train/extr_return_normed_min": -0.03251063815601494, "train/extr_return_normed_std": 0.332949770965438, "train/extr_return_rate": 0.9552753757739413, "train/extr_return_raw_mag": 200.11397629889888, "train/extr_return_raw_max": 200.11397629889888, "train/extr_return_raw_mean": 52.31371053059896, "train/extr_return_raw_min": 0.06350772233976834, "train/extr_return_raw_std": 32.40180676225303, "train/extr_reward_mag": 107.13837781159773, "train/extr_reward_max": 107.13837781159773, "train/extr_reward_mean": 0.5388562830461971, "train/extr_reward_min": -2.933412358380746e-05, "train/extr_reward_std": 3.362175537192303, "train/image_loss_mean": 4.165114406226338, "train/image_loss_std": 3.1508490451868028, "train/model_loss_mean": 5.984213918879412, "train/model_loss_std": 4.989486141481262, "train/model_opt_grad_norm": 25.473044188126273, "train/model_opt_grad_steps": 10830.0, "train/model_opt_loss": 5.984213918879412, "train/policy_entropy_mag": 1.8947829129039377, "train/policy_entropy_max": 1.8947829129039377, "train/policy_entropy_mean": 0.770468993463378, "train/policy_entropy_min": 0.07209695173778395, "train/policy_entropy_std": 0.4221224309741587, "train/policy_logprob_mag": 6.78386808478314, "train/policy_logprob_max": -0.009348292916041353, "train/policy_logprob_mean": -0.769250510395437, "train/policy_logprob_min": -6.78386808478314, "train/policy_logprob_std": 1.051023380479951, "train/policy_randomness_mag": 0.8623528601466746, "train/policy_randomness_max": 0.8623528601466746, "train/policy_randomness_mean": 0.35065554276756616, "train/policy_randomness_min": 0.032812736496545265, "train/policy_randomness_std": 0.19211619379727737, "train/post_ent_mag": 40.01495549298715, "train/post_ent_max": 40.01495549298715, "train/post_ent_mean": 28.84721521018208, "train/post_ent_min": 20.612088742463484, "train/post_ent_std": 3.5072167265242427, "train/prior_ent_mag": 53.83493788346, "train/prior_ent_max": 53.83493788346, "train/prior_ent_mean": 31.940589738928754, "train/prior_ent_min": 23.162741674893145, "train/prior_ent_std": 5.342051671898884, "train/rep_loss_mean": 2.948476425115613, "train/rep_loss_std": 4.221900718799536, "train/reward_avg": 0.7806838768115942, "train/reward_loss_mean": 0.04916689585408439, "train/reward_loss_std": 0.23169853203538535, "train/reward_max_data": 137.3913043478261, "train/reward_max_pred": 87.39439582824707, "train/reward_neg_acc": 0.9692306553108104, "train/reward_neg_loss": 0.007645089719174564, "train/reward_pos_acc": 0.9915069825407388, "train/reward_pos_loss": 0.7275630417077438, "train/reward_pred": 0.6399096660855887, "train/reward_rate": 0.05825407608695652, "train_stats/mean_log_entropy": 0.8958107829093933, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.687415326363407e-05, "report/cont_loss_std": 0.0004303547611925751, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.006714381743222475, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3787054740532767e-05, "report/cont_pred": 0.9980462193489075, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1837589740753174, "report/dyn_loss_std": 4.854701042175293, "report/image_loss_mean": 3.5782816410064697, "report/image_loss_std": 2.778317928314209, "report/model_loss_mean": 5.557956695556641, "report/model_loss_std": 5.194088935852051, "report/post_ent_mag": 41.912452697753906, "report/post_ent_max": 41.912452697753906, "report/post_ent_mean": 29.571819305419922, "report/post_ent_min": 21.256502151489258, "report/post_ent_std": 3.728910446166992, "report/prior_ent_mag": 54.89145278930664, "report/prior_ent_max": 54.89145278930664, "report/prior_ent_mean": 32.63324737548828, "report/prior_ent_min": 23.602102279663086, "report/prior_ent_std": 5.499431133270264, "report/rep_loss_mean": 3.1837589740753174, "report/rep_loss_std": 4.854701042175293, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.06939271092414856, "report/reward_loss_std": 0.3260799050331116, "report/reward_max_data": 200.0, "report/reward_max_pred": 49.92901611328125, "report/reward_neg_acc": 0.958071231842041, "report/reward_neg_loss": 0.00801563635468483, "report/reward_pos_acc": 0.985714316368103, "report/reward_pos_loss": 0.9058745503425598, "report/reward_pred": 0.6359978318214417, "report/reward_rate": 0.068359375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.01064574345946312, "eval/cont_loss_std": 0.20683595538139343, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 2.6679515838623047, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.00022493710275739431, "eval/cont_pred": 0.9988387823104858, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 8.452141761779785, "eval/dyn_loss_std": 7.859660625457764, "eval/image_loss_mean": 6.622045993804932, "eval/image_loss_std": 5.512369632720947, "eval/model_loss_mean": 12.026911735534668, "eval/model_loss_std": 9.91804313659668, "eval/post_ent_mag": 37.44133758544922, "eval/post_ent_max": 37.44133758544922, "eval/post_ent_mean": 27.041114807128906, "eval/post_ent_min": 18.58397102355957, "eval/post_ent_std": 3.1654751300811768, "eval/prior_ent_mag": 54.89145278930664, "eval/prior_ent_max": 54.89145278930664, "eval/prior_ent_mean": 30.599821090698242, "eval/prior_ent_min": 23.414833068847656, "eval/prior_ent_std": 4.73620080947876, "eval/rep_loss_mean": 8.452141761779785, "eval/rep_loss_std": 7.859660625457764, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.32293474674224854, "eval/reward_loss_std": 1.7802786827087402, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.95793628692627, "eval/reward_neg_acc": 0.9386317729949951, "eval/reward_neg_loss": 0.04795478656888008, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 9.433937072753906, "eval/reward_pred": 0.13760140538215637, "eval/reward_rate": 0.029296875, "replay/size": 12216.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.138212812239302e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1335203657934675e-06, "replay/sample_wait_frac": 0.9994588744588745, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.98377799987793e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3177580833435, "timer/env.step_count": 693.0, "timer/env.step_total": 2.426762342453003, "timer/env.step_frac": 0.00808064883655509, "timer/env.step_avg": 0.0035018215619812454, "timer/env.step_min": 0.0021555423736572266, "timer/env.step_max": 0.021641016006469727, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 205.07079243659973, "timer/replay._sample_frac": 0.6828460419569626, "timer/replay._sample_avg": 0.018494840587716426, "timer/replay._sample_min": 0.000530242919921875, "timer/replay._sample_max": 0.052149057388305664, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.20221281051635742, "timer/agent.save_frac": 0.000673329515400284, "timer/agent.save_avg": 0.20221281051635742, "timer/agent.save_min": 0.20221281051635742, "timer/agent.save_max": 0.20221281051635742, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.94267559051514, "timer/agent.policy_frac": 0.6591107926943919, "timer/agent.policy_avg": 0.2856315665086798, "timer/agent.policy_min": 0.0026044845581054688, "timer/agent.policy_max": 0.4150810241699219, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09122276306152344, "timer/dataset_train_frac": 0.00030375414242472966, "timer/dataset_train_avg": 0.00013163457873235706, "timer/dataset_train_min": 7.796287536621094e-05, "timer/dataset_train_max": 0.0030236244201660156, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.6120491027832, "timer/agent.train_frac": 0.3283590345510525, "timer/agent.train_avg": 0.1422973291526453, "timer/agent.train_min": 0.10292196273803711, "timer/agent.train_max": 0.45543885231018066, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.501751184463501, "timer/agent.report_frac": 0.00167073431709708, "timer/agent.report_avg": 0.2508755922317505, "timer/agent.report_min": 0.09998226165771484, "timer/agent.report_max": 0.40176892280578613, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001494884490966797, "timer/dataset_eval_frac": 4.977675980625627e-07, "timer/dataset_eval_avg": 0.0001494884490966797, "timer/dataset_eval_min": 0.0001494884490966797, "timer/dataset_eval_max": 0.0001494884490966797, "fps": 9.229749068108857}
+{"step": 49792, "episode/length": 620.0, "episode/score": 720.0, "episode/reward_rate": 0.07890499194847021}
+{"step": 51912, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.009124755859375, "train/action_min": 0.0, "train/action_std": 3.2426684038979667, "train/actor_opt_grad_norm": 0.01831646618832435, "train/actor_opt_grad_steps": 11525.0, "train/actor_opt_loss": 0.011474618709014197, "train/adv_mag": 1.6126692226954868, "train/adv_max": 1.6126692226954868, "train/adv_mean": 0.017075864249740596, "train/adv_min": -0.6035648384264537, "train/adv_std": 0.09641893601843289, "train/cont_avg": 0.9984095982142858, "train/cont_loss_mean": 0.0009155505900610349, "train/cont_loss_std": 0.024390176003206372, "train/cont_neg_acc": 0.9022988512598235, "train/cont_neg_loss": 0.3482285542069866, "train/cont_pos_acc": 0.9998880880219596, "train/cont_pos_loss": 0.0004226570188539621, "train/cont_pred": 0.9983739571911948, "train/cont_rate": 0.9984095982142858, "train/dyn_loss_mean": 2.9209337711334227, "train/dyn_loss_std": 4.336725497245789, "train/extr_critic_critic_opt_grad_norm": 1.6919694423675538, "train/extr_critic_critic_opt_grad_steps": 11525.0, "train/extr_critic_critic_opt_loss": 1.8491423879350934, "train/extr_critic_mag": 138.5656340462821, "train/extr_critic_max": 138.5656340462821, "train/extr_critic_mean": 55.4065541948591, "train/extr_critic_min": 0.3557766761098589, "train/extr_critic_std": 32.800763429914205, "train/extr_return_normed_mag": 2.1738720263753617, "train/extr_return_normed_max": 2.1738720263753617, "train/extr_return_normed_mean": 0.5084444046020508, "train/extr_return_normed_min": -0.02814510871789285, "train/extr_return_normed_std": 0.3336544837270464, "train/extr_return_rate": 0.9598577490874699, "train/extr_return_raw_mag": 234.72645198277064, "train/extr_return_raw_max": 234.72645198277064, "train/extr_return_raw_mean": 57.22455422537667, "train/extr_return_raw_min": 0.10750904892172132, "train/extr_return_raw_std": 35.52313611166818, "train/extr_reward_mag": 135.20254150118146, "train/extr_reward_max": 135.20254150118146, "train/extr_reward_mean": 0.5585666045546531, "train/extr_reward_min": -1.0972363608224052e-05, "train/extr_reward_std": 3.820537849834987, "train/image_loss_mean": 4.078394412994385, "train/image_loss_std": 2.9566729239055087, "train/model_loss_mean": 5.877233266830444, "train/model_loss_std": 4.88322388785226, "train/model_opt_grad_norm": 24.014407130650113, "train/model_opt_grad_steps": 11525.0, "train/model_opt_loss": 5.877233266830444, "train/policy_entropy_mag": 1.860926045690264, "train/policy_entropy_max": 1.860926045690264, "train/policy_entropy_mean": 0.8089245302336556, "train/policy_entropy_min": 0.07440198755690029, "train/policy_entropy_std": 0.39829578612531935, "train/policy_logprob_mag": 6.78405168397086, "train/policy_logprob_max": -0.009700001842741455, "train/policy_logprob_mean": -0.8087808004447392, "train/policy_logprob_min": -6.78405168397086, "train/policy_logprob_std": 1.0416245119912284, "train/policy_randomness_mag": 0.846943941286632, "train/policy_randomness_max": 0.846943941286632, "train/policy_randomness_mean": 0.3681574131761278, "train/policy_randomness_min": 0.033861803635954854, "train/policy_randomness_std": 0.1812722223145621, "train/post_ent_mag": 40.195016152518136, "train/post_ent_max": 40.195016152518136, "train/post_ent_mean": 29.314272281101772, "train/post_ent_min": 20.998298290797642, "train/post_ent_std": 3.454514731679644, "train/prior_ent_mag": 55.28584997994559, "train/prior_ent_max": 55.28584997994559, "train/prior_ent_mean": 32.36500334058489, "train/prior_ent_min": 23.510357638767786, "train/prior_ent_std": 5.402492850167411, "train/rep_loss_mean": 2.9209337711334227, "train/rep_loss_std": 4.336725497245789, "train/reward_avg": 0.8205915178571429, "train/reward_loss_mean": 0.04536302603249039, "train/reward_loss_std": 0.21811715747628893, "train/reward_max_data": 170.0, "train/reward_max_pred": 101.70062689099993, "train/reward_neg_acc": 0.9730599199022566, "train/reward_neg_loss": 0.006069141450071974, "train/reward_pos_acc": 0.9912973182541983, "train/reward_pos_loss": 0.6912640409810202, "train/reward_pred": 0.6653616513524737, "train/reward_rate": 0.05765904017857143, "train_stats/mean_log_entropy": 0.9288163781166077, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.823866740684025e-05, "report/cont_loss_std": 0.0012237053597345948, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.006117071490734816, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.231605246081017e-05, "report/cont_pred": 0.9989778995513916, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.1258158683776855, "report/dyn_loss_std": 4.5433149337768555, "report/image_loss_mean": 4.9446492195129395, "report/image_loss_std": 2.903144598007202, "report/model_loss_mean": 6.877230644226074, "report/model_loss_std": 5.0754618644714355, "report/post_ent_mag": 41.16007614135742, "report/post_ent_max": 41.16007614135742, "report/post_ent_mean": 30.54515838623047, "report/post_ent_min": 21.114089965820312, "report/post_ent_std": 3.6312198638916016, "report/prior_ent_mag": 56.36341857910156, "report/prior_ent_max": 56.36341857910156, "report/prior_ent_mean": 34.009071350097656, "report/prior_ent_min": 22.337953567504883, "report/prior_ent_std": 5.512551307678223, "report/rep_loss_mean": 3.1258158683776855, "report/rep_loss_std": 4.5433149337768555, "report/reward_avg": 1.064453125, "report/reward_loss_mean": 0.0570334754884243, "report/reward_loss_std": 0.22970297932624817, "report/reward_max_data": 200.0, "report/reward_max_pred": 180.6544952392578, "report/reward_neg_acc": 0.964210569858551, "report/reward_neg_loss": 0.008216479793190956, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6837381720542908, "report/reward_pred": 0.9654449820518494, "report/reward_rate": 0.072265625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.032700419425964355, "eval/cont_loss_std": 0.6035694479942322, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.16151237487793, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.805378802710038e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.918661117553711, "eval/dyn_loss_std": 7.887758255004883, "eval/image_loss_mean": 8.881017684936523, "eval/image_loss_std": 5.5900959968566895, "eval/model_loss_mean": 16.13220977783203, "eval/model_loss_std": 9.974241256713867, "eval/post_ent_mag": 36.807640075683594, "eval/post_ent_max": 36.807640075683594, "eval/post_ent_mean": 27.49536895751953, "eval/post_ent_min": 20.36644172668457, "eval/post_ent_std": 2.9277968406677246, "eval/prior_ent_mag": 56.36341857910156, "eval/prior_ent_max": 56.36341857910156, "eval/prior_ent_mean": 31.877824783325195, "eval/prior_ent_min": 24.567890167236328, "eval/prior_ent_std": 4.668664455413818, "eval/rep_loss_mean": 10.918661117553711, "eval/rep_loss_std": 7.887758255004883, "eval/reward_avg": 0.615234375, "eval/reward_loss_mean": 0.6672952175140381, "eval/reward_loss_std": 2.5304157733917236, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006847381591797, "eval/reward_neg_acc": 0.8792924284934998, "eval/reward_neg_loss": 0.14092184603214264, "eval/reward_pos_acc": 0.222222238779068, "eval/reward_pos_loss": 8.696578025817871, "eval/reward_pred": 0.397633820772171, "eval/reward_rate": 0.0615234375, "replay/size": 12915.0, "replay/inserts": 699.0, "replay/samples": 11184.0, "replay/insert_wait_avg": 5.083534338955204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2688370733302039e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08404541015625, "timer/env.step_count": 699.0, "timer/env.step_total": 2.519463300704956, "timer/env.step_frac": 0.008395858891002826, "timer/env.step_avg": 0.0036043824044419974, "timer/env.step_min": 0.0022127628326416016, "timer/env.step_max": 0.019748926162719727, "timer/replay._sample_count": 11184.0, "timer/replay._sample_total": 196.3369002342224, "timer/replay._sample_frac": 0.6542730386277892, "timer/replay._sample_avg": 0.017555159176879685, "timer/replay._sample_min": 0.0004703998565673828, "timer/replay._sample_max": 0.053235769271850586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 699.0, "timer/agent.policy_total": 198.50569534301758, "timer/agent.policy_frac": 0.6615003309212893, "timer/agent.policy_avg": 0.28398525800145574, "timer/agent.policy_min": 0.002868175506591797, "timer/agent.policy_max": 0.3317692279815674, "timer/dataset_train_count": 699.0, "timer/dataset_train_total": 0.08607816696166992, "timer/dataset_train_frac": 0.0002868468626648174, "timer/dataset_train_avg": 0.00012314473098951347, "timer/dataset_train_min": 7.009506225585938e-05, "timer/dataset_train_max": 0.0004055500030517578, "timer/agent.train_count": 699.0, "timer/agent.train_total": 97.8503565788269, "timer/agent.train_frac": 0.3260765044842174, "timer/agent.train_avg": 0.1399862039754319, "timer/agent.train_min": 0.0964360237121582, "timer/agent.train_max": 0.45372867584228516, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49483513832092285, "timer/agent.report_frac": 0.0016489884946884793, "timer/agent.report_avg": 0.24741756916046143, "timer/agent.report_min": 0.09907221794128418, "timer/agent.report_max": 0.39576292037963867, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.915496826171875e-05, "timer/dataset_eval_frac": 2.637759969995385e-07, "timer/dataset_eval_avg": 7.915496826171875e-05, "timer/dataset_eval_min": 7.915496826171875e-05, "timer/dataset_eval_max": 7.915496826171875e-05, "fps": 9.317047364613087}
+{"step": 52160, "episode/length": 591.0, "episode/score": 370.0, "episode/reward_rate": 0.05574324324324324}
+{"step": 53872, "episode/length": 427.0, "episode/score": 220.0, "episode/reward_rate": 0.0514018691588785}
+{"step": 54756, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.52607490647007, "train/action_min": 0.0, "train/action_std": 3.4426924846541715, "train/actor_opt_grad_norm": 0.017894773770281126, "train/actor_opt_grad_steps": 12230.0, "train/actor_opt_loss": 0.00908948858858834, "train/adv_mag": 1.6497606970894505, "train/adv_max": 1.6474808588833876, "train/adv_mean": 0.015035915726297339, "train/adv_min": -0.670807097999143, "train/adv_std": 0.09800089192642293, "train/cont_avg": 0.9983632262323944, "train/cont_loss_mean": 0.00044679618348177877, "train/cont_loss_std": 0.011075807217911088, "train/cont_neg_acc": 0.9509090922095559, "train/cont_neg_loss": 0.1658739443970262, "train/cont_pos_acc": 0.9999447649633381, "train/cont_pos_loss": 0.00017475394630104936, "train/cont_pred": 0.9983569559916644, "train/cont_rate": 0.9983632262323944, "train/dyn_loss_mean": 2.8753126339173654, "train/dyn_loss_std": 4.402726975964828, "train/extr_critic_critic_opt_grad_norm": 1.788847547181895, "train/extr_critic_critic_opt_grad_steps": 12230.0, "train/extr_critic_critic_opt_loss": 1.8700952261266575, "train/extr_critic_mag": 149.63785176881603, "train/extr_critic_max": 149.63785176881603, "train/extr_critic_mean": 58.80519227578606, "train/extr_critic_min": 0.4305371062856325, "train/extr_critic_std": 36.40544743605063, "train/extr_return_normed_mag": 2.1972385141211497, "train/extr_return_normed_max": 2.1972385141211497, "train/extr_return_normed_mean": 0.4917023584876262, "train/extr_return_normed_min": -0.024737862961917694, "train/extr_return_normed_std": 0.33658169482795286, "train/extr_return_rate": 0.9642560255359596, "train/extr_return_raw_mag": 260.1095585352938, "train/extr_return_raw_max": 260.1095585352938, "train/extr_return_raw_mean": 60.56465578750825, "train/extr_return_raw_min": 0.2526694964355146, "train/extr_return_raw_std": 39.30405635565099, "train/extr_reward_mag": 158.03297088515592, "train/extr_reward_max": 158.03297088515592, "train/extr_reward_mean": 0.5766154044950512, "train/extr_reward_min": -2.6343573986644478e-06, "train/extr_reward_std": 4.388114067870126, "train/image_loss_mean": 3.699954180650308, "train/image_loss_std": 2.7128842397474906, "train/model_loss_mean": 5.468100299297924, "train/model_loss_std": 4.729151685472945, "train/model_opt_grad_norm": 23.368117184706136, "train/model_opt_grad_steps": 12230.0, "train/model_opt_loss": 5.468100299297924, "train/policy_entropy_mag": 1.8512760216081645, "train/policy_entropy_max": 1.8512760216081645, "train/policy_entropy_mean": 0.7261658025459504, "train/policy_entropy_min": 0.07275788213165713, "train/policy_entropy_std": 0.39541001387045416, "train/policy_logprob_mag": 6.783733435080085, "train/policy_logprob_max": -0.00945327413911131, "train/policy_logprob_mean": -0.7263098736883888, "train/policy_logprob_min": -6.783733435080085, "train/policy_logprob_std": 1.0461365849199429, "train/policy_randomness_mag": 0.8425520213556962, "train/policy_randomness_max": 0.8425520213556962, "train/policy_randomness_mean": 0.3304922950099891, "train/policy_randomness_min": 0.03311353890408932, "train/policy_randomness_std": 0.1799588490959624, "train/post_ent_mag": 40.293180600018566, "train/post_ent_max": 40.293180600018566, "train/post_ent_mean": 29.784116879315444, "train/post_ent_min": 21.39287102390343, "train/post_ent_std": 3.4430547667221285, "train/prior_ent_mag": 56.55101238841742, "train/prior_ent_max": 56.55101238841742, "train/prior_ent_mean": 32.77333133321413, "train/prior_ent_min": 23.62559428685148, "train/prior_ent_std": 5.441503497916208, "train/rep_loss_mean": 2.8753126339173654, "train/rep_loss_std": 4.402726975964828, "train/reward_avg": 0.8181117957746479, "train/reward_loss_mean": 0.0425117686522049, "train/reward_loss_std": 0.21164997110904102, "train/reward_max_data": 174.08450704225353, "train/reward_max_pred": 133.7128023496816, "train/reward_neg_acc": 0.9778867288374565, "train/reward_neg_loss": 0.004996588830770531, "train/reward_pos_acc": 0.9915189340081013, "train/reward_pos_loss": 0.680530245035467, "train/reward_pred": 0.6993738375079463, "train/reward_rate": 0.05591164172535211, "train_stats/mean_log_entropy": 0.9328561425209045, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00031888854573480785, "report/cont_loss_std": 0.00751697039231658, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.11861324310302734, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.739272743696347e-05, "report/cont_pred": 0.9981671571731567, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.952260971069336, "report/dyn_loss_std": 4.538722038269043, "report/image_loss_mean": 3.690279006958008, "report/image_loss_std": 2.640676498413086, "report/model_loss_mean": 5.496456146240234, "report/model_loss_std": 4.790930271148682, "report/post_ent_mag": 42.0904655456543, "report/post_ent_max": 42.0904655456543, "report/post_ent_mean": 30.635581970214844, "report/post_ent_min": 21.482200622558594, "report/post_ent_std": 3.4637842178344727, "report/prior_ent_mag": 56.81443405151367, "report/prior_ent_max": 56.81443405151367, "report/prior_ent_mean": 33.793907165527344, "report/prior_ent_min": 23.90290069580078, "report/prior_ent_std": 5.3011474609375, "report/rep_loss_mean": 2.952260971069336, "report/rep_loss_std": 4.538722038269043, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.03450164943933487, "report/reward_loss_std": 0.19563636183738708, "report/reward_max_data": 200.0, "report/reward_max_pred": 185.8182830810547, "report/reward_neg_acc": 0.9856703877449036, "report/reward_neg_loss": 0.0023328750394284725, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.703201413154602, "report/reward_pred": 0.8282589912414551, "report/reward_rate": 0.0458984375, "eval/cont_avg": 0.994140625, "eval/cont_loss_mean": 0.061809130012989044, "eval/cont_loss_std": 0.7666383385658264, "eval/cont_neg_acc": 0.1666666716337204, "eval/cont_neg_loss": 8.435355186462402, "eval/cont_pos_acc": 0.9950884580612183, "eval/cont_pos_loss": 0.012456211261451244, "eval/cont_pred": 0.994105339050293, "eval/cont_rate": 0.994140625, "eval/dyn_loss_mean": 9.36356258392334, "eval/dyn_loss_std": 7.62927770614624, "eval/image_loss_mean": 7.523375511169434, "eval/image_loss_std": 5.867361545562744, "eval/model_loss_mean": 13.855929374694824, "eval/model_loss_std": 10.106927871704102, "eval/post_ent_mag": 39.30670166015625, "eval/post_ent_max": 39.30670166015625, "eval/post_ent_mean": 27.97161865234375, "eval/post_ent_min": 20.672775268554688, "eval/post_ent_std": 3.221662759780884, "eval/prior_ent_mag": 56.81443405151367, "eval/prior_ent_max": 56.81443405151367, "eval/prior_ent_mean": 32.39897918701172, "eval/prior_ent_min": 23.642366409301758, "eval/prior_ent_std": 5.173648357391357, "eval/rep_loss_mean": 9.36356258392334, "eval/rep_loss_std": 7.62927770614624, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.652607798576355, "eval/reward_loss_std": 2.6543333530426025, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994945526123047, "eval/reward_neg_acc": 0.898148238658905, "eval/reward_neg_loss": 0.14288604259490967, "eval/reward_pos_acc": 0.17307692766189575, "eval/reward_pos_loss": 10.180484771728516, "eval/reward_pred": 0.37657275795936584, "eval/reward_rate": 0.05078125, "replay/size": 13626.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.865566505829158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4213108982885604e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0120244026184, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8507730960845947, "timer/env.step_frac": 0.009502196126175382, "timer/env.step_avg": 0.004009526154830654, "timer/env.step_min": 0.0020999908447265625, "timer/env.step_max": 0.020234346389770508, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 188.28666019439697, "timer/replay._sample_frac": 0.6275970457161238, "timer/replay._sample_avg": 0.01655121837151872, "timer/replay._sample_min": 0.008588790893554688, "timer/replay._sample_max": 0.04242396354675293, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.82441639900208, "timer/agent.policy_frac": 0.6593882921623175, "timer/agent.policy_avg": 0.2782340596329143, "timer/agent.policy_min": 0.003627777099609375, "timer/agent.policy_max": 0.3126242160797119, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09834146499633789, "timer/dataset_train_frac": 0.00032779174498807055, "timer/dataset_train_avg": 0.0001383142967599689, "timer/dataset_train_min": 8.106231689453125e-05, "timer/dataset_train_max": 0.0007352828979492188, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.1607985496521, "timer/agent.train_frac": 0.32718954763599595, "timer/agent.train_avg": 0.13806019486589607, "timer/agent.train_min": 0.09994268417358398, "timer/agent.train_max": 0.4302794933319092, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5001420974731445, "timer/agent.report_frac": 0.0016670735063670317, "timer/agent.report_avg": 0.25007104873657227, "timer/agent.report_min": 0.10285377502441406, "timer/agent.report_max": 0.39728832244873047, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.389617919921875e-05, "timer/dataset_eval_frac": 2.1297872752416615e-07, "timer/dataset_eval_avg": 6.389617919921875e-05, "timer/dataset_eval_min": 6.389617919921875e-05, "timer/dataset_eval_max": 6.389617919921875e-05, "fps": 9.4792362016042}
+{"step": 56032, "episode/length": 539.0, "episode/score": 210.0, "episode/reward_rate": 0.03888888888888889}
+{"step": 57540, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.403049142020089, "train/action_min": 0.0, "train/action_std": 3.4239302022116527, "train/actor_opt_grad_norm": 0.015263172232412867, "train/actor_opt_grad_steps": 12935.0, "train/actor_opt_loss": 0.008147965504213062, "train/adv_mag": 1.4123319600309645, "train/adv_max": 1.412283706665039, "train/adv_mean": 0.013288082900856223, "train/adv_min": -0.611704152396747, "train/adv_std": 0.08477951644786767, "train/cont_avg": 0.9981724330357142, "train/cont_loss_mean": 0.00033424335826371786, "train/cont_loss_std": 0.008862861677711668, "train/cont_neg_acc": 0.9617486342054898, "train/cont_neg_loss": 0.12468337968180765, "train/cont_pos_acc": 0.9999999940395355, "train/cont_pos_loss": 0.00010802015065110026, "train/cont_pred": 0.9981885152203697, "train/cont_rate": 0.9981724330357142, "train/dyn_loss_mean": 3.029205060005188, "train/dyn_loss_std": 4.5862916128976, "train/extr_critic_critic_opt_grad_norm": 1.754547245161874, "train/extr_critic_critic_opt_grad_steps": 12935.0, "train/extr_critic_critic_opt_loss": 1.844825678212302, "train/extr_critic_mag": 158.6331778390067, "train/extr_critic_max": 158.6331778390067, "train/extr_critic_mean": 61.046451568603516, "train/extr_critic_min": 0.33061033487319946, "train/extr_critic_std": 39.38147490365164, "train/extr_return_normed_mag": 1.9680673020226616, "train/extr_return_normed_max": 1.9680673020226616, "train/extr_return_normed_mean": 0.4794596899832998, "train/extr_return_normed_min": -0.02227805633363979, "train/extr_return_normed_std": 0.3350231362240655, "train/extr_return_rate": 0.9612054024423872, "train/extr_return_raw_mag": 247.62586539132255, "train/extr_return_raw_max": 247.62586539132255, "train/extr_return_raw_mean": 62.69698257446289, "train/extr_return_raw_min": 0.18893384422574724, "train/extr_return_raw_std": 41.74129387991769, "train/extr_reward_mag": 124.86558515003749, "train/extr_reward_max": 124.86558515003749, "train/extr_reward_mean": 0.5828499178801264, "train/extr_reward_min": -1.1852809361049107e-06, "train/extr_reward_std": 3.863027560710907, "train/image_loss_mean": 3.8053474460329326, "train/image_loss_std": 2.7579802087375094, "train/model_loss_mean": 5.668142230170114, "train/model_loss_std": 4.882283353805542, "train/model_opt_grad_norm": 22.476756722586497, "train/model_opt_grad_steps": 12935.0, "train/model_opt_loss": 5.668142230170114, "train/policy_entropy_mag": 1.904034870011466, "train/policy_entropy_max": 1.904034870011466, "train/policy_entropy_mean": 0.7816539321626935, "train/policy_entropy_min": 0.07466720353279795, "train/policy_entropy_std": 0.41015490378652303, "train/policy_logprob_mag": 6.776649618148804, "train/policy_logprob_max": -0.009738356699900967, "train/policy_logprob_mean": -0.7821724661758968, "train/policy_logprob_min": -6.776649618148804, "train/policy_logprob_std": 1.0708262000765119, "train/policy_randomness_mag": 0.8665636079651969, "train/policy_randomness_max": 0.8665636079651969, "train/policy_randomness_mean": 0.35574603719370707, "train/policy_randomness_min": 0.033982508682778904, "train/policy_randomness_std": 0.1866695389151573, "train/post_ent_mag": 40.92412054879325, "train/post_ent_max": 40.92412054879325, "train/post_ent_mean": 30.420599092756, "train/post_ent_min": 21.68451919555664, "train/post_ent_std": 3.5312729699271066, "train/prior_ent_mag": 57.57123947143555, "train/prior_ent_max": 57.57123947143555, "train/prior_ent_mean": 33.587167494637626, "train/prior_ent_min": 23.90261843545096, "train/prior_ent_std": 5.6158371925354, "train/rep_loss_mean": 3.029205060005188, "train/rep_loss_std": 4.5862916128976, "train/reward_avg": 0.7779017857142857, "train/reward_loss_mean": 0.044937535801104135, "train/reward_loss_std": 0.2158719040453434, "train/reward_max_data": 135.42857142857142, "train/reward_max_pred": 111.6557992526463, "train/reward_neg_acc": 0.9777679332665035, "train/reward_neg_loss": 0.0054188000952957996, "train/reward_pos_acc": 0.9913826227188111, "train/reward_pos_loss": 0.6871415274483818, "train/reward_pred": 0.6858146739857537, "train/reward_rate": 0.05855189732142857, "train_stats/mean_log_entropy": 0.7768404483795166, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.20056312577799e-06, "report/cont_loss_std": 5.311784116202034e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.20056312577799e-06, "report/cont_pred": 0.9999958276748657, "report/cont_rate": 1.0, "report/dyn_loss_mean": 2.8237030506134033, "report/dyn_loss_std": 4.377630710601807, "report/image_loss_mean": 3.3561108112335205, "report/image_loss_std": 2.7798986434936523, "report/model_loss_mean": 5.070737838745117, "report/model_loss_std": 4.8338494300842285, "report/post_ent_mag": 40.766082763671875, "report/post_ent_max": 40.766082763671875, "report/post_ent_mean": 30.75428009033203, "report/post_ent_min": 21.227535247802734, "report/post_ent_std": 3.416489839553833, "report/prior_ent_mag": 58.66175079345703, "report/prior_ent_max": 58.66175079345703, "report/prior_ent_mean": 34.28379821777344, "report/prior_ent_min": 24.06010627746582, "report/prior_ent_std": 5.25471305847168, "report/rep_loss_mean": 2.8237030506134033, "report/rep_loss_std": 4.377630710601807, "report/reward_avg": 0.3125, "report/reward_loss_mean": 0.020400838926434517, "report/reward_loss_std": 0.10646916180849075, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.007579803466797, "report/reward_neg_acc": 0.9879031777381897, "report/reward_neg_loss": 0.002017261227592826, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5902917385101318, "report/reward_pred": 0.28918886184692383, "report/reward_rate": 0.03125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01976909674704075, "eval/cont_loss_std": 0.32359540462493896, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.12652063369751, "eval/cont_pos_acc": 0.9960861206054688, "eval/cont_pos_loss": 0.011732402257621288, "eval/cont_pred": 0.9951344132423401, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 10.818927764892578, "eval/dyn_loss_std": 7.334089756011963, "eval/image_loss_mean": 8.700933456420898, "eval/image_loss_std": 5.506909370422363, "eval/model_loss_mean": 16.057220458984375, "eval/model_loss_std": 9.807695388793945, "eval/post_ent_mag": 39.984107971191406, "eval/post_ent_max": 39.984107971191406, "eval/post_ent_mean": 28.672412872314453, "eval/post_ent_min": 20.64614486694336, "eval/post_ent_std": 3.2284698486328125, "eval/prior_ent_mag": 58.66175079345703, "eval/prior_ent_max": 58.66175079345703, "eval/prior_ent_mean": 32.93157958984375, "eval/prior_ent_min": 24.320560455322266, "eval/prior_ent_std": 4.950268268585205, "eval/rep_loss_mean": 10.818927764892578, "eval/rep_loss_std": 7.334089756011963, "eval/reward_avg": 0.693359375, "eval/reward_loss_mean": 0.8451628684997559, "eval/reward_loss_std": 3.0940675735473633, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007372856140137, "eval/reward_neg_acc": 0.9013640880584717, "eval/reward_neg_loss": 0.14674870669841766, "eval/reward_pos_acc": 0.15492957830429077, "eval/reward_pos_loss": 10.219650268554688, "eval/reward_pred": 0.37951675057411194, "eval/reward_rate": 0.0693359375, "replay/size": 14322.0, "replay/inserts": 696.0, "replay/samples": 11136.0, "replay/insert_wait_avg": 5.392507575024133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1767635400267853e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2367963790893555e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1728706359863, "timer/env.step_count": 696.0, "timer/env.step_total": 2.49985671043396, "timer/env.step_frac": 0.008328056779872977, "timer/env.step_avg": 0.00359174814717523, "timer/env.step_min": 0.0019168853759765625, "timer/env.step_max": 0.022006988525390625, "timer/replay._sample_count": 11136.0, "timer/replay._sample_total": 204.11095547676086, "timer/replay._sample_frac": 0.6799780241442344, "timer/replay._sample_avg": 0.018328929191519475, "timer/replay._sample_min": 0.0007374286651611328, "timer/replay._sample_max": 0.08001136779785156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15373468399047852, "timer/agent.save_frac": 0.0005121538254431711, "timer/agent.save_avg": 0.15373468399047852, "timer/agent.save_min": 0.15373468399047852, "timer/agent.save_max": 0.15373468399047852, "timer/agent.policy_count": 696.0, "timer/agent.policy_total": 197.40939450263977, "timer/agent.policy_frac": 0.6576523524074039, "timer/agent.policy_avg": 0.28363418750379277, "timer/agent.policy_min": 0.0029973983764648438, "timer/agent.policy_max": 0.3654932975769043, "timer/dataset_train_count": 696.0, "timer/dataset_train_total": 0.09824109077453613, "timer/dataset_train_frac": 0.0003272817112565484, "timer/dataset_train_avg": 0.00014115099249214962, "timer/dataset_train_min": 8.344650268554688e-05, "timer/dataset_train_max": 0.003119230270385742, "timer/agent.train_count": 696.0, "timer/agent.train_total": 98.94927597045898, "timer/agent.train_frac": 0.32964096908828516, "timer/agent.train_avg": 0.142168499957556, "timer/agent.train_min": 0.10196399688720703, "timer/agent.train_max": 0.4479701519012451, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5230016708374023, "timer/agent.report_frac": 0.0017423349076460546, "timer/agent.report_avg": 0.26150083541870117, "timer/agent.report_min": 0.11211848258972168, "timer/agent.report_max": 0.41088318824768066, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.225440979003906e-05, "timer/dataset_eval_frac": 2.7402346393184665e-07, "timer/dataset_eval_avg": 8.225440979003906e-05, "timer/dataset_eval_min": 8.225440979003906e-05, "timer/dataset_eval_max": 8.225440979003906e-05, "fps": 9.274424530473803}
+{"step": 58048, "episode/length": 503.0, "episode/score": 340.0, "episode/reward_rate": 0.06746031746031746}
+{"step": 60316, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.277264138926631, "train/action_min": 0.0, "train/action_std": 3.189555793568708, "train/actor_opt_grad_norm": 0.017243031776793625, "train/actor_opt_grad_steps": 13630.0, "train/actor_opt_loss": 0.009109500088464078, "train/adv_mag": 1.5445548546487007, "train/adv_max": 1.5436757301938706, "train/adv_mean": 0.013628125124724002, "train/adv_min": -0.6153577833935835, "train/adv_std": 0.09407576200538788, "train/cont_avg": 0.9981884057971014, "train/cont_loss_mean": 0.0005669433781545722, "train/cont_loss_std": 0.015779091493450192, "train/cont_neg_acc": 0.9124293792045722, "train/cont_neg_loss": 0.2823760310378837, "train/cont_pos_acc": 0.9999573965003525, "train/cont_pos_loss": 0.00013699614017626948, "train/cont_pred": 0.9982534422390703, "train/cont_rate": 0.9981884057971014, "train/dyn_loss_mean": 3.043354545814404, "train/dyn_loss_std": 4.608816430188607, "train/extr_critic_critic_opt_grad_norm": 1.8230298204698425, "train/extr_critic_critic_opt_grad_steps": 13630.0, "train/extr_critic_critic_opt_loss": 1.8439956385156382, "train/extr_critic_mag": 167.8614457724751, "train/extr_critic_max": 167.8614457724751, "train/extr_critic_mean": 64.47907367651014, "train/extr_critic_min": 0.19900900557421256, "train/extr_critic_std": 42.23878807952438, "train/extr_return_normed_mag": 2.152404947557311, "train/extr_return_normed_max": 2.152404947557311, "train/extr_return_normed_mean": 0.47737714216329047, "train/extr_return_normed_min": -0.021151472085519978, "train/extr_return_normed_std": 0.34228259886520496, "train/extr_return_rate": 0.9590240518252054, "train/extr_return_raw_mag": 288.6342275868291, "train/extr_return_raw_max": 288.6342275868291, "train/extr_return_raw_mean": 66.28671165134595, "train/extr_return_raw_min": 0.07441183730312016, "train/extr_return_raw_std": 45.47540465645168, "train/extr_reward_mag": 156.26327082039654, "train/extr_reward_max": 156.26327082039654, "train/extr_reward_mean": 0.6453130558349084, "train/extr_reward_min": -4.319177157637002e-07, "train/extr_reward_std": 4.855540201283883, "train/image_loss_mean": 3.6054913893989893, "train/image_loss_std": 2.661090297975402, "train/model_loss_mean": 5.4797927745874375, "train/model_loss_std": 4.8154839709185175, "train/model_opt_grad_norm": 23.207452276478644, "train/model_opt_grad_steps": 13630.0, "train/model_opt_loss": 5.4797927745874375, "train/policy_entropy_mag": 2.011933229971623, "train/policy_entropy_max": 2.011933229971623, "train/policy_entropy_mean": 0.9245620914127516, "train/policy_entropy_min": 0.07927408188149548, "train/policy_entropy_std": 0.44546747380408686, "train/policy_logprob_mag": 6.764348603677059, "train/policy_logprob_max": -0.01045963618958342, "train/policy_logprob_mean": -0.9230068395103234, "train/policy_logprob_min": -6.764348603677059, "train/policy_logprob_std": 1.1209509113560552, "train/policy_randomness_mag": 0.9156702653221462, "train/policy_randomness_max": 0.9156702653221462, "train/policy_randomness_mean": 0.420786340167557, "train/policy_randomness_min": 0.03607918932170108, "train/policy_randomness_std": 0.20274098217487335, "train/post_ent_mag": 41.54288007210994, "train/post_ent_max": 41.54288007210994, "train/post_ent_mean": 31.00064285941746, "train/post_ent_min": 21.845013687576074, "train/post_ent_std": 3.5929512735726177, "train/prior_ent_mag": 58.838584236476734, "train/prior_ent_max": 58.838584236476734, "train/prior_ent_mean": 34.18224395530811, "train/prior_ent_min": 24.371432622273762, "train/prior_ent_std": 5.70996928560561, "train/rep_loss_mean": 3.043354545814404, "train/rep_loss_std": 4.608816430188607, "train/reward_avg": 0.8430989583333334, "train/reward_loss_mean": 0.047721758295876396, "train/reward_loss_std": 0.22387611606846686, "train/reward_max_data": 170.43478260869566, "train/reward_max_pred": 139.8079417684804, "train/reward_neg_acc": 0.9729213360427083, "train/reward_neg_loss": 0.00632009801009427, "train/reward_pos_acc": 0.992846699728482, "train/reward_pos_loss": 0.701904100784357, "train/reward_pred": 0.7354463796684707, "train/reward_rate": 0.059994904891304345, "train_stats/mean_log_entropy": 0.8462913036346436, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.6510365791618824e-05, "report/cont_loss_std": 0.0009765821741893888, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0077156187035143375, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.150232805637643e-05, "report/cont_pred": 0.9980307817459106, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.106975555419922, "report/dyn_loss_std": 4.591263771057129, "report/image_loss_mean": 3.7970428466796875, "report/image_loss_std": 2.841269016265869, "report/model_loss_mean": 5.7138776779174805, "report/model_loss_std": 4.92229700088501, "report/post_ent_mag": 43.78483200073242, "report/post_ent_max": 43.78483200073242, "report/post_ent_mean": 31.985820770263672, "report/post_ent_min": 23.182872772216797, "report/post_ent_std": 4.204237461090088, "report/prior_ent_mag": 59.470035552978516, "report/prior_ent_max": 59.470035552978516, "report/prior_ent_mean": 35.155670166015625, "report/prior_ent_min": 24.8262996673584, "report/prior_ent_std": 6.0595316886901855, "report/rep_loss_mean": 3.106975555419922, "report/rep_loss_std": 4.591263771057129, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.05260308086872101, "report/reward_loss_std": 0.17153765261173248, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.00678253173828, "report/reward_neg_acc": 0.9640972018241882, "report/reward_neg_loss": 0.009916559793055058, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5775918960571289, "report/reward_pred": 0.8342840671539307, "report/reward_rate": 0.0751953125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.013285832479596138, "eval/cont_loss_std": 0.15133428573608398, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 1.3113696575164795, "eval/cont_pos_acc": 0.9941233992576599, "eval/cont_pos_loss": 0.009471678175032139, "eval/cont_pred": 0.9936962127685547, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.126062393188477, "eval/dyn_loss_std": 7.529378414154053, "eval/image_loss_mean": 7.030791282653809, "eval/image_loss_std": 6.126964092254639, "eval/model_loss_mean": 12.983963012695312, "eval/model_loss_std": 10.771929740905762, "eval/post_ent_mag": 39.85009765625, "eval/post_ent_max": 39.85009765625, "eval/post_ent_mean": 29.07480239868164, "eval/post_ent_min": 21.608842849731445, "eval/post_ent_std": 3.5603861808776855, "eval/prior_ent_mag": 59.470035552978516, "eval/prior_ent_max": 59.470035552978516, "eval/prior_ent_mean": 32.15589141845703, "eval/prior_ent_min": 24.35654067993164, "eval/prior_ent_std": 5.476975917816162, "eval/rep_loss_mean": 9.126062393188477, "eval/rep_loss_std": 7.529378414154053, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.4642474055290222, "eval/reward_loss_std": 2.513558864593506, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00300121307373, "eval/reward_neg_acc": 0.9654472470283508, "eval/reward_neg_loss": 0.05415528267621994, "eval/reward_pos_acc": 0.25, "eval/reward_pos_loss": 10.552515029907227, "eval/reward_pred": 0.16123417019844055, "eval/reward_rate": 0.0390625, "replay/size": 15016.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 6.361378716460566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3399450510997937e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9669532775878906e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.32293462753296, "timer/env.step_count": 694.0, "timer/env.step_total": 2.472343921661377, "timer/env.step_frac": 0.008232284772815075, "timer/env.step_avg": 0.0035624552185322435, "timer/env.step_min": 0.0019805431365966797, "timer/env.step_max": 0.02196788787841797, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 209.21480298042297, "timer/replay._sample_frac": 0.6966327871026424, "timer/replay._sample_avg": 0.018841390758323393, "timer/replay._sample_min": 0.0005042552947998047, "timer/replay._sample_max": 0.05032634735107422, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.27279996871948, "timer/agent.policy_frac": 0.6601986631977399, "timer/agent.policy_avg": 0.2856956771883566, "timer/agent.policy_min": 0.0029687881469726562, "timer/agent.policy_max": 0.33411264419555664, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.09354114532470703, "timer/dataset_train_frac": 0.0003114685378281842, "timer/dataset_train_avg": 0.0001347855119952551, "timer/dataset_train_min": 8.249282836914062e-05, "timer/dataset_train_max": 0.0011982917785644531, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.23474287986755, "timer/agent.train_frac": 0.3270970397305834, "timer/agent.train_avg": 0.14154862086436246, "timer/agent.train_min": 0.10216403007507324, "timer/agent.train_max": 0.44734811782836914, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5136528015136719, "timer/agent.report_frac": 0.0017103349171474875, "timer/agent.report_avg": 0.25682640075683594, "timer/agent.report_min": 0.10309529304504395, "timer/agent.report_max": 0.41055750846862793, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.511543273925781e-05, "timer/dataset_eval_frac": 2.8341302952709833e-07, "timer/dataset_eval_avg": 8.511543273925781e-05, "timer/dataset_eval_min": 8.511543273925781e-05, "timer/dataset_eval_max": 8.511543273925781e-05, "fps": 9.242600551894975}
+{"step": 61280, "episode/length": 807.0, "episode/score": 1030.0, "episode/reward_rate": 0.0891089108910891}
+{"step": 63104, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.229636056082589, "train/action_min": 0.0, "train/action_std": 3.071810497556414, "train/actor_opt_grad_norm": 0.014776464445250374, "train/actor_opt_grad_steps": 14325.0, "train/actor_opt_loss": 0.007778581690737545, "train/adv_mag": 1.2565474161079953, "train/adv_max": 1.2532650581427982, "train/adv_mean": 0.010019291774369776, "train/adv_min": -0.5716503373214177, "train/adv_std": 0.07795622896935259, "train/cont_avg": 0.9983816964285714, "train/cont_loss_mean": 0.00052579860210845, "train/cont_loss_std": 0.013961534485159584, "train/cont_neg_acc": 0.9244047626852989, "train/cont_neg_loss": 0.17697132104922275, "train/cont_pos_acc": 0.9999300113746098, "train/cont_pos_loss": 0.0002469375484671283, "train/cont_pred": 0.9983797430992126, "train/cont_rate": 0.9983816964285714, "train/dyn_loss_mean": 3.0608139855521066, "train/dyn_loss_std": 4.725257328578404, "train/extr_critic_critic_opt_grad_norm": 1.8302932296480452, "train/extr_critic_critic_opt_grad_steps": 14325.0, "train/extr_critic_critic_opt_loss": 1.773433143751962, "train/extr_critic_mag": 173.9258791242327, "train/extr_critic_max": 173.9258791242327, "train/extr_critic_mean": 67.27329019818987, "train/extr_critic_min": 0.14563160112925938, "train/extr_critic_std": 43.53191212245396, "train/extr_return_normed_mag": 1.8940954753330776, "train/extr_return_normed_max": 1.8940954753330776, "train/extr_return_normed_mean": 0.47863949026380265, "train/extr_return_normed_min": -0.0166680896521679, "train/extr_return_normed_std": 0.33102956882544926, "train/extr_return_rate": 0.9511737832001277, "train/extr_return_raw_mag": 264.9683885846819, "train/extr_return_raw_max": 264.9683885846819, "train/extr_return_raw_mean": 68.66368299211774, "train/extr_return_raw_min": 0.1037779124719756, "train/extr_return_raw_std": 45.83219462803432, "train/extr_reward_mag": 126.50901772635324, "train/extr_reward_max": 126.50901772635324, "train/extr_reward_mean": 0.55550075003079, "train/extr_reward_min": -1.3453619820731027e-07, "train/extr_reward_std": 3.877556644167219, "train/image_loss_mean": 3.448707113947187, "train/image_loss_std": 2.6143203377723694, "train/model_loss_mean": 5.329520698956081, "train/model_loss_std": 4.846953313691276, "train/model_opt_grad_norm": 22.24651209967477, "train/model_opt_grad_steps": 14325.0, "train/model_opt_loss": 5.329520698956081, "train/policy_entropy_mag": 2.07816230910165, "train/policy_entropy_max": 2.07816230910165, "train/policy_entropy_mean": 1.0295103209359304, "train/policy_entropy_min": 0.08445929565599987, "train/policy_entropy_std": 0.4500598409346172, "train/policy_logprob_mag": 6.76078976222447, "train/policy_logprob_max": -0.011286914135728564, "train/policy_logprob_mean": -1.0300621969359263, "train/policy_logprob_min": -6.76078976222447, "train/policy_logprob_std": 1.1163793853351047, "train/policy_randomness_mag": 0.9458124160766601, "train/policy_randomness_max": 0.9458124160766601, "train/policy_randomness_mean": 0.4685503376381738, "train/policy_randomness_min": 0.03843908171568598, "train/policy_randomness_std": 0.20483105799981527, "train/post_ent_mag": 42.04781303405762, "train/post_ent_max": 42.04781303405762, "train/post_ent_mean": 31.30412676674979, "train/post_ent_min": 21.7885922568185, "train/post_ent_std": 3.6635756049837385, "train/prior_ent_mag": 59.65214391435896, "train/prior_ent_max": 59.65214391435896, "train/prior_ent_mean": 34.42345548357282, "train/prior_ent_min": 24.158647973196846, "train/prior_ent_std": 5.832408612115042, "train/rep_loss_mean": 3.0608139855521066, "train/rep_loss_std": 4.725257328578404, "train/reward_avg": 0.7082868303571429, "train/reward_loss_mean": 0.04379942401179245, "train/reward_loss_std": 0.2131679396544184, "train/reward_max_data": 124.57142857142857, "train/reward_max_pred": 93.46412109647478, "train/reward_neg_acc": 0.977142094714301, "train/reward_neg_loss": 0.005279691419231573, "train/reward_pos_acc": 0.991245253596987, "train/reward_pos_loss": 0.6999253443309239, "train/reward_pred": 0.6162966102361679, "train/reward_rate": 0.05528738839285714, "train_stats/mean_log_entropy": 1.021445393562317, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00029216488474048674, "report/cont_loss_std": 0.006526762153953314, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009651298634707928, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00026466496638022363, "report/cont_pred": 0.9968540668487549, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.0222768783569336, "report/dyn_loss_std": 4.599100589752197, "report/image_loss_mean": 2.741041421890259, "report/image_loss_std": 2.4696695804595947, "report/model_loss_mean": 4.594324111938477, "report/model_loss_std": 4.64421272277832, "report/post_ent_mag": 44.27943420410156, "report/post_ent_max": 44.27943420410156, "report/post_ent_mean": 31.61479377746582, "report/post_ent_min": 22.3890438079834, "report/post_ent_std": 4.418715953826904, "report/prior_ent_mag": 59.395172119140625, "report/prior_ent_max": 59.395172119140625, "report/prior_ent_mean": 34.64472961425781, "report/prior_ent_min": 25.122901916503906, "report/prior_ent_std": 6.3088698387146, "report/rep_loss_mean": 3.0222768783569336, "report/rep_loss_std": 4.599100589752197, "report/reward_avg": 0.712890625, "report/reward_loss_mean": 0.039624545723199844, "report/reward_loss_std": 0.2167644053697586, "report/reward_max_data": 200.0, "report/reward_max_pred": 14.817184448242188, "report/reward_neg_acc": 0.9845361113548279, "report/reward_neg_loss": 0.002796624321490526, "report/reward_pos_acc": 0.9629629850387573, "report/reward_pos_loss": 0.701163113117218, "report/reward_pred": 0.49147921800613403, "report/reward_rate": 0.052734375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.009668543003499508, "eval/cont_loss_std": 0.3091941475868225, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.899049758911133, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.5037812772789039e-06, "eval/cont_pred": 0.9999985098838806, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.724838256835938, "eval/dyn_loss_std": 8.160199165344238, "eval/image_loss_mean": 7.947362899780273, "eval/image_loss_std": 5.25075101852417, "eval/model_loss_mean": 14.887730598449707, "eval/model_loss_std": 9.76760482788086, "eval/post_ent_mag": 41.73872375488281, "eval/post_ent_max": 41.73872375488281, "eval/post_ent_mean": 29.660884857177734, "eval/post_ent_min": 20.866302490234375, "eval/post_ent_std": 3.3611741065979004, "eval/prior_ent_mag": 59.395172119140625, "eval/prior_ent_max": 59.395172119140625, "eval/prior_ent_mean": 33.1611328125, "eval/prior_ent_min": 24.81509780883789, "eval/prior_ent_std": 5.182089805603027, "eval/rep_loss_mean": 10.724838256835938, "eval/rep_loss_std": 8.160199165344238, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.49579647183418274, "eval/reward_loss_std": 2.3814380168914795, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.964341163635254, "eval/reward_neg_acc": 0.9163264632225037, "eval/reward_neg_loss": 0.0856764167547226, "eval/reward_pos_acc": 0.22727273404598236, "eval/reward_pos_loss": 9.630288124084473, "eval/reward_pred": 0.2740500569343567, "eval/reward_rate": 0.04296875, "replay/size": 15713.0, "replay/inserts": 697.0, "replay/samples": 11152.0, "replay/insert_wait_avg": 4.857308211251345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2401101236877003e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.041459083557129e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16993403434753, "timer/env.step_count": 697.0, "timer/env.step_total": 2.532881259918213, "timer/env.step_frac": 0.00843815776575539, "timer/env.step_avg": 0.0036339759826660156, "timer/env.step_min": 0.0015578269958496094, "timer/env.step_max": 0.021027803421020508, "timer/replay._sample_count": 11152.0, "timer/replay._sample_total": 195.0263910293579, "timer/replay._sample_frac": 0.6497199383301381, "timer/replay._sample_avg": 0.01748801928168561, "timer/replay._sample_min": 0.00047397613525390625, "timer/replay._sample_max": 0.05075669288635254, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 697.0, "timer/agent.policy_total": 198.4943549633026, "timer/agent.policy_frac": 0.6612732737602878, "timer/agent.policy_avg": 0.2847838665183682, "timer/agent.policy_min": 0.002796649932861328, "timer/agent.policy_max": 0.3332839012145996, "timer/dataset_train_count": 697.0, "timer/dataset_train_total": 0.09107351303100586, "timer/dataset_train_frac": 0.00030340651312727606, "timer/dataset_train_avg": 0.00013066501152224656, "timer/dataset_train_min": 7.724761962890625e-05, "timer/dataset_train_max": 0.002613067626953125, "timer/agent.train_count": 697.0, "timer/agent.train_total": 97.85884547233582, "timer/agent.train_frac": 0.3260114834190493, "timer/agent.train_avg": 0.14040006524008009, "timer/agent.train_min": 0.09963345527648926, "timer/agent.train_max": 0.45276331901550293, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4964327812194824, "timer/agent.report_frac": 0.0016538391255490536, "timer/agent.report_avg": 0.2482163906097412, "timer/agent.report_min": 0.09966897964477539, "timer/agent.report_max": 0.39676380157470703, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.271766662597656e-05, "timer/dataset_eval_frac": 2.422549975230221e-07, "timer/dataset_eval_avg": 7.271766662597656e-05, "timer/dataset_eval_min": 7.271766662597656e-05, "timer/dataset_eval_max": 7.271766662597656e-05, "fps": 9.287764333767274}
+{"step": 63888, "episode/length": 651.0, "episode/score": 480.0, "episode/reward_rate": 0.06748466257668712}
+{"step": 65948, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.487641670334507, "train/action_min": 0.0, "train/action_std": 2.9283771179091764, "train/actor_opt_grad_norm": 0.014543040498146708, "train/actor_opt_grad_steps": 15030.0, "train/actor_opt_loss": 0.008938463084017662, "train/adv_mag": 1.2014990990430536, "train/adv_max": 1.1997913134769655, "train/adv_mean": 0.010646943835421502, "train/adv_min": -0.5658885500800441, "train/adv_std": 0.07302299792497931, "train/cont_avg": 0.9985145246478874, "train/cont_loss_mean": 0.0006229088077710733, "train/cont_loss_std": 0.01714045473880387, "train/cont_neg_acc": 0.9583333340184442, "train/cont_neg_loss": 0.19438097129487092, "train/cont_pos_acc": 0.999903530302182, "train/cont_pos_loss": 0.0003251659248693178, "train/cont_pred": 0.9984479143585957, "train/cont_rate": 0.9985145246478874, "train/dyn_loss_mean": 3.2359553558725707, "train/dyn_loss_std": 4.782039783370327, "train/extr_critic_critic_opt_grad_norm": 1.757057144608296, "train/extr_critic_critic_opt_grad_steps": 15030.0, "train/extr_critic_critic_opt_loss": 1.741282493295804, "train/extr_critic_mag": 175.6757215043189, "train/extr_critic_max": 175.6757215043189, "train/extr_critic_mean": 69.54645199842857, "train/extr_critic_min": 0.15169848186869017, "train/extr_critic_std": 44.2719057109994, "train/extr_return_normed_mag": 1.844078755714524, "train/extr_return_normed_max": 1.844078755714524, "train/extr_return_normed_mean": 0.4817386269569397, "train/extr_return_normed_min": -0.017272283191936955, "train/extr_return_normed_std": 0.3269535332498416, "train/extr_return_rate": 0.9541456220855176, "train/extr_return_raw_mag": 264.7988377960635, "train/extr_return_raw_max": 264.7988377960635, "train/extr_return_raw_mean": 71.06129310500454, "train/extr_return_raw_min": 0.09305766781031245, "train/extr_return_raw_std": 46.48050684324453, "train/extr_reward_mag": 119.96755613407619, "train/extr_reward_max": 119.96755613407619, "train/extr_reward_mean": 0.6091704305628656, "train/extr_reward_min": -1.6790040781800176e-09, "train/extr_reward_std": 3.74310019486387, "train/image_loss_mean": 3.5181634829077923, "train/image_loss_std": 2.7262897441084957, "train/model_loss_mean": 5.512690671732728, "train/model_loss_std": 5.014500584400875, "train/model_opt_grad_norm": 22.482661180093256, "train/model_opt_grad_steps": 15030.0, "train/model_opt_loss": 5.512690671732728, "train/policy_entropy_mag": 2.0896088069593404, "train/policy_entropy_max": 2.0896088069593404, "train/policy_entropy_mean": 1.0691799252805576, "train/policy_entropy_min": 0.085697665390834, "train/policy_entropy_std": 0.435768551809687, "train/policy_logprob_mag": 6.749136884447554, "train/policy_logprob_max": -0.011493217029516965, "train/policy_logprob_mean": -1.0705418729446303, "train/policy_logprob_min": -6.749136884447554, "train/policy_logprob_std": 1.103646048357789, "train/policy_randomness_mag": 0.9510219474913368, "train/policy_randomness_max": 0.9510219474913368, "train/policy_randomness_mean": 0.4866047514156556, "train/policy_randomness_min": 0.0390026878932832, "train/policy_randomness_std": 0.1983268120339219, "train/post_ent_mag": 43.19360802878796, "train/post_ent_max": 43.19360802878796, "train/post_ent_mean": 31.98675886342223, "train/post_ent_min": 22.60633772191867, "train/post_ent_std": 3.797716966817077, "train/prior_ent_mag": 60.50326274818098, "train/prior_ent_max": 60.50326274818098, "train/prior_ent_mean": 35.28688597343337, "train/prior_ent_min": 24.753668207517812, "train/prior_ent_std": 5.966335484679316, "train/rep_loss_mean": 3.2359553558725707, "train/rep_loss_std": 4.782039783370327, "train/reward_avg": 0.7989931778169014, "train/reward_loss_mean": 0.052331114450181036, "train/reward_loss_std": 0.24693702528594244, "train/reward_max_data": 121.83098591549296, "train/reward_max_pred": 94.62857883077272, "train/reward_neg_acc": 0.9736675989459938, "train/reward_neg_loss": 0.0070977311574814605, "train/reward_pos_acc": 0.989269860193763, "train/reward_pos_loss": 0.7225855001261536, "train/reward_pred": 0.6983725428581238, "train/reward_rate": 0.06399922975352113, "train_stats/mean_log_entropy": 1.1530476808547974, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00016933468577917665, "report/cont_loss_std": 0.005255836993455887, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.16825859248638153, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.024567599321017e-06, "report/cont_pred": 0.9991697072982788, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.2683634757995605, "report/dyn_loss_std": 5.031152248382568, "report/image_loss_mean": 3.586817741394043, "report/image_loss_std": 3.1371448040008545, "report/model_loss_mean": 5.583518981933594, "report/model_loss_std": 5.532890319824219, "report/post_ent_mag": 43.79579162597656, "report/post_ent_max": 43.79579162597656, "report/post_ent_mean": 32.441375732421875, "report/post_ent_min": 23.841171264648438, "report/post_ent_std": 4.560309410095215, "report/prior_ent_mag": 61.287269592285156, "report/prior_ent_max": 61.287269592285156, "report/prior_ent_mean": 35.75160217285156, "report/prior_ent_min": 24.36309242248535, "report/prior_ent_std": 7.041332244873047, "report/rep_loss_mean": 3.2683634757995605, "report/rep_loss_std": 5.031152248382568, "report/reward_avg": 0.458984375, "report/reward_loss_mean": 0.03551395982503891, "report/reward_loss_std": 0.2539069652557373, "report/reward_max_data": 50.0, "report/reward_max_pred": 46.27005386352539, "report/reward_neg_acc": 0.9796125888824463, "report/reward_neg_loss": 0.0024893407244235277, "report/reward_pos_acc": 0.9767441749572754, "report/reward_pos_loss": 0.7889360189437866, "report/reward_pred": 0.41162288188934326, "report/reward_rate": 0.0419921875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013728423975408077, "eval/cont_loss_std": 0.4390873312950134, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 14.057660102844238, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.409055070984323e-07, "eval/cont_pred": 0.9999997615814209, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.600767135620117, "eval/dyn_loss_std": 8.723605155944824, "eval/image_loss_mean": 8.253137588500977, "eval/image_loss_std": 5.089776039123535, "eval/model_loss_mean": 15.856464385986328, "eval/model_loss_std": 10.209553718566895, "eval/post_ent_mag": 44.547542572021484, "eval/post_ent_max": 44.547542572021484, "eval/post_ent_mean": 30.945188522338867, "eval/post_ent_min": 20.74947166442871, "eval/post_ent_std": 3.609692335128784, "eval/prior_ent_mag": 61.287269592285156, "eval/prior_ent_max": 61.287269592285156, "eval/prior_ent_mean": 35.39760971069336, "eval/prior_ent_min": 24.155847549438477, "eval/prior_ent_std": 5.687463760375977, "eval/rep_loss_mean": 11.600767135620117, "eval/rep_loss_std": 8.723605155944824, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.6291376352310181, "eval/reward_loss_std": 2.701037883758545, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001757621765137, "eval/reward_neg_acc": 0.9069286584854126, "eval/reward_neg_loss": 0.10394531488418579, "eval/reward_pos_acc": 0.21052631735801697, "eval/reward_pos_loss": 9.538978576660156, "eval/reward_pred": 0.2685855031013489, "eval/reward_rate": 0.0556640625, "replay/size": 16424.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.808560657098826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4161552222636848e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.475214958190918e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1431438922882, "timer/env.step_count": 711.0, "timer/env.step_total": 2.874234437942505, "timer/env.step_frac": 0.009576212205513433, "timer/env.step_avg": 0.004042523822703945, "timer/env.step_min": 0.002610445022583008, "timer/env.step_max": 0.01992487907409668, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 188.51315212249756, "timer/replay._sample_frac": 0.6280774888869323, "timer/replay._sample_avg": 0.01657112799951631, "timer/replay._sample_min": 0.008953094482421875, "timer/replay._sample_max": 0.04212069511413574, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.12565875053405762, "timer/agent.save_frac": 0.00041866273840042315, "timer/agent.save_avg": 0.12565875053405762, "timer/agent.save_min": 0.12565875053405762, "timer/agent.save_max": 0.12565875053405762, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.95668125152588, "timer/agent.policy_frac": 0.6595409066634093, "timer/agent.policy_avg": 0.27842008614841895, "timer/agent.policy_min": 0.003599882125854492, "timer/agent.policy_max": 0.37595272064208984, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09838485717773438, "timer/dataset_train_frac": 0.000327793118649552, "timer/dataset_train_avg": 0.00013837532655096256, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0005350112915039062, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.14528679847717, "timer/agent.train_frac": 0.3269949315707121, "timer/agent.train_avg": 0.13803837805692992, "timer/agent.train_min": 0.10031867027282715, "timer/agent.train_max": 0.42971110343933105, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49624061584472656, "timer/agent.report_frac": 0.0016533464979723524, "timer/agent.report_avg": 0.24812030792236328, "timer/agent.report_min": 0.09969639778137207, "timer/agent.report_max": 0.3965442180633545, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012636184692382812, "timer/dataset_eval_frac": 4.210052753001593e-07, "timer/dataset_eval_avg": 0.00012636184692382812, "timer/dataset_eval_min": 0.00012636184692382812, "timer/dataset_eval_max": 0.00012636184692382812, "fps": 9.475126762818332}
+{"step": 67100, "episode/length": 802.0, "episode/score": 600.0, "episode/reward_rate": 0.06973848069738481}
+{"step": 68740, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.4975202287946425, "train/action_min": 0.0, "train/action_std": 3.0536154099873136, "train/actor_opt_grad_norm": 0.015811268439782516, "train/actor_opt_grad_steps": 15735.0, "train/actor_opt_loss": 0.007999824121777367, "train/adv_mag": 1.2930736473628452, "train/adv_max": 1.2832805505820684, "train/adv_mean": 0.010618210585588324, "train/adv_min": -0.6250828662088939, "train/adv_std": 0.07895530425012112, "train/cont_avg": 0.9983537946428571, "train/cont_loss_mean": 0.0003722643824744409, "train/cont_loss_std": 0.009741166352595039, "train/cont_neg_acc": 0.9745762721966889, "train/cont_neg_loss": 0.09852607923429617, "train/cont_pos_acc": 0.9999580647264208, "train/cont_pos_loss": 0.00018525983094548338, "train/cont_pred": 0.998317859002522, "train/cont_rate": 0.9983537946428571, "train/dyn_loss_mean": 3.1607298987252372, "train/dyn_loss_std": 4.869586672101702, "train/extr_critic_critic_opt_grad_norm": 1.6488949963024684, "train/extr_critic_critic_opt_grad_steps": 15735.0, "train/extr_critic_critic_opt_loss": 1.713407736165183, "train/extr_critic_mag": 191.18846588134767, "train/extr_critic_max": 191.18846588134767, "train/extr_critic_mean": 71.21635224478585, "train/extr_critic_min": 0.14110085964202881, "train/extr_critic_std": 46.741524069649834, "train/extr_return_normed_mag": 1.9835139308656966, "train/extr_return_normed_max": 1.9835139308656966, "train/extr_return_normed_mean": 0.47656815903527394, "train/extr_return_normed_min": -0.020709350631971445, "train/extr_return_normed_std": 0.33869991685662953, "train/extr_return_rate": 0.9530422747135162, "train/extr_return_raw_mag": 293.0727576119559, "train/extr_return_raw_max": 293.0727576119559, "train/extr_return_raw_mean": 72.76773011343819, "train/extr_return_raw_min": 0.07015140503644943, "train/extr_return_raw_std": 49.50760438101632, "train/extr_reward_mag": 145.04173953192574, "train/extr_reward_max": 145.04173953192574, "train/extr_reward_mean": 0.6220848385776793, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.551700620991843, "train/image_loss_mean": 3.3712451151439122, "train/image_loss_std": 2.5942517382758004, "train/model_loss_mean": 5.315328707013811, "train/model_loss_std": 4.9417482852935795, "train/model_opt_grad_norm": 21.22033327647618, "train/model_opt_grad_steps": 15735.0, "train/model_opt_loss": 5.315328707013811, "train/policy_entropy_mag": 2.0748710921832494, "train/policy_entropy_max": 2.0748710921832494, "train/policy_entropy_mean": 1.0369836219719477, "train/policy_entropy_min": 0.08263047784566879, "train/policy_entropy_std": 0.4502165266445705, "train/policy_logprob_mag": 6.763790055683681, "train/policy_logprob_max": -0.010993745523904051, "train/policy_logprob_mean": -1.034806558915547, "train/policy_logprob_min": -6.763790055683681, "train/policy_logprob_std": 1.0999930228505816, "train/policy_randomness_mag": 0.9443145283630916, "train/policy_randomness_max": 0.9443145283630916, "train/policy_randomness_mean": 0.4719515834535871, "train/policy_randomness_min": 0.0376067507479872, "train/policy_randomness_std": 0.20490237112556184, "train/post_ent_mag": 43.96697752816336, "train/post_ent_max": 43.96697752816336, "train/post_ent_mean": 32.24323656899588, "train/post_ent_min": 22.444614028930665, "train/post_ent_std": 3.85774838243212, "train/prior_ent_mag": 61.49875373840332, "train/prior_ent_max": 61.49875373840332, "train/prior_ent_mean": 35.474530247279574, "train/prior_ent_min": 24.882278387887137, "train/prior_ent_std": 6.098673915863037, "train/rep_loss_mean": 3.1607298987252372, "train/rep_loss_std": 4.869586672101702, "train/reward_avg": 0.8133370535714286, "train/reward_loss_mean": 0.04727342817932367, "train/reward_loss_std": 0.22465048474924906, "train/reward_max_data": 149.14285714285714, "train/reward_max_pred": 127.29646526064191, "train/reward_neg_acc": 0.9764455735683442, "train/reward_neg_loss": 0.005748771999164352, "train/reward_pos_acc": 0.9918407116617475, "train/reward_pos_loss": 0.6878971372331891, "train/reward_pred": 0.720228967496327, "train/reward_rate": 0.06063058035714286, "train_stats/mean_log_entropy": 0.862862765789032, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.541476376587525e-05, "report/cont_loss_std": 0.0003146248054690659, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.541476376587525e-05, "report/cont_pred": 0.999984622001648, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.0067334175109863, "report/dyn_loss_std": 4.75685977935791, "report/image_loss_mean": 3.3904776573181152, "report/image_loss_std": 1.972036600112915, "report/model_loss_mean": 5.229405403137207, "report/model_loss_std": 4.3668012619018555, "report/post_ent_mag": 43.905601501464844, "report/post_ent_max": 43.905601501464844, "report/post_ent_mean": 33.02294921875, "report/post_ent_min": 22.15865135192871, "report/post_ent_std": 3.2488698959350586, "report/prior_ent_mag": 61.74180603027344, "report/prior_ent_max": 61.74180603027344, "report/prior_ent_mean": 36.18894577026367, "report/prior_ent_min": 24.559017181396484, "report/prior_ent_std": 5.5170674324035645, "report/rep_loss_mean": 3.0067334175109863, "report/rep_loss_std": 4.75685977935791, "report/reward_avg": 0.72265625, "report/reward_loss_mean": 0.03487261384725571, "report/reward_loss_std": 0.19757533073425293, "report/reward_max_data": 200.0, "report/reward_max_pred": 191.7985382080078, "report/reward_neg_acc": 0.9815762639045715, "report/reward_neg_loss": 0.0033415036741644144, "report/reward_pos_acc": 0.9787233471870422, "report/reward_pos_loss": 0.6903170943260193, "report/reward_pred": 0.6699978113174438, "report/reward_rate": 0.0458984375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.020715614780783653, "eval/cont_loss_std": 0.422775536775589, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.772390365600586, "eval/cont_pos_acc": 0.9980449676513672, "eval/cont_pos_loss": 0.010205669328570366, "eval/cont_pred": 0.9978141784667969, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.671751022338867, "eval/dyn_loss_std": 8.922184944152832, "eval/image_loss_mean": 7.949646949768066, "eval/image_loss_std": 5.672991752624512, "eval/model_loss_mean": 15.649003982543945, "eval/model_loss_std": 10.755200386047363, "eval/post_ent_mag": 41.27295684814453, "eval/post_ent_max": 41.27295684814453, "eval/post_ent_mean": 31.274761199951172, "eval/post_ent_min": 18.816818237304688, "eval/post_ent_std": 3.576286554336548, "eval/prior_ent_mag": 61.74180603027344, "eval/prior_ent_max": 61.74180603027344, "eval/prior_ent_mean": 36.560890197753906, "eval/prior_ent_min": 24.809383392333984, "eval/prior_ent_std": 5.393955230712891, "eval/rep_loss_mean": 11.671751022338867, "eval/rep_loss_std": 8.922184944152832, "eval/reward_avg": 0.60546875, "eval/reward_loss_mean": 0.6755905151367188, "eval/reward_loss_std": 2.5482900142669678, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.98567008972168, "eval/reward_neg_acc": 0.8742203712463379, "eval/reward_neg_loss": 0.19868679344654083, "eval/reward_pos_acc": 0.33870965242385864, "eval/reward_pos_loss": 8.075289726257324, "eval/reward_pred": 0.569237470626831, "eval/reward_rate": 0.060546875, "replay/size": 17122.0, "replay/inserts": 698.0, "replay/samples": 11168.0, "replay/insert_wait_avg": 5.2964448245685215e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2702706208543313e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4156103134155273e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.29583406448364, "timer/env.step_count": 698.0, "timer/env.step_total": 2.4231181144714355, "timer/env.step_frac": 0.008069103329455814, "timer/env.step_avg": 0.0034715159233115124, "timer/env.step_min": 0.0017209053039550781, "timer/env.step_max": 0.0233767032623291, "timer/replay._sample_count": 11168.0, "timer/replay._sample_total": 205.93231868743896, "timer/replay._sample_frac": 0.6857648203112213, "timer/replay._sample_avg": 0.018439498449806496, "timer/replay._sample_min": 0.0006864070892333984, "timer/replay._sample_max": 0.04890251159667969, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 698.0, "timer/agent.policy_total": 197.58735966682434, "timer/agent.policy_frac": 0.657975693476972, "timer/agent.policy_avg": 0.283076446514075, "timer/agent.policy_min": 0.0028333663940429688, "timer/agent.policy_max": 0.3309621810913086, "timer/dataset_train_count": 698.0, "timer/dataset_train_total": 0.09371566772460938, "timer/dataset_train_frac": 0.0003120778149206208, "timer/dataset_train_avg": 0.00013426313427594466, "timer/dataset_train_min": 8.654594421386719e-05, "timer/dataset_train_max": 0.0004451274871826172, "timer/agent.train_count": 698.0, "timer/agent.train_total": 98.98224306106567, "timer/agent.train_frac": 0.32961577162542605, "timer/agent.train_avg": 0.14180837114765857, "timer/agent.train_min": 0.10137224197387695, "timer/agent.train_max": 0.4544045925140381, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5199120044708252, "timer/agent.report_frac": 0.0017313327242467925, "timer/agent.report_avg": 0.2599560022354126, "timer/agent.report_min": 0.10683727264404297, "timer/agent.report_max": 0.4130747318267822, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.8578328828160047e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "fps": 9.297219951279171}
+{"step": 69008, "episode/length": 476.0, "episode/score": 500.0, "episode/reward_rate": 0.10482180293501048}
+{"step": 71512, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.3048228388247285, "train/action_min": 0.0, "train/action_std": 3.137469661408576, "train/actor_opt_grad_norm": 0.014818329033374355, "train/actor_opt_grad_steps": 16430.0, "train/actor_opt_loss": 0.007104048909926517, "train/adv_mag": 1.1705786659233812, "train/adv_max": 1.1634027007697285, "train/adv_mean": 0.009536204768506728, "train/adv_min": -0.6333984179773192, "train/adv_std": 0.0739445122687713, "train/cont_avg": 0.9982874773550725, "train/cont_loss_mean": 0.0004880770027762412, "train/cont_loss_std": 0.013150085925796398, "train/cont_neg_acc": 0.9477011499733761, "train/cont_neg_loss": 0.19460514166668622, "train/cont_pos_acc": 0.9999432840209076, "train/cont_pos_loss": 0.00020498545603933726, "train/cont_pred": 0.9982965363972429, "train/cont_rate": 0.9982874773550725, "train/dyn_loss_mean": 3.2684022827424863, "train/dyn_loss_std": 4.956720213959183, "train/extr_critic_critic_opt_grad_norm": 1.7391015740408413, "train/extr_critic_critic_opt_grad_steps": 16430.0, "train/extr_critic_critic_opt_loss": 1.7097297250360683, "train/extr_critic_mag": 190.39637999603713, "train/extr_critic_max": 190.39637999603713, "train/extr_critic_mean": 73.840580428856, "train/extr_critic_min": 0.11711995152459628, "train/extr_critic_std": 46.801839192708336, "train/extr_return_normed_mag": 1.804571030796438, "train/extr_return_normed_max": 1.804571030796438, "train/extr_return_normed_mean": 0.4832404739614846, "train/extr_return_normed_min": -0.01775799348336253, "train/extr_return_normed_std": 0.3268836173026458, "train/extr_return_rate": 0.9542676737343055, "train/extr_return_raw_mag": 273.354357290959, "train/extr_return_raw_max": 273.354357290959, "train/extr_return_raw_mean": 75.26958283134128, "train/extr_return_raw_min": 0.18453357343062543, "train/extr_return_raw_std": 49.00428362860196, "train/extr_reward_mag": 123.97867562114328, "train/extr_reward_max": 123.97867562114328, "train/extr_reward_mean": 0.6168229761330978, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.056222732516303, "train/image_loss_mean": 3.3294372420380083, "train/image_loss_std": 2.6240493542906167, "train/model_loss_mean": 5.342914346335591, "train/model_loss_std": 5.034636528595634, "train/model_opt_grad_norm": 21.843282409336258, "train/model_opt_grad_steps": 16430.0, "train/model_opt_loss": 5.342914346335591, "train/policy_entropy_mag": 2.0680229922999507, "train/policy_entropy_max": 2.0680229922999507, "train/policy_entropy_mean": 1.0493001730545708, "train/policy_entropy_min": 0.07988840676304224, "train/policy_entropy_std": 0.45008620922116266, "train/policy_logprob_mag": 6.759334481280783, "train/policy_logprob_max": -0.010554601613810097, "train/policy_logprob_mean": -1.049878770026608, "train/policy_logprob_min": -6.759334481280783, "train/policy_logprob_std": 1.1038773560869521, "train/policy_randomness_mag": 0.9411978142848914, "train/policy_randomness_max": 0.9411978142848914, "train/policy_randomness_mean": 0.47755708729011426, "train/policy_randomness_min": 0.03635878067301667, "train/policy_randomness_std": 0.20484305983004364, "train/post_ent_mag": 44.20150004953578, "train/post_ent_max": 44.20150004953578, "train/post_ent_mean": 32.72276574286862, "train/post_ent_min": 22.630570370218027, "train/post_ent_std": 3.889077310976775, "train/prior_ent_mag": 61.922409831613734, "train/prior_ent_max": 61.922409831613734, "train/prior_ent_mean": 36.053093067113906, "train/prior_ent_min": 24.9350758428159, "train/prior_ent_std": 6.1149977739306465, "train/rep_loss_mean": 3.2684022827424863, "train/rep_loss_std": 4.956720213959183, "train/reward_avg": 0.7995074728260869, "train/reward_loss_mean": 0.05194767062430796, "train/reward_loss_std": 0.23994441827138266, "train/reward_max_data": 131.8840579710145, "train/reward_max_pred": 107.47179201374884, "train/reward_neg_acc": 0.9731547651083573, "train/reward_neg_loss": 0.006749460865082085, "train/reward_pos_acc": 0.986651695292929, "train/reward_pos_loss": 0.7181715481523154, "train/reward_pred": 0.7117856892122738, "train/reward_rate": 0.06351902173913043, "train_stats/mean_log_entropy": 1.1835392713546753, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0003869628708343953, "report/cont_loss_std": 0.0074970233254134655, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.10123078525066376, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.065394988283515e-05, "report/cont_pred": 0.9972519874572754, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.653330087661743, "report/dyn_loss_std": 5.253338813781738, "report/image_loss_mean": 3.511744976043701, "report/image_loss_std": 2.9394099712371826, "report/model_loss_mean": 5.750486373901367, "report/model_loss_std": 5.5764970779418945, "report/post_ent_mag": 47.76970672607422, "report/post_ent_max": 47.76970672607422, "report/post_ent_mean": 33.59708023071289, "report/post_ent_min": 24.02799415588379, "report/post_ent_std": 4.389449596405029, "report/prior_ent_mag": 62.345115661621094, "report/prior_ent_max": 62.345115661621094, "report/prior_ent_mean": 37.143619537353516, "report/prior_ent_min": 24.614124298095703, "report/prior_ent_std": 6.699594497680664, "report/rep_loss_mean": 3.653330087661743, "report/rep_loss_std": 5.253338813781738, "report/reward_avg": 0.95703125, "report/reward_loss_mean": 0.04635632783174515, "report/reward_loss_std": 0.20448559522628784, "report/reward_max_data": 400.0, "report/reward_max_pred": 391.26971435546875, "report/reward_neg_acc": 0.9730570316314697, "report/reward_neg_loss": 0.007407498545944691, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6834007501602173, "report/reward_pred": 0.898440957069397, "report/reward_rate": 0.0576171875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002279294189065695, "eval/cont_loss_std": 0.07237707823514938, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.317195177078247, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6424059140263125e-05, "eval/cont_pred": 0.9998874068260193, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.781351089477539, "eval/dyn_loss_std": 9.599370002746582, "eval/image_loss_mean": 6.2181077003479, "eval/image_loss_std": 4.7753119468688965, "eval/model_loss_mean": 13.169882774353027, "eval/model_loss_std": 10.320793151855469, "eval/post_ent_mag": 42.93699645996094, "eval/post_ent_max": 42.93699645996094, "eval/post_ent_mean": 31.726882934570312, "eval/post_ent_min": 21.38155174255371, "eval/post_ent_std": 3.7876925468444824, "eval/prior_ent_mag": 62.345115661621094, "eval/prior_ent_max": 62.345115661621094, "eval/prior_ent_mean": 35.996437072753906, "eval/prior_ent_min": 25.262102127075195, "eval/prior_ent_std": 5.644040107727051, "eval/rep_loss_mean": 10.781351089477539, "eval/rep_loss_std": 9.599370002746582, "eval/reward_avg": 0.41015625, "eval/reward_loss_mean": 0.48068422079086304, "eval/reward_loss_std": 2.3575360774993896, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.979997634887695, "eval/reward_neg_acc": 0.9338086247444153, "eval/reward_neg_loss": 0.07254026085138321, "eval/reward_pos_acc": 0.2142857164144516, "eval/reward_pos_loss": 10.023478507995605, "eval/reward_pred": 0.22004348039627075, "eval/reward_rate": 0.041015625, "replay/size": 17815.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.117570511018387e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1335633705876777e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3982298374176, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4055466651916504, "timer/env.step_frac": 0.008007858989360846, "timer/env.step_avg": 0.0034712073090788606, "timer/env.step_min": 0.0014028549194335938, "timer/env.step_max": 0.0192873477935791, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 212.97114396095276, "timer/replay._sample_frac": 0.7089627128502641, "timer/replay._sample_avg": 0.01920735425333268, "timer/replay._sample_min": 0.0005338191986083984, "timer/replay._sample_max": 0.05339360237121582, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.8309724330902, "timer/agent.policy_frac": 0.6585623774819208, "timer/agent.policy_avg": 0.28547037869132785, "timer/agent.policy_min": 0.0029473304748535156, "timer/agent.policy_max": 0.33312368392944336, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09262251853942871, "timer/dataset_train_frac": 0.0003083324378760758, "timer/dataset_train_avg": 0.00013365442790682353, "timer/dataset_train_min": 7.724761962890625e-05, "timer/dataset_train_max": 0.0013206005096435547, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.76110291481018, "timer/agent.train_frac": 0.32876725994111866, "timer/agent.train_avg": 0.1425124140184851, "timer/agent.train_min": 0.10143232345581055, "timer/agent.train_max": 0.4536552429199219, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5262346267700195, "timer/agent.report_frac": 0.0017517900390252956, "timer/agent.report_avg": 0.26311731338500977, "timer/agent.report_min": 0.10935235023498535, "timer/agent.report_max": 0.4168822765350342, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.319450378417969e-05, "timer/dataset_eval_frac": 2.4365823934380116e-07, "timer/dataset_eval_avg": 7.319450378417969e-05, "timer/dataset_eval_min": 7.319450378417969e-05, "timer/dataset_eval_max": 7.319450378417969e-05, "fps": 9.22753943461734}
+{"step": 71996, "episode/length": 746.0, "episode/score": 590.0, "episode/reward_rate": 0.07362784471218206}
+{"step": 74292, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.639238630022321, "train/action_min": 0.0, "train/action_std": 3.0090701273509435, "train/actor_opt_grad_norm": 0.014758403891963617, "train/actor_opt_grad_steps": 17125.0, "train/actor_opt_loss": 0.007020161626548673, "train/adv_mag": 1.3411896403346744, "train/adv_max": 1.3271485984325408, "train/adv_mean": 0.009678885166899168, "train/adv_min": -0.6344461087669645, "train/adv_std": 0.077998001234872, "train/cont_avg": 0.9984793526785715, "train/cont_loss_mean": 0.00033636220098003377, "train/cont_loss_std": 0.009313469833523413, "train/cont_neg_acc": 0.9567901238247201, "train/cont_neg_loss": 0.1807247101496951, "train/cont_pos_acc": 0.9999720011438642, "train/cont_pos_loss": 0.00011579892375469366, "train/cont_pred": 0.9984822264739446, "train/cont_rate": 0.9984793526785715, "train/dyn_loss_mean": 3.279814829145159, "train/dyn_loss_std": 4.969727645601545, "train/extr_critic_critic_opt_grad_norm": 1.771801667554038, "train/extr_critic_critic_opt_grad_steps": 17125.0, "train/extr_critic_critic_opt_loss": 1.729315061228616, "train/extr_critic_mag": 198.5103517804827, "train/extr_critic_max": 198.5103517804827, "train/extr_critic_mean": 72.25808143615723, "train/extr_critic_min": 0.4166113580976214, "train/extr_critic_std": 49.25476292201451, "train/extr_return_normed_mag": 1.9681157333510262, "train/extr_return_normed_max": 1.9681157333510262, "train/extr_return_normed_mean": 0.4562421121767589, "train/extr_return_normed_min": -0.013808390108169987, "train/extr_return_normed_std": 0.3330597994582994, "train/extr_return_rate": 0.9457561825002943, "train/extr_return_raw_mag": 309.9054818289621, "train/extr_return_raw_max": 309.9054818289621, "train/extr_return_raw_mean": 73.77037647792271, "train/extr_return_raw_min": 0.3604341606409954, "train/extr_return_raw_std": 52.01936934334891, "train/extr_reward_mag": 155.46859407424927, "train/extr_reward_max": 155.46859407424927, "train/extr_reward_mean": 0.6443588771990367, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.792187944480351, "train/image_loss_mean": 3.220576092175075, "train/image_loss_std": 2.499199528353555, "train/model_loss_mean": 5.234861932482038, "train/model_loss_std": 4.9256674596241545, "train/model_opt_grad_norm": 21.075699315752303, "train/model_opt_grad_steps": 17125.0, "train/model_opt_loss": 5.234861932482038, "train/policy_entropy_mag": 2.077758513178144, "train/policy_entropy_max": 2.077758513178144, "train/policy_entropy_mean": 1.0463175833225251, "train/policy_entropy_min": 0.07813363405210631, "train/policy_entropy_std": 0.4492885274546487, "train/policy_logprob_mag": 6.763327523640224, "train/policy_logprob_max": -0.010282977018505335, "train/policy_logprob_mean": -1.045359582560403, "train/policy_logprob_min": -6.763327523640224, "train/policy_logprob_std": 1.1002690826143537, "train/policy_randomness_mag": 0.9456286438873835, "train/policy_randomness_max": 0.9456286438873835, "train/policy_randomness_mean": 0.47619965033871786, "train/policy_randomness_min": 0.03556014906082835, "train/policy_randomness_std": 0.20448001899889537, "train/post_ent_mag": 44.45928764343262, "train/post_ent_max": 44.45928764343262, "train/post_ent_mean": 32.9069446018764, "train/post_ent_min": 22.661998803274972, "train/post_ent_std": 3.9913661548069546, "train/prior_ent_mag": 62.68452159336635, "train/prior_ent_max": 62.68452159336635, "train/prior_ent_mean": 36.27618321010045, "train/prior_ent_min": 24.998997851780484, "train/prior_ent_std": 6.277870232718332, "train/rep_loss_mean": 3.279814829145159, "train/rep_loss_std": 4.969727645601545, "train/reward_avg": 0.8272879464285714, "train/reward_loss_mean": 0.04606059832232339, "train/reward_loss_std": 0.20118271155016762, "train/reward_max_data": 150.57142857142858, "train/reward_max_pred": 134.46425775800432, "train/reward_neg_acc": 0.9757913623537336, "train/reward_neg_loss": 0.005849720554293267, "train/reward_pos_acc": 0.9943198714937482, "train/reward_pos_loss": 0.6509226773466382, "train/reward_pred": 0.75671649149486, "train/reward_rate": 0.06212332589285714, "train_stats/mean_log_entropy": 1.1917494535446167, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.300890966784209e-05, "report/cont_loss_std": 0.0007965224212966859, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01277045626193285, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.082400199782569e-06, "report/cont_pred": 0.9980634450912476, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 2.8883824348449707, "report/dyn_loss_std": 5.11012601852417, "report/image_loss_mean": 2.7056283950805664, "report/image_loss_std": 2.5981082916259766, "report/model_loss_mean": 4.469095706939697, "report/model_loss_std": 5.213479518890381, "report/post_ent_mag": 43.648841857910156, "report/post_ent_max": 43.648841857910156, "report/post_ent_mean": 32.97517395019531, "report/post_ent_min": 21.942039489746094, "report/post_ent_std": 3.9110214710235596, "report/prior_ent_mag": 62.836891174316406, "report/prior_ent_max": 62.836891174316406, "report/prior_ent_mean": 35.50785827636719, "report/prior_ent_min": 24.916288375854492, "report/prior_ent_std": 6.22822380065918, "report/rep_loss_mean": 2.8883824348449707, "report/rep_loss_std": 5.11012601852417, "report/reward_avg": 0.56640625, "report/reward_loss_mean": 0.030404947698116302, "report/reward_loss_std": 0.17507950961589813, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.2213897705078, "report/reward_neg_acc": 0.9796954393386841, "report/reward_neg_loss": 0.0029411071445792913, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7240429520606995, "report/reward_pred": 0.5279579162597656, "report/reward_rate": 0.0380859375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.3042767932347488e-07, "eval/cont_loss_std": 2.0147801933489973e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3042767932347488e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 11.957134246826172, "eval/dyn_loss_std": 7.897248268127441, "eval/image_loss_mean": 7.944203853607178, "eval/image_loss_std": 4.326261043548584, "eval/model_loss_mean": 15.939424514770508, "eval/model_loss_std": 8.934358596801758, "eval/post_ent_mag": 41.64594268798828, "eval/post_ent_max": 41.64594268798828, "eval/post_ent_mean": 31.777259826660156, "eval/post_ent_min": 21.348915100097656, "eval/post_ent_std": 3.3302152156829834, "eval/prior_ent_mag": 62.836891174316406, "eval/prior_ent_max": 62.836891174316406, "eval/prior_ent_mean": 35.05253601074219, "eval/prior_ent_min": 25.824356079101562, "eval/prior_ent_std": 5.184645652770996, "eval/rep_loss_mean": 11.957134246826172, "eval/rep_loss_std": 7.897248268127441, "eval/reward_avg": 0.56640625, "eval/reward_loss_mean": 0.8209414482116699, "eval/reward_loss_std": 3.106703758239746, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003095626831055, "eval/reward_neg_acc": 0.9120082855224609, "eval/reward_neg_loss": 0.16460588574409485, "eval/reward_pos_acc": 0.10344827175140381, "eval/reward_pos_loss": 11.752323150634766, "eval/reward_pred": 0.36669719219207764, "eval/reward_rate": 0.056640625, "replay/size": 18510.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.83698124508206e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1388775256040284e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0281705856323, "timer/env.step_count": 695.0, "timer/env.step_total": 2.522660970687866, "timer/env.step_frac": 0.008408080367132935, "timer/env.step_avg": 0.0036297280153782248, "timer/env.step_min": 0.0016949176788330078, "timer/env.step_max": 0.019297122955322266, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 201.4255964756012, "timer/replay._sample_frac": 0.6713556133160218, "timer/replay._sample_avg": 0.01811381263269795, "timer/replay._sample_min": 0.00048279762268066406, "timer/replay._sample_max": 0.04850292205810547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.22011113166809082, "timer/agent.save_frac": 0.0007336348824793702, "timer/agent.save_avg": 0.22011113166809082, "timer/agent.save_min": 0.22011113166809082, "timer/agent.save_max": 0.22011113166809082, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 198.38021111488342, "timer/agent.policy_frac": 0.6612052819162288, "timer/agent.policy_avg": 0.2854391526832855, "timer/agent.policy_min": 0.002823352813720703, "timer/agent.policy_max": 0.37337493896484375, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.09050464630126953, "timer/dataset_train_frac": 0.0003016538284542125, "timer/dataset_train_avg": 0.00013022251266369718, "timer/dataset_train_min": 8.082389831542969e-05, "timer/dataset_train_max": 0.002721071243286133, "timer/agent.train_count": 695.0, "timer/agent.train_total": 97.79090452194214, "timer/agent.train_frac": 0.3259390754243566, "timer/agent.train_avg": 0.14070633744164338, "timer/agent.train_min": 0.10074067115783691, "timer/agent.train_max": 0.4520707130432129, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4964408874511719, "timer/agent.report_frac": 0.001654647583532429, "timer/agent.report_avg": 0.24822044372558594, "timer/agent.report_min": 0.10106968879699707, "timer/agent.report_max": 0.3953711986541748, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.414817810058594e-05, "timer/dataset_eval_frac": 2.47137386985543e-07, "timer/dataset_eval_avg": 7.414817810058594e-05, "timer/dataset_eval_min": 7.414817810058594e-05, "timer/dataset_eval_max": 7.414817810058594e-05, "fps": 9.265498232262532}
+{"step": 74740, "episode/length": 685.0, "episode/score": 700.0, "episode/reward_rate": 0.09037900874635568}
+{"step": 77140, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.756580621423856, "train/action_min": 0.0, "train/action_std": 3.00986574737119, "train/actor_opt_grad_norm": 0.01583480472269822, "train/actor_opt_grad_steps": 17830.0, "train/actor_opt_loss": 0.006951167229948316, "train/adv_mag": 1.2417145237116747, "train/adv_max": 1.2391618926760177, "train/adv_mean": 0.009831010889504629, "train/adv_min": -0.5911895552991142, "train/adv_std": 0.0771548793139592, "train/cont_avg": 0.9983357174295775, "train/cont_loss_mean": 0.000488494739110759, "train/cont_loss_std": 0.0126348063173237, "train/cont_neg_acc": 0.9194444457689921, "train/cont_neg_loss": 0.15131037013828366, "train/cont_pos_acc": 0.9999172670740477, "train/cont_pos_loss": 0.00023150486811358937, "train/cont_pred": 0.9983433166020353, "train/cont_rate": 0.9983357174295775, "train/dyn_loss_mean": 3.3190089682458153, "train/dyn_loss_std": 5.117106981680426, "train/extr_critic_critic_opt_grad_norm": 1.837077110586032, "train/extr_critic_critic_opt_grad_steps": 17830.0, "train/extr_critic_critic_opt_loss": 1.6974979655843385, "train/extr_critic_mag": 206.655766661738, "train/extr_critic_max": 206.655766661738, "train/extr_critic_mean": 75.83294183435575, "train/extr_critic_min": 0.13318651998546763, "train/extr_critic_std": 50.688596537415414, "train/extr_return_normed_mag": 1.8814401089305608, "train/extr_return_normed_max": 1.8814401089305608, "train/extr_return_normed_mean": 0.46225274028912394, "train/extr_return_normed_min": -0.012544054136296707, "train/extr_return_normed_std": 0.33017163314449954, "train/extr_return_rate": 0.9474939930606896, "train/extr_return_raw_mag": 307.9888655971473, "train/extr_return_raw_max": 307.9888655971473, "train/extr_return_raw_mean": 77.4296704144545, "train/extr_return_raw_min": 0.28704385806045585, "train/extr_return_raw_std": 53.64807419038155, "train/extr_reward_mag": 147.00652653062846, "train/extr_reward_max": 147.00652653062846, "train/extr_reward_mean": 0.6539874647704649, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.720272112900103, "train/image_loss_mean": 3.1557938145919584, "train/image_loss_std": 2.5114565231430697, "train/model_loss_mean": 5.198268749344517, "train/model_loss_std": 5.059255861900222, "train/model_opt_grad_norm": 20.343504811676457, "train/model_opt_grad_steps": 17830.0, "train/model_opt_loss": 5.198268749344517, "train/policy_entropy_mag": 2.0798793040530783, "train/policy_entropy_max": 2.0798793040530783, "train/policy_entropy_mean": 1.0255840739733737, "train/policy_entropy_min": 0.07732795619628799, "train/policy_entropy_std": 0.4637081199128863, "train/policy_logprob_mag": 6.771237259179774, "train/policy_logprob_max": -0.010155599800423838, "train/policy_logprob_mean": -1.0268732351316532, "train/policy_logprob_min": -6.771237259179774, "train/policy_logprob_std": 1.112691882630469, "train/policy_randomness_mag": 0.9465938571473242, "train/policy_randomness_max": 0.9465938571473242, "train/policy_randomness_mean": 0.46676342420175043, "train/policy_randomness_min": 0.035193469113027544, "train/policy_randomness_std": 0.21104265875379805, "train/post_ent_mag": 44.96885777862979, "train/post_ent_max": 44.96885777862979, "train/post_ent_mean": 33.308111889261596, "train/post_ent_min": 22.811837021733673, "train/post_ent_std": 4.026285977430747, "train/prior_ent_mag": 63.23280167915452, "train/prior_ent_max": 63.23280167915452, "train/prior_ent_mean": 36.731701703138754, "train/prior_ent_min": 25.395946234044896, "train/prior_ent_std": 6.307771400666573, "train/rep_loss_mean": 3.3190089682458153, "train/rep_loss_std": 5.117106981680426, "train/reward_avg": 0.8518100792253521, "train/reward_loss_mean": 0.05058110235127765, "train/reward_loss_std": 0.23947489775822195, "train/reward_max_data": 161.1267605633803, "train/reward_max_pred": 127.63352364553532, "train/reward_neg_acc": 0.9745613697548987, "train/reward_neg_loss": 0.006253710944651508, "train/reward_pos_acc": 0.9895666048560344, "train/reward_pos_loss": 0.716777245763322, "train/reward_pred": 0.7544186854026687, "train/reward_rate": 0.06245873679577465, "train_stats/mean_log_entropy": 1.161486029624939, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00043851652299053967, "report/cont_loss_std": 0.011468698270618916, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0024504014290869236, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00043260501115582883, "report/cont_pred": 0.9967046976089478, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.8052778244018555, "report/dyn_loss_std": 5.41176700592041, "report/image_loss_mean": 3.7090978622436523, "report/image_loss_std": 2.883859872817993, "report/model_loss_mean": 6.0360493659973145, "report/model_loss_std": 5.577943325042725, "report/post_ent_mag": 45.69329833984375, "report/post_ent_max": 45.69329833984375, "report/post_ent_mean": 34.07952880859375, "report/post_ent_min": 22.8123836517334, "report/post_ent_std": 4.042517185211182, "report/prior_ent_mag": 63.50228500366211, "report/prior_ent_max": 63.50228500366211, "report/prior_ent_mean": 37.987823486328125, "report/prior_ent_min": 24.355892181396484, "report/prior_ent_std": 6.710256576538086, "report/rep_loss_mean": 3.8052778244018555, "report/rep_loss_std": 5.41176700592041, "report/reward_avg": 1.0546875, "report/reward_loss_mean": 0.04334621876478195, "report/reward_loss_std": 0.15488335490226746, "report/reward_max_data": 400.0, "report/reward_max_pred": 391.8807067871094, "report/reward_neg_acc": 0.9563863277435303, "report/reward_neg_loss": 0.008187590166926384, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5983914732933044, "report/reward_pred": 0.988243579864502, "report/reward_rate": 0.0595703125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 0.00027028005570173264, "eval/cont_loss_std": 0.005708935204893351, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00027028005570173264, "eval/cont_pred": 0.9997453689575195, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.831005096435547, "eval/dyn_loss_std": 8.441736221313477, "eval/image_loss_mean": 9.076242446899414, "eval/image_loss_std": 5.445527076721191, "eval/model_loss_mean": 17.524227142333984, "eval/model_loss_std": 10.236432075500488, "eval/post_ent_mag": 45.39204788208008, "eval/post_ent_max": 45.39204788208008, "eval/post_ent_mean": 32.37392807006836, "eval/post_ent_min": 21.740360260009766, "eval/post_ent_std": 3.4501938819885254, "eval/prior_ent_mag": 63.50228500366211, "eval/prior_ent_max": 63.50228500366211, "eval/prior_ent_mean": 36.177223205566406, "eval/prior_ent_min": 25.738283157348633, "eval/prior_ent_std": 5.197518825531006, "eval/rep_loss_mean": 12.831005096435547, "eval/rep_loss_std": 8.441736221313477, "eval/reward_avg": 0.68359375, "eval/reward_loss_mean": 0.7491110563278198, "eval/reward_loss_std": 2.8930253982543945, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.023429870605469, "eval/reward_neg_acc": 0.8846960067749023, "eval/reward_neg_loss": 0.17012034356594086, "eval/reward_pos_acc": 0.3571428656578064, "eval/reward_pos_loss": 8.639927864074707, "eval/reward_pred": 0.5251335501670837, "eval/reward_rate": 0.068359375, "replay/size": 19222.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.837236897329266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4667598049292404e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.15016317367554, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8409035205841064, "timer/env.step_frac": 0.009464940783458038, "timer/env.step_avg": 0.003990033034528239, "timer/env.step_min": 0.002479076385498047, "timer/env.step_max": 0.022030353546142578, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 189.35610699653625, "timer/replay._sample_frac": 0.6308712445609078, "timer/replay._sample_avg": 0.01662184927989258, "timer/replay._sample_min": 0.007295370101928711, "timer/replay._sample_max": 0.03712797164916992, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.30729579925537, "timer/agent.policy_frac": 0.6606936131649179, "timer/agent.policy_avg": 0.2785214828641227, "timer/agent.policy_min": 0.003322124481201172, "timer/agent.policy_max": 0.31363916397094727, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09720396995544434, "timer/dataset_train_frac": 0.00032385113147248004, "timer/dataset_train_avg": 0.0001365224297127027, "timer/dataset_train_min": 7.319450378417969e-05, "timer/dataset_train_max": 0.00034809112548828125, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.8656713962555, "timer/agent.train_frac": 0.3260556994587659, "timer/agent.train_avg": 0.13745178566889815, "timer/agent.train_min": 0.0987849235534668, "timer/agent.train_max": 0.42830801010131836, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49455857276916504, "timer/agent.report_frac": 0.001647703827777029, "timer/agent.report_avg": 0.24727928638458252, "timer/agent.report_min": 0.09944605827331543, "timer/agent.report_max": 0.3951125144958496, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011682510375976562, "timer/dataset_eval_frac": 3.8922218973496693e-07, "timer/dataset_eval_avg": 0.00011682510375976562, "timer/dataset_eval_min": 0.00011682510375976562, "timer/dataset_eval_max": 0.00011682510375976562, "fps": 9.488256827819624}
+{"step": 78064, "episode/length": 830.0, "episode/score": 950.0, "episode/reward_rate": 0.08664259927797834}
+{"step": 79940, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 5.132352992466518, "train/action_min": 0.0, "train/action_std": 2.842153355053493, "train/actor_opt_grad_norm": 0.01384881889846708, "train/actor_opt_grad_steps": 18535.0, "train/actor_opt_loss": 0.006318351154498357, "train/adv_mag": 1.1517000998769487, "train/adv_max": 1.1357305569308145, "train/adv_mean": 0.00833396372077654, "train/adv_min": -0.6227221212216786, "train/adv_std": 0.06820547474282128, "train/cont_avg": 0.9984235491071428, "train/cont_loss_mean": 0.00040231456829522877, "train/cont_loss_std": 0.010224973231392402, "train/cont_neg_acc": 0.9584699458763247, "train/cont_neg_loss": 0.19132933576230376, "train/cont_pos_acc": 0.9999440576348986, "train/cont_pos_loss": 0.00016321772047993882, "train/cont_pred": 0.9984004608222417, "train/cont_rate": 0.9984235491071428, "train/dyn_loss_mean": 3.4433766535350254, "train/dyn_loss_std": 5.15586393220084, "train/extr_critic_critic_opt_grad_norm": 1.6937101585524423, "train/extr_critic_critic_opt_grad_steps": 18535.0, "train/extr_critic_critic_opt_loss": 1.6806293419429235, "train/extr_critic_mag": 213.58121904645648, "train/extr_critic_max": 213.58121904645648, "train/extr_critic_mean": 76.51476805550712, "train/extr_critic_min": 0.1110597048486982, "train/extr_critic_std": 52.107423128400534, "train/extr_return_normed_mag": 1.73320962871824, "train/extr_return_normed_max": 1.73320962871824, "train/extr_return_normed_mean": 0.45143086250339237, "train/extr_return_normed_min": -0.012702920394284384, "train/extr_return_normed_std": 0.32463336033480505, "train/extr_return_rate": 0.9543313315936497, "train/extr_return_raw_mag": 292.37223663330076, "train/extr_return_raw_max": 292.37223663330076, "train/extr_return_raw_mean": 77.90927391052246, "train/extr_return_raw_min": 0.0937201735164438, "train/extr_return_raw_std": 54.42722658429827, "train/extr_reward_mag": 127.04612776892526, "train/extr_reward_max": 127.04612776892526, "train/extr_reward_mean": 0.6427171196256365, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.268348099504198, "train/image_loss_mean": 3.1859843492507935, "train/image_loss_std": 2.4723134245191303, "train/model_loss_mean": 5.302115314347404, "train/model_loss_std": 5.039460178783962, "train/model_opt_grad_norm": 19.819509737832206, "train/model_opt_grad_steps": 18535.0, "train/model_opt_loss": 5.302115314347404, "train/policy_entropy_mag": 2.0875818814550127, "train/policy_entropy_max": 2.0875818814550127, "train/policy_entropy_mean": 1.0206235485417503, "train/policy_entropy_min": 0.07887652473790305, "train/policy_entropy_std": 0.4556108342749732, "train/policy_logprob_mag": 6.774129615511213, "train/policy_logprob_max": -0.010401452359344279, "train/policy_logprob_mean": -1.0191522853715078, "train/policy_logprob_min": -6.774129615511213, "train/policy_logprob_std": 1.1009604743548802, "train/policy_randomness_mag": 0.9500994529042925, "train/policy_randomness_max": 0.9500994529042925, "train/policy_randomness_mean": 0.4645057954958507, "train/policy_randomness_min": 0.03589825321521078, "train/policy_randomness_std": 0.20735742513622557, "train/post_ent_mag": 45.509795216151645, "train/post_ent_max": 45.509795216151645, "train/post_ent_mean": 33.715584128243584, "train/post_ent_min": 22.83080302647182, "train/post_ent_std": 4.09889394555773, "train/prior_ent_mag": 63.77698266165597, "train/prior_ent_max": 63.77698266165597, "train/prior_ent_mean": 37.22081505911691, "train/prior_ent_min": 25.32824194771903, "train/prior_ent_std": 6.401927580152239, "train/rep_loss_mean": 3.4433766535350254, "train/rep_loss_std": 5.15586393220084, "train/reward_avg": 0.8145926339285714, "train/reward_loss_mean": 0.04970271535483854, "train/reward_loss_std": 0.21967730362500462, "train/reward_max_data": 127.28571428571429, "train/reward_max_pred": 106.68535457338605, "train/reward_neg_acc": 0.9740226141044072, "train/reward_neg_loss": 0.006708436771961195, "train/reward_pos_acc": 0.992549752337592, "train/reward_pos_loss": 0.679318779706955, "train/reward_pred": 0.7330796105521066, "train/reward_rate": 0.06428571428571428, "train_stats/mean_log_entropy": 1.1965999603271484, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 1.0629264579620212e-05, "report/cont_loss_std": 0.00022960975184105337, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.002859055995941162, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.2597423594561405e-06, "report/cont_pred": 0.9970763921737671, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.5640814304351807, "report/dyn_loss_std": 5.129904270172119, "report/image_loss_mean": 3.0941619873046875, "report/image_loss_std": 2.1550185680389404, "report/model_loss_mean": 5.306187629699707, "report/model_loss_std": 4.752597808837891, "report/post_ent_mag": 46.316612243652344, "report/post_ent_max": 46.316612243652344, "report/post_ent_mean": 34.77336883544922, "report/post_ent_min": 21.621322631835938, "report/post_ent_std": 3.924229621887207, "report/prior_ent_mag": 63.93595886230469, "report/prior_ent_max": 63.93595886230469, "report/prior_ent_mean": 38.224449157714844, "report/prior_ent_min": 26.243892669677734, "report/prior_ent_std": 6.25585412979126, "report/rep_loss_mean": 3.5640814304351807, "report/rep_loss_std": 5.129904270172119, "report/reward_avg": 1.0546875, "report/reward_loss_mean": 0.0735657662153244, "report/reward_loss_std": 0.22520409524440765, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.01210021972656, "report/reward_neg_acc": 0.9461206793785095, "report/reward_neg_loss": 0.014533628709614277, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6442098021507263, "report/reward_pred": 0.9750031232833862, "report/reward_rate": 0.09375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0034634375479072332, "eval/cont_loss_std": 0.11077367514371872, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.5464892387390137, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.921172257534636e-08, "eval/cont_pred": 0.9999718070030212, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 9.088361740112305, "eval/dyn_loss_std": 7.824501037597656, "eval/image_loss_mean": 5.548943519592285, "eval/image_loss_std": 4.554998874664307, "eval/model_loss_mean": 11.605949401855469, "eval/model_loss_std": 9.312450408935547, "eval/post_ent_mag": 43.699432373046875, "eval/post_ent_max": 43.699432373046875, "eval/post_ent_mean": 32.97332763671875, "eval/post_ent_min": 20.436660766601562, "eval/post_ent_std": 4.198337554931641, "eval/prior_ent_mag": 63.93595886230469, "eval/prior_ent_max": 63.93595886230469, "eval/prior_ent_mean": 36.57328796386719, "eval/prior_ent_min": 24.50499725341797, "eval/prior_ent_std": 6.305403709411621, "eval/rep_loss_mean": 9.088361740112305, "eval/rep_loss_std": 7.824501037597656, "eval/reward_avg": 0.546875, "eval/reward_loss_mean": 0.6005272269248962, "eval/reward_loss_std": 2.6518466472625732, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.983187675476074, "eval/reward_neg_acc": 0.9256197810173035, "eval/reward_neg_loss": 0.08800940215587616, "eval/reward_pos_acc": 0.2857142984867096, "eval/reward_pos_loss": 9.45976448059082, "eval/reward_pred": 0.25923651456832886, "eval/reward_rate": 0.0546875, "replay/size": 19922.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.159037453787667e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2922712734767368e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.237122297287, "timer/env.step_count": 700.0, "timer/env.step_total": 2.661088466644287, "timer/env.step_frac": 0.008863289277097942, "timer/env.step_avg": 0.0038015549523489818, "timer/env.step_min": 0.0022106170654296875, "timer/env.step_max": 0.024676799774169922, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 198.52405834197998, "timer/replay._sample_frac": 0.6612242244495223, "timer/replay._sample_avg": 0.0177253623519625, "timer/replay._sample_min": 0.0006530284881591797, "timer/replay._sample_max": 0.04686403274536133, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.07654213905334, "timer/agent.policy_frac": 0.659733681909338, "timer/agent.policy_avg": 0.2829664887700762, "timer/agent.policy_min": 0.0028824806213378906, "timer/agent.policy_max": 0.3297688961029053, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09407544136047363, "timer/dataset_train_frac": 0.000313337140459675, "timer/dataset_train_avg": 0.00013439348765781947, "timer/dataset_train_min": 8.296966552734375e-05, "timer/dataset_train_max": 0.000957489013671875, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.2563202381134, "timer/agent.train_frac": 0.32726239675593, "timer/agent.train_avg": 0.14036617176873342, "timer/agent.train_min": 0.10165739059448242, "timer/agent.train_max": 0.4433279037475586, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5084302425384521, "timer/agent.report_frac": 0.001693428975897983, "timer/agent.report_avg": 0.2542151212692261, "timer/agent.report_min": 0.10768795013427734, "timer/agent.report_max": 0.4007422924041748, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00016188621520996094, "timer/dataset_eval_frac": 5.391945338780107e-07, "timer/dataset_eval_avg": 0.00016188621520996094, "timer/dataset_eval_min": 0.00016188621520996094, "timer/dataset_eval_max": 0.00016188621520996094, "fps": 9.325753583811167}
+{"step": 80584, "episode/length": 629.0, "episode/score": 920.0, "episode/reward_rate": 0.10317460317460317}
+{"step": 82548, "episode/length": 490.0, "episode/score": 470.0, "episode/reward_rate": 0.09572301425661914}
+{"step": 82712, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.680182857789855, "train/action_min": 0.0, "train/action_std": 2.9401387373606362, "train/actor_opt_grad_norm": 0.016122847566030163, "train/actor_opt_grad_steps": 19230.0, "train/actor_opt_loss": 0.006126650488442755, "train/adv_mag": 1.07448882382849, "train/adv_max": 1.0608940400939058, "train/adv_mean": 0.008308607602726703, "train/adv_min": -0.6054565893567126, "train/adv_std": 0.0711114878995695, "train/cont_avg": 0.9981034873188406, "train/cont_loss_mean": 0.0005518329941575454, "train/cont_loss_std": 0.013745425235791354, "train/cont_neg_acc": 0.9472222223877906, "train/cont_neg_loss": 0.14852364784480113, "train/cont_pos_acc": 0.9999290324639583, "train/cont_pos_loss": 0.0002694691063874106, "train/cont_pred": 0.9980872325275255, "train/cont_rate": 0.9981034873188406, "train/dyn_loss_mean": 4.067684809366862, "train/dyn_loss_std": 5.154006543366806, "train/extr_critic_critic_opt_grad_norm": 2.000892240068187, "train/extr_critic_critic_opt_grad_steps": 19230.0, "train/extr_critic_critic_opt_loss": 1.759823543438013, "train/extr_critic_mag": 220.54757425059444, "train/extr_critic_max": 220.54757425059444, "train/extr_critic_mean": 75.65188930345619, "train/extr_critic_min": 0.07434531743975653, "train/extr_critic_std": 53.12078979049904, "train/extr_return_normed_mag": 1.7100025881891665, "train/extr_return_normed_max": 1.7100025881891665, "train/extr_return_normed_mean": 0.44497636846010236, "train/extr_return_normed_min": -0.013859812858635965, "train/extr_return_normed_std": 0.3293449915405633, "train/extr_return_rate": 0.9527410320613695, "train/extr_return_raw_mag": 289.741777724114, "train/extr_return_raw_max": 289.741777724114, "train/extr_return_raw_mean": 77.04978528230086, "train/extr_return_raw_min": 0.021815984550377598, "train/extr_return_raw_std": 55.326535929804265, "train/extr_reward_mag": 123.34293264582537, "train/extr_reward_max": 123.34293264582537, "train/extr_reward_mean": 0.6145208745762922, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.10797603579535, "train/image_loss_mean": 3.370902254961539, "train/image_loss_std": 2.6114262221516045, "train/model_loss_mean": 5.871128659317459, "train/model_loss_std": 5.182072784589685, "train/model_opt_grad_norm": 19.711752089901246, "train/model_opt_grad_steps": 19230.0, "train/model_opt_loss": 5.871128659317459, "train/policy_entropy_mag": 2.0954295085824053, "train/policy_entropy_max": 2.0954295085824053, "train/policy_entropy_mean": 1.0476635081180627, "train/policy_entropy_min": 0.07782971578231757, "train/policy_entropy_std": 0.4561647595702738, "train/policy_logprob_mag": 6.761070638463117, "train/policy_logprob_max": -0.010235101402993652, "train/policy_logprob_mean": -1.0470533319141553, "train/policy_logprob_min": -6.761070638463117, "train/policy_logprob_std": 1.0999399665473164, "train/policy_randomness_mag": 0.9536710623381794, "train/policy_randomness_max": 0.9536710623381794, "train/policy_randomness_mean": 0.47681220674860303, "train/policy_randomness_min": 0.03542183004859565, "train/policy_randomness_std": 0.20760952908059824, "train/post_ent_mag": 46.4694940318232, "train/post_ent_max": 46.4694940318232, "train/post_ent_mean": 35.46789589481077, "train/post_ent_min": 23.837957520415817, "train/post_ent_std": 4.075579850570016, "train/prior_ent_mag": 64.20557641291964, "train/prior_ent_max": 64.20557641291964, "train/prior_ent_mean": 39.34522319185561, "train/prior_ent_min": 27.690893560216047, "train/prior_ent_std": 6.146872181823288, "train/rep_loss_mean": 4.067684809366862, "train/rep_loss_std": 5.154006543366806, "train/reward_avg": 0.8646116394927537, "train/reward_loss_mean": 0.05906375006273173, "train/reward_loss_std": 0.25756051197000174, "train/reward_max_data": 134.7826086956522, "train/reward_max_pred": 101.02776948956476, "train/reward_neg_acc": 0.963950949302618, "train/reward_neg_loss": 0.01029515181047221, "train/reward_pos_acc": 0.9872643006020698, "train/reward_pos_loss": 0.7469811975092128, "train/reward_pred": 0.7362684046012767, "train/reward_rate": 0.06633548460144928, "train_stats/mean_log_entropy": 1.061612069606781, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.006503930315375328, "report/cont_loss_std": 0.19789491593837738, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 3.3082070350646973, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.2672250856412575e-05, "report/cont_pred": 0.999222993850708, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.0976860523223877, "report/dyn_loss_std": 5.0987772941589355, "report/image_loss_mean": 3.091712474822998, "report/image_loss_std": 2.022623062133789, "report/model_loss_mean": 5.013673782348633, "report/model_loss_std": 4.5659499168396, "report/post_ent_mag": 46.57277297973633, "report/post_ent_max": 46.57277297973633, "report/post_ent_mean": 35.03668212890625, "report/post_ent_min": 24.486764907836914, "report/post_ent_std": 4.396093368530273, "report/prior_ent_mag": 64.24363708496094, "report/prior_ent_max": 64.24363708496094, "report/prior_ent_mean": 38.31000900268555, "report/prior_ent_min": 28.065296173095703, "report/prior_ent_std": 6.251310348510742, "report/rep_loss_mean": 3.0976860523223877, "report/rep_loss_std": 5.0987772941589355, "report/reward_avg": 0.859375, "report/reward_loss_mean": 0.05684583634138107, "report/reward_loss_std": 0.22322560846805573, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.44680404663086, "report/reward_neg_acc": 0.9776595234870911, "report/reward_neg_loss": 0.004322895780205727, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6446025371551514, "report/reward_pred": 0.8070400953292847, "report/reward_rate": 0.08203125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.008395305834710598, "eval/cont_loss_std": 0.24482779204845428, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.2862396240234375, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.379040051891934e-05, "eval/cont_pred": 0.9995244741439819, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 10.46327018737793, "eval/dyn_loss_std": 8.233497619628906, "eval/image_loss_mean": 7.760234832763672, "eval/image_loss_std": 5.570594787597656, "eval/model_loss_mean": 14.635825157165527, "eval/model_loss_std": 10.412455558776855, "eval/post_ent_mag": 43.02741241455078, "eval/post_ent_max": 43.02741241455078, "eval/post_ent_mean": 32.60786437988281, "eval/post_ent_min": 22.6507511138916, "eval/post_ent_std": 4.218898773193359, "eval/prior_ent_mag": 64.24363708496094, "eval/prior_ent_max": 64.24363708496094, "eval/prior_ent_mean": 36.44822692871094, "eval/prior_ent_min": 27.437368392944336, "eval/prior_ent_std": 6.050859451293945, "eval/rep_loss_mean": 10.46327018737793, "eval/rep_loss_std": 8.233497619628906, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.5892334580421448, "eval/reward_loss_std": 2.520632266998291, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997171401977539, "eval/reward_neg_acc": 0.9110651612281799, "eval/reward_neg_loss": 0.09205857664346695, "eval/reward_pos_acc": 0.22807016968727112, "eval/reward_pos_loss": 9.023761749267578, "eval/reward_pred": 0.2574419379234314, "eval/reward_rate": 0.0556640625, "replay/size": 20615.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.892913466064101e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1173935679646282e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1026859283447266e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3758113384247, "timer/env.step_count": 693.0, "timer/env.step_total": 2.5999677181243896, "timer/env.step_frac": 0.008655716006356723, "timer/env.step_avg": 0.003751757169010663, "timer/env.step_min": 0.0015578269958496094, "timer/env.step_max": 0.020209550857543945, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 206.65408730506897, "timer/replay._sample_frac": 0.6879851156597887, "timer/replay._sample_avg": 0.018637634136460045, "timer/replay._sample_min": 0.00054931640625, "timer/replay._sample_max": 0.05072188377380371, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11995506286621094, "timer/agent.save_frac": 0.00039934994209990185, "timer/agent.save_avg": 0.11995506286621094, "timer/agent.save_min": 0.11995506286621094, "timer/agent.save_max": 0.11995506286621094, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.2082748413086, "timer/agent.policy_frac": 0.6598676303465498, "timer/agent.policy_avg": 0.28601482661083494, "timer/agent.policy_min": 0.002785205841064453, "timer/agent.policy_max": 0.41764307022094727, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09383654594421387, "timer/dataset_train_frac": 0.0003123971451832084, "timer/dataset_train_avg": 0.0001354062712037718, "timer/dataset_train_min": 8.153915405273438e-05, "timer/dataset_train_max": 0.0016374588012695312, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.23166847229004, "timer/agent.train_frac": 0.3270292239397908, "timer/agent.train_avg": 0.14174843935395387, "timer/agent.train_min": 0.10364222526550293, "timer/agent.train_max": 0.4583621025085449, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4956948757171631, "timer/agent.report_frac": 0.0016502489781331897, "timer/agent.report_avg": 0.24784743785858154, "timer/agent.report_min": 0.1032707691192627, "timer/agent.report_max": 0.3924241065979004, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.699562072753906e-05, "timer/dataset_eval_frac": 2.2303933339045416e-07, "timer/dataset_eval_avg": 6.699562072753906e-05, "timer/dataset_eval_min": 6.699562072753906e-05, "timer/dataset_eval_max": 6.699562072753906e-05, "fps": 9.228227257744729}
+{"step": 85080, "episode/length": 632.0, "episode/score": 810.0, "episode/reward_rate": 0.10900473933649289}
+{"step": 85492, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.775394984654018, "train/action_min": 0.0, "train/action_std": 2.949852068083627, "train/actor_opt_grad_norm": 0.013882608572021126, "train/actor_opt_grad_steps": 19925.0, "train/actor_opt_loss": 0.006943120774979304, "train/adv_mag": 1.133203346814428, "train/adv_max": 1.1200490755694252, "train/adv_mean": 0.009547600375455139, "train/adv_min": -0.5718355762107031, "train/adv_std": 0.06819625800209386, "train/cont_avg": 0.9982142857142857, "train/cont_loss_mean": 0.00032986306955292224, "train/cont_loss_std": 0.008137755932771792, "train/cont_neg_acc": 0.9690909093076533, "train/cont_neg_loss": 0.0915945194742645, "train/cont_pos_acc": 0.9999160332339151, "train/cont_pos_loss": 0.00016119020325098583, "train/cont_pred": 0.9981860339641571, "train/cont_rate": 0.9982142857142857, "train/dyn_loss_mean": 3.4627051659992762, "train/dyn_loss_std": 5.26736741747175, "train/extr_critic_critic_opt_grad_norm": 1.6190885407584055, "train/extr_critic_critic_opt_grad_steps": 19925.0, "train/extr_critic_critic_opt_loss": 1.6425897836685182, "train/extr_critic_mag": 229.9243192400251, "train/extr_critic_max": 229.9243192400251, "train/extr_critic_mean": 79.8278751373291, "train/extr_critic_min": 0.1784470353807722, "train/extr_critic_std": 55.248291860307965, "train/extr_return_normed_mag": 1.8275124021938869, "train/extr_return_normed_max": 1.8275124021938869, "train/extr_return_normed_mean": 0.45065310278109144, "train/extr_return_normed_min": -0.01604430302977562, "train/extr_return_normed_std": 0.3334868616291455, "train/extr_return_rate": 0.9468638820307596, "train/extr_return_raw_mag": 321.75794830322263, "train/extr_return_raw_max": 321.75794830322263, "train/extr_return_raw_mean": 81.49431005205427, "train/extr_return_raw_min": 0.0991102250026805, "train/extr_return_raw_std": 58.15151269095285, "train/extr_reward_mag": 153.70553031648907, "train/extr_reward_max": 153.70553031648907, "train/extr_reward_mean": 0.6943359928471702, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.8867388027054925, "train/image_loss_mean": 3.186331704684666, "train/image_loss_std": 2.505388743536813, "train/model_loss_mean": 5.316948202678136, "train/model_loss_std": 5.158122307913644, "train/model_opt_grad_norm": 18.090511975969587, "train/model_opt_grad_steps": 19925.0, "train/model_opt_loss": 5.316948202678136, "train/policy_entropy_mag": 2.0909259285245625, "train/policy_entropy_max": 2.0909259285245625, "train/policy_entropy_mean": 1.0402007017816817, "train/policy_entropy_min": 0.076026052236557, "train/policy_entropy_std": 0.474215378505843, "train/policy_logprob_mag": 6.771311739512853, "train/policy_logprob_max": -0.009947120118886233, "train/policy_logprob_mean": -1.04118270277977, "train/policy_logprob_min": -6.771311739512853, "train/policy_logprob_std": 1.1008567520550319, "train/policy_randomness_mag": 0.9516213944980076, "train/policy_randomness_max": 0.9516213944980076, "train/policy_randomness_mean": 0.47341574132442477, "train/policy_randomness_min": 0.034600947265114104, "train/policy_randomness_std": 0.2158247198377337, "train/post_ent_mag": 46.80123868669782, "train/post_ent_max": 46.80123868669782, "train/post_ent_mean": 34.88821144104004, "train/post_ent_min": 23.44713764190674, "train/post_ent_std": 4.232352266992842, "train/prior_ent_mag": 64.8409467969622, "train/prior_ent_max": 64.8409467969622, "train/prior_ent_mean": 38.590733010428295, "train/prior_ent_min": 26.618141855512345, "train/prior_ent_std": 6.4421029431479315, "train/rep_loss_mean": 3.4627051659992762, "train/rep_loss_std": 5.26736741747175, "train/reward_avg": 0.9165736607142857, "train/reward_loss_mean": 0.05266359419162784, "train/reward_loss_std": 0.22625134480851036, "train/reward_max_data": 160.42857142857142, "train/reward_max_pred": 137.0326196534293, "train/reward_neg_acc": 0.9705171014581407, "train/reward_neg_loss": 0.007323578096527074, "train/reward_pos_acc": 0.9947803275925773, "train/reward_pos_loss": 0.6812397173472813, "train/reward_pred": 0.8158085503748485, "train/reward_rate": 0.06736886160714285, "train_stats/mean_log_entropy": 1.043893575668335, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.735497441288317e-06, "report/cont_loss_std": 5.527230678126216e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0010041502537205815, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.758552111321478e-06, "report/cont_pred": 0.9990206956863403, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.3127269744873047, "report/dyn_loss_std": 5.333271026611328, "report/image_loss_mean": 3.1093358993530273, "report/image_loss_std": 2.3040196895599365, "report/model_loss_mean": 5.155540466308594, "report/model_loss_std": 5.090321063995361, "report/post_ent_mag": 42.50774383544922, "report/post_ent_max": 42.50774383544922, "report/post_ent_mean": 34.322593688964844, "report/post_ent_min": 24.643077850341797, "report/post_ent_std": 3.602731943130493, "report/prior_ent_mag": 64.30488586425781, "report/prior_ent_max": 64.30488586425781, "report/prior_ent_mean": 38.08131408691406, "report/prior_ent_min": 24.004493713378906, "report/prior_ent_std": 5.942432880401611, "report/rep_loss_mean": 3.3127269744873047, "report/rep_loss_std": 5.333271026611328, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.058564193546772, "report/reward_loss_std": 0.19156396389007568, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.98659133911133, "report/reward_neg_acc": 0.9752421975135803, "report/reward_neg_loss": 0.004134975373744965, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5908246636390686, "report/reward_pred": 0.9554710984230042, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.6272279879103735e-07, "eval/cont_loss_std": 4.694748440670082e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6272279879103735e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.45529842376709, "eval/dyn_loss_std": 9.358719825744629, "eval/image_loss_mean": 8.175448417663574, "eval/image_loss_std": 5.206338405609131, "eval/model_loss_mean": 16.46617317199707, "eval/model_loss_std": 10.659469604492188, "eval/post_ent_mag": 44.22074508666992, "eval/post_ent_max": 44.22074508666992, "eval/post_ent_mean": 32.53377151489258, "eval/post_ent_min": 19.285688400268555, "eval/post_ent_std": 4.055627346038818, "eval/prior_ent_mag": 64.30488586425781, "eval/prior_ent_max": 64.30488586425781, "eval/prior_ent_mean": 36.850433349609375, "eval/prior_ent_min": 26.824268341064453, "eval/prior_ent_std": 5.332286834716797, "eval/rep_loss_mean": 12.45529842376709, "eval/rep_loss_std": 9.358719825744629, "eval/reward_avg": 0.80078125, "eval/reward_loss_mean": 0.8175454139709473, "eval/reward_loss_std": 2.934680700302124, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002779006958008, "eval/reward_neg_acc": 0.9033970832824707, "eval/reward_neg_loss": 0.10057874023914337, "eval/reward_pos_acc": 0.24390242993831635, "eval/reward_pos_loss": 9.05391788482666, "eval/reward_pred": 0.32408028841018677, "eval/reward_rate": 0.080078125, "replay/size": 21310.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.6963314358279e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.074341561296861e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2707633972168, "timer/env.step_count": 695.0, "timer/env.step_total": 2.522470474243164, "timer/env.step_frac": 0.008400652949705541, "timer/env.step_avg": 0.003629453919774337, "timer/env.step_min": 0.0021584033966064453, "timer/env.step_max": 0.02185964584350586, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 198.16622352600098, "timer/replay._sample_frac": 0.6599584364590781, "timer/replay._sample_avg": 0.01782070355449649, "timer/replay._sample_min": 0.0005171298980712891, "timer/replay._sample_max": 0.05997157096862793, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 198.5512409210205, "timer/agent.policy_frac": 0.6612406705023246, "timer/agent.policy_avg": 0.2856852387352813, "timer/agent.policy_min": 0.002714872360229492, "timer/agent.policy_max": 0.34047365188598633, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.0870199203491211, "timer/dataset_train_frac": 0.0002898048393542922, "timer/dataset_train_avg": 0.000125208518487944, "timer/dataset_train_min": 7.390975952148438e-05, "timer/dataset_train_max": 0.0026826858520507812, "timer/agent.train_count": 695.0, "timer/agent.train_total": 97.92832136154175, "timer/agent.train_frac": 0.3261333879249379, "timer/agent.train_avg": 0.14090405951300972, "timer/agent.train_min": 0.10082411766052246, "timer/agent.train_max": 0.44608068466186523, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4982478618621826, "timer/agent.report_frac": 0.0016593285880552727, "timer/agent.report_avg": 0.2491239309310913, "timer/agent.report_min": 0.10329198837280273, "timer/agent.report_max": 0.3949558734893799, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.72747802734375e-05, "timer/dataset_eval_frac": 3.2395688202502883e-07, "timer/dataset_eval_avg": 9.72747802734375e-05, "timer/dataset_eval_min": 9.72747802734375e-05, "timer/dataset_eval_max": 9.72747802734375e-05, "fps": 9.257976725930135}
+{"step": 88336, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.567914935904489, "train/action_min": 0.0, "train/action_std": 3.022143206126253, "train/actor_opt_grad_norm": 0.01134955454748911, "train/actor_opt_grad_steps": 20630.0, "train/actor_opt_loss": 0.005093365087023031, "train/adv_mag": 0.9934577135972573, "train/adv_max": 0.9898039060579219, "train/adv_mean": 0.007343775817376732, "train/adv_min": -0.5797566922617631, "train/adv_std": 0.06042603977864057, "train/cont_avg": 0.9984319982394366, "train/cont_loss_mean": 0.00046275675018497283, "train/cont_loss_std": 0.01173830637140993, "train/cont_neg_acc": 0.9502923985322317, "train/cont_neg_loss": 0.16393673737707504, "train/cont_pos_acc": 0.9999448564690603, "train/cont_pos_loss": 0.00021231186907615167, "train/cont_pred": 0.998412375718775, "train/cont_rate": 0.9984319982394366, "train/dyn_loss_mean": 3.4179502507330666, "train/dyn_loss_std": 5.291034080612827, "train/extr_critic_critic_opt_grad_norm": 1.5874383407579342, "train/extr_critic_critic_opt_grad_steps": 20630.0, "train/extr_critic_critic_opt_loss": 1.617567242031366, "train/extr_critic_mag": 231.34243623975297, "train/extr_critic_max": 231.34243623975297, "train/extr_critic_mean": 82.60411044913279, "train/extr_critic_min": 0.07238019855929093, "train/extr_critic_std": 55.474034752644286, "train/extr_return_normed_mag": 1.6280984374838816, "train/extr_return_normed_max": 1.6280984374838816, "train/extr_return_normed_mean": 0.44786420464515686, "train/extr_return_normed_min": -0.016148324767258804, "train/extr_return_normed_std": 0.31963013322420525, "train/extr_return_rate": 0.9572046012945579, "train/extr_return_raw_mag": 297.7919960559254, "train/extr_return_raw_max": 297.7919960559254, "train/extr_return_raw_mean": 83.93421479346047, "train/extr_return_raw_min": 0.03653182764865563, "train/extr_return_raw_std": 57.80627806757538, "train/extr_reward_mag": 122.71499244260116, "train/extr_reward_max": 122.71499244260116, "train/extr_reward_mean": 0.6508397854549784, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.233166291680135, "train/image_loss_mean": 3.0099713315426464, "train/image_loss_std": 2.3459423897971567, "train/model_loss_mean": 5.115659297352106, "train/model_loss_std": 5.022584162967306, "train/model_opt_grad_norm": 18.333776903824067, "train/model_opt_grad_steps": 20630.0, "train/model_opt_loss": 5.115659297352106, "train/policy_entropy_mag": 2.091102351605053, "train/policy_entropy_max": 2.091102351605053, "train/policy_entropy_mean": 1.0124543166496385, "train/policy_entropy_min": 0.07672371641850807, "train/policy_entropy_std": 0.4962724333917591, "train/policy_logprob_mag": 6.781415025952836, "train/policy_logprob_max": -0.010062938713481729, "train/policy_logprob_mean": -1.0127233317200566, "train/policy_logprob_min": -6.781415025952836, "train/policy_logprob_std": 1.1041879855411154, "train/policy_randomness_mag": 0.9517016880948779, "train/policy_randomness_max": 0.9517016880948779, "train/policy_randomness_mean": 0.4607878092309119, "train/policy_randomness_min": 0.03491846786838182, "train/policy_randomness_std": 0.2258633171588602, "train/post_ent_mag": 46.518422301386444, "train/post_ent_max": 46.518422301386444, "train/post_ent_mean": 34.58817135448187, "train/post_ent_min": 23.150239514632965, "train/post_ent_std": 4.252405425192604, "train/prior_ent_mag": 65.4147651564907, "train/prior_ent_max": 65.4147651564907, "train/prior_ent_mean": 38.175288992868346, "train/prior_ent_min": 25.829211382798746, "train/prior_ent_std": 6.5595623607366855, "train/rep_loss_mean": 3.4179502507330666, "train/rep_loss_std": 5.291034080612827, "train/reward_avg": 0.8701034330985915, "train/reward_loss_mean": 0.054455049729473154, "train/reward_loss_std": 0.23336405202116764, "train/reward_max_data": 133.5211267605634, "train/reward_max_pred": 99.16210847505381, "train/reward_neg_acc": 0.9712776491339777, "train/reward_neg_loss": 0.007172333643915997, "train/reward_pos_acc": 0.9899798270682214, "train/reward_pos_loss": 0.708788168262428, "train/reward_pred": 0.7486644374652648, "train/reward_rate": 0.0673828125, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.1802432456752285e-05, "report/cont_loss_std": 0.00046793115325272083, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009973685257136822, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.3271250029210933e-06, "report/cont_pred": 0.9980639219284058, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.5004544258117676, "report/dyn_loss_std": 5.127708911895752, "report/image_loss_mean": 2.801619052886963, "report/image_loss_std": 2.352187395095825, "report/model_loss_mean": 4.9329304695129395, "report/model_loss_std": 4.945231914520264, "report/post_ent_mag": 47.16725158691406, "report/post_ent_max": 47.16725158691406, "report/post_ent_mean": 34.8140983581543, "report/post_ent_min": 24.357027053833008, "report/post_ent_std": 4.5653157234191895, "report/prior_ent_mag": 65.76176452636719, "report/prior_ent_max": 65.76176452636719, "report/prior_ent_mean": 38.632720947265625, "report/prior_ent_min": 23.398269653320312, "report/prior_ent_std": 7.054904937744141, "report/rep_loss_mean": 3.5004544258117676, "report/rep_loss_std": 5.127708911895752, "report/reward_avg": 0.60546875, "report/reward_loss_mean": 0.031016720458865166, "report/reward_loss_std": 0.126032754778862, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.31940460205078, "report/reward_neg_acc": 0.985567033290863, "report/reward_neg_loss": 0.0021059091668576, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.550340473651886, "report/reward_pred": 0.5559521913528442, "report/reward_rate": 0.052734375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.029412806034088135, "eval/cont_loss_std": 0.5961164236068726, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.140796661376953, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0026408678386360407, "eval/cont_pred": 0.9982802867889404, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.932558059692383, "eval/dyn_loss_std": 10.2595796585083, "eval/image_loss_mean": 7.118967056274414, "eval/image_loss_std": 5.452351093292236, "eval/model_loss_mean": 14.919666290283203, "eval/model_loss_std": 11.414679527282715, "eval/post_ent_mag": 43.2578125, "eval/post_ent_max": 43.2578125, "eval/post_ent_mean": 30.86147689819336, "eval/post_ent_min": 21.443016052246094, "eval/post_ent_std": 4.034895896911621, "eval/prior_ent_mag": 65.76176452636719, "eval/prior_ent_max": 65.76176452636719, "eval/prior_ent_mean": 35.406227111816406, "eval/prior_ent_min": 25.8897762298584, "eval/prior_ent_std": 6.087245464324951, "eval/rep_loss_mean": 11.932558059692383, "eval/rep_loss_std": 10.2595796585083, "eval/reward_avg": 0.56640625, "eval/reward_loss_mean": 0.611751914024353, "eval/reward_loss_std": 2.5725948810577393, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004046440124512, "eval/reward_neg_acc": 0.9254658818244934, "eval/reward_neg_loss": 0.12408047169446945, "eval/reward_pos_acc": 0.32758620381355286, "eval/reward_pos_loss": 8.734003067016602, "eval/reward_pred": 0.3249731659889221, "eval/reward_rate": 0.056640625, "replay/size": 22021.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.834045624766504e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4411791132136907e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5795230865478516e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.04353404045105, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8771486282348633, "timer/env.step_frac": 0.009589103919323168, "timer/env.step_avg": 0.004046622543227656, "timer/env.step_min": 0.0026001930236816406, "timer/env.step_max": 0.010364294052124023, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 188.8764054775238, "timer/replay._sample_frac": 0.6294966698134544, "timer/replay._sample_avg": 0.016603059553228182, "timer/replay._sample_min": 0.008570432662963867, "timer/replay._sample_max": 0.044176578521728516, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.85074949264526, "timer/agent.policy_frac": 0.659406809499756, "timer/agent.policy_avg": 0.2782710963328344, "timer/agent.policy_min": 0.003321409225463867, "timer/agent.policy_max": 0.3131403923034668, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09885263442993164, "timer/dataset_train_frac": 0.00032946097220880154, "timer/dataset_train_avg": 0.00013903324111101496, "timer/dataset_train_min": 8.440017700195312e-05, "timer/dataset_train_max": 0.0005693435668945312, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.1444251537323, "timer/agent.train_frac": 0.3271006171407804, "timer/agent.train_avg": 0.13803716617965162, "timer/agent.train_min": 0.10032939910888672, "timer/agent.train_max": 0.4308195114135742, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4927053451538086, "timer/agent.report_frac": 0.0016421128578207702, "timer/agent.report_avg": 0.2463526725769043, "timer/agent.report_min": 0.09713602066040039, "timer/agent.report_max": 0.3955693244934082, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010251998901367188, "timer/dataset_eval_frac": 3.416837138035123e-07, "timer/dataset_eval_avg": 0.00010251998901367188, "timer/dataset_eval_min": 0.00010251998901367188, "timer/dataset_eval_max": 0.00010251998901367188, "fps": 9.478266353226136}
+{"step": 88572, "episode/length": 872.0, "episode/score": 1560.0, "episode/reward_rate": 0.08018327605956473}
+{"step": 91136, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.693218994140625, "train/action_min": 0.0, "train/action_std": 3.0312301533562795, "train/actor_opt_grad_norm": 0.012299477375511613, "train/actor_opt_grad_steps": 21335.0, "train/actor_opt_loss": 0.006082109971404342, "train/adv_mag": 1.041261899471283, "train/adv_max": 1.0306019263608115, "train/adv_mean": 0.008402086869214795, "train/adv_min": -0.5811917645590646, "train/adv_std": 0.06259444473045213, "train/cont_avg": 0.9986188616071429, "train/cont_loss_mean": 0.00037854954059152337, "train/cont_loss_std": 0.010469676037410279, "train/cont_neg_acc": 0.91358024764944, "train/cont_neg_loss": 0.20207055040871771, "train/cont_pos_acc": 0.9999580221516745, "train/cont_pos_loss": 0.00012304129403202882, "train/cont_pred": 0.9986679128238133, "train/cont_rate": 0.9986188616071429, "train/dyn_loss_mean": 3.563232387815203, "train/dyn_loss_std": 5.371464402335031, "train/extr_critic_critic_opt_grad_norm": 1.7305593831198556, "train/extr_critic_critic_opt_grad_steps": 21335.0, "train/extr_critic_critic_opt_loss": 1.622043171950749, "train/extr_critic_mag": 248.97881447928293, "train/extr_critic_max": 248.97881447928293, "train/extr_critic_mean": 87.34091851370675, "train/extr_critic_min": 0.20633971350533623, "train/extr_critic_std": 59.45545528956822, "train/extr_return_normed_mag": 1.7675345284598214, "train/extr_return_normed_max": 1.7675345284598214, "train/extr_return_normed_mean": 0.4582645501409258, "train/extr_return_normed_min": -0.014545029249971517, "train/extr_return_normed_std": 0.33065829873085023, "train/extr_return_rate": 0.9621866175106594, "train/extr_return_raw_mag": 334.3002593994141, "train/extr_return_raw_max": 334.3002593994141, "train/extr_return_raw_mean": 88.91472407749721, "train/extr_return_raw_min": 0.2823618191294372, "train/extr_return_raw_std": 61.99231289454869, "train/extr_reward_mag": 152.89524282727922, "train/extr_reward_max": 152.89524282727922, "train/extr_reward_mean": 0.6803933326687132, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.574753575665611, "train/image_loss_mean": 3.036079273905073, "train/image_loss_std": 2.3970288566180638, "train/model_loss_mean": 5.22728716305324, "train/model_loss_std": 5.1407726219722205, "train/model_opt_grad_norm": 19.732102898188998, "train/model_opt_grad_steps": 21335.0, "train/model_opt_loss": 5.22728716305324, "train/policy_entropy_mag": 2.084104142870222, "train/policy_entropy_max": 2.084104142870222, "train/policy_entropy_mean": 0.9890265771320887, "train/policy_entropy_min": 0.07799056353313583, "train/policy_entropy_std": 0.4956915834120342, "train/policy_logprob_mag": 6.774886267525809, "train/policy_logprob_max": -0.010255592875182629, "train/policy_logprob_mean": -0.9881672399384634, "train/policy_logprob_min": -6.774886267525809, "train/policy_logprob_std": 1.100255537033081, "train/policy_randomness_mag": 0.9485166651862008, "train/policy_randomness_max": 0.9485166651862008, "train/policy_randomness_mean": 0.4501253915684564, "train/policy_randomness_min": 0.03549503508423056, "train/policy_randomness_std": 0.2255989609020097, "train/post_ent_mag": 47.313044684273855, "train/post_ent_max": 47.313044684273855, "train/post_ent_mean": 34.96125956944057, "train/post_ent_min": 23.087969834463937, "train/post_ent_std": 4.3726408515657695, "train/prior_ent_mag": 65.86022426060268, "train/prior_ent_max": 65.86022426060268, "train/prior_ent_mean": 38.58722163609096, "train/prior_ent_min": 25.9312009538923, "train/prior_ent_std": 6.738314424242292, "train/rep_loss_mean": 3.563232387815203, "train/rep_loss_std": 5.371464402335031, "train/reward_avg": 0.8904854910714286, "train/reward_loss_mean": 0.052889981732836794, "train/reward_loss_std": 0.22801871097513607, "train/reward_max_data": 158.14285714285714, "train/reward_max_pred": 125.02053014210293, "train/reward_neg_acc": 0.9712925263813563, "train/reward_neg_loss": 0.007017798733431846, "train/reward_pos_acc": 0.9922444624560219, "train/reward_pos_loss": 0.6896981009415217, "train/reward_pred": 0.7835013449192048, "train/reward_rate": 0.06748046875, "train_stats/mean_log_entropy": 1.166473388671875, "report/cont_avg": 1.0, "report/cont_loss_mean": 0.00011885123967658728, "report/cont_loss_std": 0.003434121608734131, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00011885123967658728, "report/cont_pred": 0.9998868703842163, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.9367756843566895, "report/dyn_loss_std": 5.272195816040039, "report/image_loss_mean": 3.3561103343963623, "report/image_loss_std": 2.9792375564575195, "report/model_loss_mean": 5.807410717010498, "report/model_loss_std": 5.624081611633301, "report/post_ent_mag": 47.902427673339844, "report/post_ent_max": 47.902427673339844, "report/post_ent_mean": 35.04828643798828, "report/post_ent_min": 23.344392776489258, "report/post_ent_std": 4.521922588348389, "report/prior_ent_mag": 66.87738800048828, "report/prior_ent_max": 66.87738800048828, "report/prior_ent_mean": 39.35601043701172, "report/prior_ent_min": 25.84833526611328, "report/prior_ent_std": 7.392609119415283, "report/rep_loss_mean": 3.9367756843566895, "report/rep_loss_std": 5.272195816040039, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.08911622315645218, "report/reward_loss_std": 0.2593793570995331, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.784507751464844, "report/reward_neg_acc": 0.9459757804870605, "report/reward_neg_loss": 0.013918251730501652, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6720612049102783, "report/reward_pred": 1.0718227624893188, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.014807052910327911, "eval/cont_loss_std": 0.38662204146385193, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.096973419189453, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.0029045739211142063, "eval/cont_pred": 0.9976295232772827, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.105764389038086, "eval/dyn_loss_std": 9.760594367980957, "eval/image_loss_mean": 7.210860252380371, "eval/image_loss_std": 5.8278422355651855, "eval/model_loss_mean": 14.483709335327148, "eval/model_loss_std": 11.444717407226562, "eval/post_ent_mag": 46.53764724731445, "eval/post_ent_max": 46.53764724731445, "eval/post_ent_mean": 32.217098236083984, "eval/post_ent_min": 21.993785858154297, "eval/post_ent_std": 4.0657734870910645, "eval/prior_ent_mag": 66.87738800048828, "eval/prior_ent_max": 66.87738800048828, "eval/prior_ent_mean": 36.03619384765625, "eval/prior_ent_min": 25.581750869750977, "eval/prior_ent_std": 6.37252140045166, "eval/rep_loss_mean": 11.105764389038086, "eval/rep_loss_std": 9.760594367980957, "eval/reward_avg": 0.498046875, "eval/reward_loss_mean": 0.5945825576782227, "eval/reward_loss_std": 2.5896570682525635, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999238014221191, "eval/reward_neg_acc": 0.9126413464546204, "eval/reward_neg_loss": 0.13659776747226715, "eval/reward_pos_acc": 0.27450981736183167, "eval/reward_pos_loss": 9.33221435546875, "eval/reward_pred": 0.3801562190055847, "eval/reward_rate": 0.0498046875, "replay/size": 22721.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.132130214146206e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4219113758632115e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2218952178955078e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.158239364624, "timer/env.step_count": 700.0, "timer/env.step_total": 2.5304653644561768, "timer/env.step_frac": 0.008430437791122024, "timer/env.step_avg": 0.003614950520651681, "timer/env.step_min": 0.0023262500762939453, "timer/env.step_max": 0.02224588394165039, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 202.18333077430725, "timer/replay._sample_frac": 0.6735891415217841, "timer/replay._sample_avg": 0.018052083104848862, "timer/replay._sample_min": 0.0007255077362060547, "timer/replay._sample_max": 0.049744367599487305, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.159714937210083, "timer/agent.save_frac": 0.0005321024588502655, "timer/agent.save_avg": 0.159714937210083, "timer/agent.save_min": 0.159714937210083, "timer/agent.save_max": 0.159714937210083, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.20175218582153, "timer/agent.policy_frac": 0.6603242096747891, "timer/agent.policy_avg": 0.28314536026545933, "timer/agent.policy_min": 0.003062725067138672, "timer/agent.policy_max": 0.40227198600769043, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09491944313049316, "timer/dataset_train_frac": 0.0003162313429457041, "timer/dataset_train_avg": 0.0001355992044721331, "timer/dataset_train_min": 8.559226989746094e-05, "timer/dataset_train_max": 0.002787351608276367, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.17091369628906, "timer/agent.train_frac": 0.32706386439398627, "timer/agent.train_avg": 0.1402441624232701, "timer/agent.train_min": 0.10025286674499512, "timer/agent.train_max": 0.4455409049987793, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.48981690406799316, "timer/agent.report_frac": 0.0016318622640672442, "timer/agent.report_avg": 0.24490845203399658, "timer/agent.report_min": 0.10928606986999512, "timer/agent.report_max": 0.38053083419799805, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.745887756347656e-05, "timer/dataset_eval_frac": 1.9142862006755406e-07, "timer/dataset_eval_avg": 5.745887756347656e-05, "timer/dataset_eval_min": 5.745887756347656e-05, "timer/dataset_eval_max": 5.745887756347656e-05, "fps": 9.327614716077681}
+{"step": 91824, "episode/length": 812.0, "episode/score": 940.0, "episode/reward_rate": 0.08733087330873308}
+{"step": 93624, "episode/length": 449.0, "episode/score": 310.0, "episode/reward_rate": 0.06888888888888889}
+{"step": 93908, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.617654551630435, "train/action_min": 0.0, "train/action_std": 2.9630503239838974, "train/actor_opt_grad_norm": 0.011350236185218977, "train/actor_opt_grad_steps": 22030.0, "train/actor_opt_loss": 0.004916999546011262, "train/adv_mag": 0.8510683222093444, "train/adv_max": 0.8356282719667407, "train/adv_mean": 0.006625297299646975, "train/adv_min": -0.5495610781337904, "train/adv_std": 0.055126949820829475, "train/cont_avg": 0.9982025588768116, "train/cont_loss_mean": 0.0004954412258540004, "train/cont_loss_std": 0.012260840639219563, "train/cont_neg_acc": 0.9427672961972794, "train/cont_neg_loss": 0.13775722867666326, "train/cont_pos_acc": 0.9999148284179576, "train/cont_pos_loss": 0.0002611678912634706, "train/cont_pred": 0.9981894372166067, "train/cont_rate": 0.9982025588768116, "train/dyn_loss_mean": 3.5694480011428613, "train/dyn_loss_std": 5.422365976416546, "train/extr_critic_critic_opt_grad_norm": 1.6519307744675789, "train/extr_critic_critic_opt_grad_steps": 22030.0, "train/extr_critic_critic_opt_loss": 1.5897099488023398, "train/extr_critic_mag": 241.9724516937698, "train/extr_critic_max": 241.9724516937698, "train/extr_critic_mean": 87.01224440422611, "train/extr_critic_min": 0.2195976506108823, "train/extr_critic_std": 57.501401818316914, "train/extr_return_normed_mag": 1.4301549472670625, "train/extr_return_normed_max": 1.4301549472670625, "train/extr_return_normed_mean": 0.4403661167707996, "train/extr_return_normed_min": -0.014410494521354743, "train/extr_return_normed_std": 0.3067656196113946, "train/extr_return_rate": 0.9511822980383168, "train/extr_return_raw_mag": 279.63440671174425, "train/extr_return_raw_max": 279.63440671174425, "train/extr_return_raw_mean": 88.29353221948595, "train/extr_return_raw_min": 0.3264436604914026, "train/extr_return_raw_std": 59.34173407070879, "train/extr_reward_mag": 96.96313891203508, "train/extr_reward_max": 96.96313891203508, "train/extr_reward_mean": 0.6538344621658325, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.5796624923097915, "train/image_loss_mean": 3.0096808689228003, "train/image_loss_std": 2.4368612869926123, "train/model_loss_mean": 5.20474594572316, "train/model_loss_std": 5.212114334106445, "train/model_opt_grad_norm": 19.029354551564094, "train/model_opt_grad_steps": 22030.0, "train/model_opt_loss": 5.20474594572316, "train/policy_entropy_mag": 2.0886115060336348, "train/policy_entropy_max": 2.0886115060336348, "train/policy_entropy_mean": 1.033334627531577, "train/policy_entropy_min": 0.07795500485361487, "train/policy_entropy_std": 0.48432381688684656, "train/policy_logprob_mag": 6.778907057167827, "train/policy_logprob_max": -0.010264723237765871, "train/policy_logprob_mean": -1.0346655612406523, "train/policy_logprob_min": -6.778907057167827, "train/policy_logprob_std": 1.0973649215007173, "train/policy_randomness_mag": 0.9505680531695269, "train/policy_randomness_max": 0.9505680531695269, "train/policy_randomness_mean": 0.4702908504700315, "train/policy_randomness_min": 0.035478851339523346, "train/policy_randomness_std": 0.22042526607064233, "train/post_ent_mag": 47.55597084155981, "train/post_ent_max": 47.55597084155981, "train/post_ent_mean": 34.99931755618773, "train/post_ent_min": 23.37943632706352, "train/post_ent_std": 4.416795547457709, "train/prior_ent_mag": 66.39020560444266, "train/prior_ent_max": 66.39020560444266, "train/prior_ent_mean": 38.69438823755237, "train/prior_ent_min": 25.876248014146004, "train/prior_ent_std": 6.897796230039734, "train/rep_loss_mean": 3.5694480011428613, "train/rep_loss_std": 5.422365976416546, "train/reward_avg": 0.8605072463768116, "train/reward_loss_mean": 0.05290080523253351, "train/reward_loss_std": 0.2262240594279939, "train/reward_max_data": 107.3913043478261, "train/reward_max_pred": 76.38379810167396, "train/reward_neg_acc": 0.9715323422266089, "train/reward_neg_loss": 0.006294370677821554, "train/reward_pos_acc": 0.9911573753840681, "train/reward_pos_loss": 0.6830880080444225, "train/reward_pred": 0.748360765585001, "train/reward_rate": 0.0694916213768116, "train_stats/mean_log_entropy": 0.9012205004692078, "report/cont_avg": 1.0, "report/cont_loss_mean": 8.49503430799814e-06, "report/cont_loss_std": 0.0001563035766594112, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.49503430799814e-06, "report/cont_pred": 0.9999915361404419, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.679062843322754, "report/dyn_loss_std": 5.417480945587158, "report/image_loss_mean": 3.1310489177703857, "report/image_loss_std": 2.2668473720550537, "report/model_loss_mean": 5.401169776916504, "report/model_loss_std": 5.047359943389893, "report/post_ent_mag": 47.9703483581543, "report/post_ent_max": 47.9703483581543, "report/post_ent_mean": 35.584747314453125, "report/post_ent_min": 23.095314025878906, "report/post_ent_std": 4.599045276641846, "report/prior_ent_mag": 66.16879272460938, "report/prior_ent_max": 66.16879272460938, "report/prior_ent_mean": 40.069664001464844, "report/prior_ent_min": 24.724834442138672, "report/prior_ent_std": 6.883967876434326, "report/rep_loss_mean": 3.679062843322754, "report/rep_loss_std": 5.417480945587158, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.06267465651035309, "report/reward_loss_std": 0.2099679708480835, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.010091781616211, "report/reward_neg_acc": 0.9603429436683655, "report/reward_neg_loss": 0.009555128403007984, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6072956919670105, "report/reward_pred": 0.8617166876792908, "report/reward_rate": 0.0888671875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013329796493053436, "eval/cont_loss_std": 0.4263226091861725, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.648987770080566, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.082386446199962e-07, "eval/cont_pred": 0.9999992847442627, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.212403297424316, "eval/dyn_loss_std": 9.0389986038208, "eval/image_loss_mean": 8.824579238891602, "eval/image_loss_std": 5.055037498474121, "eval/model_loss_mean": 17.65557861328125, "eval/model_loss_std": 10.480133056640625, "eval/post_ent_mag": 44.8240966796875, "eval/post_ent_max": 44.8240966796875, "eval/post_ent_mean": 32.52935791015625, "eval/post_ent_min": 21.680908203125, "eval/post_ent_std": 4.070044994354248, "eval/prior_ent_mag": 66.16879272460938, "eval/prior_ent_max": 66.16879272460938, "eval/prior_ent_mean": 36.92356872558594, "eval/prior_ent_min": 26.747920989990234, "eval/prior_ent_std": 5.834650039672852, "eval/rep_loss_mean": 13.212403297424316, "eval/rep_loss_std": 9.0389986038208, "eval/reward_avg": 0.78125, "eval/reward_loss_mean": 0.8902285695075989, "eval/reward_loss_std": 3.1286661624908447, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.99851131439209, "eval/reward_neg_acc": 0.9057203531265259, "eval/reward_neg_loss": 0.12888047099113464, "eval/reward_pos_acc": 0.17499999701976776, "eval/reward_pos_loss": 9.874136924743652, "eval/reward_pred": 0.33234894275665283, "eval/reward_rate": 0.078125, "replay/size": 23414.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.044290341684141e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1331548250426807e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.5367431640625e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2245440483093, "timer/env.step_count": 693.0, "timer/env.step_total": 2.425971508026123, "timer/env.step_frac": 0.008080523581828668, "timer/env.step_avg": 0.0035006803867620824, "timer/env.step_min": 0.0020236968994140625, "timer/env.step_max": 0.01746845245361328, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 209.40714478492737, "timer/replay._sample_frac": 0.6975017497278022, "timer/replay._sample_avg": 0.018885925756216393, "timer/replay._sample_min": 0.00048422813415527344, "timer/replay._sample_max": 0.05603456497192383, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.70506811141968, "timer/agent.policy_frac": 0.6585240015540063, "timer/agent.policy_avg": 0.28528869857347716, "timer/agent.policy_min": 0.0028815269470214844, "timer/agent.policy_max": 0.33782458305358887, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08832621574401855, "timer/dataset_train_frac": 0.0002942005158972143, "timer/dataset_train_avg": 0.00012745485677347556, "timer/dataset_train_min": 7.867813110351562e-05, "timer/dataset_train_max": 0.0004000663757324219, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.69195246696472, "timer/agent.train_frac": 0.32872712915531693, "timer/agent.train_avg": 0.14241262982245992, "timer/agent.train_min": 0.10212135314941406, "timer/agent.train_max": 0.45160746574401855, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5159952640533447, "timer/agent.report_frac": 0.0017186978023033172, "timer/agent.report_avg": 0.25799763202667236, "timer/agent.report_min": 0.10810399055480957, "timer/agent.report_max": 0.40789127349853516, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.271766662597656e-05, "timer/dataset_eval_frac": 2.422109320091948e-07, "timer/dataset_eval_avg": 7.271766662597656e-05, "timer/dataset_eval_min": 7.271766662597656e-05, "timer/dataset_eval_max": 7.271766662597656e-05, "fps": 9.232859734901213}
+{"step": 96680, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.362411063058036, "train/action_min": 0.0, "train/action_std": 3.079093827520098, "train/actor_opt_grad_norm": 0.012254739346514856, "train/actor_opt_grad_steps": 22725.0, "train/actor_opt_loss": 0.004587236871988612, "train/adv_mag": 0.9362679196255548, "train/adv_max": 0.9224421305315835, "train/adv_mean": 0.006206107832258567, "train/adv_min": -0.5325785504920142, "train/adv_std": 0.0587648672450866, "train/cont_avg": 0.9986049107142857, "train/cont_loss_mean": 0.0005667253851596245, "train/cont_loss_std": 0.016674212165025893, "train/cont_neg_acc": 0.9283950626850128, "train/cont_neg_loss": 0.21672494118340385, "train/cont_pos_acc": 0.9999440840312412, "train/cont_pos_loss": 0.00022767077138082317, "train/cont_pred": 0.998596681867327, "train/cont_rate": 0.9986049107142857, "train/dyn_loss_mean": 3.603513506480626, "train/dyn_loss_std": 5.408013323375157, "train/extr_critic_critic_opt_grad_norm": 1.6907038756779262, "train/extr_critic_critic_opt_grad_steps": 22725.0, "train/extr_critic_critic_opt_loss": 1.594610367502485, "train/extr_critic_mag": 254.35634395054407, "train/extr_critic_max": 254.35634395054407, "train/extr_critic_mean": 88.02541803632464, "train/extr_critic_min": 0.060232971395765035, "train/extr_critic_std": 59.92641192844936, "train/extr_return_normed_mag": 1.6023550186838422, "train/extr_return_normed_max": 1.6023550186838422, "train/extr_return_normed_mean": 0.43799622399466376, "train/extr_return_normed_min": -0.01621020533410566, "train/extr_return_normed_std": 0.31570117750338145, "train/extr_return_rate": 0.9472135892936162, "train/extr_return_raw_mag": 318.0122344970703, "train/extr_return_raw_max": 318.0122344970703, "train/extr_return_raw_mean": 89.24481135777064, "train/extr_return_raw_min": 0.03371896524913609, "train/extr_return_raw_std": 62.01133728027344, "train/extr_reward_mag": 136.09378153937203, "train/extr_reward_max": 136.09378153937203, "train/extr_reward_mean": 0.6667208177702767, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.19135673557009, "train/image_loss_mean": 2.93214442389352, "train/image_loss_std": 2.287534773349762, "train/model_loss_mean": 5.1476663385118755, "train/model_loss_std": 5.070349322046552, "train/model_opt_grad_norm": 19.858770956311908, "train/model_opt_grad_steps": 22725.0, "train/model_opt_loss": 5.1476663385118755, "train/policy_entropy_mag": 2.086167049407959, "train/policy_entropy_max": 2.086167049407959, "train/policy_entropy_mean": 1.031161778313773, "train/policy_entropy_min": 0.07690270117350988, "train/policy_entropy_std": 0.4864310392311641, "train/policy_logprob_mag": 6.77853741645813, "train/policy_logprob_max": -0.010092565324157476, "train/policy_logprob_mean": -1.0293130840573992, "train/policy_logprob_min": -6.77853741645813, "train/policy_logprob_std": 1.092196912424905, "train/policy_randomness_mag": 0.9494555371148246, "train/policy_randomness_max": 0.9494555371148246, "train/policy_randomness_mean": 0.4693019458225795, "train/policy_randomness_min": 0.034999927346195496, "train/policy_randomness_std": 0.2213843041232654, "train/post_ent_mag": 47.39568121773856, "train/post_ent_max": 47.39568121773856, "train/post_ent_mean": 35.30495164053781, "train/post_ent_min": 23.389912932259694, "train/post_ent_std": 4.324703959056309, "train/prior_ent_mag": 66.6338744027274, "train/prior_ent_max": 66.6338744027274, "train/prior_ent_mean": 38.99191671098981, "train/prior_ent_min": 26.564060810634068, "train/prior_ent_std": 6.691815430777414, "train/rep_loss_mean": 3.603513506480626, "train/rep_loss_std": 5.408013323375157, "train/reward_avg": 0.9197823660714286, "train/reward_loss_mean": 0.05284710026213101, "train/reward_loss_std": 0.23116573276264327, "train/reward_max_data": 159.28571428571428, "train/reward_max_pred": 119.35387355259486, "train/reward_neg_acc": 0.9748478182724544, "train/reward_neg_loss": 0.006647139090845095, "train/reward_pos_acc": 0.9911043013845171, "train/reward_pos_loss": 0.6887430787086487, "train/reward_pred": 0.8047357431479862, "train/reward_rate": 0.06788504464285715, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00012778653763234615, "report/cont_loss_std": 0.0025346442125737667, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0009558401652611792, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001261660800082609, "report/cont_pred": 0.9979259967803955, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.1875429153442383, "report/dyn_loss_std": 5.107514381408691, "report/image_loss_mean": 1.9450902938842773, "report/image_loss_std": 1.8533194065093994, "report/model_loss_mean": 3.8915767669677734, "report/model_loss_std": 4.485436916351318, "report/post_ent_mag": 43.517433166503906, "report/post_ent_max": 43.517433166503906, "report/post_ent_mean": 34.51749801635742, "report/post_ent_min": 23.903898239135742, "report/post_ent_std": 4.200279235839844, "report/prior_ent_mag": 66.89983367919922, "report/prior_ent_max": 66.89983367919922, "report/prior_ent_mean": 37.55088424682617, "report/prior_ent_min": 26.571929931640625, "report/prior_ent_std": 6.616250514984131, "report/rep_loss_mean": 3.1875429153442383, "report/rep_loss_std": 5.107514381408691, "report/reward_avg": 0.693359375, "report/reward_loss_mean": 0.033833153545856476, "report/reward_loss_std": 0.1451769769191742, "report/reward_max_data": 200.0, "report/reward_max_pred": 193.81825256347656, "report/reward_neg_acc": 0.9773663282394409, "report/reward_neg_loss": 0.0037605897523462772, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5959588289260864, "report/reward_pred": 0.6678647994995117, "report/reward_rate": 0.05078125, "eval/cont_avg": 0.994140625, "eval/cont_loss_mean": 0.028191357851028442, "eval/cont_loss_std": 0.3435465395450592, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 2.434960126876831, "eval/cont_pos_acc": 0.9921414852142334, "eval/cont_pos_loss": 0.014006082899868488, "eval/cont_pred": 0.990695595741272, "eval/cont_rate": 0.994140625, "eval/dyn_loss_mean": 12.453315734863281, "eval/dyn_loss_std": 10.561174392700195, "eval/image_loss_mean": 7.810310363769531, "eval/image_loss_std": 6.283039569854736, "eval/model_loss_mean": 15.73721981048584, "eval/model_loss_std": 12.232057571411133, "eval/post_ent_mag": 47.70161437988281, "eval/post_ent_max": 47.70161437988281, "eval/post_ent_mean": 34.075347900390625, "eval/post_ent_min": 21.42279815673828, "eval/post_ent_std": 4.688958644866943, "eval/prior_ent_mag": 66.89983367919922, "eval/prior_ent_max": 66.89983367919922, "eval/prior_ent_mean": 36.906883239746094, "eval/prior_ent_min": 25.859800338745117, "eval/prior_ent_std": 6.697620391845703, "eval/rep_loss_mean": 12.453315734863281, "eval/rep_loss_std": 10.561174392700195, "eval/reward_avg": 0.33203125, "eval/reward_loss_mean": 0.4267275333404541, "eval/reward_loss_std": 2.191267728805542, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.995121955871582, "eval/reward_neg_acc": 0.9282827377319336, "eval/reward_neg_loss": 0.09274761378765106, "eval/reward_pos_acc": 0.20588235557079315, "eval/reward_pos_loss": 10.151436805725098, "eval/reward_pred": 0.25334689021110535, "eval/reward_rate": 0.033203125, "replay/size": 24107.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.606673555800753e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1142112131930705e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.71394300460815, "timer/env.step_count": 693.0, "timer/env.step_total": 2.5154058933258057, "timer/env.step_frac": 0.008392688935686688, "timer/env.step_avg": 0.0036297343338034713, "timer/env.step_min": 0.002231121063232422, "timer/env.step_max": 0.022484779357910156, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.92998695373535, "timer/replay._sample_frac": 0.6704058708094405, "timer/replay._sample_avg": 0.018121391319781327, "timer/replay._sample_min": 0.0005269050598144531, "timer/replay._sample_max": 0.061627864837646484, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.91496348381042, "timer/agent.policy_frac": 0.6603462004460948, "timer/agent.policy_avg": 0.28559157789871636, "timer/agent.policy_min": 0.0028388500213623047, "timer/agent.policy_max": 0.3291740417480469, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09006237983703613, "timer/dataset_train_frac": 0.0003004944612658591, "timer/dataset_train_avg": 0.00012996014406498722, "timer/dataset_train_min": 7.891654968261719e-05, "timer/dataset_train_max": 0.002824068069458008, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.32899856567383, "timer/agent.train_frac": 0.3280761568178428, "timer/agent.train_avg": 0.14188888681915415, "timer/agent.train_min": 0.10143375396728516, "timer/agent.train_max": 0.44821882247924805, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19944119453430176, "timer/agent.report_frac": 0.0006654384929006633, "timer/agent.report_avg": 0.09972059726715088, "timer/agent.report_min": 0.09961605072021484, "timer/agent.report_max": 0.09982514381408691, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011229515075683594, "timer/dataset_eval_frac": 3.7467442999510164e-07, "timer/dataset_eval_avg": 0.00011229515075683594, "timer/dataset_eval_min": 0.00011229515075683594, "timer/dataset_eval_max": 0.00011229515075683594, "fps": 9.24852639540458}
+{"step": 97248, "episode/length": 905.0, "episode/score": 750.0, "episode/reward_rate": 0.0739514348785872}
+{"step": 99196, "episode/length": 486.0, "episode/score": 510.0, "episode/reward_rate": 0.10472279260780287}
+{"step": 99528, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.201055822238116, "train/action_min": 0.0, "train/action_std": 3.0130446931006203, "train/actor_opt_grad_norm": 0.01202890942607757, "train/actor_opt_grad_steps": 23430.0, "train/actor_opt_loss": 0.0046453747462192685, "train/adv_mag": 0.9715403469515519, "train/adv_max": 0.9558017765971977, "train/adv_mean": 0.006148205254543376, "train/adv_min": -0.5525360720258363, "train/adv_std": 0.05824766098193719, "train/cont_avg": 0.9985007702464789, "train/cont_loss_mean": 0.00039474877339158975, "train/cont_loss_std": 0.010931469782053041, "train/cont_neg_acc": 0.9236111114422481, "train/cont_neg_loss": 0.1822236507695076, "train/cont_pos_acc": 0.9999448841726276, "train/cont_pos_loss": 0.00015600575271615128, "train/cont_pred": 0.9985066140201729, "train/cont_rate": 0.9985007702464789, "train/dyn_loss_mean": 3.5691624695146587, "train/dyn_loss_std": 5.4470298659633585, "train/extr_critic_critic_opt_grad_norm": 1.7017872031305876, "train/extr_critic_critic_opt_grad_steps": 23430.0, "train/extr_critic_critic_opt_loss": 1.5837046428465507, "train/extr_critic_mag": 258.18489891374617, "train/extr_critic_max": 258.18489891374617, "train/extr_critic_mean": 88.27955262090119, "train/extr_critic_min": 0.09152901340538347, "train/extr_critic_std": 60.944390740193114, "train/extr_return_normed_mag": 1.5316419206874472, "train/extr_return_normed_max": 1.5316419206874472, "train/extr_return_normed_mean": 0.4208882665130454, "train/extr_return_normed_min": -0.01646545086003525, "train/extr_return_normed_std": 0.30839263847176457, "train/extr_return_rate": 0.9456747434508632, "train/extr_return_raw_mag": 316.7308678425534, "train/extr_return_raw_max": 316.7308678425534, "train/extr_return_raw_mean": 89.53776700731734, "train/extr_return_raw_min": 0.20087488153031174, "train/extr_return_raw_std": 63.028599107769175, "train/extr_reward_mag": 127.78938903271312, "train/extr_reward_max": 127.78938903271312, "train/extr_reward_mean": 0.6706064977276494, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.1186857508941435, "train/image_loss_mean": 2.89979367860606, "train/image_loss_std": 2.332355287713064, "train/model_loss_mean": 5.091753029487502, "train/model_loss_std": 5.130369314005677, "train/model_opt_grad_norm": 18.57009668753181, "train/model_opt_grad_steps": 23430.0, "train/model_opt_loss": 5.091753029487502, "train/policy_entropy_mag": 2.088180483227045, "train/policy_entropy_max": 2.088180483227045, "train/policy_entropy_mean": 1.0544511398798984, "train/policy_entropy_min": 0.07674890294880934, "train/policy_entropy_std": 0.4935791861843055, "train/policy_logprob_mag": 6.769651775628748, "train/policy_logprob_max": -0.010067790366289481, "train/policy_logprob_mean": -1.0545425104423307, "train/policy_logprob_min": -6.769651775628748, "train/policy_logprob_std": 1.0950666699610965, "train/policy_randomness_mag": 0.9503718824453757, "train/policy_randomness_max": 0.9503718824453757, "train/policy_randomness_mean": 0.479901393954183, "train/policy_randomness_min": 0.03492993090144345, "train/policy_randomness_std": 0.2246375665278502, "train/post_ent_mag": 47.37980350977938, "train/post_ent_max": 47.37980350977938, "train/post_ent_mean": 35.442248707086264, "train/post_ent_min": 23.727126457321813, "train/post_ent_std": 4.308589764044318, "train/prior_ent_mag": 67.01428921121946, "train/prior_ent_max": 67.01428921121946, "train/prior_ent_mean": 39.10849611524125, "train/prior_ent_min": 26.35124555775817, "train/prior_ent_std": 6.7163567140068805, "train/rep_loss_mean": 3.5691624695146587, "train/rep_loss_std": 5.4470298659633585, "train/reward_avg": 0.8896346830985915, "train/reward_loss_mean": 0.05006716812265591, "train/reward_loss_std": 0.2159414014346163, "train/reward_max_data": 142.95774647887325, "train/reward_max_pred": 114.07592232126585, "train/reward_neg_acc": 0.9754194306655669, "train/reward_neg_loss": 0.006101694859852883, "train/reward_pos_acc": 0.9940771242262612, "train/reward_pos_loss": 0.6506366964796899, "train/reward_pred": 0.8004014815243197, "train/reward_rate": 0.06823558538732394, "train_stats/mean_log_entropy": 1.087759017944336, "report/cont_avg": 1.0, "report/cont_loss_mean": 6.905012810420885e-07, "report/cont_loss_std": 1.0475841918378137e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.905012810420885e-07, "report/cont_pred": 0.9999993443489075, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.306849479675293, "report/dyn_loss_std": 5.44002103805542, "report/image_loss_mean": 3.489574432373047, "report/image_loss_std": 2.038516044616699, "report/model_loss_mean": 6.134591102600098, "report/model_loss_std": 4.901136875152588, "report/post_ent_mag": 48.0883674621582, "report/post_ent_max": 48.0883674621582, "report/post_ent_mean": 36.962257385253906, "report/post_ent_min": 21.28750228881836, "report/post_ent_std": 3.9891695976257324, "report/prior_ent_mag": 67.46420288085938, "report/prior_ent_max": 67.46420288085938, "report/prior_ent_mean": 41.77400207519531, "report/prior_ent_min": 26.124797821044922, "report/prior_ent_std": 6.039453983306885, "report/rep_loss_mean": 4.306849479675293, "report/rep_loss_std": 5.44002103805542, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.06090661138296127, "report/reward_loss_std": 0.23689323663711548, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.88478469848633, "report/reward_neg_acc": 0.9702444076538086, "report/reward_neg_loss": 0.007060884032398462, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.671374499797821, "report/reward_pred": 0.8170046806335449, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.029699359089136124, "eval/cont_loss_std": 0.6559916138648987, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 10.121150970458984, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.769039151142351e-05, "eval/cont_pred": 0.9994522333145142, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.771730422973633, "eval/dyn_loss_std": 9.644591331481934, "eval/image_loss_mean": 8.089027404785156, "eval/image_loss_std": 5.585409641265869, "eval/model_loss_mean": 16.425865173339844, "eval/model_loss_std": 11.215011596679688, "eval/post_ent_mag": 46.23655700683594, "eval/post_ent_max": 46.23655700683594, "eval/post_ent_mean": 33.521949768066406, "eval/post_ent_min": 22.978086471557617, "eval/post_ent_std": 4.501784801483154, "eval/prior_ent_mag": 67.46420288085938, "eval/prior_ent_max": 67.46420288085938, "eval/prior_ent_mean": 37.81333541870117, "eval/prior_ent_min": 26.17676544189453, "eval/prior_ent_std": 6.5562944412231445, "eval/rep_loss_mean": 12.771730422973633, "eval/rep_loss_std": 9.644591331481934, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.6441020369529724, "eval/reward_loss_std": 2.8409509658813477, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001529693603516, "eval/reward_neg_acc": 0.9375000596046448, "eval/reward_neg_loss": 0.10176732391119003, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 11.671575546264648, "eval/reward_pred": 0.18795135617256165, "eval/reward_rate": 0.046875, "replay/size": 24819.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.884451812572694e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4518377151382103e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.62346291542053, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8841664791107178, "timer/env.step_frac": 0.009593950023528832, "timer/env.step_avg": 0.0040507956167285366, "timer/env.step_min": 0.0022554397583007812, "timer/env.step_max": 0.023158550262451172, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 189.26479649543762, "timer/replay._sample_frac": 0.6295742676235709, "timer/replay._sample_avg": 0.016613833962029284, "timer/replay._sample_min": 0.006897449493408203, "timer/replay._sample_max": 0.0365757942199707, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18279027938842773, "timer/agent.save_frac": 0.0006080373022642454, "timer/agent.save_avg": 0.18279027938842773, "timer/agent.save_min": 0.18279027938842773, "timer/agent.save_max": 0.18279027938842773, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.4354431629181, "timer/agent.policy_frac": 0.6600796931766676, "timer/agent.policy_avg": 0.278701465116458, "timer/agent.policy_min": 0.0033063888549804688, "timer/agent.policy_max": 0.3361690044403076, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09796476364135742, "timer/dataset_train_frac": 0.00032587198181839686, "timer/dataset_train_avg": 0.00013759096017044583, "timer/dataset_train_min": 8.392333984375e-05, "timer/dataset_train_max": 0.00036144256591796875, "timer/agent.train_count": 712.0, "timer/agent.train_total": 98.06853294372559, "timer/agent.train_frac": 0.32621716213586716, "timer/agent.train_avg": 0.1377367035726483, "timer/agent.train_min": 0.10085296630859375, "timer/agent.train_max": 0.43164992332458496, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4986460208892822, "timer/agent.report_frac": 0.001658706263488072, "timer/agent.report_avg": 0.2493230104446411, "timer/agent.report_min": 0.10059738159179688, "timer/agent.report_max": 0.39804863929748535, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.273124694824219e-05, "timer/dataset_eval_frac": 2.751989021280031e-07, "timer/dataset_eval_avg": 8.273124694824219e-05, "timer/dataset_eval_min": 8.273124694824219e-05, "timer/dataset_eval_max": 8.273124694824219e-05, "fps": 9.47340254930344}
+{"step": 102016, "episode/length": 704.0, "episode/score": 760.0, "episode/reward_rate": 0.09645390070921986}
+{"step": 102332, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 3.9147617885044643, "train/action_min": 0.0, "train/action_std": 3.044299646786281, "train/actor_opt_grad_norm": 0.013095558394810983, "train/actor_opt_grad_steps": 24135.0, "train/actor_opt_loss": 0.0047136081721484, "train/adv_mag": 0.9052240218435015, "train/adv_max": 0.8817270521606718, "train/adv_mean": 0.0062081532791385795, "train/adv_min": -0.5891452851040023, "train/adv_std": 0.06012844012251922, "train/cont_avg": 0.9982003348214286, "train/cont_loss_mean": 0.0006805558119757344, "train/cont_loss_std": 0.016799379783736055, "train/cont_neg_acc": 0.9583333348234494, "train/cont_neg_loss": 0.13898432001375718, "train/cont_pos_acc": 0.9999300488403865, "train/cont_pos_loss": 0.00032047507489453764, "train/cont_pred": 0.9981974022729057, "train/cont_rate": 0.9982003348214286, "train/dyn_loss_mean": 3.9521566459110806, "train/dyn_loss_std": 5.4963728564126155, "train/extr_critic_critic_opt_grad_norm": 1.9669719610895429, "train/extr_critic_critic_opt_grad_steps": 24135.0, "train/extr_critic_critic_opt_loss": 1.69514833177839, "train/extr_critic_mag": 251.84376656668528, "train/extr_critic_max": 251.84376656668528, "train/extr_critic_mean": 87.90537360055106, "train/extr_critic_min": 0.2701096415519714, "train/extr_critic_std": 58.435268892560686, "train/extr_return_normed_mag": 1.4263964857373919, "train/extr_return_normed_max": 1.4263964857373919, "train/extr_return_normed_mean": 0.4210754100765501, "train/extr_return_normed_min": -0.018182866534750375, "train/extr_return_normed_std": 0.29620778986385893, "train/extr_return_rate": 0.9434226589543478, "train/extr_return_raw_mag": 292.873151070731, "train/extr_return_raw_max": 292.873151070731, "train/extr_return_raw_mean": 89.16326184953962, "train/extr_return_raw_min": 0.22522754180577717, "train/extr_return_raw_std": 59.98553902762277, "train/extr_reward_mag": 108.50223776953561, "train/extr_reward_max": 108.50223776953561, "train/extr_reward_mean": 0.6487123112593378, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.7657110912459237, "train/image_loss_mean": 2.9847973585128784, "train/image_loss_std": 2.4218991024153573, "train/model_loss_mean": 5.412736582756042, "train/model_loss_std": 5.2532263823917935, "train/model_opt_grad_norm": 18.68511392048427, "train/model_opt_grad_steps": 24135.0, "train/model_opt_loss": 5.412736582756042, "train/policy_entropy_mag": 2.1016094480242047, "train/policy_entropy_max": 2.1016094480242047, "train/policy_entropy_mean": 1.0573107881205424, "train/policy_entropy_min": 0.07531629289899554, "train/policy_entropy_std": 0.4856456450053624, "train/policy_logprob_mag": 6.762434577941894, "train/policy_logprob_max": -0.009838241578212807, "train/policy_logprob_mean": -1.0573054390294212, "train/policy_logprob_min": -6.762434577941894, "train/policy_logprob_std": 1.0912904381752013, "train/policy_randomness_mag": 0.9564836714948927, "train/policy_randomness_max": 0.9564836714948927, "train/policy_randomness_mean": 0.4812028727361134, "train/policy_randomness_min": 0.03427792186183589, "train/policy_randomness_std": 0.22102685741015843, "train/post_ent_mag": 48.03567564828055, "train/post_ent_max": 48.03567564828055, "train/post_ent_mean": 36.25843979971749, "train/post_ent_min": 24.158082580566408, "train/post_ent_std": 4.472532851355417, "train/prior_ent_mag": 67.3115003313337, "train/prior_ent_max": 67.3115003313337, "train/prior_ent_mean": 40.17691394260952, "train/prior_ent_min": 26.74567688533238, "train/prior_ent_std": 6.789775650841849, "train/rep_loss_mean": 3.9521566459110806, "train/rep_loss_std": 5.4963728564126155, "train/reward_avg": 0.8943917410714286, "train/reward_loss_mean": 0.05596469132495778, "train/reward_loss_std": 0.2506591360483851, "train/reward_max_data": 128.42857142857142, "train/reward_max_pred": 109.03510943821499, "train/reward_neg_acc": 0.9716081150940487, "train/reward_neg_loss": 0.007440187150080289, "train/reward_pos_acc": 0.9905696587903159, "train/reward_pos_loss": 0.7049672322613852, "train/reward_pred": 0.781462020107678, "train/reward_rate": 0.06922433035714286, "train_stats/mean_log_entropy": 1.1654698848724365, "report/cont_avg": 1.0, "report/cont_loss_mean": 6.093104275350925e-06, "report/cont_loss_std": 0.0001295622787438333, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.093104275350925e-06, "report/cont_pred": 0.9999939203262329, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.732410192489624, "report/dyn_loss_std": 5.26902961730957, "report/image_loss_mean": 3.152981758117676, "report/image_loss_std": 2.427835702896118, "report/model_loss_mean": 5.445307731628418, "report/model_loss_std": 5.039805889129639, "report/post_ent_mag": 48.410728454589844, "report/post_ent_max": 48.410728454589844, "report/post_ent_mean": 36.4789924621582, "report/post_ent_min": 25.205156326293945, "report/post_ent_std": 4.053930759429932, "report/prior_ent_mag": 67.57109832763672, "report/prior_ent_max": 67.57109832763672, "report/prior_ent_mean": 40.126007080078125, "report/prior_ent_min": 28.23357391357422, "report/prior_ent_std": 6.463984489440918, "report/rep_loss_mean": 3.732410192489624, "report/rep_loss_std": 5.26902961730957, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.05287371575832367, "report/reward_loss_std": 0.22734414041042328, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.461761474609375, "report/reward_neg_acc": 0.9861848950386047, "report/reward_neg_loss": 0.002164750127121806, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.627778947353363, "report/reward_pred": 0.8067247867584229, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.007548105902969837, "eval/cont_loss_std": 0.13524964451789856, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.0119270086288452, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.005582589656114578, "eval/cont_pred": 0.9967702031135559, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 10.231801986694336, "eval/dyn_loss_std": 9.411600112915039, "eval/image_loss_mean": 5.984793186187744, "eval/image_loss_std": 5.3263983726501465, "eval/model_loss_mean": 12.641972541809082, "eval/model_loss_std": 11.045395851135254, "eval/post_ent_mag": 48.225406646728516, "eval/post_ent_max": 48.225406646728516, "eval/post_ent_mean": 34.67091369628906, "eval/post_ent_min": 23.871570587158203, "eval/post_ent_std": 4.819097995758057, "eval/prior_ent_mag": 67.57109832763672, "eval/prior_ent_max": 67.57109832763672, "eval/prior_ent_mean": 37.30520248413086, "eval/prior_ent_min": 26.55046844482422, "eval/prior_ent_std": 6.670074939727783, "eval/rep_loss_mean": 10.231801986694336, "eval/rep_loss_std": 9.411600112915039, "eval/reward_avg": 0.52734375, "eval/reward_loss_mean": 0.510549783706665, "eval/reward_loss_std": 2.522472381591797, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.981170654296875, "eval/reward_neg_acc": 0.9278351068496704, "eval/reward_neg_loss": 0.07975226640701294, "eval/reward_pos_acc": 0.3888888955116272, "eval/reward_pos_loss": 8.24894905090332, "eval/reward_pred": 0.3268125057220459, "eval/reward_rate": 0.052734375, "replay/size": 25520.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.2533714305317185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.230738132384296e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2069940567016602e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.40887236595154, "timer/env.step_count": 701.0, "timer/env.step_total": 2.596574068069458, "timer/env.step_frac": 0.008643466644708043, "timer/env.step_avg": 0.0037040999544500114, "timer/env.step_min": 0.0017542839050292969, "timer/env.step_max": 0.017003536224365234, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 200.36856269836426, "timer/replay._sample_frac": 0.6669861682856012, "timer/replay._sample_avg": 0.017864529484518926, "timer/replay._sample_min": 0.0005443096160888672, "timer/replay._sample_max": 0.05193281173706055, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 197.86221933364868, "timer/agent.policy_frac": 0.6586430612895389, "timer/agent.policy_avg": 0.2822570889210395, "timer/agent.policy_min": 0.002866029739379883, "timer/agent.policy_max": 0.32953882217407227, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09258270263671875, "timer/dataset_train_frac": 0.0003081889756036783, "timer/dataset_train_avg": 0.00013207232901101107, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0005838871002197266, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.69601845741272, "timer/agent.train_frac": 0.3285389598519693, "timer/agent.train_avg": 0.140793178969205, "timer/agent.train_min": 0.10122799873352051, "timer/agent.train_max": 0.44801926612854004, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5036418437957764, "timer/agent.report_frac": 0.0016765212020177982, "timer/agent.report_avg": 0.2518209218978882, "timer/agent.report_min": 0.10462331771850586, "timer/agent.report_max": 0.3990185260772705, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.8571338146698787e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "fps": 9.333702713466485}
+{"step": 103824, "episode/length": 451.0, "episode/score": 550.0, "episode/reward_rate": 0.11283185840707964}
+{"step": 105104, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 3.8363886294157608, "train/action_min": 0.0, "train/action_std": 3.081594760867133, "train/actor_opt_grad_norm": 0.012100592316330774, "train/actor_opt_grad_steps": 24830.0, "train/actor_opt_loss": 0.004462479314668968, "train/adv_mag": 0.9300566617993341, "train/adv_max": 0.922556453856869, "train/adv_mean": 0.006538539646999857, "train/adv_min": -0.5052481513956318, "train/adv_std": 0.0581631556801174, "train/cont_avg": 0.9983723958333334, "train/cont_loss_mean": 0.0004647929960050487, "train/cont_loss_std": 0.011823946465338468, "train/cont_neg_acc": 0.9238505748839214, "train/cont_neg_loss": 0.22958269671810208, "train/cont_pos_acc": 0.999900732351386, "train/cont_pos_loss": 0.00017500517457591513, "train/cont_pred": 0.9983656475509423, "train/cont_rate": 0.9983723958333334, "train/dyn_loss_mean": 3.637519763863605, "train/dyn_loss_std": 5.5120062828063965, "train/extr_critic_critic_opt_grad_norm": 1.833090523014898, "train/extr_critic_critic_opt_grad_steps": 24830.0, "train/extr_critic_critic_opt_loss": 1.6198543275611987, "train/extr_critic_mag": 266.9377607262653, "train/extr_critic_max": 266.9377607262653, "train/extr_critic_mean": 93.63212248207866, "train/extr_critic_min": 0.07347377486850905, "train/extr_critic_std": 63.206785008527234, "train/extr_return_normed_mag": 1.508022073386372, "train/extr_return_normed_max": 1.508022073386372, "train/extr_return_normed_mean": 0.4370567608570707, "train/extr_return_normed_min": -0.015126396335013535, "train/extr_return_normed_std": 0.310158744238425, "train/extr_return_rate": 0.9424187160920405, "train/extr_return_raw_mag": 319.76847861469656, "train/extr_return_raw_max": 319.76847861469656, "train/extr_return_raw_mean": 95.00483736784562, "train/extr_return_raw_min": 0.1008430126366084, "train/extr_return_raw_std": 65.10432738152103, "train/extr_reward_mag": 132.77420025977534, "train/extr_reward_max": 132.77420025977534, "train/extr_reward_mean": 0.6910158482150756, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.08508360904196, "train/image_loss_mean": 2.8392415288565815, "train/image_loss_std": 2.2777062464451445, "train/model_loss_mean": 5.076317821723827, "train/model_loss_std": 5.128948916559634, "train/model_opt_grad_norm": 17.78544226936672, "train/model_opt_grad_steps": 24830.0, "train/model_opt_loss": 5.076317821723827, "train/policy_entropy_mag": 2.1086988518203515, "train/policy_entropy_max": 2.1086988518203515, "train/policy_entropy_mean": 1.061185157817343, "train/policy_entropy_min": 0.07593945446221725, "train/policy_entropy_std": 0.4971960014191227, "train/policy_logprob_mag": 6.7611327655073525, "train/policy_logprob_max": -0.009939588147445002, "train/policy_logprob_mean": -1.0609419052151665, "train/policy_logprob_min": -6.7611327655073525, "train/policy_logprob_std": 1.1023443401723667, "train/policy_randomness_mag": 0.9597101971723031, "train/policy_randomness_max": 0.9597101971723031, "train/policy_randomness_mean": 0.4829661751138991, "train/policy_randomness_min": 0.034561534938604935, "train/policy_randomness_std": 0.2262836526269498, "train/post_ent_mag": 48.63075256347656, "train/post_ent_max": 48.63075256347656, "train/post_ent_mean": 36.293007560398266, "train/post_ent_min": 23.747700235118035, "train/post_ent_std": 4.336751485216444, "train/prior_ent_mag": 67.80144788216853, "train/prior_ent_max": 67.80144788216853, "train/prior_ent_mean": 39.995158430458844, "train/prior_ent_min": 27.5686094035273, "train/prior_ent_std": 6.696310305940932, "train/rep_loss_mean": 3.637519763863605, "train/rep_loss_std": 5.5120062828063965, "train/reward_avg": 0.9076370018115942, "train/reward_loss_mean": 0.054099579787124756, "train/reward_loss_std": 0.22447389137485754, "train/reward_max_data": 142.8985507246377, "train/reward_max_pred": 119.38885453818502, "train/reward_neg_acc": 0.9712024175602457, "train/reward_neg_loss": 0.0070848638728341976, "train/reward_pos_acc": 0.9929580092430115, "train/reward_pos_loss": 0.6658690355826116, "train/reward_pred": 0.8218635562537373, "train/reward_rate": 0.07145889945652174, "train_stats/mean_log_entropy": 1.0470396280288696, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 7.805010682204738e-05, "report/cont_loss_std": 0.0012937518768012524, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0177462175488472, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 8.76316971698543e-06, "report/cont_pred": 0.9961535930633545, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 2.9355223178863525, "report/dyn_loss_std": 5.63985538482666, "report/image_loss_mean": 2.0183963775634766, "report/image_loss_std": 1.9991117715835571, "report/model_loss_mean": 3.802285671234131, "report/model_loss_std": 4.981523513793945, "report/post_ent_mag": 44.543975830078125, "report/post_ent_max": 44.543975830078125, "report/post_ent_mean": 34.46919250488281, "report/post_ent_min": 23.25267791748047, "report/post_ent_std": 3.8442506790161133, "report/prior_ent_mag": 67.8712158203125, "report/prior_ent_max": 67.8712158203125, "report/prior_ent_mean": 37.71112823486328, "report/prior_ent_min": 26.790632247924805, "report/prior_ent_std": 6.302834987640381, "report/rep_loss_mean": 2.9355223178863525, "report/rep_loss_std": 5.63985538482666, "report/reward_avg": 0.60546875, "report/reward_loss_mean": 0.02249806933104992, "report/reward_loss_std": 0.11412189155817032, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.3153076171875, "report/reward_neg_acc": 0.9838219285011292, "report/reward_neg_loss": 0.003279137657955289, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5655701756477356, "report/reward_pred": 0.5919821262359619, "report/reward_rate": 0.0341796875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.018225854262709618, "eval/cont_loss_std": 0.2758636772632599, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.1820008754730225, "eval/cont_pos_acc": 0.9951028227806091, "eval/cont_pos_loss": 0.014806339517235756, "eval/cont_pred": 0.9934213161468506, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.677749633789062, "eval/dyn_loss_std": 10.45495319366455, "eval/image_loss_mean": 5.921451568603516, "eval/image_loss_std": 5.528701305389404, "eval/model_loss_mean": 12.785757064819336, "eval/model_loss_std": 11.572894096374512, "eval/post_ent_mag": 47.95652389526367, "eval/post_ent_max": 47.95652389526367, "eval/post_ent_mean": 33.86018371582031, "eval/post_ent_min": 23.054779052734375, "eval/post_ent_std": 4.693173408508301, "eval/prior_ent_mag": 67.8712158203125, "eval/prior_ent_max": 67.8712158203125, "eval/prior_ent_mean": 36.607608795166016, "eval/prior_ent_min": 27.382930755615234, "eval/prior_ent_std": 6.529901504516602, "eval/rep_loss_mean": 10.677749633789062, "eval/rep_loss_std": 10.45495319366455, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.43943023681640625, "eval/reward_loss_std": 2.4055867195129395, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009480476379395, "eval/reward_neg_acc": 0.9386317729949951, "eval/reward_neg_loss": 0.11437244713306427, "eval/reward_pos_acc": 0.23333334922790527, "eval/reward_pos_loss": 11.209678649902344, "eval/reward_pred": 0.2678415775299072, "eval/reward_rate": 0.029296875, "replay/size": 26213.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.690618914099139e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.043274805143282e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.043081283569336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0725164413452, "timer/env.step_count": 693.0, "timer/env.step_total": 2.365023612976074, "timer/env.step_frac": 0.007881506913807491, "timer/env.step_avg": 0.0034127324862569613, "timer/env.step_min": 0.0022382736206054688, "timer/env.step_max": 0.016740798950195312, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 201.76038718223572, "timer/replay._sample_frac": 0.6723720971682975, "timer/replay._sample_avg": 0.018196283115281, "timer/replay._sample_min": 0.0005526542663574219, "timer/replay._sample_max": 0.08224177360534668, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.76627397537231, "timer/agent.policy_frac": 0.6590616039107647, "timer/agent.policy_avg": 0.285377018723481, "timer/agent.policy_min": 0.002960681915283203, "timer/agent.policy_max": 0.33261585235595703, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09310460090637207, "timer/dataset_train_frac": 0.0003102736698799642, "timer/dataset_train_avg": 0.00013435007345796835, "timer/dataset_train_min": 8.0108642578125e-05, "timer/dataset_train_max": 0.004137277603149414, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.64344358444214, "timer/agent.train_frac": 0.3287320170280368, "timer/agent.train_avg": 0.14234263143498144, "timer/agent.train_min": 0.10199975967407227, "timer/agent.train_max": 0.4514744281768799, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5131070613861084, "timer/agent.report_frac": 0.00170994354121866, "timer/agent.report_avg": 0.2565535306930542, "timer/agent.report_min": 0.10795903205871582, "timer/agent.report_max": 0.4051480293273926, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.269050598144531e-05, "timer/dataset_eval_frac": 1.7559257544249194e-07, "timer/dataset_eval_avg": 5.269050598144531e-05, "timer/dataset_eval_min": 5.269050598144531e-05, "timer/dataset_eval_max": 5.269050598144531e-05, "fps": 9.236965925804197}
+{"step": 106636, "episode/length": 702.0, "episode/score": 950.0, "episode/reward_rate": 0.0953058321479374}
+{"step": 107876, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.116402888643568, "train/action_min": 0.0, "train/action_std": 3.062382159025773, "train/actor_opt_grad_norm": 0.011969121402480465, "train/actor_opt_grad_steps": 25520.0, "train/actor_opt_loss": 0.004890237262652195, "train/adv_mag": 0.9718078210733939, "train/adv_max": 0.9689014502193617, "train/adv_mean": 0.006256871645998375, "train/adv_min": -0.5467897843623507, "train/adv_std": 0.05819954971472422, "train/cont_avg": 0.9984997735507246, "train/cont_loss_mean": 0.00048504903878377235, "train/cont_loss_std": 0.01266640362617155, "train/cont_neg_acc": 0.910377359615182, "train/cont_neg_loss": 0.25130829834178825, "train/cont_pos_acc": 0.9999716342359349, "train/cont_pos_loss": 0.00015971477518321635, "train/cont_pred": 0.9985411072122878, "train/cont_rate": 0.9984997735507246, "train/dyn_loss_mean": 3.868922523830248, "train/dyn_loss_std": 5.5621343280958095, "train/extr_critic_critic_opt_grad_norm": 1.736266571542491, "train/extr_critic_critic_opt_grad_steps": 25520.0, "train/extr_critic_critic_opt_loss": 1.5868431156960086, "train/extr_critic_mag": 276.8222370976987, "train/extr_critic_max": 276.8222370976987, "train/extr_critic_mean": 91.95181169371673, "train/extr_critic_min": 0.21593890673872354, "train/extr_critic_std": 62.1871472787166, "train/extr_return_normed_mag": 1.5873641760452935, "train/extr_return_normed_max": 1.5873641760452935, "train/extr_return_normed_mean": 0.4272713924663654, "train/extr_return_normed_min": -0.01482455784023024, "train/extr_return_normed_std": 0.30572573840618134, "train/extr_return_rate": 0.9480724023736041, "train/extr_return_raw_mag": 337.2650798852893, "train/extr_return_raw_max": 337.2650798852893, "train/extr_return_raw_mean": 93.26897767661275, "train/extr_return_raw_min": 0.24626838162784342, "train/extr_return_raw_std": 64.3335522637851, "train/extr_reward_mag": 139.3028499216273, "train/extr_reward_max": 139.3028499216273, "train/extr_reward_mean": 0.6895849834317747, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.465943614641826, "train/image_loss_mean": 2.8633437536764834, "train/image_loss_std": 2.261235342509505, "train/model_loss_mean": 5.2407301958056465, "train/model_loss_std": 5.138999793840491, "train/model_opt_grad_norm": 18.30096073427062, "train/model_opt_grad_steps": 25520.0, "train/model_opt_loss": 5.2407301958056465, "train/policy_entropy_mag": 2.1084498391635176, "train/policy_entropy_max": 2.1084498391635176, "train/policy_entropy_mean": 1.1207501611847808, "train/policy_entropy_min": 0.07850648268409398, "train/policy_entropy_std": 0.47520475413488306, "train/policy_logprob_mag": 6.752487659454346, "train/policy_logprob_max": -0.01033706018242283, "train/policy_logprob_mean": -1.1208538283472476, "train/policy_logprob_min": -6.752487659454346, "train/policy_logprob_std": 1.0822024259014407, "train/policy_randomness_mag": 0.9595968671466993, "train/policy_randomness_max": 0.9595968671466993, "train/policy_randomness_mean": 0.5100753765175308, "train/policy_randomness_min": 0.03572983980394792, "train/policy_randomness_std": 0.21627500005390332, "train/post_ent_mag": 48.84440911334494, "train/post_ent_max": 48.84440911334494, "train/post_ent_mean": 36.74619619397149, "train/post_ent_min": 24.192026442375735, "train/post_ent_std": 4.3798037059065225, "train/prior_ent_mag": 68.19515327785327, "train/prior_ent_max": 68.19515327785327, "train/prior_ent_mean": 40.568827864052594, "train/prior_ent_min": 27.195834560670715, "train/prior_ent_std": 6.695974267047385, "train/rep_loss_mean": 3.868922523830248, "train/rep_loss_std": 5.5621343280958095, "train/reward_avg": 0.9026834239130435, "train/reward_loss_mean": 0.05554789339826591, "train/reward_loss_std": 0.2393358917771906, "train/reward_max_data": 145.5072463768116, "train/reward_max_pred": 120.99731312627378, "train/reward_neg_acc": 0.9690880550854448, "train/reward_neg_loss": 0.00877467381592462, "train/reward_pos_acc": 0.9932242908339569, "train/reward_pos_loss": 0.6846324490464252, "train/reward_pred": 0.8032712897528773, "train/reward_rate": 0.06919440670289854, "train_stats/mean_log_entropy": 1.219739556312561, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.305712016299367e-05, "report/cont_loss_std": 0.0010345453629270196, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.03312137722969055, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.127190428946051e-07, "report/cont_pred": 0.9990545511245728, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.717867612838745, "report/dyn_loss_std": 5.614838123321533, "report/image_loss_mean": 2.857686996459961, "report/image_loss_std": 2.561727285385132, "report/model_loss_mean": 5.1416015625, "report/model_loss_std": 5.424605369567871, "report/post_ent_mag": 49.964942932128906, "report/post_ent_max": 49.964942932128906, "report/post_ent_mean": 35.932334899902344, "report/post_ent_min": 23.960926055908203, "report/post_ent_std": 3.9820783138275146, "report/prior_ent_mag": 68.70442962646484, "report/prior_ent_max": 68.70442962646484, "report/prior_ent_mean": 40.03306579589844, "report/prior_ent_min": 25.65437889099121, "report/prior_ent_std": 6.6600518226623535, "report/rep_loss_mean": 3.717867612838745, "report/rep_loss_std": 5.614838123321533, "report/reward_avg": 0.83984375, "report/reward_loss_mean": 0.05316103249788284, "report/reward_loss_std": 0.20297157764434814, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.66249465942383, "report/reward_neg_acc": 0.9766454696655273, "report/reward_neg_loss": 0.0041499268263578415, "report/reward_pos_acc": 0.9878048300743103, "report/reward_pos_loss": 0.616191029548645, "report/reward_pred": 0.7893917560577393, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.01405778806656599, "eval/cont_loss_std": 0.4496270418167114, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 14.395096778869629, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.654848133142877e-08, "eval/cont_pred": 0.9999999403953552, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.82036018371582, "eval/dyn_loss_std": 9.45169734954834, "eval/image_loss_mean": 7.122503757476807, "eval/image_loss_std": 4.997848033905029, "eval/model_loss_mean": 14.852492332458496, "eval/model_loss_std": 10.603145599365234, "eval/post_ent_mag": 47.606971740722656, "eval/post_ent_max": 47.606971740722656, "eval/post_ent_mean": 33.99578857421875, "eval/post_ent_min": 21.375873565673828, "eval/post_ent_std": 4.0685529708862305, "eval/prior_ent_mag": 68.70442962646484, "eval/prior_ent_max": 68.70442962646484, "eval/prior_ent_mean": 38.25300979614258, "eval/prior_ent_min": 27.75048065185547, "eval/prior_ent_std": 5.8460869789123535, "eval/rep_loss_mean": 11.82036018371582, "eval/rep_loss_std": 9.45169734954834, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.6237159371376038, "eval/reward_loss_std": 2.890944242477417, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994305610656738, "eval/reward_neg_acc": 0.9320288896560669, "eval/reward_neg_loss": 0.09596659243106842, "eval/reward_pos_acc": 0.28301888704299927, "eval/reward_pos_loss": 10.292481422424316, "eval/reward_pred": 0.2767127752304077, "eval/reward_rate": 0.0517578125, "replay/size": 26906.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.600136827080797e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.177234739108175e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1026859283447266e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.106853723526, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4361541271209717, "timer/env.step_frac": 0.0081176224297939, "timer/env.step_avg": 0.003515373920809483, "timer/env.step_min": 0.0017256736755371094, "timer/env.step_max": 0.020961999893188477, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 201.62766528129578, "timer/replay._sample_frac": 0.6718529176512764, "timer/replay._sample_avg": 0.018184313246870108, "timer/replay._sample_min": 0.0004909038543701172, "timer/replay._sample_max": 0.07685589790344238, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2196948528289795, "timer/agent.save_frac": 0.0007320554332670249, "timer/agent.save_avg": 0.2196948528289795, "timer/agent.save_min": 0.2196948528289795, "timer/agent.save_max": 0.2196948528289795, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.35266399383545, "timer/agent.policy_frac": 0.6609401335984423, "timer/agent.policy_avg": 0.2862231803662849, "timer/agent.policy_min": 0.0028574466705322266, "timer/agent.policy_max": 0.34418535232543945, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09190535545349121, "timer/dataset_train_frac": 0.0003062421078132364, "timer/dataset_train_avg": 0.00013261956053894835, "timer/dataset_train_min": 7.700920104980469e-05, "timer/dataset_train_max": 0.00587153434753418, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.0186128616333, "timer/agent.train_frac": 0.3266123770433218, "timer/agent.train_avg": 0.14144099980033664, "timer/agent.train_min": 0.10118293762207031, "timer/agent.train_max": 0.45087575912475586, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4844644069671631, "timer/agent.report_frac": 0.0016143063744004887, "timer/agent.report_avg": 0.24223220348358154, "timer/agent.report_min": 0.09898614883422852, "timer/agent.report_max": 0.38547825813293457, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.9463917986256815e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "fps": 9.236351039603358}
+{"step": 108364, "episode/length": 431.0, "episode/score": 380.0, "episode/reward_rate": 0.08796296296296297}
+{"step": 110720, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.292512681749132, "train/action_min": 0.0, "train/action_std": 3.103048824601703, "train/actor_opt_grad_norm": 0.012277443744500892, "train/actor_opt_grad_steps": 26225.0, "train/actor_opt_loss": 0.0055794661604724955, "train/adv_mag": 0.9620779529213905, "train/adv_max": 0.9568547453317378, "train/adv_mean": 0.007298350949188009, "train/adv_min": -0.5234760120511055, "train/adv_std": 0.05995999385292331, "train/cont_avg": 0.9983181423611112, "train/cont_loss_mean": 0.000770221097851298, "train/cont_loss_std": 0.02055394113390384, "train/cont_neg_acc": 0.8584745773824595, "train/cont_neg_loss": 0.371357842278113, "train/cont_pos_acc": 0.9999184567067358, "train/cont_pos_loss": 0.00024765014494527234, "train/cont_pred": 0.9983601793646812, "train/cont_rate": 0.9983181423611112, "train/dyn_loss_mean": 3.480349130100674, "train/dyn_loss_std": 5.501501335038079, "train/extr_critic_critic_opt_grad_norm": 1.7217070228523679, "train/extr_critic_critic_opt_grad_steps": 26225.0, "train/extr_critic_critic_opt_loss": 1.5270533528592851, "train/extr_critic_mag": 273.2128276824951, "train/extr_critic_max": 273.2128276824951, "train/extr_critic_mean": 97.5192551083035, "train/extr_critic_min": 0.01754088865386115, "train/extr_critic_std": 64.63617944717407, "train/extr_return_normed_mag": 1.550115669767062, "train/extr_return_normed_max": 1.550115669767062, "train/extr_return_normed_mean": 0.4489491863383187, "train/extr_return_normed_min": -0.014707155538619392, "train/extr_return_normed_std": 0.3135195554544528, "train/extr_return_rate": 0.939190043343438, "train/extr_return_raw_mag": 334.0949609544542, "train/extr_return_raw_max": 334.0949609544542, "train/extr_return_raw_mean": 99.07584248648749, "train/extr_return_raw_min": 0.22948709848181656, "train/extr_return_raw_std": 66.8360415564643, "train/extr_reward_mag": 140.69713379277124, "train/extr_reward_max": 140.69713379277124, "train/extr_reward_mean": 0.7278043760193719, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.586816979779138, "train/image_loss_mean": 2.6202702720959983, "train/image_loss_std": 2.1033726135889688, "train/model_loss_mean": 4.7617085542943745, "train/model_loss_std": 4.959885083966785, "train/model_opt_grad_norm": 17.002520971828037, "train/model_opt_grad_steps": 26225.0, "train/model_opt_loss": 4.7617085542943745, "train/policy_entropy_mag": 2.1210188070933023, "train/policy_entropy_max": 2.1210188070933023, "train/policy_entropy_mean": 1.0877219703462389, "train/policy_entropy_min": 0.07638195705496603, "train/policy_entropy_std": 0.5100526317126222, "train/policy_logprob_mag": 6.75173815091451, "train/policy_logprob_max": -0.01000503052232994, "train/policy_logprob_mean": -1.0874961680836148, "train/policy_logprob_min": -6.75173815091451, "train/policy_logprob_std": 1.0955687711636226, "train/policy_randomness_mag": 0.9653172542651495, "train/policy_randomness_max": 0.9653172542651495, "train/policy_randomness_mean": 0.4950435993572076, "train/policy_randomness_min": 0.03476292660666837, "train/policy_randomness_std": 0.23213495852218735, "train/post_ent_mag": 48.5592466990153, "train/post_ent_max": 48.5592466990153, "train/post_ent_mean": 36.440750704871284, "train/post_ent_min": 23.83963836563958, "train/post_ent_std": 4.203807910283406, "train/prior_ent_mag": 68.56531567043729, "train/prior_ent_max": 68.56531567043729, "train/prior_ent_mean": 40.04386716418796, "train/prior_ent_min": 27.14155586560567, "train/prior_ent_std": 6.516522354549831, "train/rep_loss_mean": 3.480349130100674, "train/rep_loss_std": 5.501501335038079, "train/reward_avg": 0.908203125, "train/reward_loss_mean": 0.052458673612111144, "train/reward_loss_std": 0.2227077620724837, "train/reward_max_data": 136.80555555555554, "train/reward_max_pred": 126.1074790292316, "train/reward_neg_acc": 0.9755697449048361, "train/reward_neg_loss": 0.006732911980685053, "train/reward_pos_acc": 0.993926571475135, "train/reward_pos_loss": 0.6558869679768881, "train/reward_pred": 0.8387908426423868, "train/reward_rate": 0.070556640625, "train_stats/mean_log_entropy": 0.8992254734039307, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.555484050186351e-05, "report/cont_loss_std": 0.000292490964056924, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.005223458167165518, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.3632475101039745e-06, "report/cont_pred": 0.9980517029762268, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.3211443424224854, "report/dyn_loss_std": 5.55259895324707, "report/image_loss_mean": 2.345447540283203, "report/image_loss_std": 1.8159657716751099, "report/model_loss_mean": 4.4018754959106445, "report/model_loss_std": 4.746466636657715, "report/post_ent_mag": 51.344139099121094, "report/post_ent_max": 51.344139099121094, "report/post_ent_mean": 36.72711181640625, "report/post_ent_min": 23.989580154418945, "report/post_ent_std": 4.227717399597168, "report/prior_ent_mag": 68.73313903808594, "report/prior_ent_max": 68.73313903808594, "report/prior_ent_mean": 40.28207015991211, "report/prior_ent_min": 26.186447143554688, "report/prior_ent_std": 6.19813871383667, "report/rep_loss_mean": 3.3211443424224854, "report/rep_loss_std": 5.55259895324707, "report/reward_avg": 1.2890625, "report/reward_loss_mean": 0.06372591853141785, "report/reward_loss_std": 0.25412318110466003, "report/reward_max_data": 400.0, "report/reward_max_pred": 221.1865234375, "report/reward_neg_acc": 0.9764705896377563, "report/reward_neg_loss": 0.0038735931739211082, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6925115585327148, "report/reward_pred": 1.033066987991333, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.02995460107922554, "eval/cont_loss_std": 0.6775203347206116, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 15.336584091186523, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.360663356488658e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.630232810974121, "eval/dyn_loss_std": 10.782485961914062, "eval/image_loss_mean": 8.712464332580566, "eval/image_loss_std": 4.801036834716797, "eval/model_loss_mean": 18.73624610900879, "eval/model_loss_std": 10.898770332336426, "eval/post_ent_mag": 46.52185821533203, "eval/post_ent_max": 46.52185821533203, "eval/post_ent_mean": 35.41455078125, "eval/post_ent_min": 22.140518188476562, "eval/post_ent_std": 4.359735488891602, "eval/prior_ent_mag": 68.73313903808594, "eval/prior_ent_max": 68.73313903808594, "eval/prior_ent_mean": 40.20574188232422, "eval/prior_ent_min": 29.35672378540039, "eval/prior_ent_std": 5.352069854736328, "eval/rep_loss_mean": 15.630232810974121, "eval/rep_loss_std": 10.782485961914062, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6156876087188721, "eval/reward_loss_std": 2.67433762550354, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004829406738281, "eval/reward_neg_acc": 0.9176955223083496, "eval/reward_neg_loss": 0.10580793768167496, "eval/reward_pos_acc": 0.21153846383094788, "eval/reward_pos_loss": 10.146516799926758, "eval/reward_pred": 0.28562572598457336, "eval/reward_rate": 0.05078125, "replay/size": 27617.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.913518484467025e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4277659723359656e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.187611579895, "timer/env.step_count": 711.0, "timer/env.step_total": 2.909174919128418, "timer/env.step_frac": 0.009691189132747207, "timer/env.step_avg": 0.004091666552923232, "timer/env.step_min": 0.00238800048828125, "timer/env.step_max": 0.022304534912109375, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 190.67478847503662, "timer/replay._sample_frac": 0.6351854011280158, "timer/replay._sample_avg": 0.016761145259760604, "timer/replay._sample_min": 0.0006241798400878906, "timer/replay._sample_max": 0.04824423789978027, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.93406796455383, "timer/agent.policy_frac": 0.6593678763851106, "timer/agent.policy_avg": 0.2783882812440982, "timer/agent.policy_min": 0.0036444664001464844, "timer/agent.policy_max": 0.3336968421936035, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09765410423278809, "timer/dataset_train_frac": 0.0003253102408818007, "timer/dataset_train_avg": 0.00013734754463120687, "timer/dataset_train_min": 7.319450378417969e-05, "timer/dataset_train_max": 0.0004558563232421875, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.47182250022888, "timer/agent.train_frac": 0.32803426491176363, "timer/agent.train_avg": 0.138497640647298, "timer/agent.train_min": 0.09857320785522461, "timer/agent.train_max": 0.44382309913635254, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20051956176757812, "timer/agent.report_frac": 0.0006679808027794305, "timer/agent.report_avg": 0.10025978088378906, "timer/agent.report_min": 0.0992887020111084, "timer/agent.report_max": 0.10123085975646973, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00013256072998046875, "timer/dataset_eval_frac": 4.4159294010435096e-07, "timer/dataset_eval_avg": 0.00013256072998046875, "timer/dataset_eval_min": 0.00013256072998046875, "timer/dataset_eval_max": 0.00013256072998046875, "fps": 9.473735402538116}
+{"step": 111476, "episode/length": 777.0, "episode/score": 1090.0, "episode/reward_rate": 0.09897172236503857}
+{"step": 112876, "episode/length": 349.0, "episode/score": 280.0, "episode/reward_rate": 0.08}
+{"step": 113528, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.057418387276786, "train/action_min": 0.0, "train/action_std": 3.123248256955828, "train/actor_opt_grad_norm": 0.011794708050521357, "train/actor_opt_grad_steps": 26935.0, "train/actor_opt_loss": 0.00526202042123519, "train/adv_mag": 0.9401354568345206, "train/adv_max": 0.9356161790234702, "train/adv_mean": 0.007178499566673833, "train/adv_min": -0.5135715190853392, "train/adv_std": 0.060003362542816574, "train/cont_avg": 0.9984095982142858, "train/cont_loss_mean": 0.0003699739994187569, "train/cont_loss_std": 0.009566937655628343, "train/cont_neg_acc": 0.9502923980093839, "train/cont_neg_loss": 0.1465059374446323, "train/cont_pos_acc": 0.9999580468450274, "train/cont_pos_loss": 0.0001376643443953591, "train/cont_pred": 0.9984037220478058, "train/cont_rate": 0.9984095982142858, "train/dyn_loss_mean": 3.7220389195850916, "train/dyn_loss_std": 5.60324741091047, "train/extr_critic_critic_opt_grad_norm": 1.845056470802852, "train/extr_critic_critic_opt_grad_steps": 26935.0, "train/extr_critic_critic_opt_loss": 1.6265490923609052, "train/extr_critic_mag": 281.271921648298, "train/extr_critic_max": 281.271921648298, "train/extr_critic_mean": 98.09609979901995, "train/extr_critic_min": 0.052849182060786655, "train/extr_critic_std": 65.5102636064802, "train/extr_return_normed_mag": 1.5967578973088945, "train/extr_return_normed_max": 1.5967578973088945, "train/extr_return_normed_mean": 0.435360028062548, "train/extr_return_normed_min": -0.01744440962959613, "train/extr_return_normed_std": 0.3088925906590053, "train/extr_return_rate": 0.9413988590240479, "train/extr_return_raw_mag": 355.3211183820452, "train/extr_return_raw_max": 355.3211183820452, "train/extr_return_raw_mean": 99.67537918090821, "train/extr_return_raw_min": 0.04398597968476159, "train/extr_return_raw_std": 67.96249433244978, "train/extr_reward_mag": 148.32464158194406, "train/extr_reward_max": 148.32464158194406, "train/extr_reward_mean": 0.7642409179891859, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.890249490737915, "train/image_loss_mean": 2.777619521958487, "train/image_loss_std": 2.2321439947400776, "train/model_loss_mean": 5.066860723495483, "train/model_loss_std": 5.148606089183263, "train/model_opt_grad_norm": 16.93921251296997, "train/model_opt_grad_steps": 26935.0, "train/model_opt_loss": 5.066860723495483, "train/policy_entropy_mag": 2.1193710020610266, "train/policy_entropy_max": 2.1193710020610266, "train/policy_entropy_mean": 1.0961101855550492, "train/policy_entropy_min": 0.07652460208960941, "train/policy_entropy_std": 0.5059347212314605, "train/policy_logprob_mag": 6.755050257274083, "train/policy_logprob_max": -0.010024358119283403, "train/policy_logprob_mean": -1.0978968969413212, "train/policy_logprob_min": -6.755050257274083, "train/policy_logprob_std": 1.1057308060782296, "train/policy_randomness_mag": 0.9645673028060369, "train/policy_randomness_max": 0.9645673028060369, "train/policy_randomness_mean": 0.49886123836040497, "train/policy_randomness_min": 0.03482784676764693, "train/policy_randomness_std": 0.2302608128104891, "train/post_ent_mag": 48.84768791198731, "train/post_ent_max": 48.84768791198731, "train/post_ent_mean": 36.66960645403181, "train/post_ent_min": 23.77986624581473, "train/post_ent_std": 4.308176725251334, "train/prior_ent_mag": 68.86534532819475, "train/prior_ent_max": 68.86534532819475, "train/prior_ent_mean": 40.48345832824707, "train/prior_ent_min": 27.32195429120745, "train/prior_ent_std": 6.703202445166451, "train/rep_loss_mean": 3.7220389195850916, "train/rep_loss_std": 5.60324741091047, "train/reward_avg": 0.9973493303571429, "train/reward_loss_mean": 0.05564791626696076, "train/reward_loss_std": 0.22035301774740218, "train/reward_max_data": 161.14285714285714, "train/reward_max_pred": 138.08902023860387, "train/reward_neg_acc": 0.9712253340653011, "train/reward_neg_loss": 0.007155524137695986, "train/reward_pos_acc": 0.9963379587445941, "train/reward_pos_loss": 0.6618039165224348, "train/reward_pred": 0.8946155347994396, "train/reward_rate": 0.07428850446428571, "train_stats/mean_log_entropy": 0.9941214919090271, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.7728361601475626e-05, "report/cont_loss_std": 0.00079622573684901, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.7728361601475626e-05, "report/cont_pred": 0.9999725818634033, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.813763380050659, "report/dyn_loss_std": 5.654489517211914, "report/image_loss_mean": 2.7610044479370117, "report/image_loss_std": 1.8741657733917236, "report/model_loss_mean": 5.101426124572754, "report/model_loss_std": 4.823239326477051, "report/post_ent_mag": 48.37787628173828, "report/post_ent_max": 48.37787628173828, "report/post_ent_mean": 37.63051986694336, "report/post_ent_min": 25.43788719177246, "report/post_ent_std": 4.140377521514893, "report/prior_ent_mag": 69.06903076171875, "report/prior_ent_max": 69.06903076171875, "report/prior_ent_mean": 41.210819244384766, "report/prior_ent_min": 29.207778930664062, "report/prior_ent_std": 6.145929336547852, "report/rep_loss_mean": 3.813763380050659, "report/rep_loss_std": 5.654489517211914, "report/reward_avg": 1.2890625, "report/reward_loss_mean": 0.05213598906993866, "report/reward_loss_std": 0.2403544783592224, "report/reward_max_data": 400.0, "report/reward_max_pred": 396.10601806640625, "report/reward_neg_acc": 0.9613779187202454, "report/reward_neg_loss": 0.013751680962741375, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6092900037765503, "report/reward_pred": 1.2158982753753662, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.014714814722537994, "eval/cont_loss_std": 0.4541749358177185, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 7.283439636230469, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0004903043154627085, "eval/cont_pred": 0.998612105846405, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.963146209716797, "eval/dyn_loss_std": 9.753291130065918, "eval/image_loss_mean": 7.403885841369629, "eval/image_loss_std": 4.895451545715332, "eval/model_loss_mean": 15.680567741394043, "eval/model_loss_std": 10.66342830657959, "eval/post_ent_mag": 48.16853332519531, "eval/post_ent_max": 48.16853332519531, "eval/post_ent_mean": 35.65598678588867, "eval/post_ent_min": 22.42001724243164, "eval/post_ent_std": 4.324145793914795, "eval/prior_ent_mag": 69.06903076171875, "eval/prior_ent_max": 69.06903076171875, "eval/prior_ent_mean": 39.39004898071289, "eval/prior_ent_min": 28.171123504638672, "eval/prior_ent_std": 6.00006628036499, "eval/rep_loss_mean": 12.963146209716797, "eval/rep_loss_std": 9.753291130065918, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.484080046415329, "eval/reward_loss_std": 2.318547010421753, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.978392601013184, "eval/reward_neg_acc": 0.9284985065460205, "eval/reward_neg_loss": 0.08092369139194489, "eval/reward_pos_acc": 0.24444444477558136, "eval/reward_pos_loss": 9.25497055053711, "eval/reward_pred": 0.25813621282577515, "eval/reward_rate": 0.0439453125, "replay/size": 28319.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 6.084088925962095e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2598910562672846e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1622905731201172e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.42133259773254, "timer/env.step_count": 702.0, "timer/env.step_total": 2.5304105281829834, "timer/env.step_frac": 0.00842287232501971, "timer/env.step_avg": 0.0036045734019700616, "timer/env.step_min": 0.0020689964294433594, "timer/env.step_max": 0.02419877052307129, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 200.0091953277588, "timer/replay._sample_frac": 0.6657622932375887, "timer/replay._sample_avg": 0.017807086478611005, "timer/replay._sample_min": 0.0006613731384277344, "timer/replay._sample_max": 0.04785299301147461, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.2065885066986, "timer/agent.policy_frac": 0.6597620308545112, "timer/agent.policy_avg": 0.28234556767335983, "timer/agent.policy_min": 0.0030281543731689453, "timer/agent.policy_max": 0.3341400623321533, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.1049184799194336, "timer/dataset_train_frac": 0.00034923778219145507, "timer/dataset_train_avg": 0.00014945652410175726, "timer/dataset_train_min": 8.058547973632812e-05, "timer/dataset_train_max": 0.01554560661315918, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.47306823730469, "timer/agent.train_frac": 0.3277832082888774, "timer/agent.train_avg": 0.14027502597906652, "timer/agent.train_min": 0.10146188735961914, "timer/agent.train_max": 0.46109604835510254, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5027120113372803, "timer/agent.report_frac": 0.0016733565722192477, "timer/agent.report_avg": 0.25135600566864014, "timer/agent.report_min": 0.10724854469299316, "timer/agent.report_max": 0.3954634666442871, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.748603820800781e-05, "timer/dataset_eval_frac": 2.5792455395224034e-07, "timer/dataset_eval_avg": 7.748603820800781e-05, "timer/dataset_eval_min": 7.748603820800781e-05, "timer/dataset_eval_max": 7.748603820800781e-05, "fps": 9.346632617426847}
+{"step": 116300, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.090984842051631, "train/action_min": 0.0, "train/action_std": 3.1104264362998633, "train/actor_opt_grad_norm": 0.010968501423148142, "train/actor_opt_grad_steps": 27630.0, "train/actor_opt_loss": 0.004511252340254968, "train/adv_mag": 0.8846018115679423, "train/adv_max": 0.870092617428821, "train/adv_mean": 0.00602940245986194, "train/adv_min": -0.5172616653684257, "train/adv_std": 0.055093625209469727, "train/cont_avg": 0.9986129981884058, "train/cont_loss_mean": 0.00029536463047175374, "train/cont_loss_std": 0.007483133117247781, "train/cont_neg_acc": 0.973163842144659, "train/cont_neg_loss": 0.0697084202260219, "train/cont_pos_acc": 0.9999432589696802, "train/cont_pos_loss": 0.00015397261617316462, "train/cont_pred": 0.998578529427017, "train/cont_rate": 0.9986129981884058, "train/dyn_loss_mean": 3.600649823313174, "train/dyn_loss_std": 5.558277738267097, "train/extr_critic_critic_opt_grad_norm": 1.8782724383948506, "train/extr_critic_critic_opt_grad_steps": 27630.0, "train/extr_critic_critic_opt_loss": 1.6019476272057795, "train/extr_critic_mag": 292.2652415399966, "train/extr_critic_max": 292.2652415399966, "train/extr_critic_mean": 97.84483083089192, "train/extr_critic_min": 0.04330481135326883, "train/extr_critic_std": 65.6296620576278, "train/extr_return_normed_mag": 1.5470818436664084, "train/extr_return_normed_max": 1.5470818436664084, "train/extr_return_normed_mean": 0.42323129418967426, "train/extr_return_normed_min": -0.013973581314464842, "train/extr_return_normed_std": 0.29900075171304785, "train/extr_return_rate": 0.937381158704343, "train/extr_return_raw_mag": 354.11418704710144, "train/extr_return_raw_max": 354.11418704710144, "train/extr_return_raw_mean": 99.21027512481247, "train/extr_return_raw_min": 0.04297960053225034, "train/extr_return_raw_std": 67.79518525496773, "train/extr_reward_mag": 134.2789094068002, "train/extr_reward_max": 134.2789094068002, "train/extr_reward_mean": 0.701577195222827, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.289902928946675, "train/image_loss_mean": 2.585867812668068, "train/image_loss_std": 2.0612656949222954, "train/model_loss_mean": 4.800818249799203, "train/model_loss_std": 4.974865554035574, "train/model_opt_grad_norm": 16.957436685976774, "train/model_opt_grad_steps": 27630.0, "train/model_opt_loss": 4.800818249799203, "train/policy_entropy_mag": 2.124955529751985, "train/policy_entropy_max": 2.124955529751985, "train/policy_entropy_mean": 1.1182175071343132, "train/policy_entropy_min": 0.07621631047863892, "train/policy_entropy_std": 0.5157976604026296, "train/policy_logprob_mag": 6.7497600196064385, "train/policy_logprob_max": -0.009976536386470863, "train/policy_logprob_mean": -1.1174767138301462, "train/policy_logprob_min": -6.7497600196064385, "train/policy_logprob_std": 1.105325334313987, "train/policy_randomness_mag": 0.9671089329581329, "train/policy_randomness_max": 0.9671089329581329, "train/policy_randomness_mean": 0.5089227168456368, "train/policy_randomness_min": 0.034687537483978965, "train/policy_randomness_std": 0.2347496296616568, "train/post_ent_mag": 48.776191490283914, "train/post_ent_max": 48.776191490283914, "train/post_ent_mean": 36.65421344922937, "train/post_ent_min": 23.857288001240164, "train/post_ent_std": 4.31203281706658, "train/prior_ent_mag": 69.1669689676036, "train/prior_ent_max": 69.1669689676036, "train/prior_ent_mean": 40.35477054982945, "train/prior_ent_min": 27.129365008810293, "train/prior_ent_std": 6.665681597115337, "train/rep_loss_mean": 3.600649823313174, "train/rep_loss_std": 5.558277738267097, "train/reward_avg": 0.8954653532608695, "train/reward_loss_mean": 0.05426516624140567, "train/reward_loss_std": 0.23048686063376025, "train/reward_max_data": 127.3913043478261, "train/reward_max_pred": 105.30541453154191, "train/reward_neg_acc": 0.9729874747386877, "train/reward_neg_loss": 0.007224638239426566, "train/reward_pos_acc": 0.9934731151746667, "train/reward_pos_loss": 0.6752362069876298, "train/reward_pred": 0.8076184400613757, "train/reward_rate": 0.07114753170289854, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00014920750982128084, "report/cont_loss_std": 0.004589666612446308, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.14689579606056213, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.760203748650383e-06, "report/cont_pred": 0.9991511106491089, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.0750598907470703, "report/dyn_loss_std": 5.339649200439453, "report/image_loss_mean": 2.3960418701171875, "report/image_loss_std": 1.8772361278533936, "report/model_loss_mean": 4.282450199127197, "report/model_loss_std": 4.609521389007568, "report/post_ent_mag": 47.49638366699219, "report/post_ent_max": 47.49638366699219, "report/post_ent_mean": 35.34668731689453, "report/post_ent_min": 22.20916175842285, "report/post_ent_std": 3.961529493331909, "report/prior_ent_mag": 69.43598175048828, "report/prior_ent_max": 69.43598175048828, "report/prior_ent_mean": 38.72494888305664, "report/prior_ent_min": 28.381694793701172, "report/prior_ent_std": 6.432318210601807, "report/rep_loss_mean": 3.0750598907470703, "report/rep_loss_std": 5.339649200439453, "report/reward_avg": 0.703125, "report/reward_loss_mean": 0.041223544627428055, "report/reward_loss_std": 0.17450368404388428, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.853111267089844, "report/reward_neg_acc": 0.9822916984558105, "report/reward_neg_loss": 0.0039819106459617615, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5998480319976807, "report/reward_pred": 0.6766864657402039, "report/reward_rate": 0.0625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.693263922992628e-08, "eval/cont_loss_std": 2.391504381193954e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.693263922992628e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.546283721923828, "eval/dyn_loss_std": 8.86960220336914, "eval/image_loss_mean": 7.196770668029785, "eval/image_loss_std": 4.724340438842773, "eval/model_loss_mean": 15.379150390625, "eval/model_loss_std": 9.994818687438965, "eval/post_ent_mag": 45.78962326049805, "eval/post_ent_max": 45.78962326049805, "eval/post_ent_mean": 34.36546325683594, "eval/post_ent_min": 21.912132263183594, "eval/post_ent_std": 3.7817835807800293, "eval/prior_ent_mag": 69.43598175048828, "eval/prior_ent_max": 69.43598175048828, "eval/prior_ent_mean": 37.94935607910156, "eval/prior_ent_min": 27.530181884765625, "eval/prior_ent_std": 5.640196800231934, "eval/rep_loss_mean": 12.546283721923828, "eval/rep_loss_std": 8.86960220336914, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6546092629432678, "eval/reward_loss_std": 2.987447738647461, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.995923042297363, "eval/reward_neg_acc": 0.9331276416778564, "eval/reward_neg_loss": 0.08914359658956528, "eval/reward_pos_acc": 0.23076924681663513, "eval/reward_pos_loss": 11.224468231201172, "eval/reward_pred": 0.24829034507274628, "eval/reward_rate": 0.05078125, "replay/size": 29012.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.102088785102701e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2502998844713704e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0132789611816406e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.4245026111603, "timer/env.step_count": 693.0, "timer/env.step_total": 2.411585807800293, "timer/env.step_frac": 0.008027260715553586, "timer/env.step_avg": 0.0034799218005776233, "timer/env.step_min": 0.002264261245727539, "timer/env.step_max": 0.021409273147583008, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 202.19380068778992, "timer/replay._sample_frac": 0.673026996567885, "timer/replay._sample_avg": 0.018235371634901687, "timer/replay._sample_min": 0.0005049705505371094, "timer/replay._sample_max": 0.07975935935974121, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2071695327758789, "timer/agent.save_frac": 0.0006895893343427405, "timer/agent.save_avg": 0.2071695327758789, "timer/agent.save_min": 0.2071695327758789, "timer/agent.save_max": 0.2071695327758789, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.8500213623047, "timer/agent.policy_frac": 0.6585681914846412, "timer/agent.policy_avg": 0.28549786632367197, "timer/agent.policy_min": 0.003010272979736328, "timer/agent.policy_max": 0.42127370834350586, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09169864654541016, "timer/dataset_train_frac": 0.0003052302516885442, "timer/dataset_train_avg": 0.00013232127928630615, "timer/dataset_train_min": 8.0108642578125e-05, "timer/dataset_train_max": 0.0024013519287109375, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.86165881156921, "timer/agent.train_frac": 0.32907322123297633, "timer/agent.train_avg": 0.1426575163226107, "timer/agent.train_min": 0.1029050350189209, "timer/agent.train_max": 0.44840550422668457, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5115447044372559, "timer/agent.report_frac": 0.001702739623403317, "timer/agent.report_avg": 0.25577235221862793, "timer/agent.report_min": 0.10451436042785645, "timer/agent.report_max": 0.4070303440093994, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.53131103515625e-05, "timer/dataset_eval_frac": 1.8411650804380065e-07, "timer/dataset_eval_avg": 5.53131103515625e-05, "timer/dataset_eval_min": 5.53131103515625e-05, "timer/dataset_eval_max": 5.53131103515625e-05, "fps": 9.226697089307336}
+{"step": 116400, "episode/length": 880.0, "episode/score": 1160.0, "episode/reward_rate": 0.0851305334846765}
+{"step": 119072, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.297150985054348, "train/action_min": 0.0, "train/action_std": 3.053359097328739, "train/actor_opt_grad_norm": 0.013389622907329729, "train/actor_opt_grad_steps": 28320.0, "train/actor_opt_loss": 0.005694036149772886, "train/adv_mag": 1.017221346281577, "train/adv_max": 1.0074110091596409, "train/adv_mean": 0.0073214323331384275, "train/adv_min": -0.5525849565215732, "train/adv_std": 0.0637068035269993, "train/cont_avg": 0.9983865489130435, "train/cont_loss_mean": 0.0005292648407592991, "train/cont_loss_std": 0.01397014240896222, "train/cont_neg_acc": 0.9364406789763499, "train/cont_neg_loss": 0.19934220894746263, "train/cont_pos_acc": 0.9999574828838956, "train/cont_pos_loss": 0.00018098787402516666, "train/cont_pred": 0.9983831341715826, "train/cont_rate": 0.9983865489130435, "train/dyn_loss_mean": 3.767079021619714, "train/dyn_loss_std": 5.693993285082389, "train/extr_critic_critic_opt_grad_norm": 1.8904530051825703, "train/extr_critic_critic_opt_grad_steps": 28320.0, "train/extr_critic_critic_opt_loss": 1.5989124844039695, "train/extr_critic_mag": 308.03698177614075, "train/extr_critic_max": 308.03698177614075, "train/extr_critic_mean": 98.22192990952644, "train/extr_critic_min": 0.011631298756253893, "train/extr_critic_std": 70.17863950867584, "train/extr_return_normed_mag": 1.7281368158865666, "train/extr_return_normed_max": 1.7281368158865666, "train/extr_return_normed_mean": 0.42340047419935034, "train/extr_return_normed_min": -0.011474818139728428, "train/extr_return_normed_std": 0.3180658396171487, "train/extr_return_rate": 0.9278429297433384, "train/extr_return_raw_mag": 399.72137230030006, "train/extr_return_raw_max": 399.72137230030006, "train/extr_return_raw_mean": 99.90380726689878, "train/extr_return_raw_min": 0.0017551571211737135, "train/extr_return_raw_std": 73.0732285319895, "train/extr_reward_mag": 171.18444509091586, "train/extr_reward_max": 171.18444509091586, "train/extr_reward_mean": 0.7648951609929403, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.287860922191454, "train/image_loss_mean": 2.684130977893221, "train/image_loss_std": 2.1518516281376714, "train/model_loss_mean": 5.001660581948101, "train/model_loss_std": 5.156213179878566, "train/model_opt_grad_norm": 17.58821459784024, "train/model_opt_grad_steps": 28320.0, "train/model_opt_loss": 5.001660581948101, "train/policy_entropy_mag": 2.129192742748537, "train/policy_entropy_max": 2.129192742748537, "train/policy_entropy_mean": 1.1769684017568394, "train/policy_entropy_min": 0.07699508608683296, "train/policy_entropy_std": 0.49634906174480053, "train/policy_logprob_mag": 6.737989702086518, "train/policy_logprob_max": -0.010100285279686037, "train/policy_logprob_mean": -1.177571580029916, "train/policy_logprob_min": -6.737989702086518, "train/policy_logprob_std": 1.1001423130864683, "train/policy_randomness_mag": 0.9690373738606771, "train/policy_randomness_max": 0.9690373738606771, "train/policy_randomness_mean": 0.5356613993644714, "train/policy_randomness_min": 0.03504197353470153, "train/policy_randomness_std": 0.22589819241261136, "train/post_ent_mag": 48.60883679597274, "train/post_ent_max": 48.60883679597274, "train/post_ent_mean": 36.78703291519828, "train/post_ent_min": 23.820249308710512, "train/post_ent_std": 4.212600345196932, "train/prior_ent_mag": 69.54391247293223, "train/prior_ent_max": 69.54391247293223, "train/prior_ent_mean": 40.57653316553088, "train/prior_ent_min": 27.62252738510353, "train/prior_ent_std": 6.621849799501723, "train/rep_loss_mean": 3.767079021619714, "train/rep_loss_std": 5.693993285082389, "train/reward_avg": 1.017181838768116, "train/reward_loss_mean": 0.05675292179744313, "train/reward_loss_std": 0.23679487795933432, "train/reward_max_data": 172.31884057971016, "train/reward_max_pred": 137.76921591551408, "train/reward_neg_acc": 0.9719542627749236, "train/reward_neg_loss": 0.0077521012525708565, "train/reward_pos_acc": 0.9933841936830161, "train/reward_pos_loss": 0.678416933702386, "train/reward_pred": 0.8889844637850056, "train/reward_rate": 0.07310065670289854, "train_stats/mean_log_entropy": 1.2363158464431763, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.2548666745715309e-06, "report/cont_loss_std": 1.852564855653327e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.2548666745715309e-06, "report/cont_pred": 0.9999988079071045, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.268561601638794, "report/dyn_loss_std": 5.353755950927734, "report/image_loss_mean": 2.4609274864196777, "report/image_loss_std": 1.9872010946273804, "report/model_loss_mean": 4.482182502746582, "report/model_loss_std": 4.721218109130859, "report/post_ent_mag": 50.053592681884766, "report/post_ent_max": 50.053592681884766, "report/post_ent_mean": 36.29181671142578, "report/post_ent_min": 23.889606475830078, "report/post_ent_std": 3.9526896476745605, "report/prior_ent_mag": 69.37830352783203, "report/prior_ent_max": 69.37830352783203, "report/prior_ent_mean": 39.703453063964844, "report/prior_ent_min": 26.10262680053711, "report/prior_ent_std": 6.296469211578369, "report/rep_loss_mean": 3.268561601638794, "report/rep_loss_std": 5.353755950927734, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.06011659651994705, "report/reward_loss_std": 0.2020030915737152, "report/reward_max_data": 50.0, "report/reward_max_pred": 36.80220413208008, "report/reward_neg_acc": 0.9763695001602173, "report/reward_neg_loss": 0.005266115535050631, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6092112064361572, "report/reward_pred": 0.9045010805130005, "report/reward_rate": 0.0908203125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.925999850362132e-08, "eval/cont_loss_std": 1.168275503005134e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.925999850362132e-08, "eval/cont_pred": 0.9999999403953552, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.119219779968262, "eval/dyn_loss_std": 9.248883247375488, "eval/image_loss_mean": 7.703713417053223, "eval/image_loss_std": 4.620701313018799, "eval/model_loss_mean": 16.07998275756836, "eval/model_loss_std": 9.750162124633789, "eval/post_ent_mag": 50.009971618652344, "eval/post_ent_max": 50.009971618652344, "eval/post_ent_mean": 34.691246032714844, "eval/post_ent_min": 21.593915939331055, "eval/post_ent_std": 4.348814487457275, "eval/prior_ent_mag": 69.37830352783203, "eval/prior_ent_max": 69.37830352783203, "eval/prior_ent_mean": 38.00123596191406, "eval/prior_ent_min": 27.48493194580078, "eval/prior_ent_std": 5.92872428894043, "eval/rep_loss_mean": 13.119219779968262, "eval/rep_loss_std": 9.248883247375488, "eval/reward_avg": 0.41015625, "eval/reward_loss_mean": 0.5047380924224854, "eval/reward_loss_std": 2.523332357406616, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00277042388916, "eval/reward_neg_acc": 0.9226069450378418, "eval/reward_neg_loss": 0.09957833588123322, "eval/reward_pos_acc": 0.2142857164144516, "eval/reward_pos_loss": 9.977758407592773, "eval/reward_pred": 0.2584085166454315, "eval/reward_rate": 0.041015625, "replay/size": 29705.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.010230544669632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.8435080158074009e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0728836059570312e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2837073802948, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4575629234313965, "timer/env.step_frac": 0.008184136744785197, "timer/env.step_avg": 0.00354626684477835, "timer/env.step_min": 0.002228975296020508, "timer/env.step_max": 0.03007054328918457, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.85586285591125, "timer/replay._sample_frac": 0.6688869822748559, "timer/replay._sample_avg": 0.01811470624602374, "timer/replay._sample_min": 0.0005321502685546875, "timer/replay._sample_max": 0.053296566009521484, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.0690941810608, "timer/agent.policy_frac": 0.6596065298015515, "timer/agent.policy_avg": 0.28581398871725944, "timer/agent.policy_min": 0.002879619598388672, "timer/agent.policy_max": 0.33538031578063965, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08905959129333496, "timer/dataset_train_frac": 0.0002965848266304548, "timer/dataset_train_avg": 0.0001285131187494011, "timer/dataset_train_min": 8.106231689453125e-05, "timer/dataset_train_max": 0.001115560531616211, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.43294787406921, "timer/agent.train_frac": 0.32779982881125364, "timer/agent.train_avg": 0.1420388858211677, "timer/agent.train_min": 0.10296273231506348, "timer/agent.train_max": 0.46041154861450195, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5091555118560791, "timer/agent.report_frac": 0.001695581542861592, "timer/agent.report_avg": 0.25457775592803955, "timer/agent.report_min": 0.10638594627380371, "timer/agent.report_max": 0.4027695655822754, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.273124694824219e-05, "timer/dataset_eval_frac": 2.755102754991201e-07, "timer/dataset_eval_avg": 8.273124694824219e-05, "timer/dataset_eval_min": 8.273124694824219e-05, "timer/dataset_eval_max": 8.273124694824219e-05, "fps": 9.230997678541112}
+{"step": 120588, "episode/length": 1046.0, "episode/score": 1510.0, "episode/reward_rate": 0.08118433619866285}
+{"step": 121916, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.58709716796875, "train/action_min": 0.0, "train/action_std": 3.0063767198105933, "train/actor_opt_grad_norm": 0.011695034795401382, "train/actor_opt_grad_steps": 29020.0, "train/actor_opt_loss": 0.004721305500322455, "train/adv_mag": 0.8269540978149629, "train/adv_max": 0.8172293171076708, "train/adv_mean": 0.005942602331371335, "train/adv_min": -0.5301650829718146, "train/adv_std": 0.05415585967646518, "train/cont_avg": 0.998198173415493, "train/cont_loss_mean": 0.0005250525158744558, "train/cont_loss_std": 0.014160503862814026, "train/cont_neg_acc": 0.9452777783075968, "train/cont_neg_loss": 0.14272489269981936, "train/cont_pos_acc": 0.999931019796452, "train/cont_pos_loss": 0.00023923850741279956, "train/cont_pred": 0.9981635741784539, "train/cont_rate": 0.998198173415493, "train/dyn_loss_mean": 3.8564878954014308, "train/dyn_loss_std": 5.7581966628491035, "train/extr_critic_critic_opt_grad_norm": 1.9385316892408988, "train/extr_critic_critic_opt_grad_steps": 29020.0, "train/extr_critic_critic_opt_loss": 1.6147456185918458, "train/extr_critic_mag": 301.58940468371753, "train/extr_critic_max": 301.58940468371753, "train/extr_critic_mean": 97.12288612043353, "train/extr_critic_min": 0.0500398790332633, "train/extr_critic_std": 69.7916159294021, "train/extr_return_normed_mag": 1.4848393000347513, "train/extr_return_normed_max": 1.4848393000347513, "train/extr_return_normed_mean": 0.41047577329084906, "train/extr_return_normed_min": -0.01239561019990016, "train/extr_return_normed_std": 0.3082292592021781, "train/extr_return_rate": 0.9331545762612786, "train/extr_return_raw_mag": 348.5790553563078, "train/extr_return_raw_max": 348.5790553563078, "train/extr_return_raw_mean": 98.5075223680953, "train/extr_return_raw_min": 0.042398837119550774, "train/extr_return_raw_std": 71.75836906970387, "train/extr_reward_mag": 122.39680228434818, "train/extr_reward_max": 122.39680228434818, "train/extr_reward_mean": 0.6989803045568331, "train/extr_reward_min": 0.0, "train/extr_reward_std": 3.952476182454069, "train/image_loss_mean": 2.7234425460788567, "train/image_loss_std": 2.1875131331698996, "train/model_loss_mean": 5.094267811573727, "train/model_loss_std": 5.240740111176397, "train/model_opt_grad_norm": 17.35163735671782, "train/model_opt_grad_steps": 29020.0, "train/model_opt_loss": 5.094267811573727, "train/policy_entropy_mag": 2.1340721056494916, "train/policy_entropy_max": 2.1340721056494916, "train/policy_entropy_mean": 1.2069751150171522, "train/policy_entropy_min": 0.07783584947317419, "train/policy_entropy_std": 0.4920235057951699, "train/policy_logprob_mag": 6.734916431803099, "train/policy_logprob_max": -0.0102265168269965, "train/policy_logprob_mean": -1.2071763151128527, "train/policy_logprob_min": -6.734916431803099, "train/policy_logprob_std": 1.0928482287366625, "train/policy_randomness_mag": 0.9712580660699119, "train/policy_randomness_max": 0.9712580660699119, "train/policy_randomness_mean": 0.5493180361432088, "train/policy_randomness_min": 0.035424621539636394, "train/policy_randomness_std": 0.2239295443598653, "train/post_ent_mag": 49.5275302940691, "train/post_ent_max": 49.5275302940691, "train/post_ent_mean": 37.22907332299461, "train/post_ent_min": 24.090597689991267, "train/post_ent_std": 4.337956821414786, "train/prior_ent_mag": 69.93347286170638, "train/prior_ent_max": 69.93347286170638, "train/prior_ent_mean": 41.098634263159525, "train/prior_ent_min": 27.789801181202204, "train/prior_ent_std": 6.771018182727652, "train/rep_loss_mean": 3.8564878954014308, "train/rep_loss_std": 5.7581966628491035, "train/reward_avg": 0.9403884242957746, "train/reward_loss_mean": 0.056407510604656916, "train/reward_loss_std": 0.2372976392507553, "train/reward_max_data": 138.16901408450704, "train/reward_max_pred": 111.95926437915212, "train/reward_neg_acc": 0.9720244600739277, "train/reward_neg_loss": 0.007706497556490588, "train/reward_pos_acc": 0.9928255458952675, "train/reward_pos_loss": 0.6791331851986092, "train/reward_pred": 0.8277937669149587, "train/reward_rate": 0.07215558978873239, "train_stats/mean_log_entropy": 1.249279260635376, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.737626219750382e-06, "report/cont_loss_std": 0.0001971360034076497, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 7.072453445289284e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.676055247429758e-06, "report/cont_pred": 0.9990158677101135, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.442883014678955, "report/dyn_loss_std": 5.421903610229492, "report/image_loss_mean": 2.1428093910217285, "report/image_loss_std": 1.4294750690460205, "report/model_loss_mean": 4.272469997406006, "report/model_loss_std": 4.359063148498535, "report/post_ent_mag": 49.739158630371094, "report/post_ent_max": 49.739158630371094, "report/post_ent_mean": 37.87570571899414, "report/post_ent_min": 22.971534729003906, "report/post_ent_std": 4.155371189117432, "report/prior_ent_mag": 69.84272766113281, "report/prior_ent_max": 69.84272766113281, "report/prior_ent_mean": 41.92713165283203, "report/prior_ent_min": 29.08639907836914, "report/prior_ent_std": 5.942169189453125, "report/rep_loss_mean": 3.442883014678955, "report/rep_loss_std": 5.421903610229492, "report/reward_avg": 1.34765625, "report/reward_loss_mean": 0.0639231875538826, "report/reward_loss_std": 0.22428150475025177, "report/reward_max_data": 200.0, "report/reward_max_pred": 192.8212432861328, "report/reward_neg_acc": 0.9731759428977966, "report/reward_neg_loss": 0.010177467949688435, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6083906292915344, "report/reward_pred": 1.288251519203186, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0009419170673936605, "eval/cont_loss_std": 0.01808295026421547, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.07105667144060135, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008047062437981367, "eval/cont_pred": 0.9975080490112305, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.643153190612793, "eval/dyn_loss_std": 10.092169761657715, "eval/image_loss_mean": 8.20337200164795, "eval/image_loss_std": 5.387791633605957, "eval/model_loss_mean": 17.13928985595703, "eval/model_loss_std": 11.371111869812012, "eval/post_ent_mag": 46.829803466796875, "eval/post_ent_max": 46.829803466796875, "eval/post_ent_mean": 35.00026321411133, "eval/post_ent_min": 21.490251541137695, "eval/post_ent_std": 4.016124725341797, "eval/prior_ent_mag": 69.84272766113281, "eval/prior_ent_max": 69.84272766113281, "eval/prior_ent_mean": 40.05088806152344, "eval/prior_ent_min": 28.210556030273438, "eval/prior_ent_std": 5.856753826141357, "eval/rep_loss_mean": 13.643153190612793, "eval/rep_loss_std": 10.092169761657715, "eval/reward_avg": 0.625, "eval/reward_loss_mean": 0.7490833401679993, "eval/reward_loss_std": 2.902768135070801, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994627952575684, "eval/reward_neg_acc": 0.8927083611488342, "eval/reward_neg_loss": 0.14334599673748016, "eval/reward_pos_acc": 0.171875, "eval/reward_pos_loss": 9.83514404296875, "eval/reward_pred": 0.3449505567550659, "eval/reward_rate": 0.0625, "replay/size": 30416.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.868249134004703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4154216911219343e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1422669887543, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8370747566223145, "timer/env.step_frac": 0.009452433291338517, "timer/env.step_avg": 0.003990259854602412, "timer/env.step_min": 0.0022656917572021484, "timer/env.step_max": 0.024164438247680664, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 189.3963143825531, "timer/replay._sample_frac": 0.6310218027028143, "timer/replay._sample_avg": 0.016648761812812333, "timer/replay._sample_min": 0.0005648136138916016, "timer/replay._sample_max": 0.06981754302978516, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.30663084983826, "timer/agent.policy_frac": 0.6607087793378612, "timer/agent.policy_avg": 0.27891227967628446, "timer/agent.policy_min": 0.0031862258911132812, "timer/agent.policy_max": 0.32135772705078125, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09765434265136719, "timer/dataset_train_frac": 0.0003253601821266516, "timer/dataset_train_avg": 0.00013734787995972882, "timer/dataset_train_min": 8.821487426757812e-05, "timer/dataset_train_max": 0.0004546642303466797, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.8310399055481, "timer/agent.train_frac": 0.3259488937931345, "timer/agent.train_avg": 0.13759639930456835, "timer/agent.train_min": 0.10140228271484375, "timer/agent.train_max": 0.43468356132507324, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49687671661376953, "timer/agent.report_frac": 0.0016554706592936692, "timer/agent.report_avg": 0.24843835830688477, "timer/agent.report_min": 0.09879779815673828, "timer/agent.report_max": 0.39807891845703125, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.677078247070312e-05, "timer/dataset_eval_frac": 2.5578131077946303e-07, "timer/dataset_eval_avg": 7.677078247070312e-05, "timer/dataset_eval_min": 7.677078247070312e-05, "timer/dataset_eval_max": 7.677078247070312e-05, "fps": 9.47520414869513}
+{"step": 123172, "episode/length": 645.0, "episode/score": 800.0, "episode/reward_rate": 0.08204334365325078}
+{"step": 124720, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.544807541538292, "train/action_min": 0.0, "train/action_std": 2.9344966142949924, "train/actor_opt_grad_norm": 0.012143492167422049, "train/actor_opt_grad_steps": 29730.0, "train/actor_opt_loss": 0.005626166642530375, "train/adv_mag": 0.9250337263228188, "train/adv_max": 0.9069731092788804, "train/adv_mean": 0.0070193095405710676, "train/adv_min": -0.5464814888759398, "train/adv_std": 0.05868576440802762, "train/cont_avg": 0.9981844190140845, "train/cont_loss_mean": 0.0008063541548904782, "train/cont_loss_std": 0.022787263901873175, "train/cont_neg_acc": 0.9072222242752711, "train/cont_neg_loss": 0.3314662827034681, "train/cont_pos_acc": 0.9999724206790118, "train/cont_pos_loss": 0.0001503400800646419, "train/cont_pred": 0.9982562484875531, "train/cont_rate": 0.9981844190140845, "train/dyn_loss_mean": 3.7769194253733462, "train/dyn_loss_std": 5.736602588438652, "train/extr_critic_critic_opt_grad_norm": 2.036777331795491, "train/extr_critic_critic_opt_grad_steps": 29730.0, "train/extr_critic_critic_opt_loss": 1.6580341668196128, "train/extr_critic_mag": 307.3950956102828, "train/extr_critic_max": 307.3950956102828, "train/extr_critic_mean": 99.51158308647048, "train/extr_critic_min": 0.09826267437196114, "train/extr_critic_std": 70.55931660826776, "train/extr_return_normed_mag": 1.626754001832344, "train/extr_return_normed_max": 1.626754001832344, "train/extr_return_normed_mean": 0.42383943330234203, "train/extr_return_normed_min": -0.011917723211604106, "train/extr_return_normed_std": 0.3149585979925075, "train/extr_return_rate": 0.9404572433149311, "train/extr_return_raw_mag": 379.9167136608715, "train/extr_return_raw_max": 379.9167136608715, "train/extr_return_raw_mean": 101.13966068751375, "train/extr_return_raw_min": 0.09156887070603774, "train/extr_return_raw_std": 73.02031234956124, "train/extr_reward_mag": 146.61472857837947, "train/extr_reward_max": 146.61472857837947, "train/extr_reward_mean": 0.7468401231396367, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.458776599924329, "train/image_loss_mean": 2.6209379736806304, "train/image_loss_std": 2.1171812843269024, "train/model_loss_mean": 4.943819019156442, "train/model_loss_std": 5.153611552547401, "train/model_opt_grad_norm": 17.247754258169255, "train/model_opt_grad_steps": 29730.0, "train/model_opt_loss": 4.943819019156442, "train/policy_entropy_mag": 2.1218399934365717, "train/policy_entropy_max": 2.1218399934365717, "train/policy_entropy_mean": 1.1938284392088232, "train/policy_entropy_min": 0.07749070258627475, "train/policy_entropy_std": 0.4994316596380422, "train/policy_logprob_mag": 6.727255478711196, "train/policy_logprob_max": -0.010176057704317738, "train/policy_logprob_mean": -1.1939967417381179, "train/policy_logprob_min": -6.727255478711196, "train/policy_logprob_std": 1.0965744223393186, "train/policy_randomness_mag": 0.96569098385287, "train/policy_randomness_max": 0.96569098385287, "train/policy_randomness_mean": 0.5433347321731944, "train/policy_randomness_min": 0.03526753832546758, "train/policy_randomness_std": 0.22730114216535863, "train/post_ent_mag": 49.42027529864244, "train/post_ent_max": 49.42027529864244, "train/post_ent_mean": 37.28283202480262, "train/post_ent_min": 23.996132864079005, "train/post_ent_std": 4.239337561835705, "train/prior_ent_mag": 70.26882934570312, "train/prior_ent_max": 70.26882934570312, "train/prior_ent_mean": 41.139461409877725, "train/prior_ent_min": 27.700702291139415, "train/prior_ent_std": 6.6211503122893856, "train/rep_loss_mean": 3.7769194253733462, "train/rep_loss_std": 5.736602588438652, "train/reward_avg": 0.966521786971831, "train/reward_loss_mean": 0.05592300913388461, "train/reward_loss_std": 0.23223575498436538, "train/reward_max_data": 160.42253521126761, "train/reward_max_pred": 120.92562522350902, "train/reward_neg_acc": 0.9735749875995475, "train/reward_neg_loss": 0.006689222349168759, "train/reward_pos_acc": 0.9945488966686625, "train/reward_pos_loss": 0.6670906736817158, "train/reward_pred": 0.8559024850247612, "train/reward_rate": 0.07441131161971831, "train_stats/mean_log_entropy": 1.230687141418457, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0008986865286715329, "report/cont_loss_std": 0.012904392555356026, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.06864049285650253, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0006996410666033626, "report/cont_pred": 0.9966138005256653, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.160625457763672, "report/dyn_loss_std": 6.192811012268066, "report/image_loss_mean": 2.5839715003967285, "report/image_loss_std": 2.5730950832366943, "report/model_loss_mean": 5.157548904418945, "report/model_loss_std": 5.829050064086914, "report/post_ent_mag": 50.33102035522461, "report/post_ent_max": 50.33102035522461, "report/post_ent_mean": 38.223026275634766, "report/post_ent_min": 24.543785095214844, "report/post_ent_std": 5.008230209350586, "report/prior_ent_mag": 70.4017333984375, "report/prior_ent_max": 70.4017333984375, "report/prior_ent_mean": 41.239444732666016, "report/prior_ent_min": 26.090576171875, "report/prior_ent_std": 7.241252899169922, "report/rep_loss_mean": 4.160625457763672, "report/rep_loss_std": 6.192811012268066, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.07630328834056854, "report/reward_loss_std": 0.2731691598892212, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.66200256347656, "report/reward_neg_acc": 0.9534391760826111, "report/reward_neg_loss": 0.02183593437075615, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.727843165397644, "report/reward_pred": 0.7286679744720459, "report/reward_rate": 0.0771484375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.310472574317828e-05, "eval/cont_loss_std": 0.002051923656836152, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.310472574317828e-05, "eval/cont_pred": 0.9999289512634277, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.578301429748535, "eval/dyn_loss_std": 9.874297142028809, "eval/image_loss_mean": 7.143430709838867, "eval/image_loss_std": 4.250608921051025, "eval/model_loss_mean": 15.752481460571289, "eval/model_loss_std": 9.474721908569336, "eval/post_ent_mag": 47.51161193847656, "eval/post_ent_max": 47.51161193847656, "eval/post_ent_mean": 36.201637268066406, "eval/post_ent_min": 23.219940185546875, "eval/post_ent_std": 4.222433567047119, "eval/prior_ent_mag": 70.4017333984375, "eval/prior_ent_max": 70.4017333984375, "eval/prior_ent_mean": 38.90007781982422, "eval/prior_ent_min": 28.24197006225586, "eval/prior_ent_std": 5.769478797912598, "eval/rep_loss_mean": 13.578301429748535, "eval/rep_loss_std": 9.874297142028809, "eval/reward_avg": 0.380859375, "eval/reward_loss_mean": 0.46199747920036316, "eval/reward_loss_std": 2.2948641777038574, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.983330726623535, "eval/reward_neg_acc": 0.9441624879837036, "eval/reward_neg_loss": 0.08553075045347214, "eval/reward_pos_acc": 0.1794871836900711, "eval/reward_pos_loss": 9.970195770263672, "eval/reward_pred": 0.23402714729309082, "eval/reward_rate": 0.0380859375, "replay/size": 31117.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.255412103106054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2630062674659806e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.834766387939453e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.7238516807556, "timer/env.step_count": 701.0, "timer/env.step_total": 2.639087677001953, "timer/env.step_frac": 0.008805063935361809, "timer/env.step_avg": 0.003764747042798792, "timer/env.step_min": 0.0022852420806884766, "timer/env.step_max": 0.02326035499572754, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 199.2600429058075, "timer/replay._sample_frac": 0.6648120988317107, "timer/replay._sample_avg": 0.017765695694169713, "timer/replay._sample_min": 0.0005581378936767578, "timer/replay._sample_max": 0.04782843589782715, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.12356162071228027, "timer/agent.save_frac": 0.00041225154427779496, "timer/agent.save_avg": 0.12356162071228027, "timer/agent.save_min": 0.12356162071228027, "timer/agent.save_max": 0.12356162071228027, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 197.84831762313843, "timer/agent.policy_frac": 0.660102012281199, "timer/agent.policy_avg": 0.2822372576649621, "timer/agent.policy_min": 0.0029523372650146484, "timer/agent.policy_max": 0.40390896797180176, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09174513816833496, "timer/dataset_train_frac": 0.0003060988895406806, "timer/dataset_train_avg": 0.00013087751521873747, "timer/dataset_train_min": 7.62939453125e-05, "timer/dataset_train_max": 0.0011150836944580078, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.29185056686401, "timer/agent.train_frac": 0.32794137008341084, "timer/agent.train_avg": 0.14021661992419973, "timer/agent.train_min": 0.10069394111633301, "timer/agent.train_max": 0.4506857395172119, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.21599364280700684, "timer/agent.report_frac": 0.0007206421564242668, "timer/agent.report_avg": 0.10799682140350342, "timer/agent.report_min": 0.10262036323547363, "timer/agent.report_max": 0.1133732795715332, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001239776611328125, "timer/dataset_eval_frac": 4.13639623398623e-07, "timer/dataset_eval_avg": 0.0001239776611328125, "timer/dataset_eval_min": 0.0001239776611328125, "timer/dataset_eval_max": 0.0001239776611328125, "fps": 9.355052251262574}
+{"step": 125828, "episode/length": 663.0, "episode/score": 1490.0, "episode/reward_rate": 0.125}
+{"step": 127496, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.563370414402174, "train/action_min": 0.0, "train/action_std": 2.9098395679308022, "train/actor_opt_grad_norm": 0.0114720713927586, "train/actor_opt_grad_steps": 30430.0, "train/actor_opt_loss": 0.004838226529249949, "train/adv_mag": 0.8757128603216531, "train/adv_max": 0.8575274223002834, "train/adv_mean": 0.006299438256684115, "train/adv_min": -0.5306561779284823, "train/adv_std": 0.05469337256922238, "train/cont_avg": 0.9984714673913043, "train/cont_loss_mean": 0.0003917441002173568, "train/cont_loss_std": 0.010619866258841048, "train/cont_neg_acc": 0.9614197545581393, "train/cont_neg_loss": 0.12860157631423505, "train/cont_pos_acc": 0.9999432710633762, "train/cont_pos_loss": 0.00014733901967171428, "train/cont_pred": 0.9984823033429574, "train/cont_rate": 0.9984714673913043, "train/dyn_loss_mean": 3.9404658960259478, "train/dyn_loss_std": 5.811221171116483, "train/extr_critic_critic_opt_grad_norm": 1.8995440749154575, "train/extr_critic_critic_opt_grad_steps": 30430.0, "train/extr_critic_critic_opt_loss": 1.595969796180725, "train/extr_critic_mag": 300.81588369176006, "train/extr_critic_max": 300.81588369176006, "train/extr_critic_mean": 101.84281125275984, "train/extr_critic_min": 0.37015067494433856, "train/extr_critic_std": 69.02842386218084, "train/extr_return_normed_mag": 1.541392875754315, "train/extr_return_normed_max": 1.541392875754315, "train/extr_return_normed_mean": 0.42519070186476776, "train/extr_return_normed_min": -0.011187596233102722, "train/extr_return_normed_std": 0.30229064433471015, "train/extr_return_rate": 0.9427546193634254, "train/extr_return_raw_mag": 366.53824029452556, "train/extr_return_raw_max": 366.53824029452556, "train/extr_return_raw_mean": 103.32798579119253, "train/extr_return_raw_min": 0.49449503331350675, "train/extr_return_raw_std": 71.2531699028568, "train/extr_reward_mag": 141.2220429821291, "train/extr_reward_max": 141.2220429821291, "train/extr_reward_mean": 0.7649186162844949, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.494644562403361, "train/image_loss_mean": 2.6980777339658877, "train/image_loss_std": 2.093602697054545, "train/model_loss_mean": 5.117510923440905, "train/model_loss_std": 5.169754556987597, "train/model_opt_grad_norm": 17.722281566564586, "train/model_opt_grad_steps": 30430.0, "train/model_opt_loss": 5.117510923440905, "train/policy_entropy_mag": 2.1200030610181284, "train/policy_entropy_max": 2.1200030610181284, "train/policy_entropy_mean": 1.1458526573319365, "train/policy_entropy_min": 0.07759785544181215, "train/policy_entropy_std": 0.5071827004785123, "train/policy_logprob_mag": 6.73723496561465, "train/policy_logprob_max": -0.010200332269828388, "train/policy_logprob_mean": -1.1459179684735727, "train/policy_logprob_min": -6.73723496561465, "train/policy_logprob_std": 1.1055725467377815, "train/policy_randomness_mag": 0.9648549677669138, "train/policy_randomness_max": 0.9648549677669138, "train/policy_randomness_mean": 0.5215000147404878, "train/policy_randomness_min": 0.035316305639951126, "train/policy_randomness_std": 0.23082879574402518, "train/post_ent_mag": 49.53208237800045, "train/post_ent_max": 49.53208237800045, "train/post_ent_mean": 37.4925165038178, "train/post_ent_min": 24.33779111115829, "train/post_ent_std": 4.238693914551666, "train/prior_ent_mag": 70.52547211577927, "train/prior_ent_max": 70.52547211577927, "train/prior_ent_mean": 41.4000474681025, "train/prior_ent_min": 28.14970030300859, "train/prior_ent_std": 6.594351319299228, "train/rep_loss_mean": 3.9404658960259478, "train/rep_loss_std": 5.811221171116483, "train/reward_avg": 1.0426573822463767, "train/reward_loss_mean": 0.05476191283568092, "train/reward_loss_std": 0.21476921698321466, "train/reward_max_data": 161.44927536231884, "train/reward_max_pred": 116.87185642684716, "train/reward_neg_acc": 0.9741547513699186, "train/reward_neg_loss": 0.0062445079725559636, "train/reward_pos_acc": 0.9957183461258377, "train/reward_pos_loss": 0.6418000952057217, "train/reward_pred": 0.896374403566554, "train/reward_rate": 0.07618602807971014, "train_stats/mean_log_entropy": 0.9925819039344788, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.002600176725536585, "report/cont_loss_std": 0.08277779817581177, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 1.3252087831497192, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1901705875061452e-05, "report/cont_pred": 0.9989428520202637, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.87722635269165, "report/dyn_loss_std": 5.687526226043701, "report/image_loss_mean": 2.564964771270752, "report/image_loss_std": 2.313877820968628, "report/model_loss_mean": 5.516521453857422, "report/model_loss_std": 5.308022499084473, "report/post_ent_mag": 49.75681686401367, "report/post_ent_max": 49.75681686401367, "report/post_ent_mean": 38.65752410888672, "report/post_ent_min": 24.698646545410156, "report/post_ent_std": 4.433403015136719, "report/prior_ent_mag": 70.15078735351562, "report/prior_ent_max": 70.15078735351562, "report/prior_ent_mean": 42.235469818115234, "report/prior_ent_min": 28.492469787597656, "report/prior_ent_std": 7.191481590270996, "report/rep_loss_mean": 4.87722635269165, "report/rep_loss_std": 5.687526226043701, "report/reward_avg": 0.400390625, "report/reward_loss_mean": 0.022620392963290215, "report/reward_loss_std": 0.11023304611444473, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.96971893310547, "report/reward_neg_acc": 0.9787233471870422, "report/reward_neg_loss": 0.002248078351840377, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5660656094551086, "report/reward_pred": 0.3863235414028168, "report/reward_rate": 0.0361328125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0006310201133601367, "eval/cont_loss_std": 0.017162125557661057, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5467033386230469, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.722504910314456e-05, "eval/cont_pred": 0.9993391036987305, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.085638046264648, "eval/dyn_loss_std": 9.873918533325195, "eval/image_loss_mean": 7.948807716369629, "eval/image_loss_std": 5.026595592498779, "eval/model_loss_mean": 17.650222778320312, "eval/model_loss_std": 11.125639915466309, "eval/post_ent_mag": 49.75763702392578, "eval/post_ent_max": 49.75763702392578, "eval/post_ent_mean": 38.38432312011719, "eval/post_ent_min": 24.201892852783203, "eval/post_ent_std": 5.080738544464111, "eval/prior_ent_mag": 70.15078735351562, "eval/prior_ent_max": 70.15078735351562, "eval/prior_ent_mean": 41.04559326171875, "eval/prior_ent_min": 28.336490631103516, "eval/prior_ent_std": 6.068057537078857, "eval/rep_loss_mean": 15.085638046264648, "eval/rep_loss_std": 9.873918533325195, "eval/reward_avg": 0.537109375, "eval/reward_loss_mean": 0.6494010090827942, "eval/reward_loss_std": 3.1044037342071533, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.960954666137695, "eval/reward_neg_acc": 0.9370485544204712, "eval/reward_neg_loss": 0.06295530498027802, "eval/reward_pos_acc": 0.23636363446712494, "eval/reward_pos_loss": 10.981508255004883, "eval/reward_pred": 0.18781185150146484, "eval/reward_rate": 0.0537109375, "replay/size": 31811.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.760470101744022e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0332473760379494e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2814998626708984e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.55495858192444, "timer/env.step_count": 694.0, "timer/env.step_total": 2.43922758102417, "timer/env.step_frac": 0.008115745594525908, "timer/env.step_avg": 0.0035147371484498128, "timer/env.step_min": 0.001703023910522461, "timer/env.step_max": 0.024015188217163086, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 201.42720365524292, "timer/replay._sample_frac": 0.6701842638218809, "timer/replay._sample_avg": 0.01814005796607015, "timer/replay._sample_min": 0.0005443096160888672, "timer/replay._sample_max": 0.05016446113586426, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.07939791679382, "timer/agent.policy_frac": 0.6590455165051017, "timer/agent.policy_avg": 0.2854169998801064, "timer/agent.policy_min": 0.002854585647583008, "timer/agent.policy_max": 0.3328690528869629, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08685588836669922, "timer/dataset_train_frac": 0.0002889850454522589, "timer/dataset_train_avg": 0.00012515257689726112, "timer/dataset_train_min": 7.915496826171875e-05, "timer/dataset_train_max": 0.0012128353118896484, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.76851606369019, "timer/agent.train_frac": 0.3286204843523423, "timer/agent.train_avg": 0.14231774648946713, "timer/agent.train_min": 0.10256648063659668, "timer/agent.train_max": 0.45371532440185547, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5172157287597656, "timer/agent.report_frac": 0.0017208690590236407, "timer/agent.report_avg": 0.2586078643798828, "timer/agent.report_min": 0.10759735107421875, "timer/agent.report_max": 0.4096183776855469, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.555152893066406e-05, "timer/dataset_eval_frac": 1.8482985339109612e-07, "timer/dataset_eval_avg": 5.555152893066406e-05, "timer/dataset_eval_min": 5.555152893066406e-05, "timer/dataset_eval_max": 5.555152893066406e-05, "fps": 9.235810105261463}
+{"step": 127844, "episode/length": 503.0, "episode/score": 350.0, "episode/reward_rate": 0.06944444444444445}
+{"step": 130268, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.645349474920743, "train/action_min": 0.0, "train/action_std": 2.937531426332999, "train/actor_opt_grad_norm": 0.010949284513143526, "train/actor_opt_grad_steps": 31120.0, "train/actor_opt_loss": 0.003682730591643359, "train/adv_mag": 0.8333291826040848, "train/adv_max": 0.8168646174928417, "train/adv_mean": 0.005467849206716114, "train/adv_min": -0.5353596970654916, "train/adv_std": 0.05391204265364702, "train/cont_avg": 0.9984573143115942, "train/cont_loss_mean": 0.0003997215379345305, "train/cont_loss_std": 0.010975126786223078, "train/cont_neg_acc": 0.9473684220983271, "train/cont_neg_loss": 0.11832182821700898, "train/cont_pos_acc": 0.9999574820200602, "train/cont_pos_loss": 0.00017801178087886686, "train/cont_pred": 0.9984669849492501, "train/cont_rate": 0.9984573143115942, "train/dyn_loss_mean": 3.8519785058671148, "train/dyn_loss_std": 5.740401972895083, "train/extr_critic_critic_opt_grad_norm": 2.049766269283018, "train/extr_critic_critic_opt_grad_steps": 31120.0, "train/extr_critic_critic_opt_loss": 1.6377103052277495, "train/extr_critic_mag": 308.71990590855694, "train/extr_critic_max": 308.71990590855694, "train/extr_critic_mean": 101.92042884273806, "train/extr_critic_min": 0.015758322632831077, "train/extr_critic_std": 71.31403936856034, "train/extr_return_normed_mag": 1.4575166322182918, "train/extr_return_normed_max": 1.4575166322182918, "train/extr_return_normed_mean": 0.4189976596313974, "train/extr_return_normed_min": -0.013439836952349415, "train/extr_return_normed_std": 0.3067559820154439, "train/extr_return_rate": 0.9329512464827385, "train/extr_return_raw_mag": 351.0857857966769, "train/extr_return_raw_max": 351.0857857966769, "train/extr_return_raw_mean": 103.22741107664247, "train/extr_return_raw_min": 0.013624510525361351, "train/extr_return_raw_std": 73.2130012512207, "train/extr_reward_mag": 132.59835796079773, "train/extr_reward_max": 132.59835796079773, "train/extr_reward_mean": 0.725797311551329, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.135235660318015, "train/image_loss_mean": 2.6224433667417886, "train/image_loss_std": 2.0580016478248266, "train/model_loss_mean": 4.988435437713844, "train/model_loss_std": 5.085366290548573, "train/model_opt_grad_norm": 16.599261712336887, "train/model_opt_grad_steps": 31120.0, "train/model_opt_loss": 4.988435437713844, "train/policy_entropy_mag": 2.1260653233182603, "train/policy_entropy_max": 2.1260653233182603, "train/policy_entropy_mean": 1.1196571813113447, "train/policy_entropy_min": 0.07588175338679466, "train/policy_entropy_std": 0.5292191872562187, "train/policy_logprob_mag": 6.753994361214016, "train/policy_logprob_max": -0.009924465142514395, "train/policy_logprob_mean": -1.121306876341502, "train/policy_logprob_min": -6.753994361214016, "train/policy_logprob_std": 1.117172296496405, "train/policy_randomness_mag": 0.9676140201264534, "train/policy_randomness_max": 0.9676140201264534, "train/policy_randomness_mean": 0.5095779347246971, "train/policy_randomness_min": 0.03453527401754822, "train/policy_randomness_std": 0.24085803113985751, "train/post_ent_mag": 49.29809868854025, "train/post_ent_max": 49.29809868854025, "train/post_ent_mean": 37.561732914136805, "train/post_ent_min": 24.458249520564426, "train/post_ent_std": 4.287050095157347, "train/prior_ent_mag": 70.8244685297427, "train/prior_ent_max": 70.8244685297427, "train/prior_ent_mean": 41.484210581019305, "train/prior_ent_min": 28.28632653277853, "train/prior_ent_std": 6.577879656916079, "train/rep_loss_mean": 3.8519785058671148, "train/rep_loss_std": 5.740401972895083, "train/reward_avg": 0.9669384057971014, "train/reward_loss_mean": 0.05440520840710488, "train/reward_loss_std": 0.22448711248411649, "train/reward_max_data": 161.8840579710145, "train/reward_max_pred": 111.80814022948776, "train/reward_neg_acc": 0.9728291164273801, "train/reward_neg_loss": 0.00731856435827533, "train/reward_pos_acc": 0.9938383223353953, "train/reward_pos_loss": 0.6560551835143048, "train/reward_pred": 0.8473315333974534, "train/reward_rate": 0.07301573822463768, "train_stats/mean_log_entropy": 0.9513171911239624, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4106236449151766e-05, "report/cont_loss_std": 0.000376073265215382, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00213490123860538, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.203312240249943e-05, "report/cont_pred": 0.9990135431289673, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.25364089012146, "report/dyn_loss_std": 5.779742240905762, "report/image_loss_mean": 2.2555904388427734, "report/image_loss_std": 1.8334580659866333, "report/model_loss_mean": 4.257912635803223, "report/model_loss_std": 4.992315292358398, "report/post_ent_mag": 49.28473663330078, "report/post_ent_max": 49.28473663330078, "report/post_ent_mean": 37.170684814453125, "report/post_ent_min": 26.601139068603516, "report/post_ent_std": 3.8184096813201904, "report/prior_ent_mag": 71.22782897949219, "report/prior_ent_max": 71.22782897949219, "report/prior_ent_mean": 40.579383850097656, "report/prior_ent_min": 28.449058532714844, "report/prior_ent_std": 6.453207969665527, "report/rep_loss_mean": 3.25364089012146, "report/rep_loss_std": 5.779742240905762, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.05012333393096924, "report/reward_loss_std": 0.2441534698009491, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008007049560547, "report/reward_neg_acc": 0.9832460880279541, "report/reward_neg_loss": 0.004095615819096565, "report/reward_pos_acc": 0.9710144996643066, "report/reward_pos_loss": 0.68717360496521, "report/reward_pred": 0.6319968700408936, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.03489454463124275, "eval/cont_loss_std": 0.6681749820709229, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 9.931314468383789, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.005815939512103796, "eval/cont_pred": 0.9963966608047485, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.623245239257812, "eval/dyn_loss_std": 10.537489891052246, "eval/image_loss_mean": 5.394586086273193, "eval/image_loss_std": 4.723405361175537, "eval/model_loss_mean": 12.33346939086914, "eval/model_loss_std": 11.082432746887207, "eval/post_ent_mag": 48.298336029052734, "eval/post_ent_max": 48.298336029052734, "eval/post_ent_mean": 35.57106018066406, "eval/post_ent_min": 24.404752731323242, "eval/post_ent_std": 4.653265476226807, "eval/prior_ent_mag": 71.22782897949219, "eval/prior_ent_max": 71.22782897949219, "eval/prior_ent_mean": 38.244056701660156, "eval/prior_ent_min": 28.516864776611328, "eval/prior_ent_std": 6.412326812744141, "eval/rep_loss_mean": 10.623245239257812, "eval/rep_loss_std": 10.537489891052246, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.5300406217575073, "eval/reward_loss_std": 2.5500833988189697, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00415325164795, "eval/reward_neg_acc": 0.9477459788322449, "eval/reward_neg_loss": 0.048778027296066284, "eval/reward_pos_acc": 0.2083333432674408, "eval/reward_pos_loss": 10.315713882446289, "eval/reward_pred": 0.16756880283355713, "eval/reward_rate": 0.046875, "replay/size": 32504.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.856101362220137e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.084559407585111e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3262033462524414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05995178222656, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4532856941223145, "timer/env.step_frac": 0.008175985097480876, "timer/env.step_avg": 0.0035400947967132966, "timer/env.step_min": 0.0022537708282470703, "timer/env.step_max": 0.025066614151000977, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.597829580307, "timer/replay._sample_frac": 0.6685258342169373, "timer/replay._sample_avg": 0.018091434846708786, "timer/replay._sample_min": 0.00057220458984375, "timer/replay._sample_max": 0.05013322830200195, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.92702865600586, "timer/agent.policy_frac": 0.659624943216863, "timer/agent.policy_avg": 0.28560898795960443, "timer/agent.policy_min": 0.002794981002807617, "timer/agent.policy_max": 0.3401167392730713, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.0841832160949707, "timer/dataset_train_frac": 0.0002805546544780759, "timer/dataset_train_avg": 0.00012147650230154503, "timer/dataset_train_min": 7.510185241699219e-05, "timer/dataset_train_max": 0.0013840198516845703, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.3515374660492, "timer/agent.train_frac": 0.327772956310509, "timer/agent.train_avg": 0.14192141048491946, "timer/agent.train_min": 0.10288405418395996, "timer/agent.train_max": 0.4547288417816162, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5171217918395996, "timer/agent.report_frac": 0.0017233949041453864, "timer/agent.report_avg": 0.2585608959197998, "timer/agent.report_min": 0.10380005836486816, "timer/agent.report_max": 0.41332173347473145, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.076957702636719e-05, "timer/dataset_eval_frac": 1.358714376384236e-07, "timer/dataset_eval_avg": 4.076957702636719e-05, "timer/dataset_eval_min": 4.076957702636719e-05, "timer/dataset_eval_max": 4.076957702636719e-05, "fps": 9.237412280486296}
+{"step": 131492, "episode/length": 911.0, "episode/score": 1300.0, "episode/reward_rate": 0.10855263157894737}
+{"step": 133108, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.62005185409331, "train/action_min": 0.0, "train/action_std": 2.983394313865984, "train/actor_opt_grad_norm": 0.011592948592831972, "train/actor_opt_grad_steps": 31820.0, "train/actor_opt_loss": 0.0043758076665231065, "train/adv_mag": 0.9045436415873783, "train/adv_max": 0.8920638745939228, "train/adv_mean": 0.006475210459542159, "train/adv_min": -0.5255203763364067, "train/adv_std": 0.05597358868575432, "train/cont_avg": 0.9984182438380281, "train/cont_loss_mean": 0.0003356001568666785, "train/cont_loss_std": 0.009751629187288106, "train/cont_neg_acc": 0.9248633883038505, "train/cont_neg_loss": 0.19386560804112557, "train/cont_pos_acc": 0.9999724315925383, "train/cont_pos_loss": 0.0001037020660631492, "train/cont_pred": 0.9984295259059315, "train/cont_rate": 0.9984182438380281, "train/dyn_loss_mean": 3.803239899621883, "train/dyn_loss_std": 5.788147711418044, "train/extr_critic_critic_opt_grad_norm": 2.0358294483641504, "train/extr_critic_critic_opt_grad_steps": 31820.0, "train/extr_critic_critic_opt_loss": 1.6231667458171575, "train/extr_critic_mag": 315.1293446715449, "train/extr_critic_max": 315.1293446715449, "train/extr_critic_mean": 107.6505672830931, "train/extr_critic_min": 0.012459163934412137, "train/extr_critic_std": 74.33037540274607, "train/extr_return_normed_mag": 1.5581321733098634, "train/extr_return_normed_max": 1.5581321733098634, "train/extr_return_normed_mean": 0.4405479538188854, "train/extr_return_normed_min": -0.014068241427901765, "train/extr_return_normed_std": 0.3186870905714975, "train/extr_return_rate": 0.9334773438077577, "train/extr_return_raw_mag": 377.7850412718007, "train/extr_return_raw_max": 377.7850412718007, "train/extr_return_raw_mean": 109.20630011760014, "train/extr_return_raw_min": 0.015005131302939229, "train/extr_return_raw_std": 76.55292989166689, "train/extr_reward_mag": 145.99883303843754, "train/extr_reward_max": 145.99883303843754, "train/extr_reward_mean": 0.7623914337494004, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.6269818208587, "train/image_loss_mean": 2.5757918475379404, "train/image_loss_std": 2.1381640215994606, "train/model_loss_mean": 4.917938064521467, "train/model_loss_std": 5.215044129062706, "train/model_opt_grad_norm": 17.621748695910817, "train/model_opt_grad_steps": 31820.0, "train/model_opt_loss": 4.917938064521467, "train/policy_entropy_mag": 2.1257203867737675, "train/policy_entropy_max": 2.1257203867737675, "train/policy_entropy_mean": 1.0787540212483473, "train/policy_entropy_min": 0.07503557593469888, "train/policy_entropy_std": 0.5338550562589941, "train/policy_logprob_mag": 6.754082659600487, "train/policy_logprob_max": -0.009798023757905188, "train/policy_logprob_mean": -1.0804575169590158, "train/policy_logprob_min": -6.754082659600487, "train/policy_logprob_std": 1.126456316088287, "train/policy_randomness_mag": 0.9674570325394751, "train/policy_randomness_max": 0.9674570325394751, "train/policy_randomness_mean": 0.49096211245362187, "train/policy_randomness_min": 0.034150162003409694, "train/policy_randomness_std": 0.24296790928068296, "train/post_ent_mag": 49.46161060601893, "train/post_ent_max": 49.46161060601893, "train/post_ent_mean": 37.59190368652344, "train/post_ent_min": 24.556970542585347, "train/post_ent_std": 4.1775446475391655, "train/prior_ent_mag": 71.13573101204885, "train/prior_ent_max": 71.13573101204885, "train/prior_ent_mean": 41.47122498633156, "train/prior_ent_min": 28.516731772624272, "train/prior_ent_std": 6.64536668884922, "train/rep_loss_mean": 3.803239899621883, "train/rep_loss_std": 5.788147711418044, "train/reward_avg": 1.0070972711267605, "train/reward_loss_mean": 0.05986668242954872, "train/reward_loss_std": 0.25249077610566584, "train/reward_max_data": 150.56338028169014, "train/reward_max_pred": 122.95013877707468, "train/reward_neg_acc": 0.9718640035306904, "train/reward_neg_loss": 0.007607374348494054, "train/reward_pos_acc": 0.9908213581837398, "train/reward_pos_loss": 0.6926837966475689, "train/reward_pred": 0.8877767895309019, "train/reward_rate": 0.07662577024647887, "train_stats/mean_log_entropy": 0.7921503782272339, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.4723844944674056e-06, "report/cont_loss_std": 5.326444443198852e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.4723844944674056e-06, "report/cont_pred": 0.9999975562095642, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.4720664024353027, "report/dyn_loss_std": 5.697551727294922, "report/image_loss_mean": 2.637694835662842, "report/image_loss_std": 1.8718189001083374, "report/model_loss_mean": 4.760247230529785, "report/model_loss_std": 4.847923278808594, "report/post_ent_mag": 49.39824676513672, "report/post_ent_max": 49.39824676513672, "report/post_ent_mean": 37.91510009765625, "report/post_ent_min": 25.329191207885742, "report/post_ent_std": 4.002200603485107, "report/prior_ent_mag": 70.76455688476562, "report/prior_ent_max": 70.76455688476562, "report/prior_ent_mean": 41.47246551513672, "report/prior_ent_min": 29.156780242919922, "report/prior_ent_std": 6.1970977783203125, "report/rep_loss_mean": 3.4720664024353027, "report/rep_loss_std": 5.697551727294922, "report/reward_avg": 1.62109375, "report/reward_loss_mean": 0.03931020200252533, "report/reward_loss_std": 0.14669474959373474, "report/reward_max_data": 400.0, "report/reward_max_pred": 386.30694580078125, "report/reward_neg_acc": 0.9729729890823364, "report/reward_neg_loss": 0.005514661315828562, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5636862516403198, "report/reward_pred": 1.4313651323318481, "report/reward_rate": 0.060546875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.014142247848212719, "eval/cont_loss_std": 0.2849910259246826, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 2.7915778160095215, "eval/cont_pos_acc": 0.9970616698265076, "eval/cont_pos_loss": 0.005981320980936289, "eval/cont_pred": 0.9951807260513306, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.664350509643555, "eval/dyn_loss_std": 10.723292350769043, "eval/image_loss_mean": 7.060204029083252, "eval/image_loss_std": 5.346093654632568, "eval/model_loss_mean": 15.169466972351074, "eval/model_loss_std": 11.56381607055664, "eval/post_ent_mag": 48.48143768310547, "eval/post_ent_max": 48.48143768310547, "eval/post_ent_mean": 35.69143295288086, "eval/post_ent_min": 23.66543960571289, "eval/post_ent_std": 4.3904194831848145, "eval/prior_ent_mag": 70.76455688476562, "eval/prior_ent_max": 70.76455688476562, "eval/prior_ent_mean": 40.16404342651367, "eval/prior_ent_min": 28.312355041503906, "eval/prior_ent_std": 6.491634368896484, "eval/rep_loss_mean": 12.664350509643555, "eval/rep_loss_std": 10.723292350769043, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.49651020765304565, "eval/reward_loss_std": 2.4068992137908936, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.977972030639648, "eval/reward_neg_acc": 0.9313524961471558, "eval/reward_neg_loss": 0.07540124654769897, "eval/reward_pos_acc": 0.25, "eval/reward_pos_loss": 9.059059143066406, "eval/reward_pred": 0.2224174439907074, "eval/reward_rate": 0.046875, "replay/size": 33214.0, "replay/inserts": 710.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 5.6636165565168356e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4281398813489457e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1904706954956055e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.134131193161, "timer/env.step_count": 710.0, "timer/env.step_total": 2.8517873287200928, "timer/env.step_frac": 0.009501709510288028, "timer/env.step_avg": 0.004016601871436751, "timer/env.step_min": 0.002393007278442383, "timer/env.step_max": 0.020587682723999023, "timer/replay._sample_count": 11360.0, "timer/replay._sample_total": 191.97585725784302, "timer/replay._sample_frac": 0.6396335414924561, "timer/replay._sample_avg": 0.016899283209317165, "timer/replay._sample_min": 0.0006706714630126953, "timer/replay._sample_max": 0.0699625015258789, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.14780282974243164, "timer/agent.save_frac": 0.0004924559201409464, "timer/agent.save_avg": 0.14780282974243164, "timer/agent.save_min": 0.14780282974243164, "timer/agent.save_max": 0.14780282974243164, "timer/agent.policy_count": 710.0, "timer/agent.policy_total": 197.7661793231964, "timer/agent.policy_frac": 0.6589259893134833, "timer/agent.policy_avg": 0.2785439145397133, "timer/agent.policy_min": 0.0031120777130126953, "timer/agent.policy_max": 0.326383113861084, "timer/dataset_train_count": 710.0, "timer/dataset_train_total": 0.09596037864685059, "timer/dataset_train_frac": 0.0003197249785133307, "timer/dataset_train_avg": 0.00013515546288288814, "timer/dataset_train_min": 8.20159912109375e-05, "timer/dataset_train_max": 0.00035858154296875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 98.285728931427, "timer/agent.train_frac": 0.32747268209949787, "timer/agent.train_avg": 0.13843060412877042, "timer/agent.train_min": 0.10121297836303711, "timer/agent.train_max": 0.43994617462158203, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49579310417175293, "timer/agent.report_frac": 0.001651905107229105, "timer/agent.report_avg": 0.24789655208587646, "timer/agent.report_min": 0.10060834884643555, "timer/agent.report_max": 0.3951847553253174, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012445449829101562, "timer/dataset_eval_frac": 4.146629301914314e-07, "timer/dataset_eval_avg": 0.00012445449829101562, "timer/dataset_eval_min": 0.00012445449829101562, "timer/dataset_eval_max": 0.00012445449829101562, "fps": 9.462134480852015}
+{"step": 134276, "episode/length": 695.0, "episode/score": 1320.0, "episode/reward_rate": 0.1235632183908046}
+{"step": 135916, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.621077183314732, "train/action_min": 0.0, "train/action_std": 2.8835884809494017, "train/actor_opt_grad_norm": 0.011381533070068275, "train/actor_opt_grad_steps": 32525.0, "train/actor_opt_loss": 0.004271495972352568, "train/adv_mag": 0.8962121392999377, "train/adv_max": 0.8865615078381129, "train/adv_mean": 0.0061692719819672805, "train/adv_min": -0.49054704010486605, "train/adv_std": 0.05508947103683438, "train/cont_avg": 0.9984235491071428, "train/cont_loss_mean": 0.0004673025987448755, "train/cont_loss_std": 0.011068121389708299, "train/cont_neg_acc": 0.9261006296805616, "train/cont_neg_loss": 0.15665394862093787, "train/cont_pos_acc": 0.9999160579272679, "train/cont_pos_loss": 0.00022922568247908868, "train/cont_pred": 0.9983784922531673, "train/cont_rate": 0.9984235491071428, "train/dyn_loss_mean": 3.836007390703474, "train/dyn_loss_std": 5.8443313734872, "train/extr_critic_critic_opt_grad_norm": 2.0328195214271547, "train/extr_critic_critic_opt_grad_steps": 32525.0, "train/extr_critic_critic_opt_loss": 1.5930085829326084, "train/extr_critic_mag": 309.7054521833147, "train/extr_critic_max": 309.7054521833147, "train/extr_critic_mean": 106.83946075439454, "train/extr_critic_min": 0.05508475473948887, "train/extr_critic_std": 73.62806603567941, "train/extr_return_normed_mag": 1.4908734781401498, "train/extr_return_normed_max": 1.4908734781401498, "train/extr_return_normed_mean": 0.4270863973668643, "train/extr_return_normed_min": -0.012721258045972458, "train/extr_return_normed_std": 0.3081073875938143, "train/extr_return_rate": 0.9362072646617889, "train/extr_return_raw_mag": 369.9310071672712, "train/extr_return_raw_max": 369.9310071672712, "train/extr_return_raw_mean": 108.35741756984166, "train/extr_return_raw_min": 0.06371843289484137, "train/extr_return_raw_std": 75.83880446297782, "train/extr_reward_mag": 161.43533761160714, "train/extr_reward_max": 161.43533761160714, "train/extr_reward_mean": 0.7805150611060007, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.889320625577654, "train/image_loss_mean": 2.552358915124621, "train/image_loss_std": 2.02234114749091, "train/model_loss_mean": 4.911731127330235, "train/model_loss_std": 5.146663890566145, "train/model_opt_grad_norm": 16.844791453225273, "train/model_opt_grad_steps": 32525.0, "train/model_opt_loss": 4.911731127330235, "train/policy_entropy_mag": 2.1177014521190096, "train/policy_entropy_max": 2.1177014521190096, "train/policy_entropy_mean": 1.1085757502487728, "train/policy_entropy_min": 0.07770099458949907, "train/policy_entropy_std": 0.5200143426656723, "train/policy_logprob_mag": 6.748272541591099, "train/policy_logprob_max": -0.010213530103542975, "train/policy_logprob_mean": -1.1081503416810716, "train/policy_logprob_min": -6.748272541591099, "train/policy_logprob_std": 1.1158168060438973, "train/policy_randomness_mag": 0.9638074610914503, "train/policy_randomness_max": 0.9638074610914503, "train/policy_randomness_mean": 0.5045345659766879, "train/policy_randomness_min": 0.035363246074744635, "train/policy_randomness_std": 0.23666872446026122, "train/post_ent_mag": 49.52860014779227, "train/post_ent_max": 49.52860014779227, "train/post_ent_mean": 37.55578171866281, "train/post_ent_min": 24.563529314313616, "train/post_ent_std": 4.126363529477801, "train/prior_ent_mag": 71.42592457362584, "train/prior_ent_max": 71.42592457362584, "train/prior_ent_mean": 41.47936837332589, "train/prior_ent_min": 28.48246032169887, "train/prior_ent_std": 6.577671241760254, "train/rep_loss_mean": 3.836007390703474, "train/rep_loss_std": 5.8443313734872, "train/reward_avg": 1.0471540178571428, "train/reward_loss_mean": 0.05730050546782357, "train/reward_loss_std": 0.23253253251314163, "train/reward_max_data": 175.42857142857142, "train/reward_max_pred": 138.81643005098616, "train/reward_neg_acc": 0.9728040959153856, "train/reward_neg_loss": 0.006716808703328882, "train/reward_pos_acc": 0.9934362317834582, "train/reward_pos_loss": 0.669307781117303, "train/reward_pred": 0.9223236969539097, "train/reward_rate": 0.076953125, "train_stats/mean_log_entropy": 0.6079230308532715, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.270200482395012e-05, "report/cont_loss_std": 0.00015298121434170753, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0014671040698885918, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.85581755230669e-06, "report/cont_pred": 0.998039960861206, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.8861825466156006, "report/dyn_loss_std": 5.5380778312683105, "report/image_loss_mean": 2.379972219467163, "report/image_loss_std": 2.236619472503662, "report/model_loss_mean": 4.782351016998291, "report/model_loss_std": 5.168709754943848, "report/post_ent_mag": 52.208580017089844, "report/post_ent_max": 52.208580017089844, "report/post_ent_mean": 38.40105438232422, "report/post_ent_min": 24.67930793762207, "report/post_ent_std": 4.8558807373046875, "report/prior_ent_mag": 71.40984344482422, "report/prior_ent_max": 71.40984344482422, "report/prior_ent_mean": 42.195884704589844, "report/prior_ent_min": 28.02716827392578, "report/prior_ent_std": 7.642697334289551, "report/rep_loss_mean": 3.8861825466156006, "report/rep_loss_std": 5.5380778312683105, "report/reward_avg": 1.50390625, "report/reward_loss_mean": 0.07065661996603012, "report/reward_loss_std": 0.23351673781871796, "report/reward_max_data": 400.0, "report/reward_max_pred": 394.609375, "report/reward_neg_acc": 0.942060112953186, "report/reward_neg_loss": 0.012527158483862877, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6595333218574524, "report/reward_pred": 1.2711665630340576, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.016186200082302094, "eval/cont_loss_std": 0.5106930136680603, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 8.23453140258789, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00010333317914046347, "eval/cont_pred": 0.9990345239639282, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.937374114990234, "eval/dyn_loss_std": 9.992719650268555, "eval/image_loss_mean": 7.08095645904541, "eval/image_loss_std": 4.753030776977539, "eval/model_loss_mean": 15.390427589416504, "eval/model_loss_std": 10.352034568786621, "eval/post_ent_mag": 49.74504852294922, "eval/post_ent_max": 49.74504852294922, "eval/post_ent_mean": 36.77095031738281, "eval/post_ent_min": 24.691497802734375, "eval/post_ent_std": 4.673946380615234, "eval/prior_ent_mag": 71.40984344482422, "eval/prior_ent_max": 71.40984344482422, "eval/prior_ent_mean": 39.09431076049805, "eval/prior_ent_min": 28.21114730834961, "eval/prior_ent_std": 6.057796478271484, "eval/rep_loss_mean": 12.937374114990234, "eval/rep_loss_std": 9.992719650268555, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.5308606028556824, "eval/reward_loss_std": 2.4248862266540527, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.014256477355957, "eval/reward_neg_acc": 0.9004065990447998, "eval/reward_neg_loss": 0.18060743808746338, "eval/reward_pos_acc": 0.30000001192092896, "eval/reward_pos_loss": 9.147089004516602, "eval/reward_pred": 0.42254602909088135, "eval/reward_rate": 0.0390625, "replay/size": 33916.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.170151039406106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2416785259192485e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3560056686401367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0955901145935, "timer/env.step_count": 702.0, "timer/env.step_total": 2.6343345642089844, "timer/env.step_frac": 0.00877831814590493, "timer/env.step_avg": 0.0037526133393290377, "timer/env.step_min": 0.002305269241333008, "timer/env.step_max": 0.021447181701660156, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 198.56740188598633, "timer/replay._sample_frac": 0.6616805059020096, "timer/replay._sample_avg": 0.017678721677883397, "timer/replay._sample_min": 0.0005512237548828125, "timer/replay._sample_max": 0.04711031913757324, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.16069793701172, "timer/agent.policy_frac": 0.6603252578998003, "timer/agent.policy_avg": 0.2822801964914697, "timer/agent.policy_min": 0.002818584442138672, "timer/agent.policy_max": 0.3312234878540039, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.09273195266723633, "timer/dataset_train_frac": 0.00030900804850823036, "timer/dataset_train_avg": 0.00013209679867127682, "timer/dataset_train_min": 8.320808410644531e-05, "timer/dataset_train_max": 0.0011870861053466797, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.03976607322693, "timer/agent.train_frac": 0.3266951241629035, "timer/agent.train_avg": 0.13965778642909818, "timer/agent.train_min": 0.10070013999938965, "timer/agent.train_max": 0.4548759460449219, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.521660566329956, "timer/agent.report_frac": 0.0017383146687718952, "timer/agent.report_avg": 0.260830283164978, "timer/agent.report_min": 0.10802841186523438, "timer/agent.report_max": 0.4136321544647217, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.535385131835938e-05, "timer/dataset_eval_frac": 2.8442221122198576e-07, "timer/dataset_eval_avg": 8.535385131835938e-05, "timer/dataset_eval_min": 8.535385131835938e-05, "timer/dataset_eval_max": 8.535385131835938e-05, "fps": 9.356276959450211}
+{"step": 138536, "episode/length": 1064.0, "episode/score": 1100.0, "episode/reward_rate": 0.07793427230046948}
+{"step": 138692, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.546466064453125, "train/action_min": 0.0, "train/action_std": 2.9914776257106235, "train/actor_opt_grad_norm": 0.011148195826847639, "train/actor_opt_grad_steps": 33225.0, "train/actor_opt_loss": 0.004255882950175354, "train/adv_mag": 0.8206500692026956, "train/adv_max": 0.809817322237151, "train/adv_mean": 0.006120893128016698, "train/adv_min": -0.5290437081030437, "train/adv_std": 0.05391652802271502, "train/cont_avg": 0.9984375, "train/cont_loss_mean": 0.0005533389871245171, "train/cont_loss_std": 0.015170653787851865, "train/cont_neg_acc": 0.9145454547621987, "train/cont_neg_loss": 0.26013837367451165, "train/cont_pos_acc": 0.9999860193048205, "train/cont_pos_loss": 0.0001407273806523993, "train/cont_pred": 0.9984559118747711, "train/cont_rate": 0.9984375, "train/dyn_loss_mean": 3.8108208179473877, "train/dyn_loss_std": 5.850824574061803, "train/extr_critic_critic_opt_grad_norm": 1.9235662170818875, "train/extr_critic_critic_opt_grad_steps": 33225.0, "train/extr_critic_critic_opt_loss": 1.5390993441854204, "train/extr_critic_mag": 311.426129586356, "train/extr_critic_max": 311.426129586356, "train/extr_critic_mean": 108.9201794215611, "train/extr_critic_min": 0.4363344277654375, "train/extr_critic_std": 74.1937273297991, "train/extr_return_normed_mag": 1.4647223012787955, "train/extr_return_normed_max": 1.4647223012787955, "train/extr_return_normed_mean": 0.4301514565944672, "train/extr_return_normed_min": -0.01123439073562622, "train/extr_return_normed_std": 0.3069812827876636, "train/extr_return_rate": 0.9291071908814567, "train/extr_return_raw_mag": 367.8827386038644, "train/extr_return_raw_max": 367.8827386038644, "train/extr_return_raw_mean": 110.44376362391881, "train/extr_return_raw_min": 0.7137180122347283, "train/extr_return_raw_std": 76.33864386422293, "train/extr_reward_mag": 145.83928688594273, "train/extr_reward_max": 145.83928688594273, "train/extr_reward_mean": 0.7577285621847425, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.59220609835216, "train/image_loss_mean": 2.532325073650905, "train/image_loss_std": 1.999424261706216, "train/model_loss_mean": 4.873020097187587, "train/model_loss_std": 5.123170518875122, "train/model_opt_grad_norm": 16.77124490737915, "train/model_opt_grad_steps": 33225.0, "train/model_opt_loss": 4.873020097187587, "train/policy_entropy_mag": 2.1300922427858624, "train/policy_entropy_max": 2.1300922427858624, "train/policy_entropy_mean": 1.1380983344146183, "train/policy_entropy_min": 0.0788919604250363, "train/policy_entropy_std": 0.5247944891452789, "train/policy_logprob_mag": 6.744228158678327, "train/policy_logprob_max": -0.010393527748861483, "train/policy_logprob_mean": -1.1381033505712237, "train/policy_logprob_min": -6.744228158678327, "train/policy_logprob_std": 1.1156520860535757, "train/policy_randomness_mag": 0.9694467536040715, "train/policy_randomness_max": 0.9694467536040715, "train/policy_randomness_mean": 0.5179708749055862, "train/policy_randomness_min": 0.03590527820800032, "train/policy_randomness_std": 0.23884426376649312, "train/post_ent_mag": 50.14342863900321, "train/post_ent_max": 50.14342863900321, "train/post_ent_mean": 37.59357305254255, "train/post_ent_min": 24.637644577026368, "train/post_ent_std": 4.105609539576939, "train/prior_ent_mag": 71.71712079729353, "train/prior_ent_max": 71.71712079729353, "train/prior_ent_mean": 41.46091477530343, "train/prior_ent_min": 28.466599028451103, "train/prior_ent_std": 6.601042522702898, "train/rep_loss_mean": 3.8108208179473877, "train/rep_loss_std": 5.850824574061803, "train/reward_avg": 1.0125558035714286, "train/reward_loss_mean": 0.05364921571952956, "train/reward_loss_std": 0.21599762982555798, "train/reward_max_data": 168.42857142857142, "train/reward_max_pred": 122.15923715318952, "train/reward_neg_acc": 0.9734450995922088, "train/reward_neg_loss": 0.006318113507170762, "train/reward_pos_acc": 0.9956416376999446, "train/reward_pos_loss": 0.6488352920327868, "train/reward_pred": 0.8833730110100337, "train/reward_rate": 0.07393973214285714, "train_stats/mean_log_entropy": 0.7755170464515686, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00038056221092119813, "report/cont_loss_std": 0.007185890339314938, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.09137099236249924, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00029161752900108695, "report/cont_pred": 0.9988381862640381, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.479104995727539, "report/dyn_loss_std": 5.841841697692871, "report/image_loss_mean": 2.3398807048797607, "report/image_loss_std": 1.8364053964614868, "report/model_loss_mean": 4.4629669189453125, "report/model_loss_std": 4.963209629058838, "report/post_ent_mag": 49.96654510498047, "report/post_ent_max": 49.96654510498047, "report/post_ent_mean": 37.47636032104492, "report/post_ent_min": 24.36196517944336, "report/post_ent_std": 3.61460542678833, "report/prior_ent_mag": 71.99322509765625, "report/prior_ent_max": 71.99322509765625, "report/prior_ent_mean": 40.76382827758789, "report/prior_ent_min": 28.611160278320312, "report/prior_ent_std": 6.213214874267578, "report/rep_loss_mean": 3.479104995727539, "report/rep_loss_std": 5.841841697692871, "report/reward_avg": 0.673828125, "report/reward_loss_mean": 0.03524300456047058, "report/reward_loss_std": 0.13225223124027252, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.209651947021484, "report/reward_neg_acc": 0.979231595993042, "report/reward_neg_loss": 0.003055620240047574, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5433815717697144, "report/reward_pred": 0.6585867404937744, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9951171875, "eval/cont_loss_mean": 0.060903970152139664, "eval/cont_loss_std": 0.7798162698745728, "eval/cont_neg_acc": 0.20000000298023224, "eval/cont_neg_loss": 9.1620512008667, "eval/cont_pos_acc": 0.9960745573043823, "eval/cont_pos_loss": 0.016246721148490906, "eval/cont_pred": 0.9952734708786011, "eval/cont_rate": 0.9951171875, "eval/dyn_loss_mean": 14.264265060424805, "eval/dyn_loss_std": 12.919464111328125, "eval/image_loss_mean": 7.256831645965576, "eval/image_loss_std": 5.9671502113342285, "eval/model_loss_mean": 16.521560668945312, "eval/model_loss_std": 13.63103199005127, "eval/post_ent_mag": 48.66890335083008, "eval/post_ent_max": 48.66890335083008, "eval/post_ent_mean": 35.640953063964844, "eval/post_ent_min": 22.870052337646484, "eval/post_ent_std": 4.574047088623047, "eval/prior_ent_mag": 71.99322509765625, "eval/prior_ent_max": 71.99322509765625, "eval/prior_ent_mean": 39.834014892578125, "eval/prior_ent_min": 29.42047691345215, "eval/prior_ent_std": 6.898941993713379, "eval/rep_loss_mean": 14.264265060424805, "eval/rep_loss_std": 12.919464111328125, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.645266056060791, "eval/reward_loss_std": 2.8215508460998535, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.000129699707031, "eval/reward_neg_acc": 0.9307135343551636, "eval/reward_neg_loss": 0.10177924484014511, "eval/reward_pos_acc": 0.24561403691768646, "eval/reward_pos_loss": 9.865471839904785, "eval/reward_pred": 0.27027055621147156, "eval/reward_rate": 0.0556640625, "replay/size": 34610.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.6203047123010285e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5065417509601164e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.5367431640625e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.36401772499084, "timer/env.step_count": 694.0, "timer/env.step_total": 2.362093448638916, "timer/env.step_frac": 0.007864102586354456, "timer/env.step_avg": 0.0034035928654739425, "timer/env.step_min": 0.0019249916076660156, "timer/env.step_max": 0.02678990364074707, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 204.16855716705322, "timer/replay._sample_frac": 0.6797370694181722, "timer/replay._sample_avg": 0.018386937785217328, "timer/replay._sample_min": 0.0005347728729248047, "timer/replay._sample_max": 0.0498652458190918, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.407723903656, "timer/agent.policy_frac": 0.6605575641397745, "timer/agent.policy_avg": 0.285890092080196, "timer/agent.policy_min": 0.0029582977294921875, "timer/agent.policy_max": 0.3353841304779053, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.0908806324005127, "timer/dataset_train_frac": 0.00030256830724551616, "timer/dataset_train_avg": 0.00013095191988546497, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0013244152069091797, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.34104084968567, "timer/agent.train_frac": 0.32740619730198633, "timer/agent.train_avg": 0.1417017879678468, "timer/agent.train_min": 0.10250592231750488, "timer/agent.train_max": 0.44960927963256836, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5083193778991699, "timer/agent.report_frac": 0.0016923444484105287, "timer/agent.report_avg": 0.25415968894958496, "timer/agent.report_min": 0.10282778739929199, "timer/agent.report_max": 0.40549159049987793, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.8848648071289062e-05, "timer/dataset_eval_frac": 9.60456192116277e-08, "timer/dataset_eval_avg": 2.8848648071289062e-05, "timer/dataset_eval_min": 2.8848648071289062e-05, "timer/dataset_eval_max": 2.8848648071289062e-05, "fps": 9.241786461895716}
+{"step": 140612, "episode/length": 518.0, "episode/score": 550.0, "episode/reward_rate": 0.10597302504816955}
+{"step": 141464, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.461015341938406, "train/action_min": 0.0, "train/action_std": 2.968777238458827, "train/actor_opt_grad_norm": 0.010851940268353708, "train/actor_opt_grad_steps": 33920.0, "train/actor_opt_loss": 0.00408515365827201, "train/adv_mag": 0.8164375156596086, "train/adv_max": 0.7963824812052906, "train/adv_mean": 0.005569805418760381, "train/adv_min": -0.5227859594683716, "train/adv_std": 0.05173966582810533, "train/cont_avg": 0.998443161231884, "train/cont_loss_mean": 0.0004308983508330446, "train/cont_loss_std": 0.010730201836649017, "train/cont_neg_acc": 0.9216981142197015, "train/cont_neg_loss": 0.15229140447205144, "train/cont_pos_acc": 0.9999574129132257, "train/cont_pos_loss": 0.00015074020499785388, "train/cont_pred": 0.998469761316327, "train/cont_rate": 0.998443161231884, "train/dyn_loss_mean": 4.045004817022794, "train/dyn_loss_std": 5.994451930557472, "train/extr_critic_critic_opt_grad_norm": 2.0983741698057754, "train/extr_critic_critic_opt_grad_steps": 33920.0, "train/extr_critic_critic_opt_loss": 1.563324213027954, "train/extr_critic_mag": 317.32291998379475, "train/extr_critic_max": 317.32291998379475, "train/extr_critic_mean": 106.75516681394716, "train/extr_critic_min": 0.007399111554242562, "train/extr_critic_std": 75.60980495508166, "train/extr_return_normed_mag": 1.4222292545912922, "train/extr_return_normed_max": 1.4222292545912922, "train/extr_return_normed_mean": 0.4115277254495068, "train/extr_return_normed_min": -0.014305449320354324, "train/extr_return_normed_std": 0.3044338336457377, "train/extr_return_rate": 0.9145560186842213, "train/extr_return_raw_mag": 364.9642409172611, "train/extr_return_raw_max": 364.9642409172611, "train/extr_return_raw_mean": 108.17102697621222, "train/extr_return_raw_min": 0.004637310021570412, "train/extr_return_raw_std": 77.34073788186778, "train/extr_reward_mag": 137.0529457728068, "train/extr_reward_max": 137.0529457728068, "train/extr_reward_mean": 0.7069984741400981, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.067416935727216, "train/image_loss_mean": 2.6539042134215864, "train/image_loss_std": 2.1824106841847515, "train/model_loss_mean": 5.139915880949601, "train/model_loss_std": 5.377809586732284, "train/model_opt_grad_norm": 17.41046897224758, "train/model_opt_grad_steps": 33920.0, "train/model_opt_loss": 5.139915880949601, "train/policy_entropy_mag": 2.1309799837029497, "train/policy_entropy_max": 2.1309799837029497, "train/policy_entropy_mean": 1.17947529796241, "train/policy_entropy_min": 0.07946672895248386, "train/policy_entropy_std": 0.5125142517297164, "train/policy_logprob_mag": 6.729004680246547, "train/policy_logprob_max": -0.010492846558707348, "train/policy_logprob_mean": -1.1803329569706018, "train/policy_logprob_min": -6.729004680246547, "train/policy_logprob_std": 1.1092064864393594, "train/policy_randomness_mag": 0.9698507785797119, "train/policy_randomness_max": 0.9698507785797119, "train/policy_randomness_mean": 0.536802337653395, "train/policy_randomness_min": 0.03616686656639196, "train/policy_randomness_std": 0.23325528809125873, "train/post_ent_mag": 50.57209064649499, "train/post_ent_max": 50.57209064649499, "train/post_ent_mean": 37.81146472433339, "train/post_ent_min": 24.352025101150293, "train/post_ent_std": 4.199551958968674, "train/prior_ent_mag": 71.96939075856969, "train/prior_ent_max": 71.96939075856969, "train/prior_ent_mean": 41.84537727245386, "train/prior_ent_min": 28.368293264637824, "train/prior_ent_std": 6.7192220964293545, "train/rep_loss_mean": 4.045004817022794, "train/rep_loss_std": 5.994451930557472, "train/reward_avg": 0.941604393115942, "train/reward_loss_mean": 0.05857785262059474, "train/reward_loss_std": 0.2509422702849775, "train/reward_max_data": 145.07246376811594, "train/reward_max_pred": 104.62605939395186, "train/reward_neg_acc": 0.9716175328130308, "train/reward_neg_loss": 0.00824867836807085, "train/reward_pos_acc": 0.9916980041973833, "train/reward_pos_loss": 0.6856242426927539, "train/reward_pred": 0.8222404727037402, "train/reward_rate": 0.07300158514492754, "train_stats/mean_log_entropy": 1.0187702178955078, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00011631421511992812, "report/cont_loss_std": 0.0024004324804991484, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.010808048769831657, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00010586286953184754, "report/cont_pred": 0.9989309906959534, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.314587116241455, "report/dyn_loss_std": 5.709317207336426, "report/image_loss_mean": 2.6590538024902344, "report/image_loss_std": 1.8278241157531738, "report/model_loss_mean": 5.313419342041016, "report/model_loss_std": 4.779249668121338, "report/post_ent_mag": 49.354286193847656, "report/post_ent_max": 49.354286193847656, "report/post_ent_mean": 37.05521774291992, "report/post_ent_min": 24.321712493896484, "report/post_ent_std": 4.372599124908447, "report/prior_ent_mag": 72.17628479003906, "report/prior_ent_max": 72.17628479003906, "report/prior_ent_mean": 41.48789978027344, "report/prior_ent_min": 30.423526763916016, "report/prior_ent_std": 6.460309028625488, "report/rep_loss_mean": 4.314587116241455, "report/rep_loss_std": 5.709317207336426, "report/reward_avg": 1.630859375, "report/reward_loss_mean": 0.06549682468175888, "report/reward_loss_std": 0.20049802958965302, "report/reward_max_data": 410.0, "report/reward_max_pred": 186.9365692138672, "report/reward_neg_acc": 0.9760869145393372, "report/reward_neg_loss": 0.0033684666268527508, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6150938868522644, "report/reward_pred": 1.2909951210021973, "report/reward_rate": 0.1015625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.0442715659737587, "eval/cont_loss_std": 0.7911351323127747, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 10.896288871765137, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.0017146308673545718, "eval/cont_pred": 0.9983716011047363, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.83993911743164, "eval/dyn_loss_std": 11.189045906066895, "eval/image_loss_mean": 6.956543922424316, "eval/image_loss_std": 5.070735931396484, "eval/model_loss_mean": 16.6151180267334, "eval/model_loss_std": 11.674220085144043, "eval/post_ent_mag": 48.480899810791016, "eval/post_ent_max": 48.480899810791016, "eval/post_ent_mean": 36.126705169677734, "eval/post_ent_min": 23.47764015197754, "eval/post_ent_std": 4.683753967285156, "eval/prior_ent_mag": 72.17628479003906, "eval/prior_ent_max": 72.17628479003906, "eval/prior_ent_mean": 41.754112243652344, "eval/prior_ent_min": 29.446754455566406, "eval/prior_ent_std": 6.501270771026611, "eval/rep_loss_mean": 14.83993911743164, "eval/rep_loss_std": 11.189045906066895, "eval/reward_avg": 0.537109375, "eval/reward_loss_mean": 0.7103376984596252, "eval/reward_loss_std": 3.189114809036255, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.993142127990723, "eval/reward_neg_acc": 0.925696611404419, "eval/reward_neg_loss": 0.09224530309438705, "eval/reward_pos_acc": 0.2545454502105713, "eval/reward_pos_loss": 11.60000228881836, "eval/reward_pred": 0.23818428814411163, "eval/reward_rate": 0.0537109375, "replay/size": 35303.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.662407769097223e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0360715021130671e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2218952178955078e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.25682258605957, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4554824829101562, "timer/env.step_frac": 0.008177940676789671, "timer/env.step_avg": 0.0035432647661041215, "timer/env.step_min": 0.00225067138671875, "timer/env.step_max": 0.018782854080200195, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.4557909965515, "timer/replay._sample_frac": 0.6676144417637567, "timer/replay._sample_avg": 0.01807862472912622, "timer/replay._sample_min": 0.0005218982696533203, "timer/replay._sample_max": 0.05196976661682129, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2153339385986328, "timer/agent.save_frac": 0.0007171658473702586, "timer/agent.save_avg": 0.2153339385986328, "timer/agent.save_min": 0.2153339385986328, "timer/agent.save_max": 0.2153339385986328, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.85967540740967, "timer/agent.policy_frac": 0.6622986072211983, "timer/agent.policy_avg": 0.28695479856769074, "timer/agent.policy_min": 0.002905607223510742, "timer/agent.policy_max": 0.4004347324371338, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08862543106079102, "timer/dataset_train_frac": 0.0002951654197146152, "timer/dataset_train_avg": 0.00012788662490734634, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 0.0013780593872070312, "timer/agent.train_count": 693.0, "timer/agent.train_total": 97.60530686378479, "timer/agent.train_frac": 0.32507273614343657, "timer/agent.train_avg": 0.14084459864904011, "timer/agent.train_min": 0.1013796329498291, "timer/agent.train_max": 0.444988489151001, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5171561241149902, "timer/agent.report_frac": 0.001722379260730247, "timer/agent.report_avg": 0.2585780620574951, "timer/agent.report_min": 0.10679340362548828, "timer/agent.report_max": 0.41036272048950195, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011467933654785156, "timer/dataset_eval_frac": 3.819374879149738e-07, "timer/dataset_eval_avg": 0.00011467933654785156, "timer/dataset_eval_min": 0.00011467933654785156, "timer/dataset_eval_max": 0.00011467933654785156, "fps": 9.231581858030323}
+{"step": 143724, "episode/length": 777.0, "episode/score": 750.0, "episode/reward_rate": 0.08611825192802057}
+{"step": 144308, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.478504449548856, "train/action_min": 0.0, "train/action_std": 2.95956531041105, "train/actor_opt_grad_norm": 0.011487468165463545, "train/actor_opt_grad_steps": 34620.0, "train/actor_opt_loss": 0.003633546403774821, "train/adv_mag": 0.8238127265177982, "train/adv_max": 0.8106044056549878, "train/adv_mean": 0.005340094960329097, "train/adv_min": -0.5372798766048861, "train/adv_std": 0.05339469388127327, "train/cont_avg": 0.9983907350352113, "train/cont_loss_mean": 0.0005164406930617815, "train/cont_loss_std": 0.015151800413771614, "train/cont_neg_acc": 0.9233918137717665, "train/cont_neg_loss": 0.20371954564054026, "train/cont_pos_acc": 0.9999862304875549, "train/cont_pos_loss": 0.0001129364878348532, "train/cont_pred": 0.9984173354968219, "train/cont_rate": 0.9983907350352113, "train/dyn_loss_mean": 3.8214555525443923, "train/dyn_loss_std": 5.876791208562716, "train/extr_critic_critic_opt_grad_norm": 1.999902302110699, "train/extr_critic_critic_opt_grad_steps": 34620.0, "train/extr_critic_critic_opt_loss": 1.5150339603424072, "train/extr_critic_mag": 319.9371741926166, "train/extr_critic_max": 319.9371741926166, "train/extr_critic_mean": 117.60735342536174, "train/extr_critic_min": 0.18832170795386946, "train/extr_critic_std": 79.18208984589913, "train/extr_return_normed_mag": 1.437841040987364, "train/extr_return_normed_max": 1.437841040987364, "train/extr_return_normed_mean": 0.4501374107851109, "train/extr_return_normed_min": -0.012840001083070963, "train/extr_return_normed_std": 0.31604298487515514, "train/extr_return_rate": 0.9208590572988483, "train/extr_return_raw_mag": 372.8436962718695, "train/extr_return_raw_max": 372.8436962718695, "train/extr_return_raw_mean": 118.97840129153829, "train/extr_return_raw_min": 0.13173505948802364, "train/extr_return_raw_std": 81.12323707258197, "train/extr_reward_mag": 151.17061400077714, "train/extr_reward_max": 151.17061400077714, "train/extr_reward_mean": 0.7744161805636446, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.50347934138607, "train/image_loss_mean": 2.4777002368174808, "train/image_loss_std": 2.046375012733567, "train/model_loss_mean": 4.826894928032244, "train/model_loss_std": 5.1546956519006, "train/model_opt_grad_norm": 15.994310781989299, "train/model_opt_grad_steps": 34620.0, "train/model_opt_loss": 4.826894928032244, "train/policy_entropy_mag": 2.128326174239038, "train/policy_entropy_max": 2.128326174239038, "train/policy_entropy_mean": 1.1138350510261428, "train/policy_entropy_min": 0.07837675343936598, "train/policy_entropy_std": 0.5260184856367783, "train/policy_logprob_mag": 6.7567297505660795, "train/policy_logprob_max": -0.010321450839475008, "train/policy_logprob_mean": -1.1120145354472415, "train/policy_logprob_min": -6.7567297505660795, "train/policy_logprob_std": 1.1109428153911107, "train/policy_randomness_mag": 0.9686429727245385, "train/policy_randomness_max": 0.9686429727245385, "train/policy_randomness_mean": 0.5069281731692838, "train/policy_randomness_min": 0.03567079753733017, "train/policy_randomness_std": 0.23940132978096815, "train/post_ent_mag": 50.43804410477759, "train/post_ent_max": 50.43804410477759, "train/post_ent_mean": 37.70960665420747, "train/post_ent_min": 24.680378040797272, "train/post_ent_std": 4.106698281328443, "train/prior_ent_mag": 72.06855430065745, "train/prior_ent_max": 72.06855430065745, "train/prior_ent_mean": 41.57653996642207, "train/prior_ent_min": 28.909573031143402, "train/prior_ent_std": 6.589632182054117, "train/rep_loss_mean": 3.8214555525443923, "train/rep_loss_std": 5.876791208562716, "train/reward_avg": 1.0009077904929577, "train/reward_loss_mean": 0.05580490604567696, "train/reward_loss_std": 0.23192901195774615, "train/reward_max_data": 157.32394366197184, "train/reward_max_pred": 127.24272245756337, "train/reward_neg_acc": 0.9750326670391459, "train/reward_neg_loss": 0.006366186221064606, "train/reward_pos_acc": 0.9929837576100524, "train/reward_pos_loss": 0.649626502688502, "train/reward_pred": 0.8992561198456187, "train/reward_rate": 0.07679082306338028, "train_stats/mean_log_entropy": 0.9552096128463745, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.359504262334667e-06, "report/cont_loss_std": 8.41598302940838e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0026817251928150654, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.41356018352235e-07, "report/cont_pred": 0.9990253448486328, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.5497167110443115, "report/dyn_loss_std": 5.478701591491699, "report/image_loss_mean": 1.880437970161438, "report/image_loss_std": 1.4925483465194702, "report/model_loss_mean": 4.051469326019287, "report/model_loss_std": 4.387767791748047, "report/post_ent_mag": 51.26377868652344, "report/post_ent_max": 51.26377868652344, "report/post_ent_mean": 38.49737548828125, "report/post_ent_min": 25.314298629760742, "report/post_ent_std": 4.402778148651123, "report/prior_ent_mag": 72.43502807617188, "report/prior_ent_max": 72.43502807617188, "report/prior_ent_mean": 41.410369873046875, "report/prior_ent_min": 26.419546127319336, "report/prior_ent_std": 6.774899959564209, "report/rep_loss_mean": 3.5497167110443115, "report/rep_loss_std": 5.478701591491699, "report/reward_avg": 0.78125, "report/reward_loss_mean": 0.04119837284088135, "report/reward_loss_std": 0.15910188853740692, "report/reward_max_data": 110.0, "report/reward_max_pred": 103.27218627929688, "report/reward_neg_acc": 0.9853862524032593, "report/reward_neg_loss": 0.005277739837765694, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5625918507575989, "report/reward_pred": 0.7660369873046875, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.027546674013137817, "eval/cont_loss_std": 0.6239713430404663, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 14.103693008422852, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.006289486824244e-07, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.259891510009766, "eval/dyn_loss_std": 11.584941864013672, "eval/image_loss_mean": 6.762567520141602, "eval/image_loss_std": 4.507439136505127, "eval/model_loss_mean": 15.99661636352539, "eval/model_loss_std": 11.096320152282715, "eval/post_ent_mag": 50.18987274169922, "eval/post_ent_max": 50.18987274169922, "eval/post_ent_mean": 37.38878631591797, "eval/post_ent_min": 23.903614044189453, "eval/post_ent_std": 4.504136085510254, "eval/prior_ent_mag": 72.43502807617188, "eval/prior_ent_max": 72.43502807617188, "eval/prior_ent_mean": 40.3791389465332, "eval/prior_ent_min": 29.267393112182617, "eval/prior_ent_std": 6.02314567565918, "eval/rep_loss_mean": 14.259891510009766, "eval/rep_loss_std": 11.584941864013672, "eval/reward_avg": 0.546875, "eval/reward_loss_mean": 0.6505677700042725, "eval/reward_loss_std": 2.7971365451812744, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004591941833496, "eval/reward_neg_acc": 0.9111570119857788, "eval/reward_neg_loss": 0.16659030318260193, "eval/reward_pos_acc": 0.3035714328289032, "eval/reward_pos_loss": 9.016463279724121, "eval/reward_pred": 0.41264164447784424, "eval/reward_rate": 0.0546875, "replay/size": 36014.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.930284910564181e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4211222759949675e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.17872047424316, "timer/env.step_count": 711.0, "timer/env.step_total": 2.839874267578125, "timer/env.step_frac": 0.009460611541989034, "timer/env.step_avg": 0.003994197282107067, "timer/env.step_min": 0.002421855926513672, "timer/env.step_max": 0.024103879928588867, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 191.0492091178894, "timer/replay._sample_frac": 0.6364515406557021, "timer/replay._sample_avg": 0.01679405846676243, "timer/replay._sample_min": 0.000698089599609375, "timer/replay._sample_max": 0.05085897445678711, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.47751927375793, "timer/agent.policy_frac": 0.6611978322786818, "timer/agent.policy_avg": 0.2791526290770154, "timer/agent.policy_min": 0.0029828548431396484, "timer/agent.policy_max": 0.32965517044067383, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.10019421577453613, "timer/dataset_train_frac": 0.0003337818737325629, "timer/dataset_train_avg": 0.00014092013470398893, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0014486312866210938, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.69819068908691, "timer/agent.train_frac": 0.32546674372765844, "timer/agent.train_avg": 0.13740955089885643, "timer/agent.train_min": 0.09829568862915039, "timer/agent.train_max": 0.4350125789642334, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4986453056335449, "timer/agent.report_frac": 0.0016611614069303464, "timer/agent.report_avg": 0.24932265281677246, "timer/agent.report_min": 0.10047578811645508, "timer/agent.report_max": 0.39816951751708984, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.176399230957031e-05, "timer/dataset_eval_frac": 2.3907088482552187e-07, "timer/dataset_eval_avg": 7.176399230957031e-05, "timer/dataset_eval_min": 7.176399230957031e-05, "timer/dataset_eval_max": 7.176399230957031e-05, "fps": 9.474069099408661}
+{"step": 146620, "episode/length": 723.0, "episode/score": 530.0, "episode/reward_rate": 0.06767955801104972}
+{"step": 147116, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.556792340959821, "train/action_min": 0.0, "train/action_std": 2.9873697996139525, "train/actor_opt_grad_norm": 0.011376981297507882, "train/actor_opt_grad_steps": 35325.0, "train/actor_opt_loss": 0.0036373201554462348, "train/adv_mag": 0.8319448888301849, "train/adv_max": 0.8194784820079803, "train/adv_mean": 0.005933706692407473, "train/adv_min": -0.49973810740879604, "train/adv_std": 0.054380838280277594, "train/cont_avg": 0.9984514508928571, "train/cont_loss_mean": 0.0003611288035220436, "train/cont_loss_std": 0.00932517503530497, "train/cont_neg_acc": 0.9541666678019932, "train/cont_neg_loss": 0.14697539653051958, "train/cont_pos_acc": 0.999985978433064, "train/cont_pos_loss": 0.00011258465583929527, "train/cont_pred": 0.9984517957483019, "train/cont_rate": 0.9984514508928571, "train/dyn_loss_mean": 3.8511699165616715, "train/dyn_loss_std": 5.881286096572876, "train/extr_critic_critic_opt_grad_norm": 1.9244348764419557, "train/extr_critic_critic_opt_grad_steps": 35325.0, "train/extr_critic_critic_opt_loss": 1.5329487425940378, "train/extr_critic_mag": 323.80631190708704, "train/extr_critic_max": 323.80631190708704, "train/extr_critic_mean": 116.790735408238, "train/extr_critic_min": 0.011474590642111641, "train/extr_critic_std": 80.47432071140834, "train/extr_return_normed_mag": 1.4414995670318604, "train/extr_return_normed_max": 1.4414995670318604, "train/extr_return_normed_mean": 0.44756785886628286, "train/extr_return_normed_min": -0.011298632768115827, "train/extr_return_normed_std": 0.32037459569317955, "train/extr_return_rate": 0.9289537344660078, "train/extr_return_raw_mag": 374.53282514299667, "train/extr_return_raw_max": 374.53282514299667, "train/extr_return_raw_mean": 118.32171194893974, "train/extr_return_raw_min": 0.01975840792625344, "train/extr_return_raw_std": 82.58637084960938, "train/extr_reward_mag": 157.5325973238264, "train/extr_reward_max": 157.5325973238264, "train/extr_reward_mean": 0.7918645863022123, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.733961588995797, "train/image_loss_mean": 2.4539264627865385, "train/image_loss_std": 2.001262331008911, "train/model_loss_mean": 4.821321378435408, "train/model_loss_std": 5.1352239608764645, "train/model_opt_grad_norm": 16.231313937050956, "train/model_opt_grad_steps": 35325.0, "train/model_opt_loss": 4.821321378435408, "train/policy_entropy_mag": 2.133825867516654, "train/policy_entropy_max": 2.133825867516654, "train/policy_entropy_mean": 1.1107607645647866, "train/policy_entropy_min": 0.07907525939600808, "train/policy_entropy_std": 0.5262937366962432, "train/policy_logprob_mag": 6.74673068182809, "train/policy_logprob_max": -0.010430444777011872, "train/policy_logprob_mean": -1.1097364868436541, "train/policy_logprob_min": -6.74673068182809, "train/policy_logprob_std": 1.113550046512059, "train/policy_randomness_mag": 0.9711459977286202, "train/policy_randomness_max": 0.9711459977286202, "train/policy_randomness_mean": 0.5055290077413831, "train/policy_randomness_min": 0.03598870124135699, "train/policy_randomness_std": 0.23952660326446806, "train/post_ent_mag": 50.89074020385742, "train/post_ent_max": 50.89074020385742, "train/post_ent_mean": 37.825104413713724, "train/post_ent_min": 24.73530630384173, "train/post_ent_std": 4.092420908382961, "train/prior_ent_mag": 72.40032097952707, "train/prior_ent_max": 72.40032097952707, "train/prior_ent_mean": 41.73954069955008, "train/prior_ent_min": 28.78557390485491, "train/prior_ent_std": 6.608677196502685, "train/rep_loss_mean": 3.8511699165616715, "train/rep_loss_std": 5.881286096572876, "train/reward_avg": 1.0422712053571428, "train/reward_loss_mean": 0.0563318489917687, "train/reward_loss_std": 0.2193992378456252, "train/reward_max_data": 163.14285714285714, "train/reward_max_pred": 124.68533994129726, "train/reward_neg_acc": 0.974007213967187, "train/reward_neg_loss": 0.006713819670091783, "train/reward_pos_acc": 0.9966631088938032, "train/reward_pos_loss": 0.6431396986757006, "train/reward_pred": 0.9195242204836437, "train/reward_rate": 0.07816685267857143, "train_stats/mean_log_entropy": 0.8204882740974426, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00025647084112279117, "report/cont_loss_std": 0.0038487366400659084, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.06725471466779709, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001909789425553754, "report/cont_pred": 0.9989013075828552, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.618643283843994, "report/dyn_loss_std": 6.286755084991455, "report/image_loss_mean": 3.268101215362549, "report/image_loss_std": 2.9243617057800293, "report/model_loss_mean": 6.102450370788574, "report/model_loss_std": 6.213987350463867, "report/post_ent_mag": 52.79408264160156, "report/post_ent_max": 52.79408264160156, "report/post_ent_mean": 38.29550552368164, "report/post_ent_min": 25.347719192504883, "report/post_ent_std": 4.2498955726623535, "report/prior_ent_mag": 72.172607421875, "report/prior_ent_max": 72.172607421875, "report/prior_ent_mean": 42.668434143066406, "report/prior_ent_min": 27.009868621826172, "report/prior_ent_std": 7.380795478820801, "report/rep_loss_mean": 4.618643283843994, "report/rep_loss_std": 6.286755084991455, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.06290653347969055, "report/reward_loss_std": 0.19653397798538208, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.97336196899414, "report/reward_neg_acc": 0.954935610294342, "report/reward_neg_loss": 0.011494221165776253, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5837355852127075, "report/reward_pred": 0.9735407829284668, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.03155142813920975, "eval/cont_loss_std": 0.705825686454773, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 10.450469970703125, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0009375599329359829, "eval/cont_pred": 0.9981929063796997, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 13.596714973449707, "eval/dyn_loss_std": 11.68384075164795, "eval/image_loss_mean": 6.198213577270508, "eval/image_loss_std": 4.709941864013672, "eval/model_loss_mean": 14.975521087646484, "eval/model_loss_std": 11.69336986541748, "eval/post_ent_mag": 50.321685791015625, "eval/post_ent_max": 50.321685791015625, "eval/post_ent_mean": 34.545135498046875, "eval/post_ent_min": 24.46976089477539, "eval/post_ent_std": 3.771723508834839, "eval/prior_ent_mag": 72.172607421875, "eval/prior_ent_max": 72.172607421875, "eval/prior_ent_mean": 39.07958984375, "eval/prior_ent_min": 28.16167640686035, "eval/prior_ent_std": 6.387998104095459, "eval/rep_loss_mean": 13.596714973449707, "eval/rep_loss_std": 11.68384075164795, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.587727427482605, "eval/reward_loss_std": 2.6200544834136963, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999911308288574, "eval/reward_neg_acc": 0.9284985065460205, "eval/reward_neg_loss": 0.13458308577537537, "eval/reward_pos_acc": 0.17777778208255768, "eval/reward_pos_loss": 10.446135520935059, "eval/reward_pred": 0.31458351016044617, "eval/reward_rate": 0.0439453125, "replay/size": 36716.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.47853290525257e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2604217244009687e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4156103134155273e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.374388217926, "timer/env.step_count": 702.0, "timer/env.step_total": 2.6322317123413086, "timer/env.step_frac": 0.008763169616284282, "timer/env.step_avg": 0.003749617823848018, "timer/env.step_min": 0.0018033981323242188, "timer/env.step_max": 0.015665054321289062, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 200.07144808769226, "timer/replay._sample_frac": 0.6660735932736631, "timer/replay._sample_avg": 0.017812628925186275, "timer/replay._sample_min": 0.0005533695220947266, "timer/replay._sample_max": 0.05617356300354004, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 197.80201363563538, "timer/agent.policy_frac": 0.65851824055028, "timer/agent.policy_avg": 0.2817692501932128, "timer/agent.policy_min": 0.003118753433227539, "timer/agent.policy_max": 0.33221912384033203, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.09760570526123047, "timer/dataset_train_frac": 0.00032494682998876755, "timer/dataset_train_avg": 0.00013903946618408898, "timer/dataset_train_min": 7.963180541992188e-05, "timer/dataset_train_max": 0.0013606548309326172, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.65046167373657, "timer/agent.train_frac": 0.3284250107308224, "timer/agent.train_avg": 0.14052772318196094, "timer/agent.train_min": 0.1001121997833252, "timer/agent.train_max": 0.44976067543029785, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5188915729522705, "timer/agent.report_frac": 0.0017274827458851354, "timer/agent.report_avg": 0.25944578647613525, "timer/agent.report_min": 0.11765789985656738, "timer/agent.report_max": 0.4012336730957031, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001251697540283203, "timer/dataset_eval_frac": 4.167124726276856e-07, "timer/dataset_eval_avg": 0.0001251697540283203, "timer/dataset_eval_min": 0.0001251697540283203, "timer/dataset_eval_max": 0.0001251697540283203, "fps": 9.348100163413484}
+{"step": 149164, "episode/length": 635.0, "episode/score": 1220.0, "episode/reward_rate": 0.09433962264150944}
+{"step": 149884, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.394497244698661, "train/action_min": 0.0, "train/action_std": 2.981621016774859, "train/actor_opt_grad_norm": 0.011382777729470816, "train/actor_opt_grad_steps": 36025.0, "train/actor_opt_loss": 0.0036132143311468617, "train/adv_mag": 0.8770754269191197, "train/adv_max": 0.8614906715495246, "train/adv_mean": 0.0051976116996749104, "train/adv_min": -0.5116101086139679, "train/adv_std": 0.052813431806862356, "train/cont_avg": 0.9986049107142857, "train/cont_loss_mean": 0.00040257768526633493, "train/cont_loss_std": 0.011637289556210817, "train/cont_neg_acc": 0.9494047622595515, "train/cont_neg_loss": 0.20981466558287462, "train/cont_pos_acc": 0.999972026688712, "train/cont_pos_loss": 8.569734072442056e-05, "train/cont_pred": 0.9986517259052822, "train/cont_rate": 0.9986049107142857, "train/dyn_loss_mean": 3.961354470252991, "train/dyn_loss_std": 5.931589099339076, "train/extr_critic_critic_opt_grad_norm": 1.9664859107562473, "train/extr_critic_critic_opt_grad_steps": 36025.0, "train/extr_critic_critic_opt_loss": 1.5435159019061497, "train/extr_critic_mag": 324.1040871756417, "train/extr_critic_max": 324.1040871756417, "train/extr_critic_mean": 117.03702588762556, "train/extr_critic_min": 0.036783104283469065, "train/extr_critic_std": 80.46502620152064, "train/extr_return_normed_mag": 1.4562789712633406, "train/extr_return_normed_max": 1.4562789712633406, "train/extr_return_normed_mean": 0.44476585132735114, "train/extr_return_normed_min": -0.012987436001588191, "train/extr_return_normed_std": 0.3189570299216679, "train/extr_return_rate": 0.9292476262365069, "train/extr_return_raw_mag": 379.84144723074775, "train/extr_return_raw_max": 379.84144723074775, "train/extr_return_raw_mean": 118.37931496756417, "train/extr_return_raw_min": 0.14770060958731587, "train/extr_return_raw_std": 82.38921361650739, "train/extr_reward_mag": 163.99017216818675, "train/extr_reward_max": 163.99017216818675, "train/extr_reward_mean": 0.8244389380727496, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.836550443513053, "train/image_loss_mean": 2.5563644630568367, "train/image_loss_std": 2.009600218704769, "train/model_loss_mean": 4.9935813290732245, "train/model_loss_std": 5.183899314062936, "train/model_opt_grad_norm": 16.67478598185948, "train/model_opt_grad_steps": 36025.0, "train/model_opt_loss": 4.9935813290732245, "train/policy_entropy_mag": 2.1293814488819667, "train/policy_entropy_max": 2.1293814488819667, "train/policy_entropy_mean": 1.1401509182793754, "train/policy_entropy_min": 0.0780590832233429, "train/policy_entropy_std": 0.5124839672020504, "train/policy_logprob_mag": 6.744580895560128, "train/policy_logprob_max": -0.010269793828151056, "train/policy_logprob_mean": -1.1388417635645185, "train/policy_logprob_min": -6.744580895560128, "train/policy_logprob_std": 1.1018410376140049, "train/policy_randomness_mag": 0.9691232553550175, "train/policy_randomness_max": 0.9691232553550175, "train/policy_randomness_mean": 0.5189050436019897, "train/policy_randomness_min": 0.03552621927644525, "train/policy_randomness_std": 0.23324150272778102, "train/post_ent_mag": 51.07071151733398, "train/post_ent_max": 51.07071151733398, "train/post_ent_mean": 37.926001358032224, "train/post_ent_min": 24.665089062282018, "train/post_ent_std": 4.127628442219326, "train/prior_ent_mag": 72.49922725132534, "train/prior_ent_max": 72.49922725132534, "train/prior_ent_mean": 41.91254844665527, "train/prior_ent_min": 29.131834438868932, "train/prior_ent_std": 6.572691699436732, "train/rep_loss_mean": 3.961354470252991, "train/rep_loss_std": 5.931589099339076, "train/reward_avg": 1.0832868303571428, "train/reward_loss_mean": 0.060001612028905325, "train/reward_loss_std": 0.2366344327373164, "train/reward_max_data": 168.71428571428572, "train/reward_max_pred": 125.10071728570121, "train/reward_neg_acc": 0.9735677974564688, "train/reward_neg_loss": 0.007102856632055981, "train/reward_pos_acc": 0.9949321849005562, "train/reward_pos_loss": 0.6529795254979814, "train/reward_pred": 0.9542217075824737, "train/reward_rate": 0.08207310267857143, "train_stats/mean_log_entropy": 0.8909551501274109, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00036985756014473736, "report/cont_loss_std": 0.01003343891352415, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 7.01060562278144e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0003704441769514233, "report/cont_pred": 0.9977227449417114, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.8455986976623535, "report/dyn_loss_std": 6.369455337524414, "report/image_loss_mean": 2.3485708236694336, "report/image_loss_std": 1.956599473953247, "report/model_loss_mean": 4.692852020263672, "report/model_loss_std": 5.452692031860352, "report/post_ent_mag": 51.403900146484375, "report/post_ent_max": 51.403900146484375, "report/post_ent_mean": 37.79891586303711, "report/post_ent_min": 24.088865280151367, "report/post_ent_std": 4.025509834289551, "report/prior_ent_mag": 72.80682373046875, "report/prior_ent_max": 72.80682373046875, "report/prior_ent_mean": 41.765869140625, "report/prior_ent_min": 28.80367660522461, "report/prior_ent_std": 6.324653148651123, "report/rep_loss_mean": 3.8455986976623535, "report/rep_loss_std": 6.369455337524414, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.03655222803354263, "report/reward_loss_std": 0.20989885926246643, "report/reward_max_data": 210.0, "report/reward_max_pred": 82.13350677490234, "report/reward_neg_acc": 0.9815950393676758, "report/reward_neg_loss": 0.00547131197527051, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6973595023155212, "report/reward_pred": 0.6081418991088867, "report/reward_rate": 0.044921875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.064693363645347e-07, "eval/cont_loss_std": 1.776560202415567e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.064693363645347e-07, "eval/cont_pred": 0.9999992847442627, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.90383529663086, "eval/dyn_loss_std": 10.302267074584961, "eval/image_loss_mean": 7.298722743988037, "eval/image_loss_std": 4.330114841461182, "eval/model_loss_mean": 16.321300506591797, "eval/model_loss_std": 10.45191478729248, "eval/post_ent_mag": 46.72895431518555, "eval/post_ent_max": 46.72895431518555, "eval/post_ent_mean": 36.8950309753418, "eval/post_ent_min": 24.484548568725586, "eval/post_ent_std": 4.106183052062988, "eval/prior_ent_mag": 72.80682373046875, "eval/prior_ent_max": 72.80682373046875, "eval/prior_ent_mean": 40.03955841064453, "eval/prior_ent_min": 28.369354248046875, "eval/prior_ent_std": 5.851088523864746, "eval/rep_loss_mean": 13.90383529663086, "eval/rep_loss_std": 10.302267074584961, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6802765130996704, "eval/reward_loss_std": 3.0384016036987305, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003395080566406, "eval/reward_neg_acc": 0.9269548058509827, "eval/reward_neg_loss": 0.07955946028232574, "eval/reward_pos_acc": 0.13461539149284363, "eval/reward_pos_loss": 11.909065246582031, "eval/reward_pred": 0.1789824664592743, "eval/reward_rate": 0.05078125, "replay/size": 37408.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 4.9323704890433075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1870109966035524e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2367963790893555e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.99284625053406, "timer/env.step_count": 692.0, "timer/env.step_total": 2.3843185901641846, "timer/env.step_frac": 0.007947918158598223, "timer/env.step_avg": 0.0034455470956129834, "timer/env.step_min": 0.002251863479614258, "timer/env.step_max": 0.020310640335083008, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 198.12368059158325, "timer/replay._sample_frac": 0.6604280170938595, "timer/replay._sample_avg": 0.017894118550540395, "timer/replay._sample_min": 0.0005092620849609375, "timer/replay._sample_max": 0.05077695846557617, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 197.06322121620178, "timer/agent.policy_frac": 0.656893068215459, "timer/agent.policy_avg": 0.2847734410638754, "timer/agent.policy_min": 0.0030188560485839844, "timer/agent.policy_max": 0.33522677421569824, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.08748555183410645, "timer/dataset_train_frac": 0.0002916254601652879, "timer/dataset_train_avg": 0.00012642420785275498, "timer/dataset_train_min": 7.867813110351562e-05, "timer/dataset_train_max": 0.0006115436553955078, "timer/agent.train_count": 692.0, "timer/agent.train_total": 99.22536087036133, "timer/agent.train_frac": 0.33075909012675225, "timer/agent.train_avg": 0.14338924981266088, "timer/agent.train_min": 0.10209035873413086, "timer/agent.train_max": 0.45783257484436035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5062143802642822, "timer/agent.report_frac": 0.001687421505516587, "timer/agent.report_avg": 0.2531071901321411, "timer/agent.report_min": 0.10037398338317871, "timer/agent.report_max": 0.4058403968811035, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.508827209472656e-05, "timer/dataset_eval_frac": 2.1696608071903545e-07, "timer/dataset_eval_avg": 6.508827209472656e-05, "timer/dataset_eval_min": 6.508827209472656e-05, "timer/dataset_eval_max": 6.508827209472656e-05, "fps": 9.226479679379223}
+{"step": 151484, "episode/length": 579.0, "episode/score": 550.0, "episode/reward_rate": 0.05517241379310345}
+{"step": 152656, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.548600791157156, "train/action_min": 0.0, "train/action_std": 2.89261746061021, "train/actor_opt_grad_norm": 0.01152965443316793, "train/actor_opt_grad_steps": 36720.0, "train/actor_opt_loss": 0.0029978507927676283, "train/adv_mag": 0.8625749211380447, "train/adv_max": 0.8406940750453783, "train/adv_mean": 0.004159626981730242, "train/adv_min": -0.5484763841698135, "train/adv_std": 0.052584723744919334, "train/cont_avg": 0.9985846920289855, "train/cont_loss_mean": 0.000308850580647237, "train/cont_loss_std": 0.008636814466882059, "train/cont_neg_acc": 0.9388888895511627, "train/cont_neg_loss": 0.15082074616170757, "train/cont_pos_acc": 0.9999858184137206, "train/cont_pos_loss": 9.547875654810103e-05, "train/cont_pred": 0.998600235019905, "train/cont_rate": 0.9985846920289855, "train/dyn_loss_mean": 3.7924616889677187, "train/dyn_loss_std": 5.9387112423993536, "train/extr_critic_critic_opt_grad_norm": 1.920933256978574, "train/extr_critic_critic_opt_grad_steps": 36720.0, "train/extr_critic_critic_opt_loss": 1.5267456683559695, "train/extr_critic_mag": 327.21928870159644, "train/extr_critic_max": 327.21928870159644, "train/extr_critic_mean": 116.67890808547753, "train/extr_critic_min": 0.12686042336450107, "train/extr_critic_std": 79.5951334082562, "train/extr_return_normed_mag": 1.433666417564171, "train/extr_return_normed_max": 1.433666417564171, "train/extr_return_normed_mean": 0.43421766377877496, "train/extr_return_normed_min": -0.016786847737671782, "train/extr_return_normed_std": 0.311325844431269, "train/extr_return_rate": 0.9221816978592804, "train/extr_return_raw_mag": 378.3077255470165, "train/extr_return_raw_max": 378.3077255470165, "train/extr_return_raw_mean": 117.76471909232761, "train/extr_return_raw_min": 0.14901909411233594, "train/extr_return_raw_std": 81.20726029769234, "train/extr_reward_mag": 160.48238498577174, "train/extr_reward_max": 160.48238498577174, "train/extr_reward_mean": 0.7987838136977043, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.922744044359179, "train/image_loss_mean": 2.3913376936014146, "train/image_loss_std": 1.9143609482309092, "train/model_loss_mean": 4.722348586372707, "train/model_loss_std": 5.091575843700464, "train/model_opt_grad_norm": 15.553476927936941, "train/model_opt_grad_steps": 36720.0, "train/model_opt_loss": 4.722348586372707, "train/policy_entropy_mag": 2.133744934330816, "train/policy_entropy_max": 2.133744934330816, "train/policy_entropy_mean": 1.1631250321001247, "train/policy_entropy_min": 0.07663167494794597, "train/policy_entropy_std": 0.5077248690784841, "train/policy_logprob_mag": 6.761365697003793, "train/policy_logprob_max": -0.01006699149645325, "train/policy_logprob_mean": -1.160894248796546, "train/policy_logprob_min": -6.761365697003793, "train/policy_logprob_std": 1.0914818627246912, "train/policy_randomness_mag": 0.9711091613423997, "train/policy_randomness_max": 0.9711091613423997, "train/policy_randomness_mean": 0.5293610057105189, "train/policy_randomness_min": 0.03487657771810242, "train/policy_randomness_std": 0.23107554450415183, "train/post_ent_mag": 51.664665388024375, "train/post_ent_max": 51.664665388024375, "train/post_ent_mean": 37.86463010483894, "train/post_ent_min": 24.691785701806996, "train/post_ent_std": 4.174192304196565, "train/prior_ent_mag": 72.70288815705672, "train/prior_ent_max": 72.70288815705672, "train/prior_ent_mean": 41.75950589387313, "train/prior_ent_min": 28.96094946930374, "train/prior_ent_std": 6.559236457382423, "train/rep_loss_mean": 3.7924616889677187, "train/rep_loss_std": 5.9387112423993536, "train/reward_avg": 1.048035552536232, "train/reward_loss_mean": 0.055225006291183876, "train/reward_loss_std": 0.22490776578585306, "train/reward_max_data": 169.2753623188406, "train/reward_max_pred": 134.38123646335325, "train/reward_neg_acc": 0.977117303488911, "train/reward_neg_loss": 0.006253178179115597, "train/reward_pos_acc": 0.995673992495606, "train/reward_pos_loss": 0.6440324956092282, "train/reward_pred": 0.9264011560142904, "train/reward_rate": 0.07721920289855072, "train_stats/mean_log_entropy": 0.7223719358444214, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.413527105702087e-06, "report/cont_loss_std": 0.0001050972132361494, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.0082326197298244e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.36986271981732e-06, "report/cont_pred": 0.999018132686615, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.129929542541504, "report/dyn_loss_std": 5.859823226928711, "report/image_loss_mean": 2.4788074493408203, "report/image_loss_std": 1.6971601247787476, "report/model_loss_mean": 5.028212070465088, "report/model_loss_std": 4.851602554321289, "report/post_ent_mag": 52.41804504394531, "report/post_ent_max": 52.41804504394531, "report/post_ent_mean": 39.1634521484375, "report/post_ent_min": 21.169086456298828, "report/post_ent_std": 4.583898544311523, "report/prior_ent_mag": 72.96305847167969, "report/prior_ent_max": 72.96305847167969, "report/prior_ent_mean": 43.25314712524414, "report/prior_ent_min": 30.28003692626953, "report/prior_ent_std": 6.824814319610596, "report/rep_loss_mean": 4.129929542541504, "report/rep_loss_std": 5.859823226928711, "report/reward_avg": 1.318359375, "report/reward_loss_mean": 0.07144147157669067, "report/reward_loss_std": 0.4056653678417206, "report/reward_max_data": 200.0, "report/reward_max_pred": 146.0370330810547, "report/reward_neg_acc": 0.9712460041046143, "report/reward_neg_loss": 0.007545112632215023, "report/reward_pos_acc": 0.9764705896377563, "report/reward_pos_loss": 0.7773082852363586, "report/reward_pred": 1.0321290493011475, "report/reward_rate": 0.0830078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.017471350729465485, "eval/cont_loss_std": 0.49696746468544006, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.939295768737793, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1812961929535959e-05, "eval/cont_pred": 0.9998694062232971, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.855657577514648, "eval/dyn_loss_std": 10.877674102783203, "eval/image_loss_mean": 7.024650573730469, "eval/image_loss_std": 4.56008768081665, "eval/model_loss_mean": 15.8375244140625, "eval/model_loss_std": 10.724047660827637, "eval/post_ent_mag": 51.43783187866211, "eval/post_ent_max": 51.43783187866211, "eval/post_ent_mean": 37.105674743652344, "eval/post_ent_min": 25.47868537902832, "eval/post_ent_std": 4.867094993591309, "eval/prior_ent_mag": 72.96305847167969, "eval/prior_ent_max": 72.96305847167969, "eval/prior_ent_mean": 39.848480224609375, "eval/prior_ent_min": 29.141063690185547, "eval/prior_ent_std": 6.116768836975098, "eval/rep_loss_mean": 13.855657577514648, "eval/rep_loss_std": 10.877674102783203, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.4820079505443573, "eval/reward_loss_std": 2.413891553878784, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006023406982422, "eval/reward_neg_acc": 0.9250252842903137, "eval/reward_neg_loss": 0.09156245738267899, "eval/reward_pos_acc": 0.18918918073177338, "eval/reward_pos_loss": 10.897404670715332, "eval/reward_pred": 0.25790101289749146, "eval/reward_rate": 0.0361328125, "replay/size": 38101.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.916652112468152e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0573803776442402e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.37152457237244, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4534270763397217, "timer/env.step_frac": 0.008167974909847307, "timer/env.step_avg": 0.00354029881145703, "timer/env.step_min": 0.0022149085998535156, "timer/env.step_max": 0.023429155349731445, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.4664704799652, "timer/replay._sample_frac": 0.6673950560572003, "timer/replay._sample_avg": 0.018079587885999747, "timer/replay._sample_min": 0.0005161762237548828, "timer/replay._sample_max": 0.05486726760864258, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.13525176048278809, "timer/agent.save_frac": 0.00045028156605504097, "timer/agent.save_avg": 0.13525176048278809, "timer/agent.save_min": 0.13525176048278809, "timer/agent.save_max": 0.13525176048278809, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.7563214302063, "timer/agent.policy_frac": 0.6583723996865032, "timer/agent.policy_avg": 0.2853626571864449, "timer/agent.policy_min": 0.0028624534606933594, "timer/agent.policy_max": 0.33477282524108887, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08618569374084473, "timer/dataset_train_frac": 0.0002869303069375302, "timer/dataset_train_avg": 0.00012436608043411937, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0005061626434326172, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.85001969337463, "timer/agent.train_frac": 0.3290925124613715, "timer/agent.train_avg": 0.14264072105826064, "timer/agent.train_min": 0.10441207885742188, "timer/agent.train_max": 0.45159411430358887, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.516817569732666, "timer/agent.report_frac": 0.0017205944220859137, "timer/agent.report_avg": 0.258408784866333, "timer/agent.report_min": 0.10132336616516113, "timer/agent.report_max": 0.4154942035675049, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.9087066650390625e-05, "timer/dataset_eval_frac": 9.683696446193021e-08, "timer/dataset_eval_avg": 2.9087066650390625e-05, "timer/dataset_eval_min": 2.9087066650390625e-05, "timer/dataset_eval_max": 2.9087066650390625e-05, "fps": 9.228143868019641}
+{"step": 155500, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.586896869498239, "train/action_min": 0.0, "train/action_std": 2.8649060826906014, "train/actor_opt_grad_norm": 0.011663454820887304, "train/actor_opt_grad_steps": 37420.0, "train/actor_opt_loss": 0.003524724672670217, "train/adv_mag": 0.8532990737700127, "train/adv_max": 0.8304564167915935, "train/adv_mean": 0.004601163784915935, "train/adv_min": -0.5653022368189314, "train/adv_std": 0.052544309849470436, "train/cont_avg": 0.9983907350352113, "train/cont_loss_mean": 0.0002425735221458315, "train/cont_loss_std": 0.0059658430418782615, "train/cont_neg_acc": 0.9269005849696043, "train/cont_neg_loss": 0.13538075802389676, "train/cont_pos_acc": 0.9999862153765181, "train/cont_pos_loss": 8.624481182290681e-05, "train/cont_pred": 0.9984008485162762, "train/cont_rate": 0.9983907350352113, "train/dyn_loss_mean": 3.988018502651806, "train/dyn_loss_std": 5.964460728873669, "train/extr_critic_critic_opt_grad_norm": 1.9307903034586302, "train/extr_critic_critic_opt_grad_steps": 37420.0, "train/extr_critic_critic_opt_loss": 1.5503132460822522, "train/extr_critic_mag": 329.1184511856294, "train/extr_critic_max": 329.1184511856294, "train/extr_critic_mean": 120.13905613858935, "train/extr_critic_min": 0.1714118198609688, "train/extr_critic_std": 79.53527294749945, "train/extr_return_normed_mag": 1.50657113337181, "train/extr_return_normed_max": 1.50657113337181, "train/extr_return_normed_mean": 0.45188307048569265, "train/extr_return_normed_min": -0.014079712829749349, "train/extr_return_normed_std": 0.31303640675376837, "train/extr_return_rate": 0.931571902523578, "train/extr_return_raw_mag": 395.39925803600903, "train/extr_return_raw_max": 395.39925803600903, "train/extr_return_raw_mean": 121.33563350623763, "train/extr_return_raw_min": 0.3365919734482509, "train/extr_return_raw_std": 81.3086992720483, "train/extr_reward_mag": 158.01001662939368, "train/extr_reward_max": 158.01001662939368, "train/extr_reward_mean": 0.8071760409314868, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.851656324426893, "train/image_loss_mean": 2.4727303595610066, "train/image_loss_std": 1.9640777916975425, "train/model_loss_mean": 4.920457900409967, "train/model_loss_std": 5.15631926899225, "train/model_opt_grad_norm": 17.176340425518198, "train/model_opt_grad_steps": 37420.0, "train/model_opt_loss": 4.920457900409967, "train/policy_entropy_mag": 2.1357372848080916, "train/policy_entropy_max": 2.1357372848080916, "train/policy_entropy_mean": 1.1710988652538246, "train/policy_entropy_min": 0.07700003106409395, "train/policy_entropy_std": 0.5018792198577398, "train/policy_logprob_mag": 6.755500605408574, "train/policy_logprob_max": -0.010120904217408577, "train/policy_logprob_mean": -1.1708804578848289, "train/policy_logprob_min": -6.755500605408574, "train/policy_logprob_std": 1.0909009819299402, "train/policy_randomness_mag": 0.972015919819684, "train/policy_randomness_max": 0.972015919819684, "train/policy_randomness_mean": 0.5329900619009851, "train/policy_randomness_min": 0.03504422401458445, "train/policy_randomness_std": 0.2284150738531435, "train/post_ent_mag": 51.606923815230246, "train/post_ent_max": 51.606923815230246, "train/post_ent_mean": 38.11887934510137, "train/post_ent_min": 24.815332009758748, "train/post_ent_std": 4.1135532217966, "train/prior_ent_mag": 72.90266268018266, "train/prior_ent_max": 72.90266268018266, "train/prior_ent_mean": 42.12737386998996, "train/prior_ent_min": 29.255880517019353, "train/prior_ent_std": 6.5847400275754255, "train/rep_loss_mean": 3.988018502651806, "train/rep_loss_std": 5.964460728873669, "train/reward_avg": 1.0696797975352113, "train/reward_loss_mean": 0.054673887212091765, "train/reward_loss_std": 0.21544621139764786, "train/reward_max_data": 183.94366197183098, "train/reward_max_pred": 150.5371432237222, "train/reward_neg_acc": 0.9766321971382893, "train/reward_neg_loss": 0.006075416312841567, "train/reward_pos_acc": 0.9957266298817916, "train/reward_pos_loss": 0.6359398381810792, "train/reward_pred": 0.9619485773670842, "train/reward_rate": 0.07778113996478873, "report/cont_avg": 1.0, "report/cont_loss_mean": 9.825589586398564e-06, "report/cont_loss_std": 0.0002061010745819658, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.825589586398564e-06, "report/cont_pred": 0.9999902248382568, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.7361602783203125, "report/dyn_loss_std": 5.62514591217041, "report/image_loss_mean": 2.4300951957702637, "report/image_loss_std": 1.6915963888168335, "report/model_loss_mean": 4.727593421936035, "report/model_loss_std": 4.723813056945801, "report/post_ent_mag": 51.91423797607422, "report/post_ent_max": 51.91423797607422, "report/post_ent_mean": 38.53574752807617, "report/post_ent_min": 25.16287612915039, "report/post_ent_std": 4.222771167755127, "report/prior_ent_mag": 73.36123657226562, "report/prior_ent_max": 73.36123657226562, "report/prior_ent_mean": 42.12364959716797, "report/prior_ent_min": 28.686565399169922, "report/prior_ent_std": 6.363832473754883, "report/rep_loss_mean": 3.7361602783203125, "report/rep_loss_std": 5.62514591217041, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.05579182133078575, "report/reward_loss_std": 0.18900689482688904, "report/reward_max_data": 50.0, "report/reward_max_pred": 48.80976104736328, "report/reward_neg_acc": 0.9807486534118652, "report/reward_neg_loss": 0.00465662544593215, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5929986834526062, "report/reward_pred": 0.8672811985015869, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0001323236065218225, "eval/cont_loss_std": 0.003753860015422106, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.11907682567834854, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.605331817700062e-05, "eval/cont_pred": 0.9991171956062317, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.396028518676758, "eval/dyn_loss_std": 11.614027976989746, "eval/image_loss_mean": 6.9103899002075195, "eval/image_loss_std": 5.358617782592773, "eval/model_loss_mean": 15.639093399047852, "eval/model_loss_std": 12.521903038024902, "eval/post_ent_mag": 52.08380126953125, "eval/post_ent_max": 52.08380126953125, "eval/post_ent_mean": 36.37440490722656, "eval/post_ent_min": 25.12841796875, "eval/post_ent_std": 4.5818281173706055, "eval/prior_ent_mag": 73.36123657226562, "eval/prior_ent_max": 73.36123657226562, "eval/prior_ent_mean": 39.24091339111328, "eval/prior_ent_min": 29.960372924804688, "eval/prior_ent_std": 6.176660537719727, "eval/rep_loss_mean": 13.396028518676758, "eval/rep_loss_std": 11.614027976989746, "eval/reward_avg": 0.60546875, "eval/reward_loss_mean": 0.6909537315368652, "eval/reward_loss_std": 2.8965630531311035, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007152557373047, "eval/reward_neg_acc": 0.9469854831695557, "eval/reward_neg_loss": 0.0770593136548996, "eval/reward_pos_acc": 0.17741934955120087, "eval/reward_pos_loss": 10.216217994689941, "eval/reward_pred": 0.23678597807884216, "eval/reward_rate": 0.060546875, "replay/size": 38812.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.847458765644229e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.540394439643613e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3113021850585938e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2170124053955, "timer/env.step_count": 711.0, "timer/env.step_total": 2.80450701713562, "timer/env.step_frac": 0.009341599247375687, "timer/env.step_avg": 0.003944454313833503, "timer/env.step_min": 0.0023403167724609375, "timer/env.step_max": 0.006635427474975586, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 187.60952758789062, "timer/replay._sample_frac": 0.6249130456822802, "timer/replay._sample_avg": 0.016491695463070555, "timer/replay._sample_min": 0.0005984306335449219, "timer/replay._sample_max": 0.05250215530395508, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.39655303955078, "timer/agent.policy_frac": 0.6608438057855551, "timer/agent.policy_avg": 0.27903875251694904, "timer/agent.policy_min": 0.0031919479370117188, "timer/agent.policy_max": 0.32694268226623535, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09607577323913574, "timer/dataset_train_frac": 0.0003200210823142848, "timer/dataset_train_avg": 0.00013512766981594337, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 0.0003142356872558594, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.85078740119934, "timer/agent.train_frac": 0.3259335192806041, "timer/agent.train_avg": 0.13762417356005532, "timer/agent.train_min": 0.1013021469116211, "timer/agent.train_max": 0.43579792976379395, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4958333969116211, "timer/agent.report_frac": 0.0016515832761738254, "timer/agent.report_avg": 0.24791669845581055, "timer/agent.report_min": 0.10400819778442383, "timer/agent.report_max": 0.39182519912719727, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001010894775390625, "timer/dataset_eval_frac": 3.3672134943024873e-07, "timer/dataset_eval_avg": 0.0001010894775390625, "timer/dataset_eval_min": 0.0001010894775390625, "timer/dataset_eval_max": 0.0001010894775390625, "fps": 9.47284583967296}
+{"step": 155564, "episode/length": 1019.0, "episode/score": 1620.0, "episode/reward_rate": 0.07156862745098039}
+{"step": 158308, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.641130719866071, "train/action_min": 0.0, "train/action_std": 2.924022603034973, "train/actor_opt_grad_norm": 0.011818022360759121, "train/actor_opt_grad_steps": 38125.0, "train/actor_opt_loss": 0.0034503835026823385, "train/adv_mag": 0.8527183485882622, "train/adv_max": 0.8365890336888177, "train/adv_mean": 0.00485318560916182, "train/adv_min": -0.5463395557233266, "train/adv_std": 0.05396765741918768, "train/cont_avg": 0.9984235491071428, "train/cont_loss_mean": 0.0004942187804033438, "train/cont_loss_std": 0.013964141684014716, "train/cont_neg_acc": 0.9283854169771075, "train/cont_neg_loss": 0.22340908599696974, "train/cont_pos_acc": 0.9999580613204411, "train/cont_pos_loss": 0.00017926392917766114, "train/cont_pred": 0.9984340054648263, "train/cont_rate": 0.9984235491071428, "train/dyn_loss_mean": 4.002352469308036, "train/dyn_loss_std": 6.007462739944458, "train/extr_critic_critic_opt_grad_norm": 2.0073473044804166, "train/extr_critic_critic_opt_grad_steps": 38125.0, "train/extr_critic_critic_opt_loss": 1.5251831531524658, "train/extr_critic_mag": 335.4685695103237, "train/extr_critic_max": 335.4685695103237, "train/extr_critic_mean": 119.40497491019113, "train/extr_critic_min": 0.04785454784120832, "train/extr_critic_std": 82.81886215209961, "train/extr_return_normed_mag": 1.5118744339261736, "train/extr_return_normed_max": 1.5118744339261736, "train/extr_return_normed_mean": 0.4466892617089408, "train/extr_return_normed_min": -0.013753882057166525, "train/extr_return_normed_std": 0.3238305736865316, "train/extr_return_rate": 0.9135175321783339, "train/extr_return_raw_mag": 399.7081368582589, "train/extr_return_raw_max": 399.7081368582589, "train/extr_return_raw_mean": 120.6764017377581, "train/extr_return_raw_min": 0.0618065281105893, "train/extr_return_raw_std": 84.79712480817523, "train/extr_reward_mag": 162.23388528823853, "train/extr_reward_max": 162.23388528823853, "train/extr_reward_mean": 0.8337267790521894, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.120702293940953, "train/image_loss_mean": 2.4771343946456907, "train/image_loss_std": 1.9710065126419067, "train/model_loss_mean": 4.938718591417585, "train/model_loss_std": 5.196289566584996, "train/model_opt_grad_norm": 15.77082620348249, "train/model_opt_grad_steps": 38125.0, "train/model_opt_loss": 4.938718591417585, "train/policy_entropy_mag": 2.138638639450073, "train/policy_entropy_max": 2.138638639450073, "train/policy_entropy_mean": 1.1530489163739341, "train/policy_entropy_min": 0.0779558926820755, "train/policy_entropy_std": 0.5143356889486312, "train/policy_logprob_mag": 6.747468301228115, "train/policy_logprob_max": -0.010257042026413338, "train/policy_logprob_mean": -1.1532304712704249, "train/policy_logprob_min": -6.747468301228115, "train/policy_logprob_std": 1.0950488942010062, "train/policy_randomness_mag": 0.9733363824231284, "train/policy_randomness_max": 0.9733363824231284, "train/policy_randomness_mean": 0.524775162764958, "train/policy_randomness_min": 0.03547925549958433, "train/policy_randomness_std": 0.23408425939934593, "train/post_ent_mag": 51.969118281773156, "train/post_ent_max": 51.969118281773156, "train/post_ent_mean": 38.180366843087334, "train/post_ent_min": 24.791548674447196, "train/post_ent_std": 4.206694207872663, "train/prior_ent_mag": 72.98995862688336, "train/prior_ent_max": 72.98995862688336, "train/prior_ent_mean": 42.28291364397322, "train/prior_ent_min": 29.688457952226912, "train/prior_ent_std": 6.654373632158552, "train/rep_loss_mean": 4.002352469308036, "train/rep_loss_std": 6.007462739944458, "train/reward_avg": 1.1075613839285714, "train/reward_loss_mean": 0.059678515472582405, "train/reward_loss_std": 0.2509476431778499, "train/reward_max_data": 167.42857142857142, "train/reward_max_pred": 127.36211091450282, "train/reward_neg_acc": 0.9757167058331626, "train/reward_neg_loss": 0.006731058833455401, "train/reward_pos_acc": 0.9920912376471929, "train/reward_pos_loss": 0.6710899080548968, "train/reward_pred": 0.9660412383931024, "train/reward_rate": 0.07977120535714285, "train_stats/mean_log_entropy": 0.9386482834815979, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.8028020349447615e-05, "report/cont_loss_std": 0.00026915784110315144, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0010981176747009158, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6972213416011073e-05, "report/cont_pred": 0.9990075826644897, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.00016975402832, "report/dyn_loss_std": 6.0151262283325195, "report/image_loss_mean": 2.8215384483337402, "report/image_loss_std": 1.8089938163757324, "report/model_loss_mean": 5.259276866912842, "report/model_loss_std": 5.054553031921387, "report/post_ent_mag": 52.98879623413086, "report/post_ent_max": 52.98879623413086, "report/post_ent_mean": 38.164642333984375, "report/post_ent_min": 24.750349044799805, "report/post_ent_std": 4.1223835945129395, "report/prior_ent_mag": 73.34722900390625, "report/prior_ent_max": 73.34722900390625, "report/prior_ent_mean": 42.46331787109375, "report/prior_ent_min": 29.904865264892578, "report/prior_ent_std": 6.420801639556885, "report/rep_loss_mean": 4.00016975402832, "report/rep_loss_std": 6.0151262283325195, "report/reward_avg": 0.576171875, "report/reward_loss_mean": 0.03761892765760422, "report/reward_loss_std": 0.15869306027889252, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.82376480102539, "report/reward_neg_acc": 0.9783282279968262, "report/reward_neg_loss": 0.004846940748393536, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6150017380714417, "report/reward_pred": 0.5429049134254456, "report/reward_rate": 0.0537109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.018742023035883904, "eval/cont_loss_std": 0.49282902479171753, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.59587574005127, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.859447492819527e-08, "eval/cont_pred": 0.9999801516532898, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.888202667236328, "eval/dyn_loss_std": 11.688606262207031, "eval/image_loss_mean": 6.5849432945251465, "eval/image_loss_std": 5.274171829223633, "eval/model_loss_mean": 15.109918594360352, "eval/model_loss_std": 12.355508804321289, "eval/post_ent_mag": 51.28067398071289, "eval/post_ent_max": 51.28067398071289, "eval/post_ent_mean": 35.1711540222168, "eval/post_ent_min": 23.803943634033203, "eval/post_ent_std": 4.386104583740234, "eval/prior_ent_mag": 73.34722900390625, "eval/prior_ent_max": 73.34722900390625, "eval/prior_ent_mean": 38.626976013183594, "eval/prior_ent_min": 28.333396911621094, "eval/prior_ent_std": 6.522343635559082, "eval/rep_loss_mean": 12.888202667236328, "eval/rep_loss_std": 11.688606262207031, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7733123898506165, "eval/reward_loss_std": 3.185526132583618, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00165843963623, "eval/reward_neg_acc": 0.9214063882827759, "eval/reward_neg_loss": 0.1495044082403183, "eval/reward_pos_acc": 0.19298246502876282, "eval/reward_pos_loss": 11.356160163879395, "eval/reward_pred": 0.35801610350608826, "eval/reward_rate": 0.0556640625, "replay/size": 39514.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.42045658470219e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2479404098967202e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3560056686401367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2301778793335, "timer/env.step_count": 702.0, "timer/env.step_total": 2.642819404602051, "timer/env.step_frac": 0.008802644102166956, "timer/env.step_avg": 0.0037647000065556277, "timer/env.step_min": 0.0021910667419433594, "timer/env.step_max": 0.020760297775268555, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 198.2746500968933, "timer/replay._sample_frac": 0.6604087953362987, "timer/replay._sample_avg": 0.017652657594096628, "timer/replay._sample_min": 0.0005488395690917969, "timer/replay._sample_max": 0.048110246658325195, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.29621744155884, "timer/agent.policy_frac": 0.6604806313682988, "timer/agent.policy_avg": 0.28247324421874476, "timer/agent.policy_min": 0.0030710697174072266, "timer/agent.policy_max": 0.33400774002075195, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.0921926498413086, "timer/dataset_train_frac": 0.00030707322792301726, "timer/dataset_train_avg": 0.0001313285610275051, "timer/dataset_train_min": 8.702278137207031e-05, "timer/dataset_train_max": 0.0002999305725097656, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.06788039207458, "timer/agent.train_frac": 0.32664231518887943, "timer/agent.train_avg": 0.13969783531634555, "timer/agent.train_min": 0.10058975219726562, "timer/agent.train_max": 0.44873571395874023, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49693846702575684, "timer/agent.report_frac": 0.0016551915951150088, "timer/agent.report_avg": 0.24846923351287842, "timer/agent.report_min": 0.10264086723327637, "timer/agent.report_max": 0.39429759979248047, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010752677917480469, "timer/dataset_eval_frac": 3.581478049086096e-07, "timer/dataset_eval_avg": 0.00010752677917480469, "timer/dataset_eval_min": 0.00010752677917480469, "timer/dataset_eval_max": 0.00010752677917480469, "fps": 9.352458571515248}
+{"step": 159364, "episode/length": 949.0, "episode/score": 1070.0, "episode/reward_rate": 0.08}
+{"step": 161076, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.611016757246377, "train/action_min": 0.0, "train/action_std": 2.9731609164804653, "train/actor_opt_grad_norm": 0.010585340219077425, "train/actor_opt_grad_steps": 38820.0, "train/actor_opt_loss": 0.0034562850489527445, "train/adv_mag": 0.745042319746985, "train/adv_max": 0.7137651158415753, "train/adv_mean": 0.004560223806288706, "train/adv_min": -0.5593623043834299, "train/adv_std": 0.04882572791066723, "train/cont_avg": 0.9982733242753623, "train/cont_loss_mean": 0.00032472486245677356, "train/cont_loss_std": 0.008378786839949644, "train/cont_neg_acc": 0.9473684210526315, "train/cont_neg_loss": 0.13133861100549551, "train/cont_pos_acc": 0.9999574232792509, "train/cont_pos_loss": 0.00014012486948570478, "train/cont_pred": 0.9982593491457511, "train/cont_rate": 0.9982733242753623, "train/dyn_loss_mean": 3.9778506548508354, "train/dyn_loss_std": 6.05247201781342, "train/extr_critic_critic_opt_grad_norm": 1.9821224281753318, "train/extr_critic_critic_opt_grad_steps": 38820.0, "train/extr_critic_critic_opt_loss": 1.4895182554272637, "train/extr_critic_mag": 333.6158509185349, "train/extr_critic_max": 333.6158509185349, "train/extr_critic_mean": 119.64912093895069, "train/extr_critic_min": 0.24549020027768784, "train/extr_critic_std": 79.39468118418817, "train/extr_return_normed_mag": 1.3792925554773081, "train/extr_return_normed_max": 1.3792925554773081, "train/extr_return_normed_mean": 0.44192934079446655, "train/extr_return_normed_min": -0.014494344875540422, "train/extr_return_normed_std": 0.3064720978339513, "train/extr_return_rate": 0.9283562138460685, "train/extr_return_raw_mag": 368.48054261138475, "train/extr_return_raw_max": 368.48054261138475, "train/extr_return_raw_mean": 120.8535451474397, "train/extr_return_raw_min": 0.2986992112212423, "train/extr_return_raw_std": 80.95397374249887, "train/extr_reward_mag": 147.73192864570063, "train/extr_reward_max": 147.73192864570063, "train/extr_reward_mean": 0.7502448718616928, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.534628944120545, "train/image_loss_mean": 2.4155841979427612, "train/image_loss_std": 1.9805652317793474, "train/model_loss_mean": 4.855274832766989, "train/model_loss_std": 5.2272781012714775, "train/model_opt_grad_norm": 16.024574929389402, "train/model_opt_grad_steps": 38820.0, "train/model_opt_loss": 4.855274832766989, "train/policy_entropy_mag": 2.138041454812755, "train/policy_entropy_max": 2.138041454812755, "train/policy_entropy_mean": 1.1609026409577632, "train/policy_entropy_min": 0.07755615940128548, "train/policy_entropy_std": 0.5205241251682889, "train/policy_logprob_mag": 6.7610519865284795, "train/policy_logprob_max": -0.010193467707089756, "train/policy_logprob_mean": -1.1614179412523906, "train/policy_logprob_min": -6.7610519865284795, "train/policy_logprob_std": 1.092648792957914, "train/policy_randomness_mag": 0.973064591055331, "train/policy_randomness_max": 0.973064591055331, "train/policy_randomness_mean": 0.528349556784699, "train/policy_randomness_min": 0.03529732901117076, "train/policy_randomness_std": 0.236900737968044, "train/post_ent_mag": 52.502340399700664, "train/post_ent_max": 52.502340399700664, "train/post_ent_mean": 38.30526744455531, "train/post_ent_min": 24.428477024686508, "train/post_ent_std": 4.271205497824627, "train/prior_ent_mag": 73.19630089359006, "train/prior_ent_max": 73.19630089359006, "train/prior_ent_mean": 42.362892372020774, "train/prior_ent_min": 29.395521855008774, "train/prior_ent_std": 6.718774726425392, "train/rep_loss_mean": 3.9778506548508354, "train/rep_loss_std": 6.05247201781342, "train/reward_avg": 1.0122282608695652, "train/reward_loss_mean": 0.05265553867903309, "train/reward_loss_std": 0.21166708201601886, "train/reward_max_data": 171.8840579710145, "train/reward_max_pred": 133.40501651211062, "train/reward_neg_acc": 0.9761869043543718, "train/reward_neg_loss": 0.0061209344362462125, "train/reward_pos_acc": 0.9946564505065697, "train/reward_pos_loss": 0.6401327140089395, "train/reward_pred": 0.8918675594571708, "train/reward_rate": 0.07341202445652174, "train_stats/mean_log_entropy": 0.9465007781982422, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0006736136856488883, "report/cont_loss_std": 0.021122852340340614, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.33813953399658203, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3210745237302035e-05, "report/cont_pred": 0.9985137581825256, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.9841973781585693, "report/dyn_loss_std": 5.919467926025391, "report/image_loss_mean": 2.3676254749298096, "report/image_loss_std": 1.54608154296875, "report/model_loss_mean": 4.808906555175781, "report/model_loss_std": 4.717804431915283, "report/post_ent_mag": 53.516632080078125, "report/post_ent_max": 53.516632080078125, "report/post_ent_mean": 38.699554443359375, "report/post_ent_min": 23.62092399597168, "report/post_ent_std": 4.177006244659424, "report/prior_ent_mag": 73.47821807861328, "report/prior_ent_max": 73.47821807861328, "report/prior_ent_mean": 43.03492736816406, "report/prior_ent_min": 29.086994171142578, "report/prior_ent_std": 6.4225335121154785, "report/rep_loss_mean": 3.9841973781585693, "report/rep_loss_std": 5.919467926025391, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.050089046359062195, "report/reward_loss_std": 0.20414917171001434, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.98222732543945, "report/reward_neg_acc": 0.9769149422645569, "report/reward_neg_loss": 0.007887117564678192, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6165459156036377, "report/reward_pred": 0.7575752139091492, "report/reward_rate": 0.0693359375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012967581860721111, "eval/cont_loss_std": 0.41026827692985535, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.570771217346191, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0001343076874036342, "eval/cont_pred": 0.998898983001709, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 15.855376243591309, "eval/dyn_loss_std": 12.294087409973145, "eval/image_loss_mean": 8.198872566223145, "eval/image_loss_std": 5.283870220184326, "eval/model_loss_mean": 18.31538963317871, "eval/model_loss_std": 12.615135192871094, "eval/post_ent_mag": 52.341957092285156, "eval/post_ent_max": 52.341957092285156, "eval/post_ent_mean": 36.955772399902344, "eval/post_ent_min": 22.568675994873047, "eval/post_ent_std": 4.399993419647217, "eval/prior_ent_mag": 73.47821807861328, "eval/prior_ent_max": 73.47821807861328, "eval/prior_ent_mean": 40.353851318359375, "eval/prior_ent_min": 30.146921157836914, "eval/prior_ent_std": 6.155534744262695, "eval/rep_loss_mean": 15.855376243591309, "eval/rep_loss_std": 12.294087409973145, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.5903241038322449, "eval/reward_loss_std": 2.7178518772125244, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.954806327819824, "eval/reward_neg_acc": 0.9423275589942932, "eval/reward_neg_loss": 0.05379202589392662, "eval/reward_pos_acc": 0.16981132328510284, "eval/reward_pos_loss": 10.419998168945312, "eval/reward_pred": 0.17393580079078674, "eval/reward_rate": 0.0517578125, "replay/size": 40206.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 5.083966117373781e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1255544734138973e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.5367431640625e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.22502636909485, "timer/env.step_count": 692.0, "timer/env.step_total": 2.4767749309539795, "timer/env.step_frac": 0.008249728415075722, "timer/env.step_avg": 0.0035791545244999706, "timer/env.step_min": 0.0020906925201416016, "timer/env.step_max": 0.017696857452392578, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 204.69243121147156, "timer/replay._sample_frac": 0.6817966965879251, "timer/replay._sample_avg": 0.018487394437452273, "timer/replay._sample_min": 0.0005583763122558594, "timer/replay._sample_max": 0.04991507530212402, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.20498299598693848, "timer/agent.save_frac": 0.0006827645198869384, "timer/agent.save_avg": 0.20498299598693848, "timer/agent.save_min": 0.20498299598693848, "timer/agent.save_max": 0.20498299598693848, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 197.95180916786194, "timer/agent.policy_frac": 0.6593447973404495, "timer/agent.policy_avg": 0.28605752769922244, "timer/agent.policy_min": 0.0029685497283935547, "timer/agent.policy_max": 0.39633703231811523, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.09482717514038086, "timer/dataset_train_frac": 0.0003158536657893433, "timer/dataset_train_avg": 0.00013703349008725558, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0022077560424804688, "timer/agent.train_count": 692.0, "timer/agent.train_total": 98.44315791130066, "timer/agent.train_frac": 0.3278979074525094, "timer/agent.train_avg": 0.1422588987157524, "timer/agent.train_min": 0.1037600040435791, "timer/agent.train_max": 0.6302313804626465, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5003821849822998, "timer/agent.report_frac": 0.0016666904522714004, "timer/agent.report_avg": 0.2501910924911499, "timer/agent.report_min": 0.09862947463989258, "timer/agent.report_max": 0.4017527103424072, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.8623809814453125e-05, "timer/dataset_eval_frac": 1.2864953425624566e-07, "timer/dataset_eval_avg": 3.8623809814453125e-05, "timer/dataset_eval_min": 3.8623809814453125e-05, "timer/dataset_eval_max": 3.8623809814453125e-05, "fps": 9.2195154584213}
+{"step": 162308, "episode/length": 735.0, "episode/score": 1010.0, "episode/reward_rate": 0.09918478260869565}
+{"step": 163848, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.543727329799107, "train/action_min": 0.0, "train/action_std": 3.0485672167369295, "train/actor_opt_grad_norm": 0.011023101077548095, "train/actor_opt_grad_steps": 39515.0, "train/actor_opt_loss": 0.003020201489866687, "train/adv_mag": 0.8319903173616954, "train/adv_max": 0.8147915205785207, "train/adv_mean": 0.004720860036052597, "train/adv_min": -0.556702999983515, "train/adv_std": 0.05179494374564716, "train/cont_avg": 0.9985630580357143, "train/cont_loss_mean": 0.00042153531682553234, "train/cont_loss_std": 0.011748721432335733, "train/cont_neg_acc": 0.9621212124824524, "train/cont_neg_loss": 0.1620916975144279, "train/cont_pos_acc": 0.9999580221516745, "train/cont_pos_loss": 0.00015748582284155687, "train/cont_pred": 0.9985617305551256, "train/cont_rate": 0.9985630580357143, "train/dyn_loss_mean": 3.880758384295872, "train/dyn_loss_std": 6.004914426803589, "train/extr_critic_critic_opt_grad_norm": 2.0128398895263673, "train/extr_critic_critic_opt_grad_steps": 39515.0, "train/extr_critic_critic_opt_loss": 1.5281289781842913, "train/extr_critic_mag": 340.71079014369417, "train/extr_critic_max": 340.71079014369417, "train/extr_critic_mean": 119.16552788870675, "train/extr_critic_min": 0.025527450016566686, "train/extr_critic_std": 81.49568132672991, "train/extr_return_normed_mag": 1.4479038442884173, "train/extr_return_normed_max": 1.4479038442884173, "train/extr_return_normed_mean": 0.4336535909346172, "train/extr_return_normed_min": -0.014486824508224215, "train/extr_return_normed_std": 0.30981914826801843, "train/extr_return_rate": 0.9231873622962407, "train/extr_return_raw_mag": 393.05552455357144, "train/extr_return_raw_max": 393.05552455357144, "train/extr_return_raw_mean": 120.43495766775949, "train/extr_return_raw_min": 0.011339953631561782, "train/extr_return_raw_std": 83.2591686793736, "train/extr_reward_mag": 159.428578717368, "train/extr_reward_max": 159.428578717368, "train/extr_reward_mean": 0.8089793341500419, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.059179302624294, "train/image_loss_mean": 2.3695271951811656, "train/image_loss_std": 1.894573542049953, "train/model_loss_mean": 4.7539788348334175, "train/model_loss_std": 5.12414093698774, "train/model_opt_grad_norm": 15.480484131404332, "train/model_opt_grad_steps": 39515.0, "train/model_opt_loss": 4.7539788348334175, "train/policy_entropy_mag": 2.141483657700675, "train/policy_entropy_max": 2.141483657700675, "train/policy_entropy_mean": 1.1611977159976958, "train/policy_entropy_min": 0.0773918445621218, "train/policy_entropy_std": 0.5367881481136595, "train/policy_logprob_mag": 6.758392538343157, "train/policy_logprob_max": -0.010166915798825877, "train/policy_logprob_mean": -1.1594891905784608, "train/policy_logprob_min": -6.758392538343157, "train/policy_logprob_std": 1.0969331417764936, "train/policy_randomness_mag": 0.9746312073298863, "train/policy_randomness_max": 0.9746312073298863, "train/policy_randomness_mean": 0.5284838506153652, "train/policy_randomness_min": 0.03522254606442792, "train/policy_randomness_std": 0.24430281392165593, "train/post_ent_mag": 52.810670035226, "train/post_ent_max": 52.810670035226, "train/post_ent_mean": 38.084061540876114, "train/post_ent_min": 24.74318207332066, "train/post_ent_std": 4.194103411265782, "train/prior_ent_mag": 73.44348972865514, "train/prior_ent_max": 73.44348972865514, "train/prior_ent_mean": 42.05086244855608, "train/prior_ent_min": 29.207974079677037, "train/prior_ent_std": 6.628066832678659, "train/rep_loss_mean": 3.880758384295872, "train/rep_loss_std": 6.004914426803589, "train/reward_avg": 1.0213448660714286, "train/reward_loss_mean": 0.05557509958744049, "train/reward_loss_std": 0.2251813561788627, "train/reward_max_data": 165.42857142857142, "train/reward_max_pred": 127.35026538031441, "train/reward_neg_acc": 0.975791164806911, "train/reward_neg_loss": 0.006809161219280213, "train/reward_pos_acc": 0.9945445810045515, "train/reward_pos_loss": 0.6512864981378828, "train/reward_pred": 0.913544825570924, "train/reward_rate": 0.07666015625, "train_stats/mean_log_entropy": 1.0131614208221436, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 8.742700629227329e-06, "report/cont_loss_std": 0.00022576759511139244, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0071463193744421005, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7655963802098995e-06, "report/cont_pred": 0.9990286231040955, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.7896904945373535, "report/dyn_loss_std": 5.853145122528076, "report/image_loss_mean": 2.040050745010376, "report/image_loss_std": 1.5554659366607666, "report/model_loss_mean": 4.4417924880981445, "report/model_loss_std": 4.860490322113037, "report/post_ent_mag": 52.71653747558594, "report/post_ent_max": 52.71653747558594, "report/post_ent_mean": 38.2469482421875, "report/post_ent_min": 25.84035873413086, "report/post_ent_std": 4.183279514312744, "report/prior_ent_mag": 73.8209228515625, "report/prior_ent_max": 73.8209228515625, "report/prior_ent_mean": 42.350440979003906, "report/prior_ent_min": 30.313892364501953, "report/prior_ent_std": 6.267882823944092, "report/rep_loss_mean": 3.7896904945373535, "report/rep_loss_std": 5.853145122528076, "report/reward_avg": 1.5625, "report/reward_loss_mean": 0.1279185563325882, "report/reward_loss_std": 0.4821656048297882, "report/reward_max_data": 200.0, "report/reward_max_pred": 49.3918571472168, "report/reward_neg_acc": 0.9463686943054199, "report/reward_neg_loss": 0.022365804761648178, "report/reward_pos_acc": 0.9767441749572754, "report/reward_pos_loss": 0.8602418303489685, "report/reward_pred": 1.2358336448669434, "report/reward_rate": 0.1259765625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013016526587307453, "eval/cont_loss_std": 0.4110773801803589, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.160019874572754, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00016510589921381325, "eval/cont_pred": 0.9998478293418884, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.773826599121094, "eval/dyn_loss_std": 9.912482261657715, "eval/image_loss_mean": 5.815330505371094, "eval/image_loss_std": 4.535403251647949, "eval/model_loss_mean": 13.603155136108398, "eval/model_loss_std": 10.268134117126465, "eval/post_ent_mag": 53.06282424926758, "eval/post_ent_max": 53.06282424926758, "eval/post_ent_mean": 35.557044982910156, "eval/post_ent_min": 25.56587028503418, "eval/post_ent_std": 3.677302360534668, "eval/prior_ent_mag": 73.8209228515625, "eval/prior_ent_max": 73.8209228515625, "eval/prior_ent_mean": 39.99793243408203, "eval/prior_ent_min": 31.068939208984375, "eval/prior_ent_std": 6.125049591064453, "eval/rep_loss_mean": 11.773826599121094, "eval/rep_loss_std": 9.912482261657715, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.7105110883712769, "eval/reward_loss_std": 3.1224162578582764, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.997237205505371, "eval/reward_neg_acc": 0.9025640487670898, "eval/reward_neg_loss": 0.17852787673473358, "eval/reward_pos_acc": 0.2448979616165161, "eval/reward_pos_loss": 11.295891761779785, "eval/reward_pred": 0.4295383095741272, "eval/reward_rate": 0.0478515625, "replay/size": 40899.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.933165953444884e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1070079101628555e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.087784767150879e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9944019317627, "timer/env.step_count": 693.0, "timer/env.step_total": 2.5083272457122803, "timer/env.step_frac": 0.008361246841808832, "timer/env.step_avg": 0.0036195198350826557, "timer/env.step_min": 0.0018229484558105469, "timer/env.step_max": 0.023387908935546875, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 199.96273589134216, "timer/replay._sample_frac": 0.6665548910370204, "timer/replay._sample_avg": 0.018034157277357698, "timer/replay._sample_min": 0.0004813671112060547, "timer/replay._sample_max": 0.06108713150024414, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.04409956932068, "timer/agent.policy_frac": 0.6601593172874212, "timer/agent.policy_avg": 0.2857779214564512, "timer/agent.policy_min": 0.002887248992919922, "timer/agent.policy_max": 0.33489465713500977, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09036922454833984, "timer/dataset_train_frac": 0.00030123636963364203, "timer/dataset_train_avg": 0.00013040292142617581, "timer/dataset_train_min": 7.557868957519531e-05, "timer/dataset_train_max": 0.0016369819641113281, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.16691184043884, "timer/agent.train_frac": 0.3272291456384179, "timer/agent.train_avg": 0.1416549954407487, "timer/agent.train_min": 0.10098409652709961, "timer/agent.train_max": 0.4480705261230469, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5053739547729492, "timer/agent.report_frac": 0.0016846112844729102, "timer/agent.report_avg": 0.2526869773864746, "timer/agent.report_min": 0.10654497146606445, "timer/agent.report_max": 0.39882898330688477, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001468658447265625, "timer/dataset_eval_frac": 4.895619510925703e-07, "timer/dataset_eval_avg": 0.0001468658447265625, "timer/dataset_eval_min": 0.0001468658447265625, "timer/dataset_eval_max": 0.0001468658447265625, "fps": 9.239951652016897}
+{"step": 164744, "episode/length": 608.0, "episode/score": 1250.0, "episode/reward_rate": 0.14614121510673234}
+{"step": 166692, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.369350379621479, "train/action_min": 0.0, "train/action_std": 3.052611508839567, "train/actor_opt_grad_norm": 0.011226968374103308, "train/actor_opt_grad_steps": 40220.0, "train/actor_opt_loss": 0.003986201406059734, "train/adv_mag": 0.7980175068680669, "train/adv_max": 0.7877927447708559, "train/adv_mean": 0.005726615139561981, "train/adv_min": -0.518468632664479, "train/adv_std": 0.0521278628476069, "train/cont_avg": 0.9981431558098591, "train/cont_loss_mean": 0.00047936465255297577, "train/cont_loss_std": 0.011211298730963238, "train/cont_neg_acc": 0.9447089954028054, "train/cont_neg_loss": 0.13144691835745223, "train/cont_pos_acc": 0.9999585437103057, "train/cont_pos_loss": 0.0002158010478330777, "train/cont_pred": 0.9981250099732842, "train/cont_rate": 0.9981431558098591, "train/dyn_loss_mean": 3.8684662899500886, "train/dyn_loss_std": 5.969904227995537, "train/extr_critic_critic_opt_grad_norm": 2.037197683898496, "train/extr_critic_critic_opt_grad_steps": 40220.0, "train/extr_critic_critic_opt_loss": 1.5340524911880493, "train/extr_critic_mag": 342.23537821165274, "train/extr_critic_max": 342.23537821165274, "train/extr_critic_mean": 123.17266759738116, "train/extr_critic_min": 0.03985289620681548, "train/extr_critic_std": 85.4389033787687, "train/extr_return_normed_mag": 1.3981567721971324, "train/extr_return_normed_max": 1.3981567721971324, "train/extr_return_normed_mean": 0.444050434189783, "train/extr_return_normed_min": -0.013950177691352199, "train/extr_return_normed_std": 0.3206994411811023, "train/extr_return_rate": 0.918740880321449, "train/extr_return_raw_mag": 384.6483115612621, "train/extr_return_raw_max": 384.6483115612621, "train/extr_return_raw_mean": 124.73160886092924, "train/extr_return_raw_min": 0.026944654875657927, "train/extr_return_raw_std": 87.33611673704335, "train/extr_reward_mag": 160.76990294120682, "train/extr_reward_max": 160.76990294120682, "train/extr_reward_mean": 0.8062939085591008, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.7614976419529444, "train/image_loss_mean": 2.2963387579985066, "train/image_loss_std": 1.8362929854594485, "train/model_loss_mean": 4.676147920984618, "train/model_loss_std": 5.069646533106415, "train/model_opt_grad_norm": 15.804449041124801, "train/model_opt_grad_steps": 40220.0, "train/model_opt_loss": 4.676147920984618, "train/policy_entropy_mag": 2.1459533026520634, "train/policy_entropy_max": 2.1459533026520634, "train/policy_entropy_mean": 1.1586608273882262, "train/policy_entropy_min": 0.07703324785115014, "train/policy_entropy_std": 0.5379081397828921, "train/policy_logprob_mag": 6.75779382947465, "train/policy_logprob_max": -0.010117202551222183, "train/policy_logprob_mean": -1.1585877353036906, "train/policy_logprob_min": -6.75779382947465, "train/policy_logprob_std": 1.0983161002817288, "train/policy_randomness_mag": 0.9766654338635189, "train/policy_randomness_max": 0.9766654338635189, "train/policy_randomness_mean": 0.5273292635528135, "train/policy_randomness_min": 0.03505934176730438, "train/policy_randomness_std": 0.24481254543217135, "train/post_ent_mag": 53.0780009954748, "train/post_ent_max": 53.0780009954748, "train/post_ent_mean": 38.02712459295568, "train/post_ent_min": 24.844647394099706, "train/post_ent_std": 4.143768800816066, "train/prior_ent_mag": 73.52125323658258, "train/prior_ent_max": 73.52125323658258, "train/prior_ent_mean": 42.02147019077355, "train/prior_ent_min": 29.4706518683635, "train/prior_ent_std": 6.6020953688823, "train/rep_loss_mean": 3.8684662899500886, "train/rep_loss_std": 5.969904227995537, "train/reward_avg": 1.0511113556338028, "train/reward_loss_mean": 0.058249978610957175, "train/reward_loss_std": 0.2333111552075601, "train/reward_max_data": 166.4788732394366, "train/reward_max_pred": 132.22262402655375, "train/reward_neg_acc": 0.9728203625746177, "train/reward_neg_loss": 0.007328955418902489, "train/reward_pos_acc": 0.9945007487082146, "train/reward_pos_loss": 0.658703562239526, "train/reward_pred": 0.9400743632249429, "train/reward_rate": 0.07857889524647887, "train_stats/mean_log_entropy": 0.9367265701293945, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 7.388564699795097e-05, "report/cont_loss_std": 0.001911721657961607, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0023117843084037304, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.950618990231305e-05, "report/cont_pred": 0.9979838132858276, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.253591775894165, "report/dyn_loss_std": 5.658381462097168, "report/image_loss_mean": 1.9120832681655884, "report/image_loss_std": 1.3076177835464478, "report/model_loss_mean": 3.9236769676208496, "report/model_loss_std": 4.340666770935059, "report/post_ent_mag": 54.399723052978516, "report/post_ent_max": 54.399723052978516, "report/post_ent_mean": 38.29684066772461, "report/post_ent_min": 25.794342041015625, "report/post_ent_std": 3.8777201175689697, "report/prior_ent_mag": 73.3785400390625, "report/prior_ent_max": 73.3785400390625, "report/prior_ent_mean": 41.798980712890625, "report/prior_ent_min": 31.623531341552734, "report/prior_ent_std": 6.04231071472168, "report/rep_loss_mean": 3.253591775894165, "report/rep_loss_std": 5.658381462097168, "report/reward_avg": 1.103515625, "report/reward_loss_mean": 0.05936452001333237, "report/reward_loss_std": 0.18046140670776367, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.62617874145508, "report/reward_neg_acc": 0.9804983735084534, "report/reward_neg_loss": 0.00409617368131876, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5644406676292419, "report/reward_pred": 1.0628130435943604, "report/reward_rate": 0.0986328125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0209345780313015, "eval/cont_loss_std": 0.5424875617027283, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.717114448547363, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.720274324019556e-06, "eval/cont_pred": 0.9999885559082031, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.999734878540039, "eval/dyn_loss_std": 9.71918773651123, "eval/image_loss_mean": 7.384434223175049, "eval/image_loss_std": 4.050423622131348, "eval/model_loss_mean": 16.558284759521484, "eval/model_loss_std": 9.538000106811523, "eval/post_ent_mag": 53.23508071899414, "eval/post_ent_max": 53.23508071899414, "eval/post_ent_mean": 36.87535858154297, "eval/post_ent_min": 23.35776138305664, "eval/post_ent_std": 3.947657585144043, "eval/prior_ent_mag": 73.3785400390625, "eval/prior_ent_max": 73.3785400390625, "eval/prior_ent_mean": 40.2448844909668, "eval/prior_ent_min": 28.063364028930664, "eval/prior_ent_std": 5.842505931854248, "eval/rep_loss_mean": 13.999734878540039, "eval/rep_loss_std": 9.71918773651123, "eval/reward_avg": 0.5859375, "eval/reward_loss_mean": 0.7530768513679504, "eval/reward_loss_std": 3.0597023963928223, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998000144958496, "eval/reward_neg_acc": 0.9263485670089722, "eval/reward_neg_loss": 0.12869949638843536, "eval/reward_pos_acc": 0.21666668355464935, "eval/reward_pos_loss": 10.78473949432373, "eval/reward_pred": 0.33337634801864624, "eval/reward_rate": 0.05859375, "replay/size": 41610.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.746524880539348e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4151073206326126e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.04282689094543, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8348357677459717, "timer/env.step_frac": 0.009448103782785417, "timer/env.step_avg": 0.003987110784452843, "timer/env.step_min": 0.0023512840270996094, "timer/env.step_max": 0.017785310745239258, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 189.77152347564697, "timer/replay._sample_frac": 0.6324814542046091, "timer/replay._sample_avg": 0.01668174432802804, "timer/replay._sample_min": 0.0008761882781982422, "timer/replay._sample_max": 0.04993391036987305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.31214308738708, "timer/agent.policy_frac": 0.6609461227328933, "timer/agent.policy_avg": 0.2789200324717118, "timer/agent.policy_min": 0.0029790401458740234, "timer/agent.policy_max": 0.3311338424682617, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09518623352050781, "timer/dataset_train_frac": 0.0003172421567508578, "timer/dataset_train_avg": 0.00013387655910057357, "timer/dataset_train_min": 8.249282836914062e-05, "timer/dataset_train_max": 0.0003604888916015625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.75829410552979, "timer/agent.train_frac": 0.32581446828276067, "timer/agent.train_avg": 0.1374940845366101, "timer/agent.train_min": 0.09962773323059082, "timer/agent.train_max": 0.4344642162322998, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5007243156433105, "timer/agent.report_frac": 0.0016688428143136562, "timer/agent.report_avg": 0.2503621578216553, "timer/agent.report_min": 0.10191631317138672, "timer/agent.report_max": 0.39880800247192383, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.915496826171875e-05, "timer/dataset_eval_frac": 2.638122333465705e-07, "timer/dataset_eval_avg": 7.915496826171875e-05, "timer/dataset_eval_min": 7.915496826171875e-05, "timer/dataset_eval_max": 7.915496826171875e-05, "fps": 9.478325059853388}
+{"step": 167620, "episode/length": 718.0, "episode/score": 1290.0, "episode/reward_rate": 0.11404728789986092}
+{"step": 169496, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.448726109095982, "train/action_min": 0.0, "train/action_std": 3.0473026718412126, "train/actor_opt_grad_norm": 0.010804070299491287, "train/actor_opt_grad_steps": 40925.0, "train/actor_opt_loss": 0.0032778435079048253, "train/adv_mag": 0.8697601765394211, "train/adv_max": 0.847578649009977, "train/adv_mean": 0.005227401507519451, "train/adv_min": -0.5533889212778637, "train/adv_std": 0.0520582736070667, "train/cont_avg": 0.9985630580357143, "train/cont_loss_mean": 0.0004800004844655957, "train/cont_loss_std": 0.013522014874984072, "train/cont_neg_acc": 0.9166666673762458, "train/cont_neg_loss": 0.21490589367384214, "train/cont_pos_acc": 0.9999301186629704, "train/cont_pos_loss": 0.00018831612596983404, "train/cont_pred": 0.9985623964241572, "train/cont_rate": 0.9985630580357143, "train/dyn_loss_mean": 3.8783137900488716, "train/dyn_loss_std": 6.008865553992135, "train/extr_critic_critic_opt_grad_norm": 2.0169002328600203, "train/extr_critic_critic_opt_grad_steps": 40925.0, "train/extr_critic_critic_opt_loss": 1.5273347241537911, "train/extr_critic_mag": 343.644229561942, "train/extr_critic_max": 343.644229561942, "train/extr_critic_mean": 125.81885822841099, "train/extr_critic_min": 0.44048186370304654, "train/extr_critic_std": 85.66662428719657, "train/extr_return_normed_mag": 1.4412091536181313, "train/extr_return_normed_max": 1.4412091536181313, "train/extr_return_normed_mean": 0.4443829996245248, "train/extr_return_normed_min": -0.011587440568421568, "train/extr_return_normed_std": 0.3153036428349359, "train/extr_return_rate": 0.9276116558483669, "train/extr_return_raw_mag": 404.3107199532645, "train/extr_return_raw_max": 404.3107199532645, "train/extr_return_raw_mean": 127.27195837838309, "train/extr_return_raw_min": 0.5248662469126949, "train/extr_return_raw_std": 87.63579526628767, "train/extr_reward_mag": 168.82808933258056, "train/extr_reward_max": 168.82808933258056, "train/extr_reward_mean": 0.8086120281900678, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.906595390183585, "train/image_loss_mean": 2.288441160746983, "train/image_loss_std": 1.845280042716435, "train/model_loss_mean": 4.673713432039533, "train/model_loss_std": 5.085564470291137, "train/model_opt_grad_norm": 16.801116507393974, "train/model_opt_grad_steps": 40925.0, "train/model_opt_loss": 4.673713432039533, "train/policy_entropy_mag": 2.1437906537737166, "train/policy_entropy_max": 2.1437906537737166, "train/policy_entropy_mean": 1.1416157049792153, "train/policy_entropy_min": 0.0752868187214647, "train/policy_entropy_std": 0.5576262244156429, "train/policy_logprob_mag": 6.761474439076015, "train/policy_logprob_max": -0.009843560015516622, "train/policy_logprob_mean": -1.1421505911009653, "train/policy_logprob_min": -6.761474439076015, "train/policy_logprob_std": 1.1080051456178939, "train/policy_randomness_mag": 0.9756811669894627, "train/policy_randomness_max": 0.9756811669894627, "train/policy_randomness_mean": 0.5195716883455004, "train/policy_randomness_min": 0.03426450762365545, "train/policy_randomness_std": 0.25378662943840025, "train/post_ent_mag": 53.49239567347935, "train/post_ent_max": 53.49239567347935, "train/post_ent_mean": 38.087534059797015, "train/post_ent_min": 24.720155661446707, "train/post_ent_std": 4.148797559738159, "train/prior_ent_mag": 73.49575958251953, "train/prior_ent_max": 73.49575958251953, "train/prior_ent_mean": 41.99326002938407, "train/prior_ent_min": 29.181067711966378, "train/prior_ent_std": 6.5257288932800295, "train/rep_loss_mean": 3.8783137900488716, "train/rep_loss_std": 6.008865553992135, "train/reward_avg": 1.0789620535714286, "train/reward_loss_mean": 0.05780405753425189, "train/reward_loss_std": 0.23198066928556987, "train/reward_max_data": 179.71428571428572, "train/reward_max_pred": 144.09438137326921, "train/reward_neg_acc": 0.9742992622511727, "train/reward_neg_loss": 0.007316241275319563, "train/reward_pos_acc": 0.993897031034742, "train/reward_pos_loss": 0.6522384192262377, "train/reward_pred": 0.9486878399338041, "train/reward_rate": 0.07826450892857142, "train_stats/mean_log_entropy": 1.0843594074249268, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.7811846191762015e-05, "report/cont_loss_std": 0.0003650983562693, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.007513110991567373, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0485063285159413e-05, "report/cont_pred": 0.9990203380584717, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.0952141284942627, "report/dyn_loss_std": 5.764493465423584, "report/image_loss_mean": 2.2027130126953125, "report/image_loss_std": 1.6519300937652588, "report/model_loss_mean": 4.102571487426758, "report/model_loss_std": 4.722121238708496, "report/post_ent_mag": 54.76982116699219, "report/post_ent_max": 54.76982116699219, "report/post_ent_mean": 38.32054138183594, "report/post_ent_min": 25.887256622314453, "report/post_ent_std": 3.7168378829956055, "report/prior_ent_mag": 73.54659271240234, "report/prior_ent_max": 73.54659271240234, "report/prior_ent_mean": 41.25342559814453, "report/prior_ent_min": 27.285377502441406, "report/prior_ent_std": 5.781153202056885, "report/rep_loss_mean": 3.0952141284942627, "report/rep_loss_std": 5.764493465423584, "report/reward_avg": 1.0546875, "report/reward_loss_mean": 0.04271220415830612, "report/reward_loss_std": 0.18944640457630157, "report/reward_max_data": 400.0, "report/reward_max_pred": 369.1029357910156, "report/reward_neg_acc": 0.9895288348197937, "report/reward_neg_loss": 0.002106189262121916, "report/reward_pos_acc": 0.9855072498321533, "report/reward_pos_loss": 0.6047229766845703, "report/reward_pred": 1.0039249658584595, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.005741375032812357, "eval/cont_loss_std": 0.13533847033977509, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.439220666885376, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0015293890610337257, "eval/cont_pred": 0.996922492980957, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 14.196744918823242, "eval/dyn_loss_std": 12.6991548538208, "eval/image_loss_mean": 6.788248062133789, "eval/image_loss_std": 5.135491847991943, "eval/model_loss_mean": 15.937285423278809, "eval/model_loss_std": 12.681581497192383, "eval/post_ent_mag": 54.871307373046875, "eval/post_ent_max": 54.871307373046875, "eval/post_ent_mean": 37.60979080200195, "eval/post_ent_min": 26.229358673095703, "eval/post_ent_std": 4.491351127624512, "eval/prior_ent_mag": 73.54659271240234, "eval/prior_ent_max": 73.54659271240234, "eval/prior_ent_mean": 40.93569564819336, "eval/prior_ent_min": 31.639719009399414, "eval/prior_ent_std": 6.1822686195373535, "eval/rep_loss_mean": 14.196744918823242, "eval/rep_loss_std": 12.6991548538208, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.625248908996582, "eval/reward_loss_std": 2.784027099609375, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998739242553711, "eval/reward_neg_acc": 0.9217302203178406, "eval/reward_neg_loss": 0.09083762019872665, "eval/reward_pos_acc": 0.24528302252292633, "eval/reward_pos_loss": 10.416068077087402, "eval/reward_pred": 0.2617131173610687, "eval/reward_rate": 0.0517578125, "replay/size": 42311.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.2367059378413096e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2747826487803765e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.238719940185547e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1510410308838, "timer/env.step_count": 701.0, "timer/env.step_total": 2.6834425926208496, "timer/env.step_frac": 0.008940307464549954, "timer/env.step_avg": 0.0038280208168628383, "timer/env.step_min": 0.0022716522216796875, "timer/env.step_max": 0.023645877838134766, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 203.81899333000183, "timer/replay._sample_frac": 0.6790547606630825, "timer/replay._sample_avg": 0.01817216416993597, "timer/replay._sample_min": 0.0005354881286621094, "timer/replay._sample_max": 0.0478823184967041, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10313677787780762, "timer/agent.save_frac": 0.00034361625907935946, "timer/agent.save_avg": 0.10313677787780762, "timer/agent.save_min": 0.10313677787780762, "timer/agent.save_max": 0.10313677787780762, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.13470649719238, "timer/agent.policy_frac": 0.6601166726481734, "timer/agent.policy_avg": 0.2826458009945683, "timer/agent.policy_min": 0.0028955936431884766, "timer/agent.policy_max": 0.3351762294769287, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09086799621582031, "timer/dataset_train_frac": 0.0003027408997274493, "timer/dataset_train_avg": 0.0001296262428185739, "timer/dataset_train_min": 7.915496826171875e-05, "timer/dataset_train_max": 0.00032591819763183594, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.04983425140381, "timer/agent.train_frac": 0.32666831310878264, "timer/agent.train_avg": 0.13987137553695264, "timer/agent.train_min": 0.10045003890991211, "timer/agent.train_max": 0.45959949493408203, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5221831798553467, "timer/agent.report_frac": 0.0017397346951117756, "timer/agent.report_avg": 0.26109158992767334, "timer/agent.report_min": 0.11181187629699707, "timer/agent.report_max": 0.4103713035583496, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.5789947509765625e-05, "timer/dataset_eval_frac": 1.8587291024596236e-07, "timer/dataset_eval_avg": 5.5789947509765625e-05, "timer/dataset_eval_min": 5.5789947509765625e-05, "timer/dataset_eval_max": 5.5789947509765625e-05, "fps": 9.3417389410099}
+{"step": 170224, "episode/length": 650.0, "episode/score": 790.0, "episode/reward_rate": 0.09984639016897082}
+{"step": 172272, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.338239144587862, "train/action_min": 0.0, "train/action_std": 3.070410814838133, "train/actor_opt_grad_norm": 0.010409196764500677, "train/actor_opt_grad_steps": 41620.0, "train/actor_opt_loss": 0.0023047978808091907, "train/adv_mag": 0.79533160035161, "train/adv_max": 0.7683033558769502, "train/adv_mean": 0.004193139447032582, "train/adv_min": -0.5457145852455194, "train/adv_std": 0.0498369959709437, "train/cont_avg": 0.9982591711956522, "train/cont_loss_mean": 0.0004978699401242902, "train/cont_loss_std": 0.01346588025552282, "train/cont_neg_acc": 0.9153225816065266, "train/cont_neg_loss": 0.1669451696303851, "train/cont_pos_acc": 0.9999006451040074, "train/cont_pos_loss": 0.00020482127509635788, "train/cont_pred": 0.998274122459301, "train/cont_rate": 0.9982591711956522, "train/dyn_loss_mean": 4.01836493740911, "train/dyn_loss_std": 6.040018447931262, "train/extr_critic_critic_opt_grad_norm": 2.024591644605001, "train/extr_critic_critic_opt_grad_steps": 41620.0, "train/extr_critic_critic_opt_loss": 1.5278442787087483, "train/extr_critic_mag": 346.82838462055594, "train/extr_critic_max": 346.82838462055594, "train/extr_critic_mean": 129.11364524951878, "train/extr_critic_min": 0.34361770533133246, "train/extr_critic_std": 86.65879136237545, "train/extr_return_normed_mag": 1.4137312052906423, "train/extr_return_normed_max": 1.4137312052906423, "train/extr_return_normed_mean": 0.4517676385416501, "train/extr_return_normed_min": -0.01594747990315807, "train/extr_return_normed_std": 0.31742545983929565, "train/extr_return_rate": 0.9298120970311372, "train/extr_return_raw_mag": 398.012719195822, "train/extr_return_raw_max": 398.012719195822, "train/extr_return_raw_mean": 130.28183469910553, "train/extr_return_raw_min": 0.15532086012156113, "train/extr_return_raw_std": 88.31132562609686, "train/extr_reward_mag": 174.94489950373554, "train/extr_reward_max": 174.94489950373554, "train/extr_reward_mean": 0.8090253524158312, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.041632752487625, "train/image_loss_mean": 2.329305132230123, "train/image_loss_std": 1.9714796059373496, "train/model_loss_mean": 4.796888589859009, "train/model_loss_std": 5.210534773011139, "train/model_opt_grad_norm": 15.328888478486434, "train/model_opt_grad_steps": 41620.0, "train/model_opt_loss": 4.796888589859009, "train/policy_entropy_mag": 2.1425291697184243, "train/policy_entropy_max": 2.1425291697184243, "train/policy_entropy_mean": 1.1226196375446043, "train/policy_entropy_min": 0.07507018075473067, "train/policy_entropy_std": 0.5520912469297216, "train/policy_logprob_mag": 6.766751704008683, "train/policy_logprob_max": -0.009816283900020779, "train/policy_logprob_mean": -1.1226666984350786, "train/policy_logprob_min": -6.766751704008683, "train/policy_logprob_std": 1.107640268146128, "train/policy_randomness_mag": 0.9751070409581282, "train/policy_randomness_max": 0.9751070409581282, "train/policy_randomness_mean": 0.5109262125215669, "train/policy_randomness_min": 0.03416591137647629, "train/policy_randomness_std": 0.25126755302367004, "train/post_ent_mag": 54.11400421806004, "train/post_ent_max": 54.11400421806004, "train/post_ent_mean": 38.27794160704682, "train/post_ent_min": 24.915160110031348, "train/post_ent_std": 4.2732647121816445, "train/prior_ent_mag": 73.781808272652, "train/prior_ent_max": 73.781808272652, "train/prior_ent_mean": 42.38009096228558, "train/prior_ent_min": 29.511776937954668, "train/prior_ent_std": 6.72459175966788, "train/rep_loss_mean": 4.01836493740911, "train/rep_loss_std": 6.040018447931262, "train/reward_avg": 1.0954483695652173, "train/reward_loss_mean": 0.05606665381270906, "train/reward_loss_std": 0.22147524702376215, "train/reward_max_data": 187.53623188405797, "train/reward_max_pred": 158.16545632956684, "train/reward_neg_acc": 0.9756490907807281, "train/reward_neg_loss": 0.006718950555322395, "train/reward_pos_acc": 0.9960967302322388, "train/reward_pos_loss": 0.6421084611312203, "train/reward_pred": 0.9712067609247954, "train/reward_rate": 0.07823822463768115, "train_stats/mean_log_entropy": 1.2577524185180664, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00017540196131449193, "report/cont_loss_std": 0.003023633500561118, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0015491887461394072, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00017136536189354956, "report/cont_pred": 0.9969084858894348, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.348412990570068, "report/dyn_loss_std": 6.479474067687988, "report/image_loss_mean": 2.404892921447754, "report/image_loss_std": 2.342419147491455, "report/model_loss_mean": 5.0379838943481445, "report/model_loss_std": 5.806436061859131, "report/post_ent_mag": 55.08899688720703, "report/post_ent_max": 55.08899688720703, "report/post_ent_mean": 38.791133880615234, "report/post_ent_min": 24.19169044494629, "report/post_ent_std": 4.499436378479004, "report/prior_ent_mag": 73.95228576660156, "report/prior_ent_max": 73.95228576660156, "report/prior_ent_mean": 43.294593811035156, "report/prior_ent_min": 30.012420654296875, "report/prior_ent_std": 6.866307735443115, "report/rep_loss_mean": 4.348412990570068, "report/rep_loss_std": 6.479474067687988, "report/reward_avg": 0.302734375, "report/reward_loss_mean": 0.02386770397424698, "report/reward_loss_std": 0.14033876359462738, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.008530616760254, "report/reward_neg_acc": 0.982880175113678, "report/reward_neg_loss": 0.004016026388853788, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6597617268562317, "report/reward_pred": 0.2796744108200073, "report/reward_rate": 0.0302734375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.003900138195604086, "eval/cont_loss_std": 0.12362555414438248, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 3.957825183868408, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.510869646561332e-05, "eval/cont_pred": 0.9999468922615051, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.921531677246094, "eval/dyn_loss_std": 11.178047180175781, "eval/image_loss_mean": 7.724611282348633, "eval/image_loss_std": 4.838313579559326, "eval/model_loss_mean": 17.27957534790039, "eval/model_loss_std": 11.308334350585938, "eval/post_ent_mag": 54.04737854003906, "eval/post_ent_max": 54.04737854003906, "eval/post_ent_mean": 36.299461364746094, "eval/post_ent_min": 25.672950744628906, "eval/post_ent_std": 4.042198181152344, "eval/prior_ent_mag": 73.95228576660156, "eval/prior_ent_max": 73.95228576660156, "eval/prior_ent_mean": 40.68053436279297, "eval/prior_ent_min": 31.65947723388672, "eval/prior_ent_std": 6.03872013092041, "eval/rep_loss_mean": 14.921531677246094, "eval/rep_loss_std": 11.178047180175781, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.5981452465057373, "eval/reward_loss_std": 2.752988576889038, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004677772521973, "eval/reward_neg_acc": 0.905102014541626, "eval/reward_neg_loss": 0.14814232289791107, "eval/reward_pos_acc": 0.27272728085517883, "eval/reward_pos_loss": 10.62093734741211, "eval/reward_pred": 0.3431697487831116, "eval/reward_rate": 0.04296875, "replay/size": 43005.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.700350143036856e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0300266639643512e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3709068298339844e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.13447284698486, "timer/env.step_count": 694.0, "timer/env.step_total": 2.479530096054077, "timer/env.step_frac": 0.008261397208171406, "timer/env.step_avg": 0.0035728099366773448, "timer/env.step_min": 0.002249479293823242, "timer/env.step_max": 0.017969846725463867, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 200.76282000541687, "timer/replay._sample_frac": 0.6689095661056241, "timer/replay._sample_avg": 0.01808022514458005, "timer/replay._sample_min": 0.0005118846893310547, "timer/replay._sample_max": 0.055376529693603516, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.79830169677734, "timer/agent.policy_frac": 0.6623641056991446, "timer/agent.policy_avg": 0.28645288428930454, "timer/agent.policy_min": 0.0028133392333984375, "timer/agent.policy_max": 0.3399505615234375, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08390307426452637, "timer/dataset_train_frac": 0.0002795516072134173, "timer/dataset_train_avg": 0.00012089780153389967, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.0007228851318359375, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.55040669441223, "timer/agent.train_frac": 0.32502233338636033, "timer/agent.train_avg": 0.1405625456691819, "timer/agent.train_min": 0.10203385353088379, "timer/agent.train_max": 0.4427978992462158, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5221588611602783, "timer/agent.report_frac": 0.0017397497068805101, "timer/agent.report_avg": 0.26107943058013916, "timer/agent.report_min": 0.10864853858947754, "timer/agent.report_max": 0.4135103225708008, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.00543212890625e-05, "timer/dataset_eval_frac": 1.3345458423725644e-07, "timer/dataset_eval_avg": 4.00543212890625e-05, "timer/dataset_eval_min": 4.00543212890625e-05, "timer/dataset_eval_max": 4.00543212890625e-05, "fps": 9.248403818039337}
+{"step": 173384, "episode/length": 789.0, "episode/score": 970.0, "episode/reward_rate": 0.08860759493670886}
+{"step": 175048, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.260287911551339, "train/action_min": 0.0, "train/action_std": 3.11959639276777, "train/actor_opt_grad_norm": 0.01068479891068169, "train/actor_opt_grad_steps": 42315.0, "train/actor_opt_loss": 0.0027500810981889246, "train/adv_mag": 0.8536429115704127, "train/adv_max": 0.825381390111787, "train/adv_mean": 0.004742314587513517, "train/adv_min": -0.5937522709369659, "train/adv_std": 0.0515964255801269, "train/cont_avg": 0.9984793526785715, "train/cont_loss_mean": 0.0003476606356764072, "train/cont_loss_std": 0.009200982888955878, "train/cont_neg_acc": 0.9166666670092221, "train/cont_neg_loss": 0.18022390683104317, "train/cont_pos_acc": 0.9999720403126308, "train/cont_pos_loss": 0.00011471718643381986, "train/cont_pred": 0.998511209658214, "train/cont_rate": 0.9984793526785715, "train/dyn_loss_mean": 3.9295282193592618, "train/dyn_loss_std": 6.066932528359549, "train/extr_critic_critic_opt_grad_norm": 2.05344729082925, "train/extr_critic_critic_opt_grad_steps": 42315.0, "train/extr_critic_critic_opt_loss": 1.5363056693758284, "train/extr_critic_mag": 358.9511496407645, "train/extr_critic_max": 358.9511496407645, "train/extr_critic_mean": 132.73424660818918, "train/extr_critic_min": 0.01280726705278669, "train/extr_critic_std": 91.53997562953404, "train/extr_return_normed_mag": 1.4843495726585387, "train/extr_return_normed_max": 1.4843495726585387, "train/extr_return_normed_mean": 0.4570864839213235, "train/extr_return_normed_min": -0.013955427546586309, "train/extr_return_normed_std": 0.3283847280911037, "train/extr_return_rate": 0.9234356880187988, "train/extr_return_raw_mag": 426.51825038364956, "train/extr_return_raw_max": 426.51825038364956, "train/extr_return_raw_mean": 134.0851197378976, "train/extr_return_raw_min": 0.0038607352471444756, "train/extr_return_raw_std": 93.46682608468193, "train/extr_reward_mag": 180.3917377471924, "train/extr_reward_max": 180.3917377471924, "train/extr_reward_mean": 0.8419418569122042, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.097157209260123, "train/image_loss_mean": 2.28675799540111, "train/image_loss_std": 1.881562888622284, "train/model_loss_mean": 4.703474926948547, "train/model_loss_std": 5.164142520087106, "train/model_opt_grad_norm": 15.656151935032435, "train/model_opt_grad_steps": 42315.0, "train/model_opt_loss": 4.703474926948547, "train/policy_entropy_mag": 2.142555843080793, "train/policy_entropy_max": 2.142555843080793, "train/policy_entropy_mean": 1.121841331890651, "train/policy_entropy_min": 0.07482506909540722, "train/policy_entropy_std": 0.5473184287548065, "train/policy_logprob_mag": 6.761934430258615, "train/policy_logprob_max": -0.00976580698043108, "train/policy_logprob_mean": -1.1210300496646337, "train/policy_logprob_min": -6.761934430258615, "train/policy_logprob_std": 1.1039337226322719, "train/policy_randomness_mag": 0.9751191752297538, "train/policy_randomness_max": 0.9751191752297538, "train/policy_randomness_mean": 0.5105719983577728, "train/policy_randomness_min": 0.034054356387683324, "train/policy_randomness_std": 0.24909535007817404, "train/post_ent_mag": 53.92382311139788, "train/post_ent_max": 53.92382311139788, "train/post_ent_mean": 38.08615984235491, "train/post_ent_min": 24.773371287754603, "train/post_ent_std": 4.202405858039856, "train/prior_ent_mag": 73.98557543073382, "train/prior_ent_max": 73.98557543073382, "train/prior_ent_mean": 42.068585641043526, "train/prior_ent_min": 29.392649241856166, "train/prior_ent_std": 6.688109084538051, "train/rep_loss_mean": 3.9295282193592618, "train/rep_loss_std": 6.066932528359549, "train/reward_avg": 1.1155133928571428, "train/reward_loss_mean": 0.058652370635952265, "train/reward_loss_std": 0.23716855815478732, "train/reward_max_data": 197.71428571428572, "train/reward_max_pred": 154.0830287388393, "train/reward_neg_acc": 0.9744651470865522, "train/reward_neg_loss": 0.006977016615149166, "train/reward_pos_acc": 0.9938395849296024, "train/reward_pos_loss": 0.6516114856515612, "train/reward_pred": 0.9875244285379138, "train/reward_rate": 0.08014787946428571, "train_stats/mean_log_entropy": 1.0825328826904297, "report/cont_avg": 1.0, "report/cont_loss_mean": 7.5543930506682955e-06, "report/cont_loss_std": 0.00023483966651838273, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.5543930506682955e-06, "report/cont_pred": 0.9999924898147583, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.116666793823242, "report/dyn_loss_std": 5.517338752746582, "report/image_loss_mean": 1.7695720195770264, "report/image_loss_std": 1.3059450387954712, "report/model_loss_mean": 3.6902883052825928, "report/model_loss_std": 4.268905162811279, "report/post_ent_mag": 51.49078369140625, "report/post_ent_max": 51.49078369140625, "report/post_ent_mean": 38.11395263671875, "report/post_ent_min": 24.95376968383789, "report/post_ent_std": 4.242674827575684, "report/prior_ent_mag": 73.97293090820312, "report/prior_ent_max": 73.97293090820312, "report/prior_ent_mean": 41.0489616394043, "report/prior_ent_min": 30.730365753173828, "report/prior_ent_std": 6.19119930267334, "report/rep_loss_mean": 3.116666793823242, "report/rep_loss_std": 5.517338752746582, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.05070832371711731, "report/reward_loss_std": 0.17830456793308258, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.953487396240234, "report/reward_neg_acc": 0.9756613969802856, "report/reward_neg_loss": 0.005664495285600424, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5895237922668457, "report/reward_pred": 0.8116884231567383, "report/reward_rate": 0.0771484375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.201797072615591e-07, "eval/cont_loss_std": 1.6389683878514916e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.201797072615591e-07, "eval/cont_pred": 0.9999991655349731, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.430627822875977, "eval/dyn_loss_std": 9.242051124572754, "eval/image_loss_mean": 6.5243330001831055, "eval/image_loss_std": 4.084975242614746, "eval/model_loss_mean": 14.271831512451172, "eval/model_loss_std": 9.096770286560059, "eval/post_ent_mag": 49.1136474609375, "eval/post_ent_max": 49.1136474609375, "eval/post_ent_mean": 37.29790115356445, "eval/post_ent_min": 26.605148315429688, "eval/post_ent_std": 4.8200860023498535, "eval/prior_ent_mag": 73.97293090820312, "eval/prior_ent_max": 73.97293090820312, "eval/prior_ent_mean": 40.35206985473633, "eval/prior_ent_min": 31.52132797241211, "eval/prior_ent_std": 5.768669128417969, "eval/rep_loss_mean": 12.430627822875977, "eval/rep_loss_std": 9.242051124572754, "eval/reward_avg": 0.25390625, "eval/reward_loss_mean": 0.2891210913658142, "eval/reward_loss_std": 1.8181889057159424, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007781982421875, "eval/reward_neg_acc": 0.936873733997345, "eval/reward_neg_loss": 0.09920669347047806, "eval/reward_pos_acc": 0.42307692766189575, "eval/reward_pos_loss": 7.578912734985352, "eval/reward_pred": 0.2512361705303192, "eval/reward_rate": 0.025390625, "replay/size": 43699.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.626488479482338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0338056327973732e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.387731552124023e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.17488956451416, "timer/env.step_count": 694.0, "timer/env.step_total": 2.4405677318573, "timer/env.step_frac": 0.008130485982348529, "timer/env.step_avg": 0.003516668201523487, "timer/env.step_min": 0.0022695064544677734, "timer/env.step_max": 0.018623828887939453, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 199.01406407356262, "timer/replay._sample_frac": 0.662993711307055, "timer/replay._sample_avg": 0.01792273631786407, "timer/replay._sample_min": 0.00048279762268066406, "timer/replay._sample_max": 0.05358743667602539, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.64601802825928, "timer/agent.policy_frac": 0.661767605932827, "timer/agent.policy_avg": 0.2862334553721315, "timer/agent.policy_min": 0.002812623977661133, "timer/agent.policy_max": 0.3323826789855957, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08436751365661621, "timer/dataset_train_frac": 0.00028106119662112437, "timer/dataset_train_avg": 0.00012156702255996572, "timer/dataset_train_min": 7.62939453125e-05, "timer/dataset_train_max": 0.0028810501098632812, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.85816407203674, "timer/agent.train_frac": 0.32600383134647537, "timer/agent.train_avg": 0.14100600010379935, "timer/agent.train_min": 0.10146737098693848, "timer/agent.train_max": 0.4479207992553711, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49669528007507324, "timer/agent.report_frac": 0.001654686309023602, "timer/agent.report_avg": 0.24834764003753662, "timer/agent.report_min": 0.10495853424072266, "timer/agent.report_max": 0.3917367458343506, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.076957702636719e-05, "timer/dataset_eval_frac": 1.3581941209511102e-07, "timer/dataset_eval_avg": 4.076957702636719e-05, "timer/dataset_eval_min": 4.076957702636719e-05, "timer/dataset_eval_max": 4.076957702636719e-05, "fps": 9.24765668171779}
+{"step": 175432, "episode/length": 511.0, "episode/score": 490.0, "episode/reward_rate": 0.087890625}
+{"step": 177888, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.126915300396127, "train/action_min": 0.0, "train/action_std": 3.1656069889874527, "train/actor_opt_grad_norm": 0.010449099761079734, "train/actor_opt_grad_steps": 43020.0, "train/actor_opt_loss": 0.003288585143155602, "train/adv_mag": 0.7984999342703484, "train/adv_max": 0.7712367911573866, "train/adv_mean": 0.005091848576188901, "train/adv_min": -0.5326544378005283, "train/adv_std": 0.04944975335728115, "train/cont_avg": 0.9983357174295775, "train/cont_loss_mean": 0.000336047400524399, "train/cont_loss_std": 0.008504635808344254, "train/cont_neg_acc": 0.9486111114422481, "train/cont_neg_loss": 0.1075403397804621, "train/cont_pos_acc": 0.9999586360555299, "train/cont_pos_loss": 0.00012407576897478808, "train/cont_pred": 0.9983544416830573, "train/cont_rate": 0.9983357174295775, "train/dyn_loss_mean": 3.942365804188688, "train/dyn_loss_std": 6.046727133468843, "train/extr_critic_critic_opt_grad_norm": 1.8770674517456913, "train/extr_critic_critic_opt_grad_steps": 43020.0, "train/extr_critic_critic_opt_loss": 1.499398065284944, "train/extr_critic_mag": 354.55077007454884, "train/extr_critic_max": 354.55077007454884, "train/extr_critic_mean": 136.95206290231624, "train/extr_critic_min": 0.10974403166435134, "train/extr_critic_std": 93.46297309768032, "train/extr_return_normed_mag": 1.3873809743934953, "train/extr_return_normed_max": 1.3873809743934953, "train/extr_return_normed_mean": 0.4631964430003099, "train/extr_return_normed_min": -0.013731609636419256, "train/extr_return_normed_std": 0.32871590009037877, "train/extr_return_rate": 0.9245003008506667, "train/extr_return_raw_mag": 406.24916785871477, "train/extr_return_raw_max": 406.24916785871477, "train/extr_return_raw_mean": 138.42867665895275, "train/extr_return_raw_min": 0.1786633958698998, "train/extr_return_raw_std": 95.27791804998694, "train/extr_reward_mag": 153.61011726755493, "train/extr_reward_max": 153.61011726755493, "train/extr_reward_mean": 0.8422571630545066, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.048100693125121, "train/image_loss_mean": 2.287372980319278, "train/image_loss_std": 1.869726342214665, "train/model_loss_mean": 4.711350407398922, "train/model_loss_std": 5.13257253002113, "train/model_opt_grad_norm": 15.172921315045423, "train/model_opt_grad_steps": 43020.0, "train/model_opt_loss": 4.711350407398922, "train/policy_entropy_mag": 2.137946454572006, "train/policy_entropy_max": 2.137946454572006, "train/policy_entropy_mean": 1.1265454367852548, "train/policy_entropy_min": 0.07511151896815904, "train/policy_entropy_std": 0.5502262745105045, "train/policy_logprob_mag": 6.77075036814515, "train/policy_logprob_max": -0.009816947616112064, "train/policy_logprob_mean": -1.1266787522275683, "train/policy_logprob_min": -6.77075036814515, "train/policy_logprob_std": 1.1016717225732937, "train/policy_randomness_mag": 0.9730213603503267, "train/policy_randomness_max": 0.9730213603503267, "train/policy_randomness_mean": 0.5127129172775108, "train/policy_randomness_min": 0.0341847252992677, "train/policy_randomness_std": 0.25041877069103885, "train/post_ent_mag": 54.356790408282215, "train/post_ent_max": 54.356790408282215, "train/post_ent_mean": 38.076331555003854, "train/post_ent_min": 25.03214664190588, "train/post_ent_std": 4.2333809120554315, "train/prior_ent_mag": 73.98503349196743, "train/prior_ent_max": 73.98503349196743, "train/prior_ent_mean": 42.134454754036916, "train/prior_ent_min": 29.799655941170705, "train/prior_ent_std": 6.669549646511884, "train/rep_loss_mean": 3.942365804188688, "train/rep_loss_std": 6.046727133468843, "train/reward_avg": 1.1000770246478873, "train/reward_loss_mean": 0.05822193827217733, "train/reward_loss_std": 0.23226782249313005, "train/reward_max_data": 169.57746478873239, "train/reward_max_pred": 134.20362108526095, "train/reward_neg_acc": 0.976090003906841, "train/reward_neg_loss": 0.006745674065314233, "train/reward_pos_acc": 0.9929668970510993, "train/reward_pos_loss": 0.6571680937014835, "train/reward_pred": 0.9817846610512532, "train/reward_rate": 0.07998184419014084, "train_stats/mean_log_entropy": 1.0739319324493408, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.8351347282296047e-05, "report/cont_loss_std": 0.0005273116985335946, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0009288855362683535, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.747105827438645e-05, "report/cont_pred": 0.9989970326423645, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.36661958694458, "report/dyn_loss_std": 6.259151935577393, "report/image_loss_mean": 2.797109603881836, "report/image_loss_std": 2.031810760498047, "report/model_loss_mean": 5.462650775909424, "report/model_loss_std": 5.391293048858643, "report/post_ent_mag": 54.8110466003418, "report/post_ent_max": 54.8110466003418, "report/post_ent_mean": 38.9268798828125, "report/post_ent_min": 23.578834533691406, "report/post_ent_std": 4.541367530822754, "report/prior_ent_mag": 73.83136749267578, "report/prior_ent_max": 73.83136749267578, "report/prior_ent_mean": 42.947593688964844, "report/prior_ent_min": 28.367799758911133, "report/prior_ent_std": 6.9301886558532715, "report/rep_loss_mean": 4.36661958694458, "report/rep_loss_std": 6.259151935577393, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.0455409474670887, "report/reward_loss_std": 0.17935825884342194, "report/reward_max_data": 200.0, "report/reward_max_pred": 196.81797790527344, "report/reward_neg_acc": 0.9739583730697632, "report/reward_neg_loss": 0.006348143331706524, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6334330439567566, "report/reward_pred": 0.7672067284584045, "report/reward_rate": 0.0625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.01670154742896557, "eval/cont_loss_std": 0.4497467577457428, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.273687839508057, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 7.484954039682634e-06, "eval/cont_pred": 0.9983294010162354, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 13.42770004272461, "eval/dyn_loss_std": 12.513143539428711, "eval/image_loss_mean": 5.930441856384277, "eval/image_loss_std": 4.767659664154053, "eval/model_loss_mean": 14.708185195922852, "eval/model_loss_std": 12.34078598022461, "eval/post_ent_mag": 54.655609130859375, "eval/post_ent_max": 54.655609130859375, "eval/post_ent_mean": 36.41077423095703, "eval/post_ent_min": 26.244293212890625, "eval/post_ent_std": 4.322978973388672, "eval/prior_ent_mag": 73.83136749267578, "eval/prior_ent_max": 73.83136749267578, "eval/prior_ent_mean": 39.50136184692383, "eval/prior_ent_min": 28.72591781616211, "eval/prior_ent_std": 6.831669330596924, "eval/rep_loss_mean": 13.42770004272461, "eval/rep_loss_std": 12.513143539428711, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.7044222354888916, "eval/reward_loss_std": 3.1173412799835205, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.989043235778809, "eval/reward_neg_acc": 0.937242865562439, "eval/reward_neg_loss": 0.08771387487649918, "eval/reward_pos_acc": 0.1538461595773697, "eval/reward_pos_loss": 12.232125282287598, "eval/reward_pred": 0.19968768954277039, "eval/reward_rate": 0.05078125, "replay/size": 44409.0, "replay/inserts": 710.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 5.797601081955601e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3690179502460318e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1597445011139, "timer/env.step_count": 710.0, "timer/env.step_total": 2.836813449859619, "timer/env.step_frac": 0.009451012342026737, "timer/env.step_avg": 0.003995511901210731, "timer/env.step_min": 0.0023224353790283203, "timer/env.step_max": 0.0285489559173584, "timer/replay._sample_count": 11360.0, "timer/replay._sample_total": 184.90189218521118, "timer/replay._sample_frac": 0.616011625717935, "timer/replay._sample_avg": 0.0162765750163038, "timer/replay._sample_min": 0.0007383823394775391, "timer/replay._sample_max": 0.0513150691986084, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.19777894020080566, "timer/agent.save_frac": 0.0006589122752937035, "timer/agent.save_avg": 0.19777894020080566, "timer/agent.save_min": 0.19777894020080566, "timer/agent.save_max": 0.19777894020080566, "timer/agent.policy_count": 710.0, "timer/agent.policy_total": 198.08010363578796, "timer/agent.policy_frac": 0.6599156191480996, "timer/agent.policy_avg": 0.2789860614588563, "timer/agent.policy_min": 0.002955198287963867, "timer/agent.policy_max": 0.37606096267700195, "timer/dataset_train_count": 710.0, "timer/dataset_train_total": 0.09981727600097656, "timer/dataset_train_frac": 0.00033254717805973524, "timer/dataset_train_avg": 0.00014058771267743179, "timer/dataset_train_min": 7.867813110351562e-05, "timer/dataset_train_max": 0.0014951229095458984, "timer/agent.train_count": 710.0, "timer/agent.train_total": 98.06540417671204, "timer/agent.train_frac": 0.3267107131227856, "timer/agent.train_avg": 0.13812028757283384, "timer/agent.train_min": 0.10196924209594727, "timer/agent.train_max": 0.43722081184387207, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4973475933074951, "timer/agent.report_frac": 0.0016569430192383758, "timer/agent.report_avg": 0.24867379665374756, "timer/agent.report_min": 0.09901881217956543, "timer/agent.report_max": 0.3983287811279297, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011420249938964844, "timer/dataset_eval_frac": 3.804724033846072e-07, "timer/dataset_eval_avg": 0.00011420249938964844, "timer/dataset_eval_min": 0.00011420249938964844, "timer/dataset_eval_max": 0.00011420249938964844, "fps": 9.461328922462888}
+{"step": 178496, "episode/length": 765.0, "episode/score": 700.0, "episode/reward_rate": 0.08093994778067885}
+{"step": 180692, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.32095947265625, "train/action_min": 0.0, "train/action_std": 3.067644354275295, "train/actor_opt_grad_norm": 0.010643642442300916, "train/actor_opt_grad_steps": 43725.0, "train/actor_opt_loss": 0.0030528254796601166, "train/adv_mag": 0.8650912817035402, "train/adv_max": 0.8351241993052619, "train/adv_mean": 0.005130029425968782, "train/adv_min": -0.5399715427841459, "train/adv_std": 0.051327747452471935, "train/cont_avg": 0.9984933035714286, "train/cont_loss_mean": 0.00038688147416891133, "train/cont_loss_std": 0.010780556844119563, "train/cont_neg_acc": 0.9270833347524915, "train/cont_neg_loss": 0.13059170653466318, "train/cont_pos_acc": 0.999944110427584, "train/cont_pos_loss": 0.00015226463557969084, "train/cont_pred": 0.9985066711902618, "train/cont_rate": 0.9984933035714286, "train/dyn_loss_mean": 3.9490583998816353, "train/dyn_loss_std": 6.071721805844988, "train/extr_critic_critic_opt_grad_norm": 2.039745415960039, "train/extr_critic_critic_opt_grad_steps": 43725.0, "train/extr_critic_critic_opt_loss": 1.5367008549826486, "train/extr_critic_mag": 355.895554460798, "train/extr_critic_max": 355.895554460798, "train/extr_critic_mean": 136.38338045392717, "train/extr_critic_min": 0.0644658122743879, "train/extr_critic_std": 94.95199835641044, "train/extr_return_normed_mag": 1.4170617086546762, "train/extr_return_normed_max": 1.4170617086546762, "train/extr_return_normed_mean": 0.4523029501949038, "train/extr_return_normed_min": -0.01540462394644107, "train/extr_return_normed_std": 0.3283286341599056, "train/extr_return_rate": 0.9290095337799618, "train/extr_return_raw_mag": 422.3329175676618, "train/extr_return_raw_max": 422.3329175676618, "train/extr_return_raw_mean": 137.89736557006836, "train/extr_return_raw_min": 0.012377626535349658, "train/extr_return_raw_std": 96.76909920828683, "train/extr_reward_mag": 181.94199529375348, "train/extr_reward_max": 181.94199529375348, "train/extr_reward_mean": 0.8601497833217894, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.469238305091858, "train/image_loss_mean": 2.2654496209962027, "train/image_loss_std": 1.8388587866510664, "train/model_loss_mean": 4.689224369185311, "train/model_loss_std": 5.112416785103934, "train/model_opt_grad_norm": 14.740512602669853, "train/model_opt_grad_steps": 43725.0, "train/model_opt_loss": 4.689224369185311, "train/policy_entropy_mag": 2.1483750922339304, "train/policy_entropy_max": 2.1483750922339304, "train/policy_entropy_mean": 1.1635352075099945, "train/policy_entropy_min": 0.07463086013283049, "train/policy_entropy_std": 0.5471560622964586, "train/policy_logprob_mag": 6.753976978574481, "train/policy_logprob_max": -0.009734431042202882, "train/policy_logprob_mean": -1.1636709417615618, "train/policy_logprob_min": -6.753976978574481, "train/policy_logprob_std": 1.0959135328020368, "train/policy_randomness_mag": 0.9777676360947746, "train/policy_randomness_max": 0.9777676360947746, "train/policy_randomness_mean": 0.5295476828302655, "train/policy_randomness_min": 0.033965968074543135, "train/policy_randomness_std": 0.24902145585843494, "train/post_ent_mag": 54.05591463361468, "train/post_ent_max": 54.05591463361468, "train/post_ent_mean": 38.20596117292132, "train/post_ent_min": 24.58357587541853, "train/post_ent_std": 4.217153988565717, "train/prior_ent_mag": 74.15208936418806, "train/prior_ent_max": 74.15208936418806, "train/prior_ent_mean": 42.198024586268836, "train/prior_ent_min": 29.362115750994, "train/prior_ent_std": 6.707063497815813, "train/rep_loss_mean": 3.9490583998816353, "train/rep_loss_std": 6.071721805844988, "train/reward_avg": 1.072265625, "train/reward_loss_mean": 0.053952794655093124, "train/reward_loss_std": 0.21047133739505494, "train/reward_max_data": 172.85714285714286, "train/reward_max_pred": 155.7423355783735, "train/reward_neg_acc": 0.9768477184431893, "train/reward_neg_loss": 0.005892432730511895, "train/reward_pos_acc": 0.9959387728146144, "train/reward_pos_loss": 0.6255113397325788, "train/reward_pred": 0.9842082772936139, "train/reward_rate": 0.07780412946428572, "train_stats/mean_log_entropy": 1.0105702877044678, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.7958617465628777e-06, "report/cont_loss_std": 6.975442374823615e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0011149944039061666, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.193479293870041e-07, "report/cont_pred": 0.9980484247207642, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.8310964107513428, "report/dyn_loss_std": 5.904242992401123, "report/image_loss_mean": 2.2396981716156006, "report/image_loss_std": 2.1657180786132812, "report/model_loss_mean": 4.594532012939453, "report/model_loss_std": 5.3651628494262695, "report/post_ent_mag": 55.571449279785156, "report/post_ent_max": 55.571449279785156, "report/post_ent_mean": 37.275611877441406, "report/post_ent_min": 25.871931076049805, "report/post_ent_std": 4.256955623626709, "report/prior_ent_mag": 74.1358642578125, "report/prior_ent_max": 74.1358642578125, "report/prior_ent_mean": 40.91124725341797, "report/prior_ent_min": 27.795909881591797, "report/prior_ent_std": 7.474897861480713, "report/rep_loss_mean": 3.8310964107513428, "report/rep_loss_std": 5.904242992401123, "report/reward_avg": 1.03515625, "report/reward_loss_mean": 0.05617325007915497, "report/reward_loss_std": 0.2082625925540924, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.76451110839844, "report/reward_neg_acc": 0.9734324812889099, "report/reward_neg_loss": 0.0080777732655406, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6014485955238342, "report/reward_pred": 1.000629186630249, "report/reward_rate": 0.0810546875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 6.62330137402023e-07, "eval/cont_loss_std": 1.9980754586867988e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.62330137402023e-07, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 10.477357864379883, "eval/dyn_loss_std": 10.415604591369629, "eval/image_loss_mean": 4.788949966430664, "eval/image_loss_std": 4.599186897277832, "eval/model_loss_mean": 11.848827362060547, "eval/model_loss_std": 10.996999740600586, "eval/post_ent_mag": 53.09632110595703, "eval/post_ent_max": 53.09632110595703, "eval/post_ent_mean": 35.40904235839844, "eval/post_ent_min": 26.16733169555664, "eval/post_ent_std": 4.092594623565674, "eval/prior_ent_mag": 74.1358642578125, "eval/prior_ent_max": 74.1358642578125, "eval/prior_ent_mean": 38.6610221862793, "eval/prior_ent_min": 30.75433349609375, "eval/prior_ent_std": 6.069672107696533, "eval/rep_loss_mean": 10.477357864379883, "eval/rep_loss_std": 10.415604591369629, "eval/reward_avg": 0.625, "eval/reward_loss_mean": 0.7734628915786743, "eval/reward_loss_std": 3.2269203662872314, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.015036582946777, "eval/reward_neg_acc": 0.92083340883255, "eval/reward_neg_loss": 0.21223334968090057, "eval/reward_pos_acc": 0.328125, "eval/reward_pos_loss": 9.191905975341797, "eval/reward_pred": 0.500240683555603, "eval/reward_rate": 0.0625, "replay/size": 45110.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.383974475289207e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2556726004019614e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.02559757232666, "timer/env.step_count": 701.0, "timer/env.step_total": 2.5398333072662354, "timer/env.step_frac": 0.008465388712887946, "timer/env.step_avg": 0.0036231573570131743, "timer/env.step_min": 0.0022804737091064453, "timer/env.step_max": 0.020272016525268555, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 201.6845691204071, "timer/replay._sample_frac": 0.672224539347138, "timer/replay._sample_avg": 0.017981862439408622, "timer/replay._sample_min": 0.0005500316619873047, "timer/replay._sample_max": 0.05336427688598633, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 197.66965579986572, "timer/agent.policy_frac": 0.6588426367593979, "timer/agent.policy_avg": 0.2819823905846872, "timer/agent.policy_min": 0.0029497146606445312, "timer/agent.policy_max": 0.3317415714263916, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09586668014526367, "timer/dataset_train_frac": 0.0003195283366518527, "timer/dataset_train_avg": 0.00013675703301749455, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0019533634185791016, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.52205228805542, "timer/agent.train_frac": 0.3283788219580327, "timer/agent.train_avg": 0.14054501039665537, "timer/agent.train_min": 0.09943819046020508, "timer/agent.train_max": 0.445986270904541, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.519355058670044, "timer/agent.report_frac": 0.0017310358278508017, "timer/agent.report_avg": 0.259677529335022, "timer/agent.report_min": 0.10603547096252441, "timer/agent.report_max": 0.41331958770751953, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.413459777832031e-05, "timer/dataset_eval_frac": 2.137637531506274e-07, "timer/dataset_eval_avg": 6.413459777832031e-05, "timer/dataset_eval_min": 6.413459777832031e-05, "timer/dataset_eval_max": 6.413459777832031e-05, "fps": 9.344807495190027}
+{"step": 181788, "episode/length": 822.0, "episode/score": 2160.0, "episode/reward_rate": 0.08626974483596597}
+{"step": 183460, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.273835555366848, "train/action_min": 0.0, "train/action_std": 3.0489479009655938, "train/actor_opt_grad_norm": 0.010258131262346886, "train/actor_opt_grad_steps": 44420.0, "train/actor_opt_loss": 0.0027237648750272365, "train/adv_mag": 0.7891535370246224, "train/adv_max": 0.7515873537547346, "train/adv_mean": 0.004331969312076672, "train/adv_min": -0.5516129149043042, "train/adv_std": 0.04871941509022229, "train/cont_avg": 0.9982167119565217, "train/cont_loss_mean": 0.000585695191105474, "train/cont_loss_std": 0.0178559976646002, "train/cont_neg_acc": 0.9069444457689921, "train/cont_neg_loss": 0.2758229160063365, "train/cont_pos_acc": 0.999971620414568, "train/cont_pos_loss": 8.336860123708581e-05, "train/cont_pred": 0.998300762280174, "train/cont_rate": 0.9982167119565217, "train/dyn_loss_mean": 3.9290858455326245, "train/dyn_loss_std": 6.048145377117654, "train/extr_critic_critic_opt_grad_norm": 2.0576440907906797, "train/extr_critic_critic_opt_grad_steps": 44420.0, "train/extr_critic_critic_opt_loss": 1.521784340125927, "train/extr_critic_mag": 362.3468136994735, "train/extr_critic_max": 362.3468136994735, "train/extr_critic_mean": 141.54206206833106, "train/extr_critic_min": 0.11796422626661218, "train/extr_critic_std": 97.97775202212127, "train/extr_return_normed_mag": 1.3710429875747017, "train/extr_return_normed_max": 1.3710429875747017, "train/extr_return_normed_mean": 0.46375799092693604, "train/extr_return_normed_min": -0.012002003014735554, "train/extr_return_normed_std": 0.3321633809718533, "train/extr_return_rate": 0.9206446746121282, "train/extr_return_raw_mag": 415.0300832554914, "train/extr_return_raw_max": 415.0300832554914, "train/extr_return_raw_mean": 142.84087758824444, "train/extr_return_raw_min": 0.11660566074314757, "train/extr_return_raw_std": 99.64849621316661, "train/extr_reward_mag": 172.80457496643066, "train/extr_reward_max": 172.80457496643066, "train/extr_reward_mean": 0.8581322077391804, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.163093712018884, "train/image_loss_mean": 2.202794351439545, "train/image_loss_std": 1.8122920212538347, "train/model_loss_mean": 4.617574363514997, "train/model_loss_std": 5.081120802008587, "train/model_opt_grad_norm": 15.304704638494961, "train/model_opt_grad_steps": 44420.0, "train/model_opt_loss": 4.617574363514997, "train/policy_entropy_mag": 2.1572114626566568, "train/policy_entropy_max": 2.1572114626566568, "train/policy_entropy_mean": 1.1567963802296182, "train/policy_entropy_min": 0.0749996573380802, "train/policy_entropy_std": 0.5489180325597957, "train/policy_logprob_mag": 6.761860695438108, "train/policy_logprob_max": -0.00979660840138145, "train/policy_logprob_mean": -1.15587386013805, "train/policy_logprob_min": -6.761860695438108, "train/policy_logprob_std": 1.0982571943946506, "train/policy_randomness_mag": 0.9817892390748729, "train/policy_randomness_max": 0.9817892390748729, "train/policy_randomness_mean": 0.5264807097289873, "train/policy_randomness_min": 0.03413381465319274, "train/policy_randomness_std": 0.2498233607713727, "train/post_ent_mag": 54.092141469319664, "train/post_ent_max": 54.092141469319664, "train/post_ent_mean": 38.0274212602256, "train/post_ent_min": 25.032678963481516, "train/post_ent_std": 4.288895465325618, "train/prior_ent_mag": 74.16583561551744, "train/prior_ent_max": 74.16583561551744, "train/prior_ent_mean": 42.03073308087777, "train/prior_ent_min": 29.532960560010828, "train/prior_ent_std": 6.755627639051797, "train/rep_loss_mean": 3.9290858455326245, "train/rep_loss_std": 6.048145377117654, "train/reward_avg": 1.0940330615942029, "train/reward_loss_mean": 0.05674281953901485, "train/reward_loss_std": 0.22336289588955865, "train/reward_max_data": 167.2463768115942, "train/reward_max_pred": 133.01673493869063, "train/reward_neg_acc": 0.9772901154946589, "train/reward_neg_loss": 0.005914367683083359, "train/reward_pos_acc": 0.9948525368303492, "train/reward_pos_loss": 0.6379145314728004, "train/reward_pred": 0.9795364728872327, "train/reward_rate": 0.0803611865942029, "train_stats/mean_log_entropy": 1.087448239326477, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.831263504456729e-05, "report/cont_loss_std": 0.0014192720409482718, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0453864261507988, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.993854988948442e-06, "report/cont_pred": 0.9990627765655518, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.144001007080078, "report/dyn_loss_std": 6.070436954498291, "report/image_loss_mean": 2.419694423675537, "report/image_loss_std": 1.4124441146850586, "report/model_loss_mean": 4.967869281768799, "report/model_loss_std": 4.755640506744385, "report/post_ent_mag": 52.443817138671875, "report/post_ent_max": 52.443817138671875, "report/post_ent_mean": 39.27668762207031, "report/post_ent_min": 25.53290557861328, "report/post_ent_std": 4.0081610679626465, "report/prior_ent_mag": 74.36585998535156, "report/prior_ent_max": 74.36585998535156, "report/prior_ent_mean": 43.61906433105469, "report/prior_ent_min": 29.52991485595703, "report/prior_ent_std": 6.166592121124268, "report/rep_loss_mean": 4.144001007080078, "report/rep_loss_std": 6.070436954498291, "report/reward_avg": 1.923828125, "report/reward_loss_mean": 0.061725907027721405, "report/reward_loss_std": 0.22446738183498383, "report/reward_max_data": 400.0, "report/reward_max_pred": 365.2751159667969, "report/reward_neg_acc": 0.9648562073707581, "report/reward_neg_loss": 0.006684989668428898, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6697660684585571, "report/reward_pred": 1.6600298881530762, "report/reward_rate": 0.0830078125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.019405465573072433, "eval/cont_loss_std": 0.5232961177825928, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 5.500675201416016, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0032998742535710335, "eval/cont_pred": 0.9967193603515625, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 13.447774887084961, "eval/dyn_loss_std": 11.300572395324707, "eval/image_loss_mean": 6.667729377746582, "eval/image_loss_std": 4.885240077972412, "eval/model_loss_mean": 15.497823715209961, "eval/model_loss_std": 11.86354923248291, "eval/post_ent_mag": 55.22553253173828, "eval/post_ent_max": 55.22553253173828, "eval/post_ent_mean": 36.159427642822266, "eval/post_ent_min": 25.533096313476562, "eval/post_ent_std": 4.465408802032471, "eval/prior_ent_mag": 74.36585998535156, "eval/prior_ent_max": 74.36585998535156, "eval/prior_ent_mean": 39.78995895385742, "eval/prior_ent_min": 29.631675720214844, "eval/prior_ent_std": 6.690752983093262, "eval/rep_loss_mean": 13.447774887084961, "eval/rep_loss_std": 11.300572395324707, "eval/reward_avg": 0.52734375, "eval/reward_loss_mean": 0.7420230507850647, "eval/reward_loss_std": 3.240886688232422, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001099586486816, "eval/reward_neg_acc": 0.9278351068496704, "eval/reward_neg_loss": 0.10857594758272171, "eval/reward_pos_acc": 0.12962962687015533, "eval/reward_pos_loss": 12.120610237121582, "eval/reward_pred": 0.2637708783149719, "eval/reward_rate": 0.052734375, "replay/size": 45802.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 5.030563111939182e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0864712254849473e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0728836059570312e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11169838905334, "timer/env.step_count": 692.0, "timer/env.step_total": 2.365367889404297, "timer/env.step_frac": 0.007881625081931742, "timer/env.step_avg": 0.0034181616898906024, "timer/env.step_min": 0.0014116764068603516, "timer/env.step_max": 0.03343629837036133, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 211.42785596847534, "timer/replay._sample_frac": 0.7044972158812295, "timer/replay._sample_avg": 0.019095723985592065, "timer/replay._sample_min": 0.0005624294281005859, "timer/replay._sample_max": 0.05654764175415039, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 197.05278539657593, "timer/agent.policy_frac": 0.6565981481372453, "timer/agent.policy_avg": 0.28475836039967617, "timer/agent.policy_min": 0.0030536651611328125, "timer/agent.policy_max": 0.32885074615478516, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.09813928604125977, "timer/dataset_train_frac": 0.0003270091988018266, "timer/dataset_train_avg": 0.00014181977751627134, "timer/dataset_train_min": 8.20159912109375e-05, "timer/dataset_train_max": 0.008200645446777344, "timer/agent.train_count": 692.0, "timer/agent.train_total": 99.31950044631958, "timer/agent.train_frac": 0.33094178260777285, "timer/agent.train_avg": 0.14352528966231154, "timer/agent.train_min": 0.10426831245422363, "timer/agent.train_max": 0.4481995105743408, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5107526779174805, "timer/agent.report_frac": 0.0017018752706379349, "timer/agent.report_avg": 0.25537633895874023, "timer/agent.report_min": 0.10043597221374512, "timer/agent.report_max": 0.41031670570373535, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012874603271484375, "timer/dataset_eval_frac": 4.289937160261654e-07, "timer/dataset_eval_avg": 0.00012874603271484375, "timer/dataset_eval_min": 0.00012874603271484375, "timer/dataset_eval_max": 0.00012874603271484375, "fps": 9.222905435004975}
+{"step": 184276, "episode/length": 621.0, "episode/score": 960.0, "episode/reward_rate": 0.11093247588424437}
+{"step": 185632, "episode/length": 338.0, "episode/score": 290.0, "episode/reward_rate": 0.0855457227138643}
+{"step": 186224, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.358635501585145, "train/action_min": 0.0, "train/action_std": 3.061231499132903, "train/actor_opt_grad_norm": 0.009447028394788504, "train/actor_opt_grad_steps": 45110.0, "train/actor_opt_loss": 0.0027381410586120023, "train/adv_mag": 0.7696828725545303, "train/adv_max": 0.7548750021319458, "train/adv_mean": 0.004113400342116685, "train/adv_min": -0.4932759369629017, "train/adv_std": 0.04536417755635752, "train/cont_avg": 0.9986837635869565, "train/cont_loss_mean": 0.00013601687533386223, "train/cont_loss_std": 0.003378809746906249, "train/cont_neg_acc": 0.9722222222222222, "train/cont_neg_loss": 0.05456447428644053, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 7.297673090528714e-05, "train/cont_pred": 0.9986596081567847, "train/cont_rate": 0.9986837635869565, "train/dyn_loss_mean": 3.876434782276983, "train/dyn_loss_std": 6.041814009348552, "train/extr_critic_critic_opt_grad_norm": 1.9409103151680767, "train/extr_critic_critic_opt_grad_steps": 45110.0, "train/extr_critic_critic_opt_loss": 1.5111835072006004, "train/extr_critic_mag": 363.2168141240659, "train/extr_critic_max": 363.2168141240659, "train/extr_critic_mean": 142.3986110963683, "train/extr_critic_min": 0.07731326593868974, "train/extr_critic_std": 97.45964547862177, "train/extr_return_normed_mag": 1.3422206156495688, "train/extr_return_normed_max": 1.3422206156495688, "train/extr_return_normed_mean": 0.45839949146561, "train/extr_return_normed_min": -0.013380386272742264, "train/extr_return_normed_std": 0.32541294395923615, "train/extr_return_rate": 0.9363338299419569, "train/extr_return_raw_mag": 412.1238336977751, "train/extr_return_raw_max": 412.1238336977751, "train/extr_return_raw_mean": 143.64834849039713, "train/extr_return_raw_min": 0.3196139971546802, "train/extr_return_raw_std": 98.86050403981969, "train/extr_reward_mag": 158.83322274857673, "train/extr_reward_max": 158.83322274857673, "train/extr_reward_mean": 0.8230798218561255, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.752858016801917, "train/image_loss_mean": 2.1601865688959756, "train/image_loss_std": 1.784410782482313, "train/model_loss_mean": 4.542300068813821, "train/model_loss_std": 5.059324264526367, "train/model_opt_grad_norm": 14.732315049655195, "train/model_opt_grad_steps": 45110.0, "train/model_opt_loss": 4.542300068813821, "train/policy_entropy_mag": 2.1551261155501655, "train/policy_entropy_max": 2.1551261155501655, "train/policy_entropy_mean": 1.142270400904227, "train/policy_entropy_min": 0.07408377128666725, "train/policy_entropy_std": 0.5614702749079552, "train/policy_logprob_mag": 6.763979206914487, "train/policy_logprob_max": -0.009651988731238289, "train/policy_logprob_mean": -1.1435354973958887, "train/policy_logprob_min": -6.763979206914487, "train/policy_logprob_std": 1.1058581290037737, "train/policy_randomness_mag": 0.9808401543161144, "train/policy_randomness_max": 0.9808401543161144, "train/policy_randomness_mean": 0.5198696687601615, "train/policy_randomness_min": 0.03371697680457779, "train/policy_randomness_std": 0.255536129941111, "train/post_ent_mag": 54.0903940062592, "train/post_ent_max": 54.0903940062592, "train/post_ent_mean": 38.01244835231615, "train/post_ent_min": 24.908774472665094, "train/post_ent_std": 4.3087190890657725, "train/prior_ent_mag": 74.33819480564283, "train/prior_ent_max": 74.33819480564283, "train/prior_ent_mean": 41.99180923683056, "train/prior_ent_min": 29.44699027572853, "train/prior_ent_std": 6.791588548300923, "train/rep_loss_mean": 3.876434782276983, "train/rep_loss_std": 6.041814009348552, "train/reward_avg": 1.0722373188405796, "train/reward_loss_mean": 0.056116614976654884, "train/reward_loss_std": 0.22362559580284616, "train/reward_max_data": 176.08695652173913, "train/reward_max_pred": 132.78758485766426, "train/reward_neg_acc": 0.9767586044643236, "train/reward_neg_loss": 0.0063384261127372365, "train/reward_pos_acc": 0.9955772221952245, "train/reward_pos_loss": 0.6338039774825608, "train/reward_pred": 0.9460431311441504, "train/reward_rate": 0.07956861413043478, "train_stats/mean_log_entropy": 0.7666149735450745, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.787104702088982e-05, "report/cont_loss_std": 0.0004987485590390861, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.1738598914234899e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7883050531963818e-05, "report/cont_pred": 0.9980292320251465, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.663947105407715, "report/dyn_loss_std": 6.1684250831604, "report/image_loss_mean": 2.3747458457946777, "report/image_loss_std": 1.9022068977355957, "report/model_loss_mean": 4.613977432250977, "report/model_loss_std": 5.299795150756836, "report/post_ent_mag": 55.26042938232422, "report/post_ent_max": 55.26042938232422, "report/post_ent_mean": 37.832862854003906, "report/post_ent_min": 23.70675277709961, "report/post_ent_std": 3.72241473197937, "report/prior_ent_mag": 74.0008544921875, "report/prior_ent_max": 74.0008544921875, "report/prior_ent_mean": 41.478214263916016, "report/prior_ent_min": 29.654508590698242, "report/prior_ent_std": 6.0843000411987305, "report/rep_loss_mean": 3.663947105407715, "report/rep_loss_std": 6.1684250831604, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.04084587097167969, "report/reward_loss_std": 0.17249612510204315, "report/reward_max_data": 200.0, "report/reward_max_pred": 145.94284057617188, "report/reward_neg_acc": 0.9854167103767395, "report/reward_neg_loss": 0.0021280215587466955, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.621613621711731, "report/reward_pred": 0.7466534376144409, "report/reward_rate": 0.0625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 1.8258990166941658e-05, "eval/cont_loss_std": 0.0004781827447004616, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.015063689090311527, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.5518251024768688e-06, "eval/cont_pred": 0.9990345239639282, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.306966781616211, "eval/dyn_loss_std": 10.008307456970215, "eval/image_loss_mean": 5.6016035079956055, "eval/image_loss_std": 4.824057102203369, "eval/model_loss_mean": 12.7796630859375, "eval/model_loss_std": 10.718027114868164, "eval/post_ent_mag": 54.985015869140625, "eval/post_ent_max": 54.985015869140625, "eval/post_ent_mean": 37.042869567871094, "eval/post_ent_min": 25.675647735595703, "eval/post_ent_std": 4.663816928863525, "eval/prior_ent_mag": 74.0008544921875, "eval/prior_ent_max": 74.0008544921875, "eval/prior_ent_mean": 39.632911682128906, "eval/prior_ent_min": 30.19245147705078, "eval/prior_ent_std": 6.521509170532227, "eval/rep_loss_mean": 11.306966781616211, "eval/rep_loss_std": 10.008307456970215, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.3938601016998291, "eval/reward_loss_std": 2.5201008319854736, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007576942443848, "eval/reward_neg_acc": 0.961693525314331, "eval/reward_neg_loss": 0.06250523030757904, "eval/reward_pos_acc": 0.28125, "eval/reward_pos_loss": 10.665861129760742, "eval/reward_pred": 0.15655219554901123, "eval/reward_rate": 0.03125, "replay/size": 46493.0, "replay/inserts": 691.0, "replay/samples": 11056.0, "replay/insert_wait_avg": 5.0026497516549275e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.205355144616664e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.043081283569336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0619628429413, "timer/env.step_count": 691.0, "timer/env.step_total": 2.2730326652526855, "timer/env.step_frac": 0.0075752109454887435, "timer/env.step_avg": 0.003289482873014017, "timer/env.step_min": 0.0020322799682617188, "timer/env.step_max": 0.020038366317749023, "timer/replay._sample_count": 11056.0, "timer/replay._sample_total": 211.1307291984558, "timer/replay._sample_frac": 0.7036237688979128, "timer/replay._sample_avg": 0.019096484189440648, "timer/replay._sample_min": 0.0005726814270019531, "timer/replay._sample_max": 0.05329179763793945, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.21725702285766602, "timer/agent.save_frac": 0.000724040530826571, "timer/agent.save_avg": 0.21725702285766602, "timer/agent.save_min": 0.21725702285766602, "timer/agent.save_max": 0.21725702285766602, "timer/agent.policy_count": 691.0, "timer/agent.policy_total": 197.2384910583496, "timer/agent.policy_frac": 0.6573258709288267, "timer/agent.policy_avg": 0.28543920558371866, "timer/agent.policy_min": 0.0028815269470214844, "timer/agent.policy_max": 0.4186882972717285, "timer/dataset_train_count": 691.0, "timer/dataset_train_total": 0.0922093391418457, "timer/dataset_train_frac": 0.0003073009929956034, "timer/dataset_train_avg": 0.00013344332726750464, "timer/dataset_train_min": 8.058547973632812e-05, "timer/dataset_train_max": 0.003092050552368164, "timer/agent.train_count": 691.0, "timer/agent.train_total": 99.20553421974182, "timer/agent.train_frac": 0.33061682753727795, "timer/agent.train_avg": 0.14356806688819365, "timer/agent.train_min": 0.10216975212097168, "timer/agent.train_max": 0.4498884677886963, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5168299674987793, "timer/agent.report_frac": 0.0017224108067615985, "timer/agent.report_avg": 0.25841498374938965, "timer/agent.report_min": 0.10864520072937012, "timer/agent.report_max": 0.4081847667694092, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.982948303222656e-05, "timer/dataset_eval_frac": 1.66063977453578e-07, "timer/dataset_eval_avg": 4.982948303222656e-05, "timer/dataset_eval_min": 4.982948303222656e-05, "timer/dataset_eval_max": 4.982948303222656e-05, "fps": 9.211205283334198}
+{"step": 189064, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.33342646209287, "train/action_min": 0.0, "train/action_std": 3.0063745941914304, "train/actor_opt_grad_norm": 0.009463194587176114, "train/actor_opt_grad_steps": 45810.0, "train/actor_opt_loss": 0.002212890985107843, "train/adv_mag": 0.6945147497553221, "train/adv_max": 0.6604675386153477, "train/adv_mean": 0.0036947190223990743, "train/adv_min": -0.5201272456578805, "train/adv_std": 0.04303306296572719, "train/cont_avg": 0.998473261443662, "train/cont_loss_mean": 0.00031521295280406936, "train/cont_loss_std": 0.008971355712169081, "train/cont_neg_acc": 0.9508333335320155, "train/cont_neg_loss": 0.1381846605874974, "train/cont_pos_acc": 0.9999862271295467, "train/cont_pos_loss": 8.333968654233624e-05, "train/cont_pred": 0.9985076457681791, "train/cont_rate": 0.998473261443662, "train/dyn_loss_mean": 3.898405095221291, "train/dyn_loss_std": 6.098825219651343, "train/extr_critic_critic_opt_grad_norm": 2.0119055173766447, "train/extr_critic_critic_opt_grad_steps": 45810.0, "train/extr_critic_critic_opt_loss": 1.4958885118994913, "train/extr_critic_mag": 369.86948491486027, "train/extr_critic_max": 369.86948491486027, "train/extr_critic_mean": 141.28684911593584, "train/extr_critic_min": 0.43514547717403357, "train/extr_critic_std": 101.68693778884243, "train/extr_return_normed_mag": 1.2861381634859972, "train/extr_return_normed_max": 1.2861381634859972, "train/extr_return_normed_mean": 0.4473455136930439, "train/extr_return_normed_min": -0.011886684879870482, "train/extr_return_normed_std": 0.33327618115384816, "train/extr_return_rate": 0.9203629812724153, "train/extr_return_raw_mag": 401.9729549784056, "train/extr_return_raw_max": 401.9729549784056, "train/extr_return_raw_mean": 142.42887394864795, "train/extr_return_raw_min": 0.35462971090037426, "train/extr_return_raw_std": 103.12464464214486, "train/extr_reward_mag": 138.7822203031728, "train/extr_reward_max": 138.7822203031728, "train/extr_reward_mean": 0.8111349205735704, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.407780840363301, "train/image_loss_mean": 2.168863768308935, "train/image_loss_std": 1.8207852924373789, "train/model_loss_mean": 4.56761480385149, "train/model_loss_std": 5.143856867937974, "train/model_opt_grad_norm": 14.630298144380811, "train/model_opt_grad_steps": 45810.0, "train/model_opt_loss": 4.56761480385149, "train/policy_entropy_mag": 2.1523980154118068, "train/policy_entropy_max": 2.1523980154118068, "train/policy_entropy_mean": 1.1870288546656218, "train/policy_entropy_min": 0.07416682847788636, "train/policy_entropy_std": 0.5623590064720368, "train/policy_logprob_mag": 6.764241520787628, "train/policy_logprob_max": -0.009663670428726874, "train/policy_logprob_mean": -1.1877908782220223, "train/policy_logprob_min": -6.764241520787628, "train/policy_logprob_std": 1.0951154450295677, "train/policy_randomness_mag": 0.9795985456923364, "train/policy_randomness_max": 0.9795985456923364, "train/policy_randomness_mean": 0.5402401093865784, "train/policy_randomness_min": 0.03375477789783142, "train/policy_randomness_std": 0.2559406106740656, "train/post_ent_mag": 53.9111333497813, "train/post_ent_max": 53.9111333497813, "train/post_ent_mean": 37.987474522120515, "train/post_ent_min": 24.576226865741567, "train/post_ent_std": 4.249529301280707, "train/prior_ent_mag": 74.41872029908946, "train/prior_ent_max": 74.41872029908946, "train/prior_ent_mean": 41.91014260305485, "train/prior_ent_min": 29.750556865208587, "train/prior_ent_std": 6.719835462704511, "train/rep_loss_mean": 3.898405095221291, "train/rep_loss_std": 6.098825219651343, "train/reward_avg": 1.0669289172535212, "train/reward_loss_mean": 0.059392775238399774, "train/reward_loss_std": 0.2553744221657095, "train/reward_max_data": 166.4788732394366, "train/reward_max_pred": 120.02977715075856, "train/reward_neg_acc": 0.9748641009062109, "train/reward_neg_loss": 0.0071380387132488924, "train/reward_pos_acc": 0.9907672950919245, "train/reward_pos_loss": 0.6741024700688644, "train/reward_pred": 0.9365561440796919, "train/reward_rate": 0.07844135123239436, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.2214662774567842e-06, "report/cont_loss_std": 2.0362649593153037e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.700937254005112e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.166932747764804e-06, "report/cont_pred": 0.999022364616394, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.454899311065674, "report/dyn_loss_std": 6.0755109786987305, "report/image_loss_mean": 2.0728743076324463, "report/image_loss_std": 1.58294677734375, "report/model_loss_mean": 4.195187568664551, "report/model_loss_std": 4.894160747528076, "report/post_ent_mag": 54.717132568359375, "report/post_ent_max": 54.717132568359375, "report/post_ent_mean": 38.192405700683594, "report/post_ent_min": 25.20394515991211, "report/post_ent_std": 4.706305980682373, "report/prior_ent_mag": 74.94841003417969, "report/prior_ent_max": 74.94841003417969, "report/prior_ent_mean": 41.55768585205078, "report/prior_ent_min": 28.198619842529297, "report/prior_ent_std": 6.874078750610352, "report/rep_loss_mean": 3.454899311065674, "report/rep_loss_std": 6.0755109786987305, "report/reward_avg": 0.927734375, "report/reward_loss_mean": 0.04937253147363663, "report/reward_loss_std": 0.19079472124576569, "report/reward_max_data": 200.0, "report/reward_max_pred": 160.21568298339844, "report/reward_neg_acc": 0.9799578785896301, "report/reward_neg_loss": 0.005227928049862385, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6000183820724487, "report/reward_pred": 0.8661081790924072, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.012289734557271004, "eval/cont_loss_std": 0.393075168132782, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 12.584551811218262, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3362236472858058e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.662933349609375, "eval/dyn_loss_std": 11.696270942687988, "eval/image_loss_mean": 6.680919647216797, "eval/image_loss_std": 4.6170806884765625, "eval/model_loss_mean": 15.404352188110352, "eval/model_loss_std": 11.40516185760498, "eval/post_ent_mag": 54.90614318847656, "eval/post_ent_max": 54.90614318847656, "eval/post_ent_mean": 36.43059158325195, "eval/post_ent_min": 25.45401382446289, "eval/post_ent_std": 4.057254314422607, "eval/prior_ent_mag": 74.94841003417969, "eval/prior_ent_max": 74.94841003417969, "eval/prior_ent_mean": 39.837432861328125, "eval/prior_ent_min": 30.758468627929688, "eval/prior_ent_std": 6.2404351234436035, "eval/rep_loss_mean": 13.662933349609375, "eval/rep_loss_std": 11.696270942687988, "eval/reward_avg": 0.44921875, "eval/reward_loss_mean": 0.5133822560310364, "eval/reward_loss_std": 2.6025822162628174, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.98408031463623, "eval/reward_neg_acc": 0.9458077549934387, "eval/reward_neg_loss": 0.08892261236906052, "eval/reward_pos_acc": 0.28260868787765503, "eval/reward_pos_loss": 9.537762641906738, "eval/reward_pred": 0.22301572561264038, "eval/reward_rate": 0.044921875, "replay/size": 47203.0, "replay/inserts": 710.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 5.754618577554192e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4088103468988983e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.773238182067871e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0948715209961, "timer/env.step_count": 710.0, "timer/env.step_total": 2.851818799972534, "timer/env.step_frac": 0.00950305743486525, "timer/env.step_avg": 0.004016646197144414, "timer/env.step_min": 0.002227306365966797, "timer/env.step_max": 0.014740467071533203, "timer/replay._sample_count": 11360.0, "timer/replay._sample_total": 192.12524485588074, "timer/replay._sample_frac": 0.6402150222765094, "timer/replay._sample_avg": 0.01691243352604584, "timer/replay._sample_min": 0.0006644725799560547, "timer/replay._sample_max": 0.05562424659729004, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 710.0, "timer/agent.policy_total": 198.24677801132202, "timer/agent.policy_frac": 0.6606136819550804, "timer/agent.policy_avg": 0.2792208141004536, "timer/agent.policy_min": 0.0031845569610595703, "timer/agent.policy_max": 0.3266282081604004, "timer/dataset_train_count": 710.0, "timer/dataset_train_total": 0.09460639953613281, "timer/dataset_train_frac": 0.0003152549693922833, "timer/dataset_train_avg": 0.00013324845005089128, "timer/dataset_train_min": 7.653236389160156e-05, "timer/dataset_train_max": 0.0003647804260253906, "timer/agent.train_count": 710.0, "timer/agent.train_total": 97.84933400154114, "timer/agent.train_frac": 0.32606133355629546, "timer/agent.train_avg": 0.1378159633824523, "timer/agent.train_min": 0.10090255737304688, "timer/agent.train_max": 0.4434845447540283, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49219417572021484, "timer/agent.report_frac": 0.0016401285807570976, "timer/agent.report_avg": 0.24609708786010742, "timer/agent.report_min": 0.09787130355834961, "timer/agent.report_max": 0.39432287216186523, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.937980651855469e-05, "timer/dataset_eval_frac": 2.3119290965190833e-07, "timer/dataset_eval_avg": 6.937980651855469e-05, "timer/dataset_eval_min": 6.937980651855469e-05, "timer/dataset_eval_max": 6.937980651855469e-05, "fps": 9.463368009676524}
+{"step": 189132, "episode/length": 874.0, "episode/score": 1390.0, "episode/reward_rate": 0.10628571428571429}
+{"step": 191872, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.380994524274554, "train/action_min": 0.0, "train/action_std": 3.1320596524647306, "train/actor_opt_grad_norm": 0.010791911763538208, "train/actor_opt_grad_steps": 46515.0, "train/actor_opt_loss": 0.002552429209546452, "train/adv_mag": 0.8061588738645826, "train/adv_max": 0.789902805856296, "train/adv_mean": 0.0042663982857318065, "train/adv_min": -0.5085507550409862, "train/adv_std": 0.05288980616522687, "train/cont_avg": 0.9984375, "train/cont_loss_mean": 0.0006015212373493942, "train/cont_loss_std": 0.017367199605303085, "train/cont_neg_acc": 0.9040229896019245, "train/cont_neg_loss": 0.29474226547753113, "train/cont_pos_acc": 0.9999720411641257, "train/cont_pos_loss": 9.415352668205352e-05, "train/cont_pred": 0.9985385451998029, "train/cont_rate": 0.9984375, "train/dyn_loss_mean": 4.183578136989048, "train/dyn_loss_std": 6.069254773003714, "train/extr_critic_critic_opt_grad_norm": 2.217727109364101, "train/extr_critic_critic_opt_grad_steps": 46515.0, "train/extr_critic_critic_opt_loss": 1.6040645922933305, "train/extr_critic_mag": 373.60691615513394, "train/extr_critic_max": 373.60691615513394, "train/extr_critic_mean": 150.0955104282924, "train/extr_critic_min": 0.05485221658434187, "train/extr_critic_std": 101.82278856549944, "train/extr_return_normed_mag": 1.362288090160915, "train/extr_return_normed_max": 1.362288090160915, "train/extr_return_normed_mean": 0.4770601892045566, "train/extr_return_normed_min": -0.01483154598224376, "train/extr_return_normed_std": 0.33572542113917214, "train/extr_return_rate": 0.9335482231208256, "train/extr_return_raw_mag": 423.79234008789064, "train/extr_return_raw_max": 423.79234008789064, "train/extr_return_raw_mean": 151.4095984322684, "train/extr_return_raw_min": 0.05427098974385964, "train/extr_return_raw_std": 103.29395664760045, "train/extr_reward_mag": 175.0902813775199, "train/extr_reward_max": 175.0902813775199, "train/extr_reward_mean": 0.8919545761176518, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.357676160335541, "train/image_loss_mean": 2.2440184814589363, "train/image_loss_std": 1.8758333683013917, "train/model_loss_mean": 4.816543333871024, "train/model_loss_std": 5.141697951725551, "train/model_opt_grad_norm": 15.306086036137172, "train/model_opt_grad_steps": 46515.0, "train/model_opt_loss": 4.816543333871024, "train/policy_entropy_mag": 2.1507639374051775, "train/policy_entropy_max": 2.1507639374051775, "train/policy_entropy_mean": 1.1051896393299103, "train/policy_entropy_min": 0.072556272149086, "train/policy_entropy_std": 0.5760062124047961, "train/policy_logprob_mag": 6.777583769389561, "train/policy_logprob_max": -0.009417260251939296, "train/policy_logprob_mean": -1.1057567119598388, "train/policy_logprob_min": -6.777583769389561, "train/policy_logprob_std": 1.1139648505619595, "train/policy_randomness_mag": 0.9788548418453762, "train/policy_randomness_max": 0.9788548418453762, "train/policy_randomness_mean": 0.5029934751135963, "train/policy_randomness_min": 0.033021782391837666, "train/policy_randomness_std": 0.26215172367436546, "train/post_ent_mag": 52.04627767290388, "train/post_ent_max": 52.04627767290388, "train/post_ent_mean": 38.769805908203125, "train/post_ent_min": 24.91479184286935, "train/post_ent_std": 4.03562935420445, "train/prior_ent_mag": 74.08030057634626, "train/prior_ent_max": 74.08030057634626, "train/prior_ent_mean": 42.88180138724191, "train/prior_ent_min": 30.697660991123744, "train/prior_ent_std": 6.352733046667916, "train/rep_loss_mean": 4.183578136989048, "train/rep_loss_std": 6.069254773003714, "train/reward_avg": 1.1360212053571428, "train/reward_loss_mean": 0.061776495299168996, "train/reward_loss_std": 0.2435638719371387, "train/reward_max_data": 172.14285714285714, "train/reward_max_pred": 139.61392762320384, "train/reward_neg_acc": 0.9739376766341074, "train/reward_neg_loss": 0.008037658810748586, "train/reward_pos_acc": 0.9934406246457781, "train/reward_pos_loss": 0.6555852489812034, "train/reward_pred": 1.0204017571040562, "train/reward_rate": 0.08348214285714285, "train_stats/mean_log_entropy": 1.198219895362854, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00020655379921663553, "report/cont_loss_std": 0.0044201877899467945, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0490168035030365, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00011103472206741571, "report/cont_pred": 0.9980323314666748, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.5864953994750977, "report/dyn_loss_std": 6.098623275756836, "report/image_loss_mean": 1.871182918548584, "report/image_loss_std": 1.9308583736419678, "report/model_loss_mean": 4.101173400878906, "report/model_loss_std": 5.316073894500732, "report/post_ent_mag": 51.9158821105957, "report/post_ent_max": 51.9158821105957, "report/post_ent_mean": 38.84095001220703, "report/post_ent_min": 23.51971435546875, "report/post_ent_std": 4.105086803436279, "report/prior_ent_mag": 74.53025817871094, "report/prior_ent_max": 74.53025817871094, "report/prior_ent_mean": 42.4525146484375, "report/prior_ent_min": 30.84018325805664, "report/prior_ent_std": 6.443995952606201, "report/rep_loss_mean": 3.5864953994750977, "report/rep_loss_std": 6.098623275756836, "report/reward_avg": 1.201171875, "report/reward_loss_mean": 0.07788695394992828, "report/reward_loss_std": 0.335190087556839, "report/reward_max_data": 200.0, "report/reward_max_pred": 196.02647399902344, "report/reward_neg_acc": 0.9619852304458618, "report/reward_neg_loss": 0.012910103425383568, "report/reward_pos_acc": 0.9740259647369385, "report/reward_pos_loss": 0.8770179152488708, "report/reward_pred": 0.9013514518737793, "report/reward_rate": 0.0751953125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.00820610485970974, "eval/cont_loss_std": 0.2057684063911438, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 2.5058345794677734, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0008673345437273383, "eval/cont_pred": 0.9979687929153442, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.301921844482422, "eval/dyn_loss_std": 9.485803604125977, "eval/image_loss_mean": 5.359129905700684, "eval/image_loss_std": 4.463010311126709, "eval/model_loss_mean": 12.142386436462402, "eval/model_loss_std": 10.157376289367676, "eval/post_ent_mag": 53.49313735961914, "eval/post_ent_max": 53.49313735961914, "eval/post_ent_mean": 38.61278533935547, "eval/post_ent_min": 25.28682518005371, "eval/post_ent_std": 3.6096489429473877, "eval/prior_ent_mag": 74.53025817871094, "eval/prior_ent_max": 74.53025817871094, "eval/prior_ent_mean": 40.96455764770508, "eval/prior_ent_min": 30.053577423095703, "eval/prior_ent_std": 5.8647685050964355, "eval/rep_loss_mean": 10.301921844482422, "eval/rep_loss_std": 9.485803604125977, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.5938973426818848, "eval/reward_loss_std": 2.7046287059783936, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008304595947266, "eval/reward_neg_acc": 0.9254341721534729, "eval/reward_neg_loss": 0.18486349284648895, "eval/reward_pos_acc": 0.35555556416511536, "eval/reward_pos_loss": 9.492655754089355, "eval/reward_pred": 0.3942677974700928, "eval/reward_rate": 0.0439453125, "replay/size": 47905.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.332493034862725e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.279355963410815e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1622905731201172e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11189699172974, "timer/env.step_count": 702.0, "timer/env.step_total": 2.5095179080963135, "timer/env.step_frac": 0.008361940773595753, "timer/env.step_avg": 0.0035748118348950335, "timer/env.step_min": 0.002173185348510742, "timer/env.step_max": 0.02245163917541504, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 199.47421264648438, "timer/replay._sample_frac": 0.6646661283540564, "timer/replay._sample_avg": 0.017759456254138568, "timer/replay._sample_min": 0.0005857944488525391, "timer/replay._sample_max": 0.0505061149597168, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.11602425575256, "timer/agent.policy_frac": 0.6601405217241758, "timer/agent.policy_avg": 0.2822165587688783, "timer/agent.policy_min": 0.002910137176513672, "timer/agent.policy_max": 0.33347344398498535, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.09415888786315918, "timer/dataset_train_frac": 0.0003137459354560474, "timer/dataset_train_avg": 0.00013412946989054014, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0011072158813476562, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.24527478218079, "timer/agent.train_frac": 0.32736214647594647, "timer/agent.train_avg": 0.13995053387775042, "timer/agent.train_min": 0.10042166709899902, "timer/agent.train_max": 0.4509713649749756, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5113685131072998, "timer/agent.report_frac": 0.0017039261629851073, "timer/agent.report_avg": 0.2556842565536499, "timer/agent.report_min": 0.10961127281188965, "timer/agent.report_max": 0.40175724029541016, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00032520294189453125, "timer/dataset_eval_frac": 1.0836056322801923e-06, "timer/dataset_eval_avg": 0.00032520294189453125, "timer/dataset_eval_min": 0.00032520294189453125, "timer/dataset_eval_max": 0.00032520294189453125, "fps": 9.356268136792314}
+{"step": 192008, "episode/length": 718.0, "episode/score": 1080.0, "episode/reward_rate": 0.11265646731571627}
+{"step": 194212, "episode/length": 550.0, "episode/score": 640.0, "episode/reward_rate": 0.1161524500907441}
+{"step": 194644, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.510847691127232, "train/action_min": 0.0, "train/action_std": 3.0094318900789534, "train/actor_opt_grad_norm": 0.010426375289846744, "train/actor_opt_grad_steps": 47215.0, "train/actor_opt_loss": 0.0021153892323322256, "train/adv_mag": 0.7851555002587182, "train/adv_max": 0.7798895823104041, "train/adv_mean": 0.0034530562954387277, "train/adv_min": -0.5048692068883351, "train/adv_std": 0.047233744258327146, "train/cont_avg": 0.9985909598214285, "train/cont_loss_mean": 0.00036706941783824575, "train/cont_loss_std": 0.01009768984889539, "train/cont_neg_acc": 0.9017857142857143, "train/cont_neg_loss": 0.2602496577809705, "train/cont_pos_acc": 0.9999860320772443, "train/cont_pos_loss": 9.166654177492311e-05, "train/cont_pred": 0.998624666248049, "train/cont_rate": 0.9985909598214285, "train/dyn_loss_mean": 4.003396218163626, "train/dyn_loss_std": 6.131556742531913, "train/extr_critic_critic_opt_grad_norm": 1.9824815137045724, "train/extr_critic_critic_opt_grad_steps": 47215.0, "train/extr_critic_critic_opt_loss": 1.5538227575165884, "train/extr_critic_mag": 370.46992449079244, "train/extr_critic_max": 370.46992449079244, "train/extr_critic_mean": 144.9531606401716, "train/extr_critic_min": 0.03032365185873849, "train/extr_critic_std": 100.86693518502372, "train/extr_return_normed_mag": 1.3632351858275278, "train/extr_return_normed_max": 1.3632351858275278, "train/extr_return_normed_mean": 0.461133092216083, "train/extr_return_normed_min": -0.013283111301383802, "train/extr_return_normed_std": 0.3321515015193394, "train/extr_return_rate": 0.9418248278754098, "train/extr_return_raw_mag": 423.55807233537945, "train/extr_return_raw_max": 423.55807233537945, "train/extr_return_raw_mean": 146.01480647495814, "train/extr_return_raw_min": 0.022009778994002513, "train/extr_return_raw_std": 102.2237551007952, "train/extr_reward_mag": 161.68590393066407, "train/extr_reward_max": 161.68590393066407, "train/extr_reward_mean": 0.8335077971220016, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.874355128833225, "train/image_loss_mean": 2.2085595386368886, "train/image_loss_std": 1.8004957045827592, "train/model_loss_mean": 4.669592656408038, "train/model_loss_std": 5.132719884599958, "train/model_opt_grad_norm": 14.62520568030221, "train/model_opt_grad_steps": 47215.0, "train/model_opt_loss": 4.669592656408038, "train/policy_entropy_mag": 2.153920010157994, "train/policy_entropy_max": 2.153920010157994, "train/policy_entropy_mean": 1.188775543655668, "train/policy_entropy_min": 0.07371049150824546, "train/policy_entropy_std": 0.5484306752681732, "train/policy_logprob_mag": 6.755706242152622, "train/policy_logprob_max": -0.009594261300350938, "train/policy_logprob_mean": -1.188491472176143, "train/policy_logprob_min": -6.755706242152622, "train/policy_logprob_std": 1.096318667275565, "train/policy_randomness_mag": 0.980291234595435, "train/policy_randomness_max": 0.980291234595435, "train/policy_randomness_mean": 0.5410350646291461, "train/policy_randomness_min": 0.033547089993953706, "train/policy_randomness_std": 0.24960155550922666, "train/post_ent_mag": 52.872677503313334, "train/post_ent_max": 52.872677503313334, "train/post_ent_mean": 39.05051007952009, "train/post_ent_min": 24.788489069257462, "train/post_ent_std": 3.8783428634916035, "train/prior_ent_mag": 74.4818344116211, "train/prior_ent_max": 74.4818344116211, "train/prior_ent_mean": 43.14921384538923, "train/prior_ent_min": 30.397154726300922, "train/prior_ent_std": 6.208551216125488, "train/rep_loss_mean": 4.003396218163626, "train/rep_loss_std": 6.131556742531913, "train/reward_avg": 1.0626395089285714, "train/reward_loss_mean": 0.05862835065594741, "train/reward_loss_std": 0.23568463027477266, "train/reward_max_data": 167.71428571428572, "train/reward_max_pred": 124.210840347835, "train/reward_neg_acc": 0.9747047764914376, "train/reward_neg_loss": 0.0074633351261062285, "train/reward_pos_acc": 0.9940072136265891, "train/reward_pos_loss": 0.6464762968676431, "train/reward_pred": 0.9364225285393851, "train/reward_rate": 0.08044084821428571, "train_stats/mean_log_entropy": 1.03711998462677, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.0199137250310741e-05, "report/cont_loss_std": 0.00015602848725393414, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.7664234191179276e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0106251465913374e-05, "report/cont_pred": 0.9980369210243225, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.450063705444336, "report/dyn_loss_std": 6.068393707275391, "report/image_loss_mean": 1.6640613079071045, "report/image_loss_std": 1.580178141593933, "report/model_loss_mean": 3.782317638397217, "report/model_loss_std": 4.883846282958984, "report/post_ent_mag": 54.00152587890625, "report/post_ent_max": 54.00152587890625, "report/post_ent_mean": 39.28314208984375, "report/post_ent_min": 24.576501846313477, "report/post_ent_std": 3.480498790740967, "report/prior_ent_mag": 74.42298126220703, "report/prior_ent_max": 74.42298126220703, "report/prior_ent_mean": 43.23526382446289, "report/prior_ent_min": 29.961700439453125, "report/prior_ent_std": 5.704167366027832, "report/rep_loss_mean": 3.450063705444336, "report/rep_loss_std": 6.068393707275391, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.048207804560661316, "report/reward_loss_std": 0.174363374710083, "report/reward_max_data": 200.0, "report/reward_max_pred": 195.59619140625, "report/reward_neg_acc": 0.9787911176681519, "report/reward_neg_loss": 0.003464221488684416, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5691115260124207, "report/reward_pred": 0.9988174438476562, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0024584513157606125, "eval/cont_loss_std": 0.0715542659163475, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.10043608397245407, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.0022667143493890762, "eval/cont_pred": 0.997315526008606, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.85935115814209, "eval/dyn_loss_std": 11.8201904296875, "eval/image_loss_mean": 7.359312534332275, "eval/image_loss_std": 5.25978422164917, "eval/model_loss_mean": 16.95943832397461, "eval/model_loss_std": 12.337672233581543, "eval/post_ent_mag": 53.87096405029297, "eval/post_ent_max": 53.87096405029297, "eval/post_ent_mean": 36.99382019042969, "eval/post_ent_min": 25.60019302368164, "eval/post_ent_std": 4.023366451263428, "eval/prior_ent_mag": 74.42298126220703, "eval/prior_ent_max": 74.42298126220703, "eval/prior_ent_mean": 41.367767333984375, "eval/prior_ent_min": 29.205169677734375, "eval/prior_ent_std": 5.870609760284424, "eval/rep_loss_mean": 14.85935115814209, "eval/rep_loss_std": 11.8201904296875, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6820576190948486, "eval/reward_loss_std": 3.1239242553710938, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.99487018585205, "eval/reward_neg_acc": 0.9351852536201477, "eval/reward_neg_loss": 0.08567404001951218, "eval/reward_pos_acc": 0.1538461595773697, "eval/reward_pos_loss": 11.829841613769531, "eval/reward_pred": 0.22826816141605377, "eval/reward_rate": 0.05078125, "replay/size": 48598.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.87467943331896e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0976973722163389e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.98377799987793e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.08238077163696, "timer/env.step_count": 693.0, "timer/env.step_total": 2.270575523376465, "timer/env.step_frac": 0.007566507295556201, "timer/env.step_avg": 0.0032764437566759953, "timer/env.step_min": 0.0014972686767578125, "timer/env.step_max": 0.02321147918701172, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 198.22910046577454, "timer/replay._sample_frac": 0.6605822706286348, "timer/replay._sample_avg": 0.017877804876061918, "timer/replay._sample_min": 0.0005426406860351562, "timer/replay._sample_max": 0.05219006538391113, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11893296241760254, "timer/agent.save_frac": 0.0003963343736202582, "timer/agent.save_avg": 0.11893296241760254, "timer/agent.save_min": 0.11893296241760254, "timer/agent.save_max": 0.11893296241760254, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.25926184654236, "timer/agent.policy_frac": 0.6606827809641309, "timer/agent.policy_avg": 0.28608840093296156, "timer/agent.policy_min": 0.002963542938232422, "timer/agent.policy_max": 0.3794536590576172, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08881258964538574, "timer/dataset_train_frac": 0.00029596069391682223, "timer/dataset_train_avg": 0.00012815669501498665, "timer/dataset_train_min": 7.677078247070312e-05, "timer/dataset_train_max": 0.002008676528930664, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.21701550483704, "timer/agent.train_frac": 0.3273001742130948, "timer/agent.train_avg": 0.14172729510077495, "timer/agent.train_min": 0.10203242301940918, "timer/agent.train_max": 0.4493088722229004, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5272371768951416, "timer/agent.report_frac": 0.0017569747865216043, "timer/agent.report_avg": 0.2636185884475708, "timer/agent.report_min": 0.10575461387634277, "timer/agent.report_max": 0.42148256301879883, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.679794311523438e-05, "timer/dataset_eval_frac": 3.2257123149425333e-07, "timer/dataset_eval_avg": 9.679794311523438e-05, "timer/dataset_eval_min": 9.679794311523438e-05, "timer/dataset_eval_max": 9.679794311523438e-05, "fps": 9.237240994546429}
+{"step": 196556, "episode/length": 585.0, "episode/score": 690.0, "episode/reward_rate": 0.11092150170648464}
+{"step": 197420, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.635812952898551, "train/action_min": 0.0, "train/action_std": 2.9165164664171743, "train/actor_opt_grad_norm": 0.010582052258963602, "train/actor_opt_grad_steps": 47910.0, "train/actor_opt_loss": 0.002950832714449844, "train/adv_mag": 0.781182988398317, "train/adv_max": 0.7578401582828467, "train/adv_mean": 0.0039319673017851765, "train/adv_min": -0.5405490277470022, "train/adv_std": 0.047582552133910896, "train/cont_avg": 0.998443161231884, "train/cont_loss_mean": 0.0002712318293272363, "train/cont_loss_std": 0.006882003865194892, "train/cont_neg_acc": 0.967924529651426, "train/cont_neg_loss": 0.07848421528213739, "train/cont_pos_acc": 0.999971608320872, "train/cont_pos_loss": 0.00011601134552398744, "train/cont_pred": 0.9984327451042507, "train/cont_rate": 0.998443161231884, "train/dyn_loss_mean": 4.158957605776579, "train/dyn_loss_std": 6.194255317466847, "train/extr_critic_critic_opt_grad_norm": 2.0081789096196494, "train/extr_critic_critic_opt_grad_steps": 47910.0, "train/extr_critic_critic_opt_loss": 1.5433880280757295, "train/extr_critic_mag": 380.51379438759625, "train/extr_critic_max": 380.51379438759625, "train/extr_critic_mean": 146.09923995750538, "train/extr_critic_min": 0.03807093267855437, "train/extr_critic_std": 102.4448166999264, "train/extr_return_normed_mag": 1.3646981958029927, "train/extr_return_normed_max": 1.3646981958029927, "train/extr_return_normed_mean": 0.45521664144336316, "train/extr_return_normed_min": -0.014021898187912893, "train/extr_return_normed_std": 0.33105754463568976, "train/extr_return_rate": 0.9254642681799073, "train/extr_return_raw_mag": 432.7509615248528, "train/extr_return_raw_max": 432.7509615248528, "train/extr_return_raw_mean": 147.3334434619848, "train/extr_return_raw_min": 0.04128284854443231, "train/extr_return_raw_std": 103.91339332469995, "train/extr_reward_mag": 168.92753431071407, "train/extr_reward_max": 168.92753431071407, "train/extr_reward_mean": 0.8591055282648059, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.035816489786342, "train/image_loss_mean": 2.221349004386128, "train/image_loss_std": 1.8280335647472437, "train/model_loss_mean": 4.776069817335709, "train/model_loss_std": 5.200111789979797, "train/model_opt_grad_norm": 14.701138081757918, "train/model_opt_grad_steps": 47910.0, "train/model_opt_loss": 4.776069817335709, "train/policy_entropy_mag": 2.1498744314995366, "train/policy_entropy_max": 2.1498744314995366, "train/policy_entropy_mean": 1.2012441970299983, "train/policy_entropy_min": 0.07382359420475752, "train/policy_entropy_std": 0.5444367748239766, "train/policy_logprob_mag": 6.7648873536483105, "train/policy_logprob_max": -0.009625553355916687, "train/policy_logprob_mean": -1.2010479595350183, "train/policy_logprob_min": -6.7648873536483105, "train/policy_logprob_std": 1.0922373101331186, "train/policy_randomness_mag": 0.9784500123797983, "train/policy_randomness_max": 0.9784500123797983, "train/policy_randomness_mean": 0.5467097979524861, "train/policy_randomness_min": 0.03359856526704802, "train/policy_randomness_std": 0.24778385287609653, "train/post_ent_mag": 53.44881676936495, "train/post_ent_max": 53.44881676936495, "train/post_ent_mean": 38.8651141843934, "train/post_ent_min": 24.835053651229195, "train/post_ent_std": 3.9285354095956553, "train/prior_ent_mag": 74.476275678994, "train/prior_ent_max": 74.476275678994, "train/prior_ent_mean": 42.97331110636393, "train/prior_ent_min": 30.427438735961914, "train/prior_ent_std": 6.372790053270865, "train/rep_loss_mean": 4.158957605776579, "train/rep_loss_std": 6.194255317466847, "train/reward_avg": 1.1016757246376812, "train/reward_loss_mean": 0.05907501698728057, "train/reward_loss_std": 0.23984606391277866, "train/reward_max_data": 182.17391304347825, "train/reward_max_pred": 141.70129843725675, "train/reward_neg_acc": 0.9758689006169637, "train/reward_neg_loss": 0.0064333027272579675, "train/reward_pos_acc": 0.993783624275871, "train/reward_pos_loss": 0.6573823586754177, "train/reward_pred": 0.9712427090043607, "train/reward_rate": 0.0814934329710145, "train_stats/mean_log_entropy": 1.1006535291671753, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.6365134292282164e-05, "report/cont_loss_std": 0.0008687268127687275, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0005198103608563542, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.589256084524095e-05, "report/cont_pred": 0.9989884495735168, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.052053451538086, "report/dyn_loss_std": 6.218936443328857, "report/image_loss_mean": 2.331939935684204, "report/image_loss_std": 1.8142982721328735, "report/model_loss_mean": 4.8275651931762695, "report/model_loss_std": 5.187603950500488, "report/post_ent_mag": 51.45945739746094, "report/post_ent_max": 51.45945739746094, "report/post_ent_mean": 39.289451599121094, "report/post_ent_min": 23.804473876953125, "report/post_ent_std": 3.892965793609619, "report/prior_ent_mag": 74.57905578613281, "report/prior_ent_max": 74.57905578613281, "report/prior_ent_mean": 43.619224548339844, "report/prior_ent_min": 31.907594680786133, "report/prior_ent_std": 6.14482307434082, "report/rep_loss_mean": 4.052053451538086, "report/rep_loss_std": 6.218936443328857, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.06435685604810715, "report/reward_loss_std": 0.1915351003408432, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.61940383911133, "report/reward_neg_acc": 0.9792349934577942, "report/reward_neg_loss": 0.005224555265158415, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5607426762580872, "report/reward_pred": 1.1069376468658447, "report/reward_rate": 0.1064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.005810985341668129, "eval/cont_loss_std": 0.1858159601688385, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.949017524719238, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3990229490445927e-06, "eval/cont_pred": 0.9999960660934448, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.576615333557129, "eval/dyn_loss_std": 11.848250389099121, "eval/image_loss_mean": 6.424560070037842, "eval/image_loss_std": 4.577357292175293, "eval/model_loss_mean": 15.093623161315918, "eval/model_loss_std": 11.448943138122559, "eval/post_ent_mag": 53.77633285522461, "eval/post_ent_max": 53.77633285522461, "eval/post_ent_mean": 38.91096115112305, "eval/post_ent_min": 26.70360565185547, "eval/post_ent_std": 4.467720031738281, "eval/prior_ent_mag": 74.57905578613281, "eval/prior_ent_max": 74.57905578613281, "eval/prior_ent_mean": 42.232147216796875, "eval/prior_ent_min": 30.498119354248047, "eval/prior_ent_std": 5.828416347503662, "eval/rep_loss_mean": 13.576615333557129, "eval/rep_loss_std": 11.848250389099121, "eval/reward_avg": 0.458984375, "eval/reward_loss_mean": 0.5172820091247559, "eval/reward_loss_std": 2.4806571006774902, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006086349487305, "eval/reward_neg_acc": 0.9488229155540466, "eval/reward_neg_loss": 0.08114729076623917, "eval/reward_pos_acc": 0.1489361673593521, "eval/reward_pos_loss": 9.583316802978516, "eval/reward_pred": 0.20869675278663635, "eval/reward_rate": 0.0458984375, "replay/size": 49292.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.772150550864272e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1015694148258791e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0281801223754883e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1417121887207, "timer/env.step_count": 694.0, "timer/env.step_total": 2.2595295906066895, "timer/env.step_frac": 0.0075282091720259145, "timer/env.step_avg": 0.003255806326522607, "timer/env.step_min": 0.0021932125091552734, "timer/env.step_max": 0.022448062896728516, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 201.24274396896362, "timer/replay._sample_frac": 0.6704924234004097, "timer/replay._sample_avg": 0.018123445962622806, "timer/replay._sample_min": 0.0004851818084716797, "timer/replay._sample_max": 0.050444841384887695, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.85168290138245, "timer/agent.policy_frac": 0.662525982980833, "timer/agent.policy_avg": 0.28652980245155973, "timer/agent.policy_min": 0.002808094024658203, "timer/agent.policy_max": 0.33278489112854004, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08463454246520996, "timer/dataset_train_frac": 0.0002819819406240814, "timer/dataset_train_avg": 0.00012195179029569158, "timer/dataset_train_min": 7.796287536621094e-05, "timer/dataset_train_max": 0.0003914833068847656, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.69416785240173, "timer/agent.train_frac": 0.32549347153378794, "timer/agent.train_avg": 0.14076969431181807, "timer/agent.train_min": 0.10320520401000977, "timer/agent.train_max": 0.4512333869934082, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5112960338592529, "timer/agent.report_frac": 0.0017035154165368535, "timer/agent.report_avg": 0.25564801692962646, "timer/agent.report_min": 0.11399316787719727, "timer/agent.report_max": 0.39730286598205566, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011515617370605469, "timer/dataset_eval_frac": 3.8367267537158484e-07, "timer/dataset_eval_avg": 0.00011515617370605469, "timer/dataset_eval_min": 0.00011515617370605469, "timer/dataset_eval_max": 0.00011515617370605469, "fps": 9.248740749800975}
+{"step": 199608, "episode/length": 762.0, "episode/score": 1280.0, "episode/reward_rate": 0.08125819134993446}
+{"step": 200264, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.610563036421655, "train/action_min": 0.0, "train/action_std": 2.922911476081526, "train/actor_opt_grad_norm": 0.010748653161064001, "train/actor_opt_grad_steps": 48610.0, "train/actor_opt_loss": 0.003253422225485261, "train/adv_mag": 0.8690336056998078, "train/adv_max": 0.8408688197673206, "train/adv_mean": 0.004440803761688482, "train/adv_min": -0.5839878610322173, "train/adv_std": 0.04918078923414291, "train/cont_avg": 0.9983494718309859, "train/cont_loss_mean": 0.0003342925989299992, "train/cont_loss_std": 0.009134047442565463, "train/cont_neg_acc": 0.9471264378777866, "train/cont_neg_loss": 0.10836121657892614, "train/cont_pos_acc": 0.9999862153765181, "train/cont_pos_loss": 0.00010618567211030524, "train/cont_pred": 0.9983767581657624, "train/cont_rate": 0.9983494718309859, "train/dyn_loss_mean": 4.164245890899443, "train/dyn_loss_std": 6.136617432177906, "train/extr_critic_critic_opt_grad_norm": 2.0274429119808572, "train/extr_critic_critic_opt_grad_steps": 48610.0, "train/extr_critic_critic_opt_loss": 1.5393856360878744, "train/extr_critic_mag": 394.2481272522832, "train/extr_critic_max": 394.2481272522832, "train/extr_critic_mean": 144.68171713385783, "train/extr_critic_min": 0.0390689020425501, "train/extr_critic_std": 104.24787376296352, "train/extr_return_normed_mag": 1.463013465975372, "train/extr_return_normed_max": 1.463013465975372, "train/extr_return_normed_mean": 0.4492418329480668, "train/extr_return_normed_min": -0.013275072660664437, "train/extr_return_normed_std": 0.33602910625263, "train/extr_return_rate": 0.9281929051372367, "train/extr_return_raw_mag": 466.0860866492903, "train/extr_return_raw_max": 466.0860866492903, "train/extr_return_raw_mean": 146.08256702691736, "train/extr_return_raw_min": 0.10887108397879966, "train/extr_return_raw_std": 106.08217448919592, "train/extr_reward_mag": 200.24098596438554, "train/extr_reward_max": 200.24098596438554, "train/extr_reward_mean": 0.8878302876378449, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.892759025936395, "train/image_loss_mean": 2.2222107816749896, "train/image_loss_std": 1.78763987648655, "train/model_loss_mean": 4.780936785147223, "train/model_loss_std": 5.127406012844032, "train/model_opt_grad_norm": 14.537787880696042, "train/model_opt_grad_steps": 48610.0, "train/model_opt_loss": 4.780936785147223, "train/policy_entropy_mag": 2.156956091733046, "train/policy_entropy_max": 2.156956091733046, "train/policy_entropy_mean": 1.2195992780403353, "train/policy_entropy_min": 0.07344932623312507, "train/policy_entropy_std": 0.5456447903539093, "train/policy_logprob_mag": 6.757283204038378, "train/policy_logprob_max": -0.009556964931773469, "train/policy_logprob_mean": -1.220491454634868, "train/policy_logprob_min": -6.757283204038378, "train/policy_logprob_std": 1.0951678366728232, "train/policy_randomness_mag": 0.9816730114775645, "train/policy_randomness_max": 0.9816730114775645, "train/policy_randomness_mean": 0.5550635440248839, "train/policy_randomness_min": 0.033428228814417205, "train/policy_randomness_std": 0.24833364197066132, "train/post_ent_mag": 53.55840575527137, "train/post_ent_max": 53.55840575527137, "train/post_ent_mean": 38.93347382881272, "train/post_ent_min": 24.825799700240015, "train/post_ent_std": 3.995541166251814, "train/prior_ent_mag": 74.61420784533864, "train/prior_ent_max": 74.61420784533864, "train/prior_ent_mean": 43.05807924942231, "train/prior_ent_min": 30.366868301176687, "train/prior_ent_std": 6.424406750101439, "train/rep_loss_mean": 4.164245890899443, "train/rep_loss_std": 6.136617432177906, "train/reward_avg": 1.1449163732394365, "train/reward_loss_mean": 0.0598441937964567, "train/reward_loss_std": 0.23941084826496287, "train/reward_max_data": 203.80281690140845, "train/reward_max_pred": 176.94855304503105, "train/reward_neg_acc": 0.9734409955185903, "train/reward_neg_loss": 0.007375166923607844, "train/reward_pos_acc": 0.9938829658736645, "train/reward_pos_loss": 0.6543448340724891, "train/reward_pred": 1.032358037753844, "train/reward_rate": 0.0808896346830986, "train_stats/mean_log_entropy": 1.2993992567062378, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.6536528164579067e-06, "report/cont_loss_std": 2.1998272131895646e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00017342074715998024, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4857475889584748e-06, "report/cont_pred": 0.9990221261978149, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.9984235763549805, "report/dyn_loss_std": 5.952081680297852, "report/image_loss_mean": 2.1917710304260254, "report/image_loss_std": 1.8070787191390991, "report/model_loss_mean": 4.656952381134033, "report/model_loss_std": 5.0246052742004395, "report/post_ent_mag": 53.05513381958008, "report/post_ent_max": 53.05513381958008, "report/post_ent_mean": 39.17716979980469, "report/post_ent_min": 26.57596778869629, "report/post_ent_std": 4.248879432678223, "report/prior_ent_mag": 74.2886962890625, "report/prior_ent_max": 74.2886962890625, "report/prior_ent_mean": 43.70964050292969, "report/prior_ent_min": 31.106719970703125, "report/prior_ent_std": 6.632507801055908, "report/rep_loss_mean": 3.9984235763549805, "report/rep_loss_std": 5.952081680297852, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.06612542271614075, "report/reward_loss_std": 0.2276773899793625, "report/reward_max_data": 50.0, "report/reward_max_pred": 10.0158052444458, "report/reward_neg_acc": 0.969924807548523, "report/reward_neg_loss": 0.010088145732879639, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6271007061004639, "report/reward_pred": 0.8729543089866638, "report/reward_rate": 0.0908203125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.6465359919948241e-07, "eval/cont_loss_std": 4.4743710532202385e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6465359919948241e-07, "eval/cont_pred": 0.9999998211860657, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 11.105632781982422, "eval/dyn_loss_std": 10.02841567993164, "eval/image_loss_mean": 5.347542762756348, "eval/image_loss_std": 3.9621028900146484, "eval/model_loss_mean": 12.575748443603516, "eval/model_loss_std": 9.776209831237793, "eval/post_ent_mag": 51.148963928222656, "eval/post_ent_max": 51.148963928222656, "eval/post_ent_mean": 36.04001235961914, "eval/post_ent_min": 26.244497299194336, "eval/post_ent_std": 3.3558030128479004, "eval/prior_ent_mag": 74.2886962890625, "eval/prior_ent_max": 74.2886962890625, "eval/prior_ent_mean": 40.94700622558594, "eval/prior_ent_min": 29.499910354614258, "eval/prior_ent_std": 5.497409820556641, "eval/rep_loss_mean": 11.105632781982422, "eval/rep_loss_std": 10.02841567993164, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.5648253560066223, "eval/reward_loss_std": 2.9130842685699463, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999570846557617, "eval/reward_neg_acc": 0.9136179685592651, "eval/reward_neg_loss": 0.12136607617139816, "eval/reward_pos_acc": 0.2750000059604645, "eval/reward_pos_loss": 11.47392463684082, "eval/reward_pred": 0.2795020341873169, "eval/reward_rate": 0.0390625, "replay/size": 50003.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.685159761023756e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4210803599297246e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3560056686401367e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.26307344436646, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8189053535461426, "timer/env.step_frac": 0.009388118629473887, "timer/env.step_avg": 0.0039647051386021695, "timer/env.step_min": 0.0021431446075439453, "timer/env.step_max": 0.022533178329467773, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 192.05022263526917, "timer/replay._sample_frac": 0.6396065304741935, "timer/replay._sample_avg": 0.016882051919415362, "timer/replay._sample_min": 0.000652313232421875, "timer/replay._sample_max": 0.04552626609802246, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.554922580719, "timer/agent.policy_frac": 0.6612698667973496, "timer/agent.policy_avg": 0.2792614944876498, "timer/agent.policy_min": 0.003069639205932617, "timer/agent.policy_max": 0.33698225021362305, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.0917353630065918, "timer/dataset_train_frac": 0.00030551663231272684, "timer/dataset_train_avg": 0.00012902301407396877, "timer/dataset_train_min": 7.581710815429688e-05, "timer/dataset_train_max": 0.000553131103515625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.74638748168945, "timer/agent.train_frac": 0.32553582550269927, "timer/agent.train_avg": 0.13747733823022426, "timer/agent.train_min": 0.09987616539001465, "timer/agent.train_max": 0.44366955757141113, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49759483337402344, "timer/agent.report_frac": 0.001657196230179197, "timer/agent.report_avg": 0.24879741668701172, "timer/agent.report_min": 0.09911656379699707, "timer/agent.report_max": 0.39847826957702637, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.036064147949219e-05, "timer/dataset_eval_frac": 3.009382420653682e-07, "timer/dataset_eval_avg": 9.036064147949219e-05, "timer/dataset_eval_min": 9.036064147949219e-05, "timer/dataset_eval_max": 9.036064147949219e-05, "fps": 9.471364611289493}
+{"step": 202856, "episode/length": 811.0, "episode/score": 940.0, "episode/reward_rate": 0.09975369458128079}
+{"step": 203072, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5162353515625, "train/action_min": 0.0, "train/action_std": 2.9628722531454903, "train/actor_opt_grad_norm": 0.010162083019635507, "train/actor_opt_grad_steps": 49315.0, "train/actor_opt_loss": 0.002031179565788729, "train/adv_mag": 0.7850385746785573, "train/adv_max": 0.7499768120901925, "train/adv_mean": 0.003253618960713668, "train/adv_min": -0.5528997429779597, "train/adv_std": 0.04639054494244712, "train/cont_avg": 0.9984933035714286, "train/cont_loss_mean": 0.0005044678394117088, "train/cont_loss_std": 0.014946216629529375, "train/cont_neg_acc": 0.8969696976921775, "train/cont_neg_loss": 0.29083109954204206, "train/cont_pos_acc": 0.9999720394611359, "train/cont_pos_loss": 0.00012161378786318875, "train/cont_pred": 0.9985423360552107, "train/cont_rate": 0.9984933035714286, "train/dyn_loss_mean": 4.076624393463135, "train/dyn_loss_std": 6.213375738688877, "train/extr_critic_critic_opt_grad_norm": 1.9679955431393215, "train/extr_critic_critic_opt_grad_steps": 49315.0, "train/extr_critic_critic_opt_loss": 1.5507478134972708, "train/extr_critic_mag": 390.8262612479074, "train/extr_critic_max": 390.8262612479074, "train/extr_critic_mean": 140.65695016043526, "train/extr_critic_min": 0.014565987246377128, "train/extr_critic_std": 106.57829339163644, "train/extr_return_normed_mag": 1.376584449836186, "train/extr_return_normed_max": 1.376584449836186, "train/extr_return_normed_mean": 0.4324165399585451, "train/extr_return_normed_min": -0.011330945011494415, "train/extr_return_normed_std": 0.3384320369788579, "train/extr_return_rate": 0.9229660076754433, "train/extr_return_raw_mag": 443.20684988839287, "train/extr_return_raw_max": 443.20684988839287, "train/extr_return_raw_mean": 141.6962523324149, "train/extr_return_raw_min": 0.028730734347897982, "train/extr_return_raw_std": 108.05970186505999, "train/extr_reward_mag": 179.98718129566737, "train/extr_reward_max": 179.98718129566737, "train/extr_reward_mean": 0.8659819143159049, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.434419224943434, "train/image_loss_mean": 2.295653450489044, "train/image_loss_std": 1.922913658618927, "train/model_loss_mean": 4.803582109723773, "train/model_loss_std": 5.300789431163243, "train/model_opt_grad_norm": 14.83346584865025, "train/model_opt_grad_steps": 49315.0, "train/model_opt_loss": 4.803582109723773, "train/policy_entropy_mag": 2.1612746477127076, "train/policy_entropy_max": 2.1612746477127076, "train/policy_entropy_mean": 1.2095468129430498, "train/policy_entropy_min": 0.07261556493384498, "train/policy_entropy_std": 0.5465613488640104, "train/policy_logprob_mag": 6.762844249180385, "train/policy_logprob_max": -0.00942684980109334, "train/policy_logprob_mean": -1.2092783646924155, "train/policy_logprob_min": -6.762844249180385, "train/policy_logprob_std": 1.0978649411882673, "train/policy_randomness_mag": 0.9836384773254394, "train/policy_randomness_max": 0.9836384773254394, "train/policy_randomness_mean": 0.5504884694303785, "train/policy_randomness_min": 0.0330487677029201, "train/policy_randomness_std": 0.2487507905278887, "train/post_ent_mag": 53.69307152884347, "train/post_ent_max": 53.69307152884347, "train/post_ent_mean": 38.60820198059082, "train/post_ent_min": 24.89706450871059, "train/post_ent_std": 3.9815840210233415, "train/prior_ent_mag": 74.67634015764509, "train/prior_ent_max": 74.67634015764509, "train/prior_ent_mean": 42.81295678274972, "train/prior_ent_min": 30.411702864510673, "train/prior_ent_std": 6.508694015230451, "train/rep_loss_mean": 4.076624393463135, "train/rep_loss_std": 6.213375738688877, "train/reward_avg": 1.1339285714285714, "train/reward_loss_mean": 0.061449499587927545, "train/reward_loss_std": 0.2544354783637183, "train/reward_max_data": 182.14285714285714, "train/reward_max_pred": 161.7828914778573, "train/reward_neg_acc": 0.9730043649673462, "train/reward_neg_loss": 0.007541154682569738, "train/reward_pos_acc": 0.9918468824454716, "train/reward_pos_loss": 0.6716016343661717, "train/reward_pred": 1.0273922788245338, "train/reward_rate": 0.08136160714285715, "train_stats/mean_log_entropy": 0.9978943467140198, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.276594284784551e-08, "report/cont_loss_std": 5.317619411471242e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.276594284784551e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.332489013671875, "report/dyn_loss_std": 5.554817199707031, "report/image_loss_mean": 1.8397201299667358, "report/image_loss_std": 1.698843002319336, "report/model_loss_mean": 3.8869752883911133, "report/model_loss_std": 4.586179256439209, "report/post_ent_mag": 52.29887390136719, "report/post_ent_max": 52.29887390136719, "report/post_ent_mean": 37.88524627685547, "report/post_ent_min": 21.83782196044922, "report/post_ent_std": 3.6911115646362305, "report/prior_ent_mag": 74.85506439208984, "report/prior_ent_max": 74.85506439208984, "report/prior_ent_mean": 41.495635986328125, "report/prior_ent_min": 31.757488250732422, "report/prior_ent_std": 6.227456092834473, "report/rep_loss_mean": 3.332489013671875, "report/rep_loss_std": 5.554817199707031, "report/reward_avg": 1.19140625, "report/reward_loss_mean": 0.0477614551782608, "report/reward_loss_std": 0.15710288286209106, "report/reward_max_data": 200.0, "report/reward_max_pred": 193.15313720703125, "report/reward_neg_acc": 0.9797657132148743, "report/reward_neg_loss": 0.00312211224809289, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5408949255943298, "report/reward_pred": 1.1602877378463745, "report/reward_rate": 0.0830078125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.004391958005726337, "eval/cont_loss_std": 0.0846632570028305, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 0.6867346167564392, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0023870335426181555, "eval/cont_pred": 0.9965396523475647, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.498968124389648, "eval/dyn_loss_std": 11.909843444824219, "eval/image_loss_mean": 6.337589263916016, "eval/image_loss_std": 4.867478847503662, "eval/model_loss_mean": 14.511720657348633, "eval/model_loss_std": 11.937986373901367, "eval/post_ent_mag": 55.41044616699219, "eval/post_ent_max": 55.41044616699219, "eval/post_ent_mean": 38.32676315307617, "eval/post_ent_min": 23.53483009338379, "eval/post_ent_std": 4.229646682739258, "eval/prior_ent_mag": 74.85506439208984, "eval/prior_ent_max": 74.85506439208984, "eval/prior_ent_mean": 40.48351287841797, "eval/prior_ent_min": 29.460193634033203, "eval/prior_ent_std": 6.6117329597473145, "eval/rep_loss_mean": 12.498968124389648, "eval/rep_loss_std": 11.909843444824219, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.6703588962554932, "eval/reward_loss_std": 2.894050121307373, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.005572319030762, "eval/reward_neg_acc": 0.9286453127861023, "eval/reward_neg_loss": 0.15726852416992188, "eval/reward_pos_acc": 0.2631579041481018, "eval/reward_pos_loss": 9.374892234802246, "eval/reward_pred": 0.3581162095069885, "eval/reward_rate": 0.0556640625, "replay/size": 50705.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.3623802641518096e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.244459226939753e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1622905731201172e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3208348751068, "timer/env.step_count": 702.0, "timer/env.step_total": 2.566646099090576, "timer/env.step_frac": 0.00854634710961015, "timer/env.step_avg": 0.00365619102434555, "timer/env.step_min": 0.0017595291137695312, "timer/env.step_max": 0.016867399215698242, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 196.9444613456726, "timer/replay._sample_frac": 0.6557802139421166, "timer/replay._sample_avg": 0.01753422910841102, "timer/replay._sample_min": 0.00054931640625, "timer/replay._sample_max": 0.04874730110168457, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17559003829956055, "timer/agent.save_frac": 0.0005846748473930637, "timer/agent.save_avg": 0.17559003829956055, "timer/agent.save_min": 0.17559003829956055, "timer/agent.save_max": 0.17559003829956055, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.49649286270142, "timer/agent.policy_frac": 0.6609481255113363, "timer/agent.policy_avg": 0.282758536841455, "timer/agent.policy_min": 0.002825498580932617, "timer/agent.policy_max": 0.35018205642700195, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.0971832275390625, "timer/dataset_train_frac": 0.0003235980200290722, "timer/dataset_train_avg": 0.0001384376460670406, "timer/dataset_train_min": 8.058547973632812e-05, "timer/dataset_train_max": 0.002233743667602539, "timer/agent.train_count": 702.0, "timer/agent.train_total": 97.98564386367798, "timer/agent.train_frac": 0.3262698836876465, "timer/agent.train_avg": 0.13958068926449854, "timer/agent.train_min": 0.1011500358581543, "timer/agent.train_max": 0.4488224983215332, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5247194766998291, "timer/agent.report_frac": 0.0017471963838873918, "timer/agent.report_avg": 0.26235973834991455, "timer/agent.report_min": 0.10298657417297363, "timer/agent.report_max": 0.42173290252685547, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.459785461425781e-05, "timer/dataset_eval_frac": 1.8179842446483342e-07, "timer/dataset_eval_avg": 5.459785461425781e-05, "timer/dataset_eval_min": 5.459785461425781e-05, "timer/dataset_eval_max": 5.459785461425781e-05, "fps": 9.349780602727202}
+{"step": 205480, "episode/length": 655.0, "episode/score": 870.0, "episode/reward_rate": 0.09146341463414634}
+{"step": 205852, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5047075544084825, "train/action_min": 0.0, "train/action_std": 2.959436437061855, "train/actor_opt_grad_norm": 0.009900193827758943, "train/actor_opt_grad_steps": 50015.0, "train/actor_opt_loss": 0.0017333448403016, "train/adv_mag": 0.6822626407657351, "train/adv_max": 0.6578975686005184, "train/adv_mean": 0.0027396988902182785, "train/adv_min": -0.4861345099551337, "train/adv_std": 0.04307225508881467, "train/cont_avg": 0.9982142857142857, "train/cont_loss_mean": 0.0003793131623065652, "train/cont_loss_std": 0.010515572508806567, "train/cont_neg_acc": 0.9444444457689921, "train/cont_neg_loss": 0.12440002084038611, "train/cont_pos_acc": 0.9999720547880445, "train/cont_pos_loss": 0.00011957875148697538, "train/cont_pred": 0.998228806257248, "train/cont_rate": 0.9982142857142857, "train/dyn_loss_mean": 4.078415696961539, "train/dyn_loss_std": 6.245480455671038, "train/extr_critic_critic_opt_grad_norm": 2.036711883544922, "train/extr_critic_critic_opt_grad_steps": 50015.0, "train/extr_critic_critic_opt_loss": 1.5368131245885577, "train/extr_critic_mag": 380.39100472586495, "train/extr_critic_max": 380.39100472586495, "train/extr_critic_mean": 141.408249773298, "train/extr_critic_min": 0.10593301228114536, "train/extr_critic_std": 106.49141845703124, "train/extr_return_normed_mag": 1.2763092458248138, "train/extr_return_normed_max": 1.2763092458248138, "train/extr_return_normed_mean": 0.4355318593127387, "train/extr_return_normed_min": -0.00989605551585555, "train/extr_return_normed_std": 0.3378764054604939, "train/extr_return_rate": 0.9215039525713239, "train/extr_return_raw_mag": 409.8990339006696, "train/extr_return_raw_max": 409.8990339006696, "train/extr_return_raw_mean": 142.2809631347656, "train/extr_return_raw_min": 0.5407524879489626, "train/extr_return_raw_std": 107.50196642194476, "train/extr_reward_mag": 140.2681647981916, "train/extr_reward_max": 140.2681647981916, "train/extr_reward_mean": 0.8273645877838135, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.511888820784432, "train/image_loss_mean": 2.2312025206429618, "train/image_loss_std": 1.857758961405073, "train/model_loss_mean": 4.739077077593122, "train/model_loss_std": 5.24829511642456, "train/model_opt_grad_norm": 14.412079729352678, "train/model_opt_grad_steps": 50015.0, "train/model_opt_loss": 4.739077077593122, "train/policy_entropy_mag": 2.156123185157776, "train/policy_entropy_max": 2.156123185157776, "train/policy_entropy_mean": 1.2010825335979463, "train/policy_entropy_min": 0.07316435884152139, "train/policy_entropy_std": 0.5552743741444179, "train/policy_logprob_mag": 6.756910950796945, "train/policy_logprob_max": -0.009516496863216161, "train/policy_logprob_mean": -1.20175490294184, "train/policy_logprob_min": -6.756910950796945, "train/policy_logprob_std": 1.103085115126201, "train/policy_randomness_mag": 0.9812939430986132, "train/policy_randomness_max": 0.9812939430986132, "train/policy_randomness_mean": 0.5466362110206059, "train/policy_randomness_min": 0.033298534474202564, "train/policy_randomness_std": 0.2527162581682205, "train/post_ent_mag": 54.06366898672921, "train/post_ent_max": 54.06366898672921, "train/post_ent_mean": 38.590923636300225, "train/post_ent_min": 24.656691905430385, "train/post_ent_std": 4.059996914863587, "train/prior_ent_mag": 74.7872549874442, "train/prior_ent_max": 74.7872549874442, "train/prior_ent_mean": 42.75142626081194, "train/prior_ent_min": 30.33374091557094, "train/prior_ent_std": 6.635760654721941, "train/rep_loss_mean": 4.078415696961539, "train/rep_loss_std": 6.245480455671038, "train/reward_avg": 1.0972377232142858, "train/reward_loss_mean": 0.06044585529182638, "train/reward_loss_std": 0.23618495975221906, "train/reward_max_data": 162.57142857142858, "train/reward_max_pred": 118.15286012377058, "train/reward_neg_acc": 0.9736807882785797, "train/reward_neg_loss": 0.006933929559974266, "train/reward_pos_acc": 0.9948864442961557, "train/reward_pos_loss": 0.650028213432857, "train/reward_pred": 0.9559153037411826, "train/reward_rate": 0.08317522321428572, "train_stats/mean_log_entropy": 1.1036438941955566, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.21814365836326e-06, "report/cont_loss_std": 6.747346196789294e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00033506061299704015, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.5707025745068677e-06, "report/cont_pred": 0.9980440139770508, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.787619113922119, "report/dyn_loss_std": 5.888544082641602, "report/image_loss_mean": 2.0614123344421387, "report/image_loss_std": 1.4347920417785645, "report/model_loss_mean": 4.380086898803711, "report/model_loss_std": 4.632016181945801, "report/post_ent_mag": 54.64593505859375, "report/post_ent_max": 54.64593505859375, "report/post_ent_mean": 39.27638626098633, "report/post_ent_min": 24.815876007080078, "report/post_ent_std": 4.351912021636963, "report/prior_ent_mag": 74.79898071289062, "report/prior_ent_max": 74.79898071289062, "report/prior_ent_mean": 43.18305206298828, "report/prior_ent_min": 31.59950828552246, "report/prior_ent_std": 6.6131272315979, "report/rep_loss_mean": 3.787619113922119, "report/rep_loss_std": 5.888544082641602, "report/reward_avg": 0.771484375, "report/reward_loss_mean": 0.04609902203083038, "report/reward_loss_std": 0.18095806241035461, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.97449493408203, "report/reward_neg_acc": 0.9811122417449951, "report/reward_neg_loss": 0.004275916144251823, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6074711084365845, "report/reward_pred": 0.7318391799926758, "report/reward_rate": 0.0693359375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.003802188439294696, "eval/cont_loss_std": 0.0959501713514328, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0002648097288329154, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.0038125822320580482, "eval/cont_pred": 0.9954823851585388, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 14.900148391723633, "eval/dyn_loss_std": 9.803144454956055, "eval/image_loss_mean": 8.470090866088867, "eval/image_loss_std": 4.63815450668335, "eval/model_loss_mean": 18.054521560668945, "eval/model_loss_std": 10.238359451293945, "eval/post_ent_mag": 55.23175811767578, "eval/post_ent_max": 55.23175811767578, "eval/post_ent_mean": 37.412025451660156, "eval/post_ent_min": 25.223201751708984, "eval/post_ent_std": 4.446245193481445, "eval/prior_ent_mag": 74.79898071289062, "eval/prior_ent_max": 74.79898071289062, "eval/prior_ent_mean": 40.54606246948242, "eval/prior_ent_min": 30.953060150146484, "eval/prior_ent_std": 6.416015148162842, "eval/rep_loss_mean": 14.900148391723633, "eval/rep_loss_std": 9.803144454956055, "eval/reward_avg": 0.37109375, "eval/reward_loss_mean": 0.6405391693115234, "eval/reward_loss_std": 3.1002304553985596, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.011971473693848, "eval/reward_neg_acc": 0.9330628514289856, "eval/reward_neg_loss": 0.158120259642601, "eval/reward_pos_acc": 0.1315789520740509, "eval/reward_pos_loss": 13.158041000366211, "eval/reward_pred": 0.2609488368034363, "eval/reward_rate": 0.037109375, "replay/size": 51400.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.7570509876278665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0317821296856557e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0579824447631836e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.37814927101135, "timer/env.step_count": 695.0, "timer/env.step_total": 2.264577627182007, "timer/env.step_frac": 0.007539089087132061, "timer/env.step_avg": 0.0032583850750820243, "timer/env.step_min": 0.001615762710571289, "timer/env.step_max": 0.02554011344909668, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 198.7623643875122, "timer/replay._sample_frac": 0.6617071343900653, "timer/replay._sample_avg": 0.017874313344200737, "timer/replay._sample_min": 0.00055694580078125, "timer/replay._sample_max": 0.05139350891113281, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 199.04701948165894, "timer/agent.policy_frac": 0.6626547901860597, "timer/agent.policy_avg": 0.2863985891822431, "timer/agent.policy_min": 0.0028498172760009766, "timer/agent.policy_max": 0.33977293968200684, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.08473968505859375, "timer/dataset_train_frac": 0.0002821100178699707, "timer/dataset_train_avg": 0.00012192760440085432, "timer/dataset_train_min": 7.915496826171875e-05, "timer/dataset_train_max": 0.0011568069458007812, "timer/agent.train_count": 695.0, "timer/agent.train_total": 97.79067802429199, "timer/agent.train_frac": 0.325558560972629, "timer/agent.train_avg": 0.1407060115457439, "timer/agent.train_min": 0.10325455665588379, "timer/agent.train_max": 0.44867753982543945, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5118396282196045, "timer/agent.report_frac": 0.0017039842260889804, "timer/agent.report_avg": 0.25591981410980225, "timer/agent.report_min": 0.10351300239562988, "timer/agent.report_max": 0.4083266258239746, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.698204040527344e-05, "timer/dataset_eval_frac": 1.8970101701326585e-07, "timer/dataset_eval_avg": 5.698204040527344e-05, "timer/dataset_eval_min": 5.698204040527344e-05, "timer/dataset_eval_max": 5.698204040527344e-05, "fps": 9.254702032419667}
+{"step": 208628, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.458282912986866, "train/action_min": 0.0, "train/action_std": 2.9921157947485, "train/actor_opt_grad_norm": 0.010295922382046347, "train/actor_opt_grad_steps": 50710.0, "train/actor_opt_loss": 0.00264224488526689, "train/adv_mag": 0.8172224034433779, "train/adv_max": 0.8002911832021631, "train/adv_mean": 0.004086697299709962, "train/adv_min": -0.49426113824913465, "train/adv_std": 0.046719408688553864, "train/cont_avg": 0.9984007019927537, "train/cont_loss_mean": 0.00026255932694038415, "train/cont_loss_std": 0.006812268929657559, "train/cont_neg_acc": 0.9694444457689921, "train/cont_neg_loss": 0.07480568172381179, "train/cont_pos_acc": 0.999957427598428, "train/cont_pos_loss": 0.00010023552890603254, "train/cont_pred": 0.9983995392702628, "train/cont_rate": 0.9984007019927537, "train/dyn_loss_mean": 4.082971842392631, "train/dyn_loss_std": 6.294215630793917, "train/extr_critic_critic_opt_grad_norm": 2.072455615237139, "train/extr_critic_critic_opt_grad_steps": 50710.0, "train/extr_critic_critic_opt_loss": 1.5281712041384932, "train/extr_critic_mag": 387.0718817227129, "train/extr_critic_max": 387.0718817227129, "train/extr_critic_mean": 142.72043100992838, "train/extr_critic_min": 0.012111235355985338, "train/extr_critic_std": 104.82847042360167, "train/extr_return_normed_mag": 1.3929526823154394, "train/extr_return_normed_max": 1.3929526823154394, "train/extr_return_normed_mean": 0.44528285532757855, "train/extr_return_normed_min": -0.010506868679616331, "train/extr_return_normed_std": 0.33652358469755755, "train/extr_return_rate": 0.9206512769063314, "train/extr_return_raw_mag": 443.3598416093467, "train/extr_return_raw_max": 443.3598416093467, "train/extr_return_raw_mean": 144.0118898032368, "train/extr_return_raw_min": 0.03592704312093016, "train/extr_return_raw_std": 106.30685800745867, "train/extr_reward_mag": 194.4416006889896, "train/extr_reward_max": 194.4416006889896, "train/extr_reward_mean": 0.8832169144913771, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.722709047621575, "train/image_loss_mean": 2.2362039020096045, "train/image_loss_std": 1.8275392971177031, "train/model_loss_mean": 4.744718057521875, "train/model_loss_std": 5.255952765976173, "train/model_opt_grad_norm": 14.681444513624992, "train/model_opt_grad_steps": 50710.0, "train/model_opt_loss": 4.744718057521875, "train/policy_entropy_mag": 2.154559055964152, "train/policy_entropy_max": 2.154559055964152, "train/policy_entropy_mean": 1.1863171803778496, "train/policy_entropy_min": 0.07273545861244202, "train/policy_entropy_std": 0.5567625415497932, "train/policy_logprob_mag": 6.764316164928934, "train/policy_logprob_max": -0.009443538452404133, "train/policy_logprob_mean": -1.186976140823917, "train/policy_logprob_min": -6.764316164928934, "train/policy_logprob_std": 1.1062214754629827, "train/policy_randomness_mag": 0.9805820757064266, "train/policy_randomness_max": 0.9805820757064266, "train/policy_randomness_mean": 0.5399162078249282, "train/policy_randomness_min": 0.03310333348918652, "train/policy_randomness_std": 0.2533935543851576, "train/post_ent_mag": 54.197103030439735, "train/post_ent_max": 54.197103030439735, "train/post_ent_mean": 38.46432086004727, "train/post_ent_min": 24.6085592629253, "train/post_ent_std": 4.080859757851863, "train/prior_ent_mag": 74.95807647705078, "train/prior_ent_max": 74.95807647705078, "train/prior_ent_mean": 42.62167341812797, "train/prior_ent_min": 29.95530717269234, "train/prior_ent_std": 6.633374317832615, "train/rep_loss_mean": 4.082971842392631, "train/rep_loss_std": 6.294215630793917, "train/reward_avg": 1.1744225543478262, "train/reward_loss_mean": 0.05846849639994511, "train/reward_loss_std": 0.23225196019031, "train/reward_max_data": 210.14492753623188, "train/reward_max_pred": 179.28040382827538, "train/reward_neg_acc": 0.9747240396513455, "train/reward_neg_loss": 0.00702405645026137, "train/reward_pos_acc": 0.9956352805745774, "train/reward_pos_loss": 0.64817851609078, "train/reward_pred": 1.0367909557577493, "train/reward_rate": 0.08034703351449275, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0014427091227844357, "report/cont_loss_std": 0.04392867535352707, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.7100494503974915, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.6003274949034676e-05, "report/cont_pred": 0.9987423419952393, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.3744068145751953, "report/dyn_loss_std": 5.882540702819824, "report/image_loss_mean": 1.6973726749420166, "report/image_loss_std": 1.604433298110962, "report/model_loss_mean": 3.7814979553222656, "report/model_loss_std": 4.757607460021973, "report/post_ent_mag": 55.11321258544922, "report/post_ent_max": 55.11321258544922, "report/post_ent_mean": 37.18562316894531, "report/post_ent_min": 25.237071990966797, "report/post_ent_std": 4.038376808166504, "report/prior_ent_mag": 75.04007720947266, "report/prior_ent_max": 75.04007720947266, "report/prior_ent_mean": 41.117645263671875, "report/prior_ent_min": 28.758716583251953, "report/prior_ent_std": 6.971919059753418, "report/rep_loss_mean": 3.3744068145751953, "report/rep_loss_std": 5.882540702819824, "report/reward_avg": 1.50390625, "report/reward_loss_mean": 0.05803830176591873, "report/reward_loss_std": 0.19615434110164642, "report/reward_max_data": 400.0, "report/reward_max_pred": 359.0814208984375, "report/reward_neg_acc": 0.9817204475402832, "report/reward_neg_loss": 0.006893152836710215, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5640488266944885, "report/reward_pred": 1.4345706701278687, "report/reward_rate": 0.091796875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.03646530956029892, "eval/cont_loss_std": 0.825653076171875, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 18.670230865478516, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6481955356084654e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.889442443847656, "eval/dyn_loss_std": 12.004603385925293, "eval/image_loss_mean": 5.471001625061035, "eval/image_loss_std": 4.710684299468994, "eval/model_loss_mean": 13.278873443603516, "eval/model_loss_std": 11.971198081970215, "eval/post_ent_mag": 55.88733673095703, "eval/post_ent_max": 55.88733673095703, "eval/post_ent_mean": 35.971439361572266, "eval/post_ent_min": 27.245540618896484, "eval/post_ent_std": 3.8718111515045166, "eval/prior_ent_mag": 75.04007720947266, "eval/prior_ent_max": 75.04007720947266, "eval/prior_ent_mean": 38.86220932006836, "eval/prior_ent_min": 29.227806091308594, "eval/prior_ent_std": 6.150684833526611, "eval/rep_loss_mean": 11.889442443847656, "eval/rep_loss_std": 12.004603385925293, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.637741208076477, "eval/reward_loss_std": 3.1427855491638184, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007434844970703, "eval/reward_neg_acc": 0.949795126914978, "eval/reward_neg_loss": 0.12290206551551819, "eval/reward_pos_acc": 0.25, "eval/reward_pos_loss": 11.106136322021484, "eval/reward_pred": 0.2622673809528351, "eval/reward_rate": 0.046875, "replay/size": 52094.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 8.007978499794555e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0409341421869372e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.130866050720215e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0529856681824, "timer/env.step_count": 694.0, "timer/env.step_total": 2.2430789470672607, "timer/env.step_frac": 0.007475609489677932, "timer/env.step_avg": 0.0032321022292035456, "timer/env.step_min": 0.0021560192108154297, "timer/env.step_max": 0.01796269416809082, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 199.81391310691833, "timer/replay._sample_frac": 0.6659287614217752, "timer/replay._sample_avg": 0.01799476883167492, "timer/replay._sample_min": 0.0005011558532714844, "timer/replay._sample_max": 0.04942011833190918, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.99255275726318, "timer/agent.policy_frac": 0.6631913770633889, "timer/agent.policy_avg": 0.2867327849528288, "timer/agent.policy_min": 0.0028426647186279297, "timer/agent.policy_max": 0.33751654624938965, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08283543586730957, "timer/dataset_train_frac": 0.0002760693604925973, "timer/dataset_train_avg": 0.00011935941767623857, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 0.000492095947265625, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.52089929580688, "timer/agent.train_frac": 0.3250122610132988, "timer/agent.train_avg": 0.14052002780375633, "timer/agent.train_min": 0.10189056396484375, "timer/agent.train_max": 0.4578890800476074, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5001139640808105, "timer/agent.report_frac": 0.0016667521670118233, "timer/agent.report_avg": 0.2500569820404053, "timer/agent.report_min": 0.1018822193145752, "timer/agent.report_max": 0.39823174476623535, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001366138458251953, "timer/dataset_eval_frac": 4.5529907166553435e-07, "timer/dataset_eval_avg": 0.0001366138458251953, "timer/dataset_eval_min": 0.0001366138458251953, "timer/dataset_eval_max": 0.0001366138458251953, "fps": 9.251021451394179}
+{"step": 209100, "episode/length": 904.0, "episode/score": 970.0, "episode/reward_rate": 0.09834254143646409}
+{"step": 211468, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.616595201089349, "train/action_min": 0.0, "train/action_std": 2.9300819551441033, "train/actor_opt_grad_norm": 0.009949818155138006, "train/actor_opt_grad_steps": 51410.0, "train/actor_opt_loss": 0.0019403784071598661, "train/adv_mag": 0.7848691382038762, "train/adv_max": 0.7675591677847043, "train/adv_mean": 0.0034555496224936474, "train/adv_min": -0.4825769075205628, "train/adv_std": 0.04436916060430903, "train/cont_avg": 0.9982531910211268, "train/cont_loss_mean": 0.00021538587645944087, "train/cont_loss_std": 0.005804022902524799, "train/cont_neg_acc": 0.9704301078473369, "train/cont_neg_loss": 0.08607266892672229, "train/cont_pos_acc": 0.9999862153765181, "train/cont_pos_loss": 8.83586952761141e-05, "train/cont_pred": 0.998250554145222, "train/cont_rate": 0.9982531910211268, "train/dyn_loss_mean": 4.091910426045807, "train/dyn_loss_std": 6.257050406764931, "train/extr_critic_critic_opt_grad_norm": 2.059850660847946, "train/extr_critic_critic_opt_grad_steps": 51410.0, "train/extr_critic_critic_opt_loss": 1.5252733851822329, "train/extr_critic_mag": 386.81966647295883, "train/extr_critic_max": 386.81966647295883, "train/extr_critic_mean": 142.2973638185313, "train/extr_critic_min": 0.017475633554055656, "train/extr_critic_std": 105.50185222357092, "train/extr_return_normed_mag": 1.3879203510956026, "train/extr_return_normed_max": 1.3879203510956026, "train/extr_return_normed_mean": 0.4406634208182214, "train/extr_return_normed_min": -0.012789576078279756, "train/extr_return_normed_std": 0.33837220828298115, "train/extr_return_rate": 0.9257492062071679, "train/extr_return_raw_mag": 442.8630848199549, "train/extr_return_raw_max": 442.8630848199549, "train/extr_return_raw_mean": 143.39038397560657, "train/extr_return_raw_min": 0.008859684908906864, "train/extr_return_raw_std": 106.99234997386664, "train/extr_reward_mag": 180.40017412749813, "train/extr_reward_max": 180.40017412749813, "train/extr_reward_mean": 0.8509044407958716, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.247140461290386, "train/image_loss_mean": 2.1782052231506563, "train/image_loss_std": 1.7865540511171583, "train/model_loss_mean": 4.69228227037779, "train/model_loss_std": 5.192997388436761, "train/model_opt_grad_norm": 13.883879218302981, "train/model_opt_grad_steps": 51410.0, "train/model_opt_loss": 4.69228227037779, "train/policy_entropy_mag": 2.157679514146187, "train/policy_entropy_max": 2.157679514146187, "train/policy_entropy_mean": 1.2047215935210107, "train/policy_entropy_min": 0.07364814487141623, "train/policy_entropy_std": 0.5575705485444673, "train/policy_logprob_mag": 6.761576686106937, "train/policy_logprob_max": -0.00958388025911761, "train/policy_logprob_mean": -1.2041765082050377, "train/policy_logprob_min": -6.761576686106937, "train/policy_logprob_std": 1.1048234684366576, "train/policy_randomness_mag": 0.9820022591402833, "train/policy_randomness_max": 0.9820022591402833, "train/policy_randomness_mean": 0.5482924274155792, "train/policy_randomness_min": 0.03351871501392042, "train/policy_randomness_std": 0.25376128940515114, "train/post_ent_mag": 54.28448056503081, "train/post_ent_max": 54.28448056503081, "train/post_ent_mean": 38.51715721882565, "train/post_ent_min": 24.128767846335826, "train/post_ent_std": 4.091902836947374, "train/prior_ent_mag": 75.05031897316516, "train/prior_ent_max": 75.05031897316516, "train/prior_ent_mean": 42.682863907075266, "train/prior_ent_min": 29.914635537375865, "train/prior_ent_std": 6.64541559488001, "train/rep_loss_mean": 4.091910426045807, "train/rep_loss_std": 6.257050406764931, "train/reward_avg": 1.1355633802816902, "train/reward_loss_mean": 0.05871542913078422, "train/reward_loss_std": 0.23054157407350942, "train/reward_max_data": 195.6338028169014, "train/reward_max_pred": 154.53311732117558, "train/reward_neg_acc": 0.9751032935061925, "train/reward_neg_loss": 0.006802663651399944, "train/reward_pos_acc": 0.994671105498999, "train/reward_pos_loss": 0.6453810359390688, "train/reward_pred": 1.0104847844217864, "train/reward_rate": 0.08106844190140845, "train_stats/mean_log_entropy": 1.1036192178726196, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.000242657566559501, "report/cont_loss_std": 0.007582574151456356, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0004934457829222083, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00024167407536879182, "report/cont_pred": 0.9958815574645996, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 3.743819236755371, "report/dyn_loss_std": 6.422867774963379, "report/image_loss_mean": 1.9540784358978271, "report/image_loss_std": 1.761765718460083, "report/model_loss_mean": 4.252762794494629, "report/model_loss_std": 5.247863292694092, "report/post_ent_mag": 54.8586540222168, "report/post_ent_max": 54.8586540222168, "report/post_ent_mean": 37.90833282470703, "report/post_ent_min": 24.201736450195312, "report/post_ent_std": 3.909215211868286, "report/prior_ent_mag": 75.20854187011719, "report/prior_ent_max": 75.20854187011719, "report/prior_ent_mean": 41.617462158203125, "report/prior_ent_min": 26.586894989013672, "report/prior_ent_std": 6.667050361633301, "report/rep_loss_mean": 3.743819236755371, "report/rep_loss_std": 6.422867774963379, "report/reward_avg": 0.830078125, "report/reward_loss_mean": 0.05215051770210266, "report/reward_loss_std": 0.25042271614074707, "report/reward_max_data": 200.0, "report/reward_max_pred": 196.0679168701172, "report/reward_neg_acc": 0.980167031288147, "report/reward_neg_loss": 0.006361396051943302, "report/reward_pos_acc": 0.9848484396934509, "report/reward_pos_loss": 0.7167865633964539, "report/reward_pred": 0.7821819186210632, "report/reward_rate": 0.064453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.003744925605133176, "eval/cont_loss_std": 0.09446660429239273, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.6605768203735352, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0005025934660807252, "eval/cont_pred": 0.9987998604774475, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.729848861694336, "eval/dyn_loss_std": 11.567702293395996, "eval/image_loss_mean": 5.582935810089111, "eval/image_loss_std": 4.995082855224609, "eval/model_loss_mean": 13.164978981018066, "eval/model_loss_std": 12.016568183898926, "eval/post_ent_mag": 55.729637145996094, "eval/post_ent_max": 55.729637145996094, "eval/post_ent_mean": 36.62057113647461, "eval/post_ent_min": 26.782724380493164, "eval/post_ent_std": 4.130679607391357, "eval/prior_ent_mag": 75.20854187011719, "eval/prior_ent_max": 75.20854187011719, "eval/prior_ent_mean": 39.55537414550781, "eval/prior_ent_min": 31.850624084472656, "eval/prior_ent_std": 6.5814208984375, "eval/rep_loss_mean": 11.729848861694336, "eval/rep_loss_std": 11.567702293395996, "eval/reward_avg": 0.419921875, "eval/reward_loss_mean": 0.5403891801834106, "eval/reward_loss_std": 2.8552138805389404, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009065628051758, "eval/reward_neg_acc": 0.9449540972709656, "eval/reward_neg_loss": 0.10278228670358658, "eval/reward_pos_acc": 0.3255814015865326, "eval/reward_pos_loss": 10.523932456970215, "eval/reward_pred": 0.24754367768764496, "eval/reward_rate": 0.0419921875, "replay/size": 52804.0, "replay/inserts": 710.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 5.5709355314012985e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4207102883029992e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.01139783859253, "timer/env.step_count": 710.0, "timer/env.step_total": 2.7823047637939453, "timer/env.step_frac": 0.009273996867581803, "timer/env.step_avg": 0.003918739103935134, "timer/env.step_min": 0.0022313594818115234, "timer/env.step_max": 0.018950939178466797, "timer/replay._sample_count": 11360.0, "timer/replay._sample_total": 190.7889370918274, "timer/replay._sample_frac": 0.6359389625405922, "timer/replay._sample_avg": 0.016794800800336917, "timer/replay._sample_min": 0.0005373954772949219, "timer/replay._sample_max": 0.06453967094421387, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1394188404083252, "timer/agent.save_frac": 0.0004647118123269875, "timer/agent.save_avg": 0.1394188404083252, "timer/agent.save_min": 0.1394188404083252, "timer/agent.save_max": 0.1394188404083252, "timer/agent.policy_count": 710.0, "timer/agent.policy_total": 198.4216935634613, "timer/agent.policy_frac": 0.6613805175169146, "timer/agent.policy_avg": 0.2794671740330441, "timer/agent.policy_min": 0.003203153610229492, "timer/agent.policy_max": 0.38886141777038574, "timer/dataset_train_count": 710.0, "timer/dataset_train_total": 0.09535431861877441, "timer/dataset_train_frac": 0.0003178356532643319, "timer/dataset_train_avg": 0.00013430185720954144, "timer/dataset_train_min": 7.152557373046875e-05, "timer/dataset_train_max": 0.0004508495330810547, "timer/agent.train_count": 710.0, "timer/agent.train_total": 97.64839911460876, "timer/agent.train_frac": 0.32548229773304826, "timer/agent.train_avg": 0.13753295649944897, "timer/agent.train_min": 0.09948563575744629, "timer/agent.train_max": 0.4398665428161621, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5023949146270752, "timer/agent.report_frac": 0.001674586093216918, "timer/agent.report_avg": 0.2511974573135376, "timer/agent.report_min": 0.10471296310424805, "timer/agent.report_max": 0.39768195152282715, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.267692565917969e-05, "timer/dataset_eval_frac": 1.4225101435026167e-07, "timer/dataset_eval_avg": 4.267692565917969e-05, "timer/dataset_eval_min": 4.267692565917969e-05, "timer/dataset_eval_max": 4.267692565917969e-05, "fps": 9.465993029001726}
+{"step": 212620, "episode/length": 879.0, "episode/score": 1620.0, "episode/reward_rate": 0.10909090909090909}
+{"step": 214276, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.577126639229911, "train/action_min": 0.0, "train/action_std": 2.8723717621394567, "train/actor_opt_grad_norm": 0.01056277435272932, "train/actor_opt_grad_steps": 52115.0, "train/actor_opt_loss": 0.002355623291909329, "train/adv_mag": 0.7924479182277407, "train/adv_max": 0.7668058514595032, "train/adv_mean": 0.003704298768882706, "train/adv_min": -0.5276339513914926, "train/adv_std": 0.045164532853024346, "train/cont_avg": 0.9984933035714286, "train/cont_loss_mean": 0.00021578721011164932, "train/cont_loss_std": 0.006231979091389458, "train/cont_neg_acc": 0.951977401466693, "train/cont_neg_loss": 0.09472326070255989, "train/cont_pos_acc": 0.9999720420156206, "train/cont_pos_loss": 9.576180760795567e-05, "train/cont_pred": 0.9985016533306666, "train/cont_rate": 0.9984933035714286, "train/dyn_loss_mean": 3.9974447795322963, "train/dyn_loss_std": 6.248340102604457, "train/extr_critic_critic_opt_grad_norm": 2.1045214142118183, "train/extr_critic_critic_opt_grad_steps": 52115.0, "train/extr_critic_critic_opt_loss": 1.5177246638706752, "train/extr_critic_mag": 382.50687343052454, "train/extr_critic_max": 382.50687343052454, "train/extr_critic_mean": 145.05535932268415, "train/extr_critic_min": 0.0031342966215951104, "train/extr_critic_std": 106.03184476579939, "train/extr_return_normed_mag": 1.3482045190674918, "train/extr_return_normed_max": 1.3482045190674918, "train/extr_return_normed_mean": 0.4442808393921171, "train/extr_return_normed_min": -0.011898457697991813, "train/extr_return_normed_std": 0.33519851522786276, "train/extr_return_rate": 0.9305618047714234, "train/extr_return_raw_mag": 436.0588383265904, "train/extr_return_raw_max": 436.0588383265904, "train/extr_return_raw_mean": 146.24231491088867, "train/extr_return_raw_min": 0.0035658922545345768, "train/extr_return_raw_std": 107.46767970493862, "train/extr_reward_mag": 190.70427060808456, "train/extr_reward_max": 190.70427060808456, "train/extr_reward_mean": 0.8790574899741581, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.546176832062858, "train/image_loss_mean": 2.174705927712577, "train/image_loss_std": 1.820355522632599, "train/model_loss_mean": 4.629951007025582, "train/model_loss_std": 5.229454135894775, "train/model_opt_grad_norm": 13.991538619995117, "train/model_opt_grad_steps": 52115.0, "train/model_opt_loss": 4.629951007025582, "train/policy_entropy_mag": 2.1589936086109707, "train/policy_entropy_max": 2.1589936086109707, "train/policy_entropy_mean": 1.2070374727249145, "train/policy_entropy_min": 0.07360055819153785, "train/policy_entropy_std": 0.5549304574728012, "train/policy_logprob_mag": 6.764353166307722, "train/policy_logprob_max": -0.009579609228031976, "train/policy_logprob_mean": -1.205695103747504, "train/policy_logprob_min": -6.764353166307722, "train/policy_logprob_std": 1.1077066046851023, "train/policy_randomness_mag": 0.9826003261974879, "train/policy_randomness_max": 0.9826003261974879, "train/policy_randomness_mean": 0.549346416762897, "train/policy_randomness_min": 0.03349705732294491, "train/policy_randomness_std": 0.25255973424230305, "train/post_ent_mag": 54.31021434238979, "train/post_ent_max": 54.31021434238979, "train/post_ent_mean": 38.22131102425711, "train/post_ent_min": 24.6098450251988, "train/post_ent_std": 4.106949996948242, "train/prior_ent_mag": 75.19296449933734, "train/prior_ent_max": 75.19296449933734, "train/prior_ent_mean": 42.277921949114116, "train/prior_ent_min": 29.3637848172869, "train/prior_ent_std": 6.738527761186872, "train/rep_loss_mean": 3.9974447795322963, "train/rep_loss_std": 6.248340102604457, "train/reward_avg": 1.1703404017857142, "train/reward_loss_mean": 0.05656242642019476, "train/reward_loss_std": 0.2147929364017078, "train/reward_max_data": 212.85714285714286, "train/reward_max_pred": 165.09012334006172, "train/reward_neg_acc": 0.9756915611880166, "train/reward_neg_loss": 0.006050965605702783, "train/reward_pos_acc": 0.9956197449139186, "train/reward_pos_loss": 0.6239229568413326, "train/reward_pred": 1.0430158572537558, "train/reward_rate": 0.08203125, "train_stats/mean_log_entropy": 1.1214710474014282, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.8891779442783445e-05, "report/cont_loss_std": 0.001511966809630394, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 6.119286990724504e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.88797522848472e-05, "report/cont_pred": 0.9989758133888245, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.8825254440307617, "report/dyn_loss_std": 6.285000324249268, "report/image_loss_mean": 1.956233263015747, "report/image_loss_std": 1.701865315437317, "report/model_loss_mean": 4.3354315757751465, "report/model_loss_std": 5.132070064544678, "report/post_ent_mag": 55.43709945678711, "report/post_ent_max": 55.43709945678711, "report/post_ent_mean": 38.545188903808594, "report/post_ent_min": 24.224441528320312, "report/post_ent_std": 4.496432781219482, "report/prior_ent_mag": 75.12525939941406, "report/prior_ent_max": 75.12525939941406, "report/prior_ent_mean": 42.18885040283203, "report/prior_ent_min": 28.094879150390625, "report/prior_ent_std": 7.365344047546387, "report/rep_loss_mean": 3.8825254440307617, "report/rep_loss_std": 6.285000324249268, "report/reward_avg": 0.703125, "report/reward_loss_mean": 0.04963386058807373, "report/reward_loss_std": 0.19079464673995972, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.016724586486816, "report/reward_neg_acc": 0.9758403897285461, "report/reward_neg_loss": 0.005005539394915104, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6397194266319275, "report/reward_pred": 0.6525999307632446, "report/reward_rate": 0.0703125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 6.595650692275967e-09, "eval/cont_loss_std": 5.6647433410716985e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.595650692275967e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 16.125568389892578, "eval/dyn_loss_std": 10.264626502990723, "eval/image_loss_mean": 8.149311065673828, "eval/image_loss_std": 4.656802654266357, "eval/model_loss_mean": 18.649404525756836, "eval/model_loss_std": 11.035447120666504, "eval/post_ent_mag": 51.027320861816406, "eval/post_ent_max": 51.027320861816406, "eval/post_ent_mean": 36.45550537109375, "eval/post_ent_min": 26.14722442626953, "eval/post_ent_std": 3.718036413192749, "eval/prior_ent_mag": 75.12525939941406, "eval/prior_ent_max": 75.12525939941406, "eval/prior_ent_mean": 40.960330963134766, "eval/prior_ent_min": 28.248849868774414, "eval/prior_ent_std": 6.245081424713135, "eval/rep_loss_mean": 16.125568389892578, "eval/rep_loss_std": 10.264626502990723, "eval/reward_avg": 0.615234375, "eval/reward_loss_mean": 0.8247527480125427, "eval/reward_loss_std": 3.2973594665527344, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.010115623474121, "eval/reward_neg_acc": 0.9073882102966309, "eval/reward_neg_loss": 0.12945833802223206, "eval/reward_pos_acc": 0.1746031790971756, "eval/reward_pos_loss": 11.43075180053711, "eval/reward_pred": 0.29045093059539795, "eval/reward_rate": 0.0615234375, "replay/size": 53506.0, "replay/inserts": 702.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 5.168792528983874e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2552848568669073e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0579824447631836e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0456750392914, "timer/env.step_count": 702.0, "timer/env.step_total": 2.493440628051758, "timer/env.step_frac": 0.008310203530596595, "timer/env.step_avg": 0.0035519097265694554, "timer/env.step_min": 0.0021469593048095703, "timer/env.step_max": 0.022222042083740234, "timer/replay._sample_count": 11232.0, "timer/replay._sample_total": 196.44267892837524, "timer/replay._sample_frac": 0.654709250192161, "timer/replay._sample_avg": 0.017489554747896655, "timer/replay._sample_min": 0.00047016143798828125, "timer/replay._sample_max": 0.09469842910766602, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 702.0, "timer/agent.policy_total": 198.14064383506775, "timer/agent.policy_frac": 0.6603682716277146, "timer/agent.policy_avg": 0.2822516293946834, "timer/agent.policy_min": 0.0029401779174804688, "timer/agent.policy_max": 0.33144640922546387, "timer/dataset_train_count": 702.0, "timer/dataset_train_total": 0.09256577491760254, "timer/dataset_train_frac": 0.00030850561303868464, "timer/dataset_train_avg": 0.00013186007823020305, "timer/dataset_train_min": 8.0108642578125e-05, "timer/dataset_train_max": 0.0011243820190429688, "timer/agent.train_count": 702.0, "timer/agent.train_total": 98.17470502853394, "timer/agent.train_frac": 0.3271992006406286, "timer/agent.train_avg": 0.13985000716315377, "timer/agent.train_min": 0.1014409065246582, "timer/agent.train_max": 0.44474267959594727, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5080170631408691, "timer/agent.report_frac": 0.0016931324308352175, "timer/agent.report_avg": 0.25400853157043457, "timer/agent.report_min": 0.10450911521911621, "timer/agent.report_max": 0.40350794792175293, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.1961669921875e-05, "timer/dataset_eval_frac": 1.398509407488712e-07, "timer/dataset_eval_avg": 4.1961669921875e-05, "timer/dataset_eval_min": 4.1961669921875e-05, "timer/dataset_eval_max": 4.1961669921875e-05, "fps": 9.358353489455453}
+{"step": 215584, "episode/length": 740.0, "episode/score": 970.0, "episode/reward_rate": 0.10796221322537113}
+{"step": 217048, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.3561026436941965, "train/action_min": 0.0, "train/action_std": 2.925964188575745, "train/actor_opt_grad_norm": 0.010193290967228158, "train/actor_opt_grad_steps": 52815.0, "train/actor_opt_loss": 0.0024677650073499533, "train/adv_mag": 0.777576442701476, "train/adv_max": 0.7538785253252301, "train/adv_mean": 0.0035052348674590966, "train/adv_min": -0.5169490993022918, "train/adv_std": 0.04442001573209252, "train/cont_avg": 0.99853515625, "train/cont_loss_mean": 0.00021418614580748547, "train/cont_loss_std": 0.005856360068106322, "train/cont_neg_acc": 0.9963636365803805, "train/cont_neg_loss": 0.03517214139649447, "train/cont_pos_acc": 0.9999860056809017, "train/cont_pos_loss": 0.00010748899281417375, "train/cont_pred": 0.9984835292611803, "train/cont_rate": 0.99853515625, "train/dyn_loss_mean": 4.24328829560961, "train/dyn_loss_std": 6.3446709905351915, "train/extr_critic_critic_opt_grad_norm": 2.046939699990409, "train/extr_critic_critic_opt_grad_steps": 52815.0, "train/extr_critic_critic_opt_loss": 1.4985630001340593, "train/extr_critic_mag": 387.119393484933, "train/extr_critic_max": 387.119393484933, "train/extr_critic_mean": 144.98853051321848, "train/extr_critic_min": 0.06365740639822824, "train/extr_critic_std": 106.71859043666295, "train/extr_return_normed_mag": 1.3342641677175249, "train/extr_return_normed_max": 1.3342641677175249, "train/extr_return_normed_mean": 0.4426572016307286, "train/extr_return_normed_min": -0.010791914557505932, "train/extr_return_normed_std": 0.3352939856903894, "train/extr_return_rate": 0.9303692766598293, "train/extr_return_raw_mag": 432.83936985560825, "train/extr_return_raw_max": 432.83936985560825, "train/extr_return_raw_mean": 146.11695818219866, "train/extr_return_raw_min": 0.23731169921479056, "train/extr_return_raw_std": 107.8757698059082, "train/extr_reward_mag": 199.5049305643354, "train/extr_reward_max": 199.5049305643354, "train/extr_reward_mean": 0.9044283585888999, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.593289724418095, "train/image_loss_mean": 2.239458085809435, "train/image_loss_std": 1.8793371983936855, "train/model_loss_mean": 4.848023928914752, "train/model_loss_std": 5.344593804223197, "train/model_opt_grad_norm": 14.255834647587367, "train/model_opt_grad_steps": 52815.0, "train/model_opt_loss": 4.848023928914752, "train/policy_entropy_mag": 2.157448523385184, "train/policy_entropy_max": 2.157448523385184, "train/policy_entropy_mean": 1.2183398263795036, "train/policy_entropy_min": 0.0734903230198792, "train/policy_entropy_std": 0.5481549671718052, "train/policy_logprob_mag": 6.764447675432478, "train/policy_logprob_max": -0.00956893858632871, "train/policy_logprob_mean": -1.2181324660778046, "train/policy_logprob_min": -6.764447675432478, "train/policy_logprob_std": 1.0988968287195477, "train/policy_randomness_mag": 0.9818971301828112, "train/policy_randomness_max": 0.9818971301828112, "train/policy_randomness_mean": 0.5544903597661427, "train/policy_randomness_min": 0.03344688708228724, "train/policy_randomness_std": 0.2494760770882879, "train/post_ent_mag": 54.24898109436035, "train/post_ent_max": 54.24898109436035, "train/post_ent_mean": 38.32573819841657, "train/post_ent_min": 24.629242379324776, "train/post_ent_std": 4.194521573611668, "train/prior_ent_mag": 75.2002454485212, "train/prior_ent_max": 75.2002454485212, "train/prior_ent_mean": 42.55949930463518, "train/prior_ent_min": 29.16908253261021, "train/prior_ent_std": 6.881175327301025, "train/rep_loss_mean": 4.24328829560961, "train/rep_loss_std": 6.3446709905351915, "train/reward_avg": 1.2802734375, "train/reward_loss_mean": 0.06237868640039648, "train/reward_loss_std": 0.24043395114796504, "train/reward_max_data": 230.85714285714286, "train/reward_max_pred": 181.38256805964878, "train/reward_neg_acc": 0.9728386717183249, "train/reward_neg_loss": 0.00748012909233304, "train/reward_pos_acc": 0.9939250716141292, "train/reward_pos_loss": 0.6549644930022104, "train/reward_pred": 1.1045474103518895, "train/reward_rate": 0.08543526785714285, "train_stats/mean_log_entropy": 1.1239421367645264, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.015051402461722e-08, "report/cont_loss_std": 7.8493070532204e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.015051402461722e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 6.373003005981445, "report/dyn_loss_std": 6.801961421966553, "report/image_loss_mean": 3.429708480834961, "report/image_loss_std": 2.781541347503662, "report/model_loss_mean": 7.308141231536865, "report/model_loss_std": 6.422876834869385, "report/post_ent_mag": 50.818050384521484, "report/post_ent_max": 50.818050384521484, "report/post_ent_mean": 39.74951171875, "report/post_ent_min": 22.867660522460938, "report/post_ent_std": 4.186587810516357, "report/prior_ent_mag": 75.46257781982422, "report/prior_ent_max": 75.46257781982422, "report/prior_ent_mean": 46.13951873779297, "report/prior_ent_min": 30.27944564819336, "report/prior_ent_std": 7.333259582519531, "report/rep_loss_mean": 6.373003005981445, "report/rep_loss_std": 6.801961421966553, "report/reward_avg": 1.201171875, "report/reward_loss_mean": 0.05463073030114174, "report/reward_loss_std": 0.21307769417762756, "report/reward_max_data": 210.0, "report/reward_max_pred": 209.6211395263672, "report/reward_neg_acc": 0.9694093465805054, "report/reward_neg_loss": 0.006556448992341757, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6542940735816956, "report/reward_pred": 1.1335954666137695, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.9951171875, "eval/cont_loss_mean": 0.027294281870126724, "eval/cont_loss_std": 0.6315805315971375, "eval/cont_neg_acc": 0.6000000238418579, "eval/cont_neg_loss": 5.586215019226074, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.792965122149326e-05, "eval/cont_pred": 0.9970526099205017, "eval/cont_rate": 0.9951171875, "eval/dyn_loss_mean": 12.797457695007324, "eval/dyn_loss_std": 11.545515060424805, "eval/image_loss_mean": 6.2331342697143555, "eval/image_loss_std": 5.242874622344971, "eval/model_loss_mean": 14.465383529663086, "eval/model_loss_std": 12.050132751464844, "eval/post_ent_mag": 55.82992172241211, "eval/post_ent_max": 55.82992172241211, "eval/post_ent_mean": 36.32444381713867, "eval/post_ent_min": 26.552486419677734, "eval/post_ent_std": 4.4868597984313965, "eval/prior_ent_mag": 75.46257781982422, "eval/prior_ent_max": 75.46257781982422, "eval/prior_ent_mean": 40.008724212646484, "eval/prior_ent_min": 27.603614807128906, "eval/prior_ent_std": 7.132058620452881, "eval/rep_loss_mean": 12.797457695007324, "eval/rep_loss_std": 11.545515060424805, "eval/reward_avg": 0.3125, "eval/reward_loss_mean": 0.5264800190925598, "eval/reward_loss_std": 2.734604597091675, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009299278259277, "eval/reward_neg_acc": 0.9344757795333862, "eval/reward_neg_loss": 0.13490387797355652, "eval/reward_pos_acc": 0.09375, "eval/reward_pos_loss": 12.665340423583984, "eval/reward_pred": 0.27687662839889526, "eval/reward_rate": 0.03125, "replay/size": 54199.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.696123527758049e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0248687532212998e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1771917343139648e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06106328964233, "timer/env.step_count": 693.0, "timer/env.step_total": 2.180025577545166, "timer/env.step_frac": 0.00726527312022765, "timer/env.step_avg": 0.0031457800541777286, "timer/env.step_min": 0.002160787582397461, "timer/env.step_max": 0.016792774200439453, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 200.98653602600098, "timer/replay._sample_frac": 0.6698187822923, "timer/replay._sample_avg": 0.018126491344336308, "timer/replay._sample_min": 0.0005321502685546875, "timer/replay._sample_max": 0.05335211753845215, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.90204644203186, "timer/agent.policy_frac": 0.6595392426874171, "timer/agent.policy_avg": 0.28557293858879057, "timer/agent.policy_min": 0.0029816627502441406, "timer/agent.policy_max": 0.33179497718811035, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08693289756774902, "timer/dataset_train_frac": 0.0002897173549099725, "timer/dataset_train_avg": 0.00012544429663455847, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0005638599395751953, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.69672131538391, "timer/agent.train_frac": 0.3289221208288332, "timer/agent.train_avg": 0.14241951127761027, "timer/agent.train_min": 0.10228776931762695, "timer/agent.train_max": 0.45435357093811035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5188403129577637, "timer/agent.report_frac": 0.001729115758204651, "timer/agent.report_avg": 0.25942015647888184, "timer/agent.report_min": 0.11234903335571289, "timer/agent.report_max": 0.4064912796020508, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.1975250244140625e-05, "timer/dataset_eval_frac": 1.732155771039512e-07, "timer/dataset_eval_avg": 5.1975250244140625e-05, "timer/dataset_eval_min": 5.1975250244140625e-05, "timer/dataset_eval_max": 5.1975250244140625e-05, "fps": 9.237696154003798}
+{"step": 218852, "episode/length": 816.0, "episode/score": 1610.0, "episode/reward_rate": 0.10893512851897184}
+{"step": 219820, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.365645698879076, "train/action_min": 0.0, "train/action_std": 2.8917624915855518, "train/actor_opt_grad_norm": 0.009824181981114805, "train/actor_opt_grad_steps": 53510.0, "train/actor_opt_loss": 0.0029411352243978004, "train/adv_mag": 0.7050705297269683, "train/adv_max": 0.6703749363837035, "train/adv_mean": 0.003868462379930703, "train/adv_min": -0.5321252259655275, "train/adv_std": 0.04299074068557525, "train/cont_avg": 0.9984856204710145, "train/cont_loss_mean": 0.00048776269661198336, "train/cont_loss_std": 0.013996868703815404, "train/cont_neg_acc": 0.9290849695018694, "train/cont_neg_loss": 0.15564207920507733, "train/cont_pos_acc": 0.9999432451483132, "train/cont_pos_loss": 0.00020273802721525763, "train/cont_pred": 0.9984970213710398, "train/cont_rate": 0.9984856204710145, "train/dyn_loss_mean": 4.069884680319523, "train/dyn_loss_std": 6.333830218384231, "train/extr_critic_critic_opt_grad_norm": 2.0032998133396758, "train/extr_critic_critic_opt_grad_steps": 53510.0, "train/extr_critic_critic_opt_loss": 1.5057958364486694, "train/extr_critic_mag": 395.9061699466429, "train/extr_critic_max": 395.9061699466429, "train/extr_critic_mean": 144.55382537841797, "train/extr_critic_min": 0.025595728901849277, "train/extr_critic_std": 112.868036021357, "train/extr_return_normed_mag": 1.2932416183361108, "train/extr_return_normed_max": 1.2932416183361108, "train/extr_return_normed_mean": 0.4315018388240234, "train/extr_return_normed_min": -0.010597139826395374, "train/extr_return_normed_std": 0.3471444262110669, "train/extr_return_rate": 0.9117405008578646, "train/extr_return_raw_mag": 429.92403997891194, "train/extr_return_raw_max": 429.92403997891194, "train/extr_return_raw_mean": 145.82938152810803, "train/extr_return_raw_min": 0.026617350069210406, "train/extr_return_raw_std": 114.47705376666525, "train/extr_reward_mag": 181.2453719705775, "train/extr_reward_max": 181.2453719705775, "train/extr_reward_mean": 0.8690562313017638, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.275526323180268, "train/image_loss_mean": 2.152809521426325, "train/image_loss_std": 1.7706846447958462, "train/model_loss_mean": 4.654171687969263, "train/model_loss_std": 5.243278061134228, "train/model_opt_grad_norm": 14.116930159969606, "train/model_opt_grad_steps": 53510.0, "train/model_opt_loss": 4.654171687969263, "train/policy_entropy_mag": 2.16329889021058, "train/policy_entropy_max": 2.16329889021058, "train/policy_entropy_mean": 1.2637230762536975, "train/policy_entropy_min": 0.07363132581762645, "train/policy_entropy_std": 0.5487676802752675, "train/policy_logprob_mag": 6.758463831915372, "train/policy_logprob_max": -0.009581633236097254, "train/policy_logprob_mean": -1.2621092744495557, "train/policy_logprob_min": -6.758463831915372, "train/policy_logprob_std": 1.088777538658916, "train/policy_randomness_mag": 0.9845597493475762, "train/policy_randomness_max": 0.9845597493475762, "train/policy_randomness_mean": 0.5751451551914215, "train/policy_randomness_min": 0.03351106019555659, "train/policy_randomness_std": 0.24975493161574655, "train/post_ent_mag": 54.04287990625354, "train/post_ent_max": 54.04287990625354, "train/post_ent_mean": 38.21164747597515, "train/post_ent_min": 24.028558178224426, "train/post_ent_std": 4.175595953844596, "train/prior_ent_mag": 75.39748835909194, "train/prior_ent_max": 75.39748835909194, "train/prior_ent_mean": 42.31416099658911, "train/prior_ent_min": 28.923894854559414, "train/prior_ent_std": 6.788705072541168, "train/rep_loss_mean": 4.069884680319523, "train/rep_loss_std": 6.333830218384231, "train/reward_avg": 1.1253113677536233, "train/reward_loss_mean": 0.058943550925755844, "train/reward_loss_std": 0.24475286793017734, "train/reward_max_data": 197.2463768115942, "train/reward_max_pred": 156.52070993616962, "train/reward_neg_acc": 0.9752937443014504, "train/reward_neg_loss": 0.00664570622915483, "train/reward_pos_acc": 0.9916100717973018, "train/reward_pos_loss": 0.6577673226163008, "train/reward_pred": 1.0095043342182601, "train/reward_rate": 0.08020550271739131, "train_stats/mean_log_entropy": 1.0202805995941162, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 5.448711135613848e-07, "report/cont_loss_std": 6.080601451685652e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.037237759912387e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.199179895498673e-07, "report/cont_pred": 0.9970698356628418, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.6492886543273926, "report/dyn_loss_std": 6.375295639038086, "report/image_loss_mean": 2.105593204498291, "report/image_loss_std": 1.6054081916809082, "report/model_loss_mean": 4.365832805633545, "report/model_loss_std": 5.013925075531006, "report/post_ent_mag": 55.142269134521484, "report/post_ent_max": 55.142269134521484, "report/post_ent_mean": 37.70751953125, "report/post_ent_min": 24.488574981689453, "report/post_ent_std": 4.537405490875244, "report/prior_ent_mag": 75.12179565429688, "report/prior_ent_max": 75.12179565429688, "report/prior_ent_mean": 41.478614807128906, "report/prior_ent_min": 28.01722526550293, "report/prior_ent_std": 6.890964984893799, "report/rep_loss_mean": 3.6492886543273926, "report/rep_loss_std": 6.375295639038086, "report/reward_avg": 1.2109375, "report/reward_loss_mean": 0.0706658810377121, "report/reward_loss_std": 0.20918357372283936, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.77054977416992, "report/reward_neg_acc": 0.9746695756912231, "report/reward_neg_loss": 0.009287321008741856, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5511118769645691, "report/reward_pred": 1.1902401447296143, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0014603310264647007, "eval/cont_loss_std": 0.037716858088970184, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0005884947022423148, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.0014620372094213963, "eval/cont_pred": 0.9970963001251221, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.905394554138184, "eval/dyn_loss_std": 11.392574310302734, "eval/image_loss_mean": 6.942300796508789, "eval/image_loss_std": 4.985837936401367, "eval/model_loss_mean": 16.06680679321289, "eval/model_loss_std": 12.073766708374023, "eval/post_ent_mag": 55.092262268066406, "eval/post_ent_max": 55.092262268066406, "eval/post_ent_mean": 36.463932037353516, "eval/post_ent_min": 25.903141021728516, "eval/post_ent_std": 4.109747409820557, "eval/prior_ent_mag": 75.12179565429688, "eval/prior_ent_max": 75.12179565429688, "eval/prior_ent_mean": 40.348876953125, "eval/prior_ent_min": 25.123506546020508, "eval/prior_ent_std": 6.546313285827637, "eval/rep_loss_mean": 13.905394554138184, "eval/rep_loss_std": 11.392574310302734, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7798076868057251, "eval/reward_loss_std": 3.3489456176757812, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006607055664062, "eval/reward_neg_acc": 0.9307135343551636, "eval/reward_neg_loss": 0.1272495985031128, "eval/reward_pos_acc": 0.14035087823867798, "eval/reward_pos_loss": 11.850397109985352, "eval/reward_pred": 0.27335116267204285, "eval/reward_rate": 0.0556640625, "replay/size": 54892.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.5889030555626015e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507084300163677e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4156103134155273e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2913043498993, "timer/env.step_count": 693.0, "timer/env.step_total": 2.3106958866119385, "timer/env.step_frac": 0.0076948478132404284, "timer/env.step_avg": 0.003334337498718526, "timer/env.step_min": 0.002135753631591797, "timer/env.step_max": 0.029993534088134766, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 198.86774730682373, "timer/replay._sample_frac": 0.6622494372168137, "timer/replay._sample_avg": 0.01793540289563706, "timer/replay._sample_min": 0.0005602836608886719, "timer/replay._sample_max": 0.05060696601867676, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.21425724029541016, "timer/agent.save_frac": 0.0007134979840966614, "timer/agent.save_avg": 0.21425724029541016, "timer/agent.save_min": 0.21425724029541016, "timer/agent.save_max": 0.21425724029541016, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.84281063079834, "timer/agent.policy_frac": 0.6621663955980117, "timer/agent.policy_avg": 0.28693046267070466, "timer/agent.policy_min": 0.0029077529907226562, "timer/agent.policy_max": 0.43948793411254883, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08205604553222656, "timer/dataset_train_frac": 0.00027325481738430527, "timer/dataset_train_avg": 0.00011840699210999505, "timer/dataset_train_min": 7.724761962890625e-05, "timer/dataset_train_max": 0.000469207763671875, "timer/agent.train_count": 693.0, "timer/agent.train_total": 97.86798787117004, "timer/agent.train_frac": 0.32591016274362145, "timer/agent.train_avg": 0.1412236477217461, "timer/agent.train_min": 0.10155725479125977, "timer/agent.train_max": 0.448652982711792, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5480160713195801, "timer/agent.report_frac": 0.0018249481865816267, "timer/agent.report_avg": 0.27400803565979004, "timer/agent.report_min": 0.1263275146484375, "timer/agent.report_max": 0.4216885566711426, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.413459777832031e-05, "timer/dataset_eval_frac": 2.135746085527362e-07, "timer/dataset_eval_avg": 6.413459777832031e-05, "timer/dataset_eval_min": 6.413459777832031e-05, "timer/dataset_eval_max": 6.413459777832031e-05, "fps": 9.23076532607807}
+{"step": 222028, "episode/length": 793.0, "episode/score": 1340.0, "episode/reward_rate": 0.10957178841309824}
+{"step": 222664, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.416187555017606, "train/action_min": 0.0, "train/action_std": 2.9431812998274682, "train/actor_opt_grad_norm": 0.011255805610193752, "train/actor_opt_grad_steps": 54210.0, "train/actor_opt_loss": 0.0020108648746366233, "train/adv_mag": 0.7326945947929168, "train/adv_max": 0.7036074903649343, "train/adv_mean": 0.0032069429364358732, "train/adv_min": -0.5355651072213348, "train/adv_std": 0.048354286569314946, "train/cont_avg": 0.9983907350352113, "train/cont_loss_mean": 0.00044967102960413887, "train/cont_loss_std": 0.012182916144837463, "train/cont_neg_acc": 0.94623655946024, "train/cont_neg_loss": 0.12202182417069153, "train/cont_pos_acc": 0.9998897439996961, "train/cont_pos_loss": 0.0002801089661929218, "train/cont_pred": 0.9983288477843916, "train/cont_rate": 0.9983907350352113, "train/dyn_loss_mean": 4.854240256296078, "train/dyn_loss_std": 6.3086335491126695, "train/extr_critic_critic_opt_grad_norm": 2.336093115134978, "train/extr_critic_critic_opt_grad_steps": 54210.0, "train/extr_critic_critic_opt_loss": 1.6571069334594297, "train/extr_critic_mag": 403.48167140047315, "train/extr_critic_max": 403.48167140047315, "train/extr_critic_mean": 149.31392315072074, "train/extr_critic_min": 0.027261604725475043, "train/extr_critic_std": 112.67006285761444, "train/extr_return_normed_mag": 1.3289190463616813, "train/extr_return_normed_max": 1.3289190463616813, "train/extr_return_normed_mean": 0.4393281357389101, "train/extr_return_normed_min": -0.011647110293343874, "train/extr_return_normed_std": 0.3416008751996806, "train/extr_return_rate": 0.9281883172585931, "train/extr_return_raw_mag": 446.772441165548, "train/extr_return_raw_max": 446.772441165548, "train/extr_return_raw_mean": 150.38631482191488, "train/extr_return_raw_min": 0.023145403560500225, "train/extr_return_raw_std": 113.92008413395412, "train/extr_reward_mag": 159.3464382198495, "train/extr_reward_max": 159.3464382198495, "train/extr_reward_mean": 0.8535769741300127, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.858204358060595, "train/image_loss_mean": 2.2936132222833767, "train/image_loss_std": 1.866882967277312, "train/model_loss_mean": 5.272149616563824, "train/model_loss_std": 5.312048556099476, "train/model_opt_grad_norm": 17.36262516236641, "train/model_opt_grad_steps": 54210.0, "train/model_opt_loss": 5.272149616563824, "train/policy_entropy_mag": 2.1597846561754253, "train/policy_entropy_max": 2.1597846561754253, "train/policy_entropy_mean": 1.222793033425237, "train/policy_entropy_min": 0.07243558554582193, "train/policy_entropy_std": 0.5544087534219446, "train/policy_logprob_mag": 6.762829028384786, "train/policy_logprob_max": -0.009404663796680915, "train/policy_logprob_mean": -1.2225961752340828, "train/policy_logprob_min": -6.762829028384786, "train/policy_logprob_std": 1.0999770298810072, "train/policy_randomness_mag": 0.9829603517559212, "train/policy_randomness_max": 0.9829603517559212, "train/policy_randomness_mean": 0.5565170968922091, "train/policy_randomness_min": 0.032966855441180755, "train/policy_randomness_std": 0.2523222945525613, "train/post_ent_mag": 53.80702515723, "train/post_ent_max": 53.80702515723, "train/post_ent_mean": 38.8643691371864, "train/post_ent_min": 24.56969857551682, "train/post_ent_std": 4.254425807737968, "train/prior_ent_mag": 75.27361566248075, "train/prior_ent_max": 75.27361566248075, "train/prior_ent_mean": 43.243843293525806, "train/prior_ent_min": 29.99076921167508, "train/prior_ent_std": 6.804124053095428, "train/rep_loss_mean": 4.854240256296078, "train/rep_loss_std": 6.3086335491126695, "train/reward_avg": 1.1077794894366197, "train/reward_loss_mean": 0.06554252932399092, "train/reward_loss_std": 0.25502534305125896, "train/reward_max_data": 159.57746478873239, "train/reward_max_pred": 119.47074883420703, "train/reward_neg_acc": 0.9699860760863398, "train/reward_neg_loss": 0.008907035980242449, "train/reward_pos_acc": 0.9912336325981248, "train/reward_pos_loss": 0.6870049825856384, "train/reward_pred": 0.9638196410427631, "train/reward_rate": 0.08326914612676056, "train_stats/mean_log_entropy": 1.1393662691116333, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0015326704597100616, "report/cont_loss_std": 0.03679269179701805, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.5809008479118347, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0003988775424659252, "report/cont_pred": 0.9983435869216919, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 6.155023574829102, "report/dyn_loss_std": 6.916838645935059, "report/image_loss_mean": 2.6670122146606445, "report/image_loss_std": 2.123690128326416, "report/model_loss_mean": 6.407068252563477, "report/model_loss_std": 5.864245414733887, "report/post_ent_mag": 51.95101547241211, "report/post_ent_max": 51.95101547241211, "report/post_ent_mean": 41.27405548095703, "report/post_ent_min": 24.581098556518555, "report/post_ent_std": 4.594703674316406, "report/prior_ent_mag": 74.81103515625, "report/prior_ent_max": 74.81103515625, "report/prior_ent_mean": 47.050514221191406, "report/prior_ent_min": 31.666152954101562, "report/prior_ent_std": 6.768013954162598, "report/rep_loss_mean": 6.155023574829102, "report/rep_loss_std": 6.916838645935059, "report/reward_avg": 1.54296875, "report/reward_loss_mean": 0.04550910368561745, "report/reward_loss_std": 0.20252706110477448, "report/reward_max_data": 400.0, "report/reward_max_pred": 202.10995483398438, "report/reward_neg_acc": 0.9619342088699341, "report/reward_neg_loss": 0.006515535991638899, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.77438884973526, "report/reward_pred": 0.7281084060668945, "report/reward_rate": 0.05078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.1585193006076224e-08, "eval/cont_loss_std": 7.115729658835335e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.1585193006076224e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.724966049194336, "eval/dyn_loss_std": 10.18789005279541, "eval/image_loss_mean": 6.734921455383301, "eval/image_loss_std": 4.503386497497559, "eval/model_loss_mean": 15.910046577453613, "eval/model_loss_std": 10.453496932983398, "eval/post_ent_mag": 50.12718200683594, "eval/post_ent_max": 50.12718200683594, "eval/post_ent_mean": 39.55984878540039, "eval/post_ent_min": 25.291114807128906, "eval/post_ent_std": 4.2310028076171875, "eval/prior_ent_mag": 74.81103515625, "eval/prior_ent_max": 74.81103515625, "eval/prior_ent_mean": 44.787784576416016, "eval/prior_ent_min": 33.070411682128906, "eval/prior_ent_std": 5.550126552581787, "eval/rep_loss_mean": 13.724966049194336, "eval/rep_loss_std": 10.18789005279541, "eval/reward_avg": 0.673828125, "eval/reward_loss_mean": 0.9401448965072632, "eval/reward_loss_std": 3.4774935245513916, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998228073120117, "eval/reward_neg_acc": 0.8963350653648376, "eval/reward_neg_loss": 0.21983161568641663, "eval/reward_pos_acc": 0.23188406229019165, "eval/reward_pos_loss": 10.909697532653809, "eval/reward_pred": 0.48504120111465454, "eval/reward_rate": 0.0673828125, "replay/size": 55603.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.863554534697499e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4287090838039306e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.18994402885437, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8403584957122803, "timer/env.step_frac": 0.0094618708994438, "timer/env.step_avg": 0.003994878334335134, "timer/env.step_min": 0.002237081527709961, "timer/env.step_max": 0.018128395080566406, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 190.11664652824402, "timer/replay._sample_frac": 0.6333211698456159, "timer/replay._sample_avg": 0.016712082149107244, "timer/replay._sample_min": 0.0005817413330078125, "timer/replay._sample_max": 0.04546999931335449, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.31841492652893, "timer/agent.policy_frac": 0.6606430990488692, "timer/agent.policy_avg": 0.27892885362381004, "timer/agent.policy_min": 0.0034422874450683594, "timer/agent.policy_max": 0.32324790954589844, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.1001729965209961, "timer/dataset_train_frac": 0.00033369870814649083, "timer/dataset_train_avg": 0.000140890290465536, "timer/dataset_train_min": 8.225440979003906e-05, "timer/dataset_train_max": 0.0010137557983398438, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.85427665710449, "timer/agent.train_frac": 0.32597453247034386, "timer/agent.train_avg": 0.13762908109297398, "timer/agent.train_min": 0.10025835037231445, "timer/agent.train_max": 0.4345080852508545, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4981870651245117, "timer/agent.report_frac": 0.0016595727972707366, "timer/agent.report_avg": 0.24909353256225586, "timer/agent.report_min": 0.10021638870239258, "timer/agent.report_max": 0.39797067642211914, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.4779842949215325e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "fps": 9.473711754435456}
+{"step": 225000, "episode/length": 742.0, "episode/score": 810.0, "episode/reward_rate": 0.09825033647375504}
+{"step": 225476, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5573495047433035, "train/action_min": 0.0, "train/action_std": 3.0118281160082137, "train/actor_opt_grad_norm": 0.01082265568631036, "train/actor_opt_grad_steps": 54915.0, "train/actor_opt_loss": 0.002400727268234602, "train/adv_mag": 0.7120721357209342, "train/adv_max": 0.6926153761999948, "train/adv_mean": 0.003828633217861872, "train/adv_min": -0.4652209963117327, "train/adv_std": 0.048116292378732134, "train/cont_avg": 0.9983677455357143, "train/cont_loss_mean": 0.0005447961253159812, "train/cont_loss_std": 0.014363895411941233, "train/cont_neg_acc": 0.9134615396077816, "train/cont_neg_loss": 0.21087961162959126, "train/cont_pos_acc": 0.9999440278325762, "train/cont_pos_loss": 0.000246579051352772, "train/cont_pred": 0.9983731968062265, "train/cont_rate": 0.9983677455357143, "train/dyn_loss_mean": 4.301988063539778, "train/dyn_loss_std": 6.271747153145927, "train/extr_critic_critic_opt_grad_norm": 2.5669764774186272, "train/extr_critic_critic_opt_grad_steps": 54915.0, "train/extr_critic_critic_opt_loss": 1.8123671906335013, "train/extr_critic_mag": 377.73840767996654, "train/extr_critic_max": 377.73840767996654, "train/extr_critic_mean": 144.9781003679548, "train/extr_critic_min": 0.3438643489565168, "train/extr_critic_std": 109.32753731863839, "train/extr_return_normed_mag": 1.280916244643075, "train/extr_return_normed_max": 1.280916244643075, "train/extr_return_normed_mean": 0.4399191366774695, "train/extr_return_normed_min": -0.01361856609582901, "train/extr_return_normed_std": 0.3429630926677159, "train/extr_return_rate": 0.958252465724945, "train/extr_return_raw_mag": 416.8208709716797, "train/extr_return_raw_max": 416.8208709716797, "train/extr_return_raw_mean": 146.20917423793247, "train/extr_return_raw_min": 0.27930765761328596, "train/extr_return_raw_std": 110.34851466587611, "train/extr_reward_mag": 159.37366625922067, "train/extr_reward_max": 159.37366625922067, "train/extr_reward_mean": 0.8463469113622393, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.096482583454677, "train/image_loss_mean": 2.132544037273952, "train/image_loss_std": 1.7624962755611964, "train/model_loss_mean": 4.772283032962254, "train/model_loss_std": 5.175690964290074, "train/model_opt_grad_norm": 13.131647300720214, "train/model_opt_grad_steps": 54915.0, "train/model_opt_loss": 4.772283032962254, "train/policy_entropy_mag": 2.15021048954555, "train/policy_entropy_max": 2.15021048954555, "train/policy_entropy_mean": 1.1259259496416365, "train/policy_entropy_min": 0.07108218510236058, "train/policy_entropy_std": 0.5762071975639889, "train/policy_logprob_mag": 6.778726543698992, "train/policy_logprob_max": -0.009198274077581508, "train/policy_logprob_mean": -1.1245991102286748, "train/policy_logprob_min": -6.778726543698992, "train/policy_logprob_std": 1.1177677069391523, "train/policy_randomness_mag": 0.9786029602800097, "train/policy_randomness_max": 0.9786029602800097, "train/policy_randomness_mean": 0.51243097782135, "train/policy_randomness_min": 0.032350896298885344, "train/policy_randomness_std": 0.26224319423948017, "train/post_ent_mag": 51.94744480678013, "train/post_ent_max": 51.94744480678013, "train/post_ent_mean": 39.39797243390765, "train/post_ent_min": 24.36294904436384, "train/post_ent_std": 4.469626617431641, "train/prior_ent_mag": 75.17612293788365, "train/prior_ent_max": 75.17612293788365, "train/prior_ent_mean": 43.9661979675293, "train/prior_ent_min": 30.602218518938336, "train/prior_ent_std": 6.708717332567487, "train/rep_loss_mean": 4.301988063539778, "train/rep_loss_std": 6.271747153145927, "train/reward_avg": 1.0887276785714286, "train/reward_loss_mean": 0.058001403138041495, "train/reward_loss_std": 0.228048218360969, "train/reward_max_data": 172.14285714285714, "train/reward_max_pred": 143.76204827172415, "train/reward_neg_acc": 0.9733156553336553, "train/reward_neg_loss": 0.007425882900133729, "train/reward_pos_acc": 0.9965538706098284, "train/reward_pos_loss": 0.6367443646703448, "train/reward_pred": 0.9867474802902767, "train/reward_rate": 0.08011997767857143, "train_stats/mean_log_entropy": 1.4417976140975952, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.285200129241275e-07, "report/cont_loss_std": 1.1646664461295586e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.000211310078157112, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.1622739154736337e-07, "report/cont_pred": 0.9980471134185791, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.015755653381348, "report/dyn_loss_std": 6.316649436950684, "report/image_loss_mean": 2.035865545272827, "report/image_loss_std": 1.7908002138137817, "report/model_loss_mean": 4.494126319885254, "report/model_loss_std": 5.221645355224609, "report/post_ent_mag": 52.54291534423828, "report/post_ent_max": 52.54291534423828, "report/post_ent_mean": 38.45264434814453, "report/post_ent_min": 22.395219802856445, "report/post_ent_std": 4.406589508056641, "report/prior_ent_mag": 74.79952239990234, "report/prior_ent_max": 74.79952239990234, "report/prior_ent_mean": 42.72925567626953, "report/prior_ent_min": 29.996078491210938, "report/prior_ent_std": 7.13350772857666, "report/rep_loss_mean": 4.015755653381348, "report/rep_loss_std": 6.316649436950684, "report/reward_avg": 1.4453125, "report/reward_loss_mean": 0.04880627617239952, "report/reward_loss_std": 0.19913257658481598, "report/reward_max_data": 410.0, "report/reward_max_pred": 408.7545471191406, "report/reward_neg_acc": 0.9767687916755676, "report/reward_neg_loss": 0.004205615259706974, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5973365306854248, "report/reward_pred": 1.3937002420425415, "report/reward_rate": 0.0751953125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.6263164148710985e-09, "eval/cont_loss_std": 7.515513544831265e-09, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6263164148710985e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.377344131469727, "eval/dyn_loss_std": 11.719347953796387, "eval/image_loss_mean": 6.243213653564453, "eval/image_loss_std": 5.118249416351318, "eval/model_loss_mean": 15.156667709350586, "eval/model_loss_std": 12.496938705444336, "eval/post_ent_mag": 50.29365158081055, "eval/post_ent_max": 50.29365158081055, "eval/post_ent_mean": 37.90105438232422, "eval/post_ent_min": 26.780569076538086, "eval/post_ent_std": 4.637088775634766, "eval/prior_ent_mag": 74.79952239990234, "eval/prior_ent_max": 74.79952239990234, "eval/prior_ent_mean": 41.58058547973633, "eval/prior_ent_min": 30.396038055419922, "eval/prior_ent_std": 6.402576446533203, "eval/rep_loss_mean": 13.377344131469727, "eval/rep_loss_std": 11.719347953796387, "eval/reward_avg": 0.703125, "eval/reward_loss_mean": 0.887047529220581, "eval/reward_loss_std": 3.588426113128662, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999265670776367, "eval/reward_neg_acc": 0.936974823474884, "eval/reward_neg_loss": 0.10260044038295746, "eval/reward_pos_acc": 0.236111119389534, "eval/reward_pos_loss": 11.259181022644043, "eval/reward_pred": 0.3097802400588989, "eval/reward_rate": 0.0703125, "replay/size": 56306.0, "replay/inserts": 703.0, "replay/samples": 11248.0, "replay/insert_wait_avg": 4.985084913533239e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2504469449625246e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.043081283569336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1673572063446, "timer/env.step_count": 703.0, "timer/env.step_total": 2.561121940612793, "timer/env.step_frac": 0.008532313321638755, "timer/env.step_avg": 0.003643132205708098, "timer/env.step_min": 0.002153635025024414, "timer/env.step_max": 0.01790332794189453, "timer/replay._sample_count": 11248.0, "timer/replay._sample_total": 196.0627555847168, "timer/replay._sample_frac": 0.6531781383874363, "timer/replay._sample_avg": 0.017430899322965574, "timer/replay._sample_min": 0.0005359649658203125, "timer/replay._sample_max": 0.048708438873291016, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 703.0, "timer/agent.policy_total": 198.81387782096863, "timer/agent.policy_frac": 0.6623434329146511, "timer/agent.policy_avg": 0.2828077920639668, "timer/agent.policy_min": 0.0031719207763671875, "timer/agent.policy_max": 0.3300459384918213, "timer/dataset_train_count": 703.0, "timer/dataset_train_total": 0.08797049522399902, "timer/dataset_train_frac": 0.00029307149199279953, "timer/dataset_train_avg": 0.00012513583957894598, "timer/dataset_train_min": 8.034706115722656e-05, "timer/dataset_train_max": 0.0005736351013183594, "timer/agent.train_count": 703.0, "timer/agent.train_total": 97.5697021484375, "timer/agent.train_frac": 0.3250510083991744, "timer/agent.train_avg": 0.13879047247288406, "timer/agent.train_min": 0.1005246639251709, "timer/agent.train_max": 0.4467439651489258, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5190834999084473, "timer/agent.report_frac": 0.0017293136227055253, "timer/agent.report_avg": 0.25954174995422363, "timer/agent.report_min": 0.10130500793457031, "timer/agent.report_max": 0.41777849197387695, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.841255187988281e-05, "timer/dataset_eval_frac": 1.945999472545183e-07, "timer/dataset_eval_avg": 5.841255187988281e-05, "timer/dataset_eval_min": 5.841255187988281e-05, "timer/dataset_eval_max": 5.841255187988281e-05, "fps": 9.367714169370867}
+{"step": 227796, "episode/length": 698.0, "episode/score": 870.0, "episode/reward_rate": 0.11874105865522175}
+{"step": 228252, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.3912431989397325, "train/action_min": 0.0, "train/action_std": 2.9545175927025933, "train/actor_opt_grad_norm": 0.010526803109262671, "train/actor_opt_grad_steps": 55615.0, "train/actor_opt_loss": 0.003944238769638884, "train/adv_mag": 0.8086003852742059, "train/adv_max": 0.7823099027786936, "train/adv_mean": 0.005421950309028034, "train/adv_min": -0.5078546042953219, "train/adv_std": 0.048678029674504485, "train/cont_avg": 0.9984375, "train/cont_loss_mean": 0.00026669912818086947, "train/cont_loss_std": 0.00758272235037225, "train/cont_neg_acc": 0.9736842115720113, "train/cont_neg_loss": 0.07539986515577143, "train/cont_pos_acc": 0.9999720147677831, "train/cont_pos_loss": 9.434001869643716e-05, "train/cont_pred": 0.9984144602503096, "train/cont_rate": 0.9984375, "train/dyn_loss_mean": 4.205689096450806, "train/dyn_loss_std": 6.359907940455845, "train/extr_critic_critic_opt_grad_norm": 2.2182300891195026, "train/extr_critic_critic_opt_grad_steps": 55615.0, "train/extr_critic_critic_opt_loss": 1.6589260595185416, "train/extr_critic_mag": 406.4647020612444, "train/extr_critic_max": 406.4647020612444, "train/extr_critic_mean": 147.81136757986886, "train/extr_critic_min": 0.27302533047539845, "train/extr_critic_std": 111.84539337158203, "train/extr_return_normed_mag": 1.4428235598972865, "train/extr_return_normed_max": 1.4428235598972865, "train/extr_return_normed_mean": 0.4426446603877204, "train/extr_return_normed_min": -0.012625061055379255, "train/extr_return_normed_std": 0.3474386296101979, "train/extr_return_rate": 0.9488746736730848, "train/extr_return_raw_mag": 477.89235447474886, "train/extr_return_raw_max": 477.89235447474886, "train/extr_return_raw_mean": 149.59060603550503, "train/extr_return_raw_min": 0.2507124690072877, "train/extr_return_raw_std": 113.95738078526088, "train/extr_reward_mag": 200.50463077000208, "train/extr_reward_max": 200.50463077000208, "train/extr_reward_mean": 0.9192996851035526, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.997340428829193, "train/image_loss_mean": 2.165032058102744, "train/image_loss_std": 1.8182620048522948, "train/model_loss_mean": 4.751953741482326, "train/model_loss_std": 5.304041222163609, "train/model_opt_grad_norm": 13.847299916403633, "train/model_opt_grad_steps": 55615.0, "train/model_opt_loss": 4.751953741482326, "train/policy_entropy_mag": 2.151281530516488, "train/policy_entropy_max": 2.151281530516488, "train/policy_entropy_mean": 1.1789376080036162, "train/policy_entropy_min": 0.07163684219121932, "train/policy_entropy_std": 0.5698418527841568, "train/policy_logprob_mag": 6.774705907276698, "train/policy_logprob_max": -0.009277029934206179, "train/policy_logprob_mean": -1.1794746424470628, "train/policy_logprob_min": -6.774705907276698, "train/policy_logprob_std": 1.107358796255929, "train/policy_randomness_mag": 0.9790904130254473, "train/policy_randomness_max": 0.9790904130254473, "train/policy_randomness_mean": 0.536557623744011, "train/policy_randomness_min": 0.03260333160204547, "train/policy_randomness_std": 0.2593462030802454, "train/post_ent_mag": 53.43748392377581, "train/post_ent_max": 53.43748392377581, "train/post_ent_mean": 38.918933214460104, "train/post_ent_min": 23.85026375906808, "train/post_ent_std": 4.411081463950021, "train/prior_ent_mag": 75.41974465506418, "train/prior_ent_max": 75.41974465506418, "train/prior_ent_mean": 43.29843510219029, "train/prior_ent_min": 29.759892681666784, "train/prior_ent_std": 6.881170422690255, "train/rep_loss_mean": 4.205689096450806, "train/rep_loss_std": 6.359907940455845, "train/reward_avg": 1.1572265625, "train/reward_loss_mean": 0.06324152510081019, "train/reward_loss_std": 0.27084513423698287, "train/reward_max_data": 206.71428571428572, "train/reward_max_pred": 164.99287781034198, "train/reward_neg_acc": 0.9735203683376312, "train/reward_neg_loss": 0.008016904962382146, "train/reward_pos_acc": 0.9868931838444301, "train/reward_pos_loss": 0.702156959261213, "train/reward_pred": 1.022520216873714, "train/reward_rate": 0.08070591517857142, "train_stats/mean_log_entropy": 1.0783084630966187, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.000899971229955554, "report/cont_loss_std": 0.02767377905547619, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.463593596592546e-05, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0009015472023747861, "report/cont_pred": 0.9974386096000671, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.199453592300415, "report/dyn_loss_std": 5.933434963226318, "report/image_loss_mean": 1.6052731275558472, "report/image_loss_std": 1.312981367111206, "report/model_loss_mean": 3.5664725303649902, "report/model_loss_std": 4.548558712005615, "report/post_ent_mag": 54.488956451416016, "report/post_ent_max": 54.488956451416016, "report/post_ent_mean": 37.60699462890625, "report/post_ent_min": 23.687850952148438, "report/post_ent_std": 4.776256561279297, "report/prior_ent_mag": 75.57853698730469, "report/prior_ent_max": 75.57853698730469, "report/prior_ent_mean": 41.15883255004883, "report/prior_ent_min": 28.576187133789062, "report/prior_ent_std": 7.221602439880371, "report/rep_loss_mean": 3.199453592300415, "report/rep_loss_std": 5.933434963226318, "report/reward_avg": 0.703125, "report/reward_loss_mean": 0.040627337992191315, "report/reward_loss_std": 0.17532333731651306, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.97313690185547, "report/reward_neg_acc": 0.9844399094581604, "report/reward_neg_loss": 0.003702935529872775, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6338793635368347, "report/reward_pred": 0.6540777683258057, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.023370232433080673, "eval/cont_loss_std": 0.5612305998802185, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 5.584406852722168, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.0015622496139258146, "eval/cont_pred": 0.9970995783805847, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.75883960723877, "eval/dyn_loss_std": 13.084932327270508, "eval/image_loss_mean": 6.877509117126465, "eval/image_loss_std": 5.1882781982421875, "eval/model_loss_mean": 16.46148109436035, "eval/model_loss_std": 13.036635398864746, "eval/post_ent_mag": 53.67204284667969, "eval/post_ent_max": 53.67204284667969, "eval/post_ent_mean": 37.893585205078125, "eval/post_ent_min": 24.266220092773438, "eval/post_ent_std": 4.632342338562012, "eval/prior_ent_mag": 75.57853698730469, "eval/prior_ent_max": 75.57853698730469, "eval/prior_ent_mean": 40.98423767089844, "eval/prior_ent_min": 30.266626358032227, "eval/prior_ent_std": 6.971039295196533, "eval/rep_loss_mean": 14.75883960723877, "eval/rep_loss_std": 13.084932327270508, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.7052990198135376, "eval/reward_loss_std": 3.0842106342315674, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003683090209961, "eval/reward_neg_acc": 0.9139344692230225, "eval/reward_neg_loss": 0.11625518649816513, "eval/reward_pos_acc": 0.125, "eval/reward_pos_loss": 12.682523727416992, "eval/reward_pred": 0.2617143392562866, "eval/reward_rate": 0.046875, "replay/size": 57000.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.445785060739655e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.040912670773113e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.685754776000977e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3950023651123, "timer/env.step_count": 694.0, "timer/env.step_total": 2.209693431854248, "timer/env.step_frac": 0.007355959368353595, "timer/env.step_avg": 0.0031839962995017985, "timer/env.step_min": 0.0021593570709228516, "timer/env.step_max": 0.014969587326049805, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 196.13901829719543, "timer/replay._sample_frac": 0.6529370220973254, "timer/replay._sample_avg": 0.01766381648930074, "timer/replay._sample_min": 0.00037550926208496094, "timer/replay._sample_max": 0.05950665473937988, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.20526599884033203, "timer/agent.save_frac": 0.0006833202857044984, "timer/agent.save_avg": 0.20526599884033203, "timer/agent.save_min": 0.20526599884033203, "timer/agent.save_max": 0.20526599884033203, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 199.0515103340149, "timer/agent.policy_frac": 0.6626325630147455, "timer/agent.policy_avg": 0.28681773823345086, "timer/agent.policy_min": 0.002877473831176758, "timer/agent.policy_max": 0.4028017520904541, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08669328689575195, "timer/dataset_train_frac": 0.0002885976338260828, "timer/dataset_train_avg": 0.00012491828082961375, "timer/dataset_train_min": 7.724761962890625e-05, "timer/dataset_train_max": 0.0032088756561279297, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.90517497062683, "timer/agent.train_frac": 0.32592145075579154, "timer/agent.train_avg": 0.14107373915075913, "timer/agent.train_min": 0.10287618637084961, "timer/agent.train_max": 0.4519236087799072, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5049319267272949, "timer/agent.report_frac": 0.0016808932330824203, "timer/agent.report_avg": 0.25246596336364746, "timer/agent.report_min": 0.10724592208862305, "timer/agent.report_max": 0.3976860046386719, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.5987625122070312e-05, "timer/dataset_eval_frac": 8.651150957060163e-08, "timer/dataset_eval_avg": 2.5987625122070312e-05, "timer/dataset_eval_min": 2.5987625122070312e-05, "timer/dataset_eval_max": 2.5987625122070312e-05, "fps": 9.240921601178277}
+{"step": 230632, "episode/length": 708.0, "episode/score": 980.0, "episode/reward_rate": 0.1001410437235543}
+{"step": 231032, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.444726916326993, "train/action_min": 0.0, "train/action_std": 2.964513768320498, "train/actor_opt_grad_norm": 0.00932567761671068, "train/actor_opt_grad_steps": 56310.0, "train/actor_opt_loss": 0.002264121052892575, "train/adv_mag": 0.6817273989967678, "train/adv_max": 0.6507184466590052, "train/adv_mean": 0.0033213890211840594, "train/adv_min": -0.49017030864522076, "train/adv_std": 0.04229677487434684, "train/cont_avg": 0.9984714673913043, "train/cont_loss_mean": 0.0002445482214886316, "train/cont_loss_std": 0.006140359842648662, "train/cont_neg_acc": 0.9575757579369979, "train/cont_neg_loss": 0.0892601248922078, "train/cont_pos_acc": 0.9999858002731765, "train/cont_pos_loss": 0.0001338570078653208, "train/cont_pred": 0.9984121504037277, "train/cont_rate": 0.9984714673913043, "train/dyn_loss_mean": 4.147179931834124, "train/dyn_loss_std": 6.3021022133205244, "train/extr_critic_critic_opt_grad_norm": 2.1619495948155723, "train/extr_critic_critic_opt_grad_steps": 56310.0, "train/extr_critic_critic_opt_loss": 1.597247662751571, "train/extr_critic_mag": 396.8464076829993, "train/extr_critic_max": 396.8464076829993, "train/extr_critic_mean": 150.8520809671153, "train/extr_critic_min": 0.027731308038683906, "train/extr_critic_std": 112.64891494529834, "train/extr_return_normed_mag": 1.3159420611201853, "train/extr_return_normed_max": 1.3159420611201853, "train/extr_return_normed_mean": 0.4451227576836296, "train/extr_return_normed_min": -0.012412523094942604, "train/extr_return_normed_std": 0.3429529865582784, "train/extr_return_rate": 0.9521456524945687, "train/extr_return_raw_mag": 441.0187921938689, "train/extr_return_raw_max": 441.0187921938689, "train/extr_return_raw_mean": 151.95516215891078, "train/extr_return_raw_min": 0.025775254852529884, "train/extr_return_raw_std": 113.90030095197153, "train/extr_reward_mag": 185.86850785518038, "train/extr_reward_max": 185.86850785518038, "train/extr_reward_mean": 0.9078174375969431, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.523679674535558, "train/image_loss_mean": 2.131821442341459, "train/image_loss_std": 1.778280334196229, "train/model_loss_mean": 4.68312008139016, "train/model_loss_std": 5.228025546972303, "train/model_opt_grad_norm": 14.067138906838238, "train/model_opt_grad_steps": 56310.0, "train/model_opt_loss": 4.68312008139016, "train/policy_entropy_mag": 2.152566923611406, "train/policy_entropy_max": 2.152566923611406, "train/policy_entropy_mean": 1.1602903034376062, "train/policy_entropy_min": 0.07092615001011586, "train/policy_entropy_std": 0.5730161278144174, "train/policy_logprob_mag": 6.772220984749172, "train/policy_logprob_max": -0.009169653651938923, "train/policy_logprob_mean": -1.1602830420369687, "train/policy_logprob_min": -6.772220984749172, "train/policy_logprob_std": 1.1094473168469858, "train/policy_randomness_mag": 0.979675419088723, "train/policy_randomness_max": 0.979675419088723, "train/policy_randomness_mean": 0.528070873108463, "train/policy_randomness_min": 0.03227988171620645, "train/policy_randomness_std": 0.260790877584098, "train/post_ent_mag": 53.830075471297555, "train/post_ent_max": 53.830075471297555, "train/post_ent_mean": 38.793269613514774, "train/post_ent_min": 24.188353303549945, "train/post_ent_std": 4.47435730782108, "train/prior_ent_mag": 75.53952833535014, "train/prior_ent_max": 75.53952833535014, "train/prior_ent_mean": 43.10132250578507, "train/prior_ent_min": 29.182076993195906, "train/prior_ent_std": 6.970790351646534, "train/rep_loss_mean": 4.147179931834124, "train/rep_loss_std": 6.3021022133205244, "train/reward_avg": 1.2014549365942029, "train/reward_loss_mean": 0.06274614653185658, "train/reward_loss_std": 0.23299258753009464, "train/reward_max_data": 196.231884057971, "train/reward_max_pred": 158.7246869681538, "train/reward_neg_acc": 0.9733651850534522, "train/reward_neg_loss": 0.0073416342138839154, "train/reward_pos_acc": 0.9954229074975719, "train/reward_pos_loss": 0.6459069519803144, "train/reward_pred": 1.0685714003832445, "train/reward_rate": 0.0867583786231884, "train_stats/mean_log_entropy": 1.1644511222839355, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.0003978855675086379, "report/cont_loss_std": 0.008160741999745369, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.09683540463447571, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 1.9699189579114318e-05, "report/cont_pred": 0.9964215755462646, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 5.344615936279297, "report/dyn_loss_std": 7.723219394683838, "report/image_loss_mean": 2.4820871353149414, "report/image_loss_std": 2.706658363342285, "report/model_loss_mean": 5.740684509277344, "report/model_loss_std": 6.96426248550415, "report/post_ent_mag": 54.839351654052734, "report/post_ent_max": 54.839351654052734, "report/post_ent_mean": 38.83916473388672, "report/post_ent_min": 23.774009704589844, "report/post_ent_std": 4.953297138214111, "report/prior_ent_mag": 75.82542419433594, "report/prior_ent_max": 75.82542419433594, "report/prior_ent_mean": 43.645484924316406, "report/prior_ent_min": 28.3353271484375, "report/prior_ent_std": 8.471580505371094, "report/rep_loss_mean": 5.344615936279297, "report/rep_loss_std": 7.723219394683838, "report/reward_avg": 1.044921875, "report/reward_loss_mean": 0.05142978951334953, "report/reward_loss_std": 0.2708371877670288, "report/reward_max_data": 400.0, "report/reward_max_pred": 250.44171142578125, "report/reward_neg_acc": 0.96523517370224, "report/reward_neg_loss": 0.014404167421162128, "report/reward_pos_acc": 0.97826087474823, "report/reward_pos_loss": 0.8386266827583313, "report/reward_pred": 0.7694145441055298, "report/reward_rate": 0.044921875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.03132345527410507, "eval/cont_loss_std": 0.7097185254096985, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 16.037599563598633, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.070136062570782e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.222391128540039, "eval/dyn_loss_std": 13.134188652038574, "eval/image_loss_mean": 5.695456027984619, "eval/image_loss_std": 4.793431758880615, "eval/model_loss_mean": 14.249676704406738, "eval/model_loss_std": 12.499675750732422, "eval/post_ent_mag": 55.54258728027344, "eval/post_ent_max": 55.54258728027344, "eval/post_ent_mean": 36.12836837768555, "eval/post_ent_min": 25.209415435791016, "eval/post_ent_std": 4.490005016326904, "eval/prior_ent_mag": 75.82542419433594, "eval/prior_ent_max": 75.82542419433594, "eval/prior_ent_mean": 39.97428894042969, "eval/prior_ent_min": 28.973834991455078, "eval/prior_ent_std": 6.956721782684326, "eval/rep_loss_mean": 13.222391128540039, "eval/rep_loss_std": 13.134188652038574, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.5894616842269897, "eval/reward_loss_std": 2.991070032119751, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.005910873413086, "eval/reward_neg_acc": 0.9306122064590454, "eval/reward_neg_loss": 0.14473430812358856, "eval/reward_pos_acc": 0.3636363744735718, "eval/reward_pos_loss": 10.494752883911133, "eval/reward_pred": 0.36603179574012756, "eval/reward_rate": 0.04296875, "replay/size": 57695.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.464087726400911e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.041494685111286e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1026859283447266e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.37895154953003, "timer/env.step_count": 695.0, "timer/env.step_total": 2.2924437522888184, "timer/env.step_frac": 0.0076318388504356075, "timer/env.step_avg": 0.0032984802191206018, "timer/env.step_min": 0.001989126205444336, "timer/env.step_max": 0.016936302185058594, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 197.44199919700623, "timer/replay._sample_frac": 0.6573097022227593, "timer/replay._sample_avg": 0.017755575467356673, "timer/replay._sample_min": 0.0004966259002685547, "timer/replay._sample_max": 0.06035804748535156, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 199.32948470115662, "timer/agent.policy_frac": 0.6635933832011156, "timer/agent.policy_avg": 0.2868050139584987, "timer/agent.policy_min": 0.0026564598083496094, "timer/agent.policy_max": 0.3378946781158447, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.09011673927307129, "timer/dataset_train_frac": 0.00030001016651864763, "timer/dataset_train_avg": 0.00012966437305477884, "timer/dataset_train_min": 7.581710815429688e-05, "timer/dataset_train_max": 0.0061147212982177734, "timer/agent.train_count": 695.0, "timer/agent.train_total": 97.51694965362549, "timer/agent.train_frac": 0.32464641463916205, "timer/agent.train_avg": 0.1403121577750007, "timer/agent.train_min": 0.10168027877807617, "timer/agent.train_max": 0.44741392135620117, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5238289833068848, "timer/agent.report_frac": 0.001743893773530632, "timer/agent.report_avg": 0.2619144916534424, "timer/agent.report_min": 0.1012260913848877, "timer/agent.report_max": 0.42260289192199707, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.2479248046875e-05, "timer/dataset_eval_frac": 2.412926993485553e-07, "timer/dataset_eval_avg": 7.2479248046875e-05, "timer/dataset_eval_min": 7.2479248046875e-05, "timer/dataset_eval_max": 7.2479248046875e-05, "fps": 9.25469745618789}
+{"step": 233584, "episode/length": 737.0, "episode/score": 1120.0, "episode/reward_rate": 0.11517615176151762}
+{"step": 233876, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.284825284716109, "train/action_min": 0.0, "train/action_std": 2.9553028932759458, "train/actor_opt_grad_norm": 0.009286243553784952, "train/actor_opt_grad_steps": 57010.0, "train/actor_opt_loss": 0.0021056109565564273, "train/adv_mag": 0.758710869601075, "train/adv_max": 0.7357040152583324, "train/adv_mean": 0.0032935604366185274, "train/adv_min": -0.5150425564235365, "train/adv_std": 0.042792542273519744, "train/cont_avg": 0.9984044894366197, "train/cont_loss_mean": 0.00031506262021057204, "train/cont_loss_std": 0.0088763206125313, "train/cont_neg_acc": 0.9131578949459812, "train/cont_neg_loss": 0.14527570093673603, "train/cont_pos_acc": 0.999972445864073, "train/cont_pos_loss": 8.241511038060138e-05, "train/cont_pred": 0.9984374633977111, "train/cont_rate": 0.9984044894366197, "train/dyn_loss_mean": 4.176352208768818, "train/dyn_loss_std": 6.31563532520348, "train/extr_critic_critic_opt_grad_norm": 2.190402240820334, "train/extr_critic_critic_opt_grad_steps": 57010.0, "train/extr_critic_critic_opt_loss": 1.5671734390124468, "train/extr_critic_mag": 416.7923055299571, "train/extr_critic_max": 416.7923055299571, "train/extr_critic_mean": 151.48767401466907, "train/extr_critic_min": 0.07564492964408767, "train/extr_critic_std": 117.28300905899263, "train/extr_return_normed_mag": 1.4333547991766056, "train/extr_return_normed_max": 1.4333547991766056, "train/extr_return_normed_mean": 0.4369949066722897, "train/extr_return_normed_min": -0.012493832671398324, "train/extr_return_normed_std": 0.34982728202578045, "train/extr_return_rate": 0.9379759498045478, "train/extr_return_raw_mag": 490.67633615413183, "train/extr_return_raw_max": 490.67633615413183, "train/extr_return_raw_mean": 152.60590512987594, "train/extr_return_raw_min": 0.06822722134324656, "train/extr_return_raw_std": 118.66604281143404, "train/extr_reward_mag": 210.85684179923905, "train/extr_reward_max": 210.85684179923905, "train/extr_reward_mean": 0.9190868101489376, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.915153115568026, "train/image_loss_mean": 2.151699809960916, "train/image_loss_std": 1.7812753915786743, "train/model_loss_mean": 4.718084691276013, "train/model_loss_std": 5.2395091997066014, "train/model_opt_grad_norm": 13.804379543787997, "train/model_opt_grad_steps": 57010.0, "train/model_opt_loss": 4.718084691276013, "train/policy_entropy_mag": 2.1547589201322745, "train/policy_entropy_max": 2.1547589201322745, "train/policy_entropy_mean": 1.1847103481561365, "train/policy_entropy_min": 0.07072039137423879, "train/policy_entropy_std": 0.5630326002416476, "train/policy_logprob_mag": 6.778186952564078, "train/policy_logprob_max": -0.009139666294442936, "train/policy_logprob_mean": -1.1844699441547124, "train/policy_logprob_min": -6.778186952564078, "train/policy_logprob_std": 1.1028411841728318, "train/policy_randomness_mag": 0.9806730386237024, "train/policy_randomness_max": 0.9806730386237024, "train/policy_randomness_mean": 0.5391849103108258, "train/policy_randomness_min": 0.03218623701955231, "train/policy_randomness_std": 0.25624718275708214, "train/post_ent_mag": 53.967514790279765, "train/post_ent_max": 53.967514790279765, "train/post_ent_mean": 38.593241248332276, "train/post_ent_min": 24.202951431274414, "train/post_ent_std": 4.401576149631554, "train/prior_ent_mag": 75.57259605300258, "train/prior_ent_max": 75.57259605300258, "train/prior_ent_mean": 42.89429903701997, "train/prior_ent_min": 28.648421677065567, "train/prior_ent_std": 7.013082034151319, "train/rep_loss_mean": 4.176352208768818, "train/rep_loss_std": 6.31563532520348, "train/reward_avg": 1.239134022887324, "train/reward_loss_mean": 0.06025847734909662, "train/reward_loss_std": 0.22951014885600185, "train/reward_max_data": 226.61971830985917, "train/reward_max_pred": 177.50745166187556, "train/reward_neg_acc": 0.9741688269964406, "train/reward_neg_loss": 0.006992515897981717, "train/reward_pos_acc": 0.9949554968887652, "train/reward_pos_loss": 0.639467070639973, "train/reward_pred": 1.0888084613941085, "train/reward_rate": 0.08445202464788733, "train_stats/mean_log_entropy": 0.9950556755065918, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.196131961478386e-06, "report/cont_loss_std": 2.5473244022578e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.4723317589377984e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.143808162851201e-06, "report/cont_pred": 0.999022364616394, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.471477508544922, "report/dyn_loss_std": 6.0489325523376465, "report/image_loss_mean": 2.400693416595459, "report/image_loss_std": 1.6750978231430054, "report/model_loss_mean": 5.153881072998047, "report/model_loss_std": 5.01058292388916, "report/post_ent_mag": 53.29771423339844, "report/post_ent_max": 53.29771423339844, "report/post_ent_mean": 39.474609375, "report/post_ent_min": 23.671367645263672, "report/post_ent_std": 4.51075553894043, "report/prior_ent_mag": 75.51981353759766, "report/prior_ent_max": 75.51981353759766, "report/prior_ent_mean": 44.08659362792969, "report/prior_ent_min": 29.9912109375, "report/prior_ent_std": 6.633785247802734, "report/rep_loss_mean": 4.471477508544922, "report/rep_loss_std": 6.0489325523376465, "report/reward_avg": 1.62109375, "report/reward_loss_mean": 0.07030002027750015, "report/reward_loss_std": 0.21882401406764984, "report/reward_max_data": 210.0, "report/reward_max_pred": 199.15695190429688, "report/reward_neg_acc": 0.9662676453590393, "report/reward_neg_loss": 0.010110451839864254, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5971021056175232, "report/reward_pred": 1.3527967929840088, "report/reward_rate": 0.1025390625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.002022475702688098, "eval/cont_loss_std": 0.06363130360841751, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 0.6896454095840454, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.035946636169683e-06, "eval/cont_pred": 0.9979482889175415, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.916488647460938, "eval/dyn_loss_std": 9.989373207092285, "eval/image_loss_mean": 6.320788383483887, "eval/image_loss_std": 4.385010719299316, "eval/model_loss_mean": 14.741085052490234, "eval/model_loss_std": 10.263469696044922, "eval/post_ent_mag": 55.63477325439453, "eval/post_ent_max": 55.63477325439453, "eval/post_ent_mean": 38.46578598022461, "eval/post_ent_min": 26.217849731445312, "eval/post_ent_std": 4.743336200714111, "eval/prior_ent_mag": 75.51981353759766, "eval/prior_ent_max": 75.51981353759766, "eval/prior_ent_mean": 41.561309814453125, "eval/prior_ent_min": 28.873151779174805, "eval/prior_ent_std": 6.709323406219482, "eval/rep_loss_mean": 12.916488647460938, "eval/rep_loss_std": 9.989373207092285, "eval/reward_avg": 0.44921875, "eval/reward_loss_mean": 0.6683804392814636, "eval/reward_loss_std": 3.0596182346343994, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006803512573242, "eval/reward_neg_acc": 0.9120654463768005, "eval/reward_neg_loss": 0.16538597643375397, "eval/reward_pos_acc": 0.239130437374115, "eval/reward_pos_loss": 11.362480163574219, "eval/reward_pred": 0.3772692382335663, "eval/reward_rate": 0.044921875, "replay/size": 58406.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.598309673840486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4099306865751157e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0103075504303, "timer/env.step_count": 711.0, "timer/env.step_total": 2.82401442527771, "timer/env.step_frac": 0.009413057999025606, "timer/env.step_avg": 0.003971890893498889, "timer/env.step_min": 0.002220630645751953, "timer/env.step_max": 0.017639636993408203, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 191.0188775062561, "timer/replay._sample_frac": 0.6367077153645687, "timer/replay._sample_avg": 0.01679139218585233, "timer/replay._sample_min": 0.0007138252258300781, "timer/replay._sample_max": 0.04955649375915527, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.49198269844055, "timer/agent.policy_frac": 0.6616172101522712, "timer/agent.policy_avg": 0.2791729714464705, "timer/agent.policy_min": 0.003252267837524414, "timer/agent.policy_max": 0.329845666885376, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09557819366455078, "timer/dataset_train_frac": 0.0003185830328462449, "timer/dataset_train_avg": 0.00013442783919064808, "timer/dataset_train_min": 7.963180541992188e-05, "timer/dataset_train_max": 0.001216888427734375, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.52393198013306, "timer/agent.train_frac": 0.32506860439699975, "timer/agent.train_avg": 0.1371644612941393, "timer/agent.train_min": 0.0996861457824707, "timer/agent.train_max": 0.4357025623321533, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4996199607849121, "timer/agent.report_frac": 0.0016653426506051908, "timer/agent.report_avg": 0.24980998039245605, "timer/agent.report_min": 0.10014986991882324, "timer/agent.report_max": 0.39947009086608887, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001461505889892578, "timer/dataset_eval_frac": 4.871518921552074e-07, "timer/dataset_eval_avg": 0.0001461505889892578, "timer/dataset_eval_min": 0.0001461505889892578, "timer/dataset_eval_max": 0.0001461505889892578, "fps": 9.479386340480538}
+{"step": 235376, "episode/length": 447.0, "episode/score": 320.0, "episode/reward_rate": 0.07142857142857142}
+{"step": 236680, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.440571529764525, "train/action_min": 0.0, "train/action_std": 2.991999028434216, "train/actor_opt_grad_norm": 0.009479758441185867, "train/actor_opt_grad_steps": 57720.0, "train/actor_opt_loss": 0.001864014680238693, "train/adv_mag": 0.703196323253739, "train/adv_max": 0.669903984791796, "train/adv_mean": 0.0028133505207656975, "train/adv_min": -0.4933046278819232, "train/adv_std": 0.042683294987384705, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.0002717645785108955, "train/cont_loss_std": 0.008115100292882725, "train/cont_neg_acc": 0.9418238997459412, "train/cont_neg_loss": 0.14710973782647466, "train/cont_pos_acc": 0.9999862288085508, "train/cont_pos_loss": 5.2761145378387495e-05, "train/cont_pred": 0.9987612114825719, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.206716349427129, "train/dyn_loss_std": 6.3110372852271714, "train/extr_critic_critic_opt_grad_norm": 2.1839867343365307, "train/extr_critic_critic_opt_grad_steps": 57720.0, "train/extr_critic_critic_opt_loss": 1.5487648718793627, "train/extr_critic_mag": 408.0812760473977, "train/extr_critic_max": 408.0812760473977, "train/extr_critic_mean": 158.1491605731803, "train/extr_critic_min": 0.14057535017040415, "train/extr_critic_std": 115.42012271075181, "train/extr_return_normed_mag": 1.3131146985040585, "train/extr_return_normed_max": 1.3131146985040585, "train/extr_return_normed_mean": 0.45353210245219755, "train/extr_return_normed_min": -0.012901436622766122, "train/extr_return_normed_std": 0.34226741358427937, "train/extr_return_rate": 0.9436125016548265, "train/extr_return_raw_mag": 452.13759989134024, "train/extr_return_raw_max": 452.13759989134024, "train/extr_return_raw_mean": 159.10750526105855, "train/extr_return_raw_min": 0.18226822144942176, "train/extr_return_raw_std": 116.62515548920967, "train/extr_reward_mag": 174.3755737089775, "train/extr_reward_max": 174.3755737089775, "train/extr_reward_mean": 0.887887718811841, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.218815331727686, "train/image_loss_mean": 2.121249643849655, "train/image_loss_std": 1.7674505912082297, "train/model_loss_mean": 4.706807939099594, "train/model_loss_std": 5.232852378361661, "train/model_opt_grad_norm": 13.958014649404607, "train/model_opt_grad_steps": 57720.0, "train/model_opt_loss": 4.706807939099594, "train/policy_entropy_mag": 2.1610197550813917, "train/policy_entropy_max": 2.1610197550813917, "train/policy_entropy_mean": 1.1532992132952515, "train/policy_entropy_min": 0.07095514458249992, "train/policy_entropy_std": 0.5707261373459454, "train/policy_logprob_mag": 6.780009692823383, "train/policy_logprob_max": -0.009183997393284045, "train/policy_logprob_mean": -1.1533410465213614, "train/policy_logprob_min": -6.780009692823383, "train/policy_logprob_std": 1.112306104579442, "train/policy_randomness_mag": 0.9835224655312551, "train/policy_randomness_max": 0.9835224655312551, "train/policy_randomness_mean": 0.5248890892720558, "train/policy_randomness_min": 0.03229307771568567, "train/policy_randomness_std": 0.25974865740453695, "train/post_ent_mag": 54.06903398540658, "train/post_ent_max": 54.06903398540658, "train/post_ent_mean": 38.63818649506905, "train/post_ent_min": 23.90213987860881, "train/post_ent_std": 4.519192638531537, "train/prior_ent_mag": 75.69408911046847, "train/prior_ent_max": 75.69408911046847, "train/prior_ent_mean": 42.90805085947816, "train/prior_ent_min": 28.85898780822754, "train/prior_ent_std": 7.054031593698851, "train/rep_loss_mean": 4.206716349427129, "train/rep_loss_std": 6.3110372852271714, "train/reward_avg": 1.1755886883802817, "train/reward_loss_mean": 0.06125671789050102, "train/reward_loss_std": 0.23689680934791835, "train/reward_max_data": 202.25352112676057, "train/reward_max_pred": 163.45667822931853, "train/reward_neg_acc": 0.974746069438021, "train/reward_neg_loss": 0.00704042036840561, "train/reward_pos_acc": 0.995630789810503, "train/reward_pos_loss": 0.6468153772219806, "train/reward_pred": 1.0407053181822872, "train/reward_rate": 0.08485090228873239, "train_stats/mean_log_entropy": 0.9647291898727417, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.819488452767473e-08, "report/cont_loss_std": 1.2797494264304987e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.819488452767473e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.246192932128906, "report/dyn_loss_std": 6.380242824554443, "report/image_loss_mean": 2.216782331466675, "report/image_loss_std": 2.0600459575653076, "report/model_loss_mean": 4.828663349151611, "report/model_loss_std": 5.479116916656494, "report/post_ent_mag": 54.38407897949219, "report/post_ent_max": 54.38407897949219, "report/post_ent_mean": 38.23397445678711, "report/post_ent_min": 23.067855834960938, "report/post_ent_std": 4.638082504272461, "report/prior_ent_mag": 75.94148254394531, "report/prior_ent_max": 75.94148254394531, "report/prior_ent_mean": 42.56610107421875, "report/prior_ent_min": 29.759506225585938, "report/prior_ent_std": 7.477707386016846, "report/rep_loss_mean": 4.246192932128906, "report/rep_loss_std": 6.380242824554443, "report/reward_avg": 1.201171875, "report/reward_loss_mean": 0.06416480988264084, "report/reward_loss_std": 0.2031107395887375, "report/reward_max_data": 200.0, "report/reward_max_pred": 50.025421142578125, "report/reward_neg_acc": 0.9816017150878906, "report/reward_neg_loss": 0.004669304471462965, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6139033436775208, "report/reward_pred": 0.942655086517334, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.005399376153945923, "eval/cont_loss_std": 0.13232041895389557, "eval/cont_neg_acc": 0.75, "eval/cont_neg_loss": 1.1128119230270386, "eval/cont_pos_acc": 0.9990195631980896, "eval/cont_pos_loss": 0.0010565818520262837, "eval/cont_pred": 0.9966517686843872, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 13.811224937438965, "eval/dyn_loss_std": 11.220736503601074, "eval/image_loss_mean": 6.76658296585083, "eval/image_loss_std": 4.968893051147461, "eval/model_loss_mean": 15.612235069274902, "eval/model_loss_std": 11.650191307067871, "eval/post_ent_mag": 54.56200408935547, "eval/post_ent_max": 54.56200408935547, "eval/post_ent_mean": 37.230873107910156, "eval/post_ent_min": 26.267906188964844, "eval/post_ent_std": 5.241371154785156, "eval/prior_ent_mag": 75.94148254394531, "eval/prior_ent_max": 75.94148254394531, "eval/prior_ent_mean": 39.70193862915039, "eval/prior_ent_min": 28.401424407958984, "eval/prior_ent_std": 7.385121822357178, "eval/rep_loss_mean": 13.811224937438965, "eval/rep_loss_std": 11.220736503601074, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.5535183548927307, "eval/reward_loss_std": 2.707857131958008, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002891540527344, "eval/reward_neg_acc": 0.9265305995941162, "eval/reward_neg_loss": 0.10797802358865738, "eval/reward_pos_acc": 0.29545456171035767, "eval/reward_pos_loss": 10.476917266845703, "eval/reward_pred": 0.3001188635826111, "eval/reward_rate": 0.04296875, "replay/size": 59107.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.17072419127112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2703399345299997e-06, "replay/sample_wait_frac": 0.9997325249643366, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0281801223754883e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.156521320343, "timer/env.step_count": 701.0, "timer/env.step_total": 2.5471911430358887, "timer/env.step_frac": 0.008486209567698817, "timer/env.step_avg": 0.0036336535563992706, "timer/env.step_min": 0.0018422603607177734, "timer/env.step_max": 0.019010066986083984, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 201.62308049201965, "timer/replay._sample_frac": 0.6717264699267912, "timer/replay._sample_avg": 0.01797638021505168, "timer/replay._sample_min": 0.0005981922149658203, "timer/replay._sample_max": 0.053908586502075195, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15126562118530273, "timer/agent.save_frac": 0.0005039558045246134, "timer/agent.save_avg": 0.15126562118530273, "timer/agent.save_min": 0.15126562118530273, "timer/agent.save_max": 0.15126562118530273, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.09377360343933, "timer/agent.policy_frac": 0.6599682483394159, "timer/agent.policy_avg": 0.2825874088494142, "timer/agent.policy_min": 0.0029752254486083984, "timer/agent.policy_max": 0.3564727306365967, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09533238410949707, "timer/dataset_train_frac": 0.00031760890514770216, "timer/dataset_train_avg": 0.00013599484181098012, "timer/dataset_train_min": 8.535385131835938e-05, "timer/dataset_train_max": 0.001897573471069336, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.5744960308075, "timer/agent.train_frac": 0.32841030938522753, "timer/agent.train_avg": 0.140619823153791, "timer/agent.train_min": 0.09980201721191406, "timer/agent.train_max": 0.458646297454834, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2197563648223877, "timer/agent.report_frac": 0.0007321392314107079, "timer/agent.report_avg": 0.10987818241119385, "timer/agent.report_min": 0.1064002513885498, "timer/agent.report_max": 0.11335611343383789, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.4836273193359375e-05, "timer/dataset_eval_frac": 1.826922598654293e-07, "timer/dataset_eval_avg": 5.4836273193359375e-05, "timer/dataset_eval_min": 5.4836273193359375e-05, "timer/dataset_eval_max": 5.4836273193359375e-05, "fps": 9.341575394518888}
+{"step": 237768, "episode/length": 597.0, "episode/score": 750.0, "episode/reward_rate": 0.08695652173913043}
+{"step": 239456, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5144927536231885, "train/action_min": 0.0, "train/action_std": 2.946016498233961, "train/actor_opt_grad_norm": 0.009678494671116705, "train/actor_opt_grad_steps": 58420.0, "train/actor_opt_loss": 0.002268420713401123, "train/adv_mag": 0.7245142585125522, "train/adv_max": 0.6943243953628816, "train/adv_mean": 0.003155375819071618, "train/adv_min": -0.49907025953997736, "train/adv_std": 0.04325532656756864, "train/cont_avg": 0.998627151268116, "train/cont_loss_mean": 0.00024130782603230352, "train/cont_loss_std": 0.005848894719484164, "train/cont_neg_acc": 0.9640522879712722, "train/cont_neg_loss": 0.09478557832561836, "train/cont_pos_acc": 0.9999574388282887, "train/cont_pos_loss": 0.00010570308085283133, "train/cont_pred": 0.9986045904781508, "train/cont_rate": 0.998627151268116, "train/dyn_loss_mean": 4.21493269049603, "train/dyn_loss_std": 6.352366592573083, "train/extr_critic_critic_opt_grad_norm": 2.2606950704602227, "train/extr_critic_critic_opt_grad_steps": 58420.0, "train/extr_critic_critic_opt_loss": 1.5756050676539324, "train/extr_critic_mag": 405.42338893724525, "train/extr_critic_max": 405.42338893724525, "train/extr_critic_mean": 150.20811926800272, "train/extr_critic_min": 0.3977831360222637, "train/extr_critic_std": 115.8365336984828, "train/extr_return_normed_mag": 1.287041181239529, "train/extr_return_normed_max": 1.287041181239529, "train/extr_return_normed_mean": 0.42882081844668457, "train/extr_return_normed_min": -0.012375346641393675, "train/extr_return_normed_std": 0.34227389464343805, "train/extr_return_rate": 0.9362970322802446, "train/extr_return_raw_mag": 444.70659604279894, "train/extr_return_raw_max": 444.70659604279894, "train/extr_return_raw_mean": 151.2873118303824, "train/extr_return_raw_min": 0.43639911736186215, "train/extr_return_raw_std": 117.01898215473562, "train/extr_reward_mag": 180.84915485934934, "train/extr_reward_max": 180.84915485934934, "train/extr_reward_mean": 0.873375823100408, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.286255078039307, "train/image_loss_mean": 2.138802651045979, "train/image_loss_std": 1.7928911672122236, "train/model_loss_mean": 4.727885260098223, "train/model_loss_std": 5.2816334600033965, "train/model_opt_grad_norm": 14.774426736693451, "train/model_opt_grad_steps": 58420.0, "train/model_opt_loss": 4.727885260098223, "train/policy_entropy_mag": 2.158964627030967, "train/policy_entropy_max": 2.158964627030967, "train/policy_entropy_mean": 1.1872943035070447, "train/policy_entropy_min": 0.07141816918400751, "train/policy_entropy_std": 0.5627312003702357, "train/policy_logprob_mag": 6.7798734747845195, "train/policy_logprob_max": -0.009247956460044868, "train/policy_logprob_mean": -1.1877176277879355, "train/policy_logprob_min": -6.7798734747845195, "train/policy_logprob_std": 1.107132761374764, "train/policy_randomness_mag": 0.9825871388117472, "train/policy_randomness_max": 0.9825871388117472, "train/policy_randomness_mean": 0.5403609241264454, "train/policy_randomness_min": 0.032503809347964714, "train/policy_randomness_std": 0.2561100045408028, "train/post_ent_mag": 54.180801778599836, "train/post_ent_max": 54.180801778599836, "train/post_ent_mean": 38.58621857131737, "train/post_ent_min": 23.786754304084226, "train/post_ent_std": 4.436937287233878, "train/prior_ent_mag": 75.72091011379077, "train/prior_ent_max": 75.72091011379077, "train/prior_ent_mean": 42.85205592279849, "train/prior_ent_min": 28.643117628235746, "train/prior_ent_std": 6.965063710143601, "train/rep_loss_mean": 4.21493269049603, "train/rep_loss_std": 6.352366592573083, "train/reward_avg": 1.1332370923913044, "train/reward_loss_mean": 0.05988173100395479, "train/reward_loss_std": 0.23757968756599704, "train/reward_max_data": 195.79710144927537, "train/reward_max_pred": 149.46057280941287, "train/reward_neg_acc": 0.9745596025301062, "train/reward_neg_loss": 0.007632876167654235, "train/reward_pos_acc": 0.994713306427002, "train/reward_pos_loss": 0.652416125587795, "train/reward_pred": 1.004681075396745, "train/reward_rate": 0.08099807518115942, "train_stats/mean_log_entropy": 1.1165976524353027, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 6.633186785620637e-06, "report/cont_loss_std": 0.00011872636241605505, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.003213173244148493, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.4987392609764356e-06, "report/cont_pred": 0.9990230798721313, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.670686721801758, "report/dyn_loss_std": 6.391767978668213, "report/image_loss_mean": 1.9549942016601562, "report/image_loss_std": 1.3428207635879517, "report/model_loss_mean": 4.81268310546875, "report/model_loss_std": 4.888421058654785, "report/post_ent_mag": 51.649085998535156, "report/post_ent_max": 51.649085998535156, "report/post_ent_mean": 39.57093048095703, "report/post_ent_min": 24.516162872314453, "report/post_ent_std": 4.648324012756348, "report/prior_ent_mag": 75.8797836303711, "report/prior_ent_max": 75.8797836303711, "report/prior_ent_mean": 44.15776062011719, "report/prior_ent_min": 25.63860321044922, "report/prior_ent_std": 6.947338581085205, "report/rep_loss_mean": 4.670686721801758, "report/rep_loss_std": 6.391767978668213, "report/reward_avg": 1.484375, "report/reward_loss_mean": 0.05527016893029213, "report/reward_loss_std": 0.17730779945850372, "report/reward_max_data": 400.0, "report/reward_max_pred": 119.09950256347656, "report/reward_neg_acc": 0.9744136929512024, "report/reward_neg_loss": 0.006811805069446564, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5838044881820679, "report/reward_pred": 1.046650767326355, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01672479882836342, "eval/cont_loss_std": 0.5317123532295227, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 5.6985578536987305, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.9896171326981857e-05, "eval/cont_pred": 0.9980863928794861, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.791433334350586, "eval/dyn_loss_std": 12.039490699768066, "eval/image_loss_mean": 5.749360084533691, "eval/image_loss_std": 4.717819690704346, "eval/model_loss_mean": 14.177276611328125, "eval/model_loss_std": 11.72630786895752, "eval/post_ent_mag": 55.080406188964844, "eval/post_ent_max": 55.080406188964844, "eval/post_ent_mean": 36.41607666015625, "eval/post_ent_min": 26.938465118408203, "eval/post_ent_std": 4.674114227294922, "eval/prior_ent_mag": 75.8797836303711, "eval/prior_ent_max": 75.8797836303711, "eval/prior_ent_mean": 39.95570373535156, "eval/prior_ent_min": 28.19676971435547, "eval/prior_ent_std": 7.115492343902588, "eval/rep_loss_mean": 12.791433334350586, "eval/rep_loss_std": 12.039490699768066, "eval/reward_avg": 0.56640625, "eval/reward_loss_mean": 0.7363314628601074, "eval/reward_loss_std": 3.0553019046783447, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.01152515411377, "eval/reward_neg_acc": 0.9120082855224609, "eval/reward_neg_loss": 0.16394804418087006, "eval/reward_pos_acc": 0.24137930572032928, "eval/reward_pos_loss": 10.269476890563965, "eval/reward_pred": 0.38163983821868896, "eval/reward_rate": 0.056640625, "replay/size": 59801.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.730581893701031e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.105391326486549e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4454126358032227e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.5460512638092, "timer/env.step_count": 694.0, "timer/env.step_total": 2.399061918258667, "timer/env.step_frac": 0.007982343831071836, "timer/env.step_avg": 0.00345686155368684, "timer/env.step_min": 0.002259969711303711, "timer/env.step_max": 0.01816248893737793, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 207.01993107795715, "timer/replay._sample_frac": 0.6888126801447876, "timer/replay._sample_avg": 0.018643725781516313, "timer/replay._sample_min": 0.0005304813385009766, "timer/replay._sample_max": 0.05387282371520996, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 197.97058296203613, "timer/agent.policy_frac": 0.6587029912040475, "timer/agent.policy_avg": 0.2852602059971702, "timer/agent.policy_min": 0.0030040740966796875, "timer/agent.policy_max": 0.33782076835632324, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.09508585929870605, "timer/dataset_train_frac": 0.00031637700411922196, "timer/dataset_train_avg": 0.00013701132463790497, "timer/dataset_train_min": 7.915496826171875e-05, "timer/dataset_train_max": 0.004356861114501953, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.82924175262451, "timer/agent.train_frac": 0.3288322749110935, "timer/agent.train_avg": 0.14240524748216787, "timer/agent.train_min": 0.10193586349487305, "timer/agent.train_max": 0.4452629089355469, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49100184440612793, "timer/agent.report_frac": 0.0016336992029722028, "timer/agent.report_avg": 0.24550092220306396, "timer/agent.report_min": 0.10344862937927246, "timer/agent.report_max": 0.38755321502685547, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011301040649414062, "timer/dataset_eval_frac": 3.760169398963219e-07, "timer/dataset_eval_avg": 0.00011301040649414062, "timer/dataset_eval_min": 0.00011301040649414062, "timer/dataset_eval_max": 0.00011301040649414062, "fps": 9.236234054657647}
+{"step": 241620, "episode/length": 962.0, "episode/score": 1230.0, "episode/reward_rate": 0.09968847352024922}
+{"step": 242228, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.471033953238225, "train/action_min": 0.0, "train/action_std": 2.894349302070728, "train/actor_opt_grad_norm": 0.009672722772465668, "train/actor_opt_grad_steps": 59110.0, "train/actor_opt_loss": 0.002651561538147254, "train/adv_mag": 0.7230366883070573, "train/adv_max": 0.6892646011235057, "train/adv_mean": 0.003984613813820719, "train/adv_min": -0.499569571968438, "train/adv_std": 0.04363923711513264, "train/cont_avg": 0.9984997735507246, "train/cont_loss_mean": 0.00021936014326944962, "train/cont_loss_std": 0.006347686681560898, "train/cont_neg_acc": 0.9766081874830681, "train/cont_neg_loss": 0.04295495867366402, "train/cont_pos_acc": 0.999971620414568, "train/cont_pos_loss": 0.0001432460956881348, "train/cont_pred": 0.9984705284021903, "train/cont_rate": 0.9984997735507246, "train/dyn_loss_mean": 4.160918235778809, "train/dyn_loss_std": 6.354660732158716, "train/extr_critic_critic_opt_grad_norm": 2.1430301890856978, "train/extr_critic_critic_opt_grad_steps": 59110.0, "train/extr_critic_critic_opt_loss": 1.5330522440481877, "train/extr_critic_mag": 407.73461471778757, "train/extr_critic_max": 407.73461471778757, "train/extr_critic_mean": 161.33338485938916, "train/extr_critic_min": 0.11348387987717339, "train/extr_critic_std": 118.60209744218467, "train/extr_return_normed_mag": 1.3323970031047212, "train/extr_return_normed_max": 1.3323970031047212, "train/extr_return_normed_mean": 0.46299930629522906, "train/extr_return_normed_min": -0.011558007853834526, "train/extr_return_normed_std": 0.35023895942646527, "train/extr_return_rate": 0.9361300287039384, "train/extr_return_raw_mag": 460.51804517663044, "train/extr_return_raw_max": 460.51804517663044, "train/extr_return_raw_mean": 162.69801385851875, "train/extr_return_raw_min": 0.12662929499376754, "train/extr_return_raw_std": 119.99000914200492, "train/extr_reward_mag": 183.6318623224894, "train/extr_reward_max": 183.6318623224894, "train/extr_reward_mean": 0.9548588550609091, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.927283798438915, "train/image_loss_mean": 2.1156231026718584, "train/image_loss_std": 1.8070963085561558, "train/model_loss_mean": 4.674890749696372, "train/model_loss_std": 5.284868986710258, "train/model_opt_grad_norm": 14.271087245664734, "train/model_opt_grad_steps": 59110.0, "train/model_opt_loss": 4.674890749696372, "train/policy_entropy_mag": 2.157360287680142, "train/policy_entropy_max": 2.157360287680142, "train/policy_entropy_mean": 1.1839250956756482, "train/policy_entropy_min": 0.07125983635584514, "train/policy_entropy_std": 0.5669221627539482, "train/policy_logprob_mag": 6.778684464053831, "train/policy_logprob_max": -0.009221659365879454, "train/policy_logprob_mean": -1.184896587461665, "train/policy_logprob_min": -6.778684464053831, "train/policy_logprob_std": 1.1069626307141953, "train/policy_randomness_mag": 0.981856972411059, "train/policy_randomness_max": 0.981856972411059, "train/policy_randomness_mean": 0.538827523805093, "train/policy_randomness_min": 0.0324317489521227, "train/policy_randomness_std": 0.2580173952855926, "train/post_ent_mag": 54.44871487824813, "train/post_ent_max": 54.44871487824813, "train/post_ent_mean": 38.53416133272475, "train/post_ent_min": 23.952708313430566, "train/post_ent_std": 4.5539116341134775, "train/prior_ent_mag": 75.80576910488847, "train/prior_ent_max": 75.80576910488847, "train/prior_ent_mean": 42.72811878591344, "train/prior_ent_min": 28.49271193794582, "train/prior_ent_std": 7.125764528910319, "train/rep_loss_mean": 4.160918235778809, "train/rep_loss_std": 6.354660732158716, "train/reward_avg": 1.2226845561594204, "train/reward_loss_mean": 0.062497356177672096, "train/reward_loss_std": 0.2537248335454775, "train/reward_max_data": 198.40579710144928, "train/reward_max_pred": 159.50287072554877, "train/reward_neg_acc": 0.9751230625138767, "train/reward_neg_loss": 0.006761334736939466, "train/reward_pos_acc": 0.99130994686182, "train/reward_pos_loss": 0.6603981196016505, "train/reward_pred": 1.0927249098169631, "train/reward_rate": 0.08579596920289854, "train_stats/mean_log_entropy": 1.1727126836776733, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.70824397780234e-06, "report/cont_loss_std": 0.00013181396934669465, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0002260625915369019, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.491866093303543e-06, "report/cont_pred": 0.999019205570221, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.637684345245361, "report/dyn_loss_std": 6.414402484893799, "report/image_loss_mean": 2.4279613494873047, "report/image_loss_std": 1.6678366661071777, "report/model_loss_mean": 5.266526222229004, "report/model_loss_std": 5.266838550567627, "report/post_ent_mag": 55.382415771484375, "report/post_ent_max": 55.382415771484375, "report/post_ent_mean": 38.81280517578125, "report/post_ent_min": 24.083972930908203, "report/post_ent_std": 4.324676513671875, "report/prior_ent_mag": 76.10661315917969, "report/prior_ent_max": 76.10661315917969, "report/prior_ent_mean": 43.63690185546875, "report/prior_ent_min": 28.463346481323242, "report/prior_ent_std": 6.966440677642822, "report/rep_loss_mean": 4.637684345245361, "report/rep_loss_std": 6.414402484893799, "report/reward_avg": 1.23046875, "report/reward_loss_mean": 0.055949509143829346, "report/reward_loss_std": 0.2182251214981079, "report/reward_max_data": 200.0, "report/reward_max_pred": 195.88165283203125, "report/reward_neg_acc": 0.9747102856636047, "report/reward_neg_loss": 0.008950688876211643, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6506412625312805, "report/reward_pred": 1.1339986324310303, "report/reward_rate": 0.0732421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01677405834197998, "eval/cont_loss_std": 0.5223102569580078, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 8.5883150100708, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.416196380281235e-09, "eval/cont_pred": 0.999383807182312, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.834287643432617, "eval/dyn_loss_std": 12.413725852966309, "eval/image_loss_mean": 5.763636589050293, "eval/image_loss_std": 5.254602909088135, "eval/model_loss_mean": 14.22081184387207, "eval/model_loss_std": 13.0372953414917, "eval/post_ent_mag": 55.382415771484375, "eval/post_ent_max": 55.382415771484375, "eval/post_ent_mean": 35.96983337402344, "eval/post_ent_min": 26.072574615478516, "eval/post_ent_std": 4.618126392364502, "eval/prior_ent_mag": 76.10661315917969, "eval/prior_ent_max": 76.10661315917969, "eval/prior_ent_mean": 39.80398941040039, "eval/prior_ent_min": 27.624025344848633, "eval/prior_ent_std": 7.40193510055542, "eval/rep_loss_mean": 12.834287643432617, "eval/rep_loss_std": 12.413725852966309, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7398285865783691, "eval/reward_loss_std": 3.4644463062286377, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 14.731274604797363, "eval/reward_neg_acc": 0.9400206804275513, "eval/reward_neg_loss": 0.10691913217306137, "eval/reward_pos_acc": 0.2982456088066101, "eval/reward_pos_loss": 11.477081298828125, "eval/reward_pred": 0.329616516828537, "eval/reward_rate": 0.0556640625, "replay/size": 60494.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.731559478187286e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 2.4578099987035532e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2069940567016602e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1585671901703, "timer/env.step_count": 693.0, "timer/env.step_total": 2.3621935844421387, "timer/env.step_frac": 0.007869818964539275, "timer/env.step_avg": 0.003408648750998757, "timer/env.step_min": 0.0020744800567626953, "timer/env.step_max": 0.018187999725341797, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 198.2607982158661, "timer/replay._sample_frac": 0.6605202046099014, "timer/replay._sample_avg": 0.017880663619757042, "timer/replay._sample_min": 0.0004830360412597656, "timer/replay._sample_max": 0.04877066612243652, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.71510887145996, "timer/agent.policy_frac": 0.6587022010476029, "timer/agent.policy_avg": 0.2853031874047041, "timer/agent.policy_min": 0.0030159950256347656, "timer/agent.policy_max": 0.3356757164001465, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08982324600219727, "timer/dataset_train_frac": 0.00029925264783559654, "timer/dataset_train_avg": 0.00012961507359624425, "timer/dataset_train_min": 7.963180541992188e-05, "timer/dataset_train_max": 0.003446817398071289, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.74660873413086, "timer/agent.train_frac": 0.32898147688574336, "timer/agent.train_avg": 0.14249149889484972, "timer/agent.train_min": 0.10387921333312988, "timer/agent.train_max": 0.45428967475891113, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5208194255828857, "timer/agent.report_frac": 0.0017351476269971404, "timer/agent.report_avg": 0.26040971279144287, "timer/agent.report_min": 0.10952997207641602, "timer/agent.report_max": 0.4112894535064697, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 2.7179718017578125e-05, "timer/dataset_eval_frac": 9.055119856151891e-08, "timer/dataset_eval_avg": 2.7179718017578125e-05, "timer/dataset_eval_min": 2.7179718017578125e-05, "timer/dataset_eval_max": 2.7179718017578125e-05, "fps": 9.234769163532684}
+{"step": 243416, "episode/length": 448.0, "episode/score": 430.0, "episode/reward_rate": 0.0957683741648107}
+{"step": 245072, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.556715414557658, "train/action_min": 0.0, "train/action_std": 2.9471652776422634, "train/actor_opt_grad_norm": 0.009784320546445293, "train/actor_opt_grad_steps": 59810.0, "train/actor_opt_loss": 0.002623124332029887, "train/adv_mag": 0.713490495799293, "train/adv_max": 0.6779754787263735, "train/adv_mean": 0.0038574233218292954, "train/adv_min": -0.4951924268208759, "train/adv_std": 0.042897251001755954, "train/cont_avg": 0.998198173415493, "train/cont_loss_mean": 0.00041760956047590933, "train/cont_loss_std": 0.010895189614641615, "train/cont_neg_acc": 0.9137566146396455, "train/cont_neg_loss": 0.18771488956382482, "train/cont_pos_acc": 0.9999862145370161, "train/cont_pos_loss": 9.612959739198756e-05, "train/cont_pred": 0.9982765375728339, "train/cont_rate": 0.998198173415493, "train/dyn_loss_mean": 4.268928309561501, "train/dyn_loss_std": 6.389305242350404, "train/extr_critic_critic_opt_grad_norm": 2.1644584830378144, "train/extr_critic_critic_opt_grad_steps": 59810.0, "train/extr_critic_critic_opt_loss": 1.5315475799668004, "train/extr_critic_mag": 412.8997875804632, "train/extr_critic_max": 412.8997875804632, "train/extr_critic_mean": 159.01918094258912, "train/extr_critic_min": 0.007697308567208304, "train/extr_critic_std": 117.80284892337423, "train/extr_return_normed_mag": 1.3042968738246972, "train/extr_return_normed_max": 1.3042968738246972, "train/extr_return_normed_mean": 0.4550281418880946, "train/extr_return_normed_min": -0.01160536508377589, "train/extr_return_normed_std": 0.34648758529777257, "train/extr_return_rate": 0.925773046386074, "train/extr_return_raw_mag": 452.1525616712973, "train/extr_return_raw_max": 452.1525616712973, "train/extr_return_raw_mean": 160.34553259191378, "train/extr_return_raw_min": 0.009644328755110135, "train/extr_return_raw_std": 119.06163379508006, "train/extr_reward_mag": 170.64243334112032, "train/extr_reward_max": 170.64243334112032, "train/extr_reward_mean": 0.8723585676979011, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.04973842392505, "train/image_loss_mean": 2.1203878244883576, "train/image_loss_std": 1.8122348634290024, "train/model_loss_mean": 4.74418180761203, "train/model_loss_std": 5.298377104208503, "train/model_opt_grad_norm": 13.568231193112656, "train/model_opt_grad_steps": 59810.0, "train/model_opt_loss": 4.74418180761203, "train/policy_entropy_mag": 2.1604174258003774, "train/policy_entropy_max": 2.1604174258003774, "train/policy_entropy_mean": 1.1988568373129402, "train/policy_entropy_min": 0.0715344154708822, "train/policy_entropy_std": 0.556066094989508, "train/policy_logprob_mag": 6.766600273024868, "train/policy_logprob_max": -0.009266559467454192, "train/policy_logprob_mean": -1.198615418353551, "train/policy_logprob_min": -6.766600273024868, "train/policy_logprob_std": 1.1035196999428978, "train/policy_randomness_mag": 0.9832483362144148, "train/policy_randomness_max": 0.9832483362144148, "train/policy_randomness_mean": 0.5456232546081006, "train/policy_randomness_min": 0.032556715198385884, "train/policy_randomness_std": 0.253076584406302, "train/post_ent_mag": 54.38083466005997, "train/post_ent_max": 54.38083466005997, "train/post_ent_mean": 38.480650297352966, "train/post_ent_min": 23.98744032416545, "train/post_ent_std": 4.567035060533335, "train/prior_ent_mag": 75.85762034671407, "train/prior_ent_max": 75.85762034671407, "train/prior_ent_mean": 42.73483432178766, "train/prior_ent_min": 28.276763566782776, "train/prior_ent_std": 7.15027065008459, "train/rep_loss_mean": 4.268928309561501, "train/rep_loss_std": 6.389305242350404, "train/reward_avg": 1.1385893485915493, "train/reward_loss_mean": 0.06201936949936437, "train/reward_loss_std": 0.23639363491199386, "train/reward_max_data": 184.92957746478874, "train/reward_max_pred": 140.9780237573973, "train/reward_neg_acc": 0.9718306660652161, "train/reward_neg_loss": 0.008289711739257974, "train/reward_pos_acc": 0.9940983829363971, "train/reward_pos_loss": 0.6538796256965315, "train/reward_pred": 1.0106279959141369, "train/reward_rate": 0.08387433978873239, "train_stats/mean_log_entropy": 0.9283729791641235, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.011183136753971e-06, "report/cont_loss_std": 7.9379475209862e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0023042119573801756, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7626980479690246e-06, "report/cont_pred": 0.9990239143371582, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.729053497314453, "report/dyn_loss_std": 6.884323596954346, "report/image_loss_mean": 2.1914567947387695, "report/image_loss_std": 1.8642147779464722, "report/model_loss_mean": 5.081347465515137, "report/model_loss_std": 5.739711284637451, "report/post_ent_mag": 55.112457275390625, "report/post_ent_max": 55.112457275390625, "report/post_ent_mean": 39.2975959777832, "report/post_ent_min": 23.659305572509766, "report/post_ent_std": 4.411428928375244, "report/prior_ent_mag": 75.9468994140625, "report/prior_ent_max": 75.9468994140625, "report/prior_ent_mean": 43.9739875793457, "report/prior_ent_min": 25.78799057006836, "report/prior_ent_std": 6.799445152282715, "report/rep_loss_mean": 4.729053497314453, "report/rep_loss_std": 6.884323596954346, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.05245460569858551, "report/reward_loss_std": 0.1800650805234909, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.99156188964844, "report/reward_neg_acc": 0.9671958088874817, "report/reward_neg_loss": 0.007147700991481543, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5944169759750366, "report/reward_pred": 0.8382428288459778, "report/reward_rate": 0.0771484375, "eval/cont_avg": 0.994140625, "eval/cont_loss_mean": 0.03437522053718567, "eval/cont_loss_std": 0.6118475198745728, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 5.376255035400391, "eval/cont_pos_acc": 0.9990177154541016, "eval/cont_pos_loss": 0.0028906650841236115, "eval/cont_pred": 0.9960013031959534, "eval/cont_rate": 0.994140625, "eval/dyn_loss_mean": 11.978226661682129, "eval/dyn_loss_std": 13.917227745056152, "eval/image_loss_mean": 4.954501628875732, "eval/image_loss_std": 4.71605110168457, "eval/model_loss_mean": 12.704988479614258, "eval/model_loss_std": 12.989310264587402, "eval/post_ent_mag": 55.25624465942383, "eval/post_ent_max": 55.25624465942383, "eval/post_ent_mean": 35.673221588134766, "eval/post_ent_min": 26.807580947875977, "eval/post_ent_std": 5.502281188964844, "eval/prior_ent_mag": 75.9468994140625, "eval/prior_ent_max": 75.9468994140625, "eval/prior_ent_mean": 39.369483947753906, "eval/prior_ent_min": 27.083984375, "eval/prior_ent_std": 8.07671070098877, "eval/rep_loss_mean": 11.978226661682129, "eval/rep_loss_std": 13.917227745056152, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.5291754007339478, "eval/reward_loss_std": 2.447878122329712, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008590698242188, "eval/reward_neg_acc": 0.9282787442207336, "eval/reward_neg_loss": 0.13600178062915802, "eval/reward_pos_acc": 0.2916666865348816, "eval/reward_pos_loss": 8.523704528808594, "eval/reward_pred": 0.34124231338500977, "eval/reward_rate": 0.046875, "replay/size": 61205.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.632513183078685e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4290444123258739e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6540288925170898e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3074400424957, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8509390354156494, "timer/env.step_frac": 0.009493401279076604, "timer/env.step_avg": 0.004009759543481926, "timer/env.step_min": 0.002290964126586914, "timer/env.step_max": 0.021930456161499023, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 187.1585156917572, "timer/replay._sample_frac": 0.6232230399129401, "timer/replay._sample_avg": 0.016452049550963185, "timer/replay._sample_min": 0.007124423980712891, "timer/replay._sample_max": 0.0682673454284668, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.20019841194152832, "timer/agent.save_frac": 0.0006666448620560276, "timer/agent.save_avg": 0.20019841194152832, "timer/agent.save_min": 0.20019841194152832, "timer/agent.save_max": 0.20019841194152832, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.23094201087952, "timer/agent.policy_frac": 0.6600933429515712, "timer/agent.policy_avg": 0.27880582561305134, "timer/agent.policy_min": 0.003431081771850586, "timer/agent.policy_max": 0.40903162956237793, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09736466407775879, "timer/dataset_train_frac": 0.00032421662301800107, "timer/dataset_train_avg": 0.0001369404558055679, "timer/dataset_train_min": 8.821487426757812e-05, "timer/dataset_train_max": 0.0002791881561279297, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.05982613563538, "timer/agent.train_frac": 0.3265314576347465, "timer/agent.train_avg": 0.13791818021889646, "timer/agent.train_min": 0.10026669502258301, "timer/agent.train_max": 0.4292731285095215, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4960212707519531, "timer/agent.report_frac": 0.0016517115615975496, "timer/agent.report_avg": 0.24801063537597656, "timer/agent.report_min": 0.09889984130859375, "timer/agent.report_max": 0.3971214294433594, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.628036499023438e-05, "timer/dataset_eval_frac": 2.2070836800065696e-07, "timer/dataset_eval_avg": 6.628036499023438e-05, "timer/dataset_eval_min": 6.628036499023438e-05, "timer/dataset_eval_max": 6.628036499023438e-05, "fps": 9.469984550158307}
+{"step": 246100, "episode/length": 670.0, "episode/score": 650.0, "episode/reward_rate": 0.06259314456035768}
+{"step": 247876, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5945207868303575, "train/action_min": 0.0, "train/action_std": 2.9675780262265885, "train/actor_opt_grad_norm": 0.00961006921050804, "train/actor_opt_grad_steps": 60515.0, "train/actor_opt_loss": 0.0022187300105827035, "train/adv_mag": 0.740076727100781, "train/adv_max": 0.7046376104865756, "train/adv_mean": 0.003374272765207869, "train/adv_min": -0.5318095713853837, "train/adv_std": 0.04362168322716441, "train/cont_avg": 0.9983537946428571, "train/cont_loss_mean": 0.00026848624024639533, "train/cont_loss_std": 0.007187537782799934, "train/cont_neg_acc": 0.9679487182543828, "train/cont_neg_loss": 0.09665464898793148, "train/cont_pos_acc": 0.999972026688712, "train/cont_pos_loss": 0.0001325622229408907, "train/cont_pred": 0.9983226537704468, "train/cont_rate": 0.9983537946428571, "train/dyn_loss_mean": 4.2473274435315815, "train/dyn_loss_std": 6.343673542567662, "train/extr_critic_critic_opt_grad_norm": 2.208297766957964, "train/extr_critic_critic_opt_grad_steps": 60515.0, "train/extr_critic_critic_opt_loss": 1.536966816016606, "train/extr_critic_mag": 409.4205958775112, "train/extr_critic_max": 409.4205958775112, "train/extr_critic_mean": 162.90517828805105, "train/extr_critic_min": 0.004893711635044643, "train/extr_critic_std": 119.56708984375, "train/extr_return_normed_mag": 1.3071010674749102, "train/extr_return_normed_max": 1.3071010674749102, "train/extr_return_normed_mean": 0.46090332439967563, "train/extr_return_normed_min": -0.011208915337920188, "train/extr_return_normed_std": 0.34715980291366577, "train/extr_return_rate": 0.9346949917929513, "train/extr_return_raw_mag": 458.2164158412388, "train/extr_return_raw_max": 458.2164158412388, "train/extr_return_raw_mean": 164.07890069144113, "train/extr_return_raw_min": 0.0028860611392052048, "train/extr_return_raw_std": 120.63497924804688, "train/extr_reward_mag": 186.5555626460484, "train/extr_reward_max": 186.5555626460484, "train/extr_reward_mean": 0.9257618410246713, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.553354672023228, "train/image_loss_mean": 2.084752096448626, "train/image_loss_std": 1.764898419380188, "train/model_loss_mean": 4.695782790865217, "train/model_loss_std": 5.250464047704424, "train/model_opt_grad_norm": 14.138999434879848, "train/model_opt_grad_steps": 60515.0, "train/model_opt_loss": 4.695782790865217, "train/policy_entropy_mag": 2.1606453452791485, "train/policy_entropy_max": 2.1606453452791485, "train/policy_entropy_mean": 1.183576877628054, "train/policy_entropy_min": 0.0707255451806954, "train/policy_entropy_std": 0.5700824052095413, "train/policy_logprob_mag": 6.779108136040824, "train/policy_logprob_max": -0.009139629360288382, "train/policy_logprob_mean": -1.1817716990198408, "train/policy_logprob_min": -6.779108136040824, "train/policy_logprob_std": 1.1019099422863552, "train/policy_randomness_mag": 0.9833520650863647, "train/policy_randomness_max": 0.9833520650863647, "train/policy_randomness_mean": 0.5386690501655851, "train/policy_randomness_min": 0.03218858258000442, "train/policy_randomness_std": 0.25945568318877904, "train/post_ent_mag": 54.71731681823731, "train/post_ent_max": 54.71731681823731, "train/post_ent_mean": 38.378705978393555, "train/post_ent_min": 23.604249136788503, "train/post_ent_std": 4.632036713191441, "train/prior_ent_mag": 75.93693596976144, "train/prior_ent_max": 75.93693596976144, "train/prior_ent_mean": 42.64993874686105, "train/prior_ent_min": 28.284773199898854, "train/prior_ent_std": 7.137661715916225, "train/rep_loss_mean": 4.2473274435315815, "train/rep_loss_std": 6.343673542567662, "train/reward_avg": 1.1590401785714286, "train/reward_loss_mean": 0.06236575615725347, "train/reward_loss_std": 0.2383049637079239, "train/reward_max_data": 174.0, "train/reward_max_pred": 139.3264703478132, "train/reward_neg_acc": 0.9731005813394275, "train/reward_neg_loss": 0.007334288504041199, "train/reward_pos_acc": 0.9940632011209215, "train/reward_pos_loss": 0.6459059221403939, "train/reward_pred": 1.0351952420813697, "train/reward_rate": 0.08602120535714286, "train_stats/mean_log_entropy": 1.3888436555862427, "report/cont_avg": 1.0, "report/cont_loss_mean": 0.00014137513062451035, "report/cont_loss_std": 0.004508960992097855, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014137513062451035, "report/cont_pred": 0.9998683333396912, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.6572422981262207, "report/dyn_loss_std": 6.15554666519165, "report/image_loss_mean": 1.786841869354248, "report/image_loss_std": 1.5774271488189697, "report/model_loss_mean": 4.043229579925537, "report/model_loss_std": 4.937717914581299, "report/post_ent_mag": 52.71300506591797, "report/post_ent_max": 52.71300506591797, "report/post_ent_mean": 37.951438903808594, "report/post_ent_min": 20.764577865600586, "report/post_ent_std": 4.498389720916748, "report/prior_ent_mag": 75.98893737792969, "report/prior_ent_max": 75.98893737792969, "report/prior_ent_mean": 41.36546325683594, "report/prior_ent_min": 26.869287490844727, "report/prior_ent_std": 6.928348064422607, "report/rep_loss_mean": 3.6572422981262207, "report/rep_loss_std": 6.15554666519165, "report/reward_avg": 1.083984375, "report/reward_loss_mean": 0.06190096586942673, "report/reward_loss_std": 0.23254479467868805, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.00261688232422, "report/reward_neg_acc": 0.9848648905754089, "report/reward_neg_loss": 0.0026206241454929113, "report/reward_pos_acc": 0.9898989796638489, "report/reward_pos_loss": 0.6157829761505127, "report/reward_pred": 1.0315537452697754, "report/reward_rate": 0.0966796875, "eval/cont_avg": 0.994140625, "eval/cont_loss_mean": 0.012901009060442448, "eval/cont_loss_std": 0.32241588830947876, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 2.1155169010162354, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000508381868712604, "eval/cont_pred": 0.9955852031707764, "eval/cont_rate": 0.994140625, "eval/dyn_loss_mean": 13.045537948608398, "eval/dyn_loss_std": 12.460330963134766, "eval/image_loss_mean": 5.931617736816406, "eval/image_loss_std": 5.280261993408203, "eval/model_loss_mean": 14.266422271728516, "eval/model_loss_std": 12.621715545654297, "eval/post_ent_mag": 54.40735626220703, "eval/post_ent_max": 54.40735626220703, "eval/post_ent_mean": 37.74286651611328, "eval/post_ent_min": 26.22950553894043, "eval/post_ent_std": 6.146458625793457, "eval/prior_ent_mag": 75.98893737792969, "eval/prior_ent_max": 75.98893737792969, "eval/prior_ent_mean": 40.51950454711914, "eval/prior_ent_min": 27.834182739257812, "eval/prior_ent_std": 8.535083770751953, "eval/rep_loss_mean": 13.045537948608398, "eval/rep_loss_std": 12.460330963134766, "eval/reward_avg": 0.33203125, "eval/reward_loss_mean": 0.49457985162734985, "eval/reward_loss_std": 2.7087719440460205, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008598327636719, "eval/reward_neg_acc": 0.924242377281189, "eval/reward_neg_loss": 0.10609625279903412, "eval/reward_pos_acc": 0.20588235557079315, "eval/reward_pos_loss": 11.80630874633789, "eval/reward_pred": 0.25078117847442627, "eval/reward_rate": 0.033203125, "replay/size": 61906.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.0802543738089e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.270765074649653e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2516975402832031e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1443393230438, "timer/env.step_count": 701.0, "timer/env.step_total": 2.6350936889648438, "timer/env.step_frac": 0.008779421577325522, "timer/env.step_avg": 0.0037590494849712463, "timer/env.step_min": 0.002199888229370117, "timer/env.step_max": 0.021964550018310547, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 203.7194151878357, "timer/replay._sample_frac": 0.6787381552732651, "timer/replay._sample_avg": 0.018163285947560243, "timer/replay._sample_min": 0.0005049705505371094, "timer/replay._sample_max": 0.06751370429992676, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.04929423332214, "timer/agent.policy_frac": 0.6598468412897925, "timer/agent.policy_avg": 0.2825239575368362, "timer/agent.policy_min": 0.0031387805938720703, "timer/agent.policy_max": 0.3323969841003418, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.10030531883239746, "timer/dataset_train_frac": 0.00033419027344853356, "timer/dataset_train_avg": 0.0001430888999035627, "timer/dataset_train_min": 8.463859558105469e-05, "timer/dataset_train_max": 0.004156827926635742, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.17416334152222, "timer/agent.train_frac": 0.3270898380524107, "timer/agent.train_avg": 0.1400487351519575, "timer/agent.train_min": 0.1024937629699707, "timer/agent.train_max": 0.44553184509277344, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5145196914672852, "timer/agent.report_frac": 0.0017142408636716291, "timer/agent.report_avg": 0.2572598457336426, "timer/agent.report_min": 0.10377001762390137, "timer/agent.report_max": 0.4107496738433838, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010013580322265625, "timer/dataset_eval_frac": 3.3362549314941636e-07, "timer/dataset_eval_avg": 0.00010013580322265625, "timer/dataset_eval_min": 0.00010013580322265625, "timer/dataset_eval_max": 0.00010013580322265625, "fps": 9.341941710696462}
+{"step": 248856, "episode/length": 688.0, "episode/score": 830.0, "episode/reward_rate": 0.10885341074020319}
+{"step": 250648, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.465284946986607, "train/action_min": 0.0, "train/action_std": 2.9972970928464617, "train/actor_opt_grad_norm": 0.00883122798986733, "train/actor_opt_grad_steps": 61215.0, "train/actor_opt_loss": 0.0020130951967075815, "train/adv_mag": 0.6615388555186136, "train/adv_max": 0.6339837938547135, "train/adv_mean": 0.0034175756836443074, "train/adv_min": -0.48823276673044474, "train/adv_std": 0.040771966108254024, "train/cont_avg": 0.9982700892857143, "train/cont_loss_mean": 0.0003080146363428428, "train/cont_loss_std": 0.008148033493867907, "train/cont_neg_acc": 0.9693989079506671, "train/cont_neg_loss": 0.04690535436095131, "train/cont_pos_acc": 0.9999440576348986, "train/cont_pos_loss": 0.00019208470676232992, "train/cont_pred": 0.998212627853666, "train/cont_rate": 0.9982700892857143, "train/dyn_loss_mean": 4.30100222996303, "train/dyn_loss_std": 6.399485056740897, "train/extr_critic_critic_opt_grad_norm": 2.1386423553739276, "train/extr_critic_critic_opt_grad_steps": 61215.0, "train/extr_critic_critic_opt_loss": 1.5290546553475517, "train/extr_critic_mag": 418.30970982142856, "train/extr_critic_max": 418.30970982142856, "train/extr_critic_mean": 159.9899266924177, "train/extr_critic_min": 0.14922486884253366, "train/extr_critic_std": 122.26954814365932, "train/extr_return_normed_mag": 1.288283256122044, "train/extr_return_normed_max": 1.288283256122044, "train/extr_return_normed_mean": 0.4498494897569929, "train/extr_return_normed_min": -0.01094590613003155, "train/extr_return_normed_std": 0.35350616914885385, "train/extr_return_rate": 0.9287314457552773, "train/extr_return_raw_mag": 454.3144548688616, "train/extr_return_raw_max": 454.3144548688616, "train/extr_return_raw_mean": 161.1856447492327, "train/extr_return_raw_min": 0.1338008711380618, "train/extr_return_raw_std": 123.56306795392717, "train/extr_reward_mag": 156.4546156338283, "train/extr_reward_max": 156.4546156338283, "train/extr_reward_mean": 0.8739976550851549, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.823437302453177, "train/image_loss_mean": 2.110005794252668, "train/image_loss_std": 1.816226966040475, "train/model_loss_mean": 4.752716554914202, "train/model_loss_std": 5.320198787961687, "train/model_opt_grad_norm": 13.950280393872942, "train/model_opt_grad_steps": 61215.0, "train/model_opt_loss": 4.752716554914202, "train/policy_entropy_mag": 2.16007353578295, "train/policy_entropy_max": 2.16007353578295, "train/policy_entropy_mean": 1.1789826623031072, "train/policy_entropy_min": 0.07069154967154775, "train/policy_entropy_std": 0.5693407552582878, "train/policy_logprob_mag": 6.77816299029759, "train/policy_logprob_max": -0.009138465473162277, "train/policy_logprob_mean": -1.179339690719332, "train/policy_logprob_min": -6.77816299029759, "train/policy_logprob_std": 1.1048504539898463, "train/policy_randomness_mag": 0.9830918269498008, "train/policy_randomness_max": 0.9830918269498008, "train/policy_randomness_mean": 0.5365781281675611, "train/policy_randomness_min": 0.032173110331807815, "train/policy_randomness_std": 0.2591181465557643, "train/post_ent_mag": 54.171443939208984, "train/post_ent_max": 54.171443939208984, "train/post_ent_mean": 38.554659489222935, "train/post_ent_min": 23.253565543038505, "train/post_ent_std": 4.636673109872, "train/prior_ent_mag": 75.85529948643276, "train/prior_ent_max": 75.85529948643276, "train/prior_ent_mean": 42.84319305419922, "train/prior_ent_min": 28.73612251281738, "train/prior_ent_std": 7.144880281175886, "train/rep_loss_mean": 4.30100222996303, "train/rep_loss_std": 6.399485056740897, "train/reward_avg": 1.1138392857142858, "train/reward_loss_mean": 0.061801459400781564, "train/reward_loss_std": 0.25156202422721047, "train/reward_max_data": 166.14285714285714, "train/reward_max_pred": 128.109008707319, "train/reward_neg_acc": 0.9742207314286914, "train/reward_neg_loss": 0.007543788371341569, "train/reward_pos_acc": 0.9934680989810398, "train/reward_pos_loss": 0.6591272320066179, "train/reward_pred": 0.9865460570369448, "train/reward_rate": 0.08331473214285715, "train_stats/mean_log_entropy": 1.1287175416946411, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.9028609787928872e-05, "report/cont_loss_std": 0.0006759658572264016, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.574474825058132e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.8898050004499964e-05, "report/cont_pred": 0.9980185031890869, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.0273261070251465, "report/dyn_loss_std": 6.28653621673584, "report/image_loss_mean": 2.0170483589172363, "report/image_loss_std": 1.756684422492981, "report/model_loss_mean": 4.487883567810059, "report/model_loss_std": 5.303009986877441, "report/post_ent_mag": 55.322879791259766, "report/post_ent_max": 55.322879791259766, "report/post_ent_mean": 37.74793243408203, "report/post_ent_min": 21.954845428466797, "report/post_ent_std": 4.7544264793396, "report/prior_ent_mag": 76.1331787109375, "report/prior_ent_max": 76.1331787109375, "report/prior_ent_mean": 41.88567352294922, "report/prior_ent_min": 29.487205505371094, "report/prior_ent_std": 7.331252574920654, "report/rep_loss_mean": 4.0273261070251465, "report/rep_loss_std": 6.28653621673584, "report/reward_avg": 1.30859375, "report/reward_loss_mean": 0.0544101744890213, "report/reward_loss_std": 0.2238239049911499, "report/reward_max_data": 400.0, "report/reward_max_pred": 399.0166320800781, "report/reward_neg_acc": 0.9776833057403564, "report/reward_neg_loss": 0.007595248054713011, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5851673483848572, "report/reward_pred": 1.262086272239685, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.022017257288098335, "eval/cont_loss_std": 0.5646817684173584, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.268474578857422, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.533701475244015e-06, "eval/cont_pred": 0.9999862909317017, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.829343795776367, "eval/dyn_loss_std": 10.925217628479004, "eval/image_loss_mean": 5.710729598999023, "eval/image_loss_std": 4.726409912109375, "eval/model_loss_mean": 14.176431655883789, "eval/model_loss_std": 11.721955299377441, "eval/post_ent_mag": 55.178585052490234, "eval/post_ent_max": 55.178585052490234, "eval/post_ent_mean": 36.53207778930664, "eval/post_ent_min": 26.06976318359375, "eval/post_ent_std": 4.880521774291992, "eval/prior_ent_mag": 76.1331787109375, "eval/prior_ent_max": 76.1331787109375, "eval/prior_ent_mean": 40.98717498779297, "eval/prior_ent_min": 28.99961280822754, "eval/prior_ent_std": 7.398241996765137, "eval/rep_loss_mean": 12.829343795776367, "eval/rep_loss_std": 10.925217628479004, "eval/reward_avg": 0.595703125, "eval/reward_loss_mean": 0.7460778951644897, "eval/reward_loss_std": 3.3969600200653076, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001276016235352, "eval/reward_neg_acc": 0.9335410594940186, "eval/reward_neg_loss": 0.08301685005426407, "eval/reward_pos_acc": 0.2295082062482834, "eval/reward_pos_loss": 11.21374797821045, "eval/reward_pred": 0.2637065052986145, "eval/reward_rate": 0.0595703125, "replay/size": 62599.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.009198429608586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.160269347792236e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1473894119262695e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0352749824524, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4649171829223633, "timer/env.step_frac": 0.008215424613210977, "timer/env.step_avg": 0.0035568790518360222, "timer/env.step_min": 0.002279520034790039, "timer/env.step_max": 0.017863988876342773, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 204.25098729133606, "timer/replay._sample_frac": 0.6807565787165583, "timer/replay._sample_avg": 0.01842090433724171, "timer/replay._sample_min": 0.0004818439483642578, "timer/replay._sample_max": 0.08611917495727539, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.96944522857666, "timer/agent.policy_frac": 0.6598205668988586, "timer/agent.policy_avg": 0.2856701951350313, "timer/agent.policy_min": 0.002972126007080078, "timer/agent.policy_max": 0.33369922637939453, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.0933840274810791, "timer/dataset_train_frac": 0.00031124349457423194, "timer/dataset_train_avg": 0.00013475328640848356, "timer/dataset_train_min": 8.630752563476562e-05, "timer/dataset_train_max": 0.0028913021087646484, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.26270985603333, "timer/agent.train_frac": 0.3275038572107238, "timer/agent.train_avg": 0.1417932321154882, "timer/agent.train_min": 0.10205984115600586, "timer/agent.train_max": 0.4498913288116455, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5213916301727295, "timer/agent.report_frac": 0.001737767768150672, "timer/agent.report_avg": 0.26069581508636475, "timer/agent.report_min": 0.11116194725036621, "timer/agent.report_max": 0.4102296829223633, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.081031799316406e-05, "timer/dataset_eval_frac": 2.3600664287659316e-07, "timer/dataset_eval_avg": 7.081031799316406e-05, "timer/dataset_eval_min": 7.081031799316406e-05, "timer/dataset_eval_max": 7.081031799316406e-05, "fps": 9.238397472270744}
+{"step": 251772, "episode/length": 728.0, "episode/score": 1270.0, "episode/reward_rate": 0.12345679012345678}
+{"step": 253416, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.51445117895154, "train/action_min": 0.0, "train/action_std": 2.9910224382428154, "train/actor_opt_grad_norm": 0.009743789568597424, "train/actor_opt_grad_steps": 61910.0, "train/actor_opt_loss": 0.0018082911885648027, "train/adv_mag": 0.7804170656895292, "train/adv_max": 0.7477652063404304, "train/adv_mean": 0.0034027110461096713, "train/adv_min": -0.5336829108604486, "train/adv_std": 0.044017589718535324, "train/cont_avg": 0.9985139266304348, "train/cont_loss_mean": 0.0003316078693805871, "train/cont_loss_std": 0.008685868145975191, "train/cont_neg_acc": 0.9444444455482341, "train/cont_neg_loss": 0.13339729921354043, "train/cont_pos_acc": 0.9999574120493903, "train/cont_pos_loss": 0.00013669960745359003, "train/cont_pred": 0.9984895440115444, "train/cont_rate": 0.9985139266304348, "train/dyn_loss_mean": 4.312947539315707, "train/dyn_loss_std": 6.372804655545, "train/extr_critic_critic_opt_grad_norm": 2.0831305393274278, "train/extr_critic_critic_opt_grad_steps": 61910.0, "train/extr_critic_critic_opt_loss": 1.539368078328561, "train/extr_critic_mag": 430.5990883647532, "train/extr_critic_max": 430.5990883647532, "train/extr_critic_mean": 164.36540133711222, "train/extr_critic_min": 0.030694780142410942, "train/extr_critic_std": 121.22426173997962, "train/extr_return_normed_mag": 1.379465961801833, "train/extr_return_normed_max": 1.379465961801833, "train/extr_return_normed_mean": 0.4550902035789213, "train/extr_return_normed_min": -0.012710230317020762, "train/extr_return_normed_std": 0.3470321258772974, "train/extr_return_rate": 0.9448351177616395, "train/extr_return_raw_mag": 492.6771545410156, "train/extr_return_raw_max": 492.6771545410156, "train/extr_return_raw_mean": 165.5687736842943, "train/extr_return_raw_min": 0.029124157233298687, "train/extr_return_raw_std": 122.78978375421055, "train/extr_reward_mag": 200.70972298884737, "train/extr_reward_max": 200.70972298884737, "train/extr_reward_mean": 0.9873155912627345, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.094163006630497, "train/image_loss_mean": 2.129511090292447, "train/image_loss_std": 1.7496948846872302, "train/model_loss_mean": 4.782038560812024, "train/model_loss_std": 5.246635969134345, "train/model_opt_grad_norm": 13.827609919119572, "train/model_opt_grad_steps": 61910.0, "train/model_opt_loss": 4.782038560812024, "train/policy_entropy_mag": 2.157241220059602, "train/policy_entropy_max": 2.157241220059602, "train/policy_entropy_mean": 1.1613793165787407, "train/policy_entropy_min": 0.07113472134738728, "train/policy_entropy_std": 0.5717395207156306, "train/policy_logprob_mag": 6.77942050712696, "train/policy_logprob_max": -0.009203051662315493, "train/policy_logprob_mean": -1.1612203017525051, "train/policy_logprob_min": -6.77942050712696, "train/policy_logprob_std": 1.1110077647195347, "train/policy_randomness_mag": 0.9818027788314266, "train/policy_randomness_max": 0.9818027788314266, "train/policy_randomness_mean": 0.5285665073256561, "train/policy_randomness_min": 0.03237480659415756, "train/policy_randomness_std": 0.2602098670558653, "train/post_ent_mag": 54.361931068309836, "train/post_ent_max": 54.361931068309836, "train/post_ent_mean": 38.55637801902881, "train/post_ent_min": 23.755881268045176, "train/post_ent_std": 4.561038421547932, "train/prior_ent_mag": 75.99217113550158, "train/prior_ent_max": 75.99217113550158, "train/prior_ent_mean": 42.92413153164629, "train/prior_ent_min": 28.75366841191831, "train/prior_ent_std": 7.093031834864962, "train/rep_loss_mean": 4.312947539315707, "train/rep_loss_std": 6.372804655545, "train/reward_avg": 1.2533967391304348, "train/reward_loss_mean": 0.06442730636268422, "train/reward_loss_std": 0.23276458075944928, "train/reward_max_data": 195.79710144927537, "train/reward_max_pred": 168.24526662411898, "train/reward_neg_acc": 0.9716548600058624, "train/reward_neg_loss": 0.007822466160481175, "train/reward_pos_acc": 0.9960123991620713, "train/reward_pos_loss": 0.6334632920182269, "train/reward_pred": 1.1263565801192021, "train/reward_rate": 0.09059386322463768, "train_stats/mean_log_entropy": 0.9740030169487, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.490057333190634e-07, "report/cont_loss_std": 1.0234944966214243e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.3113725572111434e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.482605160977982e-07, "report/cont_pred": 0.999022901058197, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.0328168869018555, "report/dyn_loss_std": 5.153906345367432, "report/image_loss_mean": 1.42708420753479, "report/image_loss_std": 1.2592693567276, "report/model_loss_mean": 3.312495708465576, "report/model_loss_std": 4.065464019775391, "report/post_ent_mag": 56.449859619140625, "report/post_ent_max": 56.449859619140625, "report/post_ent_mean": 37.235416412353516, "report/post_ent_min": 22.136104583740234, "report/post_ent_std": 4.994399547576904, "report/prior_ent_mag": 75.48402404785156, "report/prior_ent_max": 75.48402404785156, "report/prior_ent_mean": 40.77845764160156, "report/prior_ent_min": 28.409252166748047, "report/prior_ent_std": 7.249739170074463, "report/rep_loss_mean": 3.0328168869018555, "report/rep_loss_std": 5.153906345367432, "report/reward_avg": 1.11328125, "report/reward_loss_mean": 0.06572094559669495, "report/reward_loss_std": 0.21423493325710297, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.19858169555664, "report/reward_neg_acc": 0.985838770866394, "report/reward_neg_loss": 0.0030951218213886023, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6080842018127441, "report/reward_pred": 1.0422706604003906, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.005374342203140259, "eval/cont_loss_std": 0.119221031665802, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.371957540512085, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 1.519217221357394e-05, "eval/cont_pred": 0.9980336427688599, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 15.756776809692383, "eval/dyn_loss_std": 13.62927532196045, "eval/image_loss_mean": 6.950613021850586, "eval/image_loss_std": 4.982728958129883, "eval/model_loss_mean": 17.372589111328125, "eval/model_loss_std": 13.137293815612793, "eval/post_ent_mag": 55.657718658447266, "eval/post_ent_max": 55.657718658447266, "eval/post_ent_mean": 36.325103759765625, "eval/post_ent_min": 26.706222534179688, "eval/post_ent_std": 4.682760238647461, "eval/prior_ent_mag": 75.48402404785156, "eval/prior_ent_max": 75.48402404785156, "eval/prior_ent_mean": 41.582550048828125, "eval/prior_ent_min": 28.188568115234375, "eval/prior_ent_std": 7.23762845993042, "eval/rep_loss_mean": 15.756776809692383, "eval/rep_loss_std": 13.62927532196045, "eval/reward_avg": 0.791015625, "eval/reward_loss_mean": 0.9625359773635864, "eval/reward_loss_std": 3.5905587673187256, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.010734558105469, "eval/reward_neg_acc": 0.911983072757721, "eval/reward_neg_loss": 0.15477360785007477, "eval/reward_pos_acc": 0.1975308656692505, "eval/reward_pos_loss": 10.366485595703125, "eval/reward_pred": 0.42648473381996155, "eval/reward_rate": 0.0791015625, "replay/size": 63291.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 4.932715024562241e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1051622773870567e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.564621925354004e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09381461143494, "timer/env.step_count": 692.0, "timer/env.step_total": 2.4398117065429688, "timer/env.step_frac": 0.00813016326145231, "timer/env.step_avg": 0.003525739460322209, "timer/env.step_min": 0.0021293163299560547, "timer/env.step_max": 0.016739368438720703, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 200.43920493125916, "timer/replay._sample_frac": 0.6679218136861309, "timer/replay._sample_avg": 0.01810325189046777, "timer/replay._sample_min": 0.0006034374237060547, "timer/replay._sample_max": 0.06175947189331055, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.21128559112548828, "timer/agent.save_frac": 0.0007040651317624237, "timer/agent.save_avg": 0.21128559112548828, "timer/agent.save_min": 0.21128559112548828, "timer/agent.save_max": 0.21128559112548828, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 198.4690010547638, "timer/agent.policy_frac": 0.661356520499244, "timer/agent.policy_avg": 0.2868049148190228, "timer/agent.policy_min": 0.0029201507568359375, "timer/agent.policy_max": 0.39951562881469727, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.0926673412322998, "timer/dataset_train_frac": 0.0003087945726315172, "timer/dataset_train_avg": 0.0001339123428212425, "timer/dataset_train_min": 8.20159912109375e-05, "timer/dataset_train_max": 0.002190113067626953, "timer/agent.train_count": 692.0, "timer/agent.train_total": 97.8618791103363, "timer/agent.train_frac": 0.32610428587823126, "timer/agent.train_avg": 0.14141890044846286, "timer/agent.train_min": 0.10204124450683594, "timer/agent.train_max": 0.4521033763885498, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5003154277801514, "timer/agent.report_frac": 0.0016671967345543786, "timer/agent.report_avg": 0.2501577138900757, "timer/agent.report_min": 0.10348320007324219, "timer/agent.report_max": 0.3968322277069092, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011587142944335938, "timer/dataset_eval_frac": 3.8611735331296676e-07, "timer/dataset_eval_avg": 0.00011587142944335938, "timer/dataset_eval_min": 0.00011587142944335938, "timer/dataset_eval_max": 0.00011587142944335938, "fps": 9.22347592861375}
+{"step": 254752, "episode/length": 744.0, "episode/score": 1140.0, "episode/reward_rate": 0.11677852348993288}
+{"step": 256260, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.449689838248239, "train/action_min": 0.0, "train/action_std": 3.031779212011418, "train/actor_opt_grad_norm": 0.009946430784086106, "train/actor_opt_grad_steps": 62610.0, "train/actor_opt_loss": 0.002359702251954037, "train/adv_mag": 0.7946957979403751, "train/adv_max": 0.7738019542794832, "train/adv_mean": 0.003939363619000252, "train/adv_min": -0.47860752843635185, "train/adv_std": 0.045824785257729005, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.00025309869444132616, "train/cont_loss_std": 0.006491843303404403, "train/cont_neg_acc": 0.9878787886012684, "train/cont_neg_loss": 0.06352808504981029, "train/cont_pos_acc": 0.9999448850121296, "train/cont_pos_loss": 0.0001311429109979621, "train/cont_pred": 0.9986542270217144, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.343226627564766, "train/dyn_loss_std": 6.407834402272399, "train/extr_critic_critic_opt_grad_norm": 2.142132070702566, "train/extr_critic_critic_opt_grad_steps": 62610.0, "train/extr_critic_critic_opt_loss": 1.5414930733156875, "train/extr_critic_mag": 432.0130559357119, "train/extr_critic_max": 432.0130559357119, "train/extr_critic_mean": 163.1757294560822, "train/extr_critic_min": 0.09069453662549945, "train/extr_critic_std": 123.32024426527427, "train/extr_return_normed_mag": 1.4283624921046512, "train/extr_return_normed_max": 1.4283624921046512, "train/extr_return_normed_mean": 0.4476726533661426, "train/extr_return_normed_min": -0.009719494408862273, "train/extr_return_normed_std": 0.3483563758118052, "train/extr_return_rate": 0.9329381744626543, "train/extr_return_raw_mag": 516.8220287914007, "train/extr_return_raw_max": 516.8220287914007, "train/extr_return_raw_mean": 164.590583586357, "train/extr_return_raw_min": 0.3385387691812636, "train/extr_return_raw_std": 125.09309161548883, "train/extr_reward_mag": 196.03436193331865, "train/extr_reward_max": 196.03436193331865, "train/extr_reward_mean": 0.9789955498467029, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.85870893236617, "train/image_loss_mean": 2.1234309673309326, "train/image_loss_std": 1.7083753582457422, "train/model_loss_mean": 4.795516101407333, "train/model_loss_std": 5.232403929804413, "train/model_opt_grad_norm": 13.32905198486758, "train/model_opt_grad_steps": 62610.0, "train/model_opt_loss": 4.795516101407333, "train/policy_entropy_mag": 2.1612668910496673, "train/policy_entropy_max": 2.1612668910496673, "train/policy_entropy_mean": 1.1561892393609168, "train/policy_entropy_min": 0.07055345366538411, "train/policy_entropy_std": 0.5774087192307056, "train/policy_logprob_mag": 6.784059296191578, "train/policy_logprob_max": -0.00911356489056013, "train/policy_logprob_mean": -1.1566352458067344, "train/policy_logprob_min": -6.784059296191578, "train/policy_logprob_std": 1.1091938153119154, "train/policy_randomness_mag": 0.9836349436934565, "train/policy_randomness_max": 0.9836349436934565, "train/policy_randomness_mean": 0.5262043988200981, "train/policy_randomness_min": 0.03211026051094834, "train/policy_randomness_std": 0.262790032045942, "train/post_ent_mag": 54.45627524147571, "train/post_ent_max": 54.45627524147571, "train/post_ent_mean": 38.45712226545307, "train/post_ent_min": 23.52420291094713, "train/post_ent_std": 4.5351917475042205, "train/prior_ent_mag": 76.11751943239024, "train/prior_ent_max": 76.11751943239024, "train/prior_ent_mean": 42.78798084527674, "train/prior_ent_min": 28.52955708033602, "train/prior_ent_std": 7.045156331129477, "train/rep_loss_mean": 4.343226627564766, "train/rep_loss_std": 6.407834402272399, "train/reward_avg": 1.2526133362676057, "train/reward_loss_mean": 0.0658961055459271, "train/reward_loss_std": 0.25453172372260563, "train/reward_max_data": 187.6056338028169, "train/reward_max_pred": 158.27220857647103, "train/reward_neg_acc": 0.9730262538077126, "train/reward_neg_loss": 0.007570649548040205, "train/reward_pos_acc": 0.9930599885927119, "train/reward_pos_loss": 0.6552916865953258, "train/reward_pred": 1.1277682571343972, "train/reward_rate": 0.08999504841549295, "train_stats/mean_log_entropy": 1.0174603462219238, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 1.8520799130783416e-05, "report/cont_loss_std": 0.0004797412548214197, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003765610163100064, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.746877023833804e-05, "report/cont_pred": 0.9970541000366211, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 3.6727652549743652, "report/dyn_loss_std": 6.492176055908203, "report/image_loss_mean": 1.7902144193649292, "report/image_loss_std": 1.6084706783294678, "report/model_loss_mean": 4.048162937164307, "report/model_loss_std": 5.205170631408691, "report/post_ent_mag": 55.420108795166016, "report/post_ent_max": 55.420108795166016, "report/post_ent_mean": 37.37394714355469, "report/post_ent_min": 21.845294952392578, "report/post_ent_std": 4.6503448486328125, "report/prior_ent_mag": 76.38616943359375, "report/prior_ent_max": 76.38616943359375, "report/prior_ent_mean": 41.258583068847656, "report/prior_ent_min": 28.3674259185791, "report/prior_ent_std": 7.305543422698975, "report/rep_loss_mean": 3.6727652549743652, "report/rep_loss_std": 6.492176055908203, "report/reward_avg": 1.40625, "report/reward_loss_mean": 0.05427107959985733, "report/reward_loss_std": 0.17730335891246796, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.42245483398438, "report/reward_neg_acc": 0.9744952321052551, "report/reward_neg_loss": 0.008603626862168312, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5720189809799194, "report/reward_pred": 1.3623883724212646, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 6.545254791490152e-07, "eval/cont_loss_std": 1.7830410797614604e-05, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 3.355479930178262e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.223648938430415e-07, "eval/cont_pred": 0.9990228414535522, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.668839454650879, "eval/dyn_loss_std": 10.534238815307617, "eval/image_loss_mean": 6.3317461013793945, "eval/image_loss_std": 4.354063987731934, "eval/model_loss_mean": 15.22581958770752, "eval/model_loss_std": 10.741050720214844, "eval/post_ent_mag": 55.435890197753906, "eval/post_ent_max": 55.435890197753906, "eval/post_ent_mean": 36.90480041503906, "eval/post_ent_min": 26.120216369628906, "eval/post_ent_std": 4.102230548858643, "eval/prior_ent_mag": 76.38616943359375, "eval/prior_ent_max": 76.38616943359375, "eval/prior_ent_mean": 41.277793884277344, "eval/prior_ent_min": 28.085294723510742, "eval/prior_ent_std": 6.724916934967041, "eval/rep_loss_mean": 13.668839454650879, "eval/rep_loss_std": 10.534238815307617, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6927680969238281, "eval/reward_loss_std": 3.2746474742889404, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.994260787963867, "eval/reward_neg_acc": 0.9218107461929321, "eval/reward_neg_loss": 0.10653488337993622, "eval/reward_pos_acc": 0.21153846383094788, "eval/reward_pos_loss": 11.6508207321167, "eval/reward_pred": 0.29257044196128845, "eval/reward_rate": 0.05078125, "replay/size": 64002.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.869590448092475e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4706251490468215e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05503368377686, "timer/env.step_count": 711.0, "timer/env.step_total": 2.860840082168579, "timer/env.step_frac": 0.009534384566211184, "timer/env.step_avg": 0.00402368506634118, "timer/env.step_min": 0.0022873878479003906, "timer/env.step_max": 0.025178194046020508, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 193.82224082946777, "timer/replay._sample_frac": 0.6459556383704393, "timer/replay._sample_avg": 0.01703782004478444, "timer/replay._sample_min": 0.0005152225494384766, "timer/replay._sample_max": 0.065887451171875, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.96359705924988, "timer/agent.policy_frac": 0.6597576272220799, "timer/agent.policy_avg": 0.27842981302285497, "timer/agent.policy_min": 0.0036215782165527344, "timer/agent.policy_max": 0.3157539367675781, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09891414642333984, "timer/dataset_train_frac": 0.0003296533479507758, "timer/dataset_train_avg": 0.0001391197558696763, "timer/dataset_train_min": 8.58306884765625e-05, "timer/dataset_train_max": 0.00045490264892578125, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.06036472320557, "timer/agent.train_frac": 0.3268079309295967, "timer/agent.train_avg": 0.1379189377260275, "timer/agent.train_min": 0.10058879852294922, "timer/agent.train_max": 0.4608888626098633, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4934835433959961, "timer/agent.report_frac": 0.001644643442029606, "timer/agent.report_avg": 0.24674177169799805, "timer/agent.report_min": 0.09916996955871582, "timer/agent.report_max": 0.3943135738372803, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.033348083496094e-05, "timer/dataset_eval_frac": 2.3440193610977464e-07, "timer/dataset_eval_avg": 7.033348083496094e-05, "timer/dataset_eval_min": 7.033348083496094e-05, "timer/dataset_eval_max": 7.033348083496094e-05, "fps": 9.477977515161252}
+{"step": 258264, "episode/length": 877.0, "episode/score": 1210.0, "episode/reward_rate": 0.1070615034168565}
+{"step": 259064, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.411473737444196, "train/action_min": 0.0, "train/action_std": 3.0219516515731812, "train/actor_opt_grad_norm": 0.009439524728804827, "train/actor_opt_grad_steps": 63315.0, "train/actor_opt_loss": 0.002092093761036397, "train/adv_mag": 0.7686504295894078, "train/adv_max": 0.7417066267558506, "train/adv_mean": 0.0034955090742658157, "train/adv_min": -0.4950266633714948, "train/adv_std": 0.044180436911327496, "train/cont_avg": 0.9986467633928572, "train/cont_loss_mean": 0.0002791586054580345, "train/cont_loss_std": 0.007811864379028575, "train/cont_neg_acc": 0.88050314502896, "train/cont_neg_loss": 0.1982264532809478, "train/cont_pos_acc": 0.9999999974455153, "train/cont_pos_loss": 5.2682315208563144e-05, "train/cont_pred": 0.9987156110150474, "train/cont_rate": 0.9986467633928572, "train/dyn_loss_mean": 4.390799369130816, "train/dyn_loss_std": 6.400396135875157, "train/extr_critic_critic_opt_grad_norm": 2.2913336311067853, "train/extr_critic_critic_opt_grad_steps": 63315.0, "train/extr_critic_critic_opt_loss": 1.5448520251682827, "train/extr_critic_mag": 426.0799451555525, "train/extr_critic_max": 426.0799451555525, "train/extr_critic_mean": 158.92200862339564, "train/extr_critic_min": 0.037731366498129706, "train/extr_critic_std": 121.1418828691755, "train/extr_return_normed_mag": 1.3051587632724218, "train/extr_return_normed_max": 1.3051587632724218, "train/extr_return_normed_mean": 0.43274034304278236, "train/extr_return_normed_min": -0.009298551228961774, "train/extr_return_normed_std": 0.338750148671014, "train/extr_return_rate": 0.9268173830849784, "train/extr_return_raw_mag": 475.9651951381138, "train/extr_return_raw_max": 475.9651951381138, "train/extr_return_raw_mean": 160.1881178719657, "train/extr_return_raw_min": 0.23043869678928916, "train/extr_return_raw_std": 122.59632208687918, "train/extr_reward_mag": 202.34188928604127, "train/extr_reward_max": 202.34188928604127, "train/extr_reward_mean": 0.9323282829352788, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.880272620064872, "train/image_loss_mean": 2.1019443784441267, "train/image_loss_std": 1.7119352664266314, "train/model_loss_mean": 4.7991343770708355, "train/model_loss_std": 5.225608164923532, "train/model_opt_grad_norm": 13.777958502088275, "train/model_opt_grad_steps": 63315.0, "train/model_opt_loss": 4.7991343770708355, "train/policy_entropy_mag": 2.1622413499014717, "train/policy_entropy_max": 2.1622413499014717, "train/policy_entropy_mean": 1.1639087881360735, "train/policy_entropy_min": 0.07085335137588637, "train/policy_entropy_std": 0.5732140851872308, "train/policy_logprob_mag": 6.780142572947911, "train/policy_logprob_max": -0.009159139690122433, "train/policy_logprob_mean": -1.1643953323364258, "train/policy_logprob_min": -6.780142572947911, "train/policy_logprob_std": 1.105432709625789, "train/policy_randomness_mag": 0.9840784404958998, "train/policy_randomness_max": 0.9840784404958998, "train/policy_randomness_mean": 0.5297177131686892, "train/policy_randomness_min": 0.0322467495820352, "train/policy_randomness_std": 0.26088097074202127, "train/post_ent_mag": 54.79826147896903, "train/post_ent_max": 54.79826147896903, "train/post_ent_mean": 38.52764369419643, "train/post_ent_min": 23.546622330801828, "train/post_ent_std": 4.637008431979588, "train/prior_ent_mag": 76.20826819283621, "train/prior_ent_max": 76.20826819283621, "train/prior_ent_mean": 42.875548117501395, "train/prior_ent_min": 28.04580783843994, "train/prior_ent_std": 7.160237577983311, "train/rep_loss_mean": 4.390799369130816, "train/rep_loss_std": 6.400396135875157, "train/reward_avg": 1.1944754464285714, "train/reward_loss_mean": 0.062431220284530096, "train/reward_loss_std": 0.23369287507874625, "train/reward_max_data": 196.28571428571428, "train/reward_max_pred": 159.02412955420357, "train/reward_neg_acc": 0.9707787999085018, "train/reward_neg_loss": 0.008317793980573437, "train/reward_pos_acc": 0.9954305819102696, "train/reward_pos_loss": 0.6448736829417092, "train/reward_pred": 1.071586801324572, "train/reward_rate": 0.08528180803571428, "train_stats/mean_log_entropy": 0.9344069361686707, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0019522495567798615, "report/cont_loss_std": 0.05326995253562927, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.8456140756607056, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00030124784098006785, "report/cont_pred": 0.9985666275024414, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.327856063842773, "report/dyn_loss_std": 5.940008640289307, "report/image_loss_mean": 1.812347173690796, "report/image_loss_std": 1.4265804290771484, "report/model_loss_mean": 4.465047359466553, "report/model_loss_std": 4.680815696716309, "report/post_ent_mag": 53.882930755615234, "report/post_ent_max": 53.882930755615234, "report/post_ent_mean": 38.12983322143555, "report/post_ent_min": 20.96875762939453, "report/post_ent_std": 4.571107387542725, "report/prior_ent_mag": 76.06157684326172, "report/prior_ent_max": 76.06157684326172, "report/prior_ent_mean": 42.4439811706543, "report/prior_ent_min": 28.715646743774414, "report/prior_ent_std": 7.213297367095947, "report/rep_loss_mean": 4.327856063842773, "report/rep_loss_std": 5.940008640289307, "report/reward_avg": 0.91796875, "report/reward_loss_mean": 0.05403444170951843, "report/reward_loss_std": 0.20494693517684937, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.90507507324219, "report/reward_neg_acc": 0.9798302054405212, "report/reward_neg_loss": 0.00766363088041544, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5867332220077515, "report/reward_pred": 0.887017011642456, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.016871728003025055, "eval/cont_loss_std": 0.43276500701904297, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 5.757323265075684, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.5831875468138605e-06, "eval/cont_pred": 0.9990012049674988, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 15.120122909545898, "eval/dyn_loss_std": 12.83285903930664, "eval/image_loss_mean": 6.234228134155273, "eval/image_loss_std": 5.145902633666992, "eval/model_loss_mean": 16.04438591003418, "eval/model_loss_std": 12.769100189208984, "eval/post_ent_mag": 53.235740661621094, "eval/post_ent_max": 53.235740661621094, "eval/post_ent_mean": 37.348480224609375, "eval/post_ent_min": 25.92696762084961, "eval/post_ent_std": 5.074869155883789, "eval/prior_ent_mag": 76.06157684326172, "eval/prior_ent_max": 76.06157684326172, "eval/prior_ent_mean": 42.84931182861328, "eval/prior_ent_min": 28.815454483032227, "eval/prior_ent_std": 7.444835662841797, "eval/rep_loss_mean": 15.120122909545898, "eval/rep_loss_std": 12.83285903930664, "eval/reward_avg": 0.615234375, "eval/reward_loss_mean": 0.7212117910385132, "eval/reward_loss_std": 3.157345771789551, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 37.09946060180664, "eval/reward_neg_acc": 0.9229969382286072, "eval/reward_neg_loss": 0.11284971982240677, "eval/reward_pos_acc": 0.3333333432674408, "eval/reward_pos_loss": 10.001147270202637, "eval/reward_pred": 0.35191816091537476, "eval/reward_rate": 0.0615234375, "replay/size": 64703.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.028217223163338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2630700384839285e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1473894119262695e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.40111231803894, "timer/env.step_count": 701.0, "timer/env.step_total": 2.554903268814087, "timer/env.step_frac": 0.008504972731622826, "timer/env.step_avg": 0.0036446551623596102, "timer/env.step_min": 0.0014767646789550781, "timer/env.step_max": 0.017019271850585938, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 200.1838300228119, "timer/replay._sample_frac": 0.6663884446968172, "timer/replay._sample_avg": 0.017848059024858406, "timer/replay._sample_min": 0.0004858970642089844, "timer/replay._sample_max": 0.054442405700683594, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.20270371437073, "timer/agent.policy_frac": 0.6597935080364506, "timer/agent.policy_avg": 0.2827428013043805, "timer/agent.policy_min": 0.002855539321899414, "timer/agent.policy_max": 0.3364906311035156, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09351253509521484, "timer/dataset_train_frac": 0.0003112922398110557, "timer/dataset_train_avg": 0.00013339876618432932, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0016014575958251953, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.35877180099487, "timer/agent.train_frac": 0.32742479227860194, "timer/agent.train_avg": 0.14031208530812392, "timer/agent.train_min": 0.10119986534118652, "timer/agent.train_max": 0.44536399841308594, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.513786792755127, "timer/agent.report_frac": 0.0017103358532546762, "timer/agent.report_avg": 0.2568933963775635, "timer/agent.report_min": 0.10825061798095703, "timer/agent.report_max": 0.4055361747741699, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.626678466796875e-05, "timer/dataset_eval_frac": 1.8730551373058268e-07, "timer/dataset_eval_avg": 5.626678466796875e-05, "timer/dataset_eval_min": 5.626678466796875e-05, "timer/dataset_eval_max": 5.626678466796875e-05, "fps": 9.333950166626497}
+{"step": 260880, "episode/length": 653.0, "episode/score": 1040.0, "episode/reward_rate": 0.10397553516819572}
+{"step": 261836, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.397266332653985, "train/action_min": 0.0, "train/action_std": 3.0487321736156074, "train/actor_opt_grad_norm": 0.00883286920092676, "train/actor_opt_grad_steps": 64010.0, "train/actor_opt_loss": 0.0021141483082308273, "train/adv_mag": 0.7106016114138175, "train/adv_max": 0.6896393506423287, "train/adv_mean": 0.0033664200947527393, "train/adv_min": -0.4598293321720068, "train/adv_std": 0.04160596368213495, "train/cont_avg": 0.9989243659420289, "train/cont_loss_mean": 0.00023422642969046922, "train/cont_loss_std": 0.006633065067483567, "train/cont_neg_acc": 0.9219858164482928, "train/cont_neg_loss": 0.18309083116106253, "train/cont_pos_acc": 0.9999716515126436, "train/cont_pos_loss": 8.8538272025594e-05, "train/cont_pred": 0.9989231911258422, "train/cont_rate": 0.9989243659420289, "train/dyn_loss_mean": 4.312316745951556, "train/dyn_loss_std": 6.359644309334133, "train/extr_critic_critic_opt_grad_norm": 2.2137282689412436, "train/extr_critic_critic_opt_grad_steps": 64010.0, "train/extr_critic_critic_opt_loss": 1.5426174350406812, "train/extr_critic_mag": 421.36062002873075, "train/extr_critic_max": 421.36062002873075, "train/extr_critic_mean": 159.77227661575097, "train/extr_critic_min": 0.17557185629139777, "train/extr_critic_std": 122.73615065864895, "train/extr_return_normed_mag": 1.2663556734720867, "train/extr_return_normed_max": 1.2663556734720867, "train/extr_return_normed_mean": 0.42980782104575116, "train/extr_return_normed_min": -0.01093955605714312, "train/extr_return_normed_std": 0.339702683514443, "train/extr_return_rate": 0.9379765339519667, "train/extr_return_raw_mag": 466.29358087069744, "train/extr_return_raw_max": 466.29358087069744, "train/extr_return_raw_mean": 161.00062992261803, "train/extr_return_raw_min": 0.24754863586808232, "train/extr_return_raw_std": 123.91230320584947, "train/extr_reward_mag": 186.74839655558267, "train/extr_reward_max": 186.74839655558267, "train/extr_reward_mean": 0.9439339037390723, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.486541285031084, "train/image_loss_mean": 2.028276186058487, "train/image_loss_std": 1.6520539487617603, "train/model_loss_mean": 4.680588041526684, "train/model_loss_std": 5.153611549432727, "train/model_opt_grad_norm": 13.733087263245514, "train/model_opt_grad_steps": 64010.0, "train/model_opt_loss": 4.680588041526684, "train/policy_entropy_mag": 2.16470474091129, "train/policy_entropy_max": 2.16470474091129, "train/policy_entropy_mean": 1.1607685728349548, "train/policy_entropy_min": 0.0713624425124431, "train/policy_entropy_std": 0.5708991457586703, "train/policy_logprob_mag": 6.781051096708878, "train/policy_logprob_max": -0.009238499621658222, "train/policy_logprob_mean": -1.1610964165217634, "train/policy_logprob_min": -6.781051096708878, "train/policy_logprob_std": 1.1033361251803413, "train/policy_randomness_mag": 0.9851995775665062, "train/policy_randomness_max": 0.9851995775665062, "train/policy_randomness_mean": 0.5282885462477587, "train/policy_randomness_min": 0.032478446923736214, "train/policy_randomness_std": 0.2598273985195851, "train/post_ent_mag": 53.91398957846821, "train/post_ent_max": 53.91398957846821, "train/post_ent_mean": 38.5578944441201, "train/post_ent_min": 23.257976117341414, "train/post_ent_std": 4.6123876537101856, "train/prior_ent_mag": 76.1910924496858, "train/prior_ent_max": 76.1910924496858, "train/prior_ent_mean": 42.86158221700917, "train/prior_ent_min": 27.77905442058176, "train/prior_ent_std": 7.047549157902814, "train/rep_loss_mean": 4.312316745951556, "train/rep_loss_std": 6.359644309334133, "train/reward_avg": 1.1989073822463767, "train/reward_loss_mean": 0.06468753484280212, "train/reward_loss_std": 0.24574663975964423, "train/reward_max_data": 187.82608695652175, "train/reward_max_pred": 163.49123592653137, "train/reward_neg_acc": 0.9723767905995466, "train/reward_neg_loss": 0.008521832235535418, "train/reward_pos_acc": 0.9947779610537101, "train/reward_pos_loss": 0.654422516408174, "train/reward_pred": 1.0910443793172422, "train/reward_rate": 0.08759341032608696, "train_stats/mean_log_entropy": 1.073358416557312, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0001460693310946226, "report/cont_loss_std": 0.00440263794735074, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0013090533902868629, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0001449324918212369, "report/cont_pred": 0.9988892078399658, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.239165782928467, "report/dyn_loss_std": 6.2471160888671875, "report/image_loss_mean": 2.234630584716797, "report/image_loss_std": 1.9297010898590088, "report/model_loss_mean": 5.424077033996582, "report/model_loss_std": 5.348720550537109, "report/post_ent_mag": 52.23223114013672, "report/post_ent_max": 52.23223114013672, "report/post_ent_mean": 38.58545684814453, "report/post_ent_min": 25.035789489746094, "report/post_ent_std": 4.320685863494873, "report/prior_ent_mag": 76.16364288330078, "report/prior_ent_max": 76.16364288330078, "report/prior_ent_mean": 42.802398681640625, "report/prior_ent_min": 26.07513427734375, "report/prior_ent_std": 7.18436336517334, "report/rep_loss_mean": 5.239165782928467, "report/rep_loss_std": 6.2471160888671875, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.04580071568489075, "report/reward_loss_std": 0.23822957277297974, "report/reward_max_data": 400.0, "report/reward_max_pred": 391.354248046875, "report/reward_neg_acc": 0.979231595993042, "report/reward_neg_loss": 0.00322179077193141, "report/reward_pos_acc": 0.9836066365242004, "report/reward_pos_loss": 0.7179893255233765, "report/reward_pred": 0.9457786679267883, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.01776112988591194, "eval/cont_loss_std": 0.4318268895149231, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 4.461702346801758, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.0003339088289067149, "eval/cont_pred": 0.9977737665176392, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 16.139022827148438, "eval/dyn_loss_std": 10.578381538391113, "eval/image_loss_mean": 6.760473251342773, "eval/image_loss_std": 4.746009826660156, "eval/model_loss_mean": 17.009281158447266, "eval/model_loss_std": 10.872666358947754, "eval/post_ent_mag": 52.29754638671875, "eval/post_ent_max": 52.29754638671875, "eval/post_ent_mean": 39.93107223510742, "eval/post_ent_min": 24.571414947509766, "eval/post_ent_std": 5.109659194946289, "eval/prior_ent_mag": 76.16364288330078, "eval/prior_ent_max": 76.16364288330078, "eval/prior_ent_mean": 46.885650634765625, "eval/prior_ent_min": 26.749492645263672, "eval/prior_ent_std": 8.162885665893555, "eval/rep_loss_mean": 16.139022827148438, "eval/rep_loss_std": 10.578381538391113, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.5476312637329102, "eval/reward_loss_std": 2.5248165130615234, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002801895141602, "eval/reward_neg_acc": 0.9107692241668701, "eval/reward_neg_loss": 0.09668237715959549, "eval/reward_pos_acc": 0.26530611515045166, "eval/reward_pos_loss": 9.52059268951416, "eval/reward_pred": 0.26779502630233765, "eval/reward_rate": 0.0478515625, "replay/size": 65396.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.634196624095306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1215650330030212e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0132789611816406e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.24464774131775, "timer/env.step_count": 693.0, "timer/env.step_total": 2.384786605834961, "timer/env.step_frac": 0.007942811383234466, "timer/env.step_avg": 0.003441250513470362, "timer/env.step_min": 0.0022423267364501953, "timer/env.step_max": 0.018185853958129883, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 204.43995141983032, "timer/replay._sample_frac": 0.6809112267538903, "timer/replay._sample_avg": 0.018437946556622505, "timer/replay._sample_min": 0.0005762577056884766, "timer/replay._sample_max": 0.050087690353393555, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.12488365173339844, "timer/agent.save_frac": 0.00041593964346366846, "timer/agent.save_avg": 0.12488365173339844, "timer/agent.save_min": 0.12488365173339844, "timer/agent.save_max": 0.12488365173339844, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.9699866771698, "timer/agent.policy_frac": 0.6593622506394688, "timer/agent.policy_avg": 0.2856709764461325, "timer/agent.policy_min": 0.0030438899993896484, "timer/agent.policy_max": 0.41396641731262207, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08852219581604004, "timer/dataset_train_frac": 0.0002948335515119931, "timer/dataset_train_avg": 0.00012773765630020206, "timer/dataset_train_min": 8.106231689453125e-05, "timer/dataset_train_max": 0.00042366981506347656, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.51400709152222, "timer/agent.train_frac": 0.32811245040544096, "timer/agent.train_avg": 0.14215585438892095, "timer/agent.train_min": 0.10208845138549805, "timer/agent.train_max": 0.46152615547180176, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5254619121551514, "timer/agent.report_frac": 0.0017501125036136344, "timer/agent.report_avg": 0.2627309560775757, "timer/agent.report_min": 0.10959100723266602, "timer/agent.report_max": 0.41587090492248535, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010204315185546875, "timer/dataset_eval_frac": 3.3986668079887384e-07, "timer/dataset_eval_avg": 0.00010204315185546875, "timer/dataset_eval_min": 0.00010204315185546875, "timer/dataset_eval_max": 0.00010204315185546875, "fps": 9.232238247550416}
+{"step": 264056, "episode/length": 793.0, "episode/score": 860.0, "episode/reward_rate": 0.09319899244332494}
+{"step": 264612, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.412227085658482, "train/action_min": 0.0, "train/action_std": 3.0666153158460343, "train/actor_opt_grad_norm": 0.009442196640052965, "train/actor_opt_grad_steps": 64705.0, "train/actor_opt_loss": 0.0018206843838145558, "train/adv_mag": 0.7201685386044638, "train/adv_max": 0.6773939183780125, "train/adv_mean": 0.003112323727691546, "train/adv_min": -0.5358917317220143, "train/adv_std": 0.04229779387159007, "train/cont_avg": 0.9985072544642857, "train/cont_loss_mean": 0.0003275120874231747, "train/cont_loss_std": 0.008516588219330247, "train/cont_neg_acc": 0.9316939897224551, "train/cont_neg_loss": 0.14622182759866087, "train/cont_pos_acc": 0.9999860337802342, "train/cont_pos_loss": 0.00010670219302244226, "train/cont_pred": 0.9985200864928109, "train/cont_rate": 0.9985072544642857, "train/dyn_loss_mean": 4.507365993091038, "train/dyn_loss_std": 6.401760755266462, "train/extr_critic_critic_opt_grad_norm": 2.223785218170711, "train/extr_critic_critic_opt_grad_steps": 64705.0, "train/extr_critic_critic_opt_loss": 1.5535354239600045, "train/extr_critic_mag": 422.29708164760046, "train/extr_critic_max": 422.29708164760046, "train/extr_critic_mean": 164.41061706542968, "train/extr_critic_min": 0.1234913502420698, "train/extr_critic_std": 123.47489035470146, "train/extr_return_normed_mag": 1.2880557554108756, "train/extr_return_normed_max": 1.2880557554108756, "train/extr_return_normed_mean": 0.44024527285780224, "train/extr_return_normed_min": -0.011285703556079949, "train/extr_return_normed_std": 0.34076672941446307, "train/extr_return_rate": 0.9376972224031176, "train/extr_return_raw_mag": 476.1611149379185, "train/extr_return_raw_max": 476.1611149379185, "train/extr_return_raw_mean": 165.551053074428, "train/extr_return_raw_min": 0.1340132437380297, "train/extr_return_raw_std": 124.8405781337193, "train/extr_reward_mag": 208.14629205976215, "train/extr_reward_max": 208.14629205976215, "train/extr_reward_mean": 0.9522958534104483, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8814027377537315, "train/image_loss_mean": 2.1164744343076434, "train/image_loss_std": 1.7345468146460397, "train/model_loss_mean": 4.886445529120309, "train/model_loss_std": 5.254914855957031, "train/model_opt_grad_norm": 13.799217687334334, "train/model_opt_grad_steps": 64705.0, "train/model_opt_loss": 4.886445529120309, "train/policy_entropy_mag": 2.161207822390965, "train/policy_entropy_max": 2.161207822390965, "train/policy_entropy_mean": 1.1534995351518904, "train/policy_entropy_min": 0.07110664642282895, "train/policy_entropy_std": 0.5723940836531776, "train/policy_logprob_mag": 6.785361841746739, "train/policy_logprob_max": -0.00920409561534013, "train/policy_logprob_mean": -1.1528868896620614, "train/policy_logprob_min": -6.785361841746739, "train/policy_logprob_std": 1.1039962683405196, "train/policy_randomness_mag": 0.9836080585207257, "train/policy_randomness_max": 0.9836080585207257, "train/policy_randomness_mean": 0.5249802580901555, "train/policy_randomness_min": 0.032362029062850135, "train/policy_randomness_std": 0.26050777094704763, "train/post_ent_mag": 54.532540457589285, "train/post_ent_max": 54.532540457589285, "train/post_ent_mean": 38.703003311157225, "train/post_ent_min": 22.971881811959403, "train/post_ent_std": 4.86647881099156, "train/prior_ent_mag": 76.19934430803572, "train/prior_ent_max": 76.19934430803572, "train/prior_ent_mean": 43.246790749686106, "train/prior_ent_min": 27.77025121961321, "train/prior_ent_std": 7.278792190551758, "train/rep_loss_mean": 4.507365993091038, "train/rep_loss_std": 6.401760755266462, "train/reward_avg": 1.2555803571428572, "train/reward_loss_mean": 0.0652239623346499, "train/reward_loss_std": 0.24983049694980894, "train/reward_max_data": 212.71428571428572, "train/reward_max_pred": 166.9093379701887, "train/reward_neg_acc": 0.9711240700313023, "train/reward_neg_loss": 0.008271423494443297, "train/reward_pos_acc": 0.9928202935627528, "train/reward_pos_loss": 0.6611489798341479, "train/reward_pred": 1.1069027747426714, "train/reward_rate": 0.08755580357142857, "train_stats/mean_log_entropy": 1.2230628728866577, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.469918017477539e-08, "report/cont_loss_std": 1.2297794000915019e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 4.380261543701636e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.049041528262023e-08, "report/cont_pred": 0.9990233778953552, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.098748207092285, "report/dyn_loss_std": 6.182976722717285, "report/image_loss_mean": 1.9205915927886963, "report/image_loss_std": 1.577187180519104, "report/model_loss_mean": 4.473071098327637, "report/model_loss_std": 5.052616119384766, "report/post_ent_mag": 54.87773513793945, "report/post_ent_max": 54.87773513793945, "report/post_ent_mean": 37.92035675048828, "report/post_ent_min": 20.822383880615234, "report/post_ent_std": 4.792632579803467, "report/prior_ent_mag": 76.18966674804688, "report/prior_ent_max": 76.18966674804688, "report/prior_ent_mean": 42.063194274902344, "report/prior_ent_min": 27.07697105407715, "report/prior_ent_std": 7.752488613128662, "report/rep_loss_mean": 4.098748207092285, "report/rep_loss_std": 6.182976722717285, "report/reward_avg": 1.69921875, "report/reward_loss_mean": 0.09323091804981232, "report/reward_loss_std": 0.2816682457923889, "report/reward_max_data": 200.0, "report/reward_max_pred": 56.04652404785156, "report/reward_neg_acc": 0.9596864581108093, "report/reward_neg_loss": 0.01559455320239067, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6224620342254639, "report/reward_pred": 1.4789066314697266, "report/reward_rate": 0.1279296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009594648145139217, "eval/cont_loss_std": 0.26396945118904114, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.912410736083984, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.688597657486753e-08, "eval/cont_pred": 0.999783456325531, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.918490409851074, "eval/dyn_loss_std": 12.083008766174316, "eval/image_loss_mean": 6.659576416015625, "eval/image_loss_std": 4.689173221588135, "eval/model_loss_mean": 16.27682876586914, "eval/model_loss_std": 11.682072639465332, "eval/post_ent_mag": 55.32313537597656, "eval/post_ent_max": 55.32313537597656, "eval/post_ent_mean": 37.946372985839844, "eval/post_ent_min": 23.527664184570312, "eval/post_ent_std": 4.985508918762207, "eval/prior_ent_mag": 76.18966674804688, "eval/prior_ent_max": 76.18966674804688, "eval/prior_ent_mean": 42.4906005859375, "eval/prior_ent_min": 27.886198043823242, "eval/prior_ent_std": 7.404628276824951, "eval/rep_loss_mean": 14.918490409851074, "eval/rep_loss_std": 12.083008766174316, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6565628051757812, "eval/reward_loss_std": 2.9391531944274902, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001688957214355, "eval/reward_neg_acc": 0.9218107461929321, "eval/reward_neg_loss": 0.11012355238199234, "eval/reward_pos_acc": 0.21153846383094788, "eval/reward_pos_loss": 10.870773315429688, "eval/reward_pred": 0.28076183795928955, "eval/reward_rate": 0.05078125, "replay/size": 66090.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.583545651834361e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0943335483671953e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1544964313507, "timer/env.step_count": 694.0, "timer/env.step_total": 2.4888226985931396, "timer/env.step_frac": 0.008291805480789678, "timer/env.step_avg": 0.0035861998538806047, "timer/env.step_min": 0.00189971923828125, "timer/env.step_max": 0.02142190933227539, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 199.75208616256714, "timer/replay._sample_frac": 0.6654975638795838, "timer/replay._sample_avg": 0.017989200843170673, "timer/replay._sample_min": 0.0005724430084228516, "timer/replay._sample_max": 0.0523679256439209, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.13785862922668, "timer/agent.policy_frac": 0.6601195750353965, "timer/agent.policy_avg": 0.2855012372179059, "timer/agent.policy_min": 0.002840757369995117, "timer/agent.policy_max": 0.33388757705688477, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08632850646972656, "timer/dataset_train_frac": 0.000287613570664836, "timer/dataset_train_avg": 0.00012439266061920254, "timer/dataset_train_min": 7.677078247070312e-05, "timer/dataset_train_max": 0.0005614757537841797, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.25584721565247, "timer/agent.train_frac": 0.3273509088947627, "timer/agent.train_avg": 0.14157903057010443, "timer/agent.train_min": 0.10207557678222656, "timer/agent.train_max": 0.4513535499572754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5016195774078369, "timer/agent.report_frac": 0.001671204607533054, "timer/agent.report_avg": 0.25080978870391846, "timer/agent.report_min": 0.10244297981262207, "timer/agent.report_max": 0.39917659759521484, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.4782769395127386e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "fps": 9.24829265151844}
+{"step": 266908, "episode/length": 712.0, "episode/score": 1070.0, "episode/reward_rate": 0.11220196353436185}
+{"step": 267460, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.444813043298856, "train/action_min": 0.0, "train/action_std": 3.0335150134395548, "train/actor_opt_grad_norm": 0.008267760073477534, "train/actor_opt_grad_steps": 65410.0, "train/actor_opt_loss": 0.0016574414467599333, "train/adv_mag": 0.6445467698741967, "train/adv_max": 0.6216134189719885, "train/adv_mean": 0.0028021937914288596, "train/adv_min": -0.4555322998006579, "train/adv_std": 0.0380246465842069, "train/cont_avg": 0.9985007702464789, "train/cont_loss_mean": 0.0003061600967666062, "train/cont_loss_std": 0.008225764772237359, "train/cont_neg_acc": 0.9543269230769231, "train/cont_neg_loss": 0.10694536408209497, "train/cont_pos_acc": 0.9999034564260026, "train/cont_pos_loss": 0.00013997299297580638, "train/cont_pred": 0.9984709763191115, "train/cont_rate": 0.9985007702464789, "train/dyn_loss_mean": 4.308592531043039, "train/dyn_loss_std": 6.400898275241046, "train/extr_critic_critic_opt_grad_norm": 2.255630912915082, "train/extr_critic_critic_opt_grad_steps": 65410.0, "train/extr_critic_critic_opt_loss": 1.5356409331442604, "train/extr_critic_mag": 425.8058192293409, "train/extr_critic_max": 425.8058192293409, "train/extr_critic_mean": 162.7879057333503, "train/extr_critic_min": 0.11244474834119769, "train/extr_critic_std": 126.26607234041455, "train/extr_return_normed_mag": 1.2640062301931247, "train/extr_return_normed_max": 1.2640062301931247, "train/extr_return_normed_mean": 0.434722567737942, "train/extr_return_normed_min": -0.008829614475474392, "train/extr_return_normed_std": 0.34697266993388326, "train/extr_return_rate": 0.9300763363569555, "train/extr_return_raw_mag": 468.33350125165055, "train/extr_return_raw_max": 468.33350125165055, "train/extr_return_raw_mean": 163.81647641893844, "train/extr_return_raw_min": 0.9655337657985795, "train/extr_return_raw_std": 127.37423448159662, "train/extr_reward_mag": 157.83602738716232, "train/extr_reward_max": 157.83602738716232, "train/extr_reward_mean": 0.8799325874153997, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.973651259717807, "train/image_loss_mean": 2.043030965496117, "train/image_loss_std": 1.722653954801425, "train/model_loss_mean": 4.690849163162876, "train/model_loss_std": 5.24837627545209, "train/model_opt_grad_norm": 13.81720932436661, "train/model_opt_grad_steps": 65410.0, "train/model_opt_loss": 4.690849163162876, "train/policy_entropy_mag": 2.165265906024987, "train/policy_entropy_max": 2.165265906024987, "train/policy_entropy_mean": 1.1590362124040092, "train/policy_entropy_min": 0.07102453918524192, "train/policy_entropy_std": 0.5799081233185781, "train/policy_logprob_mag": 6.781908995668653, "train/policy_logprob_max": -0.00918536706709526, "train/policy_logprob_mean": -1.1597564421908957, "train/policy_logprob_min": -6.781908995668653, "train/policy_logprob_std": 1.1047225351064978, "train/policy_randomness_mag": 0.9854549782376893, "train/policy_randomness_max": 0.9854549782376893, "train/policy_randomness_mean": 0.5275001110325397, "train/policy_randomness_min": 0.03232466083177379, "train/policy_randomness_std": 0.26392755982741506, "train/post_ent_mag": 54.83631144778829, "train/post_ent_max": 54.83631144778829, "train/post_ent_mean": 38.56305587123817, "train/post_ent_min": 23.142356066636637, "train/post_ent_std": 4.86336556286879, "train/prior_ent_mag": 76.28106098443689, "train/prior_ent_max": 76.28106098443689, "train/prior_ent_mean": 42.96208771181778, "train/prior_ent_min": 27.7529606886313, "train/prior_ent_std": 7.314093912151498, "train/rep_loss_mean": 4.308592531043039, "train/rep_loss_std": 6.400898275241046, "train/reward_avg": 1.1158945862676057, "train/reward_loss_mean": 0.062356483453596144, "train/reward_loss_std": 0.24041446833543376, "train/reward_max_data": 168.73239436619718, "train/reward_max_pred": 125.86857543193119, "train/reward_neg_acc": 0.9710214742472474, "train/reward_neg_loss": 0.008167712522906736, "train/reward_pos_acc": 0.9947848848893609, "train/reward_pos_loss": 0.6567924266130152, "train/reward_pred": 0.9959257358396557, "train/reward_rate": 0.08434198943661972, "train_stats/mean_log_entropy": 0.9788874983787537, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 9.086837962968275e-06, "report/cont_loss_std": 0.0002250910911243409, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.007049772888422012, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.2044471279514255e-06, "report/cont_pred": 0.9990280866622925, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.7794692516326904, "report/dyn_loss_std": 5.802579879760742, "report/image_loss_mean": 1.8944816589355469, "report/image_loss_std": 1.486938714981079, "report/model_loss_mean": 4.235728740692139, "report/model_loss_std": 4.65793514251709, "report/post_ent_mag": 55.76948165893555, "report/post_ent_max": 55.76948165893555, "report/post_ent_mean": 38.211395263671875, "report/post_ent_min": 24.27345848083496, "report/post_ent_std": 4.884496688842773, "report/prior_ent_mag": 76.21426391601562, "report/prior_ent_max": 76.21426391601562, "report/prior_ent_mean": 42.19144058227539, "report/prior_ent_min": 26.758333206176758, "report/prior_ent_std": 7.417770862579346, "report/rep_loss_mean": 3.7794692516326904, "report/rep_loss_std": 5.802579879760742, "report/reward_avg": 1.15234375, "report/reward_loss_mean": 0.07355639338493347, "report/reward_loss_std": 0.23003342747688293, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.36028289794922, "report/reward_neg_acc": 0.9737418293952942, "report/reward_neg_loss": 0.0069882250390946865, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6266774535179138, "report/reward_pred": 1.0768420696258545, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.021313007920980453, "eval/cont_loss_std": 0.4332005977630615, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 6.4566545486450195, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0024040709249675274, "eval/cont_pred": 0.9980204105377197, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.414582252502441, "eval/dyn_loss_std": 13.947284698486328, "eval/image_loss_mean": 5.054354667663574, "eval/image_loss_std": 4.756918907165527, "eval/model_loss_mean": 12.974995613098145, "eval/model_loss_std": 13.13926887512207, "eval/post_ent_mag": 56.467041015625, "eval/post_ent_max": 56.467041015625, "eval/post_ent_mean": 37.10068893432617, "eval/post_ent_min": 25.037120819091797, "eval/post_ent_std": 5.737734794616699, "eval/prior_ent_mag": 76.21426391601562, "eval/prior_ent_max": 76.21426391601562, "eval/prior_ent_mean": 40.7291259765625, "eval/prior_ent_min": 25.994239807128906, "eval/prior_ent_std": 8.356888771057129, "eval/rep_loss_mean": 12.414582252502441, "eval/rep_loss_std": 13.947284698486328, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.45057815313339233, "eval/reward_loss_std": 2.6409404277801514, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.99267292022705, "eval/reward_neg_acc": 0.9584599137306213, "eval/reward_neg_loss": 0.06066484376788139, "eval/reward_pos_acc": 0.2702702581882477, "eval/reward_pos_loss": 10.851778030395508, "eval/reward_pred": 0.17821183800697327, "eval/reward_rate": 0.0361328125, "replay/size": 66802.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.892488393890723e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.447798495882013e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3727900981903, "timer/env.step_count": 712.0, "timer/env.step_total": 2.883342742919922, "timer/env.step_frac": 0.00959921416975676, "timer/env.step_avg": 0.0040496386838762945, "timer/env.step_min": 0.0027458667755126953, "timer/env.step_max": 0.021520137786865234, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 191.67464017868042, "timer/replay._sample_frac": 0.6381225147458363, "timer/replay._sample_avg": 0.016825372206695964, "timer/replay._sample_min": 0.007956981658935547, "timer/replay._sample_max": 0.04033184051513672, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.19713711738586, "timer/agent.policy_frac": 0.6598371878244905, "timer/agent.policy_avg": 0.278366765614306, "timer/agent.policy_min": 0.003394603729248047, "timer/agent.policy_max": 0.31220078468322754, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09988117218017578, "timer/dataset_train_frac": 0.0003325240350416732, "timer/dataset_train_avg": 0.0001402825451968761, "timer/dataset_train_min": 9.012222290039062e-05, "timer/dataset_train_max": 0.0003571510314941406, "timer/agent.train_count": 712.0, "timer/agent.train_total": 98.11751365661621, "timer/agent.train_frac": 0.32665246950145554, "timer/agent.train_avg": 0.13780549670873063, "timer/agent.train_min": 0.10131645202636719, "timer/agent.train_max": 0.42855215072631836, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5023348331451416, "timer/agent.report_frac": 0.001672371298947987, "timer/agent.report_avg": 0.2511674165725708, "timer/agent.report_min": 0.10291099548339844, "timer/agent.report_max": 0.39942383766174316, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.605552673339844e-05, "timer/dataset_eval_frac": 2.532037829010287e-07, "timer/dataset_eval_avg": 7.605552673339844e-05, "timer/dataset_eval_min": 7.605552673339844e-05, "timer/dataset_eval_max": 7.605552673339844e-05, "fps": 9.481191972902247}
+{"step": 269748, "episode/length": 709.0, "episode/score": 840.0, "episode/reward_rate": 0.10704225352112676}
+{"step": 270260, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.4993408203125, "train/action_min": 0.0, "train/action_std": 2.9567311797823224, "train/actor_opt_grad_norm": 0.008461999514007142, "train/actor_opt_grad_steps": 66115.0, "train/actor_opt_loss": 0.0022115622007601943, "train/adv_mag": 0.6783778143780572, "train/adv_max": 0.6464218744209834, "train/adv_mean": 0.00338826039327874, "train/adv_min": -0.47138912975788116, "train/adv_std": 0.040043395677847524, "train/cont_avg": 0.9986467633928572, "train/cont_loss_mean": 0.00044147463071020354, "train/cont_loss_std": 0.010830889740917168, "train/cont_neg_acc": 0.9511494256299118, "train/cont_neg_loss": 0.15723054547988638, "train/cont_pos_acc": 0.9999580783503396, "train/cont_pos_loss": 0.00015742242562620642, "train/cont_pred": 0.9986396363803318, "train/cont_rate": 0.9986467633928572, "train/dyn_loss_mean": 4.374819047110421, "train/dyn_loss_std": 6.49419047491891, "train/extr_critic_critic_opt_grad_norm": 2.299466519696372, "train/extr_critic_critic_opt_grad_steps": 66115.0, "train/extr_critic_critic_opt_loss": 1.574364117213658, "train/extr_critic_mag": 418.59656764439177, "train/extr_critic_max": 418.59656764439177, "train/extr_critic_mean": 155.20341055733817, "train/extr_critic_min": 0.04784243447440011, "train/extr_critic_std": 123.80400238037109, "train/extr_return_normed_mag": 1.2556063302925655, "train/extr_return_normed_max": 1.2556063302925655, "train/extr_return_normed_mean": 0.41714439604963577, "train/extr_return_normed_min": -0.00862940716823297, "train/extr_return_normed_std": 0.34045748050723756, "train/extr_return_rate": 0.9313421215329851, "train/extr_return_raw_mag": 464.44955487932475, "train/extr_return_raw_max": 464.44955487932475, "train/extr_return_raw_mean": 156.44772295270647, "train/extr_return_raw_min": 0.0772793224846412, "train/extr_return_raw_std": 125.040015738351, "train/extr_reward_mag": 181.9212419782366, "train/extr_reward_max": 181.9212419782366, "train/extr_reward_mean": 0.9451808576072965, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.629022012438093, "train/image_loss_mean": 2.0768236381667, "train/image_loss_std": 1.7307087523596627, "train/model_loss_mean": 4.766489345686776, "train/model_loss_std": 5.313655798775809, "train/model_opt_grad_norm": 14.10803792136056, "train/model_opt_grad_steps": 66115.0, "train/model_opt_loss": 4.766489345686776, "train/policy_entropy_mag": 2.1696790661130634, "train/policy_entropy_max": 2.1696790661130634, "train/policy_entropy_mean": 1.1897095331123897, "train/policy_entropy_min": 0.07124288050191743, "train/policy_entropy_std": 0.5850448825529644, "train/policy_logprob_mag": 6.778689990724836, "train/policy_logprob_max": -0.009218806387590511, "train/policy_logprob_mean": -1.1909321538039617, "train/policy_logprob_min": -6.778689990724836, "train/policy_logprob_std": 1.1044701763561793, "train/policy_randomness_mag": 0.9874634904520853, "train/policy_randomness_max": 0.9874634904520853, "train/policy_randomness_mean": 0.5414601423910685, "train/policy_randomness_min": 0.032424032209174974, "train/policy_randomness_std": 0.2662653971995626, "train/post_ent_mag": 55.03433712550572, "train/post_ent_max": 55.03433712550572, "train/post_ent_mean": 38.66092616489956, "train/post_ent_min": 22.887375749860492, "train/post_ent_std": 4.782512862341744, "train/prior_ent_mag": 76.45434036254883, "train/prior_ent_max": 76.45434036254883, "train/prior_ent_mean": 43.06557377406529, "train/prior_ent_min": 27.729998970031737, "train/prior_ent_std": 7.2436779022216795, "train/rep_loss_mean": 4.374819047110421, "train/rep_loss_std": 6.49419047491891, "train/reward_avg": 1.1851283482142858, "train/reward_loss_mean": 0.06433280035853386, "train/reward_loss_std": 0.25464162613664354, "train/reward_max_data": 177.85714285714286, "train/reward_max_pred": 160.32364921569825, "train/reward_neg_acc": 0.9729045612471444, "train/reward_neg_loss": 0.007926162473657834, "train/reward_pos_acc": 0.9930012268679482, "train/reward_pos_loss": 0.6629995048046112, "train/reward_pred": 1.074284486259733, "train/reward_rate": 0.08705357142857142, "train_stats/mean_log_entropy": 0.9193657040596008, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0008998680277727544, "report/cont_loss_std": 0.028741436079144478, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 0.9201761484146118, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.2597495242516743e-06, "report/cont_pred": 0.999609649181366, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.665194511413574, "report/dyn_loss_std": 6.217310905456543, "report/image_loss_mean": 1.79209566116333, "report/image_loss_std": 1.4786111116409302, "report/model_loss_mean": 4.060705184936523, "report/model_loss_std": 4.894201278686523, "report/post_ent_mag": 55.93724060058594, "report/post_ent_max": 55.93724060058594, "report/post_ent_mean": 38.03266525268555, "report/post_ent_min": 23.41067886352539, "report/post_ent_std": 4.104411602020264, "report/prior_ent_mag": 76.48778533935547, "report/prior_ent_max": 76.48778533935547, "report/prior_ent_mean": 42.203983306884766, "report/prior_ent_min": 28.288490295410156, "report/prior_ent_std": 6.601163864135742, "report/rep_loss_mean": 3.665194511413574, "report/rep_loss_std": 6.217310905456543, "report/reward_avg": 1.71875, "report/reward_loss_mean": 0.06859279423952103, "report/reward_loss_std": 0.2676232159137726, "report/reward_max_data": 400.0, "report/reward_max_pred": 399.638916015625, "report/reward_neg_acc": 0.9749454855918884, "report/reward_neg_loss": 0.003936780616641045, "report/reward_pos_acc": 0.9811320900917053, "report/reward_pos_loss": 0.6285382509231567, "report/reward_pred": 1.5275191068649292, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013149495236575603, "eval/cont_loss_std": 0.42057740688323975, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.465054512023926, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.8123556816694872e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.593594551086426, "eval/dyn_loss_std": 10.966642379760742, "eval/image_loss_mean": 5.248158931732178, "eval/image_loss_std": 3.748605489730835, "eval/model_loss_mean": 13.538339614868164, "eval/model_loss_std": 10.433338165283203, "eval/post_ent_mag": 56.27997589111328, "eval/post_ent_max": 56.27997589111328, "eval/post_ent_mean": 36.80023956298828, "eval/post_ent_min": 24.56766700744629, "eval/post_ent_std": 4.908238410949707, "eval/prior_ent_mag": 76.48778533935547, "eval/prior_ent_max": 76.48778533935547, "eval/prior_ent_mean": 40.39863586425781, "eval/prior_ent_min": 26.875757217407227, "eval/prior_ent_std": 7.0458455085754395, "eval/rep_loss_mean": 12.593594551086426, "eval/rep_loss_std": 10.966642379760742, "eval/reward_avg": 0.48828125, "eval/reward_loss_mean": 0.7208744883537292, "eval/reward_loss_std": 3.5057828426361084, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999442100524902, "eval/reward_neg_acc": 0.9281314611434937, "eval/reward_neg_loss": 0.11704567819833755, "eval/reward_pos_acc": 0.25999999046325684, "eval/reward_pos_loss": 12.48345947265625, "eval/reward_pred": 0.3048831820487976, "eval/reward_rate": 0.048828125, "replay/size": 67502.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.209445953369141e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2656620570591518e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.341104507446289e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0415244102478, "timer/env.step_count": 700.0, "timer/env.step_total": 2.577087640762329, "timer/env.step_frac": 0.008589103277713882, "timer/env.step_avg": 0.003681553772517613, "timer/env.step_min": 0.0020639896392822266, "timer/env.step_max": 0.02135753631591797, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 203.28601217269897, "timer/replay._sample_frac": 0.6775262609809478, "timer/replay._sample_avg": 0.018150536801133838, "timer/replay._sample_min": 0.0006301403045654297, "timer/replay._sample_max": 0.0515751838684082, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 197.9463243484497, "timer/agent.policy_frac": 0.6597297648634695, "timer/agent.policy_avg": 0.2827804633549282, "timer/agent.policy_min": 0.003115415573120117, "timer/agent.policy_max": 0.33373332023620605, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09459376335144043, "timer/dataset_train_frac": 0.00031526890665340725, "timer/dataset_train_avg": 0.00013513394764491489, "timer/dataset_train_min": 8.20159912109375e-05, "timer/dataset_train_max": 0.0023345947265625, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.2648708820343, "timer/agent.train_frac": 0.3275042382056305, "timer/agent.train_avg": 0.14037838697433472, "timer/agent.train_min": 0.1021115779876709, "timer/agent.train_max": 0.44652557373046875, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5115694999694824, "timer/agent.report_frac": 0.0017049956700993549, "timer/agent.report_avg": 0.2557847499847412, "timer/agent.report_min": 0.10460805892944336, "timer/agent.report_max": 0.40696144104003906, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.059906005859375e-05, "timer/dataset_eval_frac": 3.019550718410474e-07, "timer/dataset_eval_avg": 9.059906005859375e-05, "timer/dataset_eval_min": 9.059906005859375e-05, "timer/dataset_eval_max": 9.059906005859375e-05, "fps": 9.33149625492948}
+{"step": 272628, "episode/length": 719.0, "episode/score": 920.0, "episode/reward_rate": 0.09027777777777778}
+{"step": 273032, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.3294545049252715, "train/action_min": 0.0, "train/action_std": 2.974085908005203, "train/actor_opt_grad_norm": 0.008708419642694618, "train/actor_opt_grad_steps": 66810.0, "train/actor_opt_loss": 0.0020077636516994653, "train/adv_mag": 0.6460281152656113, "train/adv_max": 0.6171329138071641, "train/adv_mean": 0.002728160008015381, "train/adv_min": -0.4643102262331092, "train/adv_std": 0.03846645749349525, "train/cont_avg": 0.9984997735507246, "train/cont_loss_mean": 0.0001717339560581827, "train/cont_loss_std": 0.004596799721488847, "train/cont_neg_acc": 0.942424243146723, "train/cont_neg_loss": 0.10496716778210281, "train/cont_pos_acc": 0.9999999974084937, "train/cont_pos_loss": 4.297526416049686e-05, "train/cont_pred": 0.998535402443098, "train/cont_rate": 0.9984997735507246, "train/dyn_loss_mean": 4.26584093467049, "train/dyn_loss_std": 6.4080250021340195, "train/extr_critic_critic_opt_grad_norm": 2.215645781461743, "train/extr_critic_critic_opt_grad_steps": 66810.0, "train/extr_critic_critic_opt_loss": 1.5421620814696602, "train/extr_critic_mag": 426.2914959451427, "train/extr_critic_max": 426.2914959451427, "train/extr_critic_mean": 165.74157438416412, "train/extr_critic_min": 0.17102990115898242, "train/extr_critic_std": 125.86159637008888, "train/extr_return_normed_mag": 1.2410926300546397, "train/extr_return_normed_max": 1.2410926300546397, "train/extr_return_normed_mean": 0.43885492803393933, "train/extr_return_normed_min": -0.012006571030487185, "train/extr_return_normed_std": 0.3430190699687902, "train/extr_return_rate": 0.9323955057323843, "train/extr_return_raw_mag": 463.3261298580446, "train/extr_return_raw_max": 463.3261298580446, "train/extr_return_raw_mean": 166.74979168435803, "train/extr_return_raw_min": 0.13015148609976177, "train/extr_return_raw_std": 126.79537477355072, "train/extr_reward_mag": 169.69595746026522, "train/extr_reward_max": 169.69595746026522, "train/extr_reward_mean": 0.9024524779423423, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.007196315820666, "train/image_loss_mean": 2.0033366369164507, "train/image_loss_std": 1.693109721377276, "train/model_loss_mean": 4.626031485156736, "train/model_loss_std": 5.229968686034714, "train/model_opt_grad_norm": 13.694657035495924, "train/model_opt_grad_steps": 66810.0, "train/model_opt_loss": 4.626031485156736, "train/policy_entropy_mag": 2.160490049832109, "train/policy_entropy_max": 2.160490049832109, "train/policy_entropy_mean": 1.178466676801875, "train/policy_entropy_min": 0.07089170986327573, "train/policy_entropy_std": 0.5665714274282041, "train/policy_logprob_mag": 6.77924516926641, "train/policy_logprob_max": -0.00916642085581586, "train/policy_logprob_mean": -1.1789094926654429, "train/policy_logprob_min": -6.77924516926641, "train/policy_logprob_std": 1.0966090430384097, "train/policy_randomness_mag": 0.9832813895266989, "train/policy_randomness_max": 0.9832813895266989, "train/policy_randomness_mean": 0.5363432963689169, "train/policy_randomness_min": 0.03226420747629111, "train/policy_randomness_std": 0.25785776800003607, "train/post_ent_mag": 55.197124260059304, "train/post_ent_max": 55.197124260059304, "train/post_ent_mean": 38.37190578294837, "train/post_ent_min": 22.97394133305204, "train/post_ent_std": 4.871517029361448, "train/prior_ent_mag": 76.55166371663411, "train/prior_ent_max": 76.55166371663411, "train/prior_ent_mean": 42.72593423594599, "train/prior_ent_min": 27.560722682787024, "train/prior_ent_std": 7.443012265191562, "train/rep_loss_mean": 4.26584093467049, "train/rep_loss_std": 6.4080250021340195, "train/reward_avg": 1.1657891757246377, "train/reward_loss_mean": 0.0630185368700304, "train/reward_loss_std": 0.23299030009387195, "train/reward_max_data": 169.1304347826087, "train/reward_max_pred": 145.86083544855532, "train/reward_neg_acc": 0.9740122651708298, "train/reward_neg_loss": 0.007349651919313423, "train/reward_pos_acc": 0.9958887817203135, "train/reward_pos_loss": 0.6425960841386215, "train/reward_pred": 1.0531919814538264, "train/reward_rate": 0.08770663496376811, "train_stats/mean_log_entropy": 1.1842142343521118, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 5.7981087593361735e-06, "report/cont_loss_std": 8.06669777375646e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.79238736059051e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.703713668481214e-06, "report/cont_pred": 0.9970647692680359, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 5.225327491760254, "report/dyn_loss_std": 6.842360496520996, "report/image_loss_mean": 2.3503811359405518, "report/image_loss_std": 2.127779245376587, "report/model_loss_mean": 5.5423197746276855, "report/model_loss_std": 5.9148736000061035, "report/post_ent_mag": 55.55286407470703, "report/post_ent_max": 55.55286407470703, "report/post_ent_mean": 38.78635025024414, "report/post_ent_min": 25.35380744934082, "report/post_ent_std": 5.4027299880981445, "report/prior_ent_mag": 76.2076416015625, "report/prior_ent_max": 76.2076416015625, "report/prior_ent_mean": 44.0920295715332, "report/prior_ent_min": 28.319604873657227, "report/prior_ent_std": 8.371345520019531, "report/rep_loss_mean": 5.225327491760254, "report/rep_loss_std": 6.842360496520996, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.05673627555370331, "report/reward_loss_std": 0.21518205106258392, "report/reward_max_data": 100.0, "report/reward_max_pred": 49.813697814941406, "report/reward_neg_acc": 0.9703390002250671, "report/reward_neg_loss": 0.009244595654308796, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6171380877494812, "report/reward_pred": 0.8184362053871155, "report/reward_rate": 0.078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.087504746839386e-08, "eval/cont_loss_std": 3.345548691413569e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.087504746839386e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.958649635314941, "eval/dyn_loss_std": 10.966476440429688, "eval/image_loss_mean": 7.256002426147461, "eval/image_loss_std": 4.382590293884277, "eval/model_loss_mean": 17.800880432128906, "eval/model_loss_std": 11.56758975982666, "eval/post_ent_mag": 50.04289627075195, "eval/post_ent_max": 50.04289627075195, "eval/post_ent_mean": 37.557926177978516, "eval/post_ent_min": 25.464427947998047, "eval/post_ent_std": 4.0289530754089355, "eval/prior_ent_mag": 76.2076416015625, "eval/prior_ent_max": 76.2076416015625, "eval/prior_ent_mean": 41.85970687866211, "eval/prior_ent_min": 27.586620330810547, "eval/prior_ent_std": 6.307741165161133, "eval/rep_loss_mean": 15.958649635314941, "eval/rep_loss_std": 10.966476440429688, "eval/reward_avg": 0.732421875, "eval/reward_loss_mean": 0.9696892499923706, "eval/reward_loss_std": 3.8459014892578125, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998710632324219, "eval/reward_neg_acc": 0.9336143732070923, "eval/reward_neg_loss": 0.1161426529288292, "eval/reward_pos_acc": 0.25333333015441895, "eval/reward_pos_loss": 11.769898414611816, "eval/reward_pred": 0.3145945072174072, "eval/reward_rate": 0.0732421875, "replay/size": 68195.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.0632124511366455e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1295639247261257e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.0281801223754883e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3665962219238, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4912121295928955, "timer/env.step_frac": 0.008293905384047034, "timer/env.step_avg": 0.003594822697825246, "timer/env.step_min": 0.0022606849670410156, "timer/env.step_max": 0.02454233169555664, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 196.23125052452087, "timer/replay._sample_frac": 0.6533058369098298, "timer/replay._sample_avg": 0.017697623604303832, "timer/replay._sample_min": 0.0005018711090087891, "timer/replay._sample_max": 0.05052304267883301, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2239527702331543, "timer/agent.save_frac": 0.0007455981225944589, "timer/agent.save_avg": 0.2239527702331543, "timer/agent.save_min": 0.2239527702331543, "timer/agent.save_max": 0.2239527702331543, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.59804368019104, "timer/agent.policy_frac": 0.661185518556991, "timer/agent.policy_avg": 0.2865772636077793, "timer/agent.policy_min": 0.0029287338256835938, "timer/agent.policy_max": 0.45479822158813477, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09922194480895996, "timer/dataset_train_frac": 0.00033033614941539805, "timer/dataset_train_avg": 0.00014317740953673875, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.011968374252319336, "timer/agent.train_count": 693.0, "timer/agent.train_total": 97.91369605064392, "timer/agent.train_frac": 0.3259806425954937, "timer/agent.train_avg": 0.14128960469068386, "timer/agent.train_min": 0.1027219295501709, "timer/agent.train_max": 0.4459965229034424, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5209941864013672, "timer/agent.report_frac": 0.0017345277169783359, "timer/agent.report_avg": 0.2604970932006836, "timer/agent.report_min": 0.1150209903717041, "timer/agent.report_max": 0.4059731960296631, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.6253204345703125e-05, "timer/dataset_eval_frac": 1.5398917498645307e-07, "timer/dataset_eval_avg": 4.6253204345703125e-05, "timer/dataset_eval_min": 4.6253204345703125e-05, "timer/dataset_eval_max": 4.6253204345703125e-05, "fps": 9.228257523057666}
+{"step": 275772, "episode/length": 785.0, "episode/score": 1270.0, "episode/reward_rate": 0.1272264631043257}
+{"step": 275808, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.261830357142857, "train/action_min": 0.0, "train/action_std": 3.0088666949953353, "train/actor_opt_grad_norm": 0.0083192836958915, "train/actor_opt_grad_steps": 67505.0, "train/actor_opt_loss": 0.0021319131256729764, "train/adv_mag": 0.6556704372167588, "train/adv_max": 0.6206400087901525, "train/adv_mean": 0.0034241788633932757, "train/adv_min": -0.48006616617952075, "train/adv_std": 0.03889561795762607, "train/cont_avg": 0.9986746651785714, "train/cont_loss_mean": 0.00044965226544950405, "train/cont_loss_std": 0.012866257173949082, "train/cont_neg_acc": 0.8869047622595515, "train/cont_neg_loss": 0.32287403133530496, "train/cont_pos_acc": 0.9999580774988447, "train/cont_pos_loss": 9.350735753026791e-05, "train/cont_pred": 0.9987363236291068, "train/cont_rate": 0.9986746651785714, "train/dyn_loss_mean": 4.274158951214382, "train/dyn_loss_std": 6.371940565109253, "train/extr_critic_critic_opt_grad_norm": 2.132098778656551, "train/extr_critic_critic_opt_grad_steps": 67505.0, "train/extr_critic_critic_opt_loss": 1.5661190373556955, "train/extr_critic_mag": 425.31834978376116, "train/extr_critic_max": 425.31834978376116, "train/extr_critic_mean": 167.6013700212751, "train/extr_critic_min": 0.2454766971724374, "train/extr_critic_std": 130.82805426461357, "train/extr_return_normed_mag": 1.2471158606665476, "train/extr_return_normed_max": 1.2471158606665476, "train/extr_return_normed_mean": 0.4422552589859281, "train/extr_return_normed_min": -0.009441024058365397, "train/extr_return_normed_std": 0.3534518152475357, "train/extr_return_rate": 0.9327818538461413, "train/extr_return_raw_mag": 469.3327876499721, "train/extr_return_raw_max": 469.3327876499721, "train/extr_return_raw_mean": 168.87930777413504, "train/extr_return_raw_min": 0.2648919388651848, "train/extr_return_raw_std": 131.9332677568708, "train/extr_reward_mag": 170.88081722259523, "train/extr_reward_max": 170.88081722259523, "train/extr_reward_mean": 0.9564560430390494, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.3672148806708195, "train/image_loss_mean": 2.0230464696884156, "train/image_loss_std": 1.7184620465551104, "train/model_loss_mean": 4.654366452353341, "train/model_loss_std": 5.230090236663818, "train/model_opt_grad_norm": 13.154904297419957, "train/model_opt_grad_steps": 67505.0, "train/model_opt_loss": 4.654366452353341, "train/policy_entropy_mag": 2.166252170290266, "train/policy_entropy_max": 2.166252170290266, "train/policy_entropy_mean": 1.1566504452909743, "train/policy_entropy_min": 0.07073864404644285, "train/policy_entropy_std": 0.5845477061612265, "train/policy_logprob_mag": 6.788984612056187, "train/policy_logprob_max": -0.009141551783042295, "train/policy_logprob_mean": -1.1569841870239803, "train/policy_logprob_min": -6.788984612056187, "train/policy_logprob_std": 1.1067627940859113, "train/policy_randomness_mag": 0.9859038404056004, "train/policy_randomness_max": 0.9859038404056004, "train/policy_randomness_mean": 0.5264143015657152, "train/policy_randomness_min": 0.03219454400241375, "train/policy_randomness_std": 0.26603912136384417, "train/post_ent_mag": 55.1504636492048, "train/post_ent_max": 55.1504636492048, "train/post_ent_mean": 38.45081127711705, "train/post_ent_min": 22.71751801627023, "train/post_ent_std": 4.859697941371373, "train/prior_ent_mag": 76.48498011997768, "train/prior_ent_max": 76.48498011997768, "train/prior_ent_mean": 42.75608427865165, "train/prior_ent_min": 27.795754378182547, "train/prior_ent_std": 7.435998834882464, "train/rep_loss_mean": 4.274158951214382, "train/rep_loss_std": 6.371940565109253, "train/reward_avg": 1.1759207589285714, "train/reward_loss_mean": 0.06637495777436665, "train/reward_loss_std": 0.25849476030894686, "train/reward_max_data": 166.71428571428572, "train/reward_max_pred": 136.74283860070364, "train/reward_neg_acc": 0.9741193984236036, "train/reward_neg_loss": 0.008066853917469936, "train/reward_pos_acc": 0.9918455464499337, "train/reward_pos_loss": 0.667717136655535, "train/reward_pred": 1.0638483677591597, "train/reward_rate": 0.08907645089285714, "train_stats/mean_log_entropy": 0.9825972318649292, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.9018301827600226e-05, "report/cont_loss_std": 0.0004609646275639534, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.009551625698804855, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.6349291576698306e-07, "report/cont_pred": 0.9980650544166565, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.91880464553833, "report/dyn_loss_std": 6.871302127838135, "report/image_loss_mean": 2.538029670715332, "report/image_loss_std": 1.917396903038025, "report/model_loss_mean": 5.577236175537109, "report/model_loss_std": 5.766486167907715, "report/post_ent_mag": 56.35466766357422, "report/post_ent_max": 56.35466766357422, "report/post_ent_mean": 37.70091247558594, "report/post_ent_min": 24.665088653564453, "report/post_ent_std": 4.052501201629639, "report/prior_ent_mag": 76.30452728271484, "report/prior_ent_max": 76.30452728271484, "report/prior_ent_mean": 42.801002502441406, "report/prior_ent_min": 26.259201049804688, "report/prior_ent_std": 7.004476547241211, "report/rep_loss_mean": 4.91880464553833, "report/rep_loss_std": 6.871302127838135, "report/reward_avg": 1.787109375, "report/reward_loss_mean": 0.08790476620197296, "report/reward_loss_std": 0.27644112706184387, "report/reward_max_data": 210.0, "report/reward_max_pred": 205.08193969726562, "report/reward_neg_acc": 0.9730640053749084, "report/reward_neg_loss": 0.010458748787641525, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6067348718643188, "report/reward_pred": 1.6808732748031616, "report/reward_rate": 0.1298828125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.012174543924629688, "eval/cont_loss_std": 0.3438554108142853, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 4.149511337280273, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.782456638466101e-05, "eval/cont_pred": 0.9990141987800598, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.418994903564453, "eval/dyn_loss_std": 10.784289360046387, "eval/image_loss_mean": 4.779135227203369, "eval/image_loss_std": 4.386772632598877, "eval/model_loss_mean": 12.346406936645508, "eval/model_loss_std": 11.161417961120605, "eval/post_ent_mag": 56.35466766357422, "eval/post_ent_max": 56.35466766357422, "eval/post_ent_mean": 35.616539001464844, "eval/post_ent_min": 25.014041900634766, "eval/post_ent_std": 5.443419933319092, "eval/prior_ent_mag": 76.30452728271484, "eval/prior_ent_max": 76.30452728271484, "eval/prior_ent_mean": 38.60906219482422, "eval/prior_ent_min": 26.223094940185547, "eval/prior_ent_std": 8.189355850219727, "eval/rep_loss_mean": 11.418994903564453, "eval/rep_loss_std": 10.784289360046387, "eval/reward_avg": 0.458984375, "eval/reward_loss_mean": 0.7036992311477661, "eval/reward_loss_std": 3.5633978843688965, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.011672019958496, "eval/reward_neg_acc": 0.9283520579338074, "eval/reward_neg_loss": 0.13899196684360504, "eval/reward_pos_acc": 0.23404254019260406, "eval/reward_pos_loss": 12.442400932312012, "eval/reward_pred": 0.28211304545402527, "eval/reward_rate": 0.0458984375, "replay/size": 68889.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 5.201235284722848e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.246394101068678e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0642259120941, "timer/env.step_count": 694.0, "timer/env.step_total": 2.5327272415161133, "timer/env.step_frac": 0.008440617117277064, "timer/env.step_avg": 0.0036494628840289815, "timer/env.step_min": 0.0022683143615722656, "timer/env.step_max": 0.019817829132080078, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 198.84394550323486, "timer/replay._sample_frac": 0.662671282785598, "timer/replay._sample_avg": 0.01790741584142965, "timer/replay._sample_min": 0.0005309581756591797, "timer/replay._sample_max": 0.04745221138000488, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.2237846851349, "timer/agent.policy_frac": 0.6606045225238076, "timer/agent.policy_avg": 0.2856250499785805, "timer/agent.policy_min": 0.002955913543701172, "timer/agent.policy_max": 0.33211588859558105, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08732342720031738, "timer/dataset_train_frac": 0.0002910157881529649, "timer/dataset_train_avg": 0.00012582626397740257, "timer/dataset_train_min": 7.915496826171875e-05, "timer/dataset_train_max": 0.0015773773193359375, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.04349422454834, "timer/agent.train_frac": 0.32674169647024454, "timer/agent.train_avg": 0.14127304643306676, "timer/agent.train_min": 0.10188031196594238, "timer/agent.train_max": 0.4478001594543457, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49919748306274414, "timer/agent.report_frac": 0.001663635448528901, "timer/agent.report_avg": 0.24959874153137207, "timer/agent.report_min": 0.10070681571960449, "timer/agent.report_max": 0.39849066734313965, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.368492126464844e-05, "timer/dataset_eval_frac": 2.7889003099344644e-07, "timer/dataset_eval_avg": 8.368492126464844e-05, "timer/dataset_eval_min": 8.368492126464844e-05, "timer/dataset_eval_max": 8.368492126464844e-05, "fps": 9.250996203476488}
+{"step": 278656, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.352342202629842, "train/action_min": 0.0, "train/action_std": 2.922181418244268, "train/actor_opt_grad_norm": 0.008689034658051292, "train/actor_opt_grad_steps": 68210.0, "train/actor_opt_loss": 0.0019510965720540515, "train/adv_mag": 0.6925186749915002, "train/adv_max": 0.6659001405809967, "train/adv_mean": 0.0031246921031889145, "train/adv_min": -0.49204270436730185, "train/adv_std": 0.03983799302556985, "train/cont_avg": 0.9983769806338029, "train/cont_loss_mean": 0.00017382467565874184, "train/cont_loss_std": 0.004397221612466966, "train/cont_neg_acc": 0.9878787886012684, "train/cont_neg_loss": 0.037080632866797136, "train/cont_pos_acc": 0.999958636895032, "train/cont_pos_loss": 9.579405493511318e-05, "train/cont_pred": 0.998340412764482, "train/cont_rate": 0.9983769806338029, "train/dyn_loss_mean": 4.375615096428025, "train/dyn_loss_std": 6.452898025512695, "train/extr_critic_critic_opt_grad_norm": 2.115118426336369, "train/extr_critic_critic_opt_grad_steps": 68210.0, "train/extr_critic_critic_opt_loss": 1.531992388443208, "train/extr_critic_mag": 420.6272088709012, "train/extr_critic_max": 420.6272088709012, "train/extr_critic_mean": 169.4609936996245, "train/extr_critic_min": 0.04080606682199828, "train/extr_critic_std": 128.69420634524923, "train/extr_return_normed_mag": 1.251365256981111, "train/extr_return_normed_max": 1.251365256981111, "train/extr_return_normed_mean": 0.4466059153348627, "train/extr_return_normed_min": -0.00946726270256118, "train/extr_return_normed_std": 0.3466019999813026, "train/extr_return_rate": 0.9376238357852882, "train/extr_return_raw_mag": 471.62968251402947, "train/extr_return_raw_max": 471.62968251402947, "train/extr_return_raw_mean": 170.6296028889401, "train/extr_return_raw_min": 0.039497917949248264, "train/extr_return_raw_std": 129.6339932293959, "train/extr_reward_mag": 182.1462093944281, "train/extr_reward_max": 182.1462093944281, "train/extr_reward_mean": 0.953139882272398, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.601654472485395, "train/image_loss_mean": 2.0463012524054083, "train/image_loss_std": 1.7317288744617516, "train/model_loss_mean": 4.737923051269961, "train/model_loss_std": 5.290791766744264, "train/model_opt_grad_norm": 13.569320665278905, "train/model_opt_grad_steps": 68210.0, "train/model_opt_loss": 4.737923051269961, "train/policy_entropy_mag": 2.1609413288009, "train/policy_entropy_max": 2.1609413288009, "train/policy_entropy_mean": 1.15241844553343, "train/policy_entropy_min": 0.07063851337617552, "train/policy_entropy_std": 0.5774821202519914, "train/policy_logprob_mag": 6.7860863309510995, "train/policy_logprob_max": -0.00912795626414074, "train/policy_logprob_mean": -1.1516531286105303, "train/policy_logprob_min": -6.7860863309510995, "train/policy_logprob_std": 1.1042169013493497, "train/policy_randomness_mag": 0.9834867741020632, "train/policy_randomness_max": 0.9834867741020632, "train/policy_randomness_mean": 0.5244882337644067, "train/policy_randomness_min": 0.03214897267835241, "train/policy_randomness_std": 0.2628234368814549, "train/post_ent_mag": 55.247475315147724, "train/post_ent_max": 55.247475315147724, "train/post_ent_mean": 38.2698949894435, "train/post_ent_min": 22.51689491809254, "train/post_ent_std": 4.832219321962813, "train/prior_ent_mag": 76.55030586350132, "train/prior_ent_max": 76.55030586350132, "train/prior_ent_mean": 42.6708908618336, "train/prior_ent_min": 27.72099137642014, "train/prior_ent_std": 7.477543260010195, "train/rep_loss_mean": 4.375615096428025, "train/rep_loss_std": 6.452898025512695, "train/reward_avg": 1.218502420774648, "train/reward_loss_mean": 0.06607890013657824, "train/reward_loss_std": 0.2569058978221786, "train/reward_max_data": 185.77464788732394, "train/reward_max_pred": 153.81072764329508, "train/reward_neg_acc": 0.9712647417901268, "train/reward_neg_loss": 0.007910585888451569, "train/reward_pos_acc": 0.9938584247105559, "train/reward_pos_loss": 0.6676724939279153, "train/reward_pred": 1.0860084018237155, "train/reward_rate": 0.08867462588028169, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00015080778393894434, "report/cont_loss_std": 0.0048092142678797245, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0770597904920578, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.009718341218104e-07, "report/cont_pred": 0.9981861114501953, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.7458503246307373, "report/dyn_loss_std": 6.176544189453125, "report/image_loss_mean": 1.5760884284973145, "report/image_loss_std": 1.7536238431930542, "report/model_loss_mean": 3.905660629272461, "report/model_loss_std": 5.288379669189453, "report/post_ent_mag": 56.156776428222656, "report/post_ent_max": 56.156776428222656, "report/post_ent_mean": 37.26426696777344, "report/post_ent_min": 21.28424835205078, "report/post_ent_std": 5.432560443878174, "report/prior_ent_mag": 76.74858093261719, "report/prior_ent_max": 76.74858093261719, "report/prior_ent_mean": 40.921356201171875, "report/prior_ent_min": 27.196855545043945, "report/prior_ent_std": 8.455113410949707, "report/rep_loss_mean": 3.7458503246307373, "report/rep_loss_std": 6.176544189453125, "report/reward_avg": 1.015625, "report/reward_loss_mean": 0.08191108703613281, "report/reward_loss_std": 0.38754627108573914, "report/reward_max_data": 50.0, "report/reward_max_pred": 48.91071319580078, "report/reward_neg_acc": 0.9709051847457886, "report/reward_neg_loss": 0.012843134813010693, "report/reward_pos_acc": 0.9791666865348816, "report/reward_pos_loss": 0.749567985534668, "report/reward_pred": 0.9385381937026978, "report/reward_rate": 0.09375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.00020076580403838307, "eval/cont_loss_std": 0.004389568697661161, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.08642837405204773, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.202292646165006e-05, "eval/cont_pred": 0.9981751441955566, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.635638236999512, "eval/dyn_loss_std": 10.4717435836792, "eval/image_loss_mean": 5.81604528427124, "eval/image_loss_std": 4.284702777862549, "eval/model_loss_mean": 14.001405715942383, "eval/model_loss_std": 10.348502159118652, "eval/post_ent_mag": 56.261653900146484, "eval/post_ent_max": 56.261653900146484, "eval/post_ent_mean": 37.42424011230469, "eval/post_ent_min": 25.405017852783203, "eval/post_ent_std": 5.331732273101807, "eval/prior_ent_mag": 76.74858093261719, "eval/prior_ent_max": 76.74858093261719, "eval/prior_ent_mean": 40.571868896484375, "eval/prior_ent_min": 27.522228240966797, "eval/prior_ent_std": 7.629385471343994, "eval/rep_loss_mean": 12.635638236999512, "eval/rep_loss_std": 10.4717435836792, "eval/reward_avg": 0.419921875, "eval/reward_loss_mean": 0.6037778258323669, "eval/reward_loss_std": 2.73652982711792, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009684562683105, "eval/reward_neg_acc": 0.9102956056594849, "eval/reward_neg_loss": 0.19217123091220856, "eval/reward_pos_acc": 0.25581395626068115, "eval/reward_pos_loss": 9.994152069091797, "eval/reward_pred": 0.38461488485336304, "eval/reward_rate": 0.0419921875, "replay/size": 69601.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.8643603592776184e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4817446805118176e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2829942703247, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8740592002868652, "timer/env.step_frac": 0.009571168714601074, "timer/env.step_avg": 0.0040366000004029, "timer/env.step_min": 0.002552032470703125, "timer/env.step_max": 0.007902383804321289, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 189.7327561378479, "timer/replay._sample_frac": 0.6318464906708776, "timer/replay._sample_avg": 0.01665491188007794, "timer/replay._sample_min": 0.008454084396362305, "timer/replay._sample_max": 0.03728055953979492, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.31938362121582, "timer/agent.policy_frac": 0.6604416081007976, "timer/agent.policy_avg": 0.27853846014215705, "timer/agent.policy_min": 0.0034689903259277344, "timer/agent.policy_max": 0.3134002685546875, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.10003542900085449, "timer/dataset_train_frac": 0.0003331371769618072, "timer/dataset_train_avg": 0.00014049919803490798, "timer/dataset_train_min": 7.867813110351562e-05, "timer/dataset_train_max": 0.0006334781646728516, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.94858431816101, "timer/agent.train_frac": 0.32618758366977135, "timer/agent.train_avg": 0.13756823640191154, "timer/agent.train_min": 0.09965753555297852, "timer/agent.train_max": 0.4275791645050049, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49733996391296387, "timer/agent.report_frac": 0.0016562375272748278, "timer/agent.report_avg": 0.24866998195648193, "timer/agent.report_min": 0.10110592842102051, "timer/agent.report_max": 0.39623403549194336, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012373924255371094, "timer/dataset_eval_frac": 4.120754252314294e-07, "timer/dataset_eval_avg": 0.00012373924255371094, "timer/dataset_eval_min": 0.00012373924255371094, "timer/dataset_eval_max": 0.00012373924255371094, "fps": 9.48401219434061}
+{"step": 279948, "episode/length": 1043.0, "episode/score": 1890.0, "episode/reward_rate": 0.09099616858237548}
+{"step": 281456, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.430400739397322, "train/action_min": 0.0, "train/action_std": 2.928918286732265, "train/actor_opt_grad_norm": 0.008343804966924447, "train/actor_opt_grad_steps": 68915.0, "train/actor_opt_loss": 0.0017241344859030504, "train/adv_mag": 0.6210827129227775, "train/adv_max": 0.5887469523719379, "train/adv_mean": 0.0028208160565035153, "train/adv_min": -0.47157152209963116, "train/adv_std": 0.03691828522299017, "train/cont_avg": 0.9984514508928571, "train/cont_loss_mean": 0.0003022301772696753, "train/cont_loss_std": 0.008562762785329296, "train/cont_neg_acc": 0.9409356734208894, "train/cont_neg_loss": 0.09659929621717597, "train/cont_pos_acc": 0.9999720139162881, "train/cont_pos_loss": 0.00010790683398303865, "train/cont_pred": 0.9984614619186947, "train/cont_rate": 0.9984514508928571, "train/dyn_loss_mean": 4.4186162063053676, "train/dyn_loss_std": 6.520433970860073, "train/extr_critic_critic_opt_grad_norm": 2.059210239137922, "train/extr_critic_critic_opt_grad_steps": 68915.0, "train/extr_critic_critic_opt_loss": 1.516632410458156, "train/extr_critic_mag": 434.6225258963449, "train/extr_critic_max": 434.6225258963449, "train/extr_critic_mean": 170.0372697012765, "train/extr_critic_min": 0.7863428098814828, "train/extr_critic_std": 128.4398327418736, "train/extr_return_normed_mag": 1.2262078421456473, "train/extr_return_normed_max": 1.2262078421456473, "train/extr_return_normed_mean": 0.44375039871249883, "train/extr_return_normed_min": -0.009304617665475235, "train/extr_return_normed_std": 0.34393872576100487, "train/extr_return_rate": 0.9302009361130851, "train/extr_return_raw_mag": 465.2757568359375, "train/extr_return_raw_max": 465.2757568359375, "train/extr_return_raw_mean": 171.0978403363909, "train/extr_return_raw_min": 0.7998432562154318, "train/extr_return_raw_std": 129.28790065220423, "train/extr_reward_mag": 154.38082455226353, "train/extr_reward_max": 154.38082455226353, "train/extr_reward_mean": 0.9056858846119472, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.241988522665841, "train/image_loss_mean": 2.0454887849943977, "train/image_loss_std": 1.7477882385253907, "train/model_loss_mean": 4.759325180734907, "train/model_loss_std": 5.341657624925886, "train/model_opt_grad_norm": 13.25711965560913, "train/model_opt_grad_steps": 68915.0, "train/model_opt_loss": 4.759325180734907, "train/policy_entropy_mag": 2.165569029535566, "train/policy_entropy_max": 2.165569029535566, "train/policy_entropy_mean": 1.1577830638204303, "train/policy_entropy_min": 0.0703559832913535, "train/policy_entropy_std": 0.5831934137003763, "train/policy_logprob_mag": 6.784278426851545, "train/policy_logprob_max": -0.009084089725677456, "train/policy_logprob_mean": -1.157602368082319, "train/policy_logprob_min": -6.784278426851545, "train/policy_logprob_std": 1.1030579958643232, "train/policy_randomness_mag": 0.9855929315090179, "train/policy_randomness_max": 0.9855929315090179, "train/policy_randomness_mean": 0.5269297748804093, "train/policy_randomness_min": 0.032020387585674014, "train/policy_randomness_std": 0.26542275760854994, "train/post_ent_mag": 55.41498587472098, "train/post_ent_max": 55.41498587472098, "train/post_ent_mean": 38.40895385742188, "train/post_ent_min": 22.42893793923514, "train/post_ent_std": 4.8807579585484095, "train/prior_ent_mag": 76.61836449759348, "train/prior_ent_max": 76.61836449759348, "train/prior_ent_mean": 42.827286747523715, "train/prior_ent_min": 27.387185178484234, "train/prior_ent_std": 7.526794283730643, "train/rep_loss_mean": 4.4186162063053676, "train/rep_loss_std": 6.520433970860073, "train/reward_avg": 1.1470424107142858, "train/reward_loss_mean": 0.06236444615892001, "train/reward_loss_std": 0.23862933058823857, "train/reward_max_data": 173.14285714285714, "train/reward_max_pred": 136.77242243630545, "train/reward_neg_acc": 0.9720995741231101, "train/reward_neg_loss": 0.008423912628287716, "train/reward_pos_acc": 0.9946218260696956, "train/reward_pos_loss": 0.6484135236058917, "train/reward_pred": 1.0184614743505205, "train/reward_rate": 0.08394252232142857, "train_stats/mean_log_entropy": 1.1393344402313232, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.93379008806005e-07, "report/cont_loss_std": 3.0227777187974425e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.93379008806005e-07, "report/cont_pred": 0.9999998211860657, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.790902137756348, "report/dyn_loss_std": 6.479977607727051, "report/image_loss_mean": 2.2499537467956543, "report/image_loss_std": 1.8288826942443848, "report/model_loss_mean": 5.215131759643555, "report/model_loss_std": 5.416260242462158, "report/post_ent_mag": 54.747562408447266, "report/post_ent_max": 54.747562408447266, "report/post_ent_mean": 38.99443054199219, "report/post_ent_min": 20.397037506103516, "report/post_ent_std": 4.5826921463012695, "report/prior_ent_mag": 76.93696594238281, "report/prior_ent_max": 76.93696594238281, "report/prior_ent_mean": 43.92890167236328, "report/prior_ent_min": 27.52914810180664, "report/prior_ent_std": 7.292225360870361, "report/rep_loss_mean": 4.790902137756348, "report/rep_loss_std": 6.479977607727051, "report/reward_avg": 1.6796875, "report/reward_loss_mean": 0.09063757956027985, "report/reward_loss_std": 0.22903575003147125, "report/reward_max_data": 210.0, "report/reward_max_pred": 177.39564514160156, "report/reward_neg_acc": 0.9581448435783386, "report/reward_neg_loss": 0.010110209695994854, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5991104245185852, "report/reward_pred": 1.5379431247711182, "report/reward_rate": 0.13671875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.00016593308828305453, "eval/cont_loss_std": 0.004866667557507753, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.053234830498695374, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0000966540246736e-05, "eval/cont_pred": 0.9972050786018372, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 14.457741737365723, "eval/dyn_loss_std": 11.35053825378418, "eval/image_loss_mean": 6.720388412475586, "eval/image_loss_std": 4.86979866027832, "eval/model_loss_mean": 15.975431442260742, "eval/model_loss_std": 11.551673889160156, "eval/post_ent_mag": 56.67448806762695, "eval/post_ent_max": 56.67448806762695, "eval/post_ent_mean": 36.99925994873047, "eval/post_ent_min": 23.48501968383789, "eval/post_ent_std": 4.978947162628174, "eval/prior_ent_mag": 76.93696594238281, "eval/prior_ent_max": 76.93696594238281, "eval/prior_ent_mean": 41.22211456298828, "eval/prior_ent_min": 26.851375579833984, "eval/prior_ent_std": 7.556308269500732, "eval/rep_loss_mean": 14.457741737365723, "eval/rep_loss_std": 11.35053825378418, "eval/reward_avg": 0.498046875, "eval/reward_loss_mean": 0.5802319645881653, "eval/reward_loss_std": 2.7561440467834473, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999061584472656, "eval/reward_neg_acc": 0.9157245755195618, "eval/reward_neg_loss": 0.07496532052755356, "eval/reward_pos_acc": 0.2549019753932953, "eval/reward_pos_loss": 10.219926834106445, "eval/reward_pred": 0.2501053512096405, "eval/reward_rate": 0.0498046875, "replay/size": 70301.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.097389221191406e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2518252645220075e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.238719940185547e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3724801540375, "timer/env.step_count": 700.0, "timer/env.step_total": 2.6403067111968994, "timer/env.step_frac": 0.00879010856734576, "timer/env.step_avg": 0.0037718667302812847, "timer/env.step_min": 0.0017254352569580078, "timer/env.step_max": 0.022998571395874023, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 194.02012062072754, "timer/replay._sample_frac": 0.645931746214666, "timer/replay._sample_avg": 0.017323225055422102, "timer/replay._sample_min": 0.0005130767822265625, "timer/replay._sample_max": 0.04636216163635254, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2574880123138428, "timer/agent.save_frac": 0.0008572290383652903, "timer/agent.save_avg": 0.2574880123138428, "timer/agent.save_min": 0.2574880123138428, "timer/agent.save_max": 0.2574880123138428, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.2228980064392, "timer/agent.policy_frac": 0.6599236318346682, "timer/agent.policy_avg": 0.2831755685806274, "timer/agent.policy_min": 0.0029001235961914062, "timer/agent.policy_max": 0.3807411193847656, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09037256240844727, "timer/dataset_train_frac": 0.00030086831643865065, "timer/dataset_train_avg": 0.0001291036605834961, "timer/dataset_train_min": 8.058547973632812e-05, "timer/dataset_train_max": 0.0004107952117919922, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.22962594032288, "timer/agent.train_frac": 0.327026050755211, "timer/agent.train_avg": 0.1403280370576041, "timer/agent.train_min": 0.10015368461608887, "timer/agent.train_max": 0.44814538955688477, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5085372924804688, "timer/agent.report_frac": 0.0016930222509721259, "timer/agent.report_avg": 0.2542686462402344, "timer/agent.report_min": 0.10550594329833984, "timer/agent.report_max": 0.4030313491821289, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.600120544433594e-05, "timer/dataset_eval_frac": 1.1985520586264674e-07, "timer/dataset_eval_avg": 3.600120544433594e-05, "timer/dataset_eval_min": 3.600120544433594e-05, "timer/dataset_eval_max": 3.600120544433594e-05, "fps": 9.32150243940409}
+{"step": 282920, "episode/length": 742.0, "episode/score": 1720.0, "episode/reward_rate": 0.11709286675639301}
+{"step": 284232, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.398063327955163, "train/action_min": 0.0, "train/action_std": 2.953991979792498, "train/actor_opt_grad_norm": 0.008535627876340912, "train/actor_opt_grad_steps": 69610.0, "train/actor_opt_loss": 0.0014356136528911757, "train/adv_mag": 0.6511314934578495, "train/adv_max": 0.6157322413679482, "train/adv_mean": 0.0023188952512008245, "train/adv_min": -0.49952754399914673, "train/adv_std": 0.038768161601130516, "train/cont_avg": 0.9984856204710145, "train/cont_loss_mean": 0.00040928773204107, "train/cont_loss_std": 0.011317193425070302, "train/cont_neg_acc": 0.9345238102333886, "train/cont_neg_loss": 0.23721108548160633, "train/cont_pos_acc": 0.9999999982723291, "train/cont_pos_loss": 4.800433661353178e-05, "train/cont_pred": 0.9985514792843141, "train/cont_rate": 0.9984856204710145, "train/dyn_loss_mean": 4.401968772860541, "train/dyn_loss_std": 6.453397757765176, "train/extr_critic_critic_opt_grad_norm": 2.1966785434363545, "train/extr_critic_critic_opt_grad_steps": 69610.0, "train/extr_critic_critic_opt_loss": 1.544344943502675, "train/extr_critic_mag": 432.7047645458277, "train/extr_critic_max": 432.7047645458277, "train/extr_critic_mean": 165.29580920675525, "train/extr_critic_min": 0.133974123692167, "train/extr_critic_std": 126.9343946152839, "train/extr_return_normed_mag": 1.209598800410395, "train/extr_return_normed_max": 1.209598800410395, "train/extr_return_normed_mean": 0.43085520250209863, "train/extr_return_normed_min": -0.01102510896389899, "train/extr_return_normed_std": 0.3397845381843871, "train/extr_return_rate": 0.9281391993812893, "train/extr_return_raw_mag": 458.873021222543, "train/extr_return_raw_max": 458.873021222543, "train/extr_return_raw_mean": 166.16859225950378, "train/extr_return_raw_min": 0.08469298079042979, "train/extr_return_raw_std": 127.69202367810236, "train/extr_reward_mag": 169.29739045405734, "train/extr_reward_max": 169.29739045405734, "train/extr_reward_mean": 0.9157527387142181, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.1306798458099365, "train/image_loss_mean": 2.0482723920241646, "train/image_loss_std": 1.7292433908020242, "train/model_loss_mean": 4.754806331966234, "train/model_loss_std": 5.2872602905052295, "train/model_opt_grad_norm": 13.568869825722516, "train/model_opt_grad_steps": 69610.0, "train/model_opt_loss": 4.754806331966234, "train/policy_entropy_mag": 2.164376998293227, "train/policy_entropy_max": 2.164376998293227, "train/policy_entropy_mean": 1.1800820559695147, "train/policy_entropy_min": 0.07050844411487164, "train/policy_entropy_std": 0.5778207727100538, "train/policy_logprob_mag": 6.786679710167042, "train/policy_logprob_max": -0.009109397243330444, "train/policy_logprob_mean": -1.1797696792561074, "train/policy_logprob_min": -6.786679710167042, "train/policy_logprob_std": 1.0990039887635603, "train/policy_randomness_mag": 0.9850504130556963, "train/policy_randomness_max": 0.9850504130556963, "train/policy_randomness_mean": 0.5370784855407217, "train/policy_randomness_min": 0.03208977534719135, "train/policy_randomness_std": 0.262977564032527, "train/post_ent_mag": 55.2615190036055, "train/post_ent_max": 55.2615190036055, "train/post_ent_mean": 38.345030908999234, "train/post_ent_min": 23.060067605281223, "train/post_ent_std": 4.91890057273533, "train/prior_ent_mag": 76.73486084868942, "train/prior_ent_max": 76.73486084868942, "train/prior_ent_mean": 42.79550198541171, "train/prior_ent_min": 27.526889745739922, "train/prior_ent_std": 7.550973892211914, "train/rep_loss_mean": 4.401968772860541, "train/rep_loss_std": 6.453397757765176, "train/reward_avg": 1.1550328351449275, "train/reward_loss_mean": 0.0649434206602366, "train/reward_loss_std": 0.2535778515148854, "train/reward_max_data": 172.7536231884058, "train/reward_max_pred": 141.81434506955355, "train/reward_neg_acc": 0.9721674331720325, "train/reward_neg_loss": 0.00849605427272078, "train/reward_pos_acc": 0.9949685300605885, "train/reward_pos_loss": 0.6515638016272283, "train/reward_pred": 1.046639514574106, "train/reward_rate": 0.08731034873188406, "train_stats/mean_log_entropy": 1.065582036972046, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 1.0350926459068432e-05, "report/cont_loss_std": 0.00020475110795814544, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0019998769275844097, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.5051119741401635e-06, "report/cont_pred": 0.9970716238021851, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.349081516265869, "report/dyn_loss_std": 6.223134994506836, "report/image_loss_mean": 1.9920040369033813, "report/image_loss_std": 1.3866671323776245, "report/model_loss_mean": 4.695920944213867, "report/model_loss_std": 4.775716304779053, "report/post_ent_mag": 55.10939025878906, "report/post_ent_max": 55.10939025878906, "report/post_ent_mean": 39.4346923828125, "report/post_ent_min": 24.195594787597656, "report/post_ent_std": 4.774806499481201, "report/prior_ent_mag": 76.93974304199219, "report/prior_ent_max": 76.93974304199219, "report/prior_ent_mean": 43.94452667236328, "report/prior_ent_min": 26.753204345703125, "report/prior_ent_std": 6.955211162567139, "report/rep_loss_mean": 4.349081516265869, "report/rep_loss_std": 6.223134994506836, "report/reward_avg": 1.3671875, "report/reward_loss_mean": 0.09445775300264359, "report/reward_loss_std": 0.25051793456077576, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.87678146362305, "report/reward_neg_acc": 0.9540359377861023, "report/reward_neg_loss": 0.01625821553170681, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6228970289230347, "report/reward_pred": 1.244859218597412, "report/reward_rate": 0.12890625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.017899561673402786, "eval/cont_loss_std": 0.5725058913230896, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 18.329145431518555, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.47974332576473e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.968072891235352, "eval/dyn_loss_std": 11.014554977416992, "eval/image_loss_mean": 5.988814830780029, "eval/image_loss_std": 4.081111907958984, "eval/model_loss_mean": 15.061656951904297, "eval/model_loss_std": 10.682694435119629, "eval/post_ent_mag": 56.597938537597656, "eval/post_ent_max": 56.597938537597656, "eval/post_ent_mean": 37.96429443359375, "eval/post_ent_min": 23.638324737548828, "eval/post_ent_std": 5.112504482269287, "eval/prior_ent_mag": 76.93974304199219, "eval/prior_ent_max": 76.93974304199219, "eval/prior_ent_mean": 41.3820915222168, "eval/prior_ent_min": 27.113800048828125, "eval/prior_ent_std": 7.261064529418945, "eval/rep_loss_mean": 13.968072891235352, "eval/rep_loss_std": 11.014554977416992, "eval/reward_avg": 0.615234375, "eval/reward_loss_mean": 0.674098014831543, "eval/reward_loss_std": 2.857938289642334, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002311706542969, "eval/reward_neg_acc": 0.9209157824516296, "eval/reward_neg_loss": 0.11263824999332428, "eval/reward_pos_acc": 0.30158731341362, "eval/reward_pos_loss": 9.238588333129883, "eval/reward_pred": 0.3556192219257355, "eval/reward_rate": 0.0615234375, "replay/size": 70995.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.788297054059911e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0764263892379892e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4007091522216797e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.4078333377838, "timer/env.step_count": 694.0, "timer/env.step_total": 2.492396116256714, "timer/env.step_frac": 0.008296708140277487, "timer/env.step_avg": 0.0035913488706869074, "timer/env.step_min": 0.0020051002502441406, "timer/env.step_max": 0.021901369094848633, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 197.0351369380951, "timer/replay._sample_frac": 0.6558921408568775, "timer/replay._sample_avg": 0.0177445188164711, "timer/replay._sample_min": 0.0004944801330566406, "timer/replay._sample_max": 0.04732561111450195, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.1090590953827, "timer/agent.policy_frac": 0.6594670215294466, "timer/agent.policy_avg": 0.2854597393305226, "timer/agent.policy_min": 0.0027658939361572266, "timer/agent.policy_max": 0.3330519199371338, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08579850196838379, "timer/dataset_train_frac": 0.00028560674006097056, "timer/dataset_train_avg": 0.00012362896537231093, "timer/dataset_train_min": 7.891654968261719e-05, "timer/dataset_train_max": 0.0004210472106933594, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.51780271530151, "timer/agent.train_frac": 0.3279468501892438, "timer/agent.train_avg": 0.1419564880623941, "timer/agent.train_min": 0.10140657424926758, "timer/agent.train_max": 0.44908785820007324, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5138616561889648, "timer/agent.report_frac": 0.001710546793935196, "timer/agent.report_avg": 0.2569308280944824, "timer/agent.report_min": 0.10754680633544922, "timer/agent.report_max": 0.4063148498535156, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00021910667419433594, "timer/dataset_eval_frac": 7.293640507302237e-07, "timer/dataset_eval_avg": 0.00021910667419433594, "timer/dataset_eval_min": 0.00021910667419433594, "timer/dataset_eval_max": 0.00021910667419433594, "fps": 9.240028539126813}
+{"step": 285252, "episode/length": 582.0, "episode/score": 380.0, "episode/reward_rate": 0.06518010291595197}
+{"step": 287012, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.359104701450893, "train/action_min": 0.0, "train/action_std": 2.9592832837785994, "train/actor_opt_grad_norm": 0.008578029101980585, "train/actor_opt_grad_steps": 70305.0, "train/actor_opt_loss": 0.0017122866349804358, "train/adv_mag": 0.651593804359436, "train/adv_max": 0.6019922299044472, "train/adv_mean": 0.0026519648354483903, "train/adv_min": -0.5003782199961798, "train/adv_std": 0.03734457628535373, "train/cont_avg": 0.9986746651785714, "train/cont_loss_mean": 0.00023229784363435003, "train/cont_loss_std": 0.005862787458794726, "train/cont_neg_acc": 0.9666666670279069, "train/cont_neg_loss": 0.10230383940746503, "train/cont_pos_acc": 0.9999720411641257, "train/cont_pos_loss": 0.00010215430821699987, "train/cont_pred": 0.9986641764640808, "train/cont_rate": 0.9986746651785714, "train/dyn_loss_mean": 4.259860750607082, "train/dyn_loss_std": 6.425419201169695, "train/extr_critic_critic_opt_grad_norm": 2.1233304415430343, "train/extr_critic_critic_opt_grad_steps": 70305.0, "train/extr_critic_critic_opt_loss": 1.5183363148144313, "train/extr_critic_mag": 432.47965654645645, "train/extr_critic_max": 432.47965654645645, "train/extr_critic_mean": 169.26577213832311, "train/extr_critic_min": 0.021504582677568707, "train/extr_critic_std": 130.45566144670758, "train/extr_return_normed_mag": 1.2354475038392203, "train/extr_return_normed_max": 1.2354475038392203, "train/extr_return_normed_mean": 0.44583230316638944, "train/extr_return_normed_min": -0.010075260319613985, "train/extr_return_normed_std": 0.3513916679791042, "train/extr_return_rate": 0.9221354671886989, "train/extr_return_raw_mag": 465.0417262486049, "train/extr_return_raw_max": 465.0417262486049, "train/extr_return_raw_mean": 170.25519104003905, "train/extr_return_raw_min": 0.0022936603962859536, "train/extr_return_raw_std": 131.22458201817105, "train/extr_reward_mag": 164.89092475346158, "train/extr_reward_max": 164.89092475346158, "train/extr_reward_mean": 0.8928735260452543, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.894595929554531, "train/image_loss_mean": 1.9829748834882464, "train/image_loss_std": 1.6301770908491953, "train/model_loss_mean": 4.599822422436305, "train/model_loss_std": 5.170451722826276, "train/model_opt_grad_norm": 13.159262207576207, "train/model_opt_grad_steps": 70305.0, "train/model_opt_loss": 4.599822422436305, "train/policy_entropy_mag": 2.168990901538304, "train/policy_entropy_max": 2.168990901538304, "train/policy_entropy_mean": 1.2004871095929828, "train/policy_entropy_min": 0.07033302720103946, "train/policy_entropy_std": 0.5825498253107071, "train/policy_logprob_mag": 6.785935027258737, "train/policy_logprob_max": -0.009081368973212583, "train/policy_logprob_mean": -1.1998594692775182, "train/policy_logprob_min": -6.785935027258737, "train/policy_logprob_std": 1.0963276488440377, "train/policy_randomness_mag": 0.9871502935886383, "train/policy_randomness_max": 0.9871502935886383, "train/policy_randomness_mean": 0.546365225315094, "train/policy_randomness_min": 0.03200994006225041, "train/policy_randomness_std": 0.2651298476116998, "train/post_ent_mag": 54.88417625427246, "train/post_ent_max": 54.88417625427246, "train/post_ent_mean": 38.424066707066125, "train/post_ent_min": 22.84756467001779, "train/post_ent_std": 4.855839003835405, "train/prior_ent_mag": 76.74444122314453, "train/prior_ent_max": 76.74444122314453, "train/prior_ent_mean": 42.71956547328404, "train/prior_ent_min": 27.298558562142507, "train/prior_ent_std": 7.369837835856846, "train/rep_loss_mean": 4.259860750607082, "train/rep_loss_std": 6.425419201169695, "train/reward_avg": 1.1238839285714286, "train/reward_loss_mean": 0.06069874194051538, "train/reward_loss_std": 0.22738108528511866, "train/reward_max_data": 164.14285714285714, "train/reward_max_pred": 128.9795932497297, "train/reward_neg_acc": 0.9733778383050646, "train/reward_neg_loss": 0.007028556339043592, "train/reward_pos_acc": 0.9954433040959495, "train/reward_pos_loss": 0.6374321579933167, "train/reward_pred": 1.0074595298085893, "train/reward_rate": 0.08498883928571428, "train_stats/mean_log_entropy": 1.3971880674362183, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.996677122586334e-08, "report/cont_loss_std": 7.784263971188921e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.996677122586334e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.121451377868652, "report/dyn_loss_std": 6.400518417358398, "report/image_loss_mean": 2.0348293781280518, "report/image_loss_std": 1.491074800491333, "report/model_loss_mean": 4.597332954406738, "report/model_loss_std": 5.13794469833374, "report/post_ent_mag": 55.211490631103516, "report/post_ent_max": 55.211490631103516, "report/post_ent_mean": 38.80971908569336, "report/post_ent_min": 20.76388931274414, "report/post_ent_std": 4.691194534301758, "report/prior_ent_mag": 76.57144165039062, "report/prior_ent_max": 76.57144165039062, "report/prior_ent_mean": 43.36820983886719, "report/prior_ent_min": 24.219058990478516, "report/prior_ent_std": 6.940262794494629, "report/rep_loss_mean": 4.121451377868652, "report/rep_loss_std": 6.400518417358398, "report/reward_avg": 1.25, "report/reward_loss_mean": 0.0896327942609787, "report/reward_loss_std": 0.3287779986858368, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.953983306884766, "report/reward_neg_acc": 0.9638158082962036, "report/reward_neg_loss": 0.01596868224442005, "report/reward_pos_acc": 0.9910714626312256, "report/reward_pos_loss": 0.6894690990447998, "report/reward_pred": 1.1757500171661377, "report/reward_rate": 0.109375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0262242890894413, "eval/cont_loss_std": 0.5815233588218689, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 8.770727157592773, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000530353921931237, "eval/cont_pred": 0.9986158609390259, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.39065170288086, "eval/dyn_loss_std": 12.023088455200195, "eval/image_loss_mean": 5.176737308502197, "eval/image_loss_std": 4.608085632324219, "eval/model_loss_mean": 12.74070930480957, "eval/model_loss_std": 11.762300491333008, "eval/post_ent_mag": 56.46350860595703, "eval/post_ent_max": 56.46350860595703, "eval/post_ent_mean": 36.24066162109375, "eval/post_ent_min": 24.89157485961914, "eval/post_ent_std": 6.322234153747559, "eval/prior_ent_mag": 76.57144165039062, "eval/prior_ent_max": 76.57144165039062, "eval/prior_ent_mean": 39.87166213989258, "eval/prior_ent_min": 26.56161117553711, "eval/prior_ent_std": 8.635457992553711, "eval/rep_loss_mean": 11.39065170288086, "eval/rep_loss_std": 12.023088455200195, "eval/reward_avg": 0.46875, "eval/reward_loss_mean": 0.703357994556427, "eval/reward_loss_std": 3.0396339893341064, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.014555931091309, "eval/reward_neg_acc": 0.9323770999908447, "eval/reward_neg_loss": 0.16740107536315918, "eval/reward_pos_acc": 0.1458333432674408, "eval/reward_pos_loss": 11.60114860534668, "eval/reward_pred": 0.3502272963523865, "eval/reward_rate": 0.046875, "replay/size": 71690.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.769400726977012e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2680137757774738e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16484570503235, "timer/env.step_count": 695.0, "timer/env.step_total": 2.42464280128479, "timer/env.step_frac": 0.008077704088197761, "timer/env.step_avg": 0.0034886946781076114, "timer/env.step_min": 0.002269268035888672, "timer/env.step_max": 0.018453121185302734, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 198.24161791801453, "timer/replay._sample_frac": 0.6604424893674048, "timer/replay._sample_avg": 0.01782748362572073, "timer/replay._sample_min": 0.0005478858947753906, "timer/replay._sample_max": 0.048837900161743164, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 198.5569291114807, "timer/agent.policy_frac": 0.6614929494661734, "timer/agent.policy_avg": 0.28569342318198665, "timer/agent.policy_min": 0.002714395523071289, "timer/agent.policy_max": 0.3511190414428711, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.08438754081726074, "timer/dataset_train_frac": 0.00028113732179079745, "timer/dataset_train_avg": 0.00012142092203922409, "timer/dataset_train_min": 7.62939453125e-05, "timer/dataset_train_max": 0.0005719661712646484, "timer/agent.train_count": 695.0, "timer/agent.train_total": 97.90042018890381, "timer/agent.train_frac": 0.32615551617629845, "timer/agent.train_avg": 0.14086391394086878, "timer/agent.train_min": 0.1014242172241211, "timer/agent.train_max": 0.4452838897705078, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5009438991546631, "timer/agent.report_frac": 0.00166889596274353, "timer/agent.report_avg": 0.25047194957733154, "timer/agent.report_min": 0.10267996788024902, "timer/agent.report_max": 0.39826393127441406, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.390975952148438e-05, "timer/dataset_eval_frac": 2.4623056490137565e-07, "timer/dataset_eval_avg": 7.390975952148438e-05, "timer/dataset_eval_min": 7.390975952148438e-05, "timer/dataset_eval_max": 7.390975952148438e-05, "fps": 9.261249140277748}
+{"step": 288068, "episode/length": 703.0, "episode/score": 910.0, "episode/reward_rate": 0.11789772727272728}
+{"step": 289856, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.482101225517165, "train/action_min": 0.0, "train/action_std": 2.944420253726798, "train/actor_opt_grad_norm": 0.009017024490929825, "train/actor_opt_grad_steps": 71010.0, "train/actor_opt_loss": 0.0016136711281330757, "train/adv_mag": 0.711318120990001, "train/adv_max": 0.6787013449299504, "train/adv_mean": 0.0027462912930018256, "train/adv_min": -0.5096469827940766, "train/adv_std": 0.040490423447229494, "train/cont_avg": 0.9982806998239436, "train/cont_loss_mean": 0.0003925577005592248, "train/cont_loss_std": 0.00967400508316309, "train/cont_neg_acc": 0.9350877200302324, "train/cont_neg_loss": 0.12303711443675973, "train/cont_pos_acc": 0.9999586335370239, "train/cont_pos_loss": 0.00014247157052049396, "train/cont_pred": 0.9982859618227247, "train/cont_rate": 0.9982806998239436, "train/dyn_loss_mean": 4.427312427843121, "train/dyn_loss_std": 6.455560549883775, "train/extr_critic_critic_opt_grad_norm": 2.203746001485368, "train/extr_critic_critic_opt_grad_steps": 71010.0, "train/extr_critic_critic_opt_loss": 1.5532399147329197, "train/extr_critic_mag": 441.7506602112676, "train/extr_critic_max": 441.7506602112676, "train/extr_critic_mean": 170.20594755360779, "train/extr_critic_min": 0.005266144242085201, "train/extr_critic_std": 131.08935321216853, "train/extr_return_normed_mag": 1.2847797249404478, "train/extr_return_normed_max": 1.2847797249404478, "train/extr_return_normed_mean": 0.4446664078974388, "train/extr_return_normed_min": -0.010497061207785572, "train/extr_return_normed_std": 0.3508680366294485, "train/extr_return_rate": 0.925040389450503, "train/extr_return_raw_mag": 487.52068661971833, "train/extr_return_raw_max": 487.52068661971833, "train/extr_return_raw_mean": 171.2392641524194, "train/extr_return_raw_min": 0.017478140052998255, "train/extr_return_raw_std": 132.00077411490426, "train/extr_reward_mag": 195.11053923485983, "train/extr_reward_max": 195.11053923485983, "train/extr_reward_mean": 0.9519829460432832, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8344222659796054, "train/image_loss_mean": 2.028376146101616, "train/image_loss_std": 1.7044626524750615, "train/model_loss_mean": 4.750270903950006, "train/model_loss_std": 5.257054422942685, "train/model_opt_grad_norm": 14.688016018397372, "train/model_opt_grad_steps": 71010.0, "train/model_opt_loss": 4.750270903950006, "train/policy_entropy_mag": 2.1681432757579104, "train/policy_entropy_max": 2.1681432757579104, "train/policy_entropy_mean": 1.1751321688504286, "train/policy_entropy_min": 0.07020302694028532, "train/policy_entropy_std": 0.5861281173329957, "train/policy_logprob_mag": 6.791307194132201, "train/policy_logprob_max": -0.009061340163920966, "train/policy_logprob_mean": -1.173693210306302, "train/policy_logprob_min": -6.791307194132201, "train/policy_logprob_std": 1.1020939199017807, "train/policy_randomness_mag": 0.9867645216659761, "train/policy_randomness_max": 0.9867645216659761, "train/policy_randomness_mean": 0.5348256931338512, "train/policy_randomness_min": 0.031950774327130387, "train/policy_randomness_std": 0.266758402888204, "train/post_ent_mag": 55.405122031628245, "train/post_ent_max": 55.405122031628245, "train/post_ent_mean": 38.32857438208352, "train/post_ent_min": 22.552244643090475, "train/post_ent_std": 5.017778702185187, "train/prior_ent_mag": 76.82197398870764, "train/prior_ent_max": 76.82197398870764, "train/prior_ent_mean": 42.79941161249725, "train/prior_ent_min": 27.05826837244168, "train/prior_ent_std": 7.624140114851401, "train/rep_loss_mean": 4.427312427843121, "train/rep_loss_std": 6.455560549883775, "train/reward_avg": 1.2934639084507042, "train/reward_loss_mean": 0.06511475890874863, "train/reward_loss_std": 0.24966563462791308, "train/reward_max_data": 212.3943661971831, "train/reward_max_pred": 171.30887648085474, "train/reward_neg_acc": 0.9707700123249645, "train/reward_neg_loss": 0.008481047352329947, "train/reward_pos_acc": 0.9941132958506195, "train/reward_pos_loss": 0.6590318260058551, "train/reward_pred": 1.1384864407525936, "train/reward_rate": 0.0879456426056338, "train_stats/mean_log_entropy": 1.1137242317199707, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 6.412810307665495e-06, "report/cont_loss_std": 0.00016954074089881033, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00014479899255093187, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.277535703702597e-06, "report/cont_pred": 0.9990173578262329, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.392855644226074, "report/dyn_loss_std": 6.52581787109375, "report/image_loss_mean": 2.5301477909088135, "report/image_loss_std": 1.8431259393692017, "report/model_loss_mean": 5.233118057250977, "report/model_loss_std": 5.579940319061279, "report/post_ent_mag": 55.93647384643555, "report/post_ent_max": 55.93647384643555, "report/post_ent_mean": 38.787559509277344, "report/post_ent_min": 24.802078247070312, "report/post_ent_std": 4.326535701751709, "report/prior_ent_mag": 77.20236206054688, "report/prior_ent_max": 77.20236206054688, "report/prior_ent_mean": 43.47228240966797, "report/prior_ent_min": 27.961307525634766, "report/prior_ent_std": 6.603346347808838, "report/rep_loss_mean": 4.392855644226074, "report/rep_loss_std": 6.52581787109375, "report/reward_avg": 1.103515625, "report/reward_loss_mean": 0.067250557243824, "report/reward_loss_std": 0.24591709673404694, "report/reward_max_data": 110.0, "report/reward_max_pred": 108.8211441040039, "report/reward_neg_acc": 0.9720128774642944, "report/reward_neg_loss": 0.007644725032150745, "report/reward_pos_acc": 0.9894737005233765, "report/reward_pos_loss": 0.6501328349113464, "report/reward_pred": 1.0358879566192627, "report/reward_rate": 0.0927734375, "eval/cont_avg": 0.9951171875, "eval/cont_loss_mean": 0.01987292990088463, "eval/cont_loss_std": 0.4559023082256317, "eval/cont_neg_acc": 0.6000000238418579, "eval/cont_neg_loss": 3.930309772491455, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006853127270005643, "eval/cont_pred": 0.9965824484825134, "eval/cont_rate": 0.9951171875, "eval/dyn_loss_mean": 12.476360321044922, "eval/dyn_loss_std": 12.905402183532715, "eval/image_loss_mean": 5.3834638595581055, "eval/image_loss_std": 4.737851619720459, "eval/model_loss_mean": 13.511964797973633, "eval/model_loss_std": 12.2160062789917, "eval/post_ent_mag": 57.687660217285156, "eval/post_ent_max": 57.687660217285156, "eval/post_ent_mean": 36.96605682373047, "eval/post_ent_min": 24.360088348388672, "eval/post_ent_std": 5.919238090515137, "eval/prior_ent_mag": 77.20236206054688, "eval/prior_ent_max": 77.20236206054688, "eval/prior_ent_mean": 41.00855255126953, "eval/prior_ent_min": 27.04648780822754, "eval/prior_ent_std": 8.920089721679688, "eval/rep_loss_mean": 12.476360321044922, "eval/rep_loss_std": 12.905402183532715, "eval/reward_avg": 0.4296875, "eval/reward_loss_mean": 0.6228117942810059, "eval/reward_loss_std": 2.89224910736084, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001068115234375, "eval/reward_neg_acc": 0.9408162832260132, "eval/reward_neg_loss": 0.10477977991104126, "eval/reward_pos_acc": 0.09090909361839294, "eval/reward_pos_loss": 12.160797119140625, "eval/reward_pred": 0.23064248263835907, "eval/reward_rate": 0.04296875, "replay/size": 72401.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.927937610910579e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4877897777637851e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7285346984863281e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2127175331116, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8611557483673096, "timer/env.step_frac": 0.009530428197305606, "timer/env.step_avg": 0.004024129041304233, "timer/env.step_min": 0.0026035308837890625, "timer/env.step_max": 0.018785476684570312, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 191.9524176120758, "timer/replay._sample_frac": 0.6393880285597983, "timer/replay._sample_avg": 0.016873454431441264, "timer/replay._sample_min": 0.008783340454101562, "timer/replay._sample_max": 0.0423436164855957, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1033632755279541, "timer/agent.save_frac": 0.00034430012285057105, "timer/agent.save_avg": 0.1033632755279541, "timer/agent.save_min": 0.1033632755279541, "timer/agent.save_max": 0.1033632755279541, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.2478051185608, "timer/agent.policy_frac": 0.6603577847986913, "timer/agent.policy_avg": 0.27882954306407987, "timer/agent.policy_min": 0.0034193992614746094, "timer/agent.policy_max": 0.3806326389312744, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09999823570251465, "timer/dataset_train_frac": 0.0003330912711633726, "timer/dataset_train_avg": 0.00014064449465895168, "timer/dataset_train_min": 8.940696716308594e-05, "timer/dataset_train_max": 0.0010187625885009766, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.94082450866699, "timer/agent.train_frac": 0.32623809315428065, "timer/agent.train_avg": 0.1377508080290675, "timer/agent.train_min": 0.10003876686096191, "timer/agent.train_max": 0.42888307571411133, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4970245361328125, "timer/agent.report_frac": 0.0016555745546588771, "timer/agent.report_avg": 0.24851226806640625, "timer/agent.report_min": 0.0992732048034668, "timer/agent.report_max": 0.3977513313293457, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010395050048828125, "timer/dataset_eval_frac": 3.4625615244569433e-07, "timer/dataset_eval_avg": 0.00010395050048828125, "timer/dataset_eval_min": 0.00010395050048828125, "timer/dataset_eval_max": 0.00010395050048828125, "fps": 9.472898934905956}
+{"step": 291324, "episode/length": 813.0, "episode/score": 1330.0, "episode/reward_rate": 0.10687960687960688}
+{"step": 292656, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.383409772600446, "train/action_min": 0.0, "train/action_std": 2.940493140901838, "train/actor_opt_grad_norm": 0.008138268061780503, "train/actor_opt_grad_steps": 71715.0, "train/actor_opt_loss": 0.001303585073258416, "train/adv_mag": 0.6396841734647751, "train/adv_max": 0.6131841299789292, "train/adv_mean": 0.0022169660902103976, "train/adv_min": -0.4530713468790054, "train/adv_std": 0.03722829182765314, "train/cont_avg": 0.9985770089285714, "train/cont_loss_mean": 0.00028553251027047135, "train/cont_loss_std": 0.007821007628398442, "train/cont_neg_acc": 0.943827161082515, "train/cont_neg_loss": 0.12637178584800832, "train/cont_pos_acc": 0.9999720130647932, "train/cont_pos_loss": 7.799403298736074e-05, "train/cont_pred": 0.9986116136823382, "train/cont_rate": 0.9985770089285714, "train/dyn_loss_mean": 4.25605252129691, "train/dyn_loss_std": 6.428547613961356, "train/extr_critic_critic_opt_grad_norm": 2.1445449573653086, "train/extr_critic_critic_opt_grad_steps": 71715.0, "train/extr_critic_critic_opt_loss": 1.5171533073697772, "train/extr_critic_mag": 431.4645329066685, "train/extr_critic_max": 431.4645329066685, "train/extr_critic_mean": 171.06357890537808, "train/extr_critic_min": 0.0518350430897304, "train/extr_critic_std": 129.50392772129604, "train/extr_return_normed_mag": 1.2003226024763924, "train/extr_return_normed_max": 1.2003226024763924, "train/extr_return_normed_mean": 0.4469799565417426, "train/extr_return_normed_min": -0.009234368541677083, "train/extr_return_normed_std": 0.34578790622098105, "train/extr_return_rate": 0.9324116911206927, "train/extr_return_raw_mag": 455.69288460867745, "train/extr_return_raw_max": 455.69288460867745, "train/extr_return_raw_mean": 171.8990553719657, "train/extr_return_raw_min": 0.08063623964886314, "train/extr_return_raw_std": 130.23054929460798, "train/extr_reward_mag": 163.9709122112819, "train/extr_reward_max": 163.9709122112819, "train/extr_reward_mean": 0.9044130252940314, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.033619482176644, "train/image_loss_mean": 1.9369273577417647, "train/image_loss_std": 1.6215378403663636, "train/model_loss_mean": 4.554818459919521, "train/model_loss_std": 5.171372372763497, "train/model_opt_grad_norm": 12.889334951128278, "train/model_opt_grad_steps": 71715.0, "train/model_opt_loss": 4.554818459919521, "train/policy_entropy_mag": 2.1675343172890797, "train/policy_entropy_max": 2.1675343172890797, "train/policy_entropy_mean": 1.1688776356833321, "train/policy_entropy_min": 0.0701423422566482, "train/policy_entropy_std": 0.5800712857927595, "train/policy_logprob_mag": 6.789644071034023, "train/policy_logprob_max": -0.009052518209708588, "train/policy_logprob_mean": -1.1689386308193206, "train/policy_logprob_min": -6.789644071034023, "train/policy_logprob_std": 1.1016241431236267, "train/policy_randomness_mag": 0.9864873732839312, "train/policy_randomness_max": 0.9864873732839312, "train/policy_randomness_mean": 0.5319791291441236, "train/policy_randomness_min": 0.031923155433365276, "train/policy_randomness_std": 0.26400182055575505, "train/post_ent_mag": 55.47479863848005, "train/post_ent_max": 55.47479863848005, "train/post_ent_mean": 38.218982097080776, "train/post_ent_min": 22.5234892981393, "train/post_ent_std": 4.945305337224688, "train/prior_ent_mag": 76.89517440795899, "train/prior_ent_max": 76.89517440795899, "train/prior_ent_mean": 42.52487030029297, "train/prior_ent_min": 27.061091695513046, "train/prior_ent_std": 7.540248537063599, "train/rep_loss_mean": 4.25605252129691, "train/rep_loss_std": 6.428547613961356, "train/reward_avg": 1.1868024553571428, "train/reward_loss_mean": 0.06397405037922518, "train/reward_loss_std": 0.24038072313581194, "train/reward_max_data": 164.57142857142858, "train/reward_max_pred": 135.7361505508423, "train/reward_neg_acc": 0.9726311368601662, "train/reward_neg_loss": 0.008316447505993502, "train/reward_pos_acc": 0.9946014404296875, "train/reward_pos_loss": 0.6477192572184971, "train/reward_pred": 1.0529352328607013, "train/reward_rate": 0.08748604910714286, "train_stats/mean_log_entropy": 1.0434839725494385, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.034598077851115e-07, "report/cont_loss_std": 1.0259529517497867e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.034598077851115e-07, "report/cont_pred": 0.9999996423721313, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.695520877838135, "report/dyn_loss_std": 6.5198750495910645, "report/image_loss_mean": 2.193894386291504, "report/image_loss_std": 1.589339017868042, "report/model_loss_mean": 5.085914611816406, "report/model_loss_std": 5.24078893661499, "report/post_ent_mag": 51.3203125, "report/post_ent_max": 51.3203125, "report/post_ent_mean": 39.24188232421875, "report/post_ent_min": 22.649147033691406, "report/post_ent_std": 4.7524847984313965, "report/prior_ent_mag": 76.9228515625, "report/prior_ent_max": 76.9228515625, "report/prior_ent_mean": 44.188011169433594, "report/prior_ent_min": 26.58077621459961, "report/prior_ent_std": 7.288084506988525, "report/rep_loss_mean": 4.695520877838135, "report/rep_loss_std": 6.5198750495910645, "report/reward_avg": 1.2890625, "report/reward_loss_mean": 0.07470706850290298, "report/reward_loss_std": 0.2727007269859314, "report/reward_max_data": 100.0, "report/reward_max_pred": 65.81930541992188, "report/reward_neg_acc": 0.966340959072113, "report/reward_neg_loss": 0.008747117593884468, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.66450434923172, "report/reward_pred": 1.1765094995498657, "report/reward_rate": 0.1005859375, "eval/cont_avg": 0.9951171875, "eval/cont_loss_mean": 0.009002936072647572, "eval/cont_loss_std": 0.18600761890411377, "eval/cont_neg_acc": 0.4000000059604645, "eval/cont_neg_loss": 1.8027600049972534, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00020138127729296684, "eval/cont_pred": 0.9976930618286133, "eval/cont_rate": 0.9951171875, "eval/dyn_loss_mean": 9.015458106994629, "eval/dyn_loss_std": 11.205406188964844, "eval/image_loss_mean": 3.6591525077819824, "eval/image_loss_std": 4.225097179412842, "eval/model_loss_mean": 9.568378448486328, "eval/model_loss_std": 10.989335060119629, "eval/post_ent_mag": 58.12657928466797, "eval/post_ent_max": 58.12657928466797, "eval/post_ent_mean": 34.73126220703125, "eval/post_ent_min": 23.08208656311035, "eval/post_ent_std": 6.485329627990723, "eval/prior_ent_mag": 76.9228515625, "eval/prior_ent_max": 76.9228515625, "eval/prior_ent_mean": 37.969322204589844, "eval/prior_ent_min": 26.403976440429688, "eval/prior_ent_std": 9.211958885192871, "eval/rep_loss_mean": 9.015458106994629, "eval/rep_loss_std": 11.205406188964844, "eval/reward_avg": 0.361328125, "eval/reward_loss_mean": 0.49094951152801514, "eval/reward_loss_std": 2.7609806060791016, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009968757629395, "eval/reward_neg_acc": 0.9564335942268372, "eval/reward_neg_loss": 0.09076034277677536, "eval/reward_pos_acc": 0.2432432323694229, "eval/reward_pos_loss": 11.166265487670898, "eval/reward_pred": 0.21782426536083221, "eval/reward_rate": 0.0361328125, "replay/size": 73101.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.083424704415458e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2484831469399589e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.685754776000977e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1245813369751, "timer/env.step_count": 700.0, "timer/env.step_total": 2.55207896232605, "timer/env.step_frac": 0.008503398658507803, "timer/env.step_avg": 0.003645827089037214, "timer/env.step_min": 0.0017704963684082031, "timer/env.step_max": 0.021561622619628906, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 200.76689672470093, "timer/replay._sample_frac": 0.668945195459625, "timer/replay._sample_avg": 0.017925615778991155, "timer/replay._sample_min": 0.0005171298980712891, "timer/replay._sample_max": 0.047302961349487305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.38852190971375, "timer/agent.policy_frac": 0.6610205702776684, "timer/agent.policy_avg": 0.2834121741567339, "timer/agent.policy_min": 0.0028467178344726562, "timer/agent.policy_max": 0.3383758068084717, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09264516830444336, "timer/dataset_train_frac": 0.0003086890380379168, "timer/dataset_train_avg": 0.0001323502404349191, "timer/dataset_train_min": 8.416175842285156e-05, "timer/dataset_train_max": 0.00043010711669921875, "timer/agent.train_count": 700.0, "timer/agent.train_total": 97.89640140533447, "timer/agent.train_frac": 0.3261858824399923, "timer/agent.train_avg": 0.13985200200762068, "timer/agent.train_min": 0.1000206470489502, "timer/agent.train_max": 0.4445788860321045, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5085246562957764, "timer/agent.report_frac": 0.001694378561164282, "timer/agent.report_avg": 0.2542623281478882, "timer/agent.report_min": 0.10917544364929199, "timer/agent.report_max": 0.3993492126464844, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.390975952148438e-05, "timer/dataset_eval_frac": 2.4626359891027943e-07, "timer/dataset_eval_avg": 7.390975952148438e-05, "timer/dataset_eval_min": 7.390975952148438e-05, "timer/dataset_eval_max": 7.390975952148438e-05, "fps": 9.329197177443046}
+{"step": 294024, "episode/length": 674.0, "episode/score": 910.0, "episode/reward_rate": 0.12296296296296297}
+{"step": 295432, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.466174139492754, "train/action_min": 0.0, "train/action_std": 2.963423379953357, "train/actor_opt_grad_norm": 0.008188908258318037, "train/actor_opt_grad_steps": 72410.0, "train/actor_opt_loss": 0.0014481937417429804, "train/adv_mag": 0.66940044881641, "train/adv_max": 0.6423211073961811, "train/adv_mean": 0.002580085074389016, "train/adv_min": -0.4401993848707365, "train/adv_std": 0.03712697065286878, "train/cont_avg": 0.998641304347826, "train/cont_loss_mean": 0.00027860088650356624, "train/cont_loss_std": 0.007216168526286416, "train/cont_neg_acc": 0.945216049750646, "train/cont_neg_loss": 0.09686441238470264, "train/cont_pos_acc": 0.9999716368274413, "train/cont_pos_loss": 0.00012710116286117446, "train/cont_pred": 0.9986156605292058, "train/cont_rate": 0.998641304347826, "train/dyn_loss_mean": 4.415637050849804, "train/dyn_loss_std": 6.494155669557875, "train/extr_critic_critic_opt_grad_norm": 2.048279582590297, "train/extr_critic_critic_opt_grad_steps": 72410.0, "train/extr_critic_critic_opt_loss": 1.5022707952969316, "train/extr_critic_mag": 430.94002809386325, "train/extr_critic_max": 430.94002809386325, "train/extr_critic_mean": 169.88820415994397, "train/extr_critic_min": 0.23426727453867593, "train/extr_critic_std": 130.90707043633944, "train/extr_return_normed_mag": 1.2059383616931196, "train/extr_return_normed_max": 1.2059383616931196, "train/extr_return_normed_mean": 0.4418475904326508, "train/extr_return_normed_min": -0.009769337666828347, "train/extr_return_normed_std": 0.3486354420150536, "train/extr_return_rate": 0.9275060848913331, "train/extr_return_raw_mag": 459.5498860677083, "train/extr_return_raw_max": 459.5498860677083, "train/extr_return_raw_mean": 170.86302560999775, "train/extr_return_raw_min": 0.2526851492407529, "train/extr_return_raw_std": 131.71089592532834, "train/extr_reward_mag": 174.8157759403837, "train/extr_reward_max": 174.8157759403837, "train/extr_reward_mean": 0.9638978540897369, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.155723139859628, "train/image_loss_mean": 2.007828650267228, "train/image_loss_std": 1.711496957834216, "train/model_loss_mean": 4.729372974755107, "train/model_loss_std": 5.291814057723336, "train/model_opt_grad_norm": 13.628809652466705, "train/model_opt_grad_steps": 72410.0, "train/model_opt_loss": 4.729372974755107, "train/policy_entropy_mag": 2.1684682023698003, "train/policy_entropy_max": 2.1684682023698003, "train/policy_entropy_mean": 1.1761299302612527, "train/policy_entropy_min": 0.07028643085040907, "train/policy_entropy_std": 0.5892162668532219, "train/policy_logprob_mag": 6.78758566621421, "train/policy_logprob_max": -0.009074879513270613, "train/policy_logprob_mean": -1.174992851589037, "train/policy_logprob_min": -6.78758566621421, "train/policy_logprob_std": 1.0994651939557947, "train/policy_randomness_mag": 0.9869124060091765, "train/policy_randomness_max": 0.9869124060091765, "train/policy_randomness_mean": 0.5352797966072524, "train/policy_randomness_min": 0.031988733164642166, "train/policy_randomness_std": 0.268163873233657, "train/post_ent_mag": 55.36427672012992, "train/post_ent_max": 55.36427672012992, "train/post_ent_mean": 38.57240676879883, "train/post_ent_min": 22.220071350318797, "train/post_ent_std": 4.885375869446906, "train/prior_ent_mag": 76.91482024261917, "train/prior_ent_max": 76.91482024261917, "train/prior_ent_mean": 42.96834763236668, "train/prior_ent_min": 27.022692638894785, "train/prior_ent_std": 7.414892998294554, "train/rep_loss_mean": 4.415637050849804, "train/rep_loss_std": 6.494155669557875, "train/reward_avg": 1.2645776721014492, "train/reward_loss_mean": 0.07188346560882486, "train/reward_loss_std": 0.2692059833502424, "train/reward_max_data": 177.3913043478261, "train/reward_max_pred": 147.15990174334982, "train/reward_neg_acc": 0.9687876718631689, "train/reward_neg_loss": 0.010116304372153852, "train/reward_pos_acc": 0.9921613810718923, "train/reward_pos_loss": 0.67380966829217, "train/reward_pred": 1.1260411687519238, "train/reward_rate": 0.09275928442028986, "train_stats/mean_log_entropy": 1.0148874521255493, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.871977583003172e-07, "report/cont_loss_std": 9.088786100619473e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.871977583003172e-07, "report/cont_pred": 0.9999996423721313, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.032862663269043, "report/dyn_loss_std": 6.911886692047119, "report/image_loss_mean": 2.3431975841522217, "report/image_loss_std": 1.5411368608474731, "report/model_loss_mean": 5.432668209075928, "report/model_loss_std": 5.369515419006348, "report/post_ent_mag": 51.062705993652344, "report/post_ent_max": 51.062705993652344, "report/post_ent_mean": 38.88483428955078, "report/post_ent_min": 24.699176788330078, "report/post_ent_std": 3.8467228412628174, "report/prior_ent_mag": 76.57622528076172, "report/prior_ent_max": 76.57622528076172, "report/prior_ent_mean": 43.84930419921875, "report/prior_ent_min": 29.883296966552734, "report/prior_ent_std": 6.428905487060547, "report/rep_loss_mean": 5.032862663269043, "report/rep_loss_std": 6.911886692047119, "report/reward_avg": 1.474609375, "report/reward_loss_mean": 0.0697527825832367, "report/reward_loss_std": 0.19949498772621155, "report/reward_max_data": 200.0, "report/reward_max_pred": 193.46510314941406, "report/reward_neg_acc": 0.9650273323059082, "report/reward_neg_loss": 0.009348963387310505, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5768123865127563, "report/reward_pred": 1.417600393295288, "report/reward_rate": 0.1064453125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0034501561895012856, "eval/cont_loss_std": 0.10935928672552109, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.006815899163484573, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0034468660596758127, "eval/cont_pred": 0.9980588555335999, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.707391738891602, "eval/dyn_loss_std": 9.754020690917969, "eval/image_loss_mean": 4.693535804748535, "eval/image_loss_std": 3.832608461380005, "eval/model_loss_mean": 11.754213333129883, "eval/model_loss_std": 9.567801475524902, "eval/post_ent_mag": 56.54107666015625, "eval/post_ent_max": 56.54107666015625, "eval/post_ent_mean": 37.88581848144531, "eval/post_ent_min": 23.18849754333496, "eval/post_ent_std": 5.895627498626709, "eval/prior_ent_mag": 76.57622528076172, "eval/prior_ent_max": 76.57622528076172, "eval/prior_ent_mean": 40.65847396850586, "eval/prior_ent_min": 27.90264129638672, "eval/prior_ent_std": 7.824668884277344, "eval/rep_loss_mean": 10.707391738891602, "eval/rep_loss_std": 9.754020690917969, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.6327927112579346, "eval/reward_loss_std": 2.6784985065460205, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.016443252563477, "eval/reward_neg_acc": 0.9076922535896301, "eval/reward_neg_loss": 0.19380849599838257, "eval/reward_pos_acc": 0.30612245202064514, "eval/reward_pos_loss": 9.367683410644531, "eval/reward_pred": 0.4179997146129608, "eval/reward_rate": 0.0478515625, "replay/size": 73795.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.7742118065913745e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1291172387620558e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.238719940185547e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2152361869812, "timer/env.step_count": 694.0, "timer/env.step_total": 2.4570255279541016, "timer/env.step_frac": 0.008184213296968737, "timer/env.step_avg": 0.003540382605121184, "timer/env.step_min": 0.002172708511352539, "timer/env.step_max": 0.03664970397949219, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 200.87141299247742, "timer/replay._sample_frac": 0.6690913344163849, "timer/replay._sample_avg": 0.01809000477237729, "timer/replay._sample_min": 0.0005724430084228516, "timer/replay._sample_max": 0.055591583251953125, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.34616994857788, "timer/agent.policy_frac": 0.6606798924257234, "timer/agent.policy_avg": 0.2858013976204292, "timer/agent.policy_min": 0.002972126007080078, "timer/agent.policy_max": 0.3313121795654297, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08928513526916504, "timer/dataset_train_frac": 0.00029740374407099087, "timer/dataset_train_avg": 0.00012865293266450293, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0012989044189453125, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.10206961631775, "timer/agent.train_frac": 0.32677245453064696, "timer/agent.train_avg": 0.14135744901486708, "timer/agent.train_min": 0.10152530670166016, "timer/agent.train_max": 0.4460611343383789, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5154819488525391, "timer/agent.report_frac": 0.001717041264792719, "timer/agent.report_avg": 0.25774097442626953, "timer/agent.report_min": 0.1056509017944336, "timer/agent.report_max": 0.40983104705810547, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.152557373046875e-05, "timer/dataset_eval_frac": 2.3824764738429503e-07, "timer/dataset_eval_avg": 7.152557373046875e-05, "timer/dataset_eval_min": 7.152557373046875e-05, "timer/dataset_eval_max": 7.152557373046875e-05, "fps": 9.246494083783832}
+{"step": 296644, "episode/length": 654.0, "episode/score": 1420.0, "episode/reward_rate": 0.12061068702290076}
+{"step": 298208, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.446743338448661, "train/action_min": 0.0, "train/action_std": 2.9071381841387067, "train/actor_opt_grad_norm": 0.008384798087977938, "train/actor_opt_grad_steps": 73105.0, "train/actor_opt_loss": 0.0014120845625646844, "train/adv_mag": 0.6629894201244627, "train/adv_max": 0.6408866609845842, "train/adv_mean": 0.002368108380220032, "train/adv_min": -0.47679701298475263, "train/adv_std": 0.03782792306904282, "train/cont_avg": 0.99873046875, "train/cont_loss_mean": 0.0001757796724751261, "train/cont_loss_std": 0.004205263871785243, "train/cont_neg_acc": 0.9519230769230769, "train/cont_neg_loss": 0.06958863685914943, "train/cont_pos_acc": 0.9999859920569829, "train/cont_pos_loss": 8.575740100127404e-05, "train/cont_pred": 0.9987162368638175, "train/cont_rate": 0.99873046875, "train/dyn_loss_mean": 4.423200535774231, "train/dyn_loss_std": 6.484177807399205, "train/extr_critic_critic_opt_grad_norm": 2.250911498069763, "train/extr_critic_critic_opt_grad_steps": 73105.0, "train/extr_critic_critic_opt_loss": 1.528859167439597, "train/extr_critic_mag": 449.62579956054685, "train/extr_critic_max": 449.62579956054685, "train/extr_critic_mean": 170.39461604527065, "train/extr_critic_min": 0.25469122443880354, "train/extr_critic_std": 128.93445870535714, "train/extr_return_normed_mag": 1.2746646319116866, "train/extr_return_normed_max": 1.2746646319116866, "train/extr_return_normed_mean": 0.44160047343799047, "train/extr_return_normed_min": -0.009504298962253546, "train/extr_return_normed_std": 0.3427943521312305, "train/extr_return_rate": 0.9391629900251116, "train/extr_return_raw_mag": 486.91480582101, "train/extr_return_raw_max": 486.91480582101, "train/extr_return_raw_mean": 171.29220700945174, "train/extr_return_raw_min": 0.31816190594186733, "train/extr_return_raw_std": 129.92094846452986, "train/extr_reward_mag": 186.93044936316355, "train/extr_reward_max": 186.93044936316355, "train/extr_reward_mean": 0.9520752859967095, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.566098805836269, "train/image_loss_mean": 2.003609311580658, "train/image_loss_std": 1.7081011261258807, "train/model_loss_mean": 4.72353766986302, "train/model_loss_std": 5.290518249784197, "train/model_opt_grad_norm": 13.304420866285051, "train/model_opt_grad_steps": 73105.0, "train/model_opt_loss": 4.72353766986302, "train/policy_entropy_mag": 2.165943615777152, "train/policy_entropy_max": 2.165943615777152, "train/policy_entropy_mean": 1.1787260455744608, "train/policy_entropy_min": 0.07038704689059938, "train/policy_entropy_std": 0.5818525846515383, "train/policy_logprob_mag": 6.7872490882873535, "train/policy_logprob_max": -0.009090885200670787, "train/policy_logprob_mean": -1.1783018044063023, "train/policy_logprob_min": -6.7872490882873535, "train/policy_logprob_std": 1.1024195756231034, "train/policy_randomness_mag": 0.9857634169714792, "train/policy_randomness_max": 0.9857634169714792, "train/policy_randomness_mean": 0.5364613375493459, "train/policy_randomness_min": 0.032034525434885705, "train/policy_randomness_std": 0.2648125205721174, "train/post_ent_mag": 55.247700445992606, "train/post_ent_max": 55.247700445992606, "train/post_ent_mean": 38.28028804234096, "train/post_ent_min": 22.508455167497907, "train/post_ent_std": 4.942181883539472, "train/prior_ent_mag": 76.88152149745396, "train/prior_ent_max": 76.88152149745396, "train/prior_ent_mean": 42.699048451014924, "train/prior_ent_min": 27.013097708565848, "train/prior_ent_std": 7.497125857216972, "train/rep_loss_mean": 4.423200535774231, "train/rep_loss_std": 6.484177807399205, "train/reward_avg": 1.2318638392857142, "train/reward_loss_mean": 0.06583233869501523, "train/reward_loss_std": 0.23905480397599085, "train/reward_max_data": 196.28571428571428, "train/reward_max_pred": 161.96967582702638, "train/reward_neg_acc": 0.9702655936990465, "train/reward_neg_loss": 0.008270059110197637, "train/reward_pos_acc": 0.994996874673026, "train/reward_pos_loss": 0.6481699279376438, "train/reward_pred": 1.0964383457388196, "train/reward_rate": 0.09037388392857143, "train_stats/mean_log_entropy": 0.9481018781661987, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 7.943819946376607e-05, "report/cont_loss_std": 0.002517703687772155, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0403287410736084, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.724366130583803e-07, "report/cont_pred": 0.9981218576431274, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.261702537536621, "report/dyn_loss_std": 6.150946140289307, "report/image_loss_mean": 1.8649369478225708, "report/image_loss_std": 1.670112133026123, "report/model_loss_mean": 4.4739179611206055, "report/model_loss_std": 5.052568435668945, "report/post_ent_mag": 55.784027099609375, "report/post_ent_max": 55.784027099609375, "report/post_ent_mean": 38.189674377441406, "report/post_ent_min": 21.520973205566406, "report/post_ent_std": 5.970676898956299, "report/prior_ent_mag": 76.65296936035156, "report/prior_ent_max": 76.65296936035156, "report/prior_ent_mean": 42.69405746459961, "report/prior_ent_min": 27.648574829101562, "report/prior_ent_std": 8.495458602905273, "report/rep_loss_mean": 4.261702537536621, "report/rep_loss_std": 6.150946140289307, "report/reward_avg": 0.80078125, "report/reward_loss_mean": 0.05187995731830597, "report/reward_loss_std": 0.20733056962490082, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.00772476196289, "report/reward_neg_acc": 0.9946922063827515, "report/reward_neg_loss": 0.004689221736043692, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5939979553222656, "report/reward_pred": 0.7630047798156738, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0016560083022341132, "eval/cont_loss_std": 0.04225503280758858, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.6984009742736816, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00029251526575535536, "eval/cont_pred": 0.9985470771789551, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.012399673461914, "eval/dyn_loss_std": 12.19295883178711, "eval/image_loss_mean": 5.1567816734313965, "eval/image_loss_std": 4.4752726554870605, "eval/model_loss_mean": 12.905515670776367, "eval/model_loss_std": 11.565567016601562, "eval/post_ent_mag": 57.811439514160156, "eval/post_ent_max": 57.811439514160156, "eval/post_ent_mean": 35.83977508544922, "eval/post_ent_min": 22.54840850830078, "eval/post_ent_std": 5.802536487579346, "eval/prior_ent_mag": 76.65296936035156, "eval/prior_ent_max": 76.65296936035156, "eval/prior_ent_mean": 39.523033142089844, "eval/prior_ent_min": 26.27404022216797, "eval/prior_ent_std": 8.439483642578125, "eval/rep_loss_mean": 12.012399673461914, "eval/rep_loss_std": 12.19295883178711, "eval/reward_avg": 0.41015625, "eval/reward_loss_mean": 0.5396382212638855, "eval/reward_loss_std": 2.6133182048797607, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006123542785645, "eval/reward_neg_acc": 0.9317719340324402, "eval/reward_neg_loss": 0.13012945652008057, "eval/reward_pos_acc": 0.261904776096344, "eval/reward_pos_loss": 10.114343643188477, "eval/reward_pred": 0.32556605339050293, "eval/reward_rate": 0.041015625, "replay/size": 74489.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.636107672875484e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1353868915986602e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5795230865478516e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.02568554878235, "timer/env.step_count": 694.0, "timer/env.step_total": 2.4794719219207764, "timer/env.step_frac": 0.00826419883812791, "timer/env.step_avg": 0.0035727261122777756, "timer/env.step_min": 0.0022635459899902344, "timer/env.step_max": 0.01777815818786621, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 200.8532247543335, "timer/replay._sample_frac": 0.6694534315851967, "timer/replay._sample_avg": 0.0180883667826309, "timer/replay._sample_min": 0.0005307197570800781, "timer/replay._sample_max": 0.0536191463470459, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2142031192779541, "timer/agent.save_frac": 0.0007139492703304764, "timer/agent.save_avg": 0.2142031192779541, "timer/agent.save_min": 0.2142031192779541, "timer/agent.save_max": 0.2142031192779541, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.3052155971527, "timer/agent.policy_frac": 0.6609607948547108, "timer/agent.policy_avg": 0.28574238558667536, "timer/agent.policy_min": 0.0028023719787597656, "timer/agent.policy_max": 0.35842156410217285, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08472466468811035, "timer/dataset_train_frac": 0.000282391371035913, "timer/dataset_train_avg": 0.00012208164940649907, "timer/dataset_train_min": 7.724761962890625e-05, "timer/dataset_train_max": 0.0007929801940917969, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.0036027431488, "timer/agent.train_frac": 0.3266507084681389, "timer/agent.train_avg": 0.14121556591231815, "timer/agent.train_min": 0.10158848762512207, "timer/agent.train_max": 0.4480013847351074, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4958209991455078, "timer/agent.report_frac": 0.0016525951711054098, "timer/agent.report_avg": 0.2479104995727539, "timer/agent.report_min": 0.09964776039123535, "timer/agent.report_max": 0.39617323875427246, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.43865966796875e-05, "timer/dataset_eval_frac": 2.479340945213595e-07, "timer/dataset_eval_avg": 7.43865966796875e-05, "timer/dataset_eval_min": 7.43865966796875e-05, "timer/dataset_eval_max": 7.43865966796875e-05, "fps": 9.252274957735864}
+{"step": 300356, "episode/length": 927.0, "episode/score": 1160.0, "episode/reward_rate": 0.10021551724137931}
+{"step": 301052, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.594001877475792, "train/action_min": 0.0, "train/action_std": 2.8398198443399347, "train/actor_opt_grad_norm": 0.008325737041854103, "train/actor_opt_grad_steps": 73810.0, "train/actor_opt_loss": 0.0014102309571786514, "train/adv_mag": 0.6707380607094563, "train/adv_max": 0.658628845298794, "train/adv_mean": 0.002405621358519338, "train/adv_min": -0.4578210113333984, "train/adv_std": 0.0389768682735067, "train/cont_avg": 0.9986383142605634, "train/cont_loss_mean": 0.0002617323846524903, "train/cont_loss_std": 0.007189459792786164, "train/cont_neg_acc": 0.9616352207255814, "train/cont_neg_loss": 0.06981032740029304, "train/cont_pos_acc": 0.9999724357900485, "train/cont_pos_loss": 0.0001641714498224517, "train/cont_pred": 0.998626989378056, "train/cont_rate": 0.9986383142605634, "train/dyn_loss_mean": 4.570176937210728, "train/dyn_loss_std": 6.5821364966916365, "train/extr_critic_critic_opt_grad_norm": 2.28728466638377, "train/extr_critic_critic_opt_grad_steps": 73810.0, "train/extr_critic_critic_opt_loss": 1.5440473825159207, "train/extr_critic_mag": 434.1879650706976, "train/extr_critic_max": 434.1879650706976, "train/extr_critic_mean": 162.86599935612207, "train/extr_critic_min": 0.3346784534588666, "train/extr_critic_std": 127.61958055093255, "train/extr_return_normed_mag": 1.228138137871111, "train/extr_return_normed_max": 1.228138137871111, "train/extr_return_normed_mean": 0.42221949280987325, "train/extr_return_normed_min": -0.009495770152081067, "train/extr_return_normed_std": 0.33939487812384755, "train/extr_return_rate": 0.9254117591280333, "train/extr_return_raw_mag": 468.6260672555843, "train/extr_return_raw_max": 468.6260672555843, "train/extr_return_raw_mean": 163.77502946450676, "train/extr_return_raw_min": 0.4405504216384274, "train/extr_return_raw_std": 128.42004544970015, "train/extr_reward_mag": 175.44845716718217, "train/extr_reward_max": 175.44845716718217, "train/extr_reward_mean": 0.953242968085786, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.418791854885263, "train/image_loss_mean": 2.0738345938669123, "train/image_loss_std": 1.7921781959668013, "train/model_loss_mean": 4.884073129841979, "train/model_loss_std": 5.42243304051144, "train/model_opt_grad_norm": 14.301049192186813, "train/model_opt_grad_steps": 73810.0, "train/model_opt_loss": 4.884073129841979, "train/policy_entropy_mag": 2.1656902373676568, "train/policy_entropy_max": 2.1656902373676568, "train/policy_entropy_mean": 1.1620218132583189, "train/policy_entropy_min": 0.07026036262092455, "train/policy_entropy_std": 0.5903514648827028, "train/policy_logprob_mag": 6.789346809118566, "train/policy_logprob_max": -0.009070363013782131, "train/policy_logprob_mean": -1.1619184000391356, "train/policy_logprob_min": -6.789346809118566, "train/policy_logprob_std": 1.110053342832646, "train/policy_randomness_mag": 0.9856480964472596, "train/policy_randomness_max": 0.9856480964472596, "train/policy_randomness_mean": 0.5288589156009782, "train/policy_randomness_min": 0.03197686883135581, "train/policy_randomness_std": 0.26868052738653103, "train/post_ent_mag": 55.539729427283916, "train/post_ent_max": 55.539729427283916, "train/post_ent_mean": 38.547018239195914, "train/post_ent_min": 21.92209453314123, "train/post_ent_std": 4.8820632142080385, "train/prior_ent_mag": 77.0641450478997, "train/prior_ent_max": 77.0641450478997, "train/prior_ent_mean": 43.11245980061276, "train/prior_ent_min": 27.047347028490524, "train/prior_ent_std": 7.470492047323307, "train/rep_loss_mean": 4.570176937210728, "train/rep_loss_std": 6.5821364966916365, "train/reward_avg": 1.2754456426056338, "train/reward_loss_mean": 0.06787061171842293, "train/reward_loss_std": 0.25276444306675816, "train/reward_max_data": 191.54929577464787, "train/reward_max_pred": 160.2686035532347, "train/reward_neg_acc": 0.9692414612837241, "train/reward_neg_loss": 0.009223814591319419, "train/reward_pos_acc": 0.9952279589545558, "train/reward_pos_loss": 0.6553880958489968, "train/reward_pred": 1.1103137341183675, "train/reward_rate": 0.09053147007042253, "train_stats/mean_log_entropy": 0.9656066298484802, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0001840295735746622, "report/cont_loss_std": 0.005552796181291342, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 4.7697270929347724e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00018443014414515346, "report/cont_pred": 0.9969011545181274, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.762255668640137, "report/dyn_loss_std": 6.566340446472168, "report/image_loss_mean": 2.309324264526367, "report/image_loss_std": 1.6926883459091187, "report/model_loss_mean": 5.246084213256836, "report/model_loss_std": 5.465810298919678, "report/post_ent_mag": 56.439178466796875, "report/post_ent_max": 56.439178466796875, "report/post_ent_mean": 39.03353500366211, "report/post_ent_min": 24.088319778442383, "report/post_ent_std": 5.191511154174805, "report/prior_ent_mag": 77.24132537841797, "report/prior_ent_max": 77.24132537841797, "report/prior_ent_mean": 44.189605712890625, "report/prior_ent_min": 27.389936447143555, "report/prior_ent_std": 7.615222454071045, "report/rep_loss_mean": 4.762255668640137, "report/rep_loss_std": 6.566340446472168, "report/reward_avg": 0.99609375, "report/reward_loss_mean": 0.0792226493358612, "report/reward_loss_std": 0.36715900897979736, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.92192459106445, "report/reward_neg_acc": 0.9688172340393066, "report/reward_neg_loss": 0.015455408953130245, "report/reward_pos_acc": 0.9893616437911987, "report/reward_pos_loss": 0.7101112008094788, "report/reward_pred": 0.9516502618789673, "report/reward_rate": 0.091796875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01487821526825428, "eval/cont_loss_std": 0.41344669461250305, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.615123271942139, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.937773610436125e-06, "eval/cont_pred": 0.9998836517333984, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.547643661499023, "eval/dyn_loss_std": 12.249271392822266, "eval/image_loss_mean": 5.157707691192627, "eval/image_loss_std": 4.852672100067139, "eval/model_loss_mean": 12.564562797546387, "eval/model_loss_std": 12.206781387329102, "eval/post_ent_mag": 56.682403564453125, "eval/post_ent_max": 56.682403564453125, "eval/post_ent_mean": 35.902870178222656, "eval/post_ent_min": 23.435020446777344, "eval/post_ent_std": 5.77470064163208, "eval/prior_ent_mag": 77.24132537841797, "eval/prior_ent_max": 77.24132537841797, "eval/prior_ent_mean": 39.86339569091797, "eval/prior_ent_min": 26.283369064331055, "eval/prior_ent_std": 8.572741508483887, "eval/rep_loss_mean": 11.547643661499023, "eval/rep_loss_std": 12.249271392822266, "eval/reward_avg": 0.341796875, "eval/reward_loss_mean": 0.46339142322540283, "eval/reward_loss_std": 2.656691074371338, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.993828773498535, "eval/reward_neg_acc": 0.9524771571159363, "eval/reward_neg_loss": 0.07098778337240219, "eval/reward_pos_acc": 0.2571428716182709, "eval/reward_pos_loss": 11.551595687866211, "eval/reward_pred": 0.19432710111141205, "eval/reward_rate": 0.0341796875, "replay/size": 75200.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 6.144895164607782e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.506882545481922e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0388972759247, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8521671295166016, "timer/env.step_frac": 0.00950599124117452, "timer/env.step_avg": 0.004011486820698455, "timer/env.step_min": 0.002495288848876953, "timer/env.step_max": 0.0258638858795166, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 190.72641801834106, "timer/replay._sample_frac": 0.6356723069907279, "timer/replay._sample_avg": 0.016765683721724777, "timer/replay._sample_min": 0.008161306381225586, "timer/replay._sample_max": 0.047026634216308594, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.9781575202942, "timer/agent.policy_frac": 0.6598416382600807, "timer/agent.policy_avg": 0.27845029187101855, "timer/agent.policy_min": 0.0032796859741210938, "timer/agent.policy_max": 0.32520604133605957, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09918785095214844, "timer/dataset_train_frac": 0.00033058330720677306, "timer/dataset_train_avg": 0.000139504713012867, "timer/dataset_train_min": 8.0108642578125e-05, "timer/dataset_train_max": 0.001100778579711914, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.03761601448059, "timer/agent.train_frac": 0.326749687805719, "timer/agent.train_avg": 0.13788694235510632, "timer/agent.train_min": 0.10131263732910156, "timer/agent.train_max": 0.4308586120605469, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5017268657684326, "timer/agent.report_frac": 0.0016722060716915304, "timer/agent.report_avg": 0.2508634328842163, "timer/agent.report_min": 0.10089707374572754, "timer/agent.report_max": 0.4008297920227051, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.608268737792969e-05, "timer/dataset_eval_frac": 3.202341038121107e-07, "timer/dataset_eval_avg": 9.608268737792969e-05, "timer/dataset_eval_min": 9.608268737792969e-05, "timer/dataset_eval_max": 9.608268737792969e-05, "fps": 9.478419752652668}
+{"step": 303856, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.259602573939732, "train/action_min": 0.0, "train/action_std": 2.9072202001299177, "train/actor_opt_grad_norm": 0.00865242841786572, "train/actor_opt_grad_steps": 74515.0, "train/actor_opt_loss": 0.001435672144309917, "train/adv_mag": 0.6952471013580049, "train/adv_max": 0.6790265138660159, "train/adv_mean": 0.0024207742310993906, "train/adv_min": -0.4844068855047226, "train/adv_std": 0.038414817968649526, "train/cont_avg": 0.9985630580357143, "train/cont_loss_mean": 0.0002857427389571018, "train/cont_loss_std": 0.0075199159709750775, "train/cont_neg_acc": 0.970125786538394, "train/cont_neg_loss": 0.10182297265674298, "train/cont_pos_acc": 0.9999720556395394, "train/cont_pos_loss": 9.356292894901078e-05, "train/cont_pred": 0.9985655171530587, "train/cont_rate": 0.9985630580357143, "train/dyn_loss_mean": 4.296559122630528, "train/dyn_loss_std": 6.440038878577096, "train/extr_critic_critic_opt_grad_norm": 2.1766375592776708, "train/extr_critic_critic_opt_grad_steps": 74515.0, "train/extr_critic_critic_opt_loss": 1.5107334494590758, "train/extr_critic_mag": 443.1283660888672, "train/extr_critic_max": 443.1283660888672, "train/extr_critic_mean": 171.78821803501674, "train/extr_critic_min": 0.31432134423937114, "train/extr_critic_std": 132.12625972202846, "train/extr_return_normed_mag": 1.2457012602261135, "train/extr_return_normed_max": 1.2457012602261135, "train/extr_return_normed_mean": 0.4452526020152228, "train/extr_return_normed_min": -0.008760590166119592, "train/extr_return_normed_std": 0.3508125088044575, "train/extr_return_rate": 0.9292811112744468, "train/extr_return_raw_mag": 476.23707667759487, "train/extr_return_raw_max": 476.23707667759487, "train/extr_return_raw_mean": 172.70592291695732, "train/extr_return_raw_min": 0.5836009593281363, "train/extr_return_raw_std": 132.98937781197685, "train/extr_reward_mag": 185.30491480146136, "train/extr_reward_max": 185.30491480146136, "train/extr_reward_mean": 0.9495348964418684, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.422600838116237, "train/image_loss_mean": 1.9532279423304966, "train/image_loss_std": 1.6500733528818403, "train/model_loss_mean": 4.597311510358538, "train/model_loss_std": 5.207673066002982, "train/model_opt_grad_norm": 12.895670359475272, "train/model_opt_grad_steps": 74515.0, "train/model_opt_loss": 4.597311510358538, "train/policy_entropy_mag": 2.169222552435739, "train/policy_entropy_max": 2.169222552435739, "train/policy_entropy_mean": 1.1793790885380335, "train/policy_entropy_min": 0.06998835408261844, "train/policy_entropy_std": 0.5776607309068952, "train/policy_logprob_mag": 6.791670717511859, "train/policy_logprob_max": -0.009029181567685944, "train/policy_logprob_mean": -1.1792377071721214, "train/policy_logprob_min": -6.791670717511859, "train/policy_logprob_std": 1.0990254521369933, "train/policy_randomness_mag": 0.987255722284317, "train/policy_randomness_max": 0.987255722284317, "train/policy_randomness_mean": 0.5367585590907505, "train/policy_randomness_min": 0.031853072345256805, "train/policy_randomness_std": 0.26290472469159537, "train/post_ent_mag": 55.53808452061244, "train/post_ent_max": 55.53808452061244, "train/post_ent_mean": 38.20795489719936, "train/post_ent_min": 22.145521817888532, "train/post_ent_std": 4.978601312637329, "train/prior_ent_mag": 77.09209180559431, "train/prior_ent_max": 77.09209180559431, "train/prior_ent_mean": 42.56743807111468, "train/prior_ent_min": 26.918596703665596, "train/prior_ent_std": 7.618488039289202, "train/rep_loss_mean": 4.296559122630528, "train/rep_loss_std": 6.440038878577096, "train/reward_avg": 1.1994977678571428, "train/reward_loss_mean": 0.06586239433714322, "train/reward_loss_std": 0.24225633697850363, "train/reward_max_data": 186.42857142857142, "train/reward_max_pred": 155.63313737596783, "train/reward_neg_acc": 0.9711394088608878, "train/reward_neg_loss": 0.009014695337308304, "train/reward_pos_acc": 0.9963003056389945, "train/reward_pos_loss": 0.6438730588981083, "train/reward_pred": 1.0874054891722542, "train/reward_rate": 0.089453125, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.240819412691053e-06, "report/cont_loss_std": 3.380748239578679e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0003570728295017034, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8939650772153982e-06, "report/cont_pred": 0.9990218877792358, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.712164878845215, "report/dyn_loss_std": 6.829793930053711, "report/image_loss_mean": 2.4161195755004883, "report/image_loss_std": 2.17651104927063, "report/model_loss_mean": 5.903169631958008, "report/model_loss_std": 5.927428722381592, "report/post_ent_mag": 55.647239685058594, "report/post_ent_max": 55.647239685058594, "report/post_ent_mean": 39.5673828125, "report/post_ent_min": 19.986160278320312, "report/post_ent_std": 5.359865665435791, "report/prior_ent_mag": 77.12509155273438, "report/prior_ent_max": 77.12509155273438, "report/prior_ent_mean": 45.658843994140625, "report/prior_ent_min": 26.81875991821289, "report/prior_ent_std": 7.731667518615723, "report/rep_loss_mean": 5.712164878845215, "report/rep_loss_std": 6.829793930053711, "report/reward_avg": 1.044921875, "report/reward_loss_mean": 0.05974862724542618, "report/reward_loss_std": 0.31545692682266235, "report/reward_max_data": 200.0, "report/reward_max_pred": 159.57017517089844, "report/reward_neg_acc": 0.9698858261108398, "report/reward_neg_loss": 0.01011174451559782, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.8433604836463928, "report/reward_pred": 0.7683717012405396, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0011601453879848123, "eval/cont_loss_std": 0.03572443127632141, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.142897367477417, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.407783126225695e-05, "eval/cont_pred": 0.9996455311775208, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.722366333007812, "eval/dyn_loss_std": 9.283487319946289, "eval/image_loss_mean": 6.113832950592041, "eval/image_loss_std": 3.9178080558776855, "eval/model_loss_mean": 14.352709770202637, "eval/model_loss_std": 9.425188064575195, "eval/post_ent_mag": 57.47272491455078, "eval/post_ent_max": 57.47272491455078, "eval/post_ent_mean": 37.859962463378906, "eval/post_ent_min": 23.15436363220215, "eval/post_ent_std": 5.479986190795898, "eval/prior_ent_mag": 77.12509155273438, "eval/prior_ent_max": 77.12509155273438, "eval/prior_ent_mean": 41.41822814941406, "eval/prior_ent_min": 26.717042922973633, "eval/prior_ent_std": 7.590615749359131, "eval/rep_loss_mean": 12.722366333007812, "eval/rep_loss_std": 9.283487319946289, "eval/reward_avg": 0.41015625, "eval/reward_loss_mean": 0.6042971611022949, "eval/reward_loss_std": 2.852559804916382, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009769439697266, "eval/reward_neg_acc": 0.9246436357498169, "eval/reward_neg_loss": 0.12940171360969543, "eval/reward_pos_acc": 0.1666666716337204, "eval/reward_pos_loss": 11.707804679870605, "eval/reward_pred": 0.31761807203292847, "eval/reward_rate": 0.041015625, "replay/size": 75901.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.118006816434112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2481263632781156e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2218952178955078e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.29290199279785, "timer/env.step_count": 701.0, "timer/env.step_total": 2.5750303268432617, "timer/env.step_frac": 0.00857506224674275, "timer/env.step_avg": 0.003673367085368419, "timer/env.step_min": 0.0022614002227783203, "timer/env.step_max": 0.020087242126464844, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 197.26893091201782, "timer/replay._sample_frac": 0.6569217240997227, "timer/replay._sample_avg": 0.017588171443653516, "timer/replay._sample_min": 0.0005528926849365234, "timer/replay._sample_max": 0.050374746322631836, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.2195429801941, "timer/agent.policy_frac": 0.660087340276022, "timer/agent.policy_avg": 0.2827668230815893, "timer/agent.policy_min": 0.0029752254486083984, "timer/agent.policy_max": 0.3305354118347168, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.08597826957702637, "timer/dataset_train_frac": 0.00028631469144444995, "timer/dataset_train_avg": 0.00012265088384739854, "timer/dataset_train_min": 7.843971252441406e-05, "timer/dataset_train_max": 0.0004405975341796875, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.23872995376587, "timer/agent.train_frac": 0.3271430303608109, "timer/agent.train_avg": 0.14014084158882434, "timer/agent.train_min": 0.10091042518615723, "timer/agent.train_max": 0.44881486892700195, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5096468925476074, "timer/agent.report_frac": 0.001697165964181966, "timer/agent.report_avg": 0.2548234462738037, "timer/agent.report_min": 0.09930157661437988, "timer/agent.report_max": 0.41034531593322754, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.838539123535156e-05, "timer/dataset_eval_frac": 1.278265019939505e-07, "timer/dataset_eval_avg": 3.838539123535156e-05, "timer/dataset_eval_min": 3.838539123535156e-05, "timer/dataset_eval_max": 3.838539123535156e-05, "fps": 9.33726031474313}
+{"step": 304000, "episode/length": 910.0, "episode/score": 1170.0, "episode/reward_rate": 0.09879253567508232}
+{"step": 306628, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.376923049705616, "train/action_min": 0.0, "train/action_std": 2.8701118317203247, "train/actor_opt_grad_norm": 0.007948983798100464, "train/actor_opt_grad_steps": 75210.0, "train/actor_opt_loss": 0.0012037881825708082, "train/adv_mag": 0.6414124771304752, "train/adv_max": 0.6172289239323657, "train/adv_mean": 0.0021486149325146866, "train/adv_min": -0.4493444002624871, "train/adv_std": 0.03590730191680832, "train/cont_avg": 0.9984714673913043, "train/cont_loss_mean": 0.0003764689261177358, "train/cont_loss_std": 0.010736017093452522, "train/cont_neg_acc": 0.9413580254272178, "train/cont_neg_loss": 0.17515570695469182, "train/cont_pos_acc": 0.9999574543773264, "train/cont_pos_loss": 0.00014697485704686684, "train/cont_pred": 0.9984582895817964, "train/cont_rate": 0.9984714673913043, "train/dyn_loss_mean": 4.358886704928633, "train/dyn_loss_std": 6.50477000941401, "train/extr_critic_critic_opt_grad_norm": 2.0482991398244663, "train/extr_critic_critic_opt_grad_steps": 75210.0, "train/extr_critic_critic_opt_loss": 1.4956897808157879, "train/extr_critic_mag": 442.6854345349298, "train/extr_critic_max": 442.6854345349298, "train/extr_critic_mean": 165.4242066093113, "train/extr_critic_min": 0.06577397947726042, "train/extr_critic_std": 130.66830997190613, "train/extr_return_normed_mag": 1.2170627238093943, "train/extr_return_normed_max": 1.2170627238093943, "train/extr_return_normed_mean": 0.4293781689543655, "train/extr_return_normed_min": -0.008652543230657127, "train/extr_return_normed_std": 0.3463476105876591, "train/extr_return_rate": 0.9179838921712793, "train/extr_return_raw_mag": 464.96408302196556, "train/extr_return_raw_max": 464.96408302196556, "train/extr_return_raw_mean": 166.23945120106572, "train/extr_return_raw_min": 0.07567285699094983, "train/extr_return_raw_std": 131.37666895769644, "train/extr_reward_mag": 164.67333882096884, "train/extr_reward_max": 164.67333882096884, "train/extr_reward_mean": 0.9283702140269072, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.936878484228383, "train/image_loss_mean": 1.9785460233688354, "train/image_loss_std": 1.7026747845221257, "train/model_loss_mean": 4.660716588946356, "train/model_loss_std": 5.29694826706596, "train/model_opt_grad_norm": 12.91688731096793, "train/model_opt_grad_steps": 75210.0, "train/model_opt_loss": 4.660716588946356, "train/policy_entropy_mag": 2.1707615334054697, "train/policy_entropy_max": 2.1707615334054697, "train/policy_entropy_mean": 1.211783962837164, "train/policy_entropy_min": 0.07041017160467479, "train/policy_entropy_std": 0.584826522115348, "train/policy_logprob_mag": 6.782528863436934, "train/policy_logprob_max": -0.009093076206635738, "train/policy_logprob_mean": -1.2115172052728957, "train/policy_logprob_min": -6.782528863436934, "train/policy_logprob_std": 1.0931177562561587, "train/policy_randomness_mag": 0.9879561429438384, "train/policy_randomness_max": 0.9879561429438384, "train/policy_randomness_mean": 0.5515066419822582, "train/policy_randomness_min": 0.03204505010575488, "train/policy_randomness_std": 0.266166016459465, "train/post_ent_mag": 55.622888979704484, "train/post_ent_max": 55.622888979704484, "train/post_ent_mean": 38.32787367226421, "train/post_ent_min": 22.38484545721524, "train/post_ent_std": 4.901487972425378, "train/prior_ent_mag": 77.18612903097402, "train/prior_ent_max": 77.18612903097402, "train/prior_ent_mean": 42.74125787486201, "train/prior_ent_min": 26.874924314194832, "train/prior_ent_std": 7.516597975855288, "train/rep_loss_mean": 4.358886704928633, "train/rep_loss_std": 6.50477000941401, "train/reward_avg": 1.1897078804347827, "train/reward_loss_mean": 0.06646214511947356, "train/reward_loss_std": 0.2531031415514324, "train/reward_max_data": 169.1304347826087, "train/reward_max_pred": 139.8543835653775, "train/reward_neg_acc": 0.9697227080663046, "train/reward_neg_loss": 0.008535797370300777, "train/reward_pos_acc": 0.9934215355610502, "train/reward_pos_loss": 0.6636917383774467, "train/reward_pred": 1.059952141582102, "train/reward_rate": 0.08856997282608696, "train_stats/mean_log_entropy": 1.0279775857925415, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.6011865227483213e-05, "report/cont_loss_std": 0.00030357620562426746, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 9.951877291314304e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.584844540047925e-05, "report/cont_pred": 0.9980313181877136, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.385634660720825, "report/dyn_loss_std": 6.16887903213501, "report/image_loss_mean": 1.3761122226715088, "report/image_loss_std": 1.4465926885604858, "report/model_loss_mean": 3.4580914974212646, "report/model_loss_std": 4.843277454376221, "report/post_ent_mag": 57.37181854248047, "report/post_ent_max": 57.37181854248047, "report/post_ent_mean": 37.263458251953125, "report/post_ent_min": 20.407947540283203, "report/post_ent_std": 5.546315670013428, "report/prior_ent_mag": 76.92459869384766, "report/prior_ent_max": 76.92459869384766, "report/prior_ent_mean": 40.73603057861328, "report/prior_ent_min": 26.756736755371094, "report/prior_ent_std": 8.178825378417969, "report/rep_loss_mean": 3.385634660720825, "report/rep_loss_std": 6.16887903213501, "report/reward_avg": 0.95703125, "report/reward_loss_mean": 0.05058250576257706, "report/reward_loss_std": 0.16554056107997894, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.913536071777344, "report/reward_neg_acc": 0.9818763732910156, "report/reward_neg_loss": 0.003285632934421301, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.566448450088501, "report/reward_pred": 0.8806791305541992, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.004141819663345814, "eval/cont_loss_std": 0.09321528673171997, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.023442478850483894, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.004104049410670996, "eval/cont_pred": 0.9962610006332397, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.645248413085938, "eval/dyn_loss_std": 12.906966209411621, "eval/image_loss_mean": 5.005000114440918, "eval/image_loss_std": 4.779013633728027, "eval/model_loss_mean": 12.606912612915039, "eval/model_loss_std": 12.590020179748535, "eval/post_ent_mag": 57.07585906982422, "eval/post_ent_max": 57.07585906982422, "eval/post_ent_mean": 35.22391128540039, "eval/post_ent_min": 24.610530853271484, "eval/post_ent_std": 5.50353479385376, "eval/prior_ent_mag": 76.92459869384766, "eval/prior_ent_max": 76.92459869384766, "eval/prior_ent_mean": 38.959922790527344, "eval/prior_ent_min": 26.714828491210938, "eval/prior_ent_std": 8.485679626464844, "eval/rep_loss_mean": 11.645248413085938, "eval/rep_loss_std": 12.906966209411621, "eval/reward_avg": 0.439453125, "eval/reward_loss_mean": 0.610621452331543, "eval/reward_loss_std": 3.222201108932495, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00349235534668, "eval/reward_neg_acc": 0.9438202381134033, "eval/reward_neg_loss": 0.11448679119348526, "eval/reward_pos_acc": 0.2888889014720917, "eval/reward_pos_loss": 11.404308319091797, "eval/reward_pred": 0.29545968770980835, "eval/reward_rate": 0.0439453125, "replay/size": 76594.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.06046014430719e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1099107337720466e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 9.5367431640625e-07, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.15096950531006, "timer/env.step_count": 693.0, "timer/env.step_total": 2.443556308746338, "timer/env.step_frac": 0.008141090840964644, "timer/env.step_avg": 0.003526055279576245, "timer/env.step_min": 0.0015702247619628906, "timer/env.step_max": 0.01657271385192871, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 193.91314005851746, "timer/replay._sample_frac": 0.6460520196823382, "timer/replay._sample_avg": 0.01748855880758635, "timer/replay._sample_min": 0.0004949569702148438, "timer/replay._sample_max": 0.05377960205078125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15155649185180664, "timer/agent.save_frac": 0.0005049342072810643, "timer/agent.save_avg": 0.15155649185180664, "timer/agent.save_min": 0.15155649185180664, "timer/agent.save_max": 0.15155649185180664, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.18518805503845, "timer/agent.policy_frac": 0.6602850171754394, "timer/agent.policy_avg": 0.28598151234493285, "timer/agent.policy_min": 0.0029952526092529297, "timer/agent.policy_max": 0.4182584285736084, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08447432518005371, "timer/dataset_train_frac": 0.0002814394546826851, "timer/dataset_train_avg": 0.00012189657313139064, "timer/dataset_train_min": 7.462501525878906e-05, "timer/dataset_train_max": 0.001939535140991211, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.20260953903198, "timer/agent.train_frac": 0.32717738576984556, "timer/agent.train_avg": 0.1417065072713304, "timer/agent.train_min": 0.10234546661376953, "timer/agent.train_max": 0.4475531578063965, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5117418766021729, "timer/agent.report_frac": 0.0017049482713502263, "timer/agent.report_avg": 0.2558709383010864, "timer/agent.report_min": 0.10561680793762207, "timer/agent.report_max": 0.4061250686645508, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001957416534423828, "timer/dataset_eval_frac": 6.521439986184016e-07, "timer/dataset_eval_avg": 0.0001957416534423828, "timer/dataset_eval_min": 0.0001957416534423828, "timer/dataset_eval_max": 0.0001957416534423828, "fps": 9.235147223899155}
+{"step": 306880, "episode/length": 719.0, "episode/score": 2240.0, "episode/reward_rate": 0.10972222222222222}
+{"step": 309408, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.455442592075893, "train/action_min": 0.0, "train/action_std": 2.870798921585083, "train/actor_opt_grad_norm": 0.00812194193713367, "train/actor_opt_grad_steps": 75905.0, "train/actor_opt_loss": 0.0010833049552340006, "train/adv_mag": 0.6413861623832158, "train/adv_max": 0.6019580406802041, "train/adv_mean": 0.0022495378526010816, "train/adv_min": -0.4810910829475948, "train/adv_std": 0.03696939679128783, "train/cont_avg": 0.9985491071428572, "train/cont_loss_mean": 0.0002758978865159634, "train/cont_loss_std": 0.007828467177665338, "train/cont_neg_acc": 0.9666666670279069, "train/cont_neg_loss": 0.10789775764020842, "train/cont_pos_acc": 0.9999580877167838, "train/cont_pos_loss": 8.436413164361056e-05, "train/cont_pred": 0.9985608799116952, "train/cont_rate": 0.9985491071428572, "train/dyn_loss_mean": 4.42761288029807, "train/dyn_loss_std": 6.486392055238996, "train/extr_critic_critic_opt_grad_norm": 2.237647715636662, "train/extr_critic_critic_opt_grad_steps": 75905.0, "train/extr_critic_critic_opt_loss": 1.517971556527274, "train/extr_critic_mag": 433.8518720354353, "train/extr_critic_max": 433.8518720354353, "train/extr_critic_mean": 172.65693217686245, "train/extr_critic_min": 0.01665654012135097, "train/extr_critic_std": 130.30034059797015, "train/extr_return_normed_mag": 1.2160735981804984, "train/extr_return_normed_max": 1.2160735981804984, "train/extr_return_normed_mean": 0.4469703653029033, "train/extr_return_normed_min": -0.01043709666202111, "train/extr_return_normed_std": 0.3454601820026125, "train/extr_return_rate": 0.9374107599258423, "train/extr_return_raw_mag": 465.22877415248325, "train/extr_return_raw_max": 465.22877415248325, "train/extr_return_raw_mean": 173.50957194737026, "train/extr_return_raw_min": 0.013771264436322131, "train/extr_return_raw_std": 131.022361101423, "train/extr_reward_mag": 161.73075793130056, "train/extr_reward_max": 161.73075793130056, "train/extr_reward_mean": 0.9585055811064583, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.173960999080113, "train/image_loss_mean": 1.970309443133218, "train/image_loss_std": 1.675267117364066, "train/model_loss_mean": 4.696998126166207, "train/model_loss_std": 5.249786233901977, "train/model_opt_grad_norm": 13.332430498940605, "train/model_opt_grad_steps": 75905.0, "train/model_opt_loss": 4.696998126166207, "train/policy_entropy_mag": 2.170780747277396, "train/policy_entropy_max": 2.170780747277396, "train/policy_entropy_mean": 1.1771146340029581, "train/policy_entropy_min": 0.0704555481672287, "train/policy_entropy_std": 0.5914736790316445, "train/policy_logprob_mag": 6.790824556350708, "train/policy_logprob_max": -0.009103723921413932, "train/policy_logprob_mean": -1.1780432053974697, "train/policy_logprob_min": -6.790824556350708, "train/policy_logprob_std": 1.1004250475338526, "train/policy_randomness_mag": 0.9879648847239358, "train/policy_randomness_max": 0.9879648847239358, "train/policy_randomness_mean": 0.5357279568910599, "train/policy_randomness_min": 0.03206570153789861, "train/policy_randomness_std": 0.2691912682993071, "train/post_ent_mag": 55.44445648193359, "train/post_ent_max": 55.44445648193359, "train/post_ent_mean": 38.23434344700404, "train/post_ent_min": 22.31728627341134, "train/post_ent_std": 4.931083737100874, "train/prior_ent_mag": 77.14593996320453, "train/prior_ent_max": 77.14593996320453, "train/prior_ent_mean": 42.66207090105329, "train/prior_ent_min": 26.465996633257184, "train/prior_ent_std": 7.589441592352731, "train/rep_loss_mean": 4.42761288029807, "train/rep_loss_std": 6.486392055238996, "train/reward_avg": 1.2628348214285714, "train/reward_loss_mean": 0.06984506095094341, "train/reward_loss_std": 0.2598389325397355, "train/reward_max_data": 173.14285714285714, "train/reward_max_pred": 141.03768890925815, "train/reward_neg_acc": 0.9686094045639038, "train/reward_neg_loss": 0.00928916772494891, "train/reward_pos_acc": 0.9938821801117488, "train/reward_pos_loss": 0.6696924073355538, "train/reward_pred": 1.0998891506876265, "train/reward_rate": 0.09203404017857143, "train_stats/mean_log_entropy": 1.0595449209213257, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.5219853228009015e-07, "report/cont_loss_std": 6.363364263961557e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.5219853228009015e-07, "report/cont_pred": 0.9999997615814209, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.015584945678711, "report/dyn_loss_std": 5.998964309692383, "report/image_loss_mean": 1.9063384532928467, "report/image_loss_std": 1.3823764324188232, "report/model_loss_mean": 4.39077091217041, "report/model_loss_std": 4.624432563781738, "report/post_ent_mag": 53.40874099731445, "report/post_ent_max": 53.40874099731445, "report/post_ent_mean": 37.85205078125, "report/post_ent_min": 19.521108627319336, "report/post_ent_std": 4.751677513122559, "report/prior_ent_mag": 76.96082305908203, "report/prior_ent_max": 76.96082305908203, "report/prior_ent_mean": 41.975860595703125, "report/prior_ent_min": 26.688098907470703, "report/prior_ent_std": 7.1852569580078125, "report/rep_loss_mean": 4.015584945678711, "report/rep_loss_std": 5.998964309692383, "report/reward_avg": 0.95703125, "report/reward_loss_mean": 0.07508146017789841, "report/reward_loss_std": 0.24049848318099976, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.015327453613281, "report/reward_neg_acc": 0.9557235240936279, "report/reward_neg_loss": 0.014149613678455353, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6508251428604126, "report/reward_pred": 0.8967635631561279, "report/reward_rate": 0.095703125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.022020287811756134, "eval/cont_loss_std": 0.4978786110877991, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 7.516194820404053, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8800383827510814e-07, "eval/cont_pred": 0.9990963935852051, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.37481689453125, "eval/dyn_loss_std": 11.414593696594238, "eval/image_loss_mean": 5.038453102111816, "eval/image_loss_std": 4.735323905944824, "eval/model_loss_mean": 12.556161880493164, "eval/model_loss_std": 11.532609939575195, "eval/post_ent_mag": 57.156436920166016, "eval/post_ent_max": 57.156436920166016, "eval/post_ent_mean": 35.668495178222656, "eval/post_ent_min": 23.766460418701172, "eval/post_ent_std": 6.101677894592285, "eval/prior_ent_mag": 76.96082305908203, "eval/prior_ent_max": 76.96082305908203, "eval/prior_ent_mean": 39.054473876953125, "eval/prior_ent_min": 26.13373565673828, "eval/prior_ent_std": 8.723377227783203, "eval/rep_loss_mean": 11.37481689453125, "eval/rep_loss_std": 11.414593696594238, "eval/reward_avg": 0.41015625, "eval/reward_loss_mean": 0.6707990169525146, "eval/reward_loss_std": 3.045328378677368, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.011990547180176, "eval/reward_neg_acc": 0.9154786467552185, "eval/reward_neg_loss": 0.22684909403324127, "eval/reward_pos_acc": 0.2857142984867096, "eval/reward_pos_loss": 11.050772666931152, "eval/reward_pred": 0.4282388389110565, "eval/reward_rate": 0.041015625, "replay/size": 77289.0, "replay/inserts": 695.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 4.733380653875337e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1360902580425893e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.22428250312805, "timer/env.step_count": 695.0, "timer/env.step_total": 2.4536685943603516, "timer/env.step_frac": 0.008172785272073343, "timer/env.step_avg": 0.0035304584091515848, "timer/env.step_min": 0.0017712116241455078, "timer/env.step_max": 0.01903367042541504, "timer/replay._sample_count": 11120.0, "timer/replay._sample_total": 199.95333671569824, "timer/replay._sample_frac": 0.666013205356282, "timer/replay._sample_avg": 0.01798141517227502, "timer/replay._sample_min": 0.0005104541778564453, "timer/replay._sample_max": 0.04978060722351074, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 695.0, "timer/agent.policy_total": 198.4304485321045, "timer/agent.policy_frac": 0.6609407036555647, "timer/agent.policy_avg": 0.285511436736841, "timer/agent.policy_min": 0.002834796905517578, "timer/agent.policy_max": 0.3349268436431885, "timer/dataset_train_count": 695.0, "timer/dataset_train_total": 0.08287549018859863, "timer/dataset_train_frac": 0.0002760452602221979, "timer/dataset_train_avg": 0.00011924530962388293, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0009465217590332031, "timer/agent.train_count": 695.0, "timer/agent.train_total": 98.10446190834045, "timer/agent.train_frac": 0.3267705766182264, "timer/agent.train_avg": 0.1411574991486913, "timer/agent.train_min": 0.10205197334289551, "timer/agent.train_max": 0.45302772521972656, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.497577428817749, "timer/agent.report_frac": 0.0016573523789254613, "timer/agent.report_avg": 0.2487887144088745, "timer/agent.report_min": 0.09787845611572266, "timer/agent.report_max": 0.39969897270202637, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.82012939453125e-05, "timer/dataset_eval_frac": 2.604762456031441e-07, "timer/dataset_eval_avg": 7.82012939453125e-05, "timer/dataset_eval_min": 7.82012939453125e-05, "timer/dataset_eval_max": 7.82012939453125e-05, "fps": 9.259474235312384}
+{"step": 309988, "episode/length": 776.0, "episode/score": 1110.0, "episode/reward_rate": 0.10810810810810811}
+{"step": 312252, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.465603680677817, "train/action_min": 0.0, "train/action_std": 2.88858940231968, "train/actor_opt_grad_norm": 0.008572109824072726, "train/actor_opt_grad_steps": 76610.0, "train/actor_opt_loss": 0.001848952240732, "train/adv_mag": 0.6711646209300404, "train/adv_max": 0.6455585150651528, "train/adv_mean": 0.002807436301045015, "train/adv_min": -0.4560258325556634, "train/adv_std": 0.037569032877054015, "train/cont_avg": 0.9983632262323944, "train/cont_loss_mean": 0.0003381347628563572, "train/cont_loss_std": 0.009143165973846023, "train/cont_neg_acc": 0.9541666666666667, "train/cont_neg_loss": 0.08612878960522798, "train/cont_pos_acc": 0.9999172662345457, "train/cont_pos_loss": 0.0002347131380615378, "train/cont_pred": 0.9982951535305506, "train/cont_rate": 0.9983632262323944, "train/dyn_loss_mean": 4.712609321298734, "train/dyn_loss_std": 6.614900743457633, "train/extr_critic_critic_opt_grad_norm": 2.165101986535838, "train/extr_critic_critic_opt_grad_steps": 76610.0, "train/extr_critic_critic_opt_loss": 1.5703082454036659, "train/extr_critic_mag": 430.11043236960825, "train/extr_critic_max": 430.11043236960825, "train/extr_critic_mean": 162.35877303002584, "train/extr_critic_min": 0.031383045962159066, "train/extr_critic_std": 130.9535945838606, "train/extr_return_normed_mag": 1.2024339555015027, "train/extr_return_normed_max": 1.2024339555015027, "train/extr_return_normed_mean": 0.4214628154123333, "train/extr_return_normed_min": -0.010385517096540458, "train/extr_return_normed_std": 0.34849416579998715, "train/extr_return_rate": 0.9227544128055304, "train/extr_return_raw_mag": 458.7833582918409, "train/extr_return_raw_max": 458.7833582918409, "train/extr_return_raw_mean": 163.4199398201956, "train/extr_return_raw_min": 0.02764019771711901, "train/extr_return_raw_std": 131.84033525493783, "train/extr_reward_mag": 179.60175656600737, "train/extr_reward_max": 179.60175656600737, "train/extr_reward_mean": 0.94256125747318, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.523853476618378, "train/image_loss_mean": 2.106130238989709, "train/image_loss_std": 1.8306587363632632, "train/model_loss_mean": 5.001549455481515, "train/model_loss_std": 5.496385487032608, "train/model_opt_grad_norm": 13.567501860605159, "train/model_opt_grad_steps": 76610.0, "train/model_opt_loss": 5.001549455481515, "train/policy_entropy_mag": 2.1695607715929057, "train/policy_entropy_max": 2.1695607715929057, "train/policy_entropy_mean": 1.2207901200778049, "train/policy_entropy_min": 0.07005654831587428, "train/policy_entropy_std": 0.5938214651295837, "train/policy_logprob_mag": 6.7898008789814694, "train/policy_logprob_max": -0.009039664286857759, "train/policy_logprob_mean": -1.2201370714415967, "train/policy_logprob_min": -6.7898008789814694, "train/policy_logprob_std": 1.097580184399242, "train/policy_randomness_mag": 0.9874096521189515, "train/policy_randomness_max": 0.9874096521189515, "train/policy_randomness_mean": 0.5556055240228143, "train/policy_randomness_min": 0.03188410894551747, "train/policy_randomness_std": 0.2702597971533386, "train/post_ent_mag": 56.73394764644999, "train/post_ent_max": 56.73394764644999, "train/post_ent_mean": 38.56300316394215, "train/post_ent_min": 22.149544299488337, "train/post_ent_std": 5.153928602245492, "train/prior_ent_mag": 77.17878508232009, "train/prior_ent_max": 77.17878508232009, "train/prior_ent_mean": 43.206481718681225, "train/prior_ent_min": 26.96804167519153, "train/prior_ent_std": 7.8003916538936995, "train/rep_loss_mean": 4.712609321298734, "train/rep_loss_std": 6.614900743457633, "train/reward_avg": 1.2582526408450705, "train/reward_loss_mean": 0.06751554370136328, "train/reward_loss_std": 0.2560177594423294, "train/reward_max_data": 211.40845070422534, "train/reward_max_pred": 163.45460143559416, "train/reward_neg_acc": 0.9672652214345797, "train/reward_neg_loss": 0.009093864017467894, "train/reward_pos_acc": 0.9945336764966938, "train/reward_pos_loss": 0.6678305830754024, "train/reward_pred": 1.0927030880686264, "train/reward_rate": 0.08863336267605634, "train_stats/mean_log_entropy": 1.094068169593811, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.1876137452636613e-06, "report/cont_loss_std": 5.366296318243258e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.1876137452636613e-06, "report/cont_pred": 0.9999977946281433, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.169894218444824, "report/dyn_loss_std": 6.544883728027344, "report/image_loss_mean": 1.9712024927139282, "report/image_loss_std": 1.7458131313323975, "report/model_loss_mean": 4.533317565917969, "report/model_loss_std": 5.313621520996094, "report/post_ent_mag": 57.501949310302734, "report/post_ent_max": 57.501949310302734, "report/post_ent_mean": 39.10163116455078, "report/post_ent_min": 20.473560333251953, "report/post_ent_std": 4.580794334411621, "report/prior_ent_mag": 77.24473571777344, "report/prior_ent_max": 77.24473571777344, "report/prior_ent_mean": 43.50535583496094, "report/prior_ent_min": 28.332719802856445, "report/prior_ent_std": 6.629641056060791, "report/rep_loss_mean": 4.169894218444824, "report/rep_loss_std": 6.544883728027344, "report/reward_avg": 1.220703125, "report/reward_loss_mean": 0.060176458209753036, "report/reward_loss_std": 0.25958889722824097, "report/reward_max_data": 200.0, "report/reward_max_pred": 190.2196502685547, "report/reward_neg_acc": 0.9777777791023254, "report/reward_neg_loss": 0.0038550521712750196, "report/reward_pos_acc": 0.9873418211936951, "report/reward_pos_loss": 0.7338944673538208, "report/reward_pred": 0.9924958944320679, "report/reward_rate": 0.0771484375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007783195935189724, "eval/cont_loss_std": 0.2489403337240219, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.969983100891113, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.482351792655663e-09, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.776077270507812, "eval/dyn_loss_std": 12.703084945678711, "eval/image_loss_mean": 6.413504600524902, "eval/image_loss_std": 4.904435634613037, "eval/model_loss_mean": 16.063085556030273, "eval/model_loss_std": 12.75832462310791, "eval/post_ent_mag": 58.00139236450195, "eval/post_ent_max": 58.00139236450195, "eval/post_ent_mean": 35.393531799316406, "eval/post_ent_min": 23.793941497802734, "eval/post_ent_std": 4.821086883544922, "eval/prior_ent_mag": 77.24473571777344, "eval/prior_ent_max": 77.24473571777344, "eval/prior_ent_mean": 41.10050582885742, "eval/prior_ent_min": 27.23063850402832, "eval/prior_ent_std": 8.017472267150879, "eval/rep_loss_mean": 14.776077270507812, "eval/rep_loss_std": 12.703084945678711, "eval/reward_avg": 0.68359375, "eval/reward_loss_mean": 0.7761521339416504, "eval/reward_loss_std": 3.353649616241455, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00203800201416, "eval/reward_neg_acc": 0.9266247153282166, "eval/reward_neg_loss": 0.09872560948133469, "eval/reward_pos_acc": 0.30000001192092896, "eval/reward_pos_loss": 10.00850772857666, "eval/reward_pred": 0.3331543803215027, "eval/reward_rate": 0.068359375, "replay/size": 78000.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.9202250549058875e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4772478873551982e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1304121017456, "timer/env.step_count": 711.0, "timer/env.step_total": 2.871314764022827, "timer/env.step_frac": 0.009566890419120332, "timer/env.step_avg": 0.0040384173896242295, "timer/env.step_min": 0.002552032470703125, "timer/env.step_max": 0.020941972732543945, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 191.73698592185974, "timer/replay._sample_frac": 0.6388455757587805, "timer/replay._sample_avg": 0.01685451704657698, "timer/replay._sample_min": 0.008450746536254883, "timer/replay._sample_max": 0.0696401596069336, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 197.72079992294312, "timer/agent.policy_frac": 0.6587829555104028, "timer/agent.policy_avg": 0.27808832619260637, "timer/agent.policy_min": 0.003880739212036133, "timer/agent.policy_max": 0.3275277614593506, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.10080528259277344, "timer/dataset_train_frac": 0.00033587160290374034, "timer/dataset_train_avg": 0.00014177958170572916, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0005540847778320312, "timer/agent.train_count": 711.0, "timer/agent.train_total": 98.3460054397583, "timer/agent.train_frac": 0.3276775743952884, "timer/agent.train_avg": 0.1383206827563408, "timer/agent.train_min": 0.10012388229370117, "timer/agent.train_max": 0.4284377098083496, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49900341033935547, "timer/agent.report_frac": 0.001662621947722482, "timer/agent.report_avg": 0.24950170516967773, "timer/agent.report_min": 0.10251212120056152, "timer/agent.report_max": 0.39649128913879395, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.059906005859375e-05, "timer/dataset_eval_frac": 3.018656437518243e-07, "timer/dataset_eval_avg": 9.059906005859375e-05, "timer/dataset_eval_min": 9.059906005859375e-05, "timer/dataset_eval_max": 9.059906005859375e-05, "fps": 9.475546364166405}
+{"step": 313052, "episode/length": 765.0, "episode/score": 1300.0, "episode/reward_rate": 0.10966057441253264}
+{"step": 315052, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.655033656529018, "train/action_min": 0.0, "train/action_std": 2.82987516607557, "train/actor_opt_grad_norm": 0.008551024006945747, "train/actor_opt_grad_steps": 77315.0, "train/actor_opt_loss": 0.0019968483043027977, "train/adv_mag": 0.655254858306476, "train/adv_max": 0.6186382527862276, "train/adv_mean": 0.003180064378206485, "train/adv_min": -0.45635617673397066, "train/adv_std": 0.03852199999881642, "train/cont_avg": 0.9985491071428572, "train/cont_loss_mean": 0.0002432288313098655, "train/cont_loss_std": 0.006785604108601565, "train/cont_neg_acc": 0.9502923980093839, "train/cont_neg_loss": 0.13848310318939694, "train/cont_pos_acc": 0.9999860201563154, "train/cont_pos_loss": 5.885557101835216e-05, "train/cont_pred": 0.9985832529408591, "train/cont_rate": 0.9985491071428572, "train/dyn_loss_mean": 4.64785053389413, "train/dyn_loss_std": 6.553571891784668, "train/extr_critic_critic_opt_grad_norm": 2.251508946078164, "train/extr_critic_critic_opt_grad_steps": 77315.0, "train/extr_critic_critic_opt_loss": 1.6002449342182705, "train/extr_critic_mag": 439.7393092564174, "train/extr_critic_max": 439.7393092564174, "train/extr_critic_mean": 172.49220951625279, "train/extr_critic_min": 0.09820902688162668, "train/extr_critic_std": 134.4608033316476, "train/extr_return_normed_mag": 1.2148525084768023, "train/extr_return_normed_max": 1.2148525084768023, "train/extr_return_normed_mean": 0.44391689279249735, "train/extr_return_normed_min": -0.008961287927481213, "train/extr_return_normed_std": 0.35508412293025426, "train/extr_return_rate": 0.9380804010799952, "train/extr_return_raw_mag": 467.3169860839844, "train/extr_return_raw_max": 467.3169860839844, "train/extr_return_raw_mean": 173.70294788905554, "train/extr_return_raw_min": 1.2359856322008584, "train/extr_return_raw_std": 135.2325582231794, "train/extr_reward_mag": 168.4899929727827, "train/extr_reward_max": 168.4899929727827, "train/extr_reward_mean": 0.9307192687477385, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.337947699001857, "train/image_loss_mean": 2.007879367896489, "train/image_loss_std": 1.73931257384164, "train/model_loss_mean": 4.8622900485992435, "train/model_loss_std": 5.346702698298863, "train/model_opt_grad_norm": 13.895853287833077, "train/model_opt_grad_steps": 77315.0, "train/model_opt_loss": 4.8622900485992435, "train/policy_entropy_mag": 2.169194347517831, "train/policy_entropy_max": 2.169194347517831, "train/policy_entropy_mean": 1.1727026735033308, "train/policy_entropy_min": 0.07010178512760572, "train/policy_entropy_std": 0.5869215799229486, "train/policy_logprob_mag": 6.792206294195992, "train/policy_logprob_max": -0.009046974245991025, "train/policy_logprob_mean": -1.1728022992610931, "train/policy_logprob_min": -6.792206294195992, "train/policy_logprob_std": 1.1027946267809188, "train/policy_randomness_mag": 0.9872428825923375, "train/policy_randomness_max": 0.9872428825923375, "train/policy_randomness_mean": 0.5337199756077358, "train/policy_randomness_min": 0.03190469704568386, "train/policy_randomness_std": 0.267119523031371, "train/post_ent_mag": 56.316438456944056, "train/post_ent_max": 56.316438456944056, "train/post_ent_mean": 38.53022357395717, "train/post_ent_min": 22.192955807277134, "train/post_ent_std": 5.157458400726318, "train/prior_ent_mag": 77.27061811174666, "train/prior_ent_max": 77.27061811174666, "train/prior_ent_mean": 43.17549460274832, "train/prior_ent_min": 26.852496256147113, "train/prior_ent_std": 7.811470610754831, "train/rep_loss_mean": 4.64785053389413, "train/rep_loss_std": 6.553571891784668, "train/reward_avg": 1.2437220982142858, "train/reward_loss_mean": 0.06545712708362511, "train/reward_loss_std": 0.2462118732077735, "train/reward_max_data": 212.85714285714286, "train/reward_max_pred": 156.82176651273454, "train/reward_neg_acc": 0.9687791211264474, "train/reward_neg_loss": 0.009142958487583591, "train/reward_pos_acc": 0.994432111297335, "train/reward_pos_loss": 0.6603829239095961, "train/reward_pred": 1.0584541286740985, "train/reward_rate": 0.08649553571428571, "train_stats/mean_log_entropy": 1.161557674407959, "report/cont_avg": 0.9951171875, "report/cont_loss_mean": 9.32370858208742e-06, "report/cont_loss_std": 0.00014424443361349404, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0006205899990163743, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.324364676402183e-06, "report/cont_pred": 0.9951139688491821, "report/cont_rate": 0.9951171875, "report/dyn_loss_mean": 4.66722297668457, "report/dyn_loss_std": 6.881972312927246, "report/image_loss_mean": 1.9519097805023193, "report/image_loss_std": 1.8364503383636475, "report/model_loss_mean": 4.803133010864258, "report/model_loss_std": 5.609559059143066, "report/post_ent_mag": 58.25990295410156, "report/post_ent_max": 58.25990295410156, "report/post_ent_mean": 38.204349517822266, "report/post_ent_min": 26.080068588256836, "report/post_ent_std": 5.380246639251709, "report/prior_ent_mag": 77.31253051757812, "report/prior_ent_max": 77.31253051757812, "report/prior_ent_mean": 43.28041076660156, "report/prior_ent_min": 27.27010726928711, "report/prior_ent_std": 8.170273780822754, "report/rep_loss_mean": 4.66722297668457, "report/rep_loss_std": 6.881972312927246, "report/reward_avg": 1.03515625, "report/reward_loss_mean": 0.050879769027233124, "report/reward_loss_std": 0.165189728140831, "report/reward_max_data": 200.0, "report/reward_max_pred": 169.87887573242188, "report/reward_neg_acc": 0.9734324812889099, "report/reward_neg_loss": 0.00539085827767849, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.566603422164917, "report/reward_pred": 0.9807170033454895, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.994140625, "eval/cont_loss_mean": 0.031950194388628006, "eval/cont_loss_std": 0.48449763655662537, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 4.948373794555664, "eval/cont_pos_acc": 0.9990177154541016, "eval/cont_pos_loss": 0.002973240567371249, "eval/cont_pred": 0.9968425631523132, "eval/cont_rate": 0.994140625, "eval/dyn_loss_mean": 9.44742202758789, "eval/dyn_loss_std": 12.676129341125488, "eval/image_loss_mean": 3.5725393295288086, "eval/image_loss_std": 4.19363260269165, "eval/model_loss_mean": 9.535091400146484, "eval/model_loss_std": 11.555002212524414, "eval/post_ent_mag": 58.352943420410156, "eval/post_ent_max": 58.352943420410156, "eval/post_ent_mean": 34.31504821777344, "eval/post_ent_min": 23.652185440063477, "eval/post_ent_std": 6.562456130981445, "eval/prior_ent_mag": 77.31253051757812, "eval/prior_ent_max": 77.31253051757812, "eval/prior_ent_mean": 37.5306396484375, "eval/prior_ent_min": 26.453384399414062, "eval/prior_ent_std": 9.617449760437012, "eval/rep_loss_mean": 9.44742202758789, "eval/rep_loss_std": 12.676129341125488, "eval/reward_avg": 0.263671875, "eval/reward_loss_mean": 0.2621473968029022, "eval/reward_loss_std": 1.6402571201324463, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.000197410583496, "eval/reward_neg_acc": 0.9568706154823303, "eval/reward_neg_loss": 0.06489645689725876, "eval/reward_pos_acc": 0.3333333432674408, "eval/reward_pos_loss": 7.545820713043213, "eval/reward_pred": 0.1943802833557129, "eval/reward_rate": 0.0263671875, "replay/size": 78700.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.068438393729074e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2372221265520368e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3399543762207, "timer/env.step_count": 700.0, "timer/env.step_total": 2.5605478286743164, "timer/env.step_frac": 0.008525498493839576, "timer/env.step_avg": 0.0036579254695347377, "timer/env.step_min": 0.0022737979888916016, "timer/env.step_max": 0.024535417556762695, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 199.71772265434265, "timer/replay._sample_frac": 0.6649722081404006, "timer/replay._sample_avg": 0.017831939522709166, "timer/replay._sample_min": 0.0006020069122314453, "timer/replay._sample_max": 0.049009084701538086, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.22060108184814453, "timer/agent.save_frac": 0.0007345046126357491, "timer/agent.save_avg": 0.22060108184814453, "timer/agent.save_min": 0.22060108184814453, "timer/agent.save_max": 0.22060108184814453, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.39327764511108, "timer/agent.policy_frac": 0.6605623885678354, "timer/agent.policy_avg": 0.2834189680644444, "timer/agent.policy_min": 0.002946615219116211, "timer/agent.policy_max": 0.40409135818481445, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.0930485725402832, "timer/dataset_train_frac": 0.0003098108366352282, "timer/dataset_train_avg": 0.00013292653220040458, "timer/dataset_train_min": 7.43865966796875e-05, "timer/dataset_train_max": 0.0018036365509033203, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.12710928916931, "timer/agent.train_frac": 0.3267201311692631, "timer/agent.train_avg": 0.1401815846988133, "timer/agent.train_min": 0.09877467155456543, "timer/agent.train_max": 0.44610166549682617, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5193271636962891, "timer/agent.report_frac": 0.0017291311266757208, "timer/agent.report_avg": 0.25966358184814453, "timer/agent.report_min": 0.1034092903137207, "timer/agent.report_max": 0.41591787338256836, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7226090272435396e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "fps": 9.322558098186372}
+{"step": 315492, "episode/length": 609.0, "episode/score": 800.0, "episode/reward_rate": 0.1180327868852459}
+{"step": 317824, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.653248662533968, "train/action_min": 0.0, "train/action_std": 2.861318508783976, "train/actor_opt_grad_norm": 0.00784952324423669, "train/actor_opt_grad_steps": 78010.0, "train/actor_opt_loss": 0.0017215620152811703, "train/adv_mag": 0.630480483174324, "train/adv_max": 0.594784421765286, "train/adv_mean": 0.002731153870020838, "train/adv_min": -0.4554379064103831, "train/adv_std": 0.03641486059928286, "train/cont_avg": 0.9985139266304348, "train/cont_loss_mean": 0.0002920822478246644, "train/cont_loss_std": 0.007867246259087097, "train/cont_neg_acc": 0.9439890716896683, "train/cont_neg_loss": 0.08046515102981615, "train/cont_pos_acc": 0.9999574552411619, "train/cont_pos_loss": 0.0001429593456855322, "train/cont_pred": 0.998502879039101, "train/cont_rate": 0.9985139266304348, "train/dyn_loss_mean": 4.430720225624416, "train/dyn_loss_std": 6.533243407373843, "train/extr_critic_critic_opt_grad_norm": 2.2302718387133833, "train/extr_critic_critic_opt_grad_steps": 78010.0, "train/extr_critic_critic_opt_loss": 1.5786535204320713, "train/extr_critic_mag": 441.726514733356, "train/extr_critic_max": 441.726514733356, "train/extr_critic_mean": 171.0910333826922, "train/extr_critic_min": 0.2381258097247801, "train/extr_critic_std": 134.138849451922, "train/extr_return_normed_mag": 1.2307468289914338, "train/extr_return_normed_max": 1.2307468289914338, "train/extr_return_normed_mean": 0.4353204380342926, "train/extr_return_normed_min": -0.0132195257946201, "train/extr_return_normed_std": 0.3523432025011035, "train/extr_return_rate": 0.9463174187618754, "train/extr_return_raw_mag": 476.74969703563744, "train/extr_return_raw_max": 476.74969703563744, "train/extr_return_raw_mean": 172.13705753934556, "train/extr_return_raw_min": 0.34267989410411404, "train/extr_return_raw_std": 134.9410347316576, "train/extr_reward_mag": 169.72797162982002, "train/extr_reward_max": 169.72797162982002, "train/extr_reward_mean": 0.9372261494830034, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.121644638586735, "train/image_loss_mean": 1.9961317017458486, "train/image_loss_std": 1.6902767696242402, "train/model_loss_mean": 4.720894844635673, "train/model_loss_std": 5.30929172211799, "train/model_opt_grad_norm": 12.030930795531342, "train/model_opt_grad_steps": 78010.0, "train/model_opt_loss": 4.720894844635673, "train/policy_entropy_mag": 2.1675233806388965, "train/policy_entropy_max": 2.1675233806388965, "train/policy_entropy_mean": 1.166250915631004, "train/policy_entropy_min": 0.07016790042752805, "train/policy_entropy_std": 0.5970280369122823, "train/policy_logprob_mag": 6.790492265120797, "train/policy_logprob_max": -0.00905667879767176, "train/policy_logprob_mean": -1.165937894496365, "train/policy_logprob_min": -6.790492265120797, "train/policy_logprob_std": 1.1070730634357617, "train/policy_randomness_mag": 0.9864823973697164, "train/policy_randomness_max": 0.9864823973697164, "train/policy_randomness_mean": 0.5307836610337963, "train/policy_randomness_min": 0.03193478772173757, "train/policy_randomness_std": 0.27171916503837146, "train/post_ent_mag": 56.533766428629555, "train/post_ent_max": 56.533766428629555, "train/post_ent_mean": 38.42582448323568, "train/post_ent_min": 22.70668325562408, "train/post_ent_std": 5.066239032192507, "train/prior_ent_mag": 77.4228964542997, "train/prior_ent_max": 77.4228964542997, "train/prior_ent_mean": 42.995285089465156, "train/prior_ent_min": 26.79660219386004, "train/prior_ent_std": 7.686496064282846, "train/rep_loss_mean": 4.430720225624416, "train/rep_loss_std": 6.533243407373843, "train/reward_avg": 1.2481600996376812, "train/reward_loss_mean": 0.06603894312528596, "train/reward_loss_std": 0.24469769497712454, "train/reward_max_data": 198.1159420289855, "train/reward_max_pred": 148.45184316496918, "train/reward_neg_acc": 0.9700323118679766, "train/reward_neg_loss": 0.008292855364203022, "train/reward_pos_acc": 0.9958897448968196, "train/reward_pos_loss": 0.6502295931180319, "train/reward_pred": 1.0693573295206265, "train/reward_rate": 0.09008435235507246, "train_stats/mean_log_entropy": 0.9213955998420715, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.2560823279272881e-06, "report/cont_loss_std": 3.2814790756674483e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00015959519078023732, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1013031553375185e-06, "report/cont_pred": 0.9990224838256836, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.837930679321289, "report/dyn_loss_std": 5.895268440246582, "report/image_loss_mean": 1.8570938110351562, "report/image_loss_std": 1.7264074087142944, "report/model_loss_mean": 4.240995407104492, "report/model_loss_std": 4.985574245452881, "report/post_ent_mag": 57.414207458496094, "report/post_ent_max": 57.414207458496094, "report/post_ent_mean": 37.145904541015625, "report/post_ent_min": 21.07697296142578, "report/post_ent_std": 5.628722190856934, "report/prior_ent_mag": 77.3062973022461, "report/prior_ent_max": 77.3062973022461, "report/prior_ent_mean": 41.109458923339844, "report/prior_ent_min": 25.978551864624023, "report/prior_ent_std": 8.267125129699707, "report/rep_loss_mean": 3.837930679321289, "report/rep_loss_std": 5.895268440246582, "report/reward_avg": 1.416015625, "report/reward_loss_mean": 0.08114192634820938, "report/reward_loss_std": 0.22689352929592133, "report/reward_max_data": 100.0, "report/reward_max_pred": 77.83306121826172, "report/reward_neg_acc": 0.973214328289032, "report/reward_neg_loss": 0.008973821066319942, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5863186717033386, "report/reward_pred": 1.3498351573944092, "report/reward_rate": 0.125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.00637356610968709, "eval/cont_loss_std": 0.15300831198692322, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.5846750736236572, "eval/cont_pos_acc": 0.9980410933494568, "eval/cont_pos_loss": 0.0017360496567562222, "eval/cont_pred": 0.9968458414077759, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.231513977050781, "eval/dyn_loss_std": 11.632966995239258, "eval/image_loss_mean": 4.870988845825195, "eval/image_loss_std": 4.602869510650635, "eval/model_loss_mean": 12.269185066223145, "eval/model_loss_std": 11.654829978942871, "eval/post_ent_mag": 57.75871276855469, "eval/post_ent_max": 57.75871276855469, "eval/post_ent_mean": 35.811180114746094, "eval/post_ent_min": 23.342849731445312, "eval/post_ent_std": 5.457849979400635, "eval/prior_ent_mag": 77.3062973022461, "eval/prior_ent_max": 77.3062973022461, "eval/prior_ent_mean": 39.73341751098633, "eval/prior_ent_min": 26.703771591186523, "eval/prior_ent_std": 8.178112983703613, "eval/rep_loss_mean": 11.231513977050781, "eval/rep_loss_std": 11.632966995239258, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.6529144048690796, "eval/reward_loss_std": 2.980233907699585, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008952140808105, "eval/reward_neg_acc": 0.9358841776847839, "eval/reward_neg_loss": 0.09479468315839767, "eval/reward_pos_acc": 0.28070175647735596, "eval/reward_pos_loss": 10.121366500854492, "eval/reward_pred": 0.26143068075180054, "eval/reward_rate": 0.0556640625, "replay/size": 79393.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 5.026056308938999e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.081140526445397e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.341104507446289e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.25813341140747, "timer/env.step_count": 693.0, "timer/env.step_total": 2.356595754623413, "timer/env.step_frac": 0.00784856592508838, "timer/env.step_avg": 0.0034005710744926597, "timer/env.step_min": 0.002244710922241211, "timer/env.step_max": 0.015828847885131836, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 196.29949760437012, "timer/replay._sample_frac": 0.6537691264982475, "timer/replay._sample_avg": 0.017703778643972774, "timer/replay._sample_min": 0.0005397796630859375, "timer/replay._sample_max": 0.04936814308166504, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.36246514320374, "timer/agent.policy_frac": 0.6606397731494973, "timer/agent.policy_avg": 0.2862373234389664, "timer/agent.policy_min": 0.0029642581939697266, "timer/agent.policy_max": 0.33728599548339844, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09470820426940918, "timer/dataset_train_frac": 0.0003154226105164051, "timer/dataset_train_avg": 0.00013666407542483287, "timer/dataset_train_min": 8.034706115722656e-05, "timer/dataset_train_max": 0.004613399505615234, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.16032528877258, "timer/agent.train_frac": 0.326919787895555, "timer/agent.train_avg": 0.14164549103718987, "timer/agent.train_min": 0.10205769538879395, "timer/agent.train_max": 0.4462110996246338, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5265581607818604, "timer/agent.report_frac": 0.0017536849203694386, "timer/agent.report_avg": 0.2632790803909302, "timer/agent.report_min": 0.1147146224975586, "timer/agent.report_max": 0.41184353828430176, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.838539123535156e-05, "timer/dataset_eval_frac": 1.278413037449903e-07, "timer/dataset_eval_avg": 3.838539123535156e-05, "timer/dataset_eval_min": 3.838539123535156e-05, "timer/dataset_eval_max": 3.838539123535156e-05, "fps": 9.231599896993906}
+{"step": 318120, "episode/length": 656.0, "episode/score": 770.0, "episode/reward_rate": 0.1050228310502283}
+{"step": 320600, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.65537109375, "train/action_min": 0.0, "train/action_std": 2.8723385504313876, "train/actor_opt_grad_norm": 0.008466898470318743, "train/actor_opt_grad_steps": 78705.0, "train/actor_opt_loss": 0.0018861556105028805, "train/adv_mag": 0.6834786696093423, "train/adv_max": 0.6544846734830312, "train/adv_mean": 0.003084378877247218, "train/adv_min": -0.48175811959164483, "train/adv_std": 0.03847525790333748, "train/cont_avg": 0.9985909598214285, "train/cont_loss_mean": 0.0002464732967383984, "train/cont_loss_std": 0.006018104641557492, "train/cont_neg_acc": 0.9614197534543497, "train/cont_neg_loss": 0.062024943541137155, "train/cont_pos_acc": 0.9999580476965223, "train/cont_pos_loss": 0.0001313282655126028, "train/cont_pred": 0.9985637630735125, "train/cont_rate": 0.9985909598214285, "train/dyn_loss_mean": 4.404993731634957, "train/dyn_loss_std": 6.500938422339303, "train/extr_critic_critic_opt_grad_norm": 2.1774606159755163, "train/extr_critic_critic_opt_grad_steps": 78705.0, "train/extr_critic_critic_opt_loss": 1.540126041003636, "train/extr_critic_mag": 454.8912122453962, "train/extr_critic_max": 454.8912122453962, "train/extr_critic_mean": 178.84948479788645, "train/extr_critic_min": 0.6201061606407166, "train/extr_critic_std": 136.2965360369001, "train/extr_return_normed_mag": 1.2858516011919294, "train/extr_return_normed_max": 1.2858516011919294, "train/extr_return_normed_mean": 0.4537689451660429, "train/extr_return_normed_min": -0.01117197394903217, "train/extr_return_normed_std": 0.35611023817743576, "train/extr_return_rate": 0.9396382527691978, "train/extr_return_raw_mag": 501.0178248814174, "train/extr_return_raw_max": 501.0178248814174, "train/extr_return_raw_mean": 180.0391865321568, "train/extr_return_raw_min": 0.635915562721701, "train/extr_return_raw_std": 137.39734028407506, "train/extr_reward_mag": 193.62117221014842, "train/extr_reward_max": 193.62117221014842, "train/extr_reward_mean": 1.0229964767183577, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.715212740216937, "train/image_loss_mean": 1.9508305788040161, "train/image_loss_std": 1.6483258639063154, "train/model_loss_mean": 4.664093521663121, "train/model_loss_std": 5.24748546055385, "train/model_opt_grad_norm": 12.585765579768589, "train/model_opt_grad_steps": 78705.0, "train/model_opt_loss": 4.664093521663121, "train/policy_entropy_mag": 2.1681193351745605, "train/policy_entropy_max": 2.1681193351745605, "train/policy_entropy_mean": 1.1698503826345716, "train/policy_entropy_min": 0.06991528261985097, "train/policy_entropy_std": 0.5926205830914634, "train/policy_logprob_mag": 6.79316554750715, "train/policy_logprob_max": -0.009018212570143597, "train/policy_logprob_mean": -1.1707761066300528, "train/policy_logprob_min": -6.79316554750715, "train/policy_logprob_std": 1.10440114906856, "train/policy_randomness_mag": 0.9867536229746682, "train/policy_randomness_max": 0.9867536229746682, "train/policy_randomness_mean": 0.5324218486036573, "train/policy_randomness_min": 0.03181981619979654, "train/policy_randomness_std": 0.26971324597086227, "train/post_ent_mag": 56.58669597080776, "train/post_ent_max": 56.58669597080776, "train/post_ent_mean": 38.30456128801618, "train/post_ent_min": 22.174290711539133, "train/post_ent_std": 5.135140017100743, "train/prior_ent_mag": 77.50847691127233, "train/prior_ent_max": 77.50847691127233, "train/prior_ent_mean": 42.79386841910226, "train/prior_ent_min": 26.716270419529508, "train/prior_ent_std": 7.7657863208225795, "train/rep_loss_mean": 4.404993731634957, "train/rep_loss_std": 6.500938422339303, "train/reward_avg": 1.2992466517857142, "train/reward_loss_mean": 0.07002025209367276, "train/reward_loss_std": 0.2607288618172918, "train/reward_max_data": 195.14285714285714, "train/reward_max_pred": 160.39754065104893, "train/reward_neg_acc": 0.9701268434524536, "train/reward_neg_loss": 0.008725353772751987, "train/reward_pos_acc": 0.9939868646008628, "train/reward_pos_loss": 0.6582779347896576, "train/reward_pred": 1.1668148696422578, "train/reward_rate": 0.09443359375, "train_stats/mean_log_entropy": 1.1057580709457397, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.451047061593272e-05, "report/cont_loss_std": 0.001404237118549645, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.04495466500520706, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.100279961174238e-07, "report/cont_pred": 0.9990657567977905, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.314641952514648, "report/dyn_loss_std": 6.8114142417907715, "report/image_loss_mean": 2.2837820053100586, "report/image_loss_std": 1.380245566368103, "report/model_loss_mean": 5.5453009605407715, "report/model_loss_std": 5.201364517211914, "report/post_ent_mag": 57.37070846557617, "report/post_ent_max": 57.37070846557617, "report/post_ent_mean": 40.0018310546875, "report/post_ent_min": 24.952585220336914, "report/post_ent_std": 4.278416156768799, "report/prior_ent_mag": 77.79170989990234, "report/prior_ent_max": 77.79170989990234, "report/prior_ent_mean": 44.91419219970703, "report/prior_ent_min": 28.72846031188965, "report/prior_ent_std": 6.525627613067627, "report/rep_loss_mean": 5.314641952514648, "report/rep_loss_std": 6.8114142417907715, "report/reward_avg": 1.62109375, "report/reward_loss_mean": 0.07268879562616348, "report/reward_loss_std": 0.22733095288276672, "report/reward_max_data": 210.0, "report/reward_max_pred": 207.61865234375, "report/reward_neg_acc": 0.9680967926979065, "report/reward_neg_loss": 0.004406914114952087, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6124125123023987, "report/reward_pred": 1.5101858377456665, "report/reward_rate": 0.1123046875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 7.79828133090632e-06, "eval/cont_loss_std": 0.00021962130267638713, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.006969677750021219, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.929260613716906e-07, "eval/cont_pred": 0.999029278755188, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.135540008544922, "eval/dyn_loss_std": 10.814987182617188, "eval/image_loss_mean": 5.444138526916504, "eval/image_loss_std": 4.325185775756836, "eval/model_loss_mean": 13.16088581085205, "eval/model_loss_std": 10.383465766906738, "eval/post_ent_mag": 56.88665008544922, "eval/post_ent_max": 56.88665008544922, "eval/post_ent_mean": 37.22625732421875, "eval/post_ent_min": 24.349349975585938, "eval/post_ent_std": 5.5778093338012695, "eval/prior_ent_mag": 77.79170989990234, "eval/prior_ent_max": 77.79170989990234, "eval/prior_ent_mean": 40.48931121826172, "eval/prior_ent_min": 26.430545806884766, "eval/prior_ent_std": 8.02731704711914, "eval/rep_loss_mean": 12.135540008544922, "eval/rep_loss_std": 10.814987182617188, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.4354165494441986, "eval/reward_loss_std": 2.416081190109253, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008047103881836, "eval/reward_neg_acc": 0.9405840635299683, "eval/reward_neg_loss": 0.11235523968935013, "eval/reward_pos_acc": 0.25806450843811035, "eval/reward_pos_loss": 10.783799171447754, "eval/reward_pred": 0.25399282574653625, "eval/reward_rate": 0.0302734375, "replay/size": 80087.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.703098484006326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2167850214053988e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7583370208740234e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.26719880104065, "timer/env.step_count": 694.0, "timer/env.step_total": 2.5257883071899414, "timer/env.step_frac": 0.00841180227902132, "timer/env.step_avg": 0.003639464419582048, "timer/env.step_min": 0.0019636154174804688, "timer/env.step_max": 0.02080512046813965, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 201.62681937217712, "timer/replay._sample_frac": 0.6714913256501807, "timer/replay._sample_avg": 0.018158034885822866, "timer/replay._sample_min": 0.0005748271942138672, "timer/replay._sample_max": 0.055269718170166016, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.44462370872498, "timer/agent.policy_frac": 0.6608934459078759, "timer/agent.policy_avg": 0.28594326182813395, "timer/agent.policy_min": 0.0029070377349853516, "timer/agent.policy_max": 0.33471179008483887, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.09228277206420898, "timer/dataset_train_frac": 0.00030733550794989184, "timer/dataset_train_avg": 0.00013297229404064695, "timer/dataset_train_min": 7.843971252441406e-05, "timer/dataset_train_max": 0.00392603874206543, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.2931797504425, "timer/agent.train_frac": 0.3273523719637866, "timer/agent.train_avg": 0.14163282384789985, "timer/agent.train_min": 0.10153365135192871, "timer/agent.train_max": 0.44594454765319824, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20150351524353027, "timer/agent.report_frac": 0.0006710806776368805, "timer/agent.report_avg": 0.10075175762176514, "timer/agent.report_min": 0.09903097152709961, "timer/agent.report_max": 0.10247254371643066, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.914138793945312e-05, "timer/dataset_eval_frac": 2.302662036197525e-07, "timer/dataset_eval_avg": 6.914138793945312e-05, "timer/dataset_eval_min": 6.914138793945312e-05, "timer/dataset_eval_max": 6.914138793945312e-05, "fps": 9.244748558493532}
+{"step": 321136, "episode/length": 753.0, "episode/score": 1430.0, "episode/reward_rate": 0.1286472148541114}
+{"step": 323448, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.593246245048415, "train/action_min": 0.0, "train/action_std": 2.8735824537948824, "train/actor_opt_grad_norm": 0.00872051532209759, "train/actor_opt_grad_steps": 79410.0, "train/actor_opt_loss": 0.001739883940336114, "train/adv_mag": 0.6887804122877793, "train/adv_max": 0.6404025542064452, "train/adv_mean": 0.0027216089018008757, "train/adv_min": -0.5061797932000227, "train/adv_std": 0.038283506303396025, "train/cont_avg": 0.9987621038732394, "train/cont_loss_mean": 0.00033764528625188203, "train/cont_loss_std": 0.01015897770982742, "train/cont_neg_acc": 0.9107142857142857, "train/cont_neg_loss": 0.2586471076642129, "train/cont_pos_acc": 0.9999586402530402, "train/cont_pos_loss": 0.00013417794914546313, "train/cont_pred": 0.9987596953418892, "train/cont_rate": 0.9987621038732394, "train/dyn_loss_mean": 4.674893355705369, "train/dyn_loss_std": 6.595236368582282, "train/extr_critic_critic_opt_grad_norm": 2.217989001475589, "train/extr_critic_critic_opt_grad_steps": 79410.0, "train/extr_critic_critic_opt_loss": 1.5790843359181579, "train/extr_critic_mag": 470.2973374917474, "train/extr_critic_max": 470.2973374917474, "train/extr_critic_mean": 171.21782233009876, "train/extr_critic_min": 0.1289338192469637, "train/extr_critic_std": 134.96618469668107, "train/extr_return_normed_mag": 1.3077812278774423, "train/extr_return_normed_max": 1.3077812278774423, "train/extr_return_normed_mean": 0.42843087878025754, "train/extr_return_normed_min": -0.012253890815846833, "train/extr_return_normed_std": 0.34815604292171104, "train/extr_return_rate": 0.9459177406740861, "train/extr_return_raw_mag": 515.6624897701639, "train/extr_return_raw_max": 515.6624897701639, "train/extr_return_raw_mean": 172.28049243335994, "train/extr_return_raw_min": 0.20468709199741797, "train/extr_return_raw_std": 135.94157033571057, "train/extr_reward_mag": 207.00478706897144, "train/extr_reward_max": 207.00478706897144, "train/extr_reward_mean": 0.9817897459151039, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.7801319276782825, "train/image_loss_mean": 2.0607381756876557, "train/image_loss_std": 1.7242081904075515, "train/model_loss_mean": 4.933673720964244, "train/model_loss_std": 5.376920068767709, "train/model_opt_grad_norm": 13.327725464189557, "train/model_opt_grad_steps": 79410.0, "train/model_opt_loss": 4.933673720964244, "train/policy_entropy_mag": 2.168576546118293, "train/policy_entropy_max": 2.168576546118293, "train/policy_entropy_mean": 1.1994069159870417, "train/policy_entropy_min": 0.07026352533991907, "train/policy_entropy_std": 0.5878144439677118, "train/policy_logprob_mag": 6.7894841382201285, "train/policy_logprob_max": -0.009070499249222413, "train/policy_logprob_mean": -1.2007581280990385, "train/policy_logprob_min": -6.7894841382201285, "train/policy_logprob_std": 1.1008711012316421, "train/policy_randomness_mag": 0.9869617122999379, "train/policy_randomness_max": 0.9869617122999379, "train/policy_randomness_mean": 0.5458736067086878, "train/policy_randomness_min": 0.03197830831500846, "train/policy_randomness_std": 0.26752588068935235, "train/post_ent_mag": 56.032721022485006, "train/post_ent_max": 56.032721022485006, "train/post_ent_mean": 38.55252408309722, "train/post_ent_min": 21.951047467513824, "train/post_ent_std": 5.043957095750621, "train/prior_ent_mag": 77.46304192341549, "train/prior_ent_max": 77.46304192341549, "train/prior_ent_mean": 43.17780787508253, "train/prior_ent_min": 26.57143087790046, "train/prior_ent_std": 7.621819925979829, "train/rep_loss_mean": 4.674893355705369, "train/rep_loss_std": 6.595236368582282, "train/reward_avg": 1.2920884683098592, "train/reward_loss_mean": 0.06766187635735726, "train/reward_loss_std": 0.2561037156363608, "train/reward_max_data": 211.1267605633803, "train/reward_max_pred": 176.65886089163766, "train/reward_neg_acc": 0.9687828077396876, "train/reward_neg_loss": 0.009665586333066014, "train/reward_pos_acc": 0.9941315936370635, "train/reward_pos_loss": 0.6656447649002075, "train/reward_pred": 1.1477379060127366, "train/reward_rate": 0.08871588908450705, "train_stats/mean_log_entropy": 1.1723296642303467, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 7.318425923585892e-05, "report/cont_loss_std": 0.0017064767889678478, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0007649295730516315, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.183055276982486e-05, "report/cont_pred": 0.9979780912399292, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.547060012817383, "report/dyn_loss_std": 6.198357105255127, "report/image_loss_mean": 1.7394933700561523, "report/image_loss_std": 1.4863089323043823, "report/model_loss_mean": 4.564183235168457, "report/model_loss_std": 4.873122215270996, "report/post_ent_mag": 56.91004180908203, "report/post_ent_max": 56.91004180908203, "report/post_ent_mean": 37.304229736328125, "report/post_ent_min": 22.6124210357666, "report/post_ent_std": 6.191568374633789, "report/prior_ent_mag": 77.22517395019531, "report/prior_ent_max": 77.22517395019531, "report/prior_ent_mean": 42.335731506347656, "report/prior_ent_min": 25.47590446472168, "report/prior_ent_std": 9.124785423278809, "report/rep_loss_mean": 4.547060012817383, "report/rep_loss_std": 6.198357105255127, "report/reward_avg": 2.177734375, "report/reward_loss_mean": 0.09638077020645142, "report/reward_loss_std": 0.2658643424510956, "report/reward_max_data": 410.0, "report/reward_max_pred": 406.9700622558594, "report/reward_neg_acc": 0.9506173133850098, "report/reward_neg_loss": 0.013920829631388187, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6488003730773926, "report/reward_pred": 1.9341669082641602, "report/reward_rate": 0.1298828125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0031728113535791636, "eval/cont_loss_std": 0.05768505483865738, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.6423502564430237, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.001921975053846836, "eval/cont_pred": 0.9974828958511353, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.815178871154785, "eval/dyn_loss_std": 11.229555130004883, "eval/image_loss_mean": 5.021615028381348, "eval/image_loss_std": 4.238396644592285, "eval/model_loss_mean": 12.62695598602295, "eval/model_loss_std": 10.785388946533203, "eval/post_ent_mag": 56.59494400024414, "eval/post_ent_max": 56.59494400024414, "eval/post_ent_mean": 35.20772933959961, "eval/post_ent_min": 22.483016967773438, "eval/post_ent_std": 5.381312847137451, "eval/prior_ent_mag": 77.22517395019531, "eval/prior_ent_max": 77.22517395019531, "eval/prior_ent_mean": 40.01899719238281, "eval/prior_ent_min": 24.696916580200195, "eval/prior_ent_std": 8.535690307617188, "eval/rep_loss_mean": 11.815178871154785, "eval/rep_loss_std": 11.229555130004883, "eval/reward_avg": 0.419921875, "eval/reward_loss_mean": 0.5130611062049866, "eval/reward_loss_std": 2.619521141052246, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.007709503173828, "eval/reward_neg_acc": 0.9378185272216797, "eval/reward_neg_loss": 0.11257831007242203, "eval/reward_pos_acc": 0.25581395626068115, "eval/reward_pos_loss": 9.649656295776367, "eval/reward_pred": 0.2509971559047699, "eval/reward_rate": 0.0419921875, "replay/size": 80799.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.95108846600136e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.462490371104037e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.7099349498749, "timer/env.step_count": 712.0, "timer/env.step_total": 2.854163885116577, "timer/env.step_frac": 0.00949141865097452, "timer/env.step_avg": 0.004008657142017665, "timer/env.step_min": 0.0023758411407470703, "timer/env.step_max": 0.018433809280395508, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 191.24443364143372, "timer/replay._sample_frac": 0.63597643913332, "timer/replay._sample_avg": 0.01678760829015394, "timer/replay._sample_min": 0.008520841598510742, "timer/replay._sample_max": 0.04955649375915527, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.22722530364990234, "timer/agent.save_frac": 0.0007556295194828809, "timer/agent.save_avg": 0.22722530364990234, "timer/agent.save_min": 0.22722530364990234, "timer/agent.save_max": 0.22722530364990234, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.60389161109924, "timer/agent.policy_frac": 0.6604500501262267, "timer/agent.policy_avg": 0.2789380500155888, "timer/agent.policy_min": 0.003635406494140625, "timer/agent.policy_max": 0.4254281520843506, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.1006479263305664, "timer/dataset_train_frac": 0.00033470103456124034, "timer/dataset_train_avg": 0.00014135944709349214, "timer/dataset_train_min": 9.250640869140625e-05, "timer/dataset_train_max": 0.0010483264923095703, "timer/agent.train_count": 712.0, "timer/agent.train_total": 98.07316279411316, "timer/agent.train_frac": 0.32613875165268785, "timer/agent.train_avg": 0.13774320617150726, "timer/agent.train_min": 0.09969830513000488, "timer/agent.train_max": 0.4517197608947754, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5020296573638916, "timer/agent.report_frac": 0.0016694814471213749, "timer/agent.report_avg": 0.2510148286819458, "timer/agent.report_min": 0.10433363914489746, "timer/agent.report_max": 0.39769601821899414, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010347366333007812, "timer/dataset_eval_frac": 3.440979206334705e-07, "timer/dataset_eval_avg": 0.00010347366333007812, "timer/dataset_eval_min": 0.00010347366333007812, "timer/dataset_eval_max": 0.00010347366333007812, "fps": 9.470574757576532}
+{"step": 323712, "episode/length": 643.0, "episode/score": 1140.0, "episode/reward_rate": 0.13509316770186336}
+{"step": 326248, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.6031720842633925, "train/action_min": 0.0, "train/action_std": 2.863921001979283, "train/actor_opt_grad_norm": 0.00838124021621687, "train/actor_opt_grad_steps": 80115.0, "train/actor_opt_loss": 0.0009555012530849386, "train/adv_mag": 0.6786386315311704, "train/adv_max": 0.651688466327531, "train/adv_mean": 0.002229985277671988, "train/adv_min": -0.4569869386298316, "train/adv_std": 0.037509315434311116, "train/cont_avg": 0.9983816964285714, "train/cont_loss_mean": 0.0002688918320172183, "train/cont_loss_std": 0.007134369153611228, "train/cont_neg_acc": 0.9625786183015356, "train/cont_neg_loss": 0.07396042254073916, "train/cont_pos_acc": 0.9999719713415418, "train/cont_pos_loss": 0.00010294308187297168, "train/cont_pred": 0.9983862740652901, "train/cont_rate": 0.9983816964285714, "train/dyn_loss_mean": 4.700633811950683, "train/dyn_loss_std": 6.562034096036639, "train/extr_critic_critic_opt_grad_norm": 2.1499485799244473, "train/extr_critic_critic_opt_grad_steps": 80115.0, "train/extr_critic_critic_opt_loss": 1.5424037524632046, "train/extr_critic_mag": 454.8082536969866, "train/extr_critic_max": 454.8082536969866, "train/extr_critic_mean": 176.88515842982702, "train/extr_critic_min": 0.1731041703905378, "train/extr_critic_std": 138.57546680995395, "train/extr_return_normed_mag": 1.2486742632729666, "train/extr_return_normed_max": 1.2486742632729666, "train/extr_return_normed_mean": 0.4447690899882998, "train/extr_return_normed_min": -0.011319885037872674, "train/extr_return_normed_std": 0.3580636524728366, "train/extr_return_rate": 0.9348224060876029, "train/extr_return_raw_mag": 490.93587297712054, "train/extr_return_raw_max": 490.93587297712054, "train/extr_return_raw_mean": 177.75351377214704, "train/extr_return_raw_min": 0.09740802617577304, "train/extr_return_raw_std": 139.4740033830915, "train/extr_reward_mag": 183.33567623410906, "train/extr_reward_max": 183.33567623410906, "train/extr_reward_mean": 0.9584795773029328, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.545134517124721, "train/image_loss_mean": 2.0086836082594735, "train/image_loss_std": 1.6806120429720197, "train/model_loss_mean": 4.899240119116647, "train/model_loss_std": 5.318215336118426, "train/model_opt_grad_norm": 13.459486171177454, "train/model_opt_grad_steps": 80115.0, "train/model_opt_loss": 4.899240119116647, "train/policy_entropy_mag": 2.1724468878337313, "train/policy_entropy_max": 2.1724468878337313, "train/policy_entropy_mean": 1.188973787852696, "train/policy_entropy_min": 0.0701455146074295, "train/policy_entropy_std": 0.6010667272976467, "train/policy_logprob_mag": 6.788868263789586, "train/policy_logprob_max": -0.009052634744771889, "train/policy_logprob_mean": -1.1891085181917462, "train/policy_logprob_min": -6.788868263789586, "train/policy_logprob_std": 1.0993475743702479, "train/policy_randomness_mag": 0.9887231801237378, "train/policy_randomness_max": 0.9887231801237378, "train/policy_randomness_mean": 0.5411252851997103, "train/policy_randomness_min": 0.031924599089792796, "train/policy_randomness_std": 0.27355725382055557, "train/post_ent_mag": 55.82260856628418, "train/post_ent_max": 55.82260856628418, "train/post_ent_mean": 38.38387380327497, "train/post_ent_min": 22.15884061540876, "train/post_ent_std": 5.2910743304661345, "train/prior_ent_mag": 77.46545922415596, "train/prior_ent_max": 77.46545922415596, "train/prior_ent_mean": 43.07652996608189, "train/prior_ent_min": 25.899896812438964, "train/prior_ent_std": 7.925243656975883, "train/rep_loss_mean": 4.700633811950683, "train/rep_loss_std": 6.562034096036639, "train/reward_avg": 1.2726004464285714, "train/reward_loss_mean": 0.06990737574441093, "train/reward_loss_std": 0.25973619031054634, "train/reward_max_data": 215.42857142857142, "train/reward_max_pred": 171.35327035358975, "train/reward_neg_acc": 0.9665071053164346, "train/reward_neg_loss": 0.0097090725021969, "train/reward_pos_acc": 0.9936127083642142, "train/reward_pos_loss": 0.6761132112571171, "train/reward_pred": 1.1097643443516323, "train/reward_rate": 0.09034598214285715, "train_stats/mean_log_entropy": 1.114338755607605, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.514528958068695e-05, "report/cont_loss_std": 0.0002720477059483528, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0009115685243159533, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3391036191023886e-05, "report/cont_pred": 0.9980353116989136, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.037489891052246, "report/dyn_loss_std": 6.290765285491943, "report/image_loss_mean": 1.7145613431930542, "report/image_loss_std": 2.0008978843688965, "report/model_loss_mean": 4.214730262756348, "report/model_loss_std": 5.453671455383301, "report/post_ent_mag": 58.58795166015625, "report/post_ent_max": 58.58795166015625, "report/post_ent_mean": 36.12413787841797, "report/post_ent_min": 20.298492431640625, "report/post_ent_std": 6.009761333465576, "report/prior_ent_mag": 77.75701904296875, "report/prior_ent_max": 77.75701904296875, "report/prior_ent_mean": 40.5963134765625, "report/prior_ent_min": 25.95419692993164, "report/prior_ent_std": 8.876413345336914, "report/rep_loss_mean": 4.037489891052246, "report/rep_loss_std": 6.290765285491943, "report/reward_avg": 1.455078125, "report/reward_loss_mean": 0.07765963673591614, "report/reward_loss_std": 0.2150946408510208, "report/reward_max_data": 200.0, "report/reward_max_pred": 178.72161865234375, "report/reward_neg_acc": 0.9611973166465759, "report/reward_neg_loss": 0.008975841104984283, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5854692459106445, "report/reward_pred": 1.373178243637085, "report/reward_rate": 0.119140625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.018222831189632416, "eval/cont_loss_std": 0.4159477651119232, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 9.330081939697266, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4350032273569013e-08, "eval/cont_pred": 0.9999996423721313, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.756967544555664, "eval/dyn_loss_std": 13.076395988464355, "eval/image_loss_mean": 5.203124523162842, "eval/image_loss_std": 4.786496639251709, "eval/model_loss_mean": 13.507099151611328, "eval/model_loss_std": 12.778203010559082, "eval/post_ent_mag": 58.20585632324219, "eval/post_ent_max": 58.20585632324219, "eval/post_ent_mean": 34.92094421386719, "eval/post_ent_min": 22.032257080078125, "eval/post_ent_std": 5.9007792472839355, "eval/prior_ent_mag": 77.75701904296875, "eval/prior_ent_max": 77.75701904296875, "eval/prior_ent_mean": 39.03389358520508, "eval/prior_ent_min": 25.679298400878906, "eval/prior_ent_std": 8.671841621398926, "eval/rep_loss_mean": 12.756967544555664, "eval/rep_loss_std": 13.076395988464355, "eval/reward_avg": 0.478515625, "eval/reward_loss_mean": 0.6315699815750122, "eval/reward_loss_std": 2.818816661834717, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.005281448364258, "eval/reward_neg_acc": 0.9333332777023315, "eval/reward_neg_loss": 0.1274629831314087, "eval/reward_pos_acc": 0.20408162474632263, "eval/reward_pos_loss": 10.662269592285156, "eval/reward_pred": 0.2847002446651459, "eval/reward_rate": 0.0478515625, "replay/size": 81499.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.18594469342913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2382864952087401e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.1473894119262695e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.10526490211487, "timer/env.step_count": 700.0, "timer/env.step_total": 2.6674458980560303, "timer/env.step_frac": 0.008888367549719826, "timer/env.step_avg": 0.0038106369972229002, "timer/env.step_min": 0.0022802352905273438, "timer/env.step_max": 0.02074122428894043, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 199.7247016429901, "timer/replay._sample_frac": 0.6655154874011763, "timer/replay._sample_avg": 0.017832562646695544, "timer/replay._sample_min": 0.0005595684051513672, "timer/replay._sample_max": 0.05312943458557129, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 197.86158752441406, "timer/agent.policy_frac": 0.6593072853585239, "timer/agent.policy_avg": 0.28265941074916295, "timer/agent.policy_min": 0.0030515193939208984, "timer/agent.policy_max": 0.3292880058288574, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.0962529182434082, "timer/dataset_train_frac": 0.0003207305219213763, "timer/dataset_train_avg": 0.0001375041689191546, "timer/dataset_train_min": 8.368492126464844e-05, "timer/dataset_train_max": 0.0018343925476074219, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.31162667274475, "timer/agent.train_frac": 0.3275904763110737, "timer/agent.train_avg": 0.14044518096106393, "timer/agent.train_min": 0.1003422737121582, "timer/agent.train_max": 0.4473876953125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.522782564163208, "timer/agent.report_frac": 0.0017419973099563036, "timer/agent.report_avg": 0.261391282081604, "timer/agent.report_min": 0.10907912254333496, "timer/agent.report_max": 0.41370344161987305, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.316734313964844e-05, "timer/dataset_eval_frac": 1.7716231388672902e-07, "timer/dataset_eval_avg": 5.316734313964844e-05, "timer/dataset_eval_min": 5.316734313964844e-05, "timer/dataset_eval_max": 5.316734313964844e-05, "fps": 9.329649953171065}
+{"step": 326716, "episode/length": 750.0, "episode/score": 1390.0, "episode/reward_rate": 0.1318242343541944}
+{"step": 329016, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.603110493093297, "train/action_min": 0.0, "train/action_std": 2.8341919822969297, "train/actor_opt_grad_norm": 0.007884445444991192, "train/actor_opt_grad_steps": 80810.0, "train/actor_opt_loss": 0.0009431682748349292, "train/adv_mag": 0.6630704817564591, "train/adv_max": 0.6305957440880762, "train/adv_mean": 0.002014065798777955, "train/adv_min": -0.47409230686616205, "train/adv_std": 0.03633274197362471, "train/cont_avg": 0.9984714673913043, "train/cont_loss_mean": 0.00020870589117024613, "train/cont_loss_std": 0.0050543791668278045, "train/cont_neg_acc": 0.9439655172413793, "train/cont_neg_loss": 0.09429975373027895, "train/cont_pos_acc": 0.9999999956808229, "train/cont_pos_loss": 8.611602860302013e-05, "train/cont_pred": 0.9984694926635079, "train/cont_rate": 0.9984714673913043, "train/dyn_loss_mean": 4.361908256143764, "train/dyn_loss_std": 6.552191782688749, "train/extr_critic_critic_opt_grad_norm": 2.118511929028276, "train/extr_critic_critic_opt_grad_steps": 80810.0, "train/extr_critic_critic_opt_loss": 1.5070021394370259, "train/extr_critic_mag": 464.71613742994225, "train/extr_critic_max": 464.71613742994225, "train/extr_critic_mean": 175.97116343180338, "train/extr_critic_min": 0.20523613950480585, "train/extr_critic_std": 139.31564662767494, "train/extr_return_normed_mag": 1.2695314711418704, "train/extr_return_normed_max": 1.2695314711418704, "train/extr_return_normed_mean": 0.4387316405773163, "train/extr_return_normed_min": -0.009441075303281346, "train/extr_return_normed_std": 0.3560790989709937, "train/extr_return_rate": 0.9207833746205205, "train/extr_return_raw_mag": 503.8239547066067, "train/extr_return_raw_max": 503.8239547066067, "train/extr_return_raw_mean": 176.76444874639097, "train/extr_return_raw_min": 0.3042477506155526, "train/extr_return_raw_std": 140.19721686321756, "train/extr_reward_mag": 193.93570969070214, "train/extr_reward_max": 193.93570969070214, "train/extr_reward_mean": 0.9498588481675023, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.59745154519012, "train/image_loss_mean": 1.9371762362079343, "train/image_loss_std": 1.668290214262147, "train/model_loss_mean": 4.6233589372773105, "train/model_loss_std": 5.304202625716942, "train/model_opt_grad_norm": 12.35444548510123, "train/model_opt_grad_steps": 80810.0, "train/model_opt_loss": 4.6233589372773105, "train/policy_entropy_mag": 2.1702538676883862, "train/policy_entropy_max": 2.1702538676883862, "train/policy_entropy_mean": 1.1942463292591814, "train/policy_entropy_min": 0.07045970468417458, "train/policy_entropy_std": 0.5976871994958408, "train/policy_logprob_mag": 6.789942762126094, "train/policy_logprob_max": -0.009101335620642572, "train/policy_logprob_mean": -1.1937509757885034, "train/policy_logprob_min": -6.789942762126094, "train/policy_logprob_std": 1.095371221286663, "train/policy_randomness_mag": 0.9877250963363094, "train/policy_randomness_max": 0.9877250963363094, "train/policy_randomness_mean": 0.5435249205084814, "train/policy_randomness_min": 0.032067593295073166, "train/policy_randomness_std": 0.27201916666134546, "train/post_ent_mag": 56.60308965047201, "train/post_ent_max": 56.60308965047201, "train/post_ent_mean": 38.359231865924336, "train/post_ent_min": 22.19587364749632, "train/post_ent_std": 5.1739716115205185, "train/prior_ent_mag": 77.54619742130888, "train/prior_ent_max": 77.54619742130888, "train/prior_ent_mean": 42.78136499377265, "train/prior_ent_min": 26.391574196193528, "train/prior_ent_std": 7.743988900944807, "train/rep_loss_mean": 4.361908256143764, "train/rep_loss_std": 6.552191782688749, "train/reward_avg": 1.2665591032608696, "train/reward_loss_mean": 0.06882901424946992, "train/reward_loss_std": 0.2688967328572619, "train/reward_max_data": 199.71014492753622, "train/reward_max_pred": 170.5751489970995, "train/reward_neg_acc": 0.9702757735183274, "train/reward_neg_loss": 0.009108764244297492, "train/reward_pos_acc": 0.993108244045921, "train/reward_pos_loss": 0.6753868331079897, "train/reward_pred": 1.1211611429850261, "train/reward_rate": 0.0895606884057971, "train_stats/mean_log_entropy": 1.0381728410720825, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.680977106843784e-06, "report/cont_loss_std": 3.7672063626814634e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00033110863296315074, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3589558420790127e-06, "report/cont_pred": 0.9990224242210388, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.487669944763184, "report/dyn_loss_std": 6.614283561706543, "report/image_loss_mean": 2.113480806350708, "report/image_loss_std": 1.9487553834915161, "report/model_loss_mean": 4.8904619216918945, "report/model_loss_std": 5.670790672302246, "report/post_ent_mag": 53.79295349121094, "report/post_ent_max": 53.79295349121094, "report/post_ent_mean": 38.516197204589844, "report/post_ent_min": 21.27663803100586, "report/post_ent_std": 4.803243637084961, "report/prior_ent_mag": 77.51504516601562, "report/prior_ent_max": 77.51504516601562, "report/prior_ent_mean": 42.953887939453125, "report/prior_ent_min": 26.010116577148438, "report/prior_ent_std": 7.661436080932617, "report/rep_loss_mean": 4.487669944763184, "report/rep_loss_std": 6.614283561706543, "report/reward_avg": 1.240234375, "report/reward_loss_mean": 0.08437716215848923, "report/reward_loss_std": 0.28235167264938354, "report/reward_max_data": 50.0, "report/reward_max_pred": 48.10623550415039, "report/reward_neg_acc": 0.9657459259033203, "report/reward_neg_loss": 0.007858764380216599, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6663028001785278, "report/reward_pred": 1.1547623872756958, "report/reward_rate": 0.1162109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012511168606579304, "eval/cont_loss_std": 0.397515207529068, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.405374050140381, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.731081612088019e-07, "eval/cont_pred": 0.9991016387939453, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.423360824584961, "eval/dyn_loss_std": 12.424652099609375, "eval/image_loss_mean": 6.188316822052002, "eval/image_loss_std": 5.142244815826416, "eval/model_loss_mean": 15.032732009887695, "eval/model_loss_std": 12.759462356567383, "eval/post_ent_mag": 57.62165069580078, "eval/post_ent_max": 57.62165069580078, "eval/post_ent_mean": 36.30695343017578, "eval/post_ent_min": 22.16156005859375, "eval/post_ent_std": 6.17303991317749, "eval/prior_ent_mag": 77.51504516601562, "eval/prior_ent_max": 77.51504516601562, "eval/prior_ent_mean": 40.26804733276367, "eval/prior_ent_min": 26.06537628173828, "eval/prior_ent_std": 8.480318069458008, "eval/rep_loss_mean": 13.423360824584961, "eval/rep_loss_std": 12.424652099609375, "eval/reward_avg": 0.48828125, "eval/reward_loss_mean": 0.7778875231742859, "eval/reward_loss_std": 3.543713092803955, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002988815307617, "eval/reward_neg_acc": 0.9507187008857727, "eval/reward_neg_loss": 0.08743318915367126, "eval/reward_pos_acc": 0.14000000059604645, "eval/reward_pos_loss": 14.22793960571289, "eval/reward_pred": 0.20702922344207764, "eval/reward_rate": 0.048828125, "replay/size": 82191.0, "replay/inserts": 692.0, "replay/samples": 11072.0, "replay/insert_wait_avg": 4.615742347143978e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0711393948924335e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.139111995697, "timer/env.step_count": 692.0, "timer/env.step_total": 2.3567845821380615, "timer/env.step_frac": 0.007852307439930888, "timer/env.step_avg": 0.0034057580666734992, "timer/env.step_min": 0.001842498779296875, "timer/env.step_max": 0.018086910247802734, "timer/replay._sample_count": 11072.0, "timer/replay._sample_total": 201.5678906440735, "timer/replay._sample_frac": 0.6715815519803473, "timer/replay._sample_avg": 0.018205192435339006, "timer/replay._sample_min": 0.0005128383636474609, "timer/replay._sample_max": 0.04875016212463379, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 692.0, "timer/agent.policy_total": 197.1841278076172, "timer/agent.policy_frac": 0.6569757819848688, "timer/agent.policy_avg": 0.28494816157170116, "timer/agent.policy_min": 0.0030274391174316406, "timer/agent.policy_max": 0.3343522548675537, "timer/dataset_train_count": 692.0, "timer/dataset_train_total": 0.09105181694030762, "timer/dataset_train_frac": 0.00030336538392108323, "timer/dataset_train_avg": 0.0001315777701449532, "timer/dataset_train_min": 8.082389831542969e-05, "timer/dataset_train_max": 0.0006475448608398438, "timer/agent.train_count": 692.0, "timer/agent.train_total": 99.25232219696045, "timer/agent.train_frac": 0.3306877318887496, "timer/agent.train_avg": 0.1434282112672839, "timer/agent.train_min": 0.10313558578491211, "timer/agent.train_max": 0.7438771724700928, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5356411933898926, "timer/agent.report_frac": 0.0017846430937583765, "timer/agent.report_avg": 0.2678205966949463, "timer/agent.report_min": 0.11772584915161133, "timer/agent.report_max": 0.41791534423828125, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.559226989746094e-05, "timer/dataset_eval_frac": 2.8517532862790654e-07, "timer/dataset_eval_avg": 8.559226989746094e-05, "timer/dataset_eval_min": 8.559226989746094e-05, "timer/dataset_eval_max": 8.559226989746094e-05, "fps": 9.222176557362934}
+{"step": 329476, "episode/length": 689.0, "episode/score": 1010.0, "episode/reward_rate": 0.13478260869565217}
+{"step": 331788, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.578154190726902, "train/action_min": 0.0, "train/action_std": 2.8413571620333022, "train/actor_opt_grad_norm": 0.0077153052257346935, "train/actor_opt_grad_steps": 81500.0, "train/actor_opt_loss": 0.0006314090586375391, "train/adv_mag": 0.634503448570984, "train/adv_max": 0.5857604973126149, "train/adv_mean": 0.0018601901137532443, "train/adv_min": -0.48019474420858466, "train/adv_std": 0.0348728746175766, "train/cont_avg": 0.9982591711956522, "train/cont_loss_mean": 0.00016833495122326145, "train/cont_loss_std": 0.004309457765280589, "train/cont_neg_acc": 0.9865591401054014, "train/cont_neg_loss": 0.038758803228116416, "train/cont_pos_acc": 0.9999858296435812, "train/cont_pos_loss": 9.439909859556352e-05, "train/cont_pred": 0.9982405754103176, "train/cont_rate": 0.9982591711956522, "train/dyn_loss_mean": 4.587280138679173, "train/dyn_loss_std": 6.665796328282011, "train/extr_critic_critic_opt_grad_norm": 2.1425419130187104, "train/extr_critic_critic_opt_grad_steps": 81500.0, "train/extr_critic_critic_opt_loss": 1.5389074985531792, "train/extr_critic_mag": 444.94250045997507, "train/extr_critic_max": 444.94250045997507, "train/extr_critic_mean": 167.73665618896484, "train/extr_critic_min": 0.6181000574775364, "train/extr_critic_std": 137.4393276269885, "train/extr_return_normed_mag": 1.1664496141931284, "train/extr_return_normed_max": 1.1664496141931284, "train/extr_return_normed_mean": 0.41524740340917005, "train/extr_return_normed_min": -0.009888286071330092, "train/extr_return_normed_std": 0.35022874198098114, "train/extr_return_rate": 0.9220458260480908, "train/extr_return_raw_mag": 464.66755211871606, "train/extr_return_raw_max": 464.66755211871606, "train/extr_return_raw_mean": 168.47024292876756, "train/extr_return_raw_min": 0.8073047763276575, "train/extr_return_raw_std": 138.11600560727328, "train/extr_reward_mag": 167.0254983210909, "train/extr_reward_max": 167.0254983210909, "train/extr_reward_mean": 0.9305370497530785, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.10161520778269, "train/image_loss_mean": 2.002969448117242, "train/image_loss_std": 1.737635562385338, "train/model_loss_mean": 4.82337464802507, "train/model_loss_std": 5.442382384037626, "train/model_opt_grad_norm": 12.801496284595434, "train/model_opt_grad_steps": 81500.0, "train/model_opt_loss": 4.82337464802507, "train/policy_entropy_mag": 2.170295694599981, "train/policy_entropy_max": 2.170295694599981, "train/policy_entropy_mean": 1.2138752436292344, "train/policy_entropy_min": 0.07003012558688289, "train/policy_entropy_std": 0.5878819486369258, "train/policy_logprob_mag": 6.788683732350667, "train/policy_logprob_max": -0.009035645876133787, "train/policy_logprob_mean": -1.2141887286435002, "train/policy_logprob_min": -6.788683732350667, "train/policy_logprob_std": 1.0930590629577637, "train/policy_randomness_mag": 0.9877441309500432, "train/policy_randomness_max": 0.9877441309500432, "train/policy_randomness_mean": 0.5524584288182466, "train/policy_randomness_min": 0.031872083473464714, "train/policy_randomness_std": 0.2675566040519355, "train/post_ent_mag": 56.658792302228406, "train/post_ent_max": 56.658792302228406, "train/post_ent_mean": 38.41150598940642, "train/post_ent_min": 22.67556223662003, "train/post_ent_std": 5.056037432905557, "train/prior_ent_mag": 77.66089397927989, "train/prior_ent_max": 77.66089397927989, "train/prior_ent_mean": 42.99531809488932, "train/prior_ent_min": 26.425820972608484, "train/prior_ent_std": 7.801757162895756, "train/rep_loss_mean": 4.587280138679173, "train/rep_loss_std": 6.665796328282011, "train/reward_avg": 1.226081295289855, "train/reward_loss_mean": 0.06786879405811214, "train/reward_loss_std": 0.2516700398662816, "train/reward_max_data": 174.20289855072463, "train/reward_max_pred": 141.36679786184558, "train/reward_neg_acc": 0.9680125264153965, "train/reward_neg_loss": 0.009357041115805076, "train/reward_pos_acc": 0.9952496108801469, "train/reward_pos_loss": 0.6603660540304322, "train/reward_pred": 1.0656936332799387, "train/reward_rate": 0.08970221920289854, "train_stats/mean_log_entropy": 0.826493501663208, "report/cont_avg": 1.0, "report/cont_loss_mean": 8.374817639378307e-07, "report/cont_loss_std": 1.817926204239484e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.374817639378307e-07, "report/cont_pred": 0.9999991655349731, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.058692455291748, "report/dyn_loss_std": 5.706498622894287, "report/image_loss_mean": 1.3188731670379639, "report/image_loss_std": 1.1320902109146118, "report/model_loss_mean": 3.2160444259643555, "report/model_loss_std": 4.272190570831299, "report/post_ent_mag": 57.2529182434082, "report/post_ent_max": 57.2529182434082, "report/post_ent_mean": 38.37152099609375, "report/post_ent_min": 20.309478759765625, "report/post_ent_std": 4.923841953277588, "report/prior_ent_mag": 77.39791107177734, "report/prior_ent_max": 77.39791107177734, "report/prior_ent_mean": 41.20450973510742, "report/prior_ent_min": 25.40841293334961, "report/prior_ent_std": 7.112518310546875, "report/rep_loss_mean": 3.058692455291748, "report/rep_loss_std": 5.706498622894287, "report/reward_avg": 1.142578125, "report/reward_loss_mean": 0.06195507571101189, "report/reward_loss_std": 0.2638590335845947, "report/reward_max_data": 200.0, "report/reward_max_pred": 49.98124313354492, "report/reward_neg_acc": 0.9796573519706726, "report/reward_neg_loss": 0.00477512925863266, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6553558707237244, "report/reward_pred": 0.8893916606903076, "report/reward_rate": 0.087890625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.013350020162761211, "eval/cont_loss_std": 0.42699193954467773, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.670415878295898, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.064496739175638e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.13166618347168, "eval/dyn_loss_std": 11.842598915100098, "eval/image_loss_mean": 5.825101375579834, "eval/image_loss_std": 4.459768772125244, "eval/model_loss_mean": 14.450899124145508, "eval/model_loss_std": 11.676231384277344, "eval/post_ent_mag": 57.769287109375, "eval/post_ent_max": 57.769287109375, "eval/post_ent_mean": 36.424068450927734, "eval/post_ent_min": 23.10022735595703, "eval/post_ent_std": 5.3600592613220215, "eval/prior_ent_mag": 77.39791107177734, "eval/prior_ent_max": 77.39791107177734, "eval/prior_ent_mean": 40.62763595581055, "eval/prior_ent_min": 25.906272888183594, "eval/prior_ent_std": 7.886110782623291, "eval/rep_loss_mean": 13.13166618347168, "eval/rep_loss_std": 11.842598915100098, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7334475517272949, "eval/reward_loss_std": 3.2726032733917236, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.016278266906738, "eval/reward_neg_acc": 0.9338158965110779, "eval/reward_neg_loss": 0.09077245742082596, "eval/reward_pos_acc": 0.19298246502876282, "eval/reward_pos_loss": 11.636374473571777, "eval/reward_pred": 0.22027981281280518, "eval/reward_rate": 0.0556640625, "replay/size": 82884.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.539586076832781e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0772055877751602e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7583370208740234e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.12187004089355, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4432199001312256, "timer/env.step_frac": 0.008140759284880908, "timer/env.step_avg": 0.0035255698414592, "timer/env.step_min": 0.002166748046875, "timer/env.step_max": 0.027706623077392578, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 202.06352424621582, "timer/replay._sample_frac": 0.6732715753726423, "timer/replay._sample_avg": 0.018223622316577905, "timer/replay._sample_min": 0.0005576610565185547, "timer/replay._sample_max": 0.06539058685302734, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15372252464294434, "timer/agent.save_frac": 0.0005122003425541719, "timer/agent.save_avg": 0.15372252464294434, "timer/agent.save_min": 0.15372252464294434, "timer/agent.save_max": 0.15372252464294434, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 197.5829610824585, "timer/agent.policy_frac": 0.6583424295454927, "timer/agent.policy_avg": 0.28511249795448557, "timer/agent.policy_min": 0.0030317306518554688, "timer/agent.policy_max": 0.37438416481018066, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.09105801582336426, "timer/dataset_train_frac": 0.00030340346676820655, "timer/dataset_train_avg": 0.00013139684822996285, "timer/dataset_train_min": 8.082389831542969e-05, "timer/dataset_train_max": 0.0010356903076171875, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.75818586349487, "timer/agent.train_frac": 0.3290602775800325, "timer/agent.train_avg": 0.14250820470922781, "timer/agent.train_min": 0.10318374633789062, "timer/agent.train_max": 0.4537794589996338, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4920530319213867, "timer/agent.report_frac": 0.0016395107489312302, "timer/agent.report_avg": 0.24602651596069336, "timer/agent.report_min": 0.09727334976196289, "timer/agent.report_max": 0.39477968215942383, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010514259338378906, "timer/dataset_eval_frac": 3.5033299429149463e-07, "timer/dataset_eval_avg": 0.00010514259338378906, "timer/dataset_eval_min": 0.00010514259338378906, "timer/dataset_eval_max": 0.00010514259338378906, "fps": 9.235969285594953}
+{"step": 332176, "episode/length": 674.0, "episode/score": 870.0, "episode/reward_rate": 0.11703703703703704}
+{"step": 334632, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.572972257372359, "train/action_min": 0.0, "train/action_std": 2.8864759962323685, "train/actor_opt_grad_norm": 0.008084090295392024, "train/actor_opt_grad_steps": 82200.0, "train/actor_opt_loss": 0.0013060817365558378, "train/adv_mag": 0.6106652781157427, "train/adv_max": 0.5949749144869791, "train/adv_mean": 0.002270964097270978, "train/adv_min": -0.43156730163265283, "train/adv_std": 0.03546128206899468, "train/cont_avg": 0.9987208406690141, "train/cont_loss_mean": 0.0004441110922812286, "train/cont_loss_std": 0.012823381764810004, "train/cont_neg_acc": 0.9270440261318998, "train/cont_neg_loss": 0.2400569246890336, "train/cont_pos_acc": 0.9999311205366967, "train/cont_pos_loss": 0.00016470845909779042, "train/cont_pred": 0.9987288008273487, "train/cont_rate": 0.9987208406690141, "train/dyn_loss_mean": 4.637206198463978, "train/dyn_loss_std": 6.567403477682194, "train/extr_critic_critic_opt_grad_norm": 2.221484231277251, "train/extr_critic_critic_opt_grad_steps": 82200.0, "train/extr_critic_critic_opt_loss": 1.5225659608840942, "train/extr_critic_mag": 459.98571433483716, "train/extr_critic_max": 459.98571433483716, "train/extr_critic_mean": 178.7191944390955, "train/extr_critic_min": 0.3793289829307879, "train/extr_critic_std": 138.05063994501677, "train/extr_return_normed_mag": 1.222751278272817, "train/extr_return_normed_max": 1.222751278272817, "train/extr_return_normed_mean": 0.4452410917466795, "train/extr_return_normed_min": -0.009396601514234928, "train/extr_return_normed_std": 0.3523013732382949, "train/extr_return_rate": 0.9411101181742171, "train/extr_return_raw_mag": 485.9908632090394, "train/extr_return_raw_max": 485.9908632090394, "train/extr_return_raw_mean": 179.6137494369292, "train/extr_return_raw_min": 0.4439583185889666, "train/extr_return_raw_std": 138.8301084276656, "train/extr_reward_mag": 152.03502472353654, "train/extr_reward_max": 152.03502472353654, "train/extr_reward_mean": 0.9390399351086415, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.698912566816303, "train/image_loss_mean": 1.9554777195755864, "train/image_loss_std": 1.7158195502321485, "train/model_loss_mean": 4.806452099706085, "train/model_loss_std": 5.350380279648472, "train/model_opt_grad_norm": 12.99373450749357, "train/model_opt_grad_steps": 82200.0, "train/model_opt_loss": 4.806452099706085, "train/policy_entropy_mag": 2.167824597425864, "train/policy_entropy_max": 2.167824597425864, "train/policy_entropy_mean": 1.1935657329962288, "train/policy_entropy_min": 0.07030070730498139, "train/policy_entropy_std": 0.5891666135317842, "train/policy_logprob_mag": 6.7906063375338706, "train/policy_logprob_max": -0.00907614803545072, "train/policy_logprob_mean": -1.193817888347196, "train/policy_logprob_min": -6.7906063375338706, "train/policy_logprob_std": 1.093638560301821, "train/policy_randomness_mag": 0.9866194876146989, "train/policy_randomness_max": 0.9866194876146989, "train/policy_randomness_mean": 0.543215166934779, "train/policy_randomness_min": 0.03199523021007927, "train/policy_randomness_std": 0.26814127723935627, "train/post_ent_mag": 55.97024331965917, "train/post_ent_max": 55.97024331965917, "train/post_ent_mean": 38.36648108254016, "train/post_ent_min": 22.31392919513541, "train/post_ent_std": 5.212087530485341, "train/prior_ent_mag": 77.51221186678174, "train/prior_ent_max": 77.51221186678174, "train/prior_ent_mean": 42.932675589977855, "train/prior_ent_min": 26.11002828033877, "train/prior_ent_std": 7.844090555755185, "train/rep_loss_mean": 4.637206198463978, "train/rep_loss_std": 6.567403477682194, "train/reward_avg": 1.220703125, "train/reward_loss_mean": 0.06820658610110551, "train/reward_loss_std": 0.25612912673345756, "train/reward_max_data": 179.29577464788733, "train/reward_max_pred": 142.58346741636035, "train/reward_neg_acc": 0.9692561643224367, "train/reward_neg_loss": 0.008821832012831115, "train/reward_pos_acc": 0.9929545034824963, "train/reward_pos_loss": 0.6600857847173449, "train/reward_pred": 1.0758240197745847, "train/reward_rate": 0.09146676936619719, "train_stats/mean_log_entropy": 1.1586685180664062, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.4171594052168075e-06, "report/cont_loss_std": 5.7698558521224186e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.4171594052168075e-06, "report/cont_pred": 0.999996542930603, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.837985038757324, "report/dyn_loss_std": 6.632649898529053, "report/image_loss_mean": 2.2761099338531494, "report/image_loss_std": 1.546712875366211, "report/model_loss_mean": 5.2218217849731445, "report/model_loss_std": 5.237868309020996, "report/post_ent_mag": 52.302791595458984, "report/post_ent_max": 52.302791595458984, "report/post_ent_mean": 39.883277893066406, "report/post_ent_min": 24.045631408691406, "report/post_ent_std": 4.2760772705078125, "report/prior_ent_mag": 77.60610961914062, "report/prior_ent_max": 77.60610961914062, "report/prior_ent_mean": 45.08464050292969, "report/prior_ent_min": 28.567628860473633, "report/prior_ent_std": 6.60336446762085, "report/rep_loss_mean": 4.837985038757324, "report/rep_loss_std": 6.632649898529053, "report/reward_avg": 1.259765625, "report/reward_loss_mean": 0.042917847633361816, "report/reward_loss_std": 0.1718791425228119, "report/reward_max_data": 400.0, "report/reward_max_pred": 191.74072265625, "report/reward_neg_acc": 0.9811912178993225, "report/reward_neg_loss": 0.002879585837945342, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6148077249526978, "report/reward_pred": 0.8240383863449097, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.012801731005311012, "eval/cont_loss_std": 0.4094546139240265, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 13.108949661254883, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.2313530578799146e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.750385284423828, "eval/dyn_loss_std": 10.44655704498291, "eval/image_loss_mean": 4.834931373596191, "eval/image_loss_std": 3.8523294925689697, "eval/model_loss_mean": 12.693084716796875, "eval/model_loss_std": 10.353272438049316, "eval/post_ent_mag": 58.1512336730957, "eval/post_ent_max": 58.1512336730957, "eval/post_ent_mean": 36.008087158203125, "eval/post_ent_min": 21.766883850097656, "eval/post_ent_std": 5.100244998931885, "eval/prior_ent_mag": 77.60610961914062, "eval/prior_ent_max": 77.60610961914062, "eval/prior_ent_mean": 40.71121597290039, "eval/prior_ent_min": 25.64301109313965, "eval/prior_ent_std": 7.723936557769775, "eval/rep_loss_mean": 11.750385284423828, "eval/rep_loss_std": 10.44655704498291, "eval/reward_avg": 0.60546875, "eval/reward_loss_mean": 0.7951204776763916, "eval/reward_loss_std": 3.463998556137085, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999554634094238, "eval/reward_neg_acc": 0.9386694431304932, "eval/reward_neg_loss": 0.10808274894952774, "eval/reward_pos_acc": 0.22580644488334656, "eval/reward_pos_loss": 11.45528507232666, "eval/reward_pred": 0.34663549065589905, "eval/reward_rate": 0.060546875, "replay/size": 83595.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.8015187581380206e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4454964679337085e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7881393432617188e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0637311935425, "timer/env.step_count": 711.0, "timer/env.step_total": 2.873581647872925, "timer/env.step_frac": 0.009576571071894895, "timer/env.step_avg": 0.004041605693210865, "timer/env.step_min": 0.002630472183227539, "timer/env.step_max": 0.02484869956970215, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 188.4958119392395, "timer/replay._sample_frac": 0.628185923002, "timer/replay._sample_avg": 0.016569603721803754, "timer/replay._sample_min": 0.00838470458984375, "timer/replay._sample_max": 0.041199445724487305, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.15499448776245, "timer/agent.policy_frac": 0.6603763597139022, "timer/agent.policy_avg": 0.2786990077183719, "timer/agent.policy_min": 0.0034313201904296875, "timer/agent.policy_max": 0.3307785987854004, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.0977938175201416, "timer/dataset_train_frac": 0.00032591015625631925, "timer/dataset_train_avg": 0.00013754404714506554, "timer/dataset_train_min": 8.20159912109375e-05, "timer/dataset_train_max": 0.00034165382385253906, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.86251187324524, "timer/agent.train_frac": 0.3261390887995173, "timer/agent.train_avg": 0.13764066367545041, "timer/agent.train_min": 0.10123944282531738, "timer/agent.train_max": 0.42999792098999023, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4984323978424072, "timer/agent.report_frac": 0.001661088448976581, "timer/agent.report_avg": 0.2492161989212036, "timer/agent.report_min": 0.10037541389465332, "timer/agent.report_max": 0.3980569839477539, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.605552673339844e-05, "timer/dataset_eval_frac": 2.534645771112613e-07, "timer/dataset_eval_avg": 7.605552673339844e-05, "timer/dataset_eval_min": 7.605552673339844e-05, "timer/dataset_eval_max": 7.605552673339844e-05, "fps": 9.477626946200697}
+{"step": 334736, "episode/length": 639.0, "episode/score": 1010.0, "episode/reward_rate": 0.13125}
+{"step": 337436, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5517953055245535, "train/action_min": 0.0, "train/action_std": 2.890054505211966, "train/actor_opt_grad_norm": 0.008151701731341226, "train/actor_opt_grad_steps": 82905.0, "train/actor_opt_loss": 0.0012013385689345212, "train/adv_mag": 0.6076946756669453, "train/adv_max": 0.5842729223626001, "train/adv_mean": 0.002286282190315043, "train/adv_min": -0.44512719064950945, "train/adv_std": 0.03586495449500424, "train/cont_avg": 0.9986607142857142, "train/cont_loss_mean": 0.0002716545959227926, "train/cont_loss_std": 0.007690958131341067, "train/cont_neg_acc": 0.9583333336881229, "train/cont_neg_loss": 0.11956241311369606, "train/cont_pos_acc": 0.9999999991485051, "train/cont_pos_loss": 6.518681906240482e-05, "train/cont_pred": 0.998685884475708, "train/cont_rate": 0.9986607142857142, "train/dyn_loss_mean": 4.496700310707093, "train/dyn_loss_std": 6.611966644014631, "train/extr_critic_critic_opt_grad_norm": 2.2259104830878123, "train/extr_critic_critic_opt_grad_steps": 82905.0, "train/extr_critic_critic_opt_loss": 1.5338177340371268, "train/extr_critic_mag": 451.1908037458147, "train/extr_critic_max": 451.1908037458147, "train/extr_critic_mean": 174.03973563058037, "train/extr_critic_min": 0.07824418204171317, "train/extr_critic_std": 135.77558244977678, "train/extr_return_normed_mag": 1.1741843725953782, "train/extr_return_normed_max": 1.1741843725953782, "train/extr_return_normed_mean": 0.4309801010148866, "train/extr_return_normed_min": -0.0102749256612047, "train/extr_return_normed_std": 0.3444940190230097, "train/extr_return_rate": 0.9362119138240814, "train/extr_return_raw_mag": 469.35545349121094, "train/extr_return_raw_max": 469.35545349121094, "train/extr_return_raw_mean": 174.94512340000696, "train/extr_return_raw_min": 0.09221541352037872, "train/extr_return_raw_std": 136.50366657802036, "train/extr_reward_mag": 175.76926257269724, "train/extr_reward_max": 175.76926257269724, "train/extr_reward_mean": 0.9933901046003614, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.4132945367268155, "train/image_loss_mean": 1.9378719432013376, "train/image_loss_std": 1.6290788088526045, "train/model_loss_mean": 4.710090749604362, "train/model_loss_std": 5.320372915267944, "train/model_opt_grad_norm": 12.23195389338902, "train/model_opt_grad_steps": 82905.0, "train/model_opt_loss": 4.710090749604362, "train/policy_entropy_mag": 2.167611220904759, "train/policy_entropy_max": 2.167611220904759, "train/policy_entropy_mean": 1.2001040501253946, "train/policy_entropy_min": 0.07011686403836523, "train/policy_entropy_std": 0.5961621497358595, "train/policy_logprob_mag": 6.793804924828666, "train/policy_logprob_max": -0.009056394613747085, "train/policy_logprob_mean": -1.199542840889522, "train/policy_logprob_min": -6.793804924828666, "train/policy_logprob_std": 1.0936875530651637, "train/policy_randomness_mag": 0.9865223782403129, "train/policy_randomness_max": 0.9865223782403129, "train/policy_randomness_mean": 0.54619089279856, "train/policy_randomness_min": 0.03191155966903482, "train/policy_randomness_std": 0.2713250824383327, "train/post_ent_mag": 56.789290128435404, "train/post_ent_max": 56.789290128435404, "train/post_ent_mean": 38.63671891348702, "train/post_ent_min": 22.57775636400495, "train/post_ent_std": 5.09079384803772, "train/prior_ent_mag": 77.65515322004046, "train/prior_ent_max": 77.65515322004046, "train/prior_ent_mean": 43.159441103254046, "train/prior_ent_min": 26.47624751499721, "train/prior_ent_std": 7.648118489129203, "train/rep_loss_mean": 4.496700310707093, "train/rep_loss_std": 6.611966644014631, "train/reward_avg": 1.2960379464285714, "train/reward_loss_mean": 0.07392695854817118, "train/reward_loss_std": 0.28989046599183765, "train/reward_max_data": 194.57142857142858, "train/reward_max_pred": 150.1333312715803, "train/reward_neg_acc": 0.9674160957336426, "train/reward_neg_loss": 0.010013605374842883, "train/reward_pos_acc": 0.9909712621143886, "train/reward_pos_loss": 0.6945705796991076, "train/reward_pred": 1.1349340736865998, "train/reward_rate": 0.09377790178571428, "train_stats/mean_log_entropy": 1.1496120691299438, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.0311399061465636e-05, "report/cont_loss_std": 0.0011157289845868945, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.0311399061465636e-05, "report/cont_pred": 0.9999603033065796, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.825496673583984, "report/dyn_loss_std": 6.764081001281738, "report/image_loss_mean": 2.105238676071167, "report/image_loss_std": 1.8708994388580322, "report/model_loss_mean": 5.043298721313477, "report/model_loss_std": 5.6003804206848145, "report/post_ent_mag": 58.076515197753906, "report/post_ent_max": 58.076515197753906, "report/post_ent_mean": 38.05089569091797, "report/post_ent_min": 20.360145568847656, "report/post_ent_std": 5.003371715545654, "report/prior_ent_mag": 77.48040771484375, "report/prior_ent_max": 77.48040771484375, "report/prior_ent_mean": 43.00983428955078, "report/prior_ent_min": 26.11319351196289, "report/prior_ent_std": 7.606310844421387, "report/rep_loss_mean": 4.825496673583984, "report/rep_loss_std": 6.764081001281738, "report/reward_avg": 1.533203125, "report/reward_loss_mean": 0.042722031474113464, "report/reward_loss_std": 0.1919291615486145, "report/reward_max_data": 410.0, "report/reward_max_pred": 199.33168029785156, "report/reward_neg_acc": 0.980187714099884, "report/reward_neg_loss": 0.002841009758412838, "report/reward_pos_acc": 0.9846153855323792, "report/reward_pos_loss": 0.631120502948761, "report/reward_pred": 1.1398851871490479, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012649770826101303, "eval/cont_loss_std": 0.39323246479034424, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.476423263549805, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.08265770804428e-07, "eval/cont_pred": 0.999323844909668, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.291936874389648, "eval/dyn_loss_std": 11.450333595275879, "eval/image_loss_mean": 5.707100868225098, "eval/image_loss_std": 4.2825541496276855, "eval/model_loss_mean": 14.467079162597656, "eval/model_loss_std": 11.028971672058105, "eval/post_ent_mag": 58.751895904541016, "eval/post_ent_max": 58.751895904541016, "eval/post_ent_mean": 36.0338134765625, "eval/post_ent_min": 20.860248565673828, "eval/post_ent_std": 6.21788215637207, "eval/prior_ent_mag": 77.48040771484375, "eval/prior_ent_max": 77.48040771484375, "eval/prior_ent_mean": 40.45458984375, "eval/prior_ent_min": 25.365150451660156, "eval/prior_ent_std": 8.178974151611328, "eval/rep_loss_mean": 13.291936874389648, "eval/rep_loss_std": 11.450333595275879, "eval/reward_avg": 0.64453125, "eval/reward_loss_mean": 0.7721656560897827, "eval/reward_loss_std": 3.2549145221710205, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008785247802734, "eval/reward_neg_acc": 0.9144050478935242, "eval/reward_neg_loss": 0.14303834736347198, "eval/reward_pos_acc": 0.27272725105285645, "eval/reward_pos_loss": 9.904043197631836, "eval/reward_pred": 0.38853323459625244, "eval/reward_rate": 0.064453125, "replay/size": 84296.0, "replay/inserts": 701.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 5.633276641453894e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2311845295099321e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.430511474609375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3994662761688, "timer/env.step_count": 701.0, "timer/env.step_total": 2.5660934448242188, "timer/env.step_frac": 0.008542270319698604, "timer/env.step_avg": 0.003660618323572352, "timer/env.step_min": 0.002303600311279297, "timer/env.step_max": 0.024657726287841797, "timer/replay._sample_count": 11216.0, "timer/replay._sample_total": 201.35023832321167, "timer/replay._sample_frac": 0.6702749536116107, "timer/replay._sample_avg": 0.01795205405877422, "timer/replay._sample_min": 0.0005919933319091797, "timer/replay._sample_max": 0.04980802536010742, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 701.0, "timer/agent.policy_total": 198.08590650558472, "timer/agent.policy_frac": 0.6594083170689681, "timer/agent.policy_avg": 0.2825761861705916, "timer/agent.policy_min": 0.003072500228881836, "timer/agent.policy_max": 0.33244919776916504, "timer/dataset_train_count": 701.0, "timer/dataset_train_total": 0.09155535697937012, "timer/dataset_train_frac": 0.00030477869389821, "timer/dataset_train_avg": 0.00013060678599054225, "timer/dataset_train_min": 8.225440979003906e-05, "timer/dataset_train_max": 0.001422882080078125, "timer/agent.train_count": 701.0, "timer/agent.train_total": 98.56176996231079, "timer/agent.train_frac": 0.3281023471316662, "timer/agent.train_avg": 0.14060166899045762, "timer/agent.train_min": 0.10218095779418945, "timer/agent.train_max": 0.4483819007873535, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4848670959472656, "timer/agent.report_frac": 0.0016140744254901857, "timer/agent.report_avg": 0.2424335479736328, "timer/agent.report_min": 0.10063934326171875, "timer/agent.report_max": 0.3842277526855469, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.3392181396484375e-05, "timer/dataset_eval_frac": 1.4444826395461124e-07, "timer/dataset_eval_avg": 4.3392181396484375e-05, "timer/dataset_eval_min": 4.3392181396484375e-05, "timer/dataset_eval_max": 4.3392181396484375e-05, "fps": 9.333666676254694}
+{"step": 338084, "episode/length": 836.0, "episode/score": 2130.0, "episode/reward_rate": 0.1063321385902031}
+{"step": 340208, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.615933663504464, "train/action_min": 0.0, "train/action_std": 2.869977160862514, "train/actor_opt_grad_norm": 0.007619248676512922, "train/actor_opt_grad_steps": 83605.0, "train/actor_opt_loss": 0.0013636485966604336, "train/adv_mag": 0.6279871651104518, "train/adv_max": 0.5958506526691573, "train/adv_mean": 0.0022581565571662006, "train/adv_min": -0.4267254126923425, "train/adv_std": 0.03386759598340307, "train/cont_avg": 0.9986049107142857, "train/cont_loss_mean": 0.0005131651599016772, "train/cont_loss_std": 0.014049308275734416, "train/cont_neg_acc": 0.9109195409149959, "train/cont_neg_loss": 0.19853753651468142, "train/cont_pos_acc": 0.9999440159116473, "train/cont_pos_loss": 0.0001857146210982779, "train/cont_pred": 0.9986268358571189, "train/cont_rate": 0.9986049107142857, "train/dyn_loss_mean": 4.50380231652941, "train/dyn_loss_std": 6.5319151742117745, "train/extr_critic_critic_opt_grad_norm": 2.1683538351740155, "train/extr_critic_critic_opt_grad_steps": 83605.0, "train/extr_critic_critic_opt_loss": 1.4990195563861302, "train/extr_critic_mag": 454.5662754603795, "train/extr_critic_max": 454.5662754603795, "train/extr_critic_mean": 171.02330518450057, "train/extr_critic_min": 0.2714267407144819, "train/extr_critic_std": 136.8253296988351, "train/extr_return_normed_mag": 1.211762877873012, "train/extr_return_normed_max": 1.211762877873012, "train/extr_return_normed_mean": 0.4224106505513191, "train/extr_return_normed_min": -0.009308938096676553, "train/extr_return_normed_std": 0.34635289353983745, "train/extr_return_rate": 0.9168062218597957, "train/extr_return_raw_mag": 485.43034798758373, "train/extr_return_raw_max": 485.43034798758373, "train/extr_return_raw_mean": 171.92044830322266, "train/extr_return_raw_min": 0.4506658800187454, "train/extr_return_raw_std": 137.54553407941546, "train/extr_reward_mag": 167.4124229158674, "train/extr_reward_max": 167.4124229158674, "train/extr_reward_mean": 1.002709711449487, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.264349906785148, "train/image_loss_mean": 1.9632485594068254, "train/image_loss_std": 1.6195597069604055, "train/model_loss_mean": 4.735726482527596, "train/model_loss_std": 5.247382266180856, "train/model_opt_grad_norm": 12.48461766924177, "train/model_opt_grad_steps": 83605.0, "train/model_opt_loss": 4.735726482527596, "train/policy_entropy_mag": 2.16988868032183, "train/policy_entropy_max": 2.16988868032183, "train/policy_entropy_mean": 1.2012378309454237, "train/policy_entropy_min": 0.07007358723453112, "train/policy_entropy_std": 0.6077658125332424, "train/policy_logprob_mag": 6.792112657002041, "train/policy_logprob_max": -0.009042424961392369, "train/policy_logprob_mean": -1.2023907967976162, "train/policy_logprob_min": -6.792112657002041, "train/policy_logprob_std": 1.096783936875207, "train/policy_randomness_mag": 0.9875588876860483, "train/policy_randomness_max": 0.9875588876860483, "train/policy_randomness_mean": 0.5467068889311382, "train/policy_randomness_min": 0.03189186347382409, "train/policy_randomness_std": 0.276606137411935, "train/post_ent_mag": 56.49557440621512, "train/post_ent_max": 56.49557440621512, "train/post_ent_mean": 38.69122047424317, "train/post_ent_min": 22.727998706272672, "train/post_ent_std": 5.157866542679923, "train/prior_ent_mag": 77.70518341064454, "train/prior_ent_max": 77.70518341064454, "train/prior_ent_mean": 43.231739153180804, "train/prior_ent_min": 26.455781173706054, "train/prior_ent_std": 7.720827048165457, "train/rep_loss_mean": 4.50380231652941, "train/rep_loss_std": 6.5319151742117745, "train/reward_avg": 1.2917131696428572, "train/reward_loss_mean": 0.06968339048326015, "train/reward_loss_std": 0.24759791025093625, "train/reward_max_data": 184.0, "train/reward_max_pred": 153.6726537840707, "train/reward_neg_acc": 0.967844535623278, "train/reward_neg_loss": 0.009120569394768348, "train/reward_pos_acc": 0.9967476606369019, "train/reward_pos_loss": 0.6502797041620527, "train/reward_pred": 1.1481446632317134, "train/reward_rate": 0.09483816964285714, "train_stats/mean_log_entropy": 1.002172589302063, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 2.4506243789801374e-05, "report/cont_loss_std": 0.0007646067533642054, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02447705715894699, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.034572379576275e-07, "report/cont_pred": 0.9990464448928833, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.566227912902832, "report/dyn_loss_std": 6.430197238922119, "report/image_loss_mean": 1.9503421783447266, "report/image_loss_std": 1.4633705615997314, "report/model_loss_mean": 4.771511077880859, "report/model_loss_std": 5.015121936798096, "report/post_ent_mag": 58.488548278808594, "report/post_ent_max": 58.488548278808594, "report/post_ent_mean": 39.413448333740234, "report/post_ent_min": 20.916706085205078, "report/post_ent_std": 5.4147820472717285, "report/prior_ent_mag": 77.48342895507812, "report/prior_ent_max": 77.48342895507812, "report/prior_ent_mean": 44.11809539794922, "report/prior_ent_min": 25.59002685546875, "report/prior_ent_std": 7.431338310241699, "report/rep_loss_mean": 4.566227912902832, "report/rep_loss_std": 6.430197238922119, "report/reward_avg": 1.30859375, "report/reward_loss_mean": 0.08140746504068375, "report/reward_loss_std": 0.23690466582775116, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.97336196899414, "report/reward_neg_acc": 0.9611973166465759, "report/reward_neg_loss": 0.010836618021130562, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6031690239906311, "report/reward_pred": 1.2312676906585693, "report/reward_rate": 0.119140625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.01965922862291336, "eval/cont_loss_std": 0.46068429946899414, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.06552505493164, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.651369568340556e-09, "eval/cont_pred": 0.9999993443489075, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.882484436035156, "eval/dyn_loss_std": 12.892282485961914, "eval/image_loss_mean": 5.634507179260254, "eval/image_loss_std": 4.194310665130615, "eval/model_loss_mean": 14.801434516906738, "eval/model_loss_std": 11.808416366577148, "eval/post_ent_mag": 58.4621696472168, "eval/post_ent_max": 58.4621696472168, "eval/post_ent_mean": 36.627037048339844, "eval/post_ent_min": 21.985931396484375, "eval/post_ent_std": 4.970187187194824, "eval/prior_ent_mag": 77.48342895507812, "eval/prior_ent_max": 77.48342895507812, "eval/prior_ent_mean": 41.26801300048828, "eval/prior_ent_min": 25.561031341552734, "eval/prior_ent_std": 7.412405967712402, "eval/rep_loss_mean": 13.882484436035156, "eval/rep_loss_std": 12.892282485961914, "eval/reward_avg": 0.5859375, "eval/reward_loss_mean": 0.817777156829834, "eval/reward_loss_std": 3.4723546504974365, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009456634521484, "eval/reward_neg_acc": 0.9149377942085266, "eval/reward_neg_loss": 0.1416233628988266, "eval/reward_pos_acc": 0.20000001788139343, "eval/reward_pos_loss": 11.681315422058105, "eval/reward_pred": 0.29663339257240295, "eval/reward_rate": 0.05859375, "replay/size": 84989.0, "replay/inserts": 693.0, "replay/samples": 11088.0, "replay/insert_wait_avg": 4.799335033862622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0915046818500645e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2069940567016602e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.14274883270264, "timer/env.step_count": 693.0, "timer/env.step_total": 2.4219329357147217, "timer/env.step_frac": 0.008069270189381418, "timer/env.step_avg": 0.0034948527210890644, "timer/env.step_min": 0.002236604690551758, "timer/env.step_max": 0.02061176300048828, "timer/replay._sample_count": 11088.0, "timer/replay._sample_total": 202.93469977378845, "timer/replay._sample_frac": 0.6761272779803278, "timer/replay._sample_avg": 0.018302191538040084, "timer/replay._sample_min": 0.0005488395690917969, "timer/replay._sample_max": 0.057761430740356445, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.21754217147827148, "timer/agent.save_frac": 0.0007247956924640812, "timer/agent.save_avg": 0.21754217147827148, "timer/agent.save_min": 0.21754217147827148, "timer/agent.save_max": 0.21754217147827148, "timer/agent.policy_count": 693.0, "timer/agent.policy_total": 198.0292890071869, "timer/agent.policy_frac": 0.6597836855208085, "timer/agent.policy_avg": 0.28575654979392046, "timer/agent.policy_min": 0.0029261112213134766, "timer/agent.policy_max": 0.4304943084716797, "timer/dataset_train_count": 693.0, "timer/dataset_train_total": 0.08770465850830078, "timer/dataset_train_frac": 0.0002922098196588008, "timer/dataset_train_avg": 0.0001265579487854268, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0008697509765625, "timer/agent.train_count": 693.0, "timer/agent.train_total": 98.39505934715271, "timer/agent.train_frac": 0.32782754116108065, "timer/agent.train_avg": 0.141984212622154, "timer/agent.train_min": 0.10315847396850586, "timer/agent.train_max": 0.4462904930114746, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5161304473876953, "timer/agent.report_frac": 0.001719616580427144, "timer/agent.report_avg": 0.25806522369384766, "timer/agent.report_min": 0.10929012298583984, "timer/agent.report_max": 0.40684032440185547, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001010894775390625, "timer/dataset_eval_frac": 3.3680466355497077e-07, "timer/dataset_eval_avg": 0.0001010894775390625, "timer/dataset_eval_min": 0.0001010894775390625, "timer/dataset_eval_max": 0.0001010894775390625, "fps": 9.235168453119316}
+{"step": 340748, "episode/length": 665.0, "episode/score": 1230.0, "episode/reward_rate": 0.12912912912912913}
+{"step": 342984, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.579915364583333, "train/action_min": 0.0, "train/action_std": 2.8835735286491504, "train/actor_opt_grad_norm": 0.007679545462293469, "train/actor_opt_grad_steps": 84300.0, "train/actor_opt_loss": 0.0011570557400536136, "train/adv_mag": 0.5979431560937909, "train/adv_max": 0.570280850365542, "train/adv_mean": 0.0022562625504772018, "train/adv_min": -0.42566850371118903, "train/adv_std": 0.034702119619950005, "train/cont_avg": 0.9979619565217391, "train/cont_loss_mean": 0.000254136799736269, "train/cont_loss_std": 0.006631529077015534, "train/cont_neg_acc": 0.981538462638855, "train/cont_neg_loss": 0.04595691563146672, "train/cont_pos_acc": 0.9999858158222144, "train/cont_pos_loss": 0.00012359889942822284, "train/cont_pred": 0.9979270480681157, "train/cont_rate": 0.9979619565217391, "train/dyn_loss_mean": 4.454561040021371, "train/dyn_loss_std": 6.612668161806853, "train/extr_critic_critic_opt_grad_norm": 2.1450843586437944, "train/extr_critic_critic_opt_grad_steps": 84300.0, "train/extr_critic_critic_opt_loss": 1.500391732091489, "train/extr_critic_mag": 466.26803986922556, "train/extr_critic_max": 466.26803986922556, "train/extr_critic_mean": 181.82314975019816, "train/extr_critic_min": 0.002865689388219861, "train/extr_critic_std": 143.2244451771612, "train/extr_return_normed_mag": 1.208977637083634, "train/extr_return_normed_max": 1.208977637083634, "train/extr_return_normed_mean": 0.44754519518734753, "train/extr_return_normed_min": -0.008027723308760618, "train/extr_return_normed_std": 0.3589407261730968, "train/extr_return_rate": 0.9228412318920743, "train/extr_return_raw_mag": 488.1306594627491, "train/extr_return_raw_max": 488.1306594627491, "train/extr_return_raw_mean": 182.72749815125397, "train/extr_return_raw_min": 0.003160063969477525, "train/extr_return_raw_std": 143.95835588980412, "train/extr_reward_mag": 176.4383549897567, "train/extr_reward_max": 176.4383549897567, "train/extr_reward_mean": 0.9916373962077542, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.363610184710959, "train/image_loss_mean": 1.900133879288383, "train/image_loss_std": 1.637710123822309, "train/model_loss_mean": 4.6411791124205655, "train/model_loss_std": 5.309603815493376, "train/model_opt_grad_norm": 12.781003081280252, "train/model_opt_grad_steps": 84300.0, "train/model_opt_loss": 4.6411791124205655, "train/policy_entropy_mag": 2.1747769618379897, "train/policy_entropy_max": 2.1747769618379897, "train/policy_entropy_mean": 1.1726930288300998, "train/policy_entropy_min": 0.0699003742656846, "train/policy_entropy_std": 0.6165891540223274, "train/policy_logprob_mag": 6.795736167741858, "train/policy_logprob_max": -0.009016370225319828, "train/policy_logprob_mean": -1.1741106596545896, "train/policy_logprob_min": -6.795736167741858, "train/policy_logprob_std": 1.0997324007144873, "train/policy_randomness_mag": 0.9897836420847022, "train/policy_randomness_max": 0.9897836420847022, "train/policy_randomness_mean": 0.533715587163317, "train/policy_randomness_min": 0.03181303114346836, "train/policy_randomness_std": 0.28062181498693384, "train/post_ent_mag": 56.99080696658812, "train/post_ent_max": 56.99080696658812, "train/post_ent_mean": 38.23806652124377, "train/post_ent_min": 22.244988565859586, "train/post_ent_std": 5.327887576559315, "train/prior_ent_mag": 77.75661645419356, "train/prior_ent_max": 77.75661645419356, "train/prior_ent_mean": 42.73277216372283, "train/prior_ent_min": 26.025572956472203, "train/prior_ent_std": 7.973746769670127, "train/rep_loss_mean": 4.454561040021371, "train/rep_loss_std": 6.612668161806853, "train/reward_avg": 1.279296875, "train/reward_loss_mean": 0.06805448531024698, "train/reward_loss_std": 0.24759511649608612, "train/reward_max_data": 187.97101449275362, "train/reward_max_pred": 148.83617347219715, "train/reward_neg_acc": 0.9699319307354913, "train/reward_neg_loss": 0.008433984035788022, "train/reward_pos_acc": 0.9950149119764135, "train/reward_pos_loss": 0.6518284013305885, "train/reward_pred": 1.1294105225715085, "train/reward_rate": 0.09290081521739131, "train_stats/mean_log_entropy": 1.025591254234314, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 8.200228762689221e-07, "report/cont_loss_std": 1.2744625564664602e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00013347702042665333, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.90348372245353e-07, "report/cont_pred": 0.9990228414535522, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.5490546226501465, "report/dyn_loss_std": 5.9887261390686035, "report/image_loss_mean": 1.3752131462097168, "report/image_loss_std": 1.2946066856384277, "report/model_loss_mean": 3.574794292449951, "report/model_loss_std": 4.631787300109863, "report/post_ent_mag": 58.94226837158203, "report/post_ent_max": 58.94226837158203, "report/post_ent_mean": 36.91436767578125, "report/post_ent_min": 21.198074340820312, "report/post_ent_std": 6.5415825843811035, "report/prior_ent_mag": 77.9395980834961, "report/prior_ent_max": 77.9395980834961, "report/prior_ent_mean": 40.49794006347656, "report/prior_ent_min": 26.03968048095703, "report/prior_ent_std": 9.223557472229004, "report/rep_loss_mean": 3.5490546226501465, "report/rep_loss_std": 5.9887261390686035, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.07014736533164978, "report/reward_loss_std": 0.26078134775161743, "report/reward_max_data": 200.0, "report/reward_max_pred": 192.80072021484375, "report/reward_neg_acc": 0.9602578282356262, "report/reward_neg_loss": 0.007219188846647739, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7001057267189026, "report/reward_pred": 1.2521145343780518, "report/reward_rate": 0.0908203125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.012695016339421272, "eval/cont_loss_std": 0.40604105591773987, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 12.999661445617676, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.440968754375717e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.023022651672363, "eval/dyn_loss_std": 12.139013290405273, "eval/image_loss_mean": 6.605349540710449, "eval/image_loss_std": 4.341602802276611, "eval/model_loss_mean": 16.507917404174805, "eval/model_loss_std": 11.88256549835205, "eval/post_ent_mag": 58.5046501159668, "eval/post_ent_max": 58.5046501159668, "eval/post_ent_mean": 37.42571258544922, "eval/post_ent_min": 24.36428451538086, "eval/post_ent_std": 4.863635540008545, "eval/prior_ent_mag": 77.9395980834961, "eval/prior_ent_max": 77.9395980834961, "eval/prior_ent_mean": 41.92417907714844, "eval/prior_ent_min": 25.906253814697266, "eval/prior_ent_std": 7.1139984130859375, "eval/rep_loss_mean": 15.023022651672363, "eval/rep_loss_std": 12.139013290405273, "eval/reward_avg": 0.6640625, "eval/reward_loss_mean": 0.8760592937469482, "eval/reward_loss_std": 3.7195215225219727, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.999025344848633, "eval/reward_neg_acc": 0.9424685835838318, "eval/reward_neg_loss": 0.06308609992265701, "eval/reward_pos_acc": 0.20588235557079315, "eval/reward_pos_loss": 12.305505752563477, "eval/reward_pred": 0.24357476830482483, "eval/reward_rate": 0.06640625, "replay/size": 85683.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.858723291402591e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.190976381988965e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8775463104248047e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16580963134766, "timer/env.step_count": 694.0, "timer/env.step_total": 2.5324196815490723, "timer/env.step_frac": 0.008436735964896518, "timer/env.step_avg": 0.0036490197140476546, "timer/env.step_min": 0.002242565155029297, "timer/env.step_max": 0.03284192085266113, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 202.43238592147827, "timer/replay._sample_frac": 0.6744018786486645, "timer/replay._sample_avg": 0.018230582305608634, "timer/replay._sample_min": 0.0005550384521484375, "timer/replay._sample_max": 0.051140785217285156, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.34572005271912, "timer/agent.policy_frac": 0.6607871839111852, "timer/agent.policy_avg": 0.28580074935550304, "timer/agent.policy_min": 0.0028700828552246094, "timer/agent.policy_max": 0.33209824562072754, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.08733749389648438, "timer/dataset_train_frac": 0.0002909641641189881, "timer/dataset_train_avg": 0.00012584653299205242, "timer/dataset_train_min": 8.273124694824219e-05, "timer/dataset_train_max": 0.0014903545379638672, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.99671483039856, "timer/agent.train_frac": 0.3264752736187857, "timer/agent.train_avg": 0.14120564096599217, "timer/agent.train_min": 0.10163378715515137, "timer/agent.train_max": 0.45050597190856934, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4966244697570801, "timer/agent.report_frac": 0.0016545004588197955, "timer/agent.report_avg": 0.24831223487854004, "timer/agent.report_min": 0.09814572334289551, "timer/agent.report_max": 0.39847874641418457, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010585784912109375, "timer/dataset_eval_frac": 3.5266457979043105e-07, "timer/dataset_eval_avg": 0.00010585784912109375, "timer/dataset_eval_min": 0.00010585784912109375, "timer/dataset_eval_max": 0.00010585784912109375, "fps": 9.247900824250179}
+{"step": 343340, "episode/length": 647.0, "episode/score": 870.0, "episode/reward_rate": 0.12191358024691358}
+{"step": 345832, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.639121471996039, "train/action_min": 0.0, "train/action_std": 2.922900031989729, "train/actor_opt_grad_norm": 0.007898922642351876, "train/actor_opt_grad_steps": 85000.0, "train/actor_opt_loss": 0.001301717502595328, "train/adv_mag": 0.6105443402914934, "train/adv_max": 0.5687919653637309, "train/adv_mean": 0.0024456790419605224, "train/adv_min": -0.4394694554134154, "train/adv_std": 0.03594887676373334, "train/cont_avg": 0.9988308758802817, "train/cont_loss_mean": 0.00022815943817243426, "train/cont_loss_std": 0.00576962585783932, "train/cont_neg_acc": 0.96, "train/cont_neg_loss": 0.12215038562176915, "train/cont_pos_acc": 0.9999861885124529, "train/cont_pos_loss": 7.698518615841153e-05, "train/cont_pred": 0.9988320570596507, "train/cont_rate": 0.9988308758802817, "train/dyn_loss_mean": 4.53569946490543, "train/dyn_loss_std": 6.536632746038302, "train/extr_critic_critic_opt_grad_norm": 2.1747266490694503, "train/extr_critic_critic_opt_grad_steps": 85000.0, "train/extr_critic_critic_opt_loss": 1.492350480925869, "train/extr_critic_mag": 470.5253274407185, "train/extr_critic_max": 470.5253274407185, "train/extr_critic_mean": 182.30091524795748, "train/extr_critic_min": 0.018844006766735668, "train/extr_critic_std": 138.15997292961873, "train/extr_return_normed_mag": 1.2219254861415272, "train/extr_return_normed_max": 1.2219254861415272, "train/extr_return_normed_mean": 0.4436551496176652, "train/extr_return_normed_min": -0.009031287604339525, "train/extr_return_normed_std": 0.3439808483694641, "train/extr_return_rate": 0.9313655839839452, "train/extr_return_raw_mag": 498.04275942520354, "train/extr_return_raw_max": 498.04275942520354, "train/extr_return_raw_mean": 183.29019680829114, "train/extr_return_raw_min": 0.2550126893788537, "train/extr_return_raw_std": 139.07483759060713, "train/extr_reward_mag": 179.81392175378934, "train/extr_reward_max": 179.81392175378934, "train/extr_reward_mean": 1.050413732797327, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.573607424615135, "train/image_loss_mean": 1.9481663771078621, "train/image_loss_std": 1.6211906369303313, "train/model_loss_mean": 4.745712290347462, "train/model_loss_std": 5.252172886485785, "train/model_opt_grad_norm": 13.241330939279475, "train/model_opt_grad_steps": 85000.0, "train/model_opt_loss": 4.745712290347462, "train/policy_entropy_mag": 2.170843544140668, "train/policy_entropy_max": 2.170843544140668, "train/policy_entropy_mean": 1.1479257403964727, "train/policy_entropy_min": 0.06987578337880927, "train/policy_entropy_std": 0.6145899157289049, "train/policy_logprob_mag": 6.7956112136303535, "train/policy_logprob_max": -0.009012204162041905, "train/policy_logprob_mean": -1.147798886601354, "train/policy_logprob_min": -6.7956112136303535, "train/policy_logprob_std": 1.1055448827609209, "train/policy_randomness_mag": 0.9879934645034898, "train/policy_randomness_max": 0.9879934645034898, "train/policy_randomness_mean": 0.5224435224499501, "train/policy_randomness_min": 0.03180183916234634, "train/policy_randomness_std": 0.27971192522787713, "train/post_ent_mag": 55.71953647237429, "train/post_ent_max": 55.71953647237429, "train/post_ent_mean": 38.535257366341604, "train/post_ent_min": 22.754088200313944, "train/post_ent_std": 5.032003651202564, "train/prior_ent_mag": 77.71397582577987, "train/prior_ent_max": 77.71397582577987, "train/prior_ent_mean": 43.08676851299447, "train/prior_ent_min": 26.447224361795776, "train/prior_ent_std": 7.618621020249917, "train/rep_loss_mean": 4.53569946490543, "train/rep_loss_std": 6.536632746038302, "train/reward_avg": 1.3733769806338028, "train/reward_loss_mean": 0.07589810551472113, "train/reward_loss_std": 0.266639693312242, "train/reward_max_data": 193.5211267605634, "train/reward_max_pred": 154.52463558358207, "train/reward_neg_acc": 0.9656687110242709, "train/reward_neg_loss": 0.010779790885248025, "train/reward_pos_acc": 0.9938830044907583, "train/reward_pos_loss": 0.6646349161443575, "train/reward_pred": 1.213316025868268, "train/reward_rate": 0.09995323503521127, "train_stats/mean_log_entropy": 1.115623116493225, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0012681661173701286, "report/cont_loss_std": 0.035737305879592896, "report/cont_neg_acc": 0.6666666865348816, "report/cont_neg_loss": 0.3804779052734375, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00015393564535770565, "report/cont_pred": 0.9975872039794922, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.092439651489258, "report/dyn_loss_std": 6.660332679748535, "report/image_loss_mean": 1.6656255722045898, "report/image_loss_std": 1.6286888122558594, "report/model_loss_mean": 4.180273532867432, "report/model_loss_std": 5.391690254211426, "report/post_ent_mag": 56.460933685302734, "report/post_ent_max": 56.460933685302734, "report/post_ent_mean": 36.480377197265625, "report/post_ent_min": 19.912168502807617, "report/post_ent_std": 6.137814044952393, "report/prior_ent_mag": 77.71830749511719, "report/prior_ent_max": 77.71830749511719, "report/prior_ent_mean": 40.90208053588867, "report/prior_ent_min": 26.010732650756836, "report/prior_ent_std": 8.934508323669434, "report/rep_loss_mean": 4.092439651489258, "report/rep_loss_std": 6.660332679748535, "report/reward_avg": 0.751953125, "report/reward_loss_mean": 0.057916272431612015, "report/reward_loss_std": 0.2844644784927368, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.87886428833008, "report/reward_neg_acc": 0.9780104756355286, "report/reward_neg_loss": 0.006086388602852821, "report/reward_pos_acc": 0.9855072498321533, "report/reward_pos_loss": 0.775272011756897, "report/reward_pred": 0.6820367574691772, "report/reward_rate": 0.0673828125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.029443273320794106, "eval/cont_loss_std": 0.6689925193786621, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 7.535001754760742, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 9.710770427773241e-06, "eval/cont_pred": 0.9980382919311523, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.52243423461914, "eval/dyn_loss_std": 13.137691497802734, "eval/image_loss_mean": 5.95249080657959, "eval/image_loss_std": 4.681873321533203, "eval/model_loss_mean": 15.437431335449219, "eval/model_loss_std": 12.430842399597168, "eval/post_ent_mag": 57.9805793762207, "eval/post_ent_max": 57.9805793762207, "eval/post_ent_mean": 36.453834533691406, "eval/post_ent_min": 20.884883880615234, "eval/post_ent_std": 6.025388240814209, "eval/prior_ent_mag": 77.71830749511719, "eval/prior_ent_max": 77.71830749511719, "eval/prior_ent_mean": 40.496726989746094, "eval/prior_ent_min": 25.768394470214844, "eval/prior_ent_std": 8.722126007080078, "eval/rep_loss_mean": 14.52243423461914, "eval/rep_loss_std": 13.137691497802734, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7420365810394287, "eval/reward_loss_std": 3.304752826690674, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.98643970489502, "eval/reward_neg_acc": 0.9183040261268616, "eval/reward_neg_loss": 0.0948479026556015, "eval/reward_pos_acc": 0.19298246502876282, "eval/reward_pos_loss": 11.72153377532959, "eval/reward_pred": 0.25421974062919617, "eval/reward_rate": 0.0556640625, "replay/size": 86395.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.623932634846548e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.430406831623463e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.31582951545715, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8422584533691406, "timer/env.step_frac": 0.009464231232682493, "timer/env.step_avg": 0.003991936030012838, "timer/env.step_min": 0.002692699432373047, "timer/env.step_max": 0.023203134536743164, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 186.65190887451172, "timer/replay._sample_frac": 0.6215187163982138, "timer/replay._sample_avg": 0.01638447233800138, "timer/replay._sample_min": 0.007534503936767578, "timer/replay._sample_max": 0.05389070510864258, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.27388525009155, "timer/agent.policy_frac": 0.6602178965058066, "timer/agent.policy_avg": 0.27847455793552184, "timer/agent.policy_min": 0.0036737918853759766, "timer/agent.policy_max": 0.3130836486816406, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09534668922424316, "timer/dataset_train_frac": 0.0003174880570833703, "timer/dataset_train_avg": 0.0001339138893598921, "timer/dataset_train_min": 8.7738037109375e-05, "timer/dataset_train_max": 0.00023818016052246094, "timer/agent.train_count": 712.0, "timer/agent.train_total": 98.03345966339111, "timer/agent.train_frac": 0.3264345400026453, "timer/agent.train_avg": 0.13768744334745942, "timer/agent.train_min": 0.10069870948791504, "timer/agent.train_max": 0.4282846450805664, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.509793758392334, "timer/agent.report_frac": 0.0016975254325250113, "timer/agent.report_avg": 0.254896879196167, "timer/agent.report_min": 0.11319971084594727, "timer/agent.report_max": 0.3965940475463867, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.696846008300781e-05, "timer/dataset_eval_frac": 1.5639688443592468e-07, "timer/dataset_eval_avg": 4.696846008300781e-05, "timer/dataset_eval_min": 4.696846008300781e-05, "timer/dataset_eval_max": 4.696846008300781e-05, "fps": 9.483152706184256}
+{"step": 347188, "episode/length": 961.0, "episode/score": 2500.0, "episode/reward_rate": 0.10602910602910603}
+{"step": 348632, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.395217459542411, "train/action_min": 0.0, "train/action_std": 2.9029509816850934, "train/actor_opt_grad_norm": 0.007891817058303526, "train/actor_opt_grad_steps": 85705.0, "train/actor_opt_loss": 0.001208049748285995, "train/adv_mag": 0.6177975807871138, "train/adv_max": 0.5751375977482115, "train/adv_mean": 0.0023291178325182825, "train/adv_min": -0.4262150049209595, "train/adv_std": 0.03368669655174017, "train/cont_avg": 0.9986049107142857, "train/cont_loss_mean": 0.0001240016139306085, "train/cont_loss_std": 0.003185964633573996, "train/cont_neg_acc": 0.9878787886012684, "train/cont_neg_loss": 0.03837045942806402, "train/cont_pos_acc": 0.9999999974455153, "train/cont_pos_loss": 5.288606174853605e-05, "train/cont_pred": 0.9986000282423837, "train/cont_rate": 0.9986049107142857, "train/dyn_loss_mean": 4.602005522591727, "train/dyn_loss_std": 6.6607932840074815, "train/extr_critic_critic_opt_grad_norm": 2.21086893762861, "train/extr_critic_critic_opt_grad_steps": 85705.0, "train/extr_critic_critic_opt_loss": 1.5197195036070688, "train/extr_critic_mag": 463.6408551897321, "train/extr_critic_max": 463.6408551897321, "train/extr_critic_mean": 183.12997491019112, "train/extr_critic_min": 0.09942149945667812, "train/extr_critic_std": 142.38897824968612, "train/extr_return_normed_mag": 1.2033676368849617, "train/extr_return_normed_max": 1.2033676368849617, "train/extr_return_normed_mean": 0.43805792459419796, "train/extr_return_normed_min": -0.010691330196069819, "train/extr_return_normed_std": 0.3492638213293893, "train/extr_return_rate": 0.9324721472603934, "train/extr_return_raw_mag": 497.9066122872489, "train/extr_return_raw_max": 497.9066122872489, "train/extr_return_raw_mean": 184.08568878173827, "train/extr_return_raw_min": 0.1149012540500345, "train/extr_return_raw_std": 143.18852789742607, "train/extr_reward_mag": 167.82681275776454, "train/extr_reward_max": 167.82681275776454, "train/extr_reward_mean": 1.0111359741006578, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.410476548331125, "train/image_loss_mean": 1.949516921383994, "train/image_loss_std": 1.6962547387395586, "train/model_loss_mean": 4.783093547821045, "train/model_loss_std": 5.389725003923688, "train/model_opt_grad_norm": 12.353222451891218, "train/model_opt_grad_steps": 85705.0, "train/model_opt_loss": 4.783093547821045, "train/policy_entropy_mag": 2.175925472804478, "train/policy_entropy_max": 2.175925472804478, "train/policy_entropy_mean": 1.1797249053205763, "train/policy_entropy_min": 0.07006002281393324, "train/policy_entropy_std": 0.6052139290741512, "train/policy_logprob_mag": 6.7915577207292825, "train/policy_logprob_max": -0.009040915447154215, "train/policy_logprob_mean": -1.1774153973375048, "train/policy_logprob_min": -6.7915577207292825, "train/policy_logprob_std": 1.0951580013547624, "train/policy_randomness_mag": 0.990306351014546, "train/policy_randomness_max": 0.990306351014546, "train/policy_randomness_mean": 0.5369159374918256, "train/policy_randomness_min": 0.03188569034848895, "train/policy_randomness_std": 0.27544472834893635, "train/post_ent_mag": 56.41078649248396, "train/post_ent_max": 56.41078649248396, "train/post_ent_mean": 38.458471407209124, "train/post_ent_min": 21.910574531555177, "train/post_ent_std": 5.137287722315107, "train/prior_ent_mag": 77.8676016671317, "train/prior_ent_max": 77.8676016671317, "train/prior_ent_mean": 43.105277034214566, "train/prior_ent_min": 26.147095108032225, "train/prior_ent_std": 7.828162138802664, "train/rep_loss_mean": 4.602005522591727, "train/rep_loss_std": 6.6607932840074815, "train/reward_avg": 1.3243582589285714, "train/reward_loss_mean": 0.07224925692592349, "train/reward_loss_std": 0.2664244945560183, "train/reward_max_data": 203.85714285714286, "train/reward_max_pred": 144.60507409232002, "train/reward_neg_acc": 0.9682569171701159, "train/reward_neg_loss": 0.009278664189124746, "train/reward_pos_acc": 0.9938326265130725, "train/reward_pos_loss": 0.6699184690202985, "train/reward_pred": 1.1445246645382472, "train/reward_rate": 0.0958984375, "train_stats/mean_log_entropy": 1.1769585609436035, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.450172132739681e-06, "report/cont_loss_std": 5.980509376968257e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00010508458944968879, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.1486018795258133e-06, "report/cont_pred": 0.9970685243606567, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.685296058654785, "report/dyn_loss_std": 6.523688316345215, "report/image_loss_mean": 2.0130841732025146, "report/image_loss_std": 1.5225937366485596, "report/model_loss_mean": 4.890668869018555, "report/model_loss_std": 5.109958648681641, "report/post_ent_mag": 56.072845458984375, "report/post_ent_max": 56.072845458984375, "report/post_ent_mean": 39.57176971435547, "report/post_ent_min": 25.63425636291504, "report/post_ent_std": 4.636608600616455, "report/prior_ent_mag": 78.12313842773438, "report/prior_ent_max": 78.12313842773438, "report/prior_ent_mean": 44.35614013671875, "report/prior_ent_min": 26.21158218383789, "report/prior_ent_std": 7.198884010314941, "report/rep_loss_mean": 4.685296058654785, "report/rep_loss_std": 6.523688316345215, "report/reward_avg": 1.416015625, "report/reward_loss_mean": 0.06640461832284927, "report/reward_loss_std": 0.2207808941602707, "report/reward_max_data": 400.0, "report/reward_max_pred": 397.2994689941406, "report/reward_neg_acc": 0.9677419662475586, "report/reward_neg_loss": 0.010713879950344563, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6173874139785767, "report/reward_pred": 1.3521754741668701, "report/reward_rate": 0.091796875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 3.3233085172668098e-09, "eval/cont_loss_std": 3.019079741761743e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.3233085172668098e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.568168640136719, "eval/dyn_loss_std": 11.675034523010254, "eval/image_loss_mean": 6.177831649780273, "eval/image_loss_std": 3.9675800800323486, "eval/model_loss_mean": 15.769752502441406, "eval/model_loss_std": 11.042661666870117, "eval/post_ent_mag": 55.61979675292969, "eval/post_ent_max": 55.61979675292969, "eval/post_ent_mean": 37.57952117919922, "eval/post_ent_min": 21.943559646606445, "eval/post_ent_std": 4.687795162200928, "eval/prior_ent_mag": 78.12313842773438, "eval/prior_ent_max": 78.12313842773438, "eval/prior_ent_mean": 40.960453033447266, "eval/prior_ent_min": 26.981403350830078, "eval/prior_ent_std": 6.989022254943848, "eval/rep_loss_mean": 14.568168640136719, "eval/rep_loss_std": 11.675034523010254, "eval/reward_avg": 0.625, "eval/reward_loss_mean": 0.8510196208953857, "eval/reward_loss_std": 3.3990769386291504, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.008929252624512, "eval/reward_neg_acc": 0.9270833730697632, "eval/reward_neg_loss": 0.1451968252658844, "eval/reward_pos_acc": 0.1875, "eval/reward_pos_loss": 11.438361167907715, "eval/reward_pred": 0.3169514238834381, "eval/reward_rate": 0.0625, "replay/size": 87095.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.1116943359375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2118050030299596e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09914898872375, "timer/env.step_count": 700.0, "timer/env.step_total": 2.508186101913452, "timer/env.step_frac": 0.008357858095784529, "timer/env.step_avg": 0.0035831230027335032, "timer/env.step_min": 0.0016887187957763672, "timer/env.step_max": 0.016747474670410156, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 196.64475274085999, "timer/replay._sample_frac": 0.6552659459499132, "timer/replay._sample_avg": 0.017557567209005354, "timer/replay._sample_min": 0.0005688667297363281, "timer/replay._sample_max": 0.04943084716796875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.26257944107055664, "timer/agent.save_frac": 0.000874975627073248, "timer/agent.save_avg": 0.26257944107055664, "timer/agent.save_min": 0.26257944107055664, "timer/agent.save_max": 0.26257944107055664, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 198.54542636871338, "timer/agent.policy_frac": 0.6615994315137953, "timer/agent.policy_avg": 0.28363632338387623, "timer/agent.policy_min": 0.002848386764526367, "timer/agent.policy_max": 0.42668676376342773, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.0944511890411377, "timer/dataset_train_frac": 0.0003147332785161837, "timer/dataset_train_avg": 0.00013493027005876814, "timer/dataset_train_min": 8.559226989746094e-05, "timer/dataset_train_max": 0.0010883808135986328, "timer/agent.train_count": 700.0, "timer/agent.train_total": 97.78044199943542, "timer/agent.train_frac": 0.32582712189933444, "timer/agent.train_avg": 0.13968634571347918, "timer/agent.train_min": 0.10074043273925781, "timer/agent.train_max": 0.4446449279785156, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5144801139831543, "timer/agent.report_frac": 0.001714367120722778, "timer/agent.report_avg": 0.25724005699157715, "timer/agent.report_min": 0.0998849868774414, "timer/agent.report_max": 0.4145951271057129, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010132789611816406, "timer/dataset_eval_frac": 3.3764806218084764e-07, "timer/dataset_eval_avg": 0.00010132789611816406, "timer/dataset_eval_min": 0.00010132789611816406, "timer/dataset_eval_max": 0.00010132789611816406, "fps": 9.329920440435405}
+{"step": 350792, "episode/length": 900.0, "episode/score": 880.0, "episode/reward_rate": 0.08435072142064373}
+{"step": 351408, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.352618408203125, "train/action_min": 0.0, "train/action_std": 2.9173974105290004, "train/actor_opt_grad_norm": 0.007674217822828463, "train/actor_opt_grad_steps": 86405.0, "train/actor_opt_loss": 0.0008928329029523801, "train/adv_mag": 0.627550378867558, "train/adv_max": 0.6069193299327578, "train/adv_mean": 0.001957505366382455, "train/adv_min": -0.44047524396862303, "train/adv_std": 0.03459084159029382, "train/cont_avg": 0.9986467633928572, "train/cont_loss_mean": 0.00018495792380461998, "train/cont_loss_std": 0.004766089870427085, "train/cont_neg_acc": 0.940251573076788, "train/cont_neg_loss": 0.07385824487387725, "train/cont_pos_acc": 0.9999860056809017, "train/cont_pos_loss": 8.563822978803204e-05, "train/cont_pred": 0.998633771283286, "train/cont_rate": 0.9986467633928572, "train/dyn_loss_mean": 4.570019469942365, "train/dyn_loss_std": 6.5968474183763774, "train/extr_critic_critic_opt_grad_norm": 2.2190022349357603, "train/extr_critic_critic_opt_grad_steps": 86405.0, "train/extr_critic_critic_opt_loss": 1.5284930518695286, "train/extr_critic_mag": 470.76136910574775, "train/extr_critic_max": 470.76136910574775, "train/extr_critic_mean": 176.8257717677525, "train/extr_critic_min": 0.6359316996165685, "train/extr_critic_std": 142.95964649745397, "train/extr_return_normed_mag": 1.1841052123478482, "train/extr_return_normed_max": 1.1841052123478482, "train/extr_return_normed_mean": 0.4201317742466927, "train/extr_return_normed_min": -0.009612332155562139, "train/extr_return_normed_std": 0.3489557547228677, "train/extr_return_rate": 0.9269336385386331, "train/extr_return_raw_mag": 492.0992828369141, "train/extr_return_raw_max": 492.0992828369141, "train/extr_return_raw_mean": 177.6318394252232, "train/extr_return_raw_min": 0.6970087881682308, "train/extr_return_raw_std": 143.6605706351144, "train/extr_reward_mag": 173.9924365724836, "train/extr_reward_max": 173.9924365724836, "train/extr_reward_mean": 0.982303780743054, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.184230119841439, "train/image_loss_mean": 1.9531533581869942, "train/image_loss_std": 1.6064648866653441, "train/model_loss_mean": 4.767494436672756, "train/model_loss_std": 5.27272241456168, "train/model_opt_grad_norm": 12.4831814629691, "train/model_opt_grad_steps": 86405.0, "train/model_opt_loss": 4.767494436672756, "train/policy_entropy_mag": 2.17222364630018, "train/policy_entropy_max": 2.17222364630018, "train/policy_entropy_mean": 1.174820704971041, "train/policy_entropy_min": 0.06977587938308716, "train/policy_entropy_std": 0.6097761975867407, "train/policy_logprob_mag": 6.792744112014771, "train/policy_logprob_max": -0.008997257705777884, "train/policy_logprob_mean": -1.1740763076714107, "train/policy_logprob_min": -6.792744112014771, "train/policy_logprob_std": 1.0971270186560496, "train/policy_randomness_mag": 0.9886215788977487, "train/policy_randomness_max": 0.9886215788977487, "train/policy_randomness_mean": 0.5346839402403151, "train/policy_randomness_min": 0.0317563710468156, "train/policy_randomness_std": 0.2775211042591504, "train/post_ent_mag": 57.10363540649414, "train/post_ent_max": 57.10363540649414, "train/post_ent_mean": 38.498111670357844, "train/post_ent_min": 21.82267142704555, "train/post_ent_std": 5.1591471637998305, "train/prior_ent_mag": 78.00453665597098, "train/prior_ent_max": 78.00453665597098, "train/prior_ent_mean": 43.084504100254605, "train/prior_ent_min": 26.013751683916364, "train/prior_ent_std": 7.7672736304146905, "train/rep_loss_mean": 4.570019469942365, "train/rep_loss_std": 6.5968474183763774, "train/reward_avg": 1.3088727678571428, "train/reward_loss_mean": 0.07214445221636977, "train/reward_loss_std": 0.27074912126575196, "train/reward_max_data": 192.57142857142858, "train/reward_max_pred": 152.70918528693062, "train/reward_neg_acc": 0.9691984312874931, "train/reward_neg_loss": 0.009284122314836298, "train/reward_pos_acc": 0.9935770452022552, "train/reward_pos_loss": 0.6713190870625633, "train/reward_pred": 1.1436963668891362, "train/reward_rate": 0.09542410714285714, "train_stats/mean_log_entropy": 1.011692762374878, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 1.720166255836375e-05, "report/cont_loss_std": 0.0004113006580155343, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.7838108255527914e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7241087334696203e-05, "report/cont_pred": 0.9970532059669495, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.72273588180542, "report/dyn_loss_std": 6.802093505859375, "report/image_loss_mean": 1.9082365036010742, "report/image_loss_std": 1.4465124607086182, "report/model_loss_mean": 4.850573539733887, "report/model_loss_std": 5.294928550720215, "report/post_ent_mag": 56.14691162109375, "report/post_ent_max": 56.14691162109375, "report/post_ent_mean": 39.464134216308594, "report/post_ent_min": 23.776531219482422, "report/post_ent_std": 5.177807331085205, "report/prior_ent_mag": 78.24009704589844, "report/prior_ent_max": 78.24009704589844, "report/prior_ent_mean": 43.63031768798828, "report/prior_ent_min": 26.734848022460938, "report/prior_ent_std": 7.592740058898926, "report/rep_loss_mean": 4.72273588180542, "report/rep_loss_std": 6.802093505859375, "report/reward_avg": 1.0546875, "report/reward_loss_mean": 0.10867810249328613, "report/reward_loss_std": 0.44552356004714966, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.02085876464844, "report/reward_neg_acc": 0.946351945400238, "report/reward_neg_loss": 0.026966780424118042, "report/reward_pos_acc": 0.967391312122345, "report/reward_pos_loss": 0.936449408531189, "report/reward_pred": 0.9040168523788452, "report/reward_rate": 0.08984375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.010578352957963943, "eval/cont_loss_std": 0.33834174275398254, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 10.83222484588623, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.329086753633419e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.910067558288574, "eval/dyn_loss_std": 11.957555770874023, "eval/image_loss_mean": 5.471466064453125, "eval/image_loss_std": 4.230985164642334, "eval/model_loss_mean": 13.88432788848877, "eval/model_loss_std": 11.122228622436523, "eval/post_ent_mag": 58.19205093383789, "eval/post_ent_max": 58.19205093383789, "eval/post_ent_mean": 36.871726989746094, "eval/post_ent_min": 21.759075164794922, "eval/post_ent_std": 5.240963459014893, "eval/prior_ent_mag": 78.24009704589844, "eval/prior_ent_max": 78.24009704589844, "eval/prior_ent_mean": 40.07360076904297, "eval/prior_ent_min": 25.162357330322266, "eval/prior_ent_std": 7.76971435546875, "eval/rep_loss_mean": 12.910067558288574, "eval/rep_loss_std": 11.957555770874023, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.6562427282333374, "eval/reward_loss_std": 2.772517681121826, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.00537109375, "eval/reward_neg_acc": 0.9217302203178406, "eval/reward_neg_loss": 0.14528080821037292, "eval/reward_pos_acc": 0.22641509771347046, "eval/reward_pos_loss": 10.017450332641602, "eval/reward_pred": 0.33097437024116516, "eval/reward_rate": 0.0517578125, "replay/size": 87789.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.7965420769683225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1188109601265416e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3262033462524414e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.29934215545654, "timer/env.step_count": 694.0, "timer/env.step_total": 2.4549756050109863, "timer/env.step_frac": 0.008175094848326755, "timer/env.step_avg": 0.0035374288256642453, "timer/env.step_min": 0.0022072792053222656, "timer/env.step_max": 0.026417016983032227, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 203.63219332695007, "timer/replay._sample_frac": 0.6780973673313456, "timer/replay._sample_avg": 0.018338634125265676, "timer/replay._sample_min": 0.0005671977996826172, "timer/replay._sample_max": 0.048688411712646484, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.43485856056213, "timer/agent.policy_frac": 0.6607901873385988, "timer/agent.policy_avg": 0.2859291910094555, "timer/agent.policy_min": 0.0029611587524414062, "timer/agent.policy_max": 0.33243870735168457, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.09410333633422852, "timer/dataset_train_frac": 0.0003133651098226977, "timer/dataset_train_avg": 0.00013559558549600651, "timer/dataset_train_min": 8.320808410644531e-05, "timer/dataset_train_max": 0.0038568973541259766, "timer/agent.train_count": 694.0, "timer/agent.train_total": 98.11147236824036, "timer/agent.train_frac": 0.32671224540162597, "timer/agent.train_avg": 0.14137099764876132, "timer/agent.train_min": 0.10297608375549316, "timer/agent.train_max": 0.4553995132446289, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5064351558685303, "timer/agent.report_frac": 0.001686434449817619, "timer/agent.report_avg": 0.25321757793426514, "timer/agent.report_min": 0.10719776153564453, "timer/agent.report_max": 0.39923739433288574, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00013017654418945312, "timer/dataset_eval_frac": 4.334892752514402e-07, "timer/dataset_eval_avg": 0.00013017654418945312, "timer/dataset_eval_min": 0.00013017654418945312, "timer/dataset_eval_max": 0.00013017654418945312, "fps": 9.243654579688567}
+{"step": 353552, "episode/length": 689.0, "episode/score": 1190.0, "episode/reward_rate": 0.11304347826086956}
+{"step": 354184, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.4069833064424815, "train/action_min": 0.0, "train/action_std": 2.9446549864782803, "train/actor_opt_grad_norm": 0.007489783793984764, "train/actor_opt_grad_steps": 87100.0, "train/actor_opt_loss": 0.0010093654742324388, "train/adv_mag": 0.6284176063710365, "train/adv_max": 0.5933652688627657, "train/adv_mean": 0.0018925423777862147, "train/adv_min": -0.46476488744003186, "train/adv_std": 0.033839918915992195, "train/cont_avg": 0.9985846920289855, "train/cont_loss_mean": 0.00024219104729062018, "train/cont_loss_std": 0.0065322014384383885, "train/cont_neg_acc": 0.9521604947469853, "train/cont_neg_loss": 0.08467472057180643, "train/cont_pos_acc": 0.9999716230060743, "train/cont_pos_loss": 8.766623815578086e-05, "train/cont_pred": 0.9986108921576238, "train/cont_rate": 0.9985846920289855, "train/dyn_loss_mean": 4.547639739686164, "train/dyn_loss_std": 6.661137325176294, "train/extr_critic_critic_opt_grad_norm": 2.1651920460272525, "train/extr_critic_critic_opt_grad_steps": 87100.0, "train/extr_critic_critic_opt_loss": 1.4984113789986873, "train/extr_critic_mag": 466.70180434074956, "train/extr_critic_max": 466.70180434074956, "train/extr_critic_mean": 184.85818735758463, "train/extr_critic_min": 0.220674196879069, "train/extr_critic_std": 142.83930770210597, "train/extr_return_normed_mag": 1.1940598073212996, "train/extr_return_normed_max": 1.1940598073212996, "train/extr_return_normed_mean": 0.43836423668308533, "train/extr_return_normed_min": -0.009501851076071245, "train/extr_return_normed_std": 0.3465781803580298, "train/extr_return_rate": 0.9319661924804467, "train/extr_return_raw_mag": 498.4711476201596, "train/extr_return_raw_max": 498.4711476201596, "train/extr_return_raw_mean": 185.64165541054547, "train/extr_return_raw_min": 0.25306691801296954, "train/extr_return_raw_std": 143.45491138402966, "train/extr_reward_mag": 193.1901724718619, "train/extr_reward_max": 193.1901724718619, "train/extr_reward_mean": 0.992445634327073, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.433160135711449, "train/image_loss_mean": 1.9422087323838386, "train/image_loss_std": 1.731925808865091, "train/model_loss_mean": 4.740508273027945, "train/model_loss_std": 5.4250231894893925, "train/model_opt_grad_norm": 12.919270128443621, "train/model_opt_grad_steps": 87100.0, "train/model_opt_loss": 4.740508273027945, "train/policy_entropy_mag": 2.1729704573534536, "train/policy_entropy_max": 2.1729704573534536, "train/policy_entropy_mean": 1.1488716351813164, "train/policy_entropy_min": 0.06996636934902357, "train/policy_entropy_std": 0.604149823171505, "train/policy_logprob_mag": 6.792342116867286, "train/policy_logprob_max": -0.009026285868300043, "train/policy_logprob_mean": -1.147877113542695, "train/policy_logprob_min": -6.792342116867286, "train/policy_logprob_std": 1.1010934235393137, "train/policy_randomness_mag": 0.9889614659806957, "train/policy_randomness_max": 0.9889614659806957, "train/policy_randomness_mean": 0.5228740050308947, "train/policy_randomness_min": 0.03184306680940199, "train/policy_randomness_std": 0.27496043085188104, "train/post_ent_mag": 56.801797175752945, "train/post_ent_max": 56.801797175752945, "train/post_ent_mean": 38.34316143091174, "train/post_ent_min": 22.595211084338203, "train/post_ent_std": 5.153655432272648, "train/prior_ent_mag": 78.00838426230611, "train/prior_ent_max": 78.00838426230611, "train/prior_ent_mean": 42.89968733856644, "train/prior_ent_min": 26.01039737203847, "train/prior_ent_std": 7.8399786949157715, "train/rep_loss_mean": 4.547639739686164, "train/rep_loss_std": 6.661137325176294, "train/reward_avg": 1.3364753170289856, "train/reward_loss_mean": 0.06947352877561597, "train/reward_loss_std": 0.2627257382956104, "train/reward_max_data": 238.1159420289855, "train/reward_max_pred": 168.99487060049304, "train/reward_neg_acc": 0.9684336435967598, "train/reward_neg_loss": 0.008990124129501266, "train/reward_pos_acc": 0.9940830305002738, "train/reward_pos_loss": 0.6640208009360493, "train/reward_pred": 1.1532990815846815, "train/reward_rate": 0.0924903759057971, "train_stats/mean_log_entropy": 1.0868710279464722, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.3547965863835998e-05, "report/cont_loss_std": 0.00025609578005969524, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.3132816093275324e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.354837240796769e-05, "report/cont_pred": 0.9990099668502808, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.7761940956115723, "report/dyn_loss_std": 6.269018173217773, "report/image_loss_mean": 1.5716420412063599, "report/image_loss_std": 1.6250007152557373, "report/model_loss_mean": 3.8846306800842285, "report/model_loss_std": 5.054960250854492, "report/post_ent_mag": 59.251068115234375, "report/post_ent_max": 59.251068115234375, "report/post_ent_mean": 37.64378356933594, "report/post_ent_min": 21.612133026123047, "report/post_ent_std": 5.757392883300781, "report/prior_ent_mag": 78.05835723876953, "report/prior_ent_max": 78.05835723876953, "report/prior_ent_mean": 41.26284408569336, "report/prior_ent_min": 25.789066314697266, "report/prior_ent_std": 8.408172607421875, "report/rep_loss_mean": 3.7761940956115723, "report/rep_loss_std": 6.269018173217773, "report/reward_avg": 1.328125, "report/reward_loss_mean": 0.047258615493774414, "report/reward_loss_std": 0.26166313886642456, "report/reward_max_data": 400.0, "report/reward_max_pred": 324.5724182128906, "report/reward_neg_acc": 0.9800838232040405, "report/reward_neg_loss": 0.003805097658187151, "report/reward_pos_acc": 0.985714316368103, "report/reward_pos_loss": 0.6394679546356201, "report/reward_pred": 1.101015329360962, "report/reward_rate": 0.068359375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.02106691710650921, "eval/cont_loss_std": 0.47732946276664734, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 7.16977071762085, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.190941348904744e-05, "eval/cont_pred": 0.9989635348320007, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.568060874938965, "eval/dyn_loss_std": 13.93453598022461, "eval/image_loss_mean": 5.062445640563965, "eval/image_loss_std": 4.577014923095703, "eval/model_loss_mean": 13.094612121582031, "eval/model_loss_std": 12.867575645446777, "eval/post_ent_mag": 59.19609069824219, "eval/post_ent_max": 59.19609069824219, "eval/post_ent_mean": 35.102203369140625, "eval/post_ent_min": 21.911706924438477, "eval/post_ent_std": 5.532875061035156, "eval/prior_ent_mag": 78.05835723876953, "eval/prior_ent_max": 78.05835723876953, "eval/prior_ent_mean": 39.16862487792969, "eval/prior_ent_min": 25.584388732910156, "eval/prior_ent_std": 8.617635726928711, "eval/rep_loss_mean": 12.568060874938965, "eval/rep_loss_std": 13.93453598022461, "eval/reward_avg": 0.400390625, "eval/reward_loss_mean": 0.47026327252388, "eval/reward_loss_std": 2.6750197410583496, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006874084472656, "eval/reward_neg_acc": 0.954221785068512, "eval/reward_neg_loss": 0.06168271601200104, "eval/reward_pos_acc": 0.3658536374568939, "eval/reward_pos_loss": 10.266230583190918, "eval/reward_pred": 0.22120556235313416, "eval/reward_rate": 0.0400390625, "replay/size": 88483.0, "replay/inserts": 694.0, "replay/samples": 11104.0, "replay/insert_wait_avg": 4.624427223755234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.094698562402203e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2526710033417, "timer/env.step_count": 694.0, "timer/env.step_total": 2.537853956222534, "timer/env.step_frac": 0.008452394270938189, "timer/env.step_avg": 0.0036568500810122972, "timer/env.step_min": 0.002223491668701172, "timer/env.step_max": 0.022053956985473633, "timer/replay._sample_count": 11104.0, "timer/replay._sample_total": 204.9942753314972, "timer/replay._sample_frac": 0.6827392230899278, "timer/replay._sample_avg": 0.018461300011842326, "timer/replay._sample_min": 0.0004894733428955078, "timer/replay._sample_max": 0.057713985443115234, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 694.0, "timer/agent.policy_total": 198.605544090271, "timer/agent.policy_frac": 0.6614613732713825, "timer/agent.policy_avg": 0.2861751355767594, "timer/agent.policy_min": 0.002843141555786133, "timer/agent.policy_max": 0.33469200134277344, "timer/dataset_train_count": 694.0, "timer/dataset_train_total": 0.0856010913848877, "timer/dataset_train_frac": 0.000285096852257261, "timer/dataset_train_avg": 0.00012334451208197074, "timer/dataset_train_min": 7.772445678710938e-05, "timer/dataset_train_max": 0.0004899501800537109, "timer/agent.train_count": 694.0, "timer/agent.train_total": 97.86991095542908, "timer/agent.train_frac": 0.3259585023120072, "timer/agent.train_avg": 0.14102292644874506, "timer/agent.train_min": 0.10213661193847656, "timer/agent.train_max": 0.4506492614746094, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5020051002502441, "timer/agent.report_frac": 0.001671942163154502, "timer/agent.report_avg": 0.25100255012512207, "timer/agent.report_min": 0.10146331787109375, "timer/agent.report_max": 0.4005417823791504, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.506111145019531e-05, "timer/dataset_eval_frac": 1.5007730422386085e-07, "timer/dataset_eval_avg": 4.506111145019531e-05, "timer/dataset_eval_min": 4.506111145019531e-05, "timer/dataset_eval_max": 4.506111145019531e-05, "fps": 9.245243332490194}
+{"step": 357028, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.491860832966549, "train/action_min": 0.0, "train/action_std": 2.9479497385696627, "train/actor_opt_grad_norm": 0.007416597495353977, "train/actor_opt_grad_steps": 87800.0, "train/actor_opt_loss": 0.0011641724554913668, "train/adv_mag": 0.564065435822581, "train/adv_max": 0.5297107123573062, "train/adv_mean": 0.001984269417552638, "train/adv_min": -0.4083053062499409, "train/adv_std": 0.03171593123968219, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.00015646077086437535, "train/cont_loss_std": 0.0043670148409594165, "train/cont_neg_acc": 0.9604519777378794, "train/cont_neg_loss": 0.05152558542928766, "train/cont_pos_acc": 0.9999861759199223, "train/cont_pos_loss": 9.119476219331886e-05, "train/cont_pred": 0.9985948952151017, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.648778233729618, "train/dyn_loss_std": 6.640417454947888, "train/extr_critic_critic_opt_grad_norm": 2.14363569440976, "train/extr_critic_critic_opt_grad_steps": 87800.0, "train/extr_critic_critic_opt_loss": 1.507153160135511, "train/extr_critic_mag": 465.63720058387435, "train/extr_critic_max": 465.63720058387435, "train/extr_critic_mean": 177.74462342598068, "train/extr_critic_min": 0.11554810362802424, "train/extr_critic_std": 145.1223813983756, "train/extr_return_normed_mag": 1.1766257907303286, "train/extr_return_normed_max": 1.1766257907303286, "train/extr_return_normed_mean": 0.4214917618623922, "train/extr_return_normed_min": -0.010002935434770311, "train/extr_return_normed_std": 0.35224349188133025, "train/extr_return_rate": 0.9195872343761821, "train/extr_return_raw_mag": 490.9682071309694, "train/extr_return_raw_max": 490.9682071309694, "train/extr_return_raw_mean": 178.56567780400667, "train/extr_return_raw_min": 0.06051306221896494, "train/extr_return_raw_std": 145.71528088206975, "train/extr_reward_mag": 162.11439101796753, "train/extr_reward_max": 162.11439101796753, "train/extr_reward_mean": 0.9560272710424074, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.017629865189673, "train/image_loss_mean": 1.969263558656397, "train/image_loss_std": 1.6715755093265587, "train/model_loss_mean": 4.829398715999765, "train/model_loss_std": 5.368518036855778, "train/model_opt_grad_norm": 12.281821559852277, "train/model_opt_grad_steps": 87800.0, "train/model_opt_loss": 4.829398715999765, "train/policy_entropy_mag": 2.176455621988001, "train/policy_entropy_max": 2.176455621988001, "train/policy_entropy_mean": 1.197915790786206, "train/policy_entropy_min": 0.06979825379143298, "train/policy_entropy_std": 0.6198971926326483, "train/policy_logprob_mag": 6.794011854789626, "train/policy_logprob_max": -0.009000661546810411, "train/policy_logprob_mean": -1.198412947251763, "train/policy_logprob_min": -6.794011854789626, "train/policy_logprob_std": 1.0993079836939421, "train/policy_randomness_mag": 0.9905476343463844, "train/policy_randomness_max": 0.9905476343463844, "train/policy_randomness_mean": 0.5451949746675895, "train/policy_randomness_min": 0.03176655426201686, "train/policy_randomness_std": 0.2821273684081897, "train/post_ent_mag": 56.66541043133803, "train/post_ent_max": 56.66541043133803, "train/post_ent_mean": 38.52056465686207, "train/post_ent_min": 22.18780987699267, "train/post_ent_std": 5.150781037102283, "train/prior_ent_mag": 78.06416396020164, "train/prior_ent_max": 78.06416396020164, "train/prior_ent_mean": 43.182199719926004, "train/prior_ent_min": 25.89225417123714, "train/prior_ent_std": 7.872738952368078, "train/rep_loss_mean": 4.648778233729618, "train/rep_loss_std": 6.640417454947888, "train/reward_avg": 1.2571522887323943, "train/reward_loss_mean": 0.07071182787628241, "train/reward_loss_std": 0.27001613945188657, "train/reward_max_data": 191.69014084507043, "train/reward_max_pred": 140.53561088400826, "train/reward_neg_acc": 0.9685670691476741, "train/reward_neg_loss": 0.009178962161712033, "train/reward_pos_acc": 0.9932850271883146, "train/reward_pos_loss": 0.68110638521087, "train/reward_pred": 1.08519481017556, "train/reward_rate": 0.09168683978873239, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.00020614409004338086, "report/cont_loss_std": 0.004004014190286398, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.02985965460538864, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00011901329708052799, "report/cont_pred": 0.9970397353172302, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.223114967346191, "report/dyn_loss_std": 6.54536247253418, "report/image_loss_mean": 1.7252652645111084, "report/image_loss_std": 1.8241616487503052, "report/model_loss_mean": 4.318483829498291, "report/model_loss_std": 5.426755905151367, "report/post_ent_mag": 59.18691635131836, "report/post_ent_max": 59.18691635131836, "report/post_ent_mean": 35.955970764160156, "report/post_ent_min": 22.348613739013672, "report/post_ent_std": 5.867473602294922, "report/prior_ent_mag": 78.10948944091797, "report/prior_ent_max": 78.10948944091797, "report/prior_ent_mean": 40.477386474609375, "report/prior_ent_min": 25.35517120361328, "report/prior_ent_std": 8.97275161743164, "report/rep_loss_mean": 4.223114967346191, "report/rep_loss_std": 6.54536247253418, "report/reward_avg": 0.908203125, "report/reward_loss_mean": 0.059143368154764175, "report/reward_loss_std": 0.23212295770645142, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.913509368896484, "report/reward_neg_acc": 0.9787007570266724, "report/reward_neg_loss": 0.007433873601257801, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.630381166934967, "report/reward_pred": 0.8671044707298279, "report/reward_rate": 0.0830078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 8.598430856210371e-10, "eval/cont_loss_std": 1.4634071732189113e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.598430856210371e-10, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.228227615356445, "eval/dyn_loss_std": 11.731513023376465, "eval/image_loss_mean": 5.055689811706543, "eval/image_loss_std": 3.951397180557251, "eval/model_loss_mean": 13.211006164550781, "eval/model_loss_std": 11.11790943145752, "eval/post_ent_mag": 54.74728775024414, "eval/post_ent_max": 54.74728775024414, "eval/post_ent_mean": 36.58975601196289, "eval/post_ent_min": 20.604415893554688, "eval/post_ent_std": 5.252423286437988, "eval/prior_ent_mag": 78.10948944091797, "eval/prior_ent_max": 78.10948944091797, "eval/prior_ent_mean": 40.270713806152344, "eval/prior_ent_min": 25.277563095092773, "eval/prior_ent_std": 7.748507499694824, "eval/rep_loss_mean": 12.228227615356445, "eval/rep_loss_std": 11.731513023376465, "eval/reward_avg": 0.654296875, "eval/reward_loss_mean": 0.8183801174163818, "eval/reward_loss_std": 3.4842422008514404, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009960174560547, "eval/reward_neg_acc": 0.9143155217170715, "eval/reward_neg_loss": 0.09694131463766098, "eval/reward_pos_acc": 0.2238806039094925, "eval/reward_pos_loss": 11.1231107711792, "eval/reward_pred": 0.28172171115875244, "eval/reward_rate": 0.0654296875, "replay/size": 89194.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.6328485116006285e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4097211062489012e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.05966424942017, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8551766872406006, "timer/env.step_frac": 0.009515363200790885, "timer/env.step_avg": 0.004015719672630943, "timer/env.step_min": 0.002547025680541992, "timer/env.step_max": 0.010982036590576172, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 185.40137434005737, "timer/replay._sample_frac": 0.6178816963080557, "timer/replay._sample_avg": 0.016297589164913622, "timer/replay._sample_min": 0.0005409717559814453, "timer/replay._sample_max": 0.09767389297485352, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17510199546813965, "timer/agent.save_frac": 0.0005835572598741186, "timer/agent.save_avg": 0.17510199546813965, "timer/agent.save_min": 0.17510199546813965, "timer/agent.save_max": 0.17510199546813965, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.5438368320465, "timer/agent.policy_frac": 0.6616811937342231, "timer/agent.policy_avg": 0.279245902717365, "timer/agent.policy_min": 0.0034704208374023438, "timer/agent.policy_max": 0.3809976577758789, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09569263458251953, "timer/dataset_train_frac": 0.0003189120231200967, "timer/dataset_train_avg": 0.00013458879688118077, "timer/dataset_train_min": 8.177757263183594e-05, "timer/dataset_train_max": 0.0005667209625244141, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.49221658706665, "timer/agent.train_frac": 0.3249094370312555, "timer/agent.train_avg": 0.13711985455283635, "timer/agent.train_min": 0.10097765922546387, "timer/agent.train_max": 0.4297792911529541, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49796462059020996, "timer/agent.report_frac": 0.0016595520155494282, "timer/agent.report_avg": 0.24898231029510498, "timer/agent.report_min": 0.09899449348449707, "timer/agent.report_max": 0.3989701271057129, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.05718994140625e-05, "timer/dataset_eval_frac": 2.35192889356167e-07, "timer/dataset_eval_avg": 7.05718994140625e-05, "timer/dataset_eval_min": 7.05718994140625e-05, "timer/dataset_eval_max": 7.05718994140625e-05, "fps": 9.477811388342982}
+{"step": 357368, "episode/length": 953.0, "episode/score": 1480.0, "episode/reward_rate": 0.09748427672955975}
+{"step": 359828, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.583408028738839, "train/action_min": 0.0, "train/action_std": 2.8918029648917063, "train/actor_opt_grad_norm": 0.007566492479028446, "train/actor_opt_grad_steps": 88505.0, "train/actor_opt_loss": 0.0004424952526018647, "train/adv_mag": 0.5740529962948391, "train/adv_max": 0.5533521286078862, "train/adv_mean": 0.0012141022838607438, "train/adv_min": -0.4059191944343703, "train/adv_std": 0.03328673214252506, "train/cont_avg": 0.9986328125, "train/cont_loss_mean": 0.00039518908619620946, "train/cont_loss_std": 0.011281202535467834, "train/cont_neg_acc": 0.90058479549592, "train/cont_neg_loss": 0.3508444968352155, "train/cont_pos_acc": 0.9999860056809017, "train/cont_pos_loss": 7.483661308416315e-05, "train/cont_pred": 0.9986691900662014, "train/cont_rate": 0.9986328125, "train/dyn_loss_mean": 5.071638093675886, "train/dyn_loss_std": 6.6375908102308, "train/extr_critic_critic_opt_grad_norm": 2.3132891195161003, "train/extr_critic_critic_opt_grad_steps": 88505.0, "train/extr_critic_critic_opt_loss": 1.5695911628859385, "train/extr_critic_mag": 460.6314867292132, "train/extr_critic_max": 460.6314867292132, "train/extr_critic_mean": 174.84706911359515, "train/extr_critic_min": 0.05005326100758144, "train/extr_critic_std": 141.8607421875, "train/extr_return_normed_mag": 1.1824273271220072, "train/extr_return_normed_max": 1.1824273271220072, "train/extr_return_normed_mean": 0.4184377908706665, "train/extr_return_normed_min": -0.009649628320974962, "train/extr_return_normed_std": 0.34726679027080537, "train/extr_return_rate": 0.928843983582088, "train/extr_return_raw_mag": 488.3943067278181, "train/extr_return_raw_max": 488.3943067278181, "train/extr_return_raw_mean": 175.34638257707869, "train/extr_return_raw_min": 0.04770817033214761, "train/extr_return_raw_std": 142.2321370806013, "train/extr_reward_mag": 161.85765658787318, "train/extr_reward_max": 161.85765658787318, "train/extr_reward_mean": 0.9111045982156482, "train/extr_reward_min": 0.0, "train/extr_reward_std": 4.790042577471052, "train/image_loss_mean": 2.0208644815853662, "train/image_loss_std": 1.7117985776492528, "train/model_loss_mean": 5.133960158484323, "train/model_loss_std": 5.386515951156616, "train/model_opt_grad_norm": 14.543250601632254, "train/model_opt_grad_steps": 88505.0, "train/model_opt_loss": 5.133960158484323, "train/policy_entropy_mag": 2.177506198201861, "train/policy_entropy_max": 2.177506198201861, "train/policy_entropy_mean": 1.203114034448351, "train/policy_entropy_min": 0.07002474016376904, "train/policy_entropy_std": 0.608570864370891, "train/policy_logprob_mag": 6.793701669148036, "train/policy_logprob_max": -0.009034542819218977, "train/policy_logprob_mean": -1.203784190756934, "train/policy_logprob_min": -6.793701669148036, "train/policy_logprob_std": 1.1000804679734366, "train/policy_randomness_mag": 0.9910257697105408, "train/policy_randomness_max": 0.9910257697105408, "train/policy_randomness_mean": 0.5475607889039176, "train/policy_randomness_min": 0.031869632271783695, "train/policy_randomness_std": 0.27697253354958123, "train/post_ent_mag": 56.132164873395645, "train/post_ent_max": 56.132164873395645, "train/post_ent_mean": 38.919600187029154, "train/post_ent_min": 22.200473976135253, "train/post_ent_std": 5.2506249257496425, "train/prior_ent_mag": 78.07745383126395, "train/prior_ent_max": 78.07745383126395, "train/prior_ent_mean": 43.69840932573591, "train/prior_ent_min": 26.138283947535925, "train/prior_ent_std": 7.893125070844378, "train/rep_loss_mean": 5.071638093675886, "train/rep_loss_std": 6.6375908102308, "train/reward_avg": 1.2039620535714286, "train/reward_loss_mean": 0.069717604134764, "train/reward_loss_std": 0.2643452199442046, "train/reward_max_data": 167.28571428571428, "train/reward_max_pred": 135.49034241267614, "train/reward_neg_acc": 0.9656174378735679, "train/reward_neg_loss": 0.010296504264364818, "train/reward_pos_acc": 0.992872085741588, "train/reward_pos_loss": 0.6722243028027671, "train/reward_pred": 1.0692450076341629, "train/reward_rate": 0.08970424107142858, "train_stats/mean_log_entropy": 1.0873271226882935, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.947877533188148e-07, "report/cont_loss_std": 6.864306214993121e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.947877533188148e-07, "report/cont_pred": 0.9999997019767761, "report/cont_rate": 1.0, "report/dyn_loss_mean": 3.9388132095336914, "report/dyn_loss_std": 6.061128616333008, "report/image_loss_mean": 1.544211745262146, "report/image_loss_std": 1.5888261795043945, "report/model_loss_mean": 3.9646084308624268, "report/model_loss_std": 4.9267425537109375, "report/post_ent_mag": 55.047630310058594, "report/post_ent_max": 55.047630310058594, "report/post_ent_mean": 37.732147216796875, "report/post_ent_min": 22.748371124267578, "report/post_ent_std": 5.822180271148682, "report/prior_ent_mag": 78.01467895507812, "report/prior_ent_max": 78.01467895507812, "report/prior_ent_mean": 41.93229675292969, "report/prior_ent_min": 24.43016815185547, "report/prior_ent_std": 8.026958465576172, "report/rep_loss_mean": 3.9388132095336914, "report/rep_loss_std": 6.061128616333008, "report/reward_avg": 1.572265625, "report/reward_loss_mean": 0.05710859224200249, "report/reward_loss_std": 0.20025040209293365, "report/reward_max_data": 200.0, "report/reward_max_pred": 197.81707763671875, "report/reward_neg_acc": 0.9796573519706726, "report/reward_neg_loss": 0.004627488553524017, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6017459034919739, "report/reward_pred": 1.5059069395065308, "report/reward_rate": 0.087890625, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.04066061973571777, "eval/cont_loss_std": 0.740294873714447, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 10.409099578857422, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 7.78062840822713e-08, "eval/cont_pred": 0.9995031356811523, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 12.295333862304688, "eval/dyn_loss_std": 13.368410110473633, "eval/image_loss_mean": 4.989923477172852, "eval/image_loss_std": 4.690301418304443, "eval/model_loss_mean": 13.17200756072998, "eval/model_loss_std": 12.724013328552246, "eval/post_ent_mag": 57.507057189941406, "eval/post_ent_max": 57.507057189941406, "eval/post_ent_mean": 34.6214599609375, "eval/post_ent_min": 21.795177459716797, "eval/post_ent_std": 6.170487403869629, "eval/prior_ent_mag": 78.01467895507812, "eval/prior_ent_max": 78.01467895507812, "eval/prior_ent_mean": 39.89484786987305, "eval/prior_ent_min": 24.220617294311523, "eval/prior_ent_std": 9.321722984313965, "eval/rep_loss_mean": 12.295333862304688, "eval/rep_loss_std": 13.368410110473633, "eval/reward_avg": 0.60546875, "eval/reward_loss_mean": 0.7642229795455933, "eval/reward_loss_std": 3.2745537757873535, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.0105619430542, "eval/reward_neg_acc": 0.9199584126472473, "eval/reward_neg_loss": 0.09654510021209717, "eval/reward_pos_acc": 0.16129031777381897, "eval/reward_pos_loss": 11.12399959564209, "eval/reward_pred": 0.25872355699539185, "eval/reward_rate": 0.060546875, "replay/size": 89894.0, "replay/inserts": 700.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 5.248614719935826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3365915843418665e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.2069940567016602e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0218894481659, "timer/env.step_count": 700.0, "timer/env.step_total": 2.544551134109497, "timer/env.step_frac": 0.008481218283071686, "timer/env.step_avg": 0.003635073048727853, "timer/env.step_min": 0.00226593017578125, "timer/env.step_max": 0.022771358489990234, "timer/replay._sample_count": 11200.0, "timer/replay._sample_total": 211.28734874725342, "timer/replay._sample_frac": 0.7042397777571395, "timer/replay._sample_avg": 0.018864941852433342, "timer/replay._sample_min": 0.0005843639373779297, "timer/replay._sample_max": 0.05339670181274414, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 700.0, "timer/agent.policy_total": 197.80600905418396, "timer/agent.policy_frac": 0.6593052574197539, "timer/agent.policy_avg": 0.28258001293454854, "timer/agent.policy_min": 0.0031592845916748047, "timer/agent.policy_max": 0.3310093879699707, "timer/dataset_train_count": 700.0, "timer/dataset_train_total": 0.09703707695007324, "timer/dataset_train_frac": 0.0003234333239103146, "timer/dataset_train_avg": 0.00013862439564296179, "timer/dataset_train_min": 8.392333984375e-05, "timer/dataset_train_max": 0.0010437965393066406, "timer/agent.train_count": 700.0, "timer/agent.train_total": 98.41560173034668, "timer/agent.train_frac": 0.32802807125627986, "timer/agent.train_avg": 0.14059371675763813, "timer/agent.train_min": 0.10119962692260742, "timer/agent.train_max": 0.4523200988769531, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49622654914855957, "timer/agent.report_frac": 0.0016539678156859668, "timer/agent.report_avg": 0.24811327457427979, "timer/agent.report_min": 0.09847331047058105, "timer/agent.report_max": 0.3977532386779785, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.511543273925781e-05, "timer/dataset_eval_frac": 2.8369740919841456e-07, "timer/dataset_eval_avg": 8.511543273925781e-05, "timer/dataset_eval_min": 8.511543273925781e-05, "timer/dataset_eval_max": 8.511543273925781e-05, "fps": 9.332406375556287}
+{"step": 360788, "episode/length": 854.0, "episode/score": 1000.0, "episode/reward_rate": 0.10760233918128655}
+{"step": 362672, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.495853047975352, "train/action_min": 0.0, "train/action_std": 2.9113872420619913, "train/actor_opt_grad_norm": 0.007539562316952457, "train/actor_opt_grad_steps": 89210.0, "train/actor_opt_loss": 0.0010550216291650787, "train/adv_mag": 0.6019736148521934, "train/adv_max": 0.5771417042738954, "train/adv_mean": 0.0021771694708559793, "train/adv_min": -0.4044920888165353, "train/adv_std": 0.03490264682282864, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.00030937709587591084, "train/cont_loss_std": 0.008600955511195897, "train/cont_neg_acc": 0.9675925925925926, "train/cont_neg_loss": 0.1049489227501502, "train/cont_pos_acc": 0.9999448304444971, "train/cont_pos_loss": 0.00016358341013858195, "train/cont_pred": 0.9985689050714734, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.748161373004107, "train/dyn_loss_std": 6.679338132831412, "train/extr_critic_critic_opt_grad_norm": 2.180885026152705, "train/extr_critic_critic_opt_grad_steps": 89210.0, "train/extr_critic_critic_opt_loss": 1.546520812410704, "train/extr_critic_mag": 470.0108281525088, "train/extr_critic_max": 470.0108281525088, "train/extr_critic_mean": 174.81369910441654, "train/extr_critic_min": 0.017160729623176683, "train/extr_critic_std": 140.7659193226989, "train/extr_return_normed_mag": 1.2138767830083068, "train/extr_return_normed_max": 1.2138767830083068, "train/extr_return_normed_mean": 0.42166656045846534, "train/extr_return_normed_min": -0.01231097664788995, "train/extr_return_normed_std": 0.34965713867838955, "train/extr_return_rate": 0.929319850156005, "train/extr_return_raw_mag": 496.4453683772557, "train/extr_return_raw_max": 496.4453683772557, "train/extr_return_raw_mean": 175.69548518221143, "train/extr_return_raw_min": 0.006769766581808807, "train/extr_return_raw_std": 141.55480398258692, "train/extr_reward_mag": 183.2814791236125, "train/extr_reward_max": 183.2814791236125, "train/extr_reward_mean": 1.0038288290232, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.7177732259454865, "train/image_loss_mean": 2.004438814982562, "train/image_loss_std": 1.683267012448378, "train/model_loss_mean": 4.923036232800551, "train/model_loss_std": 5.39868430016746, "train/model_opt_grad_norm": 12.635935246104925, "train/model_opt_grad_steps": 89210.0, "train/model_opt_loss": 4.923036232800551, "train/policy_entropy_mag": 2.1779656544537613, "train/policy_entropy_max": 2.1779656544537613, "train/policy_entropy_mean": 1.1917390999659685, "train/policy_entropy_min": 0.06997425245567107, "train/policy_entropy_std": 0.61006451408628, "train/policy_logprob_mag": 6.789275834258174, "train/policy_logprob_max": -0.009027401234587314, "train/policy_logprob_mean": -1.1916010220285873, "train/policy_logprob_min": -6.789275834258174, "train/policy_logprob_std": 1.1010856594837888, "train/policy_randomness_mag": 0.9912348784191508, "train/policy_randomness_max": 0.9912348784191508, "train/policy_randomness_mean": 0.542383824855509, "train/policy_randomness_min": 0.03184665456204347, "train/policy_randomness_std": 0.27765232009786955, "train/post_ent_mag": 56.009883880615234, "train/post_ent_max": 56.009883880615234, "train/post_ent_mean": 38.96662032436317, "train/post_ent_min": 21.956305087452204, "train/post_ent_std": 5.297186482120567, "train/prior_ent_mag": 78.08552089207609, "train/prior_ent_max": 78.08552089207609, "train/prior_ent_mean": 43.85880736230125, "train/prior_ent_min": 25.773898111262792, "train/prior_ent_std": 7.81049103132436, "train/rep_loss_mean": 4.748161373004107, "train/rep_loss_std": 6.679338132831412, "train/reward_avg": 1.327849911971831, "train/reward_loss_mean": 0.06939122636973018, "train/reward_loss_std": 0.2551950581476722, "train/reward_max_data": 215.49295774647888, "train/reward_max_pred": 165.639248256952, "train/reward_neg_acc": 0.9685604026619817, "train/reward_neg_loss": 0.008935068615935219, "train/reward_pos_acc": 0.9962289937784974, "train/reward_pos_loss": 0.6585323231320985, "train/reward_pred": 1.170386534761375, "train/reward_rate": 0.09318606954225352, "train_stats/mean_log_entropy": 1.136955738067627, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.0315430699847639e-05, "report/cont_loss_std": 0.00023727264488115907, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00037501889164559543, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.958926966646686e-06, "report/cont_pred": 0.9990139007568359, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.9180729389190674, "report/dyn_loss_std": 6.3622612953186035, "report/image_loss_mean": 1.7011686563491821, "report/image_loss_std": 1.4982304573059082, "report/model_loss_mean": 4.132725715637207, "report/model_loss_std": 5.031126499176025, "report/post_ent_mag": 55.75714874267578, "report/post_ent_max": 55.75714874267578, "report/post_ent_mean": 37.79319763183594, "report/post_ent_min": 23.60235595703125, "report/post_ent_std": 5.229070663452148, "report/prior_ent_mag": 78.05525207519531, "report/prior_ent_max": 78.05525207519531, "report/prior_ent_mean": 41.967079162597656, "report/prior_ent_min": 25.06566619873047, "report/prior_ent_std": 7.8905720710754395, "report/rep_loss_mean": 3.9180729389190674, "report/rep_loss_std": 6.3622612953186035, "report/reward_avg": 2.109375, "report/reward_loss_mean": 0.08070274442434311, "report/reward_loss_std": 0.25518643856048584, "report/reward_max_data": 400.0, "report/reward_max_pred": 359.1207275390625, "report/reward_neg_acc": 0.9746695756912231, "report/reward_neg_loss": 0.009444830939173698, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6384802460670471, "report/reward_pred": 1.8494467735290527, "report/reward_rate": 0.11328125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.02040366269648075, "eval/cont_loss_std": 0.4614875912666321, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 5.223067283630371, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 1.0582981531115365e-06, "eval/cont_pred": 0.9980568885803223, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 11.180028915405273, "eval/dyn_loss_std": 13.056673049926758, "eval/image_loss_mean": 4.445094108581543, "eval/image_loss_std": 4.638241767883301, "eval/model_loss_mean": 11.535910606384277, "eval/model_loss_std": 12.12712574005127, "eval/post_ent_mag": 57.27212905883789, "eval/post_ent_max": 57.27212905883789, "eval/post_ent_mean": 35.01100158691406, "eval/post_ent_min": 21.229156494140625, "eval/post_ent_std": 6.582530975341797, "eval/prior_ent_mag": 78.05525207519531, "eval/prior_ent_max": 78.05525207519531, "eval/prior_ent_mean": 38.761070251464844, "eval/prior_ent_min": 24.859886169433594, "eval/prior_ent_std": 9.314208984375, "eval/rep_loss_mean": 11.180028915405273, "eval/rep_loss_std": 13.056673049926758, "eval/reward_avg": 0.302734375, "eval/reward_loss_mean": 0.36239469051361084, "eval/reward_loss_std": 2.1555776596069336, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.012887954711914, "eval/reward_neg_acc": 0.9546827673912048, "eval/reward_neg_loss": 0.09407323598861694, "eval/reward_pos_acc": 0.32258063554763794, "eval/reward_pos_loss": 8.95733642578125, "eval/reward_pred": 0.24127396941184998, "eval/reward_rate": 0.0302734375, "replay/size": 90605.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.63620179682006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4091133233028792e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.26814222335815, "timer/env.step_count": 711.0, "timer/env.step_total": 2.786027669906616, "timer/env.step_frac": 0.009278465738247367, "timer/env.step_avg": 0.003918463670754734, "timer/env.step_min": 0.002241373062133789, "timer/env.step_max": 0.02129220962524414, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 188.75586795806885, "timer/replay._sample_frac": 0.6286243574173795, "timer/replay._sample_avg": 0.016592463779717726, "timer/replay._sample_min": 0.0010256767272949219, "timer/replay._sample_max": 0.04672837257385254, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.82609248161316, "timer/agent.policy_frac": 0.6621617964842701, "timer/agent.policy_avg": 0.2796428867533237, "timer/agent.policy_min": 0.0031461715698242188, "timer/agent.policy_max": 0.3215644359588623, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09036970138549805, "timer/dataset_train_frac": 0.0003009633346926143, "timer/dataset_train_avg": 0.00012710225230027855, "timer/dataset_train_min": 8.106231689453125e-05, "timer/dataset_train_max": 0.0004165172576904297, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.53068780899048, "timer/agent.train_frac": 0.32481197334761236, "timer/agent.train_avg": 0.1371739631631371, "timer/agent.train_min": 0.10060811042785645, "timer/agent.train_max": 0.44347214698791504, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49509692192077637, "timer/agent.report_frac": 0.0016488493193276975, "timer/agent.report_avg": 0.24754846096038818, "timer/agent.report_min": 0.09872627258300781, "timer/agent.report_max": 0.39637064933776855, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.100799560546875e-05, "timer/dataset_eval_frac": 1.365712502892313e-07, "timer/dataset_eval_avg": 4.100799560546875e-05, "timer/dataset_eval_min": 4.100799560546875e-05, "timer/dataset_eval_max": 4.100799560546875e-05, "fps": 9.471159318857497}
+{"step": 362884, "episode/length": 523.0, "episode/score": 1190.0, "episode/reward_rate": 0.13931297709923665}
+{"step": 365180, "episode/length": 573.0, "episode/score": 970.0, "episode/reward_rate": 0.13937282229965156}
+{"step": 365520, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.435961405436198, "train/action_min": 0.0, "train/action_std": 2.9034585091802807, "train/actor_opt_grad_norm": 0.007504918709552537, "train/actor_opt_grad_steps": 89925.0, "train/actor_opt_loss": 0.0008413726473008865, "train/adv_mag": 0.6096808417803712, "train/adv_max": 0.5868789938588937, "train/adv_mean": 0.0019004039759680483, "train/adv_min": -0.4220463196850485, "train/adv_std": 0.03318068035878241, "train/cont_avg": 0.99853515625, "train/cont_loss_mean": 0.0003061644818461378, "train/cont_loss_std": 0.008970965019573408, "train/cont_neg_acc": 0.9601307195775649, "train/cont_neg_loss": 0.13029627226382548, "train/cont_pos_acc": 0.9999591757853826, "train/cont_pos_loss": 0.000123863916019216, "train/cont_pred": 0.9985352026091682, "train/cont_rate": 0.99853515625, "train/dyn_loss_mean": 4.708170900742213, "train/dyn_loss_std": 6.647202524873945, "train/extr_critic_critic_opt_grad_norm": 2.117709666490555, "train/extr_critic_critic_opt_grad_steps": 89925.0, "train/extr_critic_critic_opt_loss": 1.5091403656535678, "train/extr_critic_mag": 465.608393351237, "train/extr_critic_max": 465.608393351237, "train/extr_critic_mean": 175.625987900628, "train/extr_critic_min": 0.29208628005451626, "train/extr_critic_std": 141.41750823126898, "train/extr_return_normed_mag": 1.1898192630873785, "train/extr_return_normed_max": 1.1898192630873785, "train/extr_return_normed_mean": 0.4230690474311511, "train/extr_return_normed_min": -0.008519030991010368, "train/extr_return_normed_std": 0.3481361892902189, "train/extr_return_rate": 0.9282814752724435, "train/extr_return_raw_mag": 489.2462289598253, "train/extr_return_raw_max": 489.2462289598253, "train/extr_return_raw_mean": 176.40107663472494, "train/extr_return_raw_min": 0.28874851200736074, "train/extr_return_raw_std": 142.0521149105496, "train/extr_reward_mag": 185.57255154185825, "train/extr_reward_max": 185.57255154185825, "train/extr_reward_mean": 0.9783880424996217, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.364427788390054, "train/image_loss_mean": 1.9580949578020308, "train/image_loss_std": 1.6697663184669282, "train/model_loss_mean": 4.851335869895087, "train/model_loss_std": 5.371695372793409, "train/model_opt_grad_norm": 14.530845085779825, "train/model_opt_grad_steps": 89925.0, "train/model_opt_loss": 4.851335869895087, "train/policy_entropy_mag": 2.177166889111201, "train/policy_entropy_max": 2.177166889111201, "train/policy_entropy_mean": 1.2026301713453398, "train/policy_entropy_min": 0.06987581412411398, "train/policy_entropy_std": 0.6081014101703962, "train/policy_logprob_mag": 6.792606446478102, "train/policy_logprob_max": -0.009013683095367419, "train/policy_logprob_mean": -1.2032135104139645, "train/policy_logprob_min": -6.792606446478102, "train/policy_logprob_std": 1.0995556265115738, "train/policy_randomness_mag": 0.9908713441756036, "train/policy_randomness_max": 0.9908713441756036, "train/policy_randomness_mean": 0.547340578917, "train/policy_randomness_min": 0.031801853173722826, "train/policy_randomness_std": 0.2767588761117723, "train/post_ent_mag": 56.55457984076606, "train/post_ent_max": 56.55457984076606, "train/post_ent_mean": 38.80492729610867, "train/post_ent_min": 22.24348939789666, "train/post_ent_std": 5.244680176178615, "train/prior_ent_mag": 78.18181737263997, "train/prior_ent_max": 78.18181737263997, "train/prior_ent_mean": 43.615368366241455, "train/prior_ent_min": 26.019389629364014, "train/prior_ent_std": 7.8499811093012495, "train/rep_loss_mean": 4.708170900742213, "train/rep_loss_std": 6.647202524873945, "train/reward_avg": 1.3406032986111112, "train/reward_loss_mean": 0.0680322236277991, "train/reward_loss_std": 0.24415920302271843, "train/reward_max_data": 225.69444444444446, "train/reward_max_pred": 174.27654694186316, "train/reward_neg_acc": 0.9696022810207473, "train/reward_neg_loss": 0.008966567201746834, "train/reward_pos_acc": 0.9960875627067354, "train/reward_pos_loss": 0.6451229660047425, "train/reward_pred": 1.1807701099250052, "train/reward_rate": 0.0928955078125, "train_stats/mean_log_entropy": 1.0413352847099304, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.9985973704071966e-09, "report/cont_loss_std": 2.8750575253866373e-08, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.9985973704071966e-09, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.363734245300293, "report/dyn_loss_std": 6.690273761749268, "report/image_loss_mean": 2.0522820949554443, "report/image_loss_std": 1.6333305835723877, "report/model_loss_mean": 5.36332893371582, "report/model_loss_std": 5.3921942710876465, "report/post_ent_mag": 50.76520919799805, "report/post_ent_max": 50.76520919799805, "report/post_ent_mean": 41.30613708496094, "report/post_ent_min": 25.25909423828125, "report/post_ent_std": 4.364275932312012, "report/prior_ent_mag": 78.37418365478516, "report/prior_ent_max": 78.37418365478516, "report/prior_ent_mean": 46.61317443847656, "report/prior_ent_min": 28.25076675415039, "report/prior_ent_std": 6.639161109924316, "report/rep_loss_mean": 5.363734245300293, "report/rep_loss_std": 6.690273761749268, "report/reward_avg": 2.060546875, "report/reward_loss_mean": 0.09280654788017273, "report/reward_loss_std": 0.24582482874393463, "report/reward_max_data": 200.0, "report/reward_max_pred": 197.4615936279297, "report/reward_neg_acc": 0.9363127946853638, "report/reward_neg_loss": 0.01677641086280346, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6203024387359619, "report/reward_pred": 1.894891619682312, "report/reward_rate": 0.1259765625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0010631527984514832, "eval/cont_loss_std": 0.019725646823644638, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.037755563855171204, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.000991347711533308, "eval/cont_pred": 0.9972933530807495, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.156038284301758, "eval/dyn_loss_std": 11.496511459350586, "eval/image_loss_mean": 4.823603630065918, "eval/image_loss_std": 4.278363227844238, "eval/model_loss_mean": 12.076597213745117, "eval/model_loss_std": 11.156180381774902, "eval/post_ent_mag": 58.84173583984375, "eval/post_ent_max": 58.84173583984375, "eval/post_ent_mean": 36.075767517089844, "eval/post_ent_min": 21.808059692382812, "eval/post_ent_std": 6.39848518371582, "eval/prior_ent_mag": 78.37418365478516, "eval/prior_ent_max": 78.37418365478516, "eval/prior_ent_mean": 39.33451843261719, "eval/prior_ent_min": 24.83939552307129, "eval/prior_ent_std": 8.7300386428833, "eval/rep_loss_mean": 11.156038284301758, "eval/rep_loss_std": 11.496511459350586, "eval/reward_avg": 0.44921875, "eval/reward_loss_mean": 0.5583075284957886, "eval/reward_loss_std": 2.9347245693206787, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.0074462890625, "eval/reward_neg_acc": 0.9498977065086365, "eval/reward_neg_loss": 0.08360976725816727, "eval/reward_pos_acc": 0.239130437374115, "eval/reward_pos_loss": 10.650795936584473, "eval/reward_pred": 0.25129175186157227, "eval/reward_rate": 0.044921875, "replay/size": 91317.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.542562249001492e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4920415503255438e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9818544387817383e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.83457612991333, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8325111865997314, "timer/env.step_frac": 0.009446913105086491, "timer/env.step_avg": 0.003978246048595128, "timer/env.step_min": 0.002485990524291992, "timer/env.step_max": 0.023462295532226562, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 195.71799230575562, "timer/replay._sample_frac": 0.6527532442454345, "timer/replay._sample_avg": 0.017180301290884447, "timer/replay._sample_min": 0.0072286128997802734, "timer/replay._sample_max": 0.06802701950073242, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0984504222869873, "timer/agent.save_frac": 0.00032834913023616855, "timer/agent.save_avg": 0.0984504222869873, "timer/agent.save_min": 0.0984504222869873, "timer/agent.save_max": 0.0984504222869873, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 199.09463500976562, "timer/agent.policy_frac": 0.6640149297641418, "timer/agent.policy_avg": 0.2796272963620304, "timer/agent.policy_min": 0.003504037857055664, "timer/agent.policy_max": 0.42235493659973145, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.08876276016235352, "timer/dataset_train_frac": 0.0002960391069904296, "timer/dataset_train_avg": 0.0001246667979808336, "timer/dataset_train_min": 7.653236389160156e-05, "timer/dataset_train_max": 0.00029397010803222656, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.08683490753174, "timer/agent.train_frac": 0.32380133125629124, "timer/agent.train_avg": 0.13635791419597154, "timer/agent.train_min": 0.0997014045715332, "timer/agent.train_max": 0.4279658794403076, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20352697372436523, "timer/agent.report_frac": 0.0006787975434700379, "timer/agent.report_avg": 0.10176348686218262, "timer/agent.report_min": 0.10109496116638184, "timer/agent.report_max": 0.1024320125579834, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.843971252441406e-05, "timer/dataset_eval_frac": 2.616099635234445e-07, "timer/dataset_eval_avg": 7.843971252441406e-05, "timer/dataset_eval_min": 7.843971252441406e-05, "timer/dataset_eval_max": 7.843971252441406e-05, "fps": 9.498273315437059}
+{"step": 368380, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.536291847766285, "train/action_min": 0.0, "train/action_std": 2.8990404370804908, "train/actor_opt_grad_norm": 0.007311365435975538, "train/actor_opt_grad_steps": 90640.0, "train/actor_opt_loss": 0.000903289039675835, "train/adv_mag": 0.590579542895438, "train/adv_max": 0.5562746449255608, "train/adv_mean": 0.001842886441293776, "train/adv_min": -0.4246976308419671, "train/adv_std": 0.033421878401242514, "train/cont_avg": 0.9985420334507042, "train/cont_loss_mean": 0.00032757938920298477, "train/cont_loss_std": 0.008766231674168233, "train/cont_neg_acc": 0.9629629629629629, "train/cont_neg_loss": 0.08352837765174097, "train/cont_pos_acc": 0.9999447909879012, "train/cont_pos_loss": 0.00020133965085727878, "train/cont_pred": 0.9984834823809879, "train/cont_rate": 0.9985420334507042, "train/dyn_loss_mean": 4.53314347334311, "train/dyn_loss_std": 6.6221130397957815, "train/extr_critic_critic_opt_grad_norm": 2.168985687511068, "train/extr_critic_critic_opt_grad_steps": 90640.0, "train/extr_critic_critic_opt_loss": 1.4800047421119582, "train/extr_critic_mag": 466.79135991486027, "train/extr_critic_max": 466.79135991486027, "train/extr_critic_mean": 183.61546411648604, "train/extr_critic_min": 0.033683855768660426, "train/extr_critic_std": 142.7220834006726, "train/extr_return_normed_mag": 1.1946809585665312, "train/extr_return_normed_max": 1.1946809585665312, "train/extr_return_normed_mean": 0.4357199551353992, "train/extr_return_normed_min": -0.011147743077869986, "train/extr_return_normed_std": 0.34740093644236175, "train/extr_return_rate": 0.9275739562343543, "train/extr_return_raw_mag": 497.40662738638866, "train/extr_return_raw_max": 497.40662738638866, "train/extr_return_raw_mean": 184.37554759710608, "train/extr_return_raw_min": 0.015555833293162746, "train/extr_return_raw_std": 143.31527215662138, "train/extr_reward_mag": 178.236292718162, "train/extr_reward_max": 178.236292718162, "train/extr_reward_mean": 1.0148174254827096, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.6111324756917815, "train/image_loss_mean": 1.8802120517676986, "train/image_loss_std": 1.645457516253834, "train/model_loss_mean": 4.671090955465612, "train/model_loss_std": 5.3255249681607095, "train/model_opt_grad_norm": 12.24090055009009, "train/model_opt_grad_steps": 90640.0, "train/model_opt_loss": 4.671090955465612, "train/policy_entropy_mag": 2.1753298833336627, "train/policy_entropy_max": 2.1753298833336627, "train/policy_entropy_mean": 1.1500262794360308, "train/policy_entropy_min": 0.06982294690441078, "train/policy_entropy_std": 0.6153767713358704, "train/policy_logprob_mag": 6.795169272892911, "train/policy_logprob_max": -0.009004371844127144, "train/policy_logprob_mean": -1.1493202187645604, "train/policy_logprob_min": -6.795169272892911, "train/policy_logprob_std": 1.1073473020338676, "train/policy_randomness_mag": 0.9900352904494379, "train/policy_randomness_max": 0.9900352904494379, "train/policy_randomness_mean": 0.5233995150512373, "train/policy_randomness_min": 0.03177779230853202, "train/policy_randomness_std": 0.2800700364398285, "train/post_ent_mag": 56.294075442032074, "train/post_ent_max": 56.294075442032074, "train/post_ent_mean": 38.45818855393101, "train/post_ent_min": 22.12241360838984, "train/post_ent_std": 5.261930173551533, "train/prior_ent_mag": 78.16242798281388, "train/prior_ent_max": 78.16242798281388, "train/prior_ent_mean": 43.107879584943745, "train/prior_ent_min": 25.821862314788387, "train/prior_ent_std": 7.904746236935468, "train/rep_loss_mean": 4.53314347334311, "train/rep_loss_std": 6.6221130397957815, "train/reward_avg": 1.348206426056338, "train/reward_loss_mean": 0.07066527323823579, "train/reward_loss_std": 0.2615620600925365, "train/reward_max_data": 197.6056338028169, "train/reward_max_pred": 177.68416001763143, "train/reward_neg_acc": 0.969132317623622, "train/reward_neg_loss": 0.008693639605476613, "train/reward_pos_acc": 0.9930682660828174, "train/reward_pos_loss": 0.6629114755442445, "train/reward_pred": 1.2044662107044541, "train/reward_rate": 0.09494663292253522, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.4200188565591816e-06, "report/cont_loss_std": 6.486125494120643e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.4200188565591816e-06, "report/cont_pred": 0.999996542930603, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.222648620605469, "report/dyn_loss_std": 6.53685188293457, "report/image_loss_mean": 1.532743215560913, "report/image_loss_std": 1.5201714038848877, "report/model_loss_mean": 4.130778789520264, "report/model_loss_std": 5.1756110191345215, "report/post_ent_mag": 56.361515045166016, "report/post_ent_max": 56.361515045166016, "report/post_ent_mean": 38.9698486328125, "report/post_ent_min": 23.145225524902344, "report/post_ent_std": 4.9863762855529785, "report/prior_ent_mag": 78.00180053710938, "report/prior_ent_max": 78.00180053710938, "report/prior_ent_mean": 43.30989074707031, "report/prior_ent_min": 24.686491012573242, "report/prior_ent_std": 7.510549545288086, "report/rep_loss_mean": 4.222648620605469, "report/rep_loss_std": 6.53685188293457, "report/reward_avg": 2.36328125, "report/reward_loss_mean": 0.06444324553012848, "report/reward_loss_std": 0.2337827831506729, "report/reward_max_data": 400.0, "report/reward_max_pred": 195.7091827392578, "report/reward_neg_acc": 0.9687836170196533, "report/reward_neg_loss": 0.006317374762147665, "report/reward_pos_acc": 0.9894737005233765, "report/reward_pos_loss": 0.632853090763092, "report/reward_pred": 1.5473105907440186, "report/reward_rate": 0.0927734375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005597370211035013, "eval/cont_loss_std": 0.096636101603508, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.3461092710494995, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.00297405943274498, "eval/cont_pred": 0.9971234202384949, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.974618911743164, "eval/dyn_loss_std": 10.819365501403809, "eval/image_loss_mean": 5.824347496032715, "eval/image_loss_std": 4.2688493728637695, "eval/model_loss_mean": 14.324384689331055, "eval/model_loss_std": 10.947375297546387, "eval/post_ent_mag": 58.443214416503906, "eval/post_ent_max": 58.443214416503906, "eval/post_ent_mean": 35.56597137451172, "eval/post_ent_min": 21.908069610595703, "eval/post_ent_std": 5.611965179443359, "eval/prior_ent_mag": 78.00180053710938, "eval/prior_ent_max": 78.00180053710938, "eval/prior_ent_mean": 39.56829071044922, "eval/prior_ent_min": 24.69015121459961, "eval/prior_ent_std": 8.069476127624512, "eval/rep_loss_mean": 12.974618911743164, "eval/rep_loss_std": 10.819365501403809, "eval/reward_avg": 0.556640625, "eval/reward_loss_mean": 0.7096680402755737, "eval/reward_loss_std": 3.0838234424591064, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006601333618164, "eval/reward_neg_acc": 0.9389865398406982, "eval/reward_neg_loss": 0.052775368094444275, "eval/reward_pos_acc": 0.10526315867900848, "eval/reward_pos_loss": 11.85379409790039, "eval/reward_pred": 0.1603332906961441, "eval/reward_rate": 0.0556640625, "replay/size": 92032.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.6123400067949625e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4575836541769389e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.564621925354004e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.69751048088074, "timer/env.step_count": 715.0, "timer/env.step_total": 2.789048194885254, "timer/env.step_frac": 0.009275262008072362, "timer/env.step_avg": 0.003900766706133222, "timer/env.step_min": 0.002338409423828125, "timer/env.step_max": 0.0060765743255615234, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 194.05022168159485, "timer/replay._sample_frac": 0.6453336489925252, "timer/replay._sample_avg": 0.016962431965174374, "timer/replay._sample_min": 0.008433818817138672, "timer/replay._sample_max": 0.04538726806640625, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.81731629371643, "timer/agent.policy_frac": 0.6645127057226549, "timer/agent.policy_avg": 0.2794647780331698, "timer/agent.policy_min": 0.0029981136322021484, "timer/agent.policy_max": 0.3139188289642334, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.08859086036682129, "timer/dataset_train_frac": 0.00029461787104637224, "timer/dataset_train_avg": 0.00012390330121233746, "timer/dataset_train_min": 6.866455078125e-05, "timer/dataset_train_max": 0.00035858154296875, "timer/agent.train_count": 715.0, "timer/agent.train_total": 97.008540391922, "timer/agent.train_frac": 0.3226117177916912, "timer/agent.train_avg": 0.13567628026842238, "timer/agent.train_min": 0.09912776947021484, "timer/agent.train_max": 0.4277925491333008, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5009245872497559, "timer/agent.report_frac": 0.0016658754056482492, "timer/agent.report_avg": 0.25046229362487793, "timer/agent.report_min": 0.10350227355957031, "timer/agent.report_max": 0.39742231369018555, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.034706115722656e-05, "timer/dataset_eval_frac": 2.6720228254877844e-07, "timer/dataset_eval_avg": 8.034706115722656e-05, "timer/dataset_eval_min": 8.034706115722656e-05, "timer/dataset_eval_max": 8.034706115722656e-05, "fps": 9.510888944810718}
+{"step": 368884, "episode/length": 925.0, "episode/score": 1180.0, "episode/reward_rate": 0.10475161987041037}
+{"step": 371216, "episode/length": 582.0, "episode/score": 1090.0, "episode/reward_rate": 0.14065180102915953}
+{"step": 371236, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.465635487731074, "train/action_min": 0.0, "train/action_std": 2.956318720965318, "train/actor_opt_grad_norm": 0.007751846233461524, "train/actor_opt_grad_steps": 91350.0, "train/actor_opt_loss": 0.0012251494993852504, "train/adv_mag": 0.6505346470315692, "train/adv_max": 0.6072275760308118, "train/adv_mean": 0.0020476686657044845, "train/adv_min": -0.4404585772836712, "train/adv_std": 0.03475685210400064, "train/cont_avg": 0.9984457526408451, "train/cont_loss_mean": 0.00036306802871204454, "train/cont_loss_std": 0.00986124619342039, "train/cont_neg_acc": 0.9672131147540983, "train/cont_neg_loss": 0.12384381498489391, "train/cont_pos_acc": 0.9999034068953823, "train/cont_pos_loss": 0.00018203485406422773, "train/cont_pred": 0.998380247975739, "train/cont_rate": 0.9984457526408451, "train/dyn_loss_mean": 4.755172840306456, "train/dyn_loss_std": 6.729290626418423, "train/extr_critic_critic_opt_grad_norm": 2.1450381178251456, "train/extr_critic_critic_opt_grad_steps": 91350.0, "train/extr_critic_critic_opt_loss": 1.4923230241721785, "train/extr_critic_mag": 462.8422937527509, "train/extr_critic_max": 462.8422937527509, "train/extr_critic_mean": 182.46537017822266, "train/extr_critic_min": 0.0024551337873431997, "train/extr_critic_std": 142.34261440223372, "train/extr_return_normed_mag": 1.1969222585919876, "train/extr_return_normed_max": 1.1969222585919876, "train/extr_return_normed_mean": 0.43222814924280406, "train/extr_return_normed_min": -0.010526203524163912, "train/extr_return_normed_std": 0.3452373573058088, "train/extr_return_rate": 0.9256419220440825, "train/extr_return_raw_mag": 499.8074547136334, "train/extr_return_raw_max": 499.8074547136334, "train/extr_return_raw_mean": 183.3131737507565, "train/extr_return_raw_min": 0.0025185581967300196, "train/extr_return_raw_std": 142.91931603660046, "train/extr_reward_mag": 195.34811597474865, "train/extr_reward_max": 195.34811597474865, "train/extr_reward_mean": 1.0184889549100902, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.838098166694103, "train/image_loss_mean": 1.9702417464323447, "train/image_loss_std": 1.6638237187560176, "train/model_loss_mean": 4.897369126198997, "train/model_loss_std": 5.410035462446616, "train/model_opt_grad_norm": 12.71607166612652, "train/model_opt_grad_steps": 91350.0, "train/model_opt_loss": 4.897369126198997, "train/policy_entropy_mag": 2.175896171113135, "train/policy_entropy_max": 2.175896171113135, "train/policy_entropy_mean": 1.16030284552507, "train/policy_entropy_min": 0.06990893762296355, "train/policy_entropy_std": 0.6170788373745663, "train/policy_logprob_mag": 6.795626553011612, "train/policy_logprob_max": -0.009017213470709155, "train/policy_logprob_mean": -1.161990976669419, "train/policy_logprob_min": -6.795626553011612, "train/policy_logprob_std": 1.1086766770188237, "train/policy_randomness_mag": 0.9902930209334467, "train/policy_randomness_max": 0.9902930209334467, "train/policy_randomness_mean": 0.5280765739964767, "train/policy_randomness_min": 0.03181692821459031, "train/policy_randomness_std": 0.28084467960075593, "train/post_ent_mag": 57.07562363315636, "train/post_ent_max": 57.07562363315636, "train/post_ent_mean": 38.562142976572815, "train/post_ent_min": 21.884881006160253, "train/post_ent_std": 5.26770616920901, "train/prior_ent_mag": 78.27373321963029, "train/prior_ent_max": 78.27373321963029, "train/prior_ent_mean": 43.389434814453125, "train/prior_ent_min": 25.786577009818924, "train/prior_ent_std": 7.989954659636592, "train/rep_loss_mean": 4.755172840306456, "train/rep_loss_std": 6.729290626418423, "train/reward_avg": 1.3770906690140845, "train/reward_loss_mean": 0.07366060397364724, "train/reward_loss_std": 0.2745203955072752, "train/reward_max_data": 216.90140845070422, "train/reward_max_pred": 177.19163056494486, "train/reward_neg_acc": 0.9671310958727984, "train/reward_neg_loss": 0.011054849812865888, "train/reward_pos_acc": 0.9937155154389394, "train/reward_pos_loss": 0.6749917646528969, "train/reward_pred": 1.2119449981501405, "train/reward_rate": 0.09513919454225352, "train_stats/mean_log_entropy": 0.9779511094093323, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.00015354972856584936, "report/cont_loss_std": 0.002873055636882782, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.007315320428460836, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00013953453162685037, "report/cont_pred": 0.9979256987571716, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.511666297912598, "report/dyn_loss_std": 6.682350158691406, "report/image_loss_mean": 1.6230257749557495, "report/image_loss_std": 1.3380544185638428, "report/model_loss_mean": 4.377239227294922, "report/model_loss_std": 5.084747314453125, "report/post_ent_mag": 58.927555084228516, "report/post_ent_max": 58.927555084228516, "report/post_ent_mean": 38.052459716796875, "report/post_ent_min": 22.972570419311523, "report/post_ent_std": 6.396028518676758, "report/prior_ent_mag": 78.51582336425781, "report/prior_ent_max": 78.51582336425781, "report/prior_ent_mean": 42.35333251953125, "report/prior_ent_min": 24.449020385742188, "report/prior_ent_std": 8.972748756408691, "report/rep_loss_mean": 4.511666297912598, "report/rep_loss_std": 6.682350158691406, "report/reward_avg": 1.11328125, "report/reward_loss_mean": 0.04705999791622162, "report/reward_loss_std": 0.1946515291929245, "report/reward_max_data": 210.0, "report/reward_max_pred": 194.78285217285156, "report/reward_neg_acc": 0.9749215841293335, "report/reward_neg_loss": 0.005099404137581587, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6464076638221741, "report/reward_pred": 0.9638974666595459, "report/reward_rate": 0.0654296875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.025250857695937157, "eval/cont_loss_std": 0.5707411766052246, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 8.612125396728516, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.008086994464975e-05, "eval/cont_pred": 0.9990043640136719, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 13.858837127685547, "eval/dyn_loss_std": 13.255912780761719, "eval/image_loss_mean": 5.865170478820801, "eval/image_loss_std": 4.703251838684082, "eval/model_loss_mean": 14.953619003295898, "eval/model_loss_std": 12.69561767578125, "eval/post_ent_mag": 58.927555084228516, "eval/post_ent_max": 58.927555084228516, "eval/post_ent_mean": 35.71644592285156, "eval/post_ent_min": 22.903751373291016, "eval/post_ent_std": 5.4596405029296875, "eval/prior_ent_mag": 78.51582336425781, "eval/prior_ent_max": 78.51582336425781, "eval/prior_ent_mean": 40.01316833496094, "eval/prior_ent_min": 25.101713180541992, "eval/prior_ent_std": 8.418225288391113, "eval/rep_loss_mean": 13.858837127685547, "eval/rep_loss_std": 13.255912780761719, "eval/reward_avg": 0.615234375, "eval/reward_loss_mean": 0.7478958368301392, "eval/reward_loss_std": 3.3242695331573486, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.010514259338379, "eval/reward_neg_acc": 0.9250780940055847, "eval/reward_neg_loss": 0.0955808088183403, "eval/reward_pos_acc": 0.2857142984867096, "eval/reward_pos_loss": 10.698288917541504, "eval/reward_pred": 0.3535599112510681, "eval/reward_rate": 0.0615234375, "replay/size": 92746.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.6682848462871474e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4582894095519678e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.36320328712463, "timer/env.step_count": 714.0, "timer/env.step_total": 2.856522560119629, "timer/env.step_frac": 0.009510228046772455, "timer/env.step_avg": 0.004000731876918248, "timer/env.step_min": 0.0023429393768310547, "timer/env.step_max": 0.025110483169555664, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 192.43339347839355, "timer/replay._sample_frac": 0.6406690013038704, "timer/replay._sample_avg": 0.016844659793276748, "timer/replay._sample_min": 0.008703231811523438, "timer/replay._sample_max": 0.03521847724914551, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.4208469390869, "timer/agent.policy_frac": 0.663932348425701, "timer/agent.policy_avg": 0.2793009060771525, "timer/agent.policy_min": 0.0029196739196777344, "timer/agent.policy_max": 0.3156147003173828, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.0894310474395752, "timer/dataset_train_frac": 0.0002977430206525193, "timer/dataset_train_avg": 0.0001252535678425423, "timer/dataset_train_min": 7.843971252441406e-05, "timer/dataset_train_max": 0.0003349781036376953, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.96323227882385, "timer/agent.train_frac": 0.32281994338079517, "timer/agent.train_avg": 0.13580284632888495, "timer/agent.train_min": 0.10037016868591309, "timer/agent.train_max": 0.43212270736694336, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4964754581451416, "timer/agent.report_frac": 0.001652917044137888, "timer/agent.report_avg": 0.2482377290725708, "timer/agent.report_min": 0.09760117530822754, "timer/agent.report_max": 0.39887428283691406, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.462501525878906e-05, "timer/dataset_eval_frac": 2.484492589042379e-07, "timer/dataset_eval_avg": 7.462501525878906e-05, "timer/dataset_eval_min": 7.462501525878906e-05, "timer/dataset_eval_max": 7.462501525878906e-05, "fps": 9.508190469793666}
+{"step": 374080, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.498563130696614, "train/action_min": 0.0, "train/action_std": 2.8412083321147494, "train/actor_opt_grad_norm": 0.0072376403905865215, "train/actor_opt_grad_steps": 92065.0, "train/actor_opt_loss": 0.0010647996630015972, "train/adv_mag": 0.6039325648711787, "train/adv_max": 0.582334191020992, "train/adv_mean": 0.0020597398646107954, "train/adv_min": -0.41152004556109506, "train/adv_std": 0.032247806071407266, "train/cont_avg": 0.9984944661458334, "train/cont_loss_mean": 0.00044421529990554265, "train/cont_loss_std": 0.011054330162748717, "train/cont_neg_acc": 0.9444444447755813, "train/cont_neg_loss": 0.1284605292589011, "train/cont_pos_acc": 0.9999320175912645, "train/cont_pos_loss": 0.0002751383298815715, "train/cont_pred": 0.9984274779756864, "train/cont_rate": 0.9984944661458334, "train/dyn_loss_mean": 4.580047928624683, "train/dyn_loss_std": 6.644768277804057, "train/extr_critic_critic_opt_grad_norm": 1.9869341502587001, "train/extr_critic_critic_opt_grad_steps": 92065.0, "train/extr_critic_critic_opt_loss": 1.4386883195903566, "train/extr_critic_mag": 463.4182421366374, "train/extr_critic_max": 463.4182421366374, "train/extr_critic_mean": 183.2042957941691, "train/extr_critic_min": 0.04079480469226837, "train/extr_critic_std": 142.68897183736166, "train/extr_return_normed_mag": 1.1829608314567142, "train/extr_return_normed_max": 1.1829608314567142, "train/extr_return_normed_mean": 0.43422636948525906, "train/extr_return_normed_min": -0.009884744300507009, "train/extr_return_normed_std": 0.34628366989394027, "train/extr_return_rate": 0.9233823931879468, "train/extr_return_raw_mag": 494.14776780870227, "train/extr_return_raw_max": 494.14776780870227, "train/extr_return_raw_mean": 184.05798498789468, "train/extr_return_raw_min": 0.13213134683115235, "train/extr_return_raw_std": 143.41415362887912, "train/extr_reward_mag": 182.74415180418225, "train/extr_reward_max": 182.74415180418225, "train/extr_reward_mean": 0.9918308059374491, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.372687366273668, "train/image_loss_mean": 1.8865447342395782, "train/image_loss_std": 1.607463566793336, "train/model_loss_mean": 4.7032102478875055, "train/model_loss_std": 5.308106336328718, "train/model_opt_grad_norm": 12.497623615794712, "train/model_opt_grad_steps": 92065.0, "train/model_opt_loss": 4.7032102478875055, "train/policy_entropy_mag": 2.174213641219669, "train/policy_entropy_max": 2.174213641219669, "train/policy_entropy_mean": 1.1783668630652957, "train/policy_entropy_min": 0.06972957350727585, "train/policy_entropy_std": 0.610427180926005, "train/policy_logprob_mag": 6.796057244141896, "train/policy_logprob_max": -0.008990400393183032, "train/policy_logprob_mean": -1.1783428349428706, "train/policy_logprob_min": -6.796057244141896, "train/policy_logprob_std": 1.10070182217492, "train/policy_randomness_mag": 0.9895272652308146, "train/policy_randomness_max": 0.9895272652308146, "train/policy_randomness_mean": 0.5362978598309888, "train/policy_randomness_min": 0.0317352964128885, "train/policy_randomness_std": 0.27781738051109844, "train/post_ent_mag": 57.19865110185411, "train/post_ent_max": 57.19865110185411, "train/post_ent_mean": 38.42912663353814, "train/post_ent_min": 22.131903145048355, "train/post_ent_std": 5.11340660850207, "train/prior_ent_mag": 78.36606491936578, "train/prior_ent_max": 78.36606491936578, "train/prior_ent_mean": 43.05363157060411, "train/prior_ent_min": 25.82065526644389, "train/prior_ent_std": 7.8506919675403175, "train/rep_loss_mean": 4.580047928624683, "train/rep_loss_std": 6.644768277804057, "train/reward_avg": 1.336669921875, "train/reward_loss_mean": 0.06819257698953152, "train/reward_loss_std": 0.25219836334387463, "train/reward_max_data": 217.91666666666666, "train/reward_max_pred": 175.73864425553217, "train/reward_neg_acc": 0.9690488278865814, "train/reward_neg_loss": 0.00868454942246899, "train/reward_pos_acc": 0.994132930205928, "train/reward_pos_loss": 0.6610409956839349, "train/reward_pred": 1.1667032291491826, "train/reward_rate": 0.0917697482638889, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.346098997601075e-06, "report/cont_loss_std": 2.0416013285284862e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00020236049022059888, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.1496040315250866e-06, "report/cont_pred": 0.9990224838256836, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.273788928985596, "report/dyn_loss_std": 6.638701915740967, "report/image_loss_mean": 1.8978493213653564, "report/image_loss_std": 1.4674429893493652, "report/model_loss_mean": 4.528882026672363, "report/model_loss_std": 5.188382148742676, "report/post_ent_mag": 57.4398078918457, "report/post_ent_max": 57.4398078918457, "report/post_ent_mean": 38.919921875, "report/post_ent_min": 22.34370994567871, "report/post_ent_std": 4.6322712898254395, "report/prior_ent_mag": 78.20335388183594, "report/prior_ent_max": 78.20335388183594, "report/prior_ent_mean": 43.163604736328125, "report/prior_ent_min": 25.812320709228516, "report/prior_ent_std": 7.119701862335205, "report/rep_loss_mean": 4.273788928985596, "report/rep_loss_std": 6.638701915740967, "report/reward_avg": 1.181640625, "report/reward_loss_mean": 0.06675819307565689, "report/reward_loss_std": 0.19187301397323608, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.99311828613281, "report/reward_neg_acc": 0.9780461192131042, "report/reward_neg_loss": 0.003767578164115548, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5745851397514343, "report/reward_pred": 1.1265757083892822, "report/reward_rate": 0.1103515625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.004923045635223389, "eval/cont_loss_std": 0.13699445128440857, "eval/cont_neg_acc": 0.6666666865348816, "eval/cont_neg_loss": 1.4539588689804077, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006653504678979516, "eval/cont_pred": 0.9974687099456787, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.678201675415039, "eval/dyn_loss_std": 11.38529109954834, "eval/image_loss_mean": 5.102641582489014, "eval/image_loss_std": 4.381731986999512, "eval/model_loss_mean": 12.676966667175293, "eval/model_loss_std": 11.201032638549805, "eval/post_ent_mag": 58.97737503051758, "eval/post_ent_max": 58.97737503051758, "eval/post_ent_mean": 36.559295654296875, "eval/post_ent_min": 20.436166763305664, "eval/post_ent_std": 6.379280090332031, "eval/prior_ent_mag": 78.20335388183594, "eval/prior_ent_max": 78.20335388183594, "eval/prior_ent_mean": 39.790313720703125, "eval/prior_ent_min": 25.21324920654297, "eval/prior_ent_std": 8.747036933898926, "eval/rep_loss_mean": 11.678201675415039, "eval/rep_loss_std": 11.38529109954834, "eval/reward_avg": 0.390625, "eval/reward_loss_mean": 0.5624813437461853, "eval/reward_loss_std": 2.877063035964966, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006065368652344, "eval/reward_neg_acc": 0.9512195587158203, "eval/reward_neg_loss": 0.08995489031076431, "eval/reward_pos_acc": 0.125, "eval/reward_pos_loss": 12.18663215637207, "eval/reward_pred": 0.1870344877243042, "eval/reward_rate": 0.0390625, "replay/size": 93457.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 6.083865373614133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.6007535735933756e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7285346984863281e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0856235027313, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8719146251678467, "timer/env.step_frac": 0.00957031727026972, "timer/env.step_avg": 0.004039261076185439, "timer/env.step_min": 0.0022177696228027344, "timer/env.step_max": 0.007780551910400391, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 220.15855813026428, "timer/replay._sample_frac": 0.7336524674540447, "timer/replay._sample_avg": 0.019352897163349533, "timer/replay._sample_min": 0.00871896743774414, "timer/replay._sample_max": 0.051011085510253906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10387253761291504, "timer/agent.save_frac": 0.0003461429987897091, "timer/agent.save_avg": 0.10387253761291504, "timer/agent.save_min": 0.10387253761291504, "timer/agent.save_max": 0.10387253761291504, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 199.21006321907043, "timer/agent.policy_frac": 0.6638440752136107, "timer/agent.policy_avg": 0.2801829299846279, "timer/agent.policy_min": 0.0033464431762695312, "timer/agent.policy_max": 0.38823723793029785, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09364008903503418, "timer/dataset_train_frac": 0.00031204456895344033, "timer/dataset_train_avg": 0.0001317019536357724, "timer/dataset_train_min": 7.343292236328125e-05, "timer/dataset_train_max": 0.0002472400665283203, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.17633819580078, "timer/agent.train_frac": 0.3238287028265994, "timer/agent.train_avg": 0.13667558114739914, "timer/agent.train_min": 0.09813928604125977, "timer/agent.train_max": 0.429126501083374, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20469212532043457, "timer/agent.report_frac": 0.0006821124015578557, "timer/agent.report_avg": 0.10234606266021729, "timer/agent.report_min": 0.10133600234985352, "timer/agent.report_max": 0.10335612297058105, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.125999450683594e-05, "timer/dataset_eval_frac": 1.7081789493447486e-07, "timer/dataset_eval_avg": 5.125999450683594e-05, "timer/dataset_eval_min": 5.125999450683594e-05, "timer/dataset_eval_max": 5.125999450683594e-05, "fps": 9.476922053742769}
+{"step": 374332, "episode/length": 778.0, "episode/score": 2260.0, "episode/reward_rate": 0.10397946084724005}
+{"step": 376928, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.521046813105194, "train/action_min": 0.0, "train/action_std": 2.8639518375128086, "train/actor_opt_grad_norm": 0.007981061679639027, "train/actor_opt_grad_steps": 92780.0, "train/actor_opt_loss": 0.001321999060577659, "train/adv_mag": 0.6138712780576356, "train/adv_max": 0.5678085751936469, "train/adv_mean": 0.0023280184403017597, "train/adv_min": -0.4601466714496344, "train/adv_std": 0.034894862828750005, "train/cont_avg": 0.9987208406690141, "train/cont_loss_mean": 0.0001705027837089213, "train/cont_loss_std": 0.004513395883395372, "train/cont_neg_acc": 0.9528301886792453, "train/cont_neg_loss": 0.08256782144640956, "train/cont_pos_acc": 0.9999724072469792, "train/cont_pos_loss": 7.844036918474346e-05, "train/cont_pred": 0.9987130072754873, "train/cont_rate": 0.9987208406690141, "train/dyn_loss_mean": 4.832312036568011, "train/dyn_loss_std": 6.651744029891323, "train/extr_critic_critic_opt_grad_norm": 2.3306618559528403, "train/extr_critic_critic_opt_grad_steps": 92780.0, "train/extr_critic_critic_opt_loss": 1.538924841813638, "train/extr_critic_mag": 467.3123792191626, "train/extr_critic_max": 467.3123792191626, "train/extr_critic_mean": 179.50810338409855, "train/extr_critic_min": 0.03095343918867514, "train/extr_critic_std": 140.95167466284525, "train/extr_return_normed_mag": 1.1815265333148794, "train/extr_return_normed_max": 1.1815265333148794, "train/extr_return_normed_mean": 0.42605718760423256, "train/extr_return_normed_min": -0.009193583378489589, "train/extr_return_normed_std": 0.34152408405928547, "train/extr_return_rate": 0.9338046975538764, "train/extr_return_raw_mag": 493.5704715352663, "train/extr_return_raw_max": 493.5704715352663, "train/extr_return_raw_mean": 180.4733241981184, "train/extr_return_raw_min": 0.026552981378930345, "train/extr_return_raw_std": 141.59354260941626, "train/extr_reward_mag": 193.32087784082117, "train/extr_reward_max": 193.32087784082117, "train/extr_reward_mean": 1.010770105979812, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.700450601712079, "train/image_loss_mean": 1.9717518981073943, "train/image_loss_std": 1.6668414095757713, "train/model_loss_mean": 4.941329200502852, "train/model_loss_std": 5.378268765731597, "train/model_opt_grad_norm": 13.340070872239664, "train/model_opt_grad_steps": 92780.0, "train/model_opt_loss": 4.941329200502852, "train/policy_entropy_mag": 2.173070037868661, "train/policy_entropy_max": 2.173070037868661, "train/policy_entropy_mean": 1.1686135177880945, "train/policy_entropy_min": 0.0697975850231211, "train/policy_entropy_std": 0.6109587172387352, "train/policy_logprob_mag": 6.795831962370537, "train/policy_logprob_max": -0.009001125660265836, "train/policy_logprob_mean": -1.169041611778904, "train/policy_logprob_min": -6.795831962370537, "train/policy_logprob_std": 1.107981564293445, "train/policy_randomness_mag": 0.9890067862792754, "train/policy_randomness_max": 0.9890067862792754, "train/policy_randomness_mean": 0.5318589290262947, "train/policy_randomness_min": 0.031766249785121055, "train/policy_randomness_std": 0.2780592920075, "train/post_ent_mag": 56.72218156196702, "train/post_ent_max": 56.72218156196702, "train/post_ent_mean": 38.762639811341195, "train/post_ent_min": 22.181130207760233, "train/post_ent_std": 5.1270061680968375, "train/prior_ent_mag": 78.32007749315719, "train/prior_ent_max": 78.32007749315719, "train/prior_ent_mean": 43.52607098431655, "train/prior_ent_min": 25.937940678126374, "train/prior_ent_std": 7.772088393359117, "train/rep_loss_mean": 4.832312036568011, "train/rep_loss_std": 6.651744029891323, "train/reward_avg": 1.2941516285211268, "train/reward_loss_mean": 0.07001955822949678, "train/reward_loss_std": 0.25857002382547084, "train/reward_max_data": 195.77464788732394, "train/reward_max_pred": 162.35187024129948, "train/reward_neg_acc": 0.9680307339614546, "train/reward_neg_loss": 0.009479886238974795, "train/reward_pos_acc": 0.9942968487739563, "train/reward_pos_loss": 0.6592240484667496, "train/reward_pred": 1.1578988008935687, "train/reward_rate": 0.09330985915492958, "train_stats/mean_log_entropy": 1.0091431140899658, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.708839819121067e-09, "report/cont_loss_std": 1.746147582082358e-08, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.708839819121067e-09, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.530645370483398, "report/dyn_loss_std": 6.710057735443115, "report/image_loss_mean": 1.89399254322052, "report/image_loss_std": 1.733884572982788, "report/model_loss_mean": 4.674370765686035, "report/model_loss_std": 5.277673244476318, "report/post_ent_mag": 56.483970642089844, "report/post_ent_max": 56.483970642089844, "report/post_ent_mean": 38.538108825683594, "report/post_ent_min": 23.665239334106445, "report/post_ent_std": 4.813068389892578, "report/prior_ent_mag": 78.2808837890625, "report/prior_ent_max": 78.2808837890625, "report/prior_ent_mean": 43.02223205566406, "report/prior_ent_min": 25.89656639099121, "report/prior_ent_std": 7.252547264099121, "report/rep_loss_mean": 4.530645370483398, "report/rep_loss_std": 6.710057735443115, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.0619911327958107, "report/reward_loss_std": 0.20001362264156342, "report/reward_max_data": 400.0, "report/reward_max_pred": 292.0257873535156, "report/reward_neg_acc": 0.9655914306640625, "report/reward_neg_loss": 0.010047695599496365, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5758995413780212, "report/reward_pred": 1.385394811630249, "report/reward_rate": 0.091796875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.03130689635872841, "eval/cont_loss_std": 0.6003850102424622, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.843638896942139, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 0.0006702985265292227, "eval/cont_pred": 0.9992891550064087, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 10.478349685668945, "eval/dyn_loss_std": 11.78567886352539, "eval/image_loss_mean": 4.193693161010742, "eval/image_loss_std": 4.3585205078125, "eval/model_loss_mean": 11.168950080871582, "eval/model_loss_std": 11.513093948364258, "eval/post_ent_mag": 58.61351776123047, "eval/post_ent_max": 58.61351776123047, "eval/post_ent_mean": 34.66887283325195, "eval/post_ent_min": 21.318729400634766, "eval/post_ent_std": 6.330214977264404, "eval/prior_ent_mag": 78.2808837890625, "eval/prior_ent_max": 78.2808837890625, "eval/prior_ent_mean": 38.20137405395508, "eval/prior_ent_min": 25.32339096069336, "eval/prior_ent_std": 9.393893241882324, "eval/rep_loss_mean": 10.478349685668945, "eval/rep_loss_std": 11.78567886352539, "eval/reward_avg": 0.48828125, "eval/reward_loss_mean": 0.6569402813911438, "eval/reward_loss_std": 2.9821648597717285, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009302139282227, "eval/reward_neg_acc": 0.9291581511497498, "eval/reward_neg_loss": 0.12943074107170105, "eval/reward_pos_acc": 0.23999999463558197, "eval/reward_pos_loss": 10.93282699584961, "eval/reward_pred": 0.29413262009620667, "eval/reward_rate": 0.048828125, "replay/size": 94169.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 6.0425045784939545e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5456187591124117e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3103303909302, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8479394912719727, "timer/env.step_frac": 0.009483321761075138, "timer/env.step_avg": 0.003999915015831423, "timer/env.step_min": 0.0020751953125, "timer/env.step_max": 0.020087480545043945, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 213.77729868888855, "timer/replay._sample_frac": 0.711854628545755, "timer/replay._sample_avg": 0.018765563438280244, "timer/replay._sample_min": 0.0007522106170654297, "timer/replay._sample_max": 0.09109139442443848, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 199.0643994808197, "timer/agent.policy_frac": 0.6628623105361937, "timer/agent.policy_avg": 0.2795848307314883, "timer/agent.policy_min": 0.003175497055053711, "timer/agent.policy_max": 0.3157975673675537, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09359002113342285, "timer/dataset_train_frac": 0.00031164436138973864, "timer/dataset_train_avg": 0.0001314466588952568, "timer/dataset_train_min": 7.343292236328125e-05, "timer/dataset_train_max": 0.000347137451171875, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.23065996170044, "timer/agent.train_frac": 0.3237672837798488, "timer/agent.train_avg": 0.13655991567654557, "timer/agent.train_min": 0.09795284271240234, "timer/agent.train_max": 0.4311094284057617, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5119707584381104, "timer/agent.report_frac": 0.0017048056847450116, "timer/agent.report_avg": 0.2559853792190552, "timer/agent.report_min": 0.10848283767700195, "timer/agent.report_max": 0.4034879207611084, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.653236389160156e-05, "timer/dataset_eval_frac": 2.548442599093253e-07, "timer/dataset_eval_avg": 7.653236389160156e-05, "timer/dataset_eval_min": 7.653236389160156e-05, "timer/dataset_eval_max": 7.653236389160156e-05, "fps": 9.483237537523188}
+{"step": 377580, "episode/length": 811.0, "episode/score": 1040.0, "episode/reward_rate": 0.11822660098522167}
+{"step": 379760, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.542905995543574, "train/action_min": 0.0, "train/action_std": 2.944077904795257, "train/actor_opt_grad_norm": 0.00791136323618637, "train/actor_opt_grad_steps": 93490.0, "train/actor_opt_loss": 0.0008311003993790557, "train/adv_mag": 0.6678444079949822, "train/adv_max": 0.6520257810471763, "train/adv_mean": 0.0020380726212825837, "train/adv_min": -0.4255854907170148, "train/adv_std": 0.035402643428721896, "train/cont_avg": 0.9985557878521126, "train/cont_loss_mean": 0.0003860042149223718, "train/cont_loss_std": 0.009766333659435873, "train/cont_neg_acc": 0.9619883047906976, "train/cont_neg_loss": 0.0907197108085372, "train/cont_pos_acc": 0.9999171990743825, "train/cont_pos_loss": 0.00018712834846201865, "train/cont_pred": 0.9985401899042264, "train/cont_rate": 0.9985557878521126, "train/dyn_loss_mean": 4.536045188635168, "train/dyn_loss_std": 6.665271557552714, "train/extr_critic_critic_opt_grad_norm": 2.1828800255144145, "train/extr_critic_critic_opt_grad_steps": 93490.0, "train/extr_critic_critic_opt_loss": 1.5045145783625857, "train/extr_critic_mag": 470.61542521731957, "train/extr_critic_max": 470.61542521731957, "train/extr_critic_mean": 185.73542807135783, "train/extr_critic_min": 0.36592694403420034, "train/extr_critic_std": 144.7398739667006, "train/extr_return_normed_mag": 1.2165162093202833, "train/extr_return_normed_max": 1.2165162093202833, "train/extr_return_normed_mean": 0.43874809061977227, "train/extr_return_normed_min": -0.008994176078745177, "train/extr_return_normed_std": 0.35012164166275883, "train/extr_return_rate": 0.9366344364596085, "train/extr_return_raw_mag": 509.4557314590669, "train/extr_return_raw_max": 509.4557314590669, "train/extr_return_raw_mean": 186.581538025762, "train/extr_return_raw_min": 0.6863388636667597, "train/extr_return_raw_std": 145.34283060423084, "train/extr_reward_mag": 202.1955328793593, "train/extr_reward_max": 202.1955328793593, "train/extr_reward_mean": 1.0144122247125062, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.807669706747565, "train/image_loss_mean": 1.8652298970961234, "train/image_loss_std": 1.6188169214087473, "train/model_loss_mean": 4.656776230100175, "train/model_loss_std": 5.328001371571715, "train/model_opt_grad_norm": 12.052366713402977, "train/model_opt_grad_steps": 93490.0, "train/model_opt_loss": 4.656776230100175, "train/policy_entropy_mag": 2.17245808453627, "train/policy_entropy_max": 2.17245808453627, "train/policy_entropy_mean": 1.1496605285456483, "train/policy_entropy_min": 0.06961276938377971, "train/policy_entropy_std": 0.6168590993948386, "train/policy_logprob_mag": 6.796021756991534, "train/policy_logprob_max": -0.008972924307618342, "train/policy_logprob_mean": -1.1488457078665075, "train/policy_logprob_min": -6.796021756991534, "train/policy_logprob_std": 1.1105005942599875, "train/policy_randomness_mag": 0.9887282764407951, "train/policy_randomness_max": 0.9887282764407951, "train/policy_randomness_mean": 0.5232330535499143, "train/policy_randomness_min": 0.03168213661287872, "train/policy_randomness_std": 0.2807446693030881, "train/post_ent_mag": 56.93381118774414, "train/post_ent_max": 56.93381118774414, "train/post_ent_mean": 38.47143076507138, "train/post_ent_min": 22.451668322925837, "train/post_ent_std": 5.251676747496699, "train/prior_ent_mag": 78.32515931465257, "train/prior_ent_max": 78.32515931465257, "train/prior_ent_mean": 43.04260350616885, "train/prior_ent_min": 25.766058854653803, "train/prior_ent_std": 7.923549900592213, "train/rep_loss_mean": 4.536045188635168, "train/rep_loss_std": 6.665271557552714, "train/reward_avg": 1.3420169454225352, "train/reward_loss_mean": 0.06953318595466479, "train/reward_loss_std": 0.2518539393032101, "train/reward_max_data": 213.2394366197183, "train/reward_max_pred": 173.8485026292398, "train/reward_neg_acc": 0.9692787553223086, "train/reward_neg_loss": 0.009087542970468042, "train/reward_pos_acc": 0.9953106583004266, "train/reward_pos_loss": 0.6500763389426218, "train/reward_pred": 1.1951231784384015, "train/reward_rate": 0.09463028169014084, "train_stats/mean_log_entropy": 1.0661977529525757, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.5163384382030927e-07, "report/cont_loss_std": 8.49098159960704e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.5095327146118507e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.274464575042657e-07, "report/cont_pred": 0.9990231394767761, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.040813446044922, "report/dyn_loss_std": 7.078402519226074, "report/image_loss_mean": 1.9385733604431152, "report/image_loss_std": 1.819765329360962, "report/model_loss_mean": 5.012582778930664, "report/model_loss_std": 5.802272319793701, "report/post_ent_mag": 54.88563537597656, "report/post_ent_max": 54.88563537597656, "report/post_ent_mean": 39.240966796875, "report/post_ent_min": 22.614484786987305, "report/post_ent_std": 5.00363826751709, "report/prior_ent_mag": 78.27735900878906, "report/prior_ent_max": 78.27735900878906, "report/prior_ent_mean": 43.91462707519531, "report/prior_ent_min": 25.46131134033203, "report/prior_ent_std": 7.582710266113281, "report/rep_loss_mean": 5.040813446044922, "report/rep_loss_std": 7.078402519226074, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.049520522356033325, "report/reward_loss_std": 0.1633777618408203, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.00122833251953, "report/reward_neg_acc": 0.9735169410705566, "report/reward_neg_loss": 0.006820053327828646, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5533861517906189, "report/reward_pred": 0.8657330870628357, "report/reward_rate": 0.078125, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.032345909625291824, "eval/cont_loss_std": 0.7024735808372498, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 8.259051322937012, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 8.431702008238062e-05, "eval/cont_pred": 0.9987527132034302, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.189493179321289, "eval/dyn_loss_std": 15.164802551269531, "eval/image_loss_mean": 5.273370265960693, "eval/image_loss_std": 4.771742820739746, "eval/model_loss_mean": 14.592667579650879, "eval/model_loss_std": 13.780012130737305, "eval/post_ent_mag": 58.06082534790039, "eval/post_ent_max": 58.06082534790039, "eval/post_ent_mean": 35.25720977783203, "eval/post_ent_min": 22.256389617919922, "eval/post_ent_std": 5.867551803588867, "eval/prior_ent_mag": 78.27735900878906, "eval/prior_ent_max": 78.27735900878906, "eval/prior_ent_mean": 39.33159637451172, "eval/prior_ent_min": 25.627079010009766, "eval/prior_ent_std": 8.746342658996582, "eval/rep_loss_mean": 14.189493179321289, "eval/rep_loss_std": 15.164802551269531, "eval/reward_avg": 0.576171875, "eval/reward_loss_mean": 0.7732554078102112, "eval/reward_loss_std": 3.548527240753174, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998616218566895, "eval/reward_neg_acc": 0.9367876052856445, "eval/reward_neg_loss": 0.07189971953630447, "eval/reward_pos_acc": 0.20338982343673706, "eval/reward_pos_loss": 12.24458122253418, "eval/reward_pred": 0.19209405779838562, "eval/reward_rate": 0.0576171875, "replay/size": 94877.0, "replay/inserts": 708.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 5.846306429070941e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5695258385717533e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.175569534301758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.095632314682, "timer/env.step_count": 708.0, "timer/env.step_total": 2.858508348464966, "timer/env.step_frac": 0.009525324732042477, "timer/env.step_avg": 0.004037441170148257, "timer/env.step_min": 0.002257108688354492, "timer/env.step_max": 0.023350000381469727, "timer/replay._sample_count": 11328.0, "timer/replay._sample_total": 212.3330361843109, "timer/replay._sample_frac": 0.7075512380721931, "timer/replay._sample_avg": 0.018744088646213887, "timer/replay._sample_min": 0.0005784034729003906, "timer/replay._sample_max": 0.04361987113952637, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 708.0, "timer/agent.policy_total": 199.22748041152954, "timer/agent.policy_frac": 0.663879973443327, "timer/agent.policy_avg": 0.28139474634396827, "timer/agent.policy_min": 0.003450632095336914, "timer/agent.policy_max": 0.3399956226348877, "timer/dataset_train_count": 708.0, "timer/dataset_train_total": 0.09098243713378906, "timer/dataset_train_frac": 0.000303178145020066, "timer/dataset_train_avg": 0.00012850626713812016, "timer/dataset_train_min": 7.176399230957031e-05, "timer/dataset_train_max": 0.0003192424774169922, "timer/agent.train_count": 708.0, "timer/agent.train_total": 97.17945623397827, "timer/agent.train_frac": 0.3238282926159863, "timer/agent.train_avg": 0.13725911897454557, "timer/agent.train_min": 0.09861350059509277, "timer/agent.train_max": 0.45940589904785156, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2068023681640625, "timer/agent.report_frac": 0.0006891215529161996, "timer/agent.report_avg": 0.10340118408203125, "timer/agent.report_min": 0.10110807418823242, "timer/agent.report_max": 0.10569429397583008, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.581710815429688e-05, "timer/dataset_eval_frac": 2.5264315768113083e-07, "timer/dataset_eval_avg": 7.581710815429688e-05, "timer/dataset_eval_min": 7.581710815429688e-05, "timer/dataset_eval_max": 7.581710815429688e-05, "fps": 9.43665286339167}
+{"step": 380496, "episode/length": 728.0, "episode/score": 1080.0, "episode/reward_rate": 0.1111111111111111}
+{"step": 382616, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.750194280919894, "train/action_min": 0.0, "train/action_std": 2.9099689470210546, "train/actor_opt_grad_norm": 0.007580634780411779, "train/actor_opt_grad_steps": 94200.0, "train/actor_opt_loss": 0.0006216250546624996, "train/adv_mag": 0.7066525670004563, "train/adv_max": 0.6513519358467048, "train/adv_mean": 0.0021690819142439607, "train/adv_min": -0.45877936314529094, "train/adv_std": 0.03616218329210517, "train/cont_avg": 0.998473261443662, "train/cont_loss_mean": 0.00015210100489872143, "train/cont_loss_std": 0.0033467832961310584, "train/cont_neg_acc": 0.9897660822199102, "train/cont_neg_loss": 0.04026983106276922, "train/cont_pos_acc": 0.999999998320996, "train/cont_pos_loss": 6.464753196718923e-05, "train/cont_pred": 0.9984754475069718, "train/cont_rate": 0.998473261443662, "train/dyn_loss_mean": 4.557611992661382, "train/dyn_loss_std": 6.596706014283946, "train/extr_critic_critic_opt_grad_norm": 2.238340052080826, "train/extr_critic_critic_opt_grad_steps": 94200.0, "train/extr_critic_critic_opt_loss": 1.4917936576923854, "train/extr_critic_mag": 462.8454160018706, "train/extr_critic_max": 462.8454160018706, "train/extr_critic_mean": 188.0002152348908, "train/extr_critic_min": 0.0889024449066377, "train/extr_critic_std": 143.48451823919592, "train/extr_return_normed_mag": 1.2328547642264567, "train/extr_return_normed_max": 1.2328547642264567, "train/extr_return_normed_mean": 0.445980171082725, "train/extr_return_normed_min": -0.01073460325493779, "train/extr_return_normed_std": 0.34924493709080656, "train/extr_return_rate": 0.9346657193882365, "train/extr_return_raw_mag": 514.4102478027344, "train/extr_return_raw_max": 514.4102478027344, "train/extr_return_raw_mean": 188.89774268781636, "train/extr_return_raw_min": 0.14445041017082166, "train/extr_return_raw_std": 144.35921284850215, "train/extr_reward_mag": 191.62921470319722, "train/extr_reward_max": 191.62921470319722, "train/extr_reward_mean": 1.0455179785338926, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.767712784485078, "train/image_loss_mean": 1.8653658410193215, "train/image_loss_std": 1.5852568552527628, "train/model_loss_mean": 4.671992768704052, "train/model_loss_std": 5.260007777684171, "train/model_opt_grad_norm": 12.186351077657351, "train/model_opt_grad_steps": 94200.0, "train/model_opt_loss": 4.671992768704052, "train/policy_entropy_mag": 2.170791716642783, "train/policy_entropy_max": 2.170791716642783, "train/policy_entropy_mean": 1.1280876926972832, "train/policy_entropy_min": 0.06956477694108452, "train/policy_entropy_std": 0.6142009345578475, "train/policy_logprob_mag": 6.797767981676988, "train/policy_logprob_max": -0.008965910084440674, "train/policy_logprob_mean": -1.129610818036845, "train/policy_logprob_min": -6.797767981676988, "train/policy_logprob_std": 1.1164380975172554, "train/policy_randomness_mag": 0.9879698786937016, "train/policy_randomness_max": 0.9879698786937016, "train/policy_randomness_mean": 0.5134148299694061, "train/policy_randomness_min": 0.03166029418648129, "train/policy_randomness_std": 0.27953488684036365, "train/post_ent_mag": 57.02285557061854, "train/post_ent_max": 57.02285557061854, "train/post_ent_mean": 38.40907798014896, "train/post_ent_min": 22.282802098233933, "train/post_ent_std": 5.240997445415443, "train/prior_ent_mag": 78.30937764342401, "train/prior_ent_max": 78.30937764342401, "train/prior_ent_mean": 43.04373781446, "train/prior_ent_min": 26.12672910555987, "train/prior_ent_std": 7.956081403812892, "train/rep_loss_mean": 4.557611992661382, "train/rep_loss_std": 6.596706014283946, "train/reward_avg": 1.3308758802816902, "train/reward_loss_mean": 0.07190765697561519, "train/reward_loss_std": 0.26166466613050915, "train/reward_max_data": 202.3943661971831, "train/reward_max_pred": 168.6827555643001, "train/reward_neg_acc": 0.9690338272443959, "train/reward_neg_loss": 0.009501459893547523, "train/reward_pos_acc": 0.994338332767218, "train/reward_pos_loss": 0.6555272298799434, "train/reward_pred": 1.1957986757788859, "train/reward_rate": 0.09674845950704225, "train_stats/mean_log_entropy": 0.8099219799041748, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.063858452558634e-07, "report/cont_loss_std": 8.054055797401816e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00010704107990022749, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.022463429009804e-07, "report/cont_pred": 0.9990231394767761, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.069721221923828, "report/dyn_loss_std": 6.257508277893066, "report/image_loss_mean": 1.7385890483856201, "report/image_loss_std": 1.334993839263916, "report/model_loss_mean": 4.253819942474365, "report/model_loss_std": 4.813863277435303, "report/post_ent_mag": 57.05055236816406, "report/post_ent_max": 57.05055236816406, "report/post_ent_mean": 38.19157791137695, "report/post_ent_min": 21.64189910888672, "report/post_ent_std": 5.285178184509277, "report/prior_ent_mag": 78.6680908203125, "report/prior_ent_max": 78.6680908203125, "report/prior_ent_mean": 42.539066314697266, "report/prior_ent_min": 26.044492721557617, "report/prior_ent_std": 7.897242546081543, "report/rep_loss_mean": 4.069721221923828, "report/rep_loss_std": 6.257508277893066, "report/reward_avg": 1.494140625, "report/reward_loss_mean": 0.07339774817228317, "report/reward_loss_std": 0.22511033713817596, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.48959350585938, "report/reward_neg_acc": 0.9715225100517273, "report/reward_neg_loss": 0.00861364882439375, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6062615513801575, "report/reward_pred": 1.4003278017044067, "report/reward_rate": 0.1083984375, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.014985521323978901, "eval/cont_loss_std": 0.29220548272132874, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.115050315856934, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.359753281666599e-08, "eval/cont_pred": 0.9999557733535767, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 13.497060775756836, "eval/dyn_loss_std": 12.288407325744629, "eval/image_loss_mean": 5.859217166900635, "eval/image_loss_std": 4.54498291015625, "eval/model_loss_mean": 14.729105949401855, "eval/model_loss_std": 12.121394157409668, "eval/post_ent_mag": 58.274749755859375, "eval/post_ent_max": 58.274749755859375, "eval/post_ent_mean": 37.401763916015625, "eval/post_ent_min": 20.898271560668945, "eval/post_ent_std": 6.476988792419434, "eval/prior_ent_mag": 78.6680908203125, "eval/prior_ent_max": 78.6680908203125, "eval/prior_ent_mean": 40.49764633178711, "eval/prior_ent_min": 25.69940948486328, "eval/prior_ent_std": 8.69582748413086, "eval/rep_loss_mean": 13.497060775756836, "eval/rep_loss_std": 12.288407325744629, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.7566662430763245, "eval/reward_loss_std": 3.3571906089782715, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.0003023147583, "eval/reward_neg_acc": 0.9300412535667419, "eval/reward_neg_loss": 0.12071960419416428, "eval/reward_pos_acc": 0.19230769574642181, "eval/reward_pos_loss": 12.643976211547852, "eval/reward_pred": 0.2918165922164917, "eval/reward_rate": 0.05078125, "replay/size": 95591.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.546404200107777e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4344558996312759e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4454126358032227e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.6309938430786, "timer/env.step_count": 714.0, "timer/env.step_total": 2.808964729309082, "timer/env.step_frac": 0.009343563327922492, "timer/env.step_avg": 0.003934124270741011, "timer/env.step_min": 0.002445697784423828, "timer/env.step_max": 0.021579980850219727, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 188.82938385009766, "timer/replay._sample_frac": 0.6281101673391053, "timer/replay._sample_avg": 0.01652918275998754, "timer/replay._sample_min": 0.008138418197631836, "timer/replay._sample_max": 0.039108991622924805, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.7686550617218, "timer/agent.policy_frac": 0.6644978699900641, "timer/agent.policy_avg": 0.27978803229933025, "timer/agent.policy_min": 0.0031070709228515625, "timer/agent.policy_max": 0.33463144302368164, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08508586883544922, "timer/dataset_train_frac": 0.0002830242742032838, "timer/dataset_train_avg": 0.00011916788352303812, "timer/dataset_train_min": 7.367134094238281e-05, "timer/dataset_train_max": 0.0004591941833496094, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.9632978439331, "timer/agent.train_frac": 0.3225326058514957, "timer/agent.train_avg": 0.13580293815676905, "timer/agent.train_min": 0.09915685653686523, "timer/agent.train_max": 0.44130825996398926, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5060000419616699, "timer/agent.report_frac": 0.0016831266646638186, "timer/agent.report_avg": 0.25300002098083496, "timer/agent.report_min": 0.10382986068725586, "timer/agent.report_max": 0.40217018127441406, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.843971252441406e-05, "timer/dataset_eval_frac": 2.609169185175814e-07, "timer/dataset_eval_avg": 7.843971252441406e-05, "timer/dataset_eval_min": 7.843971252441406e-05, "timer/dataset_eval_max": 7.843971252441406e-05, "fps": 9.499670834027745}
+{"step": 384012, "episode/length": 878.0, "episode/score": 1110.0, "episode/reward_rate": 0.10693970420932879}
+{"step": 385468, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.660759724361796, "train/action_min": 0.0, "train/action_std": 2.8877001144516634, "train/actor_opt_grad_norm": 0.007518899607354067, "train/actor_opt_grad_steps": 94910.0, "train/actor_opt_loss": 0.0009515798290675788, "train/adv_mag": 0.6332397446246214, "train/adv_max": 0.6116209659777897, "train/adv_mean": 0.0020234128247133233, "train/adv_min": -0.4296640537574258, "train/adv_std": 0.03510240386699287, "train/cont_avg": 0.9986520686619719, "train/cont_loss_mean": 0.00040907587738866694, "train/cont_loss_std": 0.011589723622825596, "train/cont_neg_acc": 0.9298245614035088, "train/cont_neg_loss": 0.16691710857913564, "train/cont_pos_acc": 0.9999724341110444, "train/cont_pos_loss": 0.0001553022601714575, "train/cont_pred": 0.998663111471794, "train/cont_rate": 0.9986520686619719, "train/dyn_loss_mean": 4.732878852897967, "train/dyn_loss_std": 6.710765878919145, "train/extr_critic_critic_opt_grad_norm": 2.1514160297286344, "train/extr_critic_critic_opt_grad_steps": 94910.0, "train/extr_critic_critic_opt_loss": 1.4949810420963126, "train/extr_critic_mag": 473.4727254518321, "train/extr_critic_max": 473.4727254518321, "train/extr_critic_mean": 182.55694461876237, "train/extr_critic_min": 0.194943626162032, "train/extr_critic_std": 145.4384092948806, "train/extr_return_normed_mag": 1.2240607385904017, "train/extr_return_normed_max": 1.2240607385904017, "train/extr_return_normed_mean": 0.429409105173299, "train/extr_return_normed_min": -0.008610413713105234, "train/extr_return_normed_std": 0.3497330294528478, "train/extr_return_rate": 0.932992267776543, "train/extr_return_raw_mag": 515.5355185925121, "train/extr_return_raw_max": 515.5355185925121, "train/extr_return_raw_mean": 183.40221458757426, "train/extr_return_raw_min": 0.27820716612040997, "train/extr_return_raw_std": 146.20464561354947, "train/extr_reward_mag": 186.76667103297274, "train/extr_reward_max": 186.76667103297274, "train/extr_reward_mean": 1.031064143902819, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.838221627221981, "train/image_loss_mean": 1.8997653622022816, "train/image_loss_std": 1.610683365606926, "train/model_loss_mean": 4.8131694491480435, "train/model_loss_std": 5.369208114247926, "train/model_opt_grad_norm": 11.995779306116239, "train/model_opt_grad_steps": 94910.0, "train/model_opt_loss": 4.8131694491480435, "train/policy_entropy_mag": 2.1752549695297025, "train/policy_entropy_max": 2.1752549695297025, "train/policy_entropy_mean": 1.169514646832372, "train/policy_entropy_min": 0.06951108186597556, "train/policy_entropy_std": 0.616774663958751, "train/policy_logprob_mag": 6.791232599339015, "train/policy_logprob_max": -0.00895777513915804, "train/policy_logprob_mean": -1.1696449148822838, "train/policy_logprob_min": -6.791232599339015, "train/policy_logprob_std": 1.1040332132661845, "train/policy_randomness_mag": 0.9900011923951162, "train/policy_randomness_max": 0.9900011923951162, "train/policy_randomness_mean": 0.5322690442414351, "train/policy_randomness_min": 0.031635856334592254, "train/policy_randomness_std": 0.28070624655401205, "train/post_ent_mag": 56.756717628156636, "train/post_ent_max": 56.756717628156636, "train/post_ent_mean": 38.605584050568055, "train/post_ent_min": 22.066588307770207, "train/post_ent_std": 5.297395178969477, "train/prior_ent_mag": 78.35595767598757, "train/prior_ent_max": 78.35595767598757, "train/prior_ent_mean": 43.366303564796986, "train/prior_ent_min": 25.37385180298711, "train/prior_ent_std": 8.048957865003128, "train/rep_loss_mean": 4.732878852897967, "train/rep_loss_std": 6.710765878919145, "train/reward_avg": 1.336240096830986, "train/reward_loss_mean": 0.07326762902904564, "train/reward_loss_std": 0.26813559926731484, "train/reward_max_data": 194.3661971830986, "train/reward_max_pred": 168.58577098309155, "train/reward_neg_acc": 0.967010241159251, "train/reward_neg_loss": 0.010068083923100166, "train/reward_pos_acc": 0.9921965599060059, "train/reward_pos_loss": 0.6719612647110308, "train/reward_pred": 1.203356645056899, "train/reward_rate": 0.09463028169014084, "train_stats/mean_log_entropy": 0.8677793741226196, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.617686772372508e-08, "report/cont_loss_std": 8.827984174786252e-07, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.782430237857625e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.013497503929102e-09, "report/cont_pred": 0.9990234375, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.101150989532471, "report/dyn_loss_std": 6.6566057205200195, "report/image_loss_mean": 1.7696443796157837, "report/image_loss_std": 1.7169824838638306, "report/model_loss_mean": 4.277398109436035, "report/model_loss_std": 5.337120532989502, "report/post_ent_mag": 55.88977813720703, "report/post_ent_max": 55.88977813720703, "report/post_ent_mean": 38.303131103515625, "report/post_ent_min": 22.03720474243164, "report/post_ent_std": 4.077102184295654, "report/prior_ent_mag": 78.49061584472656, "report/prior_ent_max": 78.49061584472656, "report/prior_ent_mean": 42.352989196777344, "report/prior_ent_min": 24.05765151977539, "report/prior_ent_std": 7.0965576171875, "report/rep_loss_mean": 4.101150989532471, "report/rep_loss_std": 6.6566057205200195, "report/reward_avg": 0.8984375, "report/reward_loss_mean": 0.04706336557865143, "report/reward_loss_std": 0.23494312167167664, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.66688537597656, "report/reward_neg_acc": 0.9844236969947815, "report/reward_neg_loss": 0.005927226971834898, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6964749097824097, "report/reward_pred": 0.7980562448501587, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.012314924038946629, "eval/cont_loss_std": 0.29470372200012207, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.52921462059021, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.001981231849640608, "eval/cont_pred": 0.9978362321853638, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.753931045532227, "eval/dyn_loss_std": 12.067116737365723, "eval/image_loss_mean": 4.189279079437256, "eval/image_loss_std": 4.057434558868408, "eval/model_loss_mean": 11.055416107177734, "eval/model_loss_std": 11.063328742980957, "eval/post_ent_mag": 57.77478790283203, "eval/post_ent_max": 57.77478790283203, "eval/post_ent_mean": 35.928199768066406, "eval/post_ent_min": 21.50592613220215, "eval/post_ent_std": 6.01251220703125, "eval/prior_ent_mag": 78.49061584472656, "eval/prior_ent_max": 78.49061584472656, "eval/prior_ent_mean": 38.41673278808594, "eval/prior_ent_min": 24.393020629882812, "eval/prior_ent_std": 9.16292667388916, "eval/rep_loss_mean": 10.753931045532227, "eval/rep_loss_std": 12.067116737365723, "eval/reward_avg": 0.29296875, "eval/reward_loss_mean": 0.40146344900131226, "eval/reward_loss_std": 2.4832706451416016, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.003937721252441, "eval/reward_neg_acc": 0.9376257061958313, "eval/reward_neg_loss": 0.09230649471282959, "eval/reward_pos_acc": 0.3333333432674408, "eval/reward_pos_loss": 10.64486312866211, "eval/reward_pred": 0.23000459372997284, "eval/reward_rate": 0.029296875, "replay/size": 96304.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.4836273193359375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4661864846485025e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5795230865478516e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.17219972610474, "timer/env.step_count": 713.0, "timer/env.step_total": 2.812744379043579, "timer/env.step_frac": 0.009370435975117273, "timer/env.step_avg": 0.003944943028111611, "timer/env.step_min": 0.0025403499603271484, "timer/env.step_max": 0.01574110984802246, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 190.53977513313293, "timer/replay._sample_frac": 0.634768227394119, "timer/replay._sample_avg": 0.01670229445416663, "timer/replay._sample_min": 0.008572578430175781, "timer/replay._sample_max": 0.03940296173095703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17264533042907715, "timer/agent.save_frac": 0.0005751542967223787, "timer/agent.save_avg": 0.17264533042907715, "timer/agent.save_min": 0.17264533042907715, "timer/agent.save_max": 0.17264533042907715, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.50220608711243, "timer/agent.policy_frac": 0.6646258589874422, "timer/agent.policy_avg": 0.27980674065513667, "timer/agent.policy_min": 0.003366231918334961, "timer/agent.policy_max": 0.35254454612731934, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08506393432617188, "timer/dataset_train_frac": 0.0002833837857196281, "timer/dataset_train_avg": 0.0001193042557169311, "timer/dataset_train_min": 7.271766662597656e-05, "timer/dataset_train_max": 0.0002090930938720703, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.7068464756012, "timer/agent.train_frac": 0.3221712289274036, "timer/agent.train_avg": 0.13563372577223168, "timer/agent.train_min": 0.09985971450805664, "timer/agent.train_max": 0.4269125461578369, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5008461475372314, "timer/agent.report_frac": 0.0016685294240913508, "timer/agent.report_avg": 0.2504230737686157, "timer/agent.report_min": 0.09969925880432129, "timer/agent.report_max": 0.40114688873291016, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.4809112548828125e-05, "timer/dataset_eval_frac": 1.1596381204052229e-07, "timer/dataset_eval_avg": 3.4809112548828125e-05, "timer/dataset_eval_min": 3.4809112548828125e-05, "timer/dataset_eval_max": 3.4809112548828125e-05, "fps": 9.500914944838634}
+{"step": 387944, "episode/length": 982.0, "episode/score": 1180.0, "episode/reward_rate": 0.09257375381485249}
+{"step": 388320, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.688269721137153, "train/action_min": 0.0, "train/action_std": 2.9036023053858013, "train/actor_opt_grad_norm": 0.008163096784200106, "train/actor_opt_grad_steps": 95625.0, "train/actor_opt_loss": 0.00120673993554495, "train/adv_mag": 0.6564631604899963, "train/adv_max": 0.6352891001022525, "train/adv_mean": 0.002439010592651256, "train/adv_min": -0.43028360625935924, "train/adv_std": 0.036495205842786364, "train/cont_avg": 0.9987657335069444, "train/cont_loss_mean": 0.00017920768975578864, "train/cont_loss_std": 0.004809809403238028, "train/cont_neg_acc": 0.9425287359747393, "train/cont_neg_loss": 0.10953951006413733, "train/cont_pos_acc": 0.9999864233864678, "train/cont_pos_loss": 4.832029491922469e-05, "train/cont_pred": 0.9988122077451812, "train/cont_rate": 0.9987657335069444, "train/dyn_loss_mean": 4.735620270172755, "train/dyn_loss_std": 6.660901890860663, "train/extr_critic_critic_opt_grad_norm": 2.105701646871037, "train/extr_critic_critic_opt_grad_steps": 95625.0, "train/extr_critic_critic_opt_loss": 1.5080995344453387, "train/extr_critic_mag": 469.7961781819661, "train/extr_critic_max": 469.7961781819661, "train/extr_critic_mean": 184.8963369793362, "train/extr_critic_min": 0.5004489173491796, "train/extr_critic_std": 142.1873958375719, "train/extr_return_normed_mag": 1.2640658823980226, "train/extr_return_normed_max": 1.2640658823980226, "train/extr_return_normed_mean": 0.4360129452413983, "train/extr_return_normed_min": -0.008759003462425122, "train/extr_return_normed_std": 0.34361257528265315, "train/extr_return_rate": 0.9376953625016742, "train/extr_return_raw_mag": 531.0844930013021, "train/extr_return_raw_max": 531.0844930013021, "train/extr_return_raw_mean": 185.91304175059, "train/extr_return_raw_min": 0.5162855234100587, "train/extr_return_raw_std": 143.23722129397922, "train/extr_reward_mag": 224.39313379923502, "train/extr_reward_max": 224.39313379923502, "train/extr_reward_mean": 1.1090167553888426, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.802686817116207, "train/image_loss_mean": 1.8945976164605882, "train/image_loss_std": 1.5772225360075633, "train/model_loss_mean": 4.808678617080052, "train/model_loss_std": 5.2810266680187645, "train/model_opt_grad_norm": 12.527164922820198, "train/model_opt_grad_steps": 95625.0, "train/model_opt_loss": 4.808678617080052, "train/policy_entropy_mag": 2.171897636519538, "train/policy_entropy_max": 2.171897636519538, "train/policy_entropy_mean": 1.156649196313487, "train/policy_entropy_min": 0.06975644412967894, "train/policy_entropy_std": 0.6145790616671244, "train/policy_logprob_mag": 6.795254786809285, "train/policy_logprob_max": -0.008995105305479633, "train/policy_logprob_mean": -1.156023317741023, "train/policy_logprob_min": -6.795254786809285, "train/policy_logprob_std": 1.109375387430191, "train/policy_randomness_mag": 0.9884732026192877, "train/policy_randomness_max": 0.9884732026192877, "train/policy_randomness_mean": 0.5264137321048312, "train/policy_randomness_min": 0.03174752576483621, "train/policy_randomness_std": 0.2797069810330868, "train/post_ent_mag": 55.99876801172892, "train/post_ent_max": 55.99876801172892, "train/post_ent_mean": 38.81789880328708, "train/post_ent_min": 21.58891420894199, "train/post_ent_std": 5.342099289099376, "train/prior_ent_mag": 78.26546796162923, "train/prior_ent_max": 78.26546796162923, "train/prior_ent_mean": 43.505034075842964, "train/prior_ent_min": 24.9338960647583, "train/prior_ent_std": 7.923344678348965, "train/rep_loss_mean": 4.735620270172755, "train/rep_loss_std": 6.660901890860663, "train/reward_avg": 1.4374457465277777, "train/reward_loss_mean": 0.07252965018981034, "train/reward_loss_std": 0.2554137675712506, "train/reward_max_data": 238.61111111111111, "train/reward_max_pred": 210.08242771360608, "train/reward_neg_acc": 0.9670643624332216, "train/reward_neg_loss": 0.009955448096863821, "train/reward_pos_acc": 0.9949697744515207, "train/reward_pos_loss": 0.6516162049439218, "train/reward_pred": 1.2906522187921736, "train/reward_rate": 0.09758843315972222, "train_stats/mean_log_entropy": 0.9618759751319885, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0006491458043456078, "report/cont_loss_std": 0.020456893369555473, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.32744336128234863, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.626847713661846e-06, "report/cont_pred": 0.9985065460205078, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.138281345367432, "report/dyn_loss_std": 6.500026226043701, "report/image_loss_mean": 1.6491103172302246, "report/image_loss_std": 1.3333594799041748, "report/model_loss_mean": 4.2063493728637695, "report/model_loss_std": 4.903341770172119, "report/post_ent_mag": 57.22980880737305, "report/post_ent_max": 57.22980880737305, "report/post_ent_mean": 37.4755744934082, "report/post_ent_min": 22.710948944091797, "report/post_ent_std": 5.127096652984619, "report/prior_ent_mag": 78.38385009765625, "report/prior_ent_max": 78.38385009765625, "report/prior_ent_mean": 41.911582946777344, "report/prior_ent_min": 24.481830596923828, "report/prior_ent_std": 8.063225746154785, "report/rep_loss_mean": 4.138281345367432, "report/rep_loss_std": 6.500026226043701, "report/reward_avg": 1.826171875, "report/reward_loss_mean": 0.0736209899187088, "report/reward_loss_std": 0.24415963888168335, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.81515502929688, "report/reward_neg_acc": 0.9748634099960327, "report/reward_neg_loss": 0.008730193600058556, "report/reward_pos_acc": 0.9908256530761719, "report/reward_pos_loss": 0.6183464527130127, "report/reward_pred": 1.4387576580047607, "report/reward_rate": 0.1064453125, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.005467480979859829, "eval/cont_loss_std": 0.17377549409866333, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 2.7827682495117188, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.2450174330733716e-05, "eval/cont_pred": 0.9989895820617676, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.728499412536621, "eval/dyn_loss_std": 14.062630653381348, "eval/image_loss_mean": 5.386505126953125, "eval/image_loss_std": 4.596914768218994, "eval/model_loss_mean": 14.29196548461914, "eval/model_loss_std": 12.958621978759766, "eval/post_ent_mag": 58.449729919433594, "eval/post_ent_max": 58.449729919433594, "eval/post_ent_mean": 34.89337158203125, "eval/post_ent_min": 22.54784393310547, "eval/post_ent_std": 5.976494789123535, "eval/prior_ent_mag": 78.38385009765625, "eval/prior_ent_max": 78.38385009765625, "eval/prior_ent_mean": 38.95851516723633, "eval/prior_ent_min": 24.07864761352539, "eval/prior_ent_std": 8.739014625549316, "eval/rep_loss_mean": 13.728499412536621, "eval/rep_loss_std": 14.062630653381348, "eval/reward_avg": 0.44921875, "eval/reward_loss_mean": 0.6628932356834412, "eval/reward_loss_std": 3.331493377685547, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009305000305176, "eval/reward_neg_acc": 0.9478527307510376, "eval/reward_neg_loss": 0.06997541338205338, "eval/reward_pos_acc": 0.17391304671764374, "eval/reward_pos_loss": 13.268841743469238, "eval/reward_pred": 0.18880268931388855, "eval/reward_rate": 0.044921875, "replay/size": 97017.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.608019621475883e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4339807491650254e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.8214294910431, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8271443843841553, "timer/env.step_frac": 0.00942942734007815, "timer/env.step_avg": 0.003965139389038086, "timer/env.step_min": 0.0021948814392089844, "timer/env.step_max": 0.021313190460205078, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 190.11840653419495, "timer/replay._sample_frac": 0.6341054635651872, "timer/replay._sample_avg": 0.016665358216531815, "timer/replay._sample_min": 0.008196592330932617, "timer/replay._sample_max": 0.04583287239074707, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.2388186454773, "timer/agent.policy_frac": 0.6645249440098123, "timer/agent.policy_avg": 0.2794373333036147, "timer/agent.policy_min": 0.002796649932861328, "timer/agent.policy_max": 0.3140125274658203, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08737874031066895, "timer/dataset_train_frac": 0.00029143594058302395, "timer/dataset_train_avg": 0.0001225508279252019, "timer/dataset_train_min": 7.462501525878906e-05, "timer/dataset_train_max": 0.00044655799865722656, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.95600771903992, "timer/agent.train_frac": 0.3233791790120739, "timer/agent.train_avg": 0.1359831805316128, "timer/agent.train_min": 0.0989227294921875, "timer/agent.train_max": 0.4261770248413086, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19930076599121094, "timer/agent.report_frac": 0.0006647315581462294, "timer/agent.report_avg": 0.09965038299560547, "timer/agent.report_min": 0.09946203231811523, "timer/agent.report_max": 0.0998387336730957, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.173683166503906e-05, "timer/dataset_eval_frac": 1.7255881860367374e-07, "timer/dataset_eval_avg": 5.173683166503906e-05, "timer/dataset_eval_min": 5.173683166503906e-05, "timer/dataset_eval_max": 5.173683166503906e-05, "fps": 9.51194666930379}
+{"step": 391064, "episode/length": 779.0, "episode/score": 1120.0, "episode/reward_rate": 0.1141025641025641}
+{"step": 391180, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.517848914777729, "train/action_min": 0.0, "train/action_std": 2.888488383360312, "train/actor_opt_grad_norm": 0.007194964805434288, "train/actor_opt_grad_steps": 96340.0, "train/actor_opt_loss": 0.0008182468840888606, "train/adv_mag": 0.6043355553083016, "train/adv_max": 0.569672780767293, "train/adv_mean": 0.0019106959399822969, "train/adv_min": -0.41047087605570404, "train/adv_std": 0.032622416569313535, "train/cont_avg": 0.9988033670774648, "train/cont_loss_mean": 0.00013294199144518328, "train/cont_loss_std": 0.0037520577137294536, "train/cont_neg_acc": 0.9836601311085271, "train/cont_neg_loss": 0.027863190293144314, "train/cont_pos_acc": 0.9999448875306358, "train/cont_pos_loss": 8.956833864409552e-05, "train/cont_pred": 0.9987654602023918, "train/cont_rate": 0.9988033670774648, "train/dyn_loss_mean": 4.630552466486542, "train/dyn_loss_std": 6.693499497964349, "train/extr_critic_critic_opt_grad_norm": 2.102070818484669, "train/extr_critic_critic_opt_grad_steps": 96340.0, "train/extr_critic_critic_opt_loss": 1.4951675391533006, "train/extr_critic_mag": 461.34193699796435, "train/extr_critic_max": 461.34193699796435, "train/extr_critic_mean": 180.81104762117627, "train/extr_critic_min": 0.23868430668199567, "train/extr_critic_std": 142.21219731720402, "train/extr_return_normed_mag": 1.1776452878831138, "train/extr_return_normed_max": 1.1776452878831138, "train/extr_return_normed_mean": 0.42600174269206087, "train/extr_return_normed_min": -0.008320779293696855, "train/extr_return_normed_std": 0.3424620506629138, "train/extr_return_rate": 0.9341082161581012, "train/extr_return_raw_mag": 495.4671574982119, "train/extr_return_raw_max": 495.4671574982119, "train/extr_return_raw_mean": 181.60895763988225, "train/extr_return_raw_min": 0.2568690638372701, "train/extr_return_raw_std": 142.98355177758444, "train/extr_reward_mag": 190.12598354715698, "train/extr_reward_max": 190.12598354715698, "train/extr_reward_mean": 1.0126113916786623, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.4808693267929725, "train/image_loss_mean": 1.875622722464548, "train/image_loss_std": 1.6086390001673094, "train/model_loss_mean": 4.725143778492027, "train/model_loss_std": 5.33964578198715, "train/model_opt_grad_norm": 12.773653406492421, "train/model_opt_grad_steps": 96340.0, "train/model_opt_loss": 4.725143778492027, "train/policy_entropy_mag": 2.1746783525171414, "train/policy_entropy_max": 2.1746783525171414, "train/policy_entropy_mean": 1.1922823610440108, "train/policy_entropy_min": 0.06967763634214938, "train/policy_entropy_std": 0.6053011744794711, "train/policy_logprob_mag": 6.797061960462114, "train/policy_logprob_max": -0.008982622169587813, "train/policy_logprob_mean": -1.1910863669825271, "train/policy_logprob_min": -6.797061960462114, "train/policy_logprob_std": 1.0939542491671066, "train/policy_randomness_mag": 0.9897387623786926, "train/policy_randomness_max": 0.9897387623786926, "train/policy_randomness_mean": 0.5426310779343189, "train/policy_randomness_min": 0.03171165875146087, "train/policy_randomness_std": 0.27548443599486017, "train/post_ent_mag": 56.78776152704803, "train/post_ent_max": 56.78776152704803, "train/post_ent_mean": 38.62096571586501, "train/post_ent_min": 22.33057255812094, "train/post_ent_std": 5.286374048447945, "train/prior_ent_mag": 78.40121126846529, "train/prior_ent_max": 78.40121126846529, "train/prior_ent_mean": 43.278027225548115, "train/prior_ent_min": 25.413718613100723, "train/prior_ent_std": 7.94534803444231, "train/rep_loss_mean": 4.630552466486542, "train/rep_loss_std": 6.693499497964349, "train/reward_avg": 1.3483439700704225, "train/reward_loss_mean": 0.07105665905794627, "train/reward_loss_std": 0.2533279644771361, "train/reward_max_data": 198.0281690140845, "train/reward_max_pred": 174.8341934848839, "train/reward_neg_acc": 0.9697374264958879, "train/reward_neg_loss": 0.009324165084071353, "train/reward_pos_acc": 0.9948366519430993, "train/reward_pos_loss": 0.6467381908860005, "train/reward_pred": 1.2086664740468416, "train/reward_rate": 0.09699603873239436, "train_stats/mean_log_entropy": 1.2587802410125732, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.35514789892477e-06, "report/cont_loss_std": 3.0412069463636726e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.4263819543411955e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.292704266437795e-06, "report/cont_pred": 0.9980446696281433, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.759340286254883, "report/dyn_loss_std": 6.681507110595703, "report/image_loss_mean": 1.8474900722503662, "report/image_loss_std": 1.4828840494155884, "report/model_loss_mean": 4.755733013153076, "report/model_loss_std": 5.263521194458008, "report/post_ent_mag": 58.86171340942383, "report/post_ent_max": 58.86171340942383, "report/post_ent_mean": 37.99335861206055, "report/post_ent_min": 20.224430084228516, "report/post_ent_std": 5.631292343139648, "report/prior_ent_mag": 78.49810791015625, "report/prior_ent_max": 78.49810791015625, "report/prior_ent_mean": 42.816070556640625, "report/prior_ent_min": 24.289432525634766, "report/prior_ent_std": 8.434645652770996, "report/rep_loss_mean": 4.759340286254883, "report/rep_loss_std": 6.681507110595703, "report/reward_avg": 0.859375, "report/reward_loss_mean": 0.05263633280992508, "report/reward_loss_std": 0.20206324756145477, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.000205993652344, "report/reward_neg_acc": 0.9735169410705566, "report/reward_neg_loss": 0.004390748217701912, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6219342350959778, "report/reward_pred": 0.8203193545341492, "report/reward_rate": 0.078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.014905662275850773, "eval/cont_loss_std": 0.47674494981765747, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 15.263291358947754, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.054115728038596e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.395057678222656, "eval/dyn_loss_std": 12.911917686462402, "eval/image_loss_mean": 5.1299285888671875, "eval/image_loss_std": 4.161344528198242, "eval/model_loss_mean": 13.826860427856445, "eval/model_loss_std": 11.593881607055664, "eval/post_ent_mag": 58.86171340942383, "eval/post_ent_max": 58.86171340942383, "eval/post_ent_mean": 36.42490005493164, "eval/post_ent_min": 19.58060646057129, "eval/post_ent_std": 5.355944633483887, "eval/prior_ent_mag": 78.49810791015625, "eval/prior_ent_max": 78.49810791015625, "eval/prior_ent_mean": 40.183082580566406, "eval/prior_ent_min": 24.344736099243164, "eval/prior_ent_std": 7.5214033126831055, "eval/rep_loss_mean": 13.395057678222656, "eval/rep_loss_std": 12.911917686462402, "eval/reward_avg": 0.498046875, "eval/reward_loss_mean": 0.644991397857666, "eval/reward_loss_std": 2.7934153079986572, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001582145690918, "eval/reward_neg_acc": 0.9157245755195618, "eval/reward_neg_loss": 0.18186277151107788, "eval/reward_pos_acc": 0.2549019753932953, "eval/reward_pos_loss": 9.480759620666504, "eval/reward_pred": 0.3781573176383972, "eval/reward_rate": 0.0498046875, "replay/size": 97732.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.601669524933075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4229045881258025e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.69783186912537, "timer/env.step_count": 715.0, "timer/env.step_total": 2.8055665493011475, "timer/env.step_frac": 0.009330185495059479, "timer/env.step_avg": 0.003923869299721884, "timer/env.step_min": 0.002236604690551758, "timer/env.step_max": 0.02247762680053711, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 188.61066579818726, "timer/replay._sample_frac": 0.6272431850465668, "timer/replay._sample_avg": 0.016486946311030353, "timer/replay._sample_min": 0.007787942886352539, "timer/replay._sample_max": 0.055166006088256836, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.98001790046692, "timer/agent.policy_frac": 0.6650530755655913, "timer/agent.policy_avg": 0.27969233272792576, "timer/agent.policy_min": 0.003381490707397461, "timer/agent.policy_max": 0.3143036365509033, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.09076929092407227, "timer/dataset_train_frac": 0.0003018621396764123, "timer/dataset_train_avg": 0.0001269500572364647, "timer/dataset_train_min": 7.152557373046875e-05, "timer/dataset_train_max": 0.0004229545593261719, "timer/agent.train_count": 715.0, "timer/agent.train_total": 96.79577922821045, "timer/agent.train_frac": 0.3219038149577995, "timer/agent.train_avg": 0.13537871220728734, "timer/agent.train_min": 0.0977470874786377, "timer/agent.train_max": 0.43138933181762695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.502399206161499, "timer/agent.report_frac": 0.0016707776143200176, "timer/agent.report_avg": 0.2511996030807495, "timer/agent.report_min": 0.10103583335876465, "timer/agent.report_max": 0.4013633728027344, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.679794311523438e-05, "timer/dataset_eval_frac": 3.219110111753794e-07, "timer/dataset_eval_avg": 9.679794311523438e-05, "timer/dataset_eval_min": 9.679794311523438e-05, "timer/dataset_eval_max": 9.679794311523438e-05, "fps": 9.510845758958467}
+{"step": 394032, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.491099182988556, "train/action_min": 0.0, "train/action_std": 2.8840205870883566, "train/actor_opt_grad_norm": 0.007254480889303164, "train/actor_opt_grad_steps": 97050.0, "train/actor_opt_loss": 0.0007409556139054344, "train/adv_mag": 0.63188346464869, "train/adv_max": 0.5657206456845915, "train/adv_mean": 0.0019191253824675173, "train/adv_min": -0.43489510744390353, "train/adv_std": 0.032538725089439204, "train/cont_avg": 0.9986245598591549, "train/cont_loss_mean": 0.0001741783888864729, "train/cont_loss_std": 0.004733177389914883, "train/cont_neg_acc": 0.9635989024088933, "train/cont_neg_loss": 0.09057926859786611, "train/cont_pos_acc": 0.9999999974814939, "train/cont_pos_loss": 4.7627453666863085e-05, "train/cont_pred": 0.998635191312978, "train/cont_rate": 0.9986245598591549, "train/dyn_loss_mean": 4.690430372533664, "train/dyn_loss_std": 6.655543978785126, "train/extr_critic_critic_opt_grad_norm": 2.085151326488441, "train/extr_critic_critic_opt_grad_steps": 97050.0, "train/extr_critic_critic_opt_loss": 1.493589224949689, "train/extr_critic_mag": 466.2532211088798, "train/extr_critic_max": 466.2532211088798, "train/extr_critic_mean": 184.8277924228722, "train/extr_critic_min": 0.721079173222394, "train/extr_critic_std": 145.03875399307466, "train/extr_return_normed_mag": 1.1970743444603933, "train/extr_return_normed_max": 1.1970743444603933, "train/extr_return_normed_mean": 0.4318852256721174, "train/extr_return_normed_min": -0.007852472128792547, "train/extr_return_normed_std": 0.34643813589928857, "train/extr_return_rate": 0.9325860528878762, "train/extr_return_raw_mag": 507.24061434033894, "train/extr_return_raw_max": 507.24061434033894, "train/extr_return_raw_mean": 185.6342379073022, "train/extr_return_raw_min": 0.7670179820188295, "train/extr_return_raw_std": 145.64314033615756, "train/extr_reward_mag": 184.934900498726, "train/extr_reward_max": 184.934900498726, "train/extr_reward_mean": 0.9941477246687446, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.310031558426333, "train/image_loss_mean": 1.897555839847511, "train/image_loss_std": 1.6219381194719127, "train/model_loss_mean": 4.784216021148252, "train/model_loss_std": 5.341420455717705, "train/model_opt_grad_norm": 12.707218573126994, "train/model_opt_grad_steps": 97050.0, "train/model_opt_loss": 4.784216021148252, "train/policy_entropy_mag": 2.17245568020243, "train/policy_entropy_max": 2.17245568020243, "train/policy_entropy_mean": 1.1762375856789065, "train/policy_entropy_min": 0.06958093326276457, "train/policy_entropy_std": 0.6079354227428705, "train/policy_logprob_mag": 6.795951588053099, "train/policy_logprob_max": -0.008968218098538863, "train/policy_logprob_mean": -1.1765057830743386, "train/policy_logprob_min": -6.795951588053099, "train/policy_logprob_std": 1.099856631856569, "train/policy_randomness_mag": 0.988727180051132, "train/policy_randomness_max": 0.988727180051132, "train/policy_randomness_mean": 0.535328789915837, "train/policy_randomness_min": 0.03166764727990392, "train/policy_randomness_std": 0.2766833336840213, "train/post_ent_mag": 57.39607211905466, "train/post_ent_max": 57.39607211905466, "train/post_ent_mean": 38.60148717316104, "train/post_ent_min": 21.78614253729162, "train/post_ent_std": 5.356931088675915, "train/prior_ent_mag": 78.41692771374339, "train/prior_ent_max": 78.41692771374339, "train/prior_ent_mean": 43.34838286923691, "train/prior_ent_min": 24.854263520576584, "train/prior_ent_std": 8.043013982369866, "train/rep_loss_mean": 4.690430372533664, "train/rep_loss_std": 6.655543978785126, "train/reward_avg": 1.3436674735915493, "train/reward_loss_mean": 0.07222780438376145, "train/reward_loss_std": 0.27266982848375615, "train/reward_max_data": 210.8450704225352, "train/reward_max_pred": 169.07611965125716, "train/reward_neg_acc": 0.9677564157566554, "train/reward_neg_loss": 0.009616895431232914, "train/reward_pos_acc": 0.9940664222542669, "train/reward_pos_loss": 0.6726256231187095, "train/reward_pred": 1.1939700161907034, "train/reward_rate": 0.09523547535211267, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.2797453311795834e-06, "report/cont_loss_std": 5.9303976740920916e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.01980128622381e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.28025396609155e-06, "report/cont_pred": 0.9980446100234985, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.680082321166992, "report/dyn_loss_std": 6.709579944610596, "report/image_loss_mean": 2.1635231971740723, "report/image_loss_std": 1.3895336389541626, "report/model_loss_mean": 5.046436309814453, "report/model_loss_std": 5.201444625854492, "report/post_ent_mag": 55.679298400878906, "report/post_ent_max": 55.679298400878906, "report/post_ent_mean": 39.64019012451172, "report/post_ent_min": 23.959171295166016, "report/post_ent_std": 4.0734734535217285, "report/prior_ent_mag": 78.67822265625, "report/prior_ent_max": 78.67822265625, "report/prior_ent_mean": 44.20060348510742, "report/prior_ent_min": 25.798383712768555, "report/prior_ent_std": 6.553110122680664, "report/rep_loss_mean": 4.680082321166992, "report/rep_loss_std": 6.709579944610596, "report/reward_avg": 2.51953125, "report/reward_loss_mean": 0.0748613029718399, "report/reward_loss_std": 0.25979405641555786, "report/reward_max_data": 410.0, "report/reward_max_pred": 399.2276306152344, "report/reward_neg_acc": 0.970459520816803, "report/reward_neg_loss": 0.012684271670877934, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5914958715438843, "report/reward_pred": 2.4161176681518555, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.014196028001606464, "eval/cont_loss_std": 0.44738852977752686, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 7.163864612579346, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00020450456941034645, "eval/cont_pred": 0.998833417892456, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.628584861755371, "eval/dyn_loss_std": 11.635083198547363, "eval/image_loss_mean": 4.7914323806762695, "eval/image_loss_std": 4.310120105743408, "eval/model_loss_mean": 12.482538223266602, "eval/model_loss_std": 11.6027193069458, "eval/post_ent_mag": 58.06243896484375, "eval/post_ent_max": 58.06243896484375, "eval/post_ent_mean": 35.53263854980469, "eval/post_ent_min": 21.475326538085938, "eval/post_ent_std": 6.23513126373291, "eval/prior_ent_mag": 78.67822265625, "eval/prior_ent_max": 78.67822265625, "eval/prior_ent_mean": 38.89385986328125, "eval/prior_ent_min": 23.956676483154297, "eval/prior_ent_std": 9.037795066833496, "eval/rep_loss_mean": 11.628584861755371, "eval/rep_loss_std": 11.635083198547363, "eval/reward_avg": 0.537109375, "eval/reward_loss_mean": 0.699759840965271, "eval/reward_loss_std": 3.318235397338867, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.009139060974121, "eval/reward_neg_acc": 0.9525284171104431, "eval/reward_neg_loss": 0.08284571766853333, "eval/reward_pos_acc": 0.23636363446712494, "eval/reward_pos_loss": 11.56866455078125, "eval/reward_pred": 0.2159721851348877, "eval/reward_rate": 0.0537109375, "replay/size": 98445.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.5655523570356325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4385785829134777e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5348196029663086e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.21868205070496, "timer/env.step_count": 713.0, "timer/env.step_total": 2.819786310195923, "timer/env.step_frac": 0.009392441172996953, "timer/env.step_avg": 0.003954819509391196, "timer/env.step_min": 0.002359628677368164, "timer/env.step_max": 0.008547067642211914, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 187.80261206626892, "timer/replay._sample_frac": 0.6255527163847528, "timer/replay._sample_avg": 0.016462360805247978, "timer/replay._sample_min": 0.008540868759155273, "timer/replay._sample_max": 0.05284523963928223, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10831785202026367, "timer/agent.save_frac": 0.00036079650766693294, "timer/agent.save_avg": 0.10831785202026367, "timer/agent.save_min": 0.10831785202026367, "timer/agent.save_max": 0.10831785202026367, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.40426659584045, "timer/agent.policy_frac": 0.6641967289769208, "timer/agent.policy_avg": 0.27966937811478326, "timer/agent.policy_min": 0.0032138824462890625, "timer/agent.policy_max": 0.40310215950012207, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08990907669067383, "timer/dataset_train_frac": 0.0002994786203061433, "timer/dataset_train_avg": 0.0001260996868031891, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.0003070831298828125, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.90548706054688, "timer/agent.train_frac": 0.3227830007067321, "timer/agent.train_avg": 0.13591232406808818, "timer/agent.train_min": 0.09737586975097656, "timer/agent.train_max": 0.4276301860809326, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.496903657913208, "timer/agent.report_frac": 0.0016551390290537758, "timer/agent.report_avg": 0.248451828956604, "timer/agent.report_min": 0.09860634803771973, "timer/agent.report_max": 0.3982973098754883, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.649162292480469e-05, "timer/dataset_eval_frac": 1.5485919332945628e-07, "timer/dataset_eval_avg": 4.649162292480469e-05, "timer/dataset_eval_min": 4.649162292480469e-05, "timer/dataset_eval_max": 4.649162292480469e-05, "fps": 9.49944044319606}
+{"step": 394280, "episode/length": 803.0, "episode/score": 1280.0, "episode/reward_rate": 0.1256218905472637}
+{"step": 396888, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.507437811957465, "train/action_min": 0.0, "train/action_std": 2.8539674977461496, "train/actor_opt_grad_norm": 0.007583120934820424, "train/actor_opt_grad_steps": 97765.0, "train/actor_opt_loss": 0.001111882200150818, "train/adv_mag": 0.646783178879155, "train/adv_max": 0.6247001004715761, "train/adv_mean": 0.00206180246459553, "train/adv_min": -0.42081912896699375, "train/adv_std": 0.03497039002832025, "train/cont_avg": 0.9985487196180556, "train/cont_loss_mean": 0.0003343007830538536, "train/cont_loss_std": 0.008646310346218163, "train/cont_neg_acc": 0.9242424249649048, "train/cont_neg_loss": 0.23333474165362367, "train/cont_pos_acc": 0.9999863944119878, "train/cont_pos_loss": 0.0001138789103280222, "train/cont_pred": 0.9985475945803854, "train/cont_rate": 0.9985487196180556, "train/dyn_loss_mean": 4.609554317262438, "train/dyn_loss_std": 6.665850910875532, "train/extr_critic_critic_opt_grad_norm": 2.1221486065122814, "train/extr_critic_critic_opt_grad_steps": 97765.0, "train/extr_critic_critic_opt_loss": 1.506663527753618, "train/extr_critic_mag": 477.2300198872884, "train/extr_critic_max": 477.2300198872884, "train/extr_critic_mean": 182.45518747965494, "train/extr_critic_min": 0.25549350678920746, "train/extr_critic_std": 147.2715457280477, "train/extr_return_normed_mag": 1.2472836193111208, "train/extr_return_normed_max": 1.2472836193111208, "train/extr_return_normed_mean": 0.4259879682213068, "train/extr_return_normed_min": -0.00983558624284342, "train/extr_return_normed_std": 0.35285262432363296, "train/extr_return_rate": 0.9294370752241876, "train/extr_return_raw_mag": 528.2888259887695, "train/extr_return_raw_max": 528.2888259887695, "train/extr_return_raw_mean": 183.32121732499866, "train/extr_return_raw_min": 0.2770459186196806, "train/extr_return_raw_std": 148.20060115390353, "train/extr_reward_mag": 229.3659752342436, "train/extr_reward_max": 229.3659752342436, "train/extr_reward_mean": 1.0644936218029923, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.5312030331956015, "train/image_loss_mean": 1.8654851747883692, "train/image_loss_std": 1.5963177623020277, "train/model_loss_mean": 4.701227005985048, "train/model_loss_std": 5.2867940598064, "train/model_opt_grad_norm": 12.515740407837761, "train/model_opt_grad_steps": 97765.0, "train/model_opt_loss": 4.701227005985048, "train/policy_entropy_mag": 2.1745302975177765, "train/policy_entropy_max": 2.1745302975177765, "train/policy_entropy_mean": 1.2185860011312697, "train/policy_entropy_min": 0.069660024303529, "train/policy_entropy_std": 0.6059714837206734, "train/policy_logprob_mag": 6.794280860159132, "train/policy_logprob_max": -0.008980069529368646, "train/policy_logprob_mean": -1.2187060564756393, "train/policy_logprob_min": -6.794280860159132, "train/policy_logprob_std": 1.0917558620373409, "train/policy_randomness_mag": 0.9896713818113009, "train/policy_randomness_max": 0.9896713818113009, "train/policy_randomness_mean": 0.554602385395103, "train/policy_randomness_min": 0.031703643086883754, "train/policy_randomness_std": 0.27578950404293007, "train/post_ent_mag": 57.07720216115316, "train/post_ent_max": 57.07720216115316, "train/post_ent_mean": 38.730715645684135, "train/post_ent_min": 21.966140058305527, "train/post_ent_std": 5.29414431254069, "train/prior_ent_mag": 78.47250514560275, "train/prior_ent_max": 78.47250514560275, "train/prior_ent_mean": 43.3741184870402, "train/prior_ent_min": 25.537840763727825, "train/prior_ent_std": 7.905701888932122, "train/rep_loss_mean": 4.609554317262438, "train/rep_loss_std": 6.665850910875532, "train/reward_avg": 1.3785807291666667, "train/reward_loss_mean": 0.06967493622667259, "train/reward_loss_std": 0.25028126997252303, "train/reward_max_data": 225.55555555555554, "train/reward_max_pred": 194.44053126706018, "train/reward_neg_acc": 0.9681585364871554, "train/reward_neg_loss": 0.009132462736387324, "train/reward_pos_acc": 0.9943475830886099, "train/reward_pos_loss": 0.6494003526038594, "train/reward_pred": 1.2368267600735028, "train/reward_rate": 0.0944552951388889, "train_stats/mean_log_entropy": 1.0376008749008179, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0010540378279983997, "report/cont_loss_std": 0.03347129747271538, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 0.5358078479766846, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.553092018497409e-06, "report/cont_pred": 0.9986814856529236, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 5.187233924865723, "report/dyn_loss_std": 7.335283279418945, "report/image_loss_mean": 2.0216245651245117, "report/image_loss_std": 2.1004586219787598, "report/model_loss_mean": 5.183777809143066, "report/model_loss_std": 6.184338092803955, "report/post_ent_mag": 59.89979553222656, "report/post_ent_max": 59.89979553222656, "report/post_ent_mean": 37.808170318603516, "report/post_ent_min": 22.26952362060547, "report/post_ent_std": 5.550655364990234, "report/prior_ent_mag": 78.34901428222656, "report/prior_ent_max": 78.34901428222656, "report/prior_ent_mean": 43.28248596191406, "report/prior_ent_min": 24.047992706298828, "report/prior_ent_std": 8.553764343261719, "report/rep_loss_mean": 5.187233924865723, "report/rep_loss_std": 7.335283279418945, "report/reward_avg": 0.595703125, "report/reward_loss_mean": 0.048758767545223236, "report/reward_loss_std": 0.22252784669399261, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.005257606506348, "report/reward_neg_acc": 0.9626168608665466, "report/reward_neg_loss": 0.007400130853056908, "report/reward_pos_acc": 0.9836066365242004, "report/reward_pos_loss": 0.7016828060150146, "report/reward_pred": 0.5349693298339844, "report/reward_rate": 0.0595703125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.01287428941577673, "eval/cont_loss_std": 0.25688087940216064, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.3912787437438965, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.242634405381978e-06, "eval/cont_pred": 0.999884843826294, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.411487579345703, "eval/dyn_loss_std": 12.368547439575195, "eval/image_loss_mean": 5.775997161865234, "eval/image_loss_std": 5.174587249755859, "eval/model_loss_mean": 14.004554748535156, "eval/model_loss_std": 12.916184425354004, "eval/post_ent_mag": 59.41901779174805, "eval/post_ent_max": 59.41901779174805, "eval/post_ent_mean": 34.449642181396484, "eval/post_ent_min": 19.56241798400879, "eval/post_ent_std": 6.622274875640869, "eval/prior_ent_mag": 78.34901428222656, "eval/prior_ent_max": 78.34901428222656, "eval/prior_ent_mean": 39.00843048095703, "eval/prior_ent_min": 24.10200309753418, "eval/prior_ent_std": 9.923047065734863, "eval/rep_loss_mean": 12.411487579345703, "eval/rep_loss_std": 12.368547439575195, "eval/reward_avg": 0.537109375, "eval/reward_loss_mean": 0.7687909007072449, "eval/reward_loss_std": 3.3520004749298096, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006449699401855, "eval/reward_neg_acc": 0.9226006865501404, "eval/reward_neg_loss": 0.1614650934934616, "eval/reward_pos_acc": 0.3272727131843567, "eval/reward_pos_loss": 11.468767166137695, "eval/reward_pred": 0.39341938495635986, "eval/reward_rate": 0.0537109375, "replay/size": 99159.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.981835330567774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.402211790325261e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0116567611694336e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.38129711151123, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8148021697998047, "timer/env.step_frac": 0.009370763748832403, "timer/env.step_avg": 0.0039422999577028075, "timer/env.step_min": 0.0022640228271484375, "timer/env.step_max": 0.017571687698364258, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 185.79985070228577, "timer/replay._sample_frac": 0.618546668813774, "timer/replay._sample_avg": 0.01626399253346339, "timer/replay._sample_min": 0.009100675582885742, "timer/replay._sample_max": 0.04146862030029297, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.21546244621277, "timer/agent.policy_frac": 0.6632086097299779, "timer/agent.policy_avg": 0.2790132527257882, "timer/agent.policy_min": 0.0034444332122802734, "timer/agent.policy_max": 0.3146662712097168, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09290027618408203, "timer/dataset_train_frac": 0.00030927450236555324, "timer/dataset_train_avg": 0.000130112431630367, "timer/dataset_train_min": 7.843971252441406e-05, "timer/dataset_train_max": 0.0003445148468017578, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.23517370223999, "timer/agent.train_frac": 0.32370581869530696, "timer/agent.train_avg": 0.13618371666980392, "timer/agent.train_min": 0.09801244735717773, "timer/agent.train_max": 0.42815446853637695, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5006923675537109, "timer/agent.report_frac": 0.0016668560005846096, "timer/agent.report_avg": 0.25034618377685547, "timer/agent.report_min": 0.10092377662658691, "timer/agent.report_max": 0.399768590927124, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.605552673339844e-05, "timer/dataset_eval_frac": 2.5319661198867576e-07, "timer/dataset_eval_avg": 7.605552673339844e-05, "timer/dataset_eval_min": 7.605552673339844e-05, "timer/dataset_eval_max": 7.605552673339844e-05, "fps": 9.507578276843192}
+{"step": 397756, "episode/length": 868.0, "episode/score": 1180.0, "episode/reward_rate": 0.1047180667433832}
+{"step": 399740, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.524057307713468, "train/action_min": 0.0, "train/action_std": 2.9217520196672897, "train/actor_opt_grad_norm": 0.008086880154146905, "train/actor_opt_grad_steps": 98480.0, "train/actor_opt_loss": 0.0007884797341574367, "train/adv_mag": 0.7001443333189252, "train/adv_max": 0.6664995826046232, "train/adv_mean": 0.001970424421248846, "train/adv_min": -0.45953662231774395, "train/adv_std": 0.0350341451367442, "train/cont_avg": 0.9986933318661971, "train/cont_loss_mean": 0.0002913732471713414, "train/cont_loss_std": 0.00758952197590737, "train/cont_neg_acc": 0.9696969704194502, "train/cont_neg_loss": 0.10392879858076753, "train/cont_pos_acc": 0.9999724089259833, "train/cont_pos_loss": 0.0001093187923403669, "train/cont_pred": 0.9986841955655058, "train/cont_rate": 0.9986933318661971, "train/dyn_loss_mean": 4.616284333484273, "train/dyn_loss_std": 6.671433764444271, "train/extr_critic_critic_opt_grad_norm": 2.1465801655406684, "train/extr_critic_critic_opt_grad_steps": 98480.0, "train/extr_critic_critic_opt_loss": 1.4837865829467773, "train/extr_critic_mag": 465.9200761821908, "train/extr_critic_max": 465.9200761821908, "train/extr_critic_mean": 185.88897597621863, "train/extr_critic_min": 0.7217931613116197, "train/extr_critic_std": 144.09007091253577, "train/extr_return_normed_mag": 1.244646541669335, "train/extr_return_normed_max": 1.244646541669335, "train/extr_return_normed_mean": 0.4354761221878965, "train/extr_return_normed_min": -0.007109614646613178, "train/extr_return_normed_std": 0.3456193871901069, "train/extr_return_rate": 0.9379411079514195, "train/extr_return_raw_mag": 526.011953434474, "train/extr_return_raw_max": 526.011953434474, "train/extr_return_raw_mean": 186.71620951907735, "train/extr_return_raw_min": 1.0829747649193349, "train/extr_return_raw_std": 144.95247338523328, "train/extr_reward_mag": 218.11033963485502, "train/extr_reward_max": 218.11033963485502, "train/extr_reward_mean": 1.0213843651220833, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.760052976473956, "train/image_loss_mean": 1.863043489590497, "train/image_loss_std": 1.6013320785173228, "train/model_loss_mean": 4.701899464701263, "train/model_loss_std": 5.312468011614302, "train/model_opt_grad_norm": 12.064402445940905, "train/model_opt_grad_steps": 98480.0, "train/model_opt_loss": 4.701899464701263, "train/policy_entropy_mag": 2.1751465394463336, "train/policy_entropy_max": 2.1751465394463336, "train/policy_entropy_mean": 1.1707316469138778, "train/policy_entropy_min": 0.06972527157672694, "train/policy_entropy_std": 0.6105320159818085, "train/policy_logprob_mag": 6.79474219469957, "train/policy_logprob_max": -0.008989739376054684, "train/policy_logprob_mean": -1.1706371643173863, "train/policy_logprob_min": -6.79474219469957, "train/policy_logprob_std": 1.1022784407709685, "train/policy_randomness_mag": 0.9899518414282463, "train/policy_randomness_max": 0.9899518414282463, "train/policy_randomness_mean": 0.5328229371930512, "train/policy_randomness_min": 0.03173333847186935, "train/policy_randomness_std": 0.27786508958104633, "train/post_ent_mag": 57.55957235416896, "train/post_ent_max": 57.55957235416896, "train/post_ent_mean": 38.60228127492985, "train/post_ent_min": 21.95116123683016, "train/post_ent_std": 5.2619944055315475, "train/prior_ent_mag": 78.53492908746423, "train/prior_ent_max": 78.53492908746423, "train/prior_ent_mean": 43.22742698561977, "train/prior_ent_min": 25.604212613172933, "train/prior_ent_std": 7.950478150810994, "train/rep_loss_mean": 4.616284333484273, "train/rep_loss_std": 6.671433764444271, "train/reward_avg": 1.3319762323943662, "train/reward_loss_mean": 0.06879399176424658, "train/reward_loss_std": 0.24743835502107378, "train/reward_max_data": 213.94366197183098, "train/reward_max_pred": 174.33568231824418, "train/reward_neg_acc": 0.9688439092165987, "train/reward_neg_loss": 0.008547580363163332, "train/reward_pos_acc": 0.9955327242193087, "train/reward_pos_loss": 0.6473771988506049, "train/reward_pred": 1.1760637499916722, "train/reward_rate": 0.09416263204225352, "train_stats/mean_log_entropy": 1.0235873460769653, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.803066985914484e-06, "report/cont_loss_std": 7.455221202690154e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.1130010281922296e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.77111598229385e-06, "report/cont_pred": 0.9980421662330627, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.774742126464844, "report/dyn_loss_std": 6.700125217437744, "report/image_loss_mean": 1.9738948345184326, "report/image_loss_std": 2.1801187992095947, "report/model_loss_mean": 4.897974491119385, "report/model_loss_std": 5.793960094451904, "report/post_ent_mag": 59.10077667236328, "report/post_ent_max": 59.10077667236328, "report/post_ent_mean": 38.23847961425781, "report/post_ent_min": 19.73621368408203, "report/post_ent_std": 7.147017955780029, "report/prior_ent_mag": 78.68704986572266, "report/prior_ent_max": 78.68704986572266, "report/prior_ent_mean": 42.77614212036133, "report/prior_ent_min": 24.196182250976562, "report/prior_ent_std": 10.000395774841309, "report/rep_loss_mean": 4.774742126464844, "report/rep_loss_std": 6.700125217437744, "report/reward_avg": 1.416015625, "report/reward_loss_mean": 0.05922962725162506, "report/reward_loss_std": 0.24618326127529144, "report/reward_max_data": 400.0, "report/reward_max_pred": 394.1883239746094, "report/reward_neg_acc": 0.9724867939949036, "report/reward_neg_loss": 0.006526597775518894, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6896646022796631, "report/reward_pred": 1.3053772449493408, "report/reward_rate": 0.0771484375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.011210077442228794, "eval/cont_loss_std": 0.35854706168174744, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 11.479113578796387, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.819170922904959e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.370172500610352, "eval/dyn_loss_std": 12.104079246520996, "eval/image_loss_mean": 5.496953964233398, "eval/image_loss_std": 4.297706604003906, "eval/model_loss_mean": 14.426168441772461, "eval/model_loss_std": 11.808640480041504, "eval/post_ent_mag": 59.177364349365234, "eval/post_ent_max": 59.177364349365234, "eval/post_ent_mean": 35.382041931152344, "eval/post_ent_min": 19.787450790405273, "eval/post_ent_std": 5.119717597961426, "eval/prior_ent_mag": 78.68704986572266, "eval/prior_ent_max": 78.68704986572266, "eval/prior_ent_mean": 40.07624053955078, "eval/prior_ent_min": 25.0952091217041, "eval/prior_ent_std": 7.657708168029785, "eval/rep_loss_mean": 13.370172500610352, "eval/rep_loss_std": 12.104079246520996, "eval/reward_avg": 0.634765625, "eval/reward_loss_mean": 0.895901083946228, "eval/reward_loss_std": 3.8187525272369385, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001670837402344, "eval/reward_neg_acc": 0.9238790273666382, "eval/reward_neg_loss": 0.1076507717370987, "eval/reward_pos_acc": 0.16923077404499054, "eval/reward_pos_loss": 12.52562427520752, "eval/reward_pred": 0.29446715116500854, "eval/reward_rate": 0.0634765625, "replay/size": 99872.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.778223067145862e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4077939960431584e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 1037.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.03231954574585, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8407630920410156, "timer/env.step_frac": 0.00946819028144028, "timer/env.step_avg": 0.003984239960786838, "timer/env.step_min": 0.002326488494873047, "timer/env.step_max": 0.022560834884643555, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 185.4472415447235, "timer/replay._sample_frac": 0.6180908837604357, "timer/replay._sample_avg": 0.016255894244803955, "timer/replay._sample_min": 0.008608341217041016, "timer/replay._sample_max": 0.03685259819030762, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.15667366981506, "timer/agent.policy_frac": 0.663784068234188, "timer/agent.policy_avg": 0.2793221229590674, "timer/agent.policy_min": 0.0029418468475341797, "timer/agent.policy_max": 0.3145456314086914, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09324359893798828, "timer/dataset_train_frac": 0.00031077851572510823, "timer/dataset_train_avg": 0.00013077643609816028, "timer/dataset_train_min": 7.677078247070312e-05, "timer/dataset_train_max": 0.0003228187561035156, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.91009974479675, "timer/agent.train_frac": 0.32299886856029486, "timer/agent.train_avg": 0.1359187934709632, "timer/agent.train_min": 0.09739351272583008, "timer/agent.train_max": 0.4275953769683838, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5027642250061035, "timer/agent.report_frac": 0.0016757002237868816, "timer/agent.report_avg": 0.25138211250305176, "timer/agent.report_min": 0.10082578659057617, "timer/agent.report_max": 0.40193843841552734, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011777877807617188, "timer/dataset_eval_frac": 3.9255363640320813e-07, "timer/dataset_eval_avg": 0.00011777877807617188, "timer/dataset_eval_min": 0.00011777877807617188, "timer/dataset_eval_max": 0.00011777877807617188, "fps": 9.505234586511289}
+{"step": 400000, "eval_episode/length": 729.0, "eval_episode/score": 1110.0, "eval_episode/reward_rate": 0.11506849315068493}
+{"step": 400004, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.4423828125, "train/action_min": 0.0, "train/action_std": 2.904845816748483, "train/actor_opt_grad_norm": 0.0073077209027750155, "train/actor_opt_grad_steps": 98870.0, "train/actor_opt_loss": 0.000819860356776709, "train/adv_mag": 0.7152173859732491, "train/adv_max": 0.7146685123443604, "train/adv_mean": 0.002468977406221841, "train/adv_min": -0.4001437574625015, "train/adv_std": 0.037025422390018194, "train/cont_avg": 0.9983258928571429, "train/cont_loss_mean": 5.709545395480932e-05, "train/cont_loss_std": 0.0010719479152011705, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.991987913555932e-05, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.707170418973411e-05, "train/cont_pred": 0.9982707074710301, "train/cont_rate": 0.9983258928571429, "train/dyn_loss_mean": 4.322482926504953, "train/dyn_loss_std": 6.5953448840550015, "train/extr_critic_critic_opt_grad_norm": 2.042382444654192, "train/extr_critic_critic_opt_grad_steps": 98870.0, "train/extr_critic_critic_opt_loss": 1.5017679589135307, "train/extr_critic_mag": 478.78212193080356, "train/extr_critic_max": 478.78212193080356, "train/extr_critic_mean": 195.551997593471, "train/extr_critic_min": 0.01945240156991141, "train/extr_critic_std": 161.61994280133928, "train/extr_return_normed_mag": 1.2718254498073034, "train/extr_return_normed_max": 1.2718254498073034, "train/extr_return_normed_mean": 0.4586418398788997, "train/extr_return_normed_min": -0.010526315841291631, "train/extr_return_normed_std": 0.38741480878421236, "train/extr_return_rate": 0.9185082316398621, "train/extr_return_raw_mag": 537.3734174455915, "train/extr_return_raw_max": 537.3734174455915, "train/extr_return_raw_mean": 196.58704921177454, "train/extr_return_raw_min": 0.015079852725778307, "train/extr_return_raw_std": 162.31751578194755, "train/extr_reward_mag": 212.64224134172713, "train/extr_reward_max": 212.64224134172713, "train/extr_reward_mean": 1.0327313797814506, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.405491760798863, "train/image_loss_mean": 1.738010321344648, "train/image_loss_std": 1.6023813145501273, "train/model_loss_mean": 4.397108963557652, "train/model_loss_std": 5.299954686846052, "train/model_opt_grad_norm": 11.322381155831474, "train/model_opt_grad_steps": 98870.0, "train/model_opt_loss": 4.397108963557652, "train/policy_entropy_mag": 2.170210974557059, "train/policy_entropy_max": 2.170210974557059, "train/policy_entropy_mean": 1.1607137748173304, "train/policy_entropy_min": 0.06973975364650999, "train/policy_entropy_std": 0.6401136262076241, "train/policy_logprob_mag": 6.800218786512103, "train/policy_logprob_max": -0.008991837102387632, "train/policy_logprob_mean": -1.1627297231129237, "train/policy_logprob_min": -6.800218786512103, "train/policy_logprob_std": 1.1108118976865495, "train/policy_randomness_mag": 0.98770557982581, "train/policy_randomness_max": 0.98770557982581, "train/policy_randomness_mean": 0.5282636199678693, "train/policy_randomness_min": 0.03173992942486491, "train/policy_randomness_std": 0.2913282662630081, "train/post_ent_mag": 58.43970053536551, "train/post_ent_max": 58.43970053536551, "train/post_ent_mean": 38.205753326416016, "train/post_ent_min": 21.596782684326172, "train/post_ent_std": 5.596302168709891, "train/prior_ent_mag": 78.40803745814732, "train/prior_ent_max": 78.40803745814732, "train/prior_ent_mean": 42.56573976789202, "train/prior_ent_min": 24.914832523890905, "train/prior_ent_std": 8.385078634534564, "train/rep_loss_mean": 4.322482926504953, "train/rep_loss_std": 6.5953448840550015, "train/reward_avg": 1.2709263392857142, "train/reward_loss_mean": 0.06555170672280448, "train/reward_loss_std": 0.2548170345170157, "train/reward_max_data": 180.0, "train/reward_max_pred": 170.11040878295898, "train/reward_neg_acc": 0.9726949759892055, "train/reward_neg_loss": 0.00844507631180542, "train/reward_pos_acc": 0.9980430432728359, "train/reward_pos_loss": 0.6514712061200824, "train/reward_pred": 1.1195452809333801, "train/reward_rate": 0.08956473214285714, "eval_stats/mean_log_entropy": 0.0, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.3920232078135086e-08, "report/cont_loss_std": 3.20682516985471e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3920232078135086e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.839195251464844, "report/dyn_loss_std": 6.905177593231201, "report/image_loss_mean": 2.0070595741271973, "report/image_loss_std": 1.591578483581543, "report/model_loss_mean": 4.958745002746582, "report/model_loss_std": 5.423633098602295, "report/post_ent_mag": 48.84353256225586, "report/post_ent_max": 48.84353256225586, "report/post_ent_mean": 38.46832275390625, "report/post_ent_min": 24.31569480895996, "report/post_ent_std": 3.9219906330108643, "report/prior_ent_mag": 78.55917358398438, "report/prior_ent_max": 78.55917358398438, "report/prior_ent_mean": 43.367042541503906, "report/prior_ent_min": 29.132904052734375, "report/prior_ent_std": 6.902981281280518, "report/rep_loss_mean": 4.839195251464844, "report/rep_loss_std": 6.905177593231201, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.0481683574616909, "report/reward_loss_std": 0.17489056289196014, "report/reward_max_data": 400.0, "report/reward_max_pred": 296.8772277832031, "report/reward_neg_acc": 0.9778481721878052, "report/reward_neg_loss": 0.004858114756643772, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5884066820144653, "report/reward_pred": 1.2337989807128906, "report/reward_rate": 0.07421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012791566550731659, "eval/cont_loss_std": 0.31781530380249023, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.54612922668457, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.170637789182365e-06, "eval/cont_pred": 0.9999659061431885, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.49942398071289, "eval/dyn_loss_std": 11.533347129821777, "eval/image_loss_mean": 5.397953033447266, "eval/image_loss_std": 4.092640399932861, "eval/model_loss_mean": 13.578636169433594, "eval/model_loss_std": 10.982421875, "eval/post_ent_mag": 58.578895568847656, "eval/post_ent_max": 58.578895568847656, "eval/post_ent_mean": 35.49230194091797, "eval/post_ent_min": 20.057022094726562, "eval/post_ent_std": 5.354905128479004, "eval/prior_ent_mag": 78.55917358398438, "eval/prior_ent_max": 78.55917358398438, "eval/prior_ent_mean": 39.82537078857422, "eval/prior_ent_min": 24.463077545166016, "eval/prior_ent_std": 7.921810626983643, "eval/rep_loss_mean": 12.49942398071289, "eval/rep_loss_std": 11.533347129821777, "eval/reward_avg": 0.5078125, "eval/reward_loss_mean": 0.6682358980178833, "eval/reward_loss_std": 3.063906192779541, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.002124786376953, "eval/reward_neg_acc": 0.9269548058509827, "eval/reward_neg_loss": 0.08801888674497604, "eval/reward_pos_acc": 0.13461539149284363, "eval/reward_pos_loss": 11.513832092285156, "eval/reward_pred": 0.21307003498077393, "eval/reward_rate": 0.05078125, "replay/size": 99938.0, "replay/inserts": 66.0, "replay/samples": 1056.0, "replay/insert_wait_avg": 5.5739373871774385e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4219320181644324e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 79941.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": 3.1204706548166673e-06, "eval_replay/insert_wait_frac": 1.0, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 519.7659041881561, "timer/env.step_count": 66.0, "timer/env.step_total": 0.2751338481903076, "timer/env.step_frac": 0.000529341855580255, "timer/env.step_avg": 0.004168694669550116, "timer/env.step_min": 0.002948284149169922, "timer/env.step_max": 0.010364055633544922, "timer/replay._sample_count": 1056.0, "timer/replay._sample_total": 17.84674835205078, "timer/replay._sample_frac": 0.034336127491714476, "timer/replay._sample_avg": 0.016900329878835968, "timer/replay._sample_min": 0.008992671966552734, "timer/replay._sample_max": 0.03830099105834961, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 80007.0, "timer/agent.policy_total": 280.32883739471436, "timer/agent.policy_frac": 0.5393367189649956, "timer/agent.policy_avg": 0.0035038038845940276, "timer/agent.policy_min": 0.0023651123046875, "timer/agent.policy_max": 1.7881994247436523, "timer/dataset_train_count": 66.0, "timer/dataset_train_total": 0.008476734161376953, "timer/dataset_train_frac": 1.630875379295438e-05, "timer/dataset_train_avg": 0.000128435366081469, "timer/dataset_train_min": 8.392333984375e-05, "timer/dataset_train_max": 0.0004012584686279297, "timer/agent.train_count": 66.0, "timer/agent.train_total": 9.199983358383179, "timer/agent.train_frac": 0.017700244060358312, "timer/agent.train_avg": 0.13939368724822998, "timer/agent.train_min": 0.10129857063293457, "timer/agent.train_max": 0.4236948490142822, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.504774808883667, "timer/agent.report_frac": 0.0009711579863479034, "timer/agent.report_avg": 0.2523874044418335, "timer/agent.report_min": 0.10039615631103516, "timer/agent.report_max": 0.40437865257263184, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.393692016601562e-05, "timer/dataset_eval_frac": 1.8072928487438896e-07, "timer/dataset_eval_avg": 9.393692016601562e-05, "timer/dataset_eval_min": 9.393692016601562e-05, "timer/dataset_eval_max": 9.393692016601562e-05, "fps": 0.5078841492551427}
+{"step": 402208, "episode/length": 1112.0, "episode/score": 1780.0, "episode/reward_rate": 0.09793351302785265}
+{"step": 402852, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.636052521181778, "train/action_min": 0.0, "train/action_std": 2.8651702404022217, "train/actor_opt_grad_norm": 0.007619303506864628, "train/actor_opt_grad_steps": 99260.0, "train/actor_opt_loss": 0.0010648179533912388, "train/adv_mag": 0.6456426755643226, "train/adv_max": 0.588492997305494, "train/adv_mean": 0.001963224251802542, "train/adv_min": -0.47721304964851324, "train/adv_std": 0.03414225371056039, "train/cont_avg": 0.9985282790492958, "train/cont_loss_mean": 0.00032549325647975903, "train/cont_loss_std": 0.007707864041901522, "train/cont_neg_acc": 0.97023809541549, "train/cont_neg_loss": 0.08571056976043982, "train/cont_pos_acc": 0.9999172679135497, "train/cont_pos_loss": 0.000173393571761784, "train/cont_pred": 0.9984796265481224, "train/cont_rate": 0.9985282790492958, "train/dyn_loss_mean": 4.569819363070206, "train/dyn_loss_std": 6.622210482476463, "train/extr_critic_critic_opt_grad_norm": 2.1619777360432586, "train/extr_critic_critic_opt_grad_steps": 99260.0, "train/extr_critic_critic_opt_loss": 1.48747310336207, "train/extr_critic_mag": 472.8830527721996, "train/extr_critic_max": 472.8830527721996, "train/extr_critic_mean": 192.98331032336597, "train/extr_critic_min": 0.02400290462332712, "train/extr_critic_std": 147.57754710022832, "train/extr_return_normed_mag": 1.2125995948281088, "train/extr_return_normed_max": 1.2125995948281088, "train/extr_return_normed_mean": 0.4494888807686282, "train/extr_return_normed_min": -0.009983723937258335, "train/extr_return_normed_std": 0.3514621463459982, "train/extr_return_rate": 0.9321413375961949, "train/extr_return_raw_mag": 515.6624897701639, "train/extr_return_raw_max": 515.6624897701639, "train/extr_return_raw_mean": 193.8113266850861, "train/extr_return_raw_min": 0.044403238293737775, "train/extr_return_raw_std": 148.22316913873377, "train/extr_reward_mag": 191.49237076665315, "train/extr_reward_max": 191.49237076665315, "train/extr_reward_mean": 1.0205826045761646, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.511299586631883, "train/image_loss_mean": 1.7922104378821144, "train/image_loss_std": 1.534487611810926, "train/model_loss_mean": 4.603278401871802, "train/model_loss_std": 5.224334851117201, "train/model_opt_grad_norm": 12.908265275014958, "train/model_opt_grad_steps": 99260.0, "train/model_opt_loss": 4.603278401871802, "train/policy_entropy_mag": 2.175522978876678, "train/policy_entropy_max": 2.175522978876678, "train/policy_entropy_mean": 1.166576923618854, "train/policy_entropy_min": 0.06994770299380934, "train/policy_entropy_std": 0.6134832618941723, "train/policy_logprob_mag": 6.791795723874804, "train/policy_logprob_max": -0.009023432423111419, "train/policy_logprob_mean": -1.1652756324956115, "train/policy_logprob_min": -6.791795723874804, "train/policy_logprob_std": 1.0985652241908328, "train/policy_randomness_mag": 0.990123170362392, "train/policy_randomness_max": 0.990123170362392, "train/policy_randomness_mean": 0.5309320348249355, "train/policy_randomness_min": 0.03183457113697495, "train/policy_randomness_std": 0.27920826094251283, "train/post_ent_mag": 57.562642487002094, "train/post_ent_max": 57.562642487002094, "train/post_ent_mean": 38.427387989742655, "train/post_ent_min": 21.984740405015543, "train/post_ent_std": 5.391238615546428, "train/prior_ent_mag": 78.53145105066434, "train/prior_ent_max": 78.53145105066434, "train/prior_ent_mean": 43.018479253204774, "train/prior_ent_min": 25.294149506259973, "train/prior_ent_std": 8.110921799297063, "train/rep_loss_mean": 4.569819363070206, "train/rep_loss_std": 6.622210482476463, "train/reward_avg": 1.318909551056338, "train/reward_loss_mean": 0.0688508750582245, "train/reward_loss_std": 0.24852515778071443, "train/reward_max_data": 191.69014084507043, "train/reward_max_pred": 152.1380737868833, "train/reward_neg_acc": 0.9691208642973027, "train/reward_neg_loss": 0.009029396965404526, "train/reward_pos_acc": 0.9958369513632546, "train/reward_pos_loss": 0.6398420249912101, "train/reward_pred": 1.1731118559837341, "train/reward_rate": 0.09482284330985916, "train_stats/mean_log_entropy": 1.0567713975906372, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0004313972603995353, "report/cont_loss_std": 0.006868590600788593, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 4.643942702386994e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00043181440560147166, "report/cont_pred": 0.9986147880554199, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.390284538269043, "report/dyn_loss_std": 5.912396430969238, "report/image_loss_mean": 1.2636146545410156, "report/image_loss_std": 1.3550331592559814, "report/model_loss_mean": 3.368988513946533, "report/model_loss_std": 4.637824058532715, "report/post_ent_mag": 57.614051818847656, "report/post_ent_max": 57.614051818847656, "report/post_ent_mean": 36.132781982421875, "report/post_ent_min": 19.13739585876465, "report/post_ent_std": 5.67978048324585, "report/prior_ent_mag": 78.61726379394531, "report/prior_ent_max": 78.61726379394531, "report/prior_ent_mean": 39.469139099121094, "report/prior_ent_min": 24.554821014404297, "report/prior_ent_std": 8.572553634643555, "report/rep_loss_mean": 3.390284538269043, "report/rep_loss_std": 5.912396430969238, "report/reward_avg": 1.240234375, "report/reward_loss_mean": 0.07077177613973618, "report/reward_loss_std": 0.21232643723487854, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.78348922729492, "report/reward_neg_acc": 0.9779977798461914, "report/reward_neg_loss": 0.007765003014355898, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.5687991976737976, "report/reward_pred": 1.2052202224731445, "report/reward_rate": 0.1123046875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.5175308948632846e-08, "eval/cont_loss_std": 6.301173698375351e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.5175308948632846e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.395008087158203, "eval/dyn_loss_std": 12.431501388549805, "eval/image_loss_mean": 6.0635199546813965, "eval/image_loss_std": 4.519525051116943, "eval/model_loss_mean": 15.643223762512207, "eval/model_loss_std": 12.31212329864502, "eval/post_ent_mag": 56.59496307373047, "eval/post_ent_max": 56.59496307373047, "eval/post_ent_mean": 36.67314910888672, "eval/post_ent_min": 19.246868133544922, "eval/post_ent_std": 5.402947425842285, "eval/prior_ent_mag": 78.61726379394531, "eval/prior_ent_max": 78.61726379394531, "eval/prior_ent_mean": 39.66554641723633, "eval/prior_ent_min": 25.440378189086914, "eval/prior_ent_std": 7.593566417694092, "eval/rep_loss_mean": 14.395008087158203, "eval/rep_loss_std": 12.431501388549805, "eval/reward_avg": 0.634765625, "eval/reward_loss_mean": 0.9426985383033752, "eval/reward_loss_std": 3.939101219177246, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.006373405456543, "eval/reward_neg_acc": 0.9426485896110535, "eval/reward_neg_loss": 0.12394001334905624, "eval/reward_pos_acc": 0.2153846174478531, "eval/reward_pos_loss": 13.022536277770996, "eval/reward_pred": 0.27709048986434937, "eval/reward_rate": 0.0634765625, "replay/size": 100650.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.801741996507966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4351785517810436e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5944242477416992e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2002329826355, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8996922969818115, "timer/env.step_frac": 0.009659194025840541, "timer/env.step_avg": 0.004072601540704791, "timer/env.step_min": 0.002438068389892578, "timer/env.step_max": 0.0175626277923584, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 191.33851265907288, "timer/replay._sample_frac": 0.6373696341206386, "timer/replay._sample_avg": 0.016795866630887717, "timer/replay._sample_min": 0.008242607116699219, "timer/replay._sample_max": 0.07170677185058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18145012855529785, "timer/agent.save_frac": 0.0006044303388858246, "timer/agent.save_avg": 0.18145012855529785, "timer/agent.save_min": 0.18145012855529785, "timer/agent.save_max": 0.18145012855529785, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.9886989593506, "timer/agent.policy_frac": 0.6628532462560104, "timer/agent.policy_avg": 0.2794785097743688, "timer/agent.policy_min": 0.0034728050231933594, "timer/agent.policy_max": 0.3908541202545166, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.09182143211364746, "timer/dataset_train_frac": 0.000305867291312058, "timer/dataset_train_avg": 0.00012896268555287566, "timer/dataset_train_min": 6.866455078125e-05, "timer/dataset_train_max": 0.000331878662109375, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.17091655731201, "timer/agent.train_frac": 0.32368701247121506, "timer/agent.train_avg": 0.1364760064007191, "timer/agent.train_min": 0.09910082817077637, "timer/agent.train_max": 0.42946338653564453, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5016734600067139, "timer/agent.report_frac": 0.0016711294825535068, "timer/agent.report_avg": 0.25083673000335693, "timer/agent.report_min": 0.10245943069458008, "timer/agent.report_max": 0.3992140293121338, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.295608520507812e-05, "timer/dataset_eval_frac": 2.430247454514738e-07, "timer/dataset_eval_avg": 7.295608520507812e-05, "timer/dataset_eval_min": 7.295608520507812e-05, "timer/dataset_eval_max": 7.295608520507812e-05, "fps": 9.486555099714197}
+{"step": 405168, "episode/length": 739.0, "episode/score": 1110.0, "episode/reward_rate": 0.11351351351351352}
+{"step": 405704, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.522625130666813, "train/action_min": 0.0, "train/action_std": 2.870607721973473, "train/actor_opt_grad_norm": 0.007632739061463467, "train/actor_opt_grad_steps": 99970.0, "train/actor_opt_loss": 0.0009753980810939896, "train/adv_mag": 0.5916766259871739, "train/adv_max": 0.5442973144457374, "train/adv_mean": 0.0019815572009513707, "train/adv_min": -0.4120569497766629, "train/adv_std": 0.03250944310090911, "train/cont_avg": 0.9985282790492958, "train/cont_loss_mean": 0.00032083624039271394, "train/cont_loss_std": 0.008480655756598855, "train/cont_neg_acc": 0.9576023398784169, "train/cont_neg_loss": 0.11551536571097568, "train/cont_pos_acc": 0.9999448178519665, "train/cont_pos_loss": 0.00012626746437144733, "train/cont_pred": 0.9985190411688576, "train/cont_rate": 0.9985282790492958, "train/dyn_loss_mean": 4.782395594556567, "train/dyn_loss_std": 6.706438494400239, "train/extr_critic_critic_opt_grad_norm": 2.166988275420498, "train/extr_critic_critic_opt_grad_steps": 99970.0, "train/extr_critic_critic_opt_loss": 1.51392675285608, "train/extr_critic_mag": 463.0505487146512, "train/extr_critic_max": 463.0505487146512, "train/extr_critic_mean": 186.56112316292777, "train/extr_critic_min": 0.3122067770487826, "train/extr_critic_std": 146.43044957980302, "train/extr_return_normed_mag": 1.161641218292881, "train/extr_return_normed_max": 1.161641218292881, "train/extr_return_normed_mean": 0.43606891976275913, "train/extr_return_normed_min": -0.009544116764617952, "train/extr_return_normed_std": 0.3503313358400909, "train/extr_return_rate": 0.9386453301134244, "train/extr_return_raw_mag": 491.87971647020794, "train/extr_return_raw_max": 491.87971647020794, "train/extr_return_raw_mean": 187.39273135762818, "train/extr_return_raw_min": 0.383181325168985, "train/extr_return_raw_std": 147.0135685020769, "train/extr_reward_mag": 176.47092183878723, "train/extr_reward_max": 176.47092183878723, "train/extr_reward_mean": 0.9915544147222815, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.502262543624555, "train/image_loss_mean": 1.8786072546327617, "train/image_loss_std": 1.617531850304402, "train/model_loss_mean": 4.816481654073151, "train/model_loss_std": 5.347340597233302, "train/model_opt_grad_norm": 12.492958915065712, "train/model_opt_grad_steps": 99970.0, "train/model_opt_loss": 4.816481654073151, "train/policy_entropy_mag": 2.176944830048252, "train/policy_entropy_max": 2.176944830048252, "train/policy_entropy_mean": 1.1841981075179409, "train/policy_entropy_min": 0.06977278067612312, "train/policy_entropy_std": 0.6078501855823356, "train/policy_logprob_mag": 6.797082988309189, "train/policy_logprob_max": -0.008997364009035305, "train/policy_logprob_mean": -1.1862599916861092, "train/policy_logprob_min": -6.797082988309189, "train/policy_logprob_std": 1.0987805824884227, "train/policy_randomness_mag": 0.9907702820401796, "train/policy_randomness_max": 0.9907702820401796, "train/policy_randomness_mean": 0.5389517726193012, "train/policy_randomness_min": 0.031754960791325906, "train/policy_randomness_std": 0.2766445432330521, "train/post_ent_mag": 57.82829967015226, "train/post_ent_max": 57.82829967015226, "train/post_ent_mean": 38.55364409970566, "train/post_ent_min": 21.564088848275198, "train/post_ent_std": 5.35308482613362, "train/prior_ent_mag": 78.51201704858055, "train/prior_ent_max": 78.51201704858055, "train/prior_ent_mean": 43.26632846241266, "train/prior_ent_min": 25.051536425738266, "train/prior_ent_std": 8.112057477655545, "train/rep_loss_mean": 4.782395594556567, "train/rep_loss_std": 6.706438494400239, "train/reward_avg": 1.2786091549295775, "train/reward_loss_mean": 0.06811618086108019, "train/reward_loss_std": 0.2450759920855643, "train/reward_max_data": 201.26760563380282, "train/reward_max_pred": 180.44830361218519, "train/reward_neg_acc": 0.9694160533622956, "train/reward_neg_loss": 0.008720008121855872, "train/reward_pos_acc": 0.9958935522697341, "train/reward_pos_loss": 0.6501504157630491, "train/reward_pred": 1.169739475972216, "train/reward_rate": 0.09244333186619719, "train_stats/mean_log_entropy": 1.019051432609558, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.580546945158858e-06, "report/cont_loss_std": 7.330314110731706e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.580546945158858e-06, "report/cont_pred": 0.9999964237213135, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.780905723571777, "report/dyn_loss_std": 6.697206020355225, "report/image_loss_mean": 1.778822422027588, "report/image_loss_std": 1.3692162036895752, "report/model_loss_mean": 4.712538719177246, "report/model_loss_std": 5.106428623199463, "report/post_ent_mag": 53.17273712158203, "report/post_ent_max": 53.17273712158203, "report/post_ent_mean": 39.55010986328125, "report/post_ent_min": 23.826078414916992, "report/post_ent_std": 5.488468647003174, "report/prior_ent_mag": 78.45803833007812, "report/prior_ent_max": 78.45803833007812, "report/prior_ent_mean": 44.603790283203125, "report/prior_ent_min": 24.175769805908203, "report/prior_ent_std": 7.922481536865234, "report/rep_loss_mean": 4.780905723571777, "report/rep_loss_std": 6.697206020355225, "report/reward_avg": 0.91796875, "report/reward_loss_mean": 0.06516918540000916, "report/reward_loss_std": 0.28117814660072327, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.99174499511719, "report/reward_neg_acc": 0.9690831899642944, "report/reward_neg_loss": 0.00796725507825613, "report/reward_pos_acc": 0.9767441749572754, "report/reward_pos_loss": 0.6890692710876465, "report/reward_pred": 0.8636031746864319, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007370395585894585, "eval/cont_loss_std": 0.2357368916273117, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.547266960144043, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7954858932967e-08, "eval/cont_pred": 0.999999463558197, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.96839427947998, "eval/dyn_loss_std": 12.524911880493164, "eval/image_loss_mean": 4.541114807128906, "eval/image_loss_std": 3.841907501220703, "eval/model_loss_mean": 12.320517539978027, "eval/model_loss_std": 11.1101655960083, "eval/post_ent_mag": 59.73228073120117, "eval/post_ent_max": 59.73228073120117, "eval/post_ent_mean": 35.29917907714844, "eval/post_ent_min": 20.125869750976562, "eval/post_ent_std": 5.624061107635498, "eval/prior_ent_mag": 78.45803833007812, "eval/prior_ent_max": 78.45803833007812, "eval/prior_ent_mean": 39.84028625488281, "eval/prior_ent_min": 23.911577224731445, "eval/prior_ent_std": 8.049077987670898, "eval/rep_loss_mean": 11.96839427947998, "eval/rep_loss_std": 12.524911880493164, "eval/reward_avg": 0.458984375, "eval/reward_loss_mean": 0.5909954309463501, "eval/reward_loss_std": 2.8097522258758545, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004683494567871, "eval/reward_neg_acc": 0.9539406299591064, "eval/reward_neg_loss": 0.12206225097179413, "eval/reward_pos_acc": 0.1914893537759781, "eval/reward_pos_loss": 10.338818550109863, "eval/reward_pred": 0.26362287998199463, "eval/reward_rate": 0.0458984375, "replay/size": 101363.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.874192397022649e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3923285552529098e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2240777015686, "timer/env.step_count": 713.0, "timer/env.step_total": 2.89493465423584, "timer/env.step_frac": 0.00964257989032275, "timer/env.step_avg": 0.0040602169063616265, "timer/env.step_min": 0.0025107860565185547, "timer/env.step_max": 0.020528078079223633, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 182.4552128314972, "timer/replay._sample_frac": 0.6077301135482642, "timer/replay._sample_avg": 0.015993619638104594, "timer/replay._sample_min": 0.008613824844360352, "timer/replay._sample_max": 0.0438992977142334, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.94832015037537, "timer/agent.policy_frac": 0.6626661048423163, "timer/agent.policy_avg": 0.27902990203418704, "timer/agent.policy_min": 0.003451824188232422, "timer/agent.policy_max": 0.3151247501373291, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09169459342956543, "timer/dataset_train_frac": 0.00030542051833934685, "timer/dataset_train_avg": 0.00012860391785352794, "timer/dataset_train_min": 7.486343383789062e-05, "timer/dataset_train_max": 0.0002288818359375, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.25259494781494, "timer/agent.train_frac": 0.3239333623483951, "timer/agent.train_avg": 0.13639915139945993, "timer/agent.train_min": 0.09770011901855469, "timer/agent.train_max": 0.4271397590637207, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4991602897644043, "timer/agent.report_frac": 0.0016626257746741554, "timer/agent.report_avg": 0.24958014488220215, "timer/agent.report_min": 0.1005556583404541, "timer/agent.report_max": 0.3986046314239502, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.76837158203125e-05, "timer/dataset_eval_frac": 1.5882708737209109e-07, "timer/dataset_eval_avg": 4.76837158203125e-05, "timer/dataset_eval_min": 4.76837158203125e-05, "timer/dataset_eval_max": 4.76837158203125e-05, "fps": 9.499271828547077}
+{"step": 408024, "episode/length": 713.0, "episode/score": 950.0, "episode/reward_rate": 0.12184873949579832}
+{"step": 408556, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.554200078400088, "train/action_min": 0.0, "train/action_std": 2.856566976493513, "train/actor_opt_grad_norm": 0.007623656725012501, "train/actor_opt_grad_steps": 100680.0, "train/actor_opt_loss": 0.0010408567692061746, "train/adv_mag": 0.638536424704001, "train/adv_max": 0.593001974930226, "train/adv_mean": 0.002116934705272925, "train/adv_min": -0.4226898017903449, "train/adv_std": 0.03402594755023298, "train/cont_avg": 0.998473261443662, "train/cont_loss_mean": 0.00037494081852029114, "train/cont_loss_std": 0.010603638658277709, "train/cont_neg_acc": 0.93502824892432, "train/cont_neg_loss": 0.21299803224469224, "train/cont_pos_acc": 0.9999861876729509, "train/cont_pos_loss": 7.491747552985088e-05, "train/cont_pred": 0.9985260644429167, "train/cont_rate": 0.998473261443662, "train/dyn_loss_mean": 4.665514318036362, "train/dyn_loss_std": 6.664674087309502, "train/extr_critic_critic_opt_grad_norm": 2.1781154065064983, "train/extr_critic_critic_opt_grad_steps": 100680.0, "train/extr_critic_critic_opt_loss": 1.5344466155683492, "train/extr_critic_mag": 472.9407597931338, "train/extr_critic_max": 472.9407597931338, "train/extr_critic_mean": 187.27236605362154, "train/extr_critic_min": 0.04522234453281886, "train/extr_critic_std": 147.8247147681008, "train/extr_return_normed_mag": 1.2326913820186132, "train/extr_return_normed_max": 1.2326913820186132, "train/extr_return_normed_mean": 0.43403093369913776, "train/extr_return_normed_min": -0.01170725489533703, "train/extr_return_normed_std": 0.3520787689887302, "train/extr_return_rate": 0.9401573992111314, "train/extr_return_raw_mag": 525.0505289426992, "train/extr_return_raw_max": 525.0505289426992, "train/extr_return_raw_mean": 188.16501585194763, "train/extr_return_raw_min": 0.12488309341453305, "train/extr_return_raw_std": 148.51734010938188, "train/extr_reward_mag": 205.7247763620296, "train/extr_reward_max": 205.7247763620296, "train/extr_reward_mean": 1.0677281576143185, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.008639258398136, "train/image_loss_mean": 1.8594520629291804, "train/image_loss_std": 1.5896236963675057, "train/model_loss_mean": 4.730735620982211, "train/model_loss_std": 5.307182835860991, "train/model_opt_grad_norm": 12.170652523846693, "train/model_opt_grad_steps": 100680.0, "train/model_opt_loss": 4.730735620982211, "train/policy_entropy_mag": 2.1737821370782986, "train/policy_entropy_max": 2.1737821370782986, "train/policy_entropy_mean": 1.16871749599215, "train/policy_entropy_min": 0.06975569429112152, "train/policy_entropy_std": 0.6190608605532579, "train/policy_logprob_mag": 6.79474989797028, "train/policy_logprob_max": -0.008994221241331436, "train/policy_logprob_mean": -1.1686488944040219, "train/policy_logprob_min": -6.79474989797028, "train/policy_logprob_std": 1.0998905779610217, "train/policy_randomness_mag": 0.9893308802389763, "train/policy_randomness_max": 0.9893308802389763, "train/policy_randomness_mean": 0.5319062504969853, "train/policy_randomness_min": 0.03174718432653118, "train/policy_randomness_std": 0.28174673503553366, "train/post_ent_mag": 58.02120472008074, "train/post_ent_max": 58.02120472008074, "train/post_ent_mean": 38.78357390282859, "train/post_ent_min": 21.830584915590958, "train/post_ent_std": 5.400238456860395, "train/prior_ent_mag": 78.55788958912164, "train/prior_ent_max": 78.55788958912164, "train/prior_ent_mean": 43.48442335531745, "train/prior_ent_min": 25.099333695962397, "train/prior_ent_std": 8.091461195072657, "train/rep_loss_mean": 4.665514318036362, "train/rep_loss_std": 6.664674087309502, "train/reward_avg": 1.3836927816901408, "train/reward_loss_mean": 0.07160003241938605, "train/reward_loss_std": 0.24882277489548, "train/reward_max_data": 208.8732394366197, "train/reward_max_pred": 184.6147620644368, "train/reward_neg_acc": 0.9674968744667483, "train/reward_neg_loss": 0.009451282532019933, "train/reward_pos_acc": 0.9958188391067613, "train/reward_pos_loss": 0.6456953270334593, "train/reward_pred": 1.2451641928981727, "train/reward_rate": 0.09838523327464789, "train_stats/mean_log_entropy": 1.0222458839416504, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 4.82303084936575e-06, "report/cont_loss_std": 0.0001400863693561405, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0001693094673100859, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.50113975603017e-06, "report/cont_pred": 0.9980427622795105, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.576221942901611, "report/dyn_loss_std": 6.325173854827881, "report/image_loss_mean": 1.7561604976654053, "report/image_loss_std": 1.406427025794983, "report/model_loss_mean": 4.58333158493042, "report/model_loss_std": 4.908787727355957, "report/post_ent_mag": 57.146934509277344, "report/post_ent_max": 57.146934509277344, "report/post_ent_mean": 39.46150207519531, "report/post_ent_min": 19.274568557739258, "report/post_ent_std": 5.280458927154541, "report/prior_ent_mag": 78.42115783691406, "report/prior_ent_max": 78.42115783691406, "report/prior_ent_mean": 44.586509704589844, "report/prior_ent_min": 25.049835205078125, "report/prior_ent_std": 7.815312385559082, "report/rep_loss_mean": 4.576221942901611, "report/rep_loss_std": 6.325173854827881, "report/reward_avg": 2.2265625, "report/reward_loss_mean": 0.08143337070941925, "report/reward_loss_std": 0.24976779520511627, "report/reward_max_data": 400.0, "report/reward_max_pred": 399.32611083984375, "report/reward_neg_acc": 0.9612832069396973, "report/reward_neg_loss": 0.010284052230417728, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6174249053001404, "report/reward_pred": 2.0907392501831055, "report/reward_rate": 0.1171875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00036875458317808807, "eval/cont_loss_std": 0.011792780831456184, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.37755346298217773, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.00717050044841e-08, "eval/cont_pred": 0.999330461025238, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.660120964050293, "eval/dyn_loss_std": 10.739114761352539, "eval/image_loss_mean": 5.654439926147461, "eval/image_loss_std": 4.000833034515381, "eval/model_loss_mean": 14.695752143859863, "eval/model_loss_std": 10.296586990356445, "eval/post_ent_mag": 58.859806060791016, "eval/post_ent_max": 58.859806060791016, "eval/post_ent_mean": 35.97091293334961, "eval/post_ent_min": 19.354663848876953, "eval/post_ent_std": 5.076732635498047, "eval/prior_ent_mag": 78.42115783691406, "eval/prior_ent_max": 78.42115783691406, "eval/prior_ent_mean": 41.29106903076172, "eval/prior_ent_min": 24.715499877929688, "eval/prior_ent_std": 7.447063446044922, "eval/rep_loss_mean": 13.660120964050293, "eval/rep_loss_std": 10.739114761352539, "eval/reward_avg": 0.72265625, "eval/reward_loss_mean": 0.8448712229728699, "eval/reward_loss_std": 3.5171687602996826, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001810073852539, "eval/reward_neg_acc": 0.9210526943206787, "eval/reward_neg_loss": 0.07697553932666779, "eval/reward_pos_acc": 0.22972971200942993, "eval/reward_pos_loss": 10.702990531921387, "eval/reward_pred": 0.2764960527420044, "eval/reward_rate": 0.072265625, "replay/size": 102076.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.710676709532236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3954634418995819e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.1457672119140625e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.20212292671204, "timer/env.step_count": 713.0, "timer/env.step_total": 2.91119647026062, "timer/env.step_frac": 0.009697454641156308, "timer/env.step_avg": 0.004083024502469313, "timer/env.step_min": 0.002317667007446289, "timer/env.step_max": 0.025631189346313477, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 182.91574549674988, "timer/replay._sample_frac": 0.6093086341744655, "timer/replay._sample_avg": 0.016033988911005423, "timer/replay._sample_min": 0.008342504501342773, "timer/replay._sample_max": 0.03345942497253418, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.03122854232788, "timer/agent.policy_frac": 0.6629907430432034, "timer/agent.policy_avg": 0.2791461830888189, "timer/agent.policy_min": 0.002906322479248047, "timer/agent.policy_max": 0.3146092891693115, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.0920112133026123, "timer/dataset_train_frac": 0.00030649754374013834, "timer/dataset_train_avg": 0.0001290479849966512, "timer/dataset_train_min": 6.794929504394531e-05, "timer/dataset_train_max": 0.00039267539978027344, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.15917634963989, "timer/agent.train_frac": 0.32364586699927916, "timer/agent.train_avg": 0.1362681295226366, "timer/agent.train_min": 0.09701323509216309, "timer/agent.train_max": 0.4280738830566406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5043914318084717, "timer/agent.report_frac": 0.0016801727679041367, "timer/agent.report_avg": 0.25219571590423584, "timer/agent.report_min": 0.10604143142700195, "timer/agent.report_max": 0.3983500003814697, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.128715515136719e-05, "timer/dataset_eval_frac": 2.3746386086939976e-07, "timer/dataset_eval_avg": 7.128715515136719e-05, "timer/dataset_eval_min": 7.128715515136719e-05, "timer/dataset_eval_max": 7.128715515136719e-05, "fps": 9.499911542849379}
+{"step": 411400, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.719885932074653, "train/action_min": 0.0, "train/action_std": 2.828593260712094, "train/actor_opt_grad_norm": 0.007426676631439477, "train/actor_opt_grad_steps": 101395.0, "train/actor_opt_loss": 0.0012505007377209647, "train/adv_mag": 0.5753871376315752, "train/adv_max": 0.5541133150044415, "train/adv_mean": 0.00234166459793212, "train/adv_min": -0.4020169969234202, "train/adv_std": 0.03318342713949581, "train/cont_avg": 0.9985758463541666, "train/cont_loss_mean": 0.00011089678949521842, "train/cont_loss_std": 0.002809932835023584, "train/cont_neg_acc": 0.96875, "train/cont_neg_loss": 0.059232945533835846, "train/cont_pos_acc": 0.9999999975164732, "train/cont_pos_loss": 4.513370386236929e-05, "train/cont_pred": 0.9985798158579402, "train/cont_rate": 0.9985758463541666, "train/dyn_loss_mean": 4.721048391527599, "train/dyn_loss_std": 6.702344629499647, "train/extr_critic_critic_opt_grad_norm": 2.1850893232557507, "train/extr_critic_critic_opt_grad_steps": 101395.0, "train/extr_critic_critic_opt_loss": 1.5212494879961014, "train/extr_critic_mag": 472.7894147237142, "train/extr_critic_max": 472.7894147237142, "train/extr_critic_mean": 181.03963608211942, "train/extr_critic_min": 0.10954698589113024, "train/extr_critic_std": 144.39582528008356, "train/extr_return_normed_mag": 1.1950246211555269, "train/extr_return_normed_max": 1.1950246211555269, "train/extr_return_normed_mean": 0.4191493323693673, "train/extr_return_normed_min": -0.008695628603163641, "train/extr_return_normed_std": 0.3411581255495548, "train/extr_return_rate": 0.9304841698871719, "train/extr_return_raw_mag": 511.95992957221137, "train/extr_return_raw_max": 511.95992957221137, "train/extr_return_raw_mean": 182.03453540802002, "train/extr_return_raw_min": 0.06113057925257534, "train/extr_return_raw_std": 145.12046400705972, "train/extr_reward_mag": 182.3722107410431, "train/extr_reward_max": 182.3722107410431, "train/extr_reward_mean": 1.0263086433211963, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.5887104372183485, "train/image_loss_mean": 1.8850844138198428, "train/image_loss_std": 1.5925435490078397, "train/model_loss_mean": 4.789849244885975, "train/model_loss_std": 5.338889148500231, "train/model_opt_grad_norm": 11.908606635199654, "train/model_opt_grad_steps": 101395.0, "train/model_opt_loss": 4.789849244885975, "train/policy_entropy_mag": 2.174349228541056, "train/policy_entropy_max": 2.174349228541056, "train/policy_entropy_mean": 1.1795425878630743, "train/policy_entropy_min": 0.06987002440210846, "train/policy_entropy_std": 0.6180172214905421, "train/policy_logprob_mag": 6.796747631496853, "train/policy_logprob_max": -0.009011419968576066, "train/policy_logprob_mean": -1.1779649704694748, "train/policy_logprob_min": -6.796747631496853, "train/policy_logprob_std": 1.0939759860436122, "train/policy_randomness_mag": 0.9895889734228452, "train/policy_randomness_max": 0.9895889734228452, "train/policy_randomness_mean": 0.5368329630129867, "train/policy_randomness_min": 0.03179921815171838, "train/policy_randomness_std": 0.2812717559023036, "train/post_ent_mag": 57.85068813959757, "train/post_ent_max": 57.85068813959757, "train/post_ent_mean": 39.01337316301134, "train/post_ent_min": 22.05763096279568, "train/post_ent_std": 5.286746131049262, "train/prior_ent_mag": 78.58600446912978, "train/prior_ent_max": 78.58600446912978, "train/prior_ent_mean": 43.75991763008965, "train/prior_ent_min": 25.117003043492634, "train/prior_ent_std": 7.944711056020525, "train/rep_loss_mean": 4.721048391527599, "train/rep_loss_std": 6.702344629499647, "train/reward_avg": 1.3197157118055556, "train/reward_loss_mean": 0.07202494222049911, "train/reward_loss_std": 0.2636088321192397, "train/reward_max_data": 186.25, "train/reward_max_pred": 165.27299507459006, "train/reward_neg_acc": 0.9688744735386636, "train/reward_neg_loss": 0.009116929092366869, "train/reward_pos_acc": 0.9942696044842402, "train/reward_pos_loss": 0.6655358076095581, "train/reward_pred": 1.1931457651986017, "train/reward_rate": 0.09623209635416667, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.003694482846185565, "report/cont_loss_std": 0.10781144350767136, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 1.7179896831512451, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0003396974934730679, "report/cont_pred": 0.9987013339996338, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.620377063751221, "report/dyn_loss_std": 6.586747169494629, "report/image_loss_mean": 1.688098430633545, "report/image_loss_std": 1.336537480354309, "report/model_loss_mean": 4.539323329925537, "report/model_loss_std": 5.036660671234131, "report/post_ent_mag": 60.130516052246094, "report/post_ent_max": 60.130516052246094, "report/post_ent_mean": 38.724552154541016, "report/post_ent_min": 20.474782943725586, "report/post_ent_std": 6.151424884796143, "report/prior_ent_mag": 78.694580078125, "report/prior_ent_max": 78.694580078125, "report/prior_ent_mean": 43.49454879760742, "report/prior_ent_min": 24.10419273376465, "report/prior_ent_std": 8.696467399597168, "report/rep_loss_mean": 4.620377063751221, "report/rep_loss_std": 6.586747169494629, "report/reward_avg": 2.060546875, "report/reward_loss_mean": 0.07530423998832703, "report/reward_loss_std": 0.23286466300487518, "report/reward_max_data": 400.0, "report/reward_max_pred": 397.15380859375, "report/reward_neg_acc": 0.9679911732673645, "report/reward_neg_loss": 0.007501645013689995, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.59589022397995, "report/reward_pred": 1.9795914888381958, "report/reward_rate": 0.115234375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.013583989813923836, "eval/cont_loss_std": 0.42057177424430847, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 6.7312493324279785, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00043787271715700626, "eval/cont_pred": 0.9986225366592407, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.32309341430664, "eval/dyn_loss_std": 12.452289581298828, "eval/image_loss_mean": 5.16069221496582, "eval/image_loss_std": 4.175679683685303, "eval/model_loss_mean": 13.409589767456055, "eval/model_loss_std": 11.909586906433105, "eval/post_ent_mag": 59.143821716308594, "eval/post_ent_max": 59.143821716308594, "eval/post_ent_mean": 35.094154357910156, "eval/post_ent_min": 22.054794311523438, "eval/post_ent_std": 5.628648281097412, "eval/prior_ent_mag": 78.694580078125, "eval/prior_ent_max": 78.694580078125, "eval/prior_ent_mean": 39.3301887512207, "eval/prior_ent_min": 24.908239364624023, "eval/prior_ent_std": 8.162290573120117, "eval/rep_loss_mean": 12.32309341430664, "eval/rep_loss_std": 12.452289581298828, "eval/reward_avg": 0.517578125, "eval/reward_loss_mean": 0.8414582014083862, "eval/reward_loss_std": 3.857494831085205, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 9.998039245605469, "eval/reward_neg_acc": 0.9515963196754456, "eval/reward_neg_loss": 0.09193038940429688, "eval/reward_pos_acc": 0.15094339847564697, "eval/reward_pos_loss": 14.573373794555664, "eval/reward_pred": 0.23290042579174042, "eval/reward_rate": 0.0517578125, "replay/size": 102787.0, "replay/inserts": 711.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 5.828680368415414e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4104127213254088e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.773238182067871e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.6933960914612, "timer/env.step_count": 711.0, "timer/env.step_total": 2.8790040016174316, "timer/env.step_frac": 0.009606497971476188, "timer/env.step_avg": 0.004049232069785417, "timer/env.step_min": 0.0023164749145507812, "timer/env.step_max": 0.007657289505004883, "timer/replay._sample_count": 11376.0, "timer/replay._sample_total": 183.85212063789368, "timer/replay._sample_frac": 0.613467373774847, "timer/replay._sample_avg": 0.01616140300966013, "timer/replay._sample_min": 0.008101701736450195, "timer/replay._sample_max": 0.04167604446411133, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10929679870605469, "timer/agent.save_frac": 0.00036469538578921243, "timer/agent.save_avg": 0.10929679870605469, "timer/agent.save_min": 0.10929679870605469, "timer/agent.save_max": 0.10929679870605469, "timer/agent.policy_count": 711.0, "timer/agent.policy_total": 198.75957989692688, "timer/agent.policy_frac": 0.66320974198667, "timer/agent.policy_avg": 0.27954933881424315, "timer/agent.policy_min": 0.0034117698669433594, "timer/agent.policy_max": 0.43718981742858887, "timer/dataset_train_count": 711.0, "timer/dataset_train_total": 0.09209513664245605, "timer/dataset_train_frac": 0.00030729785121574795, "timer/dataset_train_avg": 0.00012952902481358096, "timer/dataset_train_min": 7.939338684082031e-05, "timer/dataset_train_max": 0.0003123283386230469, "timer/agent.train_count": 711.0, "timer/agent.train_total": 97.2326729297638, "timer/agent.train_frac": 0.32444049217584386, "timer/agent.train_avg": 0.13675481424720645, "timer/agent.train_min": 0.09808564186096191, "timer/agent.train_max": 0.427631139755249, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20763349533081055, "timer/agent.report_frac": 0.000692819721884844, "timer/agent.report_avg": 0.10381674766540527, "timer/agent.report_min": 0.10234856605529785, "timer/agent.report_max": 0.1052849292755127, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.698204040527344e-05, "timer/dataset_eval_frac": 1.9013445457397905e-07, "timer/dataset_eval_avg": 5.698204040527344e-05, "timer/dataset_eval_min": 5.698204040527344e-05, "timer/dataset_eval_max": 5.698204040527344e-05, "fps": 9.489263986092036}
+{"step": 411552, "episode/length": 881.0, "episode/score": 1220.0, "episode/reward_rate": 0.10770975056689343}
+{"step": 414256, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.649673676826585, "train/action_min": 0.0, "train/action_std": 2.8245049832572398, "train/actor_opt_grad_norm": 0.008085675649082576, "train/actor_opt_grad_steps": 102110.0, "train/actor_opt_loss": 0.0015079610302436007, "train/adv_mag": 0.7147020391175445, "train/adv_max": 0.6699520005306727, "train/adv_mean": 0.0027158722113372405, "train/adv_min": -0.45935646497027977, "train/adv_std": 0.037681605981689105, "train/cont_avg": 0.9985832966549296, "train/cont_loss_mean": 0.0002906913580390165, "train/cont_loss_std": 0.007831324772721145, "train/cont_neg_acc": 0.9237288140644462, "train/cont_neg_loss": 0.1539135615594694, "train/cont_pos_acc": 0.9999999974814939, "train/cont_pos_loss": 5.6256392170864866e-05, "train/cont_pred": 0.9986545519090034, "train/cont_rate": 0.9985832966549296, "train/dyn_loss_mean": 4.726568426884396, "train/dyn_loss_std": 6.714781250752194, "train/extr_critic_critic_opt_grad_norm": 2.269725910374816, "train/extr_critic_critic_opt_grad_steps": 102110.0, "train/extr_critic_critic_opt_loss": 1.5502034862276535, "train/extr_critic_mag": 479.2377461178202, "train/extr_critic_max": 479.2377461178202, "train/extr_critic_mean": 177.96871679601534, "train/extr_critic_min": 0.04122144235691554, "train/extr_critic_std": 143.99401382661202, "train/extr_return_normed_mag": 1.3113590042356034, "train/extr_return_normed_max": 1.3113590042356034, "train/extr_return_normed_mean": 0.41590348872500404, "train/extr_return_normed_min": -0.008571381792163765, "train/extr_return_normed_std": 0.34442585496835304, "train/extr_return_rate": 0.9352791745897749, "train/extr_return_raw_mag": 556.8323802679357, "train/extr_return_raw_max": 556.8323802679357, "train/extr_return_raw_mean": 179.1142299813284, "train/extr_return_raw_min": 0.050088430808948904, "train/extr_return_raw_std": 145.28967489323145, "train/extr_reward_mag": 219.84267888942236, "train/extr_reward_max": 219.84267888942236, "train/extr_reward_mean": 1.0888017609085836, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.737738978694862, "train/image_loss_mean": 1.8827364914853808, "train/image_loss_std": 1.5759873289457509, "train/model_loss_mean": 4.788791800888491, "train/model_loss_std": 5.320598682887118, "train/model_opt_grad_norm": 12.348475603990153, "train/model_opt_grad_steps": 102110.0, "train/model_opt_loss": 4.788791800888491, "train/policy_entropy_mag": 2.174561198328582, "train/policy_entropy_max": 2.174561198328582, "train/policy_entropy_mean": 1.2088878566110637, "train/policy_entropy_min": 0.07003349947257781, "train/policy_entropy_std": 0.6115774512290955, "train/policy_logprob_mag": 6.792287913846298, "train/policy_logprob_max": -0.009036603226313288, "train/policy_logprob_mean": -1.2095744038971377, "train/policy_logprob_min": -6.792287913846298, "train/policy_logprob_std": 1.0945205982302275, "train/policy_randomness_mag": 0.989685443925186, "train/policy_randomness_max": 0.989685443925186, "train/policy_randomness_mean": 0.5501885754121861, "train/policy_randomness_min": 0.03187361905272578, "train/policy_randomness_std": 0.2783408914233597, "train/post_ent_mag": 57.53668094688738, "train/post_ent_max": 57.53668094688738, "train/post_ent_mean": 38.83448388542927, "train/post_ent_min": 22.280185377094107, "train/post_ent_std": 5.22032553041485, "train/prior_ent_mag": 78.66376323431311, "train/prior_ent_max": 78.66376323431311, "train/prior_ent_mean": 43.632250450026824, "train/prior_ent_min": 25.39830299162529, "train/prior_ent_std": 7.88020139344981, "train/rep_loss_mean": 4.726568426884396, "train/rep_loss_std": 6.714781250752194, "train/reward_avg": 1.3581095950704225, "train/reward_loss_mean": 0.06982357611118907, "train/reward_loss_std": 0.2503508167787337, "train/reward_max_data": 217.46478873239437, "train/reward_max_pred": 191.09188261166426, "train/reward_neg_acc": 0.9673398019562305, "train/reward_neg_loss": 0.00887922826551006, "train/reward_pos_acc": 0.9944813998652177, "train/reward_pos_loss": 0.6484532683668002, "train/reward_pred": 1.221098782311023, "train/reward_rate": 0.09505666813380281, "train_stats/mean_log_entropy": 1.0345157384872437, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.5439863950159634e-06, "report/cont_loss_std": 6.434499664464965e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 7.414555875584483e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.47497211805603e-06, "report/cont_pred": 0.9990200400352478, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.9023756980895996, "report/dyn_loss_std": 6.317620277404785, "report/image_loss_mean": 1.5856056213378906, "report/image_loss_std": 1.6032236814498901, "report/model_loss_mean": 3.9674272537231445, "report/model_loss_std": 5.094890117645264, "report/post_ent_mag": 59.642913818359375, "report/post_ent_max": 59.642913818359375, "report/post_ent_mean": 37.92231750488281, "report/post_ent_min": 22.32803726196289, "report/post_ent_std": 5.254361152648926, "report/prior_ent_mag": 78.49856567382812, "report/prior_ent_max": 78.49856567382812, "report/prior_ent_mean": 41.8004150390625, "report/prior_ent_min": 23.05768585205078, "report/prior_ent_std": 7.917692184448242, "report/rep_loss_mean": 3.9023756980895996, "report/rep_loss_std": 6.317620277404785, "report/reward_avg": 0.83984375, "report/reward_loss_mean": 0.040392663329839706, "report/reward_loss_std": 0.17083288729190826, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.4735870361328, "report/reward_neg_acc": 0.9812695384025574, "report/reward_neg_loss": 0.003776207100600004, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5989390015602112, "report/reward_pred": 0.8148729801177979, "report/reward_rate": 0.0615234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.376438139137463e-08, "eval/cont_loss_std": 1.59953276579472e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.376438139137463e-08, "eval/cont_pred": 0.9999999403953552, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.34744930267334, "eval/dyn_loss_std": 11.787899017333984, "eval/image_loss_mean": 5.118776321411133, "eval/image_loss_std": 4.21605110168457, "eval/model_loss_mean": 13.555408477783203, "eval/model_loss_std": 11.505239486694336, "eval/post_ent_mag": 57.51726531982422, "eval/post_ent_max": 57.51726531982422, "eval/post_ent_mean": 36.61561965942383, "eval/post_ent_min": 19.683929443359375, "eval/post_ent_std": 5.8945722579956055, "eval/prior_ent_mag": 78.49856567382812, "eval/prior_ent_max": 78.49856567382812, "eval/prior_ent_mean": 39.915130615234375, "eval/prior_ent_min": 24.924198150634766, "eval/prior_ent_std": 8.161650657653809, "eval/rep_loss_mean": 12.34744930267334, "eval/rep_loss_std": 11.787899017333984, "eval/reward_avg": 0.654296875, "eval/reward_loss_mean": 1.028162956237793, "eval/reward_loss_std": 4.2428178787231445, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.001703262329102, "eval/reward_neg_acc": 0.9320793747901917, "eval/reward_neg_loss": 0.1440863311290741, "eval/reward_pos_acc": 0.20895522832870483, "eval/reward_pos_loss": 13.65594482421875, "eval/reward_pred": 0.3320493698120117, "eval/reward_rate": 0.0654296875, "replay/size": 103501.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.818214737066701e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3950951293069107e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.4154050350189, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8738276958465576, "timer/env.step_frac": 0.00956617952235692, "timer/env.step_avg": 0.0040249687616898564, "timer/env.step_min": 0.0020329952239990234, "timer/env.step_max": 0.02323126792907715, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 181.1353726387024, "timer/replay._sample_frac": 0.6029496810178151, "timer/replay._sample_avg": 0.015855687380838795, "timer/replay._sample_min": 0.007939577102661133, "timer/replay._sample_max": 0.03189730644226074, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.45486044883728, "timer/agent.policy_frac": 0.663930201667212, "timer/agent.policy_avg": 0.2793485440459906, "timer/agent.policy_min": 0.0030515193939208984, "timer/agent.policy_max": 0.31509923934936523, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08939695358276367, "timer/dataset_train_frac": 0.0002975777942291036, "timer/dataset_train_avg": 0.00012520581734280626, "timer/dataset_train_min": 7.43865966796875e-05, "timer/dataset_train_max": 0.0003542900085449219, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.97507619857788, "timer/agent.train_frac": 0.3228032736446177, "timer/agent.train_avg": 0.13581943445178976, "timer/agent.train_min": 0.09759092330932617, "timer/agent.train_max": 0.4276130199432373, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5009844303131104, "timer/agent.report_frac": 0.0016676389489903537, "timer/agent.report_avg": 0.2504922151565552, "timer/agent.report_min": 0.09889388084411621, "timer/agent.report_max": 0.40209054946899414, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.654594421386719e-05, "timer/dataset_eval_frac": 2.880875706216819e-07, "timer/dataset_eval_avg": 8.654594421386719e-05, "timer/dataset_eval_min": 8.654594421386719e-05, "timer/dataset_eval_max": 8.654594421386719e-05, "fps": 9.506541452154652}
+{"step": 414636, "episode/length": 770.0, "episode/score": 1140.0, "episode/reward_rate": 0.125810635538262}
+{"step": 417112, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.655712718694982, "train/action_min": 0.0, "train/action_std": 2.838451231029672, "train/actor_opt_grad_norm": 0.007683278638607179, "train/actor_opt_grad_steps": 102820.0, "train/actor_opt_loss": 0.0010259445838655232, "train/adv_mag": 0.6825946888453523, "train/adv_max": 0.6487708927040369, "train/adv_mean": 0.0023262566911641993, "train/adv_min": -0.430154390738044, "train/adv_std": 0.03607128300822117, "train/cont_avg": 0.9985145246478874, "train/cont_loss_mean": 0.0003818136488116273, "train/cont_loss_std": 0.009892825157280473, "train/cont_neg_acc": 0.9513180287820953, "train/cont_neg_loss": 0.10654626469559554, "train/cont_pos_acc": 0.9999448447160317, "train/cont_pos_loss": 0.00017860053451739964, "train/cont_pred": 0.9985157075062604, "train/cont_rate": 0.9985145246478874, "train/dyn_loss_mean": 4.708118126425944, "train/dyn_loss_std": 6.696522746287601, "train/extr_critic_critic_opt_grad_norm": 2.34904597007053, "train/extr_critic_critic_opt_grad_steps": 102820.0, "train/extr_critic_critic_opt_loss": 1.5426444671523403, "train/extr_critic_mag": 479.9202696034606, "train/extr_critic_max": 479.9202696034606, "train/extr_critic_mean": 187.1851572385976, "train/extr_critic_min": 0.13671911770189313, "train/extr_critic_std": 149.6250308399469, "train/extr_return_normed_mag": 1.2766249062309802, "train/extr_return_normed_max": 1.2766249062309802, "train/extr_return_normed_mean": 0.43429838561675915, "train/extr_return_normed_min": -0.008879843410629203, "train/extr_return_normed_std": 0.3553623015611944, "train/extr_return_rate": 0.9329766841001914, "train/extr_return_raw_mag": 544.9580383300781, "train/extr_return_raw_max": 544.9580383300781, "train/extr_return_raw_mean": 188.17079603168327, "train/extr_return_raw_min": 0.41289926158931617, "train/extr_return_raw_std": 150.53931330291317, "train/extr_reward_mag": 200.13990919354936, "train/extr_reward_max": 200.13990919354936, "train/extr_reward_mean": 1.034797212607424, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.858614478312748, "train/image_loss_mean": 1.859735326028206, "train/image_loss_std": 1.6321591273160048, "train/model_loss_mean": 4.754237329456168, "train/model_loss_std": 5.361382323251644, "train/model_opt_grad_norm": 12.789934561286174, "train/model_opt_grad_steps": 102820.0, "train/model_opt_loss": 4.754237329456168, "train/policy_entropy_mag": 2.173513650894165, "train/policy_entropy_max": 2.173513650894165, "train/policy_entropy_mean": 1.1856804498484437, "train/policy_entropy_min": 0.06969012897199309, "train/policy_entropy_std": 0.6182105734314717, "train/policy_logprob_mag": 6.795722115207726, "train/policy_logprob_max": -0.008984480053186417, "train/policy_logprob_mean": -1.1866118857558345, "train/policy_logprob_min": -6.795722115207726, "train/policy_logprob_std": 1.0968637550380869, "train/policy_randomness_mag": 0.9892086848406725, "train/policy_randomness_max": 0.9892086848406725, "train/policy_randomness_mean": 0.5396264325565016, "train/policy_randomness_min": 0.03171734401667622, "train/policy_randomness_std": 0.28135975691634163, "train/post_ent_mag": 58.07861983608192, "train/post_ent_max": 58.07861983608192, "train/post_ent_mean": 38.49376694585236, "train/post_ent_min": 21.55923760105187, "train/post_ent_std": 5.377418793423075, "train/prior_ent_mag": 78.70636931943221, "train/prior_ent_max": 78.70636931943221, "train/prior_ent_mean": 43.195912428305185, "train/prior_ent_min": 24.785618661155162, "train/prior_ent_std": 8.102511896214015, "train/rep_loss_mean": 4.708118126425944, "train/rep_loss_std": 6.696522746287601, "train/reward_avg": 1.3140955105633803, "train/reward_loss_mean": 0.0692492774359777, "train/reward_loss_std": 0.2610844447159431, "train/reward_max_data": 204.92957746478874, "train/reward_max_pred": 164.47147682351127, "train/reward_neg_acc": 0.9697142461655845, "train/reward_neg_loss": 0.009010241832584143, "train/reward_pos_acc": 0.9942018011925926, "train/reward_pos_loss": 0.6493462030316742, "train/reward_pred": 1.1729693950062068, "train/reward_rate": 0.0945615096830986, "train_stats/mean_log_entropy": 1.018172264099121, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.981004738307092e-06, "report/cont_loss_std": 0.00011993872612947598, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.7800539101008326e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.957720309699653e-06, "report/cont_pred": 0.9990195035934448, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.63902473449707, "report/dyn_loss_std": 6.941105365753174, "report/image_loss_mean": 2.051723003387451, "report/image_loss_std": 1.594926357269287, "report/model_loss_mean": 5.507030487060547, "report/model_loss_std": 5.507116794586182, "report/post_ent_mag": 58.61543273925781, "report/post_ent_max": 58.61543273925781, "report/post_ent_mean": 40.86997604370117, "report/post_ent_min": 20.367279052734375, "report/post_ent_std": 5.496969223022461, "report/prior_ent_mag": 78.67001342773438, "report/prior_ent_max": 78.67001342773438, "report/prior_ent_mean": 46.27607727050781, "report/prior_ent_min": 26.30270767211914, "report/prior_ent_std": 7.793264865875244, "report/rep_loss_mean": 5.63902473449707, "report/rep_loss_std": 6.941105365753174, "report/reward_avg": 1.58203125, "report/reward_loss_mean": 0.07188889384269714, "report/reward_loss_std": 0.2273707240819931, "report/reward_max_data": 400.0, "report/reward_max_pred": 389.63922119140625, "report/reward_neg_acc": 0.9574699997901917, "report/reward_neg_loss": 0.008224092423915863, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6175021529197693, "report/reward_pred": 1.4980148077011108, "report/reward_rate": 0.1044921875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0031229553278535604, "eval/cont_loss_std": 0.07215917110443115, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.5988280773162842, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.44949404759609e-07, "eval/cont_pred": 0.9995821118354797, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.211493492126465, "eval/dyn_loss_std": 10.367562294006348, "eval/image_loss_mean": 4.59427547454834, "eval/image_loss_std": 4.198580741882324, "eval/model_loss_mean": 12.55515193939209, "eval/model_loss_std": 10.132536888122559, "eval/post_ent_mag": 54.8919677734375, "eval/post_ent_max": 54.8919677734375, "eval/post_ent_mean": 41.23235321044922, "eval/post_ent_min": 25.202526092529297, "eval/post_ent_std": 5.582672119140625, "eval/prior_ent_mag": 78.67001342773438, "eval/prior_ent_max": 78.67001342773438, "eval/prior_ent_mean": 48.10425567626953, "eval/prior_ent_min": 27.13315200805664, "eval/prior_ent_std": 8.544475555419922, "eval/rep_loss_mean": 12.211493492126465, "eval/rep_loss_std": 10.367562294006348, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.6308580636978149, "eval/reward_loss_std": 2.4768741130828857, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 184.56088256835938, "eval/reward_neg_acc": 0.883966326713562, "eval/reward_neg_loss": 0.12343814224004745, "eval/reward_pos_acc": 0.3552631735801697, "eval/reward_pos_loss": 6.960254192352295, "eval/reward_pred": 0.6625673770904541, "eval/reward_rate": 0.07421875, "replay/size": 104215.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.775139111430705e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3880828181568648e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.27757143974304, "timer/env.step_count": 714.0, "timer/env.step_total": 2.865992546081543, "timer/env.step_frac": 0.009544477572333983, "timer/env.step_avg": 0.004013995162579192, "timer/env.step_min": 0.002324819564819336, "timer/env.step_max": 0.025521516799926758, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 180.28376984596252, "timer/replay._sample_frac": 0.6003903953983464, "timer/replay._sample_avg": 0.015781142318449102, "timer/replay._sample_min": 0.008216619491577148, "timer/replay._sample_max": 0.05278515815734863, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.62135314941406, "timer/agent.policy_frac": 0.6647894219747686, "timer/agent.policy_avg": 0.2795817271000197, "timer/agent.policy_min": 0.003088712692260742, "timer/agent.policy_max": 0.3215806484222412, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.0897057056427002, "timer/dataset_train_frac": 0.0002987426107537356, "timer/dataset_train_avg": 0.0001256382431970591, "timer/dataset_train_min": 7.2479248046875e-05, "timer/dataset_train_max": 0.00019788742065429688, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.68095707893372, "timer/agent.train_frac": 0.3219719561983162, "timer/agent.train_avg": 0.13540750291167186, "timer/agent.train_min": 0.09739398956298828, "timer/agent.train_max": 0.4263134002685547, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5005860328674316, "timer/agent.report_frac": 0.0016670776657319699, "timer/agent.report_avg": 0.2502930164337158, "timer/agent.report_min": 0.10181665420532227, "timer/agent.report_max": 0.3987693786621094, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.838539123535156e-05, "timer/dataset_eval_frac": 1.2783302812562674e-07, "timer/dataset_eval_avg": 3.838539123535156e-05, "timer/dataset_eval_min": 3.838539123535156e-05, "timer/dataset_eval_max": 3.838539123535156e-05, "fps": 9.510899933303275}
+{"step": 417932, "episode/length": 823.0, "episode/score": 1400.0, "episode/reward_rate": 0.1262135922330097}
+{"step": 419964, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.752512613932292, "train/action_min": 0.0, "train/action_std": 2.8340486354298062, "train/actor_opt_grad_norm": 0.007955690651821593, "train/actor_opt_grad_steps": 103535.0, "train/actor_opt_loss": 0.0015861558884151033, "train/adv_mag": 0.6606543395254347, "train/adv_max": 0.6365895190586647, "train/adv_mean": 0.0026206721043611956, "train/adv_min": -0.4471942647877667, "train/adv_std": 0.0359023520981686, "train/cont_avg": 0.9988742404513888, "train/cont_loss_mean": 0.00021591822781232776, "train/cont_loss_std": 0.005564552638879178, "train/cont_neg_acc": 0.9479166666666666, "train/cont_neg_loss": 0.09164043748062056, "train/cont_pos_acc": 0.9999455850985315, "train/cont_pos_loss": 0.0001357867159876569, "train/cont_pred": 0.9988247777024905, "train/cont_rate": 0.9988742404513888, "train/dyn_loss_mean": 4.769694291883045, "train/dyn_loss_std": 6.666521701547834, "train/extr_critic_critic_opt_grad_norm": 2.3363142758607864, "train/extr_critic_critic_opt_grad_steps": 103535.0, "train/extr_critic_critic_opt_loss": 1.5525340139865875, "train/extr_critic_mag": 478.1015124850803, "train/extr_critic_max": 478.1015124850803, "train/extr_critic_mean": 187.21747811635336, "train/extr_critic_min": 0.14927472670873007, "train/extr_critic_std": 146.61943446265326, "train/extr_return_normed_mag": 1.216338382826911, "train/extr_return_normed_max": 1.216338382826911, "train/extr_return_normed_mean": 0.4300247078968419, "train/extr_return_normed_min": -0.010786702565383166, "train/extr_return_normed_std": 0.3458249664141072, "train/extr_return_rate": 0.9438205750452148, "train/extr_return_raw_mag": 523.7123239305284, "train/extr_return_raw_max": 523.7123239305284, "train/extr_return_raw_mean": 188.3352812661065, "train/extr_return_raw_min": 0.35084347750994815, "train/extr_return_raw_std": 147.47985564337836, "train/extr_reward_mag": 181.87062638335757, "train/extr_reward_max": 181.87062638335757, "train/extr_reward_mean": 1.0836964887049463, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.922717418935564, "train/image_loss_mean": 1.8983228454987209, "train/image_loss_std": 1.5943135801288817, "train/model_loss_mean": 4.83388074239095, "train/model_loss_std": 5.312310874462128, "train/model_opt_grad_norm": 11.996024992730883, "train/model_opt_grad_steps": 103535.0, "train/model_opt_loss": 4.83388074239095, "train/policy_entropy_mag": 2.1731057266394296, "train/policy_entropy_max": 2.1731057266394296, "train/policy_entropy_mean": 1.1693588321407635, "train/policy_entropy_min": 0.06982293010999759, "train/policy_entropy_std": 0.6152006992035441, "train/policy_logprob_mag": 6.795572949780358, "train/policy_logprob_max": -0.00900476319818861, "train/policy_logprob_mean": -1.1690812251634068, "train/policy_logprob_min": -6.795572949780358, "train/policy_logprob_std": 1.1013587961594264, "train/policy_randomness_mag": 0.9890230331155989, "train/policy_randomness_max": 0.9890230331155989, "train/policy_randomness_mean": 0.5321981273591518, "train/policy_randomness_min": 0.03177778469398618, "train/policy_randomness_std": 0.2799899025509755, "train/post_ent_mag": 57.96759631898668, "train/post_ent_max": 57.96759631898668, "train/post_ent_mean": 38.79937924279107, "train/post_ent_min": 21.69064892662896, "train/post_ent_std": 5.2348971300654945, "train/prior_ent_mag": 78.52277395460341, "train/prior_ent_max": 78.52277395460341, "train/prior_ent_mean": 43.585523976220024, "train/prior_ent_min": 25.153324524561565, "train/prior_ent_std": 7.896244896782769, "train/rep_loss_mean": 4.769694291883045, "train/rep_loss_std": 6.666521701547834, "train/reward_avg": 1.3370768229166667, "train/reward_loss_mean": 0.07352541738914119, "train/reward_loss_std": 0.26329347987969715, "train/reward_max_data": 183.75, "train/reward_max_pred": 153.6352793375651, "train/reward_neg_acc": 0.966840971675184, "train/reward_neg_loss": 0.009749965402685726, "train/reward_pos_acc": 0.9948102451033063, "train/reward_pos_loss": 0.6579275238845084, "train/reward_pred": 1.1990422382950783, "train/reward_rate": 0.09868706597222222, "train_stats/mean_log_entropy": 1.1624699831008911, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.684325176640414e-06, "report/cont_loss_std": 0.00011303309292998165, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 7.581836689496413e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.614790668711066e-06, "report/cont_pred": 0.9990189075469971, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.154994010925293, "report/dyn_loss_std": 6.088128089904785, "report/image_loss_mean": 1.585754632949829, "report/image_loss_std": 1.199347734451294, "report/model_loss_mean": 4.159886360168457, "report/model_loss_std": 4.607978343963623, "report/post_ent_mag": 58.979393005371094, "report/post_ent_max": 58.979393005371094, "report/post_ent_mean": 38.95195007324219, "report/post_ent_min": 19.64895248413086, "report/post_ent_std": 5.1639556884765625, "report/prior_ent_mag": 78.40914916992188, "report/prior_ent_max": 78.40914916992188, "report/prior_ent_mean": 42.968589782714844, "report/prior_ent_min": 23.92500114440918, "report/prior_ent_std": 7.46881628036499, "report/rep_loss_mean": 4.154994010925293, "report/rep_loss_std": 6.088128089904785, "report/reward_avg": 1.513671875, "report/reward_loss_mean": 0.08113103359937668, "report/reward_loss_std": 0.2321624606847763, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.8397674560547, "report/reward_neg_acc": 0.9722222685813904, "report/reward_neg_loss": 0.00811208225786686, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6111072897911072, "report/reward_pred": 1.4205729961395264, "report/reward_rate": 0.12109375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.006238396279513836, "eval/cont_loss_std": 0.14595690369606018, "eval/cont_neg_acc": 0.25, "eval/cont_neg_loss": 1.596327543258667, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 2.7524981760507217e-06, "eval/cont_pred": 0.998255729675293, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.540508270263672, "eval/dyn_loss_std": 10.421167373657227, "eval/image_loss_mean": 6.010811805725098, "eval/image_loss_std": 5.142340660095215, "eval/model_loss_mean": 15.53835678100586, "eval/model_loss_std": 11.031683921813965, "eval/post_ent_mag": 57.00110626220703, "eval/post_ent_max": 57.00110626220703, "eval/post_ent_mean": 41.630584716796875, "eval/post_ent_min": 24.08466339111328, "eval/post_ent_std": 5.537871360778809, "eval/prior_ent_mag": 78.40914916992188, "eval/prior_ent_max": 78.40914916992188, "eval/prior_ent_mean": 49.35279846191406, "eval/prior_ent_min": 25.08839988708496, "eval/prior_ent_std": 8.031567573547363, "eval/rep_loss_mean": 14.540508270263672, "eval/rep_loss_std": 10.421167373657227, "eval/reward_avg": 1.71875, "eval/reward_loss_mean": 0.7970025539398193, "eval/reward_loss_std": 3.0015430450439453, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 41.72654342651367, "eval/reward_neg_acc": 0.9095860123634338, "eval/reward_neg_loss": 0.13666100800037384, "eval/reward_pos_acc": 0.49056604504585266, "eval/reward_pos_loss": 6.515809535980225, "eval/reward_pred": 0.6984267234802246, "eval/reward_rate": 0.103515625, "replay/size": 104928.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.842425545669706e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4055786761461768e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.02395701408386, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8458211421966553, "timer/env.step_frac": 0.009485313008064437, "timer/env.step_avg": 0.003991334000275814, "timer/env.step_min": 0.002299070358276367, "timer/env.step_max": 0.016658544540405273, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.81575989723206, "timer/replay._sample_frac": 0.592671870829585, "timer/replay._sample_avg": 0.015586935474862557, "timer/replay._sample_min": 0.007393836975097656, "timer/replay._sample_max": 0.0407102108001709, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18538665771484375, "timer/agent.save_frac": 0.0006179061817591495, "timer/agent.save_avg": 0.18538665771484375, "timer/agent.save_min": 0.18538665771484375, "timer/agent.save_max": 0.18538665771484375, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.29069876670837, "timer/agent.policy_frac": 0.6642492844574848, "timer/agent.policy_avg": 0.2795100964469963, "timer/agent.policy_min": 0.0030760765075683594, "timer/agent.policy_max": 0.3782613277435303, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09261274337768555, "timer/dataset_train_frac": 0.00030868449406304605, "timer/dataset_train_avg": 0.00012989164569100357, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.0003502368927001953, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.77874708175659, "timer/agent.train_frac": 0.32257006422061674, "timer/agent.train_avg": 0.13573456813710602, "timer/agent.train_min": 0.09810924530029297, "timer/agent.train_max": 0.42601990699768066, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49988794326782227, "timer/agent.report_frac": 0.0016661600901569213, "timer/agent.report_avg": 0.24994397163391113, "timer/agent.report_min": 0.10014224052429199, "timer/agent.report_max": 0.3997457027435303, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.91278076171875e-05, "timer/dataset_eval_frac": 1.9707695413940527e-07, "timer/dataset_eval_avg": 5.91278076171875e-05, "timer/dataset_eval_min": 5.91278076171875e-05, "timer/dataset_eval_max": 5.91278076171875e-05, "fps": 9.50556791716315}
+{"step": 421488, "episode/length": 888.0, "episode/score": 1360.0, "episode/reward_rate": 0.1124859392575928}
+{"step": 422820, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.653579067176496, "train/action_min": 0.0, "train/action_std": 2.8521487041258475, "train/actor_opt_grad_norm": 0.007287259180833336, "train/actor_opt_grad_steps": 104250.0, "train/actor_opt_loss": 0.0008953595248180725, "train/adv_mag": 0.6108604115499577, "train/adv_max": 0.5730533261953945, "train/adv_mean": 0.0019616218350178394, "train/adv_min": -0.4458183293611231, "train/adv_std": 0.03168369559439975, "train/cont_avg": 0.9986658230633803, "train/cont_loss_mean": 0.0002197630432544411, "train/cont_loss_std": 0.006267941149620016, "train/cont_neg_acc": 0.977011494595429, "train/cont_neg_loss": 0.09871916181859441, "train/cont_pos_acc": 0.9999861784384284, "train/cont_pos_loss": 5.8971022939858924e-05, "train/cont_pred": 0.998679626995409, "train/cont_rate": 0.9986658230633803, "train/dyn_loss_mean": 4.703709823984496, "train/dyn_loss_std": 6.736933970115554, "train/extr_critic_critic_opt_grad_norm": 2.096625366681059, "train/extr_critic_critic_opt_grad_steps": 104250.0, "train/extr_critic_critic_opt_loss": 1.5067502327368294, "train/extr_critic_mag": 473.6396884112291, "train/extr_critic_max": 473.6396884112291, "train/extr_critic_mean": 182.24979948661698, "train/extr_critic_min": 0.09057517286757348, "train/extr_critic_std": 146.9197948616995, "train/extr_return_normed_mag": 1.170856858643008, "train/extr_return_normed_max": 1.170856858643008, "train/extr_return_normed_mean": 0.41962176687280894, "train/extr_return_normed_min": -0.008368605623205363, "train/extr_return_normed_std": 0.34552766361706694, "train/extr_return_rate": 0.9310648197859106, "train/extr_return_raw_mag": 504.09507772956096, "train/extr_return_raw_max": 504.09507772956096, "train/extr_return_raw_mean": 183.08841178786588, "train/extr_return_raw_min": 0.17791953622560266, "train/extr_return_raw_std": 147.66013701532927, "train/extr_reward_mag": 174.40302159752645, "train/extr_reward_max": 174.40302159752645, "train/extr_reward_mean": 1.0288849472999573, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.53743274782745, "train/image_loss_mean": 1.8646572996193254, "train/image_loss_std": 1.605445940729598, "train/model_loss_mean": 4.759415465341488, "train/model_loss_std": 5.367649400737924, "train/model_opt_grad_norm": 12.310657205715986, "train/model_opt_grad_steps": 104250.0, "train/model_opt_loss": 4.759415465341488, "train/policy_entropy_mag": 2.173663666550542, "train/policy_entropy_max": 2.173663666550542, "train/policy_entropy_mean": 1.1853850148093532, "train/policy_entropy_min": 0.06985607155611817, "train/policy_entropy_std": 0.6155016355111566, "train/policy_logprob_mag": 6.795605216227787, "train/policy_logprob_max": -0.009009434631697729, "train/policy_logprob_mean": -1.1861355481013445, "train/policy_logprob_min": -6.795605216227787, "train/policy_logprob_std": 1.0993815375045992, "train/policy_randomness_mag": 0.9892769623810137, "train/policy_randomness_max": 0.9892769623810137, "train/policy_randomness_mean": 0.5394919665766434, "train/policy_randomness_min": 0.031792868033681115, "train/policy_randomness_std": 0.28012686485136057, "train/post_ent_mag": 57.9479873012489, "train/post_ent_max": 57.9479873012489, "train/post_ent_mean": 38.68936619288485, "train/post_ent_min": 21.910468571622605, "train/post_ent_std": 5.347313692871953, "train/prior_ent_mag": 78.68669762409908, "train/prior_ent_max": 78.68669762409908, "train/prior_ent_mean": 43.40427511510715, "train/prior_ent_min": 24.639217322980855, "train/prior_ent_std": 8.061474128508232, "train/rep_loss_mean": 4.703709823984496, "train/rep_loss_std": 6.736933970115554, "train/reward_avg": 1.3139579665492958, "train/reward_loss_mean": 0.07231250389570922, "train/reward_loss_std": 0.27083905838744743, "train/reward_max_data": 191.83098591549296, "train/reward_max_pred": 155.7729319720201, "train/reward_neg_acc": 0.9689984229249013, "train/reward_neg_loss": 0.009065874186541202, "train/reward_pos_acc": 0.9940817112654028, "train/reward_pos_loss": 0.6662482913111297, "train/reward_pred": 1.1796362185981912, "train/reward_rate": 0.09711982834507042, "train_stats/mean_log_entropy": 1.164162516593933, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.041740109845705e-07, "report/cont_loss_std": 1.154664914793102e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.041740109845705e-07, "report/cont_pred": 0.9999995231628418, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.677680492401123, "report/dyn_loss_std": 6.744862079620361, "report/image_loss_mean": 1.714836835861206, "report/image_loss_std": 1.2999123334884644, "report/model_loss_mean": 4.574440956115723, "report/model_loss_std": 5.015698432922363, "report/post_ent_mag": 51.33877944946289, "report/post_ent_max": 51.33877944946289, "report/post_ent_mean": 39.0628776550293, "report/post_ent_min": 24.967079162597656, "report/post_ent_std": 4.459446907043457, "report/prior_ent_mag": 78.67991638183594, "report/prior_ent_max": 78.67991638183594, "report/prior_ent_mean": 43.997154235839844, "report/prior_ent_min": 27.965944290161133, "report/prior_ent_std": 7.143856525421143, "report/rep_loss_mean": 4.677680492401123, "report/rep_loss_std": 6.744862079620361, "report/reward_avg": 1.025390625, "report/reward_loss_mean": 0.05299515277147293, "report/reward_loss_std": 0.22298641502857208, "report/reward_max_data": 200.0, "report/reward_max_pred": 196.9913330078125, "report/reward_neg_acc": 0.9788583517074585, "report/reward_neg_loss": 0.00275531061924994, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.662314236164093, "report/reward_pred": 0.9166669845581055, "report/reward_rate": 0.076171875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.011385656893253326, "eval/cont_loss_std": 0.2508968412876129, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 3.775859832763672, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00032451876904815435, "eval/cont_pred": 0.9990119934082031, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.888093948364258, "eval/dyn_loss_std": 10.685603141784668, "eval/image_loss_mean": 4.219693183898926, "eval/image_loss_std": 3.664391040802002, "eval/model_loss_mean": 11.72158432006836, "eval/model_loss_std": 9.851014137268066, "eval/post_ent_mag": 57.75543975830078, "eval/post_ent_max": 57.75543975830078, "eval/post_ent_mean": 40.46089172363281, "eval/post_ent_min": 21.681028366088867, "eval/post_ent_std": 6.938720226287842, "eval/prior_ent_mag": 78.67991638183594, "eval/prior_ent_max": 78.67991638183594, "eval/prior_ent_mean": 47.61857223510742, "eval/prior_ent_min": 24.633329391479492, "eval/prior_ent_std": 10.674163818359375, "eval/rep_loss_mean": 11.888093948364258, "eval/rep_loss_std": 10.685603141784668, "eval/reward_avg": 1.357421875, "eval/reward_loss_mean": 0.3576489984989166, "eval/reward_loss_std": 1.9314695596694946, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 11.98079776763916, "eval/reward_neg_acc": 0.9269067645072937, "eval/reward_neg_loss": 0.032086629420518875, "eval/reward_pos_acc": 0.675000011920929, "eval/reward_pos_loss": 4.19928503036499, "eval/reward_pred": 0.547307014465332, "eval/reward_rate": 0.078125, "replay/size": 105642.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.9601305579604885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.382740104899687e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.205371856689453e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3326416015625, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8604743480682373, "timer/env.step_frac": 0.009524353839177751, "timer/env.step_avg": 0.0040062665939331055, "timer/env.step_min": 0.0024399757385253906, "timer/env.step_max": 0.020786046981811523, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 179.10470032691956, "timer/replay._sample_frac": 0.5963544267843172, "timer/replay._sample_avg": 0.015677932451586097, "timer/replay._sample_min": 0.00855708122253418, "timer/replay._sample_max": 0.03324484825134277, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.39379501342773, "timer/agent.policy_frac": 0.6639098366069524, "timer/agent.policy_avg": 0.2792630182260893, "timer/agent.policy_min": 0.0033707618713378906, "timer/agent.policy_max": 0.32121801376342773, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09260225296020508, "timer/dataset_train_frac": 0.00030833229603812503, "timer/dataset_train_avg": 0.00012969503215714997, "timer/dataset_train_min": 7.128715515136719e-05, "timer/dataset_train_max": 0.00025200843811035156, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.9570689201355, "timer/agent.train_frac": 0.32283227158759514, "timer/agent.train_avg": 0.13579421417385923, "timer/agent.train_min": 0.09711694717407227, "timer/agent.train_max": 0.42870140075683594, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5045924186706543, "timer/agent.report_frac": 0.0016801118119557376, "timer/agent.report_avg": 0.25229620933532715, "timer/agent.report_min": 0.10431385040283203, "timer/agent.report_max": 0.40027856826782227, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.152557373046875e-05, "timer/dataset_eval_frac": 2.381545121071403e-07, "timer/dataset_eval_avg": 7.152557373046875e-05, "timer/dataset_eval_min": 7.152557373046875e-05, "timer/dataset_eval_max": 7.152557373046875e-05, "fps": 9.509084231023072}
+{"step": 425216, "episode/length": 931.0, "episode/score": 1520.0, "episode/reward_rate": 0.09120171673819742}
+{"step": 425676, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.764365612621039, "train/action_min": 0.0, "train/action_std": 2.8524765800422345, "train/actor_opt_grad_norm": 0.007634656943223426, "train/actor_opt_grad_steps": 104960.0, "train/actor_opt_loss": 0.0010547538732155349, "train/adv_mag": 0.572680974510354, "train/adv_max": 0.5329031406993597, "train/adv_mean": 0.002090611936861459, "train/adv_min": -0.43706107286500256, "train/adv_std": 0.03301226371295855, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.00025198852559319215, "train/cont_loss_std": 0.007036768241979505, "train/cont_neg_acc": 0.9666666670279069, "train/cont_neg_loss": 0.12619600064142975, "train/cont_pos_acc": 0.9999724089259833, "train/cont_pos_loss": 9.040976494752415e-05, "train/cont_pred": 0.9986978828067511, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.822406829242975, "train/dyn_loss_std": 6.747170374427043, "train/extr_critic_critic_opt_grad_norm": 2.2084159196262627, "train/extr_critic_critic_opt_grad_steps": 104960.0, "train/extr_critic_critic_opt_loss": 1.5080543336733965, "train/extr_critic_mag": 474.34702354753523, "train/extr_critic_max": 474.34702354753523, "train/extr_critic_mean": 188.26369239914584, "train/extr_critic_min": 0.03059869584902911, "train/extr_critic_std": 147.93567163171903, "train/extr_return_normed_mag": 1.1715748175768785, "train/extr_return_normed_max": 1.1715748175768785, "train/extr_return_normed_mean": 0.4335128423613562, "train/extr_return_normed_min": -0.009747083620233854, "train/extr_return_normed_std": 0.34816106692166393, "train/extr_return_rate": 0.9399400756392681, "train/extr_return_raw_mag": 504.0003623425121, "train/extr_return_raw_max": 504.0003623425121, "train/extr_return_raw_mean": 189.1563172676194, "train/extr_return_raw_min": 0.06349903193932079, "train/extr_return_raw_std": 148.51213750704912, "train/extr_reward_mag": 178.70674310603613, "train/extr_reward_max": 178.70674310603613, "train/extr_reward_mean": 1.0133187955533955, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.545765537611196, "train/image_loss_mean": 1.8798511464830856, "train/image_loss_std": 1.6091347764915145, "train/model_loss_mean": 4.845412912503095, "train/model_loss_std": 5.376951996709259, "train/model_opt_grad_norm": 12.886289999518596, "train/model_opt_grad_steps": 104960.0, "train/model_opt_loss": 4.845412912503095, "train/policy_entropy_mag": 2.17599528272387, "train/policy_entropy_max": 2.17599528272387, "train/policy_entropy_mean": 1.1936524090632585, "train/policy_entropy_min": 0.06997395285838087, "train/policy_entropy_std": 0.6164167506594054, "train/policy_logprob_mag": 6.797027346114038, "train/policy_logprob_max": -0.009027195163071156, "train/policy_logprob_mean": -1.194660699703324, "train/policy_logprob_min": -6.797027346114038, "train/policy_logprob_std": 1.0993503416088266, "train/policy_randomness_mag": 0.9903381223409948, "train/policy_randomness_max": 0.9903381223409948, "train/policy_randomness_mean": 0.5432546226911141, "train/policy_randomness_min": 0.03184651809049324, "train/policy_randomness_std": 0.2805433518869776, "train/post_ent_mag": 57.582382363332826, "train/post_ent_max": 57.582382363332826, "train/post_ent_mean": 38.716954781975545, "train/post_ent_min": 22.052349305488693, "train/post_ent_std": 5.443439416482415, "train/prior_ent_mag": 78.6904027159785, "train/prior_ent_max": 78.6904027159785, "train/prior_ent_mean": 43.48427657006492, "train/prior_ent_min": 24.759241910047933, "train/prior_ent_std": 8.122970204957774, "train/rep_loss_mean": 4.822406829242975, "train/rep_loss_std": 6.747170374427043, "train/reward_avg": 1.3046049735915493, "train/reward_loss_mean": 0.07186564404360006, "train/reward_loss_std": 0.25989468626573053, "train/reward_max_data": 184.08450704225353, "train/reward_max_pred": 155.73805473220182, "train/reward_neg_acc": 0.9670355706147744, "train/reward_neg_loss": 0.01034948099765297, "train/reward_pos_acc": 0.9946168602352411, "train/reward_pos_loss": 0.6568862384473774, "train/reward_pred": 1.1713686900239595, "train/reward_rate": 0.09520796654929578, "train_stats/mean_log_entropy": 1.2211915254592896, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.2096164937247522e-05, "report/cont_loss_std": 0.00037074866122566164, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 4.0445698687108234e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.20684517241898e-05, "report/cont_pred": 0.9990115165710449, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.803764343261719, "report/dyn_loss_std": 6.654322147369385, "report/image_loss_mean": 1.9022268056869507, "report/image_loss_std": 1.5869439840316772, "report/model_loss_mean": 4.831838607788086, "report/model_loss_std": 5.385636806488037, "report/post_ent_mag": 57.723026275634766, "report/post_ent_max": 57.723026275634766, "report/post_ent_mean": 38.58806610107422, "report/post_ent_min": 22.21272850036621, "report/post_ent_std": 5.638649940490723, "report/prior_ent_mag": 78.8681411743164, "report/prior_ent_max": 78.8681411743164, "report/prior_ent_mean": 44.008216857910156, "report/prior_ent_min": 22.917774200439453, "report/prior_ent_std": 8.553961753845215, "report/rep_loss_mean": 4.803764343261719, "report/rep_loss_std": 6.654322147369385, "report/reward_avg": 1.748046875, "report/reward_loss_mean": 0.047341153025627136, "report/reward_loss_std": 0.1663360446691513, "report/reward_max_data": 400.0, "report/reward_max_pred": 398.83526611328125, "report/reward_neg_acc": 0.9726027846336365, "report/reward_neg_loss": 0.0051828413270413876, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.580784261226654, "report/reward_pred": 1.5303454399108887, "report/reward_rate": 0.0732421875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 7.098211790435016e-05, "eval/cont_loss_std": 0.0020748854149132967, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.002774633467197418, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 6.833924999227747e-05, "eval/cont_pred": 0.9989599585533142, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 15.844165802001953, "eval/dyn_loss_std": 8.798568725585938, "eval/image_loss_mean": 6.511260032653809, "eval/image_loss_std": 4.185088634490967, "eval/model_loss_mean": 16.786659240722656, "eval/model_loss_std": 8.741716384887695, "eval/post_ent_mag": 57.68269348144531, "eval/post_ent_max": 57.68269348144531, "eval/post_ent_mean": 43.05546569824219, "eval/post_ent_min": 25.014278411865234, "eval/post_ent_std": 4.66955041885376, "eval/prior_ent_mag": 78.8681411743164, "eval/prior_ent_max": 78.8681411743164, "eval/prior_ent_mean": 51.8896369934082, "eval/prior_ent_min": 26.348722457885742, "eval/prior_ent_std": 6.543088912963867, "eval/rep_loss_mean": 15.844165802001953, "eval/rep_loss_std": 8.798568725585938, "eval/reward_avg": 1.42578125, "eval/reward_loss_mean": 0.7688289880752563, "eval/reward_loss_std": 2.4066970348358154, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 32.79444122314453, "eval/reward_neg_acc": 0.8455641269683838, "eval/reward_neg_loss": 0.20494909584522247, "eval/reward_pos_acc": 0.477477490901947, "eval/reward_pos_loss": 5.406867980957031, "eval/reward_pred": 0.6530443429946899, "eval/reward_rate": 0.1083984375, "replay/size": 106356.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.709690874030276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3808618072702103e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9371509552001953e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.30114936828613, "timer/env.step_count": 714.0, "timer/env.step_total": 2.819471597671509, "timer/env.step_frac": 0.009388813874347642, "timer/env.step_avg": 0.003948839772649172, "timer/env.step_min": 0.0021190643310546875, "timer/env.step_max": 0.019896984100341797, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 178.52696323394775, "timer/replay._sample_frac": 0.5944931067013806, "timer/replay._sample_avg": 0.01562736022706125, "timer/replay._sample_min": 0.008005619049072266, "timer/replay._sample_max": 0.0364687442779541, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.64194512367249, "timer/agent.policy_frac": 0.6648057975923153, "timer/agent.policy_avg": 0.27961056740010154, "timer/agent.policy_min": 0.0033452510833740234, "timer/agent.policy_max": 0.31905150413513184, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09214138984680176, "timer/dataset_train_frac": 0.00030682996065992585, "timer/dataset_train_avg": 0.00012904956561176717, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.0003731250762939453, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.72501277923584, "timer/agent.train_frac": 0.3220933818691893, "timer/agent.train_avg": 0.13546920557315945, "timer/agent.train_min": 0.09778356552124023, "timer/agent.train_max": 0.42842888832092285, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49733638763427734, "timer/agent.report_frac": 0.001656125488298912, "timer/agent.report_avg": 0.24866819381713867, "timer/agent.report_min": 0.09840536117553711, "timer/agent.report_max": 0.39893102645874023, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.2438507080078125e-05, "timer/dataset_eval_frac": 1.4131982900948538e-07, "timer/dataset_eval_avg": 4.2438507080078125e-05, "timer/dataset_eval_min": 4.2438507080078125e-05, "timer/dataset_eval_max": 4.2438507080078125e-05, "fps": 9.510080923029685}
+{"step": 428528, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.5460154215494795, "train/action_min": 0.0, "train/action_std": 2.850315352280935, "train/actor_opt_grad_norm": 0.0076842510122029735, "train/actor_opt_grad_steps": 105675.0, "train/actor_opt_loss": 0.001143868463865753, "train/adv_mag": 0.5945158288296726, "train/adv_max": 0.5627365884267621, "train/adv_mean": 0.002030019206055537, "train/adv_min": -0.39356877903143567, "train/adv_std": 0.032328544857187405, "train/cont_avg": 0.99853515625, "train/cont_loss_mean": 0.00022281439575197768, "train/cont_loss_std": 0.006277288442021837, "train/cont_neg_acc": 0.978448275862069, "train/cont_neg_loss": 0.08243612605718026, "train/cont_pos_acc": 0.999972816142771, "train/cont_pos_loss": 9.394679412372881e-05, "train/cont_pred": 0.9985344799028503, "train/cont_rate": 0.99853515625, "train/dyn_loss_mean": 4.800853494140837, "train/dyn_loss_std": 6.776683350404103, "train/extr_critic_critic_opt_grad_norm": 2.238996590177218, "train/extr_critic_critic_opt_grad_steps": 105675.0, "train/extr_critic_critic_opt_loss": 1.5345159586932924, "train/extr_critic_mag": 467.38465118408203, "train/extr_critic_max": 467.38465118408203, "train/extr_critic_mean": 184.86093150244818, "train/extr_critic_min": 0.07529592514038086, "train/extr_critic_std": 148.61086336771646, "train/extr_return_normed_mag": 1.1880752775404189, "train/extr_return_normed_max": 1.1880752775404189, "train/extr_return_normed_mean": 0.42658116130365265, "train/extr_return_normed_min": -0.009986187860098047, "train/extr_return_normed_std": 0.35070102827416527, "train/extr_return_rate": 0.926288569966952, "train/extr_return_raw_mag": 509.56551954481336, "train/extr_return_raw_max": 509.56551954481336, "train/extr_return_raw_mean": 185.72455056508383, "train/extr_return_raw_min": 0.06027035942032752, "train/extr_return_raw_std": 149.15440686543783, "train/extr_reward_mag": 186.47233215967813, "train/extr_reward_max": 186.47233215967813, "train/extr_reward_mean": 1.0236841258075502, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.601006401909722, "train/image_loss_mean": 1.8755874517891142, "train/image_loss_std": 1.6362102412515216, "train/model_loss_mean": 4.8263846933841705, "train/model_loss_std": 5.431821591324276, "train/model_opt_grad_norm": 11.718483050664267, "train/model_opt_grad_steps": 105675.0, "train/model_opt_loss": 4.8263846933841705, "train/policy_entropy_mag": 2.1789079341623516, "train/policy_entropy_max": 2.1789079341623516, "train/policy_entropy_mean": 1.2118059198061626, "train/policy_entropy_min": 0.06997071899887589, "train/policy_entropy_std": 0.6207475869192017, "train/policy_logprob_mag": 6.794564141167535, "train/policy_logprob_max": -0.009027113232554661, "train/policy_logprob_mean": -1.2123019446929295, "train/policy_logprob_min": -6.794564141167535, "train/policy_logprob_std": 1.092871207329962, "train/policy_randomness_mag": 0.99166372915109, "train/policy_randomness_max": 0.99166372915109, "train/policy_randomness_mean": 0.5515166458984216, "train/policy_randomness_min": 0.03184504646600948, "train/policy_randomness_std": 0.28251439788275295, "train/post_ent_mag": 58.509052170647514, "train/post_ent_max": 58.509052170647514, "train/post_ent_mean": 38.63267861472236, "train/post_ent_min": 21.595918258031208, "train/post_ent_std": 5.487348778380288, "train/prior_ent_mag": 78.83272563086615, "train/prior_ent_max": 78.83272563086615, "train/prior_ent_mean": 43.45808055665758, "train/prior_ent_min": 24.330156326293945, "train/prior_ent_std": 8.23568136162228, "train/rep_loss_mean": 4.800853494140837, "train/rep_loss_std": 6.776683350404103, "train/reward_avg": 1.2982855902777777, "train/reward_loss_mean": 0.07006232885436879, "train/reward_loss_std": 0.2568646270988716, "train/reward_max_data": 185.55555555555554, "train/reward_max_pred": 163.47738615671793, "train/reward_neg_acc": 0.9684027805924416, "train/reward_neg_loss": 0.009488074818768332, "train/reward_pos_acc": 0.9954129151172109, "train/reward_pos_loss": 0.6525478661060333, "train/reward_pred": 1.1801134058170848, "train/reward_rate": 0.09415690104166667, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 2.7273260911897523e-06, "report/cont_loss_std": 4.380903556011617e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00012391043128445745, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.490177166691865e-06, "report/cont_pred": 0.9980446100234985, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.460832595825195, "report/dyn_loss_std": 6.928523540496826, "report/image_loss_mean": 1.7858515977859497, "report/image_loss_std": 1.7607260942459106, "report/model_loss_mean": 4.517099380493164, "report/model_loss_std": 5.67380428314209, "report/post_ent_mag": 60.31549835205078, "report/post_ent_max": 60.31549835205078, "report/post_ent_mean": 37.99858093261719, "report/post_ent_min": 21.637794494628906, "report/post_ent_std": 6.08620548248291, "report/prior_ent_mag": 78.77101135253906, "report/prior_ent_max": 78.77101135253906, "report/prior_ent_mean": 42.649757385253906, "report/prior_ent_min": 24.286901473999023, "report/prior_ent_std": 8.935018539428711, "report/rep_loss_mean": 4.460832595825195, "report/rep_loss_std": 6.928523540496826, "report/reward_avg": 0.83984375, "report/reward_loss_mean": 0.05474524199962616, "report/reward_loss_std": 0.23845863342285156, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.980350494384766, "report/reward_neg_acc": 0.9778012633323669, "report/reward_neg_loss": 0.0045296442694962025, "report/reward_pos_acc": 0.9871795177459717, "report/reward_pos_loss": 0.663770318031311, "report/reward_pred": 0.7872834801673889, "report/reward_rate": 0.076171875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.005115286912769079, "eval/cont_loss_std": 0.16360749304294586, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.2379984855651855, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.399119729077029e-08, "eval/cont_pred": 0.9999947547912598, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.291741371154785, "eval/dyn_loss_std": 9.864081382751465, "eval/image_loss_mean": 5.182312488555908, "eval/image_loss_std": 3.6259377002716064, "eval/model_loss_mean": 13.407821655273438, "eval/model_loss_std": 9.413694381713867, "eval/post_ent_mag": 59.89530944824219, "eval/post_ent_max": 59.89530944824219, "eval/post_ent_mean": 41.51759338378906, "eval/post_ent_min": 21.60948371887207, "eval/post_ent_std": 5.876096725463867, "eval/prior_ent_mag": 78.77101135253906, "eval/prior_ent_max": 78.77101135253906, "eval/prior_ent_mean": 48.18186569213867, "eval/prior_ent_min": 24.741634368896484, "eval/prior_ent_std": 8.241931915283203, "eval/rep_loss_mean": 12.291741371154785, "eval/rep_loss_std": 9.864081382751465, "eval/reward_avg": 1.591796875, "eval/reward_loss_mean": 0.8453490734100342, "eval/reward_loss_std": 3.013387680053711, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 48.99947738647461, "eval/reward_neg_acc": 0.875, "eval/reward_neg_loss": 0.17581555247306824, "eval/reward_pos_acc": 0.4732142984867096, "eval/reward_pos_loss": 6.29726505279541, "eval/reward_pred": 0.8414344191551208, "eval/reward_rate": 0.109375, "replay/size": 107069.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.834400235854225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3798517063991552e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7136335372924805e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1059057712555, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8425352573394775, "timer/env.step_frac": 0.00947177380609795, "timer/env.step_avg": 0.003986725466114274, "timer/env.step_min": 0.002457141876220703, "timer/env.step_max": 0.006436347961425781, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.64693188667297, "timer/replay._sample_frac": 0.5919474707774585, "timer/replay._sample_avg": 0.015572136385577926, "timer/replay._sample_min": 0.00792074203491211, "timer/replay._sample_max": 0.054235219955444336, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1636338233947754, "timer/agent.save_frac": 0.0005452535929749385, "timer/agent.save_avg": 0.1636338233947754, "timer/agent.save_min": 0.1636338233947754, "timer/agent.save_max": 0.1636338233947754, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.06478214263916, "timer/agent.policy_frac": 0.6633151108141432, "timer/agent.policy_avg": 0.2791932428368011, "timer/agent.policy_min": 0.003008127212524414, "timer/agent.policy_max": 0.3543548583984375, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09166789054870605, "timer/dataset_train_frac": 0.00030545180479912474, "timer/dataset_train_avg": 0.00012856646640772238, "timer/dataset_train_min": 7.152557373046875e-05, "timer/dataset_train_max": 0.0010828971862792969, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.08401989936829, "timer/agent.train_frac": 0.32349919822426604, "timer/agent.train_avg": 0.13616272075647726, "timer/agent.train_min": 0.09733223915100098, "timer/agent.train_max": 0.42877864837646484, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.502373218536377, "timer/agent.report_frac": 0.0016739864457025785, "timer/agent.report_avg": 0.2511866092681885, "timer/agent.report_min": 0.10355019569396973, "timer/agent.report_max": 0.3988230228424072, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.822845458984375e-05, "timer/dataset_eval_frac": 3.2731263430955175e-07, "timer/dataset_eval_avg": 9.822845458984375e-05, "timer/dataset_eval_min": 9.822845458984375e-05, "timer/dataset_eval_max": 9.822845458984375e-05, "fps": 9.502991045944563}
+{"step": 428900, "episode/length": 920.0, "episode/score": 1540.0, "episode/reward_rate": 0.11292073832790445}
+{"step": 431308, "episode/length": 601.0, "episode/score": 770.0, "episode/reward_rate": 0.1212624584717608}
+{"step": 431384, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.597920162577025, "train/action_min": 0.0, "train/action_std": 2.8771746460820586, "train/actor_opt_grad_norm": 0.00769813500449691, "train/actor_opt_grad_steps": 106390.0, "train/actor_opt_loss": 0.0006937034253445437, "train/adv_mag": 0.6135019718761175, "train/adv_max": 0.5827384293079376, "train/adv_mean": 0.0018085543695531053, "train/adv_min": -0.4180306460655911, "train/adv_std": 0.03417635328647956, "train/cont_avg": 0.998473261443662, "train/cont_loss_mean": 0.00010218402961141473, "train/cont_loss_std": 0.0027660843944611025, "train/cont_neg_acc": 0.9856321842506014, "train/cont_neg_loss": 0.020539571052456174, "train/cont_pos_acc": 0.9999862170555223, "train/cont_pos_loss": 6.171250289621466e-05, "train/cont_pred": 0.9984478505564408, "train/cont_rate": 0.998473261443662, "train/dyn_loss_mean": 4.746243392917472, "train/dyn_loss_std": 6.719468546585298, "train/extr_critic_critic_opt_grad_norm": 2.169562087932103, "train/extr_critic_critic_opt_grad_steps": 106390.0, "train/extr_critic_critic_opt_loss": 1.502899235403034, "train/extr_critic_mag": 477.93547810299293, "train/extr_critic_max": 477.93547810299293, "train/extr_critic_mean": 189.6213081252407, "train/extr_critic_min": 0.16967393478877107, "train/extr_critic_std": 147.17102308676277, "train/extr_return_normed_mag": 1.2170363815737442, "train/extr_return_normed_max": 1.2170363815737442, "train/extr_return_normed_mean": 0.4353757450278376, "train/extr_return_normed_min": -0.010724479916282522, "train/extr_return_normed_std": 0.3469064474945337, "train/extr_return_rate": 0.9332526855065789, "train/extr_return_raw_mag": 523.7167809714733, "train/extr_return_raw_max": 523.7167809714733, "train/extr_return_raw_mean": 190.3927814322458, "train/extr_return_raw_min": 0.1892629287641784, "train/extr_return_raw_std": 147.92819751148494, "train/extr_reward_mag": 207.2165225660297, "train/extr_reward_max": 207.2165225660297, "train/extr_reward_mean": 1.0269956059858834, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.888717204752103, "train/image_loss_mean": 1.8474850134110787, "train/image_loss_std": 1.5824037840668583, "train/model_loss_mean": 4.765071281245057, "train/model_loss_std": 5.340184749012262, "train/model_opt_grad_norm": 11.890263557434082, "train/model_opt_grad_steps": 106390.0, "train/model_opt_loss": 4.765071281245057, "train/policy_entropy_mag": 2.1772134807747854, "train/policy_entropy_max": 2.1772134807747854, "train/policy_entropy_mean": 1.1846173137006626, "train/policy_entropy_min": 0.06978910962040995, "train/policy_entropy_std": 0.6170170894810851, "train/policy_logprob_mag": 6.796008009306142, "train/policy_logprob_max": -0.008999499230002853, "train/policy_logprob_mean": -1.1840755511337602, "train/policy_logprob_min": -6.796008009306142, "train/policy_logprob_std": 1.098225776578339, "train/policy_randomness_mag": 0.9908925487961567, "train/policy_randomness_max": 0.9908925487961567, "train/policy_randomness_mean": 0.5391425754822475, "train/policy_randomness_min": 0.03176239201090705, "train/policy_randomness_std": 0.2808165753811178, "train/post_ent_mag": 59.33969497680664, "train/post_ent_max": 59.33969497680664, "train/post_ent_mean": 38.51454764352718, "train/post_ent_min": 21.574394602171132, "train/post_ent_std": 5.53475588811955, "train/prior_ent_mag": 78.77625038254429, "train/prior_ent_max": 78.77625038254429, "train/prior_ent_mean": 43.3200007156587, "train/prior_ent_min": 24.048396553791743, "train/prior_ent_std": 8.292652029386709, "train/rep_loss_mean": 4.746243392917472, "train/rep_loss_std": 6.719468546585298, "train/reward_avg": 1.3814920774647887, "train/reward_loss_mean": 0.06973806254460778, "train/reward_loss_std": 0.25350008495676685, "train/reward_max_data": 219.57746478873239, "train/reward_max_pred": 181.74353404783866, "train/reward_neg_acc": 0.9686089728919554, "train/reward_neg_loss": 0.008822761692474005, "train/reward_pos_acc": 0.9946229659335714, "train/reward_pos_loss": 0.6480739343334252, "train/reward_pred": 1.221880084192249, "train/reward_rate": 0.09476782570422536, "train_stats/mean_log_entropy": 0.9015358686447144, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 9.244017746823374e-07, "report/cont_loss_std": 1.3124060387781356e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00012969675299245864, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.724010859215923e-07, "report/cont_pred": 0.9980464577674866, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.024989128112793, "report/dyn_loss_std": 6.3370137214660645, "report/image_loss_mean": 1.5626673698425293, "report/image_loss_std": 1.6071233749389648, "report/model_loss_mean": 4.027765274047852, "report/model_loss_std": 5.092407703399658, "report/post_ent_mag": 57.30952453613281, "report/post_ent_max": 57.30952453613281, "report/post_ent_mean": 36.60049819946289, "report/post_ent_min": 19.729774475097656, "report/post_ent_std": 6.476190090179443, "report/prior_ent_mag": 78.73851013183594, "report/prior_ent_max": 78.73851013183594, "report/prior_ent_mean": 40.913780212402344, "report/prior_ent_min": 23.621864318847656, "report/prior_ent_std": 9.850420951843262, "report/rep_loss_mean": 4.024989128112793, "report/rep_loss_std": 6.3370137214660645, "report/reward_avg": 1.15234375, "report/reward_loss_mean": 0.05010294169187546, "report/reward_loss_std": 0.1744617074728012, "report/reward_max_data": 400.0, "report/reward_max_pred": 332.1186828613281, "report/reward_neg_acc": 0.9777777791023254, "report/reward_neg_loss": 0.004280166234821081, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.598236083984375, "report/reward_pred": 1.0414592027664185, "report/reward_rate": 0.0771484375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0001889096893137321, "eval/cont_loss_std": 0.005833011120557785, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0019262710120528936, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00018550976528786123, "eval/cont_pred": 0.9978815317153931, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 14.598925590515137, "eval/dyn_loss_std": 10.134760856628418, "eval/image_loss_mean": 5.773783206939697, "eval/image_loss_std": 4.791172504425049, "eval/model_loss_mean": 15.25644302368164, "eval/model_loss_std": 10.662408828735352, "eval/post_ent_mag": 59.05057907104492, "eval/post_ent_max": 59.05057907104492, "eval/post_ent_mean": 40.3170280456543, "eval/post_ent_min": 23.397287368774414, "eval/post_ent_std": 6.8855509757995605, "eval/prior_ent_mag": 78.73851013183594, "eval/prior_ent_max": 78.73851013183594, "eval/prior_ent_mean": 48.16363525390625, "eval/prior_ent_min": 24.429187774658203, "eval/prior_ent_std": 10.021089553833008, "eval/rep_loss_mean": 14.598925590515137, "eval/rep_loss_std": 10.134760856628418, "eval/reward_avg": 1.396484375, "eval/reward_loss_mean": 0.7231160402297974, "eval/reward_loss_std": 2.3904056549072266, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 45.00645065307617, "eval/reward_neg_acc": 0.8749999403953552, "eval/reward_neg_loss": 0.13472361862659454, "eval/reward_pos_acc": 0.4326923191547394, "eval/reward_pos_loss": 5.928126811981201, "eval/reward_pred": 0.5863330364227295, "eval/reward_rate": 0.1015625, "replay/size": 107783.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.845930062088312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.367025014733066e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2870681285858, "timer/env.step_count": 714.0, "timer/env.step_total": 2.860844135284424, "timer/env.step_frac": 0.009527030761309318, "timer/env.step_avg": 0.004006784503199473, "timer/env.step_min": 0.0023415088653564453, "timer/env.step_max": 0.022589683532714844, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 176.5001618862152, "timer/replay._sample_frac": 0.5877714381314487, "timer/replay._sample_avg": 0.015449944142700912, "timer/replay._sample_min": 0.0074672698974609375, "timer/replay._sample_max": 0.03445601463317871, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.47358107566833, "timer/agent.policy_frac": 0.6642762950759232, "timer/agent.policy_avg": 0.2793747634113002, "timer/agent.policy_min": 0.0034017562866210938, "timer/agent.policy_max": 0.3188354969024658, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09012103080749512, "timer/dataset_train_frac": 0.0003001162566511337, "timer/dataset_train_avg": 0.00012621993110293434, "timer/dataset_train_min": 7.343292236328125e-05, "timer/dataset_train_max": 0.0004899501800537109, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.81523633003235, "timer/agent.train_frac": 0.322408943326774, "timer/agent.train_avg": 0.13559556908968115, "timer/agent.train_min": 0.09741353988647461, "timer/agent.train_max": 0.42813992500305176, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5080676078796387, "timer/agent.report_frac": 0.0016919396864006119, "timer/agent.report_avg": 0.25403380393981934, "timer/agent.report_min": 0.1033468246459961, "timer/agent.report_max": 0.4047207832336426, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.0001266002655029297, "timer/dataset_eval_frac": 4.215974610292516e-07, "timer/dataset_eval_avg": 0.0001266002655029297, "timer/dataset_eval_min": 0.0001266002655029297, "timer/dataset_eval_max": 0.0001266002655029297, "fps": 9.510615904968544}
+{"step": 434240, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.593174404568142, "train/action_min": 0.0, "train/action_std": 2.863956765996085, "train/actor_opt_grad_norm": 0.007223220930124323, "train/actor_opt_grad_steps": 107105.0, "train/actor_opt_loss": 0.0005743320624181555, "train/adv_mag": 0.5872122587429153, "train/adv_max": 0.5549977976414893, "train/adv_mean": 0.0016665677549793953, "train/adv_min": -0.43105886855887043, "train/adv_std": 0.03304297932320171, "train/cont_avg": 0.9986029730902778, "train/cont_loss_mean": 0.00022268184541515072, "train/cont_loss_std": 0.005973489830542762, "train/cont_neg_acc": 0.9721153848446332, "train/cont_neg_loss": 0.055537554147056176, "train/cont_pos_acc": 0.9999591973092821, "train/cont_pos_loss": 0.00012115829079277341, "train/cont_pred": 0.9985909511645635, "train/cont_rate": 0.9986029730902778, "train/dyn_loss_mean": 4.753835959566964, "train/dyn_loss_std": 6.678139289220174, "train/extr_critic_critic_opt_grad_norm": 2.1910389446549945, "train/extr_critic_critic_opt_grad_steps": 107105.0, "train/extr_critic_critic_opt_loss": 1.5337799323929682, "train/extr_critic_mag": 476.5477002461751, "train/extr_critic_max": 476.5477002461751, "train/extr_critic_mean": 186.6730785369873, "train/extr_critic_min": 0.09563654495610131, "train/extr_critic_std": 150.36065260569254, "train/extr_return_normed_mag": 1.18807602673769, "train/extr_return_normed_max": 1.18807602673769, "train/extr_return_normed_mean": 0.4287673748201794, "train/extr_return_normed_min": -0.009351095162047487, "train/extr_return_normed_std": 0.3533175711830457, "train/extr_return_rate": 0.9301505130198267, "train/extr_return_raw_mag": 511.82026926676434, "train/extr_return_raw_max": 511.82026926676434, "train/extr_return_raw_mean": 187.38452996148004, "train/extr_return_raw_min": 0.12981055149612075, "train/extr_return_raw_std": 151.00785382588705, "train/extr_reward_mag": 195.52538579040103, "train/extr_reward_max": 195.52538579040103, "train/extr_reward_mean": 1.0519947177833981, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.727828373511632, "train/image_loss_mean": 1.8520129422346752, "train/image_loss_std": 1.5703836646344926, "train/model_loss_mean": 4.777509980731541, "train/model_loss_std": 5.304844664202796, "train/model_opt_grad_norm": 11.783371342553032, "train/model_opt_grad_steps": 107105.0, "train/model_opt_loss": 4.777509980731541, "train/policy_entropy_mag": 2.1771999531322055, "train/policy_entropy_max": 2.1771999531322055, "train/policy_entropy_mean": 1.1935729367865457, "train/policy_entropy_min": 0.06985736565871371, "train/policy_entropy_std": 0.6273253767026795, "train/policy_logprob_mag": 6.79725663529502, "train/policy_logprob_max": -0.009009987904897166, "train/policy_logprob_mean": -1.1937236669990752, "train/policy_logprob_min": -6.79725663529502, "train/policy_logprob_std": 1.0997996479272842, "train/policy_randomness_mag": 0.990886390209198, "train/policy_randomness_max": 0.990886390209198, "train/policy_randomness_mean": 0.5432184499998888, "train/policy_randomness_min": 0.031793457093752094, "train/policy_randomness_std": 0.2855080840074354, "train/post_ent_mag": 58.440512551201714, "train/post_ent_max": 58.440512551201714, "train/post_ent_mean": 38.60655874676175, "train/post_ent_min": 21.98826922310723, "train/post_ent_std": 5.476458254787657, "train/prior_ent_mag": 78.86387676662869, "train/prior_ent_max": 78.86387676662869, "train/prior_ent_mean": 43.36663738886515, "train/prior_ent_min": 24.497837093141342, "train/prior_ent_std": 8.182358496718937, "train/rep_loss_mean": 4.753835959566964, "train/rep_loss_std": 6.678139289220174, "train/reward_avg": 1.375732421875, "train/reward_loss_mean": 0.07297274516895413, "train/reward_loss_std": 0.25650890523360836, "train/reward_max_data": 206.52777777777777, "train/reward_max_pred": 178.06195098823972, "train/reward_neg_acc": 0.9669853722055753, "train/reward_neg_loss": 0.009775006606812693, "train/reward_pos_acc": 0.9943585255079799, "train/reward_pos_loss": 0.6497948202821944, "train/reward_pred": 1.246430065896776, "train/reward_rate": 0.09871419270833333, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.4206617215961614e-08, "report/cont_loss_std": 3.1098241493054957e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4206617215961614e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.6367597579956055, "report/dyn_loss_std": 6.9138994216918945, "report/image_loss_mean": 1.906731128692627, "report/image_loss_std": 1.4567822217941284, "report/model_loss_mean": 4.7555694580078125, "report/model_loss_std": 5.388464450836182, "report/post_ent_mag": 55.16035842895508, "report/post_ent_max": 55.16035842895508, "report/post_ent_mean": 39.77842712402344, "report/post_ent_min": 23.317886352539062, "report/post_ent_std": 5.59153938293457, "report/prior_ent_mag": 78.93319702148438, "report/prior_ent_max": 78.93319702148438, "report/prior_ent_mean": 44.245513916015625, "report/prior_ent_min": 24.070045471191406, "report/prior_ent_std": 7.8346848487854, "report/rep_loss_mean": 4.6367597579956055, "report/rep_loss_std": 6.9138994216918945, "report/reward_avg": 1.7578125, "report/reward_loss_mean": 0.06678249686956406, "report/reward_loss_std": 0.24432256817817688, "report/reward_max_data": 400.0, "report/reward_max_pred": 369.58575439453125, "report/reward_neg_acc": 0.9658848643302917, "report/reward_neg_loss": 0.007931993342936039, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7086635828018188, "report/reward_pred": 1.60499107837677, "report/reward_rate": 0.083984375, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.012880065478384495, "eval/cont_loss_std": 0.20965136587619781, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 3.129841206828132e-05, "eval/cont_pos_acc": 0.996078372001648, "eval/cont_pos_loss": 0.012930451892316341, "eval/cont_pred": 0.9920288920402527, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 10.219240188598633, "eval/dyn_loss_std": 10.49421501159668, "eval/image_loss_mean": 3.8655457496643066, "eval/image_loss_std": 3.8383028507232666, "eval/model_loss_mean": 10.533785820007324, "eval/model_loss_std": 9.741982460021973, "eval/post_ent_mag": 60.678993225097656, "eval/post_ent_max": 60.678993225097656, "eval/post_ent_mean": 39.586029052734375, "eval/post_ent_min": 21.415756225585938, "eval/post_ent_std": 7.026581764221191, "eval/prior_ent_mag": 78.93319702148438, "eval/prior_ent_max": 78.93319702148438, "eval/prior_ent_mean": 45.37986755371094, "eval/prior_ent_min": 23.0524845123291, "eval/prior_ent_std": 10.368241310119629, "eval/rep_loss_mean": 10.219240188598633, "eval/rep_loss_std": 10.49421501159668, "eval/reward_avg": 1.279296875, "eval/reward_loss_mean": 0.523815929889679, "eval/reward_loss_std": 1.9243061542510986, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 10.006094932556152, "eval/reward_neg_acc": 0.8762542009353638, "eval/reward_neg_loss": 0.17527049779891968, "eval/reward_pos_acc": 0.7244094610214233, "eval/reward_pos_loss": 2.9855899810791016, "eval/reward_pred": 1.002061367034912, "eval/reward_rate": 0.1240234375, "replay/size": 108497.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.816879058752407e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.398830854592203e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.40707445144653, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8617966175079346, "timer/env.step_frac": 0.009526395550882654, "timer/env.step_avg": 0.004008118511915875, "timer/env.step_min": 0.002230405807495117, "timer/env.step_max": 0.008393526077270508, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 180.74949765205383, "timer/replay._sample_frac": 0.6016818944164631, "timer/replay._sample_avg": 0.015821909808478102, "timer/replay._sample_min": 0.007277488708496094, "timer/replay._sample_max": 0.03820967674255371, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.43964624404907, "timer/agent.policy_frac": 0.6638979678099546, "timer/agent.policy_avg": 0.27932723563592304, "timer/agent.policy_min": 0.0034563541412353516, "timer/agent.policy_max": 0.3162240982055664, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.0909891128540039, "timer/dataset_train_frac": 0.00030288605226808687, "timer/dataset_train_avg": 0.00012743573228852088, "timer/dataset_train_min": 7.534027099609375e-05, "timer/dataset_train_max": 0.0010466575622558594, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.28424310684204, "timer/agent.train_frac": 0.32384138517538696, "timer/agent.train_avg": 0.1362524413261093, "timer/agent.train_min": 0.09725570678710938, "timer/agent.train_max": 0.4269874095916748, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20687007904052734, "timer/agent.report_frac": 0.0006886325144581868, "timer/agent.report_avg": 0.10343503952026367, "timer/agent.report_min": 0.10296154022216797, "timer/agent.report_max": 0.10390853881835938, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.771087646484375e-05, "timer/dataset_eval_frac": 2.2539707691134138e-07, "timer/dataset_eval_avg": 6.771087646484375e-05, "timer/dataset_eval_min": 6.771087646484375e-05, "timer/dataset_eval_max": 6.771087646484375e-05, "fps": 9.506761860522536}
+{"step": 434324, "episode/length": 753.0, "episode/score": 1020.0, "episode/reward_rate": 0.1246684350132626}
+{"step": 437032, "episode/length": 676.0, "episode/score": 1550.0, "episode/reward_rate": 0.103397341211226}
+{"step": 437096, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.708497813050176, "train/action_min": 0.0, "train/action_std": 2.872816142901568, "train/actor_opt_grad_norm": 0.008613027287909473, "train/actor_opt_grad_steps": 107820.0, "train/actor_opt_loss": 0.000879548204139469, "train/adv_mag": 0.7105548833037766, "train/adv_max": 0.6568951573170406, "train/adv_mean": 0.0020863350587782227, "train/adv_min": -0.4647277446699814, "train/adv_std": 0.036975827645248094, "train/cont_avg": 0.9986658230633803, "train/cont_loss_mean": 0.00020074220548407364, "train/cont_loss_std": 0.004712600782428031, "train/cont_neg_acc": 0.9833333343267441, "train/cont_neg_loss": 0.0435162427823607, "train/cont_pos_acc": 0.9999724357900485, "train/cont_pos_loss": 9.876203689273015e-05, "train/cont_pred": 0.9986456397553565, "train/cont_rate": 0.9986658230633803, "train/dyn_loss_mean": 4.941084724077037, "train/dyn_loss_std": 6.708619379661452, "train/extr_critic_critic_opt_grad_norm": 2.2190034926777154, "train/extr_critic_critic_opt_grad_steps": 107820.0, "train/extr_critic_critic_opt_loss": 1.5235764107234042, "train/extr_critic_mag": 473.940048862511, "train/extr_critic_max": 473.940048862511, "train/extr_critic_mean": 183.18505257619938, "train/extr_critic_min": 0.11331868003791487, "train/extr_critic_std": 147.64752057572485, "train/extr_return_normed_mag": 1.2886772928103594, "train/extr_return_normed_max": 1.2886772928103594, "train/extr_return_normed_mean": 0.42271765940625905, "train/extr_return_normed_min": -0.00879614381283574, "train/extr_return_normed_std": 0.34910685411641296, "train/extr_return_rate": 0.932532871273202, "train/extr_return_raw_mag": 552.587832168794, "train/extr_return_raw_max": 552.587832168794, "train/extr_return_raw_mean": 184.0731801852374, "train/extr_return_raw_min": 0.42895317652826787, "train/extr_return_raw_std": 148.58256874621753, "train/extr_reward_mag": 199.20144019328373, "train/extr_reward_max": 199.20144019328373, "train/extr_reward_mean": 1.0893280447368892, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.370525168700957, "train/image_loss_mean": 1.8692678381019914, "train/image_loss_std": 1.5858121992836536, "train/model_loss_mean": 4.907292910025153, "train/model_loss_std": 5.331975997333795, "train/model_opt_grad_norm": 12.55632342754955, "train/model_opt_grad_steps": 107820.0, "train/model_opt_loss": 4.907292910025153, "train/policy_entropy_mag": 2.1775309602979203, "train/policy_entropy_max": 2.1775309602979203, "train/policy_entropy_mean": 1.1993537419278857, "train/policy_entropy_min": 0.06963080493077425, "train/policy_entropy_std": 0.616967348145767, "train/policy_logprob_mag": 6.794415272457499, "train/policy_logprob_max": -0.008975647639115932, "train/policy_logprob_mean": -1.199378790150226, "train/policy_logprob_min": -6.794415272457499, "train/policy_logprob_std": 1.1004741779515441, "train/policy_randomness_mag": 0.9910370405291168, "train/policy_randomness_max": 0.9910370405291168, "train/policy_randomness_mean": 0.5458494009266437, "train/policy_randomness_min": 0.03169034468665929, "train/policy_randomness_std": 0.2807939367395052, "train/post_ent_mag": 57.26857365353007, "train/post_ent_max": 57.26857365353007, "train/post_ent_mean": 38.839673861651356, "train/post_ent_min": 21.429602717010066, "train/post_ent_std": 5.538863752929258, "train/prior_ent_mag": 78.7887373373542, "train/prior_ent_max": 78.7887373373542, "train/prior_ent_mean": 43.693801020232726, "train/prior_ent_min": 24.209227817159302, "train/prior_ent_std": 8.1636185175936, "train/rep_loss_mean": 4.941084724077037, "train/rep_loss_std": 6.708619379661452, "train/reward_avg": 1.3897447183098592, "train/reward_loss_mean": 0.0731735165480157, "train/reward_loss_std": 0.257803716290165, "train/reward_max_data": 223.09859154929578, "train/reward_max_pred": 184.34197870442566, "train/reward_neg_acc": 0.9660884964633996, "train/reward_neg_loss": 0.010545688369770495, "train/reward_pos_acc": 0.9955406843776434, "train/reward_pos_loss": 0.6514569890331214, "train/reward_pred": 1.2367052419084898, "train/reward_rate": 0.0976287411971831, "train_stats/mean_log_entropy": 1.0180032849311829, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.3953617755978485e-08, "report/cont_loss_std": 5.588621547758521e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.3953617755978485e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.126431465148926, "report/dyn_loss_std": 6.678578853607178, "report/image_loss_mean": 1.8991196155548096, "report/image_loss_std": 1.3450651168823242, "report/model_loss_mean": 5.04251766204834, "report/model_loss_std": 5.057421684265137, "report/post_ent_mag": 55.73551940917969, "report/post_ent_max": 55.73551940917969, "report/post_ent_mean": 39.12215042114258, "report/post_ent_min": 22.01419448852539, "report/post_ent_std": 5.045907497406006, "report/prior_ent_mag": 78.84220886230469, "report/prior_ent_max": 78.84220886230469, "report/prior_ent_mean": 44.793983459472656, "report/prior_ent_min": 22.915969848632812, "report/prior_ent_std": 7.684752941131592, "report/rep_loss_mean": 5.126431465148926, "report/rep_loss_std": 6.678578853607178, "report/reward_avg": 2.32421875, "report/reward_loss_mean": 0.0675392746925354, "report/reward_loss_std": 0.21915870904922485, "report/reward_max_data": 400.0, "report/reward_max_pred": 332.3249206542969, "report/reward_neg_acc": 0.9675324559211731, "report/reward_neg_loss": 0.007699727080762386, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6204566955566406, "report/reward_pred": 2.1442413330078125, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.008349047042429447, "eval/cont_loss_std": 0.24242374300956726, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 3.922653913497925, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006889589130878448, "eval/cont_pred": 0.9984948039054871, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.757238388061523, "eval/dyn_loss_std": 9.772403717041016, "eval/image_loss_mean": 4.040486812591553, "eval/image_loss_std": 4.221367835998535, "eval/model_loss_mean": 10.137550354003906, "eval/model_loss_std": 9.75439453125, "eval/post_ent_mag": 59.02055358886719, "eval/post_ent_max": 59.02055358886719, "eval/post_ent_mean": 39.93486022949219, "eval/post_ent_min": 21.62959861755371, "eval/post_ent_std": 7.429996967315674, "eval/prior_ent_mag": 78.84220886230469, "eval/prior_ent_max": 78.84220886230469, "eval/prior_ent_mean": 46.03106689453125, "eval/prior_ent_min": 22.952220916748047, "eval/prior_ent_std": 10.513437271118164, "eval/rep_loss_mean": 9.757238388061523, "eval/rep_loss_std": 9.772403717041016, "eval/reward_avg": 0.419921875, "eval/reward_loss_mean": 0.2343706637620926, "eval/reward_loss_std": 1.760799527168274, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 10.00188159942627, "eval/reward_neg_acc": 0.9502538442611694, "eval/reward_neg_loss": 0.04168863967061043, "eval/reward_pos_acc": 0.6410256624221802, "eval/reward_pos_loss": 5.100827217102051, "eval/reward_pred": 0.2667360305786133, "eval/reward_rate": 0.0380859375, "replay/size": 109211.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.855279810288373e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3609727223714192e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.564621925354004e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.42023730278015, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8641879558563232, "timer/env.step_frac": 0.009533938131370412, "timer/env.step_avg": 0.004011467725288968, "timer/env.step_min": 0.0021834373474121094, "timer/env.step_max": 0.01972818374633789, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 176.9046437740326, "timer/replay._sample_frac": 0.5888572799299745, "timer/replay._sample_avg": 0.015485350470416019, "timer/replay._sample_min": 0.007125139236450195, "timer/replay._sample_max": 0.05667877197265625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10634422302246094, "timer/agent.save_frac": 0.0003539848845644887, "timer/agent.save_avg": 0.10634422302246094, "timer/agent.save_min": 0.10634422302246094, "timer/agent.save_max": 0.10634422302246094, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.8986737728119, "timer/agent.policy_frac": 0.665396830678031, "timer/agent.policy_avg": 0.2799701313344704, "timer/agent.policy_min": 0.0034117698669433594, "timer/agent.policy_max": 0.37912559509277344, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09336996078491211, "timer/dataset_train_frac": 0.00031079783979668686, "timer/dataset_train_avg": 0.00013077025320015702, "timer/dataset_train_min": 6.580352783203125e-05, "timer/dataset_train_max": 0.00033783912658691406, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.5187349319458, "timer/agent.train_frac": 0.3212790716048496, "timer/agent.train_avg": 0.13518030102513418, "timer/agent.train_min": 0.09722137451171875, "timer/agent.train_max": 0.4275321960449219, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4960038661956787, "timer/agent.report_frac": 0.0016510334678145485, "timer/agent.report_avg": 0.24800193309783936, "timer/agent.report_min": 0.10285091400146484, "timer/agent.report_max": 0.39315295219421387, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.000125885009765625, "timer/dataset_eval_frac": 4.1902972614574936e-07, "timer/dataset_eval_avg": 0.000125885009765625, "timer/dataset_eval_min": 0.000125885009765625, "timer/dataset_eval_max": 0.000125885009765625, "fps": 9.506367012823628}
+{"step": 439952, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.825340593364877, "train/action_min": 0.0, "train/action_std": 2.863759393423376, "train/actor_opt_grad_norm": 0.00850659576703755, "train/actor_opt_grad_steps": 108530.0, "train/actor_opt_loss": 0.0009473806176302646, "train/adv_mag": 0.6889785977316575, "train/adv_max": 0.65945232628097, "train/adv_mean": 0.0023685022187890634, "train/adv_min": -0.43298988526975607, "train/adv_std": 0.036772234601454, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.00030501733039831486, "train/cont_loss_std": 0.00813390822831082, "train/cont_neg_acc": 0.9433333349227905, "train/cont_neg_loss": 0.1244151078147479, "train/cont_pos_acc": 0.9999724341110444, "train/cont_pos_loss": 9.649525438917252e-05, "train/cont_pred": 0.9987237856421672, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.6547359412824605, "train/dyn_loss_std": 6.694374030744526, "train/extr_critic_critic_opt_grad_norm": 2.2455276905650825, "train/extr_critic_critic_opt_grad_steps": 108530.0, "train/extr_critic_critic_opt_loss": 1.5267870493338143, "train/extr_critic_mag": 486.4078674316406, "train/extr_critic_max": 486.4078674316406, "train/extr_critic_mean": 188.90913831683952, "train/extr_critic_min": 0.31949727803888456, "train/extr_critic_std": 147.9969248167226, "train/extr_return_normed_mag": 1.306790273793986, "train/extr_return_normed_max": 1.306790273793986, "train/extr_return_normed_mean": 0.43649208125933797, "train/extr_return_normed_min": -0.008454507488993481, "train/extr_return_normed_std": 0.35014415290993706, "train/extr_return_rate": 0.9421994652546627, "train/extr_return_raw_mag": 560.6079608756052, "train/extr_return_raw_max": 560.6079608756052, "train/extr_return_raw_mean": 189.9175405367999, "train/extr_return_raw_min": 0.35692397072340665, "train/extr_return_raw_std": 149.16988641443388, "train/extr_reward_mag": 214.23355983680403, "train/extr_reward_max": 214.23355983680403, "train/extr_reward_mean": 1.11221899952687, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.693727469780076, "train/image_loss_mean": 1.822831716335995, "train/image_loss_std": 1.5552428557839193, "train/model_loss_mean": 4.687262310108668, "train/model_loss_std": 5.289196162156656, "train/model_opt_grad_norm": 12.242454730289083, "train/model_opt_grad_steps": 108530.0, "train/model_opt_loss": 4.687262310108668, "train/policy_entropy_mag": 2.174623042764798, "train/policy_entropy_max": 2.174623042764798, "train/policy_entropy_mean": 1.1627402070542456, "train/policy_entropy_min": 0.06977750444915932, "train/policy_entropy_std": 0.6138238210073659, "train/policy_logprob_mag": 6.794692140229991, "train/policy_logprob_max": -0.008997673719701633, "train/policy_logprob_mean": -1.1623664926475203, "train/policy_logprob_min": -6.794692140229991, "train/policy_logprob_std": 1.1080582931008138, "train/policy_randomness_mag": 0.9897135899100505, "train/policy_randomness_max": 0.9897135899100505, "train/policy_randomness_mean": 0.5291858731021344, "train/policy_randomness_min": 0.031757110756048014, "train/policy_randomness_std": 0.2793632592533676, "train/post_ent_mag": 58.72599136997277, "train/post_ent_max": 58.72599136997277, "train/post_ent_mean": 38.684072897467814, "train/post_ent_min": 21.271250281535405, "train/post_ent_std": 5.525166817114386, "train/prior_ent_mag": 78.92632336683677, "train/prior_ent_max": 78.92632336683677, "train/prior_ent_mean": 43.46725125379965, "train/prior_ent_min": 23.878155936657542, "train/prior_ent_std": 8.214691840427022, "train/rep_loss_mean": 4.6547359412824605, "train/rep_loss_std": 6.694374030744526, "train/reward_avg": 1.394833846830986, "train/reward_loss_mean": 0.07128399112065073, "train/reward_loss_std": 0.24506233464664137, "train/reward_max_data": 226.33802816901408, "train/reward_max_pred": 189.43958864077715, "train/reward_neg_acc": 0.9670005944413198, "train/reward_neg_loss": 0.009727116815194907, "train/reward_pos_acc": 0.9955738304366528, "train/reward_pos_loss": 0.6352635235853599, "train/reward_pred": 1.2681063606705465, "train/reward_rate": 0.09830270686619719, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.077623321383726e-05, "report/cont_loss_std": 0.000426633981987834, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.004186521749943495, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.536042514606379e-06, "report/cont_pred": 0.9970740079879761, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.3379645347595215, "report/dyn_loss_std": 6.953176975250244, "report/image_loss_mean": 1.6304365396499634, "report/image_loss_std": 1.6898521184921265, "report/model_loss_mean": 4.2976837158203125, "report/model_loss_std": 5.557298183441162, "report/post_ent_mag": 59.605613708496094, "report/post_ent_max": 59.605613708496094, "report/post_ent_mean": 37.54304122924805, "report/post_ent_min": 19.910545349121094, "report/post_ent_std": 5.745314598083496, "report/prior_ent_mag": 78.82083892822266, "report/prior_ent_max": 78.82083892822266, "report/prior_ent_mean": 42.30408477783203, "report/prior_ent_min": 23.599336624145508, "report/prior_ent_std": 8.702478408813477, "report/rep_loss_mean": 4.3379645347595215, "report/rep_loss_std": 6.953176975250244, "report/reward_avg": 0.947265625, "report/reward_loss_mean": 0.06444767862558365, "report/reward_loss_std": 0.2164086401462555, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.92001724243164, "report/reward_neg_acc": 0.9634801745414734, "report/reward_neg_loss": 0.008044872432947159, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.629082202911377, "report/reward_pred": 0.8821551203727722, "report/reward_rate": 0.0908203125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0013543639797717333, "eval/cont_loss_std": 0.04289699345827103, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.3733346462249756, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3229674550530035e-05, "eval/cont_pred": 0.9997395277023315, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.302209854125977, "eval/dyn_loss_std": 9.152181625366211, "eval/image_loss_mean": 3.748885154724121, "eval/image_loss_std": 2.621474266052246, "eval/model_loss_mean": 10.576085090637207, "eval/model_loss_std": 7.834820747375488, "eval/post_ent_mag": 61.04911804199219, "eval/post_ent_max": 61.04911804199219, "eval/post_ent_mean": 41.22039031982422, "eval/post_ent_min": 22.432884216308594, "eval/post_ent_std": 5.895457744598389, "eval/prior_ent_mag": 78.82083892822266, "eval/prior_ent_max": 78.82083892822266, "eval/prior_ent_mean": 47.63206481933594, "eval/prior_ent_min": 26.71668815612793, "eval/prior_ent_std": 8.413304328918457, "eval/rep_loss_mean": 10.302209854125977, "eval/rep_loss_std": 9.152181625366211, "eval/reward_avg": 2.119140625, "eval/reward_loss_mean": 0.6445193290710449, "eval/reward_loss_std": 2.4007649421691895, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.99259567260742, "eval/reward_neg_acc": 0.8631698489189148, "eval/reward_neg_loss": 0.13519681990146637, "eval/reward_pos_acc": 0.6870748400688171, "eval/reward_pos_loss": 3.6831302642822266, "eval/reward_pred": 1.0747885704040527, "eval/reward_rate": 0.1435546875, "replay/size": 109925.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.728724290008972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.38649670015864e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.475214958190918e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.12443232536316, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8091351985931396, "timer/env.step_frac": 0.009359901747511754, "timer/env.step_avg": 0.003934363023239691, "timer/env.step_min": 0.0022029876708984375, "timer/env.step_max": 0.006845235824584961, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 177.1096806526184, "timer/replay._sample_frac": 0.5901208351495183, "timer/replay._sample_avg": 0.015503298376454692, "timer/replay._sample_min": 0.007422685623168945, "timer/replay._sample_max": 0.03791165351867676, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.72452640533447, "timer/agent.policy_frac": 0.6654724004236159, "timer/agent.policy_avg": 0.27972622745845166, "timer/agent.policy_min": 0.003545045852661133, "timer/agent.policy_max": 0.32166528701782227, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.0912473201751709, "timer/dataset_train_frac": 0.000304031629375146, "timer/dataset_train_avg": 0.0001277973671921161, "timer/dataset_train_min": 7.82012939453125e-05, "timer/dataset_train_max": 0.00024175643920898438, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.50608849525452, "timer/agent.train_frac": 0.3215535894479688, "timer/agent.train_avg": 0.1351625889289279, "timer/agent.train_min": 0.0975189208984375, "timer/agent.train_max": 0.42736077308654785, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4975888729095459, "timer/agent.report_frac": 0.0016579419044768493, "timer/agent.report_avg": 0.24879443645477295, "timer/agent.report_min": 0.10190129280090332, "timer/agent.report_max": 0.3956875801086426, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.890296936035156e-05, "timer/dataset_eval_frac": 2.295813400678231e-07, "timer/dataset_eval_avg": 6.890296936035156e-05, "timer/dataset_eval_min": 6.890296936035156e-05, "timer/dataset_eval_max": 6.890296936035156e-05, "fps": 9.515716627085423}
+{"step": 440108, "episode/length": 768.0, "episode/score": 1220.0, "episode/reward_rate": 0.1235370611183355}
+{"step": 442808, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.864752875434028, "train/action_min": 0.0, "train/action_std": 2.8157463868459067, "train/actor_opt_grad_norm": 0.0075079762286299635, "train/actor_opt_grad_steps": 109245.0, "train/actor_opt_loss": 0.000686698805359419, "train/adv_mag": 0.6319921273324225, "train/adv_max": 0.5659834576977624, "train/adv_mean": 0.0018846595875301217, "train/adv_min": -0.4647970948782232, "train/adv_std": 0.033636174371673, "train/cont_avg": 0.9984402126736112, "train/cont_loss_mean": 0.00023492181526979207, "train/cont_loss_std": 0.005770555052567245, "train/cont_neg_acc": 0.9827586206896551, "train/cont_neg_loss": 0.10130342191665567, "train/cont_pos_acc": 0.9999319679207272, "train/cont_pos_loss": 0.00014573934591080584, "train/cont_pred": 0.9983658459451463, "train/cont_rate": 0.9984402126736112, "train/dyn_loss_mean": 4.877173983388477, "train/dyn_loss_std": 6.810533702373505, "train/extr_critic_critic_opt_grad_norm": 2.303830885224872, "train/extr_critic_critic_opt_grad_steps": 109245.0, "train/extr_critic_critic_opt_loss": 1.5363911506202486, "train/extr_critic_mag": 471.66992484198676, "train/extr_critic_max": 471.66992484198676, "train/extr_critic_mean": 185.17436938815646, "train/extr_critic_min": 0.2129441416925854, "train/extr_critic_std": 147.66982947455512, "train/extr_return_normed_mag": 1.185741511483987, "train/extr_return_normed_max": 1.185741511483987, "train/extr_return_normed_mean": 0.4266187157481909, "train/extr_return_normed_min": -0.008750312127328167, "train/extr_return_normed_std": 0.3479218694070975, "train/extr_return_rate": 0.9294578714503182, "train/extr_return_raw_mag": 509.5787701076931, "train/extr_return_raw_max": 509.5787701076931, "train/extr_return_raw_mean": 185.9784746170044, "train/extr_return_raw_min": 0.3940013650345564, "train/extr_return_raw_std": 148.30336740281848, "train/extr_reward_mag": 190.3288278579712, "train/extr_reward_max": 190.3288278579712, "train/extr_reward_mean": 1.0700034879975848, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.777553803390926, "train/image_loss_mean": 1.8990128023756876, "train/image_loss_std": 1.6145864758226607, "train/model_loss_mean": 4.900079455640581, "train/model_loss_std": 5.422999123732249, "train/model_opt_grad_norm": 12.04596573776669, "train/model_opt_grad_steps": 109245.0, "train/model_opt_loss": 4.900079455640581, "train/policy_entropy_mag": 2.175856633318795, "train/policy_entropy_max": 2.175856633318795, "train/policy_entropy_mean": 1.1707471576001909, "train/policy_entropy_min": 0.06959026876009172, "train/policy_entropy_std": 0.6203319297896491, "train/policy_logprob_mag": 6.798172036806743, "train/policy_logprob_max": -0.008969581220299006, "train/policy_logprob_mean": -1.1709230500790808, "train/policy_logprob_min": -6.798172036806743, "train/policy_logprob_std": 1.1044802251789305, "train/policy_randomness_mag": 0.9902750187449985, "train/policy_randomness_max": 0.9902750187449985, "train/policy_randomness_mean": 0.5328299908174409, "train/policy_randomness_min": 0.03167189590425955, "train/policy_randomness_std": 0.2823252214325799, "train/post_ent_mag": 58.222706105973984, "train/post_ent_max": 58.222706105973984, "train/post_ent_mean": 38.83795605765449, "train/post_ent_min": 21.702762815687393, "train/post_ent_std": 5.534325450658798, "train/prior_ent_mag": 78.89869901869032, "train/prior_ent_max": 78.89869901869032, "train/prior_ent_mean": 43.785260359446205, "train/prior_ent_min": 24.361630227830673, "train/prior_ent_std": 8.234073731634352, "train/rep_loss_mean": 4.877173983388477, "train/rep_loss_std": 6.810533702373505, "train/reward_avg": 1.37939453125, "train/reward_loss_mean": 0.0745273166232639, "train/reward_loss_std": 0.26525085295240086, "train/reward_max_data": 192.22222222222223, "train/reward_max_pred": 159.0518522924847, "train/reward_neg_acc": 0.965717120303048, "train/reward_neg_loss": 0.010211000856037976, "train/reward_pos_acc": 0.9937824656565984, "train/reward_pos_loss": 0.6655153292748663, "train/reward_pred": 1.230105792482694, "train/reward_rate": 0.09868706597222222, "train_stats/mean_log_entropy": 1.103549838066101, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.1574173868211801e-06, "report/cont_loss_std": 2.876033613574691e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.000871456868480891, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.066847682475782e-07, "report/cont_pred": 0.999023973941803, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.554773330688477, "report/dyn_loss_std": 6.749216556549072, "report/image_loss_mean": 1.6613564491271973, "report/image_loss_std": 1.456048607826233, "report/model_loss_mean": 4.473649978637695, "report/model_loss_std": 5.291836261749268, "report/post_ent_mag": 56.2641487121582, "report/post_ent_max": 56.2641487121582, "report/post_ent_mean": 39.10670471191406, "report/post_ent_min": 24.366233825683594, "report/post_ent_std": 4.496427059173584, "report/prior_ent_mag": 78.88755798339844, "report/prior_ent_max": 78.88755798339844, "report/prior_ent_mean": 44.002052307128906, "report/prior_ent_min": 24.201980590820312, "report/prior_ent_std": 6.9240031242370605, "report/rep_loss_mean": 4.554773330688477, "report/rep_loss_std": 6.749216556549072, "report/reward_avg": 0.99609375, "report/reward_loss_mean": 0.07942835986614227, "report/reward_loss_std": 0.28245338797569275, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.999794006347656, "report/reward_neg_acc": 0.9614561200141907, "report/reward_neg_loss": 0.015149972401559353, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7464951872825623, "report/reward_pred": 0.8829325437545776, "report/reward_rate": 0.087890625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.00012208751286379993, "eval/cont_loss_std": 0.0038684795144945383, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.061926741153001785, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1390633289920515e-06, "eval/cont_pred": 0.9981595277786255, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.493172645568848, "eval/dyn_loss_std": 10.770181655883789, "eval/image_loss_mean": 5.240813732147217, "eval/image_loss_std": 4.261682987213135, "eval/model_loss_mean": 13.873444557189941, "eval/model_loss_std": 10.16518783569336, "eval/post_ent_mag": 60.89179992675781, "eval/post_ent_max": 60.89179992675781, "eval/post_ent_mean": 41.99597930908203, "eval/post_ent_min": 25.831388473510742, "eval/post_ent_std": 5.016037940979004, "eval/prior_ent_mag": 78.88755798339844, "eval/prior_ent_max": 78.88755798339844, "eval/prior_ent_mean": 48.88646697998047, "eval/prior_ent_min": 29.104150772094727, "eval/prior_ent_std": 7.282924175262451, "eval/rep_loss_mean": 13.493172645568848, "eval/rep_loss_std": 10.770181655883789, "eval/reward_avg": 1.318359375, "eval/reward_loss_mean": 0.5366056561470032, "eval/reward_loss_std": 2.3344626426696777, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.92755889892578, "eval/reward_neg_acc": 0.9046087265014648, "eval/reward_neg_loss": 0.11030003428459167, "eval/reward_pos_acc": 0.5824176073074341, "eval/reward_pos_loss": 4.90740966796875, "eval/reward_pred": 0.7200729846954346, "eval/reward_rate": 0.0888671875, "replay/size": 110639.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.780147905109309e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3683398230736997e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.952052116394043e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.36700677871704, "timer/env.step_count": 714.0, "timer/env.step_total": 2.875044107437134, "timer/env.step_frac": 0.00957177067571607, "timer/env.step_avg": 0.0040266724193797395, "timer/env.step_min": 0.0024259090423583984, "timer/env.step_max": 0.021878480911254883, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 177.11117124557495, "timer/replay._sample_frac": 0.5896492199492945, "timer/replay._sample_avg": 0.01550342885553002, "timer/replay._sample_min": 0.006822347640991211, "timer/replay._sample_max": 0.03657793998718262, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.00434255599976, "timer/agent.policy_frac": 0.6625372895985476, "timer/agent.policy_avg": 0.27871756660504166, "timer/agent.policy_min": 0.0033829212188720703, "timer/agent.policy_max": 0.3269362449645996, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.0919489860534668, "timer/dataset_train_frac": 0.0003061221238629794, "timer/dataset_train_avg": 0.00012878009251185825, "timer/dataset_train_min": 7.033348083496094e-05, "timer/dataset_train_max": 0.0010275840759277344, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.37597751617432, "timer/agent.train_frac": 0.3241899919717615, "timer/agent.train_avg": 0.13638092089100046, "timer/agent.train_min": 0.0978851318359375, "timer/agent.train_max": 0.42768287658691406, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5089030265808105, "timer/agent.report_frac": 0.0016942707257982025, "timer/agent.report_avg": 0.2544515132904053, "timer/agent.report_min": 0.10567069053649902, "timer/agent.report_max": 0.4032323360443115, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.200241088867188e-05, "timer/dataset_eval_frac": 2.39714779798424e-07, "timer/dataset_eval_avg": 7.200241088867188e-05, "timer/dataset_eval_min": 7.200241088867188e-05, "timer/dataset_eval_max": 7.200241088867188e-05, "fps": 9.507999034996534}
+{"step": 443208, "episode/length": 774.0, "episode/score": 1200.0, "episode/reward_rate": 0.11870967741935484}
+{"step": 445660, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.761417012819102, "train/action_min": 0.0, "train/action_std": 2.8405205162478167, "train/actor_opt_grad_norm": 0.0077115275346162455, "train/actor_opt_grad_steps": 109960.0, "train/actor_opt_loss": 0.0007111617226361028, "train/adv_mag": 0.6638978530823345, "train/adv_max": 0.613594940640557, "train/adv_mean": 0.0019181383564359812, "train/adv_min": -0.45527210936579904, "train/adv_std": 0.03471614848035322, "train/cont_avg": 0.9984044894366197, "train/cont_loss_mean": 0.0001623571543401982, "train/cont_loss_std": 0.0043948151693548555, "train/cont_neg_acc": 0.9600000002167441, "train/cont_neg_loss": 0.08622150643711228, "train/cont_pos_acc": 0.9999724190000078, "train/cont_pos_loss": 7.248178361048383e-05, "train/cont_pred": 0.9983966543640889, "train/cont_rate": 0.9984044894366197, "train/dyn_loss_mean": 4.840075190638153, "train/dyn_loss_std": 6.785100889877534, "train/extr_critic_critic_opt_grad_norm": 2.2429618482858364, "train/extr_critic_critic_opt_grad_steps": 109960.0, "train/extr_critic_critic_opt_loss": 1.5235151388275792, "train/extr_critic_mag": 478.14919657102774, "train/extr_critic_max": 478.14919657102774, "train/extr_critic_mean": 185.13542734065527, "train/extr_critic_min": 0.17050682994681346, "train/extr_critic_std": 148.83696736080546, "train/extr_return_normed_mag": 1.2275900941499522, "train/extr_return_normed_max": 1.2275900941499522, "train/extr_return_normed_mean": 0.42594063009174776, "train/extr_return_normed_min": -0.009149748653265267, "train/extr_return_normed_std": 0.350555935795878, "train/extr_return_rate": 0.9297856587759206, "train/extr_return_raw_mag": 527.8584018761004, "train/extr_return_raw_max": 527.8584018761004, "train/extr_return_raw_mean": 185.95396444831096, "train/extr_return_raw_min": 0.36356066684992855, "train/extr_return_raw_std": 149.51525868160624, "train/extr_reward_mag": 200.0481662347283, "train/extr_reward_max": 200.0481662347283, "train/extr_reward_mean": 1.0438248615869334, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8408841448770445, "train/image_loss_mean": 1.835839676185393, "train/image_loss_std": 1.5905176233237899, "train/model_loss_mean": 4.812924811537837, "train/model_loss_std": 5.3861322537274425, "train/model_opt_grad_norm": 11.784432760426697, "train/model_opt_grad_steps": 109960.0, "train/model_opt_loss": 4.812924811537837, "train/policy_entropy_mag": 2.173770306815564, "train/policy_entropy_max": 2.173770306815564, "train/policy_entropy_mean": 1.1832044619909474, "train/policy_entropy_min": 0.06959536115468389, "train/policy_entropy_std": 0.6148538438367172, "train/policy_logprob_mag": 6.797462779031673, "train/policy_logprob_max": -0.008970372444412239, "train/policy_logprob_mean": -1.184460977433433, "train/policy_logprob_min": -6.797462779031673, "train/policy_logprob_std": 1.1010333333216922, "train/policy_randomness_mag": 0.9893254973519017, "train/policy_randomness_max": 0.9893254973519017, "train/policy_randomness_mean": 0.5384995538583943, "train/policy_randomness_min": 0.03167421370744705, "train/policy_randomness_std": 0.27983204390801175, "train/post_ent_mag": 58.95619352098922, "train/post_ent_max": 58.95619352098922, "train/post_ent_mean": 38.680799564845124, "train/post_ent_min": 21.412920508586186, "train/post_ent_std": 5.56626394433035, "train/prior_ent_mag": 78.95128234003631, "train/prior_ent_max": 78.95128234003631, "train/prior_ent_mean": 43.544196276597575, "train/prior_ent_min": 24.059456247678945, "train/prior_ent_std": 8.27287831104977, "train/rep_loss_mean": 4.840075190638153, "train/rep_loss_std": 6.785100889877534, "train/reward_avg": 1.366362235915493, "train/reward_loss_mean": 0.07287764706662003, "train/reward_loss_std": 0.25986571337135744, "train/reward_max_data": 218.59154929577466, "train/reward_max_pred": 176.35093367939265, "train/reward_neg_acc": 0.9671504203702362, "train/reward_neg_loss": 0.009434297144688455, "train/reward_pos_acc": 0.9941061491697607, "train/reward_pos_loss": 0.6633021285836126, "train/reward_pred": 1.1964310046652673, "train/reward_rate": 0.09695477552816902, "train_stats/mean_log_entropy": 1.017349362373352, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.4011624191189185e-05, "report/cont_loss_std": 0.0003921021125279367, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0015744402771815658, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.945600706676487e-05, "report/cont_pred": 0.9970555901527405, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 5.2689666748046875, "report/dyn_loss_std": 6.9227519035339355, "report/image_loss_mean": 1.9172930717468262, "report/image_loss_std": 1.5888757705688477, "report/model_loss_mean": 5.143851280212402, "report/model_loss_std": 5.567887306213379, "report/post_ent_mag": 60.35261535644531, "report/post_ent_max": 60.35261535644531, "report/post_ent_mean": 38.78392791748047, "report/post_ent_min": 22.273178100585938, "report/post_ent_std": 6.073824405670166, "report/prior_ent_mag": 79.1295166015625, "report/prior_ent_max": 79.1295166015625, "report/prior_ent_mean": 44.24983215332031, "report/prior_ent_min": 22.62165069580078, "report/prior_ent_std": 9.087820053100586, "report/rep_loss_mean": 5.2689666748046875, "report/rep_loss_std": 6.9227519035339355, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.06515402346849442, "report/reward_loss_std": 0.2696271240711212, "report/reward_max_data": 200.0, "report/reward_max_pred": 192.5445556640625, "report/reward_neg_acc": 0.9618644118309021, "report/reward_neg_loss": 0.008963003754615784, "report/reward_pos_acc": 0.987500011920929, "report/reward_pos_loss": 0.7282080054283142, "report/reward_pred": 0.9164899587631226, "report/reward_rate": 0.078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.002929963171482086, "eval/cont_loss_std": 0.08573251962661743, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.7338674068450928, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0002604252367746085, "eval/cont_pred": 0.9997040033340454, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.340339660644531, "eval/dyn_loss_std": 10.507105827331543, "eval/image_loss_mean": 4.977911472320557, "eval/image_loss_std": 4.283156871795654, "eval/model_loss_mean": 13.31753921508789, "eval/model_loss_std": 10.667569160461426, "eval/post_ent_mag": 57.328697204589844, "eval/post_ent_max": 57.328697204589844, "eval/post_ent_mean": 40.862327575683594, "eval/post_ent_min": 19.641399383544922, "eval/post_ent_std": 5.786304950714111, "eval/prior_ent_mag": 79.1295166015625, "eval/prior_ent_max": 79.1295166015625, "eval/prior_ent_mean": 46.80120849609375, "eval/prior_ent_min": 23.69438934326172, "eval/prior_ent_std": 8.560691833496094, "eval/rep_loss_mean": 12.340339660644531, "eval/rep_loss_std": 10.507105827331543, "eval/reward_avg": 1.23046875, "eval/reward_loss_mean": 0.9324935078620911, "eval/reward_loss_std": 3.076616048812866, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 36.26042175292969, "eval/reward_neg_acc": 0.8543046116828918, "eval/reward_neg_loss": 0.1842651665210724, "eval/reward_pos_acc": 0.43220338225364685, "eval/reward_pos_loss": 6.677365779876709, "eval/reward_pred": 0.7376729249954224, "eval/reward_rate": 0.115234375, "replay/size": 111352.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.743446724612115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3751702756734584e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.773238182067871e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.07074546813965, "timer/env.step_count": 713.0, "timer/env.step_total": 2.858144760131836, "timer/env.step_frac": 0.009524903054687492, "timer/env.step_avg": 0.004008618176902996, "timer/env.step_min": 0.0024077892303466797, "timer/env.step_max": 0.026125431060791016, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.6832127571106, "timer/replay._sample_frac": 0.5921377389852098, "timer/replay._sample_avg": 0.015575316686282486, "timer/replay._sample_min": 0.008484840393066406, "timer/replay._sample_max": 0.05447030067443848, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18244314193725586, "timer/agent.save_frac": 0.0006080004288742868, "timer/agent.save_avg": 0.18244314193725586, "timer/agent.save_min": 0.18244314193725586, "timer/agent.save_max": 0.18244314193725586, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.46982145309448, "timer/agent.policy_frac": 0.6647426464112725, "timer/agent.policy_avg": 0.2797613204110722, "timer/agent.policy_min": 0.003299713134765625, "timer/agent.policy_max": 0.3690786361694336, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09160470962524414, "timer/dataset_train_frac": 0.000305277042193273, "timer/dataset_train_avg": 0.00012847785361184313, "timer/dataset_train_min": 7.05718994140625e-05, "timer/dataset_train_max": 0.0003056526184082031, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.63039326667786, "timer/agent.train_frac": 0.3220253714367424, "timer/agent.train_avg": 0.1355264982702354, "timer/agent.train_min": 0.09679365158081055, "timer/agent.train_max": 0.42758655548095703, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49829912185668945, "timer/agent.report_frac": 0.0016606054718173015, "timer/agent.report_avg": 0.24914956092834473, "timer/agent.report_min": 0.0988152027130127, "timer/agent.report_max": 0.39948391914367676, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.843971252441406e-05, "timer/dataset_eval_frac": 2.614040645716411e-07, "timer/dataset_eval_avg": 7.843971252441406e-05, "timer/dataset_eval_min": 7.843971252441406e-05, "timer/dataset_eval_max": 7.843971252441406e-05, "fps": 9.504060845388144}
+{"step": 446372, "episode/length": 790.0, "episode/score": 1350.0, "episode/reward_rate": 0.12389380530973451}
+{"step": 448516, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.632428236410651, "train/action_min": 0.0, "train/action_std": 2.8886138083229604, "train/actor_opt_grad_norm": 0.007947994540379921, "train/actor_opt_grad_steps": 110670.0, "train/actor_opt_loss": 0.0011725169706935535, "train/adv_mag": 0.6712345703386925, "train/adv_max": 0.6335377006883353, "train/adv_mean": 0.002393982082959527, "train/adv_min": -0.4310617822576577, "train/adv_std": 0.035842373809764086, "train/cont_avg": 0.9984457526408451, "train/cont_loss_mean": 0.0002801223193243565, "train/cont_loss_std": 0.00713368065632807, "train/cont_neg_acc": 0.959722222884496, "train/cont_neg_loss": 0.09338862450771686, "train/cont_pos_acc": 0.9999999966419918, "train/cont_pos_loss": 9.133566318698488e-05, "train/cont_pred": 0.9984619886102811, "train/cont_rate": 0.9984457526408451, "train/dyn_loss_mean": 4.741254507655829, "train/dyn_loss_std": 6.731348084731841, "train/extr_critic_critic_opt_grad_norm": 2.2500071206562957, "train/extr_critic_critic_opt_grad_steps": 110670.0, "train/extr_critic_critic_opt_loss": 1.5156029765035066, "train/extr_critic_mag": 502.4406768369003, "train/extr_critic_max": 502.4406768369003, "train/extr_critic_mean": 188.58687204710193, "train/extr_critic_min": 0.18580485061860422, "train/extr_critic_std": 151.72671498043437, "train/extr_return_normed_mag": 1.3328988787154077, "train/extr_return_normed_max": 1.3328988787154077, "train/extr_return_normed_mean": 0.4326024072270998, "train/extr_return_normed_min": -0.008483512666483055, "train/extr_return_normed_std": 0.3562215377747173, "train/extr_return_rate": 0.9286743024705162, "train/extr_return_raw_mag": 576.2352002640845, "train/extr_return_raw_max": 576.2352002640845, "train/extr_return_raw_mean": 189.61491759394255, "train/extr_return_raw_min": 0.22717595808732677, "train/extr_return_raw_std": 152.96618996203784, "train/extr_reward_mag": 204.5351272636736, "train/extr_reward_max": 204.5351272636736, "train/extr_reward_mean": 1.0744038795081663, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.2215042214998055, "train/image_loss_mean": 1.8254740590780554, "train/image_loss_std": 1.5708194299482963, "train/model_loss_mean": 4.741355402368895, "train/model_loss_std": 5.339449976531553, "train/model_opt_grad_norm": 11.993648730533224, "train/model_opt_grad_steps": 110670.0, "train/model_opt_loss": 4.741355402368895, "train/policy_entropy_mag": 2.1778437856217505, "train/policy_entropy_max": 2.1778437856217505, "train/policy_entropy_mean": 1.1864973264680783, "train/policy_entropy_min": 0.06962024200130516, "train/policy_entropy_std": 0.6256350648235267, "train/policy_logprob_mag": 6.797754892161195, "train/policy_logprob_max": -0.008974105434518464, "train/policy_logprob_mean": -1.1869337986892379, "train/policy_logprob_min": -6.797754892161195, "train/policy_logprob_std": 1.0988659825123532, "train/policy_randomness_mag": 0.9911794150379342, "train/policy_randomness_max": 0.9911794150379342, "train/policy_randomness_mean": 0.5399981967999902, "train/policy_randomness_min": 0.03168553743563907, "train/policy_randomness_std": 0.28473878578400946, "train/post_ent_mag": 59.03789826514016, "train/post_ent_max": 59.03789826514016, "train/post_ent_mean": 38.62973387812225, "train/post_ent_min": 21.511344667891382, "train/post_ent_std": 5.573834083449673, "train/prior_ent_mag": 78.92669613260618, "train/prior_ent_max": 78.92669613260618, "train/prior_ent_mean": 43.4210856800348, "train/prior_ent_min": 23.823859872952312, "train/prior_ent_std": 8.287432542988952, "train/rep_loss_mean": 4.741254507655829, "train/rep_loss_std": 6.731348084731841, "train/reward_avg": 1.3171214788732395, "train/reward_loss_mean": 0.0708485115057146, "train/reward_loss_std": 0.26105257658891273, "train/reward_max_data": 189.29577464788733, "train/reward_max_pred": 162.96689778986112, "train/reward_neg_acc": 0.9692263452100082, "train/reward_neg_loss": 0.0093584699346356, "train/reward_pos_acc": 0.9947361299689387, "train/reward_pos_loss": 0.6586497761833836, "train/reward_pred": 1.180554555335515, "train/reward_rate": 0.09485035211267606, "train_stats/mean_log_entropy": 0.9853363633155823, "report/cont_avg": 1.0, "report/cont_loss_mean": 8.703997878001246e-08, "report/cont_loss_std": 2.7696016786649125e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.703997878001246e-08, "report/cont_pred": 0.9999998807907104, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.288430690765381, "report/dyn_loss_std": 6.6761698722839355, "report/image_loss_mean": 1.719700813293457, "report/image_loss_std": 1.484289288520813, "report/model_loss_mean": 4.376748085021973, "report/model_loss_std": 5.255313396453857, "report/post_ent_mag": 59.716209411621094, "report/post_ent_max": 59.716209411621094, "report/post_ent_mean": 38.42222595214844, "report/post_ent_min": 19.867578506469727, "report/post_ent_std": 5.025214672088623, "report/prior_ent_mag": 78.87260437011719, "report/prior_ent_max": 78.87260437011719, "report/prior_ent_mean": 43.01083755493164, "report/prior_ent_min": 24.302616119384766, "report/prior_ent_std": 8.097599029541016, "report/rep_loss_mean": 4.288430690765381, "report/rep_loss_std": 6.6761698722839355, "report/reward_avg": 1.484375, "report/reward_loss_mean": 0.0839885026216507, "report/reward_loss_std": 0.26877492666244507, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.01191711425781, "report/reward_neg_acc": 0.9720982313156128, "report/reward_neg_loss": 0.005645315628498793, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6323908567428589, "report/reward_pred": 1.361954927444458, "report/reward_rate": 0.125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 7.816402636251496e-09, "eval/cont_loss_std": 1.6449546080821165e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.816402636251496e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.317449569702148, "eval/dyn_loss_std": 10.364983558654785, "eval/image_loss_mean": 3.082737445831299, "eval/image_loss_std": 3.0722765922546387, "eval/model_loss_mean": 9.247793197631836, "eval/model_loss_std": 9.312344551086426, "eval/post_ent_mag": 59.64154052734375, "eval/post_ent_max": 59.64154052734375, "eval/post_ent_mean": 38.92085266113281, "eval/post_ent_min": 19.732894897460938, "eval/post_ent_std": 6.502433776855469, "eval/prior_ent_mag": 78.87260437011719, "eval/prior_ent_max": 78.87260437011719, "eval/prior_ent_mean": 44.52250671386719, "eval/prior_ent_min": 23.998071670532227, "eval/prior_ent_std": 9.896759986877441, "eval/rep_loss_mean": 9.317449569702148, "eval/rep_loss_std": 10.364983558654785, "eval/reward_avg": 1.09375, "eval/reward_loss_mean": 0.5745854377746582, "eval/reward_loss_std": 2.2756924629211426, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 10.006884574890137, "eval/reward_neg_acc": 0.9021738767623901, "eval/reward_neg_loss": 0.11681052297353745, "eval/reward_pos_acc": 0.5961538553237915, "eval/reward_pos_loss": 4.6241326332092285, "eval/reward_pred": 0.7705610990524292, "eval/reward_rate": 0.1015625, "replay/size": 112066.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.747423786409095e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3865384401059618e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.205371856689453e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3085696697235, "timer/env.step_count": 714.0, "timer/env.step_total": 2.862874746322632, "timer/env.step_frac": 0.00953311039199179, "timer/env.step_avg": 0.0040096284962501845, "timer/env.step_min": 0.0022172927856445312, "timer/env.step_max": 0.02193307876586914, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 179.97885370254517, "timer/replay._sample_frac": 0.5993130795450965, "timer/replay._sample_avg": 0.015754451479564526, "timer/replay._sample_min": 0.008257389068603516, "timer/replay._sample_max": 0.03975057601928711, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.36770939826965, "timer/agent.policy_frac": 0.6638761911374436, "timer/agent.policy_avg": 0.27922648375107795, "timer/agent.policy_min": 0.003555774688720703, "timer/agent.policy_max": 0.31472134590148926, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09212446212768555, "timer/dataset_train_frac": 0.00030676601146948, "timer/dataset_train_avg": 0.00012902585732168845, "timer/dataset_train_min": 7.081031799316406e-05, "timer/dataset_train_max": 0.0002846717834472656, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.96227264404297, "timer/agent.train_frac": 0.32287547688259827, "timer/agent.train_avg": 0.1358015023025812, "timer/agent.train_min": 0.09734201431274414, "timer/agent.train_max": 0.434190034866333, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5051367282867432, "timer/agent.report_frac": 0.0016820589863362463, "timer/agent.report_avg": 0.2525683641433716, "timer/agent.report_min": 0.1034998893737793, "timer/agent.report_max": 0.40163683891296387, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011038780212402344, "timer/dataset_eval_frac": 3.675812589878034e-07, "timer/dataset_eval_avg": 0.00011038780212402344, "timer/dataset_eval_min": 0.00011038780212402344, "timer/dataset_eval_max": 0.00011038780212402344, "fps": 9.509803285283693}
+{"step": 449916, "episode/length": 885.0, "episode/score": 1190.0, "episode/reward_rate": 0.1038374717832957}
+{"step": 451372, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.830056932237413, "train/action_min": 0.0, "train/action_std": 2.857359551721149, "train/actor_opt_grad_norm": 0.007539792021917593, "train/actor_opt_grad_steps": 111385.0, "train/actor_opt_loss": 0.000393819837629255, "train/adv_mag": 0.6299075012405714, "train/adv_max": 0.5947891722122828, "train/adv_mean": 0.0015496230591401804, "train/adv_min": -0.41250936811168987, "train/adv_std": 0.032961461796528764, "train/cont_avg": 0.9986572265625, "train/cont_loss_mean": 0.00032523253489293486, "train/cont_loss_std": 0.007952098459792377, "train/cont_neg_acc": 0.9303030306642706, "train/cont_neg_loss": 0.12140775137006327, "train/cont_pos_acc": 0.9999455983440081, "train/cont_pos_loss": 0.00017103299778744216, "train/cont_pred": 0.9986207212011019, "train/cont_rate": 0.9986572265625, "train/dyn_loss_mean": 4.864640315373738, "train/dyn_loss_std": 6.778798315260145, "train/extr_critic_critic_opt_grad_norm": 2.249228275484509, "train/extr_critic_critic_opt_grad_steps": 111385.0, "train/extr_critic_critic_opt_loss": 1.5206537461943097, "train/extr_critic_mag": 465.84113693237305, "train/extr_critic_max": 465.84113693237305, "train/extr_critic_mean": 186.84466436174182, "train/extr_critic_min": 0.14782925777965122, "train/extr_critic_std": 147.9370093875461, "train/extr_return_normed_mag": 1.1557517589794264, "train/extr_return_normed_max": 1.1557517589794264, "train/extr_return_normed_mean": 0.428071944663922, "train/extr_return_normed_min": -0.008931018066100983, "train/extr_return_normed_std": 0.34657311542994446, "train/extr_return_rate": 0.9341399479243491, "train/extr_return_raw_mag": 499.4698897467719, "train/extr_return_raw_max": 499.4698897467719, "train/extr_return_raw_mean": 187.50887383355035, "train/extr_return_raw_min": 0.15107526169837607, "train/extr_return_raw_std": 148.5848387612237, "train/extr_reward_mag": 181.88310175471835, "train/extr_reward_max": 181.88310175471835, "train/extr_reward_mean": 1.0377587883008852, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.439302600092358, "train/image_loss_mean": 1.8563307291931577, "train/image_loss_std": 1.5883304294612672, "train/model_loss_mean": 4.848248415523106, "train/model_loss_std": 5.371675809224446, "train/model_opt_grad_norm": 12.489923649364048, "train/model_opt_grad_steps": 111385.0, "train/model_opt_loss": 4.848248415523106, "train/policy_entropy_mag": 2.175270206398434, "train/policy_entropy_max": 2.175270206398434, "train/policy_entropy_mean": 1.155648788644208, "train/policy_entropy_min": 0.06970760319381952, "train/policy_entropy_std": 0.619273723827468, "train/policy_logprob_mag": 6.79782768090566, "train/policy_logprob_max": -0.008987509153990282, "train/policy_logprob_mean": -1.155425354010529, "train/policy_logprob_min": -6.79782768090566, "train/policy_logprob_std": 1.1038498481114705, "train/policy_randomness_mag": 0.9900081248746978, "train/policy_randomness_max": 0.9900081248746978, "train/policy_randomness_mean": 0.5259584283663167, "train/policy_randomness_min": 0.031725297216326, "train/policy_randomness_std": 0.2818436117635833, "train/post_ent_mag": 58.511661529541016, "train/post_ent_max": 58.511661529541016, "train/post_ent_mean": 38.745037449730766, "train/post_ent_min": 21.755754868189495, "train/post_ent_std": 5.564711696571774, "train/prior_ent_mag": 78.88946554395888, "train/prior_ent_max": 78.88946554395888, "train/prior_ent_mean": 43.64195526970757, "train/prior_ent_min": 24.36037434471978, "train/prior_ent_std": 8.292338583204481, "train/rep_loss_mean": 4.864640315373738, "train/rep_loss_std": 6.778798315260145, "train/reward_avg": 1.3585069444444444, "train/reward_loss_mean": 0.07280825140575568, "train/reward_loss_std": 0.25314826766649884, "train/reward_max_data": 187.08333333333334, "train/reward_max_pred": 148.61134368843503, "train/reward_neg_acc": 0.9673142350382276, "train/reward_neg_loss": 0.009271719169596003, "train/reward_pos_acc": 0.9963079061773088, "train/reward_pos_loss": 0.6483365322152773, "train/reward_pred": 1.1899543967511919, "train/reward_rate": 0.09932454427083333, "train_stats/mean_log_entropy": 1.1077367067337036, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.2855143722845241e-05, "report/cont_loss_std": 0.00028031051624566317, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.002880740212276578, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.242844276333926e-06, "report/cont_pred": 0.9980452656745911, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 5.338214874267578, "report/dyn_loss_std": 7.091607093811035, "report/image_loss_mean": 2.013166904449463, "report/image_loss_std": 1.2853388786315918, "report/model_loss_mean": 5.286540508270264, "report/model_loss_std": 5.36983585357666, "report/post_ent_mag": 60.82193374633789, "report/post_ent_max": 60.82193374633789, "report/post_ent_mean": 39.38355255126953, "report/post_ent_min": 22.651424407958984, "report/post_ent_std": 4.947016716003418, "report/prior_ent_mag": 78.7164306640625, "report/prior_ent_max": 78.7164306640625, "report/prior_ent_mean": 45.12925720214844, "report/prior_ent_min": 23.151073455810547, "report/prior_ent_std": 7.552570343017578, "report/rep_loss_mean": 5.338214874267578, "report/rep_loss_std": 7.091607093811035, "report/reward_avg": 1.591796875, "report/reward_loss_mean": 0.07043230533599854, "report/reward_loss_std": 0.32872748374938965, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.3938751220703, "report/reward_neg_acc": 0.9754011034965515, "report/reward_neg_loss": 0.0043996102176606655, "report/reward_pos_acc": 0.9887640476226807, "report/reward_pos_loss": 0.764146625995636, "report/reward_pred": 1.298189401626587, "report/reward_rate": 0.0869140625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.4225754796370893e-07, "eval/cont_loss_std": 3.0925828014005674e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4225754796370893e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.356836318969727, "eval/dyn_loss_std": 9.720760345458984, "eval/image_loss_mean": 6.190881729125977, "eval/image_loss_std": 5.179508209228516, "eval/model_loss_mean": 15.573598861694336, "eval/model_loss_std": 10.502948760986328, "eval/post_ent_mag": 54.8986701965332, "eval/post_ent_max": 54.8986701965332, "eval/post_ent_mean": 41.738609313964844, "eval/post_ent_min": 22.00769805908203, "eval/post_ent_std": 4.775521278381348, "eval/prior_ent_mag": 78.7164306640625, "eval/prior_ent_max": 78.7164306640625, "eval/prior_ent_mean": 50.09880065917969, "eval/prior_ent_min": 23.864351272583008, "eval/prior_ent_std": 7.265676021575928, "eval/rep_loss_mean": 14.356836318969727, "eval/rep_loss_std": 9.720760345458984, "eval/reward_avg": 1.689453125, "eval/reward_loss_mean": 0.7686156630516052, "eval/reward_loss_std": 2.5199034214019775, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 34.605979919433594, "eval/reward_neg_acc": 0.8690869212150574, "eval/reward_neg_loss": 0.170038104057312, "eval/reward_pos_acc": 0.530434787273407, "eval/reward_pos_loss": 5.499980449676514, "eval/reward_pred": 0.7114138007164001, "eval/reward_rate": 0.1123046875, "replay/size": 112780.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.792169009937959e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3653971567875197e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4901161193847656e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.39449644088745, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8680286407470703, "timer/env.step_frac": 0.009547540566581084, "timer/env.step_avg": 0.004016846835780211, "timer/env.step_min": 0.0024366378784179688, "timer/env.step_max": 0.023381471633911133, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 176.7092480659485, "timer/replay._sample_frac": 0.5882572755480621, "timer/replay._sample_avg": 0.015468246504372242, "timer/replay._sample_min": 0.008104085922241211, "timer/replay._sample_max": 0.05314326286315918, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.02878665924072, "timer/agent.policy_frac": 0.6625580329112528, "timer/agent.policy_avg": 0.2787518020437545, "timer/agent.policy_min": 0.0033180713653564453, "timer/agent.policy_max": 0.3150296211242676, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09062409400939941, "timer/dataset_train_frac": 0.0003016836030057984, "timer/dataset_train_avg": 0.00012692450141372466, "timer/dataset_train_min": 6.842613220214844e-05, "timer/dataset_train_max": 0.00023698806762695312, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.38478255271912, "timer/agent.train_frac": 0.3241896363167319, "timer/agent.train_avg": 0.13639325287495674, "timer/agent.train_min": 0.09781384468078613, "timer/agent.train_max": 0.4376108646392822, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5047585964202881, "timer/agent.report_frac": 0.0016803190551116373, "timer/agent.report_avg": 0.25237929821014404, "timer/agent.report_min": 0.1038050651550293, "timer/agent.report_max": 0.4009535312652588, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.914138793945312e-05, "timer/dataset_eval_frac": 2.3016862412144418e-07, "timer/dataset_eval_avg": 6.914138793945312e-05, "timer/dataset_eval_min": 6.914138793945312e-05, "timer/dataset_eval_max": 6.914138793945312e-05, "fps": 9.507149331429929}
+{"step": 452964, "episode/length": 761.0, "episode/score": 1360.0, "episode/reward_rate": 0.13123359580052493}
+{"step": 454224, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.726296008472711, "train/action_min": 0.0, "train/action_std": 2.8266899484983634, "train/actor_opt_grad_norm": 0.007845548040587718, "train/actor_opt_grad_steps": 112100.0, "train/actor_opt_loss": 0.0006994095193976405, "train/adv_mag": 0.7257143670404461, "train/adv_max": 0.6937383673560451, "train/adv_mean": 0.00228176572324026, "train/adv_min": -0.4294043007031293, "train/adv_std": 0.0374447655090144, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.00019401180695133145, "train/cont_loss_std": 0.005672579881281687, "train/cont_neg_acc": 0.9363636363636364, "train/cont_neg_loss": 0.1639725155323965, "train/cont_pos_acc": 0.9999999966419918, "train/cont_pos_loss": 4.788088990006771e-05, "train/cont_pred": 0.998624004108805, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.8903114459884, "train/dyn_loss_std": 6.804712973849874, "train/extr_critic_critic_opt_grad_norm": 2.3462798410738017, "train/extr_critic_critic_opt_grad_steps": 112100.0, "train/extr_critic_critic_opt_loss": 1.553786403696302, "train/extr_critic_mag": 509.0585223990427, "train/extr_critic_max": 509.0585223990427, "train/extr_critic_mean": 179.48137611066792, "train/extr_critic_min": 0.022551261203389773, "train/extr_critic_std": 150.2716191251513, "train/extr_return_normed_mag": 1.3422703264464795, "train/extr_return_normed_max": 1.3422703264464795, "train/extr_return_normed_mean": 0.41043442697592186, "train/extr_return_normed_min": -0.007673160835418483, "train/extr_return_normed_std": 0.3522700954910735, "train/extr_return_rate": 0.9333269604494874, "train/extr_return_raw_mag": 582.7249261560574, "train/extr_return_raw_max": 582.7249261560574, "train/extr_return_raw_mean": 180.46648428473674, "train/extr_return_raw_min": 0.021357419157218727, "train/extr_return_raw_std": 152.04254752145687, "train/extr_reward_mag": 179.06860886157398, "train/extr_reward_max": 179.06860886157398, "train/extr_reward_mean": 0.9685689311631969, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.812540960983491, "train/image_loss_mean": 1.8506561987836596, "train/image_loss_std": 1.612368771727656, "train/model_loss_mean": 4.852345825920643, "train/model_loss_std": 5.418822342241314, "train/model_opt_grad_norm": 11.830176675823372, "train/model_opt_grad_steps": 112100.0, "train/model_opt_loss": 4.852345825920643, "train/policy_entropy_mag": 2.1798680365925103, "train/policy_entropy_max": 2.1798680365925103, "train/policy_entropy_mean": 1.2074801787524156, "train/policy_entropy_min": 0.06973145073148566, "train/policy_entropy_std": 0.6259706112700449, "train/policy_logprob_mag": 6.798254980167872, "train/policy_logprob_max": -0.008990888169009082, "train/policy_logprob_mean": -1.2064780979089333, "train/policy_logprob_min": -6.798254980167872, "train/policy_logprob_std": 1.0909052415632865, "train/policy_randomness_mag": 0.9921006921311499, "train/policy_randomness_max": 0.9921006921311499, "train/policy_randomness_mean": 0.5495479085915526, "train/policy_randomness_min": 0.0317361508037003, "train/policy_randomness_std": 0.2848914983406873, "train/post_ent_mag": 59.1134135286573, "train/post_ent_max": 59.1134135286573, "train/post_ent_mean": 38.77097245337258, "train/post_ent_min": 21.57454966155576, "train/post_ent_std": 5.572854391286071, "train/prior_ent_mag": 78.96312939281195, "train/prior_ent_max": 78.96312939281195, "train/prior_ent_mean": 43.678291535713306, "train/prior_ent_min": 24.396566901408452, "train/prior_ent_std": 8.332711266799711, "train/rep_loss_mean": 4.8903114459884, "train/rep_loss_std": 6.804712973849874, "train/reward_avg": 1.250825264084507, "train/reward_loss_mean": 0.06730873919498752, "train/reward_loss_std": 0.2634665145420692, "train/reward_max_data": 194.7887323943662, "train/reward_max_pred": 148.73344538245402, "train/reward_neg_acc": 0.9692686829768437, "train/reward_neg_loss": 0.00811616368395027, "train/reward_pos_acc": 0.9933921854260942, "train/reward_pos_loss": 0.6793678100679962, "train/reward_pred": 1.076678560653203, "train/reward_rate": 0.0880556778169014, "train_stats/mean_log_entropy": 1.0791810750961304, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 9.723797847982496e-05, "report/cont_loss_std": 0.002681372221559286, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.4481170751423633e-07, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.733288607094437e-05, "report/cont_pred": 0.9989297389984131, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.058069705963135, "report/dyn_loss_std": 6.304474353790283, "report/image_loss_mean": 1.5201735496520996, "report/image_loss_std": 1.3634740114212036, "report/model_loss_mean": 4.016984462738037, "report/model_loss_std": 4.917379856109619, "report/post_ent_mag": 59.84149932861328, "report/post_ent_max": 59.84149932861328, "report/post_ent_mean": 38.30484390258789, "report/post_ent_min": 19.98538589477539, "report/post_ent_std": 6.4624762535095215, "report/prior_ent_mag": 78.99235534667969, "report/prior_ent_max": 78.99235534667969, "report/prior_ent_mean": 42.38639831542969, "report/prior_ent_min": 21.967472076416016, "report/prior_ent_std": 8.984996795654297, "report/rep_loss_mean": 4.058069705963135, "report/rep_loss_std": 6.304474353790283, "report/reward_avg": 1.171875, "report/reward_loss_mean": 0.06187206506729126, "report/reward_loss_std": 0.21543529629707336, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.5321044921875, "report/reward_neg_acc": 0.9848974943161011, "report/reward_neg_loss": 0.0032856615725904703, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6217648386955261, "report/reward_pred": 1.1187998056411743, "report/reward_rate": 0.0947265625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0024228901602327824, "eval/cont_loss_std": 0.04867621511220932, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.3861028254032135, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.001672048820182681, "eval/cont_pred": 0.9975272417068481, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 10.699630737304688, "eval/dyn_loss_std": 9.520939826965332, "eval/image_loss_mean": 4.206881046295166, "eval/image_loss_std": 3.693289041519165, "eval/model_loss_mean": 11.187440872192383, "eval/model_loss_std": 9.030055046081543, "eval/post_ent_mag": 56.72718811035156, "eval/post_ent_max": 56.72718811035156, "eval/post_ent_mean": 40.763099670410156, "eval/post_ent_min": 22.88409423828125, "eval/post_ent_std": 5.962012767791748, "eval/prior_ent_mag": 78.99235534667969, "eval/prior_ent_max": 78.99235534667969, "eval/prior_ent_mean": 47.36659240722656, "eval/prior_ent_min": 24.112689971923828, "eval/prior_ent_std": 8.802997589111328, "eval/rep_loss_mean": 10.699630737304688, "eval/rep_loss_std": 9.520939826965332, "eval/reward_avg": 1.142578125, "eval/reward_loss_mean": 0.5583586692810059, "eval/reward_loss_std": 2.214370012283325, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 46.03763961791992, "eval/reward_neg_acc": 0.8885246515274048, "eval/reward_neg_loss": 0.14244718849658966, "eval/reward_pos_acc": 0.6513761281967163, "eval/reward_pos_loss": 4.049725532531738, "eval/reward_pred": 0.8316302299499512, "eval/reward_rate": 0.1064453125, "replay/size": 113493.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.917662825189834e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3693184872663372e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.18269896507263, "timer/env.step_count": 713.0, "timer/env.step_total": 2.825949192047119, "timer/env.step_frac": 0.009414097487263677, "timer/env.step_avg": 0.003963463102450378, "timer/env.step_min": 0.0022351741790771484, "timer/env.step_max": 0.021743059158325195, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.19440865516663, "timer/replay._sample_frac": 0.5902885451629037, "timer/replay._sample_avg": 0.015532469201890482, "timer/replay._sample_min": 0.007640838623046875, "timer/replay._sample_max": 0.045052528381347656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10695624351501465, "timer/agent.save_frac": 0.0003563038239171119, "timer/agent.save_avg": 0.10695624351501465, "timer/agent.save_min": 0.10695624351501465, "timer/agent.save_max": 0.10695624351501465, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.31827688217163, "timer/agent.policy_frac": 0.6639898887222779, "timer/agent.policy_avg": 0.27954877543081574, "timer/agent.policy_min": 0.003115415573120117, "timer/agent.policy_max": 0.3272061347961426, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09495091438293457, "timer/dataset_train_frac": 0.0003163104159909711, "timer/dataset_train_avg": 0.00013317098791435425, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.002656221389770508, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.87013864517212, "timer/agent.train_frac": 0.3227039365664552, "timer/agent.train_avg": 0.13586274704792722, "timer/agent.train_min": 0.09793806076049805, "timer/agent.train_max": 0.42971158027648926, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5008423328399658, "timer/agent.report_frac": 0.001668458357415997, "timer/agent.report_avg": 0.2504211664199829, "timer/agent.report_min": 0.10040402412414551, "timer/agent.report_max": 0.4004383087158203, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.866455078125e-05, "timer/dataset_eval_frac": 2.2874253252429907e-07, "timer/dataset_eval_avg": 6.866455078125e-05, "timer/dataset_eval_min": 6.866455078125e-05, "timer/dataset_eval_max": 6.866455078125e-05, "fps": 9.500530261230255}
+{"step": 457076, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.793754470180458, "train/action_min": 0.0, "train/action_std": 2.82940579132295, "train/actor_opt_grad_norm": 0.007903600387065344, "train/actor_opt_grad_steps": 112810.0, "train/actor_opt_loss": 0.0009485466734089718, "train/adv_mag": 0.6841582024181393, "train/adv_max": 0.6534040026681524, "train/adv_mean": 0.002109757188547109, "train/adv_min": -0.42561571992618935, "train/adv_std": 0.0354510952364391, "train/cont_avg": 0.9985832966549296, "train/cont_loss_mean": 0.00021212044899124823, "train/cont_loss_std": 0.005750078796733654, "train/cont_neg_acc": 0.9866071428571429, "train/cont_neg_loss": 0.039571760459641246, "train/cont_pos_acc": 0.9999586545245748, "train/cont_pos_loss": 0.00013076149764524228, "train/cont_pred": 0.9985335125050074, "train/cont_rate": 0.9985832966549296, "train/dyn_loss_mean": 4.96726020289139, "train/dyn_loss_std": 6.787427277632163, "train/extr_critic_critic_opt_grad_norm": 2.3728413732958513, "train/extr_critic_critic_opt_grad_steps": 112810.0, "train/extr_critic_critic_opt_loss": 1.558034341100236, "train/extr_critic_mag": 484.3100083042199, "train/extr_critic_max": 484.3100083042199, "train/extr_critic_mean": 183.92078883211377, "train/extr_critic_min": 0.28214210019984715, "train/extr_critic_std": 149.12785629487374, "train/extr_return_normed_mag": 1.2431577519631722, "train/extr_return_normed_max": 1.2431577519631722, "train/extr_return_normed_mean": 0.41924793409629607, "train/extr_return_normed_min": -0.007934742666203792, "train/extr_return_normed_std": 0.34799983425879144, "train/extr_return_rate": 0.9279618254849609, "train/extr_return_raw_mag": 540.2610581089074, "train/extr_return_raw_max": 540.2610581089074, "train/extr_return_raw_mean": 184.83120727539062, "train/extr_return_raw_min": 0.5107381773846549, "train/extr_return_raw_std": 150.14438930027922, "train/extr_reward_mag": 187.48661172893685, "train/extr_reward_max": 187.48661172893685, "train/extr_reward_mean": 1.0839639381623605, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.794051271089366, "train/image_loss_mean": 1.8798867061104574, "train/image_loss_std": 1.5972382065276025, "train/model_loss_mean": 4.939032101295363, "train/model_loss_std": 5.404274282321124, "train/model_opt_grad_norm": 12.359436169476576, "train/model_opt_grad_steps": 112810.0, "train/model_opt_loss": 4.939032101295363, "train/policy_entropy_mag": 2.1789857535295085, "train/policy_entropy_max": 2.1789857535295085, "train/policy_entropy_mean": 1.179925992455281, "train/policy_entropy_min": 0.06964269028583044, "train/policy_entropy_std": 0.6217114816249256, "train/policy_logprob_mag": 6.797901140132421, "train/policy_logprob_max": -0.008977478645532064, "train/policy_logprob_mean": -1.179489167643265, "train/policy_logprob_min": -6.797901140132421, "train/policy_logprob_std": 1.092874823321759, "train/policy_randomness_mag": 0.9916991490713307, "train/policy_randomness_max": 0.9916991490713307, "train/policy_randomness_mean": 0.5370074527364381, "train/policy_randomness_min": 0.03169575422792367, "train/policy_randomness_std": 0.28295308624354887, "train/post_ent_mag": 58.86995009301414, "train/post_ent_max": 58.86995009301414, "train/post_ent_mean": 38.88054898759009, "train/post_ent_min": 21.557281923965668, "train/post_ent_std": 5.547605904055313, "train/prior_ent_mag": 78.98556711975958, "train/prior_ent_max": 78.98556711975958, "train/prior_ent_mean": 43.832834485551004, "train/prior_ent_min": 23.916434462641327, "train/prior_ent_std": 8.25861391551058, "train/rep_loss_mean": 4.96726020289139, "train/rep_loss_std": 6.787427277632163, "train/reward_avg": 1.385068221830986, "train/reward_loss_mean": 0.0785771429433789, "train/reward_loss_std": 0.2797177081376734, "train/reward_max_data": 183.38028169014083, "train/reward_max_pred": 159.44510482734358, "train/reward_neg_acc": 0.9645751387300626, "train/reward_neg_loss": 0.011019719941672725, "train/reward_pos_acc": 0.993299770523125, "train/reward_pos_loss": 0.6744211131418255, "train/reward_pred": 1.2426370533419326, "train/reward_rate": 0.10176881602112677, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.000217980588786304, "report/cont_loss_std": 0.004085443913936615, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0790129080414772, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00014095719961915165, "report/cont_pred": 0.9989619851112366, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.76542854309082, "report/dyn_loss_std": 6.809039115905762, "report/image_loss_mean": 1.5864996910095215, "report/image_loss_std": 1.627264380455017, "report/model_loss_mean": 4.494865417480469, "report/model_loss_std": 5.44887113571167, "report/post_ent_mag": 57.44748306274414, "report/post_ent_max": 57.44748306274414, "report/post_ent_mean": 39.26583480834961, "report/post_ent_min": 24.144859313964844, "report/post_ent_std": 5.760954856872559, "report/prior_ent_mag": 79.0909194946289, "report/prior_ent_max": 79.0909194946289, "report/prior_ent_mean": 44.18425750732422, "report/prior_ent_min": 23.894800186157227, "report/prior_ent_std": 8.797981262207031, "report/rep_loss_mean": 4.76542854309082, "report/rep_loss_std": 6.809039115905762, "report/reward_avg": 1.572265625, "report/reward_loss_mean": 0.04889063164591789, "report/reward_loss_std": 0.15921662747859955, "report/reward_max_data": 400.0, "report/reward_max_pred": 315.1782531738281, "report/reward_neg_acc": 0.9745223522186279, "report/reward_neg_loss": 0.0048478650860488415, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.55484539270401, "report/reward_pred": 1.3628443479537964, "report/reward_rate": 0.080078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0017731058178469539, "eval/cont_loss_std": 0.056456077843904495, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.8074713945388794, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.004922165127937e-06, "eval/cont_pred": 0.9998317956924438, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 9.450178146362305, "eval/dyn_loss_std": 9.409716606140137, "eval/image_loss_mean": 3.429473876953125, "eval/image_loss_std": 3.438886880874634, "eval/model_loss_mean": 9.502099990844727, "eval/model_loss_std": 8.945743560791016, "eval/post_ent_mag": 59.939903259277344, "eval/post_ent_max": 59.939903259277344, "eval/post_ent_mean": 38.92518615722656, "eval/post_ent_min": 20.91790008544922, "eval/post_ent_std": 7.547147274017334, "eval/prior_ent_mag": 79.0909194946289, "eval/prior_ent_max": 79.0909194946289, "eval/prior_ent_mean": 43.39159393310547, "eval/prior_ent_min": 21.946674346923828, "eval/prior_ent_std": 10.705972671508789, "eval/rep_loss_mean": 9.450178146362305, "eval/rep_loss_std": 9.409716606140137, "eval/reward_avg": 1.15234375, "eval/reward_loss_mean": 0.40074530243873596, "eval/reward_loss_std": 1.7596279382705688, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 40.24935531616211, "eval/reward_neg_acc": 0.9268029928207397, "eval/reward_neg_loss": 0.10037518292665482, "eval/reward_pos_acc": 0.6631579399108887, "eval/reward_pos_loss": 3.3380489349365234, "eval/reward_pred": 0.7600566744804382, "eval/reward_rate": 0.0927734375, "replay/size": 114206.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.784576437416451e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3758808499800374e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0504596233368, "timer/env.step_count": 713.0, "timer/env.step_total": 2.843594789505005, "timer/env.step_frac": 0.009477055269552538, "timer/env.step_avg": 0.003988211485981774, "timer/env.step_min": 0.002318143844604492, "timer/env.step_max": 0.006953716278076172, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.84040546417236, "timer/replay._sample_frac": 0.5927016598722137, "timer/replay._sample_avg": 0.015589095850646245, "timer/replay._sample_min": 0.008076667785644531, "timer/replay._sample_max": 0.03757047653198242, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.00649118423462, "timer/agent.policy_frac": 0.6632434139046279, "timer/agent.policy_avg": 0.27911148833693494, "timer/agent.policy_min": 0.0034716129302978516, "timer/agent.policy_max": 0.32383227348327637, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09289002418518066, "timer/dataset_train_frac": 0.00030958134275744343, "timer/dataset_train_avg": 0.0001302805388291454, "timer/dataset_train_min": 6.890296936035156e-05, "timer/dataset_train_max": 0.0002918243408203125, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.07335472106934, "timer/agent.train_frac": 0.32352343283502616, "timer/agent.train_avg": 0.13614776258214492, "timer/agent.train_min": 0.09754800796508789, "timer/agent.train_max": 0.43580079078674316, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5072572231292725, "timer/agent.report_frac": 0.0016905730581651137, "timer/agent.report_avg": 0.25362861156463623, "timer/agent.report_min": 0.10328149795532227, "timer/agent.report_max": 0.4039757251739502, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.703636169433594e-05, "timer/dataset_eval_frac": 3.2340014348302905e-07, "timer/dataset_eval_avg": 9.703636169433594e-05, "timer/dataset_eval_min": 9.703636169433594e-05, "timer/dataset_eval_max": 9.703636169433594e-05, "fps": 9.504737077485368}
+{"step": 457084, "episode/length": 1029.0, "episode/score": 850.0, "episode/reward_rate": 0.07864077669902912}
+{"step": 459932, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.794075012207031, "train/action_min": 0.0, "train/action_std": 2.843504680527581, "train/actor_opt_grad_norm": 0.007952558685145859, "train/actor_opt_grad_steps": 113525.0, "train/actor_opt_loss": 0.001116556584466682, "train/adv_mag": 0.6333389700286918, "train/adv_max": 0.6037196560452381, "train/adv_mean": 0.0022054098057601047, "train/adv_min": -0.4259470098962386, "train/adv_std": 0.03483128718410929, "train/cont_avg": 0.9986707899305556, "train/cont_loss_mean": 0.0002272409130168123, "train/cont_loss_std": 0.005586691383161418, "train/cont_neg_acc": 0.9567901238247201, "train/cont_neg_loss": 0.0887354138905023, "train/cont_pos_acc": 0.9999592163496547, "train/cont_pos_loss": 0.00012987427038485235, "train/cont_pred": 0.9986529971162478, "train/cont_rate": 0.9986707899305556, "train/dyn_loss_mean": 4.788939565420151, "train/dyn_loss_std": 6.718567351500194, "train/extr_critic_critic_opt_grad_norm": 2.2912846787108316, "train/extr_critic_critic_opt_grad_steps": 113525.0, "train/extr_critic_critic_opt_loss": 1.5221229179037943, "train/extr_critic_mag": 505.95367007785376, "train/extr_critic_max": 505.95367007785376, "train/extr_critic_mean": 191.2153958214654, "train/extr_critic_min": 0.28377656638622284, "train/extr_critic_std": 153.04399469163684, "train/extr_return_normed_mag": 1.2945359895626705, "train/extr_return_normed_max": 1.2945359895626705, "train/extr_return_normed_mean": 0.43453848072224194, "train/extr_return_normed_min": -0.00906453562703291, "train/extr_return_normed_std": 0.3567010263601939, "train/extr_return_rate": 0.9352403870887227, "train/extr_return_raw_mag": 563.9030990600586, "train/extr_return_raw_max": 563.9030990600586, "train/extr_return_raw_mean": 192.16893005371094, "train/extr_return_raw_min": 0.29605755671056816, "train/extr_return_raw_std": 154.24109967549643, "train/extr_reward_mag": 214.5743821726905, "train/extr_reward_max": 214.5743821726905, "train/extr_reward_mean": 1.082327199065023, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.357441001468235, "train/image_loss_mean": 1.8079119275013606, "train/image_loss_std": 1.5481454531351726, "train/model_loss_mean": 4.752576639254888, "train/model_loss_std": 5.2918464408980475, "train/model_opt_grad_norm": 12.459759831428528, "train/model_opt_grad_steps": 113525.0, "train/model_opt_loss": 4.752576639254888, "train/policy_entropy_mag": 2.177749845716688, "train/policy_entropy_max": 2.177749845716688, "train/policy_entropy_mean": 1.1692932198445003, "train/policy_entropy_min": 0.06960174286117156, "train/policy_entropy_std": 0.626070975429482, "train/policy_logprob_mag": 6.798501961761051, "train/policy_logprob_max": -0.008971423402221667, "train/policy_logprob_mean": -1.1695675336652331, "train/policy_logprob_min": -6.798501961761051, "train/policy_logprob_std": 1.099045518371794, "train/policy_randomness_mag": 0.9911366593506601, "train/policy_randomness_max": 0.9911366593506601, "train/policy_randomness_mean": 0.5321682712270154, "train/policy_randomness_min": 0.03167711819211642, "train/policy_randomness_std": 0.2849371770603789, "train/post_ent_mag": 58.798366175757515, "train/post_ent_max": 58.798366175757515, "train/post_ent_mean": 38.91451766755846, "train/post_ent_min": 21.943191952175564, "train/post_ent_std": 5.508512149254481, "train/prior_ent_mag": 79.11420567830403, "train/prior_ent_max": 79.11420567830403, "train/prior_ent_mean": 43.72420099046495, "train/prior_ent_min": 24.074774583180744, "train/prior_ent_std": 8.188209454218546, "train/rep_loss_mean": 4.788939565420151, "train/rep_loss_std": 6.718567351500194, "train/reward_avg": 1.3652886284722223, "train/reward_loss_mean": 0.07107371909336911, "train/reward_loss_std": 0.25717216461069053, "train/reward_max_data": 220.83333333333334, "train/reward_max_pred": 192.95321815543704, "train/reward_neg_acc": 0.9701113378008207, "train/reward_neg_loss": 0.008654953876329172, "train/reward_pos_acc": 0.9946451427208053, "train/reward_pos_loss": 0.6511462074187067, "train/reward_pred": 1.2282011057767603, "train/reward_rate": 0.09724934895833333, "train_stats/mean_log_entropy": 0.788513720035553, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 5.687183488589653e-07, "report/cont_loss_std": 1.354527375951875e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00042737415060400963, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.5150875753988657e-07, "report/cont_pred": 0.9990237355232239, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.0443925857543945, "report/dyn_loss_std": 6.634758949279785, "report/image_loss_mean": 2.046572685241699, "report/image_loss_std": 1.385778546333313, "report/model_loss_mean": 5.154672145843506, "report/model_loss_std": 5.144118309020996, "report/post_ent_mag": 56.74610900878906, "report/post_ent_max": 56.74610900878906, "report/post_ent_mean": 40.726470947265625, "report/post_ent_min": 23.904048919677734, "report/post_ent_std": 4.7246928215026855, "report/prior_ent_mag": 79.21632385253906, "report/prior_ent_max": 79.21632385253906, "report/prior_ent_mean": 45.976043701171875, "report/prior_ent_min": 27.672704696655273, "report/prior_ent_std": 7.039339065551758, "report/rep_loss_mean": 5.0443925857543945, "report/rep_loss_std": 6.634758949279785, "report/reward_avg": 1.865234375, "report/reward_loss_mean": 0.08146335929632187, "report/reward_loss_std": 0.24249662458896637, "report/reward_max_data": 400.0, "report/reward_max_pred": 399.3505554199219, "report/reward_neg_acc": 0.9612832069396973, "report/reward_neg_loss": 0.008500966243445873, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6311134099960327, "report/reward_pred": 1.6941871643066406, "report/reward_rate": 0.1171875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.009032304398715496, "eval/cont_loss_std": 0.22749103605747223, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.0845675468444824, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.006927538197487593, "eval/cont_pred": 0.9981893301010132, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.479081153869629, "eval/dyn_loss_std": 9.560962677001953, "eval/image_loss_mean": 4.970254421234131, "eval/image_loss_std": 4.038431644439697, "eval/model_loss_mean": 13.086448669433594, "eval/model_loss_std": 9.618699073791504, "eval/post_ent_mag": 59.060523986816406, "eval/post_ent_max": 59.060523986816406, "eval/post_ent_mean": 41.0374755859375, "eval/post_ent_min": 20.569190979003906, "eval/post_ent_std": 6.971591472625732, "eval/prior_ent_mag": 79.21632385253906, "eval/prior_ent_max": 79.21632385253906, "eval/prior_ent_mean": 47.69287872314453, "eval/prior_ent_min": 22.893047332763672, "eval/prior_ent_std": 10.364448547363281, "eval/rep_loss_mean": 12.479081153869629, "eval/rep_loss_std": 9.560962677001953, "eval/reward_avg": 0.99609375, "eval/reward_loss_mean": 0.6197124719619751, "eval/reward_loss_std": 2.4717979431152344, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.518795013427734, "eval/reward_neg_acc": 0.8987206816673279, "eval/reward_neg_loss": 0.10738854855298996, "eval/reward_pos_acc": 0.44186046719551086, "eval/reward_pos_loss": 6.207617282867432, "eval/reward_pred": 0.4781956970691681, "eval/reward_rate": 0.083984375, "replay/size": 114920.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.849269257874048e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3915263638109053e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2782952785492, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8536040782928467, "timer/env.step_frac": 0.009503197943913124, "timer/env.step_avg": 0.0039966443673569284, "timer/env.step_min": 0.0023069381713867188, "timer/env.step_max": 0.018273353576660156, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 178.93030405044556, "timer/replay._sample_frac": 0.5958815767368841, "timer/replay._sample_avg": 0.015662666671082418, "timer/replay._sample_min": 0.007970333099365234, "timer/replay._sample_max": 0.04911494255065918, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.1479287147522, "timer/agent.policy_frac": 0.6632112005631817, "timer/agent.policy_avg": 0.27891866766772017, "timer/agent.policy_min": 0.0033588409423828125, "timer/agent.policy_max": 0.3145904541015625, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09311985969543457, "timer/dataset_train_frac": 0.000310111856766248, "timer/dataset_train_avg": 0.00013041997156223328, "timer/dataset_train_min": 7.557868957519531e-05, "timer/dataset_train_max": 0.00034546852111816406, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.14914393424988, "timer/agent.train_frac": 0.3235303565451867, "timer/agent.train_avg": 0.1360632267986693, "timer/agent.train_min": 0.09782743453979492, "timer/agent.train_max": 0.4293999671936035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5004837512969971, "timer/agent.report_frac": 0.0016667330245522072, "timer/agent.report_avg": 0.25024187564849854, "timer/agent.report_min": 0.10283780097961426, "timer/agent.report_max": 0.3976459503173828, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.602836608886719e-05, "timer/dataset_eval_frac": 1.8658813164265907e-07, "timer/dataset_eval_avg": 5.602836608886719e-05, "timer/dataset_eval_min": 5.602836608886719e-05, "timer/dataset_eval_max": 5.602836608886719e-05, "fps": 9.510868263009131}
+{"step": 461272, "episode/length": 1046.0, "episode/score": 2720.0, "episode/reward_rate": 0.10888252148997135}
+{"step": 462784, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.720398808868838, "train/action_min": 0.0, "train/action_std": 2.8104196870830696, "train/actor_opt_grad_norm": 0.008373556278226241, "train/actor_opt_grad_steps": 114240.0, "train/actor_opt_loss": 0.0009041928774230412, "train/adv_mag": 0.6840964920923743, "train/adv_max": 0.6476160676126749, "train/adv_mean": 0.0020854975512738234, "train/adv_min": -0.45710979171202215, "train/adv_std": 0.036615069693243, "train/cont_avg": 0.9986520686619719, "train/cont_loss_mean": 0.0003321639782860128, "train/cont_loss_std": 0.009138757349787256, "train/cont_neg_acc": 0.9293785317469452, "train/cont_neg_loss": 0.11702676259607746, "train/cont_pos_acc": 0.9999449009626684, "train/cont_pos_loss": 0.0001718773123063727, "train/cont_pred": 0.99862514247357, "train/cont_rate": 0.9986520686619719, "train/dyn_loss_mean": 5.052320305730255, "train/dyn_loss_std": 6.766694250241132, "train/extr_critic_critic_opt_grad_norm": 2.3550703105792192, "train/extr_critic_critic_opt_grad_steps": 114240.0, "train/extr_critic_critic_opt_loss": 1.5811153751024059, "train/extr_critic_mag": 490.79141149386555, "train/extr_critic_max": 490.79141149386555, "train/extr_critic_mean": 181.1711346263617, "train/extr_critic_min": 0.03443154314873924, "train/extr_critic_std": 152.32418049557108, "train/extr_return_normed_mag": 1.2879208359919803, "train/extr_return_normed_max": 1.2879208359919803, "train/extr_return_normed_mean": 0.4122602958494509, "train/extr_return_normed_min": -0.009096678248016347, "train/extr_return_normed_std": 0.355236378354086, "train/extr_return_rate": 0.931758959528426, "train/extr_return_raw_mag": 560.3652519978268, "train/extr_return_raw_max": 560.3652519978268, "train/extr_return_raw_mean": 182.07381030875192, "train/extr_return_raw_min": 0.04277180705521203, "train/extr_return_raw_std": 153.4684496597505, "train/extr_reward_mag": 216.50331111693046, "train/extr_reward_max": 216.50331111693046, "train/extr_reward_mean": 1.0598273705428756, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.362005284134771, "train/image_loss_mean": 1.8773864809895906, "train/image_loss_std": 1.5983906698898531, "train/model_loss_mean": 4.981488221128222, "train/model_loss_std": 5.366812786585848, "train/model_opt_grad_norm": 13.185243472247057, "train/model_opt_grad_steps": 114240.0, "train/model_opt_loss": 4.981488221128222, "train/policy_entropy_mag": 2.177824876677822, "train/policy_entropy_max": 2.177824876677822, "train/policy_entropy_mean": 1.198414987241718, "train/policy_entropy_min": 0.06953936322054392, "train/policy_entropy_std": 0.6207972164724914, "train/policy_logprob_mag": 6.798501847495495, "train/policy_logprob_max": -0.008962086952803, "train/policy_logprob_mean": -1.1976965489521834, "train/policy_logprob_min": -6.798501847495495, "train/policy_logprob_std": 1.0909002003535417, "train/policy_randomness_mag": 0.9911708051050213, "train/policy_randomness_max": 0.9911708051050213, "train/policy_randomness_mean": 0.5454221653266692, "train/policy_randomness_min": 0.03164872789466885, "train/policy_randomness_std": 0.28253698621837187, "train/post_ent_mag": 58.11558693899235, "train/post_ent_max": 58.11558693899235, "train/post_ent_mean": 38.82858324722505, "train/post_ent_min": 20.961677793046118, "train/post_ent_std": 5.587109988843891, "train/prior_ent_mag": 79.08594362500688, "train/prior_ent_max": 79.08594362500688, "train/prior_ent_mean": 43.87760957529847, "train/prior_ent_min": 23.66395407663265, "train/prior_ent_std": 8.277069850706718, "train/rep_loss_mean": 5.052320305730255, "train/rep_loss_std": 6.766694250241132, "train/reward_avg": 1.398685079225352, "train/reward_loss_mean": 0.07237743297722977, "train/reward_loss_std": 0.2559980867614209, "train/reward_max_data": 219.29577464788733, "train/reward_max_pred": 188.25091516467887, "train/reward_neg_acc": 0.9651966598671926, "train/reward_neg_loss": 0.010668805606899336, "train/reward_pos_acc": 0.9947377292203231, "train/reward_pos_loss": 0.6517893772729686, "train/reward_pred": 1.2389276758046217, "train/reward_rate": 0.09637709066901408, "train_stats/mean_log_entropy": 1.1938127279281616, "report/cont_avg": 1.0, "report/cont_loss_mean": 6.812812216594466e-07, "report/cont_loss_std": 1.1730178812285885e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.812812216594466e-07, "report/cont_pred": 0.9999992847442627, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.153847694396973, "report/dyn_loss_std": 6.307857990264893, "report/image_loss_mean": 1.6336365938186646, "report/image_loss_std": 1.0920180082321167, "report/model_loss_mean": 4.2070231437683105, "report/model_loss_std": 4.612637042999268, "report/post_ent_mag": 59.88629150390625, "report/post_ent_max": 59.88629150390625, "report/post_ent_mean": 39.81825256347656, "report/post_ent_min": 19.438560485839844, "report/post_ent_std": 4.668684959411621, "report/prior_ent_mag": 79.21240234375, "report/prior_ent_max": 79.21240234375, "report/prior_ent_mean": 44.28602600097656, "report/prior_ent_min": 24.309558868408203, "report/prior_ent_std": 6.696340560913086, "report/rep_loss_mean": 4.153847694396973, "report/rep_loss_std": 6.307857990264893, "report/reward_avg": 1.9140625, "report/reward_loss_mean": 0.08107742667198181, "report/reward_loss_std": 0.2925320565700531, "report/reward_max_data": 400.0, "report/reward_max_pred": 387.648193359375, "report/reward_neg_acc": 0.9690949320793152, "report/reward_neg_loss": 0.006306021939963102, "report/reward_pos_acc": 0.9830508232116699, "report/reward_pos_loss": 0.655169665813446, "report/reward_pred": 1.7976129055023193, "report/reward_rate": 0.115234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 8.731208822609915e-08, "eval/cont_loss_std": 1.7190106973430375e-06, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 4.907654147245921e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.942428250525154e-08, "eval/cont_pred": 0.9990234375, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.965066909790039, "eval/dyn_loss_std": 9.665175437927246, "eval/image_loss_mean": 4.117439270019531, "eval/image_loss_std": 3.327401876449585, "eval/model_loss_mean": 11.597347259521484, "eval/model_loss_std": 9.47020149230957, "eval/post_ent_mag": 59.359413146972656, "eval/post_ent_max": 59.359413146972656, "eval/post_ent_mean": 41.24623107910156, "eval/post_ent_min": 22.79132843017578, "eval/post_ent_std": 6.273062705993652, "eval/prior_ent_mag": 79.21240234375, "eval/prior_ent_max": 79.21240234375, "eval/prior_ent_mean": 47.99632263183594, "eval/prior_ent_min": 22.90053939819336, "eval/prior_ent_std": 8.783759117126465, "eval/rep_loss_mean": 10.965066909790039, "eval/rep_loss_std": 9.665175437927246, "eval/reward_avg": 1.416015625, "eval/reward_loss_mean": 0.9008683562278748, "eval/reward_loss_std": 3.1044399738311768, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 10.009109497070312, "eval/reward_neg_acc": 0.8708240985870361, "eval/reward_neg_loss": 0.1852377951145172, "eval/reward_pos_acc": 0.547619104385376, "eval/reward_pos_loss": 6.001156330108643, "eval/reward_pred": 0.8540900945663452, "eval/reward_rate": 0.123046875, "replay/size": 115633.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.856135449937818e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3768631144626612e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.041459083557129e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.06361174583435, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8268747329711914, "timer/env.step_frac": 0.0094209181730628, "timer/env.step_avg": 0.003964761196313032, "timer/env.step_min": 0.0021467208862304688, "timer/env.step_max": 0.024512529373168945, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.9755220413208, "timer/replay._sample_frac": 0.5931259742086723, "timer/replay._sample_avg": 0.015600939870382259, "timer/replay._sample_min": 0.0075109004974365234, "timer/replay._sample_max": 0.03551650047302246, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17048311233520508, "timer/agent.save_frac": 0.0005681565696796683, "timer/agent.save_avg": 0.17048311233520508, "timer/agent.save_min": 0.17048311233520508, "timer/agent.save_max": 0.17048311233520508, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.55016803741455, "timer/agent.policy_frac": 0.6650262151961344, "timer/agent.policy_avg": 0.2798740084676221, "timer/agent.policy_min": 0.003348827362060547, "timer/agent.policy_max": 0.3915748596191406, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.0925896167755127, "timer/dataset_train_frac": 0.00030856662771205906, "timer/dataset_train_avg": 0.00012985921006383267, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.00045371055603027344, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.56960988044739, "timer/agent.train_frac": 0.3218304589436377, "timer/agent.train_avg": 0.13544124807916885, "timer/agent.train_min": 0.09701371192932129, "timer/agent.train_max": 0.4287245273590088, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49820566177368164, "timer/agent.report_frac": 0.0016603334835404214, "timer/agent.report_avg": 0.24910283088684082, "timer/agent.report_min": 0.09839844703674316, "timer/agent.report_max": 0.3998072147369385, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012922286987304688, "timer/dataset_eval_frac": 4.3065158457968477e-07, "timer/dataset_eval_avg": 0.00012922286987304688, "timer/dataset_eval_min": 0.00012922286987304688, "timer/dataset_eval_max": 0.00012922286987304688, "fps": 9.504365224011657}
+{"step": 463852, "episode/length": 644.0, "episode/score": 900.0, "episode/reward_rate": 0.11317829457364341}
+{"step": 465640, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.75437249077691, "train/action_min": 0.0, "train/action_std": 2.7942848801612854, "train/actor_opt_grad_norm": 0.0078030768911250764, "train/actor_opt_grad_steps": 114955.0, "train/actor_opt_loss": 0.000986288247411772, "train/adv_mag": 0.6237623873684142, "train/adv_max": 0.5912968495653735, "train/adv_mean": 0.0024300576048593334, "train/adv_min": -0.4243106318430768, "train/adv_std": 0.03472614327135185, "train/cont_avg": 0.9986436631944444, "train/cont_loss_mean": 0.00012054989000255379, "train/cont_loss_std": 0.0033865549721875266, "train/cont_neg_acc": 0.967741935483871, "train/cont_neg_loss": 0.05396354352533198, "train/cont_pos_acc": 0.9999728194541402, "train/cont_pos_loss": 7.042178146294326e-05, "train/cont_pred": 0.9986301370792918, "train/cont_rate": 0.9986436631944444, "train/dyn_loss_mean": 4.727797564533022, "train/dyn_loss_std": 6.753759026527405, "train/extr_critic_critic_opt_grad_norm": 2.169392090704706, "train/extr_critic_critic_opt_grad_steps": 114955.0, "train/extr_critic_critic_opt_loss": 1.4885456942849689, "train/extr_critic_mag": 502.6045964558919, "train/extr_critic_max": 502.6045964558919, "train/extr_critic_mean": 196.823823928833, "train/extr_critic_min": 0.02219061553478241, "train/extr_critic_std": 153.75795544518365, "train/extr_return_normed_mag": 1.2484606405099232, "train/extr_return_normed_max": 1.2484606405099232, "train/extr_return_normed_mean": 0.44418812294801074, "train/extr_return_normed_min": -0.008623351407651272, "train/extr_return_normed_std": 0.35490012706981766, "train/extr_return_rate": 0.9329436603519652, "train/extr_return_raw_mag": 549.2501207987467, "train/extr_return_raw_max": 549.2501207987467, "train/extr_return_raw_mean": 197.88528887430826, "train/extr_return_raw_min": 0.021286435388093296, "train/extr_return_raw_std": 155.05542458428278, "train/extr_reward_mag": 199.01370276345148, "train/extr_reward_max": 199.01370276345148, "train/extr_reward_mean": 1.0605137662755117, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.872656832138698, "train/image_loss_mean": 1.8086862232949998, "train/image_loss_std": 1.571612106429206, "train/model_loss_mean": 4.716991662979126, "train/model_loss_std": 5.352716114785936, "train/model_opt_grad_norm": 12.075448645485771, "train/model_opt_grad_steps": 114955.0, "train/model_opt_loss": 4.716991662979126, "train/policy_entropy_mag": 2.1777855455875397, "train/policy_entropy_max": 2.1777855455875397, "train/policy_entropy_mean": 1.1718417315019503, "train/policy_entropy_min": 0.06971094912538926, "train/policy_entropy_std": 0.6151454755001597, "train/policy_logprob_mag": 6.798158639007145, "train/policy_logprob_max": -0.008988711180993252, "train/policy_logprob_mean": -1.1720203782121341, "train/policy_logprob_min": -6.798158639007145, "train/policy_logprob_std": 1.0949609975020091, "train/policy_randomness_mag": 0.9911529107226266, "train/policy_randomness_max": 0.9911529107226266, "train/policy_randomness_mean": 0.5333281585739719, "train/policy_randomness_min": 0.03172682003221578, "train/policy_randomness_std": 0.279964765947726, "train/post_ent_mag": 58.76791948742337, "train/post_ent_max": 58.76791948742337, "train/post_ent_mean": 38.7083789507548, "train/post_ent_min": 21.740926451153225, "train/post_ent_std": 5.543627682659361, "train/prior_ent_mag": 79.0418291091919, "train/prior_ent_max": 79.0418291091919, "train/prior_ent_mean": 43.447419537438286, "train/prior_ent_min": 23.737075832155014, "train/prior_ent_std": 8.292703568935394, "train/rep_loss_mean": 4.727797564533022, "train/rep_loss_std": 6.753759026527405, "train/reward_avg": 1.3671875, "train/reward_loss_mean": 0.07150634678287639, "train/reward_loss_std": 0.26030873465869164, "train/reward_max_data": 226.94444444444446, "train/reward_max_pred": 174.89984391795264, "train/reward_neg_acc": 0.9701452727119128, "train/reward_neg_loss": 0.008927478755746657, "train/reward_pos_acc": 0.9941961682505078, "train/reward_pos_loss": 0.664307085176309, "train/reward_pred": 1.1963879441221554, "train/reward_rate": 0.09571668836805555, "train_stats/mean_log_entropy": 1.2056154012680054, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0007924212259240448, "report/cont_loss_std": 0.024370549246668816, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0020653351675719023, "report/cont_pos_acc": 0.9990224838256836, "report/cont_pos_loss": 0.0007911769207566977, "report/cont_pred": 0.9984680414199829, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.602492809295654, "report/dyn_loss_std": 6.567782402038574, "report/image_loss_mean": 1.7631678581237793, "report/image_loss_std": 1.547819972038269, "report/model_loss_mean": 4.579916954040527, "report/model_loss_std": 5.282308101654053, "report/post_ent_mag": 58.615970611572266, "report/post_ent_max": 58.615970611572266, "report/post_ent_mean": 38.413421630859375, "report/post_ent_min": 19.6246337890625, "report/post_ent_std": 6.260545253753662, "report/prior_ent_mag": 79.0107421875, "report/prior_ent_max": 79.0107421875, "report/prior_ent_mean": 42.9719123840332, "report/prior_ent_min": 23.048383712768555, "report/prior_ent_std": 8.985233306884766, "report/rep_loss_mean": 4.602492809295654, "report/rep_loss_std": 6.567782402038574, "report/reward_avg": 1.0546875, "report/reward_loss_mean": 0.05446086823940277, "report/reward_loss_std": 0.2284509539604187, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.60662841796875, "report/reward_neg_acc": 0.987274706363678, "report/reward_neg_loss": 0.0026490299496799707, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6576530337333679, "report/reward_pred": 0.9937817454338074, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0002973416994791478, "eval/cont_loss_std": 0.008771714754402637, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.00036417890805751085, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00029714530683122575, "eval/cont_pred": 0.9968103170394897, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 10.08691692352295, "eval/dyn_loss_std": 9.838105201721191, "eval/image_loss_mean": 4.124680042266846, "eval/image_loss_std": 3.6987686157226562, "eval/model_loss_mean": 10.493324279785156, "eval/model_loss_std": 9.168622016906738, "eval/post_ent_mag": 59.4976806640625, "eval/post_ent_max": 59.4976806640625, "eval/post_ent_mean": 41.36053466796875, "eval/post_ent_min": 20.21381950378418, "eval/post_ent_std": 5.898083686828613, "eval/prior_ent_mag": 79.0107421875, "eval/prior_ent_max": 79.0107421875, "eval/prior_ent_mean": 47.05029296875, "eval/prior_ent_min": 23.22098159790039, "eval/prior_ent_std": 8.665139198303223, "eval/rep_loss_mean": 10.08691692352295, "eval/rep_loss_std": 9.838105201721191, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.31619688868522644, "eval/reward_loss_std": 1.468232274055481, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 48.585025787353516, "eval/reward_neg_acc": 0.9255318641662598, "eval/reward_neg_loss": 0.072456493973732, "eval/reward_pos_acc": 0.738095223903656, "eval/reward_pos_loss": 3.0437681674957275, "eval/reward_pred": 0.6864495873451233, "eval/reward_rate": 0.08203125, "replay/size": 116347.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.901360712131532e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3729520872527478e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7583370208740234e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3113942146301, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8640050888061523, "timer/env.step_frac": 0.009536784630819806, "timer/env.step_avg": 0.004011211608972202, "timer/env.step_min": 0.002394437789916992, "timer/env.step_max": 0.024596452713012695, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 176.64046716690063, "timer/replay._sample_frac": 0.5881910262807315, "timer/replay._sample_avg": 0.01546222576741077, "timer/replay._sample_min": 0.008007049560546875, "timer/replay._sample_max": 0.05862855911254883, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.41177105903625, "timer/agent.policy_frac": 0.6640166670350119, "timer/agent.policy_avg": 0.279288194760555, "timer/agent.policy_min": 0.003456592559814453, "timer/agent.policy_max": 0.3264002799987793, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08968448638916016, "timer/dataset_train_frac": 0.0002986383071601452, "timer/dataset_train_avg": 0.00012560852435456604, "timer/dataset_train_min": 7.390975952148438e-05, "timer/dataset_train_max": 0.0003199577331542969, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.21345829963684, "timer/agent.train_frac": 0.323708857447344, "timer/agent.train_avg": 0.13615330294066785, "timer/agent.train_min": 0.0972297191619873, "timer/agent.train_max": 0.43560051918029785, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20116591453552246, "timer/agent.report_frac": 0.0006698577490261685, "timer/agent.report_avg": 0.10058295726776123, "timer/agent.report_min": 0.10007739067077637, "timer/agent.report_max": 0.1010885238647461, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.343292236328125e-05, "timer/dataset_eval_frac": 2.44522598136251e-07, "timer/dataset_eval_avg": 7.343292236328125e-05, "timer/dataset_eval_min": 7.343292236328125e-05, "timer/dataset_eval_max": 7.343292236328125e-05, "fps": 9.509746338858529}
+{"step": 466544, "episode/length": 672.0, "episode/score": 1440.0, "episode/reward_rate": 0.12184249628528974}
+{"step": 468496, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.643871038732394, "train/action_min": 0.0, "train/action_std": 2.7779829804326446, "train/actor_opt_grad_norm": 0.008784759599505596, "train/actor_opt_grad_steps": 115670.0, "train/actor_opt_loss": 0.001224304176580069, "train/adv_mag": 0.6932642883817914, "train/adv_max": 0.6723788443585517, "train/adv_mean": 0.002383256859304029, "train/adv_min": -0.3960887980712971, "train/adv_std": 0.03759757801890373, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.00016338222116190476, "train/cont_loss_std": 0.004513216764742067, "train/cont_neg_acc": 0.9768518518518519, "train/cont_neg_loss": 0.044553856538124555, "train/cont_pos_acc": 0.9999586671171053, "train/cont_pos_loss": 9.942692691870872e-05, "train/cont_pred": 0.998666481232979, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.992204662779687, "train/dyn_loss_std": 6.776368631443507, "train/extr_critic_critic_opt_grad_norm": 2.37801632243143, "train/extr_critic_critic_opt_grad_steps": 115670.0, "train/extr_critic_critic_opt_loss": 1.5953175904045642, "train/extr_critic_mag": 495.91639387103874, "train/extr_critic_max": 495.91639387103874, "train/extr_critic_mean": 182.3657981980015, "train/extr_critic_min": 0.42574883850527484, "train/extr_critic_std": 148.7558930088097, "train/extr_return_normed_mag": 1.3031395354741055, "train/extr_return_normed_max": 1.3031395354741055, "train/extr_return_normed_mean": 0.41106371623529514, "train/extr_return_normed_min": -0.00775360269472003, "train/extr_return_normed_std": 0.34365965740781435, "train/extr_return_rate": 0.9371506790040245, "train/extr_return_raw_mag": 573.1452417507977, "train/extr_return_raw_max": 573.1452417507977, "train/extr_return_raw_mean": 183.40711652728874, "train/extr_return_raw_min": 0.43003577558884504, "train/extr_return_raw_std": 150.13950863690442, "train/extr_reward_mag": 245.5216532962423, "train/extr_reward_max": 245.5216532962423, "train/extr_reward_mean": 1.110820774461182, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.73173761031997, "train/image_loss_mean": 1.897686607401136, "train/image_loss_std": 1.5722681821232112, "train/model_loss_mean": 4.966536317073124, "train/model_loss_std": 5.36354145533602, "train/model_opt_grad_norm": 12.286078103831116, "train/model_opt_grad_steps": 115670.0, "train/model_opt_loss": 4.966536317073124, "train/policy_entropy_mag": 2.1782628952617378, "train/policy_entropy_max": 2.1782628952617378, "train/policy_entropy_mean": 1.2109275838019142, "train/policy_entropy_min": 0.06988174615191742, "train/policy_entropy_std": 0.6063750831174178, "train/policy_logprob_mag": 6.795911668052136, "train/policy_logprob_max": -0.009015031290096296, "train/policy_logprob_mean": -1.2114348159709447, "train/policy_logprob_min": -6.795911668052136, "train/policy_logprob_std": 1.0904953110385949, "train/policy_randomness_mag": 0.9913701591357379, "train/policy_randomness_max": 0.9913701591357379, "train/policy_randomness_mean": 0.5511168900509955, "train/policy_randomness_min": 0.03180455280021882, "train/policy_randomness_std": 0.2759731888351306, "train/post_ent_mag": 58.17998520757111, "train/post_ent_max": 58.17998520757111, "train/post_ent_mean": 38.984759263589346, "train/post_ent_min": 22.197919039659098, "train/post_ent_std": 5.42777045679764, "train/prior_ent_mag": 79.02621943514112, "train/prior_ent_max": 79.02621943514112, "train/prior_ent_mean": 44.01318359375, "train/prior_ent_min": 24.311674977692082, "train/prior_ent_std": 8.11957794511822, "train/rep_loss_mean": 4.992204662779687, "train/rep_loss_std": 6.776368631443507, "train/reward_avg": 1.457003741197183, "train/reward_loss_mean": 0.07336356889613917, "train/reward_loss_std": 0.2629694508414873, "train/reward_max_data": 250.14084507042253, "train/reward_max_pred": 203.59950207992338, "train/reward_neg_acc": 0.9669677480845384, "train/reward_neg_loss": 0.009498162332817282, "train/reward_pos_acc": 0.9948121376440558, "train/reward_pos_loss": 0.6537525502728744, "train/reward_pred": 1.299210465290177, "train/reward_rate": 0.09962312940140845, "train_stats/mean_log_entropy": 1.013787031173706, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.7132499863237172e-07, "report/cont_loss_std": 4.665299002226675e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00014860958617646247, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.62240540394032e-08, "report/cont_pred": 0.9990235567092896, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.859882354736328, "report/dyn_loss_std": 6.516639709472656, "report/image_loss_mean": 1.7996399402618408, "report/image_loss_std": 1.2187297344207764, "report/model_loss_mean": 4.795920372009277, "report/model_loss_std": 4.8927741050720215, "report/post_ent_mag": 58.32520294189453, "report/post_ent_max": 58.32520294189453, "report/post_ent_mean": 39.605323791503906, "report/post_ent_min": 25.55602264404297, "report/post_ent_std": 4.689706325531006, "report/prior_ent_mag": 79.1980972290039, "report/prior_ent_max": 79.1980972290039, "report/prior_ent_mean": 44.662933349609375, "report/prior_ent_min": 26.869083404541016, "report/prior_ent_std": 7.091335773468018, "report/rep_loss_mean": 4.859882354736328, "report/rep_loss_std": 6.516639709472656, "report/reward_avg": 1.416015625, "report/reward_loss_mean": 0.08035106956958771, "report/reward_loss_std": 0.2767668068408966, "report/reward_max_data": 200.0, "report/reward_max_pred": 194.01251220703125, "report/reward_neg_acc": 0.9768211841583252, "report/reward_neg_loss": 0.005104065872728825, "report/reward_pos_acc": 0.9830508232116699, "report/reward_pos_loss": 0.6580950021743774, "report/reward_pred": 1.3241817951202393, "report/reward_rate": 0.115234375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 4.029130195704056e-06, "eval/cont_loss_std": 0.00011853563046315685, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.029130195704056e-06, "eval/cont_pred": 0.9999959468841553, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 11.859557151794434, "eval/dyn_loss_std": 9.4482421875, "eval/image_loss_mean": 4.982752799987793, "eval/image_loss_std": 4.307021617889404, "eval/model_loss_mean": 13.015071868896484, "eval/model_loss_std": 10.044060707092285, "eval/post_ent_mag": 57.67431640625, "eval/post_ent_max": 57.67431640625, "eval/post_ent_mean": 40.86689758300781, "eval/post_ent_min": 23.241046905517578, "eval/post_ent_std": 5.169785022735596, "eval/prior_ent_mag": 79.1980972290039, "eval/prior_ent_max": 79.1980972290039, "eval/prior_ent_mean": 48.38862609863281, "eval/prior_ent_min": 23.344585418701172, "eval/prior_ent_std": 7.878173351287842, "eval/rep_loss_mean": 11.859557151794434, "eval/rep_loss_std": 9.4482421875, "eval/reward_avg": 1.6015625, "eval/reward_loss_mean": 0.9165806174278259, "eval/reward_loss_std": 3.0004401206970215, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 40.541046142578125, "eval/reward_neg_acc": 0.8744239807128906, "eval/reward_neg_loss": 0.2007162868976593, "eval/reward_pos_acc": 0.634615421295166, "eval/reward_pos_loss": 4.899723052978516, "eval/reward_pred": 1.0795953273773193, "eval/reward_rate": 0.15234375, "replay/size": 117061.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.801852677716595e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3680267734687869e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3677535057068, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8533809185028076, "timer/env.step_frac": 0.009499624660769703, "timer/env.step_avg": 0.003996331818631383, "timer/env.step_min": 0.001796722412109375, "timer/env.step_max": 0.023023605346679688, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 175.83245611190796, "timer/replay._sample_frac": 0.5853905889021048, "timer/replay._sample_avg": 0.015391496508395304, "timer/replay._sample_min": 0.006516933441162109, "timer/replay._sample_max": 0.03804779052734375, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.58293342590332, "timer/agent.policy_frac": 0.6644619174212101, "timer/agent.policy_avg": 0.27952791796345, "timer/agent.policy_min": 0.0034744739532470703, "timer/agent.policy_max": 0.32883143424987793, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.09093523025512695, "timer/dataset_train_frac": 0.0003027463141225619, "timer/dataset_train_avg": 0.00012736026646376325, "timer/dataset_train_min": 7.581710815429688e-05, "timer/dataset_train_max": 0.00022339820861816406, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.81389236450195, "timer/agent.train_frac": 0.3223178628016824, "timer/agent.train_avg": 0.13559368678501674, "timer/agent.train_min": 0.0972137451171875, "timer/agent.train_max": 0.43235087394714355, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5040414333343506, "timer/agent.report_frac": 0.0016780810438254124, "timer/agent.report_avg": 0.2520207166671753, "timer/agent.report_min": 0.10387372970581055, "timer/agent.report_max": 0.40016770362854004, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.7206878662109375e-05, "timer/dataset_eval_frac": 1.5716360398591348e-07, "timer/dataset_eval_avg": 4.7206878662109375e-05, "timer/dataset_eval_min": 4.7206878662109375e-05, "timer/dataset_eval_max": 4.7206878662109375e-05, "fps": 9.507978877661346}
+{"step": 469072, "episode/length": 631.0, "episode/score": 1220.0, "episode/reward_rate": 0.1360759493670886}
+{"step": 471348, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.81346796599912, "train/action_min": 0.0, "train/action_std": 2.793592782087729, "train/actor_opt_grad_norm": 0.007641581031428256, "train/actor_opt_grad_steps": 116380.0, "train/actor_opt_loss": 0.0009007038791001115, "train/adv_mag": 0.6035545682403404, "train/adv_max": 0.5723820664513279, "train/adv_mean": 0.002087218445012695, "train/adv_min": -0.4146256054371176, "train/adv_std": 0.03376319256781692, "train/cont_avg": 0.9987345950704225, "train/cont_loss_mean": 8.111531588853222e-05, "train/cont_loss_std": 0.0022947423802592314, "train/cont_neg_acc": 0.9811320754716981, "train/cont_neg_loss": 0.03493458844795113, "train/cont_pos_acc": 0.9999861767594244, "train/cont_pos_loss": 5.0470917364041965e-05, "train/cont_pred": 0.998723135028087, "train/cont_rate": 0.9987345950704225, "train/dyn_loss_mean": 4.952033583547028, "train/dyn_loss_std": 6.754780554435622, "train/extr_critic_critic_opt_grad_norm": 2.2621070918902544, "train/extr_critic_critic_opt_grad_steps": 116380.0, "train/extr_critic_critic_opt_loss": 1.5624213806340392, "train/extr_critic_mag": 488.1135047590229, "train/extr_critic_max": 488.1135047590229, "train/extr_critic_mean": 182.87957505776848, "train/extr_critic_min": 0.180996792417177, "train/extr_critic_std": 149.61974409936178, "train/extr_return_normed_mag": 1.217202342731852, "train/extr_return_normed_max": 1.217202342731852, "train/extr_return_normed_mean": 0.41441750148652307, "train/extr_return_normed_min": -0.009072182150754395, "train/extr_return_normed_std": 0.34713553458871976, "train/extr_return_rate": 0.9324200883717604, "train/extr_return_raw_mag": 531.843144806338, "train/extr_return_raw_max": 531.843144806338, "train/extr_return_raw_mean": 183.78498904805787, "train/extr_return_raw_min": 0.1978245056316283, "train/extr_return_raw_std": 150.4879707014057, "train/extr_reward_mag": 203.9943512929997, "train/extr_reward_max": 203.9943512929997, "train/extr_reward_mean": 1.0620489221223643, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.01390468570548, "train/image_loss_mean": 1.8974122027276268, "train/image_loss_std": 1.608296278496863, "train/model_loss_mean": 4.941372243451401, "train/model_loss_std": 5.384368963644538, "train/model_opt_grad_norm": 11.740199317394847, "train/model_opt_grad_steps": 116380.0, "train/model_opt_loss": 4.941372243451401, "train/policy_entropy_mag": 2.1799214524282537, "train/policy_entropy_max": 2.1799214524282537, "train/policy_entropy_mean": 1.1726773943699582, "train/policy_entropy_min": 0.06964155485932257, "train/policy_entropy_std": 0.6176874410938209, "train/policy_logprob_mag": 6.797231318245472, "train/policy_logprob_max": -0.00897743622444465, "train/policy_logprob_mean": -1.1733476754645227, "train/policy_logprob_min": -6.797231318245472, "train/policy_logprob_std": 1.1053407460870877, "train/policy_randomness_mag": 0.9921250007521938, "train/policy_randomness_max": 0.9921250007521938, "train/policy_randomness_mean": 0.5337084800424711, "train/policy_randomness_min": 0.031695237357011984, "train/policy_randomness_std": 0.28112166994054555, "train/post_ent_mag": 58.90819458222725, "train/post_ent_max": 58.90819458222725, "train/post_ent_mean": 39.00054410477759, "train/post_ent_min": 22.14146941816303, "train/post_ent_std": 5.350869121685834, "train/prior_ent_mag": 79.16735377781828, "train/prior_ent_max": 79.16735377781828, "train/prior_ent_mean": 44.00715707053601, "train/prior_ent_min": 24.375357480116293, "train/prior_ent_std": 8.001046294897375, "train/rep_loss_mean": 4.952033583547028, "train/rep_loss_std": 6.754780554435622, "train/reward_avg": 1.4114766725352113, "train/reward_loss_mean": 0.07265867712632032, "train/reward_loss_std": 0.2566926185513886, "train/reward_max_data": 220.42253521126761, "train/reward_max_pred": 181.33717583938383, "train/reward_neg_acc": 0.9671563413781179, "train/reward_neg_loss": 0.009571696775899807, "train/reward_pos_acc": 0.9962174044528478, "train/reward_pos_loss": 0.6499381250059101, "train/reward_pred": 1.258414714269235, "train/reward_rate": 0.0986878301056338, "train_stats/mean_log_entropy": 1.0728538036346436, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 7.466564397873299e-07, "report/cont_loss_std": 1.2930779121234082e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.7392478184774518e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.30384840608167e-07, "report/cont_pred": 0.9990227222442627, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.978903770446777, "report/dyn_loss_std": 6.496701240539551, "report/image_loss_mean": 1.709712266921997, "report/image_loss_std": 1.5663273334503174, "report/model_loss_mean": 4.770058631896973, "report/model_loss_std": 5.224371433258057, "report/post_ent_mag": 59.07566833496094, "report/post_ent_max": 59.07566833496094, "report/post_ent_mean": 39.45512771606445, "report/post_ent_min": 20.825279235839844, "report/post_ent_std": 5.8694963455200195, "report/prior_ent_mag": 79.30501556396484, "report/prior_ent_max": 79.30501556396484, "report/prior_ent_mean": 44.244606018066406, "report/prior_ent_min": 23.189716339111328, "report/prior_ent_std": 8.436918258666992, "report/rep_loss_mean": 4.978903770446777, "report/rep_loss_std": 6.496701240539551, "report/reward_avg": 1.416015625, "report/reward_loss_mean": 0.07300353050231934, "report/reward_loss_std": 0.2533150315284729, "report/reward_max_data": 400.0, "report/reward_max_pred": 385.12237548828125, "report/reward_neg_acc": 0.9665226340293884, "report/reward_neg_loss": 0.00902884267270565, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.677498996257782, "report/reward_pred": 1.2680284976959229, "report/reward_rate": 0.095703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.006344310473650694, "eval/cont_loss_std": 0.202918142080307, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.496552467346191, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.1412068562653985e-08, "eval/cont_pred": 0.9999985098838806, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.052773475646973, "eval/dyn_loss_std": 9.461484909057617, "eval/image_loss_mean": 4.304928779602051, "eval/image_loss_std": 3.307399034500122, "eval/model_loss_mean": 11.62874984741211, "eval/model_loss_std": 8.976089477539062, "eval/post_ent_mag": 59.70419692993164, "eval/post_ent_max": 59.70419692993164, "eval/post_ent_mean": 41.20232391357422, "eval/post_ent_min": 21.866607666015625, "eval/post_ent_std": 6.163485527038574, "eval/prior_ent_mag": 79.30501556396484, "eval/prior_ent_max": 79.30501556396484, "eval/prior_ent_mean": 47.50154113769531, "eval/prior_ent_min": 22.586116790771484, "eval/prior_ent_std": 8.820358276367188, "eval/rep_loss_mean": 11.052773475646973, "eval/rep_loss_std": 9.461484909057617, "eval/reward_avg": 2.0703125, "eval/reward_loss_mean": 0.6858129501342773, "eval/reward_loss_std": 2.543212890625, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 11.580084800720215, "eval/reward_neg_acc": 0.8613053560256958, "eval/reward_neg_loss": 0.16255013644695282, "eval/reward_pos_acc": 0.7650602459907532, "eval/reward_pos_loss": 3.390388250350952, "eval/reward_pred": 1.2830486297607422, "eval/reward_rate": 0.162109375, "replay/size": 117774.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.795611238412737e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.388378598078103e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9222497940063477e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.186452627182, "timer/env.step_count": 713.0, "timer/env.step_total": 2.856609582901001, "timer/env.step_frac": 0.009516117592584302, "timer/env.step_avg": 0.0040064650531570845, "timer/env.step_min": 0.002290010452270508, "timer/env.step_max": 0.02545785903930664, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.29101538658142, "timer/replay._sample_frac": 0.593934249284763, "timer/replay._sample_avg": 0.015628595317898092, "timer/replay._sample_min": 0.007986068725585938, "timer/replay._sample_max": 0.039906978607177734, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10121583938598633, "timer/agent.save_frac": 0.00033717657309369594, "timer/agent.save_avg": 0.10121583938598633, "timer/agent.save_min": 0.10121583938598633, "timer/agent.save_max": 0.10121583938598633, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.2356035709381, "timer/agent.policy_frac": 0.6637061793670607, "timer/agent.policy_avg": 0.2794328240826621, "timer/agent.policy_min": 0.002743959426879883, "timer/agent.policy_max": 0.3731396198272705, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09195351600646973, "timer/dataset_train_frac": 0.00030632133862706933, "timer/dataset_train_avg": 0.00012896706312267843, "timer/dataset_train_min": 7.128715515136719e-05, "timer/dataset_train_max": 0.00036215782165527344, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.9711480140686, "timer/agent.train_frac": 0.3230363901015293, "timer/agent.train_avg": 0.13600441516699663, "timer/agent.train_min": 0.09750080108642578, "timer/agent.train_max": 0.42765212059020996, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5133543014526367, "timer/agent.report_frac": 0.0017101181514350334, "timer/agent.report_avg": 0.25667715072631836, "timer/agent.report_min": 0.10992312431335449, "timer/agent.report_max": 0.4034311771392822, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.985664367675781e-05, "timer/dataset_eval_frac": 2.3271084709314514e-07, "timer/dataset_eval_avg": 6.985664367675781e-05, "timer/dataset_eval_min": 6.985664367675781e-05, "timer/dataset_eval_max": 6.985664367675781e-05, "fps": 9.500327322618775}
+{"step": 472516, "episode/length": 860.0, "episode/score": 1420.0, "episode/reward_rate": 0.11149825783972125}
+{"step": 474200, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.877159966362847, "train/action_min": 0.0, "train/action_std": 2.757466836108102, "train/actor_opt_grad_norm": 0.007637331003530158, "train/actor_opt_grad_steps": 117095.0, "train/actor_opt_loss": 0.0008226745550625006, "train/adv_mag": 0.6431171157293849, "train/adv_max": 0.6017376294152604, "train/adv_mean": 0.0017035140016711618, "train/adv_min": -0.41524776112702155, "train/adv_std": 0.032985818882783256, "train/cont_avg": 0.9985758463541666, "train/cont_loss_mean": 0.00022314175776225496, "train/cont_loss_std": 0.006108402709484058, "train/cont_neg_acc": 0.9248633883038505, "train/cont_neg_loss": 0.10663884863341075, "train/cont_pos_acc": 0.9999728310439322, "train/cont_pos_loss": 7.681026598385345e-05, "train/cont_pred": 0.9986035633418295, "train/cont_rate": 0.9985758463541666, "train/dyn_loss_mean": 4.786722362041473, "train/dyn_loss_std": 6.723929312494066, "train/extr_critic_critic_opt_grad_norm": 2.2259849632779756, "train/extr_critic_critic_opt_grad_steps": 117095.0, "train/extr_critic_critic_opt_loss": 1.5216047565142314, "train/extr_critic_mag": 486.47622723049585, "train/extr_critic_max": 486.47622723049585, "train/extr_critic_mean": 190.106491194831, "train/extr_critic_min": 0.16635669933425057, "train/extr_critic_std": 149.4618533452352, "train/extr_return_normed_mag": 1.224290752576457, "train/extr_return_normed_max": 1.224290752576457, "train/extr_return_normed_mean": 0.4298128433939483, "train/extr_return_normed_min": -0.009344759718967706, "train/extr_return_normed_std": 0.3459555088645882, "train/extr_return_rate": 0.9367368775937293, "train/extr_return_raw_mag": 535.5186288621691, "train/extr_return_raw_max": 535.5186288621691, "train/extr_return_raw_mean": 190.845168961419, "train/extr_return_raw_min": 0.31801141068313477, "train/extr_return_raw_std": 150.08750258551703, "train/extr_reward_mag": 191.41004202100964, "train/extr_reward_max": 191.41004202100964, "train/extr_reward_mean": 1.067926703227891, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.606217467122608, "train/image_loss_mean": 1.7905467119481828, "train/image_loss_std": 1.5075973901483748, "train/model_loss_mean": 4.737411873208152, "train/model_loss_std": 5.280819839901394, "train/model_opt_grad_norm": 11.453191849920485, "train/model_opt_grad_steps": 117095.0, "train/model_opt_loss": 4.737411873208152, "train/policy_entropy_mag": 2.1804653803507485, "train/policy_entropy_max": 2.1804653803507485, "train/policy_entropy_mean": 1.155340799027019, "train/policy_entropy_min": 0.0698946322210961, "train/policy_entropy_std": 0.6128130157788595, "train/policy_logprob_mag": 6.797378195656671, "train/policy_logprob_max": -0.009016249548747308, "train/policy_logprob_mean": -1.156235583126545, "train/policy_logprob_min": -6.797378195656671, "train/policy_logprob_std": 1.0987697492043178, "train/policy_randomness_mag": 0.9923725517259704, "train/policy_randomness_max": 0.9923725517259704, "train/policy_randomness_mean": 0.5258182564543353, "train/policy_randomness_min": 0.031810417823079556, "train/policy_randomness_std": 0.2789032179862261, "train/post_ent_mag": 59.03328275680542, "train/post_ent_max": 59.03328275680542, "train/post_ent_mean": 38.99279732174344, "train/post_ent_min": 22.229474173651802, "train/post_ent_std": 5.452392478783925, "train/prior_ent_mag": 79.19528410169814, "train/prior_ent_max": 79.19528410169814, "train/prior_ent_mean": 43.83107201258341, "train/prior_ent_min": 24.113222360610962, "train/prior_ent_std": 8.116285622119904, "train/rep_loss_mean": 4.786722362041473, "train/rep_loss_std": 6.723929312494066, "train/reward_avg": 1.3753255208333333, "train/reward_loss_mean": 0.07460859045386314, "train/reward_loss_std": 0.27339492096669143, "train/reward_max_data": 195.69444444444446, "train/reward_max_pred": 165.1435626745224, "train/reward_neg_acc": 0.9673230946063995, "train/reward_neg_loss": 0.009867203256969029, "train/reward_pos_acc": 0.9931129018465678, "train/reward_pos_loss": 0.6643422899974717, "train/reward_pred": 1.2361413335634603, "train/reward_rate": 0.0997043185763889, "train_stats/mean_log_entropy": 1.0644896030426025, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 7.133803592296317e-06, "report/cont_loss_std": 0.000172187908901833, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 6.687166751362383e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.958276117075002e-06, "report/cont_pred": 0.9970636367797852, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.518375396728516, "report/dyn_loss_std": 6.6597747802734375, "report/image_loss_mean": 1.7429513931274414, "report/image_loss_std": 1.597470998764038, "report/model_loss_mean": 4.533131122589111, "report/model_loss_std": 5.388981342315674, "report/post_ent_mag": 61.271240234375, "report/post_ent_max": 61.271240234375, "report/post_ent_mean": 38.53601837158203, "report/post_ent_min": 18.880271911621094, "report/post_ent_std": 5.895516872406006, "report/prior_ent_mag": 79.27528381347656, "report/prior_ent_max": 79.27528381347656, "report/prior_ent_mean": 42.8245964050293, "report/prior_ent_min": 21.55278778076172, "report/prior_ent_std": 8.555801391601562, "report/rep_loss_mean": 4.518375396728516, "report/rep_loss_std": 6.6597747802734375, "report/reward_avg": 1.376953125, "report/reward_loss_mean": 0.07914771884679794, "report/reward_loss_std": 0.2814291715621948, "report/reward_max_data": 200.0, "report/reward_max_pred": 71.72463989257812, "report/reward_neg_acc": 0.9682713747024536, "report/reward_neg_loss": 0.00611092196777463, "report/reward_pos_acc": 0.9909090399742126, "report/reward_pos_loss": 0.6860170960426331, "report/reward_pred": 1.1371862888336182, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0028833637479692698, "eval/cont_loss_std": 0.0919111967086792, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 2.9425995349884033, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.741176654642913e-06, "eval/cont_pred": 0.9999388456344604, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.51849365234375, "eval/dyn_loss_std": 10.082029342651367, "eval/image_loss_mean": 5.308890342712402, "eval/image_loss_std": 4.731500625610352, "eval/model_loss_mean": 13.537598609924316, "eval/model_loss_std": 10.492491722106934, "eval/post_ent_mag": 57.98602294921875, "eval/post_ent_max": 57.98602294921875, "eval/post_ent_mean": 42.07549285888672, "eval/post_ent_min": 23.52825927734375, "eval/post_ent_std": 4.357829570770264, "eval/prior_ent_mag": 79.27528381347656, "eval/prior_ent_max": 79.27528381347656, "eval/prior_ent_mean": 49.21582794189453, "eval/prior_ent_min": 31.0109920501709, "eval/prior_ent_std": 6.959817886352539, "eval/rep_loss_mean": 12.51849365234375, "eval/rep_loss_std": 10.082029342651367, "eval/reward_avg": 1.259765625, "eval/reward_loss_mean": 0.7147288918495178, "eval/reward_loss_std": 2.7189111709594727, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 11.990704536437988, "eval/reward_neg_acc": 0.8812636137008667, "eval/reward_neg_loss": 0.12684951722621918, "eval/reward_pos_acc": 0.5, "eval/reward_pos_loss": 5.805985450744629, "eval/reward_pred": 0.6575464606285095, "eval/reward_rate": 0.103515625, "replay/size": 118487.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.896930774833177e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3914507869918416e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.996755599975586e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.07775831222534, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8540027141571045, "timer/env.step_frac": 0.009510877214657034, "timer/env.step_avg": 0.004002808855760315, "timer/env.step_min": 0.0023088455200195312, "timer/env.step_max": 0.019431352615356445, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 180.0694398880005, "timer/replay._sample_frac": 0.6000759299882585, "timer/replay._sample_avg": 0.015784488068723745, "timer/replay._sample_min": 0.007822990417480469, "timer/replay._sample_max": 0.04870295524597168, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.0365436077118, "timer/agent.policy_frac": 0.6632832260784152, "timer/agent.policy_avg": 0.2791536375984738, "timer/agent.policy_min": 0.003089427947998047, "timer/agent.policy_max": 0.3238825798034668, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.0933389663696289, "timer/dataset_train_frac": 0.0003110492656790359, "timer/dataset_train_avg": 0.0001309101912617516, "timer/dataset_train_min": 7.367134094238281e-05, "timer/dataset_train_max": 0.0005171298980712891, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.35969352722168, "timer/agent.train_frac": 0.32444821660497986, "timer/agent.train_avg": 0.13654935978572466, "timer/agent.train_min": 0.0964045524597168, "timer/agent.train_max": 0.438004732131958, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20778703689575195, "timer/agent.report_frac": 0.0006924439787355163, "timer/agent.report_avg": 0.10389351844787598, "timer/agent.report_min": 0.10361886024475098, "timer/agent.report_max": 0.10416817665100098, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00011849403381347656, "timer/dataset_eval_frac": 3.9487776261706714e-07, "timer/dataset_eval_avg": 0.00011849403381347656, "timer/dataset_eval_min": 0.00011849403381347656, "timer/dataset_eval_max": 0.00011849403381347656, "fps": 9.503870977310218}
+{"step": 475192, "episode/length": 668.0, "episode/score": 1070.0, "episode/reward_rate": 0.12556053811659193}
+{"step": 477060, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.938860826089349, "train/action_min": 0.0, "train/action_std": 2.80902751734559, "train/actor_opt_grad_norm": 0.008330416308165016, "train/actor_opt_grad_steps": 117810.0, "train/actor_opt_loss": 0.001616523009097748, "train/adv_mag": 0.6483674309623073, "train/adv_max": 0.5903948669282484, "train/adv_mean": 0.0025799486974853645, "train/adv_min": -0.4444745191386048, "train/adv_std": 0.03539940969310176, "train/cont_avg": 0.9987758582746479, "train/cont_loss_mean": 0.0004908804843463942, "train/cont_loss_std": 0.014438218159096832, "train/cont_neg_acc": 0.9242424260486256, "train/cont_neg_loss": 0.229243677352809, "train/cont_pos_acc": 0.9999586696356115, "train/cont_pos_loss": 0.00012616069874944443, "train/cont_pred": 0.9987954757582973, "train/cont_rate": 0.9987758582746479, "train/dyn_loss_mean": 5.09770001827831, "train/dyn_loss_std": 6.773625071619598, "train/extr_critic_critic_opt_grad_norm": 2.6597958265895576, "train/extr_critic_critic_opt_grad_steps": 117810.0, "train/extr_critic_critic_opt_loss": 1.5892498409244376, "train/extr_critic_mag": 495.1545349980744, "train/extr_critic_max": 495.1545349980744, "train/extr_critic_mean": 190.62292652398767, "train/extr_critic_min": 0.045770290871741066, "train/extr_critic_std": 150.48535500110034, "train/extr_return_normed_mag": 1.2456862943273195, "train/extr_return_normed_max": 1.2456862943273195, "train/extr_return_normed_mean": 0.43221411150945743, "train/extr_return_normed_min": -0.009849520911738066, "train/extr_return_normed_std": 0.34945391055563807, "train/extr_return_rate": 0.9402243369062182, "train/extr_return_raw_mag": 544.4955182142661, "train/extr_return_raw_max": 544.4955182142661, "train/extr_return_raw_mean": 191.74157585896236, "train/extr_return_raw_min": 0.043387600873321504, "train/extr_return_raw_std": 151.53916619529187, "train/extr_reward_mag": 184.193028355988, "train/extr_reward_max": 184.193028355988, "train/extr_reward_mean": 1.095156235594145, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.685968724774643, "train/image_loss_mean": 1.8706450630241716, "train/image_loss_std": 1.573507656513805, "train/model_loss_mean": 5.007296535330759, "train/model_loss_std": 5.367466295269174, "train/model_opt_grad_norm": 12.584731975071866, "train/model_opt_grad_steps": 117810.0, "train/model_opt_loss": 5.007296535330759, "train/policy_entropy_mag": 2.178947512532624, "train/policy_entropy_max": 2.178947512532624, "train/policy_entropy_mean": 1.158334061293535, "train/policy_entropy_min": 0.06969451453064529, "train/policy_entropy_std": 0.618240710715173, "train/policy_logprob_mag": 6.79879087797353, "train/policy_logprob_max": -0.008985272438173562, "train/policy_logprob_mean": -1.1585097455642592, "train/policy_logprob_min": -6.79879087797353, "train/policy_logprob_std": 1.1015736737721402, "train/policy_randomness_mag": 0.9916817428360523, "train/policy_randomness_max": 0.9916817428360523, "train/policy_randomness_mean": 0.5271805424085805, "train/policy_randomness_min": 0.03171934056240068, "train/policy_randomness_std": 0.28137347312040734, "train/post_ent_mag": 57.876344277825154, "train/post_ent_max": 57.876344277825154, "train/post_ent_mean": 39.08913083143637, "train/post_ent_min": 21.92020367904448, "train/post_ent_std": 5.382145089162907, "train/prior_ent_mag": 79.14537703823036, "train/prior_ent_max": 79.14537703823036, "train/prior_ent_mean": 44.101526502152566, "train/prior_ent_min": 24.158099241659674, "train/prior_ent_std": 8.031963348388672, "train/rep_loss_mean": 5.09770001827831, "train/rep_loss_std": 6.773625071619598, "train/reward_avg": 1.3706261003521127, "train/reward_loss_mean": 0.0775405289736432, "train/reward_loss_std": 0.27470020886877894, "train/reward_max_data": 186.33802816901408, "train/reward_max_pred": 149.2299186679679, "train/reward_neg_acc": 0.9657925249825061, "train/reward_neg_loss": 0.009726464341748769, "train/reward_pos_acc": 0.9936351910443373, "train/reward_pos_loss": 0.665690519440342, "train/reward_pred": 1.232813510256754, "train/reward_rate": 0.10321302816901408, "train_stats/mean_log_entropy": 0.9720508456230164, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 6.522139983644593e-07, "report/cont_loss_std": 7.964369615365285e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.8812211894546635e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.971063501419849e-07, "report/cont_pred": 0.9980463981628418, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.016958236694336, "report/dyn_loss_std": 6.028511047363281, "report/image_loss_mean": 1.451730728149414, "report/image_loss_std": 1.191532015800476, "report/model_loss_mean": 3.919271945953369, "report/model_loss_std": 4.4861650466918945, "report/post_ent_mag": 60.52516555786133, "report/post_ent_max": 60.52516555786133, "report/post_ent_mean": 39.681373596191406, "report/post_ent_min": 18.899173736572266, "report/post_ent_std": 6.031713008880615, "report/prior_ent_mag": 79.36830139160156, "report/prior_ent_max": 79.36830139160156, "report/prior_ent_mean": 43.848731994628906, "report/prior_ent_min": 20.682973861694336, "report/prior_ent_std": 8.005392074584961, "report/rep_loss_mean": 4.016958236694336, "report/rep_loss_std": 6.028511047363281, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.057365406304597855, "report/reward_loss_std": 0.17655368149280548, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.86948013305664, "report/reward_neg_acc": 0.973089337348938, "report/reward_neg_loss": 0.006679783575236797, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5530174374580383, "report/reward_pred": 0.9883069396018982, "report/reward_rate": 0.0927734375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0006102338084019721, "eval/cont_loss_std": 0.01897057704627514, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.6072558760643005, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.7227315765921958e-05, "eval/cont_pred": 0.9994508028030396, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.593521118164062, "eval/dyn_loss_std": 11.202035903930664, "eval/image_loss_mean": 4.6785430908203125, "eval/image_loss_std": 4.678251266479492, "eval/model_loss_mean": 12.097169876098633, "eval/model_loss_std": 11.105335235595703, "eval/post_ent_mag": 57.03459930419922, "eval/post_ent_max": 57.03459930419922, "eval/post_ent_mean": 41.290897369384766, "eval/post_ent_min": 20.309003829956055, "eval/post_ent_std": 5.806950092315674, "eval/prior_ent_mag": 79.36830139160156, "eval/prior_ent_max": 79.36830139160156, "eval/prior_ent_mean": 47.99633026123047, "eval/prior_ent_min": 22.920297622680664, "eval/prior_ent_std": 8.535399436950684, "eval/rep_loss_mean": 11.593521118164062, "eval/rep_loss_std": 11.202035903930664, "eval/reward_avg": 1.083984375, "eval/reward_loss_mean": 0.46190348267555237, "eval/reward_loss_std": 1.948175311088562, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 64.43035888671875, "eval/reward_neg_acc": 0.9007633328437805, "eval/reward_neg_loss": 0.0823381170630455, "eval/reward_pos_acc": 0.644859790802002, "eval/reward_pos_loss": 3.7148139476776123, "eval/reward_pred": 0.7950358390808105, "eval/reward_rate": 0.1044921875, "replay/size": 119202.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.805742490541685e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3615701582048322e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4901161193847656e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.58944368362427, "timer/env.step_count": 715.0, "timer/env.step_total": 2.8261215686798096, "timer/env.step_frac": 0.009401932197107868, "timer/env.step_avg": 0.00395261757857316, "timer/env.step_min": 0.0020880699157714844, "timer/env.step_max": 0.022303104400634766, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 175.5107011795044, "timer/replay._sample_frac": 0.5838884394231506, "timer/replay._sample_avg": 0.015341844508697937, "timer/replay._sample_min": 0.008244514465332031, "timer/replay._sample_max": 0.05164480209350586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.85502815246582, "timer/agent.policy_frac": 0.6648770685467478, "timer/agent.policy_avg": 0.2795175218915606, "timer/agent.policy_min": 0.0033767223358154297, "timer/agent.policy_max": 0.32358813285827637, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.08972692489624023, "timer/dataset_train_frac": 0.00029850324680955666, "timer/dataset_train_avg": 0.00012549220265208424, "timer/dataset_train_min": 7.891654968261719e-05, "timer/dataset_train_max": 0.00113677978515625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 96.80149698257446, "timer/agent.train_frac": 0.32203891060279466, "timer/agent.train_avg": 0.1353867090665377, "timer/agent.train_min": 0.09680032730102539, "timer/agent.train_max": 0.427156925201416, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5000040531158447, "timer/agent.report_frac": 0.0016634118849566384, "timer/agent.report_avg": 0.25000202655792236, "timer/agent.report_min": 0.09919571876525879, "timer/agent.report_max": 0.40080833435058594, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.744529724121094e-05, "timer/dataset_eval_frac": 1.578408631380547e-07, "timer/dataset_eval_avg": 4.744529724121094e-05, "timer/dataset_eval_min": 4.744529724121094e-05, "timer/dataset_eval_max": 4.744529724121094e-05, "fps": 9.514239950784395}
+{"step": 478768, "episode/length": 893.0, "episode/score": 1790.0, "episode/reward_rate": 0.12192393736017897}
+{"step": 479912, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.789800079775528, "train/action_min": 0.0, "train/action_std": 2.8186707395902824, "train/actor_opt_grad_norm": 0.007959499850239552, "train/actor_opt_grad_steps": 118520.0, "train/actor_opt_loss": 0.0008823869257213746, "train/adv_mag": 0.6268527705064961, "train/adv_max": 0.5865890606188439, "train/adv_mean": 0.0019720203547966405, "train/adv_min": -0.40989043616073234, "train/adv_std": 0.03341439156465127, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.0002736839796360142, "train/cont_loss_std": 0.007939914005335204, "train/cont_neg_acc": 0.9101190481867109, "train/cont_neg_loss": 0.14542329732263884, "train/cont_pos_acc": 0.999999998320996, "train/cont_pos_loss": 4.6196349418301716e-05, "train/cont_pred": 0.9986818986879268, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.824815615801744, "train/dyn_loss_std": 6.736594562799159, "train/extr_critic_critic_opt_grad_norm": 2.333291112537115, "train/extr_critic_critic_opt_grad_steps": 118520.0, "train/extr_critic_critic_opt_loss": 1.5738282354784683, "train/extr_critic_mag": 488.7649140693772, "train/extr_critic_max": 488.7649140693772, "train/extr_critic_mean": 195.16990930261747, "train/extr_critic_min": 0.06452241917731057, "train/extr_critic_std": 154.8646692625234, "train/extr_return_normed_mag": 1.2157897244037037, "train/extr_return_normed_max": 1.2157897244037037, "train/extr_return_normed_mean": 0.43821046197078595, "train/extr_return_normed_min": -0.012074888159166759, "train/extr_return_normed_std": 0.35757948626095143, "train/extr_return_rate": 0.9425864228060548, "train/extr_return_raw_mag": 534.4654347594355, "train/extr_return_raw_max": 534.4654347594355, "train/extr_return_raw_mean": 196.02814107545666, "train/extr_return_raw_min": 0.051969402246701886, "train/extr_return_raw_std": 155.6401439183195, "train/extr_reward_mag": 202.56675623504208, "train/extr_reward_max": 202.56675623504208, "train/extr_reward_mean": 1.0694298786176761, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.778437967031774, "train/image_loss_mean": 1.825914958832969, "train/image_loss_std": 1.6350633627931837, "train/model_loss_mean": 4.792928108027284, "train/model_loss_std": 5.3924690501790655, "train/model_opt_grad_norm": 11.486670816448372, "train/model_opt_grad_steps": 118520.0, "train/model_opt_loss": 4.792928108027284, "train/policy_entropy_mag": 2.17612095953713, "train/policy_entropy_max": 2.17612095953713, "train/policy_entropy_mean": 1.1468139601425387, "train/policy_entropy_min": 0.06971766274999565, "train/policy_entropy_std": 0.6205486797950637, "train/policy_logprob_mag": 6.798247310477243, "train/policy_logprob_max": -0.008988844584935988, "train/policy_logprob_mean": -1.1461489116641836, "train/policy_logprob_min": -6.798247310477243, "train/policy_logprob_std": 1.1009564718730014, "train/policy_randomness_mag": 0.9903953243309344, "train/policy_randomness_max": 0.9903953243309344, "train/policy_randomness_mean": 0.5219375251884192, "train/policy_randomness_min": 0.03172987542102035, "train/policy_randomness_std": 0.282423874232131, "train/post_ent_mag": 58.45988518083599, "train/post_ent_max": 58.45988518083599, "train/post_ent_mean": 38.91935466712629, "train/post_ent_min": 21.569651348490112, "train/post_ent_std": 5.615988375435413, "train/prior_ent_mag": 79.23134709747744, "train/prior_ent_max": 79.23134709747744, "train/prior_ent_mean": 43.77236992204693, "train/prior_ent_min": 23.304524488852056, "train/prior_ent_std": 8.35280686365047, "train/rep_loss_mean": 4.824815615801744, "train/rep_loss_std": 6.736594562799159, "train/reward_avg": 1.3849306778169015, "train/reward_loss_mean": 0.0718500581110867, "train/reward_loss_std": 0.2594302728982039, "train/reward_max_data": 212.95774647887325, "train/reward_max_pred": 176.18695668771232, "train/reward_neg_acc": 0.9688220636945375, "train/reward_neg_loss": 0.008735697549229987, "train/reward_pos_acc": 0.9957804411229952, "train/reward_pos_loss": 0.6489720361333498, "train/reward_pred": 1.2328888992188682, "train/reward_rate": 0.0987978653169014, "train_stats/mean_log_entropy": 1.1013002395629883, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0011926678707823157, "report/cont_loss_std": 0.02001086063683033, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.1756749451160431, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.0006799873081035912, "report/cont_pred": 0.9968537092208862, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.242355823516846, "report/dyn_loss_std": 6.446987152099609, "report/image_loss_mean": 1.5461616516113281, "report/image_loss_std": 1.847114086151123, "report/model_loss_mean": 4.153487205505371, "report/model_loss_std": 5.269750118255615, "report/post_ent_mag": 60.768646240234375, "report/post_ent_max": 60.768646240234375, "report/post_ent_mean": 36.90812301635742, "report/post_ent_min": 20.099578857421875, "report/post_ent_std": 6.580042362213135, "report/prior_ent_mag": 79.13397216796875, "report/prior_ent_max": 79.13397216796875, "report/prior_ent_mean": 41.409759521484375, "report/prior_ent_min": 22.39729881286621, "report/prior_ent_std": 9.703410148620605, "report/rep_loss_mean": 4.242355823516846, "report/rep_loss_std": 6.446987152099609, "report/reward_avg": 1.328125, "report/reward_loss_mean": 0.060719188302755356, "report/reward_loss_std": 0.2124468982219696, "report/reward_max_data": 400.0, "report/reward_max_pred": 49.55641174316406, "report/reward_neg_acc": 0.970053493976593, "report/reward_neg_loss": 0.005844258703291416, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6372142434120178, "report/reward_pred": 0.881232738494873, "report/reward_rate": 0.0869140625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.002141233766451478, "eval/cont_loss_std": 0.06810445338487625, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.0902163982391357, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1928376807190944e-05, "eval/cont_pred": 0.9989012479782104, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.277730941772461, "eval/dyn_loss_std": 9.69316577911377, "eval/image_loss_mean": 5.141164779663086, "eval/image_loss_std": 3.6835005283355713, "eval/model_loss_mean": 13.560506820678711, "eval/model_loss_std": 9.346928596496582, "eval/post_ent_mag": 57.449485778808594, "eval/post_ent_max": 57.449485778808594, "eval/post_ent_mean": 40.46745300292969, "eval/post_ent_min": 22.42803192138672, "eval/post_ent_std": 6.359358787536621, "eval/prior_ent_mag": 79.13397216796875, "eval/prior_ent_max": 79.13397216796875, "eval/prior_ent_mean": 47.971134185791016, "eval/prior_ent_min": 22.41503143310547, "eval/prior_ent_std": 9.720317840576172, "eval/rep_loss_mean": 13.277730941772461, "eval/rep_loss_std": 9.69316577911377, "eval/reward_avg": 1.435546875, "eval/reward_loss_mean": 0.4505629241466522, "eval/reward_loss_std": 2.065255641937256, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.800296783447266, "eval/reward_neg_acc": 0.9089924097061157, "eval/reward_neg_loss": 0.0732964426279068, "eval/reward_pos_acc": 0.7425742745399475, "eval/reward_pos_loss": 3.8982555866241455, "eval/reward_pred": 0.779643714427948, "eval/reward_rate": 0.0986328125, "replay/size": 119915.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.849782079667229e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3584926787131631e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0810694694519, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8567447662353516, "timer/env.step_frac": 0.009519909973948446, "timer/env.step_avg": 0.004006654651101475, "timer/env.step_min": 0.0022957324981689453, "timer/env.step_max": 0.020667552947998047, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 174.43825960159302, "timer/replay._sample_frac": 0.5813037787088756, "timer/replay._sample_avg": 0.015290871283449598, "timer/replay._sample_min": 0.008026123046875, "timer/replay._sample_max": 0.04265785217285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10445332527160645, "timer/agent.save_frac": 0.0003480836877057309, "timer/agent.save_avg": 0.10445332527160645, "timer/agent.save_min": 0.10445332527160645, "timer/agent.save_max": 0.10445332527160645, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.06797289848328, "timer/agent.policy_frac": 0.6633806432722951, "timer/agent.policy_avg": 0.27919771795018694, "timer/agent.policy_min": 0.003553152084350586, "timer/agent.policy_max": 0.350369930267334, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.09183239936828613, "timer/dataset_train_frac": 0.0003060253001985339, "timer/dataset_train_avg": 0.00012879719406491745, "timer/dataset_train_min": 7.510185241699219e-05, "timer/dataset_train_max": 0.0013012886047363281, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.02461838722229, "timer/agent.train_frac": 0.3233280211869524, "timer/agent.train_avg": 0.13607940867773113, "timer/agent.train_min": 0.09774088859558105, "timer/agent.train_max": 0.4265873432159424, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4956209659576416, "timer/agent.report_frac": 0.0016516235657047856, "timer/agent.report_avg": 0.2478104829788208, "timer/agent.report_min": 0.10148286819458008, "timer/agent.report_max": 0.3941380977630615, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.175041198730469e-05, "timer/dataset_eval_frac": 2.057790986165185e-07, "timer/dataset_eval_avg": 6.175041198730469e-05, "timer/dataset_eval_min": 6.175041198730469e-05, "timer/dataset_eval_max": 6.175041198730469e-05, "fps": 9.503794043067305}
+{"step": 482020, "episode/length": 812.0, "episode/score": 1020.0, "episode/reward_rate": 0.11562115621156212}
+{"step": 482764, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.761833190917969, "train/action_min": 0.0, "train/action_std": 2.833291451136271, "train/actor_opt_grad_norm": 0.007747262926487666, "train/actor_opt_grad_steps": 119235.0, "train/actor_opt_loss": 0.0009200025175586132, "train/adv_mag": 0.6036441460665729, "train/adv_max": 0.5798388090398576, "train/adv_mean": 0.002041812285369815, "train/adv_min": -0.3979405365470383, "train/adv_std": 0.0336137408675212, "train/cont_avg": 0.9985622829861112, "train/cont_loss_mean": 0.0002538991068080458, "train/cont_loss_std": 0.006849389377712129, "train/cont_neg_acc": 0.9538690479738372, "train/cont_neg_loss": 0.1285472597646746, "train/cont_pos_acc": 0.9999999966886308, "train/cont_pos_loss": 7.596413647118248e-05, "train/cont_pred": 0.9985758753286468, "train/cont_rate": 0.9985622829861112, "train/dyn_loss_mean": 4.831223289171855, "train/dyn_loss_std": 6.8195836080445185, "train/extr_critic_critic_opt_grad_norm": 2.224082597427898, "train/extr_critic_critic_opt_grad_steps": 119235.0, "train/extr_critic_critic_opt_loss": 1.5302193495962355, "train/extr_critic_mag": 496.39188300238715, "train/extr_critic_max": 496.39188300238715, "train/extr_critic_mean": 189.76240984598795, "train/extr_critic_min": 0.012294615308443705, "train/extr_critic_std": 152.71189297570123, "train/extr_return_normed_mag": 1.1985856062836118, "train/extr_return_normed_max": 1.1985856062836118, "train/extr_return_normed_mean": 0.42427968026863205, "train/extr_return_normed_min": -0.011059423155125437, "train/extr_return_normed_std": 0.35019580502476955, "train/extr_return_rate": 0.9330684435036447, "train/extr_return_raw_mag": 529.5898331536187, "train/extr_return_raw_max": 529.5898331536187, "train/extr_return_raw_mean": 190.65554470486111, "train/extr_return_raw_min": 0.04842601438657665, "train/extr_return_raw_std": 153.31892723507352, "train/extr_reward_mag": 197.79527033699884, "train/extr_reward_max": 197.79527033699884, "train/extr_reward_mean": 1.0549816774825256, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.749381161398357, "train/image_loss_mean": 1.8372607562277052, "train/image_loss_std": 1.5939721796247694, "train/model_loss_mean": 4.807716637849808, "train/model_loss_std": 5.414160172144572, "train/model_opt_grad_norm": 11.766873015297783, "train/model_opt_grad_steps": 119235.0, "train/model_opt_loss": 4.807716637849808, "train/policy_entropy_mag": 2.1757722331417932, "train/policy_entropy_max": 2.1757722331417932, "train/policy_entropy_mean": 1.1663009913431273, "train/policy_entropy_min": 0.06982640197707547, "train/policy_entropy_std": 0.6227425825264719, "train/policy_logprob_mag": 6.798210846053229, "train/policy_logprob_max": -0.009005280716034273, "train/policy_logprob_mean": -1.1666621292630832, "train/policy_logprob_min": -6.798210846053229, "train/policy_logprob_std": 1.100720038016637, "train/policy_randomness_mag": 0.9902366110020213, "train/policy_randomness_max": 0.9902366110020213, "train/policy_randomness_mean": 0.5308064557611942, "train/policy_randomness_min": 0.031779364579253726, "train/policy_randomness_std": 0.2834223581271039, "train/post_ent_mag": 59.02920463350084, "train/post_ent_max": 59.02920463350084, "train/post_ent_mean": 39.0035342640347, "train/post_ent_min": 21.86342477798462, "train/post_ent_std": 5.437161366144816, "train/prior_ent_mag": 79.35675186581082, "train/prior_ent_max": 79.35675186581082, "train/prior_ent_mean": 43.8954046037462, "train/prior_ent_min": 23.653611183166504, "train/prior_ent_std": 8.143463214238485, "train/rep_loss_mean": 4.831223289171855, "train/rep_loss_std": 6.8195836080445185, "train/reward_avg": 1.4002821180555556, "train/reward_loss_mean": 0.07146801866797937, "train/reward_loss_std": 0.2541223309106297, "train/reward_max_data": 223.75, "train/reward_max_pred": 161.14524490303464, "train/reward_neg_acc": 0.9699849221441481, "train/reward_neg_loss": 0.008365258894627914, "train/reward_pos_acc": 0.9951423654953638, "train/reward_pos_loss": 0.6490551837616496, "train/reward_pred": 1.220541049208906, "train/reward_rate": 0.0989718967013889, "train_stats/mean_log_entropy": 1.0090049505233765, "report/cont_avg": 1.0, "report/cont_loss_mean": 7.292673842584918e-08, "report/cont_loss_std": 1.5435982732014963e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.292673842584918e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.54810905456543, "report/dyn_loss_std": 7.20402193069458, "report/image_loss_mean": 2.2090072631835938, "report/image_loss_std": 1.9386601448059082, "report/model_loss_mean": 5.616434097290039, "report/model_loss_std": 5.942382335662842, "report/post_ent_mag": 57.76060485839844, "report/post_ent_max": 57.76060485839844, "report/post_ent_mean": 39.66272735595703, "report/post_ent_min": 19.685962677001953, "report/post_ent_std": 5.209734916687012, "report/prior_ent_mag": 79.4531478881836, "report/prior_ent_max": 79.4531478881836, "report/prior_ent_mean": 45.18727111816406, "report/prior_ent_min": 22.375282287597656, "report/prior_ent_std": 8.30221939086914, "report/rep_loss_mean": 5.54810905456543, "report/rep_loss_std": 7.20402193069458, "report/reward_avg": 1.298828125, "report/reward_loss_mean": 0.07856092602014542, "report/reward_loss_std": 0.26573166251182556, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.87567138671875, "report/reward_neg_acc": 0.9606127142906189, "report/reward_neg_loss": 0.008237029425799847, "report/reward_pos_acc": 0.9909090399742126, "report/reward_pos_loss": 0.6628885269165039, "report/reward_pred": 1.2131969928741455, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.003802563063800335, "eval/cont_loss_std": 0.1216186061501503, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.9468488693237305, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.238831686123376e-07, "eval/cont_pred": 0.9990034103393555, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 10.49847412109375, "eval/dyn_loss_std": 10.12338638305664, "eval/image_loss_mean": 4.110562324523926, "eval/image_loss_std": 3.8575360774993896, "eval/model_loss_mean": 11.251228332519531, "eval/model_loss_std": 9.800736427307129, "eval/post_ent_mag": 58.70877456665039, "eval/post_ent_max": 58.70877456665039, "eval/post_ent_mean": 39.283599853515625, "eval/post_ent_min": 23.070281982421875, "eval/post_ent_std": 5.748416900634766, "eval/prior_ent_mag": 79.4531478881836, "eval/prior_ent_max": 79.4531478881836, "eval/prior_ent_mean": 46.40153503417969, "eval/prior_ent_min": 23.124305725097656, "eval/prior_ent_std": 9.331275939941406, "eval/rep_loss_mean": 10.49847412109375, "eval/rep_loss_std": 10.12338638305664, "eval/reward_avg": 1.953125, "eval/reward_loss_mean": 0.8377789258956909, "eval/reward_loss_std": 2.856957197189331, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 28.737525939941406, "eval/reward_neg_acc": 0.8708189129829407, "eval/reward_neg_loss": 0.21960385143756866, "eval/reward_pos_acc": 0.675159215927124, "eval/reward_pos_loss": 4.251522541046143, "eval/reward_pred": 1.2388631105422974, "eval/reward_rate": 0.1533203125, "replay/size": 120628.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.661521686912419e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3716383033848745e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.16066837310791e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0296399593353, "timer/env.step_count": 713.0, "timer/env.step_total": 2.837754249572754, "timer/env.step_frac": 0.009458246358451019, "timer/env.step_avg": 0.003980019985375532, "timer/env.step_min": 0.0023984909057617188, "timer/env.step_max": 0.022309064865112305, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.4328157901764, "timer/replay._sample_frac": 0.5913842906128369, "timer/replay._sample_avg": 0.015553367443037902, "timer/replay._sample_min": 0.007818222045898438, "timer/replay._sample_max": 0.062203168869018555, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.68096327781677, "timer/agent.policy_frac": 0.6622044518826377, "timer/agent.policy_avg": 0.27865492745836856, "timer/agent.policy_min": 0.0033299922943115234, "timer/agent.policy_max": 0.3152122497558594, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08918929100036621, "timer/dataset_train_frac": 0.00029726826660344136, "timer/dataset_train_avg": 0.00012509016970598346, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.00025773048400878906, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.40383911132812, "timer/agent.train_frac": 0.3246473885864403, "timer/agent.train_avg": 0.13661127505095108, "timer/agent.train_min": 0.09743356704711914, "timer/agent.train_max": 0.42800450325012207, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5050349235534668, "timer/agent.report_frac": 0.001683283437002814, "timer/agent.report_avg": 0.2525174617767334, "timer/agent.report_min": 0.10623598098754883, "timer/agent.report_max": 0.39879894256591797, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.632110595703125e-05, "timer/dataset_eval_frac": 3.210386346165205e-07, "timer/dataset_eval_avg": 9.632110595703125e-05, "timer/dataset_eval_min": 9.632110595703125e-05, "timer/dataset_eval_max": 9.632110595703125e-05, "fps": 9.50536094894096}
+{"step": 484636, "episode/length": 653.0, "episode/score": 780.0, "episode/reward_rate": 0.11314984709480122}
+{"step": 485616, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.762805347711268, "train/action_min": 0.0, "train/action_std": 2.832610697813437, "train/actor_opt_grad_norm": 0.007693809889991518, "train/actor_opt_grad_steps": 119950.0, "train/actor_opt_loss": 0.0011541716128601659, "train/adv_mag": 0.606627128913369, "train/adv_max": 0.5833298375069256, "train/adv_mean": 0.0023155340131203227, "train/adv_min": -0.3918901205482617, "train/adv_std": 0.033179070118447423, "train/cont_avg": 0.9985695422535211, "train/cont_loss_mean": 0.00030472951635573795, "train/cont_loss_std": 0.007853761226026839, "train/cont_neg_acc": 0.9182389940855638, "train/cont_neg_loss": 0.14637833282664706, "train/cont_pos_acc": 0.9999861893519549, "train/cont_pos_loss": 0.00013266786351360906, "train/cont_pred": 0.9985452638545507, "train/cont_rate": 0.9985695422535211, "train/dyn_loss_mean": 4.8227515791503475, "train/dyn_loss_std": 6.802431623700639, "train/extr_critic_critic_opt_grad_norm": 2.119347550499607, "train/extr_critic_critic_opt_grad_steps": 119950.0, "train/extr_critic_critic_opt_loss": 1.4954179945126387, "train/extr_critic_mag": 502.08986867985254, "train/extr_critic_max": 502.08986867985254, "train/extr_critic_mean": 195.32611083984375, "train/extr_critic_min": 0.05522141825984901, "train/extr_critic_std": 154.48584253015653, "train/extr_return_normed_mag": 1.2473765947449376, "train/extr_return_normed_max": 1.2473765947449376, "train/extr_return_normed_mean": 0.4369296141913239, "train/extr_return_normed_min": -0.009754624657175491, "train/extr_return_normed_std": 0.35361776889210017, "train/extr_return_rate": 0.9318708307306531, "train/extr_return_raw_mag": 552.0598316461268, "train/extr_return_raw_max": 552.0598316461268, "train/extr_return_raw_mean": 196.3431495344135, "train/extr_return_raw_min": 0.20986503728380113, "train/extr_return_raw_std": 155.2488939527055, "train/extr_reward_mag": 208.7562261232188, "train/extr_reward_max": 208.7562261232188, "train/extr_reward_mean": 1.0732475015479075, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.0870470161169346, "train/image_loss_mean": 1.8156401926363017, "train/image_loss_std": 1.5795784735343825, "train/model_loss_mean": 4.779348309610931, "train/model_loss_std": 5.380865365686551, "train/model_opt_grad_norm": 11.646751860497703, "train/model_opt_grad_steps": 119950.0, "train/model_opt_loss": 4.779348309610931, "train/policy_entropy_mag": 2.175899881712148, "train/policy_entropy_max": 2.175899881712148, "train/policy_entropy_mean": 1.1615440534873747, "train/policy_entropy_min": 0.06963854912720935, "train/policy_entropy_std": 0.6259209295393715, "train/policy_logprob_mag": 6.799668432961048, "train/policy_logprob_max": -0.008976803331727713, "train/policy_logprob_mean": -1.1617056677039241, "train/policy_logprob_min": -6.799668432961048, "train/policy_logprob_std": 1.101532973034281, "train/policy_randomness_mag": 0.9902947058140392, "train/policy_randomness_max": 0.9902947058140392, "train/policy_randomness_mean": 0.5286414858321069, "train/policy_randomness_min": 0.031693869440908164, "train/policy_randomness_std": 0.2848688859335134, "train/post_ent_mag": 58.609231277250906, "train/post_ent_max": 58.609231277250906, "train/post_ent_mean": 38.82094649193992, "train/post_ent_min": 21.749474700068085, "train/post_ent_std": 5.59386434689374, "train/prior_ent_mag": 79.30410315285266, "train/prior_ent_max": 79.30410315285266, "train/prior_ent_mean": 43.702500088114135, "train/prior_ent_min": 23.36256964777557, "train/prior_ent_std": 8.29790773526044, "train/rep_loss_mean": 4.8227515791503475, "train/rep_loss_std": 6.802431623700639, "train/reward_avg": 1.3852057658450705, "train/reward_loss_mean": 0.06975244059109352, "train/reward_loss_std": 0.24095315706561987, "train/reward_max_data": 216.33802816901408, "train/reward_max_pred": 194.47384391032475, "train/reward_neg_acc": 0.9704149197524702, "train/reward_neg_loss": 0.008478349397732864, "train/reward_pos_acc": 0.9966248508910058, "train/reward_pos_loss": 0.6298292531094081, "train/reward_pred": 1.2534765072271858, "train/reward_rate": 0.09892165492957747, "train_stats/mean_log_entropy": 0.868706464767456, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 3.5451482744974783e-06, "report/cont_loss_std": 6.561306508956477e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0008933742064982653, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.305671824222372e-07, "report/cont_pred": 0.9970720410346985, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.658283710479736, "report/dyn_loss_std": 6.658421516418457, "report/image_loss_mean": 1.7537879943847656, "report/image_loss_std": 1.5366955995559692, "report/model_loss_mean": 4.6356916427612305, "report/model_loss_std": 5.20306396484375, "report/post_ent_mag": 61.16655731201172, "report/post_ent_max": 61.16655731201172, "report/post_ent_mean": 38.51128387451172, "report/post_ent_min": 20.56503677368164, "report/post_ent_std": 6.181511878967285, "report/prior_ent_mag": 79.4545669555664, "report/prior_ent_max": 79.4545669555664, "report/prior_ent_mean": 43.12903594970703, "report/prior_ent_min": 22.78206443786621, "report/prior_ent_std": 9.096076965332031, "report/rep_loss_mean": 4.658283710479736, "report/rep_loss_std": 6.658421516418457, "report/reward_avg": 2.177734375, "report/reward_loss_mean": 0.08693039417266846, "report/reward_loss_std": 0.23049834370613098, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.98251342773438, "report/reward_neg_acc": 0.9595050811767578, "report/reward_neg_loss": 0.013201008550822735, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5724520683288574, "report/reward_pred": 2.0145835876464844, "report/reward_rate": 0.1318359375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 1.9247136151534505e-05, "eval/cont_loss_std": 0.0005215539713390172, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 1.4227933888832922e-06, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.926456025103107e-05, "eval/cont_pred": 0.9990043044090271, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.37256908416748, "eval/dyn_loss_std": 9.513923645019531, "eval/image_loss_mean": 4.526432514190674, "eval/image_loss_std": 3.4253594875335693, "eval/model_loss_mean": 12.806793212890625, "eval/model_loss_std": 8.851302146911621, "eval/post_ent_mag": 56.22725296020508, "eval/post_ent_max": 56.22725296020508, "eval/post_ent_mean": 41.67527770996094, "eval/post_ent_min": 22.528362274169922, "eval/post_ent_std": 6.128016471862793, "eval/prior_ent_mag": 79.4545669555664, "eval/prior_ent_max": 79.4545669555664, "eval/prior_ent_mean": 49.089603424072266, "eval/prior_ent_min": 22.893903732299805, "eval/prior_ent_std": 8.438694953918457, "eval/rep_loss_mean": 12.37256908416748, "eval/rep_loss_std": 9.513923645019531, "eval/reward_avg": 1.6796875, "eval/reward_loss_mean": 0.8567996025085449, "eval/reward_loss_std": 2.5230836868286133, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 188.04766845703125, "eval/reward_neg_acc": 0.839184582233429, "eval/reward_neg_loss": 0.22665242850780487, "eval/reward_pos_acc": 0.5177305340766907, "eval/reward_pos_loss": 4.803040504455566, "eval/reward_pred": 1.1460485458374023, "eval/reward_rate": 0.1376953125, "replay/size": 121341.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.484964870971851e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3823596157164927e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.475214958190918e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0569486618042, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8208775520324707, "timer/env.step_frac": 0.009401140565526102, "timer/env.step_avg": 0.00395635000285059, "timer/env.step_min": 0.0023920536041259766, "timer/env.step_max": 0.021082162857055664, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 176.9653332233429, "timer/replay._sample_frac": 0.5897724882312306, "timer/replay._sample_avg": 0.015512388957165401, "timer/replay._sample_min": 0.007930517196655273, "timer/replay._sample_max": 0.04691457748413086, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.6652410030365, "timer/agent.policy_frac": 0.6620917858727983, "timer/agent.policy_avg": 0.2786328765820989, "timer/agent.policy_min": 0.003111600875854492, "timer/agent.policy_max": 0.31287503242492676, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08418464660644531, "timer/dataset_train_frac": 0.00028056222987633687, "timer/dataset_train_avg": 0.00011807103310861896, "timer/dataset_train_min": 7.486343383789062e-05, "timer/dataset_train_max": 0.00020885467529296875, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.49744057655334, "timer/agent.train_frac": 0.32492978753324336, "timer/agent.train_avg": 0.13674255340330063, "timer/agent.train_min": 0.09968233108520508, "timer/agent.train_max": 0.427370548248291, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4941709041595459, "timer/agent.report_frac": 0.0016469237135265564, "timer/agent.report_avg": 0.24708545207977295, "timer/agent.report_min": 0.09666132926940918, "timer/agent.report_max": 0.3975095748901367, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.269050598144531e-05, "timer/dataset_eval_frac": 1.7560168566811985e-07, "timer/dataset_eval_avg": 5.269050598144531e-05, "timer/dataset_eval_min": 5.269050598144531e-05, "timer/dataset_eval_max": 5.269050598144531e-05, "fps": 9.504478581864742}
+{"step": 488136, "episode/length": 874.0, "episode/score": 1340.0, "episode/reward_rate": 0.10057142857142858}
+{"step": 488468, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.610105702574824, "train/action_min": 0.0, "train/action_std": 2.8560462501687063, "train/actor_opt_grad_norm": 0.00748366948125333, "train/actor_opt_grad_steps": 120660.0, "train/actor_opt_loss": 0.0005867504967195409, "train/adv_mag": 0.567127376375064, "train/adv_max": 0.5183368789058336, "train/adv_mean": 0.0017127910187028506, "train/adv_min": -0.40756972176088413, "train/adv_std": 0.03152650863614301, "train/cont_avg": 0.9986520686619719, "train/cont_loss_mean": 9.991219210094091e-05, "train/cont_loss_std": 0.002578782535194719, "train/cont_neg_acc": 0.9753086423432386, "train/cont_neg_loss": 0.05044871809373263, "train/cont_pos_acc": 0.9999999974814939, "train/cont_pos_loss": 4.1977892735881863e-05, "train/cont_pred": 0.9986564550601261, "train/cont_rate": 0.9986520686619719, "train/dyn_loss_mean": 4.787458711946514, "train/dyn_loss_std": 6.791339558614811, "train/extr_critic_critic_opt_grad_norm": 2.1771403080980543, "train/extr_critic_critic_opt_grad_steps": 120660.0, "train/extr_critic_critic_opt_loss": 1.4829117227608049, "train/extr_critic_mag": 510.6242929378026, "train/extr_critic_max": 510.6242929378026, "train/extr_critic_mean": 200.18610554010095, "train/extr_critic_min": 0.3777243956713609, "train/extr_critic_std": 156.28096513345207, "train/extr_return_normed_mag": 1.2144440530051648, "train/extr_return_normed_max": 1.2144440530051648, "train/extr_return_normed_mean": 0.44441920644800426, "train/extr_return_normed_min": -0.00843299946314852, "train/extr_return_normed_std": 0.3544837647760418, "train/extr_return_rate": 0.9387452803866964, "train/extr_return_raw_mag": 542.073124415438, "train/extr_return_raw_max": 542.073124415438, "train/extr_return_raw_mean": 200.94526049116968, "train/extr_return_raw_min": 0.3484715430310298, "train/extr_return_raw_std": 157.0275732765735, "train/extr_reward_mag": 183.64322044480014, "train/extr_reward_max": 183.64322044480014, "train/extr_reward_mean": 1.0639830458332116, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.711041816523378, "train/image_loss_mean": 1.7896329382775535, "train/image_loss_std": 1.595502601542943, "train/model_loss_mean": 4.736384694005402, "train/model_loss_std": 5.394931000722965, "train/model_opt_grad_norm": 11.393596689466019, "train/model_opt_grad_steps": 120660.0, "train/model_opt_loss": 4.736384694005402, "train/policy_entropy_mag": 2.1760263442993164, "train/policy_entropy_max": 2.1760263442993164, "train/policy_entropy_mean": 1.177532222069485, "train/policy_entropy_min": 0.06960709644875056, "train/policy_entropy_std": 0.616306054760033, "train/policy_logprob_mag": 6.798522714158179, "train/policy_logprob_max": -0.008972402832562655, "train/policy_logprob_mean": -1.1781912941328236, "train/policy_logprob_min": -6.798522714158179, "train/policy_logprob_std": 1.094945724581329, "train/policy_randomness_mag": 0.9903522612343372, "train/policy_randomness_max": 0.9903522612343372, "train/policy_randomness_mean": 0.535918007014503, "train/policy_randomness_min": 0.03167955440954423, "train/policy_randomness_std": 0.2804929712708567, "train/post_ent_mag": 58.80586720856143, "train/post_ent_max": 58.80586720856143, "train/post_ent_mean": 38.87318613831426, "train/post_ent_min": 21.307100833301813, "train/post_ent_std": 5.579939758273917, "train/prior_ent_mag": 79.36604276845154, "train/prior_ent_max": 79.36604276845154, "train/prior_ent_mean": 43.699683659513234, "train/prior_ent_min": 23.47493134082203, "train/prior_ent_std": 8.244443564347819, "train/rep_loss_mean": 4.787458711946514, "train/rep_loss_std": 6.791339558614811, "train/reward_avg": 1.3516450264084507, "train/reward_loss_mean": 0.0741766616177391, "train/reward_loss_std": 0.2772004310513886, "train/reward_max_data": 198.30985915492957, "train/reward_max_pred": 162.83626125228238, "train/reward_neg_acc": 0.9684758119180169, "train/reward_neg_loss": 0.009919158276498422, "train/reward_pos_acc": 0.9916737642086727, "train/reward_pos_loss": 0.6756794234396706, "train/reward_pred": 1.2136414924138028, "train/reward_rate": 0.09826144366197183, "train_stats/mean_log_entropy": 1.1759065389633179, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.628180422765581e-08, "report/cont_loss_std": 6.3367684788318e-07, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.893005728310527e-07, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.603447495947876e-08, "report/cont_pred": 0.9990233778953552, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.469883918762207, "report/dyn_loss_std": 6.634393215179443, "report/image_loss_mean": 1.6009998321533203, "report/image_loss_std": 1.4555891752243042, "report/model_loss_mean": 4.365413665771484, "report/model_loss_std": 5.236641883850098, "report/post_ent_mag": 60.41222381591797, "report/post_ent_max": 60.41222381591797, "report/post_ent_mean": 37.75099182128906, "report/post_ent_min": 21.33493423461914, "report/post_ent_std": 5.80137300491333, "report/prior_ent_mag": 79.37548065185547, "report/prior_ent_max": 79.37548065185547, "report/prior_ent_mean": 42.13654708862305, "report/prior_ent_min": 23.26433563232422, "report/prior_ent_std": 8.69904613494873, "report/rep_loss_mean": 4.469883918762207, "report/rep_loss_std": 6.634393215179443, "report/reward_avg": 1.58203125, "report/reward_loss_mean": 0.0824834555387497, "report/reward_loss_std": 0.2893871068954468, "report/reward_max_data": 200.0, "report/reward_max_pred": 142.4052276611328, "report/reward_neg_acc": 0.9736841917037964, "report/reward_neg_loss": 0.010021837428212166, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6725280284881592, "report/reward_pred": 1.2955893278121948, "report/reward_rate": 0.109375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2665486792684533e-06, "eval/cont_loss_std": 3.798723264480941e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2665486792684533e-06, "eval/cont_pred": 0.9999987483024597, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 14.152085304260254, "eval/dyn_loss_std": 10.817619323730469, "eval/image_loss_mean": 5.31893253326416, "eval/image_loss_std": 4.25242280960083, "eval/model_loss_mean": 15.075215339660645, "eval/model_loss_std": 11.031418800354004, "eval/post_ent_mag": 57.04111862182617, "eval/post_ent_max": 57.04111862182617, "eval/post_ent_mean": 42.422000885009766, "eval/post_ent_min": 20.077369689941406, "eval/post_ent_std": 4.890181064605713, "eval/prior_ent_mag": 79.37548065185547, "eval/prior_ent_max": 79.37548065185547, "eval/prior_ent_mean": 49.869598388671875, "eval/prior_ent_min": 26.175922393798828, "eval/prior_ent_std": 6.802329063415527, "eval/rep_loss_mean": 14.152085304260254, "eval/rep_loss_std": 10.817619323730469, "eval/reward_avg": 1.85546875, "eval/reward_loss_mean": 1.265031099319458, "eval/reward_loss_std": 3.6240293979644775, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 10.010178565979004, "eval/reward_neg_acc": 0.8250862956047058, "eval/reward_neg_loss": 0.1998252421617508, "eval/reward_pos_acc": 0.43225806951522827, "eval/reward_pos_loss": 7.237055778503418, "eval/reward_pred": 0.7863321304321289, "eval/reward_rate": 0.1513671875, "replay/size": 122054.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.674897203271553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3724533739130093e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9371509552001953e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.32488226890564, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8577585220336914, "timer/env.step_frac": 0.009515556954334887, "timer/env.step_avg": 0.004008076468490451, "timer/env.step_min": 0.0024175643920898438, "timer/env.step_max": 0.01831841468811035, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.112948179245, "timer/replay._sample_frac": 0.5930675701381471, "timer/replay._sample_avg": 0.015612986341097913, "timer/replay._sample_min": 0.007972002029418945, "timer/replay._sample_max": 0.046578407287597656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17949843406677246, "timer/agent.save_frac": 0.000597680860509096, "timer/agent.save_avg": 0.17949843406677246, "timer/agent.save_min": 0.17949843406677246, "timer/agent.save_max": 0.17949843406677246, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.98910188674927, "timer/agent.policy_frac": 0.6625794718819799, "timer/agent.policy_avg": 0.2790870994204057, "timer/agent.policy_min": 0.0034465789794921875, "timer/agent.policy_max": 0.36066699028015137, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08649349212646484, "timer/dataset_train_frac": 0.0002879997537101175, "timer/dataset_train_avg": 0.00012130924561916528, "timer/dataset_train_min": 6.890296936035156e-05, "timer/dataset_train_max": 0.0009672641754150391, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.38677453994751, "timer/agent.train_frac": 0.3242714150229787, "timer/agent.train_avg": 0.13658734157075386, "timer/agent.train_min": 0.09813380241394043, "timer/agent.train_max": 0.4270360469818115, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5019264221191406, "timer/agent.report_frac": 0.0016712781782420695, "timer/agent.report_avg": 0.2509632110595703, "timer/agent.report_min": 0.10178518295288086, "timer/agent.report_max": 0.40014123916625977, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.846687316894531e-05, "timer/dataset_eval_frac": 3.2786784906080406e-07, "timer/dataset_eval_avg": 9.846687316894531e-05, "timer/dataset_eval_min": 9.846687316894531e-05, "timer/dataset_eval_max": 9.846687316894531e-05, "fps": 9.495973897368266}
+{"step": 491320, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.7293811374240455, "train/action_min": 0.0, "train/action_std": 2.7828834785355463, "train/actor_opt_grad_norm": 0.007917923225452088, "train/actor_opt_grad_steps": 121375.0, "train/actor_opt_loss": 0.000738382588325395, "train/adv_mag": 0.6121033918526437, "train/adv_max": 0.5683994332535399, "train/adv_mean": 0.0017726563735765114, "train/adv_min": -0.40936069645815426, "train/adv_std": 0.03344146477886372, "train/cont_avg": 0.9985080295138888, "train/cont_loss_mean": 0.0003964919661322656, "train/cont_loss_std": 0.011769949875187832, "train/cont_neg_acc": 0.9509090911258351, "train/cont_neg_loss": 0.1414255356064478, "train/cont_pos_acc": 0.9999592395292388, "train/cont_pos_loss": 0.00021228204874128916, "train/cont_pred": 0.9984926573104329, "train/cont_rate": 0.9985080295138888, "train/dyn_loss_mean": 4.980132235421075, "train/dyn_loss_std": 6.8367676337560015, "train/extr_critic_critic_opt_grad_norm": 2.2305764986409082, "train/extr_critic_critic_opt_grad_steps": 121375.0, "train/extr_critic_critic_opt_loss": 1.5354079057772954, "train/extr_critic_mag": 511.6679509480794, "train/extr_critic_max": 511.6679509480794, "train/extr_critic_mean": 186.32591099209256, "train/extr_critic_min": 0.027267921302053664, "train/extr_critic_std": 150.65094248453775, "train/extr_return_normed_mag": 1.2640276783042483, "train/extr_return_normed_max": 1.2640276783042483, "train/extr_return_normed_mean": 0.4147263516982396, "train/extr_return_normed_min": -0.008726340136490762, "train/extr_return_normed_std": 0.34294776680568856, "train/extr_return_rate": 0.9436532962653372, "train/extr_return_raw_mag": 562.3472785949707, "train/extr_return_raw_max": 562.3472785949707, "train/extr_return_raw_mean": 187.10899098714194, "train/extr_return_raw_min": 0.029286982527992222, "train/extr_return_raw_std": 151.51317034827338, "train/extr_reward_mag": 201.30276107788086, "train/extr_reward_max": 201.30276107788086, "train/extr_reward_mean": 1.0481248531076643, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.848666889799966, "train/image_loss_mean": 1.8436960991885927, "train/image_loss_std": 1.5671321981483035, "train/model_loss_mean": 4.9059777028030815, "train/model_loss_std": 5.399604585435656, "train/model_opt_grad_norm": 12.1559622420205, "train/model_opt_grad_steps": 121375.0, "train/model_opt_loss": 4.9059777028030815, "train/policy_entropy_mag": 2.17830111251937, "train/policy_entropy_max": 2.17830111251937, "train/policy_entropy_mean": 1.187193906141652, "train/policy_entropy_min": 0.06971354379008214, "train/policy_entropy_std": 0.606349901192718, "train/policy_logprob_mag": 6.799271365006764, "train/policy_logprob_max": -0.008988440670590434, "train/policy_logprob_mean": -1.1871060414446726, "train/policy_logprob_min": -6.799271365006764, "train/policy_logprob_std": 1.0962063885397382, "train/policy_randomness_mag": 0.9913875584801038, "train/policy_randomness_max": 0.9913875584801038, "train/policy_randomness_mean": 0.5403152311013805, "train/policy_randomness_min": 0.03172800063879953, "train/policy_randomness_std": 0.27596172959440285, "train/post_ent_mag": 58.34712923897637, "train/post_ent_max": 58.34712923897637, "train/post_ent_mean": 39.09826029671563, "train/post_ent_min": 22.21078766716851, "train/post_ent_std": 5.564085794819726, "train/prior_ent_mag": 79.36436780293782, "train/prior_ent_max": 79.36436780293782, "train/prior_ent_mean": 44.098326683044434, "train/prior_ent_min": 23.87483509381612, "train/prior_ent_std": 8.313153591420916, "train/rep_loss_mean": 4.980132235421075, "train/rep_loss_std": 6.8367676337560015, "train/reward_avg": 1.373291015625, "train/reward_loss_mean": 0.07380574015486571, "train/reward_loss_std": 0.27368951340516406, "train/reward_max_data": 205.97222222222223, "train/reward_max_pred": 177.71648234791226, "train/reward_neg_acc": 0.9671037875943713, "train/reward_neg_loss": 0.009800328042021848, "train/reward_pos_acc": 0.9943762545784315, "train/reward_pos_loss": 0.6676881230539746, "train/reward_pred": 1.230571603609456, "train/reward_rate": 0.0977783203125, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.5686357812683127e-07, "report/cont_loss_std": 3.5602004118118202e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.5686357812683127e-07, "report/cont_pred": 0.9999998807907104, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.70177698135376, "report/dyn_loss_std": 6.582149982452393, "report/image_loss_mean": 1.6899021863937378, "report/image_loss_std": 1.5053379535675049, "report/model_loss_mean": 4.5435967445373535, "report/model_loss_std": 5.2255120277404785, "report/post_ent_mag": 56.52183532714844, "report/post_ent_max": 56.52183532714844, "report/post_ent_mean": 40.32022476196289, "report/post_ent_min": 21.432178497314453, "report/post_ent_std": 5.209841251373291, "report/prior_ent_mag": 79.3978042602539, "report/prior_ent_max": 79.3978042602539, "report/prior_ent_mean": 45.01078414916992, "report/prior_ent_min": 22.500160217285156, "report/prior_ent_std": 7.544894695281982, "report/rep_loss_mean": 4.70177698135376, "report/rep_loss_std": 6.582149982452393, "report/reward_avg": 0.888671875, "report/reward_loss_mean": 0.032628390938043594, "report/reward_loss_std": 0.13155528903007507, "report/reward_max_data": 200.0, "report/reward_max_pred": 153.8972930908203, "report/reward_neg_acc": 0.9712820053100586, "report/reward_neg_loss": 0.006665324326604605, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5492404103279114, "report/reward_pred": 0.7402832508087158, "report/reward_rate": 0.0478515625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.8587783188195317e-06, "eval/cont_loss_std": 5.7771536376094446e-05, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.8587783188195317e-06, "eval/cont_pred": 0.999998152256012, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 11.927846908569336, "eval/dyn_loss_std": 9.845431327819824, "eval/image_loss_mean": 4.300268173217773, "eval/image_loss_std": 3.287653923034668, "eval/model_loss_mean": 11.98492431640625, "eval/model_loss_std": 8.707622528076172, "eval/post_ent_mag": 57.029823303222656, "eval/post_ent_max": 57.029823303222656, "eval/post_ent_mean": 43.047019958496094, "eval/post_ent_min": 25.80172348022461, "eval/post_ent_std": 4.83511209487915, "eval/prior_ent_mag": 79.3978042602539, "eval/prior_ent_max": 79.3978042602539, "eval/prior_ent_mean": 49.47893142700195, "eval/prior_ent_min": 32.33602523803711, "eval/prior_ent_std": 7.179592132568359, "eval/rep_loss_mean": 11.927846908569336, "eval/rep_loss_std": 9.845431327819824, "eval/reward_avg": 1.455078125, "eval/reward_loss_mean": 0.5279463529586792, "eval/reward_loss_std": 2.294731616973877, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 10.009705543518066, "eval/reward_neg_acc": 0.8632479310035706, "eval/reward_neg_loss": 0.15259607136249542, "eval/reward_pos_acc": 0.6590909361839294, "eval/reward_pos_loss": 4.520308971405029, "eval/reward_pred": 0.7096965909004211, "eval/reward_rate": 0.0859375, "replay/size": 122767.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.571905727306221e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.374125313457901e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.9073486328125e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.95455408096313, "timer/env.step_count": 713.0, "timer/env.step_total": 2.843478202819824, "timer/env.step_frac": 0.009479696721165028, "timer/env.step_avg": 0.003988047970294284, "timer/env.step_min": 0.0023987293243408203, "timer/env.step_max": 0.010583639144897461, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.52075862884521, "timer/replay._sample_frac": 0.5918255156110388, "timer/replay._sample_avg": 0.015561076317395268, "timer/replay._sample_min": 0.008326530456542969, "timer/replay._sample_max": 0.055626869201660156, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.92085528373718, "timer/agent.policy_frac": 0.6631699788430112, "timer/agent.policy_avg": 0.27899138188462436, "timer/agent.policy_min": 0.003438711166381836, "timer/agent.policy_max": 0.31372690200805664, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08556938171386719, "timer/dataset_train_frac": 0.00028527448758377736, "timer/dataset_train_avg": 0.0001200131580839652, "timer/dataset_train_min": 7.295608520507812e-05, "timer/dataset_train_max": 0.0002453327178955078, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.3982675075531, "timer/agent.train_frac": 0.32471008085199315, "timer/agent.train_avg": 0.13660346073990617, "timer/agent.train_min": 0.09856033325195312, "timer/agent.train_max": 0.42605042457580566, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19690322875976562, "timer/agent.report_frac": 0.0006564435381321729, "timer/agent.report_avg": 0.09845161437988281, "timer/agent.report_min": 0.09827136993408203, "timer/agent.report_max": 0.0986318588256836, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.842613220214844e-05, "timer/dataset_eval_frac": 2.281216646695052e-07, "timer/dataset_eval_avg": 6.842613220214844e-05, "timer/dataset_eval_min": 6.842613220214844e-05, "timer/dataset_eval_max": 6.842613220214844e-05, "fps": 9.507728218028824}
+{"step": 491452, "episode/length": 828.0, "episode/score": 2360.0, "episode/reward_rate": 0.1097708082026538}
+{"step": 494176, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.616818710112236, "train/action_min": 0.0, "train/action_std": 2.8331795175310592, "train/actor_opt_grad_norm": 0.0076166003922813795, "train/actor_opt_grad_steps": 122090.0, "train/actor_opt_loss": 0.0010491164991858375, "train/adv_mag": 0.6466556371937335, "train/adv_max": 0.6093555071824034, "train/adv_mean": 0.002170024461456321, "train/adv_min": -0.40973857779737927, "train/adv_std": 0.03375556398655327, "train/cont_avg": 0.9984457526408451, "train/cont_loss_mean": 0.00021771764802655955, "train/cont_loss_std": 0.00561710241005902, "train/cont_neg_acc": 0.9473684210526315, "train/cont_neg_loss": 0.14591807514408292, "train/cont_pos_acc": 0.9999723795434119, "train/cont_pos_loss": 9.178470990428957e-05, "train/cont_pred": 0.9984312846627034, "train/cont_rate": 0.9984457526408451, "train/dyn_loss_mean": 4.743722324639979, "train/dyn_loss_std": 6.748527976828561, "train/extr_critic_critic_opt_grad_norm": 2.298660434467692, "train/extr_critic_critic_opt_grad_steps": 122090.0, "train/extr_critic_critic_opt_loss": 1.5110134272508218, "train/extr_critic_mag": 493.39281280947404, "train/extr_critic_max": 493.39281280947404, "train/extr_critic_mean": 194.04708948269698, "train/extr_critic_min": 0.07770532453563851, "train/extr_critic_std": 152.449614403953, "train/extr_return_normed_mag": 1.245486084004523, "train/extr_return_normed_max": 1.245486084004523, "train/extr_return_normed_mean": 0.43414264875398556, "train/extr_return_normed_min": -0.01041275396628279, "train/extr_return_normed_std": 0.35048182644474674, "train/extr_return_rate": 0.9300469949211873, "train/extr_return_raw_mag": 550.5567596865372, "train/extr_return_raw_max": 550.5567596865372, "train/extr_return_raw_mean": 194.99745242696412, "train/extr_return_raw_min": 0.06279419822160083, "train/extr_return_raw_std": 153.6885980955312, "train/extr_reward_mag": 186.56666208992542, "train/extr_reward_max": 186.56666208992542, "train/extr_reward_mean": 1.0726382291652787, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.6492918142130675, "train/image_loss_mean": 1.7701439773532706, "train/image_loss_std": 1.53121533863981, "train/model_loss_mean": 4.688042100046722, "train/model_loss_std": 5.3178876017180965, "train/model_opt_grad_norm": 11.732667318532165, "train/model_opt_grad_steps": 122090.0, "train/model_opt_loss": 4.688042100046722, "train/policy_entropy_mag": 2.181788656073557, "train/policy_entropy_max": 2.181788656073557, "train/policy_entropy_mean": 1.2081394875553293, "train/policy_entropy_min": 0.06969028354530603, "train/policy_entropy_std": 0.6207891047840387, "train/policy_logprob_mag": 6.798530444292955, "train/policy_logprob_max": -0.008984870133055767, "train/policy_logprob_mean": -1.20947196869783, "train/policy_logprob_min": -6.798530444292955, "train/policy_logprob_std": 1.0897349320666891, "train/policy_randomness_mag": 0.9929747992837933, "train/policy_randomness_max": 0.9929747992837933, "train/policy_randomness_mean": 0.5498479739041395, "train/policy_randomness_min": 0.031717414692254135, "train/policy_randomness_std": 0.28253329387852844, "train/post_ent_mag": 58.57264833047356, "train/post_ent_max": 58.57264833047356, "train/post_ent_mean": 38.80285821834081, "train/post_ent_min": 22.001280798038966, "train/post_ent_std": 5.63202166557312, "train/prior_ent_mag": 79.3378944934254, "train/prior_ent_max": 79.3378944934254, "train/prior_ent_mean": 43.59758441548952, "train/prior_ent_min": 23.81673178874271, "train/prior_ent_std": 8.351130478818652, "train/rep_loss_mean": 4.743722324639979, "train/rep_loss_std": 6.748527976828561, "train/reward_avg": 1.3239986795774648, "train/reward_loss_mean": 0.07144701234261755, "train/reward_loss_std": 0.249358196703481, "train/reward_max_data": 204.50704225352112, "train/reward_max_pred": 157.25747434857865, "train/reward_neg_acc": 0.968023268269821, "train/reward_neg_loss": 0.009749065710782585, "train/reward_pos_acc": 0.9955433842162011, "train/reward_pos_loss": 0.640014585474847, "train/reward_pred": 1.2010861467307723, "train/reward_rate": 0.09828895246478873, "train_stats/mean_log_entropy": 1.0497291088104248, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 8.374803292099386e-05, "report/cont_loss_std": 0.0024927593767642975, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0015292603056877851, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.091924246400595e-05, "report/cont_pred": 0.9979721307754517, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.558302879333496, "report/dyn_loss_std": 6.896918296813965, "report/image_loss_mean": 1.9079254865646362, "report/image_loss_std": 1.824953317642212, "report/model_loss_mean": 4.701425552368164, "report/model_loss_std": 5.618941307067871, "report/post_ent_mag": 58.246826171875, "report/post_ent_max": 58.246826171875, "report/post_ent_mean": 38.51215362548828, "report/post_ent_min": 22.657913208007812, "report/post_ent_std": 4.70943546295166, "report/prior_ent_mag": 79.36444091796875, "report/prior_ent_max": 79.36444091796875, "report/prior_ent_mean": 43.40931701660156, "report/prior_ent_min": 24.557554244995117, "report/prior_ent_std": 7.629952430725098, "report/rep_loss_mean": 4.558302879333496, "report/rep_loss_std": 6.896918296813965, "report/reward_avg": 1.03515625, "report/reward_loss_mean": 0.05843445658683777, "report/reward_loss_std": 0.20573563873767853, "report/reward_max_data": 100.0, "report/reward_max_pred": 60.898292541503906, "report/reward_neg_acc": 0.9816612601280212, "report/reward_neg_loss": 0.003239730838686228, "report/reward_pos_acc": 0.9896907806396484, "report/reward_pos_loss": 0.5859140157699585, "report/reward_pred": 0.9731680154800415, "report/reward_rate": 0.0947265625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0025046744849532843, "eval/cont_loss_std": 0.05554218217730522, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.4751494526863098, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.0015797334490343928, "eval/cont_pred": 0.997965931892395, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.736141204833984, "eval/dyn_loss_std": 9.998534202575684, "eval/image_loss_mean": 4.588479518890381, "eval/image_loss_std": 4.200761795043945, "eval/model_loss_mean": 12.236114501953125, "eval/model_loss_std": 10.204310417175293, "eval/post_ent_mag": 58.20934295654297, "eval/post_ent_max": 58.20934295654297, "eval/post_ent_mean": 40.21241760253906, "eval/post_ent_min": 21.728090286254883, "eval/post_ent_std": 7.078075408935547, "eval/prior_ent_mag": 79.36444091796875, "eval/prior_ent_max": 79.36444091796875, "eval/prior_ent_mean": 47.36247253417969, "eval/prior_ent_min": 22.583660125732422, "eval/prior_ent_std": 10.441428184509277, "eval/rep_loss_mean": 11.736141204833984, "eval/rep_loss_std": 9.998534202575684, "eval/reward_avg": 0.966796875, "eval/reward_loss_mean": 0.6034457683563232, "eval/reward_loss_std": 2.501870632171631, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.132415771484375, "eval/reward_neg_acc": 0.9303321838378906, "eval/reward_neg_loss": 0.08949362486600876, "eval/reward_pos_acc": 0.4615384638309479, "eval/reward_pos_loss": 5.872867107391357, "eval/reward_pred": 0.5108577013015747, "eval/reward_rate": 0.0888671875, "replay/size": 123481.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.507669528993238e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3845766625818418e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3580493927002, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8165066242218018, "timer/env.step_frac": 0.009377163788074105, "timer/env.step_avg": 0.003944687148770031, "timer/env.step_min": 0.002099275588989258, "timer/env.step_max": 0.01911139488220215, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 177.67802143096924, "timer/replay._sample_frac": 0.5915540528719636, "timer/replay._sample_avg": 0.015553048094447587, "timer/replay._sample_min": 0.00827789306640625, "timer/replay._sample_max": 0.033233642578125, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.43752479553223, "timer/agent.policy_frac": 0.6639992675367911, "timer/agent.policy_avg": 0.2793242644195129, "timer/agent.policy_min": 0.003121614456176758, "timer/agent.policy_max": 0.31453895568847656, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08523035049438477, "timer/dataset_train_frac": 0.00028376249834726814, "timer/dataset_train_avg": 0.00011937023878765373, "timer/dataset_train_min": 6.365776062011719e-05, "timer/dataset_train_max": 0.00019812583923339844, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.00350022315979, "timer/agent.train_frac": 0.32295954917570235, "timer/agent.train_avg": 0.13585924401002772, "timer/agent.train_min": 0.09835076332092285, "timer/agent.train_max": 0.4293689727783203, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4976832866668701, "timer/agent.report_frac": 0.0016569667024844037, "timer/agent.report_avg": 0.24884164333343506, "timer/agent.report_min": 0.09923243522644043, "timer/agent.report_max": 0.3984508514404297, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.4809112548828125e-05, "timer/dataset_eval_frac": 1.1589205822587192e-07, "timer/dataset_eval_avg": 3.4809112548828125e-05, "timer/dataset_eval_min": 3.4809112548828125e-05, "timer/dataset_eval_max": 3.4809112548828125e-05, "fps": 9.508239239127072}
+{"step": 494188, "episode/length": 683.0, "episode/score": 1450.0, "episode/reward_rate": 0.15935672514619884}
+{"step": 496808, "episode/length": 654.0, "episode/score": 1130.0, "episode/reward_rate": 0.1465648854961832}
+{"step": 497032, "train_stats/mean_log_entropy": 1.0835070610046387, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.633523430622799, "train/action_min": 0.0, "train/action_std": 2.79210673587423, "train/actor_opt_grad_norm": 0.007864241334150585, "train/actor_opt_grad_steps": 122800.0, "train/actor_opt_loss": 0.0009180089029644183, "train/adv_mag": 0.6820002895005992, "train/adv_max": 0.6419325000803235, "train/adv_mean": 0.0023444506333990048, "train/adv_min": -0.43678927400582274, "train/adv_std": 0.034980674300500204, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.0001382928146828634, "train/cont_loss_std": 0.003739151587238029, "train/cont_neg_acc": 0.9673202622170541, "train/cont_neg_loss": 0.05733069031683548, "train/cont_pos_acc": 0.9999862162160201, "train/cont_pos_loss": 4.309272365066331e-05, "train/cont_pred": 0.998720065808632, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.833564509808178, "train/dyn_loss_std": 6.726899005997349, "train/extr_critic_critic_opt_grad_norm": 2.31171646084584, "train/extr_critic_critic_opt_grad_steps": 122800.0, "train/extr_critic_critic_opt_loss": 1.5234965321043847, "train/extr_critic_mag": 501.7261490083077, "train/extr_critic_max": 501.7261490083077, "train/extr_critic_mean": 196.57635315371232, "train/extr_critic_min": 0.2759960268584775, "train/extr_critic_std": 156.04873420822787, "train/extr_return_normed_mag": 1.2571604755562795, "train/extr_return_normed_max": 1.2571604755562795, "train/extr_return_normed_mean": 0.4373223685042959, "train/extr_return_normed_min": -0.009808925911784172, "train/extr_return_normed_std": 0.35592513982678803, "train/extr_return_rate": 0.9334755078167982, "train/extr_return_raw_mag": 559.3113635425836, "train/extr_return_raw_max": 559.3113635425836, "train/extr_return_raw_mean": 197.6104728806187, "train/extr_return_raw_min": 0.27603335322977807, "train/extr_return_raw_std": 157.05442573654818, "train/extr_reward_mag": 202.93493677864612, "train/extr_reward_max": 202.93493677864612, "train/extr_reward_mean": 1.0782390513890225, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.680904563044159, "train/image_loss_mean": 1.7716322667162183, "train/image_loss_std": 1.4843796911373945, "train/model_loss_mean": 4.74649414881854, "train/model_loss_std": 5.264465560375805, "train/model_opt_grad_norm": 12.040858792587064, "train/model_opt_grad_steps": 122800.0, "train/model_opt_loss": 4.74649414881854, "train/policy_entropy_mag": 2.17915270026301, "train/policy_entropy_max": 2.17915270026301, "train/policy_entropy_mean": 1.1777457519316337, "train/policy_entropy_min": 0.0696879719764414, "train/policy_entropy_std": 0.6207974284467562, "train/policy_logprob_mag": 6.799755244187906, "train/policy_logprob_max": -0.008984817611709448, "train/policy_logprob_mean": -1.1798142698449148, "train/policy_logprob_min": -6.799755244187906, "train/policy_logprob_std": 1.0942118134297116, "train/policy_randomness_mag": 0.9917751273638765, "train/policy_randomness_max": 0.9917751273638765, "train/policy_randomness_mean": 0.5360151923878093, "train/policy_randomness_min": 0.03171636295360579, "train/policy_randomness_std": 0.2825370791932227, "train/post_ent_mag": 58.645828784351615, "train/post_ent_max": 58.645828784351615, "train/post_ent_mean": 38.885491277130555, "train/post_ent_min": 21.490781004999725, "train/post_ent_std": 5.589738865973244, "train/prior_ent_mag": 79.30490671077244, "train/prior_ent_max": 79.30490671077244, "train/prior_ent_mean": 43.715113089118205, "train/prior_ent_min": 23.667098918431243, "train/prior_ent_std": 8.265569075732165, "train/rep_loss_mean": 4.833564509808178, "train/rep_loss_std": 6.726899005997349, "train/reward_avg": 1.3938710387323943, "train/reward_loss_mean": 0.07458486528673643, "train/reward_loss_std": 0.2648234850084278, "train/reward_max_data": 218.0281690140845, "train/reward_max_pred": 173.3378985633313, "train/reward_neg_acc": 0.9668518078159278, "train/reward_neg_loss": 0.01042295889896144, "train/reward_pos_acc": 0.9953172240458744, "train/reward_pos_loss": 0.6597703065670711, "train/reward_pred": 1.2159751078612369, "train/reward_rate": 0.09883912852112677, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.002520522801205516, "report/cont_loss_std": 0.07847798615694046, "report/cont_neg_acc": 0.5, "report/cont_neg_loss": 1.2560477256774902, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 6.743592530256137e-05, "report/cont_pred": 0.9988781809806824, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.8132009506225586, "report/dyn_loss_std": 6.491234302520752, "report/image_loss_mean": 1.3984122276306152, "report/image_loss_std": 1.4304603338241577, "report/model_loss_mean": 3.766453742980957, "report/model_loss_std": 5.11883544921875, "report/post_ent_mag": 60.42866134643555, "report/post_ent_max": 60.42866134643555, "report/post_ent_mean": 37.605228424072266, "report/post_ent_min": 20.31820297241211, "report/post_ent_std": 6.657147407531738, "report/prior_ent_mag": 79.39228820800781, "report/prior_ent_max": 79.39228820800781, "report/prior_ent_mean": 41.755802154541016, "report/prior_ent_min": 22.0428466796875, "report/prior_ent_std": 9.278618812561035, "report/rep_loss_mean": 3.8132009506225586, "report/rep_loss_std": 6.491234302520752, "report/reward_avg": 1.11328125, "report/reward_loss_mean": 0.07760031521320343, "report/reward_loss_std": 0.2571204602718353, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.002506256103516, "report/reward_neg_acc": 0.9671772718429565, "report/reward_neg_loss": 0.009380164556205273, "report/reward_pos_acc": 0.9999999403953552, "report/reward_pos_loss": 0.6444477438926697, "report/reward_pred": 1.0531642436981201, "report/reward_rate": 0.107421875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.008052467368543148, "eval/cont_loss_std": 0.2456827163696289, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0015072938986122608, "eval/cont_pos_acc": 0.9990215301513672, "eval/cont_pos_loss": 0.008065275847911835, "eval/cont_pred": 0.9967552423477173, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.17448616027832, "eval/dyn_loss_std": 9.944070816040039, "eval/image_loss_mean": 5.595109939575195, "eval/image_loss_std": 4.529224395751953, "eval/model_loss_mean": 13.939811706542969, "eval/model_loss_std": 9.977996826171875, "eval/post_ent_mag": 59.903587341308594, "eval/post_ent_max": 59.903587341308594, "eval/post_ent_mean": 42.81493377685547, "eval/post_ent_min": 24.765209197998047, "eval/post_ent_std": 5.9292893409729, "eval/prior_ent_mag": 79.39228820800781, "eval/prior_ent_max": 79.39228820800781, "eval/prior_ent_mean": 50.4093132019043, "eval/prior_ent_min": 26.828113555908203, "eval/prior_ent_std": 8.191351890563965, "eval/rep_loss_mean": 13.17448616027832, "eval/rep_loss_std": 9.944070816040039, "eval/reward_avg": 0.9765625, "eval/reward_loss_mean": 0.43195870518684387, "eval/reward_loss_std": 2.151301860809326, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 10.004740715026855, "eval/reward_neg_acc": 0.923711359500885, "eval/reward_neg_loss": 0.06858434528112411, "eval/reward_pos_acc": 0.4444444477558136, "eval/reward_pos_loss": 6.959238529205322, "eval/reward_pred": 0.2719807028770447, "eval/reward_rate": 0.052734375, "replay/size": 124195.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.568108972715063e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3650214972616243e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 3.5315752029418945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16050362586975, "timer/env.step_count": 714.0, "timer/env.step_total": 2.833409070968628, "timer/env.step_frac": 0.009439646578219649, "timer/env.step_avg": 0.003968360043373429, "timer/env.step_min": 0.0020928382873535156, "timer/env.step_max": 0.02271580696105957, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 177.2131791114807, "timer/replay._sample_frac": 0.5903947287227544, "timer/replay._sample_avg": 0.015512358115500762, "timer/replay._sample_min": 0.007547855377197266, "timer/replay._sample_max": 0.03937840461730957, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.40860033035278, "timer/agent.policy_frac": 0.6643399045562052, "timer/agent.policy_avg": 0.2792837539640795, "timer/agent.policy_min": 0.0034117698669433594, "timer/agent.policy_max": 0.313493013381958, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08365726470947266, "timer/dataset_train_frac": 0.0002787084366494331, "timer/dataset_train_avg": 0.00011716703740822501, "timer/dataset_train_min": 7.534027099609375e-05, "timer/dataset_train_max": 0.00026535987854003906, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.81204557418823, "timer/agent.train_frac": 0.32253425885391657, "timer/agent.train_avg": 0.13559110024396112, "timer/agent.train_min": 0.09947681427001953, "timer/agent.train_max": 0.42505645751953125, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49742913246154785, "timer/agent.report_frac": 0.001657210480568624, "timer/agent.report_avg": 0.24871456623077393, "timer/agent.report_min": 0.09890556335449219, "timer/agent.report_max": 0.39852356910705566, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.05718994140625e-05, "timer/dataset_eval_frac": 2.3511387594826839e-07, "timer/dataset_eval_avg": 7.05718994140625e-05, "timer/dataset_eval_min": 7.05718994140625e-05, "timer/dataset_eval_max": 7.05718994140625e-05, "fps": 9.514522982457914}
+{"step": 499880, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.626962449815538, "train/action_min": 0.0, "train/action_std": 2.8016234272056155, "train/actor_opt_grad_norm": 0.007253356827681677, "train/actor_opt_grad_steps": 123515.0, "train/actor_opt_loss": 0.0007749249301696182, "train/adv_mag": 0.6623357004589505, "train/adv_max": 0.6063102185726166, "train/adv_mean": 0.002013693734681965, "train/adv_min": -0.4129387450714906, "train/adv_std": 0.033884513463514544, "train/cont_avg": 0.9987250434027778, "train/cont_loss_mean": 0.00018086182007707698, "train/cont_loss_std": 0.004813288783122409, "train/cont_neg_acc": 0.9799382719728682, "train/cont_neg_loss": 0.049139374197234055, "train/cont_pos_acc": 0.9999727913075023, "train/cont_pos_loss": 7.317683740851023e-05, "train/cont_pred": 0.9987108632922173, "train/cont_rate": 0.9987250434027778, "train/dyn_loss_mean": 4.830510649416182, "train/dyn_loss_std": 6.801347434520721, "train/extr_critic_critic_opt_grad_norm": 2.3675597574975757, "train/extr_critic_critic_opt_grad_steps": 123515.0, "train/extr_critic_critic_opt_loss": 1.5396152072482638, "train/extr_critic_mag": 496.15149307250977, "train/extr_critic_max": 496.15149307250977, "train/extr_critic_mean": 197.6266009012858, "train/extr_critic_min": 0.23442294200261435, "train/extr_critic_std": 156.50659370422363, "train/extr_return_normed_mag": 1.2579084419541888, "train/extr_return_normed_max": 1.2579084419541888, "train/extr_return_normed_mean": 0.4392976856066121, "train/extr_return_normed_min": -0.009967217745725065, "train/extr_return_normed_std": 0.3565233353939321, "train/extr_return_rate": 0.9387008572618166, "train/extr_return_raw_mag": 559.7748603820801, "train/extr_return_raw_max": 559.7748603820801, "train/extr_return_raw_mean": 198.51513947380914, "train/extr_return_raw_min": 0.2614498703753472, "train/extr_return_raw_std": 157.32566505008273, "train/extr_reward_mag": 195.79103611575232, "train/extr_reward_max": 195.79103611575232, "train/extr_reward_mean": 1.0867940696577232, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.891770813200209, "train/image_loss_mean": 1.7715423736307356, "train/image_loss_std": 1.5653941498862372, "train/model_loss_mean": 4.744417087899314, "train/model_loss_std": 5.387244396739536, "train/model_opt_grad_norm": 11.497356401549446, "train/model_opt_grad_steps": 123515.0, "train/model_opt_loss": 4.744417087899314, "train/policy_entropy_mag": 2.180314885245429, "train/policy_entropy_max": 2.180314885245429, "train/policy_entropy_mean": 1.1865902692079544, "train/policy_entropy_min": 0.06968737424661715, "train/policy_entropy_std": 0.6226603695087962, "train/policy_logprob_mag": 6.799084332254198, "train/policy_logprob_max": -0.008984360028989613, "train/policy_logprob_mean": -1.1878019463684824, "train/policy_logprob_min": -6.799084332254198, "train/policy_logprob_std": 1.0917894608444638, "train/policy_randomness_mag": 0.9923040610220697, "train/policy_randomness_max": 0.9923040610220697, "train/policy_randomness_mean": 0.5400405050151877, "train/policy_randomness_min": 0.03171609052353435, "train/policy_randomness_std": 0.2833849440018336, "train/post_ent_mag": 58.59300078286065, "train/post_ent_max": 58.59300078286065, "train/post_ent_mean": 38.79973432752821, "train/post_ent_min": 21.841630087958443, "train/post_ent_std": 5.507507390446133, "train/prior_ent_mag": 79.30925761328803, "train/prior_ent_max": 79.30925761328803, "train/prior_ent_mean": 43.59096007876926, "train/prior_ent_min": 24.137885067198013, "train/prior_ent_std": 8.286121375030941, "train/rep_loss_mean": 4.830510649416182, "train/rep_loss_std": 6.801347434520721, "train/reward_avg": 1.3959418402777777, "train/reward_loss_mean": 0.07438747222638792, "train/reward_loss_std": 0.27036570943892, "train/reward_max_data": 219.86111111111111, "train/reward_max_pred": 169.94874939653607, "train/reward_neg_acc": 0.9683923572301865, "train/reward_neg_loss": 0.009265130004172938, "train/reward_pos_acc": 0.9940342555443445, "train/reward_pos_loss": 0.6685195904639032, "train/reward_pred": 1.2214097877343495, "train/reward_rate": 0.09971788194444445, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.882217581325676e-07, "report/cont_loss_std": 1.3205677532823756e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00042137803393416107, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 7.679475544364323e-08, "report/cont_pred": 0.9990237951278687, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.625565528869629, "report/dyn_loss_std": 7.113992691040039, "report/image_loss_mean": 1.7973973751068115, "report/image_loss_std": 1.6007826328277588, "report/model_loss_mean": 4.618826866149902, "report/model_loss_std": 5.595837116241455, "report/post_ent_mag": 59.65538024902344, "report/post_ent_max": 59.65538024902344, "report/post_ent_mean": 38.29295349121094, "report/post_ent_min": 20.833179473876953, "report/post_ent_std": 4.842616081237793, "report/prior_ent_mag": 79.14448547363281, "report/prior_ent_max": 79.14448547363281, "report/prior_ent_mean": 43.265350341796875, "report/prior_ent_min": 22.269960403442383, "report/prior_ent_std": 7.728278636932373, "report/rep_loss_mean": 4.625565528869629, "report/rep_loss_std": 7.113992691040039, "report/reward_avg": 0.91796875, "report/reward_loss_mean": 0.04608979821205139, "report/reward_loss_std": 0.18345420062541962, "report/reward_max_data": 200.0, "report/reward_max_pred": 194.765869140625, "report/reward_neg_acc": 0.9821615219116211, "report/reward_neg_loss": 0.0026080480311065912, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6297250986099243, "report/reward_pred": 0.8539477586746216, "report/reward_rate": 0.0693359375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0014756715390831232, "eval/cont_loss_std": 0.046885136514902115, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 1.5010454654693604, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.81643552222522e-06, "eval/cont_pred": 0.9997725486755371, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.310359954833984, "eval/dyn_loss_std": 9.08663558959961, "eval/image_loss_mean": 3.3884541988372803, "eval/image_loss_std": 3.8195078372955322, "eval/model_loss_mean": 9.135719299316406, "eval/model_loss_std": 9.539366722106934, "eval/post_ent_mag": 59.16571807861328, "eval/post_ent_max": 59.16571807861328, "eval/post_ent_mean": 38.74363327026367, "eval/post_ent_min": 20.790849685668945, "eval/post_ent_std": 6.593873023986816, "eval/prior_ent_mag": 79.14448547363281, "eval/prior_ent_max": 79.14448547363281, "eval/prior_ent_mean": 44.28438949584961, "eval/prior_ent_min": 23.557880401611328, "eval/prior_ent_std": 9.497109413146973, "eval/rep_loss_mean": 8.310359954833984, "eval/rep_loss_std": 9.08663558959961, "eval/reward_avg": 1.533203125, "eval/reward_loss_mean": 0.7595736980438232, "eval/reward_loss_std": 2.9115841388702393, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 24.956642150878906, "eval/reward_neg_acc": 0.9165714383125305, "eval/reward_neg_loss": 0.10894137620925903, "eval/reward_pos_acc": 0.6577181220054626, "eval/reward_pos_loss": 4.580401420593262, "eval/reward_pred": 0.9640303254127502, "eval/reward_rate": 0.1455078125, "replay/size": 124907.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.707312166021111e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3624516765723068e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.3990869522094727e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9526627063751, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8294153213500977, "timer/env.step_frac": 0.009432872826736077, "timer/env.step_avg": 0.00397389792324452, "timer/env.step_min": 0.0025177001953125, "timer/env.step_max": 0.007219076156616211, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 175.82280731201172, "timer/replay._sample_frac": 0.5861685164772995, "timer/replay._sample_avg": 0.015433884068821253, "timer/replay._sample_min": 0.0077686309814453125, "timer/replay._sample_max": 0.04781508445739746, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15944457054138184, "timer/agent.save_frac": 0.0005315657780890006, "timer/agent.save_avg": 0.15944457054138184, "timer/agent.save_min": 0.15944457054138184, "timer/agent.save_max": 0.15944457054138184, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 199.08632040023804, "timer/agent.policy_frac": 0.6637257979440724, "timer/agent.policy_avg": 0.27961561853966016, "timer/agent.policy_min": 0.0032410621643066406, "timer/agent.policy_max": 0.40520405769348145, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.08531546592712402, "timer/dataset_train_frac": 0.00028442976687504746, "timer/dataset_train_avg": 0.00011982509259427532, "timer/dataset_train_min": 7.271766662597656e-05, "timer/dataset_train_max": 0.0002346038818359375, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.25036573410034, "timer/agent.train_frac": 0.32421904462071444, "timer/agent.train_avg": 0.13658759232317463, "timer/agent.train_min": 0.0987088680267334, "timer/agent.train_max": 0.4285893440246582, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20088744163513184, "timer/agent.report_frac": 0.0006697304828788313, "timer/agent.report_avg": 0.10044372081756592, "timer/agent.report_min": 0.09975433349609375, "timer/agent.report_max": 0.10113310813903809, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.082389831542969e-05, "timer/dataset_eval_frac": 2.694555120337389e-07, "timer/dataset_eval_avg": 8.082389831542969e-05, "timer/dataset_eval_min": 8.082389831542969e-05, "timer/dataset_eval_max": 8.082389831542969e-05, "fps": 9.494502433707376}
+{"step": 500872, "episode/length": 1015.0, "episode/score": 1190.0, "episode/reward_rate": 0.09055118110236221}
+{"step": 502740, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.566137179522447, "train/action_min": 0.0, "train/action_std": 2.8198821678967545, "train/actor_opt_grad_norm": 0.008458552508234558, "train/actor_opt_grad_steps": 124230.0, "train/actor_opt_loss": 0.0011449956809499295, "train/adv_mag": 0.6731709451742576, "train/adv_max": 0.6474066313723443, "train/adv_mean": 0.002274387971187358, "train/adv_min": -0.4226694638040704, "train/adv_std": 0.037071765702165346, "train/cont_avg": 0.9986520686619719, "train/cont_loss_mean": 0.00029113499407207153, "train/cont_loss_std": 0.007993064535758751, "train/cont_neg_acc": 0.9345238102333886, "train/cont_neg_loss": 0.15196285109376667, "train/cont_pos_acc": 0.9999724223580159, "train/cont_pos_loss": 7.295017706446602e-05, "train/cont_pred": 0.9986959032609429, "train/cont_rate": 0.9986520686619719, "train/dyn_loss_mean": 4.850642231148734, "train/dyn_loss_std": 6.765747023300386, "train/extr_critic_critic_opt_grad_norm": 2.340469971509047, "train/extr_critic_critic_opt_grad_steps": 124230.0, "train/extr_critic_critic_opt_loss": 1.534026778919596, "train/extr_critic_mag": 498.21467740770794, "train/extr_critic_max": 498.21467740770794, "train/extr_critic_mean": 197.1629980382785, "train/extr_critic_min": 0.38746021666996916, "train/extr_critic_std": 154.0912821595098, "train/extr_return_normed_mag": 1.2694546303278964, "train/extr_return_normed_max": 1.2694546303278964, "train/extr_return_normed_mean": 0.43806383160638135, "train/extr_return_normed_min": -0.009226607145662879, "train/extr_return_normed_std": 0.35047845395518024, "train/extr_return_rate": 0.9442598735782463, "train/extr_return_raw_mag": 565.8684167996258, "train/extr_return_raw_max": 565.8684167996258, "train/extr_return_raw_mean": 198.16919611541317, "train/extr_return_raw_min": 0.33638124971020916, "train/extr_return_raw_std": 155.00526127345125, "train/extr_reward_mag": 229.55752192752462, "train/extr_reward_max": 229.55752192752462, "train/extr_reward_mean": 1.1416785397999722, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.6853092791328965, "train/image_loss_mean": 1.7941038373490454, "train/image_loss_std": 1.5534802305866295, "train/model_loss_mean": 4.776278442060444, "train/model_loss_std": 5.3369386229716556, "train/model_opt_grad_norm": 11.719646521017586, "train/model_opt_grad_steps": 124230.0, "train/model_opt_loss": 4.776278442060444, "train/policy_entropy_mag": 2.181415618305475, "train/policy_entropy_max": 2.181415618305475, "train/policy_entropy_mean": 1.1671504470664011, "train/policy_entropy_min": 0.06959004742158971, "train/policy_entropy_std": 0.6236833736930095, "train/policy_logprob_mag": 6.7998137339739735, "train/policy_logprob_max": -0.00896978468804712, "train/policy_logprob_mean": -1.166641376387905, "train/policy_logprob_min": -6.7998137339739735, "train/policy_logprob_std": 1.0967516714418437, "train/policy_randomness_mag": 0.9928050259469261, "train/policy_randomness_max": 0.9928050259469261, "train/policy_randomness_mean": 0.5311930586754436, "train/policy_randomness_min": 0.031671795259479066, "train/policy_randomness_std": 0.28385053470101157, "train/post_ent_mag": 58.56893012893032, "train/post_ent_max": 58.56893012893032, "train/post_ent_mean": 38.853438363948335, "train/post_ent_min": 21.73986494037467, "train/post_ent_std": 5.603755198733907, "train/prior_ent_mag": 79.48232247795858, "train/prior_ent_max": 79.48232247795858, "train/prior_ent_mean": 43.795832351899485, "train/prior_ent_min": 23.449924952547317, "train/prior_ent_std": 8.321989361668976, "train/rep_loss_mean": 4.850642231148734, "train/rep_loss_std": 6.765747023300386, "train/reward_avg": 1.4297700264084507, "train/reward_loss_mean": 0.07149809499231863, "train/reward_loss_std": 0.25202750173253075, "train/reward_max_data": 243.2394366197183, "train/reward_max_pred": 209.72254015694202, "train/reward_neg_acc": 0.9699963322827514, "train/reward_neg_loss": 0.009022246695346606, "train/reward_pos_acc": 0.9953698180091213, "train/reward_pos_loss": 0.6384199916476935, "train/reward_pred": 1.2895876328710099, "train/reward_rate": 0.09945807658450705, "train_stats/mean_log_entropy": 1.246976375579834, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 2.967481304949615e-05, "report/cont_loss_std": 0.0007623258861713111, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0005427117575891316, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.816736014210619e-05, "report/cont_pred": 0.9970441460609436, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 6.126321792602539, "report/dyn_loss_std": 7.258662700653076, "report/image_loss_mean": 2.2260992527008057, "report/image_loss_std": 2.143817901611328, "report/model_loss_mean": 5.970073699951172, "report/model_loss_std": 6.281471252441406, "report/post_ent_mag": 58.520965576171875, "report/post_ent_max": 58.520965576171875, "report/post_ent_mean": 39.4732551574707, "report/post_ent_min": 23.277359008789062, "report/post_ent_std": 6.156804084777832, "report/prior_ent_mag": 79.6453857421875, "report/prior_ent_max": 79.6453857421875, "report/prior_ent_mean": 45.31255340576172, "report/prior_ent_min": 23.55657958984375, "report/prior_ent_std": 9.399303436279297, "report/rep_loss_mean": 6.126321792602539, "report/rep_loss_std": 7.258662700653076, "report/reward_avg": 0.712890625, "report/reward_loss_mean": 0.06815186142921448, "report/reward_loss_std": 0.32664909958839417, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.97800827026367, "report/reward_neg_acc": 0.9530761241912842, "report/reward_neg_loss": 0.027090677991509438, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6739623546600342, "report/reward_pred": 0.698933482170105, "report/reward_rate": 0.0634765625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.004752504173666239, "eval/cont_loss_std": 0.1383880078792572, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 2.23512601852417, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00038778080488555133, "eval/cont_pred": 0.9987207651138306, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.790853500366211, "eval/dyn_loss_std": 10.971848487854004, "eval/image_loss_mean": 4.971796989440918, "eval/image_loss_std": 4.389293670654297, "eval/model_loss_mean": 13.843887329101562, "eval/model_loss_std": 10.804758071899414, "eval/post_ent_mag": 58.0820198059082, "eval/post_ent_max": 58.0820198059082, "eval/post_ent_mean": 41.35801696777344, "eval/post_ent_min": 20.335617065429688, "eval/post_ent_std": 7.082379341125488, "eval/prior_ent_mag": 79.6453857421875, "eval/prior_ent_max": 79.6453857421875, "eval/prior_ent_mean": 48.211483001708984, "eval/prior_ent_min": 21.79183006286621, "eval/prior_ent_std": 10.06105899810791, "eval/rep_loss_mean": 13.790853500366211, "eval/rep_loss_std": 10.971848487854004, "eval/reward_avg": 1.38671875, "eval/reward_loss_mean": 0.5928264856338501, "eval/reward_loss_std": 2.385418176651001, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 48.52577590942383, "eval/reward_neg_acc": 0.8648068904876709, "eval/reward_neg_loss": 0.1258726716041565, "eval/reward_pos_acc": 0.554347813129425, "eval/reward_pos_loss": 5.323272705078125, "eval/reward_pred": 0.6846175193786621, "eval/reward_rate": 0.08984375, "replay/size": 125622.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.502634115152426e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3352065653234096e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.4884939193725586e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.6183958053589, "timer/env.step_count": 715.0, "timer/env.step_total": 2.8292410373687744, "timer/env.step_frac": 0.00941140354963713, "timer/env.step_avg": 0.00395698047184444, "timer/env.step_min": 0.002351522445678711, "timer/env.step_max": 0.021251440048217773, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 171.62932634353638, "timer/replay._sample_frac": 0.5709209041706851, "timer/replay._sample_avg": 0.015002563491567865, "timer/replay._sample_min": 0.007390499114990234, "timer/replay._sample_max": 0.0294649600982666, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.7592113018036, "timer/agent.policy_frac": 0.6644943027077475, "timer/agent.policy_avg": 0.2793835123102148, "timer/agent.policy_min": 0.003228902816772461, "timer/agent.policy_max": 0.3139357566833496, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.08362245559692383, "timer/dataset_train_frac": 0.0002781681253168112, "timer/dataset_train_avg": 0.00011695448335234101, "timer/dataset_train_min": 7.081031799316406e-05, "timer/dataset_train_max": 0.0002734661102294922, "timer/agent.train_count": 715.0, "timer/agent.train_total": 96.94269704818726, "timer/agent.train_frac": 0.32247759418872907, "timer/agent.train_avg": 0.13558419167578636, "timer/agent.train_min": 0.0989527702331543, "timer/agent.train_max": 0.42714834213256836, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4941580295562744, "timer/agent.report_frac": 0.001643805024747143, "timer/agent.report_avg": 0.2470790147781372, "timer/agent.report_min": 0.09866642951965332, "timer/agent.report_max": 0.3954916000366211, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.482269287109375e-05, "timer/dataset_eval_frac": 1.491016301614325e-07, "timer/dataset_eval_avg": 4.482269287109375e-05, "timer/dataset_eval_min": 4.482269287109375e-05, "timer/dataset_eval_max": 4.482269287109375e-05, "fps": 9.51330462127412}
+{"step": 503924, "episode/length": 762.0, "episode/score": 1000.0, "episode/reward_rate": 0.12057667103538663}
+{"step": 505596, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.76325322540713, "train/action_min": 0.0, "train/action_std": 2.8079689757924684, "train/actor_opt_grad_norm": 0.008549426820024218, "train/actor_opt_grad_steps": 124940.0, "train/actor_opt_loss": 0.0009339491119160965, "train/adv_mag": 0.7197579372097069, "train/adv_max": 0.6820236608176165, "train/adv_mean": 0.001954330414251595, "train/adv_min": -0.4892216532582968, "train/adv_std": 0.03634647269484023, "train/cont_avg": 0.9985420334507042, "train/cont_loss_mean": 0.00020433450895264926, "train/cont_loss_std": 0.005442897026188868, "train/cont_neg_acc": 0.9491525423728814, "train/cont_neg_loss": 0.10357588831555893, "train/cont_pos_acc": 0.9999724080864812, "train/cont_pos_loss": 7.96638168927934e-05, "train/cont_pred": 0.9985461277021489, "train/cont_rate": 0.9985420334507042, "train/dyn_loss_mean": 5.0351884297921625, "train/dyn_loss_std": 6.865558536959366, "train/extr_critic_critic_opt_grad_norm": 2.3545009233582186, "train/extr_critic_critic_opt_grad_steps": 124940.0, "train/extr_critic_critic_opt_loss": 1.5512436225380697, "train/extr_critic_mag": 517.1225998569543, "train/extr_critic_max": 517.1225998569543, "train/extr_critic_mean": 196.31270857260262, "train/extr_critic_min": 0.023342943527329137, "train/extr_critic_std": 156.53679420578646, "train/extr_return_normed_mag": 1.299272232492205, "train/extr_return_normed_max": 1.299272232492205, "train/extr_return_normed_mean": 0.43751283325779605, "train/extr_return_normed_min": -0.008733254332672542, "train/extr_return_normed_std": 0.3562730676691297, "train/extr_return_rate": 0.9312005336855499, "train/extr_return_raw_mag": 577.9947114326585, "train/extr_return_raw_max": 577.9947114326585, "train/extr_return_raw_mean": 197.1766480996575, "train/extr_return_raw_min": 0.025342646096734672, "train/extr_return_raw_std": 157.3934805426799, "train/extr_reward_mag": 243.54157880326392, "train/extr_reward_max": 243.54157880326392, "train/extr_reward_mean": 1.1210168935883214, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.564480952813592, "train/image_loss_mean": 1.8457075072006441, "train/image_loss_std": 1.5960921502449144, "train/model_loss_mean": 4.942902873939191, "train/model_loss_std": 5.446769029321805, "train/model_opt_grad_norm": 11.5649382362903, "train/model_opt_grad_steps": 124940.0, "train/model_opt_loss": 4.942902873939191, "train/policy_entropy_mag": 2.1796379660216854, "train/policy_entropy_max": 2.1796379660216854, "train/policy_entropy_mean": 1.1532755292637247, "train/policy_entropy_min": 0.06960084373262566, "train/policy_entropy_std": 0.6248881153657403, "train/policy_logprob_mag": 6.79987528626348, "train/policy_logprob_max": -0.008971494281480849, "train/policy_logprob_mean": -1.1536562031423543, "train/policy_logprob_min": -6.79987528626348, "train/policy_logprob_std": 1.0955609939467739, "train/policy_randomness_mag": 0.9919959869183285, "train/policy_randomness_max": 0.9919959869183285, "train/policy_randomness_mean": 0.524878313423882, "train/policy_randomness_min": 0.03167670902232049, "train/policy_randomness_std": 0.28439883300116364, "train/post_ent_mag": 58.55680476443868, "train/post_ent_max": 58.55680476443868, "train/post_ent_mean": 39.09392853857766, "train/post_ent_min": 21.83742536625392, "train/post_ent_std": 5.605089734977399, "train/prior_ent_mag": 79.33290519177073, "train/prior_ent_max": 79.33290519177073, "train/prior_ent_mean": 44.120289386158255, "train/prior_ent_min": 23.708532387102153, "train/prior_ent_std": 8.342061875571668, "train/rep_loss_mean": 5.0351884297921625, "train/rep_loss_std": 6.865558536959366, "train/reward_avg": 1.475984815140845, "train/reward_loss_mean": 0.07587800594702573, "train/reward_loss_std": 0.2607596147228295, "train/reward_max_data": 250.0, "train/reward_max_pred": 187.60441225347384, "train/reward_neg_acc": 0.964728337778172, "train/reward_neg_loss": 0.010997011523011704, "train/reward_pos_acc": 0.9957705022583545, "train/reward_pos_loss": 0.6477305637279027, "train/reward_pred": 1.2997237192073339, "train/reward_rate": 0.10269036091549295, "train_stats/mean_log_entropy": 1.06674325466156, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.384911229251884e-06, "report/cont_loss_std": 3.623434895416722e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 3.772177660721354e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.3493912547346554e-06, "report/cont_pred": 0.9990221261978149, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.59185791015625, "report/dyn_loss_std": 6.9225640296936035, "report/image_loss_mean": 1.5804688930511475, "report/image_loss_std": 1.3411848545074463, "report/model_loss_mean": 4.398341178894043, "report/model_loss_std": 5.254451274871826, "report/post_ent_mag": 58.96781539916992, "report/post_ent_max": 58.96781539916992, "report/post_ent_mean": 38.62832260131836, "report/post_ent_min": 21.945959091186523, "report/post_ent_std": 5.642819881439209, "report/prior_ent_mag": 79.24940490722656, "report/prior_ent_max": 79.24940490722656, "report/prior_ent_mean": 43.59566116333008, "report/prior_ent_min": 22.313875198364258, "report/prior_ent_std": 8.220558166503906, "report/rep_loss_mean": 4.59185791015625, "report/rep_loss_std": 6.9225640296936035, "report/reward_avg": 1.50390625, "report/reward_loss_mean": 0.06275591999292374, "report/reward_loss_std": 0.22375959157943726, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.45193481445312, "report/reward_neg_acc": 0.9700214266777039, "report/reward_neg_loss": 0.006128988228738308, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6504176259040833, "report/reward_pred": 1.45509672164917, "report/reward_rate": 0.087890625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0029688100330531597, "eval/cont_loss_std": 0.08922509849071503, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 1.4400944709777832, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00015643119695596397, "eval/cont_pred": 0.9988493919372559, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.58251667022705, "eval/dyn_loss_std": 9.853992462158203, "eval/image_loss_mean": 4.220082759857178, "eval/image_loss_std": 3.585369110107422, "eval/model_loss_mean": 12.559405326843262, "eval/model_loss_std": 9.300642013549805, "eval/post_ent_mag": 56.57123565673828, "eval/post_ent_max": 56.57123565673828, "eval/post_ent_mean": 42.150882720947266, "eval/post_ent_min": 22.815113067626953, "eval/post_ent_std": 6.51970911026001, "eval/prior_ent_mag": 79.24940490722656, "eval/prior_ent_max": 79.24940490722656, "eval/prior_ent_mean": 49.64620590209961, "eval/prior_ent_min": 23.756710052490234, "eval/prior_ent_std": 9.01402759552002, "eval/rep_loss_mean": 12.58251667022705, "eval/rep_loss_std": 9.853992462158203, "eval/reward_avg": 1.7578125, "eval/reward_loss_mean": 0.78684401512146, "eval/reward_loss_std": 2.6343085765838623, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 49.87702560424805, "eval/reward_neg_acc": 0.8588621616363525, "eval/reward_neg_loss": 0.15547093749046326, "eval/reward_pos_acc": 0.49090906977653503, "eval/reward_pos_loss": 6.032979488372803, "eval/reward_pred": 0.7064162492752075, "eval/reward_rate": 0.107421875, "replay/size": 126336.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.49030571090741e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3518316739079665e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2396557331085, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8595995903015137, "timer/env.step_frac": 0.009524390052070578, "timer/env.step_avg": 0.004005041442999319, "timer/env.step_min": 0.0023648738861083984, "timer/env.step_max": 0.02561354637145996, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 172.58553385734558, "timer/replay._sample_frac": 0.5748259117734991, "timer/replay._sample_avg": 0.015107277123367084, "timer/replay._sample_min": 0.007843017578125, "timer/replay._sample_max": 0.03435087203979492, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.34672808647156, "timer/agent.policy_frac": 0.6639586886006706, "timer/agent.policy_avg": 0.2791970981603243, "timer/agent.policy_min": 0.0031900405883789062, "timer/agent.policy_max": 0.31484413146972656, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08323502540588379, "timer/dataset_train_frac": 0.0002772286199257894, "timer/dataset_train_avg": 0.00011657566583457113, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.00020599365234375, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.94890141487122, "timer/agent.train_frac": 0.3229050512269832, "timer/agent.train_avg": 0.13578277509085604, "timer/agent.train_min": 0.09714317321777344, "timer/agent.train_max": 0.4261503219604492, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5056042671203613, "timer/agent.report_frac": 0.0016840022877251338, "timer/agent.report_avg": 0.25280213356018066, "timer/agent.report_min": 0.10206460952758789, "timer/agent.report_max": 0.40353965759277344, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010585784912109375, "timer/dataset_eval_frac": 3.5257783940171373e-07, "timer/dataset_eval_avg": 0.00010585784912109375, "timer/dataset_eval_min": 0.00010585784912109375, "timer/dataset_eval_max": 0.00010585784912109375, "fps": 9.512023496798657}
+{"step": 506900, "episode/length": 743.0, "episode/score": 1350.0, "episode/reward_rate": 0.13306451612903225}
+{"step": 508448, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.64235602484809, "train/action_min": 0.0, "train/action_std": 2.8278186354372234, "train/actor_opt_grad_norm": 0.0073592055187974535, "train/actor_opt_grad_steps": 125655.0, "train/actor_opt_loss": 0.0009797656917827327, "train/adv_mag": 0.6239960102571381, "train/adv_max": 0.5903620645403862, "train/adv_mean": 0.0018940916239292467, "train/adv_min": -0.43641104362905025, "train/adv_std": 0.031415178052460156, "train/cont_avg": 0.9988742404513888, "train/cont_loss_mean": 7.370736800492284e-05, "train/cont_loss_std": 0.002219740750442561, "train/cont_neg_acc": 0.9833333337306976, "train/cont_neg_loss": 0.02511264323497869, "train/cont_pos_acc": 0.9999864225586256, "train/cont_pos_loss": 3.338922073751255e-05, "train/cont_pred": 0.9988749358389113, "train/cont_rate": 0.9988742404513888, "train/dyn_loss_mean": 4.9032525850666895, "train/dyn_loss_std": 6.80334868033727, "train/extr_critic_critic_opt_grad_norm": 2.336539692348904, "train/extr_critic_critic_opt_grad_steps": 125655.0, "train/extr_critic_critic_opt_loss": 1.544491567545467, "train/extr_critic_mag": 506.8049651251899, "train/extr_critic_max": 506.8049651251899, "train/extr_critic_mean": 193.59003904130725, "train/extr_critic_min": 0.12731528116597068, "train/extr_critic_std": 157.8352860344781, "train/extr_return_normed_mag": 1.2048092120223575, "train/extr_return_normed_max": 1.2048092120223575, "train/extr_return_normed_mean": 0.42777074004213017, "train/extr_return_normed_min": -0.010627705620006762, "train/extr_return_normed_std": 0.357595627506574, "train/extr_return_rate": 0.9367441170745425, "train/extr_return_raw_mag": 538.9245474073622, "train/extr_return_raw_max": 538.9245474073622, "train/extr_return_raw_mean": 194.4303084479438, "train/extr_return_raw_min": 0.14197326211231281, "train/extr_return_raw_std": 158.48119407229953, "train/extr_reward_mag": 176.4277847740385, "train/extr_reward_max": 176.4277847740385, "train/extr_reward_mean": 1.0341007043090131, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.241249955362743, "train/image_loss_mean": 1.8190549429919984, "train/image_loss_std": 1.5530973805321588, "train/model_loss_mean": 4.833788951237996, "train/model_loss_std": 5.36019120613734, "train/model_opt_grad_norm": 11.898801498942905, "train/model_opt_grad_steps": 125655.0, "train/model_opt_loss": 4.833788951237996, "train/policy_entropy_mag": 2.1766817602846356, "train/policy_entropy_max": 2.1766817602846356, "train/policy_entropy_mean": 1.1767217020193736, "train/policy_entropy_min": 0.06959069002833632, "train/policy_entropy_std": 0.6169391522804896, "train/policy_logprob_mag": 6.799559877978431, "train/policy_logprob_max": -0.008969708811491728, "train/policy_logprob_mean": -1.1766733957661524, "train/policy_logprob_min": -6.799559877978431, "train/policy_logprob_std": 1.0858474059237375, "train/policy_randomness_mag": 0.9906505544980367, "train/policy_randomness_max": 0.9906505544980367, "train/policy_randomness_mean": 0.5355491137339009, "train/policy_randomness_min": 0.031672087808450065, "train/policy_randomness_std": 0.2807811051607132, "train/post_ent_mag": 58.363719410366485, "train/post_ent_max": 58.363719410366485, "train/post_ent_mean": 39.03718672858344, "train/post_ent_min": 21.647865295410156, "train/post_ent_std": 5.497834377818638, "train/prior_ent_mag": 79.41533756256104, "train/prior_ent_max": 79.41533756256104, "train/prior_ent_mean": 44.00243277019925, "train/prior_ent_min": 23.905696445041233, "train/prior_ent_std": 8.174491471714443, "train/rep_loss_mean": 4.9032525850666895, "train/rep_loss_std": 6.80334868033727, "train/reward_avg": 1.3127983940972223, "train/reward_loss_mean": 0.07270876752833526, "train/reward_loss_std": 0.26025631340841454, "train/reward_max_data": 180.27777777777777, "train/reward_max_pred": 141.81561666064792, "train/reward_neg_acc": 0.9681554958224297, "train/reward_neg_loss": 0.009390090915581418, "train/reward_pos_acc": 0.9953070075975524, "train/reward_pos_loss": 0.6544170081615448, "train/reward_pred": 1.1724435538053513, "train/reward_rate": 0.0982937282986111, "train_stats/mean_log_entropy": 1.05833899974823, "report/cont_avg": 1.0, "report/cont_loss_mean": 8.662460260211446e-08, "report/cont_loss_std": 2.0880415831925347e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 8.662460260211446e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.3194475173950195, "report/dyn_loss_std": 6.367795467376709, "report/image_loss_mean": 1.555320143699646, "report/image_loss_std": 1.1505252122879028, "report/model_loss_mean": 4.220501899719238, "report/model_loss_std": 4.769811153411865, "report/post_ent_mag": 61.1968994140625, "report/post_ent_max": 61.1968994140625, "report/post_ent_mean": 39.42479705810547, "report/post_ent_min": 19.889183044433594, "report/post_ent_std": 5.380590438842773, "report/prior_ent_mag": 79.6108169555664, "report/prior_ent_max": 79.6108169555664, "report/prior_ent_mean": 44.237579345703125, "report/prior_ent_min": 21.08612632751465, "report/prior_ent_std": 7.861062526702881, "report/rep_loss_mean": 4.3194475173950195, "report/rep_loss_std": 6.367795467376709, "report/reward_avg": 1.42578125, "report/reward_loss_mean": 0.07351337373256683, "report/reward_loss_std": 0.2625783085823059, "report/reward_max_data": 200.0, "report/reward_max_pred": 146.68927001953125, "report/reward_neg_acc": 0.9702970385551453, "report/reward_neg_loss": 0.006414142437279224, "report/reward_pos_acc": 0.9913042783737183, "report/reward_pos_loss": 0.603888988494873, "report/reward_pred": 1.3422248363494873, "report/reward_rate": 0.1123046875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.015727059915661812, "eval/cont_loss_std": 0.5029923915863037, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 16.10362434387207, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.643606292935146e-07, "eval/cont_pred": 0.9999991655349731, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.373208999633789, "eval/dyn_loss_std": 9.823575973510742, "eval/image_loss_mean": 4.338144302368164, "eval/image_loss_std": 3.558105230331421, "eval/model_loss_mean": 12.094274520874023, "eval/model_loss_std": 9.340483665466309, "eval/post_ent_mag": 58.29430389404297, "eval/post_ent_max": 58.29430389404297, "eval/post_ent_mean": 40.43672561645508, "eval/post_ent_min": 23.92288589477539, "eval/post_ent_std": 5.069494247436523, "eval/prior_ent_mag": 79.6108169555664, "eval/prior_ent_max": 79.6108169555664, "eval/prior_ent_mean": 46.37419128417969, "eval/prior_ent_min": 28.60434341430664, "eval/prior_ent_std": 7.515390396118164, "eval/rep_loss_mean": 11.373208999633789, "eval/rep_loss_std": 9.823575973510742, "eval/reward_avg": 1.591796875, "eval/reward_loss_mean": 0.9164779186248779, "eval/reward_loss_std": 2.7804746627807617, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 11.0640287399292, "eval/reward_neg_acc": 0.852477490901947, "eval/reward_neg_loss": 0.23092792928218842, "eval/reward_pos_acc": 0.5147058963775635, "eval/reward_pos_loss": 5.392715930938721, "eval/reward_pred": 0.8949384689331055, "eval/reward_rate": 0.1328125, "replay/size": 127049.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.618051258745234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3833418801991167e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7285346984863281e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.13431000709534, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8054449558258057, "timer/env.step_frac": 0.009347298400371098, "timer/env.step_avg": 0.00393470540789033, "timer/env.step_min": 0.0025000572204589844, "timer/env.step_max": 0.023669719696044922, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 177.63456773757935, "timer/replay._sample_frac": 0.5918502544190298, "timer/replay._sample_avg": 0.015571052571667193, "timer/replay._sample_min": 0.007267475128173828, "timer/replay._sample_max": 0.03945136070251465, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.17869806289672852, "timer/agent.save_frac": 0.0005953936519037227, "timer/agent.save_avg": 0.17869806289672852, "timer/agent.save_min": 0.17869806289672852, "timer/agent.save_max": 0.17869806289672852, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.04101395606995, "timer/agent.policy_frac": 0.6631731438880297, "timer/agent.policy_avg": 0.2791599073717671, "timer/agent.policy_min": 0.003179311752319336, "timer/agent.policy_max": 0.3875539302825928, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08467507362365723, "timer/dataset_train_frac": 0.0002821239385182436, "timer/dataset_train_avg": 0.00011875886903738741, "timer/dataset_train_min": 6.961822509765625e-05, "timer/dataset_train_max": 0.00031876564025878906, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.19981455802917, "timer/agent.train_frac": 0.3238543922410314, "timer/agent.train_avg": 0.13632512560733404, "timer/agent.train_min": 0.09862303733825684, "timer/agent.train_max": 0.4282796382904053, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5030257701873779, "timer/agent.report_frac": 0.001676002221057253, "timer/agent.report_avg": 0.25151288509368896, "timer/agent.report_min": 0.1046912670135498, "timer/agent.report_max": 0.3983345031738281, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.532669067382812e-05, "timer/dataset_eval_frac": 2.1765819000261506e-07, "timer/dataset_eval_avg": 6.532669067382812e-05, "timer/dataset_eval_min": 6.532669067382812e-05, "timer/dataset_eval_max": 6.532669067382812e-05, "fps": 9.502063400901323}
+{"step": 510152, "episode/length": 812.0, "episode/score": 1730.0, "episode/reward_rate": 0.12054120541205413}
+{"step": 511304, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.611608370928697, "train/action_min": 0.0, "train/action_std": 2.7898880092191023, "train/actor_opt_grad_norm": 0.008795248567533324, "train/actor_opt_grad_steps": 126370.0, "train/actor_opt_loss": 0.0006970511411720867, "train/adv_mag": 0.7197236712549774, "train/adv_max": 0.6882347162340728, "train/adv_mean": 0.001820709931321994, "train/adv_min": -0.4686953475777532, "train/adv_std": 0.03522652093793305, "train/cont_avg": 0.9983494718309859, "train/cont_loss_mean": 0.0002050509620811855, "train/cont_loss_std": 0.00592458039801253, "train/cont_neg_acc": 0.9625, "train/cont_neg_loss": 0.09008326702765287, "train/cont_pos_acc": 0.9999586637590973, "train/cont_pos_loss": 0.00010081800812071242, "train/cont_pred": 0.9983299424950506, "train/cont_rate": 0.9983494718309859, "train/dyn_loss_mean": 5.074751951325108, "train/dyn_loss_std": 6.849345878815987, "train/extr_critic_critic_opt_grad_norm": 2.3361548907320264, "train/extr_critic_critic_opt_grad_steps": 126370.0, "train/extr_critic_critic_opt_loss": 1.5662590617864904, "train/extr_critic_mag": 514.4884531800176, "train/extr_critic_max": 514.4884531800176, "train/extr_critic_mean": 187.7602467066805, "train/extr_critic_min": 0.13330913933230118, "train/extr_critic_std": 158.45218174894092, "train/extr_return_normed_mag": 1.3539037251136672, "train/extr_return_normed_max": 1.3539037251136672, "train/extr_return_normed_mean": 0.4170438204432877, "train/extr_return_normed_min": -0.008104175079981206, "train/extr_return_normed_std": 0.3591314516436886, "train/extr_return_rate": 0.9247772273883014, "train/extr_return_raw_mag": 603.885575415383, "train/extr_return_raw_max": 603.885575415383, "train/extr_return_raw_mean": 188.5673905493508, "train/extr_return_raw_min": 0.003474440393661162, "train/extr_return_raw_std": 159.2634814625055, "train/extr_reward_mag": 262.50743058701636, "train/extr_reward_max": 262.50743058701636, "train/extr_reward_mean": 1.067110907443812, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.878139015654443, "train/image_loss_mean": 1.848110620404633, "train/image_loss_std": 1.6390459974047165, "train/model_loss_mean": 4.964202770045106, "train/model_loss_std": 5.469397383676449, "train/model_opt_grad_norm": 12.245772697556188, "train/model_opt_grad_steps": 126370.0, "train/model_opt_loss": 4.964202770045106, "train/policy_entropy_mag": 2.182196365275853, "train/policy_entropy_max": 2.182196365275853, "train/policy_entropy_mean": 1.199829057908394, "train/policy_entropy_min": 0.06960777655033998, "train/policy_entropy_std": 0.6224603745299326, "train/policy_logprob_mag": 6.7964520723047395, "train/policy_logprob_max": -0.008972244901241551, "train/policy_logprob_mean": -1.1990282879748815, "train/policy_logprob_min": -6.7964520723047395, "train/policy_logprob_std": 1.0863620815142778, "train/policy_randomness_mag": 0.9931603619750117, "train/policy_randomness_max": 0.9931603619750117, "train/policy_randomness_mean": 0.5460657305280927, "train/policy_randomness_min": 0.031679863975921145, "train/policy_randomness_std": 0.28329392071341125, "train/post_ent_mag": 58.87184685720524, "train/post_ent_max": 58.87184685720524, "train/post_ent_mean": 38.73037859419702, "train/post_ent_min": 21.4804978169186, "train/post_ent_std": 5.720667442805331, "train/prior_ent_mag": 79.40425131354533, "train/prior_ent_max": 79.40425131354533, "train/prior_ent_mean": 43.77238614794234, "train/prior_ent_min": 23.544709783204844, "train/prior_ent_std": 8.498601147826289, "train/rep_loss_mean": 5.074751951325108, "train/rep_loss_std": 6.849345878815987, "train/reward_avg": 1.4275693221830985, "train/reward_loss_mean": 0.07103587256770738, "train/reward_loss_std": 0.25897194759946474, "train/reward_max_data": 277.46478873239437, "train/reward_max_pred": 227.62583306809546, "train/reward_neg_acc": 0.9702078448215001, "train/reward_neg_loss": 0.00865976449141515, "train/reward_pos_acc": 0.9934948867475483, "train/reward_pos_loss": 0.6627351054003541, "train/reward_pred": 1.265429375037341, "train/reward_rate": 0.09612951144366197, "train_stats/mean_log_entropy": 1.085066318511963, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.0007351960521191359, "report/cont_loss_std": 0.02266571670770645, "report/cont_neg_acc": 0.0, "report/cont_neg_loss": 0.7251564860343933, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.7061874789069407e-05, "report/cont_pred": 0.9995004534721375, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.797960042953491, "report/dyn_loss_std": 6.4744110107421875, "report/image_loss_mean": 1.4933563470840454, "report/image_loss_std": 1.293837308883667, "report/model_loss_mean": 3.8774311542510986, "report/model_loss_std": 4.908986568450928, "report/post_ent_mag": 56.057594299316406, "report/post_ent_max": 56.057594299316406, "report/post_ent_mean": 38.233585357666016, "report/post_ent_min": 20.598613739013672, "report/post_ent_std": 5.346844673156738, "report/prior_ent_mag": 79.34971618652344, "report/prior_ent_max": 79.34971618652344, "report/prior_ent_mean": 41.89922332763672, "report/prior_ent_min": 23.159778594970703, "report/prior_ent_std": 8.09689998626709, "report/rep_loss_mean": 3.797960042953491, "report/rep_loss_std": 6.4744110107421875, "report/reward_avg": 1.435546875, "report/reward_loss_mean": 0.10456366837024689, "report/reward_loss_std": 0.34936612844467163, "report/reward_max_data": 200.0, "report/reward_max_pred": 195.89263916015625, "report/reward_neg_acc": 0.9524336457252502, "report/reward_neg_loss": 0.02493424341082573, "report/reward_pos_acc": 0.9916667342185974, "report/reward_pos_loss": 0.7044386267662048, "report/reward_pred": 1.3701194524765015, "report/reward_rate": 0.1171875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0017295745201408863, "eval/cont_loss_std": 0.05494145676493645, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.8794930577278137, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.183778113045264e-05, "eval/cont_pred": 0.9988434910774231, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.379461288452148, "eval/dyn_loss_std": 8.322525978088379, "eval/image_loss_mean": 4.473093032836914, "eval/image_loss_std": 2.8288376331329346, "eval/model_loss_mean": 13.189075469970703, "eval/model_loss_std": 8.113724708557129, "eval/post_ent_mag": 60.75876998901367, "eval/post_ent_max": 60.75876998901367, "eval/post_ent_mean": 42.28921127319336, "eval/post_ent_min": 22.67230987548828, "eval/post_ent_std": 5.1019158363342285, "eval/prior_ent_mag": 79.34971618652344, "eval/prior_ent_max": 79.34971618652344, "eval/prior_ent_mean": 49.29356384277344, "eval/prior_ent_min": 23.062074661254883, "eval/prior_ent_std": 7.323092937469482, "eval/rep_loss_mean": 12.379461288452148, "eval/rep_loss_std": 8.322525978088379, "eval/reward_avg": 1.845703125, "eval/reward_loss_mean": 1.2865763902664185, "eval/reward_loss_std": 3.7067441940307617, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 49.95210266113281, "eval/reward_neg_acc": 0.8550561666488647, "eval/reward_neg_loss": 0.23788101971149445, "eval/reward_pos_acc": 0.31343284249305725, "eval/reward_pos_loss": 8.251791954040527, "eval/reward_pred": 0.7443881034851074, "eval/reward_rate": 0.130859375, "replay/size": 127763.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.5009911374217655e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3750390846188328e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.086162567138672e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.39662075042725, "timer/env.step_count": 714.0, "timer/env.step_total": 2.834071159362793, "timer/env.step_frac": 0.009434430894338755, "timer/env.step_avg": 0.0039692873380431275, "timer/env.step_min": 0.002640247344970703, "timer/env.step_max": 0.023411035537719727, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 175.9796223640442, "timer/replay._sample_frac": 0.5858242410464729, "timer/replay._sample_avg": 0.015404378708337201, "timer/replay._sample_min": 0.008008956909179688, "timer/replay._sample_max": 0.04031205177307129, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.41221141815186, "timer/agent.policy_frac": 0.6638297425583415, "timer/agent.policy_avg": 0.2792888115100166, "timer/agent.policy_min": 0.003263711929321289, "timer/agent.policy_max": 0.3137373924255371, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08508610725402832, "timer/dataset_train_frac": 0.00028324588685942233, "timer/dataset_train_avg": 0.0001191682174426167, "timer/dataset_train_min": 7.224082946777344e-05, "timer/dataset_train_max": 0.0002143383026123047, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.04893708229065, "timer/agent.train_frac": 0.32306933693145623, "timer/agent.train_avg": 0.13592288106763395, "timer/agent.train_min": 0.10042285919189453, "timer/agent.train_max": 0.4272339344024658, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49993062019348145, "timer/agent.report_frac": 0.0016642351666426674, "timer/agent.report_avg": 0.24996531009674072, "timer/agent.report_min": 0.10147833824157715, "timer/agent.report_max": 0.3984522819519043, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.678436279296875e-05, "timer/dataset_eval_frac": 2.8889926449961675e-07, "timer/dataset_eval_avg": 8.678436279296875e-05, "timer/dataset_eval_min": 8.678436279296875e-05, "timer/dataset_eval_max": 8.678436279296875e-05, "fps": 9.507022675958313}
+{"step": 512420, "episode/length": 566.0, "episode/score": 590.0, "episode/reward_rate": 0.10405643738977072}
+{"step": 514160, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.589507208930121, "train/action_min": 0.0, "train/action_std": 2.812637166844474, "train/actor_opt_grad_norm": 0.009108710675112283, "train/actor_opt_grad_steps": 127085.0, "train/actor_opt_loss": 0.0009019319517291377, "train/adv_mag": 0.7448509265151289, "train/adv_max": 0.7188081041806273, "train/adv_mean": 0.0024978641379473426, "train/adv_min": -0.4572022404107783, "train/adv_std": 0.041158604978894196, "train/cont_avg": 0.9986707899305556, "train/cont_loss_mean": 0.00021926888394312326, "train/cont_loss_std": 0.005786909003316175, "train/cont_neg_acc": 0.9542483664026448, "train/cont_neg_loss": 0.08710932729277991, "train/cont_pos_acc": 0.9999728310439322, "train/cont_pos_loss": 8.95186549830846e-05, "train/cont_pred": 0.9986677103572421, "train/cont_rate": 0.9986707899305556, "train/dyn_loss_mean": 4.8784416483508215, "train/dyn_loss_std": 6.817398415671454, "train/extr_critic_critic_opt_grad_norm": 2.323451283905241, "train/extr_critic_critic_opt_grad_steps": 127085.0, "train/extr_critic_critic_opt_loss": 1.5573318401972454, "train/extr_critic_mag": 529.2859162224663, "train/extr_critic_max": 529.2859162224663, "train/extr_critic_mean": 192.07162729899088, "train/extr_critic_min": 0.21514979501565298, "train/extr_critic_std": 156.12171713511148, "train/extr_return_normed_mag": 1.3954679427875414, "train/extr_return_normed_max": 1.3954679427875414, "train/extr_return_normed_mean": 0.42430122507115203, "train/extr_return_normed_min": -0.008798467556415644, "train/extr_return_normed_std": 0.35486987854043645, "train/extr_return_rate": 0.9405807372596529, "train/extr_return_raw_mag": 625.9205661349827, "train/extr_return_raw_max": 625.9205661349827, "train/extr_return_raw_mean": 193.18542671203613, "train/extr_return_raw_min": 0.18997658198956438, "train/extr_return_raw_std": 158.11068725585938, "train/extr_reward_mag": 243.64897441864014, "train/extr_reward_max": 243.64897441864014, "train/extr_reward_mean": 1.138303113480409, "train/extr_reward_min": 0.0, "train/extr_reward_std": 7.129620555374357, "train/image_loss_mean": 1.7721754941675398, "train/image_loss_std": 1.5399174276325438, "train/model_loss_mean": 4.772609455717935, "train/model_loss_std": 5.369536022345225, "train/model_opt_grad_norm": 11.357013662656149, "train/model_opt_grad_steps": 127085.0, "train/model_opt_loss": 4.772609455717935, "train/policy_entropy_mag": 2.1815637052059174, "train/policy_entropy_max": 2.1815637052059174, "train/policy_entropy_mean": 1.2104530682166417, "train/policy_entropy_min": 0.06964048598375586, "train/policy_entropy_std": 0.6190310484833188, "train/policy_logprob_mag": 6.799699472056495, "train/policy_logprob_max": -0.008977693492650159, "train/policy_logprob_mean": -1.2103576039274533, "train/policy_logprob_min": -6.799699472056495, "train/policy_logprob_std": 1.0851590534051259, "train/policy_randomness_mag": 0.99287242276801, "train/policy_randomness_max": 0.99287242276801, "train/policy_randomness_mean": 0.5509009340571033, "train/policy_randomness_min": 0.03169475061198076, "train/policy_randomness_std": 0.2817331687029865, "train/post_ent_mag": 58.307513342963325, "train/post_ent_max": 58.307513342963325, "train/post_ent_mean": 38.96081919140286, "train/post_ent_min": 21.5161677731408, "train/post_ent_std": 5.689576711919573, "train/prior_ent_mag": 79.42777570088704, "train/prior_ent_max": 79.42777570088704, "train/prior_ent_mean": 43.8424694803026, "train/prior_ent_min": 23.272621393203735, "train/prior_ent_std": 8.419177558686998, "train/rep_loss_mean": 4.8784416483508215, "train/rep_loss_std": 6.817398415671454, "train/reward_avg": 1.4420572916666667, "train/reward_loss_mean": 0.07314975425187084, "train/reward_loss_std": 0.28449175599962473, "train/reward_max_data": 251.25, "train/reward_max_pred": 203.0760409699546, "train/reward_neg_acc": 0.9688535647259818, "train/reward_neg_loss": 0.00973249812280604, "train/reward_pos_acc": 0.99175173872047, "train/reward_pos_loss": 0.6723881355590291, "train/reward_pred": 1.2703642580244277, "train/reward_rate": 0.09540473090277778, "train_stats/mean_log_entropy": 0.8880100846290588, "report/cont_avg": 1.0, "report/cont_loss_mean": 5.152032045430133e-08, "report/cont_loss_std": 1.121878085541539e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.152032045430133e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.972875595092773, "report/dyn_loss_std": 6.935388565063477, "report/image_loss_mean": 1.90641450881958, "report/image_loss_std": 1.469333291053772, "report/model_loss_mean": 4.985239505767822, "report/model_loss_std": 5.420192241668701, "report/post_ent_mag": 58.818885803222656, "report/post_ent_max": 58.818885803222656, "report/post_ent_mean": 38.743438720703125, "report/post_ent_min": 19.881813049316406, "report/post_ent_std": 5.167938709259033, "report/prior_ent_mag": 79.53460693359375, "report/prior_ent_max": 79.53460693359375, "report/prior_ent_mean": 43.78455352783203, "report/prior_ent_min": 21.216880798339844, "report/prior_ent_std": 8.178278923034668, "report/rep_loss_mean": 4.972875595092773, "report/rep_loss_std": 6.935388565063477, "report/reward_avg": 1.953125, "report/reward_loss_mean": 0.09509973227977753, "report/reward_loss_std": 0.4126659631729126, "report/reward_max_data": 410.0, "report/reward_max_pred": 409.3540344238281, "report/reward_neg_acc": 0.9706202149391174, "report/reward_neg_loss": 0.013192668557167053, "report/reward_pos_acc": 0.9904762506484985, "report/reward_pos_loss": 0.8119816184043884, "report/reward_pred": 1.556652307510376, "report/reward_rate": 0.1025390625, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.2672474625219365e-08, "eval/cont_loss_std": 2.5972127559725777e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.2672474625219365e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.155144691467285, "eval/dyn_loss_std": 10.443333625793457, "eval/image_loss_mean": 5.386186599731445, "eval/image_loss_std": 4.413629531860352, "eval/model_loss_mean": 14.105243682861328, "eval/model_loss_std": 10.556118965148926, "eval/post_ent_mag": 57.04228973388672, "eval/post_ent_max": 57.04228973388672, "eval/post_ent_mean": 41.93376159667969, "eval/post_ent_min": 24.186792373657227, "eval/post_ent_std": 5.458856105804443, "eval/prior_ent_mag": 79.53460693359375, "eval/prior_ent_max": 79.53460693359375, "eval/prior_ent_mean": 49.00841522216797, "eval/prior_ent_min": 25.762451171875, "eval/prior_ent_std": 8.093600273132324, "eval/rep_loss_mean": 13.155144691467285, "eval/rep_loss_std": 10.443333625793457, "eval/reward_avg": 1.357421875, "eval/reward_loss_mean": 0.8259708881378174, "eval/reward_loss_std": 3.0889179706573486, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 49.971866607666016, "eval/reward_neg_acc": 0.8844056129455566, "eval/reward_neg_loss": 0.14162977039813995, "eval/reward_pos_acc": 0.4299065172672272, "eval/reward_pos_loss": 6.690837860107422, "eval/reward_pred": 0.6307522654533386, "eval/reward_rate": 0.1044921875, "replay/size": 128477.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.510674805200401e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.377835661089387e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2458686828613, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8164713382720947, "timer/env.step_frac": 0.009380549849453648, "timer/env.step_avg": 0.003944637728672402, "timer/env.step_min": 0.0025103092193603516, "timer/env.step_max": 0.019898414611816406, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 177.9452714920044, "timer/replay._sample_frac": 0.5926651789502604, "timer/replay._sample_avg": 0.015576441832283298, "timer/replay._sample_min": 0.007300853729248047, "timer/replay._sample_max": 0.03389167785644531, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.46492290496826, "timer/agent.policy_frac": 0.6643386094869326, "timer/agent.policy_avg": 0.2793626371218043, "timer/agent.policy_min": 0.0035195350646972656, "timer/agent.policy_max": 0.31524205207824707, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08372783660888672, "timer/dataset_train_frac": 0.00027886424208329523, "timer/dataset_train_avg": 0.0001172658776034828, "timer/dataset_train_min": 7.081031799316406e-05, "timer/dataset_train_max": 0.00022554397583007812, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.19309091567993, "timer/agent.train_frac": 0.323711667847598, "timer/agent.train_avg": 0.13612477719282903, "timer/agent.train_min": 0.09914183616638184, "timer/agent.train_max": 0.4276111125946045, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.19880318641662598, "timer/agent.report_frac": 0.000662134627492958, "timer/agent.report_avg": 0.09940159320831299, "timer/agent.report_min": 0.09882473945617676, "timer/agent.report_max": 0.09997844696044922, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.790855407714844e-05, "timer/dataset_eval_frac": 1.2625837032645352e-07, "timer/dataset_eval_avg": 3.790855407714844e-05, "timer/dataset_eval_min": 3.790855407714844e-05, "timer/dataset_eval_max": 3.790855407714844e-05, "fps": 9.511885208309499}
+{"step": 515232, "episode/length": 702.0, "episode/score": 1170.0, "episode/reward_rate": 0.1422475106685633}
+{"step": 517012, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.662118831150968, "train/action_min": 0.0, "train/action_std": 2.814317834209388, "train/actor_opt_grad_norm": 0.008248397404931381, "train/actor_opt_grad_steps": 127800.0, "train/actor_opt_loss": 0.0010586838301682752, "train/adv_mag": 0.6500012446457232, "train/adv_max": 0.6250066732017088, "train/adv_mean": 0.0019964122075180057, "train/adv_min": -0.407699231110828, "train/adv_std": 0.034302020392997165, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.00025560672620966496, "train/cont_loss_std": 0.006996783698225916, "train/cont_neg_acc": 0.9640522891399907, "train/cont_neg_loss": 0.11095067951779339, "train/cont_pos_acc": 0.9999862304875549, "train/cont_pos_loss": 7.349604730061488e-05, "train/cont_pred": 0.9986468671073376, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.830529720010892, "train/dyn_loss_std": 6.802914209768805, "train/extr_critic_critic_opt_grad_norm": 2.3263103072072417, "train/extr_critic_critic_opt_grad_steps": 127800.0, "train/extr_critic_critic_opt_loss": 1.5215968632362258, "train/extr_critic_mag": 518.3964134538677, "train/extr_critic_max": 518.3964134538677, "train/extr_critic_mean": 199.10368658791126, "train/extr_critic_min": 0.6450721814598835, "train/extr_critic_std": 157.3045620985434, "train/extr_return_normed_mag": 1.2559624566158778, "train/extr_return_normed_max": 1.2559624566158778, "train/extr_return_normed_mean": 0.44095642423965564, "train/extr_return_normed_min": -0.007163147619125289, "train/extr_return_normed_std": 0.35546498693210976, "train/extr_return_rate": 0.9384867003266241, "train/extr_return_raw_mag": 562.402597776601, "train/extr_return_raw_max": 562.402597776601, "train/extr_return_raw_mean": 199.99185266629073, "train/extr_return_raw_min": 0.6958344752792085, "train/extr_return_raw_std": 158.09176624996562, "train/extr_reward_mag": 215.28528428413497, "train/extr_reward_max": 215.28528428413497, "train/extr_reward_mean": 1.10593843040332, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.342586567704107, "train/image_loss_mean": 1.7568024548006729, "train/image_loss_std": 1.5597743769766579, "train/model_loss_mean": 4.728558144099276, "train/model_loss_std": 5.3782187448420995, "train/model_opt_grad_norm": 11.025397878297618, "train/model_opt_grad_steps": 127800.0, "train/model_opt_loss": 4.728558144099276, "train/policy_entropy_mag": 2.1814330933799204, "train/policy_entropy_max": 2.1814330933799204, "train/policy_entropy_mean": 1.1767886272618469, "train/policy_entropy_min": 0.06952841968183786, "train/policy_entropy_std": 0.6238418011598184, "train/policy_logprob_mag": 6.799488087775002, "train/policy_logprob_max": -0.008960395802179692, "train/policy_logprob_mean": -1.1750264386056175, "train/policy_logprob_min": -6.799488087775002, "train/policy_logprob_std": 1.0926442532472207, "train/policy_randomness_mag": 0.9928129810682484, "train/policy_randomness_max": 0.9928129810682484, "train/policy_randomness_mean": 0.535579586532754, "train/policy_randomness_min": 0.031643747181539804, "train/policy_randomness_std": 0.2839226332348837, "train/post_ent_mag": 58.77860947729836, "train/post_ent_max": 58.77860947729836, "train/post_ent_mean": 38.86117983535981, "train/post_ent_min": 21.414499014196263, "train/post_ent_std": 5.700184553441867, "train/prior_ent_mag": 79.54628796644614, "train/prior_ent_max": 79.54628796644614, "train/prior_ent_mean": 43.731434996698944, "train/prior_ent_min": 23.034090901764348, "train/prior_ent_std": 8.395744518494942, "train/rep_loss_mean": 4.830529720010892, "train/rep_loss_std": 6.802914209768805, "train/reward_avg": 1.4022612235915493, "train/reward_loss_mean": 0.07318219222443205, "train/reward_loss_std": 0.2638653938619184, "train/reward_max_data": 210.56338028169014, "train/reward_max_pred": 184.69124519992883, "train/reward_neg_acc": 0.9683106743114095, "train/reward_neg_loss": 0.009586711010803849, "train/reward_pos_acc": 0.993610830374167, "train/reward_pos_loss": 0.6598325548037677, "train/reward_pred": 1.2545548551519152, "train/reward_rate": 0.09794509242957747, "train_stats/mean_log_entropy": 1.1073063611984253, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.706744505256211e-08, "report/cont_loss_std": 1.4601706652683788e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.706744505256211e-08, "report/cont_pred": 0.9999999403953552, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.911716461181641, "report/dyn_loss_std": 6.650867938995361, "report/image_loss_mean": 2.311995029449463, "report/image_loss_std": 1.6473846435546875, "report/model_loss_mean": 5.965749740600586, "report/model_loss_std": 5.4009623527526855, "report/post_ent_mag": 58.84538269042969, "report/post_ent_max": 58.84538269042969, "report/post_ent_mean": 39.45980453491211, "report/post_ent_min": 19.963722229003906, "report/post_ent_std": 4.9752044677734375, "report/prior_ent_mag": 79.64437866210938, "report/prior_ent_max": 79.64437866210938, "report/prior_ent_mean": 45.06618118286133, "report/prior_ent_min": 21.803316116333008, "report/prior_ent_std": 7.943325996398926, "report/rep_loss_mean": 5.911716461181641, "report/rep_loss_std": 6.650867938995361, "report/reward_avg": 2.05078125, "report/reward_loss_mean": 0.10672564804553986, "report/reward_loss_std": 0.44175922870635986, "report/reward_max_data": 410.0, "report/reward_max_pred": 401.00201416015625, "report/reward_neg_acc": 0.9534620046615601, "report/reward_neg_loss": 0.013218737207353115, "report/reward_pos_acc": 0.9930070042610168, "report/reward_pos_loss": 0.682806670665741, "report/reward_pred": 1.9574257135391235, "report/reward_rate": 0.1396484375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00034288273309357464, "eval/cont_loss_std": 0.010957554914057255, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.35081326961517334, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.91919604933355e-07, "eval/cont_pred": 0.9993121027946472, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.79886245727539, "eval/dyn_loss_std": 10.458052635192871, "eval/image_loss_mean": 4.829185485839844, "eval/image_loss_std": 3.8125646114349365, "eval/model_loss_mean": 13.426874160766602, "eval/model_loss_std": 10.025961875915527, "eval/post_ent_mag": 61.376548767089844, "eval/post_ent_max": 61.376548767089844, "eval/post_ent_mean": 42.64088439941406, "eval/post_ent_min": 19.88836097717285, "eval/post_ent_std": 6.402303695678711, "eval/prior_ent_mag": 79.64437866210938, "eval/prior_ent_max": 79.64437866210938, "eval/prior_ent_mean": 49.07003402709961, "eval/prior_ent_min": 22.321199417114258, "eval/prior_ent_std": 8.892285346984863, "eval/rep_loss_mean": 12.79886245727539, "eval/rep_loss_std": 10.458052635192871, "eval/reward_avg": 1.806640625, "eval/reward_loss_mean": 0.9180277585983276, "eval/reward_loss_std": 2.773653745651245, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 48.046630859375, "eval/reward_neg_acc": 0.7933025360107422, "eval/reward_neg_loss": 0.2949627637863159, "eval/reward_pos_acc": 0.6392405033111572, "eval/reward_pos_loss": 4.333055019378662, "eval/reward_pred": 1.348700761795044, "eval/reward_rate": 0.154296875, "replay/size": 129190.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.5347886694096245e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.403467852470751e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6838312149047852e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2913484573364, "timer/env.step_count": 713.0, "timer/env.step_total": 2.829035520553589, "timer/env.step_frac": 0.009420969119113736, "timer/env.step_avg": 0.0039677917539321025, "timer/env.step_min": 0.0022597312927246094, "timer/env.step_max": 0.022309541702270508, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 180.32330989837646, "timer/replay._sample_frac": 0.6004945224853713, "timer/replay._sample_avg": 0.01580674175126021, "timer/replay._sample_min": 0.007851839065551758, "timer/replay._sample_max": 0.0354461669921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.23998665809631348, "timer/agent.save_frac": 0.0007991793947084337, "timer/agent.save_avg": 0.23998665809631348, "timer/agent.save_min": 0.23998665809631348, "timer/agent.save_max": 0.23998665809631348, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.4033558368683, "timer/agent.policy_frac": 0.664032969518595, "timer/agent.policy_avg": 0.27966810075297094, "timer/agent.policy_min": 0.003302335739135742, "timer/agent.policy_max": 0.40488433837890625, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08573627471923828, "timer/dataset_train_frac": 0.00028551030577365823, "timer/dataset_train_avg": 0.00012024722962025005, "timer/dataset_train_min": 6.747245788574219e-05, "timer/dataset_train_max": 0.00025153160095214844, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.97481536865234, "timer/agent.train_frac": 0.3229357617754677, "timer/agent.train_avg": 0.13600955872181256, "timer/agent.train_min": 0.09976053237915039, "timer/agent.train_max": 0.4287712574005127, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49758386611938477, "timer/agent.report_frac": 0.001657003668855543, "timer/agent.report_avg": 0.24879193305969238, "timer/agent.report_min": 0.09839534759521484, "timer/agent.report_max": 0.3991885185241699, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00012969970703125, "timer/dataset_eval_frac": 4.3191289958084473e-07, "timer/dataset_eval_avg": 0.00012969970703125, "timer/dataset_eval_min": 0.00012969970703125, "timer/dataset_eval_max": 0.00012969970703125, "fps": 9.49701375226385}
+{"step": 518092, "episode/length": 714.0, "episode/score": 960.0, "episode/reward_rate": 0.12307692307692308}
+{"step": 519868, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.816871320697623, "train/action_min": 0.0, "train/action_std": 2.8299183979840348, "train/actor_opt_grad_norm": 0.008034620637362691, "train/actor_opt_grad_steps": 128510.0, "train/actor_opt_loss": 0.0008172194561986647, "train/adv_mag": 0.6446189435435014, "train/adv_max": 0.6164761752309934, "train/adv_mean": 0.0019505907074373271, "train/adv_min": -0.4378910012228388, "train/adv_std": 0.03504458557761891, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.0002978778970385291, "train/cont_loss_std": 0.008100318204379014, "train/cont_neg_acc": 0.8915094350868801, "train/cont_neg_loss": 0.17781649356136464, "train/cont_pos_acc": 0.9999724215185138, "train/cont_pos_loss": 7.247456425880869e-05, "train/cont_pred": 0.9986664165913219, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 5.082989158764692, "train/dyn_loss_std": 6.7676666488110175, "train/extr_critic_critic_opt_grad_norm": 2.3668452299816507, "train/extr_critic_critic_opt_grad_steps": 128510.0, "train/extr_critic_critic_opt_loss": 1.5445284507644008, "train/extr_critic_mag": 518.0452029805788, "train/extr_critic_max": 518.0452029805788, "train/extr_critic_mean": 207.41123822709204, "train/extr_critic_min": 0.17788880475809876, "train/extr_critic_std": 156.13914156631685, "train/extr_return_normed_mag": 1.2549814346810462, "train/extr_return_normed_max": 1.2549814346810462, "train/extr_return_normed_mean": 0.4606268130977389, "train/extr_return_normed_min": -0.011200183674588169, "train/extr_return_normed_std": 0.35570931245743387, "train/extr_return_rate": 0.9414649824021568, "train/extr_return_raw_mag": 558.7268612284056, "train/extr_return_raw_max": 558.7268612284056, "train/extr_return_raw_mean": 208.27204830545776, "train/extr_return_raw_min": 0.17428052416161477, "train/extr_return_raw_std": 156.87680752176635, "train/extr_reward_mag": 197.7848875287553, "train/extr_reward_max": 197.7848875287553, "train/extr_reward_mean": 1.1263808179909074, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.914417115735336, "train/image_loss_mean": 1.7991532993988253, "train/image_loss_std": 1.575781630798125, "train/model_loss_mean": 4.928856997422769, "train/model_loss_std": 5.379985513821454, "train/model_opt_grad_norm": 12.075972113810794, "train/model_opt_grad_steps": 128510.0, "train/model_opt_loss": 4.928856997422769, "train/policy_entropy_mag": 2.180803228432024, "train/policy_entropy_max": 2.180803228432024, "train/policy_entropy_mean": 1.1108147518735536, "train/policy_entropy_min": 0.06966172211186987, "train/policy_entropy_std": 0.6263519752193505, "train/policy_logprob_mag": 6.801064303223516, "train/policy_logprob_max": -0.008980834699222739, "train/policy_logprob_mean": -1.1114793520578197, "train/policy_logprob_min": -6.801064303223516, "train/policy_logprob_std": 1.1027493510447757, "train/policy_randomness_mag": 0.9925263137884544, "train/policy_randomness_max": 0.9925263137884544, "train/policy_randomness_mean": 0.5055535859625104, "train/policy_randomness_min": 0.03170441594761862, "train/policy_randomness_std": 0.2850650655971447, "train/post_ent_mag": 59.167151867503854, "train/post_ent_max": 59.167151867503854, "train/post_ent_mean": 39.0030144167618, "train/post_ent_min": 21.22654090129154, "train/post_ent_std": 5.917856008234159, "train/prior_ent_mag": 79.35225655998983, "train/prior_ent_max": 79.35225655998983, "train/prior_ent_mean": 43.98596852262255, "train/prior_ent_min": 22.889866009564468, "train/prior_ent_std": 8.63653743099159, "train/rep_loss_mean": 5.082989158764692, "train/rep_loss_std": 6.7676666488110175, "train/reward_avg": 1.4609925176056338, "train/reward_loss_mean": 0.07961235331817412, "train/reward_loss_std": 0.28132840613244287, "train/reward_max_data": 223.38028169014083, "train/reward_max_pred": 169.77966759910046, "train/reward_neg_acc": 0.9648179101272368, "train/reward_neg_loss": 0.0115784625981895, "train/reward_pos_acc": 0.9943055695211384, "train/reward_pos_loss": 0.6722084963825387, "train/reward_pred": 1.2988165113287913, "train/reward_rate": 0.10322678257042253, "train_stats/mean_log_entropy": 1.1220732927322388, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0019444633508101106, "report/cont_loss_std": 0.04633840173482895, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.32329609990119934, "report/cont_pos_acc": 0.9990215301513672, "report/cont_pos_loss": 0.0013155952328816056, "report/cont_pred": 0.9977837800979614, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.755521297454834, "report/dyn_loss_std": 6.478697776794434, "report/image_loss_mean": 1.6409623622894287, "report/image_loss_std": 1.4451978206634521, "report/model_loss_mean": 4.574666976928711, "report/model_loss_std": 5.055692195892334, "report/post_ent_mag": 61.03239440917969, "report/post_ent_max": 61.03239440917969, "report/post_ent_mean": 37.32017517089844, "report/post_ent_min": 20.012001037597656, "report/post_ent_std": 6.3531036376953125, "report/prior_ent_mag": 79.48551177978516, "report/prior_ent_max": 79.48551177978516, "report/prior_ent_mean": 42.272377014160156, "report/prior_ent_min": 21.543148040771484, "report/prior_ent_std": 9.545722961425781, "report/rep_loss_mean": 4.755521297454834, "report/rep_loss_std": 6.478697776794434, "report/reward_avg": 1.474609375, "report/reward_loss_mean": 0.07844758033752441, "report/reward_loss_std": 0.20872561633586884, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.1851043701172, "report/reward_neg_acc": 0.9622222185134888, "report/reward_neg_loss": 0.007917320355772972, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.590360701084137, "report/reward_pred": 1.3667726516723633, "report/reward_rate": 0.12109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.000576432968955487, "eval/cont_loss_std": 0.01809648983180523, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5793390274047852, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.0682579159038141e-05, "eval/cont_pred": 0.9994422197341919, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 8.648468017578125, "eval/dyn_loss_std": 9.675782203674316, "eval/image_loss_mean": 2.7431187629699707, "eval/image_loss_std": 3.072913646697998, "eval/model_loss_mean": 8.365071296691895, "eval/model_loss_std": 8.80247974395752, "eval/post_ent_mag": 61.328125, "eval/post_ent_max": 61.328125, "eval/post_ent_mean": 37.76639938354492, "eval/post_ent_min": 20.99982452392578, "eval/post_ent_std": 7.481225967407227, "eval/prior_ent_mag": 79.48551177978516, "eval/prior_ent_max": 79.48551177978516, "eval/prior_ent_mean": 42.71595001220703, "eval/prior_ent_min": 21.88035774230957, "eval/prior_ent_std": 10.629977226257324, "eval/rep_loss_mean": 8.648468017578125, "eval/rep_loss_std": 9.675782203674316, "eval/reward_avg": 1.474609375, "eval/reward_loss_mean": 0.4322948157787323, "eval/reward_loss_std": 1.8203262090682983, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.99491882324219, "eval/reward_neg_acc": 0.9260918498039246, "eval/reward_neg_loss": 0.09156026691198349, "eval/reward_pos_acc": 0.7709923982620239, "eval/reward_pos_loss": 2.755012273788452, "eval/reward_pred": 1.0705293416976929, "eval/reward_rate": 0.1279296875, "replay/size": 129904.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.491641389221704e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.400667412274358e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8030405044555664e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2672564983368, "timer/env.step_count": 714.0, "timer/env.step_total": 2.814234733581543, "timer/env.step_frac": 0.009372432966553351, "timer/env.step_avg": 0.003941505229105803, "timer/env.step_min": 0.002022266387939453, "timer/env.step_max": 0.020175457000732422, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 180.90500140190125, "timer/replay._sample_frac": 0.6024799490679841, "timer/replay._sample_avg": 0.01583552183139892, "timer/replay._sample_min": 0.007919549942016602, "timer/replay._sample_max": 0.051276206970214844, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.3900442123413, "timer/agent.policy_frac": 0.6640419156507188, "timer/agent.policy_avg": 0.27925776500327915, "timer/agent.policy_min": 0.0029909610748291016, "timer/agent.policy_max": 0.3139472007751465, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08285975456237793, "timer/dataset_train_frac": 0.0002759533474567744, "timer/dataset_train_avg": 0.00011605007641789626, "timer/dataset_train_min": 7.033348083496094e-05, "timer/dataset_train_max": 0.00020694732666015625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.97264337539673, "timer/agent.train_frac": 0.32295443900968224, "timer/agent.train_avg": 0.13581602713640997, "timer/agent.train_min": 0.10011959075927734, "timer/agent.train_max": 0.4278285503387451, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5006859302520752, "timer/agent.report_frac": 0.0016674676289748847, "timer/agent.report_avg": 0.2503429651260376, "timer/agent.report_min": 0.10034537315368652, "timer/agent.report_max": 0.40034055709838867, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.198883056640625e-05, "timer/dataset_eval_frac": 2.0644552219682206e-07, "timer/dataset_eval_avg": 6.198883056640625e-05, "timer/dataset_eval_min": 6.198883056640625e-05, "timer/dataset_eval_max": 6.198883056640625e-05, "fps": 9.51120142331635}
+{"step": 521224, "episode/length": 782.0, "episode/score": 1130.0, "episode/reward_rate": 0.13409961685823754}
+{"step": 522720, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.73459710015191, "train/action_min": 0.0, "train/action_std": 2.8049621880054474, "train/actor_opt_grad_norm": 0.008655540916758278, "train/actor_opt_grad_steps": 129225.0, "train/actor_opt_loss": 0.0009276741590156234, "train/adv_mag": 0.7308107519315349, "train/adv_max": 0.6750723868608475, "train/adv_mean": 0.0023859987949334835, "train/adv_min": -0.47355814712742966, "train/adv_std": 0.03838576917122635, "train/cont_avg": 0.9987521701388888, "train/cont_loss_mean": 0.0002433076211026027, "train/cont_loss_std": 0.006947963937258075, "train/cont_neg_acc": 0.942424243146723, "train/cont_neg_loss": 0.15875873649271843, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.125439538297002e-05, "train/cont_pred": 0.9988008497489823, "train/cont_rate": 0.9987521701388888, "train/dyn_loss_mean": 4.910121099816428, "train/dyn_loss_std": 6.780934360292223, "train/extr_critic_critic_opt_grad_norm": 2.343189020951589, "train/extr_critic_critic_opt_grad_steps": 129225.0, "train/extr_critic_critic_opt_loss": 1.5459221402804058, "train/extr_critic_mag": 512.1769981384277, "train/extr_critic_max": 512.1769981384277, "train/extr_critic_mean": 198.07040786743164, "train/extr_critic_min": 0.8019705464442571, "train/extr_critic_std": 155.94810973273383, "train/extr_return_normed_mag": 1.332141124539905, "train/extr_return_normed_max": 1.332141124539905, "train/extr_return_normed_mean": 0.4402046903140015, "train/extr_return_normed_min": -0.008047592606292002, "train/extr_return_normed_std": 0.3562251962721348, "train/extr_return_rate": 0.9493643757369783, "train/extr_return_raw_mag": 593.599740770128, "train/extr_return_raw_max": 593.599740770128, "train/extr_return_raw_mean": 199.12570805019803, "train/extr_return_raw_min": 0.9392415259478892, "train/extr_return_raw_std": 157.49909528096518, "train/extr_reward_mag": 231.90525164869098, "train/extr_reward_max": 231.90525164869098, "train/extr_reward_mean": 1.1679864753451612, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.847812291648653, "train/image_loss_mean": 1.8101734005742602, "train/image_loss_std": 1.5638475798898273, "train/model_loss_mean": 4.836244669225481, "train/model_loss_std": 5.370059768358867, "train/model_opt_grad_norm": 11.790607346428764, "train/model_opt_grad_steps": 129225.0, "train/model_opt_loss": 4.836244669225481, "train/policy_entropy_mag": 2.1787724362479315, "train/policy_entropy_max": 2.1787724362479315, "train/policy_entropy_mean": 1.146827080183559, "train/policy_entropy_min": 0.0695471777063277, "train/policy_entropy_std": 0.6173898271388478, "train/policy_logprob_mag": 6.799856397840712, "train/policy_logprob_max": -0.008963785625787245, "train/policy_logprob_mean": -1.1476897887057729, "train/policy_logprob_min": -6.799856397840712, "train/policy_logprob_std": 1.0968717667791579, "train/policy_randomness_mag": 0.9916020615233315, "train/policy_randomness_max": 0.9916020615233315, "train/policy_randomness_mean": 0.5219434905383322, "train/policy_randomness_min": 0.03165228432044387, "train/policy_randomness_std": 0.28098621281484765, "train/post_ent_mag": 58.68091106414795, "train/post_ent_max": 58.68091106414795, "train/post_ent_mean": 39.09738768471612, "train/post_ent_min": 21.66590205828349, "train/post_ent_std": 5.700628615087933, "train/prior_ent_mag": 79.49508592817519, "train/prior_ent_max": 79.49508592817519, "train/prior_ent_mean": 44.05844863255819, "train/prior_ent_min": 23.476689683066475, "train/prior_ent_std": 8.331143379211426, "train/rep_loss_mean": 4.910121099816428, "train/rep_loss_std": 6.780934360292223, "train/reward_avg": 1.490478515625, "train/reward_loss_mean": 0.07975527085363865, "train/reward_loss_std": 0.2837114373428954, "train/reward_max_data": 230.83333333333334, "train/reward_max_pred": 191.58728823396893, "train/reward_neg_acc": 0.9634908205933042, "train/reward_neg_loss": 0.011450356438419677, "train/reward_pos_acc": 0.9909699898627069, "train/reward_pos_loss": 0.680237771736251, "train/reward_pred": 1.312597003661924, "train/reward_rate": 0.10191514756944445, "train_stats/mean_log_entropy": 1.115876317024231, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.9832452835544245e-07, "report/cont_loss_std": 5.7450465646979865e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.9832452835544245e-07, "report/cont_pred": 0.9999998211860657, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.4444580078125, "report/dyn_loss_std": 6.886152267456055, "report/image_loss_mean": 1.9919809103012085, "report/image_loss_std": 1.2545620203018188, "report/model_loss_mean": 5.350333213806152, "report/model_loss_std": 5.090493202209473, "report/post_ent_mag": 51.19602966308594, "report/post_ent_max": 51.19602966308594, "report/post_ent_mean": 40.446449279785156, "report/post_ent_min": 25.647172927856445, "report/post_ent_std": 3.9245097637176514, "report/prior_ent_mag": 79.74188232421875, "report/prior_ent_max": 79.74188232421875, "report/prior_ent_mean": 45.674034118652344, "report/prior_ent_min": 28.47979164123535, "report/prior_ent_std": 6.312916278839111, "report/rep_loss_mean": 5.4444580078125, "report/rep_loss_std": 6.886152267456055, "report/reward_avg": 2.65625, "report/reward_loss_mean": 0.09167720377445221, "report/reward_loss_std": 0.24292586743831635, "report/reward_max_data": 410.0, "report/reward_max_pred": 382.1739807128906, "report/reward_neg_acc": 0.9487179517745972, "report/reward_neg_loss": 0.01927812024950981, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6030313968658447, "report/reward_pred": 2.2734851837158203, "report/reward_rate": 0.1240234375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 8.100576565084339e-07, "eval/cont_loss_std": 1.574216912558768e-05, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 8.471278852084652e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.280413569787925e-07, "eval/cont_pred": 0.9990228414535522, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.365410804748535, "eval/dyn_loss_std": 10.43012809753418, "eval/image_loss_mean": 3.9724416732788086, "eval/image_loss_std": 3.347217321395874, "eval/model_loss_mean": 11.666783332824707, "eval/model_loss_std": 9.532292366027832, "eval/post_ent_mag": 56.00175476074219, "eval/post_ent_max": 56.00175476074219, "eval/post_ent_mean": 41.49205780029297, "eval/post_ent_min": 25.064130783081055, "eval/post_ent_std": 5.644883632659912, "eval/prior_ent_mag": 79.74188232421875, "eval/prior_ent_max": 79.74188232421875, "eval/prior_ent_mean": 47.57123565673828, "eval/prior_ent_min": 27.408447265625, "eval/prior_ent_std": 7.6937174797058105, "eval/rep_loss_mean": 11.365410804748535, "eval/rep_loss_std": 10.43012809753418, "eval/reward_avg": 1.71875, "eval/reward_loss_mean": 0.8750948905944824, "eval/reward_loss_std": 2.8639214038848877, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.94107437133789, "eval/reward_neg_acc": 0.8025258183479309, "eval/reward_neg_loss": 0.20868192613124847, "eval/reward_pos_acc": 0.6470588445663452, "eval/reward_pos_loss": 4.668856620788574, "eval/reward_pred": 1.1931484937667847, "eval/reward_rate": 0.1494140625, "replay/size": 130617.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.622063913652974e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3854945023631648e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.475214958190918e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.87959384918213, "timer/env.step_count": 713.0, "timer/env.step_total": 2.832671880722046, "timer/env.step_frac": 0.009446030803105182, "timer/env.step_avg": 0.00397289183831984, "timer/env.step_min": 0.002290964126586914, "timer/env.step_max": 0.01881122589111328, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.0237913131714, "timer/replay._sample_frac": 0.5936509017772799, "timer/replay._sample_avg": 0.015605171047788515, "timer/replay._sample_min": 0.00812220573425293, "timer/replay._sample_max": 0.043225765228271484, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.12119793891907, "timer/agent.policy_frac": 0.6640038269461667, "timer/agent.policy_avg": 0.27927236737576305, "timer/agent.policy_min": 0.0033991336822509766, "timer/agent.policy_max": 0.31611132621765137, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08298110961914062, "timer/dataset_train_frac": 0.0002767147592605923, "timer/dataset_train_avg": 0.00011638304294409625, "timer/dataset_train_min": 6.842613220214844e-05, "timer/dataset_train_max": 0.000186920166015625, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.15095639228821, "timer/agent.train_frac": 0.32396654652382967, "timer/agent.train_avg": 0.13625660083069874, "timer/agent.train_min": 0.0996701717376709, "timer/agent.train_max": 0.4294700622558594, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.1986527442932129, "timer/agent.report_frac": 0.0006624416878232833, "timer/agent.report_avg": 0.09932637214660645, "timer/agent.report_min": 0.09912610054016113, "timer/agent.report_max": 0.09952664375305176, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.528594970703125e-05, "timer/dataset_eval_frac": 1.1766705848207046e-07, "timer/dataset_eval_avg": 3.528594970703125e-05, "timer/dataset_eval_min": 3.528594970703125e-05, "timer/dataset_eval_max": 3.528594970703125e-05, "fps": 9.51013642070985}
+{"step": 524908, "episode/length": 920.0, "episode/score": 1830.0, "episode/reward_rate": 0.11726384364820847}
+{"step": 525576, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.729135432713468, "train/action_min": 0.0, "train/action_std": 2.8503434221509476, "train/actor_opt_grad_norm": 0.008011294404228389, "train/actor_opt_grad_steps": 129940.0, "train/actor_opt_loss": 0.0008278728946863057, "train/adv_mag": 0.6552903119107367, "train/adv_max": 0.6158498859321567, "train/adv_mean": 0.0020873786506085644, "train/adv_min": -0.42391062664314055, "train/adv_std": 0.034919143772461046, "train/cont_avg": 0.9985695422535211, "train/cont_loss_mean": 0.0002876887347982242, "train/cont_loss_std": 0.007913107804307264, "train/cont_neg_acc": 0.9393939397551797, "train/cont_neg_loss": 0.11787607024762937, "train/cont_pos_acc": 0.9999448875306358, "train/cont_pos_loss": 0.0001348025065805971, "train/cont_pred": 0.9985660507645405, "train/cont_rate": 0.9985695422535211, "train/dyn_loss_mean": 4.953976973681383, "train/dyn_loss_std": 6.868522274662071, "train/extr_critic_critic_opt_grad_norm": 2.4468307411166985, "train/extr_critic_critic_opt_grad_steps": 129940.0, "train/extr_critic_critic_opt_loss": 1.570874252789457, "train/extr_critic_mag": 500.91370746451366, "train/extr_critic_max": 500.91370746451366, "train/extr_critic_mean": 189.1316146850586, "train/extr_critic_min": 0.11366488564182335, "train/extr_critic_std": 154.89801981751347, "train/extr_return_normed_mag": 1.2230466528677604, "train/extr_return_normed_max": 1.2230466528677604, "train/extr_return_normed_mean": 0.41839938789186343, "train/extr_return_normed_min": -0.009899544049198674, "train/extr_return_normed_std": 0.3509790227866509, "train/extr_return_rate": 0.9442745480738896, "train/extr_return_raw_mag": 546.915555712203, "train/extr_return_raw_max": 546.915555712203, "train/extr_return_raw_mean": 190.05702703771456, "train/extr_return_raw_min": 0.11593659442659257, "train/extr_return_raw_std": 155.67072339125082, "train/extr_reward_mag": 210.95563587672274, "train/extr_reward_max": 210.95563587672274, "train/extr_reward_mean": 1.0393623995109342, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.179898557528643, "train/image_loss_mean": 1.80595442107026, "train/image_loss_std": 1.6056164083346514, "train/model_loss_mean": 4.849786614028501, "train/model_loss_std": 5.464912804079727, "train/model_opt_grad_norm": 11.172684414286008, "train/model_opt_grad_steps": 129940.0, "train/model_opt_loss": 4.849786614028501, "train/policy_entropy_mag": 2.1824276044335162, "train/policy_entropy_max": 2.1824276044335162, "train/policy_entropy_mean": 1.1689087060135854, "train/policy_entropy_min": 0.06962755165049728, "train/policy_entropy_std": 0.6181252422467084, "train/policy_logprob_mag": 6.798589263163822, "train/policy_logprob_max": -0.008975396995288385, "train/policy_logprob_mean": -1.169685594632592, "train/policy_logprob_min": -6.798589263163822, "train/policy_logprob_std": 1.0973881726533594, "train/policy_randomness_mag": 0.9932655969136198, "train/policy_randomness_max": 0.9932655969136198, "train/policy_randomness_mean": 0.5319932690808471, "train/policy_randomness_min": 0.03168886406740672, "train/policy_randomness_std": 0.28132091777425416, "train/post_ent_mag": 58.94051006478323, "train/post_ent_max": 58.94051006478323, "train/post_ent_mean": 38.969565700477276, "train/post_ent_min": 21.03708358549736, "train/post_ent_std": 5.719051592786547, "train/prior_ent_mag": 79.53653910462286, "train/prior_ent_max": 79.53653910462286, "train/prior_ent_mean": 43.938474467102914, "train/prior_ent_min": 23.130471242985255, "train/prior_ent_std": 8.465922315355758, "train/rep_loss_mean": 4.953976973681383, "train/rep_loss_std": 6.868522274662071, "train/reward_avg": 1.3480688820422535, "train/reward_loss_mean": 0.0711583478350035, "train/reward_loss_std": 0.2564286020859866, "train/reward_max_data": 213.5211267605634, "train/reward_max_pred": 192.08937149316492, "train/reward_neg_acc": 0.967239433610943, "train/reward_neg_loss": 0.00941966808873268, "train/reward_pos_acc": 0.9947433589209973, "train/reward_pos_loss": 0.6545391191898937, "train/reward_pred": 1.2279230062390718, "train/reward_rate": 0.09614326584507042, "train_stats/mean_log_entropy": 1.1340612173080444, "report/cont_avg": 1.0, "report/cont_loss_mean": 2.064434312387675e-08, "report/cont_loss_std": 4.3301380969751335e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.064434312387675e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 5.211722373962402, "report/dyn_loss_std": 6.604678153991699, "report/image_loss_mean": 1.8650174140930176, "report/image_loss_std": 1.395140528678894, "report/model_loss_mean": 5.088555335998535, "report/model_loss_std": 5.1102294921875, "report/post_ent_mag": 57.85768127441406, "report/post_ent_max": 57.85768127441406, "report/post_ent_mean": 38.95436096191406, "report/post_ent_min": 20.055368423461914, "report/post_ent_std": 5.348612308502197, "report/prior_ent_mag": 79.23004150390625, "report/prior_ent_max": 79.23004150390625, "report/prior_ent_mean": 44.341796875, "report/prior_ent_min": 22.104785919189453, "report/prior_ent_std": 7.74174165725708, "report/rep_loss_mean": 5.211722373962402, "report/rep_loss_std": 6.604678153991699, "report/reward_avg": 1.640625, "report/reward_loss_mean": 0.096504345536232, "report/reward_loss_std": 0.3086716830730438, "report/reward_max_data": 200.0, "report/reward_max_pred": 179.06912231445312, "report/reward_neg_acc": 0.9472503066062927, "report/reward_neg_loss": 0.015486638061702251, "report/reward_pos_acc": 0.9849624037742615, "report/reward_pos_loss": 0.6392621397972107, "report/reward_pred": 1.5114601850509644, "report/reward_rate": 0.1298828125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.006777447648346424, "eval/cont_loss_std": 0.21676762402057648, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.939953804016113, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.4952806282053643e-07, "eval/cont_pred": 0.999998927116394, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.22536849975586, "eval/dyn_loss_std": 9.645084381103516, "eval/image_loss_mean": 4.212810516357422, "eval/image_loss_std": 3.371835470199585, "eval/model_loss_mean": 11.691779136657715, "eval/model_loss_std": 9.024378776550293, "eval/post_ent_mag": 57.56700134277344, "eval/post_ent_max": 57.56700134277344, "eval/post_ent_mean": 41.4124641418457, "eval/post_ent_min": 25.137800216674805, "eval/post_ent_std": 4.949439525604248, "eval/prior_ent_mag": 79.23004150390625, "eval/prior_ent_max": 79.23004150390625, "eval/prior_ent_mean": 47.95924758911133, "eval/prior_ent_min": 28.470890045166016, "eval/prior_ent_std": 7.245250225067139, "eval/rep_loss_mean": 11.22536849975586, "eval/rep_loss_std": 9.645084381103516, "eval/reward_avg": 1.318359375, "eval/reward_loss_mean": 0.7369706630706787, "eval/reward_loss_std": 2.9399209022521973, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 43.777469635009766, "eval/reward_neg_acc": 0.906798243522644, "eval/reward_neg_loss": 0.15862341225147247, "eval/reward_pos_acc": 0.598214328289032, "eval/reward_pos_loss": 5.446369647979736, "eval/reward_pred": 0.8435359597206116, "eval/reward_rate": 0.109375, "replay/size": 131331.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.493644906693146e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.365355416840198e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.0712614059448242e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.46473932266235, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8452255725860596, "timer/env.step_frac": 0.00946941587555349, "timer/env.step_avg": 0.003984909765526694, "timer/env.step_min": 0.0026128292083740234, "timer/env.step_max": 0.025519371032714844, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 175.84243488311768, "timer/replay._sample_frac": 0.5852348441268658, "timer/replay._sample_avg": 0.015392370000272906, "timer/replay._sample_min": 0.008292913436889648, "timer/replay._sample_max": 0.04721260070800781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11046791076660156, "timer/agent.save_frac": 0.0003676568206160542, "timer/agent.save_avg": 0.11046791076660156, "timer/agent.save_min": 0.11046791076660156, "timer/agent.save_max": 0.11046791076660156, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.47918176651, "timer/agent.policy_frac": 0.6639021344607554, "timer/agent.policy_avg": 0.2793826075161205, "timer/agent.policy_min": 0.0032546520233154297, "timer/agent.policy_max": 0.33963608741760254, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08278608322143555, "timer/dataset_train_frac": 0.0002755267836354449, "timer/dataset_train_avg": 0.00011594689526811701, "timer/dataset_train_min": 6.794929504394531e-05, "timer/dataset_train_max": 0.0002841949462890625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.05942273139954, "timer/agent.train_frac": 0.32303099175697153, "timer/agent.train_avg": 0.13593756685069963, "timer/agent.train_min": 0.10039234161376953, "timer/agent.train_max": 0.42768406867980957, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5027778148651123, "timer/agent.report_frac": 0.0016733338361051093, "timer/agent.report_avg": 0.25138890743255615, "timer/agent.report_min": 0.0989370346069336, "timer/agent.report_max": 0.4038407802581787, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.965896606445312e-05, "timer/dataset_eval_frac": 3.316827335184632e-07, "timer/dataset_eval_avg": 9.965896606445312e-05, "timer/dataset_eval_min": 9.965896606445312e-05, "timer/dataset_eval_max": 9.965896606445312e-05, "fps": 9.504916235271699}
+{"step": 527784, "episode/length": 718.0, "episode/score": 1220.0, "episode/reward_rate": 0.12517385257301808}
+{"step": 528432, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.789696921764965, "train/action_min": 0.0, "train/action_std": 2.8446392475719184, "train/actor_opt_grad_norm": 0.007116292173724989, "train/actor_opt_grad_steps": 130650.0, "train/actor_opt_loss": 0.0007021418919835078, "train/adv_mag": 0.5837701433141467, "train/adv_max": 0.5391684938484514, "train/adv_mean": 0.0016521440284635338, "train/adv_min": -0.376277341074507, "train/adv_std": 0.029947811816359908, "train/cont_avg": 0.9985145246478874, "train/cont_loss_mean": 0.00020547468849268352, "train/cont_loss_std": 0.005517587001454146, "train/cont_neg_acc": 0.9576271186440678, "train/cont_neg_loss": 0.09149217830075815, "train/cont_pos_acc": 0.9999862153765181, "train/cont_pos_loss": 7.506191888931508e-05, "train/cont_pred": 0.9985236139364646, "train/cont_rate": 0.9985145246478874, "train/dyn_loss_mean": 4.916907286979783, "train/dyn_loss_std": 6.837596302301112, "train/extr_critic_critic_opt_grad_norm": 2.201187053196867, "train/extr_critic_critic_opt_grad_steps": 130650.0, "train/extr_critic_critic_opt_loss": 1.5170929717345976, "train/extr_critic_mag": 494.180039096886, "train/extr_critic_max": 494.180039096886, "train/extr_critic_mean": 195.86197490423498, "train/extr_critic_min": 0.37103880459154154, "train/extr_critic_std": 156.58470529905506, "train/extr_return_normed_mag": 1.1879174172038762, "train/extr_return_normed_max": 1.1879174172038762, "train/extr_return_normed_mean": 0.43501130585939113, "train/extr_return_normed_min": -0.009320959199587224, "train/extr_return_normed_std": 0.35536431657596373, "train/extr_return_rate": 0.9339688369925593, "train/extr_return_raw_mag": 529.0392520528444, "train/extr_return_raw_max": 529.0392520528444, "train/extr_return_raw_mean": 196.59150158519475, "train/extr_return_raw_min": 0.31722937316574734, "train/extr_return_raw_std": 156.9659740824095, "train/extr_reward_mag": 190.71762643733496, "train/extr_reward_max": 190.71762643733496, "train/extr_reward_mean": 1.0207873952220863, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.1567583487067425, "train/image_loss_mean": 1.7907037365604455, "train/image_loss_std": 1.5405958790174672, "train/model_loss_mean": 4.814580863630268, "train/model_loss_std": 5.378718288851456, "train/model_opt_grad_norm": 11.120726652548347, "train/model_opt_grad_steps": 130650.0, "train/model_opt_loss": 4.814580863630268, "train/policy_entropy_mag": 2.1805565793749313, "train/policy_entropy_max": 2.1805565793749313, "train/policy_entropy_mean": 1.172222032513417, "train/policy_entropy_min": 0.06964542118596359, "train/policy_entropy_std": 0.6278695262653727, "train/policy_logprob_mag": 6.798731850906157, "train/policy_logprob_max": -0.008978314842031876, "train/policy_logprob_mean": -1.1725198173187148, "train/policy_logprob_min": -6.798731850906157, "train/policy_logprob_std": 1.0975259643205455, "train/policy_randomness_mag": 0.9924140572547913, "train/policy_randomness_max": 0.9924140572547913, "train/policy_randomness_mean": 0.5335012388900972, "train/policy_randomness_min": 0.0316969972156303, "train/policy_randomness_std": 0.28575573127034687, "train/post_ent_mag": 59.32649408259862, "train/post_ent_max": 59.32649408259862, "train/post_ent_mean": 39.08516252544564, "train/post_ent_min": 21.692938388233454, "train/post_ent_std": 5.730176227193483, "train/prior_ent_mag": 79.56440057888837, "train/prior_ent_max": 79.56440057888837, "train/prior_ent_mean": 44.04114059663155, "train/prior_ent_min": 23.396292243205327, "train/prior_ent_std": 8.393933188747353, "train/rep_loss_mean": 4.916907286979783, "train/rep_loss_std": 6.837596302301112, "train/reward_avg": 1.3037797095070423, "train/reward_loss_mean": 0.07352717803187774, "train/reward_loss_std": 0.25818187963794653, "train/reward_max_data": 184.08450704225353, "train/reward_max_pred": 144.99469895430013, "train/reward_neg_acc": 0.966889564420136, "train/reward_neg_loss": 0.009381533072421878, "train/reward_pos_acc": 0.9946206111303517, "train/reward_pos_loss": 0.6596656248603069, "train/reward_pred": 1.1622604089723507, "train/reward_rate": 0.09892165492957747, "train_stats/mean_log_entropy": 0.9454339146614075, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.0357572222119416e-07, "report/cont_loss_std": 2.9607319902424933e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0357572222119416e-07, "report/cont_pred": 0.9999998807907104, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.8314032554626465, "report/dyn_loss_std": 6.736971855163574, "report/image_loss_mean": 1.763044834136963, "report/image_loss_std": 1.6564679145812988, "report/model_loss_mean": 4.761986255645752, "report/model_loss_std": 5.4260430335998535, "report/post_ent_mag": 61.479103088378906, "report/post_ent_max": 61.479103088378906, "report/post_ent_mean": 38.82821273803711, "report/post_ent_min": 19.06008529663086, "report/post_ent_std": 5.15589714050293, "report/prior_ent_mag": 79.79296112060547, "report/prior_ent_max": 79.79296112060547, "report/prior_ent_mean": 44.291015625, "report/prior_ent_min": 22.11920928955078, "report/prior_ent_std": 7.601786136627197, "report/rep_loss_mean": 4.8314032554626465, "report/rep_loss_std": 6.736971855163574, "report/reward_avg": 1.46484375, "report/reward_loss_mean": 0.10009945929050446, "report/reward_loss_std": 0.35064584016799927, "report/reward_max_data": 200.0, "report/reward_max_pred": 183.8363800048828, "report/reward_neg_acc": 0.9427942633628845, "report/reward_neg_loss": 0.01826491579413414, "report/reward_pos_acc": 0.9913042783737183, "report/reward_pos_loss": 0.7469481825828552, "report/reward_pred": 1.3539564609527588, "report/reward_rate": 0.1123046875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0009172696154564619, "eval/cont_loss_std": 0.021013282239437103, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.5503913760185242, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00038014925667084754, "eval/cont_pred": 0.9991216659545898, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.551241874694824, "eval/dyn_loss_std": 9.934338569641113, "eval/image_loss_mean": 4.271245956420898, "eval/image_loss_std": 4.027227401733398, "eval/model_loss_mean": 12.029126167297363, "eval/model_loss_std": 10.11990737915039, "eval/post_ent_mag": 59.61836242675781, "eval/post_ent_max": 59.61836242675781, "eval/post_ent_mean": 39.81835174560547, "eval/post_ent_min": 20.864944458007812, "eval/post_ent_std": 7.075502395629883, "eval/prior_ent_mag": 79.79296112060547, "eval/prior_ent_max": 79.79296112060547, "eval/prior_ent_mean": 46.207000732421875, "eval/prior_ent_min": 21.863811492919922, "eval/prior_ent_std": 10.185293197631836, "eval/rep_loss_mean": 11.551241874694824, "eval/rep_loss_std": 9.934338569641113, "eval/reward_avg": 1.708984375, "eval/reward_loss_mean": 0.826217770576477, "eval/reward_loss_std": 3.144645929336548, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 10.008498191833496, "eval/reward_neg_acc": 0.8928962349891663, "eval/reward_neg_loss": 0.10598760098218918, "eval/reward_pos_acc": 0.47706419229507446, "eval/reward_pos_loss": 6.87218713760376, "eval/reward_pred": 0.6234290599822998, "eval/reward_rate": 0.1064453125, "replay/size": 132045.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.577792640493697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4267966192977435e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7136335372924805e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.36506152153015, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8259923458099365, "timer/env.step_frac": 0.00940852551723087, "timer/env.step_avg": 0.00395797247312316, "timer/env.step_min": 0.0023975372314453125, "timer/env.step_max": 0.01737189292907715, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 183.57249999046326, "timer/replay._sample_frac": 0.6111646243426511, "timer/replay._sample_avg": 0.01606902135770862, "timer/replay._sample_min": 0.0074117183685302734, "timer/replay._sample_max": 0.037519216537475586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.4447147846222, "timer/agent.policy_frac": 0.6640077037399571, "timer/agent.policy_avg": 0.279334334432244, "timer/agent.policy_min": 0.003071308135986328, "timer/agent.policy_max": 0.31659436225891113, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08334159851074219, "timer/dataset_train_frac": 0.00027746768578398146, "timer/dataset_train_avg": 0.00011672492788619354, "timer/dataset_train_min": 6.008148193359375e-05, "timer/dataset_train_max": 0.0002014636993408203, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.00910878181458, "timer/agent.train_frac": 0.3229706820440598, "timer/agent.train_avg": 0.1358670991341941, "timer/agent.train_min": 0.09953427314758301, "timer/agent.train_max": 0.43826746940612793, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49809789657592773, "timer/agent.report_frac": 0.0016583083733266498, "timer/agent.report_avg": 0.24904894828796387, "timer/agent.report_min": 0.09905481338500977, "timer/agent.report_max": 0.39904308319091797, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.556510925292969e-05, "timer/dataset_eval_frac": 2.182847396458259e-07, "timer/dataset_eval_avg": 6.556510925292969e-05, "timer/dataset_eval_min": 6.556510925292969e-05, "timer/dataset_eval_max": 6.556510925292969e-05, "fps": 9.50808755923631}
+{"step": 530412, "episode/length": 656.0, "episode/score": 980.0, "episode/reward_rate": 0.136986301369863}
+{"step": 531288, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.78977796766493, "train/action_min": 0.0, "train/action_std": 2.7729408707883625, "train/actor_opt_grad_norm": 0.007335121067525405, "train/actor_opt_grad_steps": 131365.0, "train/actor_opt_loss": 0.0008641081589817961, "train/adv_mag": 0.623512353334162, "train/adv_max": 0.5890977631012598, "train/adv_mean": 0.0019473788811663123, "train/adv_min": -0.4120047040697601, "train/adv_std": 0.03412831835966143, "train/cont_avg": 0.9987250434027778, "train/cont_loss_mean": 0.00015272035659923903, "train/cont_loss_std": 0.0044471848743173024, "train/cont_neg_acc": 0.9766666674613953, "train/cont_neg_loss": 0.04455461626141784, "train/cont_pos_acc": 0.9999863679210345, "train/cont_pos_loss": 8.43197836971991e-05, "train/cont_pred": 0.9987278290920787, "train/cont_rate": 0.9987250434027778, "train/dyn_loss_mean": 5.04090851214197, "train/dyn_loss_std": 6.8743720518218145, "train/extr_critic_critic_opt_grad_norm": 2.3553974015845194, "train/extr_critic_critic_opt_grad_steps": 131365.0, "train/extr_critic_critic_opt_loss": 1.5573376102579966, "train/extr_critic_mag": 504.05850813123914, "train/extr_critic_max": 504.05850813123914, "train/extr_critic_mean": 187.90707980261908, "train/extr_critic_min": 0.5160903930664062, "train/extr_critic_std": 152.53403769599066, "train/extr_return_normed_mag": 1.2343201554483838, "train/extr_return_normed_max": 1.2343201554483838, "train/extr_return_normed_mean": 0.41652355198231006, "train/extr_return_normed_min": -0.010371351239680533, "train/extr_return_normed_std": 0.34779844350285, "train/extr_return_rate": 0.9392045098874304, "train/extr_return_raw_mag": 549.1969930860731, "train/extr_return_raw_max": 549.1969930860731, "train/extr_return_raw_mean": 188.76497088538275, "train/extr_return_raw_min": 0.5401738485177501, "train/extr_return_raw_std": 153.31954436832004, "train/extr_reward_mag": 186.77901832262674, "train/extr_reward_max": 186.77901832262674, "train/extr_reward_mean": 1.0863457719484966, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.876845998896493, "train/image_loss_mean": 1.840071267551846, "train/image_loss_std": 1.5701387921969097, "train/model_loss_mean": 4.939018421702915, "train/model_loss_std": 5.417164663473765, "train/model_opt_grad_norm": 11.550641404257881, "train/model_opt_grad_steps": 131365.0, "train/model_opt_loss": 4.939018421702915, "train/policy_entropy_mag": 2.1798144777615867, "train/policy_entropy_max": 2.1798144777615867, "train/policy_entropy_mean": 1.1743602222866483, "train/policy_entropy_min": 0.06956383337577184, "train/policy_entropy_std": 0.6154025122523308, "train/policy_logprob_mag": 6.799707445833418, "train/policy_logprob_max": -0.008965803866481615, "train/policy_logprob_mean": -1.173661722905106, "train/policy_logprob_min": -6.799707445833418, "train/policy_logprob_std": 1.0910410930713017, "train/policy_randomness_mag": 0.9920763174692789, "train/policy_randomness_max": 0.9920763174692789, "train/policy_randomness_mean": 0.5344743691384792, "train/policy_randomness_min": 0.03165986476879981, "train/policy_randomness_std": 0.28008174813456005, "train/post_ent_mag": 58.98085408740573, "train/post_ent_max": 58.98085408740573, "train/post_ent_mean": 39.16693560282389, "train/post_ent_min": 21.43519337972005, "train/post_ent_std": 5.598162213961284, "train/prior_ent_mag": 79.72248766157362, "train/prior_ent_max": 79.72248766157362, "train/prior_ent_mean": 44.22533130645752, "train/prior_ent_min": 24.022044049368965, "train/prior_ent_std": 8.276444819238451, "train/rep_loss_mean": 5.04090851214197, "train/rep_loss_std": 6.8743720518218145, "train/reward_avg": 1.3670518663194444, "train/reward_loss_mean": 0.07424931755910318, "train/reward_loss_std": 0.25858995515025324, "train/reward_max_data": 185.27777777777777, "train/reward_max_pred": 155.02575226624808, "train/reward_neg_acc": 0.9652215192715327, "train/reward_neg_loss": 0.010563051628802592, "train/reward_pos_acc": 0.9955452796485689, "train/reward_pos_loss": 0.6470727026462555, "train/reward_pred": 1.2344161106480493, "train/reward_rate": 0.09971788194444445, "train_stats/mean_log_entropy": 0.8863608837127686, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 0.00032859641942195594, "report/cont_loss_std": 0.0103722820058465, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.3320538401603699, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.329288458393421e-06, "report/cont_pred": 0.9992950558662415, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 3.8841147422790527, "report/dyn_loss_std": 6.252684593200684, "report/image_loss_mean": 1.4425709247589111, "report/image_loss_std": 1.3646769523620605, "report/model_loss_mean": 3.838214874267578, "report/model_loss_std": 4.8544464111328125, "report/post_ent_mag": 58.213226318359375, "report/post_ent_max": 58.213226318359375, "report/post_ent_mean": 37.17549133300781, "report/post_ent_min": 20.620567321777344, "report/post_ent_std": 5.1579203605651855, "report/prior_ent_mag": 79.55046081542969, "report/prior_ent_max": 79.55046081542969, "report/prior_ent_mean": 41.371315002441406, "report/prior_ent_min": 21.461307525634766, "report/prior_ent_std": 8.087986946105957, "report/rep_loss_mean": 3.8841147422790527, "report/rep_loss_std": 6.252684593200684, "report/reward_avg": 1.25, "report/reward_loss_mean": 0.06484648585319519, "report/reward_loss_std": 0.21388939023017883, "report/reward_max_data": 200.0, "report/reward_max_pred": 195.1245574951172, "report/reward_neg_acc": 0.9784249663352966, "report/reward_neg_loss": 0.008268836885690689, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6055421829223633, "report/reward_pred": 1.1940944194793701, "report/reward_rate": 0.0947265625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.007810910232365131, "eval/cont_loss_std": 0.24971561133861542, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 7.994807243347168, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.48480102729809e-06, "eval/cont_pred": 0.9999961853027344, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.060613632202148, "eval/dyn_loss_std": 11.487671852111816, "eval/image_loss_mean": 3.9923322200775146, "eval/image_loss_std": 3.9654781818389893, "eval/model_loss_mean": 11.791683197021484, "eval/model_loss_std": 10.776693344116211, "eval/post_ent_mag": 57.175254821777344, "eval/post_ent_max": 57.175254821777344, "eval/post_ent_mean": 39.691070556640625, "eval/post_ent_min": 21.748626708984375, "eval/post_ent_std": 7.065910339355469, "eval/prior_ent_mag": 79.55046081542969, "eval/prior_ent_max": 79.55046081542969, "eval/prior_ent_mean": 46.12998962402344, "eval/prior_ent_min": 23.484405517578125, "eval/prior_ent_std": 9.583028793334961, "eval/rep_loss_mean": 12.060613632202148, "eval/rep_loss_std": 11.487671852111816, "eval/reward_avg": 0.8984375, "eval/reward_loss_mean": 0.5551713705062866, "eval/reward_loss_std": 2.4977223873138428, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 47.711238861083984, "eval/reward_neg_acc": 0.9148935675621033, "eval/reward_neg_loss": 0.12736493349075317, "eval/reward_pos_acc": 0.5952380895614624, "eval/reward_pos_loss": 5.342528820037842, "eval/reward_pred": 0.6345773339271545, "eval/reward_rate": 0.08203125, "replay/size": 132759.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.502660735314634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3920063732051047e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2615041732788, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8402767181396484, "timer/env.step_frac": 0.009459343534429725, "timer/env.step_avg": 0.003977978596834242, "timer/env.step_min": 0.002518177032470703, "timer/env.step_max": 0.017026662826538086, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 179.50204849243164, "timer/replay._sample_frac": 0.5978190543828165, "timer/replay._sample_avg": 0.015712714328819297, "timer/replay._sample_min": 0.007632255554199219, "timer/replay._sample_max": 0.04557371139526367, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.124085187912, "timer/agent.policy_frac": 0.6631688791947131, "timer/agent.policy_avg": 0.27888527337242575, "timer/agent.policy_min": 0.003268003463745117, "timer/agent.policy_max": 0.31313228607177734, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08266234397888184, "timer/dataset_train_frac": 0.0002753011719117279, "timer/dataset_train_avg": 0.0001157735910068373, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.00020313262939453125, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.20783138275146, "timer/agent.train_frac": 0.323743903336518, "timer/agent.train_avg": 0.13614542210469394, "timer/agent.train_min": 0.10056018829345703, "timer/agent.train_max": 0.4278268814086914, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5001077651977539, "timer/agent.report_frac": 0.0016655740354552585, "timer/agent.report_avg": 0.25005388259887695, "timer/agent.report_min": 0.09927105903625488, "timer/agent.report_max": 0.400836706161499, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.079673767089844e-05, "timer/dataset_eval_frac": 2.024792949675396e-07, "timer/dataset_eval_avg": 6.079673767089844e-05, "timer/dataset_eval_min": 6.079673767089844e-05, "timer/dataset_eval_max": 6.079673767089844e-05, "fps": 9.51137872111603}
+{"step": 533032, "episode/length": 654.0, "episode/score": 1660.0, "episode/reward_rate": 0.13893129770992366}
+{"step": 534140, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.76472236740757, "train/action_min": 0.0, "train/action_std": 2.8237835722909845, "train/actor_opt_grad_norm": 0.007459811905635075, "train/actor_opt_grad_steps": 132080.0, "train/actor_opt_loss": 0.000875436913446092, "train/adv_mag": 0.6047048564528076, "train/adv_max": 0.5705825224728651, "train/adv_mean": 0.0018748051689713898, "train/adv_min": -0.4034851384414753, "train/adv_std": 0.03223919789765922, "train/cont_avg": 0.9986245598591549, "train/cont_loss_mean": 0.00014579186487768392, "train/cont_loss_std": 0.004035781353604886, "train/cont_neg_acc": 0.9799382719728682, "train/cont_neg_loss": 0.050379388806263664, "train/cont_pos_acc": 0.9999724357900485, "train/cont_pos_loss": 5.7580396920882264e-05, "train/cont_pred": 0.9986208064455382, "train/cont_rate": 0.9986245598591549, "train/dyn_loss_mean": 4.819826743972134, "train/dyn_loss_std": 6.782236710400649, "train/extr_critic_critic_opt_grad_norm": 2.236028275019686, "train/extr_critic_critic_opt_grad_steps": 132080.0, "train/extr_critic_critic_opt_loss": 1.508269837204839, "train/extr_critic_mag": 502.19439095510563, "train/extr_critic_max": 502.19439095510563, "train/extr_critic_mean": 204.33201233769807, "train/extr_critic_min": 0.40531321310661206, "train/extr_critic_std": 154.9093998653788, "train/extr_return_normed_mag": 1.2366993847027632, "train/extr_return_normed_max": 1.2366993847027632, "train/extr_return_normed_mean": 0.45240151294520203, "train/extr_return_normed_min": -0.010858785321699902, "train/extr_return_normed_std": 0.3519356007307348, "train/extr_return_rate": 0.9347546679872862, "train/extr_return_raw_mag": 551.6518021704445, "train/extr_return_raw_max": 551.6518021704445, "train/extr_return_raw_mean": 205.1601433552487, "train/extr_return_raw_min": 0.4491695891081972, "train/extr_return_raw_std": 155.51297287202217, "train/extr_reward_mag": 198.43592850591097, "train/extr_reward_max": 198.43592850591097, "train/extr_reward_mean": 1.0682362242483756, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.743436766342378, "train/image_loss_mean": 1.753387323567565, "train/image_loss_std": 1.5161062512599246, "train/model_loss_mean": 4.719939272168657, "train/model_loss_std": 5.329855784563951, "train/model_opt_grad_norm": 11.764208471271354, "train/model_opt_grad_steps": 132080.0, "train/model_opt_loss": 4.719939272168657, "train/policy_entropy_mag": 2.1811812864222997, "train/policy_entropy_max": 2.1811812864222997, "train/policy_entropy_mean": 1.1423163791777382, "train/policy_entropy_min": 0.06950663439404796, "train/policy_entropy_std": 0.62485580880877, "train/policy_logprob_mag": 6.8010155919572, "train/policy_logprob_max": -0.00895845231560754, "train/policy_logprob_mean": -1.1424163663891, "train/policy_logprob_min": -6.8010155919572, "train/policy_logprob_std": 1.0949885375063184, "train/policy_randomness_mag": 0.9926983764473821, "train/policy_randomness_max": 0.9926983764473821, "train/policy_randomness_mean": 0.5198905828972937, "train/policy_randomness_min": 0.03163383240011376, "train/policy_randomness_std": 0.2843841322710816, "train/post_ent_mag": 59.183487314573476, "train/post_ent_max": 59.183487314573476, "train/post_ent_mean": 39.001328105657876, "train/post_ent_min": 21.21513920098963, "train/post_ent_std": 5.645526533395472, "train/prior_ent_mag": 79.65179626035018, "train/prior_ent_max": 79.65179626035018, "train/prior_ent_mean": 43.87044831396828, "train/prior_ent_min": 23.375538221547302, "train/prior_ent_std": 8.325552920220604, "train/rep_loss_mean": 4.819826743972134, "train/rep_loss_std": 6.782236710400649, "train/reward_avg": 1.3605853873239437, "train/reward_loss_mean": 0.07451005537115352, "train/reward_loss_std": 0.2607191874527595, "train/reward_max_data": 203.94366197183098, "train/reward_max_pred": 164.5544628761184, "train/reward_neg_acc": 0.9672581049757945, "train/reward_neg_loss": 0.010267328910372207, "train/reward_pos_acc": 0.9946734930427981, "train/reward_pos_loss": 0.6544043564460647, "train/reward_pred": 1.2148124181048972, "train/reward_rate": 0.10007702464788733, "train_stats/mean_log_entropy": 1.087383508682251, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.438837836711173e-08, "report/cont_loss_std": 7.662416692255647e-07, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 5.511982976713625e-07, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.3883186034699975e-08, "report/cont_pred": 0.9990234375, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.319693565368652, "report/dyn_loss_std": 6.503532886505127, "report/image_loss_mean": 2.2253682613372803, "report/image_loss_std": 2.164266347885132, "report/model_loss_mean": 5.501120090484619, "report/model_loss_std": 5.621689796447754, "report/post_ent_mag": 61.982994079589844, "report/post_ent_max": 61.982994079589844, "report/post_ent_mean": 39.982444763183594, "report/post_ent_min": 21.38766860961914, "report/post_ent_std": 5.438145160675049, "report/prior_ent_mag": 79.7657470703125, "report/prior_ent_max": 79.7657470703125, "report/prior_ent_mean": 44.81645202636719, "report/prior_ent_min": 22.865245819091797, "report/prior_ent_std": 8.139265060424805, "report/rep_loss_mean": 5.319693565368652, "report/rep_loss_std": 6.503532886505127, "report/reward_avg": 1.298828125, "report/reward_loss_mean": 0.08393544703722, "report/reward_loss_std": 0.23113839328289032, "report/reward_max_data": 50.0, "report/reward_max_pred": 50.01065444946289, "report/reward_neg_acc": 0.9521690607070923, "report/reward_neg_loss": 0.0126356715336442, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5967234373092651, "report/reward_pred": 1.249355673789978, "report/reward_rate": 0.1220703125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 4.391730499264668e-07, "eval/cont_loss_std": 1.0593151273496915e-05, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 4.601537511916831e-06, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.35104254847829e-07, "eval/cont_pred": 0.9990230202674866, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.34682559967041, "eval/dyn_loss_std": 10.439486503601074, "eval/image_loss_mean": 3.536760091781616, "eval/image_loss_std": 3.5987555980682373, "eval/model_loss_mean": 10.415987014770508, "eval/model_loss_std": 9.645772933959961, "eval/post_ent_mag": 60.234344482421875, "eval/post_ent_max": 60.234344482421875, "eval/post_ent_mean": 39.75543212890625, "eval/post_ent_min": 20.29376220703125, "eval/post_ent_std": 6.933339595794678, "eval/prior_ent_mag": 79.7657470703125, "eval/prior_ent_max": 79.7657470703125, "eval/prior_ent_mean": 46.21729278564453, "eval/prior_ent_min": 22.475788116455078, "eval/prior_ent_std": 10.36094856262207, "eval/rep_loss_mean": 10.34682559967041, "eval/rep_loss_std": 10.439486503601074, "eval/reward_avg": 1.0546875, "eval/reward_loss_mean": 0.6711320281028748, "eval/reward_loss_std": 2.416761636734009, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 49.952430725097656, "eval/reward_neg_acc": 0.8855932354927063, "eval/reward_neg_loss": 0.20100215077400208, "eval/reward_pos_acc": 0.4124999940395355, "eval/reward_pos_loss": 6.218664646148682, "eval/reward_pred": 0.6403643488883972, "eval/reward_rate": 0.078125, "replay/size": 133472.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.485299258880829e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3751075779405249e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7285346984863281e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0926892757416, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8297579288482666, "timer/env.step_frac": 0.009429613016157586, "timer/env.step_avg": 0.003968804949296307, "timer/env.step_min": 0.002502918243408203, "timer/env.step_max": 0.018903732299804688, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.15104579925537, "timer/replay._sample_frac": 0.5936534016513826, "timer/replay._sample_avg": 0.015616325894044124, "timer/replay._sample_min": 0.005449771881103516, "timer/replay._sample_max": 0.048940420150756836, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1694326400756836, "timer/agent.save_frac": 0.0005646010253851923, "timer/agent.save_avg": 0.1694326400756836, "timer/agent.save_min": 0.1694326400756836, "timer/agent.save_max": 0.1694326400756836, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.45984482765198, "timer/agent.policy_frac": 0.6646607930004498, "timer/agent.policy_avg": 0.279747327949021, "timer/agent.policy_min": 0.0034437179565429688, "timer/agent.policy_max": 0.36401844024658203, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08444333076477051, "timer/dataset_train_frac": 0.0002813908295086101, "timer/dataset_train_avg": 0.00011843384398986046, "timer/dataset_train_min": 7.128715515136719e-05, "timer/dataset_train_max": 0.00026917457580566406, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.66343021392822, "timer/agent.train_frac": 0.32211191298002123, "timer/agent.train_avg": 0.13557283339961881, "timer/agent.train_min": 0.09644579887390137, "timer/agent.train_max": 0.4283018112182617, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5040555000305176, "timer/agent.report_frac": 0.0016796660433382427, "timer/agent.report_avg": 0.2520277500152588, "timer/agent.report_min": 0.10472893714904785, "timer/agent.report_max": 0.3993265628814697, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.463859558105469e-05, "timer/dataset_eval_frac": 2.820415111921774e-07, "timer/dataset_eval_avg": 8.463859558105469e-05, "timer/dataset_eval_min": 8.463859558105469e-05, "timer/dataset_eval_max": 8.463859558105469e-05, "fps": 9.503298466591955}
+{"step": 536528, "episode/length": 873.0, "episode/score": 1030.0, "episode/reward_rate": 0.10869565217391304}
+{"step": 536992, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.795006120708627, "train/action_min": 0.0, "train/action_std": 2.8350799889631673, "train/actor_opt_grad_norm": 0.008102250488763544, "train/actor_opt_grad_steps": 132790.0, "train/actor_opt_loss": 0.0010400606529593704, "train/adv_mag": 0.6430362244726906, "train/adv_max": 0.6215706990218498, "train/adv_mean": 0.0022579572246734605, "train/adv_min": -0.39029597795345417, "train/adv_std": 0.0346438097177257, "train/cont_avg": 0.9987621038732394, "train/cont_loss_mean": 0.0003978525002351739, "train/cont_loss_std": 0.011700725186966781, "train/cont_neg_acc": 0.9367283957975882, "train/cont_neg_loss": 0.17298369668688662, "train/cont_pos_acc": 0.9999586520060687, "train/cont_pos_loss": 0.00011318139761649738, "train/cont_pred": 0.9987588197412626, "train/cont_rate": 0.9987621038732394, "train/dyn_loss_mean": 4.990507653061773, "train/dyn_loss_std": 6.743677669847515, "train/extr_critic_critic_opt_grad_norm": 2.4204810572342135, "train/extr_critic_critic_opt_grad_steps": 132790.0, "train/extr_critic_critic_opt_loss": 1.5534468754916124, "train/extr_critic_mag": 509.0657671001596, "train/extr_critic_max": 509.0657671001596, "train/extr_critic_mean": 198.2583344150597, "train/extr_critic_min": 0.1428953661045558, "train/extr_critic_std": 156.5323574442259, "train/extr_return_normed_mag": 1.2725164638438695, "train/extr_return_normed_max": 1.2725164638438695, "train/extr_return_normed_mean": 0.4402268090298478, "train/extr_return_normed_min": -0.010346535540802377, "train/extr_return_normed_std": 0.35619693238970257, "train/extr_return_rate": 0.9391909241676331, "train/extr_return_raw_mag": 567.0261849416813, "train/extr_return_raw_max": 567.0261849416813, "train/extr_return_raw_mean": 199.25641084053146, "train/extr_return_raw_min": 0.16389958279922237, "train/extr_return_raw_std": 157.36780677043217, "train/extr_reward_mag": 203.74913981263066, "train/extr_reward_max": 203.74913981263066, "train/extr_reward_mean": 1.1084013266462676, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.221048287942376, "train/image_loss_mean": 1.7961063603280296, "train/image_loss_std": 1.5204796505645968, "train/model_loss_mean": 4.865943922123439, "train/model_loss_std": 5.309994704286817, "train/model_opt_grad_norm": 12.208058988544304, "train/model_opt_grad_steps": 132790.0, "train/model_opt_loss": 4.865943922123439, "train/policy_entropy_mag": 2.181530683812961, "train/policy_entropy_max": 2.181530683812961, "train/policy_entropy_mean": 1.1458106737741283, "train/policy_entropy_min": 0.06956222380550814, "train/policy_entropy_std": 0.6292137369303636, "train/policy_logprob_mag": 6.80048131942749, "train/policy_logprob_max": -0.008965677148859265, "train/policy_logprob_mean": -1.1462055377557243, "train/policy_logprob_min": -6.80048131942749, "train/policy_logprob_std": 1.0977209537801609, "train/policy_randomness_mag": 0.9928573957631286, "train/policy_randomness_max": 0.9928573957631286, "train/policy_randomness_mean": 0.5214809007208112, "train/policy_randomness_min": 0.031659132158252556, "train/policy_randomness_std": 0.2863675101961888, "train/post_ent_mag": 59.105744482765736, "train/post_ent_max": 59.105744482765736, "train/post_ent_mean": 38.95957124736947, "train/post_ent_min": 21.31031930950326, "train/post_ent_std": 5.783349775932204, "train/prior_ent_mag": 79.58455195897062, "train/prior_ent_max": 79.58455195897062, "train/prior_ent_mean": 43.91814449471487, "train/prior_ent_min": 23.639423558409785, "train/prior_ent_std": 8.404206289371974, "train/rep_loss_mean": 4.990507653061773, "train/rep_loss_std": 6.743677669847515, "train/reward_avg": 1.416565801056338, "train/reward_loss_mean": 0.07513518258929253, "train/reward_loss_std": 0.26364366689198454, "train/reward_max_data": 208.8732394366197, "train/reward_max_pred": 175.18604566009952, "train/reward_neg_acc": 0.9671200715320211, "train/reward_neg_loss": 0.009670865902362364, "train/reward_pos_acc": 0.9955292159402874, "train/reward_pos_loss": 0.6532294783793705, "train/reward_pred": 1.2652231958550466, "train/reward_rate": 0.10190636003521127, "train_stats/mean_log_entropy": 1.1258060932159424, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.780124512151815e-05, "report/cont_loss_std": 0.0004749614745378494, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.358182246098295e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7795595340430737e-05, "report/cont_pred": 0.9990057945251465, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.717262268066406, "report/dyn_loss_std": 6.443080425262451, "report/image_loss_mean": 1.7473015785217285, "report/image_loss_std": 2.025096893310547, "report/model_loss_mean": 4.635866165161133, "report/model_loss_std": 5.625301837921143, "report/post_ent_mag": 62.00929260253906, "report/post_ent_max": 62.00929260253906, "report/post_ent_mean": 37.85524368286133, "report/post_ent_min": 20.536020278930664, "report/post_ent_std": 7.217230796813965, "report/prior_ent_mag": 79.46260833740234, "report/prior_ent_max": 79.46260833740234, "report/prior_ent_mean": 42.61017608642578, "report/prior_ent_min": 21.963470458984375, "report/prior_ent_std": 10.286565780639648, "report/rep_loss_mean": 4.717262268066406, "report/rep_loss_std": 6.443080425262451, "report/reward_avg": 1.337890625, "report/reward_loss_mean": 0.0581895187497139, "report/reward_loss_std": 0.2643960416316986, "report/reward_max_data": 200.0, "report/reward_max_pred": 160.62240600585938, "report/reward_neg_acc": 0.977707028388977, "report/reward_neg_loss": 0.004307663068175316, "report/reward_pos_acc": 0.9878048300743103, "report/reward_pos_loss": 0.6771737933158875, "report/reward_pred": 1.1449785232543945, "report/reward_rate": 0.080078125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.3504624973847967e-07, "eval/cont_loss_std": 4.050622919749003e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3504624973847967e-07, "eval/cont_pred": 0.9999998807907104, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.878274917602539, "eval/dyn_loss_std": 9.499710083007812, "eval/image_loss_mean": 5.589153289794922, "eval/image_loss_std": 3.8877322673797607, "eval/model_loss_mean": 14.918074607849121, "eval/model_loss_std": 9.944796562194824, "eval/post_ent_mag": 56.05620193481445, "eval/post_ent_max": 56.05620193481445, "eval/post_ent_mean": 42.6916389465332, "eval/post_ent_min": 22.57996368408203, "eval/post_ent_std": 6.134428977966309, "eval/prior_ent_mag": 79.46260833740234, "eval/prior_ent_max": 79.46260833740234, "eval/prior_ent_mean": 50.51459503173828, "eval/prior_ent_min": 23.146312713623047, "eval/prior_ent_std": 8.167675971984863, "eval/rep_loss_mean": 13.878274917602539, "eval/rep_loss_std": 9.499710083007812, "eval/reward_avg": 1.4453125, "eval/reward_loss_mean": 1.0019567012786865, "eval/reward_loss_std": 3.624708890914917, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 41.820220947265625, "eval/reward_neg_acc": 0.8586609959602356, "eval/reward_neg_loss": 0.17030906677246094, "eval/reward_pos_acc": 0.21686747670173645, "eval/reward_pos_loss": 10.430636405944824, "eval/reward_pred": 0.4894641041755676, "eval/reward_rate": 0.0810546875, "replay/size": 134185.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.579596649212724e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4244506937591425e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5497207641601562e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.9842224121094, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8543074131011963, "timer/env.step_frac": 0.009514858448722126, "timer/env.step_avg": 0.004003236203507989, "timer/env.step_min": 0.002421855926513672, "timer/env.step_max": 0.019119739532470703, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 186.57757377624512, "timer/replay._sample_frac": 0.6219579559085291, "timer/replay._sample_avg": 0.016354976663415597, "timer/replay._sample_min": 0.007982730865478516, "timer/replay._sample_max": 0.041597843170166016, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.18161296844482, "timer/agent.policy_frac": 0.6639736295691414, "timer/agent.policy_avg": 0.27935710093751026, "timer/agent.policy_min": 0.0034637451171875, "timer/agent.policy_max": 0.3144197463989258, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08542132377624512, "timer/dataset_train_frac": 0.0002847527216244588, "timer/dataset_train_avg": 0.00011980550319248965, "timer/dataset_train_min": 6.771087646484375e-05, "timer/dataset_train_max": 0.0012423992156982422, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.84775400161743, "timer/agent.train_frac": 0.3228428256089111, "timer/agent.train_avg": 0.13583135203592908, "timer/agent.train_min": 0.09781026840209961, "timer/agent.train_max": 0.4375636577606201, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5007116794586182, "timer/agent.report_frac": 0.0016691267141735054, "timer/agent.report_avg": 0.2503558397293091, "timer/agent.report_min": 0.09967255592346191, "timer/agent.report_max": 0.40103912353515625, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.72747802734375e-05, "timer/dataset_eval_frac": 3.242663213794101e-07, "timer/dataset_eval_avg": 9.72747802734375e-05, "timer/dataset_eval_min": 9.72747802734375e-05, "timer/dataset_eval_max": 9.72747802734375e-05, "fps": 9.506806833172138}
+{"step": 539848, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.739158630371094, "train/action_min": 0.0, "train/action_std": 2.8705082535743713, "train/actor_opt_grad_norm": 0.008123525741717054, "train/actor_opt_grad_steps": 133505.0, "train/actor_opt_loss": 0.0008012262343047243, "train/adv_mag": 0.5967546233700382, "train/adv_max": 0.5623022789756457, "train/adv_mean": 0.001894759831278255, "train/adv_min": -0.4239728730171919, "train/adv_std": 0.03416910736511151, "train/cont_avg": 0.9985080295138888, "train/cont_loss_mean": 0.0003368349464044012, "train/cont_loss_std": 0.009592069090672957, "train/cont_neg_acc": 0.941520469230518, "train/cont_neg_loss": 0.11638681710198932, "train/cont_pos_acc": 0.9999727805455526, "train/cont_pos_loss": 9.370918392617413e-05, "train/cont_pred": 0.9985322033365568, "train/cont_rate": 0.9985080295138888, "train/dyn_loss_mean": 4.892564869589275, "train/dyn_loss_std": 6.810454196400112, "train/extr_critic_critic_opt_grad_norm": 2.3214656081464558, "train/extr_critic_critic_opt_grad_steps": 133505.0, "train/extr_critic_critic_opt_loss": 1.5675430612431631, "train/extr_critic_mag": 514.7869453430176, "train/extr_critic_max": 514.7869453430176, "train/extr_critic_mean": 198.68812285529242, "train/extr_critic_min": 0.26379119356473285, "train/extr_critic_std": 157.19475004408093, "train/extr_return_normed_mag": 1.2273981885777578, "train/extr_return_normed_max": 1.2273981885777578, "train/extr_return_normed_mean": 0.43995562195777893, "train/extr_return_normed_min": -0.009028562473961048, "train/extr_return_normed_std": 0.3565015991528829, "train/extr_return_rate": 0.9395553527606858, "train/extr_return_raw_mag": 548.7113990783691, "train/extr_return_raw_max": 548.7113990783691, "train/extr_return_raw_mean": 199.5282448662652, "train/extr_return_raw_min": 0.48616573703475296, "train/extr_return_raw_std": 158.05953566233316, "train/extr_reward_mag": 192.89754809273614, "train/extr_reward_max": 192.89754809273614, "train/extr_reward_mean": 1.096145166291131, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.965880241658953, "train/image_loss_mean": 1.7688934637440576, "train/image_loss_std": 1.5540623697969649, "train/model_loss_mean": 4.78002326687177, "train/model_loss_std": 5.373896386888292, "train/model_opt_grad_norm": 11.510182314448887, "train/model_opt_grad_steps": 133505.0, "train/model_opt_loss": 4.78002326687177, "train/policy_entropy_mag": 2.1796841753853693, "train/policy_entropy_max": 2.1796841753853693, "train/policy_entropy_mean": 1.1474039662215445, "train/policy_entropy_min": 0.0696770782685942, "train/policy_entropy_std": 0.6302319301499261, "train/policy_logprob_mag": 6.800586415661706, "train/policy_logprob_max": -0.00898299714188195, "train/policy_logprob_mean": -1.147436295946439, "train/policy_logprob_min": -6.800586415661706, "train/policy_logprob_std": 1.0978089653783374, "train/policy_randomness_mag": 0.9920170141590966, "train/policy_randomness_max": 0.9920170141590966, "train/policy_randomness_mean": 0.5222060481707255, "train/policy_randomness_min": 0.03171140503966146, "train/policy_randomness_std": 0.28683090748058426, "train/post_ent_mag": 59.26638184653388, "train/post_ent_max": 59.26638184653388, "train/post_ent_mean": 38.933886686960854, "train/post_ent_min": 21.843941026263767, "train/post_ent_std": 5.787027504709032, "train/prior_ent_mag": 79.62260256873236, "train/prior_ent_max": 79.62260256873236, "train/prior_ent_mean": 43.89999919467502, "train/prior_ent_min": 23.79507401254442, "train/prior_ent_std": 8.48826277256012, "train/rep_loss_mean": 4.892564869589275, "train/rep_loss_std": 6.810454196400112, "train/reward_avg": 1.3802083333333333, "train/reward_loss_mean": 0.0752540264899532, "train/reward_loss_std": 0.2647848390042782, "train/reward_max_data": 175.41666666666666, "train/reward_max_pred": 150.85025356875525, "train/reward_neg_acc": 0.9667893010709021, "train/reward_neg_loss": 0.01004533580918279, "train/reward_pos_acc": 0.9950556680560112, "train/reward_pos_loss": 0.6590583754910363, "train/reward_pred": 1.2572617439760103, "train/reward_rate": 0.10120985243055555, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4925510072316683e-07, "report/cont_loss_std": 2.95645190817595e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 2.801453547363053e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.4666252923234424e-07, "report/cont_pred": 0.9990233182907104, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.683752059936523, "report/dyn_loss_std": 6.813376426696777, "report/image_loss_mean": 2.131755828857422, "report/image_loss_std": 1.6730742454528809, "report/model_loss_mean": 5.628121376037598, "report/model_loss_std": 5.452212333679199, "report/post_ent_mag": 59.50950241088867, "report/post_ent_max": 59.50950241088867, "report/post_ent_mean": 38.79124450683594, "report/post_ent_min": 19.582223892211914, "report/post_ent_std": 5.504168510437012, "report/prior_ent_mag": 79.48845672607422, "report/prior_ent_max": 79.48845672607422, "report/prior_ent_mean": 44.718685150146484, "report/prior_ent_min": 23.628108978271484, "report/prior_ent_std": 8.204818725585938, "report/rep_loss_mean": 5.683752059936523, "report/rep_loss_std": 6.813376426696777, "report/reward_avg": 2.470703125, "report/reward_loss_mean": 0.0861147791147232, "report/reward_loss_std": 0.26116591691970825, "report/reward_max_data": 800.0, "report/reward_max_pred": 799.5384521484375, "report/reward_neg_acc": 0.9544444680213928, "report/reward_neg_loss": 0.010228957049548626, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6368989944458008, "report/reward_pred": 2.3731331825256348, "report/reward_rate": 0.12109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.001179576967842877, "eval/cont_loss_std": 0.03760547563433647, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0034063851926475763, "eval/cont_pos_acc": 0.9990224838256836, "eval/cont_pos_loss": 0.0011774003505706787, "eval/cont_pred": 0.9983426332473755, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.617423057556152, "eval/dyn_loss_std": 8.751689910888672, "eval/image_loss_mean": 4.752388954162598, "eval/image_loss_std": 4.015161991119385, "eval/model_loss_mean": 12.008151054382324, "eval/model_loss_std": 9.300948143005371, "eval/post_ent_mag": 59.70777893066406, "eval/post_ent_max": 59.70777893066406, "eval/post_ent_mean": 40.59006118774414, "eval/post_ent_min": 21.238563537597656, "eval/post_ent_std": 5.7398457527160645, "eval/prior_ent_mag": 79.48845672607422, "eval/prior_ent_max": 79.48845672607422, "eval/prior_ent_mean": 46.739105224609375, "eval/prior_ent_min": 23.804218292236328, "eval/prior_ent_std": 8.163976669311523, "eval/rep_loss_mean": 10.617423057556152, "eval/rep_loss_std": 8.751689910888672, "eval/reward_avg": 1.25, "eval/reward_loss_mean": 0.8841286301612854, "eval/reward_loss_std": 3.057016372680664, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 48.264095306396484, "eval/reward_neg_acc": 0.8634361028671265, "eval/reward_neg_loss": 0.1925664246082306, "eval/reward_pos_acc": 0.47413793206214905, "eval/reward_pos_loss": 6.297391891479492, "eval/reward_pred": 0.8467319011688232, "eval/reward_rate": 0.11328125, "replay/size": 134899.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.331026071927795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3917768034948354e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.430511474609375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.1911005973816, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8192405700683594, "timer/env.step_frac": 0.00939148617150228, "timer/env.step_avg": 0.003948516204577534, "timer/env.step_min": 0.0024023056030273438, "timer/env.step_max": 0.007222414016723633, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 179.30824875831604, "timer/replay._sample_frac": 0.5973136725289052, "timer/replay._sample_avg": 0.015695750066379206, "timer/replay._sample_min": 0.008017301559448242, "timer/replay._sample_max": 0.04681205749511719, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.17398715019226, "timer/agent.policy_frac": 0.663490645638179, "timer/agent.policy_avg": 0.27895516407589954, "timer/agent.policy_min": 0.0034303665161132812, "timer/agent.policy_max": 0.31398916244506836, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08245158195495605, "timer/dataset_train_frac": 0.0002746636452275802, "timer/dataset_train_avg": 0.00011547840609937823, "timer/dataset_train_min": 6.413459777832031e-05, "timer/dataset_train_max": 0.00019931793212890625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.12539434432983, "timer/agent.train_frac": 0.3235452155345374, "timer/agent.train_avg": 0.13602996406768883, "timer/agent.train_min": 0.0985710620880127, "timer/agent.train_max": 0.42591190338134766, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5022127628326416, "timer/agent.report_frac": 0.001672976853188639, "timer/agent.report_avg": 0.2511063814163208, "timer/agent.report_min": 0.09908056259155273, "timer/agent.report_max": 0.40313220024108887, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.1948089599609375e-05, "timer/dataset_eval_frac": 1.0642583852763302e-07, "timer/dataset_eval_avg": 3.1948089599609375e-05, "timer/dataset_eval_min": 3.1948089599609375e-05, "timer/dataset_eval_max": 3.1948089599609375e-05, "fps": 9.513573042373697}
+{"step": 540004, "episode/length": 868.0, "episode/score": 1530.0, "episode/reward_rate": 0.1001150747986191}
+{"step": 542700, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.744805994168134, "train/action_min": 0.0, "train/action_std": 2.8597374398943405, "train/actor_opt_grad_norm": 0.008175096192567701, "train/actor_opt_grad_steps": 134220.0, "train/actor_opt_loss": 0.0007654592528896001, "train/adv_mag": 0.7119262749460381, "train/adv_max": 0.672409187949879, "train/adv_mean": 0.0020376378642265377, "train/adv_min": -0.45253515075629863, "train/adv_std": 0.03652627036814958, "train/cont_avg": 0.9984870158450704, "train/cont_loss_mean": 0.0002975418645564794, "train/cont_loss_std": 0.007259616592120634, "train/cont_neg_acc": 0.956140350877193, "train/cont_neg_loss": 0.0966933344103928, "train/cont_pos_acc": 0.9999448455555339, "train/cont_pos_loss": 0.00014123864376921997, "train/cont_pred": 0.9984676023604164, "train/cont_rate": 0.9984870158450704, "train/dyn_loss_mean": 4.862167764717425, "train/dyn_loss_std": 6.7887363971119195, "train/extr_critic_critic_opt_grad_norm": 2.3992323640366675, "train/extr_critic_critic_opt_grad_steps": 134220.0, "train/extr_critic_critic_opt_loss": 1.5302927930590133, "train/extr_critic_mag": 531.1345803704061, "train/extr_critic_max": 531.1345803704061, "train/extr_critic_mean": 194.56960995096557, "train/extr_critic_min": 0.15287621927932954, "train/extr_critic_std": 157.37852746667997, "train/extr_return_normed_mag": 1.342982656519178, "train/extr_return_normed_max": 1.342982656519178, "train/extr_return_normed_mean": 0.42811037579052885, "train/extr_return_normed_min": -0.009131634366062378, "train/extr_return_normed_std": 0.35508272408599584, "train/extr_return_rate": 0.9297810809713014, "train/extr_return_raw_mag": 604.0656368631712, "train/extr_return_raw_max": 604.0656368631712, "train/extr_return_raw_mean": 195.479741271113, "train/extr_return_raw_min": 0.22991492126301394, "train/extr_return_raw_std": 158.5638443852814, "train/extr_reward_mag": 224.44163185441997, "train/extr_reward_max": 224.44163185441997, "train/extr_reward_mean": 1.0550469563040934, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.261526903636019, "train/image_loss_mean": 1.766101509752408, "train/image_loss_std": 1.5264077270534677, "train/model_loss_mean": 4.754596122553651, "train/model_loss_std": 5.341794202025508, "train/model_opt_grad_norm": 11.256664423875407, "train/model_opt_grad_steps": 134220.0, "train/model_opt_loss": 4.754596122553651, "train/policy_entropy_mag": 2.181529149203233, "train/policy_entropy_max": 2.181529149203233, "train/policy_entropy_mean": 1.1621736279675658, "train/policy_entropy_min": 0.06961515556338807, "train/policy_entropy_std": 0.6254911766925328, "train/policy_logprob_mag": 6.799618378491469, "train/policy_logprob_max": -0.008973441519577739, "train/policy_logprob_mean": -1.161501493252499, "train/policy_logprob_min": -6.799618378491469, "train/policy_logprob_std": 1.094511524052687, "train/policy_randomness_mag": 0.9928566947789259, "train/policy_randomness_max": 0.9928566947789259, "train/policy_randomness_mean": 0.5289280108163055, "train/policy_randomness_min": 0.03168322229889077, "train/policy_randomness_std": 0.28467329853857065, "train/post_ent_mag": 59.7981330441757, "train/post_ent_max": 59.7981330441757, "train/post_ent_mean": 38.86623549125564, "train/post_ent_min": 21.366449114302515, "train/post_ent_std": 5.762230550739127, "train/prior_ent_mag": 79.689282269545, "train/prior_ent_max": 79.689282269545, "train/prior_ent_mean": 43.76675812627228, "train/prior_ent_min": 23.366474232203522, "train/prior_ent_std": 8.440573289360799, "train/rep_loss_mean": 4.862167764717425, "train/rep_loss_std": 6.7887363971119195, "train/reward_avg": 1.3528829225352113, "train/reward_loss_mean": 0.0708964350567737, "train/reward_loss_std": 0.2615486139982519, "train/reward_max_data": 229.1549295774648, "train/reward_max_pred": 176.698466985998, "train/reward_neg_acc": 0.9688509467621924, "train/reward_neg_loss": 0.00905145976272687, "train/reward_pos_acc": 0.9942153180149239, "train/reward_pos_loss": 0.6646399153790004, "train/reward_pred": 1.1846246904050801, "train/reward_rate": 0.09419014084507042, "train_stats/mean_log_entropy": 1.138094425201416, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 1.758613325364422e-05, "report/cont_loss_std": 0.00040595821337774396, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 8.150871053658193e-07, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.7618951460462995e-05, "report/cont_pred": 0.998029351234436, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 3.762932062149048, "report/dyn_loss_std": 6.727061748504639, "report/image_loss_mean": 1.314963936805725, "report/image_loss_std": 1.2699004411697388, "report/model_loss_mean": 3.6384928226470947, "report/model_loss_std": 5.036593437194824, "report/post_ent_mag": 61.013275146484375, "report/post_ent_max": 61.013275146484375, "report/post_ent_mean": 37.89976119995117, "report/post_ent_min": 20.660879135131836, "report/post_ent_std": 5.291458606719971, "report/prior_ent_mag": 79.7585678100586, "report/prior_ent_max": 79.7585678100586, "report/prior_ent_mean": 41.622291564941406, "report/prior_ent_min": 24.69355583190918, "report/prior_ent_std": 7.937514305114746, "report/rep_loss_mean": 3.762932062149048, "report/rep_loss_std": 6.727061748504639, "report/reward_avg": 1.5234375, "report/reward_loss_mean": 0.06575196236371994, "report/reward_loss_std": 0.21366985142230988, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.06561279296875, "report/reward_neg_acc": 0.9749454855918884, "report/reward_neg_loss": 0.004224838223308325, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5986000895500183, "report/reward_pred": 1.2735875844955444, "report/reward_rate": 0.103515625, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 2.1523723603422695e-07, "eval/cont_loss_std": 2.6910547603620216e-06, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 6.339180254144594e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.5348105364410003e-07, "eval/cont_pred": 0.9990233778953552, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 9.76256275177002, "eval/dyn_loss_std": 10.74974250793457, "eval/image_loss_mean": 3.8153223991394043, "eval/image_loss_std": 4.471384048461914, "eval/model_loss_mean": 10.089132308959961, "eval/model_loss_std": 10.70699691772461, "eval/post_ent_mag": 60.448509216308594, "eval/post_ent_max": 60.448509216308594, "eval/post_ent_mean": 38.40818786621094, "eval/post_ent_min": 20.27045440673828, "eval/post_ent_std": 6.888336181640625, "eval/prior_ent_mag": 79.7585678100586, "eval/prior_ent_max": 79.7585678100586, "eval/prior_ent_mean": 44.16720199584961, "eval/prior_ent_min": 21.257137298583984, "eval/prior_ent_std": 10.94743537902832, "eval/rep_loss_mean": 9.76256275177002, "eval/rep_loss_std": 10.74974250793457, "eval/reward_avg": 1.220703125, "eval/reward_loss_mean": 0.41627126932144165, "eval/reward_loss_std": 1.9452401399612427, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.97816467285156, "eval/reward_neg_acc": 0.9349240660667419, "eval/reward_neg_loss": 0.07266122847795486, "eval/reward_pos_acc": 0.7352941632270813, "eval/reward_pos_loss": 3.5222370624542236, "eval/reward_pred": 0.806861400604248, "eval/reward_rate": 0.099609375, "replay/size": 135612.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.4154121859043545e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3397460565660646e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.475214958190918e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0344524383545, "timer/env.step_count": 713.0, "timer/env.step_total": 2.824096202850342, "timer/env.step_frac": 0.009412573055857926, "timer/env.step_avg": 0.003960864239621798, "timer/env.step_min": 0.0023186206817626953, "timer/env.step_max": 0.025808095932006836, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 174.47695446014404, "timer/replay._sample_frac": 0.581523065241957, "timer/replay._sample_avg": 0.015294263189002809, "timer/replay._sample_min": 0.007559537887573242, "timer/replay._sample_max": 0.030802249908447266, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.2785472869873047, "timer/agent.save_frac": 0.00092838433961025, "timer/agent.save_avg": 0.2785472869873047, "timer/agent.save_min": 0.2785472869873047, "timer/agent.save_max": 0.2785472869873047, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.39812064170837, "timer/agent.policy_frac": 0.6645840803321645, "timer/agent.policy_avg": 0.2796607582632656, "timer/agent.policy_min": 0.0032279491424560547, "timer/agent.policy_max": 0.38693666458129883, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08116960525512695, "timer/dataset_train_frac": 0.00027053428229814434, "timer/dataset_train_avg": 0.00011384236361167876, "timer/dataset_train_min": 6.508827209472656e-05, "timer/dataset_train_max": 0.0002918243408203125, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.69373059272766, "timer/agent.train_frac": 0.3222754247284135, "timer/agent.train_avg": 0.13561533042458299, "timer/agent.train_min": 0.09942197799682617, "timer/agent.train_max": 0.4253227710723877, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5008089542388916, "timer/agent.report_frac": 0.0016691714907033502, "timer/agent.report_avg": 0.2504044771194458, "timer/agent.report_min": 0.0992887020111084, "timer/agent.report_max": 0.4015202522277832, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.628036499023438e-05, "timer/dataset_eval_frac": 2.209091804343784e-07, "timer/dataset_eval_avg": 6.628036499023438e-05, "timer/dataset_eval_min": 6.628036499023438e-05, "timer/dataset_eval_max": 6.628036499023438e-05, "fps": 9.505294134293285}
+{"step": 542976, "episode/length": 742.0, "episode/score": 1040.0, "episode/reward_rate": 0.10901749663526245}
+{"step": 545556, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.733536841164173, "train/action_min": 0.0, "train/action_std": 2.799439826481779, "train/actor_opt_grad_norm": 0.008613113084362007, "train/actor_opt_grad_steps": 134930.0, "train/actor_opt_loss": 0.000850831513354267, "train/adv_mag": 0.6753051856034239, "train/adv_max": 0.6219949243773877, "train/adv_mean": 0.00195817042809645, "train/adv_min": -0.4319697641570803, "train/adv_std": 0.03557413826945802, "train/cont_avg": 0.9985832966549296, "train/cont_loss_mean": 0.0002562942871194577, "train/cont_loss_std": 0.007379542802767156, "train/cont_neg_acc": 0.9413580254272178, "train/cont_neg_loss": 0.12287277961582979, "train/cont_pos_acc": 0.9999862027839875, "train/cont_pos_loss": 8.17233036970588e-05, "train/cont_pred": 0.9986087788998241, "train/cont_rate": 0.9985832966549296, "train/dyn_loss_mean": 5.139859864409541, "train/dyn_loss_std": 6.862541165150387, "train/extr_critic_critic_opt_grad_norm": 2.376236502553376, "train/extr_critic_critic_opt_grad_steps": 134930.0, "train/extr_critic_critic_opt_loss": 1.5690202561902329, "train/extr_critic_mag": 519.4928236410651, "train/extr_critic_max": 519.4928236410651, "train/extr_critic_mean": 197.11966329225353, "train/extr_critic_min": 0.6403036654835016, "train/extr_critic_std": 158.04004572478817, "train/extr_return_normed_mag": 1.2692061813784317, "train/extr_return_normed_max": 1.2692061813784317, "train/extr_return_normed_mean": 0.4293086721863545, "train/extr_return_normed_min": -0.007894663466468558, "train/extr_return_normed_std": 0.3528497399578632, "train/extr_return_rate": 0.9382281068345191, "train/extr_return_raw_mag": 576.6758637764085, "train/extr_return_raw_max": 576.6758637764085, "train/extr_return_raw_mean": 198.00271595699687, "train/extr_return_raw_min": 0.9053423570838558, "train/extr_return_raw_std": 159.0746783404283, "train/extr_reward_mag": 231.5675077169714, "train/extr_reward_max": 231.5675077169714, "train/extr_reward_mean": 1.1353407594519602, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.878918412705542, "train/image_loss_mean": 1.8126756926657448, "train/image_loss_std": 1.5805588918672482, "train/model_loss_mean": 4.974682025506463, "train/model_loss_std": 5.4257171892784015, "train/model_opt_grad_norm": 11.83687062330649, "train/model_opt_grad_steps": 134930.0, "train/model_opt_loss": 4.974682025506463, "train/policy_entropy_mag": 2.1806983914173825, "train/policy_entropy_max": 2.1806983914173825, "train/policy_entropy_mean": 1.140678152232103, "train/policy_entropy_min": 0.06954149345696813, "train/policy_entropy_std": 0.6189904825788148, "train/policy_logprob_mag": 6.799863291458345, "train/policy_logprob_max": -0.00896245451040671, "train/policy_logprob_mean": -1.1401552902141088, "train/policy_logprob_min": -6.799863291458345, "train/policy_logprob_std": 1.0919338548687143, "train/policy_randomness_mag": 0.9924786023690667, "train/policy_randomness_max": 0.9924786023690667, "train/policy_randomness_mean": 0.5191449963710677, "train/policy_randomness_min": 0.031649697519524, "train/policy_randomness_std": 0.2817147063537383, "train/post_ent_mag": 59.28602336829817, "train/post_ent_max": 59.28602336829817, "train/post_ent_mean": 39.042275173563354, "train/post_ent_min": 21.138019131942535, "train/post_ent_std": 5.717047778653427, "train/prior_ent_mag": 79.5840673312335, "train/prior_ent_max": 79.5840673312335, "train/prior_ent_mean": 44.10772393454968, "train/prior_ent_min": 23.243590207167074, "train/prior_ent_std": 8.426126177881805, "train/rep_loss_mean": 5.139859864409541, "train/rep_loss_std": 6.862541165150387, "train/reward_avg": 1.456728653169014, "train/reward_loss_mean": 0.0778341067718788, "train/reward_loss_std": 0.27288860292501854, "train/reward_max_data": 244.92957746478874, "train/reward_max_pred": 209.75079535094784, "train/reward_neg_acc": 0.9646317790931379, "train/reward_neg_loss": 0.010827347226309734, "train/reward_pos_acc": 0.993581023014767, "train/reward_pos_loss": 0.6656620091115925, "train/reward_pred": 1.2999846162930342, "train/reward_rate": 0.10215393926056338, "train_stats/mean_log_entropy": 1.2640714645385742, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.39543717586821e-08, "report/cont_loss_std": 5.643410077027511e-07, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.39543717586821e-08, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.641480445861816, "report/dyn_loss_std": 6.623392105102539, "report/image_loss_mean": 1.63762629032135, "report/image_loss_std": 1.2204185724258423, "report/model_loss_mean": 4.508254528045654, "report/model_loss_std": 4.941606044769287, "report/post_ent_mag": 59.10052490234375, "report/post_ent_max": 59.10052490234375, "report/post_ent_mean": 38.76266098022461, "report/post_ent_min": 19.411897659301758, "report/post_ent_std": 5.879659175872803, "report/prior_ent_mag": 79.78043365478516, "report/prior_ent_max": 79.78043365478516, "report/prior_ent_mean": 43.61103820800781, "report/prior_ent_min": 21.637664794921875, "report/prior_ent_std": 8.543267250061035, "report/rep_loss_mean": 4.641480445861816, "report/rep_loss_std": 6.623392105102539, "report/reward_avg": 1.640625, "report/reward_loss_mean": 0.08573990315198898, "report/reward_loss_std": 0.2751600444316864, "report/reward_max_data": 200.0, "report/reward_max_pred": 195.84156799316406, "report/reward_neg_acc": 0.9666666984558105, "report/reward_neg_loss": 0.007860677316784859, "report/reward_pos_acc": 0.9919354319572449, "report/reward_pos_loss": 0.6509923338890076, "report/reward_pred": 1.5167882442474365, "report/reward_rate": 0.12109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.002917582169175148, "eval/cont_loss_std": 0.07206447422504425, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.004889716859906912, "eval/cont_pos_acc": 0.9980430603027344, "eval/cont_pos_loss": 0.0029137227684259415, "eval/cont_pred": 0.9966346025466919, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 13.053707122802734, "eval/dyn_loss_std": 9.446271896362305, "eval/image_loss_mean": 5.592240333557129, "eval/image_loss_std": 4.4403886795043945, "eval/model_loss_mean": 14.631093978881836, "eval/model_loss_std": 10.138867378234863, "eval/post_ent_mag": 57.36237716674805, "eval/post_ent_max": 57.36237716674805, "eval/post_ent_mean": 43.127044677734375, "eval/post_ent_min": 23.268173217773438, "eval/post_ent_std": 5.937334060668945, "eval/prior_ent_mag": 79.78043365478516, "eval/prior_ent_max": 79.78043365478516, "eval/prior_ent_mean": 50.70143508911133, "eval/prior_ent_min": 25.94417953491211, "eval/prior_ent_std": 8.047408103942871, "eval/rep_loss_mean": 13.053707122802734, "eval/rep_loss_std": 9.446271896362305, "eval/reward_avg": 1.708984375, "eval/reward_loss_mean": 1.2037112712860107, "eval/reward_loss_std": 3.521207809448242, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.97536849975586, "eval/reward_neg_acc": 0.8490990996360779, "eval/reward_neg_loss": 0.2654847800731659, "eval/reward_pos_acc": 0.3970588147640228, "eval/reward_pos_loss": 7.329779148101807, "eval/reward_pred": 0.8903324604034424, "eval/reward_rate": 0.1328125, "replay/size": 136326.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.488970032593115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.388896747129638e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.385807991027832e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.11310505867004, "timer/env.step_count": 714.0, "timer/env.step_total": 2.829359769821167, "timer/env.step_frac": 0.009427644851657, "timer/env.step_avg": 0.0039626887532509345, "timer/env.step_min": 0.00217437744140625, "timer/env.step_max": 0.02478933334350586, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 179.47452211380005, "timer/replay._sample_frac": 0.5980229423127458, "timer/replay._sample_avg": 0.015710304806880255, "timer/replay._sample_min": 0.007679939270019531, "timer/replay._sample_max": 0.03807520866394043, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.39070677757263, "timer/agent.policy_frac": 0.6643852048333349, "timer/agent.policy_avg": 0.279258692965788, "timer/agent.policy_min": 0.0030715465545654297, "timer/agent.policy_max": 0.31315159797668457, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08383512496948242, "timer/dataset_train_frac": 0.0002793450987523295, "timer/dataset_train_avg": 0.00011741614141384093, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.0010654926300048828, "timer/agent.train_count": 714.0, "timer/agent.train_total": 96.8222758769989, "timer/agent.train_frac": 0.32261928667883666, "timer/agent.train_avg": 0.13560542839915812, "timer/agent.train_min": 0.1005702018737793, "timer/agent.train_max": 0.4286689758300781, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4990718364715576, "timer/agent.report_frac": 0.001662945829619778, "timer/agent.report_avg": 0.2495359182357788, "timer/agent.report_min": 0.09993100166320801, "timer/agent.report_max": 0.3991408348083496, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.2479248046875e-05, "timer/dataset_eval_frac": 2.4150644148880403e-07, "timer/dataset_eval_avg": 7.2479248046875e-05, "timer/dataset_eval_min": 7.2479248046875e-05, "timer/dataset_eval_max": 7.2479248046875e-05, "fps": 9.51604851697443}
+{"step": 546024, "episode/length": 761.0, "episode/score": 1690.0, "episode/reward_rate": 0.1220472440944882}
+{"step": 548412, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.643891228569879, "train/action_min": 0.0, "train/action_std": 2.858626435200373, "train/actor_opt_grad_norm": 0.007911322948833307, "train/actor_opt_grad_steps": 135645.0, "train/actor_opt_loss": 0.0006482357696060919, "train/adv_mag": 0.6099085505637858, "train/adv_max": 0.583932476118207, "train/adv_mean": 0.0017767094034045134, "train/adv_min": -0.3876211459024085, "train/adv_std": 0.03310759973505305, "train/cont_avg": 0.9987657335069444, "train/cont_loss_mean": 0.0002972114956883894, "train/cont_loss_std": 0.007925096584728002, "train/cont_neg_acc": 0.935, "train/cont_neg_loss": 0.18895470906491652, "train/cont_pos_acc": 0.9999999975164732, "train/cont_pos_loss": 7.56902389341828e-05, "train/cont_pred": 0.9988018795847893, "train/cont_rate": 0.9987657335069444, "train/dyn_loss_mean": 4.848494970136219, "train/dyn_loss_std": 6.792314185036553, "train/extr_critic_critic_opt_grad_norm": 2.2377577076355615, "train/extr_critic_critic_opt_grad_steps": 135645.0, "train/extr_critic_critic_opt_loss": 1.533679574728012, "train/extr_critic_mag": 521.569219801161, "train/extr_critic_max": 521.569219801161, "train/extr_critic_mean": 204.4610712263319, "train/extr_critic_min": 0.2987132751279407, "train/extr_critic_std": 160.28359105851916, "train/extr_return_normed_mag": 1.248676339785258, "train/extr_return_normed_max": 1.248676339785258, "train/extr_return_normed_mean": 0.44676489838295513, "train/extr_return_normed_min": -0.00959714883679731, "train/extr_return_normed_std": 0.3585691973567009, "train/extr_return_rate": 0.9416866103808085, "train/extr_return_raw_mag": 565.4449543423123, "train/extr_return_raw_max": 565.4449543423123, "train/extr_return_raw_mean": 205.25943311055502, "train/extr_return_raw_min": 0.33227850248416263, "train/extr_return_raw_std": 161.00787014431424, "train/extr_reward_mag": 215.89353964063855, "train/extr_reward_max": 215.89353964063855, "train/extr_reward_mean": 1.157122228294611, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.307981547382143, "train/image_loss_mean": 1.7483455406294928, "train/image_loss_std": 1.4928307003445096, "train/model_loss_mean": 4.733611471123165, "train/model_loss_std": 5.322237730026245, "train/model_opt_grad_norm": 11.238556742668152, "train/model_opt_grad_steps": 135645.0, "train/model_opt_loss": 4.733611471123165, "train/policy_entropy_mag": 2.1815924512015448, "train/policy_entropy_max": 2.1815924512015448, "train/policy_entropy_mean": 1.1415640438596408, "train/policy_entropy_min": 0.06949185331662495, "train/policy_entropy_std": 0.6285290271043777, "train/policy_logprob_mag": 6.800507869985369, "train/policy_logprob_max": -0.00895493988516844, "train/policy_logprob_mean": -1.142584238615301, "train/policy_logprob_min": -6.800507869985369, "train/policy_logprob_std": 1.0931319519877434, "train/policy_randomness_mag": 0.9928855043318536, "train/policy_randomness_max": 0.9928855043318536, "train/policy_randomness_mean": 0.5195481781330373, "train/policy_randomness_min": 0.031627105083316565, "train/policy_randomness_std": 0.28605588525533676, "train/post_ent_mag": 59.36260859171549, "train/post_ent_max": 59.36260859171549, "train/post_ent_mean": 39.13745949003432, "train/post_ent_min": 20.855118142233955, "train/post_ent_std": 5.899753166569604, "train/prior_ent_mag": 79.64651722378201, "train/prior_ent_max": 79.64651722378201, "train/prior_ent_mean": 44.06295363108317, "train/prior_ent_min": 23.07797074317932, "train/prior_ent_std": 8.501790814929539, "train/rep_loss_mean": 4.848494970136219, "train/rep_loss_std": 6.792314185036553, "train/reward_avg": 1.5044487847222223, "train/reward_loss_mean": 0.07587169762700796, "train/reward_loss_std": 0.257320034214192, "train/reward_max_data": 229.02777777777777, "train/reward_max_pred": 181.31063875887128, "train/reward_neg_acc": 0.9669880229565833, "train/reward_neg_loss": 0.009800890971544303, "train/reward_pos_acc": 0.9954169367750486, "train/reward_pos_loss": 0.6394227867325147, "train/reward_pred": 1.343937096496423, "train/reward_rate": 0.10533311631944445, "train_stats/mean_log_entropy": 0.9763140082359314, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 8.679384336574003e-05, "report/cont_loss_std": 0.0019421038450673223, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.024159345775842667, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.9685135561740026e-05, "report/cont_pred": 0.9980540871620178, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.916929721832275, "report/dyn_loss_std": 6.662257194519043, "report/image_loss_mean": 1.7187199592590332, "report/image_loss_std": 1.6250134706497192, "report/model_loss_mean": 4.751399040222168, "report/model_loss_std": 5.440910339355469, "report/post_ent_mag": 59.48859405517578, "report/post_ent_max": 59.48859405517578, "report/post_ent_mean": 38.594078063964844, "report/post_ent_min": 19.8713436126709, "report/post_ent_std": 6.71150016784668, "report/prior_ent_mag": 79.5467758178711, "report/prior_ent_max": 79.5467758178711, "report/prior_ent_mean": 44.050872802734375, "report/prior_ent_min": 21.571937561035156, "report/prior_ent_std": 9.913147926330566, "report/rep_loss_mean": 4.916929721832275, "report/rep_loss_std": 6.662257194519043, "report/reward_avg": 1.318359375, "report/reward_loss_mean": 0.08243462443351746, "report/reward_loss_std": 0.3117409944534302, "report/reward_max_data": 200.0, "report/reward_max_pred": 197.14434814453125, "report/reward_neg_acc": 0.9696969985961914, "report/reward_neg_loss": 0.008822692558169365, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.7626088261604309, "report/reward_pred": 1.1918890476226807, "report/reward_rate": 0.09765625, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.006864480208605528, "eval/cont_loss_std": 0.15016712248325348, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 2.1077606678009033, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006914265104569495, "eval/cont_pred": 0.998287558555603, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 11.132959365844727, "eval/dyn_loss_std": 10.712737083435059, "eval/image_loss_mean": 4.449757099151611, "eval/image_loss_std": 4.516751289367676, "eval/model_loss_mean": 11.412651062011719, "eval/model_loss_std": 10.453544616699219, "eval/post_ent_mag": 60.56127166748047, "eval/post_ent_max": 60.56127166748047, "eval/post_ent_mean": 40.03609085083008, "eval/post_ent_min": 19.84552764892578, "eval/post_ent_std": 7.235948085784912, "eval/prior_ent_mag": 79.5467758178711, "eval/prior_ent_max": 79.5467758178711, "eval/prior_ent_mean": 46.90065383911133, "eval/prior_ent_min": 25.744483947753906, "eval/prior_ent_std": 10.476234436035156, "eval/rep_loss_mean": 11.132959365844727, "eval/rep_loss_std": 10.712737083435059, "eval/reward_avg": 0.458984375, "eval/reward_loss_mean": 0.2762538194656372, "eval/reward_loss_std": 1.488662600517273, "eval/reward_max_data": 10.0, "eval/reward_max_pred": 10.004850387573242, "eval/reward_neg_acc": 0.9303991794586182, "eval/reward_neg_loss": 0.08642931282520294, "eval/reward_pos_acc": 0.5957446694374084, "eval/reward_pos_loss": 4.222180366516113, "eval/reward_pred": 0.37705934047698975, "eval/reward_rate": 0.0458984375, "replay/size": 137040.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.430868025921306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3948864295703022e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6987323760986328e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.19999146461487, "timer/env.step_count": 714.0, "timer/env.step_total": 2.831782102584839, "timer/env.step_frac": 0.009432985286805468, "timer/env.step_avg": 0.003966081376169242, "timer/env.step_min": 0.0022995471954345703, "timer/env.step_max": 0.016196012496948242, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 181.27784061431885, "timer/replay._sample_frac": 0.6038569146184882, "timer/replay._sample_avg": 0.01586815831707973, "timer/replay._sample_min": 0.008294820785522461, "timer/replay._sample_max": 0.049329519271850586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.11529183387756, "timer/agent.policy_frac": 0.6632754746675189, "timer/agent.policy_avg": 0.2788729577505288, "timer/agent.policy_min": 0.0030977725982666016, "timer/agent.policy_max": 0.3145558834075928, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08272576332092285, "timer/dataset_train_frac": 0.00027556883968357437, "timer/dataset_train_avg": 0.00011586241361473789, "timer/dataset_train_min": 6.508827209472656e-05, "timer/dataset_train_max": 0.0004527568817138672, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.17910504341125, "timer/agent.train_frac": 0.32371454965502866, "timer/agent.train_avg": 0.13610518913643033, "timer/agent.train_min": 0.0996999740600586, "timer/agent.train_max": 0.42656588554382324, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5020043849945068, "timer/agent.report_frac": 0.0016722331754419088, "timer/agent.report_avg": 0.2510021924972534, "timer/agent.report_min": 0.10465836524963379, "timer/agent.report_max": 0.39734601974487305, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.38690185546875e-05, "timer/dataset_eval_frac": 1.4613264424379046e-07, "timer/dataset_eval_avg": 4.38690185546875e-05, "timer/dataset_eval_min": 4.38690185546875e-05, "timer/dataset_eval_max": 4.38690185546875e-05, "fps": 9.513340667883321}
+{"step": 549448, "episode/length": 855.0, "episode/score": 1940.0, "episode/reward_rate": 0.12266355140186916}
+{"step": 551264, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.735682527783891, "train/action_min": 0.0, "train/action_std": 2.8362461446036753, "train/actor_opt_grad_norm": 0.008880306543572478, "train/actor_opt_grad_steps": 136360.0, "train/actor_opt_loss": 0.0010513285412766698, "train/adv_mag": 0.7189451053108967, "train/adv_max": 0.682650701890529, "train/adv_mean": 0.002294452158155405, "train/adv_min": -0.43821154576791843, "train/adv_std": 0.03639763158182023, "train/cont_avg": 0.9986520686619719, "train/cont_loss_mean": 0.0002002244317039285, "train/cont_loss_std": 0.005459975591722865, "train/cont_neg_acc": 0.9827586206896551, "train/cont_neg_loss": 0.06499988853174885, "train/cont_pos_acc": 0.9999862304875549, "train/cont_pos_loss": 9.767548356918364e-05, "train/cont_pred": 0.99861732419108, "train/cont_rate": 0.9986520686619719, "train/dyn_loss_mean": 4.962897307436231, "train/dyn_loss_std": 6.791401272088709, "train/extr_critic_critic_opt_grad_norm": 2.4213433735807177, "train/extr_critic_critic_opt_grad_steps": 136360.0, "train/extr_critic_critic_opt_loss": 1.5385674775486262, "train/extr_critic_mag": 527.814677063848, "train/extr_critic_max": 527.814677063848, "train/extr_critic_mean": 198.82070127675232, "train/extr_critic_min": 0.038635164919033856, "train/extr_critic_std": 157.47287621296627, "train/extr_return_normed_mag": 1.3085570024772428, "train/extr_return_normed_max": 1.3085570024772428, "train/extr_return_normed_mean": 0.4333597929544852, "train/extr_return_normed_min": -0.010051520000225012, "train/extr_return_normed_std": 0.3522332768205186, "train/extr_return_rate": 0.9397906106962285, "train/extr_return_raw_mag": 594.2132172920335, "train/extr_return_raw_max": 594.2132172920335, "train/extr_return_raw_mean": 199.85373462085994, "train/extr_return_raw_min": 0.05086990354195709, "train/extr_return_raw_std": 158.73634692984567, "train/extr_reward_mag": 228.82728533677653, "train/extr_reward_max": 228.82728533677653, "train/extr_reward_mean": 1.1343818348898014, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.470835863704413, "train/image_loss_mean": 1.7753853445321741, "train/image_loss_std": 1.4961827405741517, "train/model_loss_mean": 4.82768088663128, "train/model_loss_std": 5.31276319396328, "train/model_opt_grad_norm": 11.548352187787982, "train/model_opt_grad_steps": 136360.0, "train/model_opt_loss": 4.82768088663128, "train/policy_entropy_mag": 2.1803739238792743, "train/policy_entropy_max": 2.1803739238792743, "train/policy_entropy_mean": 1.1428155109915934, "train/policy_entropy_min": 0.06957437517777296, "train/policy_entropy_std": 0.6263186755314679, "train/policy_logprob_mag": 6.799873580395336, "train/policy_logprob_max": -0.008967276715056998, "train/policy_logprob_mean": -1.1412193682831777, "train/policy_logprob_min": -6.799873580395336, "train/policy_logprob_std": 1.0925942995178868, "train/policy_randomness_mag": 0.9923309297628806, "train/policy_randomness_max": 0.9923309297628806, "train/policy_randomness_mean": 0.5201177576058348, "train/policy_randomness_min": 0.031664662482872814, "train/policy_randomness_std": 0.2850499077582023, "train/post_ent_mag": 59.61390831101109, "train/post_ent_max": 59.61390831101109, "train/post_ent_mean": 39.012278973216745, "train/post_ent_min": 21.10427880622971, "train/post_ent_std": 5.83902138723454, "train/prior_ent_mag": 79.79435676252338, "train/prior_ent_max": 79.79435676252338, "train/prior_ent_mean": 44.0383098226198, "train/prior_ent_min": 23.148634977743658, "train/prior_ent_std": 8.483940252116028, "train/rep_loss_mean": 4.962897307436231, "train/rep_loss_std": 6.791401272088709, "train/reward_avg": 1.445037411971831, "train/reward_loss_mean": 0.07435693953868369, "train/reward_loss_std": 0.26724962974098365, "train/reward_max_data": 220.0, "train/reward_max_pred": 192.55424859490194, "train/reward_neg_acc": 0.9690628320398466, "train/reward_neg_loss": 0.009628084009434556, "train/reward_pos_acc": 0.9949940694889552, "train/reward_pos_loss": 0.6543856086865277, "train/reward_pred": 1.300797037675347, "train/reward_rate": 0.10037962147887323, "train_stats/mean_log_entropy": 1.0613218545913696, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 0.0006595741142518818, "report/cont_loss_std": 0.01512083038687706, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.22259771823883057, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 0.00022525286476593465, "report/cont_pred": 0.9981898665428162, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 5.635652542114258, "report/dyn_loss_std": 6.897736072540283, "report/image_loss_mean": 2.0021848678588867, "report/image_loss_std": 1.629334568977356, "report/model_loss_mean": 5.460970878601074, "report/model_loss_std": 5.5805158615112305, "report/post_ent_mag": 60.214141845703125, "report/post_ent_max": 60.214141845703125, "report/post_ent_mean": 40.200130462646484, "report/post_ent_min": 19.442108154296875, "report/post_ent_std": 7.037418842315674, "report/prior_ent_mag": 79.94966125488281, "report/prior_ent_max": 79.94966125488281, "report/prior_ent_mean": 45.86589813232422, "report/prior_ent_min": 23.88434600830078, "report/prior_ent_std": 9.565092086791992, "report/rep_loss_mean": 5.635652542114258, "report/rep_loss_std": 6.897736072540283, "report/reward_avg": 1.396484375, "report/reward_loss_mean": 0.07673467695713043, "report/reward_loss_std": 0.25544801354408264, "report/reward_max_data": 200.0, "report/reward_max_pred": 87.61520385742188, "report/reward_neg_acc": 0.9502702951431274, "report/reward_neg_loss": 0.01152503490447998, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6860167980194092, "report/reward_pred": 1.0778303146362305, "report/reward_rate": 0.0966796875, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.014909747056663036, "eval/cont_loss_std": 0.3368484377861023, "eval/cont_neg_acc": 0.3333333432674408, "eval/cont_neg_loss": 5.085822582244873, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 9.905722436087672e-06, "eval/cont_pred": 0.9990125894546509, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 12.22016716003418, "eval/dyn_loss_std": 10.241740226745605, "eval/image_loss_mean": 4.812028408050537, "eval/image_loss_std": 4.082243919372559, "eval/model_loss_mean": 12.890144348144531, "eval/model_loss_std": 10.039535522460938, "eval/post_ent_mag": 58.65498352050781, "eval/post_ent_max": 58.65498352050781, "eval/post_ent_mean": 41.095672607421875, "eval/post_ent_min": 19.001861572265625, "eval/post_ent_std": 7.288183689117432, "eval/prior_ent_mag": 79.94966125488281, "eval/prior_ent_max": 79.94966125488281, "eval/prior_ent_mean": 48.053340911865234, "eval/prior_ent_min": 22.17774200439453, "eval/prior_ent_std": 9.977209091186523, "eval/rep_loss_mean": 12.22016716003418, "eval/rep_loss_std": 10.241740226745605, "eval/reward_avg": 1.103515625, "eval/reward_loss_mean": 0.7311055660247803, "eval/reward_loss_std": 2.56391978263855, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 18.417322158813477, "eval/reward_neg_acc": 0.8927410840988159, "eval/reward_neg_loss": 0.14473961293697357, "eval/reward_pos_acc": 0.40594059228897095, "eval/reward_pos_loss": 6.089676856994629, "eval/reward_pred": 0.5352293848991394, "eval/reward_rate": 0.0986328125, "replay/size": 137753.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.515059782779902e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3990790111654101e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6689300537109375e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.13139510154724, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8320930004119873, "timer/env.step_frac": 0.009436177109874724, "timer/env.step_avg": 0.00397207994447684, "timer/env.step_min": 0.002499818801879883, "timer/env.step_max": 0.022196054458618164, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 183.36579704284668, "timer/replay._sample_frac": 0.610951736591256, "timer/replay._sample_avg": 0.016073439432227093, "timer/replay._sample_min": 0.008174657821655273, "timer/replay._sample_max": 0.039412498474121094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10765504837036133, "timer/agent.save_frac": 0.0003586930595312664, "timer/agent.save_avg": 0.10765504837036133, "timer/agent.save_min": 0.10765504837036133, "timer/agent.save_max": 0.10765504837036133, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.36203622817993, "timer/agent.policy_frac": 0.6642491904611554, "timer/agent.policy_avg": 0.27961014898762965, "timer/agent.policy_min": 0.0033349990844726562, "timer/agent.policy_max": 0.4121692180633545, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08460855484008789, "timer/dataset_train_frac": 0.00028190504632633057, "timer/dataset_train_avg": 0.00011866557481078246, "timer/dataset_train_min": 7.009506225585938e-05, "timer/dataset_train_max": 0.00023484230041503906, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.8402247428894, "timer/agent.train_frac": 0.322659429581248, "timer/agent.train_avg": 0.13582079206576353, "timer/agent.train_min": 0.10033988952636719, "timer/agent.train_max": 0.4285464286804199, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5006792545318604, "timer/agent.report_frac": 0.0016682002039888537, "timer/agent.report_avg": 0.2503396272659302, "timer/agent.report_min": 0.10218358039855957, "timer/agent.report_max": 0.3984956741333008, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 8.130073547363281e-05, "timer/dataset_eval_frac": 2.7088380889351917e-07, "timer/dataset_eval_avg": 8.130073547363281e-05, "timer/dataset_eval_min": 8.130073547363281e-05, "timer/dataset_eval_max": 8.130073547363281e-05, "fps": 9.502123580728544}
+{"step": 552408, "episode/length": 739.0, "episode/score": 1110.0, "episode/reward_rate": 0.12702702702702703}
+{"step": 554120, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.683040195041233, "train/action_min": 0.0, "train/action_std": 2.8554887341128454, "train/actor_opt_grad_norm": 0.008413371093209006, "train/actor_opt_grad_steps": 137075.0, "train/actor_opt_loss": 0.0005341845181242712, "train/adv_mag": 0.6246339347627428, "train/adv_max": 0.5817567879954973, "train/adv_mean": 0.0015892645375730455, "train/adv_min": -0.4391657912896739, "train/adv_std": 0.03537027116140558, "train/cont_avg": 0.9987250434027778, "train/cont_loss_mean": 0.0002438235606285103, "train/cont_loss_std": 0.006289234677951391, "train/cont_neg_acc": 0.9696969698775898, "train/cont_neg_loss": 0.08245618841284749, "train/cont_pos_acc": 0.999986420902941, "train/cont_pos_loss": 0.00010079339774649302, "train/cont_pred": 0.9987178767720858, "train/cont_rate": 0.9987250434027778, "train/dyn_loss_mean": 4.856424801879459, "train/dyn_loss_std": 6.681220670541127, "train/extr_critic_critic_opt_grad_norm": 2.3545201453897686, "train/extr_critic_critic_opt_grad_steps": 137075.0, "train/extr_critic_critic_opt_loss": 1.5178516341580286, "train/extr_critic_mag": 518.070432027181, "train/extr_critic_max": 518.070432027181, "train/extr_critic_mean": 207.43292723761664, "train/extr_critic_min": 0.2612340615855323, "train/extr_critic_std": 158.93740961286755, "train/extr_return_normed_mag": 1.24813564783997, "train/extr_return_normed_max": 1.24813564783997, "train/extr_return_normed_mean": 0.45269593058360946, "train/extr_return_normed_min": -0.010332811494461365, "train/extr_return_normed_std": 0.35594432138734394, "train/extr_return_rate": 0.9400174071391424, "train/extr_return_raw_mag": 565.0255343119303, "train/extr_return_raw_max": 565.0255343119303, "train/extr_return_raw_mean": 208.14561377631293, "train/extr_return_raw_min": 0.41286903730098046, "train/extr_return_raw_std": 159.71465269724527, "train/extr_reward_mag": 215.98555852307214, "train/extr_reward_max": 215.98555852307214, "train/extr_reward_mean": 1.1370051275524828, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.372993131478627, "train/image_loss_mean": 1.7172769225305982, "train/image_loss_std": 1.487486855023437, "train/model_loss_mean": 4.706570817364587, "train/model_loss_std": 5.2376538382636175, "train/model_opt_grad_norm": 11.380107972357008, "train/model_opt_grad_steps": 137075.0, "train/model_opt_loss": 4.706570817364587, "train/policy_entropy_mag": 2.180415802531772, "train/policy_entropy_max": 2.180415802531772, "train/policy_entropy_mean": 1.1280739828944206, "train/policy_entropy_min": 0.06951700544191732, "train/policy_entropy_std": 0.6249643845690621, "train/policy_logprob_mag": 6.7999660107824536, "train/policy_logprob_max": -0.008958726500471434, "train/policy_logprob_mean": -1.128938090470102, "train/policy_logprob_min": -6.7999660107824536, "train/policy_logprob_std": 1.0936317692200344, "train/policy_randomness_mag": 0.9923499930236075, "train/policy_randomness_max": 0.9923499930236075, "train/policy_randomness_mean": 0.5134085843132602, "train/policy_randomness_min": 0.031638552331262164, "train/policy_randomness_std": 0.28443354637258583, "train/post_ent_mag": 59.42120499081082, "train/post_ent_max": 59.42120499081082, "train/post_ent_mean": 38.970277309417725, "train/post_ent_min": 20.535511440700954, "train/post_ent_std": 5.932936906814575, "train/prior_ent_mag": 79.79407458835178, "train/prior_ent_max": 79.79407458835178, "train/prior_ent_mean": 43.793217764960396, "train/prior_ent_min": 22.96195493804084, "train/prior_ent_std": 8.45386591884825, "train/rep_loss_mean": 4.856424801879459, "train/rep_loss_std": 6.681220670541127, "train/reward_avg": 1.4371744791666667, "train/reward_loss_mean": 0.0751952479283015, "train/reward_loss_std": 0.26093190121981835, "train/reward_max_data": 217.91666666666666, "train/reward_max_pred": 187.2673833237754, "train/reward_neg_acc": 0.9671825236744351, "train/reward_neg_loss": 0.010161917698698945, "train/reward_pos_acc": 0.9949950443373786, "train/reward_pos_loss": 0.6462175655696127, "train/reward_pred": 1.3060618903901842, "train/reward_rate": 0.10206434461805555, "train_stats/mean_log_entropy": 0.9292628765106201, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.2150161644040054e-08, "report/cont_loss_std": 5.55603321572562e-07, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.6065094314399175e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6477684994242736e-08, "report/cont_pred": 0.9990234375, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.863917350769043, "report/dyn_loss_std": 6.9825358390808105, "report/image_loss_mean": 1.9254307746887207, "report/image_loss_std": 1.2955515384674072, "report/model_loss_mean": 5.507946968078613, "report/model_loss_std": 5.292933940887451, "report/post_ent_mag": 57.033935546875, "report/post_ent_max": 57.033935546875, "report/post_ent_mean": 39.60551452636719, "report/post_ent_min": 19.934938430786133, "report/post_ent_std": 6.086741924285889, "report/prior_ent_mag": 80.01376342773438, "report/prior_ent_max": 80.01376342773438, "report/prior_ent_mean": 45.70672607421875, "report/prior_ent_min": 21.61840057373047, "report/prior_ent_std": 8.349663734436035, "report/rep_loss_mean": 5.863917350769043, "report/rep_loss_std": 6.9825358390808105, "report/reward_avg": 1.572265625, "report/reward_loss_mean": 0.06416542828083038, "report/reward_loss_std": 0.2536449730396271, "report/reward_max_data": 210.0, "report/reward_max_pred": 208.00160217285156, "report/reward_neg_acc": 0.9614147543907166, "report/reward_neg_loss": 0.013789823278784752, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.580653727054596, "report/reward_pred": 1.5345563888549805, "report/reward_rate": 0.0888671875, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.3985125946192056e-08, "eval/cont_loss_std": 2.684059836610686e-07, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3985125946192056e-08, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.200681686401367, "eval/dyn_loss_std": 9.81059455871582, "eval/image_loss_mean": 2.9907164573669434, "eval/image_loss_std": 2.7807600498199463, "eval/model_loss_mean": 9.149499893188477, "eval/model_loss_std": 8.70812702178955, "eval/post_ent_mag": 57.90148162841797, "eval/post_ent_max": 57.90148162841797, "eval/post_ent_mean": 40.22534942626953, "eval/post_ent_min": 21.270519256591797, "eval/post_ent_std": 6.669416904449463, "eval/prior_ent_mag": 80.01376342773438, "eval/prior_ent_max": 80.01376342773438, "eval/prior_ent_mean": 45.707454681396484, "eval/prior_ent_min": 22.993396759033203, "eval/prior_ent_std": 9.347067832946777, "eval/rep_loss_mean": 9.200681686401367, "eval/rep_loss_std": 9.81059455871582, "eval/reward_avg": 2.265625, "eval/reward_loss_mean": 0.6383745074272156, "eval/reward_loss_std": 2.6382040977478027, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 49.91926574707031, "eval/reward_neg_acc": 0.9040179252624512, "eval/reward_neg_loss": 0.11724964529275894, "eval/reward_pos_acc": 0.6875, "eval/reward_pos_loss": 4.286248207092285, "eval/reward_pred": 0.9588718414306641, "eval/reward_rate": 0.125, "replay/size": 138467.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.410498931628315e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3890010969979422e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.773238182067871e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.22793650627136, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8397533893585205, "timer/env.step_frac": 0.009458658052959711, "timer/env.step_avg": 0.003977245643359272, "timer/env.step_min": 0.0025091171264648438, "timer/env.step_max": 0.02122783660888672, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 180.41457557678223, "timer/replay._sample_frac": 0.6009253425122668, "timer/replay._sample_avg": 0.015792592399928418, "timer/replay._sample_min": 0.007277965545654297, "timer/replay._sample_max": 0.04845261573791504, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.41173434257507, "timer/agent.policy_frac": 0.6642011288593379, "timer/agent.policy_avg": 0.27928814333693985, "timer/agent.policy_min": 0.003191232681274414, "timer/agent.policy_max": 0.313845157623291, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08258748054504395, "timer/dataset_train_frac": 0.00027508259726295926, "timer/dataset_train_avg": 0.0001156687402591652, "timer/dataset_train_min": 6.914138793945312e-05, "timer/dataset_train_max": 0.0002288818359375, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.19823288917542, "timer/agent.train_frac": 0.3237481295720296, "timer/agent.train_avg": 0.13613197883638015, "timer/agent.train_min": 0.0993952751159668, "timer/agent.train_max": 0.4271218776702881, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20432066917419434, "timer/agent.report_frac": 0.0006805518218985805, "timer/agent.report_avg": 0.10216033458709717, "timer/agent.report_min": 0.1014106273651123, "timer/agent.report_max": 0.10291004180908203, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.6743621826171875e-05, "timer/dataset_eval_frac": 1.890018047170856e-07, "timer/dataset_eval_avg": 5.6743621826171875e-05, "timer/dataset_eval_min": 5.6743621826171875e-05, "timer/dataset_eval_max": 5.6743621826171875e-05, "fps": 9.51241919977448}
+{"step": 555304, "episode/length": 723.0, "episode/score": 1150.0, "episode/reward_rate": 0.12154696132596685}
+{"step": 556976, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.735720352387764, "train/action_min": 0.0, "train/action_std": 2.8616630795975806, "train/actor_opt_grad_norm": 0.007824457788341482, "train/actor_opt_grad_steps": 137790.0, "train/actor_opt_loss": 0.00042054264547555824, "train/adv_mag": 0.6055005881148325, "train/adv_max": 0.5359984294209682, "train/adv_mean": 0.0015041221252265042, "train/adv_min": -0.4393918902521402, "train/adv_std": 0.03332934287232413, "train/cont_avg": 0.998473261443662, "train/cont_loss_mean": 0.0002108029513860896, "train/cont_loss_std": 0.005494908988090588, "train/cont_neg_acc": 0.9741379310344828, "train/cont_neg_loss": 0.05448932589288606, "train/cont_pos_acc": 0.9999724618146117, "train/cont_pos_loss": 0.00013136869797077865, "train/cont_pred": 0.998434498276509, "train/cont_rate": 0.998473261443662, "train/dyn_loss_mean": 4.939822280910653, "train/dyn_loss_std": 6.81737237581065, "train/extr_critic_critic_opt_grad_norm": 2.371618136553697, "train/extr_critic_critic_opt_grad_steps": 137790.0, "train/extr_critic_critic_opt_loss": 1.535176371184873, "train/extr_critic_mag": 510.868584001568, "train/extr_critic_max": 510.868584001568, "train/extr_critic_mean": 198.99200106338716, "train/extr_critic_min": 0.34017116922727775, "train/extr_critic_std": 156.17931344475545, "train/extr_return_normed_mag": 1.2015819045859324, "train/extr_return_normed_max": 1.2015819045859324, "train/extr_return_normed_mean": 0.4375914209325549, "train/extr_return_normed_min": -0.009846406834672245, "train/extr_return_normed_std": 0.3516389492531897, "train/extr_return_rate": 0.939024032001764, "train/extr_return_raw_mag": 540.2780628472987, "train/extr_return_raw_max": 540.2780628472987, "train/extr_return_raw_mean": 199.66250373947787, "train/extr_return_raw_min": 0.17608974810073177, "train/extr_return_raw_std": 156.78994213695256, "train/extr_reward_mag": 185.6239237583859, "train/extr_reward_max": 185.6239237583859, "train/extr_reward_mean": 1.0813794400490506, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.8619904467757316, "train/image_loss_mean": 1.7636755335498864, "train/image_loss_std": 1.5214723415777718, "train/model_loss_mean": 4.8041652424234735, "train/model_loss_std": 5.36253117843413, "train/model_opt_grad_norm": 11.054837132843447, "train/model_opt_grad_steps": 137790.0, "train/model_opt_loss": 4.8041652424234735, "train/policy_entropy_mag": 2.1784802792777476, "train/policy_entropy_max": 2.1784802792777476, "train/policy_entropy_mean": 1.1280213006785218, "train/policy_entropy_min": 0.06950129285244874, "train/policy_entropy_std": 0.620300336622856, "train/policy_logprob_mag": 6.800597090116689, "train/policy_logprob_max": -0.008956451257559615, "train/policy_logprob_mean": -1.1264750294282402, "train/policy_logprob_min": -6.800597090116689, "train/policy_logprob_std": 1.097130280145457, "train/policy_randomness_mag": 0.9914690936115426, "train/policy_randomness_max": 0.9914690936115426, "train/policy_randomness_mean": 0.5133846162910193, "train/policy_randomness_min": 0.03163140104480193, "train/policy_randomness_std": 0.28231084724547156, "train/post_ent_mag": 59.78547088193222, "train/post_ent_max": 59.78547088193222, "train/post_ent_mean": 38.691032194755444, "train/post_ent_min": 20.760899664650502, "train/post_ent_std": 6.084046887679839, "train/prior_ent_mag": 79.8010810529682, "train/prior_ent_max": 79.8010810529682, "train/prior_ent_mean": 43.6998556969871, "train/prior_ent_min": 22.42678446165273, "train/prior_ent_std": 8.771257944510017, "train/rep_loss_mean": 4.939822280910653, "train/rep_loss_std": 6.81737237581065, "train/reward_avg": 1.3698008362676057, "train/reward_loss_mean": 0.07638559973155948, "train/reward_loss_std": 0.28708390387850746, "train/reward_max_data": 184.92957746478874, "train/reward_max_pred": 167.20369387344576, "train/reward_neg_acc": 0.9662980689129359, "train/reward_neg_loss": 0.01095124963723438, "train/reward_pos_acc": 0.9913990959315233, "train/reward_pos_loss": 0.6809607693846796, "train/reward_pred": 1.2473330976257861, "train/reward_rate": 0.09881161971830986, "train_stats/mean_log_entropy": 0.9464371800422668, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 0.0008478438830934465, "report/cont_loss_std": 0.027026021853089333, "report/cont_neg_acc": 0.6666666865348816, "report/cont_neg_loss": 0.2888224422931671, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6893690144570428e-06, "report/cont_pred": 0.9976353049278259, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.655892372131348, "report/dyn_loss_std": 6.8764472007751465, "report/image_loss_mean": 1.6238042116165161, "report/image_loss_std": 1.217420220375061, "report/model_loss_mean": 4.462381362915039, "report/model_loss_std": 5.017071723937988, "report/post_ent_mag": 60.53810119628906, "report/post_ent_max": 60.53810119628906, "report/post_ent_mean": 39.50168228149414, "report/post_ent_min": 21.431079864501953, "report/post_ent_std": 5.614385604858398, "report/prior_ent_mag": 79.76576232910156, "report/prior_ent_max": 79.76576232910156, "report/prior_ent_mean": 44.17787170410156, "report/prior_ent_min": 23.166309356689453, "report/prior_ent_std": 8.069339752197266, "report/rep_loss_mean": 4.655892372131348, "report/rep_loss_std": 6.8764472007751465, "report/reward_avg": 1.09375, "report/reward_loss_mean": 0.0441935658454895, "report/reward_loss_std": 0.15020574629306793, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.09457397460938, "report/reward_neg_acc": 0.987274706363678, "report/reward_neg_loss": 0.001732647535391152, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5385225415229797, "report/reward_pred": 1.0806456804275513, "report/reward_rate": 0.0791015625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 1.953358150785789e-07, "eval/cont_loss_std": 3.900207957485691e-06, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 8.123819134198129e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.6739219666515055e-08, "eval/cont_pred": 0.9980469942092896, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 9.445577621459961, "eval/dyn_loss_std": 9.719242095947266, "eval/image_loss_mean": 3.964653491973877, "eval/image_loss_std": 4.105940341949463, "eval/model_loss_mean": 10.060684204101562, "eval/model_loss_std": 10.049633979797363, "eval/post_ent_mag": 59.826820373535156, "eval/post_ent_max": 59.826820373535156, "eval/post_ent_mean": 38.62574005126953, "eval/post_ent_min": 19.93115997314453, "eval/post_ent_std": 8.519254684448242, "eval/prior_ent_mag": 79.76576232910156, "eval/prior_ent_max": 79.76576232910156, "eval/prior_ent_mean": 44.11632537841797, "eval/prior_ent_min": 21.19942855834961, "eval/prior_ent_std": 11.625946044921875, "eval/rep_loss_mean": 9.445577621459961, "eval/rep_loss_std": 9.719242095947266, "eval/reward_avg": 0.9375, "eval/reward_loss_mean": 0.4286842346191406, "eval/reward_loss_std": 2.3873276710510254, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 50.00053405761719, "eval/reward_neg_acc": 0.9348291158676147, "eval/reward_neg_loss": 0.055189721286296844, "eval/reward_pos_acc": 0.6931818127632141, "eval/reward_pos_loss": 4.401308536529541, "eval/reward_pred": 0.6019744873046875, "eval/reward_rate": 0.0859375, "replay/size": 139181.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.500657217843192e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492229272003601e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6391277313232422e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.36430859565735, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8664047718048096, "timer/env.step_frac": 0.009543093802344837, "timer/env.step_avg": 0.0040145725095305455, "timer/env.step_min": 0.002544403076171875, "timer/env.step_max": 0.025056838989257812, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 175.39487743377686, "timer/replay._sample_frac": 0.5839404763296591, "timer/replay._sample_avg": 0.015353193052676545, "timer/replay._sample_min": 0.007520437240600586, "timer/replay._sample_max": 0.04818534851074219, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.36462092399597, "timer/agent.policy_frac": 0.663742712495097, "timer/agent.policy_avg": 0.2792221581568571, "timer/agent.policy_min": 0.0033364295959472656, "timer/agent.policy_max": 0.3139994144439697, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08511590957641602, "timer/dataset_train_frac": 0.0002833755780584332, "timer/dataset_train_avg": 0.0001192099573899384, "timer/dataset_train_min": 7.414817810058594e-05, "timer/dataset_train_max": 0.00020837783813476562, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.04274773597717, "timer/agent.train_frac": 0.32308348548366844, "timer/agent.train_avg": 0.1359142125153742, "timer/agent.train_min": 0.10003662109375, "timer/agent.train_max": 0.42723822593688965, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.503150463104248, "timer/agent.report_frac": 0.0016751339913077894, "timer/agent.report_avg": 0.251575231552124, "timer/agent.report_min": 0.10106611251831055, "timer/agent.report_max": 0.4020843505859375, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.1484832763671875e-05, "timer/dataset_eval_frac": 1.3811505420744806e-07, "timer/dataset_eval_avg": 4.1484832763671875e-05, "timer/dataset_eval_min": 4.1484832763671875e-05, "timer/dataset_eval_max": 4.1484832763671875e-05, "fps": 9.5081347275564}
+{"step": 558388, "episode/length": 770.0, "episode/score": 1560.0, "episode/reward_rate": 0.11543450064850844}
+{"step": 559828, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.755747620488556, "train/action_min": 0.0, "train/action_std": 2.8360720184487356, "train/actor_opt_grad_norm": 0.008635840201619225, "train/actor_opt_grad_steps": 138500.0, "train/actor_opt_loss": 0.0006977412791252071, "train/adv_mag": 0.6598939891432373, "train/adv_max": 0.6391727399658149, "train/adv_mean": 0.0020695341231209605, "train/adv_min": -0.3997798291310458, "train/adv_std": 0.03563045575217882, "train/cont_avg": 0.9986933318661971, "train/cont_loss_mean": 0.00023529201523272473, "train/cont_loss_std": 0.006743793446826929, "train/cont_neg_acc": 0.9642857142857143, "train/cont_neg_loss": 0.1582307205440694, "train/cont_pos_acc": 0.9999862279690487, "train/cont_pos_loss": 7.867448159173364e-05, "train/cont_pred": 0.9986976267586292, "train/cont_rate": 0.9986933318661971, "train/dyn_loss_mean": 4.752663501551454, "train/dyn_loss_std": 6.750575589462065, "train/extr_critic_critic_opt_grad_norm": 2.2286999645367476, "train/extr_critic_critic_opt_grad_steps": 138500.0, "train/extr_critic_critic_opt_loss": 1.499689389282549, "train/extr_critic_mag": 520.0468771491252, "train/extr_critic_max": 520.0468771491252, "train/extr_critic_mean": 206.8073228648011, "train/extr_critic_min": 0.020007700987265144, "train/extr_critic_std": 157.0607679125289, "train/extr_return_normed_mag": 1.2811076842563254, "train/extr_return_normed_max": 1.2811076842563254, "train/extr_return_normed_mean": 0.4534061074676648, "train/extr_return_normed_min": -0.010010594003637073, "train/extr_return_normed_std": 0.3530904619206845, "train/extr_return_rate": 0.9434914681273447, "train/extr_return_raw_mag": 578.6392951213138, "train/extr_return_raw_max": 578.6392951213138, "train/extr_return_raw_mean": 207.73418867084342, "train/extr_return_raw_min": 0.02427626958339882, "train/extr_return_raw_std": 158.25089242424764, "train/extr_reward_mag": 207.5515402270035, "train/extr_reward_max": 207.5515402270035, "train/extr_reward_mean": 1.170200012939077, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.505818618855006, "train/image_loss_mean": 1.7115942340501598, "train/image_loss_std": 1.4865746884278848, "train/model_loss_mean": 4.639713331007622, "train/model_loss_std": 5.281834481467663, "train/model_opt_grad_norm": 11.609545949479225, "train/model_opt_grad_steps": 138500.0, "train/model_opt_loss": 4.639713331007622, "train/policy_entropy_mag": 2.1797988616244894, "train/policy_entropy_max": 2.1797988616244894, "train/policy_entropy_mean": 1.1292039365835593, "train/policy_entropy_min": 0.06955904576560142, "train/policy_entropy_std": 0.6205961569933824, "train/policy_logprob_mag": 6.800465489777041, "train/policy_logprob_max": -0.008965241552238733, "train/policy_logprob_mean": -1.1286479830741882, "train/policy_logprob_min": -6.800465489777041, "train/policy_logprob_std": 1.0933289007401803, "train/policy_randomness_mag": 0.9920692066071739, "train/policy_randomness_max": 0.9920692066071739, "train/policy_randomness_mean": 0.5139228504308513, "train/policy_randomness_min": 0.031657685801176956, "train/policy_randomness_std": 0.28244547755785393, "train/post_ent_mag": 59.99291997560313, "train/post_ent_max": 59.99291997560313, "train/post_ent_mean": 38.8393087790046, "train/post_ent_min": 20.719715682553574, "train/post_ent_std": 5.9661525874070716, "train/prior_ent_mag": 79.90438445185272, "train/prior_ent_max": 79.90438445185272, "train/prior_ent_mean": 43.59777181920871, "train/prior_ent_min": 22.493419593488667, "train/prior_ent_std": 8.577079940849627, "train/rep_loss_mean": 4.752663501551454, "train/rep_loss_std": 6.750575589462065, "train/reward_avg": 1.4861630721830985, "train/reward_loss_mean": 0.07628572191780722, "train/reward_loss_std": 0.26236821018474205, "train/reward_max_data": 217.88732394366198, "train/reward_max_pred": 178.7468172798694, "train/reward_neg_acc": 0.9690587864795202, "train/reward_neg_loss": 0.009478332697820495, "train/reward_pos_acc": 0.995848795058022, "train/reward_pos_loss": 0.6427646472420491, "train/reward_pred": 1.3249016311806692, "train/reward_rate": 0.1054137323943662, "train_stats/mean_log_entropy": 1.1128358840942383, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.8267961365836527e-07, "report/cont_loss_std": 4.6492514229612425e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.1075624115619576e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.8177553329223883e-07, "report/cont_pred": 0.9990232586860657, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.954839706420898, "report/dyn_loss_std": 6.8029465675354, "report/image_loss_mean": 1.932612657546997, "report/image_loss_std": 1.3227548599243164, "report/model_loss_mean": 4.988708972930908, "report/model_loss_std": 5.20395565032959, "report/post_ent_mag": 60.46381378173828, "report/post_ent_max": 60.46381378173828, "report/post_ent_mean": 39.803443908691406, "report/post_ent_min": 20.75360870361328, "report/post_ent_std": 5.358539581298828, "report/prior_ent_mag": 79.66682434082031, "report/prior_ent_max": 79.66682434082031, "report/prior_ent_mean": 44.842308044433594, "report/prior_ent_min": 21.082115173339844, "report/prior_ent_std": 7.488600254058838, "report/rep_loss_mean": 4.954839706420898, "report/rep_loss_std": 6.8029465675354, "report/reward_avg": 1.787109375, "report/reward_loss_mean": 0.08319206535816193, "report/reward_loss_std": 0.22958648204803467, "report/reward_max_data": 200.0, "report/reward_max_pred": 197.73867797851562, "report/reward_neg_acc": 0.9640853404998779, "report/reward_neg_loss": 0.006661148741841316, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5958916544914246, "report/reward_pred": 1.690459966659546, "report/reward_rate": 0.1298828125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.6350612952464871e-07, "eval/cont_loss_std": 3.964046300097834e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.6350612952464871e-07, "eval/cont_pred": 0.9999998211860657, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 13.447888374328613, "eval/dyn_loss_std": 9.739559173583984, "eval/image_loss_mean": 4.77320671081543, "eval/image_loss_std": 3.984154462814331, "eval/model_loss_mean": 13.60757827758789, "eval/model_loss_std": 9.774744033813477, "eval/post_ent_mag": 56.58088302612305, "eval/post_ent_max": 56.58088302612305, "eval/post_ent_mean": 41.38481140136719, "eval/post_ent_min": 20.037731170654297, "eval/post_ent_std": 7.061799049377441, "eval/prior_ent_mag": 79.66682434082031, "eval/prior_ent_max": 79.66682434082031, "eval/prior_ent_mean": 48.56425476074219, "eval/prior_ent_min": 21.63145637512207, "eval/prior_ent_std": 9.77468204498291, "eval/rep_loss_mean": 13.447888374328613, "eval/rep_loss_std": 9.739559173583984, "eval/reward_avg": 2.119140625, "eval/reward_loss_mean": 0.7656387686729431, "eval/reward_loss_std": 3.036113739013672, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 49.92554473876953, "eval/reward_neg_acc": 0.9009792804718018, "eval/reward_neg_loss": 0.14046671986579895, "eval/reward_pos_acc": 0.561904788017273, "eval/reward_pos_loss": 6.237382888793945, "eval/reward_pred": 0.7030580043792725, "eval/reward_rate": 0.1025390625, "replay/size": 139894.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.459217001980518e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3974488701091408e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2130563259125, "timer/env.step_count": 713.0, "timer/env.step_total": 2.818929433822632, "timer/env.step_frac": 0.009389762951423375, "timer/env.step_avg": 0.003953617719246328, "timer/env.step_min": 0.002446413040161133, "timer/env.step_max": 0.021355390548706055, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 182.8541078567505, "timer/replay._sample_frac": 0.6090811308960639, "timer/replay._sample_avg": 0.016028585892071397, "timer/replay._sample_min": 0.0072443485260009766, "timer/replay._sample_max": 0.04179787635803223, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1807079315185547, "timer/agent.save_frac": 0.0006019322867902769, "timer/agent.save_avg": 0.1807079315185547, "timer/agent.save_min": 0.1807079315185547, "timer/agent.save_max": 0.1807079315185547, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.33117008209229, "timer/agent.policy_frac": 0.6639656933031506, "timer/agent.policy_avg": 0.2795668584601575, "timer/agent.policy_min": 0.0032486915588378906, "timer/agent.policy_max": 0.37737154960632324, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08326101303100586, "timer/dataset_train_frac": 0.00027733974681173554, "timer/dataset_train_avg": 0.00011677561434923683, "timer/dataset_train_min": 6.937980651855469e-05, "timer/dataset_train_max": 0.00021719932556152344, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.96292734146118, "timer/agent.train_frac": 0.3229803810937451, "timer/agent.train_avg": 0.13599288547189506, "timer/agent.train_min": 0.0996100902557373, "timer/agent.train_max": 0.42699670791625977, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5035245418548584, "timer/agent.report_frac": 0.0016772239955754294, "timer/agent.report_avg": 0.2517622709274292, "timer/agent.report_min": 0.10434174537658691, "timer/agent.report_max": 0.3991827964782715, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.890296936035156e-05, "timer/dataset_eval_frac": 2.295135668101997e-07, "timer/dataset_eval_avg": 6.890296936035156e-05, "timer/dataset_eval_min": 6.890296936035156e-05, "timer/dataset_eval_max": 6.890296936035156e-05, "fps": 9.499567345659601}
+{"step": 561596, "episode/length": 801.0, "episode/score": 1260.0, "episode/reward_rate": 0.12344139650872818}
+{"step": 562680, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.746704949273004, "train/action_min": 0.0, "train/action_std": 2.810471660561032, "train/actor_opt_grad_norm": 0.008080330787278298, "train/actor_opt_grad_steps": 139215.0, "train/actor_opt_loss": 0.0009946573977938694, "train/adv_mag": 0.6689431139578422, "train/adv_max": 0.643524928846293, "train/adv_mean": 0.0022099470654413584, "train/adv_min": -0.4192269550015529, "train/adv_std": 0.03557428404585355, "train/cont_avg": 0.9984809027777778, "train/cont_loss_mean": 0.00033667059911638645, "train/cont_loss_std": 0.009293722479887159, "train/cont_neg_acc": 0.9281609202253407, "train/cont_neg_loss": 0.18160111792634787, "train/cont_pos_acc": 0.9999728177984556, "train/cont_pos_loss": 8.706134953610161e-05, "train/cont_pred": 0.9985270525018374, "train/cont_rate": 0.9984809027777778, "train/dyn_loss_mean": 4.91252867049641, "train/dyn_loss_std": 6.850083973672655, "train/extr_critic_critic_opt_grad_norm": 2.2852587865458593, "train/extr_critic_critic_opt_grad_steps": 139215.0, "train/extr_critic_critic_opt_loss": 1.5101583815283246, "train/extr_critic_mag": 530.4576572842068, "train/extr_critic_max": 530.4576572842068, "train/extr_critic_mean": 201.35263866848416, "train/extr_critic_min": 0.7776532173156738, "train/extr_critic_std": 160.1802422205607, "train/extr_return_normed_mag": 1.296371512942844, "train/extr_return_normed_max": 1.296371512942844, "train/extr_return_normed_mean": 0.4378348860061831, "train/extr_return_normed_min": -0.00690023937366075, "train/extr_return_normed_std": 0.35673189411560696, "train/extr_return_rate": 0.9369150126973788, "train/extr_return_raw_mag": 590.7213244967991, "train/extr_return_raw_max": 590.7213244967991, "train/extr_return_raw_mean": 202.35236994425455, "train/extr_return_raw_min": 1.2178376441564371, "train/extr_return_raw_std": 161.33809492323132, "train/extr_reward_mag": 240.11127201716104, "train/extr_reward_max": 240.11127201716104, "train/extr_reward_mean": 1.0997482240200043, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.5501651300324335, "train/image_loss_mean": 1.7531594352589712, "train/image_loss_std": 1.5247666156954236, "train/model_loss_mean": 4.773212247424656, "train/model_loss_std": 5.374129096666972, "train/model_opt_grad_norm": 11.085670431454977, "train/model_opt_grad_steps": 139215.0, "train/model_opt_loss": 4.773212247424656, "train/policy_entropy_mag": 2.178684244553248, "train/policy_entropy_max": 2.178684244553248, "train/policy_entropy_mean": 1.142502647307184, "train/policy_entropy_min": 0.06961560611509615, "train/policy_entropy_std": 0.6096416984995207, "train/policy_logprob_mag": 6.8004096084170875, "train/policy_logprob_max": -0.008974389069610171, "train/policy_logprob_mean": -1.1422236288587253, "train/policy_logprob_min": -6.8004096084170875, "train/policy_logprob_std": 1.0944624957111146, "train/policy_randomness_mag": 0.9915619219342867, "train/policy_randomness_max": 0.9915619219342867, "train/policy_randomness_mean": 0.5199753621386157, "train/policy_randomness_min": 0.03168342774733901, "train/policy_randomness_std": 0.27745989461739856, "train/post_ent_mag": 59.531151400672066, "train/post_ent_max": 59.531151400672066, "train/post_ent_mean": 38.696270041995575, "train/post_ent_min": 20.530569897757637, "train/post_ent_std": 6.005578723218706, "train/prior_ent_mag": 79.86540190378825, "train/prior_ent_max": 79.86540190378825, "train/prior_ent_mean": 43.666152742173935, "train/prior_ent_min": 22.413699759377373, "train/prior_ent_std": 8.706441667344835, "train/rep_loss_mean": 4.91252867049641, "train/rep_loss_std": 6.850083973672655, "train/reward_avg": 1.4000108506944444, "train/reward_loss_mean": 0.0721989822987881, "train/reward_loss_std": 0.2604590679208438, "train/reward_max_data": 239.16666666666666, "train/reward_max_pred": 210.6471062898636, "train/reward_neg_acc": 0.9686721033520169, "train/reward_neg_loss": 0.009233754445126073, "train/reward_pos_acc": 0.9946812722418044, "train/reward_pos_loss": 0.6529998067352507, "train/reward_pred": 1.2788751729660564, "train/reward_rate": 0.0986328125, "train_stats/mean_log_entropy": 0.9713374972343445, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.279115804209141e-05, "report/cont_loss_std": 0.00024149670207407326, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0019828241784125566, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.0865416697924957e-05, "report/cont_pred": 0.9990145564079285, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.963739395141602, "report/dyn_loss_std": 6.859391212463379, "report/image_loss_mean": 1.94435453414917, "report/image_loss_std": 1.4975159168243408, "report/model_loss_mean": 5.016972541809082, "report/model_loss_std": 5.402175426483154, "report/post_ent_mag": 58.00169372558594, "report/post_ent_max": 58.00169372558594, "report/post_ent_mean": 38.85054016113281, "report/post_ent_min": 20.19405746459961, "report/post_ent_std": 5.01555871963501, "report/prior_ent_mag": 79.99073791503906, "report/prior_ent_max": 79.99073791503906, "report/prior_ent_mean": 44.02115249633789, "report/prior_ent_min": 21.533084869384766, "report/prior_ent_std": 8.115102767944336, "report/rep_loss_mean": 4.963739395141602, "report/rep_loss_std": 6.859391212463379, "report/reward_avg": 1.71875, "report/reward_loss_mean": 0.09436161816120148, "report/reward_loss_std": 0.2961249351501465, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.45021057128906, "report/reward_neg_acc": 0.9697648882865906, "report/reward_neg_loss": 0.01090295985341072, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.6632820963859558, "report/reward_pred": 1.629875659942627, "report/reward_rate": 0.1279296875, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0003176575992256403, "eval/cont_loss_std": 0.007850764319300652, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.04296914488077164, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.00023419091303367168, "eval/cont_pred": 0.9979187846183777, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.229388236999512, "eval/dyn_loss_std": 10.199198722839355, "eval/image_loss_mean": 4.801189422607422, "eval/image_loss_std": 4.258534908294678, "eval/model_loss_mean": 12.81086540222168, "eval/model_loss_std": 10.079845428466797, "eval/post_ent_mag": 60.168575286865234, "eval/post_ent_max": 60.168575286865234, "eval/post_ent_mean": 39.016021728515625, "eval/post_ent_min": 21.977012634277344, "eval/post_ent_std": 6.486941337585449, "eval/prior_ent_mag": 79.99073791503906, "eval/prior_ent_max": 79.99073791503906, "eval/prior_ent_mean": 45.58826446533203, "eval/prior_ent_min": 22.351259231567383, "eval/prior_ent_std": 9.928068161010742, "eval/rep_loss_mean": 12.229388236999512, "eval/rep_loss_std": 10.199198722839355, "eval/reward_avg": 1.8359375, "eval/reward_loss_mean": 0.671725869178772, "eval/reward_loss_std": 2.607943058013916, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.7219123840332, "eval/reward_neg_acc": 0.9049724340438843, "eval/reward_neg_loss": 0.20004601776599884, "eval/reward_pos_acc": 0.6974790096282959, "eval/reward_pos_loss": 4.258872032165527, "eval/reward_pred": 0.982647180557251, "eval/reward_rate": 0.1162109375, "replay/size": 140607.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.589293898573095e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3666015855058882e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.8330891132355, "timer/env.step_count": 713.0, "timer/env.step_total": 2.834465980529785, "timer/env.step_frac": 0.009453479563956051, "timer/env.step_avg": 0.003975408107334902, "timer/env.step_min": 0.002443552017211914, "timer/env.step_max": 0.023398399353027344, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.20495653152466, "timer/replay._sample_frac": 0.59434719849824, "timer/replay._sample_avg": 0.015621051589369273, "timer/replay._sample_min": 0.00821542739868164, "timer/replay._sample_max": 0.06504178047180176, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.08220911026, "timer/agent.policy_frac": 0.6639767802114539, "timer/agent.policy_avg": 0.27921768458661994, "timer/agent.policy_min": 0.003397703170776367, "timer/agent.policy_max": 0.31652069091796875, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08480381965637207, "timer/dataset_train_frac": 0.0002828367606363316, "timer/dataset_train_avg": 0.00011893943850823573, "timer/dataset_train_min": 7.104873657226562e-05, "timer/dataset_train_max": 0.00023698806762695312, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.12973237037659, "timer/agent.train_frac": 0.3239460082862783, "timer/agent.train_avg": 0.1362268336190415, "timer/agent.train_min": 0.10073304176330566, "timer/agent.train_max": 0.42690110206604004, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2031841278076172, "timer/agent.report_frac": 0.000677657454047316, "timer/agent.report_avg": 0.1015920639038086, "timer/agent.report_min": 0.10080599784851074, "timer/agent.report_max": 0.10237812995910645, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.601478576660156e-05, "timer/dataset_eval_frac": 1.534680041575516e-07, "timer/dataset_eval_avg": 4.601478576660156e-05, "timer/dataset_eval_min": 4.601478576660156e-05, "timer/dataset_eval_max": 4.601478576660156e-05, "fps": 9.511530605504747}
+{"step": 564696, "episode/length": 774.0, "episode/score": 1610.0, "episode/reward_rate": 0.12258064516129032}
+{"step": 565540, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.689096370213468, "train/action_min": 0.0, "train/action_std": 2.871048453827979, "train/actor_opt_grad_norm": 0.008258933647417687, "train/actor_opt_grad_steps": 139930.0, "train/actor_opt_loss": 0.00098011017167075, "train/adv_mag": 0.6829650909967826, "train/adv_max": 0.6498332023620605, "train/adv_mean": 0.002179466961588076, "train/adv_min": -0.401423143459038, "train/adv_std": 0.03587268749383134, "train/cont_avg": 0.9986795774647887, "train/cont_loss_mean": 0.0001461414760512761, "train/cont_loss_std": 0.004140396040949958, "train/cont_neg_acc": 0.9727272727272728, "train/cont_neg_loss": 0.03414465679613815, "train/cont_pos_acc": 0.9999586545245748, "train/cont_pos_loss": 9.459139522486135e-05, "train/cont_pred": 0.9986472902163653, "train/cont_rate": 0.9986795774647887, "train/dyn_loss_mean": 4.86636207808911, "train/dyn_loss_std": 6.75844050125337, "train/extr_critic_critic_opt_grad_norm": 2.2552612751302585, "train/extr_critic_critic_opt_grad_steps": 139930.0, "train/extr_critic_critic_opt_loss": 1.5270383257261464, "train/extr_critic_mag": 517.5870528959892, "train/extr_critic_max": 517.5870528959892, "train/extr_critic_mean": 205.13878706811178, "train/extr_critic_min": 0.4202883612941688, "train/extr_critic_std": 162.4263932134064, "train/extr_return_normed_mag": 1.333354243090455, "train/extr_return_normed_max": 1.333354243090455, "train/extr_return_normed_mean": 0.4464028616186599, "train/extr_return_normed_min": -0.008548745045989332, "train/extr_return_normed_std": 0.36171205950454927, "train/extr_return_rate": 0.9278242839893824, "train/extr_return_raw_mag": 606.9838415871204, "train/extr_return_raw_max": 606.9838415871204, "train/extr_return_raw_mean": 206.12390867421325, "train/extr_return_raw_min": 0.47084990612183647, "train/extr_return_raw_std": 163.51372893427458, "train/extr_reward_mag": 232.68162456028898, "train/extr_reward_max": 232.68162456028898, "train/extr_reward_mean": 1.2012889326458247, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.967647767402757, "train/image_loss_mean": 1.751061627562617, "train/image_loss_std": 1.498638112780074, "train/model_loss_mean": 4.746498151564262, "train/model_loss_std": 5.298160183597618, "train/model_opt_grad_norm": 11.298284167974767, "train/model_opt_grad_steps": 139930.0, "train/model_opt_loss": 4.746498151564262, "train/policy_entropy_mag": 2.172982561756188, "train/policy_entropy_max": 2.172982561756188, "train/policy_entropy_mean": 1.1298670735157712, "train/policy_entropy_min": 0.0695909010902257, "train/policy_entropy_std": 0.6098537621363788, "train/policy_logprob_mag": 6.800654223267461, "train/policy_logprob_max": -0.008969871471570412, "train/policy_logprob_mean": -1.128780526174626, "train/policy_logprob_min": -6.800654223267461, "train/policy_logprob_std": 1.0914038033552573, "train/policy_randomness_mag": 0.9889669762530797, "train/policy_randomness_max": 0.9889669762530797, "train/policy_randomness_mean": 0.5142246593891735, "train/policy_randomness_min": 0.0316721836341099, "train/policy_randomness_std": 0.2775564061504015, "train/post_ent_mag": 59.96583336843571, "train/post_ent_max": 59.96583336843571, "train/post_ent_mean": 38.86636019424653, "train/post_ent_min": 20.780768595950704, "train/post_ent_std": 5.988334440849196, "train/prior_ent_mag": 79.96410144214899, "train/prior_ent_max": 79.96410144214899, "train/prior_ent_mean": 43.789794653234345, "train/prior_ent_min": 22.35228909237284, "train/prior_ent_std": 8.627821794697937, "train/rep_loss_mean": 4.86636207808911, "train/rep_loss_std": 6.75844050125337, "train/reward_avg": 1.5344410211267605, "train/reward_loss_mean": 0.07547315629855009, "train/reward_loss_std": 0.2507045934317817, "train/reward_max_data": 240.0, "train/reward_max_pred": 206.0600385531573, "train/reward_neg_acc": 0.9690671412038131, "train/reward_neg_loss": 0.009321196988539797, "train/reward_pos_acc": 0.9962704702162407, "train/reward_pos_loss": 0.627344312802167, "train/reward_pred": 1.3878788780158675, "train/reward_rate": 0.10700924295774648, "train_stats/mean_log_entropy": 0.9102635383605957, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.370678198029054e-06, "report/cont_loss_std": 0.00013275905803311616, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.370678198029054e-06, "report/cont_pred": 0.9999956488609314, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.750248908996582, "report/dyn_loss_std": 6.803191184997559, "report/image_loss_mean": 1.7106633186340332, "report/image_loss_std": 1.3502638339996338, "report/model_loss_mean": 4.615297317504883, "report/model_loss_std": 5.09518575668335, "report/post_ent_mag": 53.65313720703125, "report/post_ent_max": 53.65313720703125, "report/post_ent_mean": 39.97902297973633, "report/post_ent_min": 26.53179931640625, "report/post_ent_std": 4.700178146362305, "report/prior_ent_mag": 80.01826477050781, "report/prior_ent_max": 80.01826477050781, "report/prior_ent_mean": 44.928157806396484, "report/prior_ent_min": 29.644058227539062, "report/prior_ent_std": 6.946713924407959, "report/rep_loss_mean": 4.750248908996582, "report/rep_loss_std": 6.803191184997559, "report/reward_avg": 1.6015625, "report/reward_loss_mean": 0.05448044836521149, "report/reward_loss_std": 0.2256566733121872, "report/reward_max_data": 400.0, "report/reward_max_pred": 200.1001434326172, "report/reward_neg_acc": 0.9765207767486572, "report/reward_neg_loss": 0.004218123387545347, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5958114862442017, "report/reward_pred": 1.2168774604797363, "report/reward_rate": 0.0849609375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 8.851184247760102e-07, "eval/cont_loss_std": 2.522905560908839e-05, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 9.509979281574488e-05, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 7.93021968092944e-07, "eval/cont_pred": 0.9990227222442627, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.173599243164062, "eval/dyn_loss_std": 9.499153137207031, "eval/image_loss_mean": 4.24614953994751, "eval/image_loss_std": 3.256486654281616, "eval/model_loss_mean": 12.662775993347168, "eval/model_loss_std": 9.043706893920898, "eval/post_ent_mag": 61.07142639160156, "eval/post_ent_max": 61.07142639160156, "eval/post_ent_mean": 41.108802795410156, "eval/post_ent_min": 23.348392486572266, "eval/post_ent_std": 5.575562477111816, "eval/prior_ent_mag": 80.01826477050781, "eval/prior_ent_max": 80.01826477050781, "eval/prior_ent_mean": 48.32233428955078, "eval/prior_ent_min": 24.819149017333984, "eval/prior_ent_std": 8.48334789276123, "eval/rep_loss_mean": 12.173599243164062, "eval/rep_loss_std": 9.499153137207031, "eval/reward_avg": 1.884765625, "eval/reward_loss_mean": 1.1124656200408936, "eval/reward_loss_std": 3.4503395557403564, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.961578369140625, "eval/reward_neg_acc": 0.8456375598907471, "eval/reward_neg_loss": 0.2316277027130127, "eval/reward_pos_acc": 0.4307692348957062, "eval/reward_pos_loss": 7.169920444488525, "eval/reward_pred": 1.031371831893921, "eval/reward_rate": 0.126953125, "replay/size": 141322.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.421605143513713e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3555263305877473e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.3709068298339844e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.59754252433777, "timer/env.step_count": 715.0, "timer/env.step_total": 2.8271145820617676, "timer/env.step_frac": 0.009404982350555547, "timer/env.step_avg": 0.003954006408477997, "timer/env.step_min": 0.0025000572204589844, "timer/env.step_max": 0.02467942237854004, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 175.30229687690735, "timer/replay._sample_frac": 0.5831794079378213, "timer/replay._sample_avg": 0.015323627349380012, "timer/replay._sample_min": 0.008260250091552734, "timer/replay._sample_max": 0.03675222396850586, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.77782726287842, "timer/agent.policy_frac": 0.6646023303623764, "timer/agent.policy_avg": 0.27940954861941036, "timer/agent.policy_min": 0.003251314163208008, "timer/agent.policy_max": 0.314424991607666, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.08303070068359375, "timer/dataset_train_frac": 0.00027621882729420916, "timer/dataset_train_avg": 0.00011612685410292832, "timer/dataset_train_min": 7.271766662597656e-05, "timer/dataset_train_max": 0.00019621849060058594, "timer/agent.train_count": 715.0, "timer/agent.train_total": 96.91377425193787, "timer/agent.train_frac": 0.32240374767565266, "timer/agent.train_avg": 0.1355437402125005, "timer/agent.train_min": 0.09741044044494629, "timer/agent.train_max": 0.42780327796936035, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5006530284881592, "timer/agent.report_frac": 0.0016655260195536162, "timer/agent.report_avg": 0.2503265142440796, "timer/agent.report_min": 0.10033249855041504, "timer/agent.report_max": 0.40032052993774414, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.532669067382812e-05, "timer/dataset_eval_frac": 2.1732277025697564e-07, "timer/dataset_eval_avg": 6.532669067382812e-05, "timer/dataset_eval_min": 6.532669067382812e-05, "timer/dataset_eval_max": 6.532669067382812e-05, "fps": 9.514076995656065}
+{"step": 567792, "episode/length": 773.0, "episode/score": 1330.0, "episode/reward_rate": 0.13695090439276486}
+{"step": 568392, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.733576385068222, "train/action_min": 0.0, "train/action_std": 2.83966794819899, "train/actor_opt_grad_norm": 0.008010272087503068, "train/actor_opt_grad_steps": 140640.0, "train/actor_opt_loss": 0.000882112680803745, "train/adv_mag": 0.590440186816202, "train/adv_max": 0.5666195347275532, "train/adv_mean": 0.0020844297706504914, "train/adv_min": -0.4100107894816869, "train/adv_std": 0.03323326178524696, "train/cont_avg": 0.9987896126760564, "train/cont_loss_mean": 0.00019619625171531116, "train/cont_loss_std": 0.005724705241934138, "train/cont_neg_acc": 0.9465408808780167, "train/cont_neg_loss": 0.14478244749093805, "train/cont_pos_acc": 0.999999999160498, "train/cont_pos_loss": 3.179485297000184e-05, "train/cont_pred": 0.9988341163581526, "train/cont_rate": 0.9987896126760564, "train/dyn_loss_mean": 4.891907215118408, "train/dyn_loss_std": 6.790433017300888, "train/extr_critic_critic_opt_grad_norm": 2.2382912232842243, "train/extr_critic_critic_opt_grad_steps": 140640.0, "train/extr_critic_critic_opt_loss": 1.5217169456078972, "train/extr_critic_mag": 519.3472333021567, "train/extr_critic_max": 519.3472333021567, "train/extr_critic_mean": 205.97669982910156, "train/extr_critic_min": 0.054280499337424695, "train/extr_critic_std": 160.1994042195065, "train/extr_return_normed_mag": 1.226416204177158, "train/extr_return_normed_max": 1.226416204177158, "train/extr_return_normed_mean": 0.44425324298126595, "train/extr_return_normed_min": -0.009900580783387725, "train/extr_return_normed_std": 0.3534022030276312, "train/extr_return_rate": 0.9408726247263627, "train/extr_return_raw_mag": 563.2528076171875, "train/extr_return_raw_max": 563.2528076171875, "train/extr_return_raw_mean": 206.92618453334754, "train/extr_return_raw_min": 0.05421341854454228, "train/extr_return_raw_std": 160.98375100149235, "train/extr_reward_mag": 213.1046693828744, "train/extr_reward_max": 213.1046693828744, "train/extr_reward_mean": 1.1719101197283033, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.507791260598411, "train/image_loss_mean": 1.7525132743405625, "train/image_loss_std": 1.4805376210682828, "train/model_loss_mean": 4.764087932210573, "train/model_loss_std": 5.303777761862311, "train/model_opt_grad_norm": 11.462399160358268, "train/model_opt_grad_steps": 140640.0, "train/model_opt_loss": 4.764087932210573, "train/policy_entropy_mag": 2.1766667634668484, "train/policy_entropy_max": 2.1766667634668484, "train/policy_entropy_mean": 1.1149713489371287, "train/policy_entropy_min": 0.06964358855301225, "train/policy_entropy_std": 0.6192470973646137, "train/policy_logprob_mag": 6.800250933203898, "train/policy_logprob_max": -0.008978106304478477, "train/policy_logprob_mean": -1.1150591129988012, "train/policy_logprob_min": -6.800250933203898, "train/policy_logprob_std": 1.0970532323273134, "train/policy_randomness_mag": 0.9906437287867909, "train/policy_randomness_max": 0.9906437287867909, "train/policy_randomness_mean": 0.507445323635155, "train/policy_randomness_min": 0.03169616275060345, "train/policy_randomness_std": 0.28183149871691854, "train/post_ent_mag": 59.52224156554316, "train/post_ent_max": 59.52224156554316, "train/post_ent_mean": 38.977025529028666, "train/post_ent_min": 20.83250674395494, "train/post_ent_std": 5.975601176141014, "train/prior_ent_mag": 79.98531277078978, "train/prior_ent_max": 79.98531277078978, "train/prior_ent_mean": 43.93170628077547, "train/prior_ent_min": 23.04362592562823, "train/prior_ent_std": 8.599579387987164, "train/rep_loss_mean": 4.891907215118408, "train/rep_loss_std": 6.790433017300888, "train/reward_avg": 1.4403609154929577, "train/reward_loss_mean": 0.07623413551441381, "train/reward_loss_std": 0.25434442997818263, "train/reward_max_data": 209.85915492957747, "train/reward_max_pred": 188.7068869899696, "train/reward_neg_acc": 0.9663300472246089, "train/reward_neg_loss": 0.009600002292386244, "train/reward_pos_acc": 0.9963482022285461, "train/reward_pos_loss": 0.6385830976593663, "train/reward_pred": 1.326169940787302, "train/reward_rate": 0.1062802596830986, "train_stats/mean_log_entropy": 1.1117459535598755, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.6419394341937732e-06, "report/cont_loss_std": 3.3869910112116486e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 4.6187146836018655e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.6390295058954507e-06, "report/cont_pred": 0.9990218281745911, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.09576940536499, "report/dyn_loss_std": 6.977686405181885, "report/image_loss_mean": 1.807220458984375, "report/image_loss_std": 1.6478710174560547, "report/model_loss_mean": 4.921383857727051, "report/model_loss_std": 5.5769362449646, "report/post_ent_mag": 56.34836959838867, "report/post_ent_max": 56.34836959838867, "report/post_ent_mean": 40.217201232910156, "report/post_ent_min": 22.673114776611328, "report/post_ent_std": 4.951864242553711, "report/prior_ent_mag": 80.1924819946289, "report/prior_ent_max": 80.1924819946289, "report/prior_ent_mean": 45.24433135986328, "report/prior_ent_min": 24.41116714477539, "report/prior_ent_std": 7.597132682800293, "report/rep_loss_mean": 5.09576940536499, "report/rep_loss_std": 6.977686405181885, "report/reward_avg": 0.8203125, "report/reward_loss_mean": 0.05670002102851868, "report/reward_loss_std": 0.233468160033226, "report/reward_max_data": 50.0, "report/reward_max_pred": 48.288509368896484, "report/reward_neg_acc": 0.9788135886192322, "report/reward_neg_loss": 0.008298886008560658, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.627833366394043, "report/reward_pred": 0.7924243807792664, "report/reward_rate": 0.078125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00015860046551097184, "eval/cont_loss_std": 0.005060609895735979, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.16201862692832947, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.7952418097120244e-07, "eval/cont_pred": 0.999169111251831, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 13.699464797973633, "eval/dyn_loss_std": 10.208913803100586, "eval/image_loss_mean": 4.591830730438232, "eval/image_loss_std": 3.50516939163208, "eval/model_loss_mean": 13.800660133361816, "eval/model_loss_std": 9.86270809173584, "eval/post_ent_mag": 60.451263427734375, "eval/post_ent_max": 60.451263427734375, "eval/post_ent_mean": 42.79680633544922, "eval/post_ent_min": 22.647144317626953, "eval/post_ent_std": 5.118704319000244, "eval/prior_ent_mag": 80.1924819946289, "eval/prior_ent_max": 80.1924819946289, "eval/prior_ent_mean": 50.099205017089844, "eval/prior_ent_min": 24.456371307373047, "eval/prior_ent_std": 7.239842414855957, "eval/rep_loss_mean": 13.699464797973633, "eval/rep_loss_std": 10.208913803100586, "eval/reward_avg": 1.71875, "eval/reward_loss_mean": 0.9889922738075256, "eval/reward_loss_std": 3.0561470985412598, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 10.75487232208252, "eval/reward_neg_acc": 0.8514412641525269, "eval/reward_neg_loss": 0.2380749136209488, "eval/reward_pos_acc": 0.409836083650589, "eval/reward_pos_loss": 6.540857315063477, "eval/reward_pred": 0.6834888458251953, "eval/reward_rate": 0.119140625, "replay/size": 142035.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.502018654329747e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3615230691382796e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4454126358032227e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0626120567322, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8534140586853027, "timer/env.step_frac": 0.009509395519578474, "timer/env.step_avg": 0.004001983252013047, "timer/env.step_min": 0.0023200511932373047, "timer/env.step_max": 0.021902084350585938, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 178.01895117759705, "timer/replay._sample_frac": 0.5932726838488608, "timer/replay._sample_avg": 0.015604746772229755, "timer/replay._sample_min": 0.007573366165161133, "timer/replay._sample_max": 0.05764174461364746, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10216784477233887, "timer/agent.save_frac": 0.00034048842030683324, "timer/agent.save_avg": 0.10216784477233887, "timer/agent.save_min": 0.10216784477233887, "timer/agent.save_max": 0.10216784477233887, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.25450921058655, "timer/agent.policy_frac": 0.6640431070196574, "timer/agent.policy_avg": 0.2794593397062925, "timer/agent.policy_min": 0.003278970718383789, "timer/agent.policy_max": 0.36492037773132324, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.0833735466003418, "timer/dataset_train_frac": 0.00027785383200149753, "timer/dataset_train_avg": 0.0001169334454422746, "timer/dataset_train_min": 6.818771362304688e-05, "timer/dataset_train_max": 0.000217437744140625, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.87567210197449, "timer/agent.train_frac": 0.3228515256797752, "timer/agent.train_avg": 0.1358705078569067, "timer/agent.train_min": 0.10027527809143066, "timer/agent.train_max": 0.4280731678009033, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49803829193115234, "timer/agent.report_frac": 0.0016597812320482944, "timer/agent.report_avg": 0.24901914596557617, "timer/agent.report_min": 0.10057973861694336, "timer/agent.report_max": 0.397458553314209, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.508827209472656e-05, "timer/dataset_eval_frac": 2.169156352022306e-07, "timer/dataset_eval_avg": 6.508827209472656e-05, "timer/dataset_eval_min": 6.508827209472656e-05, "timer/dataset_eval_max": 6.508827209472656e-05, "fps": 9.50435197103837}
+{"step": 571248, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.758917066786024, "train/action_min": 0.0, "train/action_std": 2.8756069938341775, "train/actor_opt_grad_norm": 0.007887270447099581, "train/actor_opt_grad_steps": 141355.0, "train/actor_opt_loss": 0.00024990404108393705, "train/adv_mag": 0.592963052706586, "train/adv_max": 0.5617988287574716, "train/adv_mean": 0.0013176233711015407, "train/adv_min": -0.4185725359453095, "train/adv_std": 0.03308844046356777, "train/cont_avg": 0.9988335503472222, "train/cont_loss_mean": 0.00019060095089807697, "train/cont_loss_std": 0.00445973420986761, "train/cont_neg_acc": 0.9869281053543091, "train/cont_neg_loss": 0.05253812186613467, "train/cont_pos_acc": 0.9999863571590848, "train/cont_pos_loss": 9.444514854404907e-05, "train/cont_pred": 0.9988166896833314, "train/cont_rate": 0.9988335503472222, "train/dyn_loss_mean": 4.930595225758022, "train/dyn_loss_std": 6.829449050956303, "train/extr_critic_critic_opt_grad_norm": 2.257884316974216, "train/extr_critic_critic_opt_grad_steps": 141355.0, "train/extr_critic_critic_opt_loss": 1.5142842928568523, "train/extr_critic_mag": 519.4717364841038, "train/extr_critic_max": 519.4717364841038, "train/extr_critic_mean": 201.81842019822864, "train/extr_critic_min": 0.037099464072121516, "train/extr_critic_std": 160.06049007839627, "train/extr_return_normed_mag": 1.2170247948831983, "train/extr_return_normed_max": 1.2170247948831983, "train/extr_return_normed_mean": 0.4360063154664304, "train/extr_return_normed_min": -0.008870025262391815, "train/extr_return_normed_std": 0.35280507802963257, "train/extr_return_rate": 0.9318070494466357, "train/extr_return_raw_mag": 557.6807115342882, "train/extr_return_raw_max": 557.6807115342882, "train/extr_return_raw_mean": 202.4176663292779, "train/extr_return_raw_min": 0.02850257987711302, "train/extr_return_raw_std": 160.49358039432101, "train/extr_reward_mag": 207.27021487553915, "train/extr_reward_max": 207.27021487553915, "train/extr_reward_mean": 1.1005567121836874, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.819321864181095, "train/image_loss_mean": 1.756639117995898, "train/image_loss_std": 1.515028026368883, "train/model_loss_mean": 4.7883405685424805, "train/model_loss_std": 5.353605018721686, "train/model_opt_grad_norm": 11.584737433327568, "train/model_opt_grad_steps": 141355.0, "train/model_opt_loss": 4.7883405685424805, "train/policy_entropy_mag": 2.1778213679790497, "train/policy_entropy_max": 2.1778213679790497, "train/policy_entropy_mean": 1.1186611950397491, "train/policy_entropy_min": 0.06952969222846958, "train/policy_entropy_std": 0.6264618784189224, "train/policy_logprob_mag": 6.800294876098633, "train/policy_logprob_max": -0.00896076616158502, "train/policy_logprob_mean": -1.1189885073237948, "train/policy_logprob_min": -6.800294876098633, "train/policy_logprob_std": 1.1005312601725261, "train/policy_randomness_mag": 0.9911692125929726, "train/policy_randomness_max": 0.9911692125929726, "train/policy_randomness_mean": 0.5091246391336123, "train/policy_randomness_min": 0.031644326324264206, "train/policy_randomness_std": 0.28511508450739914, "train/post_ent_mag": 59.829686323801674, "train/post_ent_max": 59.829686323801674, "train/post_ent_mean": 38.70839050081041, "train/post_ent_min": 20.717456526226467, "train/post_ent_std": 5.995104193687439, "train/prior_ent_mag": 80.09025361802843, "train/prior_ent_max": 80.09025361802843, "train/prior_ent_mean": 43.64187288284302, "train/prior_ent_min": 22.52906600634257, "train/prior_ent_std": 8.688730743196276, "train/rep_loss_mean": 4.930595225758022, "train/rep_loss_std": 6.829449050956303, "train/reward_avg": 1.4165581597222223, "train/reward_loss_mean": 0.07315369219415718, "train/reward_loss_std": 0.24915989343490866, "train/reward_max_data": 233.19444444444446, "train/reward_max_pred": 190.71209179030524, "train/reward_neg_acc": 0.9674684554338455, "train/reward_neg_loss": 0.009023817931948643, "train/reward_pos_acc": 0.9959378896488084, "train/reward_pos_loss": 0.6407660063770082, "train/reward_pred": 1.2852761463986502, "train/reward_rate": 0.10154893663194445, "report/cont_avg": 1.0, "report/cont_loss_mean": 4.088405205493473e-07, "report/cont_loss_std": 1.2001079994661268e-05, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.088405205493473e-07, "report/cont_pred": 0.9999995827674866, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.4642333984375, "report/dyn_loss_std": 6.521675109863281, "report/image_loss_mean": 1.621866226196289, "report/image_loss_std": 1.4533623456954956, "report/model_loss_mean": 4.397267818450928, "report/model_loss_std": 5.071841716766357, "report/post_ent_mag": 60.99373245239258, "report/post_ent_max": 60.99373245239258, "report/post_ent_mean": 38.06709671020508, "report/post_ent_min": 19.008913040161133, "report/post_ent_std": 6.468449592590332, "report/prior_ent_mag": 80.10726928710938, "report/prior_ent_max": 80.10726928710938, "report/prior_ent_mean": 42.371742248535156, "report/prior_ent_min": 22.15993309020996, "report/prior_ent_std": 9.098244667053223, "report/rep_loss_mean": 4.4642333984375, "report/rep_loss_std": 6.521675109863281, "report/reward_avg": 1.484375, "report/reward_loss_mean": 0.09686137735843658, "report/reward_loss_std": 0.24481301009655, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.90933609008789, "report/reward_neg_acc": 0.9522727131843567, "report/reward_neg_loss": 0.017027627676725388, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5847342610359192, "report/reward_pred": 1.448724627494812, "report/reward_rate": 0.140625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 1.895504283311311e-05, "eval/cont_loss_std": 0.0006048490758985281, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.00969318114221096, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.3094399281831102e-08, "eval/cont_pred": 0.9980655908584595, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.397494316101074, "eval/dyn_loss_std": 10.352584838867188, "eval/image_loss_mean": 4.299522399902344, "eval/image_loss_std": 3.8821511268615723, "eval/model_loss_mean": 12.415042877197266, "eval/model_loss_std": 9.73622989654541, "eval/post_ent_mag": 60.53160858154297, "eval/post_ent_max": 60.53160858154297, "eval/post_ent_mean": 40.12352752685547, "eval/post_ent_min": 22.318565368652344, "eval/post_ent_std": 5.859102249145508, "eval/prior_ent_mag": 80.10726928710938, "eval/prior_ent_max": 80.10726928710938, "eval/prior_ent_mean": 47.488441467285156, "eval/prior_ent_min": 24.551713943481445, "eval/prior_ent_std": 8.912089347839355, "eval/rep_loss_mean": 12.397494316101074, "eval/rep_loss_std": 10.352584838867188, "eval/reward_avg": 1.298828125, "eval/reward_loss_mean": 0.6770037412643433, "eval/reward_loss_std": 2.4349513053894043, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.606239318847656, "eval/reward_neg_acc": 0.8957189917564392, "eval/reward_neg_loss": 0.17769986391067505, "eval/reward_pos_acc": 0.5486725568771362, "eval/reward_pos_loss": 4.702364921569824, "eval/reward_pred": 0.880892276763916, "eval/reward_rate": 0.1103515625, "replay/size": 142749.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.539391888957732e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.382614885057722e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6242265701293945e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.30525636672974, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8313472270965576, "timer/env.step_frac": 0.009428230665529693, "timer/env.step_avg": 0.003965472306857924, "timer/env.step_min": 0.002597332000732422, "timer/env.step_max": 0.007749080657958984, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 178.23238945007324, "timer/replay._sample_frac": 0.5935040618550401, "timer/replay._sample_avg": 0.015601574706764114, "timer/replay._sample_min": 0.007285118103027344, "timer/replay._sample_max": 0.05347299575805664, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.14952635765076, "timer/agent.policy_frac": 0.663156978226353, "timer/agent.policy_avg": 0.2789209052628162, "timer/agent.policy_min": 0.003304004669189453, "timer/agent.policy_max": 0.3141763210296631, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08434081077575684, "timer/dataset_train_frac": 0.000280850264814415, "timer/dataset_train_avg": 0.00011812438483999557, "timer/dataset_train_min": 6.937980651855469e-05, "timer/dataset_train_max": 0.0005621910095214844, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.24991345405579, "timer/agent.train_frac": 0.32383686729510713, "timer/agent.train_avg": 0.13620436057991006, "timer/agent.train_min": 0.10056734085083008, "timer/agent.train_max": 0.4269847869873047, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4964156150817871, "timer/agent.report_frac": 0.0016530367169982846, "timer/agent.report_avg": 0.24820780754089355, "timer/agent.report_min": 0.09797263145446777, "timer/agent.report_max": 0.39844298362731934, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.315376281738281e-05, "timer/dataset_eval_frac": 1.4369965860565516e-07, "timer/dataset_eval_avg": 4.315376281738281e-05, "timer/dataset_eval_min": 4.315376281738281e-05, "timer/dataset_eval_max": 4.315376281738281e-05, "fps": 9.510019654699608}
+{"step": 571296, "episode/length": 875.0, "episode/score": 1950.0, "episode/reward_rate": 0.12442922374429223}
+{"step": 574104, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.811557823503521, "train/action_min": 0.0, "train/action_std": 2.8457868938714688, "train/actor_opt_grad_norm": 0.007805434688532227, "train/actor_opt_grad_steps": 142070.0, "train/actor_opt_loss": 0.0008901636470832721, "train/adv_mag": 0.6579990666097318, "train/adv_max": 0.6356319938327225, "train/adv_mean": 0.0021706005875746764, "train/adv_min": -0.378435986562514, "train/adv_std": 0.034292662975338985, "train/cont_avg": 0.9984595070422535, "train/cont_loss_mean": 0.00032299411288173424, "train/cont_loss_std": 0.009254359676889604, "train/cont_neg_acc": 0.9110169491525424, "train/cont_neg_loss": 0.2108562052376321, "train/cont_pos_acc": 0.999999998320996, "train/cont_pos_loss": 6.407824429847218e-05, "train/cont_pred": 0.9985035674672731, "train/cont_rate": 0.9984595070422535, "train/dyn_loss_mean": 4.8915262423770525, "train/dyn_loss_std": 6.852139365505165, "train/extr_critic_critic_opt_grad_norm": 2.285023630504877, "train/extr_critic_critic_opt_grad_steps": 142070.0, "train/extr_critic_critic_opt_loss": 1.512723037894343, "train/extr_critic_mag": 543.3389780823613, "train/extr_critic_max": 543.3389780823613, "train/extr_critic_mean": 205.19275138747525, "train/extr_critic_min": 0.19582799454809915, "train/extr_critic_std": 161.3203584912797, "train/extr_return_normed_mag": 1.339125828004219, "train/extr_return_normed_max": 1.339125828004219, "train/extr_return_normed_mean": 0.44423004187328713, "train/extr_return_normed_min": -0.009329808869359779, "train/extr_return_normed_std": 0.3576499492349759, "train/extr_return_rate": 0.9345089239133916, "train/extr_return_raw_mag": 612.7822158168739, "train/extr_return_raw_max": 612.7822158168739, "train/extr_return_raw_mean": 206.17863174223564, "train/extr_return_raw_min": 0.17004026415713563, "train/extr_return_raw_std": 162.4585931267537, "train/extr_reward_mag": 217.7343929989237, "train/extr_reward_max": 217.7343929989237, "train/extr_reward_mean": 1.111141779053379, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.978672746201636, "train/image_loss_mean": 1.7382914415547546, "train/image_loss_std": 1.5111530146128695, "train/model_loss_mean": 4.750268761540802, "train/model_loss_std": 5.375602507255446, "train/model_opt_grad_norm": 11.25361621211952, "train/model_opt_grad_steps": 142070.0, "train/model_opt_loss": 4.750268761540802, "train/policy_entropy_mag": 2.17915914763867, "train/policy_entropy_max": 2.17915914763867, "train/policy_entropy_mean": 1.12989080371991, "train/policy_entropy_min": 0.06962071631995725, "train/policy_entropy_std": 0.6362060258086298, "train/policy_logprob_mag": 6.800972817649304, "train/policy_logprob_max": -0.008974390524164053, "train/policy_logprob_mean": -1.1296202171016747, "train/policy_logprob_min": -6.800972817649304, "train/policy_logprob_std": 1.1007150378025754, "train/policy_randomness_mag": 0.991778058065495, "train/policy_randomness_max": 0.991778058065495, "train/policy_randomness_mean": 0.5142354587434044, "train/policy_randomness_min": 0.03168575303025649, "train/policy_randomness_std": 0.28954983722995703, "train/post_ent_mag": 60.087185711927816, "train/post_ent_max": 60.087185711927816, "train/post_ent_mean": 38.72673604186152, "train/post_ent_min": 20.367865360958476, "train/post_ent_std": 6.0528397828760285, "train/prior_ent_mag": 79.99033484660404, "train/prior_ent_max": 79.99033484660404, "train/prior_ent_mean": 43.71176351627833, "train/prior_ent_min": 22.496307776007853, "train/prior_ent_std": 8.699284163998886, "train/rep_loss_mean": 4.8915262423770525, "train/rep_loss_std": 6.852139365505165, "train/reward_avg": 1.4609925176056338, "train/reward_loss_mean": 0.07673857450275354, "train/reward_loss_std": 0.2652772008113458, "train/reward_max_data": 247.32394366197184, "train/reward_max_pred": 181.75522065498458, "train/reward_neg_acc": 0.9642107990426076, "train/reward_neg_loss": 0.010858952858104882, "train/reward_pos_acc": 0.9951153473115303, "train/reward_pos_loss": 0.6544946197053076, "train/reward_pred": 1.26535521846422, "train/reward_rate": 0.10233274647887323, "train_stats/mean_log_entropy": 1.2378312349319458, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 4.5114242652743997e-07, "report/cont_loss_std": 5.808464720757911e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.459777013224084e-05, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.0957542069008923e-07, "report/cont_pred": 0.9970699548721313, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.848934173583984, "report/dyn_loss_std": 6.695979118347168, "report/image_loss_mean": 1.7027664184570312, "report/image_loss_std": 1.3856629133224487, "report/model_loss_mean": 4.65612268447876, "report/model_loss_std": 5.168426990509033, "report/post_ent_mag": 60.17963409423828, "report/post_ent_max": 60.17963409423828, "report/post_ent_mean": 40.21100616455078, "report/post_ent_min": 19.053434371948242, "report/post_ent_std": 6.245323657989502, "report/prior_ent_mag": 79.92022705078125, "report/prior_ent_max": 79.92022705078125, "report/prior_ent_mean": 45.00149154663086, "report/prior_ent_min": 22.00812530517578, "report/prior_ent_std": 8.697543144226074, "report/rep_loss_mean": 4.848934173583984, "report/rep_loss_std": 6.695979118347168, "report/reward_avg": 0.849609375, "report/reward_loss_mean": 0.043995000422000885, "report/reward_loss_std": 0.227093905210495, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.81275939941406, "report/reward_neg_acc": 0.9781250357627869, "report/reward_neg_loss": 0.003359504509717226, "report/reward_pos_acc": 0.984375, "report/reward_pos_loss": 0.6535274982452393, "report/reward_pred": 0.8119051456451416, "report/reward_rate": 0.0625, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.012862402945756912, "eval/cont_loss_std": 0.29141777753829956, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.585275650024414, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.371213660509966e-07, "eval/cont_pred": 0.9999964833259583, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 12.957653045654297, "eval/dyn_loss_std": 10.866904258728027, "eval/image_loss_mean": 4.9521284103393555, "eval/image_loss_std": 4.385263919830322, "eval/model_loss_mean": 13.199230194091797, "eval/model_loss_std": 10.871113777160645, "eval/post_ent_mag": 60.34534454345703, "eval/post_ent_max": 60.34534454345703, "eval/post_ent_mean": 39.438255310058594, "eval/post_ent_min": 18.807565689086914, "eval/post_ent_std": 6.6343302726745605, "eval/prior_ent_mag": 79.92022705078125, "eval/prior_ent_max": 79.92022705078125, "eval/prior_ent_mean": 46.94875717163086, "eval/prior_ent_min": 20.737899780273438, "eval/prior_ent_std": 10.691898345947266, "eval/rep_loss_mean": 12.957653045654297, "eval/rep_loss_std": 10.866904258728027, "eval/reward_avg": 0.751953125, "eval/reward_loss_mean": 0.45964786410331726, "eval/reward_loss_std": 2.5088412761688232, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.37981033325195, "eval/reward_neg_acc": 0.949526846408844, "eval/reward_neg_loss": 0.053476281464099884, "eval/reward_pos_acc": 0.602739691734314, "eval/reward_pos_loss": 5.751006603240967, "eval/reward_pred": 0.5613807439804077, "eval/reward_rate": 0.0712890625, "replay/size": 143463.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.470270536192993e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3990812942761334e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.4000930786133, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8597843647003174, "timer/env.step_frac": 0.009519918370837273, "timer/env.step_avg": 0.004005300230672713, "timer/env.step_min": 0.0025048255920410156, "timer/env.step_max": 0.02458333969116211, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 184.46296763420105, "timer/replay._sample_frac": 0.6140576247622133, "timer/replay._sample_avg": 0.016146968455374743, "timer/replay._sample_min": 0.007919549942016602, "timer/replay._sample_max": 0.05112338066101074, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.37784814834595, "timer/agent.policy_frac": 0.6637076776676287, "timer/agent.policy_avg": 0.2792406836811568, "timer/agent.policy_min": 0.003332376480102539, "timer/agent.policy_max": 0.327150821685791, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08590006828308105, "timer/dataset_train_frac": 0.00028595220261999523, "timer/dataset_train_avg": 0.00012030821888386702, "timer/dataset_train_min": 6.866455078125e-05, "timer/dataset_train_max": 0.0005338191986083984, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.07004618644714, "timer/agent.train_frac": 0.32313587253464787, "timer/agent.train_avg": 0.13595244563928172, "timer/agent.train_min": 0.10063314437866211, "timer/agent.train_max": 0.4266643524169922, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5027945041656494, "timer/agent.report_frac": 0.001673749495257548, "timer/agent.report_avg": 0.2513972520828247, "timer/agent.report_min": 0.10191106796264648, "timer/agent.report_max": 0.40088343620300293, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 9.179115295410156e-05, "timer/dataset_eval_frac": 3.0556299771212205e-07, "timer/dataset_eval_avg": 9.179115295410156e-05, "timer/dataset_eval_min": 9.179115295410156e-05, "timer/dataset_eval_max": 9.179115295410156e-05, "fps": 9.506921465677367}
+{"step": 574608, "episode/length": 827.0, "episode/score": 1080.0, "episode/reward_rate": 0.12077294685990338}
+{"step": 576956, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.728038519201144, "train/action_min": 0.0, "train/action_std": 2.889159743214997, "train/actor_opt_grad_norm": 0.008563075939350774, "train/actor_opt_grad_steps": 142780.0, "train/actor_opt_loss": 0.00117823360571979, "train/adv_mag": 0.7069788373691935, "train/adv_max": 0.6722743767248073, "train/adv_mean": 0.0025932952892514845, "train/adv_min": -0.4303140245692831, "train/adv_std": 0.03691134875981321, "train/cont_avg": 0.9984457526408451, "train/cont_loss_mean": 0.00019063212802074156, "train/cont_loss_std": 0.0045184633027816135, "train/cont_neg_acc": 0.9766081874830681, "train/cont_neg_loss": 0.032862714396851324, "train/cont_pos_acc": 0.9999586562035789, "train/cont_pos_loss": 0.00012905401780126998, "train/cont_pred": 0.998392145398637, "train/cont_rate": 0.9984457526408451, "train/dyn_loss_mean": 4.863999276094034, "train/dyn_loss_std": 6.881204517794327, "train/extr_critic_critic_opt_grad_norm": 2.320598842392505, "train/extr_critic_critic_opt_grad_steps": 142780.0, "train/extr_critic_critic_opt_loss": 1.5114190175499715, "train/extr_critic_mag": 528.7726414640185, "train/extr_critic_max": 528.7726414640185, "train/extr_critic_mean": 208.104257932851, "train/extr_critic_min": 0.017496381007449727, "train/extr_critic_std": 160.63386503407654, "train/extr_return_normed_mag": 1.3541768654971056, "train/extr_return_normed_max": 1.3541768654971056, "train/extr_return_normed_mean": 0.4510766330739142, "train/extr_return_normed_min": -0.010319056684597276, "train/extr_return_normed_std": 0.357123904035125, "train/extr_return_rate": 0.9398437998664211, "train/extr_return_raw_mag": 618.8358210174131, "train/extr_return_raw_max": 618.8358210174131, "train/extr_return_raw_mean": 209.2797730136925, "train/extr_return_raw_min": 0.019317671015504485, "train/extr_return_raw_std": 161.9844734299351, "train/extr_reward_mag": 214.97316081087354, "train/extr_reward_max": 214.97316081087354, "train/extr_reward_mean": 1.1391142077848946, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.497362882318631, "train/image_loss_mean": 1.7384508579549656, "train/image_loss_std": 1.5459229392065128, "train/model_loss_mean": 4.732263229262661, "train/model_loss_std": 5.41821143324946, "train/model_opt_grad_norm": 11.704902716085945, "train/model_opt_grad_steps": 142780.0, "train/model_opt_loss": 4.732263229262661, "train/policy_entropy_mag": 2.178428099189006, "train/policy_entropy_max": 2.178428099189006, "train/policy_entropy_mean": 1.1300731175382372, "train/policy_entropy_min": 0.06947053633105586, "train/policy_entropy_std": 0.6250254562203313, "train/policy_logprob_mag": 6.801158710264824, "train/policy_logprob_max": -0.008951968697070236, "train/policy_logprob_mean": -1.1316115898145755, "train/policy_logprob_min": -6.801158710264824, "train/policy_logprob_std": 1.098673076696799, "train/policy_randomness_mag": 0.9914453399013465, "train/policy_randomness_max": 0.9914453399013465, "train/policy_randomness_mean": 0.5143184443594704, "train/policy_randomness_min": 0.0316174032927399, "train/policy_randomness_std": 0.28446133896498615, "train/post_ent_mag": 59.85604068594919, "train/post_ent_max": 59.85604068594919, "train/post_ent_mean": 38.533236060343995, "train/post_ent_min": 20.756987665740535, "train/post_ent_std": 5.998907962315519, "train/prior_ent_mag": 80.09055382097272, "train/prior_ent_max": 80.09055382097272, "train/prior_ent_mean": 43.45157440615372, "train/prior_ent_min": 22.930058224100463, "train/prior_ent_std": 8.762328456824934, "train/rep_loss_mean": 4.863999276094034, "train/rep_loss_std": 6.881204517794327, "train/reward_avg": 1.4127145686619718, "train/reward_loss_mean": 0.07522221646783217, "train/reward_loss_std": 0.26941263423839085, "train/reward_max_data": 214.08450704225353, "train/reward_max_pred": 179.2494563519115, "train/reward_neg_acc": 0.9679987355017327, "train/reward_neg_loss": 0.009636899421949096, "train/reward_pos_acc": 0.9934517077996697, "train/reward_pos_loss": 0.6603486395218003, "train/reward_pred": 1.2823325152128515, "train/reward_rate": 0.10145246478873239, "train_stats/mean_log_entropy": 1.0374231338500977, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.418786604925117e-07, "report/cont_loss_std": 7.982607712619938e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0001241709105670452, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 9.955178370546491e-08, "report/cont_pred": 0.9980470538139343, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 5.166121006011963, "report/dyn_loss_std": 7.120818138122559, "report/image_loss_mean": 1.7023839950561523, "report/image_loss_std": 1.3701647520065308, "report/model_loss_mean": 4.870824813842773, "report/model_loss_std": 5.362112522125244, "report/post_ent_mag": 60.833377838134766, "report/post_ent_max": 60.833377838134766, "report/post_ent_mean": 38.548213958740234, "report/post_ent_min": 19.518638610839844, "report/post_ent_std": 6.021482944488525, "report/prior_ent_mag": 80.24156188964844, "report/prior_ent_max": 80.24156188964844, "report/prior_ent_mean": 43.85504150390625, "report/prior_ent_min": 21.974130630493164, "report/prior_ent_std": 8.660493850708008, "report/rep_loss_mean": 5.166121006011963, "report/rep_loss_std": 7.120818138122559, "report/reward_avg": 1.26953125, "report/reward_loss_mean": 0.06876794248819351, "report/reward_loss_std": 0.24911366403102875, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.92172241210938, "report/reward_neg_acc": 0.9644778966903687, "report/reward_neg_loss": 0.008859886787831783, "report/reward_pos_acc": 0.9894737005233765, "report/reward_pos_loss": 0.6546056270599365, "report/reward_pred": 1.2323064804077148, "report/reward_rate": 0.0927734375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 1.1384475584463871e-09, "eval/cont_loss_std": 1.9444401644364007e-08, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1384475584463871e-09, "eval/cont_pred": 1.0, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 9.295750617980957, "eval/dyn_loss_std": 8.294210433959961, "eval/image_loss_mean": 2.920680284500122, "eval/image_loss_std": 2.0821921825408936, "eval/model_loss_mean": 9.163743019104004, "eval/model_loss_std": 6.9879045486450195, "eval/post_ent_mag": 61.10569763183594, "eval/post_ent_max": 61.10569763183594, "eval/post_ent_mean": 41.17885971069336, "eval/post_ent_min": 18.557151794433594, "eval/post_ent_std": 5.555593967437744, "eval/prior_ent_mag": 80.24156188964844, "eval/prior_ent_max": 80.24156188964844, "eval/prior_ent_mean": 47.53948974609375, "eval/prior_ent_min": 21.59508514404297, "eval/prior_ent_std": 8.130455017089844, "eval/rep_loss_mean": 9.295750617980957, "eval/rep_loss_std": 8.294210433959961, "eval/reward_avg": 1.611328125, "eval/reward_loss_mean": 0.6656127572059631, "eval/reward_loss_std": 2.3119401931762695, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 49.55440902709961, "eval/reward_neg_acc": 0.8834285736083984, "eval/reward_neg_loss": 0.1265716552734375, "eval/reward_pos_acc": 0.6577181220054626, "eval/reward_pos_loss": 3.831122398376465, "eval/reward_pred": 1.111363410949707, "eval/reward_rate": 0.1455078125, "replay/size": 144176.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.457879450344605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3912626937930414e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5050172805786133e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.2562885284424, "timer/env.step_count": 713.0, "timer/env.step_total": 2.848424196243286, "timer/env.step_frac": 0.009486642928291121, "timer/env.step_avg": 0.003994984847466039, "timer/env.step_min": 0.0025577545166015625, "timer/env.step_max": 0.024913549423217773, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 182.51861333847046, "timer/replay._sample_frac": 0.6078760722481288, "timer/replay._sample_avg": 0.015999177186051056, "timer/replay._sample_min": 0.007860422134399414, "timer/replay._sample_max": 0.04304814338684082, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.18261194229125977, "timer/agent.save_frac": 0.0006081869032160553, "timer/agent.save_avg": 0.18261194229125977, "timer/agent.save_min": 0.18261194229125977, "timer/agent.save_max": 0.18261194229125977, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.31405019760132, "timer/agent.policy_frac": 0.6638130750714348, "timer/agent.policy_avg": 0.2795428474019654, "timer/agent.policy_min": 0.0033676624298095703, "timer/agent.policy_max": 0.3780944347381592, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08575105667114258, "timer/dataset_train_frac": 0.00028559287497826924, "timer/dataset_train_avg": 0.0001202679616706067, "timer/dataset_train_min": 7.343292236328125e-05, "timer/dataset_train_max": 0.00040221214294433594, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.99720072746277, "timer/agent.train_frac": 0.3230480240825148, "timer/agent.train_avg": 0.13604095473697442, "timer/agent.train_min": 0.10011959075927734, "timer/agent.train_max": 0.42676281929016113, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5020496845245361, "timer/agent.report_frac": 0.0016720705067830026, "timer/agent.report_avg": 0.25102484226226807, "timer/agent.report_min": 0.1028444766998291, "timer/agent.report_max": 0.39920520782470703, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.887580871582031e-05, "timer/dataset_eval_frac": 1.627802999742683e-07, "timer/dataset_eval_avg": 4.887580871582031e-05, "timer/dataset_eval_min": 4.887580871582031e-05, "timer/dataset_eval_max": 4.887580871582031e-05, "fps": 9.498272046748133}
+{"step": 577600, "episode/length": 747.0, "episode/score": 1030.0, "episode/reward_rate": 0.1270053475935829}
+{"step": 579812, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.828030056423611, "train/action_min": 0.0, "train/action_std": 2.8154950406816273, "train/actor_opt_grad_norm": 0.008149411626315365, "train/actor_opt_grad_steps": 143495.0, "train/actor_opt_loss": 0.0008859372989920505, "train/adv_mag": 0.6515863512953123, "train/adv_max": 0.6233022092945046, "train/adv_mean": 0.0019824657973812362, "train/adv_min": -0.4005587856388754, "train/adv_std": 0.0357775003131893, "train/cont_avg": 0.9986979166666666, "train/cont_loss_mean": 0.00019172353852622067, "train/cont_loss_std": 0.005583465430964083, "train/cont_neg_acc": 0.9712121215733615, "train/cont_neg_loss": 0.07587597607846264, "train/cont_pos_acc": 0.9999864217307832, "train/cont_pos_loss": 5.3794173898581245e-05, "train/cont_pred": 0.9987079227964083, "train/cont_rate": 0.9986979166666666, "train/dyn_loss_mean": 5.178249879015817, "train/dyn_loss_std": 6.774875581264496, "train/extr_critic_critic_opt_grad_norm": 2.4382947815789118, "train/extr_critic_critic_opt_grad_steps": 143495.0, "train/extr_critic_critic_opt_loss": 1.5454733504189386, "train/extr_critic_mag": 511.2563845316569, "train/extr_critic_max": 511.2563845316569, "train/extr_critic_mean": 199.8354099061754, "train/extr_critic_min": 0.2223444084326426, "train/extr_critic_std": 155.30425230662027, "train/extr_return_normed_mag": 1.2496297260125477, "train/extr_return_normed_max": 1.2496297260125477, "train/extr_return_normed_mean": 0.4329903994997342, "train/extr_return_normed_min": -0.009937985450960696, "train/extr_return_normed_std": 0.34502023292912376, "train/extr_return_rate": 0.9404170769784186, "train/extr_return_raw_mag": 570.0997450086805, "train/extr_return_raw_max": 570.0997450086805, "train/extr_return_raw_mean": 200.7322850757175, "train/extr_return_raw_min": 0.39453744038190863, "train/extr_return_raw_std": 156.08554479810925, "train/extr_reward_mag": 228.4247589111328, "train/extr_reward_max": 228.4247589111328, "train/extr_reward_mean": 1.1138602408270042, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.377615922027164, "train/image_loss_mean": 1.7811355822616153, "train/image_loss_std": 1.5179682109091017, "train/model_loss_mean": 4.965853657987383, "train/model_loss_std": 5.330229474438561, "train/model_opt_grad_norm": 12.031910313500298, "train/model_opt_grad_steps": 143495.0, "train/model_opt_loss": 4.965853657987383, "train/policy_entropy_mag": 2.1801477207077875, "train/policy_entropy_max": 2.1801477207077875, "train/policy_entropy_mean": 1.1054585244920518, "train/policy_entropy_min": 0.06958076637238264, "train/policy_entropy_std": 0.625364756418599, "train/policy_logprob_mag": 6.800896022054884, "train/policy_logprob_max": -0.008968306795900894, "train/policy_logprob_mean": -1.1064295346538227, "train/policy_logprob_min": -6.800896022054884, "train/policy_logprob_std": 1.100007262494829, "train/policy_randomness_mag": 0.9922279790043831, "train/policy_randomness_max": 0.9922279790043831, "train/policy_randomness_mean": 0.5031158481207159, "train/policy_randomness_min": 0.03166757130788432, "train/policy_randomness_std": 0.2846157606691122, "train/post_ent_mag": 58.75405136744181, "train/post_ent_max": 58.75405136744181, "train/post_ent_mean": 39.48420630560981, "train/post_ent_min": 20.929780668682522, "train/post_ent_std": 6.114767379230923, "train/prior_ent_mag": 79.87633609771729, "train/prior_ent_max": 79.87633609771729, "train/prior_ent_mean": 44.5122274822659, "train/prior_ent_min": 22.80975842475891, "train/prior_ent_std": 8.630658295419481, "train/rep_loss_mean": 5.178249879015817, "train/rep_loss_std": 6.774875581264496, "train/reward_avg": 1.4835611979166667, "train/reward_loss_mean": 0.07757639005366299, "train/reward_loss_std": 0.2758354712277651, "train/reward_max_data": 228.19444444444446, "train/reward_max_pred": 190.3657194243537, "train/reward_neg_acc": 0.9641381377975146, "train/reward_neg_loss": 0.010263098762758696, "train/reward_pos_acc": 0.9931405021084679, "train/reward_pos_loss": 0.6672416006525358, "train/reward_pred": 1.3234664988186624, "train/reward_rate": 0.1024441189236111, "train_stats/mean_log_entropy": 0.9859410524368286, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 5.9806967328768224e-05, "report/cont_loss_std": 0.0014884632546454668, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.000249048403929919, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 5.925092045799829e-05, "report/cont_pred": 0.9970130324363708, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.522764205932617, "report/dyn_loss_std": 6.992733001708984, "report/image_loss_mean": 1.598017930984497, "report/image_loss_std": 1.472038745880127, "report/model_loss_mean": 4.409587860107422, "report/model_loss_std": 5.413835525512695, "report/post_ent_mag": 61.82804870605469, "report/post_ent_max": 61.82804870605469, "report/post_ent_mean": 38.01340103149414, "report/post_ent_min": 18.799495697021484, "report/post_ent_std": 6.905895233154297, "report/prior_ent_mag": 80.0582046508789, "report/prior_ent_max": 80.0582046508789, "report/prior_ent_mean": 42.53666687011719, "report/prior_ent_min": 21.0599422454834, "report/prior_ent_std": 9.5649995803833, "report/rep_loss_mean": 4.522764205932617, "report/rep_loss_std": 6.992733001708984, "report/reward_avg": 1.494140625, "report/reward_loss_mean": 0.09785139560699463, "report/reward_loss_std": 0.3374635875225067, "report/reward_max_data": 200.0, "report/reward_max_pred": 196.7435760498047, "report/reward_neg_acc": 0.9536935091018677, "report/reward_neg_loss": 0.013893414288759232, "report/reward_pos_acc": 0.9914530515670776, "report/reward_pos_loss": 0.7487052083015442, "report/reward_pred": 1.3109040260314941, "report/reward_rate": 0.1142578125, "eval/cont_avg": 0.9970703125, "eval/cont_loss_mean": 0.0018357281805947423, "eval/cont_loss_std": 0.034539010375738144, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.24523082375526428, "eval/cont_pos_acc": 0.999020516872406, "eval/cont_pos_loss": 0.0011205615010112524, "eval/cont_pred": 0.99679034948349, "eval/cont_rate": 0.9970703125, "eval/dyn_loss_mean": 9.869771957397461, "eval/dyn_loss_std": 10.404510498046875, "eval/image_loss_mean": 4.097836971282959, "eval/image_loss_std": 4.810303211212158, "eval/model_loss_mean": 10.37493896484375, "eval/model_loss_std": 10.584674835205078, "eval/post_ent_mag": 59.65403366088867, "eval/post_ent_max": 59.65403366088867, "eval/post_ent_mean": 38.694820404052734, "eval/post_ent_min": 18.86505699157715, "eval/post_ent_std": 8.68747615814209, "eval/prior_ent_mag": 80.0582046508789, "eval/prior_ent_max": 80.0582046508789, "eval/prior_ent_mean": 43.78400421142578, "eval/prior_ent_min": 20.347370147705078, "eval/prior_ent_std": 12.129551887512207, "eval/rep_loss_mean": 9.869771957397461, "eval/rep_loss_std": 10.404510498046875, "eval/reward_avg": 1.552734375, "eval/reward_loss_mean": 0.3534029722213745, "eval/reward_loss_std": 1.7587283849716187, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 49.98346710205078, "eval/reward_neg_acc": 0.9372339844703674, "eval/reward_neg_loss": 0.07134292274713516, "eval/reward_pos_acc": 0.7261905074119568, "eval/reward_pos_loss": 3.509788990020752, "eval/reward_pred": 0.7020649909973145, "eval/reward_rate": 0.08203125, "replay/size": 144890.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.491641389221704e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3965351574895095e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.7434358596801758e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.39294695854187, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8425869941711426, "timer/env.step_frac": 0.009462895260864619, "timer/env.step_avg": 0.00398121427755062, "timer/env.step_min": 0.0022516250610351562, "timer/env.step_max": 0.020294189453125, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 181.77090907096863, "timer/replay._sample_frac": 0.6051104425432977, "timer/replay._sample_avg": 0.01591131907133829, "timer/replay._sample_min": 0.008261919021606445, "timer/replay._sample_max": 0.06098055839538574, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.16324973106384, "timer/agent.policy_frac": 0.6630090744392576, "timer/agent.policy_avg": 0.27894012567375887, "timer/agent.policy_min": 0.0033414363861083984, "timer/agent.policy_max": 0.313321590423584, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08523154258728027, "timer/dataset_train_frac": 0.00028373350123644324, "timer/dataset_train_avg": 0.0001193719083855466, "timer/dataset_train_min": 7.104873657226562e-05, "timer/dataset_train_max": 0.0001995563507080078, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.30277800559998, "timer/agent.train_frac": 0.32391831762624246, "timer/agent.train_avg": 0.1362784005680672, "timer/agent.train_min": 0.10030341148376465, "timer/agent.train_max": 0.42760586738586426, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5007050037384033, "timer/agent.report_frac": 0.001666833422049377, "timer/agent.report_avg": 0.25035250186920166, "timer/agent.report_min": 0.10063910484313965, "timer/agent.report_max": 0.40006589889526367, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.651878356933594e-05, "timer/dataset_eval_frac": 2.2143923232164435e-07, "timer/dataset_eval_avg": 6.651878356933594e-05, "timer/dataset_eval_min": 6.651878356933594e-05, "timer/dataset_eval_max": 6.651878356933594e-05, "fps": 9.50723745502523}
+{"step": 581536, "episode/length": 983.0, "episode/score": 1250.0, "episode/reward_rate": 0.09552845528455285}
+{"step": 582660, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.875189982669454, "train/action_min": 0.0, "train/action_std": 2.8154652823864574, "train/actor_opt_grad_norm": 0.008180695671168432, "train/actor_opt_grad_steps": 144210.0, "train/actor_opt_loss": 0.0006913979495051612, "train/adv_mag": 0.6816848319181255, "train/adv_max": 0.6419811494333644, "train/adv_mean": 0.0019996371955284314, "train/adv_min": -0.4385359690222942, "train/adv_std": 0.036391799692326865, "train/cont_avg": 0.9987070862676056, "train/cont_loss_mean": 0.00020287214156041155, "train/cont_loss_std": 0.005402390032920569, "train/cont_neg_acc": 0.9532163749661362, "train/cont_neg_loss": 0.11301054241761471, "train/cont_pos_acc": 0.9999724366295506, "train/cont_pos_loss": 6.182909989287951e-05, "train/cont_pred": 0.998718649568692, "train/cont_rate": 0.9987070862676056, "train/dyn_loss_mean": 4.927363472925106, "train/dyn_loss_std": 6.8732734129462445, "train/extr_critic_critic_opt_grad_norm": 2.3782925840834497, "train/extr_critic_critic_opt_grad_steps": 144210.0, "train/extr_critic_critic_opt_loss": 1.540701792273723, "train/extr_critic_mag": 533.4094840036312, "train/extr_critic_max": 533.4094840036312, "train/extr_critic_mean": 208.92638128576144, "train/extr_critic_min": 0.05781776132717938, "train/extr_critic_std": 161.08925510460222, "train/extr_return_normed_mag": 1.2877915929740584, "train/extr_return_normed_max": 1.2877915929740584, "train/extr_return_normed_mean": 0.44910047549596976, "train/extr_return_normed_min": -0.010461276200350741, "train/extr_return_normed_std": 0.3549270533340078, "train/extr_return_rate": 0.9395136908746101, "train/extr_return_raw_mag": 592.6026069748569, "train/extr_return_raw_max": 592.6026069748569, "train/extr_return_raw_mean": 209.83891565027372, "train/extr_return_raw_min": 0.13123087566936206, "train/extr_return_raw_std": 161.96368386711873, "train/extr_reward_mag": 227.920754755047, "train/extr_reward_max": 227.920754755047, "train/extr_reward_mean": 1.1341847273665415, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.5433365828554395, "train/image_loss_mean": 1.7412345241492904, "train/image_loss_std": 1.538638324804709, "train/model_loss_mean": 4.776833964065767, "train/model_loss_std": 5.432154823356951, "train/model_opt_grad_norm": 10.964166768839661, "train/model_opt_grad_steps": 144210.0, "train/model_opt_loss": 4.776833964065767, "train/policy_entropy_mag": 2.1801228590414556, "train/policy_entropy_max": 2.1801228590414556, "train/policy_entropy_mean": 1.094954617426429, "train/policy_entropy_min": 0.06950523851203247, "train/policy_entropy_std": 0.6347492706607765, "train/policy_logprob_mag": 6.801543551431576, "train/policy_logprob_max": -0.008960074233547064, "train/policy_logprob_mean": -1.0951483577070102, "train/policy_logprob_min": -6.801543551431576, "train/policy_logprob_std": 1.1039462072748534, "train/policy_randomness_mag": 0.99221666514034, "train/policy_randomness_max": 0.99221666514034, "train/policy_randomness_mean": 0.4983353161476028, "train/policy_randomness_min": 0.03163319700200793, "train/policy_randomness_std": 0.28888683923533265, "train/post_ent_mag": 60.89526963569749, "train/post_ent_max": 60.89526963569749, "train/post_ent_mean": 38.97356173018335, "train/post_ent_min": 20.642257475517166, "train/post_ent_std": 6.193955857988814, "train/prior_ent_mag": 80.11863923408616, "train/prior_ent_max": 80.11863923408616, "train/prior_ent_mean": 44.030187150122416, "train/prior_ent_min": 22.483115397708517, "train/prior_ent_std": 8.822660567055285, "train/rep_loss_mean": 4.927363472925106, "train/rep_loss_std": 6.8732734129462445, "train/reward_avg": 1.4739216549295775, "train/reward_loss_mean": 0.07897852450399331, "train/reward_loss_std": 0.28998847683550605, "train/reward_max_data": 235.35211267605635, "train/reward_max_pred": 201.6107887482979, "train/reward_neg_acc": 0.9664018145749267, "train/reward_neg_loss": 0.010748392902314663, "train/reward_pos_acc": 0.994371449443656, "train/reward_pos_loss": 0.6719946659786601, "train/reward_pred": 1.3204608845039152, "train/reward_rate": 0.103515625, "train_stats/mean_log_entropy": 1.0904721021652222, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.4254220332077239e-05, "report/cont_loss_std": 0.00037544031511060894, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.011690142564475536, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.840839897544356e-06, "report/cont_pred": 0.9990319609642029, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.526427268981934, "report/dyn_loss_std": 6.567843437194824, "report/image_loss_mean": 1.728323221206665, "report/image_loss_std": 1.6860904693603516, "report/model_loss_mean": 4.524259567260742, "report/model_loss_std": 5.302304744720459, "report/post_ent_mag": 60.3533821105957, "report/post_ent_max": 60.3533821105957, "report/post_ent_mean": 38.555198669433594, "report/post_ent_min": 19.216232299804688, "report/post_ent_std": 5.636849403381348, "report/prior_ent_mag": 80.11492156982422, "report/prior_ent_max": 80.11492156982422, "report/prior_ent_mean": 43.5720329284668, "report/prior_ent_min": 19.783355712890625, "report/prior_ent_std": 8.29588794708252, "report/rep_loss_mean": 4.526427268981934, "report/rep_loss_std": 6.567843437194824, "report/reward_avg": 1.650390625, "report/reward_loss_mean": 0.08006569743156433, "report/reward_loss_std": 0.22948475182056427, "report/reward_max_data": 200.0, "report/reward_max_pred": 183.55006408691406, "report/reward_neg_acc": 0.964483916759491, "report/reward_neg_loss": 0.00987045094370842, "report/reward_pos_acc": 1.0000001192092896, "report/reward_pos_loss": 0.5942601561546326, "report/reward_pred": 1.5651863813400269, "report/reward_rate": 0.1201171875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.00814858078956604, "eval/cont_loss_std": 0.2602640390396118, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 8.332526206970215, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.1360019925632514e-05, "eval/cont_pred": 0.9999884366989136, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 9.822264671325684, "eval/dyn_loss_std": 9.51341438293457, "eval/image_loss_mean": 4.244104385375977, "eval/image_loss_std": 3.8826117515563965, "eval/model_loss_mean": 10.741191864013672, "eval/model_loss_std": 9.648633003234863, "eval/post_ent_mag": 58.60292053222656, "eval/post_ent_max": 58.60292053222656, "eval/post_ent_mean": 41.77581024169922, "eval/post_ent_min": 22.96499252319336, "eval/post_ent_std": 6.391435623168945, "eval/prior_ent_mag": 80.11492156982422, "eval/prior_ent_max": 80.11492156982422, "eval/prior_ent_mean": 48.020851135253906, "eval/prior_ent_min": 24.383609771728516, "eval/prior_ent_std": 9.018678665161133, "eval/rep_loss_mean": 9.822264671325684, "eval/rep_loss_std": 9.51341438293457, "eval/reward_avg": 1.7578125, "eval/reward_loss_mean": 0.5955798625946045, "eval/reward_loss_std": 2.683361053466797, "eval/reward_max_data": 410.0, "eval/reward_max_pred": 44.07877731323242, "eval/reward_neg_acc": 0.9165751934051514, "eval/reward_neg_loss": 0.09162289649248123, "eval/reward_pos_acc": 0.6548672318458557, "eval/reward_pos_loss": 4.658454895019531, "eval/reward_pred": 0.840277373790741, "eval/reward_rate": 0.1103515625, "replay/size": 145602.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.472911877578564e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4124710238381718e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.09289145469666, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8129215240478516, "timer/env.step_frac": 0.009373502685825874, "timer/env.step_avg": 0.003950732477595297, "timer/env.step_min": 0.002495288848876953, "timer/env.step_max": 0.0186767578125, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 185.14652562141418, "timer/replay._sample_frac": 0.6169640497777826, "timer/replay._sample_avg": 0.01625232844289099, "timer/replay._sample_min": 0.008033037185668945, "timer/replay._sample_max": 0.05969500541687012, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.50890064239502, "timer/agent.policy_frac": 0.6614915124451151, "timer/agent.policy_avg": 0.27880463573370085, "timer/agent.policy_min": 0.003099679946899414, "timer/agent.policy_max": 0.3134341239929199, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.0858755111694336, "timer/dataset_train_frac": 0.0002861630968769473, "timer/dataset_train_avg": 0.00012061167299077751, "timer/dataset_train_min": 6.961822509765625e-05, "timer/dataset_train_max": 0.0004911422729492188, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.65693974494934, "timer/agent.train_frac": 0.3254223692922498, "timer/agent.train_avg": 0.1371586232372884, "timer/agent.train_min": 0.10025763511657715, "timer/agent.train_max": 0.9190976619720459, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5043096542358398, "timer/agent.report_frac": 0.0016805118301576718, "timer/agent.report_avg": 0.2521548271179199, "timer/agent.report_min": 0.10217118263244629, "timer/agent.report_max": 0.40213847160339355, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 0.00010633468627929688, "timer/dataset_eval_frac": 3.5433923730695777e-07, "timer/dataset_eval_avg": 0.00010633468627929688, "timer/dataset_eval_min": 0.00010633468627929688, "timer/dataset_eval_max": 0.00010633468627929688, "fps": 9.490074435723999}
+{"step": 584608, "episode/length": 767.0, "episode/score": 1240.0, "episode/reward_rate": 0.12630208333333334}
+{"step": 585512, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.731231259628081, "train/action_min": 0.0, "train/action_std": 2.801321845659068, "train/actor_opt_grad_norm": 0.007497916663800117, "train/actor_opt_grad_steps": 144920.0, "train/actor_opt_loss": 0.00038896029427248744, "train/adv_mag": 0.5599844193374607, "train/adv_max": 0.5381011851656605, "train/adv_mean": 0.0014990336324662563, "train/adv_min": -0.37795628187522085, "train/adv_std": 0.031111142506272022, "train/cont_avg": 0.9986795774647887, "train/cont_loss_mean": 0.00014849554844090736, "train/cont_loss_std": 0.0037893969830604854, "train/cont_neg_acc": 0.9716049388602928, "train/cont_neg_loss": 0.054199727610819225, "train/cont_pos_acc": 0.999999999160498, "train/cont_pos_loss": 6.348135081548759e-05, "train/cont_pred": 0.998673570827699, "train/cont_rate": 0.9986795774647887, "train/dyn_loss_mean": 5.047862341706182, "train/dyn_loss_std": 6.894219391782519, "train/extr_critic_critic_opt_grad_norm": 2.331964410526652, "train/extr_critic_critic_opt_grad_steps": 144920.0, "train/extr_critic_critic_opt_loss": 1.5505652964954646, "train/extr_critic_mag": 520.9120582258198, "train/extr_critic_max": 520.9120582258198, "train/extr_critic_mean": 194.92990015594052, "train/extr_critic_min": 0.056466905164047024, "train/extr_critic_std": 161.60047138912577, "train/extr_return_normed_mag": 1.191031064785702, "train/extr_return_normed_max": 1.191031064785702, "train/extr_return_normed_mean": 0.4147659496102535, "train/extr_return_normed_min": -0.008512706915572496, "train/extr_return_normed_std": 0.35145267676299724, "train/extr_return_rate": 0.9377558768635065, "train/extr_return_raw_mag": 554.0291670678367, "train/extr_return_raw_max": 554.0291670678367, "train/extr_return_raw_mean": 195.62089581556722, "train/extr_return_raw_min": 0.1245362215895127, "train/extr_return_raw_std": 162.30762309759436, "train/extr_reward_mag": 208.36727937510315, "train/extr_reward_max": 208.36727937510315, "train/extr_reward_mean": 1.0218879815558313, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.6965899198827605, "train/image_loss_mean": 1.7761527115190532, "train/image_loss_std": 1.559925635096053, "train/model_loss_mean": 4.874258420836758, "train/model_loss_std": 5.428459597305513, "train/model_opt_grad_norm": 11.386407905900983, "train/model_opt_grad_steps": 144920.0, "train/model_opt_loss": 4.874258420836758, "train/policy_entropy_mag": 2.1829817127174054, "train/policy_entropy_max": 2.1829817127174054, "train/policy_entropy_mean": 1.1503657513940837, "train/policy_entropy_min": 0.06945043917692884, "train/policy_entropy_std": 0.628516221550149, "train/policy_logprob_mag": 6.800566975499542, "train/policy_logprob_max": -0.008948819055943422, "train/policy_logprob_mean": -1.1499337125831925, "train/policy_logprob_min": -6.800566975499542, "train/policy_logprob_std": 1.0904610291333265, "train/policy_randomness_mag": 0.9935177866841706, "train/policy_randomness_max": 0.9935177866841706, "train/policy_randomness_mean": 0.523554007771989, "train/policy_randomness_min": 0.03160825697049289, "train/policy_randomness_std": 0.28605005963587427, "train/post_ent_mag": 60.450131644665355, "train/post_ent_max": 60.450131644665355, "train/post_ent_mean": 38.91755826708297, "train/post_ent_min": 20.3134936480455, "train/post_ent_std": 6.122285795883394, "train/prior_ent_mag": 80.06118666957802, "train/prior_ent_max": 80.06118666957802, "train/prior_ent_mean": 44.07756859148052, "train/prior_ent_min": 22.234649792523452, "train/prior_ent_std": 8.816448440014476, "train/rep_loss_mean": 5.047862341706182, "train/rep_loss_std": 6.894219391782519, "train/reward_avg": 1.3513699383802817, "train/reward_loss_mean": 0.06923981734984358, "train/reward_loss_std": 0.2460734290136418, "train/reward_max_data": 219.43661971830986, "train/reward_max_pred": 185.11991010585302, "train/reward_neg_acc": 0.9682583280012641, "train/reward_neg_loss": 0.008742461781161772, "train/reward_pos_acc": 0.9965468502380479, "train/reward_pos_loss": 0.6433757619119026, "train/reward_pred": 1.20595748827491, "train/reward_rate": 0.09560684419014084, "train_stats/mean_log_entropy": 1.0931082963943481, "report/cont_avg": 1.0, "report/cont_loss_mean": 1.9830979081092437e-09, "report/cont_loss_std": 1.5729792579577406e-08, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.9830979081092437e-09, "report/cont_pred": 1.0, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.2728753089904785, "report/dyn_loss_std": 6.617323398590088, "report/image_loss_mean": 1.594905138015747, "report/image_loss_std": 1.3761862516403198, "report/model_loss_mean": 4.22681999206543, "report/model_loss_std": 5.063967704772949, "report/post_ent_mag": 52.90165710449219, "report/post_ent_max": 52.90165710449219, "report/post_ent_mean": 39.129310607910156, "report/post_ent_min": 22.404163360595703, "report/post_ent_std": 5.04306173324585, "report/prior_ent_mag": 79.89543914794922, "report/prior_ent_max": 79.89543914794922, "report/prior_ent_mean": 43.76638412475586, "report/prior_ent_min": 26.809127807617188, "report/prior_ent_std": 7.771803379058838, "report/rep_loss_mean": 4.2728753089904785, "report/rep_loss_std": 6.617323398590088, "report/reward_avg": 1.38671875, "report/reward_loss_mean": 0.06818999350070953, "report/reward_loss_std": 0.1977134644985199, "report/reward_max_data": 200.0, "report/reward_max_pred": 199.44520568847656, "report/reward_neg_acc": 0.9737130999565125, "report/reward_neg_loss": 0.007285699248313904, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5691415667533875, "report/reward_pred": 1.354856252670288, "report/reward_rate": 0.1083984375, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 5.421887181000784e-06, "eval/cont_loss_std": 0.0001297418784815818, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 5.421887181000784e-06, "eval/cont_pred": 0.9999946355819702, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 12.15078067779541, "eval/dyn_loss_std": 10.653038024902344, "eval/image_loss_mean": 5.175223350524902, "eval/image_loss_std": 4.88970947265625, "eval/model_loss_mean": 12.929533004760742, "eval/model_loss_std": 10.986459732055664, "eval/post_ent_mag": 62.144805908203125, "eval/post_ent_max": 62.144805908203125, "eval/post_ent_mean": 40.97452163696289, "eval/post_ent_min": 18.834537506103516, "eval/post_ent_std": 5.503047943115234, "eval/prior_ent_mag": 79.89543914794922, "eval/prior_ent_max": 79.89543914794922, "eval/prior_ent_mean": 47.893436431884766, "eval/prior_ent_min": 21.139442443847656, "eval/prior_ent_std": 8.549017906188965, "eval/rep_loss_mean": 12.15078067779541, "eval/rep_loss_std": 10.653038024902344, "eval/reward_avg": 0.947265625, "eval/reward_loss_mean": 0.4638354778289795, "eval/reward_loss_std": 2.2698559761047363, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 10.01224422454834, "eval/reward_neg_acc": 0.9316509366035461, "eval/reward_neg_loss": 0.07926808297634125, "eval/reward_pos_acc": 0.5890411138534546, "eval/reward_pos_loss": 5.473748207092285, "eval/reward_pred": 0.47498270869255066, "eval/reward_rate": 0.0712890625, "replay/size": 146315.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.5398044880443e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3972189784217182e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.8477439880371094e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.16537857055664, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8749451637268066, "timer/env.step_frac": 0.009577870630576486, "timer/env.step_avg": 0.004032181155297064, "timer/env.step_min": 0.002656221389770508, "timer/env.step_max": 0.02652454376220703, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 182.51963019371033, "timer/replay._sample_frac": 0.6080635650350575, "timer/replay._sample_avg": 0.015999266321328046, "timer/replay._sample_min": 0.0081329345703125, "timer/replay._sample_max": 0.044763803482055664, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10623502731323242, "timer/agent.save_frac": 0.00035392165418658, "timer/agent.save_avg": 0.10623502731323242, "timer/agent.save_min": 0.10623502731323242, "timer/agent.save_max": 0.10623502731323242, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.19224429130554, "timer/agent.policy_frac": 0.6636083256500002, "timer/agent.policy_avg": 0.2793720116287595, "timer/agent.policy_min": 0.0032508373260498047, "timer/agent.policy_max": 0.35689616203308105, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08703207969665527, "timer/dataset_train_frac": 0.00028994709553486223, "timer/dataset_train_avg": 0.00012206462790554737, "timer/dataset_train_min": 7.390975952148438e-05, "timer/dataset_train_max": 0.00034308433532714844, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.01003623008728, "timer/agent.train_frac": 0.32318862585707625, "timer/agent.train_avg": 0.1360589568444422, "timer/agent.train_min": 0.09839868545532227, "timer/agent.train_max": 0.4278988838195801, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49988389015197754, "timer/agent.report_frac": 0.0016653615834461577, "timer/agent.report_avg": 0.24994194507598877, "timer/agent.report_min": 0.0999753475189209, "timer/agent.report_max": 0.39990854263305664, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.029273986816406e-05, "timer/dataset_eval_frac": 1.3423513417851714e-07, "timer/dataset_eval_avg": 4.029273986816406e-05, "timer/dataset_eval_min": 4.029273986816406e-05, "timer/dataset_eval_max": 4.029273986816406e-05, "fps": 9.501107592634224}
+{"step": 587592, "episode/length": 745.0, "episode/score": 1650.0, "episode/reward_rate": 0.13270777479892762}
+{"step": 588360, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.778535630967882, "train/action_min": 0.0, "train/action_std": 2.8204464415709176, "train/actor_opt_grad_norm": 0.007212104359900372, "train/actor_opt_grad_steps": 145635.0, "train/actor_opt_loss": 0.0005074832398450882, "train/adv_mag": 0.5792916673752997, "train/adv_max": 0.5416200268599722, "train/adv_mean": 0.001543293969007209, "train/adv_min": -0.38547472055587506, "train/adv_std": 0.030763128565417394, "train/cont_avg": 0.9985894097222222, "train/cont_loss_mean": 0.0002642731627414068, "train/cont_loss_std": 0.006577074007731159, "train/cont_neg_acc": 0.9703389840610956, "train/cont_neg_loss": 0.07677251016939371, "train/cont_pos_acc": 0.99998639523983, "train/cont_pos_loss": 0.00011383872271503787, "train/cont_pred": 0.9985714985264672, "train/cont_rate": 0.9985894097222222, "train/dyn_loss_mean": 4.921575387318929, "train/dyn_loss_std": 6.838226252131992, "train/extr_critic_critic_opt_grad_norm": 2.2595535814762115, "train/extr_critic_critic_opt_grad_steps": 145635.0, "train/extr_critic_critic_opt_loss": 1.5099201384517882, "train/extr_critic_mag": 532.2257181803385, "train/extr_critic_max": 532.2257181803385, "train/extr_critic_mean": 207.1712761984931, "train/extr_critic_min": 0.2395795914861891, "train/extr_critic_std": 163.47169049580893, "train/extr_return_normed_mag": 1.214564986526966, "train/extr_return_normed_max": 1.214564986526966, "train/extr_return_normed_mean": 0.43835105188190937, "train/extr_return_normed_min": -0.009699613231027292, "train/extr_return_normed_std": 0.3538929625517792, "train/extr_return_rate": 0.942003989385234, "train/extr_return_raw_mag": 567.5528526306152, "train/extr_return_raw_max": 567.5528526306152, "train/extr_return_raw_mean": 207.88637669881186, "train/extr_return_raw_min": 0.2523205359757412, "train/extr_return_raw_std": 164.02306832207574, "train/extr_reward_mag": 205.1698908408483, "train/extr_reward_max": 205.1698908408483, "train/extr_reward_mean": 1.1022015429205365, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.664096626970503, "train/image_loss_mean": 1.7424056165748172, "train/image_loss_std": 1.5273106296857197, "train/model_loss_mean": 4.77083123061392, "train/model_loss_std": 5.374754938814375, "train/model_opt_grad_norm": 10.91389328903622, "train/model_opt_grad_steps": 145635.0, "train/model_opt_loss": 4.77083123061392, "train/policy_entropy_mag": 2.1822590198781757, "train/policy_entropy_max": 2.1822590198781757, "train/policy_entropy_mean": 1.1221821440590753, "train/policy_entropy_min": 0.06942885596719053, "train/policy_entropy_std": 0.6228101866112815, "train/policy_logprob_mag": 6.80134090450075, "train/policy_logprob_max": -0.008945579860462911, "train/policy_logprob_mean": -1.12246799055073, "train/policy_logprob_min": -6.80134090450075, "train/policy_logprob_std": 1.0951237959994211, "train/policy_randomness_mag": 0.9931888721055455, "train/policy_randomness_max": 0.9931888721055455, "train/policy_randomness_mean": 0.5107271029717393, "train/policy_randomness_min": 0.031598433593495026, "train/policy_randomness_std": 0.2834531269553635, "train/post_ent_mag": 60.53393745422363, "train/post_ent_max": 60.53393745422363, "train/post_ent_mean": 38.7688783009847, "train/post_ent_min": 20.11222251256307, "train/post_ent_std": 6.163721415731642, "train/prior_ent_mag": 80.17812983194987, "train/prior_ent_max": 80.17812983194987, "train/prior_ent_mean": 43.74357509613037, "train/prior_ent_min": 21.9467138449351, "train/prior_ent_std": 8.848125914732615, "train/rep_loss_mean": 4.921575387318929, "train/rep_loss_std": 6.838226252131992, "train/reward_avg": 1.3918728298611112, "train/reward_loss_mean": 0.075216105983903, "train/reward_loss_std": 0.2519458399878608, "train/reward_max_data": 191.25, "train/reward_max_pred": 161.29245146115622, "train/reward_neg_acc": 0.9676653486159112, "train/reward_neg_loss": 0.009323954549876766, "train/reward_pos_acc": 0.9958503511216905, "train/reward_pos_loss": 0.6409708973434236, "train/reward_pred": 1.2562201643983524, "train/reward_rate": 0.10443793402777778, "train_stats/mean_log_entropy": 1.056219458580017, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 4.93312882099417e-07, "report/cont_loss_std": 1.0438766366860364e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 8.23482011469423e-08, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 4.937145945405064e-07, "report/cont_pred": 0.9990229606628418, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.474427223205566, "report/dyn_loss_std": 7.193489074707031, "report/image_loss_mean": 1.8468286991119385, "report/image_loss_std": 1.7291815280914307, "report/model_loss_mean": 5.175797939300537, "report/model_loss_std": 5.764507293701172, "report/post_ent_mag": 60.623748779296875, "report/post_ent_max": 60.623748779296875, "report/post_ent_mean": 40.26822280883789, "report/post_ent_min": 19.4844913482666, "report/post_ent_std": 6.264057636260986, "report/prior_ent_mag": 80.49005126953125, "report/prior_ent_max": 80.49005126953125, "report/prior_ent_mean": 45.4000244140625, "report/prior_ent_min": 20.590984344482422, "report/prior_ent_std": 8.872955322265625, "report/rep_loss_mean": 5.474427223205566, "report/rep_loss_std": 7.193489074707031, "report/reward_avg": 0.546875, "report/reward_loss_mean": 0.04431236907839775, "report/reward_loss_std": 0.2390356808900833, "report/reward_max_data": 10.0, "report/reward_max_pred": 10.00651741027832, "report/reward_neg_acc": 0.9752065539360046, "report/reward_neg_loss": 0.012980075553059578, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5859134793281555, "report/reward_pred": 0.5426158905029297, "report/reward_rate": 0.0546875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.0006901322631165385, "eval/cont_loss_std": 0.018305333331227303, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.0059191398322582245, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0006850208737887442, "eval/cont_pred": 0.9984855651855469, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 11.119912147521973, "eval/dyn_loss_std": 9.861794471740723, "eval/image_loss_mean": 3.936145544052124, "eval/image_loss_std": 3.4308650493621826, "eval/model_loss_mean": 11.404377937316895, "eval/model_loss_std": 9.056608200073242, "eval/post_ent_mag": 60.006072998046875, "eval/post_ent_max": 60.006072998046875, "eval/post_ent_mean": 41.8930778503418, "eval/post_ent_min": 23.221145629882812, "eval/post_ent_std": 6.152646541595459, "eval/prior_ent_mag": 80.49005126953125, "eval/prior_ent_max": 80.49005126953125, "eval/prior_ent_mean": 48.534156799316406, "eval/prior_ent_min": 25.234689712524414, "eval/prior_ent_std": 8.685790061950684, "eval/rep_loss_mean": 11.119912147521973, "eval/rep_loss_std": 9.861794471740723, "eval/reward_avg": 1.513671875, "eval/reward_loss_mean": 0.7955944538116455, "eval/reward_loss_std": 2.827482223510742, "eval/reward_max_data": 210.0, "eval/reward_max_pred": 50.03814697265625, "eval/reward_neg_acc": 0.8869564533233643, "eval/reward_neg_loss": 0.18721675872802734, "eval/reward_pos_acc": 0.46153849363327026, "eval/reward_pos_loss": 6.17739725112915, "eval/reward_pred": 0.6830046772956848, "eval/reward_rate": 0.1015625, "replay/size": 147027.0, "replay/inserts": 712.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 5.547250254770343e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4083062329988802e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.7516119480133, "timer/env.step_count": 712.0, "timer/env.step_total": 2.8270344734191895, "timer/env.step_frac": 0.009431256949869179, "timer/env.step_avg": 0.003970554035701109, "timer/env.step_min": 0.002560853958129883, "timer/env.step_max": 0.015269756317138672, "timer/replay._sample_count": 11392.0, "timer/replay._sample_total": 184.34978675842285, "timer/replay._sample_frac": 0.6150084917321316, "timer/replay._sample_avg": 0.016182389989327847, "timer/replay._sample_min": 0.008488893508911133, "timer/replay._sample_max": 0.03591322898864746, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 712.0, "timer/agent.policy_total": 198.59931874275208, "timer/agent.policy_frac": 0.6625462910844852, "timer/agent.policy_avg": 0.2789316274476855, "timer/agent.policy_min": 0.003386259078979492, "timer/agent.policy_max": 0.31676578521728516, "timer/dataset_train_count": 712.0, "timer/dataset_train_total": 0.0853719711303711, "timer/dataset_train_frac": 0.00028480904764968326, "timer/dataset_train_avg": 0.00011990445383479086, "timer/dataset_train_min": 6.961822509765625e-05, "timer/dataset_train_max": 0.0003790855407714844, "timer/agent.train_count": 712.0, "timer/agent.train_total": 97.54371762275696, "timer/agent.train_frac": 0.3254151561983067, "timer/agent.train_avg": 0.13699960340274853, "timer/agent.train_min": 0.10085153579711914, "timer/agent.train_max": 0.4298222064971924, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.2020871639251709, "timer/agent.report_frac": 0.0006741820756587605, "timer/agent.report_avg": 0.10104358196258545, "timer/agent.report_min": 0.09965085983276367, "timer/agent.report_max": 0.10243630409240723, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.82012939453125e-05, "timer/dataset_eval_frac": 2.6088698385006566e-07, "timer/dataset_eval_avg": 7.82012939453125e-05, "timer/dataset_eval_min": 7.82012939453125e-05, "timer/dataset_eval_max": 7.82012939453125e-05, "fps": 9.500908592187722}
+{"step": 590732, "episode/length": 784.0, "episode/score": 1640.0, "episode/reward_rate": 0.11719745222929936}
+{"step": 591216, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.724508795939701, "train/action_min": 0.0, "train/action_std": 2.857711392389217, "train/actor_opt_grad_norm": 0.00790425200461292, "train/actor_opt_grad_steps": 146350.0, "train/actor_opt_loss": 0.000678904636438795, "train/adv_mag": 0.6490640317050504, "train/adv_max": 0.589796395368979, "train/adv_mean": 0.0018457906459433886, "train/adv_min": -0.46133610858044155, "train/adv_std": 0.03639195426563981, "train/cont_avg": 0.9985557878521126, "train/cont_loss_mean": 0.00012689346737890825, "train/cont_loss_std": 0.003475150879558244, "train/cont_neg_acc": 0.9583333336881229, "train/cont_neg_loss": 0.06425686092877823, "train/cont_pos_acc": 0.999999998320996, "train/cont_pos_loss": 3.0972650319373474e-05, "train/cont_pred": 0.9985791495148565, "train/cont_rate": 0.9985557878521126, "train/dyn_loss_mean": 4.973730701795766, "train/dyn_loss_std": 6.846888810815946, "train/extr_critic_critic_opt_grad_norm": 2.402991919450357, "train/extr_critic_critic_opt_grad_steps": 146350.0, "train/extr_critic_critic_opt_loss": 1.5417294166457485, "train/extr_critic_mag": 539.8870419784331, "train/extr_critic_max": 539.8870419784331, "train/extr_critic_mean": 211.72084840586487, "train/extr_critic_min": 0.33215054827676693, "train/extr_critic_std": 164.3381383116816, "train/extr_return_normed_mag": 1.2258305247400847, "train/extr_return_normed_max": 1.2258305247400847, "train/extr_return_normed_mean": 0.44820332317285133, "train/extr_return_normed_min": -0.008242772183787654, "train/extr_return_normed_std": 0.35494158385505137, "train/extr_return_rate": 0.9439279386695002, "train/extr_return_raw_mag": 574.098954321633, "train/extr_return_raw_max": 574.098954321633, "train/extr_return_raw_mean": 212.578676680444, "train/extr_return_raw_min": 0.38466350834252655, "train/extr_return_raw_std": 164.993122476927, "train/extr_reward_mag": 226.7827089605197, "train/extr_reward_max": 226.7827089605197, "train/extr_reward_mean": 1.123156983667696, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.2879972004554645, "train/image_loss_mean": 1.7251353095954574, "train/image_loss_std": 1.5444135665893555, "train/model_loss_mean": 4.7843680079554165, "train/model_loss_std": 5.386159500605624, "train/model_opt_grad_norm": 11.98168766666466, "train/model_opt_grad_steps": 146350.0, "train/model_opt_loss": 4.7843680079554165, "train/policy_entropy_mag": 2.179073891169588, "train/policy_entropy_max": 2.179073891169588, "train/policy_entropy_mean": 1.1207427340494076, "train/policy_entropy_min": 0.0694403683005924, "train/policy_entropy_std": 0.628730683259561, "train/policy_logprob_mag": 6.801291176970576, "train/policy_logprob_max": -0.008947602696192096, "train/policy_logprob_mean": -1.1213013244346834, "train/policy_logprob_min": -6.801291176970576, "train/policy_logprob_std": 1.0974499003987916, "train/policy_randomness_mag": 0.9917392579602523, "train/policy_randomness_max": 0.9917392579602523, "train/policy_randomness_mean": 0.5100719991704108, "train/policy_randomness_min": 0.031603673341828335, "train/policy_randomness_std": 0.2861476614021919, "train/post_ent_mag": 60.24260276472065, "train/post_ent_max": 60.24260276472065, "train/post_ent_mean": 38.708255714094136, "train/post_ent_min": 19.915895676948654, "train/post_ent_std": 6.336423605260714, "train/prior_ent_mag": 80.19499056104203, "train/prior_ent_max": 80.19499056104203, "train/prior_ent_mean": 43.635510135704365, "train/prior_ent_min": 21.599310942099127, "train/prior_ent_std": 8.996082708869181, "train/rep_loss_mean": 4.973730701795766, "train/rep_loss_std": 6.846888810815946, "train/reward_avg": 1.4831371038732395, "train/reward_loss_mean": 0.07486741391705795, "train/reward_loss_std": 0.2603898915186734, "train/reward_max_data": 240.42253521126761, "train/reward_max_pred": 196.84012485557878, "train/reward_neg_acc": 0.9681519219573115, "train/reward_neg_loss": 0.00925875576147416, "train/reward_pos_acc": 0.9942659542594158, "train/reward_pos_loss": 0.6481769571841602, "train/reward_pred": 1.3170047805342875, "train/reward_rate": 0.10302046654929578, "train_stats/mean_log_entropy": 1.3011090755462646, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.544986611814238e-05, "report/cont_loss_std": 0.001083090901374817, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.01733356900513172, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.5983637240424287e-06, "report/cont_pred": 0.9980785846710205, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 4.687019348144531, "report/dyn_loss_std": 6.486833095550537, "report/image_loss_mean": 1.5714552402496338, "report/image_loss_std": 1.5042262077331543, "report/model_loss_mean": 4.4644775390625, "report/model_loss_std": 5.182343006134033, "report/post_ent_mag": 60.897911071777344, "report/post_ent_max": 60.897911071777344, "report/post_ent_mean": 38.95964050292969, "report/post_ent_min": 19.481277465820312, "report/post_ent_std": 6.4281768798828125, "report/prior_ent_mag": 80.12651824951172, "report/prior_ent_max": 80.12651824951172, "report/prior_ent_mean": 43.63258361816406, "report/prior_ent_min": 19.991535186767578, "report/prior_ent_std": 8.947704315185547, "report/rep_loss_mean": 4.687019348144531, "report/rep_loss_std": 6.486833095550537, "report/reward_avg": 1.2890625, "report/reward_loss_mean": 0.08077501505613327, "report/reward_loss_std": 0.28732582926750183, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.987403869628906, "report/reward_neg_acc": 0.9660087823867798, "report/reward_neg_loss": 0.00827720481902361, "report/reward_pos_acc": 0.9910714626312256, "report/reward_pos_loss": 0.6711142659187317, "report/reward_pred": 1.1919231414794922, "report/reward_rate": 0.109375, "eval/cont_avg": 0.998046875, "eval/cont_loss_mean": 0.0017347028478980064, "eval/cont_loss_std": 0.03775608167052269, "eval/cont_neg_acc": 0.5, "eval/cont_neg_loss": 0.8133472800254822, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 0.0001464197994209826, "eval/cont_pred": 0.9989688992500305, "eval/cont_rate": 0.998046875, "eval/dyn_loss_mean": 11.972827911376953, "eval/dyn_loss_std": 10.941252708435059, "eval/image_loss_mean": 5.384101390838623, "eval/image_loss_std": 4.965152740478516, "eval/model_loss_mean": 13.301156044006348, "eval/model_loss_std": 11.453408241271973, "eval/post_ent_mag": 59.094608306884766, "eval/post_ent_max": 59.094608306884766, "eval/post_ent_mean": 38.25636291503906, "eval/post_ent_min": 21.50330352783203, "eval/post_ent_std": 7.118561744689941, "eval/prior_ent_mag": 80.12651824951172, "eval/prior_ent_max": 80.12651824951172, "eval/prior_ent_mean": 44.5086784362793, "eval/prior_ent_min": 23.649612426757812, "eval/prior_ent_std": 11.145915031433105, "eval/rep_loss_mean": 11.972827911376953, "eval/rep_loss_std": 10.941252708435059, "eval/reward_avg": 1.064453125, "eval/reward_loss_mean": 0.7316226959228516, "eval/reward_loss_std": 2.8657541275024414, "eval/reward_max_data": 50.0, "eval/reward_max_pred": 34.79865646362305, "eval/reward_neg_acc": 0.9129488468170166, "eval/reward_neg_loss": 0.11495982855558395, "eval/reward_pos_acc": 0.5142857432365417, "eval/reward_pos_loss": 6.1288909912109375, "eval/reward_pred": 0.4970036745071411, "eval/reward_rate": 0.1025390625, "replay/size": 147741.0, "replay/inserts": 714.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 5.503328574471781e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4119580680248783e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.4603137969970703e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.3492832183838, "timer/env.step_count": 714.0, "timer/env.step_total": 2.8309226036071777, "timer/env.step_frac": 0.009425434857951087, "timer/env.step_avg": 0.0039648775960884845, "timer/env.step_min": 0.0024874210357666016, "timer/env.step_max": 0.01658797264099121, "timer/replay._sample_count": 11424.0, "timer/replay._sample_total": 185.08876943588257, "timer/replay._sample_frac": 0.6162450845647753, "timer/replay._sample_avg": 0.016201748024849666, "timer/replay._sample_min": 0.008072137832641602, "timer/replay._sample_max": 0.037615299224853516, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 714.0, "timer/agent.policy_total": 199.21822834014893, "timer/agent.policy_frac": 0.6632885093163264, "timer/agent.policy_avg": 0.2790171265268192, "timer/agent.policy_min": 0.0032739639282226562, "timer/agent.policy_max": 0.3129310607910156, "timer/dataset_train_count": 714.0, "timer/dataset_train_total": 0.08583998680114746, "timer/dataset_train_frac": 0.0002858005382311276, "timer/dataset_train_avg": 0.00012022407115006648, "timer/dataset_train_min": 7.104873657226562e-05, "timer/dataset_train_max": 0.0003380775451660156, "timer/agent.train_count": 714.0, "timer/agent.train_total": 97.20980715751648, "timer/agent.train_frac": 0.32365586531743207, "timer/agent.train_avg": 0.13614818929624156, "timer/agent.train_min": 0.09918475151062012, "timer/agent.train_max": 0.4280552864074707, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5028064250946045, "timer/agent.report_frac": 0.0016740723324084454, "timer/agent.report_avg": 0.25140321254730225, "timer/agent.report_min": 0.09984993934631348, "timer/agent.report_max": 0.402956485748291, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 7.987022399902344e-05, "timer/dataset_eval_frac": 2.6592447014747776e-07, "timer/dataset_eval_avg": 7.987022399902344e-05, "timer/dataset_eval_min": 7.987022399902344e-05, "timer/dataset_eval_max": 7.987022399902344e-05, "fps": 9.50860552322435}
+{"step": 593464, "episode/length": 682.0, "episode/score": 1080.0, "episode/reward_rate": 0.14641288433382138}
+{"step": 594068, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.690965249504842, "train/action_min": 0.0, "train/action_std": 2.8269052874874063, "train/actor_opt_grad_norm": 0.008259353096741187, "train/actor_opt_grad_steps": 147060.0, "train/actor_opt_loss": 0.0007827001458101965, "train/adv_mag": 0.6451435955897183, "train/adv_max": 0.6187690376815661, "train/adv_mean": 0.0020564232952790303, "train/adv_min": -0.4100343001560426, "train/adv_std": 0.03515244049715324, "train/cont_avg": 0.9983632262323944, "train/cont_loss_mean": 0.0002450829065870923, "train/cont_loss_std": 0.006747159455005818, "train/cont_neg_acc": 0.9576271186440678, "train/cont_neg_loss": 0.12355117155352692, "train/cont_pos_acc": 0.9999448858516317, "train/cont_pos_loss": 0.0001356308052482398, "train/cont_pred": 0.9983169310529467, "train/cont_rate": 0.9983632262323944, "train/dyn_loss_mean": 5.043995135267016, "train/dyn_loss_std": 6.908136314069721, "train/extr_critic_critic_opt_grad_norm": 2.350602215444538, "train/extr_critic_critic_opt_grad_steps": 147060.0, "train/extr_critic_critic_opt_loss": 1.5366258083934514, "train/extr_critic_mag": 535.4476722394917, "train/extr_critic_max": 535.4476722394917, "train/extr_critic_mean": 202.6630875493439, "train/extr_critic_min": 0.03935645499699552, "train/extr_critic_std": 165.429978169186, "train/extr_return_normed_mag": 1.2726564843889694, "train/extr_return_normed_max": 1.2726564843889694, "train/extr_return_normed_mean": 0.42960123864697736, "train/extr_return_normed_min": -0.009246001721845127, "train/extr_return_normed_std": 0.358788100766464, "train/extr_return_rate": 0.9322623719631786, "train/extr_return_raw_mag": 594.8396150830766, "train/extr_return_raw_max": 594.8396150830766, "train/extr_return_raw_mean": 203.6176542899978, "train/extr_return_raw_min": 0.03833308458306932, "train/extr_return_raw_std": 166.45091054137325, "train/extr_reward_mag": 247.5098071299808, "train/extr_reward_max": 247.5098071299808, "train/extr_reward_mean": 1.1210379919535678, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.946533475123661, "train/image_loss_mean": 1.7732181834502958, "train/image_loss_std": 1.5684977501211033, "train/model_loss_mean": 4.87343743821265, "train/model_loss_std": 5.45450192438045, "train/model_opt_grad_norm": 11.018196065660934, "train/model_opt_grad_steps": 147060.0, "train/model_opt_loss": 4.87343743821265, "train/policy_entropy_mag": 2.181705290163067, "train/policy_entropy_max": 2.181705290163067, "train/policy_entropy_mean": 1.1795716378050791, "train/policy_entropy_min": 0.06951189156569226, "train/policy_entropy_std": 0.6292108591173736, "train/policy_logprob_mag": 6.800349900420283, "train/policy_logprob_max": -0.008957950254036506, "train/policy_logprob_mean": -1.1795729214036967, "train/policy_logprob_min": -6.800349900420283, "train/policy_logprob_std": 1.0902933872921365, "train/policy_randomness_mag": 0.9929368630261488, "train/policy_randomness_max": 0.9929368630261488, "train/policy_randomness_mean": 0.536846186493484, "train/policy_randomness_min": 0.031636225085862925, "train/policy_randomness_std": 0.2863662020421364, "train/post_ent_mag": 60.609756845823476, "train/post_ent_max": 60.609756845823476, "train/post_ent_mean": 38.91467860047246, "train/post_ent_min": 20.653300379363582, "train/post_ent_std": 6.310439297850703, "train/prior_ent_mag": 80.22654111620406, "train/prior_ent_max": 80.22654111620406, "train/prior_ent_mean": 44.00417472946812, "train/prior_ent_min": 22.17176270820725, "train/prior_ent_std": 8.979677730882672, "train/rep_loss_mean": 5.043995135267016, "train/rep_loss_std": 6.908136314069721, "train/reward_avg": 1.4807988556338028, "train/reward_loss_mean": 0.07357707902998992, "train/reward_loss_std": 0.25487390664261833, "train/reward_max_data": 255.49295774647888, "train/reward_max_pred": 224.6315923341563, "train/reward_neg_acc": 0.9664332237042171, "train/reward_neg_loss": 0.009366197583698471, "train/reward_pos_acc": 0.9956519813604758, "train/reward_pos_loss": 0.6456208514495635, "train/reward_pred": 1.32612054784533, "train/reward_rate": 0.10014579665492958, "train_stats/mean_log_entropy": 1.0415115356445312, "report/cont_avg": 0.99609375, "report/cont_loss_mean": 0.00010682424908736721, "report/cont_loss_std": 0.002507819328457117, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.0011573056690394878, "report/cont_pos_acc": 0.9999999403953552, "report/cont_pos_loss": 0.00010270471102558076, "report/cont_pred": 0.9959990978240967, "report/cont_rate": 0.99609375, "report/dyn_loss_mean": 4.110331058502197, "report/dyn_loss_std": 6.680237770080566, "report/image_loss_mean": 1.351199746131897, "report/image_loss_std": 1.5191097259521484, "report/model_loss_mean": 3.8820934295654297, "report/model_loss_std": 5.200934886932373, "report/post_ent_mag": 61.13479995727539, "report/post_ent_max": 61.13479995727539, "report/post_ent_mean": 36.23011779785156, "report/post_ent_min": 20.119922637939453, "report/post_ent_std": 6.551485538482666, "report/prior_ent_mag": 80.07113647460938, "report/prior_ent_max": 80.07113647460938, "report/prior_ent_mean": 40.47736358642578, "report/prior_ent_min": 22.511831283569336, "report/prior_ent_std": 9.558843612670898, "report/rep_loss_mean": 4.110331058502197, "report/rep_loss_std": 6.680237770080566, "report/reward_avg": 1.064453125, "report/reward_loss_mean": 0.06458819657564163, "report/reward_loss_std": 0.20720016956329346, "report/reward_max_data": 50.0, "report/reward_max_pred": 49.99613571166992, "report/reward_neg_acc": 0.9783315062522888, "report/reward_neg_loss": 0.0069158850237727165, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5916332006454468, "report/reward_pred": 1.0171492099761963, "report/reward_rate": 0.0986328125, "eval/cont_avg": 1.0, "eval/cont_loss_mean": 2.95214420020784e-07, "eval/cont_loss_std": 7.97452412371058e-06, "eval/cont_neg_acc": NaN, "eval/cont_neg_loss": NaN, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 2.95214420020784e-07, "eval/cont_pred": 0.9999997019767761, "eval/cont_rate": 1.0, "eval/dyn_loss_mean": 15.401152610778809, "eval/dyn_loss_std": 10.442283630371094, "eval/image_loss_mean": 6.1368021965026855, "eval/image_loss_std": 4.187410354614258, "eval/model_loss_mean": 16.223751068115234, "eval/model_loss_std": 9.959076881408691, "eval/post_ent_mag": 55.70446014404297, "eval/post_ent_max": 55.70446014404297, "eval/post_ent_mean": 43.967979431152344, "eval/post_ent_min": 27.621654510498047, "eval/post_ent_std": 4.625726222991943, "eval/prior_ent_mag": 80.07113647460938, "eval/prior_ent_max": 80.07113647460938, "eval/prior_ent_mean": 51.728328704833984, "eval/prior_ent_min": 35.31915283203125, "eval/prior_ent_std": 6.179157257080078, "eval/rep_loss_mean": 15.401152610778809, "eval/rep_loss_std": 10.442283630371094, "eval/reward_avg": 1.298828125, "eval/reward_loss_mean": 0.8462557196617126, "eval/reward_loss_std": 3.029764413833618, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 49.4874267578125, "eval/reward_neg_acc": 0.87794429063797, "eval/reward_neg_loss": 0.12836678326129913, "eval/reward_pos_acc": 0.30000001192092896, "eval/reward_pos_loss": 8.296347618103027, "eval/reward_pred": 0.5901059508323669, "eval/reward_rate": 0.087890625, "replay/size": 148454.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.512719067417054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.373122149730966e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.276957988739, "timer/env.step_count": 713.0, "timer/env.step_total": 2.845221757888794, "timer/env.step_frac": 0.009475324969808357, "timer/env.step_avg": 0.003990493349072643, "timer/env.step_min": 0.002321004867553711, "timer/env.step_max": 0.019367456436157227, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 179.56378769874573, "timer/replay._sample_frac": 0.5979938950409899, "timer/replay._sample_avg": 0.015740163718333252, "timer/replay._sample_min": 0.008332490921020508, "timer/replay._sample_max": 0.03782916069030762, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.11069250106811523, "timer/agent.save_frac": 0.0003686346824929085, "timer/agent.save_avg": 0.11069250106811523, "timer/agent.save_min": 0.11069250106811523, "timer/agent.save_max": 0.11069250106811523, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 198.97936987876892, "timer/agent.policy_frac": 0.6626528096312706, "timer/agent.policy_avg": 0.2790734500403491, "timer/agent.policy_min": 0.003296375274658203, "timer/agent.policy_max": 0.3677046298980713, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08620548248291016, "timer/dataset_train_frac": 0.00028708657187789626, "timer/dataset_train_avg": 0.00012090530502511943, "timer/dataset_train_min": 6.961822509765625e-05, "timer/dataset_train_max": 0.00019431114196777344, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.35404396057129, "timer/agent.train_frac": 0.3242141675227117, "timer/agent.train_avg": 0.1365414361298335, "timer/agent.train_min": 0.10038399696350098, "timer/agent.train_max": 0.4273066520690918, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5013444423675537, "timer/agent.report_frac": 0.0016696067714471621, "timer/agent.report_avg": 0.25067222118377686, "timer/agent.report_min": 0.10067486763000488, "timer/agent.report_max": 0.40066957473754883, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 3.457069396972656e-05, "timer/dataset_eval_frac": 1.1512935991253459e-07, "timer/dataset_eval_avg": 3.457069396972656e-05, "timer/dataset_eval_min": 3.457069396972656e-05, "timer/dataset_eval_max": 3.457069396972656e-05, "fps": 9.497551316154233}
+{"step": 596728, "episode/length": 815.0, "episode/score": 1070.0, "episode/reward_rate": 0.11642156862745098}
+{"step": 596920, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.788289388020833, "train/action_min": 0.0, "train/action_std": 2.8147962821854486, "train/actor_opt_grad_norm": 0.008020518156829186, "train/actor_opt_grad_steps": 147775.0, "train/actor_opt_loss": 0.0005348688454552707, "train/adv_mag": 0.5774287937415971, "train/adv_max": 0.5492267811463939, "train/adv_mean": 0.0016250553151419605, "train/adv_min": -0.4105445792277654, "train/adv_std": 0.032238335995417505, "train/cont_avg": 0.9986029730902778, "train/cont_loss_mean": 0.00028147117179829547, "train/cont_loss_std": 0.008446893714927193, "train/cont_neg_acc": 0.8919753090099052, "train/cont_neg_loss": 0.22062065859429403, "train/cont_pos_acc": 0.9999864200750986, "train/cont_pos_loss": 5.0546514200675556e-05, "train/cont_pred": 0.9986597630712721, "train/cont_rate": 0.9986029730902778, "train/dyn_loss_mean": 4.8834531505902605, "train/dyn_loss_std": 6.848835309346517, "train/extr_critic_critic_opt_grad_norm": 2.2205695807933807, "train/extr_critic_critic_opt_grad_steps": 147775.0, "train/extr_critic_critic_opt_loss": 1.4760086470180087, "train/extr_critic_mag": 535.3238877190483, "train/extr_critic_max": 535.3238877190483, "train/extr_critic_mean": 216.74850251939563, "train/extr_critic_min": 1.095235561331113, "train/extr_critic_std": 163.53660668267145, "train/extr_return_normed_mag": 1.200511622760031, "train/extr_return_normed_max": 1.200511622760031, "train/extr_return_normed_mean": 0.459942025028997, "train/extr_return_normed_min": -0.006419390782765631, "train/extr_return_normed_std": 0.3538850409289201, "train/extr_return_rate": 0.9426948154966036, "train/extr_return_raw_mag": 560.9338654412163, "train/extr_return_raw_max": 560.9338654412163, "train/extr_return_raw_mean": 217.50214534335666, "train/extr_return_raw_min": 1.2600979586964565, "train/extr_return_raw_std": 164.10327275594076, "train/extr_reward_mag": 195.70648617214627, "train/extr_reward_max": 195.70648617214627, "train/extr_reward_mean": 1.1249926644894812, "train/extr_reward_min": 0.0, "train/extr_reward_std": 5.785777707894643, "train/image_loss_mean": 1.7114212645424738, "train/image_loss_std": 1.4973101475172572, "train/model_loss_mean": 4.719313482443492, "train/model_loss_std": 5.358095016744402, "train/model_opt_grad_norm": 10.95443300406138, "train/model_opt_grad_steps": 147775.0, "train/model_opt_loss": 4.719313482443492, "train/policy_entropy_mag": 2.1800283326043024, "train/policy_entropy_max": 2.1800283326043024, "train/policy_entropy_mean": 1.1349832465251286, "train/policy_entropy_min": 0.06945600246803628, "train/policy_entropy_std": 0.6233371537592676, "train/policy_logprob_mag": 6.801164997948541, "train/policy_logprob_max": -0.008949668353630437, "train/policy_logprob_mean": -1.1348146258129015, "train/policy_logprob_min": -6.801164997948541, "train/policy_logprob_std": 1.0943824963437185, "train/policy_randomness_mag": 0.992173642747932, "train/policy_randomness_max": 0.992173642747932, "train/policy_randomness_mean": 0.5165531291729875, "train/policy_randomness_min": 0.031610788932691015, "train/policy_randomness_std": 0.2836929619726207, "train/post_ent_mag": 60.17690271801419, "train/post_ent_max": 60.17690271801419, "train/post_ent_mean": 38.68338245815701, "train/post_ent_min": 20.123810953564114, "train/post_ent_std": 6.17843496799469, "train/prior_ent_mag": 80.24028566148546, "train/prior_ent_max": 80.24028566148546, "train/prior_ent_mean": 43.64190906948514, "train/prior_ent_min": 22.249630848566692, "train/prior_ent_std": 8.855296128325993, "train/rep_loss_mean": 4.8834531505902605, "train/rep_loss_std": 6.848835309346517, "train/reward_avg": 1.4312065972222223, "train/reward_loss_mean": 0.07753884890634152, "train/reward_loss_std": 0.261090246339639, "train/reward_max_data": 190.13888888888889, "train/reward_max_pred": 173.99451916747623, "train/reward_neg_acc": 0.967474054131243, "train/reward_neg_loss": 0.009625333891664114, "train/reward_pos_acc": 0.9956346046593454, "train/reward_pos_loss": 0.6452435304721197, "train/reward_pred": 1.3010104455881648, "train/reward_rate": 0.10686577690972222, "train_stats/mean_log_entropy": 1.03429114818573, "report/cont_avg": 0.9970703125, "report/cont_loss_mean": 1.0081917025672738e-06, "report/cont_loss_std": 3.0124092518235557e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00033613533014431596, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 2.348912531147107e-08, "report/cont_pred": 0.9970712661743164, "report/cont_rate": 0.9970703125, "report/dyn_loss_mean": 4.530768394470215, "report/dyn_loss_std": 6.596366882324219, "report/image_loss_mean": 1.5428669452667236, "report/image_loss_std": 1.5369373559951782, "report/model_loss_mean": 4.339565277099609, "report/model_loss_std": 5.277328968048096, "report/post_ent_mag": 61.090545654296875, "report/post_ent_max": 61.090545654296875, "report/post_ent_mean": 37.57423782348633, "report/post_ent_min": 19.935646057128906, "report/post_ent_std": 7.553220272064209, "report/prior_ent_mag": 80.36372375488281, "report/prior_ent_max": 80.36372375488281, "report/prior_ent_mean": 42.36962127685547, "report/prior_ent_min": 22.526229858398438, "report/prior_ent_std": 10.313122749328613, "report/rep_loss_mean": 4.530768394470215, "report/rep_loss_std": 6.596366882324219, "report/reward_avg": 1.97265625, "report/reward_loss_mean": 0.07823621481657028, "report/reward_loss_std": 0.25766462087631226, "report/reward_max_data": 200.0, "report/reward_max_pred": 200.69046020507812, "report/reward_neg_acc": 0.9659340977668762, "report/reward_neg_loss": 0.007349350955337286, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.644087553024292, "report/reward_pred": 1.6961736679077148, "report/reward_rate": 0.111328125, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.005595948081463575, "eval/cont_loss_std": 0.17898163199424744, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 5.7302117347717285, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 3.8509387678686835e-08, "eval/cont_pred": 0.9999967813491821, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 14.426112174987793, "eval/dyn_loss_std": 10.154043197631836, "eval/image_loss_mean": 5.571485996246338, "eval/image_loss_std": 4.066567897796631, "eval/model_loss_mean": 14.97043228149414, "eval/model_loss_std": 9.780628204345703, "eval/post_ent_mag": 60.320247650146484, "eval/post_ent_max": 60.320247650146484, "eval/post_ent_mean": 43.57616424560547, "eval/post_ent_min": 22.700984954833984, "eval/post_ent_std": 6.250172138214111, "eval/prior_ent_mag": 80.36372375488281, "eval/prior_ent_max": 80.36372375488281, "eval/prior_ent_mean": 51.4952507019043, "eval/prior_ent_min": 23.6955623626709, "eval/prior_ent_std": 7.741946697235107, "eval/rep_loss_mean": 14.426112174987793, "eval/rep_loss_std": 10.154043197631836, "eval/reward_avg": 1.2890625, "eval/reward_loss_mean": 0.7376836538314819, "eval/reward_loss_std": 3.2936060428619385, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 42.68516159057617, "eval/reward_neg_acc": 0.8810755014419556, "eval/reward_neg_loss": 0.10621202737092972, "eval/reward_pos_acc": 0.21052631735801697, "eval/reward_pos_loss": 11.450544357299805, "eval/reward_pred": 0.28888994455337524, "eval/reward_rate": 0.0556640625, "replay/size": 149167.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.489646301697548e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3826104066482266e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.6093254089355469e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 299.79440689086914, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8069329261779785, "timer/env.step_frac": 0.009362859551945395, "timer/env.step_avg": 0.003936792322830264, "timer/env.step_min": 0.002392292022705078, "timer/env.step_max": 0.021447420120239258, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 179.5857286453247, "timer/replay._sample_frac": 0.5990296166889375, "timer/replay._sample_avg": 0.015742087013089472, "timer/replay._sample_min": 0.008148431777954102, "timer/replay._sample_max": 0.03251910209655762, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.13337516784668, "timer/agent.policy_frac": 0.664233123069354, "timer/agent.policy_avg": 0.2792894462382141, "timer/agent.policy_min": 0.003261089324951172, "timer/agent.policy_max": 0.3135533332824707, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08511662483215332, "timer/dataset_train_frac": 0.0002839166537991397, "timer/dataset_train_avg": 0.00011937815544481531, "timer/dataset_train_min": 7.271766662597656e-05, "timer/dataset_train_max": 0.00025653839111328125, "timer/agent.train_count": 713.0, "timer/agent.train_total": 97.05744695663452, "timer/agent.train_frac": 0.32374669015077817, "timer/agent.train_avg": 0.13612545155208208, "timer/agent.train_min": 0.10044217109680176, "timer/agent.train_max": 0.4292335510253906, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.20315814018249512, "timer/agent.report_frac": 0.000677658206800531, "timer/agent.report_avg": 0.10157907009124756, "timer/agent.report_min": 0.10108566284179688, "timer/agent.report_max": 0.10207247734069824, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.318092346191406e-05, "timer/dataset_eval_frac": 2.1074750565614495e-07, "timer/dataset_eval_avg": 6.318092346191406e-05, "timer/dataset_eval_min": 6.318092346191406e-05, "timer/dataset_eval_max": 6.318092346191406e-05, "fps": 9.5128357493957}
+{"step": 599780, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.698574872084067, "train/action_min": 0.0, "train/action_std": 2.817641657842717, "train/actor_opt_grad_norm": 0.008701915452650316, "train/actor_opt_grad_steps": 148490.0, "train/actor_opt_loss": 0.0006286686701213525, "train/adv_mag": 0.6357811676784301, "train/adv_max": 0.5990800901617802, "train/adv_mean": 0.0017209472010710643, "train/adv_min": -0.44358264644381024, "train/adv_std": 0.035031764518836855, "train/cont_avg": 0.9986108054577465, "train/cont_loss_mean": 0.000267077369095536, "train/cont_loss_std": 0.0067366867852852496, "train/cont_neg_acc": 0.9403030308810147, "train/cont_neg_loss": 0.10312520144685074, "train/cont_pos_acc": 0.9999724080864812, "train/cont_pos_loss": 7.470092594864241e-05, "train/cont_pred": 0.998662486882277, "train/cont_rate": 0.9986108054577465, "train/dyn_loss_mean": 4.979571124197731, "train/dyn_loss_std": 6.904126691146636, "train/extr_critic_critic_opt_grad_norm": 2.293926777973981, "train/extr_critic_critic_opt_grad_steps": 148490.0, "train/extr_critic_critic_opt_loss": 1.5029967183798132, "train/extr_critic_mag": 550.6551341741857, "train/extr_critic_max": 550.6551341741857, "train/extr_critic_mean": 208.67106617672343, "train/extr_critic_min": 0.11048691205575432, "train/extr_critic_std": 160.29187022464376, "train/extr_return_normed_mag": 1.3156248028849211, "train/extr_return_normed_max": 1.3156248028849211, "train/extr_return_normed_mean": 0.4397420266144712, "train/extr_return_normed_min": -0.009909769218467491, "train/extr_return_normed_std": 0.3467787332098249, "train/extr_return_rate": 0.9507336129604931, "train/extr_return_raw_mag": 617.1231306908836, "train/extr_return_raw_max": 617.1231306908836, "train/extr_return_raw_mean": 209.47134001825896, "train/extr_return_raw_min": 0.12300380740665608, "train/extr_return_raw_std": 161.4358389411174, "train/extr_reward_mag": 227.94852507953914, "train/extr_reward_max": 227.94852507953914, "train/extr_reward_mean": 1.1391039003788586, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.598699667084385, "train/image_loss_mean": 1.7370595293985287, "train/image_loss_std": 1.5231260397064854, "train/model_loss_mean": 4.800770218943207, "train/model_loss_std": 5.412623875577685, "train/model_opt_grad_norm": 11.491933271918498, "train/model_opt_grad_steps": 148490.0, "train/model_opt_loss": 4.800770218943207, "train/policy_entropy_mag": 2.1811429346111457, "train/policy_entropy_max": 2.1811429346111457, "train/policy_entropy_mean": 1.1528347932117087, "train/policy_entropy_min": 0.06959733933630124, "train/policy_entropy_std": 0.6251868110307506, "train/policy_logprob_mag": 6.800973657151343, "train/policy_logprob_max": -0.008970907259680016, "train/policy_logprob_mean": -1.1529211670580044, "train/policy_logprob_min": -6.800973657151343, "train/policy_logprob_std": 1.0926033879669619, "train/policy_randomness_mag": 0.9926809240394915, "train/policy_randomness_max": 0.9926809240394915, "train/policy_randomness_mean": 0.5246777202881557, "train/policy_randomness_min": 0.03167511391597734, "train/policy_randomness_std": 0.2845347828008759, "train/post_ent_mag": 60.00104651652591, "train/post_ent_max": 60.00104651652591, "train/post_ent_mean": 38.83542477245062, "train/post_ent_min": 20.519934103522502, "train/post_ent_std": 6.125331663749587, "train/prior_ent_mag": 80.33784689030178, "train/prior_ent_max": 80.33784689030178, "train/prior_ent_mean": 43.85600210915149, "train/prior_ent_min": 22.460937392543737, "train/prior_ent_std": 8.799955247153699, "train/rep_loss_mean": 4.979571124197731, "train/rep_loss_std": 6.904126691146636, "train/reward_avg": 1.4605798855633803, "train/reward_loss_mean": 0.0757008783099517, "train/reward_loss_std": 0.2598683000870154, "train/reward_max_data": 223.66197183098592, "train/reward_max_pred": 196.30463038699727, "train/reward_neg_acc": 0.96663567633696, "train/reward_neg_loss": 0.009456226954721965, "train/reward_pos_acc": 0.9959250252011796, "train/reward_pos_loss": 0.6518216225462901, "train/reward_pred": 1.3122141403211673, "train/reward_rate": 0.10355688820422536, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 1.965789579116972e-06, "report/cont_loss_std": 6.132010457804427e-05, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 6.644976110692369e-06, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 1.9612155028880807e-06, "report/cont_pred": 0.9990215301513672, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 5.6987762451171875, "report/dyn_loss_std": 7.111496925354004, "report/image_loss_mean": 2.0104475021362305, "report/image_loss_std": 1.4062010049819946, "report/model_loss_mean": 5.5034871101379395, "report/model_loss_std": 5.434853553771973, "report/post_ent_mag": 61.2447509765625, "report/post_ent_max": 61.2447509765625, "report/post_ent_mean": 40.65092468261719, "report/post_ent_min": 23.7457218170166, "report/post_ent_std": 5.430048942565918, "report/prior_ent_mag": 80.23316192626953, "report/prior_ent_max": 80.23316192626953, "report/prior_ent_mean": 46.420753479003906, "report/prior_ent_min": 25.87115478515625, "report/prior_ent_std": 7.602969169616699, "report/rep_loss_mean": 5.6987762451171875, "report/rep_loss_std": 7.111496925354004, "report/reward_avg": 1.572265625, "report/reward_loss_mean": 0.0737718790769577, "report/reward_loss_std": 0.2035295069217682, "report/reward_max_data": 200.0, "report/reward_max_pred": 141.59332275390625, "report/reward_neg_acc": 0.9602210521697998, "report/reward_neg_loss": 0.0067907837219536304, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5831659436225891, "report/reward_pred": 1.3360793590545654, "report/reward_rate": 0.1162109375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.006076433230191469, "eval/cont_loss_std": 0.19433706998825073, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 6.2218241691589355, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 4.337712198321242e-07, "eval/cont_pred": 0.999997615814209, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 12.373966217041016, "eval/dyn_loss_std": 10.958024024963379, "eval/image_loss_mean": 4.546073913574219, "eval/image_loss_std": 4.124352931976318, "eval/model_loss_mean": 12.4322509765625, "eval/model_loss_std": 10.374884605407715, "eval/post_ent_mag": 61.70276641845703, "eval/post_ent_max": 61.70276641845703, "eval/post_ent_mean": 40.38526153564453, "eval/post_ent_min": 19.873558044433594, "eval/post_ent_std": 6.987208843231201, "eval/prior_ent_mag": 80.23316192626953, "eval/prior_ent_max": 80.23316192626953, "eval/prior_ent_mean": 47.22260284423828, "eval/prior_ent_min": 20.887351989746094, "eval/prior_ent_std": 10.027620315551758, "eval/rep_loss_mean": 12.373966217041016, "eval/rep_loss_std": 10.958024024963379, "eval/reward_avg": 2.40234375, "eval/reward_loss_mean": 0.4557207226753235, "eval/reward_loss_std": 2.1832892894744873, "eval/reward_max_data": 800.0, "eval/reward_max_pred": 23.81093978881836, "eval/reward_neg_acc": 0.935799777507782, "eval/reward_neg_loss": 0.0675298422574997, "eval/reward_pos_acc": 0.7047619223594666, "eval/reward_pos_loss": 3.8533151149749756, "eval/reward_pred": 0.7875368595123291, "eval/reward_rate": 0.1025390625, "replay/size": 149882.0, "replay/inserts": 715.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 5.436610508631993e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.39356076300561e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 80978.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.519918441772461e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.61131143569946, "timer/env.step_count": 715.0, "timer/env.step_total": 2.833054780960083, "timer/env.step_frac": 0.009424311970928849, "timer/env.step_avg": 0.003962314378965151, "timer/env.step_min": 0.002370119094848633, "timer/env.step_max": 0.008078336715698242, "timer/replay._sample_count": 11440.0, "timer/replay._sample_total": 181.47540879249573, "timer/replay._sample_frac": 0.6036878916025527, "timer/replay._sample_avg": 0.015863235034309066, "timer/replay._sample_min": 0.008397340774536133, "timer/replay._sample_max": 0.04056668281555176, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/agent.policy_count": 715.0, "timer/agent.policy_total": 199.70741534233093, "timer/agent.policy_frac": 0.6643376604444514, "timer/agent.policy_avg": 0.27931107040885444, "timer/agent.policy_min": 0.003147602081298828, "timer/agent.policy_max": 0.31481218338012695, "timer/dataset_train_count": 715.0, "timer/dataset_train_total": 0.08473682403564453, "timer/dataset_train_frac": 0.0002818816884532626, "timer/dataset_train_avg": 0.00011851304060929305, "timer/dataset_train_min": 6.723403930664062e-05, "timer/dataset_train_max": 0.00023102760314941406, "timer/agent.train_count": 715.0, "timer/agent.train_total": 96.99300265312195, "timer/agent.train_frac": 0.3226525382224969, "timer/agent.train_avg": 0.13565454916520553, "timer/agent.train_min": 0.10013628005981445, "timer/agent.train_max": 0.4263486862182617, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.5001933574676514, "timer/agent.report_frac": 0.0016639206125636506, "timer/agent.report_avg": 0.2500966787338257, "timer/agent.report_min": 0.10023260116577148, "timer/agent.report_max": 0.3999607563018799, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 4.744529724121094e-05, "timer/dataset_eval_frac": 1.5782938111881213e-07, "timer/dataset_eval_avg": 4.744529724121094e-05, "timer/dataset_eval_min": 4.744529724121094e-05, "timer/dataset_eval_max": 4.744529724121094e-05, "fps": 9.513602144780146}
+{"step": 594004, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.41864013671875, "train/action_min": 0.0, "train/action_std": 2.9229772090911865, "train/actor_opt_grad_norm": 0.008617361076176167, "train/actor_opt_grad_steps": 147401.0, "train/actor_opt_loss": 0.002022432629019022, "train/adv_mag": 0.5856260657310486, "train/adv_max": 0.5781108140945435, "train/adv_mean": 0.0021744207479059696, "train/adv_min": -0.5856260657310486, "train/adv_std": 0.030405808240175247, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.4207838830770925e-05, "train/cont_loss_std": 0.0003879601426888257, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.4207838830770925e-05, "train/cont_pred": 0.9999858736991882, "train/cont_rate": 1.0, "train/dyn_loss_mean": 4.378671646118164, "train/dyn_loss_std": 6.365536689758301, "train/extr_critic_critic_opt_grad_norm": 1.9037470817565918, "train/extr_critic_critic_opt_grad_steps": 147401.0, "train/extr_critic_critic_opt_loss": 1.81356942653656, "train/extr_critic_mag": 538.1301879882812, "train/extr_critic_max": 538.1301879882812, "train/extr_critic_mean": 218.02386474609375, "train/extr_critic_min": 0.00034046173095703125, "train/extr_critic_std": 202.7774658203125, "train/extr_return_normed_mag": 1.1434948444366455, "train/extr_return_normed_max": 1.1434948444366455, "train/extr_return_normed_mean": 0.46069028973579407, "train/extr_return_normed_min": -0.00863595400005579, "train/extr_return_normed_std": 0.4345686435699463, "train/extr_return_rate": 0.9147135615348816, "train/extr_return_raw_mag": 537.7093505859375, "train/extr_return_raw_max": 537.7093505859375, "train/extr_return_raw_mean": 219.03871154785156, "train/extr_return_raw_min": 0.0001289536594413221, "train/extr_return_raw_std": 202.81689453125, "train/extr_reward_mag": 201.61390686035156, "train/extr_reward_max": 201.61390686035156, "train/extr_reward_mean": 0.8415250778198242, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.459470748901367, "train/image_loss_mean": 1.4331729412078857, "train/image_loss_std": 1.5523608922958374, "train/model_loss_mean": 4.096837043762207, "train/model_loss_std": 5.033092021942139, "train/model_opt_grad_norm": 11.885266304016113, "train/model_opt_grad_steps": 147401.0, "train/model_opt_loss": 4.096837043762207, "train/policy_entropy_mag": 2.1755566596984863, "train/policy_entropy_max": 2.1755566596984863, "train/policy_entropy_mean": 1.3547173738479614, "train/policy_entropy_min": 0.06936560571193695, "train/policy_entropy_std": 0.5612706542015076, "train/policy_logprob_mag": 6.80214786529541, "train/policy_logprob_max": -0.008936292491853237, "train/policy_logprob_mean": -1.3527789115905762, "train/policy_logprob_min": -6.80214786529541, "train/policy_logprob_std": 1.0410473346710205, "train/policy_randomness_mag": 0.9901384711265564, "train/policy_randomness_max": 0.9901384711265564, "train/policy_randomness_mean": 0.6165583729743958, "train/policy_randomness_min": 0.031569648534059525, "train/policy_randomness_std": 0.25544530153274536, "train/post_ent_mag": 61.38773727416992, "train/post_ent_max": 61.38773727416992, "train/post_ent_mean": 38.744346618652344, "train/post_ent_min": 19.974851608276367, "train/post_ent_std": 7.3699188232421875, "train/prior_ent_mag": 80.16043090820312, "train/prior_ent_max": 80.16043090820312, "train/prior_ent_mean": 42.65782165527344, "train/prior_ent_min": 21.385238647460938, "train/prior_ent_std": 9.778341293334961, "train/rep_loss_mean": 4.378671646118164, "train/rep_loss_std": 6.365536689758301, "train/reward_avg": 0.810546875, "train/reward_loss_mean": 0.036447007209062576, "train/reward_loss_std": 0.16262853145599365, "train/reward_max_data": 200.0, "train/reward_max_pred": 199.60536193847656, "train/reward_neg_acc": 0.9844399094581604, "train/reward_neg_loss": 0.0023145561572164297, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.5848416686058044, "train/reward_pred": 0.7953435778617859, "train/reward_rate": 0.05859375, "train/params_agent/wm/model_opt": 15689347.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1055241.0, "report/cont_avg": 1.0, "report/cont_loss_mean": 3.5965871347798384e-07, "report/cont_loss_std": 6.3717989178257994e-06, "report/cont_neg_acc": NaN, "report/cont_neg_loss": NaN, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.5965871347798384e-07, "report/cont_pred": 0.9999996423721313, "report/cont_rate": 1.0, "report/dyn_loss_mean": 4.423408508300781, "report/dyn_loss_std": 6.480623245239258, "report/image_loss_mean": 1.426093339920044, "report/image_loss_std": 1.631708025932312, "report/model_loss_mean": 4.119386672973633, "report/model_loss_std": 5.196532726287842, "report/post_ent_mag": 61.42802810668945, "report/post_ent_max": 61.42802810668945, "report/post_ent_mean": 38.60879135131836, "report/post_ent_min": 19.673587799072266, "report/post_ent_std": 7.256346225738525, "report/prior_ent_mag": 80.15927124023438, "report/prior_ent_max": 80.15927124023438, "report/prior_ent_mean": 42.69788360595703, "report/prior_ent_min": 21.445892333984375, "report/prior_ent_std": 9.826387405395508, "report/rep_loss_mean": 4.423408508300781, "report/rep_loss_std": 6.480623245239258, "report/reward_avg": 0.810546875, "report/reward_loss_mean": 0.039248187094926834, "report/reward_loss_std": 0.15612271428108215, "report/reward_max_data": 200.0, "report/reward_max_pred": 198.45896911621094, "report/reward_neg_acc": 0.9771784543991089, "report/reward_neg_loss": 0.00530433701351285, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.5846127867698669, "report/reward_pred": 0.7946562767028809, "report/reward_rate": 0.05859375, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 0.004679013509303331, "eval/cont_loss_std": 0.14962653815746307, "eval/cont_neg_acc": 0.0, "eval/cont_neg_loss": 4.790390968322754, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 8.982158874459856e-07, "eval/cont_pred": 0.9999909996986389, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 10.579140663146973, "eval/dyn_loss_std": 9.607985496520996, "eval/image_loss_mean": 3.6530802249908447, "eval/image_loss_std": 3.2032158374786377, "eval/model_loss_mean": 10.447071075439453, "eval/model_loss_std": 8.728008270263672, "eval/post_ent_mag": 59.514892578125, "eval/post_ent_max": 59.514892578125, "eval/post_ent_mean": 40.91162109375, "eval/post_ent_min": 21.62799644470215, "eval/post_ent_std": 6.389482498168945, "eval/prior_ent_mag": 80.15927124023438, "eval/prior_ent_max": 80.15927124023438, "eval/prior_ent_mean": 47.44088363647461, "eval/prior_ent_min": 24.26776123046875, "eval/prior_ent_std": 9.79708194732666, "eval/rep_loss_mean": 10.579140663146973, "eval/rep_loss_std": 9.607985496520996, "eval/reward_avg": 1.40625, "eval/reward_loss_mean": 0.44182634353637695, "eval/reward_loss_std": 2.080681562423706, "eval/reward_max_data": 200.0, "eval/reward_max_pred": 22.078731536865234, "eval/reward_neg_acc": 0.9110867381095886, "eval/reward_neg_loss": 0.11108113080263138, "eval/reward_pos_acc": 0.7787610292434692, "eval/reward_pos_loss": 3.108276605606079, "eval/reward_pred": 0.982547402381897, "eval/reward_rate": 0.1103515625, "replay/size": 357170.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.4879873820713589e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 161982.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 112.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.5624931880405972e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 95.7196090221405, "timer/replay._sample_count": 112.0, "timer/replay._sample_total": 15.611733675003052, "timer/replay._sample_frac": 0.16309859426391898, "timer/replay._sample_avg": 0.13939047924109868, "timer/replay._sample_min": 0.02003788948059082, "timer/replay._sample_max": 0.8850433826446533, "timer/env.step_count": 1.0, "timer/env.step_total": 0.023252248764038086, "timer/env.step_frac": 0.00024292043189039463, "timer/env.step_avg": 0.023252248764038086, "timer/env.step_min": 0.023252248764038086, "timer/env.step_max": 0.023252248764038086, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 7.645387887954712, "timer/agent.policy_frac": 0.07987274463465777, "timer/agent.policy_avg": 7.645387887954712, "timer/agent.policy_min": 7.645387887954712, "timer/agent.policy_max": 7.645387887954712, "timer/dataset_train_count": 1.0, "timer/dataset_train_total": 9.179115295410156e-05, "timer/dataset_train_frac": 9.58958711718826e-07, "timer/dataset_train_avg": 9.179115295410156e-05, "timer/dataset_train_min": 9.179115295410156e-05, "timer/dataset_train_max": 9.179115295410156e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 56.161744356155396, "timer/agent.train_frac": 0.5867318612131487, "timer/agent.train_avg": 56.161744356155396, "timer/agent.train_min": 56.161744356155396, "timer/agent.train_max": 56.161744356155396, "timer/agent.report_count": 2.0, "timer/agent.report_total": 11.955228805541992, "timer/agent.report_frac": 0.12489842914816626, "timer/agent.report_avg": 5.977614402770996, "timer/agent.report_min": 0.1031038761138916, "timer/agent.report_max": 11.8521249294281, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.270408630371094e-05, "timer/dataset_eval_frac": 6.55080886187146e-07, "timer/dataset_eval_avg": 6.270408630371094e-05, "timer/dataset_eval_min": 6.270408630371094e-05, "timer/dataset_eval_max": 6.270408630371094e-05}
+{"step": 596496, "episode/length": 623.0, "episode/score": 840.0, "episode/reward_rate": 0.1346153846153846}
+{"step": 596752, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.8071450626148895, "train/action_min": 0.0, "train/action_std": 2.8499288418713737, "train/actor_opt_grad_norm": 0.008614236728616935, "train/actor_opt_grad_steps": 147745.0, "train/actor_opt_loss": 0.0004543921099599067, "train/adv_mag": 0.6544166465892511, "train/adv_max": 0.6050227420294986, "train/adv_mean": 0.0017678830019763957, "train/adv_min": -0.4500416195129647, "train/adv_std": 0.03562399290282937, "train/cont_avg": 0.9984489889705882, "train/cont_loss_mean": 0.0004013973790380863, "train/cont_loss_std": 0.011331454023289911, "train/cont_neg_acc": 0.8729885066377705, "train/cont_neg_loss": 0.24054069118411675, "train/cont_pos_acc": 0.9999856247621424, "train/cont_pos_loss": 0.00010323351395536189, "train/cont_pred": 0.9985187097507364, "train/cont_rate": 0.9984489889705882, "train/dyn_loss_mean": 5.202852831167333, "train/dyn_loss_std": 7.7347930038676544, "train/extr_critic_critic_opt_grad_norm": 2.332166748888352, "train/extr_critic_critic_opt_grad_steps": 147745.0, "train/extr_critic_critic_opt_loss": 1.5260196538532482, "train/extr_critic_mag": 528.6492448694565, "train/extr_critic_max": 528.6492448694565, "train/extr_critic_mean": 216.21153618307676, "train/extr_critic_min": 0.09138540485325981, "train/extr_critic_std": 165.87246861177331, "train/extr_return_normed_mag": 1.263148876674035, "train/extr_return_normed_max": 1.263148876674035, "train/extr_return_normed_mean": 0.46010734053219066, "train/extr_return_normed_min": -0.010074621126370724, "train/extr_return_normed_std": 0.3610367529532489, "train/extr_return_rate": 0.9423589233089896, "train/extr_return_raw_mag": 587.4508406695197, "train/extr_return_raw_max": 587.4508406695197, "train/extr_return_raw_mean": 217.0268783569336, "train/extr_return_raw_min": 0.10040060126972522, "train/extr_return_raw_std": 166.5313025081859, "train/extr_reward_mag": 222.0181913656347, "train/extr_reward_max": 222.0181913656347, "train/extr_reward_mean": 1.1007595824844696, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.378442322506624, "train/image_loss_mean": 1.7913558150039, "train/image_loss_std": 1.9113414585590363, "train/model_loss_mean": 4.989373873261845, "train/model_loss_std": 6.293714305933784, "train/model_opt_grad_norm": 11.471998656497282, "train/model_opt_grad_steps": 147745.0, "train/model_opt_loss": 4.989373873261845, "train/policy_entropy_mag": 2.1774357311865864, "train/policy_entropy_max": 2.1774357311865864, "train/policy_entropy_mean": 1.1294190787217195, "train/policy_entropy_min": 0.06943133024170119, "train/policy_entropy_std": 0.6236015339108074, "train/policy_logprob_mag": 6.801574377452626, "train/policy_logprob_max": -0.008945974439163418, "train/policy_logprob_mean": -1.1270003511625177, "train/policy_logprob_min": -6.801574377452626, "train/policy_logprob_std": 1.0907865710118239, "train/policy_randomness_mag": 0.9909937066190383, "train/policy_randomness_max": 0.9909937066190383, "train/policy_randomness_mean": 0.5140207738560789, "train/policy_randomness_min": 0.03159955982118845, "train/policy_randomness_std": 0.2838132859152906, "train/post_ent_mag": 59.77888090470258, "train/post_ent_max": 59.77888090470258, "train/post_ent_mean": 38.83917045593262, "train/post_ent_min": 20.24174482682172, "train/post_ent_std": 6.498691390542423, "train/prior_ent_mag": 79.99912048788632, "train/prior_ent_max": 79.99912048788632, "train/prior_ent_mean": 43.97022381950827, "train/prior_ent_min": 22.057907889871036, "train/prior_ent_std": 9.106798200046315, "train/rep_loss_mean": 5.202852831167333, "train/rep_loss_std": 7.7347930038676544, "train/reward_avg": 1.4279354319852942, "train/reward_loss_mean": 0.0759049574022784, "train/reward_loss_std": 0.2855219648164861, "train/reward_max_data": 232.2058823529412, "train/reward_max_pred": 191.61720002398772, "train/reward_neg_acc": 0.9662483413429821, "train/reward_neg_loss": 0.010124457311843905, "train/reward_pos_acc": 0.9946445095188478, "train/reward_pos_loss": 0.6633713087614845, "train/reward_pred": 1.2756459414958954, "train/reward_rate": 0.10097369025735294, "train_stats/mean_log_entropy": 0.7333824038505554, "report/cont_avg": 0.9990234375, "report/cont_loss_mean": 3.8315852179948706e-07, "report/cont_loss_std": 8.186939339793753e-06, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 1.1954368517308467e-07, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.834161930171831e-07, "report/cont_pred": 0.9990230798721313, "report/cont_rate": 0.9990234375, "report/dyn_loss_mean": 4.5091657638549805, "report/dyn_loss_std": 7.0611114501953125, "report/image_loss_mean": 1.4962406158447266, "report/image_loss_std": 1.5815098285675049, "report/model_loss_mean": 4.2728495597839355, "report/model_loss_std": 5.541651248931885, "report/post_ent_mag": 60.47549057006836, "report/post_ent_max": 60.47549057006836, "report/post_ent_mean": 38.5695915222168, "report/post_ent_min": 20.320064544677734, "report/post_ent_std": 6.925047397613525, "report/prior_ent_mag": 80.19366455078125, "report/prior_ent_max": 80.19366455078125, "report/prior_ent_mean": 42.89574432373047, "report/prior_ent_min": 22.094215393066406, "report/prior_ent_std": 9.576663970947266, "report/rep_loss_mean": 4.5091657638549805, "report/rep_loss_std": 7.0611114501953125, "report/reward_avg": 1.005859375, "report/reward_loss_mean": 0.07110925018787384, "report/reward_loss_std": 0.24050115048885345, "report/reward_max_data": 50.0, "report/reward_max_pred": 48.04327392578125, "report/reward_neg_acc": 0.9686486721038818, "report/reward_neg_loss": 0.009528761729598045, "report/reward_pos_acc": 1.0, "report/reward_pos_loss": 0.646482527256012, "report/reward_pred": 0.9381137490272522, "report/reward_rate": 0.0966796875, "eval/cont_avg": 0.9990234375, "eval/cont_loss_mean": 1.4156564702716423e-06, "eval/cont_loss_std": 4.123198232264258e-05, "eval/cont_neg_acc": 1.0, "eval/cont_neg_loss": 0.001314772991463542, "eval/cont_pos_acc": 1.0, "eval/cont_pos_loss": 1.3182720692839212e-07, "eval/cont_pred": 0.9990245699882507, "eval/cont_rate": 0.9990234375, "eval/dyn_loss_mean": 16.638484954833984, "eval/dyn_loss_std": 8.423197746276855, "eval/image_loss_mean": 6.3226542472839355, "eval/image_loss_std": 3.4695193767547607, "eval/model_loss_mean": 17.51999282836914, "eval/model_loss_std": 8.29945182800293, "eval/post_ent_mag": 60.611026763916016, "eval/post_ent_max": 60.611026763916016, "eval/post_ent_mean": 42.76470184326172, "eval/post_ent_min": 24.71194076538086, "eval/post_ent_std": 4.3738017082214355, "eval/prior_ent_mag": 80.19366455078125, "eval/prior_ent_max": 80.19366455078125, "eval/prior_ent_mean": 51.66270446777344, "eval/prior_ent_min": 26.28494644165039, "eval/prior_ent_std": 6.075673580169678, "eval/rep_loss_mean": 16.638484954833984, "eval/rep_loss_std": 8.423197746276855, "eval/reward_avg": 2.587890625, "eval/reward_loss_mean": 1.2142475843429565, "eval/reward_loss_std": 3.8995134830474854, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 60.28541564941406, "eval/reward_neg_acc": 0.8437843918800354, "eval/reward_neg_loss": 0.21029451489448547, "eval/reward_pos_acc": 0.3478260636329651, "eval/reward_pos_loss": 9.149840354919434, "eval/reward_pred": 0.6684672832489014, "eval/reward_rate": 0.1123046875, "replay/size": 357795.0, "replay/inserts": 625.0, "replay/samples": 10992.0, "replay/insert_wait_avg": 5.815505981445312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3909919466687775e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 161982.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 1.862645149230957e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 288.7216637134552, "timer/replay._sample_count": 10992.0, "timer/replay._sample_total": 178.5110523700714, "timer/replay._sample_frac": 0.6182807693545177, "timer/replay._sample_avg": 0.01624008846161494, "timer/replay._sample_min": 0.0003933906555175781, "timer/replay._sample_max": 0.06170177459716797, "timer/env.step_count": 687.0, "timer/env.step_total": 2.669034004211426, "timer/env.step_frac": 0.009244314991411023, "timer/env.step_avg": 0.0038850567746891206, "timer/env.step_min": 0.002178668975830078, "timer/env.step_max": 0.019542217254638672, "timer/agent.policy_count": 687.0, "timer/agent.policy_total": 192.17214703559875, "timer/agent.policy_frac": 0.665596563014828, "timer/agent.policy_avg": 0.2797265604593868, "timer/agent.policy_min": 0.003045797348022461, "timer/agent.policy_max": 0.3203766345977783, "timer/dataset_train_count": 687.0, "timer/dataset_train_total": 0.08852076530456543, "timer/dataset_train_frac": 0.0003065955085116813, "timer/dataset_train_avg": 0.00012885118676064837, "timer/dataset_train_min": 7.462501525878906e-05, "timer/dataset_train_max": 0.00041937828063964844, "timer/agent.train_count": 687.0, "timer/agent.train_total": 92.69043779373169, "timer/agent.train_frac": 0.3210373499569581, "timer/agent.train_avg": 0.13492057903017712, "timer/agent.train_min": 0.09859967231750488, "timer/agent.train_max": 0.43016839027404785, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.49900293350219727, "timer/agent.report_frac": 0.0017283182948039462, "timer/agent.report_avg": 0.24950146675109863, "timer/agent.report_min": 0.10054159164428711, "timer/agent.report_max": 0.39846134185791016, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 5.340576171875e-05, "timer/dataset_eval_frac": 1.849731711568173e-07, "timer/dataset_eval_avg": 5.340576171875e-05, "timer/dataset_eval_min": 5.340576171875e-05, "timer/dataset_eval_max": 5.340576171875e-05, "fps": 9.517496835975235}
+{"step": 599604, "train/action_mag": 8.0, "train/action_max": 8.0, "train/action_mean": 4.724835713704427, "train/action_min": 0.0, "train/action_std": 2.844327085547977, "train/actor_opt_grad_norm": 0.008532148679175103, "train/actor_opt_grad_steps": 148445.0, "train/actor_opt_loss": 0.0008726874782731326, "train/adv_mag": 0.6583275886045562, "train/adv_max": 0.6189501716030968, "train/adv_mean": 0.002439389094907559, "train/adv_min": -0.4241690623263518, "train/adv_std": 0.03704710320259134, "train/cont_avg": 0.9986165364583334, "train/cont_loss_mean": 0.0003897331933585681, "train/cont_loss_std": 0.01068674056010037, "train/cont_neg_acc": 0.9211309530905315, "train/cont_neg_loss": 0.1912448071335431, "train/cont_pos_acc": 0.9999728442894088, "train/cont_pos_loss": 0.00011071579723371427, "train/cont_pred": 0.9986457170711623, "train/cont_rate": 0.9986165364583334, "train/dyn_loss_mean": 5.074517289797465, "train/dyn_loss_std": 7.3303612801763744, "train/extr_critic_critic_opt_grad_norm": 2.3408791489071317, "train/extr_critic_critic_opt_grad_steps": 148445.0, "train/extr_critic_critic_opt_loss": 1.5395353204674191, "train/extr_critic_mag": 547.431650797526, "train/extr_critic_max": 547.431650797526, "train/extr_critic_mean": 214.36930486891004, "train/extr_critic_min": 0.26181479791800183, "train/extr_critic_std": 164.2507873111301, "train/extr_return_normed_mag": 1.344515174627304, "train/extr_return_normed_max": 1.344515174627304, "train/extr_return_normed_mean": 0.45707626392443973, "train/extr_return_normed_min": -0.01060970066302818, "train/extr_return_normed_std": 0.36049467428690857, "train/extr_return_rate": 0.9389214813709259, "train/extr_return_raw_mag": 623.7223023308647, "train/extr_return_raw_max": 623.7223023308647, "train/extr_return_raw_mean": 215.49164242214627, "train/extr_return_raw_min": 0.2641713584610746, "train/extr_return_raw_std": 165.89064894782172, "train/extr_reward_mag": 215.09707272052765, "train/extr_reward_max": 215.09707272052765, "train/extr_reward_mean": 1.1565647655063205, "train/extr_reward_min": 0.0, "train/extr_reward_std": 6.774012426535289, "train/image_loss_mean": 1.7730081263515685, "train/image_loss_std": 1.6893703209029303, "train/model_loss_mean": 4.894611418247223, "train/model_loss_std": 5.819932719071706, "train/model_opt_grad_norm": 11.42646038532257, "train/model_opt_grad_steps": 148445.0, "train/model_opt_loss": 4.894611418247223, "train/policy_entropy_mag": 2.179553038544125, "train/policy_entropy_max": 2.179553038544125, "train/policy_entropy_mean": 1.124824325243632, "train/policy_entropy_min": 0.06947204139497545, "train/policy_entropy_std": 0.618394216729535, "train/policy_logprob_mag": 6.801178071233961, "train/policy_logprob_max": -0.008952072963842915, "train/policy_logprob_mean": -1.1267838014496698, "train/policy_logprob_min": -6.801178071233961, "train/policy_logprob_std": 1.0952904721101124, "train/policy_randomness_mag": 0.9919573300414615, "train/policy_randomness_max": 0.9919573300414615, "train/policy_randomness_mean": 0.511929607225789, "train/policy_randomness_min": 0.03161808838033014, "train/policy_randomness_std": 0.281443333460225, "train/post_ent_mag": 59.92407841152615, "train/post_ent_max": 59.92407841152615, "train/post_ent_mean": 38.913207636939156, "train/post_ent_min": 20.93261761135525, "train/post_ent_std": 6.206603606541951, "train/prior_ent_mag": 80.24309518602159, "train/prior_ent_max": 80.24309518602159, "train/prior_ent_mean": 43.96673425038656, "train/prior_ent_min": 22.774513165156048, "train/prior_ent_std": 8.795324438148075, "train/rep_loss_mean": 5.074517289797465, "train/rep_loss_std": 7.3303612801763744, "train/reward_avg": 1.3826497395833333, "train/reward_loss_mean": 0.07650325416276853, "train/reward_loss_std": 0.275542214512825, "train/reward_max_data": 201.66666666666666, "train/reward_max_pred": 184.93867343001895, "train/reward_neg_acc": 0.9672090965840552, "train/reward_neg_loss": 0.01042960403396541, "train/reward_pos_acc": 0.9923607773251004, "train/reward_pos_loss": 0.6640695556998253, "train/reward_pred": 1.269995939400461, "train/reward_rate": 0.1008029513888889, "report/cont_avg": 0.998046875, "report/cont_loss_mean": 3.0988194339443e-05, "report/cont_loss_std": 0.0006882572779431939, "report/cont_neg_acc": 1.0, "report/cont_neg_loss": 0.00031546747777611017, "report/cont_pos_acc": 1.0, "report/cont_pos_loss": 3.0431481718551368e-05, "report/cont_pred": 0.9980173707008362, "report/cont_rate": 0.998046875, "report/dyn_loss_mean": 5.699018478393555, "report/dyn_loss_std": 6.974979400634766, "report/image_loss_mean": 1.677520751953125, "report/image_loss_std": 1.6011085510253906, "report/model_loss_mean": 5.1544623374938965, "report/model_loss_std": 5.556774616241455, "report/post_ent_mag": 59.34757614135742, "report/post_ent_max": 59.34757614135742, "report/post_ent_mean": 38.133323669433594, "report/post_ent_min": 19.164846420288086, "report/post_ent_std": 7.571422576904297, "report/prior_ent_mag": 80.19621276855469, "report/prior_ent_max": 80.19621276855469, "report/prior_ent_mean": 43.78828048706055, "report/prior_ent_min": 22.054298400878906, "report/prior_ent_std": 10.281009674072266, "report/rep_loss_mean": 5.699018478393555, "report/rep_loss_std": 6.974979400634766, "report/reward_avg": 1.6796875, "report/reward_loss_mean": 0.05749954283237457, "report/reward_loss_std": 0.29066938161849976, "report/reward_max_data": 400.0, "report/reward_max_pred": 364.9104309082031, "report/reward_neg_acc": 0.9776833057403564, "report/reward_neg_loss": 0.0050245728343725204, "report/reward_pos_acc": 0.9879518747329712, "report/reward_pos_loss": 0.6524266600608826, "report/reward_pred": 1.4060814380645752, "report/reward_rate": 0.0810546875, "eval/cont_avg": 0.99609375, "eval/cont_loss_mean": 0.00936938263475895, "eval/cont_loss_std": 0.29868385195732117, "eval/cont_neg_acc": 0.75, "eval/cont_neg_loss": 2.3976409435272217, "eval/cont_pos_acc": 0.9999999403953552, "eval/cont_pos_loss": 3.6119206470175413e-06, "eval/cont_pred": 0.997093677520752, "eval/cont_rate": 0.99609375, "eval/dyn_loss_mean": 14.435444831848145, "eval/dyn_loss_std": 10.51758098602295, "eval/image_loss_mean": 5.679926872253418, "eval/image_loss_std": 4.308931350708008, "eval/model_loss_mean": 14.860418319702148, "eval/model_loss_std": 10.225845336914062, "eval/post_ent_mag": 60.982177734375, "eval/post_ent_max": 60.982177734375, "eval/post_ent_mean": 41.259056091308594, "eval/post_ent_min": 22.273672103881836, "eval/post_ent_std": 6.770618915557861, "eval/prior_ent_mag": 80.19621276855469, "eval/prior_ent_max": 80.19621276855469, "eval/prior_ent_mean": 49.724945068359375, "eval/prior_ent_min": 24.336984634399414, "eval/prior_ent_std": 9.342714309692383, "eval/rep_loss_mean": 14.435444831848145, "eval/rep_loss_std": 10.51758098602295, "eval/reward_avg": 1.103515625, "eval/reward_loss_mean": 0.5098552703857422, "eval/reward_loss_std": 2.58111572265625, "eval/reward_max_data": 400.0, "eval/reward_max_pred": 31.713504791259766, "eval/reward_neg_acc": 0.9283520579338074, "eval/reward_neg_loss": 0.11114859580993652, "eval/reward_pos_acc": 0.3829787075519562, "eval/reward_pos_loss": 8.797865867614746, "eval/reward_pred": 0.3185640275478363, "eval/reward_rate": 0.0458984375, "replay/size": 358508.0, "replay/inserts": 713.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 5.766853878240598e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3342077568236106e-06, "replay/sample_wait_frac": 1.0, "eval_replay/size": 161982.0, "eval_replay/inserts": 0.0, "eval_replay/samples": 16.0, "eval_replay/insert_wait_avg": NaN, "eval_replay/insert_wait_frac": NaN, "eval_replay/sample_wait_avg": 2.041459083557129e-06, "eval_replay/sample_wait_frac": 1.0, "timer/duration": 300.0024230480194, "timer/replay._sample_count": 11408.0, "timer/replay._sample_total": 175.36699056625366, "timer/replay._sample_frac": 0.5845519138963216, "timer/replay._sample_avg": 0.015372281781754354, "timer/replay._sample_min": 0.00046181678771972656, "timer/replay._sample_max": 0.03629493713378906, "timer/env.step_count": 713.0, "timer/env.step_total": 2.8318450450897217, "timer/env.step_frac": 0.009439407243175655, "timer/env.step_avg": 0.003971732181051503, "timer/env.step_min": 0.0019168853759765625, "timer/env.step_max": 0.007533550262451172, "timer/agent.policy_count": 713.0, "timer/agent.policy_total": 199.50868558883667, "timer/agent.policy_frac": 0.6650235806825554, "timer/agent.policy_avg": 0.27981582831533897, "timer/agent.policy_min": 0.0033693313598632812, "timer/agent.policy_max": 0.33446502685546875, "timer/dataset_train_count": 713.0, "timer/dataset_train_total": 0.08709573745727539, "timer/dataset_train_frac": 0.00029031678001925523, "timer/dataset_train_avg": 0.00012215390947724458, "timer/dataset_train_min": 6.842613220214844e-05, "timer/dataset_train_max": 0.0005733966827392578, "timer/agent.train_count": 713.0, "timer/agent.train_total": 96.51280641555786, "timer/agent.train_frac": 0.32170675634879686, "timer/agent.train_avg": 0.13536157982546684, "timer/agent.train_min": 0.09692788124084473, "timer/agent.train_max": 0.44709348678588867, "timer/agent.report_count": 2.0, "timer/agent.report_total": 0.4987335205078125, "timer/agent.report_frac": 0.0016624316411870564, "timer/agent.report_avg": 0.24936676025390625, "timer/agent.report_min": 0.0991201400756836, "timer/agent.report_max": 0.3996133804321289, "timer/dataset_eval_count": 1.0, "timer/dataset_eval_total": 6.914138793945312e-05, "timer/dataset_eval_frac": 2.3046943166984395e-07, "timer/dataset_eval_avg": 6.914138793945312e-05, "timer/dataset_eval_min": 6.914138793945312e-05, "timer/dataset_eval_max": 6.914138793945312e-05, "fps": 9.506286329450065}
+{"step": 599672, "episode/length": 793.0, "episode/score": 1170.0, "episode/reward_rate": 0.11335012594458438}
diff --git a/atari_ms_pacman/scores.jsonl b/atari_ms_pacman/scores.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..4e8d8d344747fe53d7c686709dfb4c5005d1e9c7
--- /dev/null
+++ b/atari_ms_pacman/scores.jsonl
@@ -0,0 +1,210 @@
+{"step": 1656, "episode/score": 310.0}
+{"step": 3000, "episode/score": 120.0}
+{"step": 4400, "eval_episode/score": 220.0}
+{"step": 5960, "episode/score": 330.0}
+{"step": 7884, "episode/score": 200.0}
+{"step": 11720, "episode/score": 540.0}
+{"step": 13700, "episode/score": 110.0}
+{"step": 16516, "episode/score": 800.0}
+{"step": 17940, "episode/score": 220.0}
+{"step": 20244, "episode/score": 300.0}
+{"step": 21788, "episode/score": 250.0}
+{"step": 23952, "episode/score": 210.0}
+{"step": 25932, "episode/score": 250.0}
+{"step": 28016, "episode/score": 340.0}
+{"step": 30496, "episode/score": 410.0}
+{"step": 32108, "episode/score": 410.0}
+{"step": 34696, "episode/score": 750.0}
+{"step": 37544, "episode/score": 660.0}
+{"step": 39100, "episode/score": 270.0}
+{"step": 41364, "episode/score": 550.0}
+{"step": 44756, "episode/score": 1850.0}
+{"step": 47308, "episode/score": 420.0}
+{"step": 49792, "episode/score": 720.0}
+{"step": 52160, "episode/score": 370.0}
+{"step": 53872, "episode/score": 220.0}
+{"step": 56032, "episode/score": 210.0}
+{"step": 58048, "episode/score": 340.0}
+{"step": 61280, "episode/score": 1030.0}
+{"step": 63888, "episode/score": 480.0}
+{"step": 67100, "episode/score": 600.0}
+{"step": 69008, "episode/score": 500.0}
+{"step": 71996, "episode/score": 590.0}
+{"step": 74740, "episode/score": 700.0}
+{"step": 78064, "episode/score": 950.0}
+{"step": 80584, "episode/score": 920.0}
+{"step": 82548, "episode/score": 470.0}
+{"step": 85080, "episode/score": 810.0}
+{"step": 88572, "episode/score": 1560.0}
+{"step": 91824, "episode/score": 940.0}
+{"step": 93624, "episode/score": 310.0}
+{"step": 97248, "episode/score": 750.0}
+{"step": 99196, "episode/score": 510.0}
+{"step": 102016, "episode/score": 760.0}
+{"step": 103824, "episode/score": 550.0}
+{"step": 106636, "episode/score": 950.0}
+{"step": 108364, "episode/score": 380.0}
+{"step": 111476, "episode/score": 1090.0}
+{"step": 112876, "episode/score": 280.0}
+{"step": 116400, "episode/score": 1160.0}
+{"step": 120588, "episode/score": 1510.0}
+{"step": 123172, "episode/score": 800.0}
+{"step": 125828, "episode/score": 1490.0}
+{"step": 127844, "episode/score": 350.0}
+{"step": 131492, "episode/score": 1300.0}
+{"step": 134276, "episode/score": 1320.0}
+{"step": 138536, "episode/score": 1100.0}
+{"step": 140612, "episode/score": 550.0}
+{"step": 143724, "episode/score": 750.0}
+{"step": 146620, "episode/score": 530.0}
+{"step": 149164, "episode/score": 1220.0}
+{"step": 151484, "episode/score": 550.0}
+{"step": 155564, "episode/score": 1620.0}
+{"step": 159364, "episode/score": 1070.0}
+{"step": 162308, "episode/score": 1010.0}
+{"step": 164744, "episode/score": 1250.0}
+{"step": 167620, "episode/score": 1290.0}
+{"step": 170224, "episode/score": 790.0}
+{"step": 173384, "episode/score": 970.0}
+{"step": 175432, "episode/score": 490.0}
+{"step": 178496, "episode/score": 700.0}
+{"step": 181788, "episode/score": 2160.0}
+{"step": 184276, "episode/score": 960.0}
+{"step": 185632, "episode/score": 290.0}
+{"step": 189132, "episode/score": 1390.0}
+{"step": 192008, "episode/score": 1080.0}
+{"step": 194212, "episode/score": 640.0}
+{"step": 196556, "episode/score": 690.0}
+{"step": 199608, "episode/score": 1280.0}
+{"step": 202856, "episode/score": 940.0}
+{"step": 205480, "episode/score": 870.0}
+{"step": 209100, "episode/score": 970.0}
+{"step": 212620, "episode/score": 1620.0}
+{"step": 215584, "episode/score": 970.0}
+{"step": 218852, "episode/score": 1610.0}
+{"step": 222028, "episode/score": 1340.0}
+{"step": 225000, "episode/score": 810.0}
+{"step": 227796, "episode/score": 870.0}
+{"step": 230632, "episode/score": 980.0}
+{"step": 233584, "episode/score": 1120.0}
+{"step": 235376, "episode/score": 320.0}
+{"step": 237768, "episode/score": 750.0}
+{"step": 241620, "episode/score": 1230.0}
+{"step": 243416, "episode/score": 430.0}
+{"step": 246100, "episode/score": 650.0}
+{"step": 248856, "episode/score": 830.0}
+{"step": 251772, "episode/score": 1270.0}
+{"step": 254752, "episode/score": 1140.0}
+{"step": 258264, "episode/score": 1210.0}
+{"step": 260880, "episode/score": 1040.0}
+{"step": 264056, "episode/score": 860.0}
+{"step": 266908, "episode/score": 1070.0}
+{"step": 269748, "episode/score": 840.0}
+{"step": 272628, "episode/score": 920.0}
+{"step": 275772, "episode/score": 1270.0}
+{"step": 279948, "episode/score": 1890.0}
+{"step": 282920, "episode/score": 1720.0}
+{"step": 285252, "episode/score": 380.0}
+{"step": 288068, "episode/score": 910.0}
+{"step": 291324, "episode/score": 1330.0}
+{"step": 294024, "episode/score": 910.0}
+{"step": 296644, "episode/score": 1420.0}
+{"step": 300356, "episode/score": 1160.0}
+{"step": 304000, "episode/score": 1170.0}
+{"step": 306880, "episode/score": 2240.0}
+{"step": 309988, "episode/score": 1110.0}
+{"step": 313052, "episode/score": 1300.0}
+{"step": 315492, "episode/score": 800.0}
+{"step": 318120, "episode/score": 770.0}
+{"step": 321136, "episode/score": 1430.0}
+{"step": 323712, "episode/score": 1140.0}
+{"step": 326716, "episode/score": 1390.0}
+{"step": 329476, "episode/score": 1010.0}
+{"step": 332176, "episode/score": 870.0}
+{"step": 334736, "episode/score": 1010.0}
+{"step": 338084, "episode/score": 2130.0}
+{"step": 340748, "episode/score": 1230.0}
+{"step": 343340, "episode/score": 870.0}
+{"step": 347188, "episode/score": 2500.0}
+{"step": 350792, "episode/score": 880.0}
+{"step": 353552, "episode/score": 1190.0}
+{"step": 357368, "episode/score": 1480.0}
+{"step": 360788, "episode/score": 1000.0}
+{"step": 362884, "episode/score": 1190.0}
+{"step": 365180, "episode/score": 970.0}
+{"step": 368884, "episode/score": 1180.0}
+{"step": 371216, "episode/score": 1090.0}
+{"step": 374332, "episode/score": 2260.0}
+{"step": 377580, "episode/score": 1040.0}
+{"step": 380496, "episode/score": 1080.0}
+{"step": 384012, "episode/score": 1110.0}
+{"step": 387944, "episode/score": 1180.0}
+{"step": 391064, "episode/score": 1120.0}
+{"step": 394280, "episode/score": 1280.0}
+{"step": 397756, "episode/score": 1180.0}
+{"step": 400000, "eval_episode/score": 1110.0}
+{"step": 402208, "episode/score": 1780.0}
+{"step": 405168, "episode/score": 1110.0}
+{"step": 408024, "episode/score": 950.0}
+{"step": 411552, "episode/score": 1220.0}
+{"step": 414636, "episode/score": 1140.0}
+{"step": 417932, "episode/score": 1400.0}
+{"step": 421488, "episode/score": 1360.0}
+{"step": 425216, "episode/score": 1520.0}
+{"step": 428900, "episode/score": 1540.0}
+{"step": 431308, "episode/score": 770.0}
+{"step": 434324, "episode/score": 1020.0}
+{"step": 437032, "episode/score": 1550.0}
+{"step": 440108, "episode/score": 1220.0}
+{"step": 443208, "episode/score": 1200.0}
+{"step": 446372, "episode/score": 1350.0}
+{"step": 449916, "episode/score": 1190.0}
+{"step": 452964, "episode/score": 1360.0}
+{"step": 457084, "episode/score": 850.0}
+{"step": 461272, "episode/score": 2720.0}
+{"step": 463852, "episode/score": 900.0}
+{"step": 466544, "episode/score": 1440.0}
+{"step": 469072, "episode/score": 1220.0}
+{"step": 472516, "episode/score": 1420.0}
+{"step": 475192, "episode/score": 1070.0}
+{"step": 478768, "episode/score": 1790.0}
+{"step": 482020, "episode/score": 1020.0}
+{"step": 484636, "episode/score": 780.0}
+{"step": 488136, "episode/score": 1340.0}
+{"step": 491452, "episode/score": 2360.0}
+{"step": 494188, "episode/score": 1450.0}
+{"step": 496808, "episode/score": 1130.0}
+{"step": 500872, "episode/score": 1190.0}
+{"step": 503924, "episode/score": 1000.0}
+{"step": 506900, "episode/score": 1350.0}
+{"step": 510152, "episode/score": 1730.0}
+{"step": 512420, "episode/score": 590.0}
+{"step": 515232, "episode/score": 1170.0}
+{"step": 518092, "episode/score": 960.0}
+{"step": 521224, "episode/score": 1130.0}
+{"step": 524908, "episode/score": 1830.0}
+{"step": 527784, "episode/score": 1220.0}
+{"step": 530412, "episode/score": 980.0}
+{"step": 533032, "episode/score": 1660.0}
+{"step": 536528, "episode/score": 1030.0}
+{"step": 540004, "episode/score": 1530.0}
+{"step": 542976, "episode/score": 1040.0}
+{"step": 546024, "episode/score": 1690.0}
+{"step": 549448, "episode/score": 1940.0}
+{"step": 552408, "episode/score": 1110.0}
+{"step": 555304, "episode/score": 1150.0}
+{"step": 558388, "episode/score": 1560.0}
+{"step": 561596, "episode/score": 1260.0}
+{"step": 564696, "episode/score": 1610.0}
+{"step": 567792, "episode/score": 1330.0}
+{"step": 571296, "episode/score": 1950.0}
+{"step": 574608, "episode/score": 1080.0}
+{"step": 577600, "episode/score": 1030.0}
+{"step": 581536, "episode/score": 1250.0}
+{"step": 584608, "episode/score": 1240.0}
+{"step": 587592, "episode/score": 1650.0}
+{"step": 590732, "episode/score": 1640.0}
+{"step": 593464, "episode/score": 1080.0}
+{"step": 596728, "episode/score": 1070.0}
+{"step": 596496, "episode/score": 840.0}
+{"step": 599672, "episode/score": 1170.0}
diff --git a/crafter/config.yaml b/crafter/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..2e12a138e95f773cda8e72eaa69f2db1a60df831
--- /dev/null
+++ b/crafter/config.yaml
@@ -0,0 +1,188 @@
+actent: 0.0003
+actor:
+  act: silu
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 5
+  maxstd: 1.0
+  minstd: 0.1
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  symlog_inputs: false
+  unimix: 0.01
+  units: 1024
+  winit: normal
+actor_dist_cont: normal
+actor_dist_disc: onehot
+actor_grad_cont: backprop
+actor_grad_disc: reinforce
+actor_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+batch_length: 64
+batch_size: 16
+cont_head:
+  act: silu
+  dist: binary
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 5
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  units: 1024
+  winit: normal
+critic:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 5
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  symlog_inputs: false
+  units: 1024
+  winit: normal
+critic_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+critic_slowreg: logprob
+critic_type: vfunction
+data_loaders: 8
+decoder:
+  act: silu
+  cnn: resnet
+  cnn_blocks: 0
+  cnn_depth: 96
+  cnn_keys: image
+  cnn_sigmoid: false
+  fan: avg
+  image_dist: mse
+  inputs: [deter, stoch]
+  minres: 4
+  mlp_keys: $^
+  mlp_layers: 5
+  mlp_units: 1024
+  norm: layer
+  outscale: 1.0
+  resize: stride
+  vector_dist: symlog_mse
+  winit: normal
+disag_head:
+  act: silu
+  dist: mse
+  fan: avg
+  inputs: [deter, stoch, action]
+  layers: 5
+  norm: layer
+  outscale: 1.0
+  units: 1024
+  winit: normal
+disag_models: 8
+disag_target: [stoch]
+dyn_loss: {free: 1.0, impl: kl}
+encoder: {act: silu, cnn: resnet, cnn_blocks: 0, cnn_depth: 96, cnn_keys: image, fan: avg,
+  minres: 4, mlp_keys: $^, mlp_layers: 5, mlp_units: 1024, norm: layer, resize: stride,
+  symlog_inputs: true, winit: normal}
+env:
+  atari:
+    actions: all
+    gray: false
+    lives: unused
+    noops: 0
+    repeat: 4
+    resize: opencv
+    size: [64, 64]
+    sticky: true
+  dmc:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  dmlab:
+    episodic: true
+    repeat: 4
+    size: [64, 64]
+  loconav:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  minecraft:
+    break_speed: 100.0
+    size: [64, 64]
+envs: {amount: 1, checks: false, discretize: 0, length: 0, parallel: process, reset: true,
+  restart: true}
+eval_dir: ''
+expl_behavior: None
+expl_opt: {clip: 100.0, eps: 1e-05, lr: 0.0001, opt: adam, warmup: 0, wd: 0.0}
+expl_rewards: {disag: 0.1, extr: 1.0}
+filter: .*
+grad_heads: [decoder, reward, cont]
+horizon: 333
+imag_horizon: 15
+imag_unroll: false
+jax:
+  debug: false
+  debug_nans: false
+  jit: true
+  logical_cpus: 0
+  metrics_every: 10
+  platform: gpu
+  policy_devices: [3]
+  prealloc: true
+  precision: float16
+  train_devices: [3]
+logdir: ./logdir/crafter
+loss_scales: {actor: 1.0, cont: 1.0, critic: 1.0, dyn: 0.5, image: 1.0, rep: 0.1,
+  reward: 1.0, slowreg: 1.0, vector: 1.0}
+method: name
+model_opt: {clip: 1000.0, eps: 1e-08, lateclip: 0.0, lr: 0.0001, opt: adam, warmup: 0,
+  wd: 0.0}
+rep_loss: {free: 1.0, impl: kl}
+replay: uniform
+replay_online: false
+replay_size: 1000000.0
+retnorm: {decay: 0.99, impl: perc_ema, max: 1.0, perchi: 95.0, perclo: 5.0}
+return_lambda: 0.95
+reward_head:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 5
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  units: 1024
+  winit: normal
+rssm: {act: silu, action_clip: 1.0, classes: 32, deter: 4096, fan: avg, initial: learned,
+  norm: layer, stoch: 32, unimix: 0.01, units: 1024, unroll: false, winit: normal}
+run:
+  actor_addr: ipc:///tmp/5551
+  actor_batch: 32
+  eval_eps: 1
+  eval_every: 1000000.0
+  eval_fill: 0
+  eval_initial: true
+  eval_samples: 1
+  expl_until: 0
+  from_checkpoint: ''
+  log_every: 300
+  log_keys_max: ^log_achievement_.*
+  log_keys_mean: (log_entropy)
+  log_keys_sum: ^log_reward$
+  log_keys_video: [image]
+  log_zeros: false
+  save_every: 900
+  script: train
+  steps: 10000000000.0
+  sync_every: 10
+  train_fill: 0
+  train_ratio: 512.0
+seed: 0
+slow_critic_fraction: 0.02
+slow_critic_update: 1
+task: crafter_reward
+task_behavior: Greedy
+wrapper: {checks: false, discretize: 0, length: 0, reset: true}
diff --git a/crafter/metrics.jsonl b/crafter/metrics.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..62b753952b3d9e2a56d2968cf4a3ef6bd7f1ac47
--- /dev/null
+++ b/crafter/metrics.jsonl
@@ -0,0 +1,7958 @@
+{"step": 136, "episode/length": 135.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.007352941176470588}
+{"step": 315, "episode/length": 178.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.00558659217877095}
+{"step": 471, "episode/length": 155.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.01282051282051282}
+{"step": 620, "episode/length": 148.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.020134228187919462}
+{"step": 765, "episode/length": 144.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.013793103448275862}
+{"step": 914, "episode/length": 148.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 3.1000000312924385, "episode/reward_rate": 0.006711409395973154}
+{"step": 1100, "stats/sum_log_reward": 0.6000000139077505, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/max_log_achievement_collect_wood": 0.25, "stats/max_log_achievement_collect_drink": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 0.5}
+{"step": 1101, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 7.26043701171875, "train/action_min": 0.0, "train/action_std": 4.83748197555542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.00031381394364871085, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": -2.0777781009674072, "train/adv_mag": 0.0, "train/adv_max": 0.0, "train/adv_mean": 0.0, "train/adv_min": 0.0, "train/adv_std": 0.0, "train/cont_avg": 0.99609375, "train/cont_loss_mean": 0.6661807298660278, "train/cont_loss_std": 0.27943092584609985, "train/cont_neg_acc": 0.5, "train/cont_neg_loss": 0.773800790309906, "train/cont_pos_acc": 0.5882352590560913, "train/cont_pos_loss": 0.6657586097717285, "train/cont_pred": 0.5328019261360168, "train/cont_rate": 0.99609375, "train/dyn_loss_mean": 10.829235076904297, "train/dyn_loss_std": 0.5232030749320984, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 7.309016227722168, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 29756.990234375, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.0, "train/extr_return_normed_max": 0.0, "train/extr_return_normed_mean": 0.0, "train/extr_return_normed_min": 0.0, "train/extr_return_normed_std": 0.0, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.0, "train/extr_return_raw_max": 0.0, "train/extr_return_raw_mean": 0.0, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 0.0, "train/extr_reward_mag": 0.0, "train/extr_reward_max": 0.0, "train/extr_reward_mean": 0.0, "train/extr_reward_min": 0.0, "train/extr_reward_std": 0.0, "train/image_loss_mean": 3712.110595703125, "train/image_loss_std": 159.8107147216797, "train/model_loss_mean": 3724.81591796875, "train/model_loss_std": 159.71871948242188, "train/model_opt_grad_norm": NaN, "train/model_opt_grad_steps": 0.0, "train/model_opt_loss": 37248160.0, "train/model_opt_model_opt_grad_overflow": 1.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 2.7769358158111572, "train/policy_entropy_max": 2.7769358158111572, "train/policy_entropy_mean": 2.5753836631774902, "train/policy_entropy_min": 1.8028273582458496, "train/policy_entropy_std": 0.08171389251947403, "train/policy_logprob_mag": 5.404805660247803, "train/policy_logprob_max": -0.6051998138427734, "train/policy_logprob_mean": -2.5755209922790527, "train/policy_logprob_min": -5.404805660247803, "train/policy_logprob_std": 0.6755052804946899, "train/policy_randomness_mag": 0.9801364541053772, "train/policy_randomness_max": 0.9801364541053772, "train/policy_randomness_mean": 0.9089974761009216, "train/policy_randomness_min": 0.6363189220428467, "train/policy_randomness_std": 0.028841419145464897, "train/post_ent_mag": 106.17237091064453, "train/post_ent_max": 106.17237091064453, "train/post_ent_mean": 105.61624145507812, "train/post_ent_min": 104.90541076660156, "train/post_ent_std": 0.23147206008434296, "train/prior_ent_mag": 106.5346908569336, "train/prior_ent_max": 106.5346908569336, "train/prior_ent_mean": 105.5699462890625, "train/prior_ent_min": 104.75077056884766, "train/prior_ent_std": 0.28445470333099365, "train/rep_loss_mean": 10.829235076904297, "train/rep_loss_std": 0.5232030749320984, "train/reward_avg": 0.0027343749534338713, "train/reward_loss_mean": 5.541262626647949, "train/reward_loss_std": 9.5367431640625e-07, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 0.9999999403953552, "train/reward_neg_loss": 5.541262149810791, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541264057159424, "train/reward_pred": 0.0, "train/reward_rate": 0.0068359375, "train/params_agent/wm/model_opt": 181569923.0, "train/params_agent/task_behavior/critic/critic_opt": 9708799.0, "train/params_agent/task_behavior/ac/actor_opt": 9464849.0, "replay/size": 1038.0, "replay/inserts": 1038.0, "replay/samples": 112.0, "replay/insert_wait_avg": 2.9678289600879472e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3155596596854075e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 111.61480927467346, "timer/env.step_count": 1101.0, "timer/env.step_total": 11.180753469467163, "timer/env.step_frac": 0.10017267011541801, "timer/env.step_avg": 0.010155089436391611, "timer/env.step_min": 0.002215862274169922, "timer/env.step_max": 1.253610610961914, "timer/replay.add_count": 1101.0, "timer/replay.add_total": 0.1264667510986328, "timer/replay.add_frac": 0.001133064258412252, "timer/replay.add_avg": 0.00011486535067995714, "timer/replay.add_min": 3.790855407714844e-05, "timer/replay.add_max": 0.016386747360229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.010256767272949219, "timer/logger.write_frac": 9.189432244343389e-05, "timer/logger.write_avg": 0.010256767272949219, "timer/logger.write_min": 0.010256767272949219, "timer/logger.write_max": 0.010256767272949219, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0754084587097168, "timer/checkpoint.save_frac": 0.0006756133814119928, "timer/checkpoint.save_avg": 0.0754084587097168, "timer/checkpoint.save_min": 0.0754084587097168, "timer/checkpoint.save_max": 0.0754084587097168, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.483529806137085, "timer/agent.save_frac": 0.013291514054252952, "timer/agent.save_avg": 1.483529806137085, "timer/agent.save_min": 1.483529806137085, "timer/agent.save_max": 1.483529806137085, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 7.198602199776202e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 11.487308979034424, "timer/agent.policy_frac": 0.10291921881768615, "timer/agent.policy_avg": 11.487308979034424, "timer/agent.policy_min": 11.487308979034424, "timer/agent.policy_max": 11.487308979034424, "timer/dataset_count": 1.0, "timer/dataset_total": 2.2172927856445312e-05, "timer/dataset_frac": 1.986557877089575e-07, "timer/dataset_avg": 2.2172927856445312e-05, "timer/dataset_min": 2.2172927856445312e-05, "timer/dataset_max": 2.2172927856445312e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 74.84694910049438, "timer/agent.train_frac": 0.6705826008832138, "timer/agent.train_avg": 74.84694910049438, "timer/agent.train_min": 74.84694910049438, "timer/agent.train_max": 74.84694910049438, "timer/agent.report_count": 1.0, "timer/agent.report_total": 13.603920698165894, "timer/agent.report_frac": 0.12188275719477273, "timer/agent.report_avg": 13.603920698165894, "timer/agent.report_min": 13.603920698165894, "timer/agent.report_max": 13.603920698165894}
+{"step": 1116, "episode/length": 201.0, "episode/score": 0.09999997168779373, "episode/sum_abs_reward": 2.1000000312924385, "episode/reward_rate": 0.009900990099009901}
+{"step": 1337, "episode/length": 220.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.300000034272671, "episode/reward_rate": 0.013574660633484163}
+{"step": 1501, "episode/length": 163.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.024390243902439025}
+{"step": 1636, "episode/length": 134.0, "episode/score": 0.10000000149011612, "episode/sum_abs_reward": 2.100000001490116, "episode/reward_rate": 0.014814814814814815}
+{"step": 1815, "episode/length": 178.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.00558659217877095}
+{"step": 1983, "episode/length": 167.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.3000000193715096, "episode/reward_rate": 0.005952380952380952}
+{"step": 2154, "episode/length": 170.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017543859649122806}
+{"step": 2229, "episode/length": 74.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.013333333333333334}
+{"step": 2473, "stats/sum_log_reward": 0.9749999390915036, "stats/max_log_achievement_collect_drink": 0.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_wood": 0.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 1.6116104824468493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 6.3456573486328125, "train/action_min": 0.0, "train/action_std": 3.4960831701755524, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.015464301431647447, "train/actor_opt_grad_steps": 345.0, "train/actor_opt_loss": 82.43360836102681, "train/adv_mag": 1.3728682772703262, "train/adv_max": 1.3685716365700287, "train/adv_mean": 0.0295533153017887, "train/adv_min": -0.4920974350577179, "train/adv_std": 0.13627998918373657, "train/cont_avg": 0.9942411534926471, "train/cont_loss_mean": 0.03254111569292624, "train/cont_loss_std": 0.26140621764694943, "train/cont_neg_acc": 0.1239320754128344, "train/cont_neg_loss": 3.1223515907631203, "train/cont_pos_acc": 0.9938923120498657, "train/cont_pos_loss": 0.014596774261650246, "train/cont_pred": 0.9879600510877722, "train/cont_rate": 0.9942411534926471, "train/dyn_loss_mean": 4.713069656315972, "train/dyn_loss_std": 9.148967877468642, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 11.408295967999626, "train/extr_critic_critic_opt_grad_steps": 345.0, "train/extr_critic_critic_opt_loss": 25775.997572954962, "train/extr_critic_mag": 0.031800115809721106, "train/extr_critic_max": 0.03178038842537824, "train/extr_critic_mean": 0.02396187471019453, "train/extr_critic_min": 0.01593029499053955, "train/extr_critic_std": 0.0038116348095643356, "train/extr_return_normed_mag": 1.447176567700808, "train/extr_return_normed_max": 1.4466442258631371, "train/extr_return_normed_mean": 0.10467451169482528, "train/extr_return_normed_min": -0.4235984852549497, "train/extr_return_normed_std": 0.13797570198585163, "train/extr_return_rate": 0.028661153426048046, "train/extr_return_raw_mag": 1.3986113577582941, "train/extr_return_raw_max": 1.3954850461938322, "train/extr_return_raw_mean": 0.05351532657411607, "train/extr_return_raw_min": -0.4747576678188018, "train/extr_return_raw_std": 0.13797570178041282, "train/extr_reward_mag": 0.3852299627135782, "train/extr_reward_max": 0.38509271775974946, "train/extr_reward_mean": 0.004099872203369159, "train/extr_reward_min": -0.11243985330357271, "train/extr_reward_std": 0.029136523924062838, "train/image_loss_mean": 129.16164485146018, "train/image_loss_std": 56.670186940361475, "train/model_loss_mean": 132.51538203744326, "train/model_loss_std": 58.35850550146664, "train/model_opt_grad_norm": 576.7036417792825, "train/model_opt_grad_steps": 336.0, "train/model_opt_loss": 2588.191016702091, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 19.53125, "train/policy_entropy_mag": 2.4438904103110817, "train/policy_entropy_max": 2.4438904103110817, "train/policy_entropy_mean": 1.605925171800396, "train/policy_entropy_min": 1.0464151243076605, "train/policy_entropy_std": 0.26729554341941636, "train/policy_logprob_mag": 6.132496388519511, "train/policy_logprob_max": -0.5814137151190901, "train/policy_logprob_mean": -1.6064856651732151, "train/policy_logprob_min": -6.132496388519511, "train/policy_logprob_std": 0.8282043545999948, "train/policy_randomness_mag": 0.8625860691947096, "train/policy_randomness_max": 0.8625860691947096, "train/policy_randomness_mean": 0.5668211109552752, "train/policy_randomness_min": 0.3693386177422808, "train/policy_randomness_std": 0.09434359756928376, "train/post_ent_mag": 53.568421588224524, "train/post_ent_max": 53.568421588224524, "train/post_ent_mean": 33.149040194118726, "train/post_ent_min": 17.05303192138672, "train/post_ent_std": 8.746954799574965, "train/prior_ent_mag": 59.36548709869385, "train/prior_ent_max": 59.36548709869385, "train/prior_ent_mean": 39.1992720155155, "train/prior_ent_min": 21.617388451800625, "train/prior_ent_std": 7.82860529466587, "train/rep_loss_mean": 4.713069656315972, "train/rep_loss_std": 9.148967877468642, "train/reward_avg": 0.005721507331198903, "train/reward_loss_mean": 0.49335849164601636, "train/reward_loss_std": 0.6984299965397942, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.5166943301172817, "train/reward_neg_acc": 0.995927169919014, "train/reward_neg_loss": 0.4622469076558071, "train/reward_pos_acc": 0.43926529739709463, "train/reward_pos_loss": 3.3318024575710297, "train/reward_pred": 0.0034731512457844525, "train/reward_rate": 0.010928883272058824, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "replay/size": 2410.0, "replay/inserts": 1372.0, "replay/samples": 10976.0, "replay/insert_wait_avg": 3.3950319095533723e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3983197531964271e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 286.92524790763855, "timer/env.step_count": 1372.0, "timer/env.step_total": 20.546589612960815, "timer/env.step_frac": 0.0716095560177917, "timer/env.step_avg": 0.014975648405948117, "timer/env.step_min": 0.0029230117797851562, "timer/env.step_max": 1.7888689041137695, "timer/replay.add_count": 1372.0, "timer/replay.add_total": 0.3107643127441406, "timer/replay.add_frac": 0.001083084583912866, "timer/replay.add_avg": 0.00022650460112546693, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.000946044921875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030347824096679688, "timer/logger.write_frac": 0.0001057690960206077, "timer/logger.write_avg": 0.030347824096679688, "timer/logger.write_min": 0.030347824096679688, "timer/logger.write_max": 0.030347824096679688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1372.0, "timer/agent.policy_total": 10.704299211502075, "timer/agent.policy_frac": 0.037306926767726616, "timer/agent.policy_avg": 0.0078019673553222126, "timer/agent.policy_min": 0.006150960922241211, "timer/agent.policy_max": 0.36321330070495605, "timer/dataset_count": 686.0, "timer/dataset_total": 0.05686497688293457, "timer/dataset_frac": 0.00019818742790191627, "timer/dataset_avg": 8.28935523074848e-05, "timer/dataset_min": 5.1975250244140625e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 686.0, "timer/agent.train_total": 254.60979580879211, "timer/agent.train_frac": 0.8873732711411692, "timer/agent.train_avg": 0.3711513058437203, "timer/agent.train_min": 0.36187744140625, "timer/agent.train_max": 0.3903651237487793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214822769165039, "timer/agent.report_frac": 0.0007719163040953413, "timer/agent.report_avg": 0.2214822769165039, "timer/agent.report_min": 0.2214822769165039, "timer/agent.report_max": 0.2214822769165039, "fps": 4.781621051594499}
+{"step": 2527, "episode/length": 297.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.010067114093959731}
+{"step": 2708, "episode/length": 180.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.016574585635359115}
+{"step": 2889, "episode/length": 180.0, "episode/score": 1.0999999791383743, "episode/sum_abs_reward": 2.9000000208616257, "episode/reward_rate": 0.011049723756906077}
+{"step": 3167, "episode/length": 277.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.014388489208633094}
+{"step": 3393, "episode/length": 225.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.017699115044247787}
+{"step": 3547, "episode/length": 153.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.006493506493506494}
+{"step": 3655, "episode/length": 107.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.3000000193715096, "episode/reward_rate": 0.009259259259259259}
+{"step": 3931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.026009337542808, "train/action_min": 0.0, "train/action_std": 2.336394004625817, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044550535645437976, "train/actor_opt_grad_steps": 1050.0, "train/actor_opt_loss": 173.2051775422815, "train/adv_mag": 3.815572361423545, "train/adv_max": 3.8075564217894047, "train/adv_mean": 0.08862168151783208, "train/adv_min": -0.6992141459494421, "train/adv_std": 0.3179529346015355, "train/cont_avg": 0.9942744006849316, "train/cont_loss_mean": 0.009375439271847526, "train/cont_loss_std": 0.13019940602810007, "train/cont_neg_acc": 0.5994509805555213, "train/cont_neg_loss": 1.0687946540188709, "train/cont_pos_acc": 0.9992596123316516, "train/cont_pos_loss": 0.003148150957414357, "train/cont_pred": 0.9942022970277969, "train/cont_rate": 0.9942744006849316, "train/dyn_loss_mean": 3.914442395510739, "train/dyn_loss_std": 5.978684072625147, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.8813169100513196, "train/extr_critic_critic_opt_grad_steps": 1050.0, "train/extr_critic_critic_opt_loss": 20086.200757170376, "train/extr_critic_mag": 1.09172630473359, "train/extr_critic_max": 1.09172630473359, "train/extr_critic_mean": 0.47951262270751066, "train/extr_critic_min": -0.11876473851399878, "train/extr_critic_std": 0.3516552276807289, "train/extr_return_normed_mag": 4.37837376006662, "train/extr_return_normed_max": 4.37837376006662, "train/extr_return_normed_mean": 0.42976077860348844, "train/extr_return_normed_min": -0.4696842360578171, "train/extr_return_normed_std": 0.4280874112697497, "train/extr_return_rate": 0.4473004313823703, "train/extr_return_raw_mag": 7.109130349877763, "train/extr_return_raw_max": 7.109130349877763, "train/extr_return_raw_mean": 0.6268683173885085, "train/extr_return_raw_min": -0.9363717871577772, "train/extr_return_raw_std": 0.7358029227550715, "train/extr_reward_mag": 0.9881043630103542, "train/extr_reward_max": 0.9881043630103542, "train/extr_reward_mean": 0.024851746940789968, "train/extr_reward_min": -0.44318883386376784, "train/extr_reward_std": 0.13328834898667793, "train/image_loss_mean": 19.866544736574774, "train/image_loss_std": 15.107078735142538, "train/model_loss_mean": 22.33483224372341, "train/model_loss_std": 17.063470775133943, "train/model_opt_grad_norm": 181.96985218622913, "train/model_opt_grad_steps": 1041.0, "train/model_opt_loss": 649.7013641775471, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 30.500856164383563, "train/policy_entropy_mag": 2.137102158102271, "train/policy_entropy_max": 2.137102158102271, "train/policy_entropy_mean": 0.3486345879835625, "train/policy_entropy_min": 0.07957393880168052, "train/policy_entropy_std": 0.3808652369739258, "train/policy_logprob_mag": 7.437880973293357, "train/policy_logprob_max": -0.00948337789573898, "train/policy_logprob_mean": -0.3489235894729013, "train/policy_logprob_min": -7.437880973293357, "train/policy_logprob_std": 1.0015280107929283, "train/policy_randomness_mag": 0.7543032773553509, "train/policy_randomness_max": 0.7543032773553509, "train/policy_randomness_mean": 0.12305270982523488, "train/policy_randomness_min": 0.028086108321400537, "train/policy_randomness_std": 0.13442871428719938, "train/post_ent_mag": 45.671779528056106, "train/post_ent_max": 45.671779528056106, "train/post_ent_mean": 24.55604574125107, "train/post_ent_min": 10.590090059254267, "train/post_ent_std": 5.726722377620331, "train/prior_ent_mag": 58.48996379277477, "train/prior_ent_max": 58.48996379277477, "train/prior_ent_mean": 29.122622738145804, "train/prior_ent_min": 11.512865680537812, "train/prior_ent_std": 7.7518381223286665, "train/rep_loss_mean": 3.914442395510739, "train/rep_loss_std": 5.978684072625147, "train/reward_avg": 0.006284781626412926, "train/reward_loss_mean": 0.11024663354946326, "train/reward_loss_std": 0.4376370200555619, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9867099523544312, "train/reward_neg_acc": 0.9961683505201993, "train/reward_neg_loss": 0.09414744022468181, "train/reward_pos_acc": 0.8493250808487199, "train/reward_pos_loss": 1.4998042183379605, "train/reward_pred": 0.005137103670340491, "train/reward_rate": 0.011598351883561644, "stats/sum_log_reward": 1.6714284994772501, "stats/max_log_achievement_collect_drink": 27.714285714285715, "stats/max_log_achievement_collect_sapling": 7.571428571428571, "stats/max_log_achievement_collect_wood": 0.14285714285714285, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3099264140639986, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "replay/size": 3868.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.39443955074776e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4166119003819177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33375811576843, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.306373596191406, "timer/env.step_frac": 0.06095343297750406, "timer/env.step_avg": 0.012555811794369964, "timer/env.step_min": 0.0023806095123291016, "timer/env.step_max": 1.6207146644592285, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.27411389350891113, "timer/replay.add_frac": 0.0009126975776171307, "timer/replay.add_avg": 0.00018800678567140681, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0011444091796875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021898984909057617, "timer/logger.write_frac": 7.291549590178372e-05, "timer/logger.write_avg": 0.021898984909057617, "timer/logger.write_min": 0.021898984909057617, "timer/logger.write_max": 0.021898984909057617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.929052114486694, "timer/agent.policy_frac": 0.036389689201284915, "timer/agent.policy_avg": 0.007495920517480586, "timer/agent.policy_min": 0.0056629180908203125, "timer/agent.policy_max": 0.017644882202148438, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06441688537597656, "timer/dataset_frac": 0.00021448433163196408, "timer/dataset_avg": 8.83633544252079e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00039887428283691406, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.0474157333374, "timer/agent.train_frac": 0.8991577151618212, "timer/agent.train_avg": 0.37043541252858353, "timer/agent.train_min": 0.3615758419036865, "timer/agent.train_max": 0.40345048904418945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225205898284912, "timer/agent.report_frac": 0.0007409110158795972, "timer/agent.report_avg": 0.2225205898284912, "timer/agent.report_min": 0.2225205898284912, "timer/agent.report_max": 0.2225205898284912, "fps": 4.854488379126647}
+{"step": 4019, "episode/length": 363.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.016483516483516484}
+{"step": 4220, "episode/length": 200.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.01990049751243781}
+{"step": 4434, "episode/length": 213.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.014018691588785047}
+{"step": 4585, "episode/length": 150.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.026490066225165563}
+{"step": 4651, "episode/length": 65.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.015151515151515152}
+{"step": 4799, "episode/length": 147.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02702702702702703}
+{"step": 4995, "episode/length": 195.0, "episode/score": -0.8999999910593033, "episode/sum_abs_reward": 0.8999999910593033, "episode/reward_rate": 0.00510204081632653}
+{"step": 5161, "episode/length": 165.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.012048192771084338}
+{"step": 5352, "episode/length": 190.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.015706806282722512}
+{"step": 5353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 3.9658658739546655, "train/action_min": 0.0, "train/action_std": 2.9577817866499996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050389534597035865, "train/actor_opt_grad_steps": 1770.0, "train/actor_opt_loss": 127.21153560154875, "train/adv_mag": 1.8431883941233997, "train/adv_max": 1.8387977573233591, "train/adv_mean": 0.040975896195626596, "train/adv_min": -0.6230671233694318, "train/adv_std": 0.16521437182812623, "train/cont_avg": 0.9944294674295775, "train/cont_loss_mean": 0.004489771730219781, "train/cont_loss_std": 0.07965160427372378, "train/cont_neg_acc": 0.8412754405552233, "train/cont_neg_loss": 0.5014734216937041, "train/cont_pos_acc": 0.9995985492854051, "train/cont_pos_loss": 0.0015219418356780447, "train/cont_pred": 0.9943555442380233, "train/cont_rate": 0.9944294674295775, "train/dyn_loss_mean": 4.180349930910997, "train/dyn_loss_std": 6.044866702925991, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4415694727024562, "train/extr_critic_critic_opt_grad_steps": 1770.0, "train/extr_critic_critic_opt_loss": 19122.283258142605, "train/extr_critic_mag": 3.4314366730166155, "train/extr_critic_max": 3.4314366730166155, "train/extr_critic_mean": 1.2020594502838564, "train/extr_critic_min": -0.3127792855383645, "train/extr_critic_std": 1.0993376710045506, "train/extr_return_normed_mag": 2.726278953149285, "train/extr_return_normed_max": 2.726278953149285, "train/extr_return_normed_mean": 0.4288934578358288, "train/extr_return_normed_min": -0.246223691273743, "train/extr_return_normed_std": 0.3939067952229943, "train/extr_return_rate": 0.6059584411936747, "train/extr_return_raw_mag": 9.253339095854423, "train/extr_return_raw_max": 9.253339095854423, "train/extr_return_raw_mean": 1.3413244393509878, "train/extr_return_raw_min": -1.0613122120709486, "train/extr_return_raw_std": 1.4077434657325207, "train/extr_reward_mag": 0.9976873716837923, "train/extr_reward_max": 0.9976873716837923, "train/extr_reward_mean": 0.030592980092837358, "train/extr_reward_min": -0.3866608042112539, "train/extr_reward_std": 0.1571635936557407, "train/image_loss_mean": 15.62587214187837, "train/image_loss_std": 15.438134838157977, "train/model_loss_mean": 18.217484514478226, "train/model_loss_std": 17.44264798768809, "train/model_opt_grad_norm": 154.92032655527893, "train/model_opt_grad_steps": 1761.0, "train/model_opt_loss": 827.854179704693, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 45.11443661971831, "train/policy_entropy_mag": 2.3510607229152196, "train/policy_entropy_max": 2.3510607229152196, "train/policy_entropy_mean": 0.5375589329591939, "train/policy_entropy_min": 0.07954677414726204, "train/policy_entropy_std": 0.48841690681350064, "train/policy_logprob_mag": 7.4374573868764955, "train/policy_logprob_max": -0.009479597224001313, "train/policy_logprob_mean": -0.5370289011740349, "train/policy_logprob_min": -7.4374573868764955, "train/policy_logprob_std": 1.1377877870076138, "train/policy_randomness_mag": 0.8298212642401037, "train/policy_randomness_max": 0.8298212642401037, "train/policy_randomness_mean": 0.1897347135023332, "train/policy_randomness_min": 0.028076520504456172, "train/policy_randomness_std": 0.17238973374937622, "train/post_ent_mag": 45.37286172786229, "train/post_ent_max": 45.37286172786229, "train/post_ent_mean": 24.652276052555568, "train/post_ent_min": 11.259092948806117, "train/post_ent_std": 5.392423377910131, "train/prior_ent_mag": 59.98019570364079, "train/prior_ent_max": 59.98019570364079, "train/prior_ent_mean": 29.364467701441804, "train/prior_ent_min": 13.316287524263624, "train/prior_ent_std": 7.8030646955463245, "train/rep_loss_mean": 4.180349930910997, "train/rep_loss_std": 6.044866702925991, "train/reward_avg": 0.007348976490697758, "train/reward_loss_mean": 0.07891270292686745, "train/reward_loss_std": 0.3559035379701937, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9969458093105907, "train/reward_neg_acc": 0.9948384845760506, "train/reward_neg_loss": 0.06429515792135622, "train/reward_pos_acc": 0.8983378208858867, "train/reward_pos_loss": 1.2319283401462393, "train/reward_pred": 0.006795409507721557, "train/reward_rate": 0.012447733274647887, "stats/sum_log_reward": 1.988888778620296, "stats/max_log_achievement_collect_drink": 12.88888888888889, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_wood": 0.7777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.65397576491038, "replay/size": 5290.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.2741476882526813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5149723460737998e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06744956970215, "timer/env.step_count": 1422.0, "timer/env.step_total": 23.41483426094055, "timer/env.step_frac": 0.07803190347542698, "timer/env.step_avg": 0.016466128172250738, "timer/env.step_min": 0.0025641918182373047, "timer/env.step_max": 2.3322222232818604, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26882338523864746, "timer/replay.add_frac": 0.0008958765291741614, "timer/replay.add_avg": 0.00018904598118048345, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0019409656524658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022981882095336914, "timer/logger.write_frac": 7.658905398867161e-05, "timer/logger.write_avg": 0.022981882095336914, "timer/logger.write_min": 0.022981882095336914, "timer/logger.write_max": 0.022981882095336914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005831718444824219, "timer/checkpoint.save_frac": 1.9434691944050994e-06, "timer/checkpoint.save_avg": 0.0005831718444824219, "timer/checkpoint.save_min": 0.0005831718444824219, "timer/checkpoint.save_max": 0.0005831718444824219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4148104190826416, "timer/agent.save_frac": 0.004714974653570339, "timer/agent.save_avg": 1.4148104190826416, "timer/agent.save_min": 1.4148104190826416, "timer/agent.save_max": 1.4148104190826416, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001087188720703125, "timer/replay.save_frac": 3.623147803142786e-07, "timer/replay.save_avg": 0.0001087188720703125, "timer/replay.save_min": 0.0001087188720703125, "timer/replay.save_max": 0.0001087188720703125, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 11.997936248779297, "timer/agent.policy_frac": 0.039984131121134206, "timer/agent.policy_avg": 0.008437367263557875, "timer/agent.policy_min": 0.0059108734130859375, "timer/agent.policy_max": 1.4241626262664795, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05721926689147949, "timer/dataset_frac": 0.00019068801688930983, "timer/dataset_avg": 8.04771686237405e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.0002262592315673828, "timer/agent.train_count": 711.0, "timer/agent.train_total": 263.63770937919617, "timer/agent.train_frac": 0.8785948284535815, "timer/agent.train_avg": 0.3707984660748188, "timer/agent.train_min": 0.36261844635009766, "timer/agent.train_max": 0.7587645053863525, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206273078918457, "timer/agent.report_frac": 0.000735259049951023, "timer/agent.report_avg": 0.2206273078918457, "timer/agent.report_min": 0.2206273078918457, "timer/agent.report_max": 0.2206273078918457, "fps": 4.738823985360631}
+{"step": 5524, "episode/length": 171.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023255813953488372}
+{"step": 5692, "episode/length": 167.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 5.100000008940697, "episode/reward_rate": 0.023809523809523808}
+{"step": 5775, "episode/length": 82.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.03614457831325301}
+{"step": 5995, "episode/length": 219.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02727272727272727}
+{"step": 6176, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.022099447513812154}
+{"step": 6355, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.027932960893854747}
+{"step": 6558, "episode/length": 202.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.014778325123152709}
+{"step": 6591, "episode/length": 32.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 1.1000000163912773, "episode/reward_rate": 0.0}
+{"step": 6646, "episode/length": 54.0, "episode/score": 0.10000000149011612, "episode/sum_abs_reward": 1.700000025331974, "episode/reward_rate": 0.01818181818181818}
+{"step": 6781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.986641777886285, "train/action_min": 0.0, "train/action_std": 4.491756045156055, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03790755531129738, "train/actor_opt_grad_steps": 2485.0, "train/actor_opt_loss": 47.7556993448072, "train/adv_mag": 1.0152660368217363, "train/adv_max": 0.999928435517682, "train/adv_mean": 0.015683036553430913, "train/adv_min": -0.5301075933708085, "train/adv_std": 0.0941070673159427, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 0.0009505602446261542, "train/cont_loss_std": 0.025694215122131128, "train/cont_neg_acc": 0.9715658633245362, "train/cont_neg_loss": 0.1035098228054873, "train/cont_pos_acc": 0.9999181893136766, "train/cont_pos_loss": 0.00030700198061595074, "train/cont_pred": 0.9945687676469485, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 4.197437177101771, "train/dyn_loss_std": 6.4143804775344, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3227603650755353, "train/extr_critic_critic_opt_grad_steps": 2485.0, "train/extr_critic_critic_opt_loss": 15909.105170355902, "train/extr_critic_mag": 4.880797737174564, "train/extr_critic_max": 4.880797737174564, "train/extr_critic_mean": 1.6773754093382094, "train/extr_critic_min": -0.2743416213326984, "train/extr_critic_std": 1.6361084514194064, "train/extr_return_normed_mag": 1.9441677613390818, "train/extr_return_normed_max": 1.9441677613390818, "train/extr_return_normed_mean": 0.42461231764819884, "train/extr_return_normed_min": -0.13550970643862253, "train/extr_return_normed_std": 0.38822682905528283, "train/extr_return_rate": 0.5966968975133367, "train/extr_return_raw_mag": 8.731682631704542, "train/extr_return_raw_max": 8.731682631704542, "train/extr_return_raw_mean": 1.7488400373193953, "train/extr_return_raw_min": -0.8307936510278119, "train/extr_return_raw_std": 1.7885538670751784, "train/extr_reward_mag": 0.9995793037944369, "train/extr_reward_max": 0.9995793037944369, "train/extr_reward_mean": 0.027349312893218465, "train/extr_reward_min": -0.4287623084253735, "train/extr_reward_std": 0.15161518825011122, "train/image_loss_mean": 11.55606492360433, "train/image_loss_std": 11.79469084739685, "train/model_loss_mean": 14.125420954492357, "train/model_loss_std": 14.258826812108358, "train/model_opt_grad_norm": 93.12796089384291, "train/model_opt_grad_steps": 2476.0, "train/model_opt_loss": 1103.5485110812717, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 78.125, "train/policy_entropy_mag": 2.5007728272014194, "train/policy_entropy_max": 2.5007728272014194, "train/policy_entropy_mean": 0.8799503387676345, "train/policy_entropy_min": 0.07950147210309903, "train/policy_entropy_std": 0.6189467360575994, "train/policy_logprob_mag": 7.436782207753923, "train/policy_logprob_max": -0.00947345402609143, "train/policy_logprob_mean": -0.8811013988322682, "train/policy_logprob_min": -7.436782207753923, "train/policy_logprob_std": 1.3024524814552731, "train/policy_randomness_mag": 0.8826630645328097, "train/policy_randomness_max": 0.8826630645328097, "train/policy_randomness_mean": 0.31058385492199, "train/policy_randomness_min": 0.02806053080389069, "train/policy_randomness_std": 0.21846103399164146, "train/post_ent_mag": 42.733264128367104, "train/post_ent_max": 42.733264128367104, "train/post_ent_mean": 24.928443749745686, "train/post_ent_min": 10.88056570953793, "train/post_ent_std": 5.572995775275761, "train/prior_ent_mag": 60.78068463007609, "train/prior_ent_max": 60.78068463007609, "train/prior_ent_mean": 29.851591375139023, "train/prior_ent_min": 13.066200560993618, "train/prior_ent_std": 8.19670950041877, "train/rep_loss_mean": 4.197437177101771, "train/rep_loss_std": 6.4143804775344, "train/reward_avg": 0.009465874620622748, "train/reward_loss_mean": 0.04994317894387576, "train/reward_loss_std": 0.2646739118629032, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9990985641876856, "train/reward_neg_acc": 0.9954701405432489, "train/reward_neg_loss": 0.03643674684119307, "train/reward_pos_acc": 0.950470771226618, "train/reward_pos_loss": 0.9729260388347838, "train/reward_pred": 0.008995677810162306, "train/reward_rate": 0.014336480034722222, "stats/sum_log_reward": 2.3222221715582743, "stats/max_log_achievement_collect_drink": 0.5555555555555556, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 0.7777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 1.0495367778672113, "stats/max_log_achievement_place_table": 0.3333333333333333, "replay/size": 6718.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4018057067187226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3714077092018448e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34367060661316, "timer/env.step_count": 1428.0, "timer/env.step_total": 22.83122682571411, "timer/env.step_frac": 0.0760170067163433, "timer/env.step_avg": 0.015988254079631732, "timer/env.step_min": 0.0030221939086914062, "timer/env.step_max": 1.7454142570495605, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.255312442779541, "timer/replay.add_frac": 0.0008500676650314581, "timer/replay.add_avg": 0.00017879022603609315, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008153915405273438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02321338653564453, "timer/logger.write_frac": 7.728941478526835e-05, "timer/logger.write_avg": 0.02321338653564453, "timer/logger.write_min": 0.02321338653564453, "timer/logger.write_max": 0.02321338653564453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.589531183242798, "timer/agent.policy_frac": 0.035258046763079115, "timer/agent.policy_avg": 0.00741563808350336, "timer/agent.policy_min": 0.005975484848022461, "timer/agent.policy_max": 0.02081608772277832, "timer/dataset_count": 714.0, "timer/dataset_total": 0.055828094482421875, "timer/dataset_frac": 0.00018588070915449687, "timer/dataset_avg": 7.819060851879814e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00021195411682128906, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.91984248161316, "timer/agent.train_frac": 0.8853852053699911, "timer/agent.train_avg": 0.3724367541759288, "timer/agent.train_min": 0.36570310592651367, "timer/agent.train_max": 0.3861963748931885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22284841537475586, "timer/agent.report_frac": 0.000741978064410887, "timer/agent.report_avg": 0.22284841537475586, "timer/agent.report_min": 0.22284841537475586, "timer/agent.report_max": 0.22284841537475586, "fps": 4.7544539773649275}
+{"step": 6851, "episode/length": 204.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.01951219512195122}
+{"step": 6929, "episode/length": 77.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05128205128205128}
+{"step": 7110, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022099447513812154}
+{"step": 7320, "episode/length": 209.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03333333333333333}
+{"step": 7499, "episode/length": 178.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01675977653631285}
+{"step": 7625, "episode/length": 125.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.023809523809523808}
+{"step": 7780, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025806451612903226}
+{"step": 7933, "episode/length": 152.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.0196078431372549}
+{"step": 8112, "episode/length": 178.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 3.9000000208616257, "episode/reward_rate": 0.01675977653631285}
+{"step": 8219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.85781012641059, "train/action_min": 0.0, "train/action_std": 4.600077506568697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03616839233371946, "train/actor_opt_grad_steps": 3205.0, "train/actor_opt_loss": 29.545377103818787, "train/adv_mag": 0.7957553519970841, "train/adv_max": 0.7864775471389294, "train/adv_mean": 0.008720828123235455, "train/adv_min": -0.4541303693420357, "train/adv_std": 0.07293715871249636, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 0.0003926602865362838, "train/cont_loss_std": 0.010176052819335583, "train/cont_neg_acc": 0.9860008822547065, "train/cont_neg_loss": 0.03801724667699899, "train/cont_pos_acc": 0.9999590416749319, "train/cont_pos_loss": 0.00014779376581309912, "train/cont_pred": 0.993994733525647, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.30394787258572, "train/dyn_loss_std": 6.544253879123264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4265706969632044, "train/extr_critic_critic_opt_grad_steps": 3205.0, "train/extr_critic_critic_opt_loss": 15786.152994791666, "train/extr_critic_mag": 5.773643983734979, "train/extr_critic_max": 5.773643983734979, "train/extr_critic_mean": 1.7587872727049723, "train/extr_critic_min": -0.2712191939353943, "train/extr_critic_std": 1.754578110244539, "train/extr_return_normed_mag": 1.7406414151191711, "train/extr_return_normed_max": 1.7406414151191711, "train/extr_return_normed_mean": 0.40411723405122757, "train/extr_return_normed_min": -0.10753663355070683, "train/extr_return_normed_std": 0.3740474623110559, "train/extr_return_rate": 0.6009765946202807, "train/extr_return_raw_mag": 8.392681201299032, "train/extr_return_raw_max": 8.392681201299032, "train/extr_return_raw_mean": 1.8016669518417783, "train/extr_return_raw_min": -0.7207764358156257, "train/extr_return_raw_std": 1.8441051476531558, "train/extr_reward_mag": 1.003287888235516, "train/extr_reward_max": 1.003287888235516, "train/extr_reward_mean": 0.02427269297833037, "train/extr_reward_min": -0.42039870884683395, "train/extr_reward_std": 0.14578506091816557, "train/image_loss_mean": 9.582823124196794, "train/image_loss_std": 9.40839100546307, "train/model_loss_mean": 12.209772282176548, "train/model_loss_std": 11.978977474901411, "train/model_opt_grad_norm": 88.46621640523274, "train/model_opt_grad_steps": 3196.0, "train/model_opt_loss": 1662.5748240152996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 137.80381944444446, "train/policy_entropy_mag": 2.489552312427097, "train/policy_entropy_max": 2.489552312427097, "train/policy_entropy_mean": 0.9376780448688401, "train/policy_entropy_min": 0.07948289501170318, "train/policy_entropy_std": 0.6069924285014471, "train/policy_logprob_mag": 7.437425759103563, "train/policy_logprob_max": -0.009470943012274802, "train/policy_logprob_mean": -0.9379948518342442, "train/policy_logprob_min": -7.437425759103563, "train/policy_logprob_std": 1.2796379857593112, "train/policy_randomness_mag": 0.8787027133835686, "train/policy_randomness_max": 0.8787027133835686, "train/policy_randomness_mean": 0.3309592004451487, "train/policy_randomness_min": 0.02805397395665447, "train/policy_randomness_std": 0.21424169321027067, "train/post_ent_mag": 41.30893140368991, "train/post_ent_max": 41.30893140368991, "train/post_ent_mean": 24.80148145887587, "train/post_ent_min": 10.761106597052681, "train/post_ent_std": 5.2564324206776085, "train/prior_ent_mag": 60.604467233022056, "train/prior_ent_max": 60.604467233022056, "train/prior_ent_mean": 29.660309341218735, "train/prior_ent_min": 12.355113294389513, "train/prior_ent_std": 8.118235369523367, "train/rep_loss_mean": 4.30394787258572, "train/rep_loss_std": 6.544253879123264, "train/reward_avg": 0.010618760742040144, "train/reward_loss_mean": 0.04418758740131226, "train/reward_loss_std": 0.2255068694551786, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0014842765198813, "train/reward_neg_acc": 0.9950900814599462, "train/reward_neg_loss": 0.030848132381733093, "train/reward_pos_acc": 0.9621934021512667, "train/reward_pos_loss": 0.8872793465852737, "train/reward_pred": 0.010417811894310743, "train/reward_rate": 0.015950520833333332, "stats/sum_log_reward": 2.8777777089012995, "stats/max_log_achievement_collect_drink": 0.0, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 1.2222222222222223, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 0.2222222222222222, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 1.0364816851086087, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "replay/size": 8156.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2048895229716293e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414138849653687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2982409000397, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.645522594451904, "timer/env.step_frac": 0.07208008455053538, "timer/env.step_avg": 0.015052519189465858, "timer/env.step_min": 0.0027854442596435547, "timer/env.step_max": 1.6192731857299805, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.25594329833984375, "timer/replay.add_frac": 0.0008522970283566851, "timer/replay.add_avg": 0.00017798560385246437, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008027553558349609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019601106643676758, "timer/logger.write_frac": 6.527213274686275e-05, "timer/logger.write_avg": 0.019601106643676758, "timer/logger.write_min": 0.019601106643676758, "timer/logger.write_max": 0.019601106643676758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.577173948287964, "timer/agent.policy_frac": 0.03522223079491428, "timer/agent.policy_avg": 0.007355475624678695, "timer/agent.policy_min": 0.0058405399322509766, "timer/agent.policy_max": 0.018861770629882812, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05457711219787598, "timer/dataset_frac": 0.0001817430299767992, "timer/dataset_avg": 7.590697106797771e-05, "timer/dataset_min": 5.602836608886719e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0850045681, "timer/agent.train_frac": 0.8893991645359142, "timer/agent.train_avg": 0.3714673220696801, "timer/agent.train_min": 0.36177945137023926, "timer/agent.train_max": 0.3843882083892822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21935701370239258, "timer/agent.report_frac": 0.0007304638650061556, "timer/agent.report_avg": 0.21935701370239258, "timer/agent.report_min": 0.21935701370239258, "timer/agent.report_max": 0.21935701370239258, "fps": 4.788469150052469}
+{"step": 8286, "episode/length": 173.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.028735632183908046}
+{"step": 8489, "episode/length": 202.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.019704433497536946}
+{"step": 8652, "episode/length": 162.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.006134969325153374}
+{"step": 8893, "episode/length": 240.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.016597510373443983}
+{"step": 9045, "episode/length": 151.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.019736842105263157}
+{"step": 9216, "episode/length": 170.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017543859649122806}
+{"step": 9432, "episode/length": 215.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.023148148148148147}
+{"step": 9585, "episode/length": 152.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.006535947712418301}
+{"step": 9643, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 6.342467402068662, "train/action_min": 0.0, "train/action_std": 4.334232689629139, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0318277244731574, "train/actor_opt_grad_steps": 3920.0, "train/actor_opt_loss": -16.005081170041795, "train/adv_mag": 0.7800732733498157, "train/adv_max": 0.763355554829181, "train/adv_mean": 0.003143872754995934, "train/adv_min": -0.42226208683470606, "train/adv_std": 0.0664143924352149, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 0.0009145715850907045, "train/cont_loss_std": 0.02500838796538734, "train/cont_neg_acc": 0.9632517384811187, "train/cont_neg_loss": 0.1186902366903845, "train/cont_pos_acc": 0.99994454753231, "train/cont_pos_loss": 0.00019881656737204677, "train/cont_pred": 0.9944215710733978, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.285608160663658, "train/dyn_loss_std": 6.552314167291346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3297537363750833, "train/extr_critic_critic_opt_grad_steps": 3920.0, "train/extr_critic_critic_opt_loss": 15118.29336762764, "train/extr_critic_mag": 6.275451492255842, "train/extr_critic_max": 6.275451492255842, "train/extr_critic_mean": 1.6878813177766934, "train/extr_critic_min": -0.27685776562757897, "train/extr_critic_std": 1.695230589786046, "train/extr_return_normed_mag": 1.7881861119203164, "train/extr_return_normed_max": 1.7881861119203164, "train/extr_return_normed_mean": 0.3822450513990832, "train/extr_return_normed_min": -0.11372991672284166, "train/extr_return_normed_std": 0.35931055520621824, "train/extr_return_rate": 0.6096794622045167, "train/extr_return_raw_mag": 8.620304087517967, "train/extr_return_raw_max": 8.620304087517967, "train/extr_return_raw_mean": 1.7037222603677025, "train/extr_return_raw_min": -0.7367654333651905, "train/extr_return_raw_std": 1.7670364698893588, "train/extr_reward_mag": 1.005902864563633, "train/extr_reward_max": 1.005902864563633, "train/extr_reward_mean": 0.0196246735581105, "train/extr_reward_min": -0.41216895278071014, "train/extr_reward_std": 0.13482589872790054, "train/image_loss_mean": 7.949422453490781, "train/image_loss_std": 8.923229425725802, "train/model_loss_mean": 10.561007479546776, "train/model_loss_std": 11.505082251320422, "train/model_opt_grad_norm": 103.11285932299117, "train/model_opt_grad_steps": 3911.0, "train/model_opt_loss": 2236.5337739326583, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 213.46830985915494, "train/policy_entropy_mag": 2.4524376224464093, "train/policy_entropy_max": 2.4524376224464093, "train/policy_entropy_mean": 0.7943905163818682, "train/policy_entropy_min": 0.07941769745568154, "train/policy_entropy_std": 0.558920296145157, "train/policy_logprob_mag": 7.43798866406293, "train/policy_logprob_max": -0.009462142323838994, "train/policy_logprob_mean": -0.7952723956443895, "train/policy_logprob_min": -7.43798866406293, "train/policy_logprob_std": 1.2302401737428048, "train/policy_randomness_mag": 0.8656028593090218, "train/policy_randomness_max": 0.8656028593090218, "train/policy_randomness_mean": 0.2803849913704563, "train/policy_randomness_min": 0.028030961961813376, "train/policy_randomness_std": 0.19727433651265963, "train/post_ent_mag": 40.056953860000824, "train/post_ent_max": 40.056953860000824, "train/post_ent_mean": 24.609172471812073, "train/post_ent_min": 10.140182387660927, "train/post_ent_std": 5.208892640933184, "train/prior_ent_mag": 61.56694971004003, "train/prior_ent_max": 61.56694971004003, "train/prior_ent_mean": 29.23116705451213, "train/prior_ent_min": 11.426985552613164, "train/prior_ent_std": 8.13198082883593, "train/rep_loss_mean": 4.285608160663658, "train/rep_loss_std": 6.552314167291346, "train/reward_avg": 0.01198145889424601, "train/reward_loss_mean": 0.03930547450419883, "train/reward_loss_std": 0.20100478932891094, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0031676695380412, "train/reward_neg_acc": 0.9957588877476437, "train/reward_neg_loss": 0.02613660547567505, "train/reward_pos_acc": 0.9755532531671121, "train/reward_pos_loss": 0.8127187784288971, "train/reward_pred": 0.011888635987547082, "train/reward_rate": 0.016890404929577465, "stats/sum_log_reward": 2.22499992698431, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 0.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 0.0, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.8966918587684631, "replay/size": 9580.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.208605091223556e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414459240570497e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23171734809875, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.68330430984497, "timer/env.step_frac": 0.07222189747762266, "timer/env.step_avg": 0.015227039543430456, "timer/env.step_min": 0.0025632381439208984, "timer/env.step_max": 1.7952468395233154, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2538907527923584, "timer/replay.add_frac": 0.0008456493372350427, "timer/replay.add_avg": 0.0001782940679721618, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.009315729141235352, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0205996036529541, "timer/logger.write_frac": 6.861234993726605e-05, "timer/logger.write_avg": 0.0205996036529541, "timer/logger.write_min": 0.0205996036529541, "timer/logger.write_max": 0.0205996036529541, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006208419799804688, "timer/checkpoint.save_frac": 2.0678760574141593e-06, "timer/checkpoint.save_avg": 0.0006208419799804688, "timer/checkpoint.save_min": 0.0006208419799804688, "timer/checkpoint.save_max": 0.0006208419799804688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.404552698135376, "timer/agent.save_frac": 0.0046782289044661135, "timer/agent.save_avg": 1.404552698135376, "timer/agent.save_min": 1.404552698135376, "timer/agent.save_max": 1.404552698135376, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8826382828008445e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 13.287226676940918, "timer/agent.policy_frac": 0.04425657220464572, "timer/agent.policy_avg": 0.009330917610211318, "timer/agent.policy_min": 0.005524873733520508, "timer/agent.policy_max": 1.3939857482910156, "timer/dataset_count": 712.0, "timer/dataset_total": 0.056775569915771484, "timer/dataset_frac": 0.00018910583604311192, "timer/dataset_avg": 7.974096898282512e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0002970695495605469, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.2402663230896, "timer/agent.train_frac": 0.8801210899937015, "timer/agent.train_avg": 0.3711239695549011, "timer/agent.train_min": 0.36328721046447754, "timer/agent.train_max": 0.38361477851867676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179889678955078, "timer/agent.report_frac": 0.0007260690836430318, "timer/agent.report_avg": 0.2179889678955078, "timer/agent.report_min": 0.2179889678955078, "timer/agent.report_max": 0.2179889678955078, "fps": 4.742900517989275}
+{"step": 9756, "episode/length": 170.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.500000022351742, "episode/reward_rate": 0.005847953216374269}
+{"step": 9967, "episode/length": 210.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.018957345971563982}
+{"step": 10025, "episode/length": 57.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.0999999940395355, "episode/reward_rate": 0.034482758620689655}
+{"step": 10191, "episode/length": 165.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 2.900000013411045, "episode/reward_rate": 0.012048192771084338}
+{"step": 10407, "episode/length": 215.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.018518518518518517}
+{"step": 10600, "episode/length": 192.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.010362694300518135}
+{"step": 10849, "episode/length": 248.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.024096385542168676}
+{"step": 11030, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022099447513812154}
+{"step": 11093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.3207812839084205, "train/action_min": 0.0, "train/action_std": 3.810760213269128, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03483912654014097, "train/actor_opt_grad_steps": 4635.0, "train/actor_opt_loss": -4.199556164857414, "train/adv_mag": 0.8458852176037099, "train/adv_max": 0.8300179719097085, "train/adv_mean": 0.005792576249304047, "train/adv_min": -0.45990393517745864, "train/adv_std": 0.06685140485771829, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00023758121766882646, "train/cont_loss_std": 0.006751231202189147, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.010636958635283614, "train/cont_pos_acc": 0.9999589671691259, "train/cont_pos_loss": 0.00016086748149114606, "train/cont_pred": 0.994065672159195, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.118946072128084, "train/dyn_loss_std": 6.649912238121033, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.379344080057409, "train/extr_critic_critic_opt_grad_steps": 4635.0, "train/extr_critic_critic_opt_loss": 15849.942192925348, "train/extr_critic_mag": 6.5839364065064325, "train/extr_critic_max": 6.5839364065064325, "train/extr_critic_mean": 1.4326951644486852, "train/extr_critic_min": -0.29402880205048454, "train/extr_critic_std": 1.534519362780783, "train/extr_return_normed_mag": 1.8772152927186754, "train/extr_return_normed_max": 1.8772152927186754, "train/extr_return_normed_mean": 0.34863523828486603, "train/extr_return_normed_min": -0.12809274537074897, "train/extr_return_normed_std": 0.3466404411527846, "train/extr_return_rate": 0.5890299781329102, "train/extr_return_raw_mag": 8.548866967360178, "train/extr_return_raw_max": 8.548866967360178, "train/extr_return_raw_mean": 1.459630356894599, "train/extr_return_raw_min": -0.7516738399863243, "train/extr_return_raw_std": 1.6079070170720418, "train/extr_reward_mag": 1.005891786681281, "train/extr_reward_max": 1.005891786681281, "train/extr_reward_mean": 0.021459717930863716, "train/extr_reward_min": -0.4639900243944592, "train/extr_reward_std": 0.14238741310934225, "train/image_loss_mean": 7.230016820960575, "train/image_loss_std": 8.678584323989021, "train/model_loss_mean": 9.739567750030094, "train/model_loss_std": 11.367428845829433, "train/model_opt_grad_norm": 86.71723792288039, "train/model_opt_grad_steps": 4626.0, "train/model_opt_loss": 3043.614919026693, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 312.5, "train/policy_entropy_mag": 2.4699345098601446, "train/policy_entropy_max": 2.4699345098601446, "train/policy_entropy_mean": 0.7506681010127068, "train/policy_entropy_min": 0.07938176983346541, "train/policy_entropy_std": 0.5880306172702048, "train/policy_logprob_mag": 7.438207129637401, "train/policy_logprob_max": -0.009457099225579036, "train/policy_logprob_mean": -0.7507396282421218, "train/policy_logprob_min": -7.438207129637401, "train/policy_logprob_std": 1.2189165006081264, "train/policy_randomness_mag": 0.8717784898148643, "train/policy_randomness_max": 0.8717784898148643, "train/policy_randomness_mean": 0.2649529000951184, "train/policy_randomness_min": 0.02801828117420276, "train/policy_randomness_std": 0.20754900409115684, "train/post_ent_mag": 39.176126903957794, "train/post_ent_max": 39.176126903957794, "train/post_ent_mean": 24.060800366931492, "train/post_ent_min": 9.729818185170492, "train/post_ent_std": 5.025507503085667, "train/prior_ent_mag": 62.31601211759779, "train/prior_ent_max": 62.31601211759779, "train/prior_ent_mean": 28.5788762834337, "train/prior_ent_min": 11.11735561158922, "train/prior_ent_std": 8.158292637930977, "train/rep_loss_mean": 4.118946072128084, "train/rep_loss_std": 6.649912238121033, "train/reward_avg": 0.010942925328789797, "train/reward_loss_mean": 0.037945775936047234, "train/reward_loss_std": 0.21446796744647953, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0031021005577512, "train/reward_neg_acc": 0.9967735865049892, "train/reward_neg_loss": 0.02527828152394957, "train/reward_pos_acc": 0.971766606801086, "train/reward_pos_loss": 0.8209023434254858, "train/reward_pred": 0.01061184790968481, "train/reward_rate": 0.016045464409722224, "stats/sum_log_reward": 2.099999944679439, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_wood": 0.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.0, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.8169294223189354, "replay/size": 11030.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.289189831963901e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.417460112736143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3751587867737, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.645362377166748, "timer/env.step_frac": 0.06540275319875015, "timer/env.step_avg": 0.013548525777356378, "timer/env.step_min": 0.002554178237915039, "timer/env.step_max": 1.5946791172027588, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2685253620147705, "timer/replay.add_frac": 0.0008939666086215462, "timer/replay.add_avg": 0.00018518990483777276, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.004770994186401367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029163122177124023, "timer/logger.write_frac": 9.708899462563731e-05, "timer/logger.write_avg": 0.029163122177124023, "timer/logger.write_min": 0.029163122177124023, "timer/logger.write_max": 0.029163122177124023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.648464441299438, "timer/agent.policy_frac": 0.03545054952050289, "timer/agent.policy_avg": 0.007343768580206509, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.027825117111206055, "timer/dataset_count": 725.0, "timer/dataset_total": 0.056644439697265625, "timer/dataset_frac": 0.00018857897545873834, "timer/dataset_avg": 7.813026165140086e-05, "timer/dataset_min": 5.602836608886719e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.05426263809204, "timer/agent.train_frac": 0.8957274087671301, "timer/agent.train_avg": 0.37110932777667865, "timer/agent.train_min": 0.36363840103149414, "timer/agent.train_max": 0.3858025074005127, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21962285041809082, "timer/agent.report_frac": 0.0007311618287782371, "timer/agent.report_avg": 0.21962285041809082, "timer/agent.report_min": 0.21962285041809082, "timer/agent.report_max": 0.21962285041809082, "fps": 4.827217061146534}
+{"step": 11200, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
+{"step": 11402, "episode/length": 201.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.024752475247524754}
+{"step": 11591, "episode/length": 188.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026455026455026454}
+{"step": 11792, "episode/length": 200.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.700000047683716, "episode/reward_rate": 0.024875621890547265}
+{"step": 11974, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
+{"step": 12120, "episode/length": 145.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02054794520547945}
+{"step": 12321, "episode/length": 200.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024875621890547265}
+{"step": 12512, "episode/length": 190.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020942408376963352}
+{"step": 12531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.2481494479709205, "train/action_min": 0.0, "train/action_std": 3.8060914973417916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039967289892956614, "train/actor_opt_grad_steps": 5355.0, "train/actor_opt_loss": 23.867962181412924, "train/adv_mag": 1.0079472967320018, "train/adv_max": 0.9819062683317397, "train/adv_mean": 0.007844164285567482, "train/adv_min": -0.6008455931312509, "train/adv_std": 0.07066588160685366, "train/cont_avg": 0.9940049913194444, "train/cont_loss_mean": 0.0005703537692767213, "train/cont_loss_std": 0.015413564412057212, "train/cont_neg_acc": 0.9902497215403451, "train/cont_neg_loss": 0.04582832719562349, "train/cont_pos_acc": 0.9999318511949645, "train/cont_pos_loss": 0.0002344158296435022, "train/cont_pred": 0.9939709835582309, "train/cont_rate": 0.9940049913194444, "train/dyn_loss_mean": 4.034957746664683, "train/dyn_loss_std": 6.8883640964825945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3694244474172592, "train/extr_critic_critic_opt_grad_steps": 5355.0, "train/extr_critic_critic_opt_loss": 15846.591159396701, "train/extr_critic_mag": 7.717860043048859, "train/extr_critic_max": 7.717860043048859, "train/extr_critic_mean": 1.5598997962143686, "train/extr_critic_min": -0.320529419514868, "train/extr_critic_std": 1.5800268054008484, "train/extr_return_normed_mag": 2.0392514947387905, "train/extr_return_normed_max": 2.0392514947387905, "train/extr_return_normed_mean": 0.3788283804638518, "train/extr_return_normed_min": -0.14557999129303628, "train/extr_return_normed_std": 0.3576931098683013, "train/extr_return_rate": 0.7123408930169212, "train/extr_return_raw_mag": 9.307987021075355, "train/extr_return_raw_max": 9.307987021075355, "train/extr_return_raw_mean": 1.5964466217491362, "train/extr_return_raw_min": -0.8397354785766866, "train/extr_return_raw_std": 1.6627684864732954, "train/extr_reward_mag": 1.0052520384391148, "train/extr_reward_max": 1.0052520384391148, "train/extr_reward_mean": 0.02462454740371969, "train/extr_reward_min": -0.46055858665042454, "train/extr_reward_std": 0.15103662096791798, "train/image_loss_mean": 6.525808566146427, "train/image_loss_std": 9.622543295224508, "train/model_loss_mean": 8.986324608325958, "train/model_loss_std": 12.452056189378103, "train/model_opt_grad_norm": 77.07258007261488, "train/model_opt_grad_steps": 5346.0, "train/model_opt_loss": 5548.970998128255, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 616.3194444444445, "train/policy_entropy_mag": 2.5183665487501354, "train/policy_entropy_max": 2.5183665487501354, "train/policy_entropy_mean": 0.7330192037754588, "train/policy_entropy_min": 0.0793771871055166, "train/policy_entropy_std": 0.6420735932058759, "train/policy_logprob_mag": 7.438303523593479, "train/policy_logprob_max": -0.00945625628810376, "train/policy_logprob_mean": -0.7330667806996239, "train/policy_logprob_min": -7.438303523593479, "train/policy_logprob_std": 1.220254851712121, "train/policy_randomness_mag": 0.888872874279817, "train/policy_randomness_max": 0.888872874279817, "train/policy_randomness_mean": 0.258723609149456, "train/policy_randomness_min": 0.02801666357037094, "train/policy_randomness_std": 0.22662379903097948, "train/post_ent_mag": 38.497228463490806, "train/post_ent_max": 38.497228463490806, "train/post_ent_mean": 23.823210769229465, "train/post_ent_min": 9.574311282899645, "train/post_ent_std": 4.840019375085831, "train/prior_ent_mag": 62.94600375493368, "train/prior_ent_max": 62.94600375493368, "train/prior_ent_mean": 28.033938301934135, "train/prior_ent_min": 10.96513623661465, "train/prior_ent_std": 8.087202078766293, "train/rep_loss_mean": 4.034957746664683, "train/rep_loss_std": 6.8883640964825945, "train/reward_avg": 0.011648220343178965, "train/reward_loss_mean": 0.03897103131748736, "train/reward_loss_std": 0.20153058599680662, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.00265185866091, "train/reward_neg_acc": 0.9958849185042911, "train/reward_neg_loss": 0.025787358767249517, "train/reward_pos_acc": 0.9777450238664945, "train/reward_pos_loss": 0.7981941642032729, "train/reward_pred": 0.011379112822598673, "train/reward_rate": 0.017049153645833332, "stats/sum_log_reward": 3.7249999046325684, "stats/max_log_achievement_collect_drink": 6.5, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 1.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.8685479164123535, "replay/size": 12468.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.252142162084248e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3534772379507773e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20999813079834, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.792962312698364, "timer/env.step_frac": 0.0692613918329232, "timer/env.step_avg": 0.014459639994922367, "timer/env.step_min": 0.002732992172241211, "timer/env.step_max": 1.6313152313232422, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2743196487426758, "timer/replay.add_frac": 0.0009137592033932114, "timer/replay.add_avg": 0.00019076470705332112, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.017430543899536133, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02094721794128418, "timer/logger.write_frac": 6.97752175867164e-05, "timer/logger.write_avg": 0.02094721794128418, "timer/logger.write_min": 0.02094721794128418, "timer/logger.write_max": 0.02094721794128418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.59375810623169, "timer/agent.policy_frac": 0.03528782576260535, "timer/agent.policy_avg": 0.007367008418798115, "timer/agent.policy_min": 0.005802154541015625, "timer/agent.policy_max": 0.018477201461791992, "timer/dataset_count": 719.0, "timer/dataset_total": 0.056114912033081055, "timer/dataset_frac": 0.00018691886473625165, "timer/dataset_avg": 7.804577473307518e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00018072128295898438, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.80551195144653, "timer/agent.train_frac": 0.8920606029742104, "timer/agent.train_avg": 0.3724694185694667, "timer/agent.train_min": 0.36606693267822266, "timer/agent.train_max": 0.38643980026245117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21924877166748047, "timer/agent.report_frac": 0.0007303180208273946, "timer/agent.report_avg": 0.21924877166748047, "timer/agent.report_min": 0.21924877166748047, "timer/agent.report_max": 0.21924877166748047, "fps": 4.789879342904837}
+{"step": 12548, "episode/length": 35.0, "episode/score": 2.100000023841858, "episode/sum_abs_reward": 3.5, "episode/reward_rate": 0.1111111111111111}
+{"step": 12963, "episode/length": 414.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.012048192771084338}
+{"step": 13119, "episode/length": 155.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02564102564102564}
+{"step": 13283, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03048780487804878}
+{"step": 13513, "episode/length": 229.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02608695652173913}
+{"step": 13699, "episode/length": 185.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.021505376344086023}
+{"step": 13869, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
+{"step": 13953, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708882936289613, "train/action_min": 0.0, "train/action_std": 3.278825232680415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043599285001696, "train/actor_opt_grad_steps": 6070.0, "train/actor_opt_loss": 35.88048879025688, "train/adv_mag": 0.9990492971010612, "train/adv_max": 0.9596296179462487, "train/adv_mean": 0.011787076678879651, "train/adv_min": -0.6265946962464024, "train/adv_std": 0.0740485530818852, "train/cont_avg": 0.9951309419014085, "train/cont_loss_mean": 0.001039957336702237, "train/cont_loss_std": 0.024402035559087123, "train/cont_neg_acc": 0.9783753047526722, "train/cont_neg_loss": 0.12930894756547634, "train/cont_pos_acc": 0.9997926413173407, "train/cont_pos_loss": 0.000432833377589173, "train/cont_pred": 0.9950443539820927, "train/cont_rate": 0.9951309419014085, "train/dyn_loss_mean": 4.138800040097304, "train/dyn_loss_std": 6.858957559290067, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3719550094134372, "train/extr_critic_critic_opt_grad_steps": 6070.0, "train/extr_critic_critic_opt_loss": 15846.906800176057, "train/extr_critic_mag": 8.510736008764992, "train/extr_critic_max": 8.510736008764992, "train/extr_critic_mean": 1.6805415354983908, "train/extr_critic_min": -0.33863419714108317, "train/extr_critic_std": 1.5729330610221541, "train/extr_return_normed_mag": 1.9997444438262724, "train/extr_return_normed_max": 1.9997444438262724, "train/extr_return_normed_mean": 0.3889082498113874, "train/extr_return_normed_min": -0.10482013765984857, "train/extr_return_normed_std": 0.3375440309165229, "train/extr_return_rate": 0.7344007114289512, "train/extr_return_raw_mag": 9.808513768961731, "train/extr_return_raw_max": 9.808513768961731, "train/extr_return_raw_mean": 1.740057842832216, "train/extr_return_raw_min": -0.7200730648678793, "train/extr_return_raw_std": 1.6875102486408933, "train/extr_reward_mag": 1.0056895974656226, "train/extr_reward_max": 1.0056895974656226, "train/extr_reward_mean": 0.026095448481574864, "train/extr_reward_min": -0.4351425355588886, "train/extr_reward_std": 0.1543942810574048, "train/image_loss_mean": 7.244844292251157, "train/image_loss_std": 10.65022751982783, "train/model_loss_mean": 9.767259711950597, "train/model_loss_std": 13.454827617591535, "train/model_opt_grad_norm": 84.76595491758535, "train/model_opt_grad_steps": 6060.295774647887, "train/model_opt_loss": 4079.159336143816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 404.92957746478874, "train/policy_entropy_mag": 2.4471582526892, "train/policy_entropy_max": 2.4471582526892, "train/policy_entropy_mean": 0.6238032533249385, "train/policy_entropy_min": 0.07937578227318509, "train/policy_entropy_std": 0.5620339752083093, "train/policy_logprob_mag": 7.438361416400318, "train/policy_logprob_max": -0.009455932238677018, "train/policy_logprob_mean": -0.6242202419630238, "train/policy_logprob_min": -7.438361416400318, "train/policy_logprob_std": 1.1627201882886216, "train/policy_randomness_mag": 0.8637394745584944, "train/policy_randomness_max": 0.8637394745584944, "train/policy_randomness_mean": 0.22017517245151627, "train/policy_randomness_min": 0.02801616788959839, "train/policy_randomness_std": 0.19837332884190786, "train/post_ent_mag": 38.33443515401491, "train/post_ent_max": 38.33443515401491, "train/post_ent_mean": 24.008334415059693, "train/post_ent_min": 9.522090858137103, "train/post_ent_std": 4.927578788408091, "train/prior_ent_mag": 63.64368148588798, "train/prior_ent_max": 63.64368148588798, "train/prior_ent_mean": 28.35758539656518, "train/prior_ent_min": 10.822181392723406, "train/prior_ent_std": 8.149201910260697, "train/rep_loss_mean": 4.138800040097304, "train/rep_loss_std": 6.858957559290067, "train/reward_avg": 0.014090008718866698, "train/reward_loss_mean": 0.03809544407355953, "train/reward_loss_std": 0.20682448883291701, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0034859247610604, "train/reward_neg_acc": 0.9964377023804356, "train/reward_neg_loss": 0.02369889443818952, "train/reward_pos_acc": 0.9767033508126165, "train/reward_pos_loss": 0.8009958930418525, "train/reward_pred": 0.013864608684843275, "train/reward_rate": 0.018650968309859156, "stats/sum_log_reward": 3.5285713332039967, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.5714285714285716, "stats/max_log_achievement_collect_wood": 1.8571428571428572, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 0.2857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.6627817494528634, "replay/size": 13890.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.243800457016828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3603230233601545e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18732261657715, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.323160886764526, "timer/env.step_frac": 0.06437034288568404, "timer/env.step_avg": 0.013588720736121327, "timer/env.step_min": 0.0029354095458984375, "timer/env.step_max": 1.678335189819336, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2665250301361084, "timer/replay.add_frac": 0.000887862378107603, "timer/replay.add_avg": 0.0001874296977047176, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.013453483581542969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021079301834106445, "timer/logger.write_frac": 7.022049315863544e-05, "timer/logger.write_avg": 0.021079301834106445, "timer/logger.write_min": 0.021079301834106445, "timer/logger.write_max": 0.021079301834106445, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005381107330322266, "timer/checkpoint.save_frac": 1.7925831388940562e-06, "timer/checkpoint.save_avg": 0.0005381107330322266, "timer/checkpoint.save_min": 0.0005381107330322266, "timer/checkpoint.save_max": 0.0005381107330322266, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3784799575805664, "timer/agent.save_frac": 0.004592065865956869, "timer/agent.save_avg": 1.3784799575805664, "timer/agent.save_min": 1.3784799575805664, "timer/agent.save_max": 1.3784799575805664, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.970430190280802e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.934724807739258, "timer/agent.policy_frac": 0.049751350848400294, "timer/agent.policy_avg": 0.010502619414725217, "timer/agent.policy_min": 0.005900859832763672, "timer/agent.policy_max": 2.984895706176758, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05569171905517578, "timer/dataset_frac": 0.00018552322119981602, "timer/dataset_avg": 7.832871878365088e-05, "timer/dataset_min": 5.2928924560546875e-05, "timer/dataset_max": 0.00016808509826660156, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.925017118454, "timer/agent.train_frac": 0.8825323295109202, "timer/agent.train_avg": 0.37260902548305763, "timer/agent.train_min": 0.36348986625671387, "timer/agent.train_max": 0.46547770500183105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22152495384216309, "timer/agent.report_frac": 0.0007379557268149934, "timer/agent.report_avg": 0.22152495384216309, "timer/agent.report_min": 0.22152495384216309, "timer/agent.report_max": 0.22152495384216309, "fps": 4.736938880069952}
+{"step": 14120, "episode/length": 250.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.0199203187250996}
+{"step": 14288, "episode/length": 167.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017857142857142856}
+{"step": 14447, "episode/length": 158.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025157232704402517}
+{"step": 14605, "episode/length": 157.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.02531645569620253}
+{"step": 14781, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03409090909090909}
+{"step": 14971, "episode/length": 189.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.015789473684210527}
+{"step": 15179, "episode/length": 207.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.014423076923076924}
+{"step": 15346, "episode/length": 166.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.029940119760479042}
+{"step": 15387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.945392184787327, "train/action_min": 0.0, "train/action_std": 3.341988149616453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03726419289078978, "train/actor_opt_grad_steps": 6785.0, "train/actor_opt_loss": 25.88962520990107, "train/adv_mag": 0.8735138037138515, "train/adv_max": 0.837847205499808, "train/adv_mean": 0.008319329985574263, "train/adv_min": -0.588231730585297, "train/adv_std": 0.0633663022890687, "train/cont_avg": 0.9939507378472222, "train/cont_loss_mean": 0.000313958425924928, "train/cont_loss_std": 0.009302381865457695, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.03427930614220208, "train/cont_pos_acc": 0.999986377855142, "train/cont_pos_loss": 6.105319343498018e-05, "train/cont_pred": 0.9939716507991155, "train/cont_rate": 0.9939507378472222, "train/dyn_loss_mean": 3.9652681284480624, "train/dyn_loss_std": 7.020848996109432, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.315840697950787, "train/extr_critic_critic_opt_grad_steps": 6785.0, "train/extr_critic_critic_opt_loss": 15599.057454427084, "train/extr_critic_mag": 9.634787725077736, "train/extr_critic_max": 9.634787725077736, "train/extr_critic_mean": 2.0442975759506226, "train/extr_critic_min": -0.35290180808968014, "train/extr_critic_std": 1.8491696814695995, "train/extr_return_normed_mag": 1.818430678711997, "train/extr_return_normed_max": 1.818430678711997, "train/extr_return_normed_mean": 0.3710494654046165, "train/extr_return_normed_min": -0.08272596264982389, "train/extr_return_normed_std": 0.3177342750132084, "train/extr_return_rate": 0.7602051157090399, "train/extr_return_raw_mag": 11.045981188615164, "train/extr_return_raw_max": 11.045981188615164, "train/extr_return_raw_mean": 2.0952916426791086, "train/extr_return_raw_min": -0.7109276031454405, "train/extr_return_raw_std": 1.963698825902409, "train/extr_reward_mag": 1.0093153417110443, "train/extr_reward_max": 1.0093153417110443, "train/extr_reward_mean": 0.023374244764757652, "train/extr_reward_min": -0.4396675510538949, "train/extr_reward_std": 0.15118852713041836, "train/image_loss_mean": 6.371431466605928, "train/image_loss_std": 10.059250526958042, "train/model_loss_mean": 8.788259506225586, "train/model_loss_std": 12.96479868888855, "train/model_opt_grad_norm": 79.12739912668864, "train/model_opt_grad_steps": 6775.0, "train/model_opt_loss": 3577.250537448459, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 407.9861111111111, "train/policy_entropy_mag": 2.4586196972264185, "train/policy_entropy_max": 2.4586196972264185, "train/policy_entropy_mean": 0.6024083495140076, "train/policy_entropy_min": 0.07937552831653091, "train/policy_entropy_std": 0.5480292840964265, "train/policy_logprob_mag": 7.438363644811842, "train/policy_logprob_max": -0.009455903911859624, "train/policy_logprob_mean": -0.6026706231964959, "train/policy_logprob_min": -7.438363644811842, "train/policy_logprob_std": 1.1575832267602284, "train/policy_randomness_mag": 0.8677848610613081, "train/policy_randomness_max": 0.8677848610613081, "train/policy_randomness_mean": 0.2126237093988392, "train/policy_randomness_min": 0.028016078260002866, "train/policy_randomness_std": 0.1934302912818061, "train/post_ent_mag": 38.88167794545492, "train/post_ent_max": 38.88167794545492, "train/post_ent_mean": 23.89590793185764, "train/post_ent_min": 9.312124424510532, "train/post_ent_std": 4.933969438076019, "train/prior_ent_mag": 64.26625813378229, "train/prior_ent_max": 64.26625813378229, "train/prior_ent_mean": 28.044372240702312, "train/prior_ent_min": 10.751864367061192, "train/prior_ent_std": 8.371750401126015, "train/rep_loss_mean": 3.9652681284480624, "train/rep_loss_std": 7.020848996109432, "train/reward_avg": 0.013499620098931095, "train/reward_loss_mean": 0.037353165447711945, "train/reward_loss_std": 0.18640702435125908, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0057200110620923, "train/reward_neg_acc": 0.9963653393917613, "train/reward_neg_loss": 0.02325148745957348, "train/reward_pos_acc": 0.9856742951605055, "train/reward_pos_loss": 0.7736214904321564, "train/reward_pred": 0.013239305408205837, "train/reward_rate": 0.018690321180555556, "stats/sum_log_reward": 3.2249999046325684, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 1.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.6908926442265511, "replay/size": 15324.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.469040204291563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3637575976851927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.311639547348, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.100119829177856, "timer/env.step_frac": 0.07026074600698635, "timer/env.step_avg": 0.014714170034294182, "timer/env.step_min": 0.0027570724487304688, "timer/env.step_max": 1.6891939640045166, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.27269458770751953, "timer/replay.add_frac": 0.0009080386898041816, "timer/replay.add_avg": 0.0001901635897541977, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0016393661499023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021693706512451172, "timer/logger.write_frac": 7.223731502764773e-05, "timer/logger.write_avg": 0.021693706512451172, "timer/logger.write_min": 0.021693706512451172, "timer/logger.write_max": 0.021693706512451172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.51184344291687, "timer/agent.policy_frac": 0.03500311695797439, "timer/agent.policy_avg": 0.007330434757961555, "timer/agent.policy_min": 0.005705595016479492, "timer/agent.policy_max": 0.02016139030456543, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05882000923156738, "timer/dataset_frac": 0.00019586323500556043, "timer/dataset_avg": 8.203627507889453e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.6569609642029, "timer/agent.train_frac": 0.8912640261550812, "timer/agent.train_avg": 0.3733012007868938, "timer/agent.train_min": 0.36583876609802246, "timer/agent.train_max": 0.4049856662750244, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973896026611328, "timer/agent.report_frac": 0.000731703108801644, "timer/agent.report_avg": 0.21973896026611328, "timer/agent.report_min": 0.21973896026611328, "timer/agent.report_max": 0.21973896026611328, "fps": 4.774940444096303}
+{"step": 15511, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
+{"step": 15671, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
+{"step": 15836, "episode/length": 164.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.024242424242424242}
+{"step": 15878, "episode/length": 41.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.07142857142857142}
+{"step": 16072, "episode/length": 193.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020618556701030927}
+{"step": 16245, "episode/length": 172.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023121387283236993}
+{"step": 16436, "episode/length": 190.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02617801047120419}
+{"step": 16605, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 16823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.020623948838976, "train/action_min": 0.0, "train/action_std": 3.7219053043259516, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03488251675541202, "train/actor_opt_grad_steps": 7505.0, "train/actor_opt_loss": -10.800768846438991, "train/adv_mag": 0.9522295917073885, "train/adv_max": 0.9014723259541724, "train/adv_mean": 0.003758771614255036, "train/adv_min": -0.5600875214570098, "train/adv_std": 0.05963902656609813, "train/cont_avg": 0.9940049913194444, "train/cont_loss_mean": 0.00027784339067377713, "train/cont_loss_std": 0.008428838964985315, "train/cont_neg_acc": 0.9922453719708655, "train/cont_neg_loss": 0.029771534733097522, "train/cont_pos_acc": 0.9999863397743967, "train/cont_pos_loss": 7.092901252963518e-05, "train/cont_pred": 0.9940405115485191, "train/cont_rate": 0.9940049913194444, "train/dyn_loss_mean": 3.8138297696908317, "train/dyn_loss_std": 7.062122881412506, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3288039225671027, "train/extr_critic_critic_opt_grad_steps": 7505.0, "train/extr_critic_critic_opt_loss": 15505.234185112848, "train/extr_critic_mag": 10.818522089057499, "train/extr_critic_max": 10.818522089057499, "train/extr_critic_mean": 2.0736326509051852, "train/extr_critic_min": -0.43029804362191093, "train/extr_critic_std": 2.0710007084740534, "train/extr_return_normed_mag": 1.9539898104137845, "train/extr_return_normed_max": 1.9539898104137845, "train/extr_return_normed_mean": 0.3655902043812805, "train/extr_return_normed_min": -0.09001598900390996, "train/extr_return_normed_std": 0.3369022239413526, "train/extr_return_rate": 0.7177942722207971, "train/extr_return_raw_mag": 12.327282541328007, "train/extr_return_raw_max": 12.327282541328007, "train/extr_return_raw_mean": 2.0977225767241583, "train/extr_return_raw_min": -0.8342993648515807, "train/extr_return_raw_std": 2.169095685084661, "train/extr_reward_mag": 1.0100369784567091, "train/extr_reward_max": 1.0100369784567091, "train/extr_reward_mean": 0.023102565112316772, "train/extr_reward_min": -0.4906321085161633, "train/extr_reward_std": 0.15132899654822218, "train/image_loss_mean": 5.943765534294976, "train/image_loss_std": 9.205776810646057, "train/model_loss_mean": 8.270855638715956, "train/model_loss_std": 12.208983110056984, "train/model_opt_grad_norm": 81.79304764005873, "train/model_opt_grad_steps": 7495.0, "train/model_opt_loss": 5169.284779866536, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4718914098209805, "train/policy_entropy_max": 2.4718914098209805, "train/policy_entropy_mean": 0.6090749357309606, "train/policy_entropy_min": 0.0793754912705885, "train/policy_entropy_std": 0.5628701862361696, "train/policy_logprob_mag": 7.438373300764296, "train/policy_logprob_max": -0.009455899009481072, "train/policy_logprob_mean": -0.6087820563051436, "train/policy_logprob_min": -7.438373300764296, "train/policy_logprob_std": 1.1558854116333857, "train/policy_randomness_mag": 0.8724691917498907, "train/policy_randomness_max": 0.8724691917498907, "train/policy_randomness_mean": 0.21497672527200645, "train/policy_randomness_min": 0.028016065143876605, "train/policy_randomness_std": 0.19866847660806444, "train/post_ent_mag": 38.46957937876383, "train/post_ent_max": 38.46957937876383, "train/post_ent_mean": 23.83098030090332, "train/post_ent_min": 9.30031669139862, "train/post_ent_std": 4.816243797540665, "train/prior_ent_mag": 64.62425729963515, "train/prior_ent_max": 64.62425729963515, "train/prior_ent_mean": 27.909850862291123, "train/prior_ent_min": 10.798247681723701, "train/prior_ent_std": 8.331703583399454, "train/rep_loss_mean": 3.8138297696908317, "train/rep_loss_std": 7.062122881412506, "train/reward_avg": 0.013707139623066824, "train/reward_loss_mean": 0.03851441495741407, "train/reward_loss_std": 0.20290933487315974, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.005344193842676, "train/reward_neg_acc": 0.9960992493563228, "train/reward_neg_loss": 0.023729775540737644, "train/reward_pos_acc": 0.9725561853912141, "train/reward_pos_loss": 0.8133018687367439, "train/reward_pred": 0.013469336308642395, "train/reward_rate": 0.0189208984375, "stats/sum_log_reward": 3.7249999046325684, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 1.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 0.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6469205804169178, "stats/max_log_achievement_make_wood_sword": 1.0, "replay/size": 16760.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.536431570239054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3726708948778244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1970009803772, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.196258306503296, "timer/env.step_frac": 0.07060782831700847, "timer/env.step_avg": 0.014760625561631822, "timer/env.step_min": 0.0030431747436523438, "timer/env.step_max": 1.7760858535766602, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24808764457702637, "timer/replay.add_frac": 0.0008264161326289964, "timer/replay.add_avg": 0.00017276298368873702, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0009453296661376953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022016048431396484, "timer/logger.write_frac": 7.333866880580727e-05, "timer/logger.write_avg": 0.022016048431396484, "timer/logger.write_min": 0.022016048431396484, "timer/logger.write_max": 0.022016048431396484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.494184970855713, "timer/agent.policy_frac": 0.03495766092460624, "timer/agent.policy_avg": 0.007307928252685037, "timer/agent.policy_min": 0.0057621002197265625, "timer/agent.policy_max": 0.015170574188232422, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05782008171081543, "timer/dataset_frac": 0.0001926071263936275, "timer/dataset_avg": 8.052936171422762e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.4986500740051, "timer/agent.train_frac": 0.8910770234226643, "timer/agent.train_avg": 0.3725607939749375, "timer/agent.train_min": 0.3653836250305176, "timer/agent.train_max": 0.3858926296234131, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21888065338134766, "timer/agent.report_frac": 0.000729123384532596, "timer/agent.report_avg": 0.21888065338134766, "timer/agent.report_min": 0.21888065338134766, "timer/agent.report_max": 0.21888065338134766, "fps": 4.78342379209824}
+{"step": 16856, "episode/length": 250.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.0199203187250996}
+{"step": 16885, "episode/length": 28.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 2.900000013411045, "episode/reward_rate": 0.10344827586206896}
+{"step": 17061, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.028409090909090908}
+{"step": 17276, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.027906976744186046}
+{"step": 17462, "episode/length": 185.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.021505376344086023}
+{"step": 17655, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
+{"step": 17807, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.02631578947368421}
+{"step": 18043, "episode/length": 235.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.025423728813559324}
+{"step": 18097, "episode/length": 53.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.07407407407407407}
+{"step": 18234, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.98314470563616, "train/action_min": 0.0, "train/action_std": 3.6483156749180385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03561444543302059, "train/actor_opt_grad_steps": 8215.0, "train/actor_opt_loss": -12.476010343698519, "train/adv_mag": 0.9490687144654137, "train/adv_max": 0.8934286896671567, "train/adv_mean": 0.0021258902602962087, "train/adv_min": -0.5938219709055764, "train/adv_std": 0.05935955867171287, "train/cont_avg": 0.9940848214285715, "train/cont_loss_mean": 0.0002379106975744045, "train/cont_loss_std": 0.006954700282423281, "train/cont_neg_acc": 0.9953571430274418, "train/cont_neg_loss": 0.022495641663772402, "train/cont_pos_acc": 0.9999859060559954, "train/cont_pos_loss": 9.184412424109008e-05, "train/cont_pred": 0.994069002355848, "train/cont_rate": 0.9940848214285715, "train/dyn_loss_mean": 3.884022286960057, "train/dyn_loss_std": 7.050805956976754, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4247907008443559, "train/extr_critic_critic_opt_grad_steps": 8215.0, "train/extr_critic_critic_opt_loss": 15602.75620814732, "train/extr_critic_mag": 10.274370929173061, "train/extr_critic_max": 10.274370929173061, "train/extr_critic_mean": 1.809530394417899, "train/extr_critic_min": -0.4265977893556867, "train/extr_critic_std": 1.9398159418787275, "train/extr_return_normed_mag": 1.8928858160972595, "train/extr_return_normed_max": 1.8928858160972595, "train/extr_return_normed_mean": 0.3406852132507733, "train/extr_return_normed_min": -0.09998149100158896, "train/extr_return_normed_std": 0.3275757480944906, "train/extr_return_rate": 0.6820312832083021, "train/extr_return_raw_mag": 11.374770518711635, "train/extr_return_raw_max": 11.374770518711635, "train/extr_return_raw_mean": 1.822733393737248, "train/extr_return_raw_min": -0.8863800551210131, "train/extr_return_raw_std": 2.0141861149242946, "train/extr_reward_mag": 1.0114425352641514, "train/extr_reward_max": 1.0114425352641514, "train/extr_reward_mean": 0.02248407757974097, "train/extr_reward_min": -0.5740516594478062, "train/extr_reward_std": 0.15071157440543176, "train/image_loss_mean": 5.818103071621486, "train/image_loss_std": 9.291153962271554, "train/model_loss_mean": 8.187567404338292, "train/model_loss_std": 12.2918625831604, "train/model_opt_grad_norm": 73.98083171844482, "train/model_opt_grad_steps": 8204.185714285713, "train/model_opt_loss": 5656.1636928013395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 687.5, "train/policy_entropy_mag": 2.4521692276000975, "train/policy_entropy_max": 2.4521692276000975, "train/policy_entropy_mean": 0.5722546581711088, "train/policy_entropy_min": 0.07937535249761173, "train/policy_entropy_std": 0.5544348895549774, "train/policy_logprob_mag": 7.438374212809971, "train/policy_logprob_max": -0.009455892430352313, "train/policy_logprob_mean": -0.5720816727195467, "train/policy_logprob_min": -7.438374212809971, "train/policy_logprob_std": 1.1356687673500605, "train/policy_randomness_mag": 0.8655081263610295, "train/policy_randomness_max": 0.8655081263610295, "train/policy_randomness_mean": 0.20198078421609741, "train/policy_randomness_min": 0.02801601610013417, "train/policy_randomness_std": 0.19569118661539894, "train/post_ent_mag": 38.128079005650115, "train/post_ent_max": 38.128079005650115, "train/post_ent_mean": 23.921160643441336, "train/post_ent_min": 9.509759712219239, "train/post_ent_std": 4.8215939317430765, "train/prior_ent_mag": 64.98436535426549, "train/prior_ent_max": 64.98436535426549, "train/prior_ent_mean": 27.956464522225517, "train/prior_ent_min": 10.920067582811628, "train/prior_ent_std": 8.334622410365514, "train/rep_loss_mean": 3.884022286960057, "train/rep_loss_std": 7.050805956976754, "train/reward_avg": 0.014679129275360277, "train/reward_loss_mean": 0.038813043891319204, "train/reward_loss_std": 0.1931292207113334, "train/reward_max_data": 1.0028571435383389, "train/reward_max_pred": 1.0049139039857047, "train/reward_neg_acc": 0.9961391721452986, "train/reward_neg_loss": 0.024118326138705015, "train/reward_pos_acc": 0.9828938322407859, "train/reward_pos_loss": 0.7583252549171448, "train/reward_pred": 0.014541045390069484, "train/reward_rate": 0.019991629464285714, "stats/sum_log_reward": 3.4333332777023315, "stats/max_log_achievement_collect_drink": 11.11111111111111, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_wood": 1.4444444444444444, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 0.3333333333333333, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.5437435060739517, "replay/size": 18171.0, "replay/inserts": 1411.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.37131643531848e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4418405843964704e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0015935897827, "timer/env.step_count": 1411.0, "timer/env.step_total": 25.141883611679077, "timer/env.step_frac": 0.08380583353186342, "timer/env.step_avg": 0.01781848590480445, "timer/env.step_min": 0.0027472972869873047, "timer/env.step_max": 3.0017170906066895, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.2581453323364258, "timer/replay.add_frac": 0.0008604798702816542, "timer/replay.add_avg": 0.00018295204276146405, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0038805007934570312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025734663009643555, "timer/logger.write_frac": 8.578175436238754e-05, "timer/logger.write_avg": 0.025734663009643555, "timer/logger.write_min": 0.025734663009643555, "timer/logger.write_max": 0.025734663009643555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003368854522705078, "timer/checkpoint.save_frac": 1.1229455425198823e-06, "timer/checkpoint.save_avg": 0.0003368854522705078, "timer/checkpoint.save_min": 0.0003368854522705078, "timer/checkpoint.save_max": 0.0003368854522705078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4109835624694824, "timer/agent.save_frac": 0.004703253558042223, "timer/agent.save_avg": 1.4109835624694824, "timer/agent.save_min": 1.4109835624694824, "timer/agent.save_max": 1.4109835624694824, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.972269164206907e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.82442045211792, "timer/agent.policy_frac": 0.039414525471776124, "timer/agent.policy_avg": 0.008380170412556995, "timer/agent.policy_min": 0.005664825439453125, "timer/agent.policy_max": 1.4187116622924805, "timer/dataset_count": 705.0, "timer/dataset_total": 0.055960893630981445, "timer/dataset_frac": 0.00018653532123399805, "timer/dataset_avg": 7.937715408649851e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.0221679210663, "timer/agent.train_frac": 0.8734025869187586, "timer/agent.train_avg": 0.37166264953342737, "timer/agent.train_min": 0.3643362522125244, "timer/agent.train_max": 0.4794294834136963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21936774253845215, "timer/agent.report_frac": 0.0007312219242355493, "timer/agent.report_avg": 0.21936774253845215, "timer/agent.report_min": 0.21936774253845215, "timer/agent.report_max": 0.21936774253845215, "fps": 4.703203019722239}
+{"step": 18257, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025}
+{"step": 18408, "episode/length": 150.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.033112582781456956}
+{"step": 18578, "episode/length": 169.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01764705882352941}
+{"step": 18943, "episode/length": 364.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.01643835616438356}
+{"step": 19115, "episode/length": 171.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.029069767441860465}
+{"step": 19158, "episode/length": 42.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.046511627906976744}
+{"step": 19333, "episode/length": 174.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.02857142857142857}
+{"step": 19594, "episode/length": 260.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.019157088122605363}
+{"step": 19673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.914761013454861, "train/action_min": 0.0, "train/action_std": 3.508750389019648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03520677784561283, "train/actor_opt_grad_steps": 8925.0, "train/actor_opt_loss": -8.192827539311516, "train/adv_mag": 1.012832040588061, "train/adv_max": 0.9763128326998817, "train/adv_mean": 0.003964456465786902, "train/adv_min": -0.5431853512095081, "train/adv_std": 0.05906761013385323, "train/cont_avg": 0.9944525824652778, "train/cont_loss_mean": 0.00022895571785378857, "train/cont_loss_std": 0.006834564985638281, "train/cont_neg_acc": 0.9903588211032707, "train/cont_neg_loss": 0.03165950220019868, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.139052649223787e-05, "train/cont_pred": 0.9944793391558859, "train/cont_rate": 0.9944525824652778, "train/dyn_loss_mean": 3.8470027115609913, "train/dyn_loss_std": 7.204523146152496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4176912953456242, "train/extr_critic_critic_opt_grad_steps": 8925.0, "train/extr_critic_critic_opt_loss": 15473.007039388021, "train/extr_critic_mag": 10.568525652090708, "train/extr_critic_max": 10.568525652090708, "train/extr_critic_mean": 1.668627042737272, "train/extr_critic_min": -0.4432133535544078, "train/extr_critic_std": 1.9389812846978505, "train/extr_return_normed_mag": 2.0188476310835943, "train/extr_return_normed_max": 2.0188476310835943, "train/extr_return_normed_mean": 0.3292174862904681, "train/extr_return_normed_min": -0.10131093192224701, "train/extr_return_normed_std": 0.3384281949450572, "train/extr_return_rate": 0.6620117541816499, "train/extr_return_raw_mag": 11.73993201388253, "train/extr_return_raw_max": 11.73993201388253, "train/extr_return_raw_mean": 1.69195184773869, "train/extr_return_raw_min": -0.8673050146963861, "train/extr_return_raw_std": 2.0160673641496234, "train/extr_reward_mag": 1.0134551193979051, "train/extr_reward_max": 1.0134551193979051, "train/extr_reward_mean": 0.02371065651014861, "train/extr_reward_min": -0.5384016036987305, "train/extr_reward_std": 0.15458657416618532, "train/image_loss_mean": 5.604791753821903, "train/image_loss_std": 9.143523487779829, "train/model_loss_mean": 7.952101773685879, "train/model_loss_std": 12.293983525700039, "train/model_opt_grad_norm": 66.1820782025655, "train/model_opt_grad_steps": 8913.847222222223, "train/model_opt_loss": 6185.970364040799, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 781.25, "train/policy_entropy_mag": 2.4212199317084417, "train/policy_entropy_max": 2.4212199317084417, "train/policy_entropy_mean": 0.540773997704188, "train/policy_entropy_min": 0.07937530759308073, "train/policy_entropy_std": 0.5350942094292905, "train/policy_logprob_mag": 7.438380287753211, "train/policy_logprob_max": -0.009455854694048563, "train/policy_logprob_mean": -0.5400973223149776, "train/policy_logprob_min": -7.438380287753211, "train/policy_logprob_std": 1.1142119864622753, "train/policy_randomness_mag": 0.8545843818121486, "train/policy_randomness_max": 0.8545843818121486, "train/policy_randomness_mean": 0.19086949175430667, "train/policy_randomness_min": 0.028016000261737242, "train/policy_randomness_std": 0.18886477479504216, "train/post_ent_mag": 38.15558597776625, "train/post_ent_max": 38.15558597776625, "train/post_ent_mean": 24.073605643378365, "train/post_ent_min": 9.824966549873352, "train/post_ent_std": 4.761092417769962, "train/prior_ent_mag": 65.71810171339247, "train/prior_ent_max": 65.71810171339247, "train/prior_ent_mean": 28.062012751897175, "train/prior_ent_min": 11.291481600867378, "train/prior_ent_std": 8.348302364349365, "train/rep_loss_mean": 3.8470027115609913, "train/rep_loss_std": 7.204523146152496, "train/reward_avg": 0.014668782422732975, "train/reward_loss_mean": 0.03887943993322551, "train/reward_loss_std": 0.19091814570128918, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.008371843232049, "train/reward_neg_acc": 0.9961665372053782, "train/reward_neg_loss": 0.024412885748056903, "train/reward_pos_acc": 0.9859136649303966, "train/reward_pos_loss": 0.7407286142309507, "train/reward_pred": 0.014488184874709178, "train/reward_rate": 0.020005967881944444, "stats/sum_log_reward": 3.0999999176710844, "stats/max_log_achievement_collect_drink": 11.625, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_wood": 2.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_table": 0.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.5195811092853546, "replay/size": 19610.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.452347416775023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4524079031414456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19932746887207, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.009457111358643, "timer/env.step_frac": 0.06665390385804058, "timer/env.step_avg": 0.013905112655565422, "timer/env.step_min": 0.002682924270629883, "timer/env.step_max": 1.8092496395111084, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2561056613922119, "timer/replay.add_frac": 0.0008531187046672106, "timer/replay.add_avg": 0.00017797474731911877, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.002239704132080078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021799325942993164, "timer/logger.write_frac": 7.261617181755198e-05, "timer/logger.write_avg": 0.021799325942993164, "timer/logger.write_min": 0.021799325942993164, "timer/logger.write_max": 0.021799325942993164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.425879001617432, "timer/agent.policy_frac": 0.03472985462533556, "timer/agent.policy_avg": 0.007245225157482579, "timer/agent.policy_min": 0.005644083023071289, "timer/agent.policy_max": 0.016275882720947266, "timer/dataset_count": 720.0, "timer/dataset_total": 0.059366703033447266, "timer/dataset_frac": 0.00019775761502864475, "timer/dataset_avg": 8.24537542131212e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00013494491577148438, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.7472653388977, "timer/agent.train_frac": 0.8952294050917364, "timer/agent.train_avg": 0.37326009074846905, "timer/agent.train_min": 0.36245250701904297, "timer/agent.train_max": 0.41844630241394043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2187511920928955, "timer/agent.report_frac": 0.0007286864828688798, "timer/agent.report_avg": 0.2187511920928955, "timer/agent.report_min": 0.2187511920928955, "timer/agent.report_max": 0.2187511920928955, "fps": 4.793381586876244}
+{"step": 19759, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.030303030303030304}
+{"step": 19910, "episode/length": 150.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.033112582781456956}
+{"step": 20081, "episode/length": 170.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.04678362573099415}
+{"step": 20227, "episode/length": 145.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.0273972602739726}
+{"step": 20420, "episode/length": 192.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.025906735751295335}
+{"step": 20633, "episode/length": 212.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.100000001490116, "episode/reward_rate": 0.018779342723004695}
+{"step": 20776, "episode/length": 142.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.04195804195804196}
+{"step": 20972, "episode/length": 195.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.02040816326530612}
+{"step": 21107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.242901272243923, "train/action_min": 0.0, "train/action_std": 3.4279890954494476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04260854275586704, "train/actor_opt_grad_steps": 9645.0, "train/actor_opt_loss": -2.9959338630239167, "train/adv_mag": 1.246189193593131, "train/adv_max": 1.2180174696776602, "train/adv_mean": 0.0037492933051710667, "train/adv_min": -0.6474044070475631, "train/adv_std": 0.06679511507455674, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 0.00023979747099625272, "train/cont_loss_std": 0.006430526654038242, "train/cont_neg_acc": 0.9901620373129845, "train/cont_neg_loss": 0.028941414024675143, "train/cont_pos_acc": 0.9999179840087891, "train/cont_pos_loss": 0.00013413273382420796, "train/cont_pred": 0.9946112914217843, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 3.905802028046714, "train/dyn_loss_std": 7.257005625300938, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4270391596688166, "train/extr_critic_critic_opt_grad_steps": 9645.0, "train/extr_critic_critic_opt_loss": 15835.728230794271, "train/extr_critic_mag": 12.012582507398394, "train/extr_critic_max": 12.012582507398394, "train/extr_critic_mean": 1.6807850955261125, "train/extr_critic_min": -0.4370947811338637, "train/extr_critic_std": 2.009478790892495, "train/extr_return_normed_mag": 2.3413090656201043, "train/extr_return_normed_max": 2.3413090656201043, "train/extr_return_normed_mean": 0.341486315553387, "train/extr_return_normed_min": -0.1281540537925644, "train/extr_return_normed_std": 0.36251892439193195, "train/extr_return_rate": 0.6647850101192793, "train/extr_return_raw_mag": 13.223938471741146, "train/extr_return_raw_max": 13.223938471741146, "train/extr_return_raw_mean": 1.7024217140343454, "train/extr_return_raw_min": -1.0020643613404698, "train/extr_return_raw_std": 2.0904826803339853, "train/extr_reward_mag": 1.0127324395709567, "train/extr_reward_max": 1.0127324395709567, "train/extr_reward_mean": 0.02361775021482673, "train/extr_reward_min": -0.5721070816119512, "train/extr_reward_std": 0.15350211349626383, "train/image_loss_mean": 5.490945173634423, "train/image_loss_std": 9.514641477002037, "train/model_loss_mean": 7.871581150425805, "train/model_loss_std": 12.62895819875929, "train/model_opt_grad_norm": 70.2334304915534, "train/model_opt_grad_steps": 9633.0, "train/model_opt_loss": 4919.738220214844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4147607617908053, "train/policy_entropy_max": 2.4147607617908053, "train/policy_entropy_mean": 0.5525148763424821, "train/policy_entropy_min": 0.07937529010491239, "train/policy_entropy_std": 0.5304533330102762, "train/policy_logprob_mag": 7.438379161887699, "train/policy_logprob_max": -0.009455816910809113, "train/policy_logprob_mean": -0.5532550849020481, "train/policy_logprob_min": -7.438379161887699, "train/policy_logprob_std": 1.122635242011812, "train/policy_randomness_mag": 0.8523045803109804, "train/policy_randomness_max": 0.8523045803109804, "train/policy_randomness_mean": 0.1950135063380003, "train/policy_randomness_min": 0.028015994156400364, "train/policy_randomness_std": 0.18722675119837126, "train/post_ent_mag": 38.02146948708428, "train/post_ent_max": 38.02146948708428, "train/post_ent_mean": 24.161445644166733, "train/post_ent_min": 9.812940643893349, "train/post_ent_std": 4.801884505483839, "train/prior_ent_mag": 66.24587355719672, "train/prior_ent_max": 66.24587355719672, "train/prior_ent_mean": 28.15325511826409, "train/prior_ent_min": 11.1443233622445, "train/prior_ent_std": 8.378506004810333, "train/rep_loss_mean": 3.905802028046714, "train/rep_loss_std": 7.257005625300938, "train/reward_avg": 0.014816623109961964, "train/reward_loss_mean": 0.036915040161046714, "train/reward_loss_std": 0.19270811188552114, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0076787057850096, "train/reward_neg_acc": 0.9964449720250236, "train/reward_neg_loss": 0.022375910652853135, "train/reward_pos_acc": 0.9784814202123218, "train/reward_pos_loss": 0.7658980149361823, "train/reward_pred": 0.01469933081858067, "train/reward_rate": 0.019761827256944444, "stats/sum_log_reward": 3.474999964237213, "stats/max_log_achievement_collect_drink": 6.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_wood": 1.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.5438364706933498, "replay/size": 21044.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.5145957765885144e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4604800582098328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21107482910156, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.332828283309937, "timer/env.step_frac": 0.07105943141988977, "timer/env.step_avg": 0.014876449291011113, "timer/env.step_min": 0.00255584716796875, "timer/env.step_max": 1.9268064498901367, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25116562843322754, "timer/replay.add_frac": 0.0008366301229100436, "timer/replay.add_avg": 0.00017515036850294807, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0044286251068115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02538609504699707, "timer/logger.write_frac": 8.45608212869841e-05, "timer/logger.write_avg": 0.02538609504699707, "timer/logger.write_min": 0.02538609504699707, "timer/logger.write_max": 0.02538609504699707, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.363123416900635, "timer/agent.policy_frac": 0.03451945742774465, "timer/agent.policy_avg": 0.0072267248374481416, "timer/agent.policy_min": 0.005637168884277344, "timer/agent.policy_max": 0.01702404022216797, "timer/dataset_count": 717.0, "timer/dataset_total": 0.059641361236572266, "timer/dataset_frac": 0.00019866476035410672, "timer/dataset_avg": 8.318181483482882e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001723766326904297, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.4974012374878, "timer/agent.train_frac": 0.8910310900081339, "timer/agent.train_avg": 0.3730786628137905, "timer/agent.train_min": 0.3654954433441162, "timer/agent.train_max": 0.4084928035736084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22069740295410156, "timer/agent.report_frac": 0.000735140777467107, "timer/agent.report_avg": 0.22069740295410156, "timer/agent.report_min": 0.22069740295410156, "timer/agent.report_max": 0.22069740295410156, "fps": 4.7765351410260894}
+{"step": 21203, "episode/length": 230.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.017316017316017316}
+{"step": 21452, "episode/length": 248.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.020080321285140562}
+{"step": 21595, "episode/length": 142.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03496503496503497}
+{"step": 21731, "episode/length": 135.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.029411764705882353}
+{"step": 21915, "episode/length": 183.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.021739130434782608}
+{"step": 22175, "episode/length": 259.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.026923076923076925}
+{"step": 22317, "episode/length": 141.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.04225352112676056}
+{"step": 22515, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.142592947823661, "train/action_min": 0.0, "train/action_std": 3.6915140220097133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733802666621549, "train/actor_opt_grad_steps": 10355.0, "train/actor_opt_loss": -13.798660709389619, "train/adv_mag": 1.0113986615623747, "train/adv_max": 0.9715033692973001, "train/adv_mean": 0.0017543672314786819, "train/adv_min": -0.621745353937149, "train/adv_std": 0.06153742420886244, "train/cont_avg": 0.9943219866071429, "train/cont_loss_mean": 0.00012751262960932763, "train/cont_loss_std": 0.0038881787851729704, "train/cont_neg_acc": 0.9951020419597626, "train/cont_neg_loss": 0.014037363274454557, "train/cont_pos_acc": 0.9999718470232827, "train/cont_pos_loss": 4.95861866519525e-05, "train/cont_pred": 0.9943175707544599, "train/cont_rate": 0.9943219866071429, "train/dyn_loss_mean": 3.7579627241407123, "train/dyn_loss_std": 7.218291650499617, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2900627953665598, "train/extr_critic_critic_opt_grad_steps": 10355.0, "train/extr_critic_critic_opt_loss": 15622.677399553571, "train/extr_critic_mag": 10.258313185828072, "train/extr_critic_max": 10.258313185828072, "train/extr_critic_mean": 1.554629155567714, "train/extr_critic_min": -0.49956064564841135, "train/extr_critic_std": 1.8899233051708766, "train/extr_return_normed_mag": 2.0070759994643077, "train/extr_return_normed_max": 2.0070759994643077, "train/extr_return_normed_mean": 0.3285920126097543, "train/extr_return_normed_min": -0.13836758360266685, "train/extr_return_normed_std": 0.3416448182293347, "train/extr_return_rate": 0.6395517459937504, "train/extr_return_raw_mag": 11.118387494768415, "train/extr_return_raw_max": 11.118387494768415, "train/extr_return_raw_mean": 1.564753829581397, "train/extr_return_raw_min": -1.1008123397827148, "train/extr_return_raw_std": 1.9464143242154803, "train/extr_reward_mag": 1.013439348765782, "train/extr_reward_max": 1.013439348765782, "train/extr_reward_mean": 0.022906337984438453, "train/extr_reward_min": -0.6439694098063877, "train/extr_reward_std": 0.15311964473554066, "train/image_loss_mean": 4.900336374555315, "train/image_loss_std": 8.279650259017945, "train/model_loss_mean": 7.191663415091378, "train/model_loss_std": 11.49026152747018, "train/model_opt_grad_norm": 64.05380943843296, "train/model_opt_grad_steps": 10343.0, "train/model_opt_loss": 7874.156396484375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1098.2142857142858, "train/policy_entropy_mag": 2.4294700247900827, "train/policy_entropy_max": 2.4294700247900827, "train/policy_entropy_mean": 0.5781021829162325, "train/policy_entropy_min": 0.07937528884836606, "train/policy_entropy_std": 0.552951956646783, "train/policy_logprob_mag": 7.438380220958165, "train/policy_logprob_max": -0.009455826532627856, "train/policy_logprob_mean": -0.5790660066264016, "train/policy_logprob_min": -7.438380220958165, "train/policy_logprob_std": 1.1384246468544006, "train/policy_randomness_mag": 0.8574963016169411, "train/policy_randomness_max": 0.8574963016169411, "train/policy_randomness_mean": 0.20404470009463174, "train/policy_randomness_min": 0.028015993775001594, "train/policy_randomness_std": 0.1951677760907582, "train/post_ent_mag": 38.72144072396414, "train/post_ent_max": 38.72144072396414, "train/post_ent_mean": 24.268424688066755, "train/post_ent_min": 9.992628840037755, "train/post_ent_std": 4.7011640276227675, "train/prior_ent_mag": 66.78656114850726, "train/prior_ent_max": 66.78656114850726, "train/prior_ent_mean": 28.271227291652135, "train/prior_ent_min": 11.375019386836462, "train/prior_ent_std": 8.417456674575806, "train/rep_loss_mean": 3.7579627241407123, "train/rep_loss_std": 7.218291650499617, "train/reward_avg": 0.014753068930336408, "train/reward_loss_mean": 0.03642191131200109, "train/reward_loss_std": 0.1783135507787977, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.0070446014404297, "train/reward_neg_acc": 0.9962576815060207, "train/reward_neg_loss": 0.021793642387326274, "train/reward_pos_acc": 0.9780717985970634, "train/reward_pos_loss": 0.7595265575817653, "train/reward_pred": 0.014571163869862045, "train/reward_rate": 0.019921875, "stats/sum_log_reward": 3.5285713332039967, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 2.2857142857142856, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.7142857142857143, "stats/max_log_achievement_wake_up": 2.2857142857142856, "stats/mean_log_entropy": 0.6907751475061689, "replay/size": 22452.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7078491666100244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5253158794208006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04445481300354, "timer/env.step_count": 1408.0, "timer/env.step_total": 20.644998788833618, "timer/env.step_frac": 0.06880646670074334, "timer/env.step_avg": 0.01466264118525115, "timer/env.step_min": 0.0030667781829833984, "timer/env.step_max": 1.850963830947876, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.261059045791626, "timer/replay.add_frac": 0.0008700678902875429, "timer/replay.add_avg": 0.00018541125411337072, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.003305196762084961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029825210571289062, "timer/logger.write_frac": 9.940263881856109e-05, "timer/logger.write_avg": 0.029825210571289062, "timer/logger.write_min": 0.029825210571289062, "timer/logger.write_max": 0.029825210571289062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00049591064453125, "timer/checkpoint.save_frac": 1.6527905667855652e-06, "timer/checkpoint.save_avg": 0.00049591064453125, "timer/checkpoint.save_min": 0.00049591064453125, "timer/checkpoint.save_max": 0.00049591064453125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3433763980865479, "timer/agent.save_frac": 0.004477257874749858, "timer/agent.save_avg": 1.3433763980865479, "timer/agent.save_min": 1.3433763980865479, "timer/agent.save_max": 1.3433763980865479, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.511543273925781e-05, "timer/replay.save_frac": 2.8367607324156094e-07, "timer/replay.save_avg": 8.511543273925781e-05, "timer/replay.save_min": 8.511543273925781e-05, "timer/replay.save_max": 8.511543273925781e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 15.390446901321411, "timer/agent.policy_frac": 0.05129388880362141, "timer/agent.policy_avg": 0.010930715128779411, "timer/agent.policy_min": 0.005917549133300781, "timer/agent.policy_max": 3.69120192527771, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06322669982910156, "timer/dataset_frac": 0.00021072444037836422, "timer/dataset_avg": 8.981065316633745e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002148151397705078, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.9627740383148, "timer/agent.train_frac": 0.8764127109171236, "timer/agent.train_avg": 0.3735266676680608, "timer/agent.train_min": 0.3658328056335449, "timer/agent.train_max": 0.4401981830596924, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208082675933838, "timer/agent.report_frac": 0.0007359185082457129, "timer/agent.report_avg": 0.2208082675933838, "timer/agent.report_min": 0.2208082675933838, "timer/agent.report_max": 0.2208082675933838, "fps": 4.692541025635718}
+{"step": 22593, "episode/length": 275.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.700000032782555, "episode/reward_rate": 0.018115942028985508}
+{"step": 22821, "episode/length": 227.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.017543859649122806}
+{"step": 23001, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.027777777777777776}
+{"step": 23194, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.031088082901554404}
+{"step": 23364, "episode/length": 169.0, "episode/score": 4.1000000312924385, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03529411764705882}
+{"step": 23425, "episode/length": 60.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06557377049180328}
+{"step": 23619, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030927835051546393}
+{"step": 23725, "episode/length": 105.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.03773584905660377}
+{"step": 23905, "episode/length": 179.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.03333333333333333}
+{"step": 23951, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.482537163628472, "train/action_min": 0.0, "train/action_std": 4.065582904550764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03839865802890725, "train/actor_opt_grad_steps": 11065.0, "train/actor_opt_loss": -12.4710699506104, "train/adv_mag": 0.932986138181554, "train/adv_max": 0.8850272479984496, "train/adv_mean": 0.001787630714438314, "train/adv_min": -0.6215102556678984, "train/adv_std": 0.059186096820566386, "train/cont_avg": 0.9936659071180556, "train/cont_loss_mean": 0.00016775798497627016, "train/cont_loss_std": 0.004860529878297055, "train/cont_neg_acc": 0.9912643308440844, "train/cont_neg_loss": 0.0177743928475896, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 4.667970909919303e-05, "train/cont_pred": 0.9937005117535591, "train/cont_rate": 0.9936659071180556, "train/dyn_loss_mean": 3.935343474149704, "train/dyn_loss_std": 7.4641135931015015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3822751384642389, "train/extr_critic_critic_opt_grad_steps": 11065.0, "train/extr_critic_critic_opt_loss": 15477.50237358941, "train/extr_critic_mag": 9.817287060949537, "train/extr_critic_max": 9.817287060949537, "train/extr_critic_mean": 1.490158283876048, "train/extr_critic_min": -0.4970939126279619, "train/extr_critic_std": 1.806804241405593, "train/extr_return_normed_mag": 2.0046373307704926, "train/extr_return_normed_max": 2.0046373307704926, "train/extr_return_normed_mean": 0.33439361676573753, "train/extr_return_normed_min": -0.14363830748738515, "train/extr_return_normed_std": 0.34244157187640667, "train/extr_return_rate": 0.6096553421682782, "train/extr_return_raw_mag": 10.487955854998695, "train/extr_return_raw_max": 10.487955854998695, "train/extr_return_raw_mean": 1.4996355051795642, "train/extr_return_raw_min": -1.0734488061732717, "train/extr_return_raw_std": 1.8426043805148866, "train/extr_reward_mag": 1.0096686250633664, "train/extr_reward_max": 1.0096686250633664, "train/extr_reward_mean": 0.022328880046390824, "train/extr_reward_min": -0.6381936189201143, "train/extr_reward_std": 0.15275875841163927, "train/image_loss_mean": 5.289436909887526, "train/image_loss_std": 9.445600032806396, "train/model_loss_mean": 7.689327345954047, "train/model_loss_std": 12.782474239667257, "train/model_opt_grad_norm": 68.04844967524211, "train/model_opt_grad_steps": 11052.111111111111, "train/model_opt_loss": 5308.85791015625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 694.4444444444445, "train/policy_entropy_mag": 2.4182662102911205, "train/policy_entropy_max": 2.4182662102911205, "train/policy_entropy_mean": 0.6319312842355834, "train/policy_entropy_min": 0.0793752558529377, "train/policy_entropy_std": 0.579324853916963, "train/policy_logprob_mag": 7.438380771213108, "train/policy_logprob_max": -0.009455803768812783, "train/policy_logprob_mean": -0.631430295192533, "train/policy_logprob_min": -7.438380771213108, "train/policy_logprob_std": 1.1582977490292654, "train/policy_randomness_mag": 0.8535418469044898, "train/policy_randomness_max": 0.8535418469044898, "train/policy_randomness_mean": 0.22304401422540346, "train/policy_randomness_min": 0.02801598184224632, "train/policy_randomness_std": 0.20447625178429815, "train/post_ent_mag": 39.2272187338935, "train/post_ent_max": 39.2272187338935, "train/post_ent_mean": 24.5249818166097, "train/post_ent_min": 11.093709376123217, "train/post_ent_std": 4.771627244022158, "train/prior_ent_mag": 67.16423850589328, "train/prior_ent_max": 67.16423850589328, "train/prior_ent_mean": 28.538798173268635, "train/prior_ent_min": 12.373896572324965, "train/prior_ent_std": 8.609438353114658, "train/rep_loss_mean": 3.935343474149704, "train/rep_loss_std": 7.4641135931015015, "train/reward_avg": 0.0146050345695888, "train/reward_loss_mean": 0.03851656359620392, "train/reward_loss_std": 0.1928586976395713, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.004238526026408, "train/reward_neg_acc": 0.9962204272548357, "train/reward_neg_loss": 0.023807298262707062, "train/reward_pos_acc": 0.9827591098017163, "train/reward_pos_loss": 0.7567630335688591, "train/reward_pred": 0.01456151450596129, "train/reward_rate": 0.020128038194444444, "stats/sum_log_reward": 3.988888793521457, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 2.3333333333333335, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.7777777777777778, "stats/max_log_achievement_wake_up": 2.111111111111111, "stats/mean_log_entropy": 0.6256726053025987, "replay/size": 23888.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4049360865005876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.476999776941156e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2339289188385, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.801696300506592, "timer/env.step_frac": 0.0726156979626383, "timer/env.step_avg": 0.015182239763583977, "timer/env.step_min": 0.0027008056640625, "timer/env.step_max": 1.6773762702941895, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26586270332336426, "timer/replay.add_frac": 0.0008855185164473342, "timer/replay.add_avg": 0.00018514115830317845, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0029256343841552734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02877187728881836, "timer/logger.write_frac": 9.583153174069207e-05, "timer/logger.write_avg": 0.02877187728881836, "timer/logger.write_min": 0.02877187728881836, "timer/logger.write_max": 0.02877187728881836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.64479112625122, "timer/agent.policy_frac": 0.035454990595446, "timer/agent.policy_avg": 0.007412807190982744, "timer/agent.policy_min": 0.005799531936645508, "timer/agent.policy_max": 0.01792287826538086, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05903935432434082, "timer/dataset_frac": 0.0001966445116211392, "timer/dataset_avg": 8.22275129865471e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00019097328186035156, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.75983333587646, "timer/agent.train_frac": 0.8885066198097451, "timer/agent.train_avg": 0.3715318013034491, "timer/agent.train_min": 0.3625912666320801, "timer/agent.train_max": 0.387317419052124, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190113067626953, "timer/agent.report_frac": 0.0007294688763237685, "timer/agent.report_avg": 0.2190113067626953, "timer/agent.report_min": 0.2190113067626953, "timer/agent.report_max": 0.2190113067626953, "fps": 4.782860200964031}
+{"step": 24097, "episode/length": 191.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03125}
+{"step": 24135, "episode/length": 37.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10526315789473684}
+{"step": 24283, "episode/length": 147.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0472972972972973}
+{"step": 24367, "episode/length": 83.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.05952380952380952}
+{"step": 24403, "episode/length": 35.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.1388888888888889}
+{"step": 24597, "episode/length": 193.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020618556701030927}
+{"step": 24794, "episode/length": 196.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03553299492385787}
+{"step": 24920, "episode/length": 125.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03968253968253968}
+{"step": 25076, "episode/length": 155.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03205128205128205}
+{"step": 25288, "episode/length": 211.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.018867924528301886}
+{"step": 25381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.430725945366754, "train/action_min": 0.0, "train/action_std": 4.067288163635466, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03735075772015585, "train/actor_opt_grad_steps": 11785.0, "train/actor_opt_loss": -5.891204060986638, "train/adv_mag": 0.7742580208513472, "train/adv_max": 0.7456991577314006, "train/adv_mean": 0.003860578776665433, "train/adv_min": -0.5281139351427555, "train/adv_std": 0.05664723247496618, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 0.00021357809811680303, "train/cont_loss_std": 0.006544950033505377, "train/cont_neg_acc": 0.9972222232156329, "train/cont_neg_loss": 0.014845859543407237, "train/cont_pos_acc": 0.9999726961056391, "train/cont_pos_loss": 8.135425095328546e-05, "train/cont_pred": 0.9942023116681311, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 3.735977921220991, "train/dyn_loss_std": 7.390968554549747, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.256263939042886, "train/extr_critic_critic_opt_grad_steps": 11785.0, "train/extr_critic_critic_opt_loss": 15172.011271158854, "train/extr_critic_mag": 9.04835961262385, "train/extr_critic_max": 9.04835961262385, "train/extr_critic_mean": 1.543671641084883, "train/extr_critic_min": -0.45461000005404156, "train/extr_critic_std": 1.7728384219937854, "train/extr_return_normed_mag": 1.8650892774264018, "train/extr_return_normed_max": 1.8650892774264018, "train/extr_return_normed_mean": 0.3366699222889211, "train/extr_return_normed_min": -0.13062491609404484, "train/extr_return_normed_std": 0.336934772423572, "train/extr_return_rate": 0.6229212193025483, "train/extr_return_raw_mag": 9.834800408946144, "train/extr_return_raw_max": 9.834800408946144, "train/extr_return_raw_mean": 1.5644940262039502, "train/extr_return_raw_min": -0.9598024404711194, "train/extr_return_raw_std": 1.8216615170240402, "train/extr_reward_mag": 1.0160260895888011, "train/extr_reward_max": 1.0160260895888011, "train/extr_reward_mean": 0.025837248320587806, "train/extr_reward_min": -0.6225161270962821, "train/extr_reward_std": 0.16030009556561708, "train/image_loss_mean": 4.558387537797292, "train/image_loss_std": 8.178795145617592, "train/model_loss_mean": 6.83767522043652, "train/model_loss_std": 11.513459828164843, "train/model_opt_grad_norm": 56.21029109425015, "train/model_opt_grad_steps": 11772.0, "train/model_opt_loss": 6339.609063042535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 937.5, "train/policy_entropy_mag": 2.4269326759709253, "train/policy_entropy_max": 2.4269326759709253, "train/policy_entropy_mean": 0.6156047143869929, "train/policy_entropy_min": 0.07937523391511705, "train/policy_entropy_std": 0.5752329499357276, "train/policy_logprob_mag": 7.438382095760769, "train/policy_logprob_max": -0.009455798840564158, "train/policy_logprob_mean": -0.6154499430623319, "train/policy_logprob_min": -7.438382095760769, "train/policy_logprob_std": 1.153186046414905, "train/policy_randomness_mag": 0.856600734922621, "train/policy_randomness_max": 0.856600734922621, "train/policy_randomness_mean": 0.21728145041399533, "train/policy_randomness_min": 0.02801597413296501, "train/policy_randomness_std": 0.203031989849276, "train/post_ent_mag": 38.433641062842476, "train/post_ent_max": 38.433641062842476, "train/post_ent_mean": 24.37411136097378, "train/post_ent_min": 10.572369125154284, "train/post_ent_std": 4.642679323752721, "train/prior_ent_mag": 67.51611179775662, "train/prior_ent_max": 67.51611179775662, "train/prior_ent_mean": 28.28052650557624, "train/prior_ent_min": 12.16116882695092, "train/prior_ent_std": 8.478736639022827, "train/rep_loss_mean": 3.735977921220991, "train/rep_loss_std": 7.390968554549747, "train/reward_avg": 0.016343858481074374, "train/reward_loss_mean": 0.03748734729985396, "train/reward_loss_std": 0.18085036613047123, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.009607172674603, "train/reward_neg_acc": 0.9962698097030321, "train/reward_neg_loss": 0.021897955137925845, "train/reward_pos_acc": 0.984085640973515, "train/reward_pos_loss": 0.7476903448502222, "train/reward_pred": 0.016219882695521746, "train/reward_rate": 0.021511501736111112, "stats/sum_log_reward": 3.9, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 2.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 0.8, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5836569041013717, "replay/size": 25318.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.367037206262975e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.400188132599517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32892370224, "timer/env.step_count": 1430.0, "timer/env.step_total": 23.07013726234436, "timer/env.step_frac": 0.07681623527282096, "timer/env.step_avg": 0.01613296312052053, "timer/env.step_min": 0.0026445388793945312, "timer/env.step_max": 1.6239678859710693, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.24994421005249023, "timer/replay.add_frac": 0.0008322348942331525, "timer/replay.add_avg": 0.0001747861608758673, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0032706260681152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02248072624206543, "timer/logger.write_frac": 7.485368363772336e-05, "timer/logger.write_avg": 0.02248072624206543, "timer/logger.write_min": 0.02248072624206543, "timer/logger.write_max": 0.02248072624206543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.407901287078857, "timer/agent.policy_frac": 0.034655008111698665, "timer/agent.policy_avg": 0.007278252648306893, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 0.019373416900634766, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05531668663024902, "timer/dataset_frac": 0.00018418701052281116, "timer/dataset_avg": 7.736599528706158e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.8610382080078, "timer/agent.train_frac": 0.8852328804387644, "timer/agent.train_avg": 0.3718336198713396, "timer/agent.train_min": 0.36455488204956055, "timer/agent.train_max": 0.38449668884277344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22295379638671875, "timer/agent.report_frac": 0.0007423653827220634, "timer/agent.report_avg": 0.22295379638671875, "timer/agent.report_min": 0.22295379638671875, "timer/agent.report_max": 0.22295379638671875, "fps": 4.761345679029585}
+{"step": 25483, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
+{"step": 25660, "episode/length": 176.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03389830508474576}
+{"step": 25828, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023809523809523808}
+{"step": 26039, "episode/length": 210.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.009478672985781991}
+{"step": 26239, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
+{"step": 26490, "episode/length": 250.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.027888446215139442}
+{"step": 26634, "episode/length": 143.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.020833333333333332}
+{"step": 26774, "episode/length": 139.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.03571428571428571}
+{"step": 26801, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.255083970620599, "train/action_min": 0.0, "train/action_std": 3.969440248650564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03785845443186626, "train/actor_opt_grad_steps": 12500.0, "train/actor_opt_loss": -15.694746978266139, "train/adv_mag": 0.7943239648577193, "train/adv_max": 0.7420979998481105, "train/adv_mean": 0.0019141293320297363, "train/adv_min": -0.605360594853549, "train/adv_std": 0.05918775708742545, "train/cont_avg": 0.9945807658450704, "train/cont_loss_mean": 5.582508018985471e-05, "train/cont_loss_std": 0.0016066778787959125, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.006990426480355459, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 2.8242891288964306e-05, "train/cont_pred": 0.9945685502508996, "train/cont_rate": 0.9945807658450704, "train/dyn_loss_mean": 3.8036781264023043, "train/dyn_loss_std": 7.391859652290882, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.294867222577753, "train/extr_critic_critic_opt_grad_steps": 12500.0, "train/extr_critic_critic_opt_loss": 15407.978749449823, "train/extr_critic_mag": 8.283315665285352, "train/extr_critic_max": 8.283315665285352, "train/extr_critic_mean": 1.4200466585830904, "train/extr_critic_min": -0.4841131022278692, "train/extr_critic_std": 1.6654160727917309, "train/extr_return_normed_mag": 1.780053222683114, "train/extr_return_normed_max": 1.780053222683114, "train/extr_return_normed_mean": 0.32338032294327107, "train/extr_return_normed_min": -0.15804999416143123, "train/extr_return_normed_std": 0.32834221506622474, "train/extr_return_rate": 0.6201447303026495, "train/extr_return_raw_mag": 8.990311904692314, "train/extr_return_raw_max": 8.990311904692314, "train/extr_return_raw_mean": 1.4300918352436012, "train/extr_return_raw_min": -1.0743740091861134, "train/extr_return_raw_std": 1.7066798142983879, "train/extr_reward_mag": 1.0138493457310636, "train/extr_reward_max": 1.0138493457310636, "train/extr_reward_mean": 0.023663497188876212, "train/extr_reward_min": -0.622665887147608, "train/extr_reward_std": 0.15725721786139715, "train/image_loss_mean": 4.503614348424992, "train/image_loss_std": 8.034765256962306, "train/model_loss_mean": 6.822391335393341, "train/model_loss_std": 11.400403801824005, "train/model_opt_grad_norm": 63.14877252578735, "train/model_opt_grad_steps": 12486.18309859155, "train/model_opt_loss": 5108.215438627861, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 739.4366197183099, "train/policy_entropy_mag": 2.425639122304782, "train/policy_entropy_max": 2.425639122304782, "train/policy_entropy_mean": 0.5945840948064562, "train/policy_entropy_min": 0.07937521970188113, "train/policy_entropy_std": 0.5687601066810984, "train/policy_logprob_mag": 7.438381987558285, "train/policy_logprob_max": -0.009455777507957439, "train/policy_logprob_mean": -0.5935193619257967, "train/policy_logprob_min": -7.438381987558285, "train/policy_logprob_std": 1.1371506889101486, "train/policy_randomness_mag": 0.8561441663285376, "train/policy_randomness_max": 0.8561441663285376, "train/policy_randomness_mean": 0.20986209620892163, "train/policy_randomness_min": 0.028015969111256197, "train/policy_randomness_std": 0.2007473608557607, "train/post_ent_mag": 39.1637248186998, "train/post_ent_max": 39.1637248186998, "train/post_ent_mean": 24.68481676343461, "train/post_ent_min": 11.055704264573649, "train/post_ent_std": 4.6006696560013465, "train/prior_ent_mag": 67.77422590658698, "train/prior_ent_max": 67.77422590658698, "train/prior_ent_mean": 28.575584572805486, "train/prior_ent_min": 12.231586026473783, "train/prior_ent_std": 8.427022779491585, "train/rep_loss_mean": 3.8036781264023043, "train/rep_loss_std": 7.391859652290882, "train/reward_avg": 0.015904214495504405, "train/reward_loss_mean": 0.03651432496246318, "train/reward_loss_std": 0.17816434926550154, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0073507537304516, "train/reward_neg_acc": 0.9965009974761748, "train/reward_neg_loss": 0.021197071640004575, "train/reward_pos_acc": 0.9833217842478148, "train/reward_pos_loss": 0.7504310532354973, "train/reward_pred": 0.015825110494198515, "train/reward_rate": 0.021002970950704226, "stats/sum_log_reward": 3.4749999195337296, "stats/max_log_achievement_collect_drink": 9.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 1.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 0.375, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.6006256639957428, "replay/size": 26738.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.2893368895624725e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3407896941816304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12546944618225, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.56720495223999, "timer/env.step_frac": 0.07519256860766589, "timer/env.step_avg": 0.015892397853690135, "timer/env.step_min": 0.002775907516479492, "timer/env.step_max": 2.2761378288269043, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2519545555114746, "timer/replay.add_frac": 0.000839497414119512, "timer/replay.add_avg": 0.00017743278557146098, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0013396739959716797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021296262741088867, "timer/logger.write_frac": 7.095786565660886e-05, "timer/logger.write_avg": 0.021296262741088867, "timer/logger.write_min": 0.021296262741088867, "timer/logger.write_max": 0.021296262741088867, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037407875061035156, "timer/checkpoint.save_frac": 1.2464078816790669e-06, "timer/checkpoint.save_avg": 0.00037407875061035156, "timer/checkpoint.save_min": 0.00037407875061035156, "timer/checkpoint.save_max": 0.00037407875061035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.378087043762207, "timer/agent.save_frac": 0.004591703084397248, "timer/agent.save_avg": 1.378087043762207, "timer/agent.save_min": 1.378087043762207, "timer/agent.save_max": 1.378087043762207, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001251697540283203, "timer/replay.save_frac": 4.170580866038943e-07, "timer/replay.save_avg": 0.0001251697540283203, "timer/replay.save_min": 0.0001251697540283203, "timer/replay.save_max": 0.0001251697540283203, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.383206367492676, "timer/agent.policy_frac": 0.041260098286037675, "timer/agent.policy_avg": 0.008720567864431462, "timer/agent.policy_min": 0.00574493408203125, "timer/agent.policy_max": 1.3673722743988037, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05416536331176758, "timer/dataset_frac": 0.00018047573040608063, "timer/dataset_avg": 7.628924410108109e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.21417212486267, "timer/agent.train_frac": 0.8803457187835932, "timer/agent.train_avg": 0.37213263679558123, "timer/agent.train_min": 0.3653130531311035, "timer/agent.train_max": 0.451657772064209, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2022261619567871, "timer/agent.report_frac": 0.0006738053998880952, "timer/agent.report_avg": 0.2022261619567871, "timer/agent.report_min": 0.2022261619567871, "timer/agent.report_max": 0.2022261619567871, "fps": 4.731252154396017}
+{"step": 26918, "episode/length": 143.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.013888888888888888}
+{"step": 27143, "episode/length": 224.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03111111111111111}
+{"step": 27330, "episode/length": 186.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.016042780748663103}
+{"step": 27474, "episode/length": 143.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.034722222222222224}
+{"step": 27637, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03067484662576687}
+{"step": 27814, "episode/length": 176.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.022598870056497175}
+{"step": 27985, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04093567251461988}
+{"step": 28230, "episode/length": 244.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.02040816326530612}
+{"step": 28249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.434522840711805, "train/action_min": 0.0, "train/action_std": 4.086781799793243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03559292076776425, "train/actor_opt_grad_steps": 13215.0, "train/actor_opt_loss": -13.457584629870123, "train/adv_mag": 0.8524339819947878, "train/adv_max": 0.8061601552698348, "train/adv_mean": 0.0029762932927547402, "train/adv_min": -0.5036566737625334, "train/adv_std": 0.05740117918079098, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 0.00024398422595971347, "train/cont_loss_std": 0.0075284987861152786, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.032986178862728366, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 5.000608942672279e-05, "train/cont_pred": 0.9940313183599048, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.046056121587753, "train/dyn_loss_std": 7.570872068405151, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3284650519490242, "train/extr_critic_critic_opt_grad_steps": 13215.0, "train/extr_critic_critic_opt_loss": 15359.274115668402, "train/extr_critic_mag": 8.944073213471306, "train/extr_critic_max": 8.944073213471306, "train/extr_critic_mean": 1.439031817846828, "train/extr_critic_min": -0.5090347147650189, "train/extr_critic_std": 1.8101890136798222, "train/extr_return_normed_mag": 1.8853246139155493, "train/extr_return_normed_max": 1.8853246139155493, "train/extr_return_normed_mean": 0.3244033464127117, "train/extr_return_normed_min": -0.14428082884599766, "train/extr_return_normed_std": 0.34821268129679894, "train/extr_return_rate": 0.6109746081961526, "train/extr_return_raw_mag": 9.850291523668501, "train/extr_return_raw_max": 9.850291523668501, "train/extr_return_raw_mean": 1.4552308917045593, "train/extr_return_raw_min": -1.0627136586440935, "train/extr_return_raw_std": 1.8737497346268759, "train/extr_reward_mag": 1.0162062843640645, "train/extr_reward_max": 1.0162062843640645, "train/extr_reward_mean": 0.02426357811782509, "train/extr_reward_min": -0.6547989894946417, "train/extr_reward_std": 0.15870172540760702, "train/image_loss_mean": 4.956844502025181, "train/image_loss_std": 9.332580142550999, "train/model_loss_mean": 7.422970573107402, "train/model_loss_std": 12.700561960538229, "train/model_opt_grad_norm": 60.64450738165114, "train/model_opt_grad_steps": 13200.986111111111, "train/model_opt_loss": 6483.02826944987, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 868.0555555555555, "train/policy_entropy_mag": 2.4133286012543573, "train/policy_entropy_max": 2.4133286012543573, "train/policy_entropy_mean": 0.6031911137203375, "train/policy_entropy_min": 0.0793752000770635, "train/policy_entropy_std": 0.5750227380130026, "train/policy_logprob_mag": 7.438382301065657, "train/policy_logprob_max": -0.009455774199321039, "train/policy_logprob_mean": -0.60097879005803, "train/policy_logprob_min": -7.438382301065657, "train/policy_logprob_std": 1.138861843281322, "train/policy_randomness_mag": 0.8517990907033285, "train/policy_randomness_max": 0.8517990907033285, "train/policy_randomness_mean": 0.21289999534686407, "train/policy_randomness_min": 0.02801596220686204, "train/policy_randomness_std": 0.20295779241455925, "train/post_ent_mag": 38.83200475904677, "train/post_ent_max": 38.83200475904677, "train/post_ent_mean": 24.75572607252333, "train/post_ent_min": 11.21487041314443, "train/post_ent_std": 4.643170217672984, "train/prior_ent_mag": 67.95886262257893, "train/prior_ent_max": 67.95886262257893, "train/prior_ent_mean": 28.851131227281357, "train/prior_ent_min": 12.7275986538993, "train/prior_ent_std": 8.595553775628408, "train/rep_loss_mean": 4.046056121587753, "train/rep_loss_std": 7.570872068405151, "train/reward_avg": 0.016764322719407372, "train/reward_loss_mean": 0.03824842475458152, "train/reward_loss_std": 0.1851456253271964, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.011207299100028, "train/reward_neg_acc": 0.9962005615234375, "train/reward_neg_loss": 0.022189551304715376, "train/reward_pos_acc": 0.9798907347851329, "train/reward_pos_loss": 0.750188286933634, "train/reward_pred": 0.016567407932598144, "train/reward_rate": 0.022040473090277776, "stats/sum_log_reward": 3.2249999195337296, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 2.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.875, "stats/max_log_achievement_wake_up": 2.125, "stats/mean_log_entropy": 0.618845921009779, "replay/size": 28186.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3133267039093522e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4267038574534885e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1484088897705, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.671764373779297, "timer/env.step_frac": 0.06554012545508363, "timer/env.step_avg": 0.013585472633825481, "timer/env.step_min": 0.002768993377685547, "timer/env.step_max": 1.6016056537628174, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.24314141273498535, "timer/replay.add_frac": 0.0008100706368371222, "timer/replay.add_avg": 0.0001679153402865921, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0040667057037353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021579742431640625, "timer/logger.write_frac": 7.189690763800046e-05, "timer/logger.write_avg": 0.021579742431640625, "timer/logger.write_min": 0.021579742431640625, "timer/logger.write_max": 0.021579742431640625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.607250690460205, "timer/agent.policy_frac": 0.03534001972456138, "timer/agent.policy_avg": 0.007325449371864782, "timer/agent.policy_min": 0.005768299102783203, "timer/agent.policy_max": 0.016768932342529297, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0564267635345459, "timer/dataset_frac": 0.0001879962107520904, "timer/dataset_avg": 7.793751869412417e-05, "timer/dataset_min": 5.435943603515625e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.883905172348, "timer/agent.train_frac": 0.8958365168981977, "timer/agent.train_avg": 0.37138660935407186, "timer/agent.train_min": 0.36276936531066895, "timer/agent.train_max": 0.3857564926147461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21726393699645996, "timer/agent.report_frac": 0.0007238550349145783, "timer/agent.report_avg": 0.21726393699645996, "timer/agent.report_min": 0.21726393699645996, "timer/agent.report_max": 0.21726393699645996, "fps": 4.824176606579645}
+{"step": 28386, "episode/length": 155.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04487179487179487}
+{"step": 28428, "episode/length": 41.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.047619047619047616}
+{"step": 28605, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
+{"step": 28761, "episode/length": 155.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02564102564102564}
+{"step": 28912, "episode/length": 150.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.026490066225165563}
+{"step": 29106, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030927835051546393}
+{"step": 29140, "episode/length": 33.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.14705882352941177}
+{"step": 29327, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.026737967914438502}
+{"step": 29410, "episode/length": 82.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.060240963855421686}
+{"step": 29647, "episode/length": 236.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.02109704641350211}
+{"step": 29677, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.989965304522447, "train/action_min": 0.0, "train/action_std": 3.8417863375704053, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034158181477810294, "train/actor_opt_grad_steps": 13930.0, "train/actor_opt_loss": -10.412091141015711, "train/adv_mag": 0.7352086515493796, "train/adv_max": 0.6836346467615853, "train/adv_mean": 0.0033498559053659334, "train/adv_min": -0.5115402294716365, "train/adv_std": 0.05369932897074122, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 0.0001643244823650897, "train/cont_loss_std": 0.004957590689573536, "train/cont_neg_acc": 0.9881287737631462, "train/cont_neg_loss": 0.02037899453162795, "train/cont_pos_acc": 0.9999722552971101, "train/cont_pos_loss": 8.36140012237037e-05, "train/cont_pred": 0.9946829097371706, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 3.7890238627581527, "train/dyn_loss_std": 7.44195177857305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2926732763438158, "train/extr_critic_critic_opt_grad_steps": 13930.0, "train/extr_critic_critic_opt_loss": 15774.901697293133, "train/extr_critic_mag": 8.73262250255531, "train/extr_critic_max": 8.73262250255531, "train/extr_critic_mean": 1.4187400349428956, "train/extr_critic_min": -0.5449709606842256, "train/extr_critic_std": 1.7497966356680428, "train/extr_return_normed_mag": 1.7232270475844262, "train/extr_return_normed_max": 1.7232270475844262, "train/extr_return_normed_mean": 0.30202286721954885, "train/extr_return_normed_min": -0.1453441271794514, "train/extr_return_normed_std": 0.31607461941074316, "train/extr_return_rate": 0.6069139120444446, "train/extr_return_raw_mag": 9.513038225576912, "train/extr_return_raw_max": 9.513038225576912, "train/extr_return_raw_mean": 1.437887962435333, "train/extr_return_raw_min": -1.1188471837782523, "train/extr_return_raw_std": 1.8019551576023372, "train/extr_reward_mag": 1.013729236495327, "train/extr_reward_max": 1.013729236495327, "train/extr_reward_mean": 0.024974914923520157, "train/extr_reward_min": -0.6514119531067324, "train/extr_reward_std": 0.16146162593028915, "train/image_loss_mean": 4.335907761479767, "train/image_loss_std": 8.103034560109528, "train/model_loss_mean": 6.644724953342491, "train/model_loss_std": 11.455375879583224, "train/model_opt_grad_norm": 57.88816344570106, "train/model_opt_grad_steps": 13915.0, "train/model_opt_loss": 4152.953090613996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4148314637197577, "train/policy_entropy_max": 2.4148314637197577, "train/policy_entropy_mean": 0.5578730857708085, "train/policy_entropy_min": 0.07937516807250573, "train/policy_entropy_std": 0.5639136517551583, "train/policy_logprob_mag": 7.438382699456014, "train/policy_logprob_max": -0.009455769178523143, "train/policy_logprob_mean": -0.5580159387957881, "train/policy_logprob_min": -7.438382699456014, "train/policy_logprob_std": 1.1218122294251347, "train/policy_randomness_mag": 0.8523295353835737, "train/policy_randomness_max": 0.8523295353835737, "train/policy_randomness_mean": 0.19690472055488908, "train/policy_randomness_min": 0.02801595100949348, "train/policy_randomness_std": 0.1990367740812436, "train/post_ent_mag": 38.550303284551056, "train/post_ent_max": 38.550303284551056, "train/post_ent_mean": 24.57153349862972, "train/post_ent_min": 11.387429237365723, "train/post_ent_std": 4.594344948379087, "train/prior_ent_mag": 68.40342271831673, "train/prior_ent_max": 68.40342271831673, "train/prior_ent_mean": 28.51290917732346, "train/prior_ent_min": 12.789025024628975, "train/prior_ent_std": 8.541380036045128, "train/rep_loss_mean": 3.7890238627581527, "train/rep_loss_std": 7.44195177857305, "train/reward_avg": 0.01706646118496715, "train/reward_loss_mean": 0.03523851364431247, "train/reward_loss_std": 0.17295372549077154, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0100510708043273, "train/reward_neg_acc": 0.9968900000545341, "train/reward_neg_loss": 0.019449047376991997, "train/reward_pos_acc": 0.9867643310990132, "train/reward_pos_loss": 0.7353698082373176, "train/reward_pred": 0.016980434777739813, "train/reward_rate": 0.021993287852112676, "stats/sum_log_reward": 3.5999999165534975, "stats/max_log_achievement_collect_drink": 2.1, "stats/max_log_achievement_collect_sapling": 2.7, "stats/max_log_achievement_collect_wood": 2.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_table": 0.9, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.46492581367492675, "replay/size": 29614.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.420672162908132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4353533084986924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10318541526794, "timer/env.step_count": 1428.0, "timer/env.step_total": 23.328755378723145, "timer/env.step_frac": 0.07773578059973595, "timer/env.step_avg": 0.016336663430478394, "timer/env.step_min": 0.0026865005493164062, "timer/env.step_max": 1.5928974151611328, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.24799132347106934, "timer/replay.add_frac": 0.0008263535194666835, "timer/replay.add_avg": 0.00017366339178646312, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0021207332611083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02151203155517578, "timer/logger.write_frac": 7.168211668732705e-05, "timer/logger.write_avg": 0.02151203155517578, "timer/logger.write_min": 0.02151203155517578, "timer/logger.write_max": 0.02151203155517578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.53087568283081, "timer/agent.policy_frac": 0.03509084939654574, "timer/agent.policy_avg": 0.0073745628031028085, "timer/agent.policy_min": 0.0058269500732421875, "timer/agent.policy_max": 0.01878046989440918, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05646324157714844, "timer/dataset_frac": 0.00018814609214833024, "timer/dataset_avg": 7.908017027611826e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.2434196472168, "timer/agent.train_frac": 0.883840733913524, "timer/agent.train_avg": 0.3714893832594073, "timer/agent.train_min": 0.364182710647583, "timer/agent.train_max": 0.38448429107666016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22313714027404785, "timer/agent.report_frac": 0.0007435347277813186, "timer/agent.report_avg": 0.22313714027404785, "timer/agent.report_min": 0.22313714027404785, "timer/agent.report_max": 0.22313714027404785, "fps": 4.758276597869404}
+{"step": 29742, "episode/length": 94.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.06315789473684211}
+{"step": 29920, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
+{"step": 30090, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029411764705882353}
+{"step": 30243, "episode/length": 152.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.032679738562091505}
+{"step": 30389, "episode/length": 145.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03424657534246575}
+{"step": 30576, "episode/length": 186.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03208556149732621}
+{"step": 30755, "episode/length": 178.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.0335195530726257}
+{"step": 30796, "episode/length": 40.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07317073170731707}
+{"step": 30933, "episode/length": 136.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.021897810218978103}
+{"step": 31087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.214188696632923, "train/action_min": 0.0, "train/action_std": 4.001083716540269, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037890901395552595, "train/actor_opt_grad_steps": 14640.0, "train/actor_opt_loss": -9.221056871850726, "train/adv_mag": 0.8848897159939081, "train/adv_max": 0.8387541342789019, "train/adv_mean": 0.0034133415953784977, "train/adv_min": -0.6237912434087672, "train/adv_std": 0.05977070478486343, "train/cont_avg": 0.9940580985915493, "train/cont_loss_mean": 9.347390864328466e-05, "train/cont_loss_std": 0.0026322984941611087, "train/cont_neg_acc": 0.9967075191753011, "train/cont_neg_loss": 0.007288179022079738, "train/cont_pos_acc": 0.9999861650063958, "train/cont_pos_loss": 4.085729374286158e-05, "train/cont_pred": 0.9940588843654579, "train/cont_rate": 0.9940580985915493, "train/dyn_loss_mean": 3.8770055166432553, "train/dyn_loss_std": 7.630905628204346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3004233006020667, "train/extr_critic_critic_opt_grad_steps": 14640.0, "train/extr_critic_critic_opt_loss": 15714.390391175177, "train/extr_critic_mag": 10.045095826538516, "train/extr_critic_max": 10.045095826538516, "train/extr_critic_mean": 1.4452233835005424, "train/extr_critic_min": -0.5600084654042419, "train/extr_critic_std": 1.938548766391378, "train/extr_return_normed_mag": 1.8718849907458668, "train/extr_return_normed_max": 1.8718849907458668, "train/extr_return_normed_mean": 0.298774176080462, "train/extr_return_normed_min": -0.14040817456765914, "train/extr_return_normed_std": 0.3411211971665772, "train/extr_return_rate": 0.5855588232967216, "train/extr_return_raw_mag": 10.71091936003994, "train/extr_return_raw_max": 10.71091936003994, "train/extr_return_raw_mean": 1.4653393223252096, "train/extr_return_raw_min": -1.1122426516573194, "train/extr_return_raw_std": 2.0031049201186275, "train/extr_reward_mag": 1.012542422388641, "train/extr_reward_max": 1.012542422388641, "train/extr_reward_mean": 0.023504868110405728, "train/extr_reward_min": -0.663724487935993, "train/extr_reward_std": 0.16060709113806065, "train/image_loss_mean": 4.775634406318127, "train/image_loss_std": 9.17624067924392, "train/model_loss_mean": 7.139339789538316, "train/model_loss_std": 12.581818258258659, "train/model_opt_grad_norm": 58.48215723709321, "train/model_opt_grad_steps": 14624.478873239437, "train/model_opt_loss": 4885.709166620819, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 677.8169014084507, "train/policy_entropy_mag": 2.441860514627376, "train/policy_entropy_max": 2.441860514627376, "train/policy_entropy_mean": 0.5924245752918889, "train/policy_entropy_min": 0.07937515401084658, "train/policy_entropy_std": 0.581339955329895, "train/policy_logprob_mag": 7.438382672591948, "train/policy_logprob_max": -0.009455764180862568, "train/policy_logprob_mean": -0.5934113486551903, "train/policy_logprob_min": -7.438382672591948, "train/policy_logprob_std": 1.14594639690829, "train/policy_randomness_mag": 0.861869602975711, "train/policy_randomness_max": 0.861869602975711, "train/policy_randomness_mean": 0.20909988103618085, "train/policy_randomness_min": 0.028015946208591193, "train/policy_randomness_std": 0.20518749217752, "train/post_ent_mag": 39.374340863295004, "train/post_ent_max": 39.374340863295004, "train/post_ent_mean": 24.84526999567596, "train/post_ent_min": 11.788216523721184, "train/post_ent_std": 4.5604822232689655, "train/prior_ent_mag": 68.42486088712451, "train/prior_ent_max": 68.42486088712451, "train/prior_ent_mean": 28.830730384504292, "train/prior_ent_min": 13.083170474415095, "train/prior_ent_std": 8.598796569125753, "train/rep_loss_mean": 3.8770055166432553, "train/rep_loss_std": 7.630905628204346, "train/reward_avg": 0.016550671066564153, "train/reward_loss_mean": 0.0374086083660663, "train/reward_loss_std": 0.18041992502313264, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0079841479449205, "train/reward_neg_acc": 0.9965103931829963, "train/reward_neg_loss": 0.022086008215769077, "train/reward_pos_acc": 0.9889963982810437, "train/reward_pos_loss": 0.7208036335421281, "train/reward_pred": 0.01651360516265874, "train/reward_rate": 0.02189700704225352, "stats/sum_log_reward": 3.5444444020589194, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_wood": 1.8888888888888888, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 0.6666666666666666, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.568755684627427, "replay/size": 31024.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.4142893256870566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.412228489598484e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2915229797363, "timer/env.step_count": 1410.0, "timer/env.step_total": 24.5465726852417, "timer/env.step_frac": 0.08174247624998093, "timer/env.step_avg": 0.01740891679804376, "timer/env.step_min": 0.0030660629272460938, "timer/env.step_max": 2.485029697418213, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.255068302154541, "timer/replay.add_frac": 0.0008494022729098251, "timer/replay.add_avg": 0.00018089950507414257, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.004779338836669922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020248889923095703, "timer/logger.write_frac": 6.74307743427779e-05, "timer/logger.write_avg": 0.020248889923095703, "timer/logger.write_min": 0.020248889923095703, "timer/logger.write_max": 0.020248889923095703, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003552436828613281, "timer/checkpoint.save_frac": 1.1829960411013666e-06, "timer/checkpoint.save_avg": 0.0003552436828613281, "timer/checkpoint.save_min": 0.0003552436828613281, "timer/checkpoint.save_max": 0.0003552436828613281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.414546012878418, "timer/agent.save_frac": 0.004710575905846904, "timer/agent.save_avg": 1.414546012878418, "timer/agent.save_min": 1.414546012878418, "timer/agent.save_max": 1.414546012878418, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.5406626386069617e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.421631097793579, "timer/agent.policy_frac": 0.04136524059865583, "timer/agent.policy_avg": 0.008809667445243674, "timer/agent.policy_min": 0.005915403366088867, "timer/agent.policy_max": 1.4204175472259521, "timer/dataset_count": 705.0, "timer/dataset_total": 0.055959224700927734, "timer/dataset_frac": 0.000186349664971075, "timer/dataset_avg": 7.937478680982658e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.3311905860901, "timer/agent.train_frac": 0.873588398310505, "timer/agent.train_avg": 0.3721009795547377, "timer/agent.train_min": 0.3650519847869873, "timer/agent.train_max": 0.48307323455810547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21882414817810059, "timer/agent.report_frac": 0.0007287057123915777, "timer/agent.report_avg": 0.21882414817810059, "timer/agent.report_min": 0.21882414817810059, "timer/agent.report_max": 0.21882414817810059, "fps": 4.695356050304616}
+{"step": 31133, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
+{"step": 31162, "episode/length": 28.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.06896551724137931}
+{"step": 31338, "episode/length": 175.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.03409090909090909}
+{"step": 31539, "episode/length": 200.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029850746268656716}
+{"step": 31585, "episode/length": 45.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06521739130434782}
+{"step": 31837, "episode/length": 251.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.01984126984126984}
+{"step": 32005, "episode/length": 167.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.02976190476190476}
+{"step": 32173, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.023809523809523808}
+{"step": 32343, "episode/length": 169.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.029411764705882353}
+{"step": 32519, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.067166646321614, "train/action_min": 0.0, "train/action_std": 3.9570294982857175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039477045026918255, "train/actor_opt_grad_steps": 15355.0, "train/actor_opt_loss": -11.761514923069626, "train/adv_mag": 0.8556340634822845, "train/adv_max": 0.7961096457309194, "train/adv_mean": 0.0033989950386765283, "train/adv_min": -0.6045715610186259, "train/adv_std": 0.060940712690353394, "train/cont_avg": 0.9940863715277778, "train/cont_loss_mean": 0.0004171257297526962, "train/cont_loss_std": 0.013073990302135345, "train/cont_neg_acc": 0.99336419834031, "train/cont_neg_loss": 0.05165867864732516, "train/cont_pos_acc": 0.999986383650038, "train/cont_pos_loss": 0.00011228371764262748, "train/cont_pred": 0.9941158220171928, "train/cont_rate": 0.9940863715277778, "train/dyn_loss_mean": 4.08777795235316, "train/dyn_loss_std": 7.649361358748542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3424107175734308, "train/extr_critic_critic_opt_grad_steps": 15355.0, "train/extr_critic_critic_opt_loss": 15873.044921875, "train/extr_critic_mag": 9.256983458995819, "train/extr_critic_max": 9.256983458995819, "train/extr_critic_mean": 1.4683636327584584, "train/extr_critic_min": -0.5723191400369009, "train/extr_critic_std": 1.8257208267847698, "train/extr_return_normed_mag": 1.719864805539449, "train/extr_return_normed_max": 1.719864805539449, "train/extr_return_normed_mean": 0.3080691833876901, "train/extr_return_normed_min": -0.15473912961574066, "train/extr_return_normed_std": 0.32247224388023216, "train/extr_return_rate": 0.5965350423422124, "train/extr_return_raw_mag": 9.776068574852413, "train/extr_return_raw_max": 9.776068574852413, "train/extr_return_raw_mean": 1.48814587874545, "train/extr_return_raw_min": -1.2168992915087276, "train/extr_return_raw_std": 1.8875620762507122, "train/extr_reward_mag": 1.0140626231829326, "train/extr_reward_max": 1.0140626231829326, "train/extr_reward_mean": 0.023425403503804572, "train/extr_reward_min": -0.6677508188618554, "train/extr_reward_std": 0.15847932195497882, "train/image_loss_mean": 4.591083337863286, "train/image_loss_std": 9.04293903377321, "train/model_loss_mean": 7.0824684500694275, "train/model_loss_std": 12.528792593214247, "train/model_opt_grad_norm": 61.465213696161904, "train/model_opt_grad_steps": 15338.902777777777, "train/model_opt_loss": 4545.650967068143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 642.3611111111111, "train/policy_entropy_mag": 2.4430704381730823, "train/policy_entropy_max": 2.4430704381730823, "train/policy_entropy_mean": 0.5569717983404795, "train/policy_entropy_min": 0.07937513798889187, "train/policy_entropy_std": 0.5714898883468575, "train/policy_logprob_mag": 7.438383022944133, "train/policy_logprob_max": -0.00945576434282379, "train/policy_logprob_mean": -0.5570470239553187, "train/policy_logprob_min": -7.438383022944133, "train/policy_logprob_std": 1.1240356514851253, "train/policy_randomness_mag": 0.8622966524627473, "train/policy_randomness_max": 0.8622966524627473, "train/policy_randomness_mean": 0.1965866032987833, "train/policy_randomness_min": 0.028015940631222393, "train/policy_randomness_std": 0.20171085517439577, "train/post_ent_mag": 39.00922812355889, "train/post_ent_max": 39.00922812355889, "train/post_ent_mean": 24.76661737759908, "train/post_ent_min": 11.375516891479492, "train/post_ent_std": 4.636297252443102, "train/prior_ent_mag": 68.6208611594306, "train/prior_ent_max": 68.6208611594306, "train/prior_ent_mean": 28.799683411916096, "train/prior_ent_min": 12.74969854619768, "train/prior_ent_std": 8.699226220448812, "train/rep_loss_mean": 4.08777795235316, "train/rep_loss_std": 7.649361358748542, "train/reward_avg": 0.018522135279555287, "train/reward_loss_mean": 0.0383012845284409, "train/reward_loss_std": 0.19106157858752543, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.00854711400138, "train/reward_neg_acc": 0.9963879725999303, "train/reward_neg_loss": 0.020836371954323515, "train/reward_pos_acc": 0.9829352241423395, "train/reward_pos_loss": 0.7591033031543096, "train/reward_pred": 0.018321963673871424, "train/reward_rate": 0.023654513888888888, "stats/sum_log_reward": 3.2111110289891562, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_wood": 1.6666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 0.6666666666666666, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.5157710082001157, "replay/size": 32456.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4252691535310374e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4223116736172297e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27285385131836, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.99835467338562, "timer/env.step_frac": 0.07326121689401273, "timer/env.step_avg": 0.015361979520520685, "timer/env.step_min": 0.002664804458618164, "timer/env.step_max": 1.614980936050415, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2840852737426758, "timer/replay.add_frac": 0.0009460904310828646, "timer/replay.add_avg": 0.0001983835710493546, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00470423698425293, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020830631256103516, "timer/logger.write_frac": 6.937234248427235e-05, "timer/logger.write_avg": 0.020830631256103516, "timer/logger.write_min": 0.020830631256103516, "timer/logger.write_max": 0.020830631256103516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.544945240020752, "timer/agent.policy_frac": 0.03511787730649183, "timer/agent.policy_avg": 0.007363788575433486, "timer/agent.policy_min": 0.005824089050292969, "timer/agent.policy_max": 0.015031099319458008, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05808448791503906, "timer/dataset_frac": 0.00019343902444075045, "timer/dataset_avg": 8.112358647351824e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6886341571808, "timer/agent.train_frac": 0.8881543260958016, "timer/agent.train_avg": 0.37247015943740336, "timer/agent.train_min": 0.36420154571533203, "timer/agent.train_max": 0.4045867919921875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202010154724121, "timer/agent.report_frac": 0.0007333364060323807, "timer/agent.report_avg": 0.2202010154724121, "timer/agent.report_min": 0.2202010154724121, "timer/agent.report_max": 0.2202010154724121, "fps": 4.768900017960541}
+{"step": 32537, "episode/length": 193.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.02577319587628866}
+{"step": 32712, "episode/length": 174.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022857142857142857}
+{"step": 32973, "episode/length": 260.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.022988505747126436}
+{"step": 33141, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02976190476190476}
+{"step": 33273, "episode/length": 131.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03787878787878788}
+{"step": 33312, "episode/length": 38.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.10256410256410256}
+{"step": 33509, "episode/length": 196.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.025380710659898477}
+{"step": 33674, "episode/length": 164.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.01818181818181818}
+{"step": 33870, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
+{"step": 33947, "stats/sum_log_reward": 3.6555555131700306, "stats/max_log_achievement_collect_drink": 7.444444444444445, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_wood": 1.8888888888888888, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_table": 0.4444444444444444, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.47177142567104763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.933603206150968, "train/action_min": 0.0, "train/action_std": 3.7540065167655405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04276048344835429, "train/actor_opt_grad_steps": 16070.0, "train/actor_opt_loss": -14.514016243353696, "train/adv_mag": 0.8637722101010067, "train/adv_max": 0.7784013248665232, "train/adv_mean": 0.0029182305771031113, "train/adv_min": -0.6975471301817558, "train/adv_std": 0.06619271483849472, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 0.0003268836945002938, "train/cont_loss_std": 0.010012518817993175, "train/cont_neg_acc": 0.9846076478420849, "train/cont_neg_loss": 0.06619514377567791, "train/cont_pos_acc": 0.9999861591298815, "train/cont_pos_loss": 3.124324714070701e-05, "train/cont_pred": 0.994450781546848, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.048179398120289, "train/dyn_loss_std": 7.6452790112562585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3528837956173319, "train/extr_critic_critic_opt_grad_steps": 16070.0, "train/extr_critic_critic_opt_loss": 15935.787054357394, "train/extr_critic_mag": 8.876434561232445, "train/extr_critic_max": 8.876434561232445, "train/extr_critic_mean": 1.43441297974385, "train/extr_critic_min": -0.5601184300973382, "train/extr_critic_std": 1.8390205611645336, "train/extr_return_normed_mag": 1.761594077231179, "train/extr_return_normed_max": 1.761594077231179, "train/extr_return_normed_mean": 0.31681897984424107, "train/extr_return_normed_min": -0.14750615885140192, "train/extr_return_normed_std": 0.33987536858504924, "train/extr_return_rate": 0.585089342275136, "train/extr_return_raw_mag": 9.468337414969861, "train/extr_return_raw_max": 9.468337414969861, "train/extr_return_raw_mean": 1.450534442780723, "train/extr_return_raw_min": -1.1225518542276303, "train/extr_return_raw_std": 1.8861997664814265, "train/extr_reward_mag": 1.0147121724948076, "train/extr_reward_max": 1.0147121724948076, "train/extr_reward_mean": 0.02403572178117826, "train/extr_reward_min": -0.6636880182884108, "train/extr_reward_std": 0.15922281765182253, "train/image_loss_mean": 4.7663158295859755, "train/image_loss_std": 9.66080341204791, "train/model_loss_mean": 7.23221840656979, "train/model_loss_std": 13.11200493825993, "train/model_opt_grad_norm": 59.649940007169484, "train/model_opt_grad_steps": 16053.0, "train/model_opt_loss": 4520.136536504181, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.444064301504216, "train/policy_entropy_max": 2.444064301504216, "train/policy_entropy_mean": 0.5446297308089028, "train/policy_entropy_min": 0.07937513249860682, "train/policy_entropy_std": 0.5536571640363881, "train/policy_logprob_mag": 7.4383830755529265, "train/policy_logprob_max": -0.009455744190220262, "train/policy_logprob_mean": -0.5453904090632855, "train/policy_logprob_min": -7.4383830755529265, "train/policy_logprob_std": 1.1153325362944266, "train/policy_randomness_mag": 0.8626474427505278, "train/policy_randomness_max": 0.8626474427505278, "train/policy_randomness_mean": 0.1922303943986624, "train/policy_randomness_min": 0.0280159386268384, "train/policy_randomness_std": 0.19541668535118373, "train/post_ent_mag": 39.439182657591054, "train/post_ent_max": 39.439182657591054, "train/post_ent_mean": 25.072618377040808, "train/post_ent_min": 11.61665133355369, "train/post_ent_std": 4.642380445775851, "train/prior_ent_mag": 68.78454170764333, "train/prior_ent_max": 68.78454170764333, "train/prior_ent_mean": 29.209205331936687, "train/prior_ent_min": 12.994430689744547, "train/prior_ent_std": 8.642776670590253, "train/rep_loss_mean": 4.048179398120289, "train/rep_loss_std": 7.6452790112562585, "train/reward_avg": 0.017893100642717222, "train/reward_loss_mean": 0.03666813986402162, "train/reward_loss_std": 0.17808862145937665, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0120189173120848, "train/reward_neg_acc": 0.9965655493064666, "train/reward_neg_loss": 0.020175064107219517, "train/reward_pos_acc": 0.9861460202176806, "train/reward_pos_loss": 0.7400874445136164, "train/reward_pred": 0.017740955300839016, "train/reward_rate": 0.022997359154929578, "replay/size": 33884.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.938414469486525e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4098084607378108e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3257505893707, "timer/env.step_count": 1428.0, "timer/env.step_total": 22.147133588790894, "timer/env.step_frac": 0.07374370511129502, "timer/env.step_avg": 0.015509197191030038, "timer/env.step_min": 0.0030565261840820312, "timer/env.step_max": 1.689387321472168, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2894008159637451, "timer/replay.add_frac": 0.0009636230506235775, "timer/replay.add_avg": 0.00020266163582895316, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.0029528141021728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026970624923706055, "timer/logger.write_frac": 8.980457010688517e-05, "timer/logger.write_avg": 0.026970624923706055, "timer/logger.write_min": 0.026970624923706055, "timer/logger.write_max": 0.026970624923706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.840555429458618, "timer/agent.policy_frac": 0.036095990464303174, "timer/agent.policy_avg": 0.00759142537076934, "timer/agent.policy_min": 0.005801677703857422, "timer/agent.policy_max": 0.01816272735595703, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06622099876403809, "timer/dataset_frac": 0.00022049723886174752, "timer/dataset_avg": 9.274649686840068e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.2324552536011, "timer/agent.train_frac": 0.8864789473800909, "timer/agent.train_avg": 0.37287458718991745, "timer/agent.train_min": 0.36643338203430176, "timer/agent.train_max": 0.40430116653442383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167515754699707, "timer/agent.report_frac": 0.000738115719720914, "timer/agent.report_avg": 0.22167515754699707, "timer/agent.report_min": 0.22167515754699707, "timer/agent.report_max": 0.22167515754699707, "fps": 4.754772796808367}
+{"step": 34036, "episode/length": 165.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.030120481927710843}
+{"step": 34283, "episode/length": 246.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.016194331983805668}
+{"step": 34451, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
+{"step": 34608, "episode/length": 156.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01910828025477707}
+{"step": 34747, "episode/length": 138.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.02877697841726619}
+{"step": 34955, "episode/length": 207.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02403846153846154}
+{"step": 35120, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
+{"step": 35298, "episode/length": 177.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.016853932584269662}
+{"step": 35335, "episode/length": 36.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.10810810810810811}
+{"step": 35355, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.845533970424107, "train/action_min": 0.0, "train/action_std": 3.7718111106327603, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037314218814883914, "train/actor_opt_grad_steps": 16775.0, "train/actor_opt_loss": -20.155438048498972, "train/adv_mag": 0.8867907847676958, "train/adv_max": 0.8471073372023447, "train/adv_mean": 0.001498056385464354, "train/adv_min": -0.6128400947366442, "train/adv_std": 0.059704177241240226, "train/cont_avg": 0.9937639508928572, "train/cont_loss_mean": 3.907611672632681e-05, "train/cont_loss_std": 0.0010794059265955573, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012147834556214677, "train/cont_pos_acc": 0.9999859639576503, "train/cont_pos_loss": 3.117584614398895e-05, "train/cont_pred": 0.9937469516481672, "train/cont_rate": 0.9937639508928572, "train/dyn_loss_mean": 3.896977816309248, "train/dyn_loss_std": 7.626229647227696, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2756311007908412, "train/extr_critic_critic_opt_grad_steps": 16775.0, "train/extr_critic_critic_opt_loss": 15267.933579799108, "train/extr_critic_mag": 9.317001676559448, "train/extr_critic_max": 9.317001676559448, "train/extr_critic_mean": 1.3709984506879533, "train/extr_critic_min": -0.5691995229039873, "train/extr_critic_std": 1.836062775339399, "train/extr_return_normed_mag": 1.8301361186163767, "train/extr_return_normed_max": 1.8301361186163767, "train/extr_return_normed_mean": 0.3021222450903484, "train/extr_return_normed_min": -0.14325546004942485, "train/extr_return_normed_std": 0.336999522788184, "train/extr_return_rate": 0.5344178089073726, "train/extr_return_raw_mag": 9.932902302060809, "train/extr_return_raw_max": 9.932902302060809, "train/extr_return_raw_mean": 1.3793478161096573, "train/extr_return_raw_min": -1.1153302533285958, "train/extr_return_raw_std": 1.8875579510416303, "train/extr_reward_mag": 1.0117483275277275, "train/extr_reward_max": 1.0117483275277275, "train/extr_reward_mean": 0.020452421624213457, "train/extr_reward_min": -0.6698968478611538, "train/extr_reward_std": 0.15322292106492177, "train/image_loss_mean": 4.254769645418439, "train/image_loss_std": 8.178980105263847, "train/model_loss_mean": 6.631583499908447, "train/model_loss_std": 11.630955110277448, "train/model_opt_grad_norm": 45.493583406720845, "train/model_opt_grad_steps": 16758.0, "train/model_opt_loss": 6912.023406110491, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1053.5714285714287, "train/policy_entropy_mag": 2.457817963191441, "train/policy_entropy_max": 2.457817963191441, "train/policy_entropy_mean": 0.5727678409644535, "train/policy_entropy_min": 0.07937513291835785, "train/policy_entropy_std": 0.5727552750280925, "train/policy_logprob_mag": 7.438383088793073, "train/policy_logprob_max": -0.009455752186477184, "train/policy_logprob_mean": -0.5726840645074844, "train/policy_logprob_min": -7.438383088793073, "train/policy_logprob_std": 1.1263012664658683, "train/policy_randomness_mag": 0.8675018829958779, "train/policy_randomness_max": 0.8675018829958779, "train/policy_randomness_mean": 0.20216191432305744, "train/policy_randomness_min": 0.02801593882696969, "train/policy_randomness_std": 0.20215747888599123, "train/post_ent_mag": 39.990373502458844, "train/post_ent_max": 39.990373502458844, "train/post_ent_mean": 25.211800520760672, "train/post_ent_min": 11.880689702715193, "train/post_ent_std": 4.742771318980625, "train/prior_ent_mag": 69.18490371704101, "train/prior_ent_max": 69.18490371704101, "train/prior_ent_mean": 29.268940925598145, "train/prior_ent_min": 12.925507177625384, "train/prior_ent_std": 8.808074767248971, "train/rep_loss_mean": 3.896977816309248, "train/rep_loss_std": 7.626229647227696, "train/reward_avg": 0.017730189613731843, "train/reward_loss_mean": 0.03858806799565043, "train/reward_loss_std": 0.17894202768802642, "train/reward_max_data": 1.0057142870766775, "train/reward_max_pred": 1.0071241293634687, "train/reward_neg_acc": 0.9961825915745326, "train/reward_neg_loss": 0.02202712351988469, "train/reward_pos_acc": 0.9856252976826259, "train/reward_pos_loss": 0.7284952461719513, "train/reward_pred": 0.017638871143572033, "train/reward_rate": 0.02338169642857143, "stats/sum_log_reward": 2.988888806766934, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 2.2222222222222223, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.8888888888888888, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.45470449659559464, "replay/size": 35292.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.859570080583746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3462267816066742e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3411226272583, "timer/env.step_count": 1408.0, "timer/env.step_total": 22.22532844543457, "timer/env.step_frac": 0.07400028424684808, "timer/env.step_avg": 0.01578503440726887, "timer/env.step_min": 0.003141164779663086, "timer/env.step_max": 1.66194486618042, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.2725536823272705, "timer/replay.add_frac": 0.0009074804007625899, "timer/replay.add_avg": 0.0001935750584710728, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0030584335327148438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030487060546875, "timer/logger.write_frac": 0.00010150811277585623, "timer/logger.write_avg": 0.030487060546875, "timer/logger.write_min": 0.030487060546875, "timer/logger.write_max": 0.030487060546875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042819976806640625, "timer/checkpoint.save_frac": 1.4257114188050378e-06, "timer/checkpoint.save_avg": 0.00042819976806640625, "timer/checkpoint.save_min": 0.00042819976806640625, "timer/checkpoint.save_max": 0.00042819976806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.43851900100708, "timer/agent.save_frac": 0.004789617180702791, "timer/agent.save_avg": 1.43851900100708, "timer/agent.save_min": 1.43851900100708, "timer/agent.save_max": 1.43851900100708, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.799003601074219e-05, "timer/replay.save_frac": 3.262624683345604e-07, "timer/replay.save_avg": 9.799003601074219e-05, "timer/replay.save_min": 9.799003601074219e-05, "timer/replay.save_max": 9.799003601074219e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 14.341554880142212, "timer/agent.policy_frac": 0.04775088657420036, "timer/agent.policy_avg": 0.010185763409191912, "timer/agent.policy_min": 0.0056836605072021484, "timer/agent.policy_max": 2.417433261871338, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06363654136657715, "timer/dataset_frac": 0.00021188088001373686, "timer/dataset_avg": 9.039281444116072e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0002086162567138672, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.6912953853607, "timer/agent.train_frac": 0.8746431160922864, "timer/agent.train_avg": 0.3731410445814783, "timer/agent.train_min": 0.3664219379425049, "timer/agent.train_max": 0.4341273307800293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153687477111816, "timer/agent.report_frac": 0.0007376175224797937, "timer/agent.report_avg": 0.22153687477111816, "timer/agent.report_min": 0.22153687477111816, "timer/agent.report_max": 0.22153687477111816, "fps": 4.687893784935295}
+{"step": 35492, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03184713375796178}
+{"step": 35658, "episode/length": 165.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.018072289156626505}
+{"step": 36056, "episode/length": 397.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.01507537688442211}
+{"step": 36258, "episode/length": 201.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.024752475247524754}
+{"step": 36420, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 36646, "episode/length": 225.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.022123893805309734}
+{"step": 36802, "episode/length": 155.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.019230769230769232}
+{"step": 36803, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.92856796473673, "train/action_min": 0.0, "train/action_std": 3.6843964661637396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035917058536042906, "train/actor_opt_grad_steps": 17490.0, "train/actor_opt_loss": -14.342379164614089, "train/adv_mag": 0.8169758932231224, "train/adv_max": 0.7844592312427416, "train/adv_mean": 0.0020060628029855312, "train/adv_min": -0.5798032028626089, "train/adv_std": 0.05573076275113511, "train/cont_avg": 0.9938329409246576, "train/cont_loss_mean": 7.837474736770175e-05, "train/cont_loss_std": 0.002360673885445914, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002294513919292662, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 6.220436845545894e-05, "train/cont_pred": 0.9938286036661227, "train/cont_rate": 0.9938329409246576, "train/dyn_loss_mean": 3.9411632230837053, "train/dyn_loss_std": 7.751748078489957, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2562068333364513, "train/extr_critic_critic_opt_grad_steps": 17490.0, "train/extr_critic_critic_opt_loss": 15275.829596532534, "train/extr_critic_mag": 8.76673313036357, "train/extr_critic_max": 8.76673313036357, "train/extr_critic_mean": 1.2950006543773493, "train/extr_critic_min": -0.5560268424961665, "train/extr_critic_std": 1.721811096962184, "train/extr_return_normed_mag": 1.7041617778882587, "train/extr_return_normed_max": 1.7041617778882587, "train/extr_return_normed_mean": 0.2849880299747807, "train/extr_return_normed_min": -0.1328845650774159, "train/extr_return_normed_std": 0.3092476688835719, "train/extr_return_rate": 0.5272982957428449, "train/extr_return_raw_mag": 9.432990374630444, "train/extr_return_raw_max": 9.432990374630444, "train/extr_return_raw_mean": 1.3065105047944474, "train/extr_return_raw_min": -1.0740183012126243, "train/extr_return_raw_std": 1.7669286107363766, "train/extr_reward_mag": 1.0092958554829636, "train/extr_reward_max": 1.0092958554829636, "train/extr_reward_mean": 0.02293203031159427, "train/extr_reward_min": -0.6646433170527628, "train/extr_reward_std": 0.15946898333830375, "train/image_loss_mean": 4.314119580673845, "train/image_loss_std": 9.341955198000555, "train/model_loss_mean": 6.717700278922303, "train/model_loss_std": 12.872174236872425, "train/model_opt_grad_norm": 59.64528509688704, "train/model_opt_grad_steps": 17472.739726027397, "train/model_opt_loss": 8664.71511130137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.4684033785780817, "train/policy_entropy_max": 2.4684033785780817, "train/policy_entropy_mean": 0.5592231350402309, "train/policy_entropy_min": 0.07937512659046748, "train/policy_entropy_std": 0.5819443815375027, "train/policy_logprob_mag": 7.438383213461262, "train/policy_logprob_max": -0.009455723994194644, "train/policy_logprob_mean": -0.5596292378151253, "train/policy_logprob_min": -7.438383213461262, "train/policy_logprob_std": 1.1252248973062593, "train/policy_randomness_mag": 0.8712380683585389, "train/policy_randomness_max": 0.8712380683585389, "train/policy_randomness_mean": 0.19738122514665943, "train/policy_randomness_min": 0.028015936507958257, "train/policy_randomness_std": 0.20540083046645335, "train/post_ent_mag": 39.422220674279615, "train/post_ent_max": 39.422220674279615, "train/post_ent_mean": 25.217812185418115, "train/post_ent_min": 11.980050883881033, "train/post_ent_std": 4.595817934976865, "train/prior_ent_mag": 69.27118087141481, "train/prior_ent_max": 69.27118087141481, "train/prior_ent_mean": 29.19401417039845, "train/prior_ent_min": 12.947205634966288, "train/prior_ent_std": 8.739853989588072, "train/rep_loss_mean": 3.9411632230837053, "train/rep_loss_std": 7.751748078489957, "train/reward_avg": 0.01814800940377459, "train/reward_loss_mean": 0.03880438428014925, "train/reward_loss_std": 0.1893036322642679, "train/reward_max_data": 1.0027397266805989, "train/reward_max_pred": 1.004411318530775, "train/reward_neg_acc": 0.9961234518926437, "train/reward_neg_loss": 0.021650566898082216, "train/reward_pos_acc": 0.9840561224989695, "train/reward_pos_loss": 0.7449926660485464, "train/reward_pred": 0.018008945599096278, "train/reward_rate": 0.023598030821917807, "stats/sum_log_reward": 3.6714285101209367, "stats/max_log_achievement_collect_drink": 6.571428571428571, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 1.4285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 0.5714285714285714, "stats/max_log_achievement_wake_up": 3.5714285714285716, "stats/mean_log_entropy": 0.6338652329785484, "replay/size": 36740.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.8420297822899585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2875097232628923e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6871416568756, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.701531887054443, "timer/env.step_frac": 0.06219598145768202, "timer/env.step_avg": 0.012915422573932626, "timer/env.step_min": 0.0030739307403564453, "timer/env.step_max": 1.6777172088623047, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2830212116241455, "timer/replay.add_frac": 0.0009412481360679889, "timer/replay.add_avg": 0.00019545663786197894, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0024590492248535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02689194679260254, "timer/logger.write_frac": 8.943497432055095e-05, "timer/logger.write_avg": 0.02689194679260254, "timer/logger.write_min": 0.02689194679260254, "timer/logger.write_max": 0.02689194679260254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.687483787536621, "timer/agent.policy_frac": 0.03554353448120663, "timer/agent.policy_avg": 0.007380858969293247, "timer/agent.policy_min": 0.005562543869018555, "timer/agent.policy_max": 0.015107393264770508, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0649709701538086, "timer/dataset_frac": 0.00021607498676464587, "timer/dataset_avg": 8.973890905222182e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 724.0, "timer/agent.train_total": 270.202511548996, "timer/agent.train_frac": 0.8986167817489625, "timer/agent.train_avg": 0.3732078888798287, "timer/agent.train_min": 0.3647487163543701, "timer/agent.train_max": 0.4290003776550293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051405906677246, "timer/agent.report_frac": 0.0007333671065934991, "timer/agent.report_avg": 0.22051405906677246, "timer/agent.report_min": 0.22051405906677246, "timer/agent.report_max": 0.22051405906677246, "fps": 4.8155670075109915}
+{"step": 36955, "episode/length": 152.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.0392156862745098}
+{"step": 37133, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.028089887640449437}
+{"step": 37283, "episode/length": 149.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02666666666666667}
+{"step": 37384, "episode/length": 100.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04950495049504951}
+{"step": 37562, "episode/length": 177.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.033707865168539325}
+{"step": 37882, "episode/length": 319.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.015625}
+{"step": 38071, "episode/length": 188.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.021164021164021163}
+{"step": 38099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.9744957557091345, "train/action_min": 0.0, "train/action_std": 3.823057750555185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03703530000952574, "train/actor_opt_grad_steps": 18180.0, "train/actor_opt_loss": -14.743850190822895, "train/adv_mag": 0.9163424505637242, "train/adv_max": 0.8897507722561177, "train/adv_mean": 0.0015957013657148659, "train/adv_min": -0.5589900805399968, "train/adv_std": 0.058863042982724996, "train/cont_avg": 0.9942007211538462, "train/cont_loss_mean": 0.00041466070259293003, "train/cont_loss_std": 0.011961564702019482, "train/cont_neg_acc": 0.9910256422483004, "train/cont_neg_loss": 0.03702513522857771, "train/cont_pos_acc": 0.9999394866136404, "train/cont_pos_loss": 0.0002077573376805748, "train/cont_pred": 0.9941993786738469, "train/cont_rate": 0.9942007211538462, "train/dyn_loss_mean": 3.8617800419147197, "train/dyn_loss_std": 7.68375009390024, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2981530648011428, "train/extr_critic_critic_opt_grad_steps": 18180.0, "train/extr_critic_critic_opt_loss": 15252.64190204327, "train/extr_critic_mag": 9.281512062366192, "train/extr_critic_max": 9.281512062366192, "train/extr_critic_mean": 1.1749614940239832, "train/extr_critic_min": -0.5522984266281128, "train/extr_critic_std": 1.6893286787546598, "train/extr_return_normed_mag": 1.9144810034678532, "train/extr_return_normed_max": 1.9144810034678532, "train/extr_return_normed_mean": 0.28017042049994834, "train/extr_return_normed_min": -0.1447388246655464, "train/extr_return_normed_std": 0.3229960148151104, "train/extr_return_rate": 0.5028515866169563, "train/extr_return_raw_mag": 9.929072299370398, "train/extr_return_raw_max": 9.929072299370398, "train/extr_return_raw_mean": 1.1834527134895325, "train/extr_return_raw_min": -1.087461819098546, "train/extr_return_raw_std": 1.726740211706895, "train/extr_reward_mag": 1.0092276279742902, "train/extr_reward_max": 1.0092276279742902, "train/extr_reward_mean": 0.020209210079449872, "train/extr_reward_min": -0.6623682315532978, "train/extr_reward_std": 0.15193865986970756, "train/image_loss_mean": 3.9372310675107514, "train/image_loss_std": 7.817147973867563, "train/model_loss_mean": 6.292302476442777, "train/model_loss_std": 11.346957023327167, "train/model_opt_grad_norm": 50.99606857299805, "train/model_opt_grad_steps": 18161.923076923078, "train/model_opt_loss": 7561.810111177884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1201.923076923077, "train/policy_entropy_mag": 2.482216746990497, "train/policy_entropy_max": 2.482216746990497, "train/policy_entropy_mean": 0.5727803647518158, "train/policy_entropy_min": 0.07937512867725813, "train/policy_entropy_std": 0.5937057109979483, "train/policy_logprob_mag": 7.438383153768686, "train/policy_logprob_max": -0.009455713973595545, "train/policy_logprob_mean": -0.5723119680698101, "train/policy_logprob_min": -7.438383153768686, "train/policy_logprob_std": 1.1349679396702692, "train/policy_randomness_mag": 0.8761135798234206, "train/policy_randomness_max": 0.8761135798234206, "train/policy_randomness_mean": 0.202166332419102, "train/policy_randomness_min": 0.02801593731229122, "train/policy_randomness_std": 0.2095520617870184, "train/post_ent_mag": 39.69812727708083, "train/post_ent_max": 39.69812727708083, "train/post_ent_mean": 25.408555338932917, "train/post_ent_min": 12.526559653648963, "train/post_ent_std": 4.640779880376963, "train/prior_ent_mag": 69.42719245323768, "train/prior_ent_max": 69.42719245323768, "train/prior_ent_mean": 29.338753509521485, "train/prior_ent_min": 13.806497779259315, "train/prior_ent_std": 8.681971960801345, "train/rep_loss_mean": 3.8617800419147197, "train/rep_loss_std": 7.68375009390024, "train/reward_avg": 0.016700720973312856, "train/reward_loss_mean": 0.037588707042428164, "train/reward_loss_std": 0.18373716244330773, "train/reward_max_data": 1.0030769238105186, "train/reward_max_pred": 1.0051231127518874, "train/reward_neg_acc": 0.9966058373451233, "train/reward_neg_loss": 0.021269917172881275, "train/reward_pos_acc": 0.9825186500182519, "train/reward_pos_loss": 0.7593761893419119, "train/reward_pred": 0.016585637568137968, "train/reward_rate": 0.0220703125, "stats/sum_log_reward": 3.8142856870378767, "stats/max_log_achievement_collect_drink": 5.285714285714286, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 2.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 0.7142857142857143, "stats/max_log_achievement_wake_up": 2.5714285714285716, "stats/mean_log_entropy": 0.4662644054208483, "replay/size": 38036.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.7825033988481684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2710368559684282e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4169759750366, "timer/env.step_count": 1296.0, "timer/env.step_total": 18.180108308792114, "timer/env.step_frac": 0.06051624829051872, "timer/env.step_avg": 0.014027861349376631, "timer/env.step_min": 0.003020048141479492, "timer/env.step_max": 1.7180452346801758, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.23830866813659668, "timer/replay.add_frac": 0.0007932596597217567, "timer/replay.add_avg": 0.00018388014516712708, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0014176368713378906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02697134017944336, "timer/logger.write_frac": 8.977968069848543e-05, "timer/logger.write_avg": 0.02697134017944336, "timer/logger.write_min": 0.02697134017944336, "timer/logger.write_max": 0.02697134017944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 9.710713148117065, "timer/agent.policy_frac": 0.032324115894582416, "timer/agent.policy_avg": 0.007492834219226131, "timer/agent.policy_min": 0.00571441650390625, "timer/agent.policy_max": 0.015279054641723633, "timer/dataset_count": 648.0, "timer/dataset_total": 0.056706905364990234, "timer/dataset_frac": 0.0001887606556884533, "timer/dataset_avg": 8.751065642745407e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 648.0, "timer/agent.train_total": 271.5007395744324, "timer/agent.train_frac": 0.9037463302240049, "timer/agent.train_avg": 0.41898262280004994, "timer/agent.train_min": 0.3668551445007324, "timer/agent.train_max": 0.4558384418487549, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2607543468475342, "timer/agent.report_frac": 0.0008679747407789691, "timer/agent.report_avg": 0.2607543468475342, "timer/agent.report_min": 0.2607543468475342, "timer/agent.report_max": 0.2607543468475342, "fps": 4.313908908639543}
+{"step": 38232, "episode/length": 160.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.043478260869565216}
+{"step": 38491, "episode/length": 258.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.023166023166023165}
+{"step": 38688, "episode/length": 196.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.700000017881393, "episode/reward_rate": 0.030456852791878174}
+{"step": 38838, "episode/length": 149.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03333333333333333}
+{"step": 39076, "episode/length": 237.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.02100840336134454}
+{"step": 39270, "episode/length": 193.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.500000007450581, "episode/reward_rate": 0.02577319587628866}
+{"step": 39341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.79637195217994, "train/action_min": 0.0, "train/action_std": 3.6263975058832476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03933751369796453, "train/actor_opt_grad_steps": 18815.0, "train/actor_opt_loss": -15.835891325627603, "train/adv_mag": 0.9680406547361805, "train/adv_max": 0.8803598823085907, "train/adv_mean": 0.00215913956913761, "train/adv_min": -0.6732054780567845, "train/adv_std": 0.06096147048857904, "train/cont_avg": 0.994109122983871, "train/cont_loss_mean": 8.110105713078317e-05, "train/cont_loss_std": 0.002186332010102242, "train/cont_neg_acc": 0.9959677419354839, "train/cont_neg_loss": 0.008813295791843567, "train/cont_pos_acc": 0.9999841230530893, "train/cont_pos_loss": 3.953416410423972e-05, "train/cont_pred": 0.9941065551773194, "train/cont_rate": 0.994109122983871, "train/dyn_loss_mean": 3.9389058966790476, "train/dyn_loss_std": 7.734543808044926, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2606517422583796, "train/extr_critic_critic_opt_grad_steps": 18815.0, "train/extr_critic_critic_opt_loss": 15077.23005922379, "train/extr_critic_mag": 9.304117518086587, "train/extr_critic_max": 9.304117518086587, "train/extr_critic_mean": 1.2176267475851121, "train/extr_critic_min": -0.5250373367340334, "train/extr_critic_std": 1.8090658726230744, "train/extr_return_normed_mag": 2.0115950453665947, "train/extr_return_normed_max": 2.0115950453665947, "train/extr_return_normed_mean": 0.3006600235258379, "train/extr_return_normed_min": -0.1458186064997027, "train/extr_return_normed_std": 0.36458607763051987, "train/extr_return_rate": 0.5013882128461715, "train/extr_return_raw_mag": 9.951248445818502, "train/extr_return_raw_max": 9.951248445818502, "train/extr_return_raw_mean": 1.2284414018354108, "train/extr_return_raw_min": -1.0437739106916613, "train/extr_return_raw_std": 1.8566210981338256, "train/extr_reward_mag": 1.0116969193181684, "train/extr_reward_max": 1.0116969193181684, "train/extr_reward_mean": 0.023370958038515622, "train/extr_reward_min": -0.6580308733447906, "train/extr_reward_std": 0.1567106803338374, "train/image_loss_mean": 4.063290522944543, "train/image_loss_std": 7.861897937713131, "train/model_loss_mean": 6.464932041783487, "train/model_loss_std": 11.436884956975137, "train/model_opt_grad_norm": 55.03110368790165, "train/model_opt_grad_steps": 18796.0, "train/model_opt_loss": 4040.5825431577623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.463310060962554, "train/policy_entropy_max": 2.463310060962554, "train/policy_entropy_mean": 0.5429940781285686, "train/policy_entropy_min": 0.07937510431774202, "train/policy_entropy_std": 0.5785628509136939, "train/policy_logprob_mag": 7.438383286999118, "train/policy_logprob_max": -0.009455701441413934, "train/policy_logprob_mean": -0.5428449852812675, "train/policy_logprob_min": -7.438383286999118, "train/policy_logprob_std": 1.114832547403151, "train/policy_randomness_mag": 0.869440350801714, "train/policy_randomness_max": 0.869440350801714, "train/policy_randomness_mean": 0.19165308172664336, "train/policy_randomness_min": 0.028015928583279733, "train/policy_randomness_std": 0.20420729921710107, "train/post_ent_mag": 40.128491986182425, "train/post_ent_max": 40.128491986182425, "train/post_ent_mean": 25.25076432381907, "train/post_ent_min": 12.399879055638467, "train/post_ent_std": 4.648907007709626, "train/prior_ent_mag": 69.68437157907793, "train/prior_ent_max": 69.68437157907793, "train/prior_ent_mean": 29.26419295034101, "train/prior_ent_min": 13.901425976907053, "train/prior_ent_std": 8.749787815155521, "train/rep_loss_mean": 3.9389058966790476, "train/rep_loss_std": 7.734543808044926, "train/reward_avg": 0.017968749852790948, "train/reward_loss_mean": 0.03821684969889541, "train/reward_loss_std": 0.18095994476349123, "train/reward_max_data": 1.0064516144414102, "train/reward_max_pred": 1.008474224998105, "train/reward_neg_acc": 0.9962775178493992, "train/reward_neg_loss": 0.021392967431775985, "train/reward_pos_acc": 0.9828480299442045, "train/reward_pos_loss": 0.7492459829776518, "train/reward_pred": 0.017778790976491668, "train/reward_rate": 0.02327998991935484, "stats/sum_log_reward": 4.266666571299235, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_wood": 4.166666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5402481208244959, "replay/size": 39278.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.854433695475261e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.280636027239371e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1120536327362, "timer/env.step_count": 1242.0, "timer/env.step_total": 16.992019653320312, "timer/env.step_frac": 0.056618917659716494, "timer/env.step_avg": 0.013681175244219253, "timer/env.step_min": 0.0029916763305664062, "timer/env.step_max": 1.7431659698486328, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.22092127799987793, "timer/replay.add_frac": 0.0007361293067896285, "timer/replay.add_avg": 0.00017787542512067467, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0013012886047363281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03056192398071289, "timer/logger.write_frac": 0.00010183504331389906, "timer/logger.write_avg": 0.03056192398071289, "timer/logger.write_min": 0.03056192398071289, "timer/logger.write_max": 0.03056192398071289, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043010711669921875, "timer/checkpoint.save_frac": 1.4331550882176985e-06, "timer/checkpoint.save_avg": 0.00043010711669921875, "timer/checkpoint.save_min": 0.00043010711669921875, "timer/checkpoint.save_max": 0.00043010711669921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3493926525115967, "timer/agent.save_frac": 0.004496296087337177, "timer/agent.save_avg": 1.3493926525115967, "timer/agent.save_min": 1.3493926525115967, "timer/agent.save_max": 1.3493926525115967, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00014495849609375, "timer/replay.save_frac": 4.830145751864527e-07, "timer/replay.save_avg": 0.00014495849609375, "timer/replay.save_min": 0.00014495849609375, "timer/replay.save_max": 0.00014495849609375, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 13.418507814407349, "timer/agent.policy_frac": 0.04471165903528927, "timer/agent.policy_avg": 0.01080395154139078, "timer/agent.policy_min": 0.0056722164154052734, "timer/agent.policy_max": 2.7721636295318604, "timer/dataset_count": 621.0, "timer/dataset_total": 0.05433368682861328, "timer/dataset_frac": 0.0001810446670532748, "timer/dataset_avg": 8.749385962739659e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.7160403728485, "timer/agent.train_frac": 0.895385697175933, "timer/agent.train_avg": 0.4327150408580491, "timer/agent.train_min": 0.3669559955596924, "timer/agent.train_max": 0.46456384658813477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25441575050354004, "timer/agent.report_frac": 0.0008477358620686483, "timer/agent.report_avg": 0.25441575050354004, "timer/agent.report_min": 0.25441575050354004, "timer/agent.report_max": 0.25441575050354004, "fps": 4.138382766720177}
+{"step": 39438, "episode/length": 167.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017857142857142856}
+{"step": 39584, "episode/length": 145.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0273972602739726}
+{"step": 39644, "episode/length": 59.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08333333333333333}
+{"step": 39824, "episode/length": 179.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03333333333333333}
+{"step": 39986, "episode/length": 161.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.700000025331974, "episode/reward_rate": 0.006172839506172839}
+{"step": 40176, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031578947368421054}
+{"step": 40343, "episode/length": 166.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.041916167664670656}
+{"step": 40523, "episode/length": 179.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.027777777777777776}
+{"step": 40581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.059403942477319, "train/action_min": 0.0, "train/action_std": 3.7587475853581584, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036662709298393416, "train/actor_opt_grad_steps": 19435.0, "train/actor_opt_loss": -20.844503410400883, "train/adv_mag": 0.9606122326466345, "train/adv_max": 0.8720901983399545, "train/adv_mean": 0.000998336643416194, "train/adv_min": -0.6711587035848249, "train/adv_std": 0.06059715962938724, "train/cont_avg": 0.9942036290322581, "train/cont_loss_mean": 0.0002641615186337643, "train/cont_loss_std": 0.008137091281630473, "train/cont_neg_acc": 0.996082950984278, "train/cont_neg_loss": 0.026897830234790285, "train/cont_pos_acc": 0.9999524902912879, "train/cont_pos_loss": 6.577726568476435e-05, "train/cont_pred": 0.9942033002453465, "train/cont_rate": 0.9942036290322581, "train/dyn_loss_mean": 3.9305133088942497, "train/dyn_loss_std": 7.733077687601889, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2106587194627332, "train/extr_critic_critic_opt_grad_steps": 19435.0, "train/extr_critic_critic_opt_loss": 14479.718954763104, "train/extr_critic_mag": 8.473847081584315, "train/extr_critic_max": 8.473847081584315, "train/extr_critic_mean": 1.0707141689715847, "train/extr_critic_min": -0.5824586499121881, "train/extr_critic_std": 1.6203681192090433, "train/extr_return_normed_mag": 1.9229629558901633, "train/extr_return_normed_max": 1.9229629558901633, "train/extr_return_normed_mean": 0.2858823191735052, "train/extr_return_normed_min": -0.186104066309429, "train/extr_return_normed_std": 0.3435247011723057, "train/extr_return_rate": 0.4772618701381068, "train/extr_return_raw_mag": 8.99285041132281, "train/extr_return_raw_max": 8.99285041132281, "train/extr_return_raw_mean": 1.0754485812879377, "train/extr_return_raw_min": -1.205923985089025, "train/extr_return_raw_std": 1.6602570741407332, "train/extr_reward_mag": 1.009172708757462, "train/extr_reward_max": 1.009172708757462, "train/extr_reward_mean": 0.02043571975082159, "train/extr_reward_min": -0.6630754759234767, "train/extr_reward_std": 0.14955734028931586, "train/image_loss_mean": 4.061195200489413, "train/image_loss_std": 7.992116451263428, "train/model_loss_mean": 6.45799453796879, "train/model_loss_std": 11.58690437962932, "train/model_opt_grad_norm": 50.01425075531006, "train/model_opt_grad_steps": 19415.532258064515, "train/model_opt_loss": 4036.246566280242, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4844885603074105, "train/policy_entropy_max": 2.4844885603074105, "train/policy_entropy_mean": 0.5689852458815421, "train/policy_entropy_min": 0.07937509878989189, "train/policy_entropy_std": 0.5921036509736892, "train/policy_logprob_mag": 7.438383163944367, "train/policy_logprob_max": -0.009455695718286498, "train/policy_logprob_mean": -0.5711036223557687, "train/policy_logprob_min": -7.438383163944367, "train/policy_logprob_std": 1.1344807301798174, "train/policy_randomness_mag": 0.8769154356371972, "train/policy_randomness_max": 0.8769154356371972, "train/policy_randomness_mean": 0.20082682082729955, "train/policy_randomness_min": 0.02801592660046393, "train/policy_randomness_std": 0.20898660656905943, "train/post_ent_mag": 39.87222757647115, "train/post_ent_max": 39.87222757647115, "train/post_ent_mean": 25.50468700162826, "train/post_ent_min": 12.817308979649697, "train/post_ent_std": 4.623408548293575, "train/prior_ent_mag": 69.94998316611013, "train/prior_ent_max": 69.94998316611013, "train/prior_ent_mean": 29.46586202806042, "train/prior_ent_min": 13.965824757852863, "train/prior_ent_std": 8.758259780945316, "train/rep_loss_mean": 3.9305133088942497, "train/rep_loss_std": 7.733077687601889, "train/reward_avg": 0.017327683947740063, "train/reward_loss_mean": 0.0382272177826493, "train/reward_loss_std": 0.1858962591617338, "train/reward_max_data": 1.0032258072207052, "train/reward_max_pred": 1.0044309189242702, "train/reward_neg_acc": 0.9964822434609936, "train/reward_neg_loss": 0.021807344074571324, "train/reward_pos_acc": 0.9852353526699927, "train/reward_pos_loss": 0.7489368531011766, "train/reward_pred": 0.017119500305383437, "train/reward_rate": 0.022571194556451613, "stats/sum_log_reward": 3.349999912083149, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 2.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.48021361231803894, "replay/size": 40518.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.863726892778951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2533558953192926e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33520698547363, "timer/env.step_count": 1240.0, "timer/env.step_total": 19.290592432022095, "timer/env.step_frac": 0.06423020672682948, "timer/env.step_avg": 0.01555692938066298, "timer/env.step_min": 0.0031042098999023438, "timer/env.step_max": 1.6911511421203613, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2420055866241455, "timer/replay.add_frac": 0.0008057849396119937, "timer/replay.add_avg": 0.00019516579566463348, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0008938312530517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030200719833374023, "timer/logger.write_frac": 0.00010055670840759854, "timer/logger.write_avg": 0.030200719833374023, "timer/logger.write_min": 0.030200719833374023, "timer/logger.write_max": 0.030200719833374023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 9.443562269210815, "timer/agent.policy_frac": 0.031443407398013025, "timer/agent.policy_avg": 0.007615776023557109, "timer/agent.policy_min": 0.0055866241455078125, "timer/agent.policy_max": 0.018183469772338867, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05600857734680176, "timer/dataset_frac": 0.00018648688546698002, "timer/dataset_avg": 9.03364150754867e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 620.0, "timer/agent.train_total": 270.5799467563629, "timer/agent.train_frac": 0.9009264996675868, "timer/agent.train_avg": 0.43641926896187566, "timer/agent.train_min": 0.3784661293029785, "timer/agent.train_max": 0.4589054584503174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2622847557067871, "timer/agent.report_frac": 0.0008733067239748321, "timer/agent.report_avg": 0.2622847557067871, "timer/agent.report_min": 0.2622847557067871, "timer/agent.report_max": 0.2622847557067871, "fps": 4.128665031635166}
+{"step": 40712, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.031746031746031744}
+{"step": 40876, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03048780487804878}
+{"step": 41102, "episode/length": 225.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.030973451327433628}
+{"step": 41269, "episode/length": 166.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.017964071856287425}
+{"step": 41472, "episode/length": 202.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.024630541871921183}
+{"step": 41613, "episode/length": 140.0, "episode/score": 1.0999999940395355, "episode/sum_abs_reward": 3.7000000178813934, "episode/reward_rate": 0.02127659574468085}
+{"step": 41774, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
+{"step": 41833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.89911380890877, "train/action_min": 0.0, "train/action_std": 3.631215076292715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03960364585321757, "train/actor_opt_grad_steps": 20055.0, "train/actor_opt_loss": -7.880174237393564, "train/adv_mag": 0.9921775061276651, "train/adv_max": 0.9438592421431695, "train/adv_mean": 0.00471215467698658, "train/adv_min": -0.6240252919735447, "train/adv_std": 0.06267873101657437, "train/cont_avg": 0.9944398941532258, "train/cont_loss_mean": 1.8851814673787943e-05, "train/cont_loss_std": 0.0004832652156228652, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010015007490349695, "train/cont_pos_acc": 0.9999999875022519, "train/cont_pos_loss": 1.821398964715803e-05, "train/cont_pred": 0.9944249506919615, "train/cont_rate": 0.9944398941532258, "train/dyn_loss_mean": 4.01802586355517, "train/dyn_loss_std": 7.72817640150747, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2697491886154297, "train/extr_critic_critic_opt_grad_steps": 20055.0, "train/extr_critic_critic_opt_loss": 15009.646122101814, "train/extr_critic_mag": 9.092229943121634, "train/extr_critic_max": 9.092229943121634, "train/extr_critic_mean": 1.1518914939895752, "train/extr_critic_min": -0.5665976962735576, "train/extr_critic_std": 1.8154947315492937, "train/extr_return_normed_mag": 2.124396837526752, "train/extr_return_normed_max": 2.124396837526752, "train/extr_return_normed_mean": 0.3091058288851092, "train/extr_return_normed_min": -0.1846335596374927, "train/extr_return_normed_std": 0.39249620658736073, "train/extr_return_rate": 0.4775369897965462, "train/extr_return_raw_mag": 9.833197501397901, "train/extr_return_raw_max": 9.833197501397901, "train/extr_return_raw_mean": 1.1742487097940137, "train/extr_return_raw_min": -1.1850273695684248, "train/extr_return_raw_std": 1.8766794666167228, "train/extr_reward_mag": 1.0102742333565988, "train/extr_reward_max": 1.0102742333565988, "train/extr_reward_mean": 0.02311994619066677, "train/extr_reward_min": -0.6287077453828627, "train/extr_reward_std": 0.15620150657430773, "train/image_loss_mean": 4.0787855694370885, "train/image_loss_std": 8.17758717844563, "train/model_loss_mean": 6.526883532924037, "train/model_loss_std": 11.778107135526595, "train/model_opt_grad_norm": 43.710504347278224, "train/model_opt_grad_steps": 20035.0, "train/model_opt_loss": 4079.3021673387098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.465702441430861, "train/policy_entropy_max": 2.465702441430861, "train/policy_entropy_mean": 0.5438485828138167, "train/policy_entropy_min": 0.07937509338221242, "train/policy_entropy_std": 0.5652908106004039, "train/policy_logprob_mag": 7.438383310071884, "train/policy_logprob_max": -0.00945569190286821, "train/policy_logprob_mean": -0.5428758133803645, "train/policy_logprob_min": -7.438383310071884, "train/policy_logprob_std": 1.1094691897592237, "train/policy_randomness_mag": 0.8702847621133251, "train/policy_randomness_max": 0.8702847621133251, "train/policy_randomness_mean": 0.19195468351244926, "train/policy_randomness_min": 0.028015924647690787, "train/policy_randomness_std": 0.19952285097491357, "train/post_ent_mag": 39.9924125056113, "train/post_ent_max": 39.9924125056113, "train/post_ent_mean": 25.805489878500662, "train/post_ent_min": 12.889123209061161, "train/post_ent_std": 4.615112412360407, "train/prior_ent_mag": 70.11660877350837, "train/prior_ent_max": 70.11660877350837, "train/prior_ent_mean": 29.89414350448116, "train/prior_ent_min": 14.368989452239006, "train/prior_ent_std": 8.71146592017143, "train/rep_loss_mean": 4.01802586355517, "train/rep_loss_std": 7.72817640150747, "train/reward_avg": 0.018337323563173413, "train/reward_loss_mean": 0.03726353973991448, "train/reward_loss_std": 0.18026383641746738, "train/reward_max_data": 1.0032258072207052, "train/reward_max_pred": 1.0062543038398988, "train/reward_neg_acc": 0.9963096543665855, "train/reward_neg_loss": 0.020318386497937383, "train/reward_pos_acc": 0.9839094790720171, "train/reward_pos_loss": 0.7462300840885409, "train/reward_pred": 0.018076798938695463, "train/reward_rate": 0.02323273689516129, "stats/sum_log_reward": 3.814285635948181, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 4.0, "stats/max_log_achievement_collect_wood": 2.4285714285714284, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.46635001472064425, "replay/size": 41770.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.8265039364750775e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2661464298114228e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1914041042328, "timer/env.step_count": 1252.0, "timer/env.step_total": 18.237855434417725, "timer/env.step_frac": 0.06075408950779002, "timer/env.step_avg": 0.014566977184039716, "timer/env.step_min": 0.0030913352966308594, "timer/env.step_max": 1.7566566467285156, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.23349237442016602, "timer/replay.add_frac": 0.0007778116602535778, "timer/replay.add_avg": 0.00018649550672537223, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0044994354248046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02633953094482422, "timer/logger.write_frac": 8.774245559569247e-05, "timer/logger.write_avg": 0.02633953094482422, "timer/logger.write_min": 0.02633953094482422, "timer/logger.write_max": 0.02633953094482422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 9.447024822235107, "timer/agent.policy_frac": 0.03147000444741216, "timer/agent.policy_avg": 0.0075455469826159, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 0.014153718948364258, "timer/dataset_count": 626.0, "timer/dataset_total": 0.055494070053100586, "timer/dataset_frac": 0.00018486228884099517, "timer/dataset_avg": 8.864867420623097e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 626.0, "timer/agent.train_total": 271.49438667297363, "timer/agent.train_frac": 0.9044042666148597, "timer/agent.train_avg": 0.4336971033114595, "timer/agent.train_min": 0.3688652515411377, "timer/agent.train_max": 0.45783352851867676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26944398880004883, "timer/agent.report_frac": 0.0008975739648644043, "timer/agent.report_avg": 0.26944398880004883, "timer/agent.report_min": 0.26944398880004883, "timer/agent.report_max": 0.26944398880004883, "fps": 4.170619266380818}
+{"step": 41967, "episode/length": 192.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.025906735751295335}
+{"step": 42139, "episode/length": 171.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.011627906976744186}
+{"step": 42318, "episode/length": 178.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0223463687150838}
+{"step": 42484, "episode/length": 165.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.04216867469879518}
+{"step": 42637, "episode/length": 152.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.0457516339869281}
+{"step": 42801, "episode/length": 163.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03048780487804878}
+{"step": 42955, "episode/length": 153.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.300000034272671, "episode/reward_rate": 0.01948051948051948}
+{"step": 43063, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.821624755859375, "train/action_min": 0.0, "train/action_std": 3.590988343761813, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03597775486207778, "train/actor_opt_grad_steps": 20675.0, "train/actor_opt_loss": -15.043013810630768, "train/adv_mag": 0.7841182139612013, "train/adv_max": 0.70748908433222, "train/adv_mean": 0.0019511552431316476, "train/adv_min": -0.5740439435166698, "train/adv_std": 0.0544183540848955, "train/cont_avg": 0.994172127016129, "train/cont_loss_mean": 0.0002235539200842507, "train/cont_loss_std": 0.0068422341973854925, "train/cont_neg_acc": 0.9959677419354839, "train/cont_neg_loss": 0.04441553092555472, "train/cont_pos_acc": 0.9999682134197604, "train/cont_pos_loss": 4.358796280804023e-05, "train/cont_pred": 0.9941716242221094, "train/cont_rate": 0.994172127016129, "train/dyn_loss_mean": 4.0294372227884105, "train/dyn_loss_std": 7.807729259614022, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2456320149283255, "train/extr_critic_critic_opt_grad_steps": 20675.0, "train/extr_critic_critic_opt_loss": 14952.669984879032, "train/extr_critic_mag": 8.13200447636266, "train/extr_critic_max": 8.13200447636266, "train/extr_critic_mean": 1.1142122649377393, "train/extr_critic_min": -0.5769898160811393, "train/extr_critic_std": 1.6625604735266777, "train/extr_return_normed_mag": 1.7880163634977033, "train/extr_return_normed_max": 1.7880163634977033, "train/extr_return_normed_mean": 0.2842453400934896, "train/extr_return_normed_min": -0.1623886780392739, "train/extr_return_normed_std": 0.3371884741129414, "train/extr_return_rate": 0.48605933304755916, "train/extr_return_raw_mag": 8.722185927052651, "train/extr_return_raw_max": 8.722185927052651, "train/extr_return_raw_mean": 1.1240631784162214, "train/extr_return_raw_min": -1.1338968421182325, "train/extr_return_raw_std": 1.7057565892896345, "train/extr_reward_mag": 1.0168637037277222, "train/extr_reward_max": 1.0168637037277222, "train/extr_reward_mean": 0.021639529420363325, "train/extr_reward_min": -0.6469427520228971, "train/extr_reward_std": 0.1537215215784888, "train/image_loss_mean": 4.113741101757173, "train/image_loss_std": 8.514894220136828, "train/model_loss_mean": 6.570185076805853, "train/model_loss_std": 12.107022523880005, "train/model_opt_grad_norm": 53.1255516852102, "train/model_opt_grad_steps": 20655.0, "train/model_opt_loss": 7434.739301127772, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1159.274193548387, "train/policy_entropy_mag": 2.4489047604222454, "train/policy_entropy_max": 2.4489047604222454, "train/policy_entropy_mean": 0.5306462352314303, "train/policy_entropy_min": 0.07937510335637678, "train/policy_entropy_std": 0.5455653244449247, "train/policy_logprob_mag": 7.438383233162664, "train/policy_logprob_max": -0.009455689995159064, "train/policy_logprob_mean": -0.5304807213044935, "train/policy_logprob_min": -7.438383233162664, "train/policy_logprob_std": 1.1008828686129661, "train/policy_randomness_mag": 0.8643559140543784, "train/policy_randomness_max": 0.8643559140543784, "train/policy_randomness_mean": 0.18729483192005464, "train/policy_randomness_min": 0.028015928192725106, "train/policy_randomness_std": 0.19256061796219118, "train/post_ent_mag": 40.250540948683216, "train/post_ent_max": 40.250540948683216, "train/post_ent_mean": 25.891932087559855, "train/post_ent_min": 13.009054568506055, "train/post_ent_std": 4.6058901663749445, "train/prior_ent_mag": 70.31742329751292, "train/prior_ent_max": 70.31742329751292, "train/prior_ent_mean": 30.018712443690145, "train/prior_ent_min": 14.49072221017653, "train/prior_ent_std": 8.767370423962992, "train/rep_loss_mean": 4.0294372227884105, "train/rep_loss_std": 7.807729259614022, "train/reward_avg": 0.01747574336496332, "train/reward_loss_mean": 0.03855809638456952, "train/reward_loss_std": 0.18729505435593666, "train/reward_max_data": 1.0112903252724679, "train/reward_max_pred": 1.0123160000770324, "train/reward_neg_acc": 0.9963759241565582, "train/reward_neg_loss": 0.02182797230254378, "train/reward_pos_acc": 0.9803973128718715, "train/reward_pos_loss": 0.7608507996605288, "train/reward_pred": 0.017232785294313106, "train/reward_rate": 0.022712953629032258, "stats/sum_log_reward": 3.528571401323591, "stats/max_log_achievement_collect_drink": 7.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 2.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_table": 0.8571428571428571, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.44303104281425476, "replay/size": 43000.0, "replay/inserts": 1230.0, "replay/samples": 9840.0, "replay/insert_wait_avg": 3.8621871452021405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2790284505704553e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1894600391388, "timer/env.step_count": 1230.0, "timer/env.step_total": 17.717010021209717, "timer/env.step_frac": 0.059019427327327775, "timer/env.step_avg": 0.01440407318797538, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.7026166915893555, "timer/replay.add_count": 1230.0, "timer/replay.add_total": 0.23352479934692383, "timer/replay.add_frac": 0.0007779247123349261, "timer/replay.add_avg": 0.00018985756044465353, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0024712085723876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02749323844909668, "timer/logger.write_frac": 9.158628835773282e-05, "timer/logger.write_avg": 0.02749323844909668, "timer/logger.write_min": 0.02749323844909668, "timer/logger.write_max": 0.02749323844909668, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005366802215576172, "timer/checkpoint.save_frac": 1.7878050131661673e-06, "timer/checkpoint.save_avg": 0.0005366802215576172, "timer/checkpoint.save_min": 0.0005366802215576172, "timer/checkpoint.save_max": 0.0005366802215576172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4457752704620361, "timer/agent.save_frac": 0.004816209304195875, "timer/agent.save_avg": 1.4457752704620361, "timer/agent.save_min": 1.4457752704620361, "timer/agent.save_max": 1.4457752704620361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.6288914231808147e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1230.0, "timer/agent.policy_total": 13.860771656036377, "timer/agent.policy_frac": 0.04617341213188899, "timer/agent.policy_avg": 0.01126892004555803, "timer/agent.policy_min": 0.0056612491607666016, "timer/agent.policy_max": 3.2323460578918457, "timer/dataset_count": 615.0, "timer/dataset_total": 0.0539090633392334, "timer/dataset_frac": 0.00017958346482986018, "timer/dataset_avg": 8.765701355972911e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 615.0, "timer/agent.train_total": 267.6493515968323, "timer/agent.train_frac": 0.8916014291838763, "timer/agent.train_avg": 0.43520219771842644, "timer/agent.train_min": 0.37905097007751465, "timer/agent.train_max": 1.0980982780456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23234820365905762, "timer/agent.report_frac": 0.0007740052020106369, "timer/agent.report_avg": 0.23234820365905762, "timer/agent.report_min": 0.23234820365905762, "timer/agent.report_max": 0.23234820365905762, "fps": 4.097352674205619}
+{"step": 43122, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03592814371257485}
+{"step": 43298, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028409090909090908}
+{"step": 43446, "episode/length": 147.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02702702702702703}
+{"step": 43628, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.038461538461538464}
+{"step": 43823, "episode/length": 194.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.500000029802322, "episode/reward_rate": 0.03076923076923077}
+{"step": 44080, "episode/length": 256.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.027237354085603113}
+{"step": 44300, "episode/length": 219.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.02727272727272727}
+{"step": 44325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.755128890749008, "train/action_min": 0.0, "train/action_std": 3.489760981665717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03820731245454342, "train/actor_opt_grad_steps": 21300.0, "train/actor_opt_loss": -12.01519887409513, "train/adv_mag": 0.8975201892474342, "train/adv_max": 0.8556875009385366, "train/adv_mean": 0.0031178253407161387, "train/adv_min": -0.5746167138928459, "train/adv_std": 0.05788978431669493, "train/cont_avg": 0.9940941220238095, "train/cont_loss_mean": 4.724999035221435e-05, "train/cont_loss_std": 0.0012996916367870972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003027081872575749, "train/cont_pos_acc": 0.9999844034512838, "train/cont_pos_loss": 3.1368835392765416e-05, "train/cont_pred": 0.9940834338702853, "train/cont_rate": 0.9940941220238095, "train/dyn_loss_mean": 4.037428000616649, "train/dyn_loss_std": 7.751468332986983, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2648965782589383, "train/extr_critic_critic_opt_grad_steps": 21300.0, "train/extr_critic_critic_opt_loss": 15231.069676959325, "train/extr_critic_mag": 8.473244288611033, "train/extr_critic_max": 8.473244288611033, "train/extr_critic_mean": 1.1119926458313352, "train/extr_critic_min": -0.5347799176261538, "train/extr_critic_std": 1.6185636747451055, "train/extr_return_normed_mag": 1.8422067127530537, "train/extr_return_normed_max": 1.8422067127530537, "train/extr_return_normed_mean": 0.28422958439304713, "train/extr_return_normed_min": -0.14788652997877863, "train/extr_return_normed_std": 0.3307051072044978, "train/extr_return_rate": 0.48315768062122283, "train/extr_return_raw_mag": 8.981820901234945, "train/extr_return_raw_max": 8.981820901234945, "train/extr_return_raw_mean": 1.1277327140172322, "train/extr_return_raw_min": -1.0437889685706487, "train/extr_return_raw_std": 1.6648890574773152, "train/extr_reward_mag": 1.013388372602917, "train/extr_reward_max": 1.013388372602917, "train/extr_reward_mean": 0.02322482140291305, "train/extr_reward_min": -0.6506761615238492, "train/extr_reward_std": 0.155932278860183, "train/image_loss_mean": 3.959500778289068, "train/image_loss_std": 7.908429160950676, "train/model_loss_mean": 6.422223492274209, "train/model_loss_std": 11.496122738671682, "train/model_opt_grad_norm": 49.275690805344354, "train/model_opt_grad_steps": 21279.79365079365, "train/model_opt_loss": 8419.848617311507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1309.5238095238096, "train/policy_entropy_mag": 2.457641223120311, "train/policy_entropy_max": 2.457641223120311, "train/policy_entropy_mean": 0.5144214880844903, "train/policy_entropy_min": 0.07937509010708521, "train/policy_entropy_std": 0.5410288496622964, "train/policy_logprob_mag": 7.438383215949649, "train/policy_logprob_max": -0.009455678215812124, "train/policy_logprob_mean": -0.5150826838281419, "train/policy_logprob_min": -7.438383215949649, "train/policy_logprob_std": 1.0913679126709226, "train/policy_randomness_mag": 0.8674395046536885, "train/policy_randomness_max": 0.8674395046536885, "train/policy_randomness_mean": 0.18156820748533523, "train/policy_randomness_min": 0.028015923641976855, "train/policy_randomness_std": 0.190959442229498, "train/post_ent_mag": 40.34934640309167, "train/post_ent_max": 40.34934640309167, "train/post_ent_mean": 26.015128544398717, "train/post_ent_min": 13.548023647732204, "train/post_ent_std": 4.645239035288493, "train/prior_ent_mag": 70.32217697870163, "train/prior_ent_max": 70.32217697870163, "train/prior_ent_mean": 30.12001555306571, "train/prior_ent_min": 14.703382325550866, "train/prior_ent_std": 8.831561981685578, "train/rep_loss_mean": 4.037428000616649, "train/rep_loss_std": 7.751468332986983, "train/reward_avg": 0.018906559824707018, "train/reward_loss_mean": 0.0402187497192432, "train/reward_loss_std": 0.18695781983080365, "train/reward_max_data": 1.007936509828719, "train/reward_max_pred": 1.0087339518562195, "train/reward_neg_acc": 0.9956795828683036, "train/reward_neg_loss": 0.022723390055554255, "train/reward_pos_acc": 0.9848493299787007, "train/reward_pos_loss": 0.7413435900022113, "train/reward_pred": 0.018585010357792416, "train/reward_rate": 0.024274553571428572, "stats/sum_log_reward": 4.528571401323591, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 5.285714285714286, "stats/max_log_achievement_collect_wood": 3.4285714285714284, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_table": 1.4285714285714286, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4249741860798427, "replay/size": 44262.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.9023567115070325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3019505846897132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0811984539032, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.75232434272766, "timer/env.step_frac": 0.059158402573011165, "timer/env.step_avg": 0.014066818021178812, "timer/env.step_min": 0.003015279769897461, "timer/env.step_max": 1.6629400253295898, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2654438018798828, "timer/replay.add_frac": 0.0008845732529979176, "timer/replay.add_avg": 0.0002103358176544238, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.011651277542114258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024045705795288086, "timer/logger.write_frac": 8.013066436410494e-05, "timer/logger.write_avg": 0.024045705795288086, "timer/logger.write_min": 0.024045705795288086, "timer/logger.write_max": 0.024045705795288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.638055562973022, "timer/agent.policy_frac": 0.032118158727140536, "timer/agent.policy_avg": 0.007637128021373235, "timer/agent.policy_min": 0.005593538284301758, "timer/agent.policy_max": 0.01580071449279785, "timer/dataset_count": 631.0, "timer/dataset_total": 0.056661367416381836, "timer/dataset_frac": 0.00018882011838234456, "timer/dataset_avg": 8.979614487540703e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.64828515052795, "timer/agent.train_frac": 0.9052492676986461, "timer/agent.train_avg": 0.43050441386771465, "timer/agent.train_min": 0.36948466300964355, "timer/agent.train_max": 0.5113508701324463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2608034610748291, "timer/agent.report_frac": 0.0008691096357204541, "timer/agent.report_avg": 0.2608034610748291, "timer/agent.report_min": 0.2608034610748291, "timer/agent.report_max": 0.2608034610748291, "fps": 4.20547368478859}
+{"step": 44338, "episode/length": 37.0, "episode/score": -0.8999999910593033, "episode/sum_abs_reward": 0.8999999910593033, "episode/reward_rate": 0.02631578947368421}
+{"step": 44487, "episode/length": 148.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04697986577181208}
+{"step": 44593, "episode/length": 105.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04716981132075472}
+{"step": 44761, "episode/length": 167.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.02976190476190476}
+{"step": 44917, "episode/length": 155.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000011920929, "episode/reward_rate": 0.038461538461538464}
+{"step": 45130, "episode/length": 212.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.028169014084507043}
+{"step": 45325, "episode/length": 194.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 7.300000011920929, "episode/reward_rate": 0.035897435897435895}
+{"step": 45466, "episode/length": 140.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.0425531914893617}
+{"step": 45587, "stats/sum_log_reward": 3.7249999791383743, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 1.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.5, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.37002516351640224, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708477686321925, "train/action_min": 0.0, "train/action_std": 3.3784158835335383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037631725123713884, "train/actor_opt_grad_steps": 21930.0, "train/actor_opt_loss": -10.847318518315516, "train/adv_mag": 0.638557665877872, "train/adv_max": 0.6034898710629296, "train/adv_mean": 0.00261015361511021, "train/adv_min": -0.4663117755027044, "train/adv_std": 0.052939868872127836, "train/cont_avg": 0.9940011160714286, "train/cont_loss_mean": 0.0001246092522801663, "train/cont_loss_std": 0.003654696702676394, "train/cont_neg_acc": 0.9982363316747878, "train/cont_neg_loss": 0.008238875242756283, "train/cont_pos_acc": 0.9999843410083226, "train/cont_pos_loss": 5.466434653037198e-05, "train/cont_pred": 0.9939870805967421, "train/cont_rate": 0.9940011160714286, "train/dyn_loss_mean": 4.019141549155826, "train/dyn_loss_std": 7.815356413523356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.193311369608319, "train/extr_critic_critic_opt_grad_steps": 21930.0, "train/extr_critic_critic_opt_loss": 15114.12417844742, "train/extr_critic_mag": 6.9167929376874655, "train/extr_critic_max": 6.9167929376874655, "train/extr_critic_mean": 1.0937861894804335, "train/extr_critic_min": -0.5539553695254855, "train/extr_critic_std": 1.5255867678021628, "train/extr_return_normed_mag": 1.6038049251314193, "train/extr_return_normed_max": 1.6038049251314193, "train/extr_return_normed_mean": 0.2821774955779787, "train/extr_return_normed_min": -0.16477016170346548, "train/extr_return_normed_std": 0.316926771922717, "train/extr_return_rate": 0.47585258029756095, "train/extr_return_raw_mag": 7.595596177237375, "train/extr_return_raw_max": 7.595596177237375, "train/extr_return_raw_mean": 1.1064698071706862, "train/extr_return_raw_min": -1.087371734399644, "train/extr_return_raw_std": 1.5564575687287345, "train/extr_reward_mag": 1.0105870526934426, "train/extr_reward_max": 1.0105870526934426, "train/extr_reward_mean": 0.02221832140570595, "train/extr_reward_min": -0.6630506534425039, "train/extr_reward_std": 0.15406397422627796, "train/image_loss_mean": 3.840391760780698, "train/image_loss_std": 8.247190202985491, "train/model_loss_mean": 6.291458523462689, "train/model_loss_std": 11.83760537041558, "train/model_opt_grad_norm": 50.5134397839743, "train/model_opt_grad_steps": 21908.619047619046, "train/model_opt_loss": 6437.064596509176, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1011.9047619047619, "train/policy_entropy_mag": 2.4564442407517206, "train/policy_entropy_max": 2.4564442407517206, "train/policy_entropy_mean": 0.5036868419912126, "train/policy_entropy_min": 0.07937509105319068, "train/policy_entropy_std": 0.5357671484114632, "train/policy_logprob_mag": 7.43838333705115, "train/policy_logprob_max": -0.009455706377232831, "train/policy_logprob_mean": -0.5039705799685584, "train/policy_logprob_min": -7.43838333705115, "train/policy_logprob_std": 1.0846767993200392, "train/policy_randomness_mag": 0.8670170165243603, "train/policy_randomness_max": 0.8670170165243603, "train/policy_randomness_mean": 0.17777935001585218, "train/policy_randomness_min": 0.028015923730674245, "train/policy_randomness_std": 0.1891022908782202, "train/post_ent_mag": 40.29743321736654, "train/post_ent_max": 40.29743321736654, "train/post_ent_mean": 26.02117144872272, "train/post_ent_min": 13.8098723850553, "train/post_ent_std": 4.534351666768392, "train/prior_ent_mag": 70.39019884381976, "train/prior_ent_max": 70.39019884381976, "train/prior_ent_mean": 30.094136858743333, "train/prior_ent_min": 15.179797914293077, "train/prior_ent_std": 8.702457912384517, "train/rep_loss_mean": 4.019141549155826, "train/rep_loss_std": 7.815356413523356, "train/reward_avg": 0.01817026287169447, "train/reward_loss_mean": 0.039457277054824526, "train/reward_loss_std": 0.1907911379895513, "train/reward_max_data": 1.0047619058972312, "train/reward_max_pred": 1.006254585962447, "train/reward_neg_acc": 0.9958570126503233, "train/reward_neg_loss": 0.021884369294321727, "train/reward_pos_acc": 0.9834679554379175, "train/reward_pos_loss": 0.7670693615126232, "train/reward_pred": 0.017909777801602134, "train/reward_rate": 0.023530505952380952, "replay/size": 45524.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.849836612465642e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.338128998238009e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3551046848297, "timer/env.step_count": 1262.0, "timer/env.step_total": 19.291308403015137, "timer/env.step_frac": 0.06422833540071843, "timer/env.step_avg": 0.015286298259124514, "timer/env.step_min": 0.0028295516967773438, "timer/env.step_max": 1.6966445446014404, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2431962490081787, "timer/replay.add_frac": 0.0008096957408577116, "timer/replay.add_avg": 0.00019270701189237616, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0020258426666259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027362585067749023, "timer/logger.write_frac": 9.110078251029322e-05, "timer/logger.write_avg": 0.027362585067749023, "timer/logger.write_min": 0.027362585067749023, "timer/logger.write_max": 0.027362585067749023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.608806610107422, "timer/agent.policy_frac": 0.031991487609941534, "timer/agent.policy_avg": 0.007613951355077197, "timer/agent.policy_min": 0.0056514739990234375, "timer/agent.policy_max": 0.017109155654907227, "timer/dataset_count": 631.0, "timer/dataset_total": 0.05633878707885742, "timer/dataset_frac": 0.0001875739289930669, "timer/dataset_avg": 8.928492405524155e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 631.0, "timer/agent.train_total": 270.4346127510071, "timer/agent.train_frac": 0.9003829418340702, "timer/agent.train_avg": 0.4285810027749716, "timer/agent.train_min": 0.37894153594970703, "timer/agent.train_max": 0.45676541328430176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26114583015441895, "timer/agent.report_frac": 0.0008694569397395324, "timer/agent.report_avg": 0.26114583015441895, "timer/agent.report_min": 0.26114583015441895, "timer/agent.report_max": 0.26114583015441895, "fps": 4.20164339539193}
+{"step": 45683, "episode/length": 216.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02304147465437788}
+{"step": 46143, "episode/length": 459.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.010869565217391304}
+{"step": 46312, "episode/length": 168.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04142011834319527}
+{"step": 46460, "episode/length": 147.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.0472972972972973}
+{"step": 46600, "episode/length": 139.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03571428571428571}
+{"step": 46729, "episode/length": 128.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.046511627906976744}
+{"step": 46869, "episode/length": 139.0, "episode/score": 4.100000061094761, "episode/sum_abs_reward": 5.9000000432133675, "episode/reward_rate": 0.04285714285714286}
+{"step": 46901, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.695425322561553, "train/action_min": 0.0, "train/action_std": 3.424527717359138, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04037156334203301, "train/actor_opt_grad_steps": 22575.0, "train/actor_opt_loss": -8.27099175435124, "train/adv_mag": 0.709297291708715, "train/adv_max": 0.636922250642921, "train/adv_mean": 0.004321500411923339, "train/adv_min": -0.5492693298693859, "train/adv_std": 0.059991427161025276, "train/cont_avg": 0.9941702178030303, "train/cont_loss_mean": 0.00012150550532932371, "train/cont_loss_std": 0.003267591693074654, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.011002641942606275, "train/cont_pos_acc": 0.9999850961295041, "train/cont_pos_loss": 6.523779164621405e-05, "train/cont_pred": 0.9941541444171559, "train/cont_rate": 0.9941702178030303, "train/dyn_loss_mean": 4.277489618821577, "train/dyn_loss_std": 7.7826870210243, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2401373765685342, "train/extr_critic_critic_opt_grad_steps": 22575.0, "train/extr_critic_critic_opt_loss": 15432.478870738636, "train/extr_critic_mag": 7.829872572060787, "train/extr_critic_max": 7.829872572060787, "train/extr_critic_mean": 1.217218147985863, "train/extr_critic_min": -0.5609193859678326, "train/extr_critic_std": 1.6294979922699206, "train/extr_return_normed_mag": 1.8276304060762578, "train/extr_return_normed_max": 1.8276304060762578, "train/extr_return_normed_mean": 0.31645090674812143, "train/extr_return_normed_min": -0.1782582967796109, "train/extr_return_normed_std": 0.3534064922820438, "train/extr_return_rate": 0.5408420422763536, "train/extr_return_raw_mag": 8.393925356142448, "train/extr_return_raw_max": 8.393925356142448, "train/extr_return_raw_mean": 1.2377377902016495, "train/extr_return_raw_min": -1.102362172170119, "train/extr_return_raw_std": 1.6728808067061685, "train/extr_reward_mag": 1.009585080724774, "train/extr_reward_max": 1.009585080724774, "train/extr_reward_mean": 0.023240803176480713, "train/extr_reward_min": -0.6847596854874582, "train/extr_reward_std": 0.15755944416830034, "train/image_loss_mean": 4.1335390481081875, "train/image_loss_std": 8.435292858065981, "train/model_loss_mean": 6.738842523459232, "train/model_loss_std": 11.997054540749753, "train/model_opt_grad_norm": 51.88426925196792, "train/model_opt_grad_steps": 22553.0, "train/model_opt_loss": 4211.776574337121, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.438705390149897, "train/policy_entropy_max": 2.438705390149897, "train/policy_entropy_mean": 0.4699961150234396, "train/policy_entropy_min": 0.07937509047262596, "train/policy_entropy_std": 0.5083186572248285, "train/policy_logprob_mag": 7.438383441982848, "train/policy_logprob_max": -0.009455682653369326, "train/policy_logprob_mean": -0.46870725985729333, "train/policy_logprob_min": -7.438383441982848, "train/policy_logprob_std": 1.0574206177032355, "train/policy_randomness_mag": 0.860755980014801, "train/policy_randomness_max": 0.860755980014801, "train/policy_randomness_mean": 0.1658880040049553, "train/policy_randomness_min": 0.02801592351699417, "train/policy_randomness_std": 0.17941418222405695, "train/post_ent_mag": 41.20518615029075, "train/post_ent_max": 41.20518615029075, "train/post_ent_mean": 26.38807961435029, "train/post_ent_min": 13.81328094366825, "train/post_ent_std": 4.600008924802144, "train/prior_ent_mag": 70.45828374226888, "train/prior_ent_max": 70.45828374226888, "train/prior_ent_mean": 30.613629398923933, "train/prior_ent_min": 15.34935491735285, "train/prior_ent_std": 8.724407138246479, "train/rep_loss_mean": 4.277489618821577, "train/rep_loss_std": 7.7826870210243, "train/reward_avg": 0.018072324762628836, "train/reward_loss_mean": 0.0386882092182835, "train/reward_loss_std": 0.183889868358771, "train/reward_max_data": 1.0045454556291753, "train/reward_max_pred": 1.005657875176632, "train/reward_neg_acc": 0.9960447378230818, "train/reward_neg_loss": 0.02188972331527056, "train/reward_pos_acc": 0.9863750428864451, "train/reward_pos_loss": 0.7398194282343893, "train/reward_pred": 0.017848689398361428, "train/reward_rate": 0.023393110795454544, "stats/sum_log_reward": 4.242857047489712, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 2.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.4693728983402252, "replay/size": 46838.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.839192325121736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2683451084967255e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.62771463394165, "timer/env.step_count": 1314.0, "timer/env.step_total": 17.739896774291992, "timer/env.step_frac": 0.05881388186036321, "timer/env.step_avg": 0.013500682476630131, "timer/env.step_min": 0.002880573272705078, "timer/env.step_max": 1.7211685180664062, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.24125170707702637, "timer/replay.add_frac": 0.0007998326923300527, "timer/replay.add_avg": 0.0001836009947313747, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0009324550628662109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027982234954833984, "timer/logger.write_frac": 9.277076872327034e-05, "timer/logger.write_avg": 0.027982234954833984, "timer/logger.write_min": 0.027982234954833984, "timer/logger.write_max": 0.027982234954833984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00035190582275390625, "timer/checkpoint.save_frac": 1.1666892851042638e-06, "timer/checkpoint.save_avg": 0.00035190582275390625, "timer/checkpoint.save_min": 0.00035190582275390625, "timer/checkpoint.save_max": 0.00035190582275390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4392204284667969, "timer/agent.save_frac": 0.004771512558829181, "timer/agent.save_avg": 1.4392204284667969, "timer/agent.save_min": 1.4392204284667969, "timer/agent.save_max": 1.4392204284667969, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.083747863769531e-05, "timer/replay.save_frac": 3.01157600016751e-07, "timer/replay.save_avg": 9.083747863769531e-05, "timer/replay.save_min": 9.083747863769531e-05, "timer/replay.save_max": 9.083747863769531e-05, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 11.267652750015259, "timer/agent.policy_frac": 0.03735615861324213, "timer/agent.policy_avg": 0.008575078196358644, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 1.4387176036834717, "timer/dataset_count": 657.0, "timer/dataset_total": 0.05759930610656738, "timer/dataset_frac": 0.00019096158380694714, "timer/dataset_avg": 8.767017672232478e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 657.0, "timer/agent.train_total": 271.62278008461, "timer/agent.train_frac": 0.9005232838575661, "timer/agent.train_avg": 0.4134288890176712, "timer/agent.train_min": 0.366854190826416, "timer/agent.train_max": 0.45806884765625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21910715103149414, "timer/agent.report_frac": 0.0007264158444372552, "timer/agent.report_avg": 0.21910715103149414, "timer/agent.report_min": 0.21910715103149414, "timer/agent.report_max": 0.21910715103149414, "fps": 4.35627270909651}
+{"step": 47038, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
+{"step": 47196, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03164556962025317}
+{"step": 47365, "episode/length": 168.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.029585798816568046}
+{"step": 47412, "episode/length": 46.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.0851063829787234}
+{"step": 47451, "episode/length": 38.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.07692307692307693}
+{"step": 47667, "episode/length": 215.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.027777777777777776}
+{"step": 47828, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.031055900621118012}
+{"step": 47965, "episode/length": 136.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.0364963503649635}
+{"step": 48125, "episode/length": 159.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.04375}
+{"step": 48311, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.615656389508929, "train/action_min": 0.0, "train/action_std": 3.3699809040342057, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03986769512827907, "train/actor_opt_grad_steps": 23255.0, "train/actor_opt_loss": -15.206819937910353, "train/adv_mag": 0.7453538085733141, "train/adv_max": 0.6408560463360378, "train/adv_mean": 0.0029474204146286605, "train/adv_min": -0.5628959677049092, "train/adv_std": 0.05645145390714918, "train/cont_avg": 0.9941824776785714, "train/cont_loss_mean": 0.00024562354658428374, "train/cont_loss_std": 0.007357929423926634, "train/cont_neg_acc": 0.9935374174799237, "train/cont_neg_loss": 0.03025066577508499, "train/cont_pos_acc": 0.9999859690666199, "train/cont_pos_loss": 4.5381181364843673e-05, "train/cont_pred": 0.9941960326262883, "train/cont_rate": 0.9941824776785714, "train/dyn_loss_mean": 3.712741133144924, "train/dyn_loss_std": 7.690441751480103, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2018956746373857, "train/extr_critic_critic_opt_grad_steps": 23255.0, "train/extr_critic_critic_opt_loss": 15238.626283482143, "train/extr_critic_mag": 7.535975292750767, "train/extr_critic_max": 7.535975292750767, "train/extr_critic_mean": 1.2412981467587607, "train/extr_critic_min": -0.6098090325083051, "train/extr_critic_std": 1.5403073872838702, "train/extr_return_normed_mag": 1.761247376033238, "train/extr_return_normed_max": 1.761247376033238, "train/extr_return_normed_mean": 0.3257572182587215, "train/extr_return_normed_min": -0.1958402163216046, "train/extr_return_normed_std": 0.3282589669738497, "train/extr_return_rate": 0.5750753653900964, "train/extr_return_raw_mag": 8.197466904776437, "train/extr_return_raw_max": 8.197466904776437, "train/extr_return_raw_mean": 1.25566189629691, "train/extr_return_raw_min": -1.2666138810770853, "train/extr_return_raw_std": 1.5865984337670462, "train/extr_reward_mag": 1.0077046973364694, "train/extr_reward_max": 1.0077046973364694, "train/extr_reward_mean": 0.023593319952487944, "train/extr_reward_min": -0.680666310446603, "train/extr_reward_std": 0.15929176115563937, "train/image_loss_mean": 3.3499970844813753, "train/image_loss_std": 7.329858984266009, "train/model_loss_mean": 5.6164410080228535, "train/model_loss_std": 10.922768088749477, "train/model_opt_grad_norm": 43.49294511250087, "train/model_opt_grad_steps": 23233.0, "train/model_opt_loss": 6520.790115792411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1160.7142857142858, "train/policy_entropy_mag": 2.4054198571613856, "train/policy_entropy_max": 2.4054198571613856, "train/policy_entropy_mean": 0.4604668110609055, "train/policy_entropy_min": 0.07937508310590471, "train/policy_entropy_std": 0.49122556533132283, "train/policy_logprob_mag": 7.438383429391044, "train/policy_logprob_max": -0.009455676150641272, "train/policy_logprob_mean": -0.4603400009019034, "train/policy_logprob_min": -7.438383429391044, "train/policy_logprob_std": 1.0466568120888302, "train/policy_randomness_mag": 0.8490076473781041, "train/policy_randomness_max": 0.8490076473781041, "train/policy_randomness_mean": 0.1625245771237782, "train/policy_randomness_min": 0.028015920998794692, "train/policy_randomness_std": 0.17338106845106396, "train/post_ent_mag": 40.49077001299177, "train/post_ent_max": 40.49077001299177, "train/post_ent_mean": 26.17089764731271, "train/post_ent_min": 13.714825044359479, "train/post_ent_std": 4.540813302993774, "train/prior_ent_mag": 70.63769956316267, "train/prior_ent_max": 70.63769956316267, "train/prior_ent_mean": 30.07938344138009, "train/prior_ent_min": 15.158186721801759, "train/prior_ent_std": 8.648508569172451, "train/rep_loss_mean": 3.712741133144924, "train/rep_loss_std": 7.690441751480103, "train/reward_avg": 0.019275948591530322, "train/reward_loss_mean": 0.03855368710522141, "train/reward_loss_std": 0.1763086013495922, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.004422163963318, "train/reward_neg_acc": 0.995685864346368, "train/reward_neg_loss": 0.0209174756093749, "train/reward_pos_acc": 0.9835595275674548, "train/reward_pos_loss": 0.7474011983190264, "train/reward_pred": 0.019003369858754532, "train/reward_rate": 0.024428013392857145, "stats/sum_log_reward": 3.766666677263048, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_wood": 2.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 0.7777777777777778, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3567182719707489, "replay/size": 48248.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 4.014055779639711e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2375784258470467e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3591637611389, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.581308841705322, "timer/env.step_frac": 0.07851036920737466, "timer/env.step_avg": 0.016724332511847746, "timer/env.step_min": 0.0029299259185791016, "timer/env.step_max": 1.968437671661377, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.3251533508300781, "timer/replay.add_frac": 0.0010825484621759596, "timer/replay.add_avg": 0.00023060521335466533, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.00399470329284668, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02944636344909668, "timer/logger.write_frac": 9.803717349710677e-05, "timer/logger.write_avg": 0.02944636344909668, "timer/logger.write_min": 0.02944636344909668, "timer/logger.write_max": 0.02944636344909668, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 11.728461027145386, "timer/agent.policy_frac": 0.0390481211902443, "timer/agent.policy_avg": 0.008318057466060557, "timer/agent.policy_min": 0.005647897720336914, "timer/agent.policy_max": 0.6603264808654785, "timer/dataset_count": 705.0, "timer/dataset_total": 0.065765380859375, "timer/dataset_frac": 0.00021895579956959468, "timer/dataset_avg": 9.328422816932624e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0009713172912597656, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.91296315193176, "timer/agent.train_frac": 0.8786579368752303, "timer/agent.train_avg": 0.3743446285843004, "timer/agent.train_min": 0.366349458694458, "timer/agent.train_max": 1.0898914337158203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219085693359375, "timer/agent.report_frac": 0.0007294123828817264, "timer/agent.report_avg": 0.219085693359375, "timer/agent.report_min": 0.219085693359375, "timer/agent.report_max": 0.219085693359375, "fps": 4.694314750743817}
+{"step": 48360, "episode/length": 234.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.01276595744680851}
+{"step": 48537, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022598870056497175}
+{"step": 48695, "episode/length": 157.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03164556962025317}
+{"step": 48849, "episode/length": 153.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03896103896103896}
+{"step": 49076, "episode/length": 226.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02643171806167401}
+{"step": 49250, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 49483, "episode/length": 232.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02575107296137339}
+{"step": 49683, "episode/length": 199.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.035}
+{"step": 49747, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.705613878038195, "train/action_min": 0.0, "train/action_std": 3.5587562786208258, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03840262127212352, "train/actor_opt_grad_steps": 23965.0, "train/actor_opt_loss": -10.065330407892665, "train/adv_mag": 0.8217100898424784, "train/adv_max": 0.7557941579984294, "train/adv_mean": 0.003745475980142348, "train/adv_min": -0.6067020694414774, "train/adv_std": 0.0564275824257897, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 0.00016658700441338523, "train/cont_loss_std": 0.005010468942297545, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.015437515707219518, "train/cont_pos_acc": 0.9999726530578401, "train/cont_pos_loss": 7.75557804202107e-05, "train/cont_pred": 0.9942771188086934, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 3.962734411160151, "train/dyn_loss_std": 7.803123831748962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2517039676507313, "train/extr_critic_critic_opt_grad_steps": 23965.0, "train/extr_critic_critic_opt_loss": 15695.1826171875, "train/extr_critic_mag": 9.045381234751808, "train/extr_critic_max": 9.045381234751808, "train/extr_critic_mean": 1.3270710988177195, "train/extr_critic_min": -0.6006424162122939, "train/extr_critic_std": 1.8394213020801544, "train/extr_return_normed_mag": 1.8920624686612024, "train/extr_return_normed_max": 1.8920624686612024, "train/extr_return_normed_mean": 0.32153187402420574, "train/extr_return_normed_min": -0.15339816537582213, "train/extr_return_normed_std": 0.36072175784243476, "train/extr_return_rate": 0.5254638931817479, "train/extr_return_raw_mag": 9.596437950929007, "train/extr_return_raw_max": 9.596437950929007, "train/extr_return_raw_mean": 1.3463359574476879, "train/extr_return_raw_min": -1.1304339832729764, "train/extr_return_raw_std": 1.8911493089463975, "train/extr_reward_mag": 1.0145256088839636, "train/extr_reward_max": 1.0145256088839636, "train/extr_reward_mean": 0.023768535970399778, "train/extr_reward_min": -0.6651666180955039, "train/extr_reward_std": 0.15867095906287432, "train/image_loss_mean": 3.585963934659958, "train/image_loss_std": 8.025124510129293, "train/model_loss_mean": 6.001769728130764, "train/model_loss_std": 11.676847616831461, "train/model_opt_grad_norm": 47.896679136488174, "train/model_opt_grad_steps": 23942.51388888889, "train/model_opt_loss": 7444.8003336588545, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.3877856698301105, "train/policy_entropy_max": 2.3877856698301105, "train/policy_entropy_mean": 0.4706792388525274, "train/policy_entropy_min": 0.07937507859120767, "train/policy_entropy_std": 0.500262705816163, "train/policy_logprob_mag": 7.438383513026768, "train/policy_logprob_max": -0.009455678919847641, "train/policy_logprob_mean": -0.4702111706137657, "train/policy_logprob_min": -7.438383513026768, "train/policy_logprob_std": 1.0513222101661894, "train/policy_randomness_mag": 0.8427835586998198, "train/policy_randomness_max": 0.8427835586998198, "train/policy_randomness_mean": 0.16612911596894264, "train/policy_randomness_min": 0.028015919391893677, "train/policy_randomness_std": 0.17657078223096, "train/post_ent_mag": 40.76787625418769, "train/post_ent_max": 40.76787625418769, "train/post_ent_mean": 26.473476065529717, "train/post_ent_min": 14.218888521194458, "train/post_ent_std": 4.547653237978618, "train/prior_ent_mag": 70.79314698113336, "train/prior_ent_max": 70.79314698113336, "train/prior_ent_mean": 30.458247396681045, "train/prior_ent_min": 15.596348894966972, "train/prior_ent_std": 8.667395631472269, "train/rep_loss_mean": 3.962734411160151, "train/rep_loss_std": 7.803123831748962, "train/reward_avg": 0.018353949546710484, "train/reward_loss_mean": 0.03799853341964384, "train/reward_loss_std": 0.17664972972124815, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0071939428647358, "train/reward_neg_acc": 0.9953182877765762, "train/reward_neg_loss": 0.020897483608374994, "train/reward_pos_acc": 0.9829265773296356, "train/reward_pos_loss": 0.7479138788249757, "train/reward_pred": 0.018179160672136478, "train/reward_rate": 0.023640950520833332, "stats/sum_log_reward": 4.224999904632568, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_wood": 2.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.44526394829154015, "replay/size": 49684.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.870483228423137e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2186161322846053e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27073669433594, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.01907706260681, "timer/env.step_frac": 0.06667009007602849, "timer/env.step_avg": 0.013940861464210872, "timer/env.step_min": 0.0028710365295410156, "timer/env.step_max": 1.7053520679473877, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.3124701976776123, "timer/replay.add_frac": 0.0010406282047913812, "timer/replay.add_avg": 0.00021759763069471608, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.004434823989868164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027209997177124023, "timer/logger.write_frac": 9.061821167349635e-05, "timer/logger.write_avg": 0.027209997177124023, "timer/logger.write_min": 0.027209997177124023, "timer/logger.write_max": 0.027209997177124023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.153664112091064, "timer/agent.policy_frac": 0.03714535833521821, "timer/agent.policy_avg": 0.007767175565523025, "timer/agent.policy_min": 0.005661725997924805, "timer/agent.policy_max": 0.019740581512451172, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06486296653747559, "timer/dataset_frac": 0.00021601494455153515, "timer/dataset_avg": 9.03383935062334e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00014162063598632812, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.9713714122772, "timer/agent.train_frac": 0.8924325239360963, "timer/agent.train_avg": 0.37321918023994044, "timer/agent.train_min": 0.3629448413848877, "timer/agent.train_max": 0.38914918899536133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22234678268432617, "timer/agent.report_frac": 0.0007404876849876538, "timer/agent.report_avg": 0.22234678268432617, "timer/agent.report_min": 0.22234678268432617, "timer/agent.report_max": 0.22234678268432617, "fps": 4.7822476990277405}
+{"step": 49869, "episode/length": 185.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03225806451612903}
+{"step": 50147, "episode/length": 277.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02158273381294964}
+{"step": 50288, "episode/length": 140.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03546099290780142}
+{"step": 50436, "episode/length": 147.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.0472972972972973}
+{"step": 50587, "episode/length": 150.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.039735099337748346}
+{"step": 50761, "episode/length": 173.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040229885057471264}
+{"step": 50902, "episode/length": 140.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.0425531914893617}
+{"step": 51065, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03680981595092025}
+{"step": 51189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630344814724392, "train/action_min": 0.0, "train/action_std": 3.40999734070566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04167996672913432, "train/actor_opt_grad_steps": 24685.0, "train/actor_opt_loss": -12.779398309687773, "train/adv_mag": 0.7717620639337434, "train/adv_max": 0.7359682408471903, "train/adv_mean": 0.002738160688548103, "train/adv_min": -0.597293094628387, "train/adv_std": 0.06023642643251353, "train/cont_avg": 0.9939914279513888, "train/cont_loss_mean": 4.911518101696149e-05, "train/cont_loss_std": 0.0013845520057426735, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0042763185433993085, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.626007551577282e-05, "train/cont_pred": 0.9939864186777009, "train/cont_rate": 0.9939914279513888, "train/dyn_loss_mean": 4.1520834267139435, "train/dyn_loss_std": 7.964350455337101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2351997834112909, "train/extr_critic_critic_opt_grad_steps": 24685.0, "train/extr_critic_critic_opt_loss": 15478.023342556424, "train/extr_critic_mag": 8.130385405487484, "train/extr_critic_max": 8.130385405487484, "train/extr_critic_mean": 1.270948717991511, "train/extr_critic_min": -0.598359121216668, "train/extr_critic_std": 1.6698272956742182, "train/extr_return_normed_mag": 1.7484292371405497, "train/extr_return_normed_max": 1.7484292371405497, "train/extr_return_normed_mean": 0.3151535871956084, "train/extr_return_normed_min": -0.15626382093048757, "train/extr_return_normed_std": 0.3379313906447755, "train/extr_return_rate": 0.5270761243171163, "train/extr_return_raw_mag": 8.482242902119955, "train/extr_return_raw_max": 8.482242902119955, "train/extr_return_raw_mean": 1.284770632783572, "train/extr_return_raw_min": -1.0828037667605612, "train/extr_return_raw_std": 1.6973661581675212, "train/extr_reward_mag": 1.0198954840501149, "train/extr_reward_max": 1.0198954840501149, "train/extr_reward_mean": 0.022636783425696194, "train/extr_reward_min": -0.6701670587062836, "train/extr_reward_std": 0.15493774155361784, "train/image_loss_mean": 3.914786752727297, "train/image_loss_std": 8.804231743017832, "train/model_loss_mean": 6.445402979850769, "train/model_loss_std": 12.475337074862587, "train/model_opt_grad_norm": 50.05941099590726, "train/model_opt_grad_steps": 24661.0, "train/model_opt_loss": 4028.3768683539497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.397289792696635, "train/policy_entropy_max": 2.397289792696635, "train/policy_entropy_mean": 0.45823734253644943, "train/policy_entropy_min": 0.0793750604821576, "train/policy_entropy_std": 0.49209441989660263, "train/policy_logprob_mag": 7.438383440176646, "train/policy_logprob_max": -0.009455667420600852, "train/policy_logprob_mean": -0.4589610339866744, "train/policy_logprob_min": -7.438383440176646, "train/policy_logprob_std": 1.0487911875049274, "train/policy_randomness_mag": 0.846138097345829, "train/policy_randomness_max": 0.846138097345829, "train/policy_randomness_mean": 0.1617376735020015, "train/policy_randomness_min": 0.028015913053726155, "train/policy_randomness_std": 0.17368773536549675, "train/post_ent_mag": 41.61366860071818, "train/post_ent_max": 41.61366860071818, "train/post_ent_mean": 26.628155125512016, "train/post_ent_min": 14.380392471949259, "train/post_ent_std": 4.598641862471898, "train/prior_ent_mag": 70.97504032982721, "train/prior_ent_max": 70.97504032982721, "train/prior_ent_mean": 30.788826280170017, "train/prior_ent_min": 15.73981565899319, "train/prior_ent_std": 8.780188381671906, "train/rep_loss_mean": 4.1520834267139435, "train/rep_loss_std": 7.964350455337101, "train/reward_avg": 0.017843966825037368, "train/reward_loss_mean": 0.03931703265859849, "train/reward_loss_std": 0.19276763095209995, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0108502440982394, "train/reward_neg_acc": 0.9959161248472002, "train/reward_neg_loss": 0.022237040994999308, "train/reward_pos_acc": 0.981795399553246, "train/reward_pos_loss": 0.7558428405059708, "train/reward_pred": 0.01773512911879354, "train/reward_rate": 0.023274739583333332, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 4.875, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 3.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.25, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.37413719668984413, "replay/size": 51126.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.6457209911161258e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2738116075195652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32861042022705, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.14737892150879, "timer/env.step_frac": 0.0670844475766664, "timer/env.step_avg": 0.013971830042655193, "timer/env.step_min": 0.0031058788299560547, "timer/env.step_max": 1.7743630409240723, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2613189220428467, "timer/replay.add_frac": 0.0008701099827858656, "timer/replay.add_avg": 0.0001812197795026676, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0024099349975585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028059720993041992, "timer/logger.write_frac": 9.343006300258957e-05, "timer/logger.write_avg": 0.028059720993041992, "timer/logger.write_min": 0.028059720993041992, "timer/logger.write_max": 0.028059720993041992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.527647256851196, "timer/agent.policy_frac": 0.035053760752665745, "timer/agent.policy_avg": 0.007300726253017473, "timer/agent.policy_min": 0.005541086196899414, "timer/agent.policy_max": 0.017486572265625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06295108795166016, "timer/dataset_frac": 0.00020960736262714855, "timer/dataset_avg": 8.731080159730952e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.5978081226349, "timer/agent.train_frac": 0.8943463886001615, "timer/agent.train_avg": 0.3725351014183563, "timer/agent.train_min": 0.3650782108306885, "timer/agent.train_max": 0.38672518730163574, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21876120567321777, "timer/agent.report_frac": 0.0007284061460781969, "timer/agent.report_avg": 0.21876120567321777, "timer/agent.report_min": 0.21876120567321777, "timer/agent.report_max": 0.21876120567321777, "fps": 4.801337903657604}
+{"step": 51274, "episode/length": 208.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.023923444976076555}
+{"step": 51447, "episode/length": 172.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03468208092485549}
+{"step": 51591, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.041666666666666664}
+{"step": 51707, "episode/length": 115.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.04310344827586207}
+{"step": 51877, "episode/length": 169.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.041176470588235294}
+{"step": 52096, "episode/length": 218.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.0228310502283105}
+{"step": 52296, "episode/length": 199.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02}
+{"step": 52474, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028089887640449437}
+{"step": 52605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.760374257262324, "train/action_min": 0.0, "train/action_std": 3.5074307482007523, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04106956838407147, "train/actor_opt_grad_steps": 25400.0, "train/actor_opt_loss": -13.65962747557902, "train/adv_mag": 0.9417446154943654, "train/adv_max": 0.8430719077587128, "train/adv_mean": 0.002771130264334997, "train/adv_min": -0.6763493758691869, "train/adv_std": 0.06001586655915623, "train/cont_avg": 0.9942369058098591, "train/cont_loss_mean": 4.157440456714232e-05, "train/cont_loss_std": 0.001292727088592131, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.004827309774068261, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 4.208338669392285e-06, "train/cont_pred": 0.9942467145516839, "train/cont_rate": 0.9942369058098591, "train/dyn_loss_mean": 4.134955399472949, "train/dyn_loss_std": 8.007119890669701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2263224779720037, "train/extr_critic_critic_opt_grad_steps": 25400.0, "train/extr_critic_critic_opt_loss": 15088.503589898768, "train/extr_critic_mag": 9.003558420799148, "train/extr_critic_max": 9.003558420799148, "train/extr_critic_mean": 1.3078155509183105, "train/extr_critic_min": -0.5327519211970585, "train/extr_critic_std": 1.6666365593252048, "train/extr_return_normed_mag": 1.9273459474805374, "train/extr_return_normed_max": 1.9273459474805374, "train/extr_return_normed_mean": 0.3183464422612123, "train/extr_return_normed_min": -0.15617811616877436, "train/extr_return_normed_std": 0.3411747168906977, "train/extr_return_rate": 0.5309648526386476, "train/extr_return_raw_mag": 9.342185933824997, "train/extr_return_raw_max": 9.342185933824997, "train/extr_return_raw_mean": 1.3216163860240453, "train/extr_return_raw_min": -1.047350828916254, "train/extr_return_raw_std": 1.703292858432716, "train/extr_reward_mag": 1.0124096668941873, "train/extr_reward_max": 1.0124096668941873, "train/extr_reward_mean": 0.023719545361966316, "train/extr_reward_min": -0.6783348758455733, "train/extr_reward_std": 0.15716884306199114, "train/image_loss_mean": 3.8148532551778875, "train/image_loss_std": 9.049398220760722, "train/model_loss_mean": 6.3354930407564405, "train/model_loss_std": 12.698909672213272, "train/model_opt_grad_norm": 45.84288970517441, "train/model_opt_grad_steps": 25375.549295774646, "train/model_opt_loss": 5146.787824603874, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 792.2535211267606, "train/policy_entropy_mag": 2.4179250757459183, "train/policy_entropy_max": 2.4179250757459183, "train/policy_entropy_mean": 0.48721807985238624, "train/policy_entropy_min": 0.07937505274591311, "train/policy_entropy_std": 0.5175629321118476, "train/policy_logprob_mag": 7.438383444933824, "train/policy_logprob_max": -0.00945566422765104, "train/policy_logprob_mean": -0.48760146658185505, "train/policy_logprob_min": -7.438383444933824, "train/policy_logprob_std": 1.067042370917092, "train/policy_randomness_mag": 0.8534214437847406, "train/policy_randomness_max": 0.8534214437847406, "train/policy_randomness_mean": 0.17196660121561777, "train/policy_randomness_min": 0.028015910241175706, "train/policy_randomness_std": 0.1826770028597872, "train/post_ent_mag": 41.59247814769476, "train/post_ent_max": 41.59247814769476, "train/post_ent_mean": 26.76532283299406, "train/post_ent_min": 14.539622024751045, "train/post_ent_std": 4.562191274804129, "train/prior_ent_mag": 71.08348889418052, "train/prior_ent_max": 71.08348889418052, "train/prior_ent_mean": 30.90654013190471, "train/prior_ent_min": 16.038615737162846, "train/prior_ent_std": 8.820845019649452, "train/rep_loss_mean": 4.134955399472949, "train/rep_loss_std": 8.007119890669701, "train/reward_avg": 0.01899482822045684, "train/reward_loss_mean": 0.03962501206658256, "train/reward_loss_std": 0.18898430592577223, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0051375157396558, "train/reward_neg_acc": 0.9957566076601055, "train/reward_neg_loss": 0.021746591035224184, "train/reward_pos_acc": 0.9813230893981288, "train/reward_pos_loss": 0.7614386543421678, "train/reward_pred": 0.018758161491911177, "train/reward_rate": 0.02422150088028169, "stats/sum_log_reward": 4.224999964237213, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 3.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.25, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.38745033740997314, "replay/size": 52542.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.754250747335833e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2468778144168315e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0409870147705, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.334624767303467, "timer/env.step_frac": 0.0677728232053257, "timer/env.step_avg": 0.014360610711372505, "timer/env.step_min": 0.0028924942016601562, "timer/env.step_max": 1.6953341960906982, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2590348720550537, "timer/replay.add_frac": 0.0008633316222303384, "timer/replay.add_avg": 0.0001829342316772978, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.006985664367675781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026577234268188477, "timer/logger.write_frac": 8.857867897521656e-05, "timer/logger.write_avg": 0.026577234268188477, "timer/logger.write_min": 0.026577234268188477, "timer/logger.write_max": 0.026577234268188477, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.009807109832763672, "timer/checkpoint.save_frac": 3.268590045093034e-05, "timer/checkpoint.save_avg": 0.009807109832763672, "timer/checkpoint.save_min": 0.009807109832763672, "timer/checkpoint.save_max": 0.009807109832763672, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4629521369934082, "timer/agent.save_frac": 0.004875840969425252, "timer/agent.save_avg": 1.4629521369934082, "timer/agent.save_min": 1.4629521369934082, "timer/agent.save_max": 1.4629521369934082, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-06, "timer/replay.save_frac": 2.3838600999851952e-08, "timer/replay.save_avg": 7.152557373046875e-06, "timer/replay.save_min": 7.152557373046875e-06, "timer/replay.save_max": 7.152557373046875e-06, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.85914659500122, "timer/agent.policy_frac": 0.049523722551511704, "timer/agent.policy_avg": 0.010493747595339845, "timer/agent.policy_min": 0.005654335021972656, "timer/agent.policy_max": 3.160658597946167, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06105637550354004, "timer/dataset_frac": 0.00020349344971503622, "timer/dataset_avg": 8.623781850782491e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79209899902344, "timer/agent.train_frac": 0.8791868791780685, "timer/agent.train_avg": 0.3725877104505981, "timer/agent.train_min": 0.36678361892700195, "timer/agent.train_max": 0.4182147979736328, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029662132263184, "timer/agent.report_frac": 0.0007342217592151402, "timer/agent.report_avg": 0.22029662132263184, "timer/agent.report_min": 0.22029662132263184, "timer/agent.report_max": 0.22029662132263184, "fps": 4.7192737150856825}
+{"step": 52612, "episode/length": 137.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.028985507246376812}
+{"step": 53012, "episode/length": 399.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.015}
+{"step": 53164, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
+{"step": 53325, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.031055900621118012}
+{"step": 53492, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
+{"step": 53670, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
+{"step": 53897, "episode/length": 226.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.030837004405286344}
+{"step": 54055, "stats/sum_log_reward": 4.671428510120937, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 3.142857142857143, "stats/mean_log_entropy": 0.4898527903216226, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.699890984429254, "train/action_min": 0.0, "train/action_std": 3.350625412331687, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03902039733818836, "train/actor_opt_grad_steps": 26115.0, "train/actor_opt_loss": -13.682618382904264, "train/adv_mag": 0.8948859903547499, "train/adv_max": 0.8103009975618787, "train/adv_mean": 0.0025931020025180057, "train/adv_min": -0.5897884155727096, "train/adv_std": 0.05747993854391906, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 2.868797950602205e-05, "train/cont_loss_std": 0.0007757340318532454, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009983605503154852, "train/cont_pos_acc": 0.9999863803386688, "train/cont_pos_loss": 2.1407782654531753e-05, "train/cont_pred": 0.9939269150296847, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.169657472107145, "train/dyn_loss_std": 7.995698670546214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1564231697056029, "train/extr_critic_critic_opt_grad_steps": 26115.0, "train/extr_critic_critic_opt_loss": 14922.930840386285, "train/extr_critic_mag": 8.6938645641009, "train/extr_critic_max": 8.6938645641009, "train/extr_critic_mean": 1.2764522035916646, "train/extr_critic_min": -0.5262006488111284, "train/extr_critic_std": 1.6473735835817125, "train/extr_return_normed_mag": 1.8494724366399977, "train/extr_return_normed_max": 1.8494724366399977, "train/extr_return_normed_mean": 0.3068991764965985, "train/extr_return_normed_min": -0.14872516360547808, "train/extr_return_normed_std": 0.3361747446987364, "train/extr_return_rate": 0.5163131393492222, "train/extr_return_raw_mag": 9.033441874716017, "train/extr_return_raw_max": 9.033441874716017, "train/extr_return_raw_mean": 1.2893841067949932, "train/extr_return_raw_min": -0.9939465415146616, "train/extr_return_raw_std": 1.6875251597828336, "train/extr_reward_mag": 1.012205421924591, "train/extr_reward_max": 1.012205421924591, "train/extr_reward_mean": 0.024315130702840786, "train/extr_reward_min": -0.6681165877315733, "train/extr_reward_std": 0.15846765651885006, "train/image_loss_mean": 3.725388662682639, "train/image_loss_std": 8.161429180039299, "train/model_loss_mean": 6.267982105414073, "train/model_loss_std": 11.877085116174486, "train/model_opt_grad_norm": 54.98972196049161, "train/model_opt_grad_steps": 26090.0, "train/model_opt_loss": 4128.974782307942, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 659.7222222222222, "train/policy_entropy_mag": 2.425550126367145, "train/policy_entropy_max": 2.425550126367145, "train/policy_entropy_mean": 0.4932412351999018, "train/policy_entropy_min": 0.07937504278702869, "train/policy_entropy_std": 0.5297180749475956, "train/policy_logprob_mag": 7.438383546140459, "train/policy_logprob_max": -0.009455660849602686, "train/policy_logprob_mean": -0.49298059567809105, "train/policy_logprob_min": -7.438383546140459, "train/policy_logprob_std": 1.0725326620870166, "train/policy_randomness_mag": 0.8561127541793717, "train/policy_randomness_max": 0.8561127541793717, "train/policy_randomness_mean": 0.1740925090594424, "train/policy_randomness_min": 0.028015906741428707, "train/policy_randomness_std": 0.1869672340237432, "train/post_ent_mag": 41.43814812766181, "train/post_ent_max": 41.43814812766181, "train/post_ent_mean": 26.90090298652649, "train/post_ent_min": 14.942006164126926, "train/post_ent_std": 4.496548626157972, "train/prior_ent_mag": 71.26162401835124, "train/prior_ent_max": 71.26162401835124, "train/prior_ent_mean": 31.052150540881687, "train/prior_ent_min": 16.519419259495205, "train/prior_ent_std": 8.759898444016775, "train/rep_loss_mean": 4.169657472107145, "train/rep_loss_std": 7.995698670546214, "train/reward_avg": 0.019421386474277824, "train/reward_loss_mean": 0.04077024310309854, "train/reward_loss_std": 0.19188971569140753, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0062181717819638, "train/reward_neg_acc": 0.995454327099853, "train/reward_neg_loss": 0.022973939737615485, "train/reward_pos_acc": 0.9843892165356212, "train/reward_pos_loss": 0.7427255602346526, "train/reward_pred": 0.019254084501881152, "train/reward_rate": 0.024888780381944444, "replay/size": 53992.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7347859349744075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2921464854273303e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23246335983276, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.43526005744934, "timer/env.step_frac": 0.06140328681030881, "timer/env.step_avg": 0.012713972453413339, "timer/env.step_min": 0.0027556419372558594, "timer/env.step_max": 1.7109243869781494, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26930952072143555, "timer/replay.add_frac": 0.0008970033343751516, "timer/replay.add_avg": 0.00018573070394581762, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.008097171783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02208399772644043, "timer/logger.write_frac": 7.355632858386953e-05, "timer/logger.write_avg": 0.02208399772644043, "timer/logger.write_min": 0.02208399772644043, "timer/logger.write_max": 0.02208399772644043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.58178448677063, "timer/agent.policy_frac": 0.03524530414983211, "timer/agent.policy_avg": 0.0072977824046694, "timer/agent.policy_min": 0.005597114562988281, "timer/agent.policy_max": 0.016936302185058594, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06335616111755371, "timer/dataset_frac": 0.00021102368614156315, "timer/dataset_avg": 8.738780843800512e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0002048015594482422, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.16187477111816, "timer/agent.train_frac": 0.8998423146777617, "timer/agent.train_avg": 0.37263706864981816, "timer/agent.train_min": 0.36531996726989746, "timer/agent.train_max": 0.38477063179016113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677160263061523, "timer/agent.report_frac": 0.000722012537234561, "timer/agent.report_avg": 0.21677160263061523, "timer/agent.report_min": 0.21677160263061523, "timer/agent.report_max": 0.21677160263061523, "fps": 4.8295387662439975}
+{"step": 54087, "episode/length": 189.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03684210526315789}
+{"step": 54266, "episode/length": 178.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03910614525139665}
+{"step": 54698, "episode/length": 431.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.011574074074074073}
+{"step": 54891, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
+{"step": 55331, "episode/length": 439.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.013636363636363636}
+{"step": 55521, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.885799098659206, "train/action_min": 0.0, "train/action_std": 3.530139475255399, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04023706452367273, "train/actor_opt_grad_steps": 26845.0, "train/actor_opt_loss": -16.821828447886414, "train/adv_mag": 0.8333180341366175, "train/adv_max": 0.770560011267662, "train/adv_mean": 0.0017130802817346932, "train/adv_min": -0.5935302759344513, "train/adv_std": 0.05667166275953924, "train/cont_avg": 0.994114231418919, "train/cont_loss_mean": 0.00031000754316631027, "train/cont_loss_std": 0.009580888032823432, "train/cont_neg_acc": 0.9969969971759899, "train/cont_neg_loss": 0.023417755135762885, "train/cont_pos_acc": 0.9999866960821925, "train/cont_pos_loss": 0.00011125448834932101, "train/cont_pred": 0.9941203803629488, "train/cont_rate": 0.994114231418919, "train/dyn_loss_mean": 4.088619151630917, "train/dyn_loss_std": 7.859808464308043, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.115669332646035, "train/extr_critic_critic_opt_grad_steps": 26845.0, "train/extr_critic_critic_opt_loss": 14838.111354518582, "train/extr_critic_mag": 8.661604694418005, "train/extr_critic_max": 8.661604694418005, "train/extr_critic_mean": 1.2885559084447655, "train/extr_critic_min": -0.5696490874161592, "train/extr_critic_std": 1.7280209692748818, "train/extr_return_normed_mag": 1.821451630141284, "train/extr_return_normed_max": 1.821451630141284, "train/extr_return_normed_mean": 0.30952294110446366, "train/extr_return_normed_min": -0.14458987670573029, "train/extr_return_normed_std": 0.3489084632412807, "train/extr_return_rate": 0.4966401232255472, "train/extr_return_raw_mag": 8.905904769897461, "train/extr_return_raw_max": 8.905904769897461, "train/extr_return_raw_mean": 1.2971055974831451, "train/extr_return_raw_min": -0.9889049876380611, "train/extr_return_raw_std": 1.756492321555679, "train/extr_reward_mag": 1.0129500949704968, "train/extr_reward_max": 1.0129500949704968, "train/extr_reward_mean": 0.024594085190344502, "train/extr_reward_min": -0.6723608680673547, "train/extr_reward_std": 0.159751352023434, "train/image_loss_mean": 3.7694211392789274, "train/image_loss_std": 8.339503423587695, "train/model_loss_mean": 6.263906195357039, "train/model_loss_std": 11.986627494966662, "train/model_opt_grad_norm": 46.42696643520046, "train/model_opt_grad_steps": 26820.0, "train/model_opt_loss": 7829.88270032728, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4344497596895374, "train/policy_entropy_max": 2.4344497596895374, "train/policy_entropy_mean": 0.5249128893420503, "train/policy_entropy_min": 0.07937505639888146, "train/policy_entropy_std": 0.5472636210757333, "train/policy_logprob_mag": 7.4383835856978955, "train/policy_logprob_max": -0.00945566235915632, "train/policy_logprob_mean": -0.5265848092936181, "train/policy_logprob_min": -7.4383835856978955, "train/policy_logprob_std": 1.0965966018470559, "train/policy_randomness_mag": 0.8592539349117795, "train/policy_randomness_max": 0.8592539349117795, "train/policy_randomness_mean": 0.1852712141903671, "train/policy_randomness_min": 0.028015911528790318, "train/policy_randomness_std": 0.19316004619405075, "train/post_ent_mag": 41.85063243556667, "train/post_ent_max": 41.85063243556667, "train/post_ent_mean": 27.161929955353607, "train/post_ent_min": 14.915611950126854, "train/post_ent_std": 4.564459829717069, "train/prior_ent_mag": 71.26417943593619, "train/prior_ent_max": 71.26417943593619, "train/prior_ent_mean": 31.282873643411172, "train/prior_ent_min": 16.420952242773932, "train/prior_ent_std": 8.766496684100177, "train/rep_loss_mean": 4.088619151630917, "train/rep_loss_std": 7.859808464308043, "train/reward_avg": 0.019995776821569715, "train/reward_loss_mean": 0.04100353278320383, "train/reward_loss_std": 0.1897553707900885, "train/reward_max_data": 1.006756758367693, "train/reward_max_pred": 1.0074696959675968, "train/reward_neg_acc": 0.9956654600194983, "train/reward_neg_loss": 0.022585126885993255, "train/reward_pos_acc": 0.9825912021301888, "train/reward_pos_loss": 0.7514281852825268, "train/reward_pred": 0.019683372902658744, "train/reward_rate": 0.02537742820945946, "stats/sum_log_reward": 4.699999904632568, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 3.2, "stats/mean_log_entropy": 0.5591341316699981, "replay/size": 55458.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.7849356012487476e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3127658734705405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3039937019348, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.371195793151855, "timer/env.step_frac": 0.0511854524599112, "timer/env.step_avg": 0.0104851267347557, "timer/env.step_min": 0.002946138381958008, "timer/env.step_max": 1.695652961730957, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2670407295227051, "timer/replay.add_frac": 0.0008892346925887206, "timer/replay.add_avg": 0.00018215602286678382, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.002106189727783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021556854248046875, "timer/logger.write_frac": 7.17834417794757e-05, "timer/logger.write_avg": 0.021556854248046875, "timer/logger.write_min": 0.021556854248046875, "timer/logger.write_max": 0.021556854248046875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.76652455329895, "timer/agent.policy_frac": 0.03585208581669816, "timer/agent.policy_avg": 0.0073441504456336635, "timer/agent.policy_min": 0.005718231201171875, "timer/agent.policy_max": 0.0186309814453125, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06531596183776855, "timer/dataset_frac": 0.00021749947788772192, "timer/dataset_avg": 8.91077241988657e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.0002465248107910156, "timer/agent.train_count": 733.0, "timer/agent.train_total": 273.10107016563416, "timer/agent.train_frac": 0.9094153787268617, "timer/agent.train_avg": 0.37257990472801383, "timer/agent.train_min": 0.3665001392364502, "timer/agent.train_max": 0.38443708419799805, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22058987617492676, "timer/agent.report_frac": 0.0007345552533472869, "timer/agent.report_avg": 0.22058987617492676, "timer/agent.report_min": 0.22058987617492676, "timer/agent.report_max": 0.22058987617492676, "fps": 4.881638698825498}
+{"step": 55524, "episode/length": 192.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.025906735751295335}
+{"step": 55773, "episode/length": 248.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.028112449799196786}
+{"step": 56030, "episode/length": 256.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.023346303501945526}
+{"step": 56243, "episode/length": 212.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.028169014084507043}
+{"step": 56452, "episode/length": 208.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03349282296650718}
+{"step": 56643, "episode/length": 190.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.015706806282722512}
+{"step": 56795, "episode/length": 151.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03289473684210526}
+{"step": 56945, "stats/sum_log_reward": 4.099999921662467, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.5714285714285716, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5535978249141148, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.781496719575264, "train/action_min": 0.0, "train/action_std": 3.487125339642377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04097882566422644, "train/actor_opt_grad_steps": 27570.0, "train/actor_opt_loss": -14.006913720931806, "train/adv_mag": 0.776502248686804, "train/adv_max": 0.7296098294392438, "train/adv_mean": 0.0024134453820986146, "train/adv_min": -0.5901315707555959, "train/adv_std": 0.05874994224016095, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 2.9818466980662982e-05, "train/cont_loss_std": 0.0008210449992102248, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001908035915169291, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4921771514684197e-05, "train/cont_pred": 0.9941815658354424, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.176966411966673, "train/dyn_loss_std": 7.935670725056823, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.15130451783328, "train/extr_critic_critic_opt_grad_steps": 27570.0, "train/extr_critic_critic_opt_loss": 15068.454871808979, "train/extr_critic_mag": 7.991827796882307, "train/extr_critic_max": 7.991827796882307, "train/extr_critic_mean": 1.2684088357737366, "train/extr_critic_min": -0.5744181787463981, "train/extr_critic_std": 1.6751020374432417, "train/extr_return_normed_mag": 1.745632312667202, "train/extr_return_normed_max": 1.745632312667202, "train/extr_return_normed_mean": 0.30310888966204413, "train/extr_return_normed_min": -0.15961564206321474, "train/extr_return_normed_std": 0.33981569552085766, "train/extr_return_rate": 0.4930219599898432, "train/extr_return_raw_mag": 8.506900182912048, "train/extr_return_raw_max": 8.506900182912048, "train/extr_return_raw_mean": 1.2805612397865511, "train/extr_return_raw_min": -1.0426644968314909, "train/extr_return_raw_std": 1.7050626999895337, "train/extr_reward_mag": 1.0220140940706495, "train/extr_reward_max": 1.0220140940706495, "train/extr_reward_mean": 0.02473389110724691, "train/extr_reward_min": -0.6712911817389475, "train/extr_reward_std": 0.16024150552464203, "train/image_loss_mean": 3.668018505606853, "train/image_loss_std": 8.13535878356074, "train/model_loss_mean": 6.21279879019294, "train/model_loss_std": 11.811951026110583, "train/model_opt_grad_norm": 47.02331091652454, "train/model_opt_grad_steps": 27544.450704225354, "train/model_opt_loss": 8904.637722821302, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.4203561460468133, "train/policy_entropy_max": 2.4203561460468133, "train/policy_entropy_mean": 0.518098922262729, "train/policy_entropy_min": 0.07937504529533251, "train/policy_entropy_std": 0.536454008498662, "train/policy_logprob_mag": 7.438383491945938, "train/policy_logprob_max": -0.00945566422765104, "train/policy_logprob_mean": -0.5168993603175794, "train/policy_logprob_min": -7.438383491945938, "train/policy_logprob_std": 1.084767548131271, "train/policy_randomness_mag": 0.8542795063744129, "train/policy_randomness_max": 0.8542795063744129, "train/policy_randomness_mean": 0.1828661840146696, "train/policy_randomness_min": 0.028015907591497396, "train/policy_randomness_std": 0.1893447266078331, "train/post_ent_mag": 42.132293754900005, "train/post_ent_max": 42.132293754900005, "train/post_ent_mean": 27.163739298430965, "train/post_ent_min": 14.966864344099877, "train/post_ent_std": 4.660248333299664, "train/prior_ent_mag": 71.42354820144008, "train/prior_ent_max": 71.42354820144008, "train/prior_ent_mean": 31.35616270253356, "train/prior_ent_min": 16.430991320542887, "train/prior_ent_std": 8.792477332370382, "train/rep_loss_mean": 4.176966411966673, "train/rep_loss_std": 7.935670725056823, "train/reward_avg": 0.019169509004224355, "train/reward_loss_mean": 0.03857064721974689, "train/reward_loss_std": 0.1851506277289189, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0083406592758608, "train/reward_neg_acc": 0.9963360134984406, "train/reward_neg_loss": 0.020804591883551066, "train/reward_pos_acc": 0.9815021694546014, "train/reward_pos_loss": 0.756345615420543, "train/reward_pred": 0.018937445750696138, "train/reward_rate": 0.0244140625, "replay/size": 56882.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.680419386102912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2977404540844177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11106991767883, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.545114755630493, "timer/env.step_frac": 0.061794170940503663, "timer/env.step_avg": 0.013023254744122538, "timer/env.step_min": 0.00286102294921875, "timer/env.step_max": 1.7605857849121094, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.273179292678833, "timer/replay.add_frac": 0.0009102606336839448, "timer/replay.add_avg": 0.00019183939092614678, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0009529590606689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02668166160583496, "timer/logger.write_frac": 8.890595609536763e-05, "timer/logger.write_avg": 0.02668166160583496, "timer/logger.write_min": 0.02668166160583496, "timer/logger.write_max": 0.02668166160583496, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.825179540343409e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3442811965942383, "timer/agent.save_frac": 0.00447927894483525, "timer/agent.save_avg": 1.3442811965942383, "timer/agent.save_min": 1.3442811965942383, "timer/agent.save_max": 1.3442811965942383, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.249282836914062e-05, "timer/replay.save_frac": 2.7487432700089537e-07, "timer/replay.save_avg": 8.249282836914062e-05, "timer/replay.save_min": 8.249282836914062e-05, "timer/replay.save_max": 8.249282836914062e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.176546335220337, "timer/agent.policy_frac": 0.05056976518521392, "timer/agent.policy_avg": 0.010657687033160348, "timer/agent.policy_min": 0.0056192874908447266, "timer/agent.policy_max": 3.424830675125122, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06248760223388672, "timer/dataset_frac": 0.00020821491939976495, "timer/dataset_avg": 8.776348628354877e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3239686489105, "timer/agent.train_frac": 0.8840859109985163, "timer/agent.train_avg": 0.3726460233833013, "timer/agent.train_min": 0.3630373477935791, "timer/agent.train_max": 0.3852386474609375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22088336944580078, "timer/agent.report_frac": 0.0007360054046203281, "timer/agent.report_avg": 0.22088336944580078, "timer/agent.report_min": 0.22088336944580078, "timer/agent.report_max": 0.22088336944580078, "fps": 4.744841223019494}
+{"step": 57000, "episode/length": 204.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024390243902439025}
+{"step": 57152, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.02631578947368421}
+{"step": 57201, "episode/length": 48.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.500000014901161, "episode/reward_rate": 0.10204081632653061}
+{"step": 57419, "episode/length": 217.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03211009174311927}
+{"step": 57774, "episode/length": 354.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016901408450704224}
+{"step": 57944, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
+{"step": 58117, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04046242774566474}
+{"step": 58265, "episode/length": 147.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.700000002980232, "episode/reward_rate": 0.04054054054054054}
+{"step": 58387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.778483072916667, "train/action_min": 0.0, "train/action_std": 3.4626749654610953, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038909583637076944, "train/actor_opt_grad_steps": 28285.0, "train/actor_opt_loss": -17.171301126480103, "train/adv_mag": 0.6447755719224612, "train/adv_max": 0.5771619776884714, "train/adv_mean": 0.0014044928580005944, "train/adv_min": -0.5369101613759995, "train/adv_std": 0.054349398913068905, "train/cont_avg": 0.9941677517361112, "train/cont_loss_mean": 0.00014037045116705512, "train/cont_loss_std": 0.004408114958494814, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007194526602158173, "train/cont_pos_acc": 0.9999726000759337, "train/cont_pos_loss": 9.797465329776224e-05, "train/cont_pred": 0.9941494539380074, "train/cont_rate": 0.9941677517361112, "train/dyn_loss_mean": 4.17061424586508, "train/dyn_loss_std": 7.980592641565535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1352487098839548, "train/extr_critic_critic_opt_grad_steps": 28285.0, "train/extr_critic_critic_opt_loss": 14970.237033420139, "train/extr_critic_mag": 7.572121428118812, "train/extr_critic_max": 7.572121428118812, "train/extr_critic_mean": 1.311110998193423, "train/extr_critic_min": -0.5943335145711899, "train/extr_critic_std": 1.7170729670259688, "train/extr_return_normed_mag": 1.6438223587142096, "train/extr_return_normed_max": 1.6438223587142096, "train/extr_return_normed_mean": 0.3154011946171522, "train/extr_return_normed_min": -0.16977602760824892, "train/extr_return_normed_std": 0.3471626494493749, "train/extr_return_rate": 0.5000253443916639, "train/extr_return_raw_mag": 7.983698394563463, "train/extr_return_raw_max": 7.983698394563463, "train/extr_return_raw_mean": 1.318172877861394, "train/extr_return_raw_min": -1.1163344904780388, "train/extr_return_raw_std": 1.742218895090951, "train/extr_reward_mag": 1.0200145377053156, "train/extr_reward_max": 1.0200145377053156, "train/extr_reward_mean": 0.025925404676753614, "train/extr_reward_min": -0.6693932712078094, "train/extr_reward_std": 0.16246369170645872, "train/image_loss_mean": 3.732308785120646, "train/image_loss_std": 8.282925334241655, "train/model_loss_mean": 6.27488589949078, "train/model_loss_std": 12.025719477070702, "train/model_opt_grad_norm": 47.6725434727139, "train/model_opt_grad_steps": 28258.88888888889, "train/model_opt_loss": 8256.578016493055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.4204558398988514, "train/policy_entropy_max": 2.4204558398988514, "train/policy_entropy_mean": 0.5192630452414354, "train/policy_entropy_min": 0.07937505116893186, "train/policy_entropy_std": 0.5481555730932288, "train/policy_logprob_mag": 7.4383835262722435, "train/policy_logprob_max": -0.009455660849602686, "train/policy_logprob_mean": -0.5185052735937966, "train/policy_logprob_min": -7.4383835262722435, "train/policy_logprob_std": 1.0869534918003612, "train/policy_randomness_mag": 0.8543146923184395, "train/policy_randomness_max": 0.8543146923184395, "train/policy_randomness_mean": 0.1832770692805449, "train/policy_randomness_min": 0.02801590971648693, "train/policy_randomness_std": 0.19347486624287236, "train/post_ent_mag": 42.20912419425117, "train/post_ent_max": 42.20912419425117, "train/post_ent_mean": 27.249812629487778, "train/post_ent_min": 14.894216418266296, "train/post_ent_std": 4.576065735684501, "train/prior_ent_mag": 71.55760362413194, "train/prior_ent_max": 71.55760362413194, "train/prior_ent_mean": 31.40268890062968, "train/prior_ent_min": 16.141956912146675, "train/prior_ent_std": 8.824684076839024, "train/rep_loss_mean": 4.17061424586508, "train/rep_loss_std": 7.980592641565535, "train/reward_avg": 0.020168728065780468, "train/reward_loss_mean": 0.040068193054240614, "train/reward_loss_std": 0.1883034168018235, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.008319581548373, "train/reward_neg_acc": 0.9959492236375809, "train/reward_neg_loss": 0.022137879503942613, "train/reward_pos_acc": 0.9875521916482184, "train/reward_pos_loss": 0.7343103248212073, "train/reward_pred": 0.020020233454286225, "train/reward_rate": 0.025200737847222224, "stats/sum_log_reward": 4.099999904632568, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_wood": 4.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.4357483647763729, "replay/size": 58324.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.6814341763352225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2572570581211296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20866560935974, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.00205707550049, "timer/env.step_frac": 0.06662718091398383, "timer/env.step_avg": 0.013871052063453876, "timer/env.step_min": 0.002912282943725586, "timer/env.step_max": 1.687328577041626, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2533888816833496, "timer/replay.add_frac": 0.0008440425301149255, "timer/replay.add_avg": 0.0001757204449953881, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0013301372528076172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02769303321838379, "timer/logger.write_frac": 9.224594887083897e-05, "timer/logger.write_avg": 0.02769303321838379, "timer/logger.write_min": 0.02769303321838379, "timer/logger.write_max": 0.02769303321838379, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.483874797821045, "timer/agent.policy_frac": 0.034921959286355074, "timer/agent.policy_avg": 0.007270370872275343, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.014445781707763672, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06420063972473145, "timer/dataset_frac": 0.00021385338625858053, "timer/dataset_avg": 8.904388311335845e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.00031113624572753906, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.6800842285156, "timer/agent.train_frac": 0.8949777771509433, "timer/agent.train_avg": 0.3726492152961382, "timer/agent.train_min": 0.3663065433502197, "timer/agent.train_max": 0.3840019702911377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21656417846679688, "timer/agent.report_frac": 0.0007213788383730285, "timer/agent.report_avg": 0.21656417846679688, "timer/agent.report_min": 0.21656417846679688, "timer/agent.report_max": 0.21656417846679688, "fps": 4.803249437891006}
+{"step": 58433, "episode/length": 167.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.100000038743019, "episode/reward_rate": 0.02976190476190476}
+{"step": 58658, "episode/length": 224.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02666666666666667}
+{"step": 58861, "episode/length": 202.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.019704433497536946}
+{"step": 59050, "episode/length": 188.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.500000022351742, "episode/reward_rate": 0.010582010582010581}
+{"step": 59228, "episode/length": 177.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.016853932584269662}
+{"step": 59389, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
+{"step": 59541, "episode/length": 151.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.05263157894736842}
+{"step": 59708, "episode/length": 166.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023952095808383235}
+{"step": 59827, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.8715930514865455, "train/action_min": 0.0, "train/action_std": 3.6511413289441004, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03986363995095922, "train/actor_opt_grad_steps": 29005.0, "train/actor_opt_loss": -16.343806541628307, "train/adv_mag": 0.6586254739926921, "train/adv_max": 0.6026627061267694, "train/adv_mean": 0.002086400816147539, "train/adv_min": -0.5043269954621792, "train/adv_std": 0.05592203109214703, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.00011718720680183499, "train/cont_loss_std": 0.003475107056562226, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.004935571861248415, "train/cont_pos_acc": 0.9999863050050206, "train/cont_pos_loss": 8.602427428883175e-05, "train/cont_pred": 0.9942426292432679, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.151144057512283, "train/dyn_loss_std": 7.9942788283030195, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1687901458806462, "train/extr_critic_critic_opt_grad_steps": 29005.0, "train/extr_critic_critic_opt_loss": 14998.39293077257, "train/extr_critic_mag": 7.281337969832951, "train/extr_critic_max": 7.281337969832951, "train/extr_critic_mean": 1.2368736631340451, "train/extr_critic_min": -0.6043586432933807, "train/extr_critic_std": 1.6457899146609836, "train/extr_return_normed_mag": 1.6488163934813604, "train/extr_return_normed_max": 1.6488163934813604, "train/extr_return_normed_mean": 0.3078010574811035, "train/extr_return_normed_min": -0.15493100767748225, "train/extr_return_normed_std": 0.33963002843989265, "train/extr_return_rate": 0.48766640366779435, "train/extr_return_raw_mag": 7.8597421116299095, "train/extr_return_raw_max": 7.8597421116299095, "train/extr_return_raw_mean": 1.247162975370884, "train/extr_return_raw_min": -1.0367424984773, "train/extr_return_raw_std": 1.6761050919691722, "train/extr_reward_mag": 1.0198895004060533, "train/extr_reward_max": 1.0198895004060533, "train/extr_reward_mean": 0.025066617423565023, "train/extr_reward_min": -0.6706757313675351, "train/extr_reward_std": 0.16112091568195158, "train/image_loss_mean": 3.646690626939138, "train/image_loss_std": 8.460868530803257, "train/model_loss_mean": 6.176173018084632, "train/model_loss_std": 12.16979870531294, "train/model_opt_grad_norm": 42.842109468248154, "train/model_opt_grad_steps": 28978.0, "train/model_opt_loss": 7720.21630859375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4274473985036216, "train/policy_entropy_max": 2.4274473985036216, "train/policy_entropy_mean": 0.5348760146233771, "train/policy_entropy_min": 0.07937503957913981, "train/policy_entropy_std": 0.5682244992090596, "train/policy_logprob_mag": 7.438383566008674, "train/policy_logprob_max": -0.009455659206853144, "train/policy_logprob_mean": -0.5350567611555258, "train/policy_logprob_min": -7.438383566008674, "train/policy_logprob_std": 1.1024774586160977, "train/policy_randomness_mag": 0.8567824065685272, "train/policy_randomness_max": 0.8567824065685272, "train/policy_randomness_mean": 0.18878775855733287, "train/policy_randomness_min": 0.028015905654885702, "train/policy_randomness_std": 0.20055831472078958, "train/post_ent_mag": 42.261815812852646, "train/post_ent_max": 42.261815812852646, "train/post_ent_mean": 27.43878830803765, "train/post_ent_min": 15.1999608013365, "train/post_ent_std": 4.5977967911296425, "train/prior_ent_mag": 71.74485079447429, "train/prior_ent_max": 71.74485079447429, "train/prior_ent_mean": 31.642038451300728, "train/prior_ent_min": 16.723166002167595, "train/prior_ent_std": 8.779284569952223, "train/rep_loss_mean": 4.151144057512283, "train/rep_loss_std": 7.9942788283030195, "train/reward_avg": 0.019881184691459768, "train/reward_loss_mean": 0.038678766771530114, "train/reward_loss_std": 0.17649010154936048, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0078465110725827, "train/reward_neg_acc": 0.9959549473391639, "train/reward_neg_loss": 0.0211771149511656, "train/reward_pos_acc": 0.9893721805678474, "train/reward_pos_loss": 0.7216326942046484, "train/reward_pred": 0.0197710571034501, "train/reward_rate": 0.024997287326388888, "stats/sum_log_reward": 3.5999999195337296, "stats/max_log_achievement_collect_drink": 4.875, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_wood": 2.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.125, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.48932162299752235, "replay/size": 59764.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7079056104024253e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2972495622105068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16051626205444, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.283518075942993, "timer/env.step_frac": 0.06757557032662655, "timer/env.step_avg": 0.014085776441627078, "timer/env.step_min": 0.0030832290649414062, "timer/env.step_max": 1.738457441329956, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25821685791015625, "timer/replay.add_frac": 0.0008602625725920614, "timer/replay.add_avg": 0.0001793172624376085, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0019502639770507812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02157759666442871, "timer/logger.write_frac": 7.188685884851837e-05, "timer/logger.write_avg": 0.02157759666442871, "timer/logger.write_min": 0.02157759666442871, "timer/logger.write_max": 0.02157759666442871, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.551478862762451, "timer/agent.policy_frac": 0.0351527875623405, "timer/agent.policy_avg": 0.007327415876918369, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.01679825782775879, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0636894702911377, "timer/dataset_frac": 0.00021218470398529616, "timer/dataset_avg": 8.845759762658014e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.27993535995483, "timer/agent.train_frac": 0.8937882260494704, "timer/agent.train_avg": 0.3726110213332706, "timer/agent.train_min": 0.3664379119873047, "timer/agent.train_max": 0.3910205364227295, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22284793853759766, "timer/agent.report_frac": 0.0007424292219135204, "timer/agent.report_avg": 0.22284793853759766, "timer/agent.report_min": 0.22284793853759766, "timer/agent.report_max": 0.22284793853759766, "fps": 4.7973681354458275}
+{"step": 59855, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
+{"step": 59920, "episode/length": 64.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.3000000417232513, "episode/reward_rate": 0.015384615384615385}
+{"step": 59960, "episode/length": 39.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.100000038743019, "episode/reward_rate": 0.1}
+{"step": 60042, "episode/length": 81.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.08536585365853659}
+{"step": 60193, "episode/length": 150.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.033112582781456956}
+{"step": 60240, "episode/length": 46.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.0851063829787234}
+{"step": 60418, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
+{"step": 60605, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.026737967914438502}
+{"step": 60837, "episode/length": 231.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02586206896551724}
+{"step": 60980, "episode/length": 142.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04895104895104895}
+{"step": 61163, "episode/length": 182.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.03825136612021858}
+{"step": 61221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7076180594308035, "train/action_min": 0.0, "train/action_std": 3.5133291823523387, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04208756012043783, "train/actor_opt_grad_steps": 29715.0, "train/actor_opt_loss": -16.139667833702905, "train/adv_mag": 0.6982903957366944, "train/adv_max": 0.6350861000163215, "train/adv_mean": 0.0018292506933253857, "train/adv_min": -0.5632221366677965, "train/adv_std": 0.05771506136017186, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 0.00013641581661707797, "train/cont_loss_std": 0.004242785091860567, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.01635486457006924, "train/cont_pos_acc": 0.9999859452247619, "train/cont_pos_loss": 2.4617826714136623e-05, "train/cont_pred": 0.9945215199674878, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.076983530180795, "train/dyn_loss_std": 7.891173669270107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.12286576628685, "train/extr_critic_critic_opt_grad_steps": 29715.0, "train/extr_critic_critic_opt_loss": 14898.743917410715, "train/extr_critic_mag": 7.2954074519021175, "train/extr_critic_max": 7.2954074519021175, "train/extr_critic_mean": 1.216469133751733, "train/extr_critic_min": -0.6417477284158979, "train/extr_critic_std": 1.6659136278288704, "train/extr_return_normed_mag": 1.6413805740220206, "train/extr_return_normed_max": 1.6413805740220206, "train/extr_return_normed_mean": 0.30388944979224886, "train/extr_return_normed_min": -0.15452472546270915, "train/extr_return_normed_std": 0.342695725602763, "train/extr_return_rate": 0.47942617748464855, "train/extr_return_raw_mag": 7.831664058140346, "train/extr_return_raw_max": 7.831664058140346, "train/extr_return_raw_mean": 1.2255100735596247, "train/extr_return_raw_min": -1.0381272724696569, "train/extr_return_raw_std": 1.692735391003745, "train/extr_reward_mag": 1.0178643873759678, "train/extr_reward_max": 1.0178643873759678, "train/extr_reward_mean": 0.02527441523436989, "train/extr_reward_min": -0.6817393915993827, "train/extr_reward_std": 0.1623672949416297, "train/image_loss_mean": 3.4894241946084157, "train/image_loss_std": 8.366396147864206, "train/model_loss_mean": 5.975286293029785, "train/model_loss_std": 12.026066977637155, "train/model_opt_grad_norm": 42.97071990966797, "train/model_opt_grad_steps": 29687.32857142857, "train/model_opt_loss": 7747.304115513393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1303.5714285714287, "train/policy_entropy_mag": 2.440193782533918, "train/policy_entropy_max": 2.440193782533918, "train/policy_entropy_mean": 0.5237832831484931, "train/policy_entropy_min": 0.07937502882310322, "train/policy_entropy_std": 0.5600132231201445, "train/policy_logprob_mag": 7.438383613313947, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5238560280629567, "train/policy_logprob_min": -7.438383613313947, "train/policy_logprob_std": 1.0943042261259897, "train/policy_randomness_mag": 0.8612813200269427, "train/policy_randomness_max": 0.8612813200269427, "train/policy_randomness_mean": 0.18487251475453376, "train/policy_randomness_min": 0.02801590178694044, "train/policy_randomness_std": 0.19766009471246174, "train/post_ent_mag": 42.98254378182548, "train/post_ent_max": 42.98254378182548, "train/post_ent_mean": 27.647993659973146, "train/post_ent_min": 15.332669694083078, "train/post_ent_std": 4.553370189666748, "train/prior_ent_mag": 71.73250350952148, "train/prior_ent_max": 71.73250350952148, "train/prior_ent_mean": 31.752976090567454, "train/prior_ent_min": 17.024189935411727, "train/prior_ent_std": 8.649645239966256, "train/rep_loss_mean": 4.076983530180795, "train/rep_loss_std": 7.891173669270107, "train/reward_avg": 0.019669363727527006, "train/reward_loss_mean": 0.039535583422652315, "train/reward_loss_std": 0.18652191747512137, "train/reward_max_data": 1.0085714306150164, "train/reward_max_pred": 1.008294313294547, "train/reward_neg_acc": 0.9961804492133004, "train/reward_neg_loss": 0.021515829448721237, "train/reward_pos_acc": 0.9809953102043697, "train/reward_pos_loss": 0.7522714308329991, "train/reward_pred": 0.019395020012078542, "train/reward_rate": 0.024790736607142858, "stats/sum_log_reward": 4.099999917501753, "stats/max_log_achievement_collect_drink": 4.7272727272727275, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 2.727272727272727, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.09090909090909091, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4545454545454546, "stats/max_log_achievement_place_table": 1.1818181818181819, "stats/max_log_achievement_wake_up": 1.6363636363636365, "stats/mean_log_entropy": 0.33657062460075726, "replay/size": 61158.0, "replay/inserts": 1394.0, "replay/samples": 11152.0, "replay/insert_wait_avg": 3.726957860259791e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2640546007854182e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1255877017975, "timer/env.step_count": 1394.0, "timer/env.step_total": 26.758951425552368, "timer/env.step_frac": 0.08915918042996007, "timer/env.step_avg": 0.019195804465962963, "timer/env.step_min": 0.003168821334838867, "timer/env.step_max": 1.9743447303771973, "timer/replay.add_count": 1394.0, "timer/replay.add_total": 0.26956677436828613, "timer/replay.add_frac": 0.0008981799133905425, "timer/replay.add_avg": 0.0001933764522010661, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.003980159759521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02690744400024414, "timer/logger.write_frac": 8.965394855629295e-05, "timer/logger.write_avg": 0.02690744400024414, "timer/logger.write_min": 0.02690744400024414, "timer/logger.write_max": 0.02690744400024414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002231597900390625, "timer/checkpoint.save_frac": 7.435546957122242e-07, "timer/checkpoint.save_avg": 0.0002231597900390625, "timer/checkpoint.save_min": 0.0002231597900390625, "timer/checkpoint.save_max": 0.0002231597900390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3618409633636475, "timer/agent.save_frac": 0.004537570334445334, "timer/agent.save_avg": 1.3618409633636475, "timer/agent.save_min": 1.3618409633636475, "timer/agent.save_max": 1.3618409633636475, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478515652374081e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1394.0, "timer/agent.policy_total": 12.331256866455078, "timer/agent.policy_frac": 0.04108698948623908, "timer/agent.policy_avg": 0.00884595184107251, "timer/agent.policy_min": 0.005713939666748047, "timer/agent.policy_max": 1.3574063777923584, "timer/dataset_count": 697.0, "timer/dataset_total": 0.061994075775146484, "timer/dataset_frac": 0.00020656044774410682, "timer/dataset_avg": 8.89441546271829e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00030422210693359375, "timer/agent.train_count": 697.0, "timer/agent.train_total": 259.9836151599884, "timer/agent.train_frac": 0.866249416288711, "timer/agent.train_avg": 0.3730037520229389, "timer/agent.train_min": 0.362774133682251, "timer/agent.train_max": 0.6731607913970947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21992993354797363, "timer/agent.report_frac": 0.0007327930125254577, "timer/agent.report_avg": 0.21992993354797363, "timer/agent.report_min": 0.21992993354797363, "timer/agent.report_max": 0.21992993354797363, "fps": 4.644627290796914}
+{"step": 61351, "episode/length": 187.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.02127659574468085}
+{"step": 61531, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03333333333333333}
+{"step": 61690, "episode/length": 158.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03773584905660377}
+{"step": 61840, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
+{"step": 61995, "episode/length": 154.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04516129032258064}
+{"step": 62134, "episode/length": 138.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03597122302158273}
+{"step": 62295, "episode/length": 160.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.037267080745341616}
+{"step": 62464, "episode/length": 168.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04142011834319527}
+{"step": 62609, "episode/length": 144.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.041379310344827586}
+{"step": 62651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.816797390790053, "train/action_min": 0.0, "train/action_std": 3.5496275324217033, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04055291443118747, "train/actor_opt_grad_steps": 30420.0, "train/actor_opt_loss": -12.620691077180311, "train/adv_mag": 0.6301205326134051, "train/adv_max": 0.5859725005190137, "train/adv_mean": 0.002198994054965688, "train/adv_min": -0.4900391853191483, "train/adv_std": 0.05590594832746076, "train/cont_avg": 0.9940718529929577, "train/cont_loss_mean": 7.781886703514188e-05, "train/cont_loss_std": 0.0022842694400946077, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.007402785586902968, "train/cont_pos_acc": 0.9999861373028285, "train/cont_pos_loss": 3.731493759388081e-05, "train/cont_pred": 0.9940734807874115, "train/cont_rate": 0.9940718529929577, "train/dyn_loss_mean": 4.107761305822453, "train/dyn_loss_std": 8.012238589810654, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1513958111615248, "train/extr_critic_critic_opt_grad_steps": 30420.0, "train/extr_critic_critic_opt_loss": 15011.657996808979, "train/extr_critic_mag": 6.920561756886227, "train/extr_critic_max": 6.920561756886227, "train/extr_critic_mean": 1.2038702519846634, "train/extr_critic_min": -0.5681238157648436, "train/extr_critic_std": 1.5594560008653453, "train/extr_return_normed_mag": 1.6315154189794836, "train/extr_return_normed_max": 1.6315154189794836, "train/extr_return_normed_mean": 0.3102942921326194, "train/extr_return_normed_min": -0.15228980066071093, "train/extr_return_normed_std": 0.33583446665548944, "train/extr_return_rate": 0.4971235222379926, "train/extr_return_raw_mag": 7.4459395139989715, "train/extr_return_raw_max": 7.4459395139989715, "train/extr_return_raw_mean": 1.214308160291591, "train/extr_return_raw_min": -0.9666351499691815, "train/extr_return_raw_std": 1.5839689432735173, "train/extr_reward_mag": 1.0294280387985875, "train/extr_reward_max": 1.0294280387985875, "train/extr_reward_mean": 0.025772130615274672, "train/extr_reward_min": -0.676350796726388, "train/extr_reward_std": 0.1628722102499344, "train/image_loss_mean": 3.3778098771269893, "train/image_loss_std": 7.774422145225633, "train/model_loss_mean": 5.8824288005560215, "train/model_loss_std": 11.523157072738863, "train/model_opt_grad_norm": 44.906088202340264, "train/model_opt_grad_steps": 30391.845070422536, "train/model_opt_loss": 8073.176255776849, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1373.2394366197184, "train/policy_entropy_mag": 2.456956816391206, "train/policy_entropy_max": 2.456956816391206, "train/policy_entropy_mean": 0.5272927019797581, "train/policy_entropy_min": 0.07937502819047847, "train/policy_entropy_std": 0.5741494994767955, "train/policy_logprob_mag": 7.438383585970167, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5274079668689782, "train/policy_logprob_min": -7.438383585970167, "train/policy_logprob_std": 1.099947561680431, "train/policy_randomness_mag": 0.867197938368354, "train/policy_randomness_max": 0.867197938368354, "train/policy_randomness_mean": 0.18611118470279264, "train/policy_randomness_min": 0.02801590153134205, "train/policy_randomness_std": 0.20264957593360416, "train/post_ent_mag": 43.15404730783382, "train/post_ent_max": 43.15404730783382, "train/post_ent_mean": 27.752446349238006, "train/post_ent_min": 15.37988399451887, "train/post_ent_std": 4.601733368887028, "train/prior_ent_mag": 71.80459111173388, "train/prior_ent_max": 71.80459111173388, "train/prior_ent_mean": 31.876537860279353, "train/prior_ent_min": 17.04256247130918, "train/prior_ent_std": 8.762043382080508, "train/rep_loss_mean": 4.107761305822453, "train/rep_loss_std": 8.012238589810654, "train/reward_avg": 0.01999614854067774, "train/reward_loss_mean": 0.03988435735899798, "train/reward_loss_std": 0.1813429368423744, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0167576141760384, "train/reward_neg_acc": 0.9952496298601929, "train/reward_neg_loss": 0.021673373491044194, "train/reward_pos_acc": 0.9824975804543831, "train/reward_pos_loss": 0.7435570376020082, "train/reward_pred": 0.019661164816311548, "train/reward_rate": 0.02522557218309859, "stats/sum_log_reward": 4.322222179836697, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_wood": 2.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 1.1111111111111112, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3962032000223796, "replay/size": 62588.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.744005323289991e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2705376098205993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16463017463684, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.1538405418396, "timer/env.step_frac": 0.07380563302528488, "timer/env.step_avg": 0.015492196183104615, "timer/env.step_min": 0.0029714107513427734, "timer/env.step_max": 1.6925997734069824, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2614595890045166, "timer/replay.add_frac": 0.0008710539574646037, "timer/replay.add_avg": 0.0001828388734297319, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0020837783813476562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030515193939208984, "timer/logger.write_frac": 0.00010166152461552561, "timer/logger.write_avg": 0.030515193939208984, "timer/logger.write_min": 0.030515193939208984, "timer/logger.write_max": 0.030515193939208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.534804821014404, "timer/agent.policy_frac": 0.035096756119750744, "timer/agent.policy_avg": 0.007366996378331751, "timer/agent.policy_min": 0.005685567855834961, "timer/agent.policy_max": 0.017633914947509766, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06440353393554688, "timer/dataset_frac": 0.0002145607025653778, "timer/dataset_avg": 9.00748726371285e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021076202392578125, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.4088921546936, "timer/agent.train_frac": 0.8875425862124261, "timer/agent.train_avg": 0.37259984916740363, "timer/agent.train_min": 0.3656883239746094, "timer/agent.train_max": 0.38514256477355957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986031532287598, "timer/agent.report_frac": 0.0007324657645204916, "timer/agent.report_avg": 0.21986031532287598, "timer/agent.report_min": 0.21986031532287598, "timer/agent.report_max": 0.21986031532287598, "fps": 4.76398892875849}
+{"step": 62803, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03608247422680412}
+{"step": 63073, "episode/length": 269.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025925925925925925}
+{"step": 63243, "episode/length": 169.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.03529411764705882}
+{"step": 63385, "episode/length": 141.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04929577464788732}
+{"step": 63554, "episode/length": 168.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.029585798816568046}
+{"step": 63798, "episode/length": 243.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.028688524590163935}
+{"step": 63954, "episode/length": 155.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 64099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.996121341235017, "train/action_min": 0.0, "train/action_std": 3.7124980181863863, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04399796218088228, "train/actor_opt_grad_steps": 31140.0, "train/actor_opt_loss": -13.05207022248882, "train/adv_mag": 0.6877489008315621, "train/adv_max": 0.6284010977777716, "train/adv_mean": 0.0028311323764919757, "train/adv_min": -0.5810864980090155, "train/adv_std": 0.059127498520155475, "train/cont_avg": 0.9940068493150684, "train/cont_loss_mean": 0.00016617279419194834, "train/cont_loss_std": 0.0052023627394914475, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.004846212188767075, "train/cont_pos_acc": 0.9999865260842729, "train/cont_pos_loss": 0.00012883273803033124, "train/cont_pred": 0.9940076356064783, "train/cont_rate": 0.9940068493150684, "train/dyn_loss_mean": 4.224803052536429, "train/dyn_loss_std": 8.079440463079164, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1382608544336605, "train/extr_critic_critic_opt_grad_steps": 31140.0, "train/extr_critic_critic_opt_loss": 15110.317008240581, "train/extr_critic_mag": 7.435541459958848, "train/extr_critic_max": 7.435541459958848, "train/extr_critic_mean": 1.231964445277436, "train/extr_critic_min": -0.6082466710103701, "train/extr_critic_std": 1.6281098633596343, "train/extr_return_normed_mag": 1.7120352379263264, "train/extr_return_normed_max": 1.7120352379263264, "train/extr_return_normed_mean": 0.31323250189219437, "train/extr_return_normed_min": -0.18405295015402037, "train/extr_return_normed_std": 0.34293962708891257, "train/extr_return_rate": 0.5006466087413161, "train/extr_return_raw_mag": 8.01626644395802, "train/extr_return_raw_max": 8.01626644395802, "train/extr_return_raw_mean": 1.2456481979317862, "train/extr_return_raw_min": -1.1626541320591757, "train/extr_return_raw_std": 1.660157855242899, "train/extr_reward_mag": 1.023398556121408, "train/extr_reward_max": 1.023398556121408, "train/extr_reward_mean": 0.0260707210647325, "train/extr_reward_min": -0.6896816459420609, "train/extr_reward_std": 0.16582607365634344, "train/image_loss_mean": 3.473559882542858, "train/image_loss_std": 8.282820747323232, "train/model_loss_mean": 6.049639368710452, "train/model_loss_std": 12.047387306004355, "train/model_opt_grad_norm": 42.989243598833475, "train/model_opt_grad_steps": 31111.0, "train/model_opt_loss": 7562.04922276327, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.467164353148578, "train/policy_entropy_max": 2.467164353148578, "train/policy_entropy_mean": 0.5911751434411088, "train/policy_entropy_min": 0.07937502993704522, "train/policy_entropy_std": 0.6281684036940745, "train/policy_logprob_mag": 7.438383585786166, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5927964093750471, "train/policy_logprob_min": -7.438383585786166, "train/policy_logprob_std": 1.1424942441182593, "train/policy_randomness_mag": 0.8708007482633199, "train/policy_randomness_max": 0.8708007482633199, "train/policy_randomness_mean": 0.20865888199577592, "train/policy_randomness_min": 0.028015902240390647, "train/policy_randomness_std": 0.2217158807875359, "train/post_ent_mag": 43.310236003300915, "train/post_ent_max": 43.310236003300915, "train/post_ent_mean": 27.94074317200543, "train/post_ent_min": 15.206621496644738, "train/post_ent_std": 4.681192747534138, "train/prior_ent_mag": 71.99845280059397, "train/prior_ent_max": 71.99845280059397, "train/prior_ent_mean": 32.1778200489201, "train/prior_ent_min": 16.90823502736549, "train/prior_ent_std": 8.795317388560674, "train/rep_loss_mean": 4.224803052536429, "train/rep_loss_std": 8.079440463079164, "train/reward_avg": 0.019254334136996776, "train/reward_loss_mean": 0.04103147904452396, "train/reward_loss_std": 0.19317627157250497, "train/reward_max_data": 1.0082191800417966, "train/reward_max_pred": 1.0095168678727868, "train/reward_neg_acc": 0.9960503439380698, "train/reward_neg_loss": 0.023009436000903993, "train/reward_pos_acc": 0.9842311470475915, "train/reward_pos_loss": 0.7485935900309314, "train/reward_pred": 0.01907342872008273, "train/reward_rate": 0.024748501712328768, "stats/sum_log_reward": 4.957142761775425, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_wood": 3.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.637690578188215, "replay/size": 64036.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7374746733607506e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2633056271800678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17927145957947, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.861417531967163, "timer/env.step_frac": 0.06283384405677372, "timer/env.step_avg": 0.013025840836993896, "timer/env.step_min": 0.003111124038696289, "timer/env.step_max": 1.7188081741333008, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26763439178466797, "timer/replay.add_frac": 0.0008915818553470844, "timer/replay.add_avg": 0.00018483038106675964, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.004190683364868164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03002452850341797, "timer/logger.write_frac": 0.00010002199138344205, "timer/logger.write_avg": 0.03002452850341797, "timer/logger.write_min": 0.03002452850341797, "timer/logger.write_max": 0.03002452850341797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.596180438995361, "timer/agent.policy_frac": 0.035299507482555094, "timer/agent.policy_avg": 0.007317804170576907, "timer/agent.policy_min": 0.005674600601196289, "timer/agent.policy_max": 0.017248153686523438, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06419610977172852, "timer/dataset_frac": 0.00021385923638092652, "timer/dataset_avg": 8.866865990570237e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001747608184814453, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6415042877197, "timer/agent.train_frac": 0.8982682347672638, "timer/agent.train_avg": 0.37243301697198855, "timer/agent.train_min": 0.3667013645172119, "timer/agent.train_max": 0.38472652435302734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22195744514465332, "timer/agent.report_frac": 0.0007394162963532308, "timer/agent.report_avg": 0.22195744514465332, "timer/agent.report_min": 0.22195744514465332, "timer/agent.report_max": 0.22195744514465332, "fps": 4.823707175303035}
+{"step": 64143, "episode/length": 188.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.026455026455026454}
+{"step": 64290, "episode/length": 146.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04081632653061224}
+{"step": 64477, "episode/length": 186.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0374331550802139}
+{"step": 64522, "episode/length": 44.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06666666666666667}
+{"step": 64726, "episode/length": 203.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.100000023841858, "episode/reward_rate": 0.029411764705882353}
+{"step": 64921, "episode/length": 194.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03076923076923077}
+{"step": 65093, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
+{"step": 65280, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
+{"step": 65445, "episode/length": 164.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03636363636363636}
+{"step": 65507, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.962601143973214, "train/action_min": 0.0, "train/action_std": 3.6287107161113195, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0418455055515681, "train/actor_opt_grad_steps": 31855.0, "train/actor_opt_loss": -14.420360000644411, "train/adv_mag": 0.5860511307205473, "train/adv_max": 0.5557519504002162, "train/adv_mean": 0.003420177274217297, "train/adv_min": -0.4689666360616684, "train/adv_std": 0.05690605310457093, "train/cont_avg": 0.9945452008928571, "train/cont_loss_mean": 0.00035173893273687486, "train/cont_loss_std": 0.00826651658632857, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001165711732859823, "train/cont_pos_acc": 0.9999300130775997, "train/cont_pos_loss": 0.0003455784106604044, "train/cont_pred": 0.9944854063647134, "train/cont_rate": 0.9945452008928571, "train/dyn_loss_mean": 4.128305738312857, "train/dyn_loss_std": 7.96249532699585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1204456618853977, "train/extr_critic_critic_opt_grad_steps": 31855.0, "train/extr_critic_critic_opt_loss": 15291.98818359375, "train/extr_critic_mag": 6.915208428246634, "train/extr_critic_max": 6.915208428246634, "train/extr_critic_mean": 1.2984235772064754, "train/extr_critic_min": -0.5867171491895403, "train/extr_critic_std": 1.6158563716070993, "train/extr_return_normed_mag": 1.613991630077362, "train/extr_return_normed_max": 1.613991630077362, "train/extr_return_normed_mean": 0.32941767147609163, "train/extr_return_normed_min": -0.1571026074034827, "train/extr_return_normed_std": 0.34448588064738683, "train/extr_return_rate": 0.5295880104814257, "train/extr_return_raw_mag": 7.464114223207746, "train/extr_return_raw_max": 7.464114223207746, "train/extr_return_raw_mean": 1.3148036403315408, "train/extr_return_raw_min": -1.0149475276470183, "train/extr_return_raw_std": 1.6489768317767552, "train/extr_reward_mag": 1.0225419351032803, "train/extr_reward_max": 1.0225419351032803, "train/extr_reward_mean": 0.027381165272423198, "train/extr_reward_min": -0.6627570271492005, "train/extr_reward_std": 0.166263675902571, "train/image_loss_mean": 3.42187990461077, "train/image_loss_std": 8.030446222850255, "train/model_loss_mean": 5.938810130528041, "train/model_loss_std": 11.74038314819336, "train/model_opt_grad_norm": 44.35112143925258, "train/model_opt_grad_steps": 31825.3, "train/model_opt_loss": 7853.914571707589, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1321.4285714285713, "train/policy_entropy_mag": 2.4315910475594658, "train/policy_entropy_max": 2.4315910475594658, "train/policy_entropy_mean": 0.5699230274983815, "train/policy_entropy_min": 0.07937503286770412, "train/policy_entropy_std": 0.6159462170941489, "train/policy_logprob_mag": 7.438383660997663, "train/policy_logprob_max": -0.009455660943474088, "train/policy_logprob_mean": -0.5698550054005214, "train/policy_logprob_min": -7.438383660997663, "train/policy_logprob_std": 1.1233975274222239, "train/policy_randomness_mag": 0.8582449282918657, "train/policy_randomness_max": 0.8582449282918657, "train/policy_randomness_mean": 0.20115782065050944, "train/policy_randomness_min": 0.02801590333027499, "train/policy_randomness_std": 0.21740198454686574, "train/post_ent_mag": 43.752083260672435, "train/post_ent_max": 43.752083260672435, "train/post_ent_mean": 28.040900884355818, "train/post_ent_min": 15.91154101235526, "train/post_ent_std": 4.6075742653438025, "train/prior_ent_mag": 71.96055232456752, "train/prior_ent_max": 71.96055232456752, "train/prior_ent_mean": 32.167979512895855, "train/prior_ent_min": 17.777692999158585, "train/prior_ent_std": 8.658736494609288, "train/rep_loss_mean": 4.128305738312857, "train/rep_loss_std": 7.96249532699585, "train/reward_avg": 0.02169224319181272, "train/reward_loss_mean": 0.039595060609281064, "train/reward_loss_std": 0.17776682983551706, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.0073891060692923, "train/reward_neg_acc": 0.9955594820635659, "train/reward_neg_loss": 0.020658118490661893, "train/reward_pos_acc": 0.9884557170527322, "train/reward_pos_loss": 0.7362728519099099, "train/reward_pred": 0.02147206153188433, "train/reward_rate": 0.026576450892857144, "stats/sum_log_reward": 4.322222126854791, "stats/max_log_achievement_collect_drink": 4.555555555555555, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.4444444444444444, "stats/max_log_achievement_wake_up": 2.2222222222222223, "stats/mean_log_entropy": 0.44892654650741154, "replay/size": 65444.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7193637002598154e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234517113728956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2276608943939, "timer/env.step_count": 1408.0, "timer/env.step_total": 23.669390201568604, "timer/env.step_frac": 0.078838139467417, "timer/env.step_avg": 0.016810646449977703, "timer/env.step_min": 0.002902984619140625, "timer/env.step_max": 2.0139594078063965, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.26340818405151367, "timer/replay.add_frac": 0.0008773614771763764, "timer/replay.add_avg": 0.00018707967617295006, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0011911392211914062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022128820419311523, "timer/logger.write_frac": 7.370680087700317e-05, "timer/logger.write_avg": 0.022128820419311523, "timer/logger.write_min": 0.022128820419311523, "timer/logger.write_max": 0.022128820419311523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038743019104003906, "timer/checkpoint.save_frac": 1.2904546832422578e-06, "timer/checkpoint.save_avg": 0.00038743019104003906, "timer/checkpoint.save_min": 0.00038743019104003906, "timer/checkpoint.save_max": 0.00038743019104003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.50545072555542, "timer/agent.save_frac": 0.005014363836665161, "timer/agent.save_avg": 1.50545072555542, "timer/agent.save_min": 1.50545072555542, "timer/agent.save_max": 1.50545072555542, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.559226989746094e-05, "timer/replay.save_frac": 2.850912192516742e-07, "timer/replay.save_avg": 8.559226989746094e-05, "timer/replay.save_min": 8.559226989746094e-05, "timer/replay.save_max": 8.559226989746094e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 12.552477598190308, "timer/agent.policy_frac": 0.04180986375737605, "timer/agent.policy_avg": 0.008915111930532888, "timer/agent.policy_min": 0.005671977996826172, "timer/agent.policy_max": 1.5027940273284912, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06404256820678711, "timer/dataset_frac": 0.00021331335032888357, "timer/dataset_avg": 9.09695571119135e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.9493684768677, "timer/agent.train_frac": 0.8758332516515225, "timer/agent.train_avg": 0.37350762567736884, "timer/agent.train_min": 0.3644249439239502, "timer/agent.train_max": 0.8862700462341309, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22184514999389648, "timer/agent.report_frac": 0.0007389230870100649, "timer/agent.report_avg": 0.22184514999389648, "timer/agent.report_min": 0.22184514999389648, "timer/agent.report_max": 0.22184514999389648, "fps": 4.689684607963534}
+{"step": 65600, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03225806451612903}
+{"step": 65772, "episode/length": 171.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040697674418604654}
+{"step": 65957, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
+{"step": 66114, "episode/length": 156.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03821656050955414}
+{"step": 66151, "episode/length": 36.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10810810810810811}
+{"step": 66327, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
+{"step": 66504, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
+{"step": 66663, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
+{"step": 66828, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
+{"step": 66941, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.9813283284505205, "train/action_min": 0.0, "train/action_std": 3.6082754698064594, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039195375284180045, "train/actor_opt_grad_steps": 32565.0, "train/actor_opt_loss": -17.552192161480587, "train/adv_mag": 0.5814837047623264, "train/adv_max": 0.5379952188167307, "train/adv_mean": 0.0012519905794255869, "train/adv_min": -0.4570419502755006, "train/adv_std": 0.05297071367709173, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 7.370023208687194e-05, "train/cont_loss_std": 0.0021133975273781086, "train/cont_neg_acc": 0.9959490746259689, "train/cont_neg_loss": 0.007384076388007088, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 2.2302216480301557e-05, "train/cont_pred": 0.9943649255567126, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.068495260344611, "train/dyn_loss_std": 7.971175458696154, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0957745330201254, "train/extr_critic_critic_opt_grad_steps": 32565.0, "train/extr_critic_critic_opt_loss": 14879.32379828559, "train/extr_critic_mag": 7.034989502694872, "train/extr_critic_max": 7.034989502694872, "train/extr_critic_mean": 1.3313085337479909, "train/extr_critic_min": -0.6221008367008634, "train/extr_critic_std": 1.6512669490443335, "train/extr_return_normed_mag": 1.6022009899218876, "train/extr_return_normed_max": 1.6022009899218876, "train/extr_return_normed_mean": 0.3283994576583306, "train/extr_return_normed_min": -0.16574212267167038, "train/extr_return_normed_std": 0.3411604468193319, "train/extr_return_rate": 0.5554832456012567, "train/extr_return_raw_mag": 7.582556804021199, "train/extr_return_raw_max": 7.582556804021199, "train/extr_return_raw_mean": 1.337434674302737, "train/extr_return_raw_min": -1.0853111437625356, "train/extr_return_raw_std": 1.672728654411104, "train/extr_reward_mag": 1.0209584269258711, "train/extr_reward_max": 1.0209584269258711, "train/extr_reward_mean": 0.026103262970637944, "train/extr_reward_min": -0.6909808135694928, "train/extr_reward_std": 0.16366909061455065, "train/image_loss_mean": 3.2180338038338556, "train/image_loss_std": 7.800164361794789, "train/model_loss_mean": 5.698441346486409, "train/model_loss_std": 11.563028905126783, "train/model_opt_grad_norm": 41.07322234577603, "train/model_opt_grad_steps": 32534.958333333332, "train/model_opt_loss": 8945.624464246961, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.4300144380993314, "train/policy_entropy_max": 2.4300144380993314, "train/policy_entropy_mean": 0.5431899258659946, "train/policy_entropy_min": 0.07937502943807179, "train/policy_entropy_std": 0.5911013790302806, "train/policy_logprob_mag": 7.438383638858795, "train/policy_logprob_max": -0.009455659206853144, "train/policy_logprob_mean": -0.5441547508041064, "train/policy_logprob_min": -7.438383638858795, "train/policy_logprob_std": 1.1101440116763115, "train/policy_randomness_mag": 0.8576884592572848, "train/policy_randomness_max": 0.8576884592572848, "train/policy_randomness_mean": 0.19172220842705834, "train/policy_randomness_min": 0.028015902136555977, "train/policy_randomness_std": 0.20863284977773824, "train/post_ent_mag": 43.70671855078803, "train/post_ent_max": 43.70671855078803, "train/post_ent_mean": 28.334777302212185, "train/post_ent_min": 15.862235797776115, "train/post_ent_std": 4.63256213400099, "train/prior_ent_mag": 72.11452113257513, "train/prior_ent_max": 72.11452113257513, "train/prior_ent_mean": 32.386939234203766, "train/prior_ent_min": 17.480738308694626, "train/prior_ent_std": 8.666032022900051, "train/rep_loss_mean": 4.068495260344611, "train/rep_loss_std": 7.971175458696154, "train/reward_avg": 0.021209038561210036, "train/reward_loss_mean": 0.03923674103700452, "train/reward_loss_std": 0.18473603679902023, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0099194331301584, "train/reward_neg_acc": 0.996089110771815, "train/reward_neg_loss": 0.020260343108222716, "train/reward_pos_acc": 0.9839924466278818, "train/reward_pos_loss": 0.7421396540270911, "train/reward_pred": 0.020921967652005453, "train/reward_rate": 0.026204427083333332, "stats/sum_log_reward": 4.544444349077013, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 5.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3657142089472877, "replay/size": 66878.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.708622611882464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2661414831419537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29683208465576, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.533503532409668, "timer/env.step_frac": 0.07170739492296484, "timer/env.step_avg": 0.0150163901899649, "timer/env.step_min": 0.002913951873779297, "timer/env.step_max": 1.693335771560669, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26895761489868164, "timer/replay.add_frac": 0.0008956392014913451, "timer/replay.add_avg": 0.0001875576115053568, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.0019428730010986328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023965835571289062, "timer/logger.write_frac": 7.980715415783316e-05, "timer/logger.write_avg": 0.023965835571289062, "timer/logger.write_min": 0.023965835571289062, "timer/logger.write_max": 0.023965835571289062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.547886371612549, "timer/agent.policy_frac": 0.035124867280115116, "timer/agent.policy_avg": 0.007355569296800941, "timer/agent.policy_min": 0.005702495574951172, "timer/agent.policy_max": 0.020197629928588867, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06432151794433594, "timer/dataset_frac": 0.0002141931285049429, "timer/dataset_avg": 8.970923004788834e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001862049102783203, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.1518979072571, "timer/agent.train_frac": 0.8896260944635777, "timer/agent.train_avg": 0.3725967892709304, "timer/agent.train_min": 0.36708736419677734, "timer/agent.train_max": 0.38723301887512207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21811151504516602, "timer/agent.report_frac": 0.0007263197334818333, "timer/agent.report_avg": 0.21811151504516602, "timer/agent.report_min": 0.21811151504516602, "timer/agent.report_max": 0.21811151504516602, "fps": 4.775198082177069}
+{"step": 66996, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03571428571428571}
+{"step": 67183, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0374331550802139}
+{"step": 67354, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03508771929824561}
+{"step": 67536, "episode/length": 181.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.027472527472527472}
+{"step": 67693, "episode/length": 156.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03821656050955414}
+{"step": 67876, "episode/length": 182.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03825136612021858}
+{"step": 68008, "episode/length": 131.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03787878787878788}
+{"step": 68174, "episode/length": 165.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.030120481927710843}
+{"step": 68336, "episode/length": 161.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.5, "episode/reward_rate": 0.030864197530864196}
+{"step": 68375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.934324452574824, "train/action_min": 0.0, "train/action_std": 3.6182360380468235, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040512889938455234, "train/actor_opt_grad_steps": 33280.0, "train/actor_opt_loss": -16.141366970790944, "train/adv_mag": 0.6068724616312645, "train/adv_max": 0.546066444104826, "train/adv_mean": 0.0015465658421228102, "train/adv_min": -0.4629073399053493, "train/adv_std": 0.05328498665295856, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 5.9641505710177124e-05, "train/cont_loss_std": 0.0016473794200567388, "train/cont_neg_acc": 0.9976190481867109, "train/cont_neg_loss": 0.0046485037840674134, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 3.307917287517586e-05, "train/cont_pred": 0.9946777392441118, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 4.285002627842863, "train/dyn_loss_std": 8.01735261460425, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0924755628679839, "train/extr_critic_critic_opt_grad_steps": 33280.0, "train/extr_critic_critic_opt_loss": 15030.760577134683, "train/extr_critic_mag": 6.910452963600696, "train/extr_critic_max": 6.910452963600696, "train/extr_critic_mean": 1.2342866726324593, "train/extr_critic_min": -0.6311089455241888, "train/extr_critic_std": 1.5547439153765288, "train/extr_return_normed_mag": 1.5981246871008, "train/extr_return_normed_max": 1.5981246871008, "train/extr_return_normed_mean": 0.3150349658139994, "train/extr_return_normed_min": -0.1734141965567226, "train/extr_return_normed_std": 0.3271285356350348, "train/extr_return_rate": 0.5250321253084801, "train/extr_return_raw_mag": 7.443298118215211, "train/extr_return_raw_max": 7.443298118215211, "train/extr_return_raw_mean": 1.2418050153154723, "train/extr_return_raw_min": -1.1187713683491023, "train/extr_return_raw_std": 1.5811213322088753, "train/extr_reward_mag": 1.0194997283774363, "train/extr_reward_max": 1.0194997283774363, "train/extr_reward_mean": 0.025852331432553246, "train/extr_reward_min": -0.686716464203848, "train/extr_reward_std": 0.16259241272026384, "train/image_loss_mean": 3.2758006881660138, "train/image_loss_std": 7.8312012779880575, "train/model_loss_mean": 5.885445567923532, "train/model_loss_std": 11.630973567425364, "train/model_opt_grad_norm": 43.999458447308605, "train/model_opt_grad_steps": 33248.633802816905, "train/model_opt_loss": 5977.068380006602, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1021.1267605633802, "train/policy_entropy_mag": 2.4375091774362914, "train/policy_entropy_max": 2.4375091774362914, "train/policy_entropy_mean": 0.5387107692134212, "train/policy_entropy_min": 0.07937502472753256, "train/policy_entropy_std": 0.5833225204071528, "train/policy_logprob_mag": 7.438383659846346, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5384699362264552, "train/policy_logprob_min": -7.438383659846346, "train/policy_logprob_std": 1.103058637028009, "train/policy_randomness_mag": 0.8603337709332856, "train/policy_randomness_max": 0.8603337709332856, "train/policy_randomness_mean": 0.19014126062393188, "train/policy_randomness_min": 0.028015900350792308, "train/policy_randomness_std": 0.20588725364544022, "train/post_ent_mag": 43.898111316519724, "train/post_ent_max": 43.898111316519724, "train/post_ent_mean": 28.410304808280838, "train/post_ent_min": 15.659815855429207, "train/post_ent_std": 4.726716494896043, "train/prior_ent_mag": 72.17104995082802, "train/prior_ent_max": 72.17104995082802, "train/prior_ent_mean": 32.673215436263824, "train/prior_ent_min": 17.72414821302387, "train/prior_ent_std": 8.757080232593376, "train/rep_loss_mean": 4.285002627842863, "train/rep_loss_std": 8.01735261460425, "train/reward_avg": 0.019411586710369924, "train/reward_loss_mean": 0.038583670755926995, "train/reward_loss_std": 0.18617484172884846, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0093433672273662, "train/reward_neg_acc": 0.9957826339023214, "train/reward_neg_loss": 0.02105286061553888, "train/reward_pos_acc": 0.9856831590894243, "train/reward_pos_loss": 0.7456990371287708, "train/reward_pred": 0.019241709839290296, "train/reward_rate": 0.024276518485915492, "stats/sum_log_reward": 4.544444428549872, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 2.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.47998471392525566, "replay/size": 68312.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6697174880960164e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.281853167748019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2930471897125, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.708505868911743, "timer/env.step_frac": 0.07229107057945708, "timer/env.step_avg": 0.015138428081528411, "timer/env.step_min": 0.003065347671508789, "timer/env.step_max": 1.7446837425231934, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2642226219177246, "timer/replay.add_frac": 0.0008798825826653251, "timer/replay.add_avg": 0.00018425566381989164, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.003071308135986328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03232693672180176, "timer/logger.write_frac": 0.00010765129937017476, "timer/logger.write_avg": 0.03232693672180176, "timer/logger.write_min": 0.03232693672180176, "timer/logger.write_max": 0.03232693672180176, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.449861288070679, "timer/agent.policy_frac": 0.034798878581657255, "timer/agent.policy_avg": 0.007287211497957238, "timer/agent.policy_min": 0.00570225715637207, "timer/agent.policy_max": 0.017107486724853516, "timer/dataset_count": 717.0, "timer/dataset_total": 0.0637209415435791, "timer/dataset_frac": 0.00021219586047665928, "timer/dataset_avg": 8.887160605799038e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00020265579223632812, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0654203891754, "timer/agent.train_frac": 0.8893493302242682, "timer/agent.train_avg": 0.37247617906440084, "timer/agent.train_min": 0.36397528648376465, "timer/agent.train_max": 0.3871643543243408, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198200225830078, "timer/agent.report_frac": 0.0007392179217458268, "timer/agent.report_avg": 0.22198200225830078, "timer/agent.report_min": 0.22198200225830078, "timer/agent.report_max": 0.22198200225830078, "fps": 4.775267522331375}
+{"step": 68521, "episode/length": 184.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03783783783783784}
+{"step": 68609, "episode/length": 87.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.056818181818181816}
+{"step": 68875, "episode/length": 265.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03007518796992481}
+{"step": 68924, "episode/length": 48.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.10204081632653061}
+{"step": 69120, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
+{"step": 69320, "episode/length": 199.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03}
+{"step": 69463, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04195804195804196}
+{"step": 69614, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
+{"step": 69785, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04093567251461988}
+{"step": 69786, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.929951412577025, "train/action_min": 0.0, "train/action_std": 3.683258657724085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0427964301648694, "train/actor_opt_grad_steps": 33990.0, "train/actor_opt_loss": -14.395130499987536, "train/adv_mag": 0.6790703778535547, "train/adv_max": 0.6272878693023198, "train/adv_mean": 0.0032465227201792517, "train/adv_min": -0.5257236613354213, "train/adv_std": 0.05869188101988443, "train/cont_avg": 0.9944432218309859, "train/cont_loss_mean": 0.00023139561538118228, "train/cont_loss_std": 0.007210667782210678, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0076070947679781195, "train/cont_pos_acc": 0.9999723258152814, "train/cont_pos_loss": 0.00018145324899536153, "train/cont_pred": 0.9944233029661044, "train/cont_rate": 0.9944432218309859, "train/dyn_loss_mean": 4.324456241768851, "train/dyn_loss_std": 8.157230471221494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.087255276424784, "train/extr_critic_critic_opt_grad_steps": 33990.0, "train/extr_critic_critic_opt_loss": 15252.245653609154, "train/extr_critic_mag": 7.200510374257262, "train/extr_critic_max": 7.200510374257262, "train/extr_critic_mean": 1.2292461286128407, "train/extr_critic_min": -0.643697438105731, "train/extr_critic_std": 1.5847110127059507, "train/extr_return_normed_mag": 1.722265794243611, "train/extr_return_normed_max": 1.722265794243611, "train/extr_return_normed_mean": 0.3243422716016501, "train/extr_return_normed_min": -0.17943884568734908, "train/extr_return_normed_std": 0.3470792598287824, "train/extr_return_rate": 0.5140175962112319, "train/extr_return_raw_mag": 7.778993398370877, "train/extr_return_raw_max": 7.778993398370877, "train/extr_return_raw_mean": 1.2443410451983061, "train/extr_return_raw_min": -1.112874685878485, "train/extr_return_raw_std": 1.6236300904985885, "train/extr_reward_mag": 1.0222928188216518, "train/extr_reward_max": 1.0222928188216518, "train/extr_reward_mean": 0.026232169409820313, "train/extr_reward_min": -0.6857562199444838, "train/extr_reward_std": 0.1638566253470703, "train/image_loss_mean": 3.3816535808670687, "train/image_loss_std": 8.444171072731555, "train/model_loss_mean": 6.015470712957248, "train/model_loss_std": 12.297754992901439, "train/model_opt_grad_norm": 42.42574557452134, "train/model_opt_grad_steps": 33958.0, "train/model_opt_loss": 3759.669189453125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4532793978570213, "train/policy_entropy_max": 2.4532793978570213, "train/policy_entropy_mean": 0.5300180236218681, "train/policy_entropy_min": 0.07937502126458665, "train/policy_entropy_std": 0.5795663586804565, "train/policy_logprob_mag": 7.438383733722525, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5306876759294054, "train/policy_logprob_min": -7.438383733722525, "train/policy_logprob_std": 1.0997243011501474, "train/policy_randomness_mag": 0.8658999674756762, "train/policy_randomness_max": 0.8658999674756762, "train/policy_randomness_mean": 0.1870731060773554, "train/policy_randomness_min": 0.028015899301414758, "train/policy_randomness_std": 0.2045614929266379, "train/post_ent_mag": 43.74848782176703, "train/post_ent_max": 43.74848782176703, "train/post_ent_mean": 28.59096903196523, "train/post_ent_min": 15.750011591844157, "train/post_ent_std": 4.592296939500621, "train/prior_ent_mag": 72.26641609299351, "train/prior_ent_max": 72.26641609299351, "train/prior_ent_mean": 32.91062258330869, "train/prior_ent_min": 17.688947019442708, "train/prior_ent_std": 8.716615844780291, "train/rep_loss_mean": 4.324456241768851, "train/rep_loss_std": 8.157230471221494, "train/reward_avg": 0.020792528632765924, "train/reward_loss_mean": 0.038911974529775094, "train/reward_loss_std": 0.18648003293594845, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0124670367845348, "train/reward_neg_acc": 0.9957905344560113, "train/reward_neg_loss": 0.019802244301413148, "train/reward_pos_acc": 0.9823898992068331, "train/reward_pos_loss": 0.7602477082064454, "train/reward_pred": 0.020548849189522822, "train/reward_rate": 0.02577574823943662, "stats/sum_log_reward": 4.988888793521458, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 4.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.3903668489721086, "replay/size": 69723.0, "replay/inserts": 1411.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.857447017937329e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3284649409300891e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4969856739044, "timer/env.step_count": 1411.0, "timer/env.step_total": 21.70485806465149, "timer/env.step_frac": 0.07222986951424974, "timer/env.step_avg": 0.01538260670776151, "timer/env.step_min": 0.0031423568725585938, "timer/env.step_max": 1.702087640762329, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.27462339401245117, "timer/replay.add_frac": 0.0009138973337671648, "timer/replay.add_avg": 0.0001946303288536153, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0018908977508544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021494150161743164, "timer/logger.write_frac": 7.152867145585397e-05, "timer/logger.write_avg": 0.021494150161743164, "timer/logger.write_min": 0.021494150161743164, "timer/logger.write_max": 0.021494150161743164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005407333374023438, "timer/checkpoint.save_frac": 1.799463432851672e-06, "timer/checkpoint.save_avg": 0.0005407333374023438, "timer/checkpoint.save_min": 0.0005407333374023438, "timer/checkpoint.save_max": 0.0005407333374023438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4162352085113525, "timer/agent.save_frac": 0.00471297642249308, "timer/agent.save_avg": 1.4162352085113525, "timer/agent.save_min": 1.4162352085113525, "timer/agent.save_max": 1.4162352085113525, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.417533874511719e-05, "timer/replay.save_frac": 3.133986137462127e-07, "timer/replay.save_avg": 9.417533874511719e-05, "timer/replay.save_min": 9.417533874511719e-05, "timer/replay.save_max": 9.417533874511719e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.841512680053711, "timer/agent.policy_frac": 0.03940642750042083, "timer/agent.policy_avg": 0.008392283968854507, "timer/agent.policy_min": 0.0055735111236572266, "timer/agent.policy_max": 1.4154431819915771, "timer/dataset_count": 705.0, "timer/dataset_total": 0.0644841194152832, "timer/dataset_frac": 0.000214591568267046, "timer/dataset_avg": 9.14668360500471e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 705.0, "timer/agent.train_total": 265.2010929584503, "timer/agent.train_frac": 0.8825416080753743, "timer/agent.train_avg": 0.37617176306163164, "timer/agent.train_min": 0.36632299423217773, "timer/agent.train_max": 2.775062322616577, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1994311809539795, "timer/agent.report_frac": 0.0006636711529958564, "timer/agent.report_avg": 0.1994311809539795, "timer/agent.report_min": 0.1994311809539795, "timer/agent.report_max": 0.1994311809539795, "fps": 4.695457675124108}
+{"step": 69954, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03550295857988166}
+{"step": 70143, "episode/length": 188.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.031746031746031744}
+{"step": 70306, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
+{"step": 70562, "episode/length": 255.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 8.500000029802322, "episode/reward_rate": 0.02734375}
+{"step": 70726, "episode/length": 163.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.30000002682209, "episode/reward_rate": 0.024390243902439025}
+{"step": 70886, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
+{"step": 71049, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03067484662576687}
+{"step": 71207, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 71225, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.797171698676215, "train/action_min": 0.0, "train/action_std": 3.656130231089062, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04305420293369227, "train/actor_opt_grad_steps": 34705.0, "train/actor_opt_loss": -8.956653019620312, "train/adv_mag": 0.5981395186649429, "train/adv_max": 0.5625814025600752, "train/adv_mean": 0.004941046087777876, "train/adv_min": -0.47744687522451085, "train/adv_std": 0.057794112556924425, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 2.4070598771667544e-05, "train/cont_loss_std": 0.0005770730167695445, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0035837677198489676, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 9.640716318889039e-06, "train/cont_pred": 0.994426454934809, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.277159319983588, "train/dyn_loss_std": 8.156152354346382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2111761280232005, "train/extr_critic_critic_opt_grad_steps": 34705.0, "train/extr_critic_critic_opt_loss": 15498.940158420139, "train/extr_critic_mag": 7.116013791826036, "train/extr_critic_max": 7.116013791826036, "train/extr_critic_mean": 1.302863294051753, "train/extr_critic_min": -0.6159553279479345, "train/extr_critic_std": 1.6229222748014662, "train/extr_return_normed_mag": 1.6520964486731424, "train/extr_return_normed_max": 1.6520964486731424, "train/extr_return_normed_mean": 0.330357963219285, "train/extr_return_normed_min": -0.15499833195159832, "train/extr_return_normed_std": 0.3432565964758396, "train/extr_return_rate": 0.5251311394903395, "train/extr_return_raw_mag": 7.73682357205285, "train/extr_return_raw_max": 7.73682357205285, "train/extr_return_raw_mean": 1.326919964618153, "train/extr_return_raw_min": -1.029030981163184, "train/extr_return_raw_std": 1.6666525536113315, "train/extr_reward_mag": 1.0228936208619013, "train/extr_reward_max": 1.0228936208619013, "train/extr_reward_mean": 0.027308549783709977, "train/extr_reward_min": -0.6775067796309789, "train/extr_reward_std": 0.16746230775283444, "train/image_loss_mean": 3.347043419877688, "train/image_loss_std": 7.95402028825548, "train/model_loss_mean": 5.9527049329545765, "train/model_loss_std": 11.806518051359388, "train/model_opt_grad_norm": 47.33217904302809, "train/model_opt_grad_steps": 34673.0, "train/model_opt_loss": 7297.291568332248, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1223.9583333333333, "train/policy_entropy_mag": 2.4012283749050565, "train/policy_entropy_max": 2.4012283749050565, "train/policy_entropy_mean": 0.48387797963288093, "train/policy_entropy_min": 0.07937502478145891, "train/policy_entropy_std": 0.5354769606557157, "train/policy_logprob_mag": 7.438383724954393, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48476280147830647, "train/policy_logprob_min": -7.438383724954393, "train/policy_logprob_std": 1.0696701862745814, "train/policy_randomness_mag": 0.8475282390912374, "train/policy_randomness_max": 0.8475282390912374, "train/policy_randomness_mean": 0.17078769103520447, "train/policy_randomness_min": 0.028015900455001328, "train/policy_randomness_std": 0.1889998691363467, "train/post_ent_mag": 43.827884356180824, "train/post_ent_max": 43.827884356180824, "train/post_ent_mean": 28.681684997346665, "train/post_ent_min": 15.949763589435154, "train/post_ent_std": 4.6388085881869, "train/prior_ent_mag": 72.40931744045682, "train/prior_ent_max": 72.40931744045682, "train/prior_ent_mean": 32.91017519103156, "train/prior_ent_min": 17.87100127008226, "train/prior_ent_std": 8.761146326859793, "train/rep_loss_mean": 4.277159319983588, "train/rep_loss_std": 8.156152354346382, "train/reward_avg": 0.02038302923190511, "train/reward_loss_mean": 0.039341870747092694, "train/reward_loss_std": 0.18360159535788828, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0104350397984188, "train/reward_neg_acc": 0.9957227384050688, "train/reward_neg_loss": 0.02105483950840102, "train/reward_pos_acc": 0.9858465865254402, "train/reward_pos_loss": 0.741416321032577, "train/reward_pred": 0.02027014337687029, "train/reward_rate": 0.025499131944444444, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3459756150841713, "replay/size": 71162.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.749417960436664e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558367517259385e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2203299999237, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.278982162475586, "timer/env.step_frac": 0.06754699844104742, "timer/env.step_avg": 0.014092412899566078, "timer/env.step_min": 0.0030181407928466797, "timer/env.step_max": 1.7115492820739746, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.25362348556518555, "timer/replay.add_frac": 0.0008447911757516554, "timer/replay.add_avg": 0.00017624981623709906, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.001180410385131836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027701854705810547, "timer/logger.write_frac": 9.227174823842738e-05, "timer/logger.write_avg": 0.027701854705810547, "timer/logger.write_min": 0.027701854705810547, "timer/logger.write_max": 0.027701854705810547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.56738567352295, "timer/agent.policy_frac": 0.03519876776341441, "timer/agent.policy_avg": 0.007343561969091695, "timer/agent.policy_min": 0.005721092224121094, "timer/agent.policy_max": 0.019036293029785156, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06473493576049805, "timer/dataset_frac": 0.00021562475719254088, "timer/dataset_avg": 8.990963300069174e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.34584164619446, "timer/agent.train_frac": 0.8938296805091869, "timer/agent.train_avg": 0.37270255784193673, "timer/agent.train_min": 0.36670660972595215, "timer/agent.train_max": 0.3847637176513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20157313346862793, "timer/agent.report_frac": 0.000671417333625205, "timer/agent.report_avg": 0.20157313346862793, "timer/agent.report_min": 0.20157313346862793, "timer/agent.report_max": 0.20157313346862793, "fps": 4.7930702123426405}
+{"step": 71479, "episode/length": 271.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.022058823529411766}
+{"step": 71641, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
+{"step": 71818, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03389830508474576}
+{"step": 72032, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.03271028037383177}
+{"step": 72206, "episode/length": 173.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040229885057471264}
+{"step": 72392, "episode/length": 185.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03763440860215054}
+{"step": 72549, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
+{"step": 72675, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.073272705078125, "train/action_min": 0.0, "train/action_std": 4.085943834649192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04245065411345826, "train/actor_opt_grad_steps": 35425.0, "train/actor_opt_loss": -11.07665403942681, "train/adv_mag": 0.6858975340922674, "train/adv_max": 0.6501432938708199, "train/adv_mean": 0.0033989729919186276, "train/adv_min": -0.5361083452072408, "train/adv_std": 0.05741478150917424, "train/cont_avg": 0.9943169487847222, "train/cont_loss_mean": 4.36584203495411e-05, "train/cont_loss_std": 0.0012168675480034431, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.003108027779995205, "train/cont_pos_acc": 0.999986369576719, "train/cont_pos_loss": 2.8791367778779886e-05, "train/cont_pred": 0.9943085337678591, "train/cont_rate": 0.9943169487847222, "train/dyn_loss_mean": 4.21215741833051, "train/dyn_loss_std": 8.063631547821892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1652918954690297, "train/extr_critic_critic_opt_grad_steps": 35425.0, "train/extr_critic_critic_opt_loss": 15394.451999240451, "train/extr_critic_mag": 8.193704320324791, "train/extr_critic_max": 8.193704320324791, "train/extr_critic_mean": 1.4553987334171932, "train/extr_critic_min": -0.6340485529767143, "train/extr_critic_std": 1.8148694584767024, "train/extr_return_normed_mag": 1.7508336553970973, "train/extr_return_normed_max": 1.7508336553970973, "train/extr_return_normed_mean": 0.3380085892147488, "train/extr_return_normed_min": -0.1551137204385466, "train/extr_return_normed_std": 0.35632804532845813, "train/extr_return_rate": 0.5425446981357204, "train/extr_return_raw_mag": 8.834918121496836, "train/extr_return_raw_max": 8.834918121496836, "train/extr_return_raw_mean": 1.4730985363324482, "train/extr_return_raw_min": -1.09467989537451, "train/extr_return_raw_std": 1.8561497843927808, "train/extr_reward_mag": 1.018389536274804, "train/extr_reward_max": 1.018389536274804, "train/extr_reward_mean": 0.028278856124314997, "train/extr_reward_min": -0.689395449227757, "train/extr_reward_std": 0.1692693622575866, "train/image_loss_mean": 3.1895214551024966, "train/image_loss_std": 7.927356441815694, "train/model_loss_mean": 5.756809625360701, "train/model_loss_std": 11.712235967318216, "train/model_opt_grad_norm": 39.02696204185486, "train/model_opt_grad_steps": 35392.791666666664, "train/model_opt_loss": 9740.318311903211, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.401181740893258, "train/policy_entropy_max": 2.401181740893258, "train/policy_entropy_mean": 0.49112530011269784, "train/policy_entropy_min": 0.07937501722739802, "train/policy_entropy_std": 0.5312801156606939, "train/policy_logprob_mag": 7.438383758068085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4911343798869186, "train/policy_logprob_min": -7.438383758068085, "train/policy_logprob_std": 1.0758620624740918, "train/policy_randomness_mag": 0.8475117824143834, "train/policy_randomness_max": 0.8475117824143834, "train/policy_randomness_mean": 0.17334567858941025, "train/policy_randomness_min": 0.028015897816254035, "train/policy_randomness_std": 0.18751856912341383, "train/post_ent_mag": 43.8747952249315, "train/post_ent_max": 43.8747952249315, "train/post_ent_mean": 28.924968904919094, "train/post_ent_min": 15.933988213539124, "train/post_ent_std": 4.63535573747423, "train/prior_ent_mag": 72.27369912465413, "train/prior_ent_max": 72.27369912465413, "train/prior_ent_mean": 33.143494023217094, "train/prior_ent_min": 17.72828694184621, "train/prior_ent_std": 8.698829458819496, "train/rep_loss_mean": 4.21215741833051, "train/rep_loss_std": 8.063631547821892, "train/reward_avg": 0.021081542764376435, "train/reward_loss_mean": 0.03995012486767438, "train/reward_loss_std": 0.17969961143616173, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.0060814453495874, "train/reward_neg_acc": 0.9956980894009272, "train/reward_neg_loss": 0.02137975216222306, "train/reward_pos_acc": 0.9870318844914436, "train/reward_pos_loss": 0.7281307553251585, "train/reward_pred": 0.021030471918897495, "train/reward_rate": 0.026285807291666668, "stats/sum_log_reward": 5.099999972752163, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 3.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 1.4285714285714286, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4321776671069009, "replay/size": 72612.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.6326770124764277e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.284377328280745e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0105311870575, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.42561411857605, "timer/env.step_frac": 0.061416557764392685, "timer/env.step_avg": 0.012707320081776587, "timer/env.step_min": 0.002936124801635742, "timer/env.step_max": 1.6565203666687012, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2481980323791504, "timer/replay.add_frac": 0.0008272977331732337, "timer/replay.add_avg": 0.00017117105681320718, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.0014829635620117188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02238154411315918, "timer/logger.write_frac": 7.460252819993248e-05, "timer/logger.write_avg": 0.02238154411315918, "timer/logger.write_min": 0.02238154411315918, "timer/logger.write_max": 0.02238154411315918, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.538278818130493, "timer/agent.policy_frac": 0.03512636298610412, "timer/agent.policy_avg": 0.007267778495262409, "timer/agent.policy_min": 0.0057179927825927734, "timer/agent.policy_max": 0.014038562774658203, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06369662284851074, "timer/dataset_frac": 0.00021231462307833354, "timer/dataset_avg": 8.785741082553206e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0309262275696, "timer/agent.train_frac": 0.90007149135443, "timer/agent.train_avg": 0.37245644996906146, "timer/agent.train_min": 0.36223387718200684, "timer/agent.train_max": 0.39307308197021484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20542621612548828, "timer/agent.report_frac": 0.0006847300170186506, "timer/agent.report_avg": 0.20542621612548828, "timer/agent.report_min": 0.20542621612548828, "timer/agent.report_max": 0.20542621612548828, "fps": 4.833066454630375}
+{"step": 72717, "episode/length": 167.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.011904761904761904}
+{"step": 72883, "episode/length": 165.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.030120481927710843}
+{"step": 73135, "episode/length": 251.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.027777777777777776}
+{"step": 73303, "episode/length": 167.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.03571428571428571}
+{"step": 73517, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03271028037383177}
+{"step": 73674, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03184713375796178}
+{"step": 73833, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
+{"step": 74026, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.031088082901554404}
+{"step": 74091, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.232680629676496, "train/action_min": 0.0, "train/action_std": 4.206911204566418, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042111162778357386, "train/actor_opt_grad_steps": 36140.0, "train/actor_opt_loss": -17.048970774025985, "train/adv_mag": 0.7212351375902203, "train/adv_max": 0.651318715072014, "train/adv_mean": 0.0016036554148119559, "train/adv_min": -0.5980017982738118, "train/adv_std": 0.0565558871857717, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 4.1762175629615666e-05, "train/cont_loss_std": 0.0011189019239144355, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.004259312953494578, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 1.9149927032833123e-05, "train/cont_pred": 0.9944156937196221, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.218725419380296, "train/dyn_loss_std": 8.093932749519885, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1222137431023826, "train/extr_critic_critic_opt_grad_steps": 36140.0, "train/extr_critic_critic_opt_loss": 15427.853749449823, "train/extr_critic_mag": 8.116406400438766, "train/extr_critic_max": 8.116406400438766, "train/extr_critic_mean": 1.4156454289463205, "train/extr_critic_min": -0.6205222892089629, "train/extr_critic_std": 1.7546617464280465, "train/extr_return_normed_mag": 1.7219290162476015, "train/extr_return_normed_max": 1.7219290162476015, "train/extr_return_normed_mean": 0.3276612853080454, "train/extr_return_normed_min": -0.14545173712179693, "train/extr_return_normed_std": 0.34711945245803244, "train/extr_return_rate": 0.5226012594263318, "train/extr_return_raw_mag": 8.597255928415647, "train/extr_return_raw_max": 8.597255928415647, "train/extr_return_raw_mean": 1.4239559417039576, "train/extr_return_raw_min": -1.0094635587343028, "train/extr_return_raw_std": 1.7856925641986685, "train/extr_reward_mag": 1.0215977782934484, "train/extr_reward_max": 1.0215977782934484, "train/extr_reward_mean": 0.027392957582545112, "train/extr_reward_min": -0.6841961296511369, "train/extr_reward_std": 0.16703676610765322, "train/image_loss_mean": 3.1884706876647306, "train/image_loss_std": 8.160344788725947, "train/model_loss_mean": 5.760956367976229, "train/model_loss_std": 11.993922206717478, "train/model_opt_grad_norm": 42.25001969135983, "train/model_opt_grad_steps": 36107.0, "train/model_opt_loss": 7201.195456921215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4029001215813865, "train/policy_entropy_max": 2.4029001215813865, "train/policy_entropy_mean": 0.4913179248991147, "train/policy_entropy_min": 0.07937501622757441, "train/policy_entropy_std": 0.5297483730484063, "train/policy_logprob_mag": 7.43838378073464, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4923960931704078, "train/policy_logprob_min": -7.43838378073464, "train/policy_logprob_std": 1.0752712286693948, "train/policy_randomness_mag": 0.8481182942927723, "train/policy_randomness_max": 0.8481182942927723, "train/policy_randomness_mean": 0.17341366662106045, "train/policy_randomness_min": 0.028015897491238485, "train/policy_randomness_std": 0.1869779281633001, "train/post_ent_mag": 44.30142228032501, "train/post_ent_max": 44.30142228032501, "train/post_ent_mean": 29.15053464325381, "train/post_ent_min": 16.20615515910404, "train/post_ent_std": 4.570867269811496, "train/prior_ent_mag": 72.4053836876238, "train/prior_ent_max": 72.4053836876238, "train/prior_ent_mean": 33.348983093046805, "train/prior_ent_min": 18.26463492487518, "train/prior_ent_std": 8.581175058660373, "train/rep_loss_mean": 4.218725419380296, "train/rep_loss_std": 8.093932749519885, "train/reward_avg": 0.02124092196652167, "train/reward_loss_mean": 0.041208699345588684, "train/reward_loss_std": 0.19400692049046636, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0066079724002892, "train/reward_neg_acc": 0.9953648741816131, "train/reward_neg_loss": 0.022252120890877615, "train/reward_pos_acc": 0.9853011193409772, "train/reward_pos_loss": 0.7394881903285712, "train/reward_pred": 0.02112783255501532, "train/reward_rate": 0.026284661091549297, "stats/sum_log_reward": 4.2249999195337296, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41500986367464066, "replay/size": 74028.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.75542937025512e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2605161653400142e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1907274723053, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.32816243171692, "timer/env.step_frac": 0.07437992045832545, "timer/env.step_avg": 0.015768476293585396, "timer/env.step_min": 0.0029840469360351562, "timer/env.step_max": 1.974560022354126, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.8861265182495117, "timer/replay.add_frac": 0.00295187837982525, "timer/replay.add_avg": 0.0006257955637355309, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.6499474048614502, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02790093421936035, "timer/logger.write_frac": 9.294402413523718e-05, "timer/logger.write_avg": 0.02790093421936035, "timer/logger.write_min": 0.02790093421936035, "timer/logger.write_max": 0.02790093421936035, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036454200744628906, "timer/checkpoint.save_frac": 1.2143679803698155e-06, "timer/checkpoint.save_avg": 0.00036454200744628906, "timer/checkpoint.save_min": 0.00036454200744628906, "timer/checkpoint.save_max": 0.00036454200744628906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.184624433517456, "timer/agent.save_frac": 0.00394623925759581, "timer/agent.save_avg": 1.184624433517456, "timer/agent.save_min": 1.184624433517456, "timer/agent.save_max": 1.184624433517456, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.893013000488281e-05, "timer/replay.save_frac": 2.9624542621186475e-07, "timer/replay.save_avg": 8.893013000488281e-05, "timer/replay.save_min": 8.893013000488281e-05, "timer/replay.save_max": 8.893013000488281e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.407649517059326, "timer/agent.policy_frac": 0.04133255421156877, "timer/agent.policy_avg": 0.00876246434820574, "timer/agent.policy_min": 0.005614280700683594, "timer/agent.policy_max": 1.1828668117523193, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06306815147399902, "timer/dataset_frac": 0.00021009360284060573, "timer/dataset_avg": 8.907930999152405e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002205371856689453, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79987120628357, "timer/agent.train_frac": 0.8787742160710842, "timer/agent.train_avg": 0.37259868814446834, "timer/agent.train_min": 0.3663513660430908, "timer/agent.train_max": 0.38614797592163086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2022535800933838, "timer/agent.report_frac": 0.0006737502580323474, "timer/agent.report_avg": 0.2022535800933838, "timer/agent.report_min": 0.2022535800933838, "timer/agent.report_max": 0.2022535800933838, "fps": 4.716899438821838}
+{"step": 74164, "episode/length": 137.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.036231884057971016}
+{"step": 74337, "episode/length": 172.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.028901734104046242}
+{"step": 74570, "episode/length": 232.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.030042918454935622}
+{"step": 74732, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 74902, "episode/length": 169.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.041176470588235294}
+{"step": 75095, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031088082901554404}
+{"step": 75288, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
+{"step": 75447, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
+{"step": 75531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.110999213324653, "train/action_min": 0.0, "train/action_std": 4.092404991388321, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039857018609634705, "train/actor_opt_grad_steps": 36855.0, "train/actor_opt_loss": -22.29821139656835, "train/adv_mag": 0.6489530238840315, "train/adv_max": 0.5900315257410208, "train/adv_mean": 0.000468746282775909, "train/adv_min": -0.5196782292591201, "train/adv_std": 0.054546260430167116, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 0.0001270285967712602, "train/cont_loss_std": 0.002998251355211639, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00048340525664672087, "train/cont_pos_acc": 0.999959001938502, "train/cont_pos_loss": 0.00012508417758757182, "train/cont_pred": 0.9943199083209038, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.259768684705098, "train/dyn_loss_std": 8.171512669987148, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.118207797408104, "train/extr_critic_critic_opt_grad_steps": 36855.0, "train/extr_critic_critic_opt_loss": 15198.827094184027, "train/extr_critic_mag": 7.662907984521654, "train/extr_critic_max": 7.662907984521654, "train/extr_critic_mean": 1.3254144936800003, "train/extr_critic_min": -0.6575833343797259, "train/extr_critic_std": 1.6507798930009205, "train/extr_return_normed_mag": 1.7088623808489904, "train/extr_return_normed_max": 1.7088623808489904, "train/extr_return_normed_mean": 0.32279888892339337, "train/extr_return_normed_min": -0.17595520108524296, "train/extr_return_normed_std": 0.3388007850282722, "train/extr_return_rate": 0.5167643481658565, "train/extr_return_raw_mag": 8.186052613788181, "train/extr_return_raw_max": 8.186052613788181, "train/extr_return_raw_mean": 1.3276939632164106, "train/extr_return_raw_min": -1.1402283443344965, "train/extr_return_raw_std": 1.6762984643379848, "train/extr_reward_mag": 1.0186480747328863, "train/extr_reward_max": 1.0186480747328863, "train/extr_reward_mean": 0.025659265488179192, "train/extr_reward_min": -0.6920062121417787, "train/extr_reward_std": 0.16299450707932314, "train/image_loss_mean": 3.2688834369182587, "train/image_loss_std": 8.132367660601934, "train/model_loss_mean": 5.8644900520642596, "train/model_loss_std": 11.990807705455357, "train/model_opt_grad_norm": 45.62640807363722, "train/model_opt_grad_steps": 36821.90277777778, "train/model_opt_loss": 12782.234422471789, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2135.4166666666665, "train/policy_entropy_mag": 2.404029263390435, "train/policy_entropy_max": 2.404029263390435, "train/policy_entropy_mean": 0.5072091540528668, "train/policy_entropy_min": 0.07937501764131917, "train/policy_entropy_std": 0.5475615577565299, "train/policy_logprob_mag": 7.43838369846344, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5064820324381193, "train/policy_logprob_min": -7.43838369846344, "train/policy_logprob_std": 1.080953681634532, "train/policy_randomness_mag": 0.8485168326232169, "train/policy_randomness_max": 0.8485168326232169, "train/policy_randomness_mean": 0.17902257417639098, "train/policy_randomness_min": 0.02801589794560439, "train/policy_randomness_std": 0.19326520214478174, "train/post_ent_mag": 44.716654459635414, "train/post_ent_max": 44.716654459635414, "train/post_ent_mean": 29.411423656675552, "train/post_ent_min": 16.016199496057297, "train/post_ent_std": 4.64910180038876, "train/prior_ent_mag": 72.5633602142334, "train/prior_ent_max": 72.5633602142334, "train/prior_ent_mean": 33.61217731899686, "train/prior_ent_min": 18.075811584790547, "train/prior_ent_std": 8.62587198946211, "train/rep_loss_mean": 4.259768684705098, "train/rep_loss_std": 8.171512669987148, "train/reward_avg": 0.020831976913743548, "train/reward_loss_mean": 0.039618445094674826, "train/reward_loss_std": 0.185301773250103, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.011088255378935, "train/reward_neg_acc": 0.9958122844497362, "train/reward_neg_loss": 0.021330704692647688, "train/reward_pos_acc": 0.9877075428764025, "train/reward_pos_loss": 0.7339815025528272, "train/reward_pred": 0.020687955936106544, "train/reward_rate": 0.025783962673611112, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3884662836790085, "replay/size": 75468.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7135349379645453e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2703032957182991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1091032028198, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.227188110351562, "timer/env.step_frac": 0.06739944871542806, "timer/env.step_avg": 0.014046658409966363, "timer/env.step_min": 0.003095388412475586, "timer/env.step_max": 1.7200148105621338, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25653576850891113, "timer/replay.add_frac": 0.0008548083539323333, "timer/replay.add_avg": 0.00017814983924229939, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.003200054168701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028827428817749023, "timer/logger.write_frac": 9.605649582134422e-05, "timer/logger.write_avg": 0.028827428817749023, "timer/logger.write_min": 0.028827428817749023, "timer/logger.write_max": 0.028827428817749023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.580425024032593, "timer/agent.policy_frac": 0.03525526187348648, "timer/agent.policy_avg": 0.007347517377800412, "timer/agent.policy_min": 0.005624532699584961, "timer/agent.policy_max": 0.01943492889404297, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06572341918945312, "timer/dataset_frac": 0.00021899841920168582, "timer/dataset_avg": 9.128252665201823e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00023126602172851562, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2697730064392, "timer/agent.train_frac": 0.8939074827901407, "timer/agent.train_avg": 0.37259690695338776, "timer/agent.train_min": 0.365816593170166, "timer/agent.train_max": 0.3856239318847656, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20197176933288574, "timer/agent.report_frac": 0.0006729944782660895, "timer/agent.report_avg": 0.20197176933288574, "timer/agent.report_min": 0.20197176933288574, "timer/agent.report_max": 0.20197176933288574, "fps": 4.798156599633131}
+{"step": 75635, "episode/length": 187.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026595744680851064}
+{"step": 76010, "episode/length": 374.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016}
+{"step": 76224, "episode/length": 213.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.037383177570093455}
+{"step": 76397, "episode/length": 172.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03468208092485549}
+{"step": 76552, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
+{"step": 76739, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0374331550802139}
+{"step": 76908, "episode/length": 168.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03550295857988166}
+{"step": 76981, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.876927205961045, "train/action_min": 0.0, "train/action_std": 3.700487195628963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04227822386238673, "train/actor_opt_grad_steps": 37580.0, "train/actor_opt_loss": -21.680233719618354, "train/adv_mag": 0.5748482113831663, "train/adv_max": 0.5354091696543236, "train/adv_mean": 0.0008192754635461351, "train/adv_min": -0.4641615536114941, "train/adv_std": 0.05607830350325532, "train/cont_avg": 0.9943279109589042, "train/cont_loss_mean": 3.162400847340033e-05, "train/cont_loss_std": 0.0007714647983202169, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010673205888700951, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 2.4929168603972507e-05, "train/cont_pred": 0.9943132253542338, "train/cont_rate": 0.9943279109589042, "train/dyn_loss_mean": 4.4264123929690005, "train/dyn_loss_std": 7.9160168530189825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1534122914484102, "train/extr_critic_critic_opt_grad_steps": 37580.0, "train/extr_critic_critic_opt_loss": 15369.73429473459, "train/extr_critic_mag": 6.968653757278234, "train/extr_critic_max": 6.968653757278234, "train/extr_critic_mean": 1.2100976036019522, "train/extr_critic_min": -0.6418093067325957, "train/extr_critic_std": 1.5623434422767326, "train/extr_return_normed_mag": 1.5778619508220726, "train/extr_return_normed_max": 1.5778619508220726, "train/extr_return_normed_mean": 0.3111242149790672, "train/extr_return_normed_min": -0.16901728541475453, "train/extr_return_normed_std": 0.32516152544380866, "train/extr_return_rate": 0.5114244716624691, "train/extr_return_raw_mag": 7.4144485552017, "train/extr_return_raw_max": 7.4144485552017, "train/extr_return_raw_mean": 1.2141085683482966, "train/extr_return_raw_min": -1.1365629842836562, "train/extr_return_raw_std": 1.5920297168705562, "train/extr_reward_mag": 1.0143496696263143, "train/extr_reward_max": 1.0143496696263143, "train/extr_reward_mean": 0.025983409892308386, "train/extr_reward_min": -0.6817963319282009, "train/extr_reward_std": 0.16331689151590817, "train/image_loss_mean": 3.2449338109525914, "train/image_loss_std": 7.246187961264832, "train/model_loss_mean": 5.940537825022658, "train/model_loss_std": 10.977856022037871, "train/model_opt_grad_norm": 50.511788433545256, "train/model_opt_grad_steps": 37546.0, "train/model_opt_loss": 7425.672289704623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.418760786317799, "train/policy_entropy_max": 2.418760786317799, "train/policy_entropy_mean": 0.4872078324017459, "train/policy_entropy_min": 0.07937501697507623, "train/policy_entropy_std": 0.5412453417092153, "train/policy_logprob_mag": 7.4383837817466425, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48718175373665273, "train/policy_logprob_min": -7.4383837817466425, "train/policy_logprob_std": 1.069392059763817, "train/policy_randomness_mag": 0.8537164150852047, "train/policy_randomness_max": 0.8537164150852047, "train/policy_randomness_mean": 0.17196298645783778, "train/policy_randomness_min": 0.02801589772411405, "train/policy_randomness_std": 0.19103585367333398, "train/post_ent_mag": 45.28471991134016, "train/post_ent_max": 45.28471991134016, "train/post_ent_mean": 29.576773133996415, "train/post_ent_min": 16.362538912524915, "train/post_ent_std": 4.697147885414019, "train/prior_ent_mag": 72.37826475378586, "train/prior_ent_max": 72.37826475378586, "train/prior_ent_mean": 34.05298760819109, "train/prior_ent_min": 18.950799785248222, "train/prior_ent_std": 8.507597217821095, "train/rep_loss_mean": 4.4264123929690005, "train/rep_loss_std": 7.9160168530189825, "train/reward_avg": 0.02167567414269872, "train/reward_loss_mean": 0.039725003866096065, "train/reward_loss_std": 0.17969055984118212, "train/reward_max_data": 1.0054794533611977, "train/reward_max_pred": 1.0060344215941757, "train/reward_neg_acc": 0.9958768201200929, "train/reward_neg_loss": 0.02046053055418681, "train/reward_pos_acc": 0.9833255998075825, "train/reward_pos_loss": 0.7403336028530173, "train/reward_pred": 0.021352518528495748, "train/reward_rate": 0.02678189212328767, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 6.714285714285714, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.45838102272578646, "replay/size": 76918.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.6522437786233838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2597955506423425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25533866882324, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.448200464248657, "timer/env.step_frac": 0.06144170673546865, "timer/env.step_avg": 0.012722896871895626, "timer/env.step_min": 0.002765655517578125, "timer/env.step_max": 1.6836936473846436, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2704653739929199, "timer/replay.add_frac": 0.0009007845628724652, "timer/replay.add_avg": 0.0001865278441330482, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.004618644714355469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03385138511657715, "timer/logger.write_frac": 0.0001127419924210396, "timer/logger.write_avg": 0.03385138511657715, "timer/logger.write_min": 0.03385138511657715, "timer/logger.write_max": 0.03385138511657715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.644556283950806, "timer/agent.policy_frac": 0.035451680330292404, "timer/agent.policy_avg": 0.007341073299276418, "timer/agent.policy_min": 0.005743503570556641, "timer/agent.policy_max": 0.0183103084564209, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06513690948486328, "timer/dataset_frac": 0.00021693838908459255, "timer/dataset_avg": 8.984401308257004e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.1128432750702, "timer/agent.train_frac": 0.8996104597926908, "timer/agent.train_avg": 0.3725694390000968, "timer/agent.train_min": 0.366497278213501, "timer/agent.train_max": 0.3848886489868164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20004796981811523, "timer/agent.report_frac": 0.0006662594933533051, "timer/agent.report_avg": 0.20004796981811523, "timer/agent.report_min": 0.20004796981811523, "timer/agent.report_max": 0.20004796981811523, "fps": 4.82915369709958}
+{"step": 77070, "episode/length": 161.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.043209876543209874}
+{"step": 77245, "episode/length": 174.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.02857142857142857}
+{"step": 77282, "episode/length": 36.0, "episode/score": -0.9000000283122063, "episode/sum_abs_reward": 1.1000000312924385, "episode/reward_rate": 0.02702702702702703}
+{"step": 77334, "episode/length": 51.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.07692307692307693}
+{"step": 77516, "episode/length": 181.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03296703296703297}
+{"step": 77654, "episode/length": 137.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.036231884057971016}
+{"step": 77824, "episode/length": 169.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.047058823529411764}
+{"step": 77990, "episode/length": 165.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03614457831325301}
+{"step": 78221, "episode/length": 230.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.030303030303030304}
+{"step": 78303, "episode/length": 81.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.07317073170731707}
+{"step": 78383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.673170689174107, "train/action_min": 0.0, "train/action_std": 3.4296448196683613, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04462073849780219, "train/actor_opt_grad_steps": 38295.0, "train/actor_opt_loss": -16.91682163306645, "train/adv_mag": 0.5751842268875667, "train/adv_max": 0.5492167609078543, "train/adv_mean": 0.0019257127704414806, "train/adv_min": -0.4624012572424752, "train/adv_std": 0.05780880296868937, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 3.720470503846432e-05, "train/cont_loss_std": 0.0010854817525374268, "train/cont_neg_acc": 0.9982142857142857, "train/cont_neg_loss": 0.005993201568916058, "train/cont_pos_acc": 0.9999999804156167, "train/cont_pos_loss": 8.285144309232757e-06, "train/cont_pred": 0.994154702765601, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.377918468202863, "train/dyn_loss_std": 8.250294324329921, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1731298284871237, "train/extr_critic_critic_opt_grad_steps": 38295.0, "train/extr_critic_critic_opt_loss": 15501.272698102679, "train/extr_critic_mag": 6.993536070414952, "train/extr_critic_max": 6.993536070414952, "train/extr_critic_mean": 1.1944133009229387, "train/extr_critic_min": -0.6973670261246817, "train/extr_critic_std": 1.571002619607108, "train/extr_return_normed_mag": 1.6713980317115784, "train/extr_return_normed_max": 1.6713980317115784, "train/extr_return_normed_mean": 0.32104588619300295, "train/extr_return_normed_min": -0.16478228207145418, "train/extr_return_normed_std": 0.33740028398377553, "train/extr_return_rate": 0.5056547922747475, "train/extr_return_raw_mag": 7.613393906184605, "train/extr_return_raw_max": 7.613393906184605, "train/extr_return_raw_mean": 1.2035767665931156, "train/extr_return_raw_min": -1.102143394947052, "train/extr_return_raw_std": 1.6015597105026245, "train/extr_reward_mag": 1.0116147450038364, "train/extr_reward_max": 1.0116147450038364, "train/extr_reward_mean": 0.02585639642285449, "train/extr_reward_min": -0.6881469590323311, "train/extr_reward_std": 0.16393562821405275, "train/image_loss_mean": 3.412532619067601, "train/image_loss_std": 8.429764284406389, "train/model_loss_mean": 6.079972219467163, "train/model_loss_std": 12.319648742675781, "train/model_opt_grad_norm": 43.538056182861325, "train/model_opt_grad_steps": 38260.385714285716, "train/model_opt_loss": 8275.812451171874, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1375.0, "train/policy_entropy_mag": 2.4172405174800327, "train/policy_entropy_max": 2.4172405174800327, "train/policy_entropy_mean": 0.4838789586509977, "train/policy_entropy_min": 0.07937501594424248, "train/policy_entropy_std": 0.5381887133632387, "train/policy_logprob_mag": 7.438383742741176, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48480369448661803, "train/policy_logprob_min": -7.438383742741176, "train/policy_logprob_std": 1.0670832131590162, "train/policy_randomness_mag": 0.8531798235007695, "train/policy_randomness_max": 0.8531798235007695, "train/policy_randomness_mean": 0.17078803947993687, "train/policy_randomness_min": 0.028015897343201295, "train/policy_randomness_std": 0.1899569998894419, "train/post_ent_mag": 44.945999254499164, "train/post_ent_max": 44.945999254499164, "train/post_ent_mean": 29.565288216727122, "train/post_ent_min": 16.342440618787492, "train/post_ent_std": 4.645208903721401, "train/prior_ent_mag": 72.5313848223005, "train/prior_ent_max": 72.5313848223005, "train/prior_ent_mean": 33.91240937369211, "train/prior_ent_min": 18.65144909449986, "train/prior_ent_std": 8.609772293908255, "train/rep_loss_mean": 4.377918468202863, "train/rep_loss_std": 8.250294324329921, "train/reward_avg": 0.021533202818994013, "train/reward_loss_mean": 0.04065133540758065, "train/reward_loss_std": 0.19854736509067672, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0027544328144617, "train/reward_neg_acc": 0.9962138039725167, "train/reward_neg_loss": 0.021186492605400935, "train/reward_pos_acc": 0.9833620778151921, "train/reward_pos_loss": 0.7496034605162484, "train/reward_pred": 0.021374714693852832, "train/reward_rate": 0.026688058035714286, "stats/sum_log_reward": 3.899999958276749, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_sapling": 2.1, "stats/max_log_achievement_collect_wood": 2.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_table": 1.1, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3658719673752785, "replay/size": 78320.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.6965083123613868e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2856662358435007e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2847936153412, "timer/env.step_count": 1402.0, "timer/env.step_total": 24.05037522315979, "timer/env.step_frac": 0.08009188521869622, "timer/env.step_avg": 0.017154333254750208, "timer/env.step_min": 0.0030121803283691406, "timer/env.step_max": 1.6981539726257324, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.3724219799041748, "timer/replay.add_frac": 0.001240229235121509, "timer/replay.add_avg": 0.0002656362196178137, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.11079072952270508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03144073486328125, "timer/logger.write_frac": 0.00010470305367362758, "timer/logger.write_avg": 0.03144073486328125, "timer/logger.write_min": 0.03144073486328125, "timer/logger.write_max": 0.03144073486328125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004477500915527344, "timer/checkpoint.save_frac": 1.4910848004054888e-06, "timer/checkpoint.save_avg": 0.0004477500915527344, "timer/checkpoint.save_min": 0.0004477500915527344, "timer/checkpoint.save_max": 0.0004477500915527344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4048831462860107, "timer/agent.save_frac": 0.004678502462184742, "timer/agent.save_avg": 1.4048831462860107, "timer/agent.save_min": 1.4048831462860107, "timer/agent.save_max": 1.4048831462860107, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.413683595970546e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 11.79590368270874, "timer/agent.policy_frac": 0.039282387698323006, "timer/agent.policy_avg": 0.008413626021903525, "timer/agent.policy_min": 0.005665779113769531, "timer/agent.policy_max": 1.3926467895507812, "timer/dataset_count": 701.0, "timer/dataset_total": 0.062349796295166016, "timer/dataset_frac": 0.00020763554339363203, "timer/dataset_avg": 8.894407460080745e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 701.0, "timer/agent.train_total": 263.2875671386719, "timer/agent.train_frac": 0.8767928737541668, "timer/agent.train_avg": 0.3755885408540255, "timer/agent.train_min": 0.36606359481811523, "timer/agent.train_max": 2.570941925048828, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20123672485351562, "timer/agent.report_frac": 0.0006701528986222853, "timer/agent.report_avg": 0.20123672485351562, "timer/agent.report_min": 0.20123672485351562, "timer/agent.report_max": 0.20123672485351562, "fps": 4.668799842438152}
+{"step": 78460, "episode/length": 156.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 7.300000011920929, "episode/reward_rate": 0.044585987261146494}
+{"step": 78595, "episode/length": 134.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.05185185185185185}
+{"step": 78703, "episode/length": 107.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.300000034272671, "episode/reward_rate": 0.027777777777777776}
+{"step": 78895, "episode/length": 191.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020833333333333332}
+{"step": 79063, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023809523809523808}
+{"step": 79102, "episode/length": 38.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.10256410256410256}
+{"step": 79346, "episode/length": 243.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.028688524590163935}
+{"step": 79569, "episode/length": 222.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.026905829596412557}
+{"step": 79776, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.028985507246376812}
+{"step": 79815, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.691028863611356, "train/action_min": 0.0, "train/action_std": 3.524203317266115, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0452220318183093, "train/actor_opt_grad_steps": 39000.0, "train/actor_opt_loss": -17.98116952768514, "train/adv_mag": 0.5866782585499992, "train/adv_max": 0.5523608003703642, "train/adv_mean": 0.0032872066245596522, "train/adv_min": -0.48502590202949414, "train/adv_std": 0.06115464472644765, "train/cont_avg": 0.9940305897887324, "train/cont_loss_mean": 1.4172128973214826e-05, "train/cont_loss_std": 0.000378021047712101, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009016832975735461, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 9.148713417262179e-06, "train/cont_pred": 0.9940272074350169, "train/cont_rate": 0.9940305897887324, "train/dyn_loss_mean": 4.242776501346642, "train/dyn_loss_std": 8.103873266300685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1589690430063597, "train/extr_critic_critic_opt_grad_steps": 39000.0, "train/extr_critic_critic_opt_loss": 15784.594451474471, "train/extr_critic_mag": 6.657772433589882, "train/extr_critic_max": 6.657772433589882, "train/extr_critic_mean": 1.19120811324724, "train/extr_critic_min": -0.6394615811361394, "train/extr_critic_std": 1.5427453031002636, "train/extr_return_normed_mag": 1.6572626359026197, "train/extr_return_normed_max": 1.6572626359026197, "train/extr_return_normed_mean": 0.3284635692834854, "train/extr_return_normed_min": -0.16281033548670756, "train/extr_return_normed_std": 0.33981628296240957, "train/extr_return_rate": 0.5085580155883037, "train/extr_return_raw_mag": 7.386382049238178, "train/extr_return_raw_max": 7.386382049238178, "train/extr_return_raw_mean": 1.2065450230114896, "train/extr_return_raw_min": -1.0772060844260203, "train/extr_return_raw_std": 1.5800890452425245, "train/extr_reward_mag": 1.0237096799931056, "train/extr_reward_max": 1.0237096799931056, "train/extr_reward_mean": 0.028170482517862822, "train/extr_reward_min": -0.6706945342077336, "train/extr_reward_std": 0.1692894376079801, "train/image_loss_mean": 3.0454305863716233, "train/image_loss_std": 7.775240380999068, "train/model_loss_mean": 5.63323677761454, "train/model_loss_std": 11.597186323622582, "train/model_opt_grad_norm": 41.62093914730448, "train/model_opt_grad_steps": 38965.0, "train/model_opt_loss": 8459.43760315801, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1496.4788732394366, "train/policy_entropy_mag": 2.435750232615941, "train/policy_entropy_max": 2.435750232615941, "train/policy_entropy_mean": 0.466901657447009, "train/policy_entropy_min": 0.07937501622757441, "train/policy_entropy_std": 0.5235740706114702, "train/policy_logprob_mag": 7.438383807598705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4672201649403908, "train/policy_logprob_min": -7.438383807598705, "train/policy_logprob_std": 1.053437592278064, "train/policy_randomness_mag": 0.8597129432248397, "train/policy_randomness_max": 0.8597129432248397, "train/policy_randomness_mean": 0.1647957976855023, "train/policy_randomness_min": 0.028015897465004047, "train/policy_randomness_std": 0.18479867069654063, "train/post_ent_mag": 45.49376194913622, "train/post_ent_max": 45.49376194913622, "train/post_ent_mean": 30.016363117056834, "train/post_ent_min": 16.486845244824046, "train/post_ent_std": 4.616026999245228, "train/prior_ent_mag": 72.69669986778581, "train/prior_ent_max": 72.69669986778581, "train/prior_ent_mean": 34.26752044785191, "train/prior_ent_min": 18.81726238089548, "train/prior_ent_std": 8.511237124322166, "train/rep_loss_mean": 4.242776501346642, "train/rep_loss_std": 8.103873266300685, "train/reward_avg": 0.02212395442938301, "train/reward_loss_mean": 0.04212611858588709, "train/reward_loss_std": 0.18497474145301632, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.013191730203763, "train/reward_neg_acc": 0.9955293544581238, "train/reward_neg_loss": 0.022701992705779175, "train/reward_pos_acc": 0.9877138490408239, "train/reward_pos_loss": 0.7290752219482207, "train/reward_pred": 0.022012072772732084, "train/reward_rate": 0.027481294014084508, "stats/sum_log_reward": 4.099999931123522, "stats/max_log_achievement_collect_drink": 4.777777777777778, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_wood": 3.5555555555555554, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.43864111436737907, "replay/size": 79752.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7887242919239918e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2549025386405392e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0098407268524, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.51389718055725, "timer/env.step_frac": 0.07171063831917714, "timer/env.step_avg": 0.01502367121547294, "timer/env.step_min": 0.002987384796142578, "timer/env.step_max": 1.6622090339660645, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26179075241088867, "timer/replay.add_frac": 0.0008726072177386982, "timer/replay.add_avg": 0.0001828147712366541, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0065152645111083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03216052055358887, "timer/logger.write_frac": 0.00010719821881732807, "timer/logger.write_avg": 0.03216052055358887, "timer/logger.write_min": 0.03216052055358887, "timer/logger.write_max": 0.03216052055358887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.524895906448364, "timer/agent.policy_frac": 0.03508183558562295, "timer/agent.policy_avg": 0.007349787644167852, "timer/agent.policy_min": 0.005647897720336914, "timer/agent.policy_max": 0.01698899269104004, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06425786018371582, "timer/dataset_frac": 0.00021418584146451437, "timer/dataset_avg": 8.9745614781726e-05, "timer/dataset_min": 6.866455078125e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9318549633026, "timer/agent.train_frac": 0.8897436641297841, "timer/agent.train_avg": 0.372809853300702, "timer/agent.train_min": 0.363783597946167, "timer/agent.train_max": 0.3863344192504883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2023928165435791, "timer/agent.report_frac": 0.0006746205926219936, "timer/agent.report_avg": 0.2023928165435791, "timer/agent.report_min": 0.2023928165435791, "timer/agent.report_max": 0.2023928165435791, "fps": 4.773121748618369}
+{"step": 79943, "episode/length": 166.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017964071856287425}
+{"step": 80115, "episode/length": 171.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.040697674418604654}
+{"step": 80270, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03225806451612903}
+{"step": 80411, "episode/length": 140.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0425531914893617}
+{"step": 80624, "episode/length": 212.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.028169014084507043}
+{"step": 80801, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022598870056497175}
+{"step": 80872, "episode/length": 70.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.07042253521126761}
+{"step": 81017, "episode/length": 144.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04827586206896552}
+{"step": 81209, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026041666666666668}
+{"step": 81249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.645932515462239, "train/action_min": 0.0, "train/action_std": 3.5102365149392023, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045247182353503175, "train/actor_opt_grad_steps": 39715.0, "train/actor_opt_loss": -17.69249107854234, "train/adv_mag": 0.5431908215913508, "train/adv_max": 0.5073938576711549, "train/adv_mean": 0.0027249018825791105, "train/adv_min": -0.4649551026523113, "train/adv_std": 0.0586099569271836, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 0.00018222459525200443, "train/cont_loss_std": 0.005633346994550771, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0027297765573671817, "train/cont_pos_acc": 0.9999590135282941, "train/cont_pos_loss": 0.00016829036980049573, "train/cont_pred": 0.9943531602621078, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.22827226916949, "train/dyn_loss_std": 8.075187901655832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1455506632725398, "train/extr_critic_critic_opt_grad_steps": 39715.0, "train/extr_critic_critic_opt_loss": 15623.178263346354, "train/extr_critic_mag": 6.827250083287557, "train/extr_critic_max": 6.827250083287557, "train/extr_critic_mean": 1.1910798789726362, "train/extr_critic_min": -0.6700158516565958, "train/extr_critic_std": 1.554349238673846, "train/extr_return_normed_mag": 1.6357528749439452, "train/extr_return_normed_max": 1.6357528749439452, "train/extr_return_normed_mean": 0.3175656491269668, "train/extr_return_normed_min": -0.1726604669044415, "train/extr_return_normed_std": 0.3374089685579141, "train/extr_return_rate": 0.5017144344747066, "train/extr_return_raw_mag": 7.415790922111935, "train/extr_return_raw_max": 7.415790922111935, "train/extr_return_raw_mean": 1.2039174884557724, "train/extr_return_raw_min": -1.1059011278880968, "train/extr_return_raw_std": 1.5899312521020572, "train/extr_reward_mag": 1.0266976720756955, "train/extr_reward_max": 1.0266976720756955, "train/extr_reward_mean": 0.0280679347148786, "train/extr_reward_min": -0.6933369189500809, "train/extr_reward_std": 0.1690298802115851, "train/image_loss_mean": 3.182880840367741, "train/image_loss_std": 8.015959660212198, "train/model_loss_mean": 5.760986222161187, "train/model_loss_std": 11.835070590178171, "train/model_opt_grad_norm": 45.747580475277374, "train/model_opt_grad_steps": 39679.0, "train/model_opt_loss": 7201.232794867621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4463427563508353, "train/policy_entropy_max": 2.4463427563508353, "train/policy_entropy_mean": 0.47583793310655487, "train/policy_entropy_min": 0.07937501577867402, "train/policy_entropy_std": 0.5386147747437159, "train/policy_logprob_mag": 7.438383877277374, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4747350422872437, "train/policy_logprob_min": -7.438383877277374, "train/policy_logprob_std": 1.057447649538517, "train/policy_randomness_mag": 0.8634516398111979, "train/policy_randomness_max": 0.8634516398111979, "train/policy_randomness_mean": 0.1679499102756381, "train/policy_randomness_min": 0.028015897324722674, "train/policy_randomness_std": 0.19010737972954908, "train/post_ent_mag": 45.959794998168945, "train/post_ent_max": 45.959794998168945, "train/post_ent_mean": 30.253968477249146, "train/post_ent_min": 16.727450953589546, "train/post_ent_std": 4.688935028182136, "train/prior_ent_mag": 72.79272662268744, "train/prior_ent_max": 72.79272662268744, "train/prior_ent_mean": 34.45795350604587, "train/prior_ent_min": 19.008740663528442, "train/prior_ent_std": 8.447265413072374, "train/rep_loss_mean": 4.22827226916949, "train/rep_loss_std": 8.075187901655832, "train/reward_avg": 0.02197672512071828, "train/reward_loss_mean": 0.0409598076560845, "train/reward_loss_std": 0.1922958710541328, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0112276722987492, "train/reward_neg_acc": 0.9955928110414081, "train/reward_neg_loss": 0.02119121864800238, "train/reward_pos_acc": 0.9817162868049409, "train/reward_pos_loss": 0.7528097695774503, "train/reward_pred": 0.021767995979947347, "train/reward_rate": 0.027153862847222224, "stats/sum_log_reward": 4.2111110422346325, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3884034752845764, "replay/size": 81186.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6848472584574126e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.292618581274397e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31275701522827, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.7954363822937, "timer/env.step_frac": 0.07257579264669232, "timer/env.step_avg": 0.015199049081097421, "timer/env.step_min": 0.0029969215393066406, "timer/env.step_max": 1.6548354625701904, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2555551528930664, "timer/replay.add_frac": 0.0008509633604412872, "timer/replay.add_avg": 0.00017821140369112022, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.002455472946166992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02446460723876953, "timer/logger.write_frac": 8.146376291810001e-05, "timer/logger.write_avg": 0.02446460723876953, "timer/logger.write_min": 0.02446460723876953, "timer/logger.write_max": 0.02446460723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.488088369369507, "timer/agent.policy_frac": 0.03492388559716655, "timer/agent.policy_avg": 0.007313869155766741, "timer/agent.policy_min": 0.005681514739990234, "timer/agent.policy_max": 0.017303943634033203, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06472253799438477, "timer/dataset_frac": 0.00021551711168601076, "timer/dataset_avg": 9.026853276762171e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.00410985946655, "timer/agent.train_frac": 0.8890868057460752, "timer/agent.train_avg": 0.3723906692600649, "timer/agent.train_min": 0.36396026611328125, "timer/agent.train_max": 0.38853955268859863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20168733596801758, "timer/agent.report_frac": 0.0006715909706019928, "timer/agent.report_avg": 0.20168733596801758, "timer/agent.report_min": 0.20168733596801758, "timer/agent.report_max": 0.20168733596801758, "fps": 4.774954962770407}
+{"step": 81379, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03529411764705882}
+{"step": 81564, "episode/length": 184.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.032432432432432434}
+{"step": 81717, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0457516339869281}
+{"step": 81762, "episode/length": 44.0, "episode/score": 1.0999999940395355, "episode/sum_abs_reward": 2.9000000059604645, "episode/reward_rate": 0.06666666666666667}
+{"step": 81943, "episode/length": 180.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.022099447513812154}
+{"step": 82130, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.026737967914438502}
+{"step": 82389, "episode/length": 258.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.02702702702702703}
+{"step": 82572, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03278688524590164}
+{"step": 82665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558133837202905, "train/action_min": 0.0, "train/action_std": 3.4114317759661605, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04469166774774941, "train/actor_opt_grad_steps": 40430.0, "train/actor_opt_loss": -15.385013912765073, "train/adv_mag": 0.5390573794573126, "train/adv_max": 0.5071082283073748, "train/adv_mean": 0.003118984454822182, "train/adv_min": -0.4437926932119987, "train/adv_std": 0.058088323180104644, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 0.00011603767866834998, "train/cont_loss_std": 0.0032852950619496665, "train/cont_neg_acc": 0.9948356814787421, "train/cont_neg_loss": 0.015695198597339338, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 2.9212459508753328e-05, "train/cont_pred": 0.9944199474764542, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.366397313668695, "train/dyn_loss_std": 8.080699128164373, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1815400820382884, "train/extr_critic_critic_opt_grad_steps": 40430.0, "train/extr_critic_critic_opt_loss": 15956.321729203346, "train/extr_critic_mag": 6.721277216790428, "train/extr_critic_max": 6.721277216790428, "train/extr_critic_mean": 1.1745651053710722, "train/extr_critic_min": -0.689419922694354, "train/extr_critic_std": 1.5690903294254357, "train/extr_return_normed_mag": 1.6098312240251353, "train/extr_return_normed_max": 1.6098312240251353, "train/extr_return_normed_mean": 0.3122425469714151, "train/extr_return_normed_min": -0.16095091150680058, "train/extr_return_normed_std": 0.33313801066136695, "train/extr_return_rate": 0.5039612961487031, "train/extr_return_raw_mag": 7.437439589433267, "train/extr_return_raw_max": 7.437439589433267, "train/extr_return_raw_mean": 1.18959736152434, "train/extr_return_raw_min": -1.0892293663092063, "train/extr_return_raw_std": 1.6039475387250874, "train/extr_reward_mag": 1.0247072065380258, "train/extr_reward_max": 1.0247072065380258, "train/extr_reward_mean": 0.027831474660148084, "train/extr_reward_min": -0.7041851785820974, "train/extr_reward_std": 0.1678718733535686, "train/image_loss_mean": 3.126189288958697, "train/image_loss_std": 7.711563567040672, "train/model_loss_mean": 5.786256293175926, "train/model_loss_std": 11.551926357645383, "train/model_opt_grad_norm": 44.12487618582589, "train/model_opt_grad_steps": 40393.90140845071, "train/model_opt_loss": 11133.375605193662, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1883.8028169014085, "train/policy_entropy_mag": 2.4490167523773625, "train/policy_entropy_max": 2.4490167523773625, "train/policy_entropy_mean": 0.452710445917828, "train/policy_entropy_min": 0.07937501423375708, "train/policy_entropy_std": 0.5177645758843757, "train/policy_logprob_mag": 7.438383915054966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45444388666623076, "train/policy_logprob_min": -7.438383915054966, "train/policy_logprob_std": 1.0502438024735787, "train/policy_randomness_mag": 0.8643954404642884, "train/policy_randomness_max": 0.8643954404642884, "train/policy_randomness_mean": 0.15978692157167784, "train/policy_randomness_min": 0.02801589683537752, "train/policy_randomness_std": 0.18274817353403064, "train/post_ent_mag": 46.058977046483, "train/post_ent_max": 46.058977046483, "train/post_ent_mean": 30.4869473685681, "train/post_ent_min": 16.290393587569117, "train/post_ent_std": 4.758232549882271, "train/prior_ent_mag": 72.8046621403224, "train/prior_ent_max": 72.8046621403224, "train/prior_ent_mean": 34.82658676362374, "train/prior_ent_min": 19.049277359331157, "train/prior_ent_std": 8.459097640615115, "train/rep_loss_mean": 4.366397313668695, "train/rep_loss_std": 8.080699128164373, "train/reward_avg": 0.021945147276659246, "train/reward_loss_mean": 0.040112542985400686, "train/reward_loss_std": 0.181327814577331, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.012191997447484, "train/reward_neg_acc": 0.9963075392682788, "train/reward_neg_loss": 0.020841036044375996, "train/reward_pos_acc": 0.9858898142693748, "train/reward_pos_loss": 0.7307253748598234, "train/reward_pred": 0.021731499897342334, "train/reward_rate": 0.027192451584507043, "stats/sum_log_reward": 4.474999845027924, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_wood": 3.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.36516093648970127, "replay/size": 82602.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.865041301748847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2577169359067066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1998782157898, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.009087562561035, "timer/env.step_frac": 0.07664589239447203, "timer/env.step_avg": 0.01624935562327757, "timer/env.step_min": 0.003045320510864258, "timer/env.step_max": 2.606175422668457, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.25896167755126953, "timer/replay.add_frac": 0.0008626308547837671, "timer/replay.add_avg": 0.00018288254064355194, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.007800102233886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02329254150390625, "timer/logger.write_frac": 7.75901097706745e-05, "timer/logger.write_avg": 0.02329254150390625, "timer/logger.write_min": 0.02329254150390625, "timer/logger.write_max": 0.02329254150390625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003688335418701172, "timer/checkpoint.save_frac": 1.2286265539554687e-06, "timer/checkpoint.save_avg": 0.0003688335418701172, "timer/checkpoint.save_min": 0.0003688335418701172, "timer/checkpoint.save_max": 0.0003688335418701172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2517573833465576, "timer/agent.save_frac": 0.0041697464728708816, "timer/agent.save_avg": 1.2517573833465576, "timer/agent.save_min": 1.2517573833465576, "timer/agent.save_max": 1.2517573833465576, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.771756091341038e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.840715885162354, "timer/agent.policy_frac": 0.039442773779711546, "timer/agent.policy_avg": 0.008362087489521436, "timer/agent.policy_min": 0.005741119384765625, "timer/agent.policy_max": 1.2405383586883545, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06598591804504395, "timer/dataset_frac": 0.00021980661163896917, "timer/dataset_avg": 9.320044921616377e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.0003495216369628906, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.31323051452637, "timer/agent.train_frac": 0.8804574874761696, "timer/agent.train_avg": 0.37332377191317284, "timer/agent.train_min": 0.3661618232727051, "timer/agent.train_max": 0.8537647724151611, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19979357719421387, "timer/agent.report_frac": 0.0006655351707058261, "timer/agent.report_avg": 0.19979357719421387, "timer/agent.report_min": 0.19979357719421387, "timer/agent.report_max": 0.19979357719421387, "fps": 4.716777214969954}
+{"step": 82758, "episode/length": 185.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026881720430107527}
+{"step": 82962, "episode/length": 203.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.029411764705882353}
+{"step": 83149, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
+{"step": 83182, "episode/length": 32.0, "episode/score": 0.09999997168779373, "episode/sum_abs_reward": 1.9000000283122063, "episode/reward_rate": 0.06060606060606061}
+{"step": 83476, "episode/length": 293.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.023809523809523808}
+{"step": 83649, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03468208092485549}
+{"step": 83829, "episode/length": 179.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000011920929, "episode/reward_rate": 0.03333333333333333}
+{"step": 84076, "episode/length": 246.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.016194331983805668}
+{"step": 84105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.85743882921007, "train/action_min": 0.0, "train/action_std": 3.748962309625414, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04391916639481982, "train/actor_opt_grad_steps": 41145.0, "train/actor_opt_loss": -16.107362645367783, "train/adv_mag": 0.5709084152347512, "train/adv_max": 0.5289943955010838, "train/adv_mean": 0.0020985173622547234, "train/adv_min": -0.4821926951408386, "train/adv_std": 0.057141361551152334, "train/cont_avg": 0.9939236111111112, "train/cont_loss_mean": 0.0002075434551013839, "train/cont_loss_std": 0.00645985726005607, "train/cont_neg_acc": 0.9961419759525193, "train/cont_neg_loss": 0.02779153380228965, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.422918233700708e-06, "train/cont_pred": 0.9939504514137903, "train/cont_rate": 0.9939236111111112, "train/dyn_loss_mean": 4.279782437615925, "train/dyn_loss_std": 8.202697787019941, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0966546792123053, "train/extr_critic_critic_opt_grad_steps": 41145.0, "train/extr_critic_critic_opt_loss": 15316.388658311633, "train/extr_critic_mag": 6.682813015249041, "train/extr_critic_max": 6.682813015249041, "train/extr_critic_mean": 1.1844901459084616, "train/extr_critic_min": -0.6438393791516622, "train/extr_critic_std": 1.5571611954106226, "train/extr_return_normed_mag": 1.606798865728908, "train/extr_return_normed_max": 1.606798865728908, "train/extr_return_normed_mean": 0.3164259603040086, "train/extr_return_normed_min": -0.15662646604080996, "train/extr_return_normed_std": 0.3381150230351422, "train/extr_return_rate": 0.49543821397754884, "train/extr_return_raw_mag": 7.239718702104357, "train/extr_return_raw_max": 7.239718702104357, "train/extr_return_raw_mean": 1.1943478244874213, "train/extr_return_raw_min": -1.02227064801587, "train/extr_return_raw_std": 1.584582092033492, "train/extr_reward_mag": 1.0246904790401459, "train/extr_reward_max": 1.0246904790401459, "train/extr_reward_mean": 0.025819672426829737, "train/extr_reward_min": -0.674266893002722, "train/extr_reward_std": 0.1641012355685234, "train/image_loss_mean": 3.3849077588982053, "train/image_loss_std": 8.154325392511156, "train/model_loss_mean": 5.992727471722497, "train/model_loss_std": 12.029683086607191, "train/model_opt_grad_norm": 44.35081701808505, "train/model_opt_grad_steps": 41108.0, "train/model_opt_loss": 7490.909342447917, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.454564909140269, "train/policy_entropy_max": 2.454564909140269, "train/policy_entropy_mean": 0.49805836255351704, "train/policy_entropy_min": 0.07937501474387115, "train/policy_entropy_std": 0.5590047211282783, "train/policy_logprob_mag": 7.438383791181776, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.498379360884428, "train/policy_logprob_min": -7.438383791181776, "train/policy_logprob_std": 1.0800807202855747, "train/policy_randomness_mag": 0.8663536997305022, "train/policy_randomness_max": 0.8663536997305022, "train/policy_randomness_mean": 0.17579274272753131, "train/policy_randomness_min": 0.028015896988411743, "train/policy_randomness_std": 0.1973041376719872, "train/post_ent_mag": 45.94146203994751, "train/post_ent_max": 45.94146203994751, "train/post_ent_mean": 30.700940476523506, "train/post_ent_min": 16.814946558740402, "train/post_ent_std": 4.767267796728346, "train/prior_ent_mag": 72.7666441599528, "train/prior_ent_max": 72.7666441599528, "train/prior_ent_mean": 34.913832134670685, "train/prior_ent_min": 19.4483599530326, "train/prior_ent_std": 8.48805719614029, "train/rep_loss_mean": 4.279782437615925, "train/rep_loss_std": 8.202697787019941, "train/reward_avg": 0.020956759897267654, "train/reward_loss_mean": 0.03974270365304417, "train/reward_loss_std": 0.17819513318439326, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0095693717400234, "train/reward_neg_acc": 0.9958122761713134, "train/reward_neg_loss": 0.021029994150416717, "train/reward_pos_acc": 0.9901312407520082, "train/reward_pos_loss": 0.7281810633010335, "train/reward_pred": 0.02081355628454023, "train/reward_rate": 0.026462131076388888, "stats/sum_log_reward": 3.974999912083149, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 5.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4326272998005152, "replay/size": 84042.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7488010194566516e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690822283426921e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0247664451599, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.224732637405396, "timer/env.step_frac": 0.06741021042041934, "timer/env.step_avg": 0.014044953220420413, "timer/env.step_min": 0.002994537353515625, "timer/env.step_max": 1.666642427444458, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.24521422386169434, "timer/replay.add_frac": 0.0008173132730577956, "timer/replay.add_avg": 0.00017028765545950994, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0016019344329833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287320613861084, "timer/logger.write_frac": 9.576563203944764e-05, "timer/logger.write_avg": 0.0287320613861084, "timer/logger.write_min": 0.0287320613861084, "timer/logger.write_max": 0.0287320613861084, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.471017360687256, "timer/agent.policy_frac": 0.03490050999706787, "timer/agent.policy_avg": 0.007271539833810594, "timer/agent.policy_min": 0.005661725997924805, "timer/agent.policy_max": 0.016889572143554688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06438970565795898, "timer/dataset_frac": 0.00021461463472125883, "timer/dataset_avg": 8.943014674716526e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.3146505355835, "timer/agent.train_frac": 0.8943083389904994, "timer/agent.train_avg": 0.3726592368549771, "timer/agent.train_min": 0.3664815425872803, "timer/agent.train_max": 0.38530492782592773, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20121169090270996, "timer/agent.report_frac": 0.0006706502709318448, "timer/agent.report_avg": 0.20121169090270996, "timer/agent.report_min": 0.20121169090270996, "timer/agent.report_max": 0.20121169090270996, "fps": 4.799536730660103}
+{"step": 84236, "episode/length": 159.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03125}
+{"step": 84412, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.028409090909090908}
+{"step": 84584, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
+{"step": 84751, "episode/length": 166.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041916167664670656}
+{"step": 84908, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03184713375796178}
+{"step": 85144, "episode/length": 235.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 7.300000049173832, "episode/reward_rate": 0.025423728813559324}
+{"step": 85317, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03468208092485549}
+{"step": 85513, "episode/length": 195.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030612244897959183}
+{"step": 85549, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.900664435492621, "train/action_min": 0.0, "train/action_std": 3.7665148774782815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04632270677636067, "train/actor_opt_grad_steps": 41865.0, "train/actor_opt_loss": -19.3676368581752, "train/adv_mag": 0.5889783112539185, "train/adv_max": 0.5525666889217165, "train/adv_mean": 0.0025296830556019107, "train/adv_min": -0.4869932362602817, "train/adv_std": 0.060846187795201935, "train/cont_avg": 0.9938422309027778, "train/cont_loss_mean": 9.538006419518297e-05, "train/cont_loss_std": 0.002750330084566599, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.007212769906813341, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 3.435496761067864e-05, "train/cont_pred": 0.9938348407546679, "train/cont_rate": 0.9938422309027778, "train/dyn_loss_mean": 4.520998438199361, "train/dyn_loss_std": 8.24348278840383, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1842674513657887, "train/extr_critic_critic_opt_grad_steps": 41865.0, "train/extr_critic_critic_opt_loss": 15539.816677517361, "train/extr_critic_mag": 6.703474925624, "train/extr_critic_max": 6.703474925624, "train/extr_critic_mean": 1.1545340232551098, "train/extr_critic_min": -0.6631206058793597, "train/extr_critic_std": 1.5554722895224888, "train/extr_return_normed_mag": 1.6531279004282422, "train/extr_return_normed_max": 1.6531279004282422, "train/extr_return_normed_mean": 0.3163193000687493, "train/extr_return_normed_min": -0.15518786473613647, "train/extr_return_normed_std": 0.3431977530320485, "train/extr_return_rate": 0.47800928354263306, "train/extr_return_raw_mag": 7.365088330374824, "train/extr_return_raw_max": 7.365088330374824, "train/extr_return_raw_mean": 1.1662530166407425, "train/extr_return_raw_min": -1.0197361773914762, "train/extr_return_raw_std": 1.5912467059161928, "train/extr_reward_mag": 1.0146847433514066, "train/extr_reward_max": 1.0146847433514066, "train/extr_reward_mean": 0.025818544569321804, "train/extr_reward_min": -0.6789087023999956, "train/extr_reward_std": 0.16436003665957186, "train/image_loss_mean": 3.4445098406738706, "train/image_loss_std": 8.342288593451181, "train/model_loss_mean": 6.1976281603177386, "train/model_loss_std": 12.209595123926798, "train/model_opt_grad_norm": 42.027882708443535, "train/model_opt_grad_steps": 41827.36111111111, "train/model_opt_loss": 8198.358995225695, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.4312585492928824, "train/policy_entropy_max": 2.4312585492928824, "train/policy_entropy_mean": 0.49483636145790416, "train/policy_entropy_min": 0.0793750151577923, "train/policy_entropy_std": 0.5504247169527743, "train/policy_logprob_mag": 7.438383791181776, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4938834413058228, "train/policy_logprob_min": -7.438383791181776, "train/policy_logprob_std": 1.072658730049928, "train/policy_randomness_mag": 0.8581275757816103, "train/policy_randomness_max": 0.8581275757816103, "train/policy_randomness_mean": 0.17465551818410555, "train/policy_randomness_min": 0.028015897143632174, "train/policy_randomness_std": 0.19427577157815298, "train/post_ent_mag": 47.099844455718994, "train/post_ent_max": 47.099844455718994, "train/post_ent_mean": 31.035795821083916, "train/post_ent_min": 16.974528763029312, "train/post_ent_std": 4.842503395345476, "train/prior_ent_mag": 72.86483414967854, "train/prior_ent_max": 72.86483414967854, "train/prior_ent_mean": 35.47362126244439, "train/prior_ent_min": 19.420582453409832, "train/prior_ent_std": 8.560192154513466, "train/rep_loss_mean": 4.520998438199361, "train/rep_loss_std": 8.24348278840383, "train/reward_avg": 0.020795355770840414, "train/reward_loss_mean": 0.04042384809710913, "train/reward_loss_std": 0.1816874806665712, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.007145396537251, "train/reward_neg_acc": 0.9961835982071029, "train/reward_neg_loss": 0.02167546258877135, "train/reward_pos_acc": 0.9878357400496801, "train/reward_pos_loss": 0.735222339630127, "train/reward_pred": 0.020586615117887657, "train/reward_rate": 0.0263671875, "stats/sum_log_reward": 4.474999964237213, "stats/max_log_achievement_collect_drink": 5.875, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.4023790545761585, "replay/size": 85486.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7334632345183733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2622026525375915e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.38254857063293, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.86166214942932, "timer/env.step_frac": 0.06612122523076265, "timer/env.step_avg": 0.013754613676890112, "timer/env.step_min": 0.0029807090759277344, "timer/env.step_max": 1.6818702220916748, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2526514530181885, "timer/replay.add_frac": 0.0008410989726947443, "timer/replay.add_avg": 0.0001749663802065017, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0017905235290527344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027079105377197266, "timer/logger.write_frac": 9.014873036417359e-05, "timer/logger.write_avg": 0.027079105377197266, "timer/logger.write_min": 0.027079105377197266, "timer/logger.write_max": 0.027079105377197266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.521721601486206, "timer/agent.policy_frac": 0.03502773929961545, "timer/agent.policy_avg": 0.007286510804353328, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 0.017104625701904297, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06401228904724121, "timer/dataset_frac": 0.00021310255656276634, "timer/dataset_avg": 8.86596801208327e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.9768228530884, "timer/agent.train_frac": 0.8954475688851155, "timer/agent.train_avg": 0.3725440759738066, "timer/agent.train_min": 0.36673450469970703, "timer/agent.train_max": 0.3859221935272217, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20113158226013184, "timer/agent.report_frac": 0.0006695847785339536, "timer/agent.report_avg": 0.20113158226013184, "timer/agent.report_min": 0.20113158226013184, "timer/agent.report_max": 0.20113158226013184, "fps": 4.80710527096707}
+{"step": 85714, "episode/length": 200.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03980099502487562}
+{"step": 85927, "episode/length": 212.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03755868544600939}
+{"step": 86091, "episode/length": 163.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.042682926829268296}
+{"step": 86294, "episode/length": 202.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.029556650246305417}
+{"step": 86442, "episode/length": 147.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02027027027027027}
+{"step": 86628, "episode/length": 185.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.026881720430107527}
+{"step": 86790, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.030864197530864196}
+{"step": 86946, "episode/length": 155.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04487179487179487}
+{"step": 86965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.848709321357835, "train/action_min": 0.0, "train/action_std": 3.662182844860453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04612425085104687, "train/actor_opt_grad_steps": 42580.0, "train/actor_opt_loss": -15.04850918978033, "train/adv_mag": 0.5535866231985496, "train/adv_max": 0.5311982971681676, "train/adv_mean": 0.003311626146300319, "train/adv_min": -0.4427490515608183, "train/adv_std": 0.05963771113417518, "train/cont_avg": 0.9940856073943662, "train/cont_loss_mean": 3.4432855974161395e-05, "train/cont_loss_std": 0.001016215692022621, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001206896481107833, "train/cont_pos_acc": 0.9999861364633265, "train/cont_pos_loss": 2.62155077510689e-05, "train/cont_pred": 0.9940768631411271, "train/cont_rate": 0.9940856073943662, "train/dyn_loss_mean": 4.396998318148331, "train/dyn_loss_std": 8.242690449029627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1403645428133682, "train/extr_critic_critic_opt_grad_steps": 42580.0, "train/extr_critic_critic_opt_loss": 15571.86454665493, "train/extr_critic_mag": 6.490066555184378, "train/extr_critic_max": 6.490066555184378, "train/extr_critic_mean": 1.2046390175819397, "train/extr_critic_min": -0.6275176582202106, "train/extr_critic_std": 1.530599830855786, "train/extr_return_normed_mag": 1.564574292008306, "train/extr_return_normed_max": 1.564574292008306, "train/extr_return_normed_mean": 0.32345383372944847, "train/extr_return_normed_min": -0.15254084786898653, "train/extr_return_normed_std": 0.33534093536961246, "train/extr_return_rate": 0.5085066682855848, "train/extr_return_raw_mag": 7.015912123129401, "train/extr_return_raw_max": 7.015912123129401, "train/extr_return_raw_mean": 1.2201117973932079, "train/extr_return_raw_min": -1.003124066641633, "train/extr_return_raw_std": 1.5662746731664094, "train/extr_reward_mag": 1.0150790617499552, "train/extr_reward_max": 1.0150790617499552, "train/extr_reward_mean": 0.02789463849187317, "train/extr_reward_min": -0.6711665425502079, "train/extr_reward_std": 0.1691012869418507, "train/image_loss_mean": 3.2383434957181905, "train/image_loss_std": 8.309670112502406, "train/model_loss_mean": 5.917326033954889, "train/model_loss_std": 12.233829115478086, "train/model_opt_grad_norm": 42.4607661072637, "train/model_opt_grad_steps": 42542.0, "train/model_opt_loss": 8994.291710222271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1549.2957746478874, "train/policy_entropy_mag": 2.4443901626157087, "train/policy_entropy_max": 2.4443901626157087, "train/policy_entropy_mean": 0.46588614792890953, "train/policy_entropy_min": 0.07937501412881932, "train/policy_entropy_std": 0.5355637614995661, "train/policy_logprob_mag": 7.438383847894803, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46670131322363734, "train/policy_logprob_min": -7.438383847894803, "train/policy_logprob_std": 1.058770780831995, "train/policy_randomness_mag": 0.8627624595668953, "train/policy_randomness_max": 0.8627624595668953, "train/policy_randomness_mean": 0.16443736420970567, "train/policy_randomness_min": 0.02801589680914308, "train/policy_randomness_std": 0.18903050456248538, "train/post_ent_mag": 46.73007551381286, "train/post_ent_max": 46.73007551381286, "train/post_ent_mean": 30.762739315838882, "train/post_ent_min": 16.700416820150025, "train/post_ent_std": 4.719129673192199, "train/prior_ent_mag": 72.89882154867682, "train/prior_ent_max": 72.89882154867682, "train/prior_ent_mean": 35.10661826335208, "train/prior_ent_min": 19.426228832191146, "train/prior_ent_std": 8.486796520125697, "train/rep_loss_mean": 4.396998318148331, "train/rep_loss_std": 8.242690449029627, "train/reward_avg": 0.02206343497661218, "train/reward_loss_mean": 0.04074908142358485, "train/reward_loss_std": 0.18488647862219473, "train/reward_max_data": 1.001408451040026, "train/reward_max_pred": 1.0033320188522339, "train/reward_neg_acc": 0.9959539485649324, "train/reward_neg_loss": 0.021497989007809633, "train/reward_pos_acc": 0.9869501909739534, "train/reward_pos_loss": 0.729053622400257, "train/reward_pred": 0.02198794843550299, "train/reward_rate": 0.027219960387323945, "stats/sum_log_reward": 4.724999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 5.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3736213408410549, "replay/size": 86902.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.701549465373411e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.256327844608975e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2853798866272, "timer/env.step_count": 1416.0, "timer/env.step_total": 21.950491428375244, "timer/env.step_frac": 0.07309876836715345, "timer/env.step_avg": 0.01550175948331585, "timer/env.step_min": 0.0030181407928466797, "timer/env.step_max": 1.7215497493743896, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.24963593482971191, "timer/replay.add_frac": 0.0008313289675440143, "timer/replay.add_avg": 0.00017629656414527677, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0019855499267578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029756784439086914, "timer/logger.write_frac": 9.909501571578874e-05, "timer/logger.write_avg": 0.029756784439086914, "timer/logger.write_min": 0.029756784439086914, "timer/logger.write_max": 0.029756784439086914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002562999725341797, "timer/checkpoint.save_frac": 8.535213157262128e-07, "timer/checkpoint.save_avg": 0.0002562999725341797, "timer/checkpoint.save_min": 0.0002562999725341797, "timer/checkpoint.save_max": 0.0002562999725341797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2566273212432861, "timer/agent.save_frac": 0.004184776900286407, "timer/agent.save_avg": 1.2566273212432861, "timer/agent.save_min": 1.2566273212432861, "timer/agent.save_max": 1.2566273212432861, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.82012939453125e-05, "timer/replay.save_frac": 2.6042324796111423e-07, "timer/replay.save_avg": 7.82012939453125e-05, "timer/replay.save_min": 7.82012939453125e-05, "timer/replay.save_max": 7.82012939453125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.548994779586792, "timer/agent.policy_frac": 0.03846006350341504, "timer/agent.policy_avg": 0.008156069759595192, "timer/agent.policy_min": 0.00574946403503418, "timer/agent.policy_max": 1.2546052932739258, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06302237510681152, "timer/dataset_frac": 0.00020987493673719858, "timer/dataset_avg": 8.901465410566599e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0002052783966064453, "timer/agent.train_count": 708.0, "timer/agent.train_total": 265.7694044113159, "timer/agent.train_frac": 0.8850560906816616, "timer/agent.train_avg": 0.37538051470524847, "timer/agent.train_min": 0.3662838935852051, "timer/agent.train_max": 1.97617506980896, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20524978637695312, "timer/agent.report_frac": 0.0006835157490998903, "timer/agent.report_avg": 0.20524978637695312, "timer/agent.report_min": 0.20524978637695312, "timer/agent.report_max": 0.20524978637695312, "fps": 4.715439587522216}
+{"step": 87093, "episode/length": 146.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.034013605442176874}
+{"step": 87259, "episode/length": 165.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030120481927710843}
+{"step": 87308, "episode/length": 48.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.061224489795918366}
+{"step": 87472, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
+{"step": 87728, "episode/length": 255.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0234375}
+{"step": 87918, "episode/length": 189.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02631578947368421}
+{"step": 88078, "episode/length": 159.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03125}
+{"step": 88251, "episode/length": 172.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.04046242774566474}
+{"step": 88407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.94764879014757, "train/action_min": 0.0, "train/action_std": 3.805847419632806, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046483821546037994, "train/actor_opt_grad_steps": 43295.0, "train/actor_opt_loss": -19.424935087147688, "train/adv_mag": 0.6040981780323718, "train/adv_max": 0.5722661891745197, "train/adv_mean": 0.0015812127780666036, "train/adv_min": -0.49539690092206, "train/adv_std": 0.05896264863097005, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 9.26715814713535e-06, "train/cont_loss_std": 0.0002468517212109352, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018241898065854103, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 7.888023962898671e-06, "train/cont_pred": 0.9942709133028984, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.482828150192897, "train/dyn_loss_std": 8.27766239643097, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0990799566109974, "train/extr_critic_critic_opt_grad_steps": 43295.0, "train/extr_critic_critic_opt_loss": 15380.12653266059, "train/extr_critic_mag": 6.865587492783864, "train/extr_critic_max": 6.865587492783864, "train/extr_critic_mean": 1.192901944120725, "train/extr_critic_min": -0.6118621312909656, "train/extr_critic_std": 1.5693188044759963, "train/extr_return_normed_mag": 1.6350169893768098, "train/extr_return_normed_max": 1.6350169893768098, "train/extr_return_normed_mean": 0.3120533977117803, "train/extr_return_normed_min": -0.1530992387690478, "train/extr_return_normed_std": 0.33836328403817284, "train/extr_return_rate": 0.49206274044182563, "train/extr_return_raw_mag": 7.455108821392059, "train/extr_return_raw_max": 7.455108821392059, "train/extr_return_raw_mean": 1.200334235197968, "train/extr_return_raw_min": -0.9998047103484472, "train/extr_return_raw_std": 1.6000924309094746, "train/extr_reward_mag": 1.0145018729898665, "train/extr_reward_max": 1.0145018729898665, "train/extr_reward_mean": 0.026147040008153353, "train/extr_reward_min": -0.6600413984722562, "train/extr_reward_std": 0.16590860310114092, "train/image_loss_mean": 3.3841829548279443, "train/image_loss_std": 8.678111745251549, "train/model_loss_mean": 6.113527370823754, "train/model_loss_std": 12.551808807584974, "train/model_opt_grad_norm": 42.55967231591543, "train/model_opt_grad_steps": 43256.25, "train/model_opt_loss": 9460.373460557727, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.414727876583735, "train/policy_entropy_max": 2.414727876583735, "train/policy_entropy_mean": 0.4891224971248044, "train/policy_entropy_min": 0.07937501391602887, "train/policy_entropy_std": 0.5475074681970808, "train/policy_logprob_mag": 7.438383830918206, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4888915407160918, "train/policy_logprob_min": -7.438383830918206, "train/policy_logprob_std": 1.0689901519152853, "train/policy_randomness_mag": 0.8522929723064104, "train/policy_randomness_max": 0.8522929723064104, "train/policy_randomness_mean": 0.17263877702256045, "train/policy_randomness_min": 0.02801589672971103, "train/policy_randomness_std": 0.19324611127376556, "train/post_ent_mag": 47.55010774400499, "train/post_ent_max": 47.55010774400499, "train/post_ent_mean": 31.161147938834297, "train/post_ent_min": 17.023914323912727, "train/post_ent_std": 4.926787561840481, "train/prior_ent_mag": 73.039139535692, "train/prior_ent_max": 73.039139535692, "train/prior_ent_mean": 35.55410703023275, "train/prior_ent_min": 19.65189223819309, "train/prior_ent_std": 8.526747332678902, "train/rep_loss_mean": 4.482828150192897, "train/rep_loss_std": 8.27766239643097, "train/reward_avg": 0.02179090694213907, "train/reward_loss_mean": 0.03963823476806283, "train/reward_loss_std": 0.17947577498853207, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0068459543916914, "train/reward_neg_acc": 0.9961288140879737, "train/reward_neg_loss": 0.02041340990561164, "train/reward_pos_acc": 0.986644503970941, "train/reward_pos_loss": 0.7377846100264125, "train/reward_pred": 0.021607310039043013, "train/reward_rate": 0.026869032118055556, "stats/sum_log_reward": 4.224999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_wood": 4.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3896206095814705, "replay/size": 88344.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7409561517003837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2756923366022837e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1829333305359, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.056178092956543, "timer/env.step_frac": 0.06681318578119293, "timer/env.step_avg": 0.01390858397569802, "timer/env.step_min": 0.002908945083618164, "timer/env.step_max": 1.6749286651611328, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2571728229522705, "timer/replay.add_frac": 0.0008567203341606822, "timer/replay.add_avg": 0.0001783445374148894, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005554676055908203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03120279312133789, "timer/logger.write_frac": 0.00010394592648936518, "timer/logger.write_avg": 0.03120279312133789, "timer/logger.write_min": 0.03120279312133789, "timer/logger.write_max": 0.03120279312133789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.596893787384033, "timer/agent.policy_frac": 0.03530145324989424, "timer/agent.policy_avg": 0.007348747425370342, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 0.016998291015625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06550788879394531, "timer/dataset_frac": 0.00021822655960861573, "timer/dataset_avg": 9.085698861850944e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.49816370010376, "timer/agent.train_frac": 0.8944484642118425, "timer/agent.train_avg": 0.3723968983357889, "timer/agent.train_min": 0.3655412197113037, "timer/agent.train_max": 0.38536524772644043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19959735870361328, "timer/agent.report_frac": 0.0006649190761415928, "timer/agent.report_avg": 0.19959735870361328, "timer/agent.report_min": 0.19959735870361328, "timer/agent.report_max": 0.19959735870361328, "fps": 4.803670724974078}
+{"step": 88414, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03067484662576687}
+{"step": 88573, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
+{"step": 88731, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 88968, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.029535864978902954}
+{"step": 89176, "episode/length": 207.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.03365384615384615}
+{"step": 89352, "episode/length": 175.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.028409090909090908}
+{"step": 89525, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
+{"step": 89710, "episode/length": 184.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.02702702702702703}
+{"step": 89848, "stats/sum_log_reward": 4.724999904632568, "stats/max_log_achievement_collect_drink": 7.5, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4518112689256668, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.873525831434462, "train/action_min": 0.0, "train/action_std": 3.7306775053342185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04637805030991634, "train/actor_opt_grad_steps": 44015.0, "train/actor_opt_loss": -16.545682082573574, "train/adv_mag": 0.5863912134534783, "train/adv_max": 0.5415869446264373, "train/adv_mean": 0.002572647914399163, "train/adv_min": -0.46972172252006, "train/adv_std": 0.06064570519245333, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 3.235370020604478e-05, "train/cont_loss_std": 0.0008064404725066273, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005714516014450055, "train/cont_pos_acc": 0.9999863389465544, "train/cont_pos_loss": 2.949776222788753e-05, "train/cont_pred": 0.9940127597914802, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.304548783434762, "train/dyn_loss_std": 8.159733633200327, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1090565009249582, "train/extr_critic_critic_opt_grad_steps": 44015.0, "train/extr_critic_critic_opt_loss": 15534.916680230035, "train/extr_critic_mag": 6.591653300656213, "train/extr_critic_max": 6.591653300656213, "train/extr_critic_mean": 1.2252565440204408, "train/extr_critic_min": -0.6712213257948557, "train/extr_critic_std": 1.5523772355582979, "train/extr_return_normed_mag": 1.639041781425476, "train/extr_return_normed_max": 1.639041781425476, "train/extr_return_normed_mean": 0.33366891410615707, "train/extr_return_normed_min": -0.171522105526593, "train/extr_return_normed_std": 0.34388400386605, "train/extr_return_rate": 0.5158176281385951, "train/extr_return_raw_mag": 7.2527881198459205, "train/extr_return_raw_max": 7.2527881198459205, "train/extr_return_raw_mean": 1.2370555467075772, "train/extr_return_raw_min": -1.091661111348205, "train/extr_return_raw_std": 1.5848271350065868, "train/extr_reward_mag": 1.0154279867808025, "train/extr_reward_max": 1.0154279867808025, "train/extr_reward_mean": 0.027782422930209175, "train/extr_reward_min": -0.6816656738519669, "train/extr_reward_std": 0.1691348852796687, "train/image_loss_mean": 2.986302337712712, "train/image_loss_std": 7.4447596536742315, "train/model_loss_mean": 5.610145376788245, "train/model_loss_std": 11.302197575569153, "train/model_opt_grad_norm": 43.37336484591166, "train/model_opt_grad_steps": 43975.875, "train/model_opt_loss": 8703.765028211805, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1545.138888888889, "train/policy_entropy_mag": 2.4409412841002145, "train/policy_entropy_max": 2.4409412841002145, "train/policy_entropy_mean": 0.4567928695016437, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5178984622988436, "train/policy_logprob_mag": 7.438383897145589, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45615807217028403, "train/policy_logprob_min": -7.438383897145589, "train/policy_logprob_std": 1.0480335040224924, "train/policy_randomness_mag": 0.8615451554457346, "train/policy_randomness_max": 0.8615451554457346, "train/policy_randomness_mean": 0.1612278361701303, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18279543187883165, "train/post_ent_mag": 47.263653914133705, "train/post_ent_max": 47.263653914133705, "train/post_ent_mean": 31.338529295391506, "train/post_ent_min": 16.824587146441143, "train/post_ent_std": 4.861792309416665, "train/prior_ent_mag": 72.97366534339056, "train/prior_ent_max": 72.97366534339056, "train/prior_ent_mean": 35.649315410190155, "train/prior_ent_min": 19.621132797665066, "train/prior_ent_std": 8.407792839739058, "train/rep_loss_mean": 4.304548783434762, "train/rep_loss_std": 8.159733633200327, "train/reward_avg": 0.022604709019004885, "train/reward_loss_mean": 0.04108141365254091, "train/reward_loss_std": 0.1864693525971638, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0084037648306952, "train/reward_neg_acc": 0.9961337049802145, "train/reward_neg_loss": 0.021338064986695018, "train/reward_pos_acc": 0.9878348029322095, "train/reward_pos_loss": 0.7305017585555712, "train/reward_pred": 0.022490508414597973, "train/reward_rate": 0.027723524305555556, "replay/size": 89785.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7344522893139257e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2695168455441794e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0059332847595, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.216197967529297, "timer/env.step_frac": 0.06738599382413045, "timer/env.step_avg": 0.014029283808139692, "timer/env.step_min": 0.0029566287994384766, "timer/env.step_max": 1.6818640232086182, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2438061237335205, "timer/replay.add_frac": 0.0008126710064167454, "timer/replay.add_avg": 0.00016919231348613498, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.008267879486083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030392885208129883, "timer/logger.write_frac": 0.00010130761373736423, "timer/logger.write_avg": 0.030392885208129883, "timer/logger.write_min": 0.030392885208129883, "timer/logger.write_max": 0.030392885208129883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.586891174316406, "timer/agent.policy_frac": 0.035288939316635265, "timer/agent.policy_avg": 0.007346905742065514, "timer/agent.policy_min": 0.00553584098815918, "timer/agent.policy_max": 0.01538705825805664, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0646519660949707, "timer/dataset_frac": 0.00021550229152836244, "timer/dataset_avg": 8.979439735412598e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1856405735016, "timer/agent.train_frac": 0.8939344553527387, "timer/agent.train_avg": 0.37248005635208553, "timer/agent.train_min": 0.3649425506591797, "timer/agent.train_max": 0.38575077056884766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2007429599761963, "timer/agent.report_frac": 0.0006691299661252205, "timer/agent.report_avg": 0.2007429599761963, "timer/agent.report_min": 0.2007429599761963, "timer/agent.report_max": 0.2007429599761963, "fps": 4.80315221852993}
+{"step": 89948, "episode/length": 237.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.025210084033613446}
+{"step": 90123, "episode/length": 174.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03428571428571429}
+{"step": 90288, "episode/length": 164.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04242424242424243}
+{"step": 90440, "episode/length": 151.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.039473684210526314}
+{"step": 90599, "episode/length": 158.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.03773584905660377}
+{"step": 90800, "episode/length": 200.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024875621890547265}
+{"step": 90985, "episode/length": 184.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.03783783783783784}
+{"step": 91150, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
+{"step": 91213, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.07936507936507936}
+{"step": 91259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.746808119223151, "train/action_min": 0.0, "train/action_std": 3.5825403475425612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04600260422473222, "train/actor_opt_grad_steps": 44730.0, "train/actor_opt_loss": -17.20681551308699, "train/adv_mag": 0.5991437544285412, "train/adv_max": 0.5615497945060193, "train/adv_mean": 0.002452161393872738, "train/adv_min": -0.4896713197231293, "train/adv_std": 0.059305399813702406, "train/cont_avg": 0.9940443441901409, "train/cont_loss_mean": 0.00016060048304451888, "train/cont_loss_std": 0.004284469325689699, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.023888744038751093, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 2.1023550315020765e-05, "train/cont_pred": 0.9940609453429639, "train/cont_rate": 0.9940443441901409, "train/dyn_loss_mean": 4.364999996104711, "train/dyn_loss_std": 8.268203198070257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1190734715528892, "train/extr_critic_critic_opt_grad_steps": 44730.0, "train/extr_critic_critic_opt_loss": 15389.612566021127, "train/extr_critic_mag": 6.468051917116407, "train/extr_critic_max": 6.468051917116407, "train/extr_critic_mean": 1.1254497993160302, "train/extr_critic_min": -0.6918709815387994, "train/extr_critic_std": 1.5238634675321445, "train/extr_return_normed_mag": 1.6236199795360295, "train/extr_return_normed_max": 1.6236199795360295, "train/extr_return_normed_mean": 0.3140497022951153, "train/extr_return_normed_min": -0.18097585481657108, "train/extr_return_normed_std": 0.34098515775002225, "train/extr_return_rate": 0.46973116800818643, "train/extr_return_raw_mag": 7.122556666253319, "train/extr_return_raw_max": 7.122556666253319, "train/extr_return_raw_mean": 1.1366470775134128, "train/extr_return_raw_min": -1.1265748798007695, "train/extr_return_raw_std": 1.5590338748945316, "train/extr_reward_mag": 1.0147890104374415, "train/extr_reward_max": 1.0147890104374415, "train/extr_reward_mean": 0.025979124285070827, "train/extr_reward_min": -0.70204105679418, "train/extr_reward_std": 0.16484057619957856, "train/image_loss_mean": 3.106383827370657, "train/image_loss_std": 7.9605606441766446, "train/model_loss_mean": 5.76593795292814, "train/model_loss_std": 11.910570205097468, "train/model_opt_grad_norm": 42.23467974595621, "train/model_opt_grad_steps": 44690.0, "train/model_opt_loss": 7207.422438930458, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4254452678519236, "train/policy_entropy_max": 2.4254452678519236, "train/policy_entropy_mean": 0.4532266985362684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5136143506412775, "train/policy_logprob_mag": 7.438383800882689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45366340455874593, "train/policy_logprob_min": -7.438383800882689, "train/policy_logprob_std": 1.0451145247674325, "train/policy_randomness_mag": 0.8560757393568335, "train/policy_randomness_max": 0.8560757393568335, "train/policy_randomness_mean": 0.15996913685345313, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18128332726552454, "train/post_ent_mag": 48.12796455705669, "train/post_ent_max": 48.12796455705669, "train/post_ent_mean": 31.527559334123637, "train/post_ent_min": 16.82379437836123, "train/post_ent_std": 4.902038910019566, "train/prior_ent_mag": 73.11303485279352, "train/prior_ent_max": 73.11303485279352, "train/prior_ent_mean": 35.812584890446196, "train/prior_ent_min": 19.52004393725328, "train/prior_ent_std": 8.450055417880206, "train/rep_loss_mean": 4.364999996104711, "train/rep_loss_std": 8.268203198070257, "train/reward_avg": 0.021355083527069697, "train/reward_loss_mean": 0.04039357744262252, "train/reward_loss_std": 0.18598413530369878, "train/reward_max_data": 1.0028169020800524, "train/reward_max_pred": 1.0043835069092226, "train/reward_neg_acc": 0.9957707473929499, "train/reward_neg_loss": 0.02135688804326133, "train/reward_pos_acc": 0.9884986121889571, "train/reward_pos_loss": 0.7328885155664363, "train/reward_pred": 0.021098235648282816, "train/reward_rate": 0.026669784330985914, "stats/sum_log_reward": 4.7666665183173285, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 3.5555555555555554, "stats/max_log_achievement_collect_wood": 4.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3499416692389382, "replay/size": 91196.0, "replay/inserts": 1411.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.712469597052041e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2555389161150449e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457350730896, "timer/env.step_count": 1411.0, "timer/env.step_total": 24.266200304031372, "timer/env.step_frac": 0.0807942230247623, "timer/env.step_avg": 0.017197874063806785, "timer/env.step_min": 0.0029420852661132812, "timer/env.step_max": 2.633226156234741, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.24448275566101074, "timer/replay.add_frac": 0.0008140044192787205, "timer/replay.add_avg": 0.00017326913937704518, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0044443607330322266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02249312400817871, "timer/logger.write_frac": 7.489077213866538e-05, "timer/logger.write_avg": 0.02249312400817871, "timer/logger.write_min": 0.02249312400817871, "timer/logger.write_max": 0.02249312400817871, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003046989440917969, "timer/checkpoint.save_frac": 1.0144939931231183e-06, "timer/checkpoint.save_avg": 0.0003046989440917969, "timer/checkpoint.save_min": 0.0003046989440917969, "timer/checkpoint.save_max": 0.0003046989440917969, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4183342456817627, "timer/agent.save_frac": 0.0047223385587167035, "timer/agent.save_avg": 1.4183342456817627, "timer/agent.save_min": 1.4183342456817627, "timer/agent.save_max": 1.4183342456817627, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.082389831542969e-05, "timer/replay.save_frac": 2.6910286672045156e-07, "timer/replay.save_avg": 8.082389831542969e-05, "timer/replay.save_min": 8.082389831542969e-05, "timer/replay.save_max": 8.082389831542969e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.644512414932251, "timer/agent.policy_frac": 0.038770360471736154, "timer/agent.policy_avg": 0.008252666488258151, "timer/agent.policy_min": 0.005702018737792969, "timer/agent.policy_max": 1.4057221412658691, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06349301338195801, "timer/dataset_frac": 0.00021139975024618506, "timer/dataset_avg": 8.99334467166544e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00017261505126953125, "timer/agent.train_count": 706.0, "timer/agent.train_total": 263.4353392124176, "timer/agent.train_frac": 0.8771069752274332, "timer/agent.train_avg": 0.3731378742385518, "timer/agent.train_min": 0.3668222427368164, "timer/agent.train_max": 0.8516068458557129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1995680332183838, "timer/agent.report_frac": 0.0006644610191312309, "timer/agent.report_avg": 0.1995680332183838, "timer/agent.report_min": 0.1995680332183838, "timer/agent.report_max": 0.1995680332183838, "fps": 4.697845149266978}
+{"step": 91410, "episode/length": 196.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.03553299492385787}
+{"step": 91573, "episode/length": 162.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.049079754601226995}
+{"step": 91723, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
+{"step": 91908, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.032432432432432434}
+{"step": 92062, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.032467532467532464}
+{"step": 92229, "episode/length": 166.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.029940119760479042}
+{"step": 92381, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.039473684210526314}
+{"step": 92539, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03164556962025317}
+{"step": 92627, "episode/length": 87.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 4.700000032782555, "episode/reward_rate": 0.03409090909090909}
+{"step": 92693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.868911958076585, "train/action_min": 0.0, "train/action_std": 3.7146462453922755, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575991221296955, "train/actor_opt_grad_steps": 45440.0, "train/actor_opt_loss": -14.602946050360169, "train/adv_mag": 0.607634745013546, "train/adv_max": 0.5555134025258077, "train/adv_mean": 0.0029531087597763576, "train/adv_min": -0.5145060835589825, "train/adv_std": 0.05950152480476339, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 2.0325934822011104e-05, "train/cont_loss_std": 0.000504028480764633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014182574801888106, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.0191084969315392e-05, "train/cont_pred": 0.9941682034814862, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.331290459968675, "train/dyn_loss_std": 8.213678991290886, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.09256868463167, "train/extr_critic_critic_opt_grad_steps": 45440.0, "train/extr_critic_critic_opt_loss": 15482.414887764084, "train/extr_critic_mag": 6.854258557440529, "train/extr_critic_max": 6.854258557440529, "train/extr_critic_mean": 1.2079240234804824, "train/extr_critic_min": -0.6674396236177901, "train/extr_critic_std": 1.587552978958882, "train/extr_return_normed_mag": 1.668023599705226, "train/extr_return_normed_max": 1.668023599705226, "train/extr_return_normed_mean": 0.3203993565599683, "train/extr_return_normed_min": -0.15102535045482743, "train/extr_return_normed_std": 0.3464129478998587, "train/extr_return_rate": 0.49045263797464506, "train/extr_return_raw_mag": 7.533428514507455, "train/extr_return_raw_max": 7.533428514507455, "train/extr_return_raw_mean": 1.2217437549376151, "train/extr_return_raw_min": -0.9865470688107988, "train/extr_return_raw_std": 1.6225038464640227, "train/extr_reward_mag": 1.013631051694843, "train/extr_reward_max": 1.013631051694843, "train/extr_reward_mean": 0.028556271220072055, "train/extr_reward_min": -0.6874868852991454, "train/extr_reward_std": 0.1715046002621382, "train/image_loss_mean": 3.055432274308003, "train/image_loss_std": 7.701685062596495, "train/model_loss_mean": 5.696578250804418, "train/model_loss_std": 11.614629476842746, "train/model_opt_grad_norm": 42.772996629987446, "train/model_opt_grad_steps": 45399.45070422535, "train/model_opt_loss": 8463.146463743398, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.4222107470875054, "train/policy_entropy_max": 2.4222107470875054, "train/policy_entropy_mean": 0.4577048962384882, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.513094577151285, "train/policy_logprob_mag": 7.4383838881909, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4572582467341087, "train/policy_logprob_min": -7.4383838881909, "train/policy_logprob_std": 1.0474559454850747, "train/policy_randomness_mag": 0.8549340963363647, "train/policy_randomness_max": 0.8549340963363647, "train/policy_randomness_mean": 0.16154974216306714, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1810998685762916, "train/post_ent_mag": 47.66228721511196, "train/post_ent_max": 47.66228721511196, "train/post_ent_mean": 31.71256145960848, "train/post_ent_min": 16.754241432942134, "train/post_ent_std": 4.978217077926851, "train/prior_ent_mag": 73.20072313765405, "train/prior_ent_max": 73.20072313765405, "train/prior_ent_mean": 36.00278215005364, "train/prior_ent_min": 19.20627192376365, "train/prior_ent_std": 8.463422835712702, "train/rep_loss_mean": 4.331290459968675, "train/rep_loss_std": 8.213678991290886, "train/reward_avg": 0.022499449629808814, "train/reward_loss_mean": 0.042351425822142144, "train/reward_loss_std": 0.19668993322362363, "train/reward_max_data": 1.0028169020800524, "train/reward_max_pred": 1.0047501426347545, "train/reward_neg_acc": 0.9951205421501482, "train/reward_neg_loss": 0.021792750858085255, "train/reward_pos_acc": 0.9807183725733153, "train/reward_pos_loss": 0.7609509070154646, "train/reward_pred": 0.0221106633412796, "train/reward_rate": 0.027715118838028168, "stats/sum_log_reward": 4.433333237965901, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3986654927333196, "replay/size": 92630.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6993119839677583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.275701502875803e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10698914527893, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.558297157287598, "timer/env.step_frac": 0.07183537184084517, "timer/env.step_avg": 0.015033680026002508, "timer/env.step_min": 0.0029172897338867188, "timer/env.step_max": 1.7139501571655273, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.237213134765625, "timer/replay.add_frac": 0.0007904285582992284, "timer/replay.add_avg": 0.0001654205960708682, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0010426044464111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03086233139038086, "timer/logger.write_frac": 0.00010283776288675737, "timer/logger.write_avg": 0.03086233139038086, "timer/logger.write_min": 0.03086233139038086, "timer/logger.write_max": 0.03086233139038086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.479705810546875, "timer/agent.policy_frac": 0.03491989920126035, "timer/agent.policy_avg": 0.007308023577787221, "timer/agent.policy_min": 0.005722999572753906, "timer/agent.policy_max": 0.015529632568359375, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06843209266662598, "timer/dataset_frac": 0.00022802565465577563, "timer/dataset_avg": 9.544224918636817e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.002284526824951172, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.05602979660034, "timer/agent.train_frac": 0.8898694114295388, "timer/agent.train_avg": 0.3724630820036267, "timer/agent.train_min": 0.3666553497314453, "timer/agent.train_max": 0.3874375820159912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20373916625976562, "timer/agent.report_frac": 0.0006788884418854285, "timer/agent.report_avg": 0.20373916625976562, "timer/agent.report_min": 0.20373916625976562, "timer/agent.report_max": 0.20373916625976562, "fps": 4.778232129088058}
+{"step": 92835, "episode/length": 207.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03365384615384615}
+{"step": 92967, "episode/length": 131.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.045454545454545456}
+{"step": 93072, "episode/length": 104.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.047619047619047616}
+{"step": 93233, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
+{"step": 93417, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03804347826086957}
+{"step": 93605, "episode/length": 187.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.047872340425531915}
+{"step": 93777, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
+{"step": 93826, "episode/length": 48.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.08163265306122448}
+{"step": 93934, "episode/length": 107.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.05555555555555555}
+{"step": 94118, "episode/length": 183.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.03260869565217391}
+{"step": 94119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.797376844618055, "train/action_min": 0.0, "train/action_std": 3.6964705520206027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04602618743148115, "train/actor_opt_grad_steps": 46155.0, "train/actor_opt_loss": -17.031499430537224, "train/adv_mag": 0.6111443365613619, "train/adv_max": 0.5661816919843355, "train/adv_mean": 0.002607903991929561, "train/adv_min": -0.4872003292871846, "train/adv_std": 0.05974983920653661, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 8.83541276748032e-05, "train/cont_loss_std": 0.002703174292169782, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016339116927055228, "train/cont_pos_acc": 0.9999863372908698, "train/cont_pos_loss": 7.698245514396894e-05, "train/cont_pred": 0.9940208453271124, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.329836931493547, "train/dyn_loss_std": 8.230013569196066, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1143142183621724, "train/extr_critic_critic_opt_grad_steps": 46155.0, "train/extr_critic_critic_opt_loss": 15395.065280490451, "train/extr_critic_mag": 6.792750928137037, "train/extr_critic_max": 6.792750928137037, "train/extr_critic_mean": 1.195760538180669, "train/extr_critic_min": -0.6529044823514091, "train/extr_critic_std": 1.5665218515528574, "train/extr_return_normed_mag": 1.6690796928273306, "train/extr_return_normed_max": 1.6690796928273306, "train/extr_return_normed_mean": 0.3169846853448285, "train/extr_return_normed_min": -0.14953697700467375, "train/extr_return_normed_std": 0.34160852059721947, "train/extr_return_rate": 0.490756137503518, "train/extr_return_raw_mag": 7.5305167767736645, "train/extr_return_raw_max": 7.5305167767736645, "train/extr_return_raw_mean": 1.2079413640830252, "train/extr_return_raw_min": -0.9731651635633575, "train/extr_return_raw_std": 1.5973072118229337, "train/extr_reward_mag": 1.0106845166948106, "train/extr_reward_max": 1.0106845166948106, "train/extr_reward_mean": 0.028425864422590368, "train/extr_reward_min": -0.677520344654719, "train/extr_reward_std": 0.17166370981269413, "train/image_loss_mean": 2.9499993208381863, "train/image_loss_std": 7.913443227608998, "train/model_loss_mean": 5.589045332537757, "train/model_loss_std": 11.862416704495748, "train/model_opt_grad_norm": 43.19040457407633, "train/model_opt_grad_steps": 46114.0, "train/model_opt_loss": 7948.252414279514, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.437401854329639, "train/policy_entropy_max": 2.437401854329639, "train/policy_entropy_mean": 0.4604920032951567, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5216731184886562, "train/policy_logprob_mag": 7.438383811049992, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4612576100561354, "train/policy_logprob_min": -7.438383811049992, "train/policy_logprob_std": 1.0515507368577852, "train/policy_randomness_mag": 0.860295892589622, "train/policy_randomness_max": 0.860295892589622, "train/policy_randomness_mean": 0.16253346960163778, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18412771965894434, "train/post_ent_mag": 47.392708672417534, "train/post_ent_max": 47.392708672417534, "train/post_ent_mean": 31.92857641643948, "train/post_ent_min": 16.933429704772102, "train/post_ent_std": 4.934530162149006, "train/prior_ent_mag": 73.14954227871365, "train/prior_ent_max": 73.14954227871365, "train/prior_ent_mean": 36.17008304595947, "train/prior_ent_min": 19.596782167752583, "train/prior_ent_std": 8.370163963900673, "train/rep_loss_mean": 4.329836931493547, "train/rep_loss_std": 8.230013569196066, "train/reward_avg": 0.021525064987751346, "train/reward_loss_mean": 0.04105544677521619, "train/reward_loss_std": 0.190865826068653, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0070306261380513, "train/reward_neg_acc": 0.996179392768277, "train/reward_neg_loss": 0.022195815554975223, "train/reward_pos_acc": 0.9891189543737305, "train/reward_pos_loss": 0.7246982273128297, "train/reward_pred": 0.021453759904640417, "train/reward_rate": 0.02685546875, "stats/sum_log_reward": 5.100000047683716, "stats/max_log_achievement_collect_drink": 3.9, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 5.1, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_table": 2.1, "stats/max_log_achievement_wake_up": 1.1, "stats/mean_log_entropy": 0.37600924223661425, "replay/size": 94056.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7080275226609068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507361750448904e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.7135097980499, "timer/env.step_count": 1426.0, "timer/env.step_total": 23.78824496269226, "timer/env.step_frac": 0.0791060068390932, "timer/env.step_avg": 0.0166817987115654, "timer/env.step_min": 0.0029931068420410156, "timer/env.step_max": 1.7889318466186523, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.25058627128601074, "timer/replay.add_frac": 0.000833305665097311, "timer/replay.add_avg": 0.00017572669795652926, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0025637149810791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022634029388427734, "timer/logger.write_frac": 7.526775037020473e-05, "timer/logger.write_avg": 0.022634029388427734, "timer/logger.write_min": 0.022634029388427734, "timer/logger.write_max": 0.022634029388427734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 10.350099802017212, "timer/agent.policy_frac": 0.03441847294778351, "timer/agent.policy_avg": 0.007258134503518382, "timer/agent.policy_min": 0.005569934844970703, "timer/agent.policy_max": 0.01624155044555664, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06366086006164551, "timer/dataset_frac": 0.00021169936829375645, "timer/dataset_avg": 8.928591874003577e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.56133103370667, "timer/agent.train_frac": 0.883104092037799, "timer/agent.train_avg": 0.3724562847597569, "timer/agent.train_min": 0.3658320903778076, "timer/agent.train_max": 0.38572025299072266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20161199569702148, "timer/agent.report_frac": 0.0006704454210667754, "timer/agent.report_avg": 0.20161199569702148, "timer/agent.report_min": 0.20161199569702148, "timer/agent.report_max": 0.20161199569702148, "fps": 4.741977655137848}
+{"step": 94296, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
+{"step": 94468, "episode/length": 171.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023255813953488372}
+{"step": 94678, "episode/length": 209.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.03333333333333333}
+{"step": 94818, "episode/length": 139.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04285714285714286}
+{"step": 95012, "episode/length": 193.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03608247422680412}
+{"step": 95194, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
+{"step": 95488, "episode/length": 293.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.100000023841858, "episode/reward_rate": 0.013605442176870748}
+{"step": 95545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.653449260013204, "train/action_min": 0.0, "train/action_std": 3.496034669204497, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04674883601321301, "train/actor_opt_grad_steps": 46870.0, "train/actor_opt_loss": -17.217886157019038, "train/adv_mag": 0.5702318977302229, "train/adv_max": 0.5279956875552594, "train/adv_mean": 0.0015415452610501284, "train/adv_min": -0.4833213283982075, "train/adv_std": 0.05974769230249902, "train/cont_avg": 0.9939755721830986, "train/cont_loss_mean": 0.000173637949988198, "train/cont_loss_std": 0.005465850823949476, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.008506690523037678, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 0.00012453037780426736, "train/cont_pred": 0.9939732014293402, "train/cont_rate": 0.9939755721830986, "train/dyn_loss_mean": 4.433417991853096, "train/dyn_loss_std": 8.198908778983103, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2058387784890725, "train/extr_critic_critic_opt_grad_steps": 46870.0, "train/extr_critic_critic_opt_loss": 15519.838798415492, "train/extr_critic_mag": 6.5889751743262925, "train/extr_critic_max": 6.5889751743262925, "train/extr_critic_mean": 1.2169108172537575, "train/extr_critic_min": -0.633490864659699, "train/extr_critic_std": 1.5083518397640174, "train/extr_return_normed_mag": 1.633350348808396, "train/extr_return_normed_max": 1.633350348808396, "train/extr_return_normed_mean": 0.32288059718172313, "train/extr_return_normed_min": -0.15176500978184418, "train/extr_return_normed_std": 0.33377957931706603, "train/extr_return_rate": 0.5232477141937739, "train/extr_return_raw_mag": 7.240978529755498, "train/extr_return_raw_max": 7.240978529755498, "train/extr_return_raw_mean": 1.223991976657384, "train/extr_return_raw_min": -0.9550293558080432, "train/extr_return_raw_std": 1.5324082391362794, "train/extr_reward_mag": 1.0149854102604825, "train/extr_reward_max": 1.0149854102604825, "train/extr_reward_mean": 0.02807892879969637, "train/extr_reward_min": -0.6799626837314015, "train/extr_reward_std": 0.17146388766631274, "train/image_loss_mean": 3.1071382912111956, "train/image_loss_std": 8.059392828336904, "train/model_loss_mean": 5.8096657135117225, "train/model_loss_std": 11.91072347130574, "train/model_opt_grad_norm": 45.38619385302906, "train/model_opt_grad_steps": 46828.45070422535, "train/model_opt_loss": 10440.488913952464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.411046666158757, "train/policy_entropy_max": 2.411046666158757, "train/policy_entropy_mean": 0.42099340406941693, "train/policy_entropy_min": 0.07937501381400605, "train/policy_entropy_std": 0.48561343298831455, "train/policy_logprob_mag": 7.438383821030738, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42109656879599666, "train/policy_logprob_min": -7.438383821030738, "train/policy_logprob_std": 1.0222796487136625, "train/policy_randomness_mag": 0.8509936660108431, "train/policy_randomness_max": 0.8509936660108431, "train/policy_randomness_mean": 0.14859219430617884, "train/policy_randomness_min": 0.028015896704205324, "train/policy_randomness_std": 0.17140022990569262, "train/post_ent_mag": 47.963522145445914, "train/post_ent_max": 47.963522145445914, "train/post_ent_mean": 32.07246060438559, "train/post_ent_min": 17.064448504380778, "train/post_ent_std": 4.929313800704311, "train/prior_ent_mag": 73.20806304501815, "train/prior_ent_max": 73.20806304501815, "train/prior_ent_mean": 36.45718319315306, "train/prior_ent_min": 19.719144834599025, "train/prior_ent_std": 8.33727868845765, "train/rep_loss_mean": 4.433417991853096, "train/rep_loss_std": 8.198908778983103, "train/reward_avg": 0.022579225121249616, "train/reward_loss_mean": 0.042302996549807806, "train/reward_loss_std": 0.1919724120640419, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0093668900745016, "train/reward_neg_acc": 0.9959095598946155, "train/reward_neg_loss": 0.021980171170557887, "train/reward_pos_acc": 0.9830941154923237, "train/reward_pos_loss": 0.7471149949960305, "train/reward_pred": 0.02227925822715944, "train/reward_rate": 0.028031470070422535, "stats/sum_log_reward": 4.671428339821952, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.3898147557462965, "replay/size": 95482.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7623655578698885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.268918517595588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2642922401428, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.775851249694824, "timer/env.step_frac": 0.06253108256601632, "timer/env.step_avg": 0.013166796107780382, "timer/env.step_min": 0.0031232833862304688, "timer/env.step_max": 1.814446210861206, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2446751594543457, "timer/replay.add_frac": 0.0008148659889889987, "timer/replay.add_avg": 0.00017158145824287918, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0027239322662353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026378154754638672, "timer/logger.write_frac": 8.784978912358376e-05, "timer/logger.write_avg": 0.026378154754638672, "timer/logger.write_min": 0.026378154754638672, "timer/logger.write_max": 0.026378154754638672, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034356117248535156, "timer/checkpoint.save_frac": 1.1441959012914567e-06, "timer/checkpoint.save_avg": 0.00034356117248535156, "timer/checkpoint.save_min": 0.00034356117248535156, "timer/checkpoint.save_max": 0.00034356117248535156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.307662010192871, "timer/agent.save_frac": 0.004355036692631571, "timer/agent.save_avg": 1.307662010192871, "timer/agent.save_min": 1.307662010192871, "timer/agent.save_max": 1.307662010192871, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.012222290039062e-05, "timer/replay.save_frac": 3.001429914560518e-07, "timer/replay.save_avg": 9.012222290039062e-05, "timer/replay.save_min": 9.012222290039062e-05, "timer/replay.save_max": 9.012222290039062e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 11.736080169677734, "timer/agent.policy_frac": 0.039085833623838134, "timer/agent.policy_avg": 0.008230070245215803, "timer/agent.policy_min": 0.00564885139465332, "timer/agent.policy_max": 1.298813819885254, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06494617462158203, "timer/dataset_frac": 0.00021629669694337125, "timer/dataset_avg": 9.108860395733806e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002391338348388672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 268.7346794605255, "timer/agent.train_frac": 0.8949937984820359, "timer/agent.train_avg": 0.3769069838156038, "timer/agent.train_min": 0.36475563049316406, "timer/agent.train_max": 3.5405569076538086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20273971557617188, "timer/agent.report_frac": 0.0006752042144725835, "timer/agent.report_avg": 0.20273971557617188, "timer/agent.report_min": 0.20273971557617188, "timer/agent.report_max": 0.20273971557617188, "fps": 4.749072310402394}
+{"step": 95665, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03954802259887006}
+{"step": 95832, "episode/length": 166.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.041916167664670656}
+{"step": 95961, "episode/length": 128.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.046511627906976744}
+{"step": 96116, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
+{"step": 96290, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
+{"step": 96487, "episode/length": 196.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.030456852791878174}
+{"step": 96647, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0375}
+{"step": 96799, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
+{"step": 96907, "episode/length": 107.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.037037037037037035}
+{"step": 96979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.755834791395399, "train/action_min": 0.0, "train/action_std": 3.6526630024115243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04641477235903343, "train/actor_opt_grad_steps": 47585.0, "train/actor_opt_loss": -19.19897808631261, "train/adv_mag": 0.6197935587002171, "train/adv_max": 0.5749264024198055, "train/adv_mean": 0.0018153881099149454, "train/adv_min": -0.4959048645363914, "train/adv_std": 0.05915015066663424, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00011196823878181463, "train/cont_loss_std": 0.0033488832387354884, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.012535667696435363, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.4912053183577553e-05, "train/cont_pred": 0.9941501427027915, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.412752230962117, "train/dyn_loss_std": 8.204606420463985, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.127009724577268, "train/extr_critic_critic_opt_grad_steps": 47585.0, "train/extr_critic_critic_opt_loss": 15231.979885525174, "train/extr_critic_mag": 6.758915404478709, "train/extr_critic_max": 6.758915404478709, "train/extr_critic_mean": 1.1831092892421617, "train/extr_critic_min": -0.6422634124755859, "train/extr_critic_std": 1.5023963517612882, "train/extr_return_normed_mag": 1.6723977939950094, "train/extr_return_normed_max": 1.6723977939950094, "train/extr_return_normed_mean": 0.3181026921504074, "train/extr_return_normed_min": -0.16901392344799307, "train/extr_return_normed_std": 0.3392059240076277, "train/extr_return_rate": 0.5054832423726717, "train/extr_return_raw_mag": 7.309189935525258, "train/extr_return_raw_max": 7.309189935525258, "train/extr_return_raw_mean": 1.1912948745820258, "train/extr_return_raw_min": -1.0097579037149746, "train/extr_return_raw_std": 1.532588518328137, "train/extr_reward_mag": 1.0141693486107721, "train/extr_reward_max": 1.0141693486107721, "train/extr_reward_mean": 0.028252288725020155, "train/extr_reward_min": -0.6767318513658311, "train/extr_reward_std": 0.17009185482230452, "train/image_loss_mean": 2.9924918992651834, "train/image_loss_std": 7.6503243082099495, "train/model_loss_mean": 5.6808292335934105, "train/model_loss_std": 11.53959713379542, "train/model_opt_grad_norm": 40.52140053113302, "train/model_opt_grad_steps": 47543.0, "train/model_opt_loss": 8130.257900661893, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.414556917217043, "train/policy_entropy_max": 2.414556917217043, "train/policy_entropy_mean": 0.4399509049124188, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5001167307297388, "train/policy_logprob_mag": 7.438383844163683, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44081810903218055, "train/policy_logprob_min": -7.438383844163683, "train/policy_logprob_std": 1.037449423637655, "train/policy_randomness_mag": 0.8522326308819983, "train/policy_randomness_max": 0.8522326308819983, "train/policy_randomness_mean": 0.15528335981070995, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1765192598104477, "train/post_ent_mag": 47.864669958750405, "train/post_ent_max": 47.864669958750405, "train/post_ent_mean": 32.41756410068936, "train/post_ent_min": 16.57164312733544, "train/post_ent_std": 4.99692686398824, "train/prior_ent_mag": 73.29700883229573, "train/prior_ent_max": 73.29700883229573, "train/prior_ent_mean": 36.76824532614814, "train/prior_ent_min": 19.335269199477302, "train/prior_ent_std": 8.305232014920977, "train/rep_loss_mean": 4.412752230962117, "train/rep_loss_std": 8.204606420463985, "train/reward_avg": 0.022466362699762814, "train/reward_loss_mean": 0.04057396803465155, "train/reward_loss_std": 0.18037341814488173, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.005299973818991, "train/reward_neg_acc": 0.9956874574224154, "train/reward_neg_loss": 0.02118946712774535, "train/reward_pos_acc": 0.9892127422822846, "train/reward_pos_loss": 0.7201826042599149, "train/reward_pred": 0.022343063157879643, "train/reward_rate": 0.027655707465277776, "stats/sum_log_reward": 4.655555486679077, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 4.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3893860893117057, "replay/size": 96916.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7548432290304653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.247520227312543e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17216300964355, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.412166595458984, "timer/env.step_frac": 0.07133295233232897, "timer/env.step_avg": 0.01493177586852091, "timer/env.step_min": 0.003083944320678711, "timer/env.step_max": 1.702491044998169, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25165605545043945, "timer/replay.add_frac": 0.0008383723957852633, "timer/replay.add_avg": 0.00017549236781760072, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0026557445526123047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028116464614868164, "timer/logger.write_frac": 9.366779495127559e-05, "timer/logger.write_avg": 0.028116464614868164, "timer/logger.write_min": 0.028116464614868164, "timer/logger.write_max": 0.028116464614868164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.564242124557495, "timer/agent.policy_frac": 0.03519394343111723, "timer/agent.policy_avg": 0.007366974982257668, "timer/agent.policy_min": 0.005728006362915039, "timer/agent.policy_max": 0.021240711212158203, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06450247764587402, "timer/dataset_frac": 0.0002148849413588087, "timer/dataset_avg": 8.996161456886196e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002677440643310547, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.16588258743286, "timer/agent.train_frac": 0.8900421674972229, "timer/agent.train_avg": 0.372616293706322, "timer/agent.train_min": 0.3663930892944336, "timer/agent.train_max": 0.38489675521850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20276761054992676, "timer/agent.report_frac": 0.0006755043789434016, "timer/agent.report_avg": 0.20276761054992676, "timer/agent.report_min": 0.20276761054992676, "timer/agent.report_max": 0.20276761054992676, "fps": 4.7771925871924354}
+{"step": 97076, "episode/length": 168.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03550295857988166}
+{"step": 97248, "episode/length": 171.0, "episode/score": 3.1000000312924385, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.029069767441860465}
+{"step": 97412, "episode/length": 163.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.042682926829268296}
+{"step": 97565, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
+{"step": 97726, "episode/length": 160.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.037267080745341616}
+{"step": 97925, "episode/length": 198.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.035175879396984924}
+{"step": 98098, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
+{"step": 98261, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
+{"step": 98419, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 98420, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57448493109809, "train/action_min": 0.0, "train/action_std": 3.504415419366625, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04729205426863498, "train/actor_opt_grad_steps": 48305.0, "train/actor_opt_loss": -19.093895425399143, "train/adv_mag": 0.5986823058790631, "train/adv_max": 0.5700725598467721, "train/adv_mean": 0.0015905859538381468, "train/adv_min": -0.47417017362183994, "train/adv_std": 0.05925250565633178, "train/cont_avg": 0.9941541883680556, "train/cont_loss_mean": 0.00015558761423337429, "train/cont_loss_std": 0.004830513760316377, "train/cont_neg_acc": 0.9914351859026485, "train/cont_neg_loss": 0.022329867572996893, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.5039727830399193e-05, "train/cont_pred": 0.9941822803682752, "train/cont_rate": 0.9941541883680556, "train/dyn_loss_mean": 4.392907400925954, "train/dyn_loss_std": 8.265909916824764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1070205494761467, "train/extr_critic_critic_opt_grad_steps": 48305.0, "train/extr_critic_critic_opt_loss": 15263.810763888889, "train/extr_critic_mag": 6.516148024135166, "train/extr_critic_max": 6.516148024135166, "train/extr_critic_mean": 1.1368843168020248, "train/extr_critic_min": -0.627470400598314, "train/extr_critic_std": 1.4761929727262921, "train/extr_return_normed_mag": 1.665839445259836, "train/extr_return_normed_max": 1.665839445259836, "train/extr_return_normed_mean": 0.3138543979989158, "train/extr_return_normed_min": -0.1719993864082628, "train/extr_return_normed_std": 0.3373505591104428, "train/extr_return_rate": 0.4863787864645322, "train/extr_return_raw_mag": 7.168202340602875, "train/extr_return_raw_max": 7.168202340602875, "train/extr_return_raw_mean": 1.1439409752686818, "train/extr_return_raw_min": -1.0209652624196477, "train/extr_return_raw_std": 1.5031652516788907, "train/extr_reward_mag": 1.0174572401576572, "train/extr_reward_max": 1.0174572401576572, "train/extr_reward_mean": 0.027595139651869733, "train/extr_reward_min": -0.6839851157532798, "train/extr_reward_std": 0.1685842118329472, "train/image_loss_mean": 3.0494570483764014, "train/image_loss_std": 7.842526104715136, "train/model_loss_mean": 5.726835121711095, "train/model_loss_std": 11.76503645711475, "train/model_opt_grad_norm": 43.46887877252367, "train/model_opt_grad_steps": 48262.27777777778, "train/model_opt_loss": 9148.698330349393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.4015180832809873, "train/policy_entropy_max": 2.4015180832809873, "train/policy_entropy_mean": 0.4231465578907066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4880116668840249, "train/policy_logprob_mag": 7.438383890522851, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4226715908282333, "train/policy_logprob_min": -7.438383890522851, "train/policy_logprob_std": 1.0226097744372156, "train/policy_randomness_mag": 0.8476304983099302, "train/policy_randomness_max": 0.8476304983099302, "train/policy_randomness_mean": 0.14935216587036848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17224670325716337, "train/post_ent_mag": 47.9370690451728, "train/post_ent_max": 47.9370690451728, "train/post_ent_mean": 32.541757106781006, "train/post_ent_min": 17.11833239926232, "train/post_ent_std": 4.8867684205373125, "train/prior_ent_mag": 73.31734042697482, "train/prior_ent_max": 73.31734042697482, "train/prior_ent_mean": 36.89061689376831, "train/prior_ent_min": 19.66606840822432, "train/prior_ent_std": 8.211845152907902, "train/rep_loss_mean": 4.392907400925954, "train/rep_loss_std": 8.265909916824764, "train/reward_avg": 0.022262912185397, "train/reward_loss_mean": 0.041478106389857, "train/reward_loss_std": 0.1885913587692711, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0088360574510362, "train/reward_neg_acc": 0.9956487309601572, "train/reward_neg_loss": 0.021777996340663068, "train/reward_pos_acc": 0.985962433119615, "train/reward_pos_loss": 0.7372258926431338, "train/reward_pred": 0.0220247907564044, "train/reward_rate": 0.027615017361111112, "stats/sum_log_reward": 4.65555543369717, "stats/max_log_achievement_collect_drink": 9.333333333333334, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3333721458911896, "replay/size": 98357.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7101306160814972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761188877953423e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.4269971847534, "timer/env.step_count": 1441.0, "timer/env.step_total": 21.591418027877808, "timer/env.step_frac": 0.0716306708739954, "timer/env.step_avg": 0.014983634995057466, "timer/env.step_min": 0.0030922889709472656, "timer/env.step_max": 1.6487252712249756, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.24831891059875488, "timer/replay.add_frac": 0.0008238111148569515, "timer/replay.add_avg": 0.00017232401845853913, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0031766891479492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021915912628173828, "timer/logger.write_frac": 7.270719886693137e-05, "timer/logger.write_avg": 0.021915912628173828, "timer/logger.write_min": 0.021915912628173828, "timer/logger.write_max": 0.021915912628173828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.524615287780762, "timer/agent.policy_frac": 0.03491596766738819, "timer/agent.policy_avg": 0.00730368861053488, "timer/agent.policy_min": 0.005624055862426758, "timer/agent.policy_max": 0.016488313674926758, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06366991996765137, "timer/dataset_frac": 0.00021122832580462662, "timer/dataset_avg": 8.843044439951578e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00018906593322753906, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2741184234619, "timer/agent.train_frac": 0.8900135718733544, "timer/agent.train_avg": 0.3726029422548082, "timer/agent.train_min": 0.36463141441345215, "timer/agent.train_max": 0.39128613471984863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223973274230957, "timer/agent.report_frac": 0.0007378148921636966, "timer/agent.report_avg": 0.2223973274230957, "timer/agent.report_min": 0.2223973274230957, "timer/agent.report_max": 0.2223973274230957, "fps": 4.780527047060041}
+{"step": 98693, "episode/length": 273.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.021897810218978103}
+{"step": 98924, "episode/length": 230.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.030303030303030304}
+{"step": 99105, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03867403314917127}
+{"step": 99264, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03773584905660377}
+{"step": 99444, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
+{"step": 99625, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.022099447513812154}
+{"step": 99766, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04964539007092199}
+{"step": 99843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.653714891890405, "train/action_min": 0.0, "train/action_std": 3.5055257568896656, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048115111362766215, "train/actor_opt_grad_steps": 49020.0, "train/actor_opt_loss": -14.5731136230096, "train/adv_mag": 0.6430554704766878, "train/adv_max": 0.6101056291183955, "train/adv_mean": 0.002905695320908013, "train/adv_min": -0.4748757620092849, "train/adv_std": 0.060566293679072826, "train/cont_avg": 0.9939755721830986, "train/cont_loss_mean": 0.0001338671894601107, "train/cont_loss_std": 0.003490142965048703, "train/cont_neg_acc": 0.9912810199697253, "train/cont_neg_loss": 0.009102390978011793, "train/cont_pos_acc": 0.9999861196732857, "train/cont_pos_loss": 8.794039883917683e-05, "train/cont_pred": 0.99397061996057, "train/cont_rate": 0.9939755721830986, "train/dyn_loss_mean": 4.3951446271278485, "train/dyn_loss_std": 8.249998576204542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0887370982640225, "train/extr_critic_critic_opt_grad_steps": 49020.0, "train/extr_critic_critic_opt_loss": 15261.810574383802, "train/extr_critic_mag": 6.482381471445863, "train/extr_critic_max": 6.482381471445863, "train/extr_critic_mean": 1.1388073001109378, "train/extr_critic_min": -0.6207025319757596, "train/extr_critic_std": 1.4802468091669216, "train/extr_return_normed_mag": 1.6907552715758203, "train/extr_return_normed_max": 1.6907552715758203, "train/extr_return_normed_mean": 0.3161213158721655, "train/extr_return_normed_min": -0.15595150476610156, "train/extr_return_normed_std": 0.3411291247942078, "train/extr_return_rate": 0.48499397240893943, "train/extr_return_raw_mag": 7.258806812931114, "train/extr_return_raw_max": 7.258806812931114, "train/extr_return_raw_mean": 1.15172706649337, "train/extr_return_raw_min": -0.9458327469691424, "train/extr_return_raw_std": 1.5156614730055904, "train/extr_reward_mag": 1.0135729447217054, "train/extr_reward_max": 1.0135729447217054, "train/extr_reward_mean": 0.028568086384887427, "train/extr_reward_min": -0.666858627762593, "train/extr_reward_std": 0.17001498742422588, "train/image_loss_mean": 3.0920840434625116, "train/image_loss_std": 8.049926032482738, "train/model_loss_mean": 5.769614951711305, "train/model_loss_std": 11.96562507790579, "train/model_opt_grad_norm": 42.685749752420776, "train/model_opt_grad_steps": 48976.788732394365, "train/model_opt_loss": 7958.8808043573945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1390.8450704225352, "train/policy_entropy_mag": 2.4244629295778948, "train/policy_entropy_max": 2.4244629295778948, "train/policy_entropy_mean": 0.4258073324888525, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49883031929042976, "train/policy_logprob_mag": 7.438383841178786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42418845732447125, "train/policy_logprob_min": -7.438383841178786, "train/policy_logprob_std": 1.023462823579009, "train/policy_randomness_mag": 0.855729019977677, "train/policy_randomness_max": 0.855729019977677, "train/policy_randomness_mean": 0.1502913034088175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1760652136634773, "train/post_ent_mag": 48.73441046056613, "train/post_ent_max": 48.73441046056613, "train/post_ent_mean": 32.652347967658244, "train/post_ent_min": 16.897899399340993, "train/post_ent_std": 4.991325848539111, "train/prior_ent_mag": 73.42827885587451, "train/prior_ent_max": 73.42827885587451, "train/prior_ent_mean": 36.981333719172945, "train/prior_ent_min": 19.47763170322902, "train/prior_ent_std": 8.270252932964915, "train/rep_loss_mean": 4.3951446271278485, "train/rep_loss_std": 8.249998576204542, "train/reward_avg": 0.02174708394753471, "train/reward_loss_mean": 0.04031032273991847, "train/reward_loss_std": 0.18011340666824663, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0077941988555479, "train/reward_neg_acc": 0.9957027452092775, "train/reward_neg_loss": 0.021047408968000343, "train/reward_pos_acc": 0.9872914099357497, "train/reward_pos_loss": 0.7341109824852204, "train/reward_pred": 0.02158653242251193, "train/reward_rate": 0.027054907570422535, "stats/sum_log_reward": 5.528571333203997, "stats/max_log_achievement_collect_drink": 7.285714285714286, "stats/max_log_achievement_collect_sapling": 3.2857142857142856, "stats/max_log_achievement_collect_wood": 4.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.35603407663958414, "replay/size": 99780.0, "replay/inserts": 1423.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7699623670866183e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2728982092289442e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09449219703674, "timer/env.step_count": 1423.0, "timer/env.step_total": 18.651761770248413, "timer/env.step_frac": 0.06215296266751206, "timer/env.step_avg": 0.013107351911629244, "timer/env.step_min": 0.002986907958984375, "timer/env.step_max": 1.6965830326080322, "timer/replay.add_count": 1423.0, "timer/replay.add_total": 0.24062824249267578, "timer/replay.add_frac": 0.0008018415823995981, "timer/replay.add_avg": 0.0001690992568465747, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0031359195709228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02947378158569336, "timer/logger.write_frac": 9.821500344745213e-05, "timer/logger.write_avg": 0.02947378158569336, "timer/logger.write_min": 0.02947378158569336, "timer/logger.write_max": 0.02947378158569336, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004277229309082031, "timer/checkpoint.save_frac": 1.4252941724347536e-06, "timer/checkpoint.save_avg": 0.0004277229309082031, "timer/checkpoint.save_min": 0.0004277229309082031, "timer/checkpoint.save_max": 0.0004277229309082031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3173675537109375, "timer/agent.save_frac": 0.004389842492830483, "timer/agent.save_avg": 1.3173675537109375, "timer/agent.save_min": 1.3173675537109375, "timer/agent.save_max": 1.3173675537109375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.7012264137559435e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1423.0, "timer/agent.policy_total": 15.017849683761597, "timer/agent.policy_frac": 0.050043736470515236, "timer/agent.policy_avg": 0.010553654029347574, "timer/agent.policy_min": 0.0056765079498291016, "timer/agent.policy_max": 3.2636945247650146, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06488728523254395, "timer/dataset_frac": 0.00021622284620252243, "timer/dataset_avg": 9.113382757379768e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00024247169494628906, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3866400718689, "timer/agent.train_frac": 0.8843435883442363, "timer/agent.train_avg": 0.3727340450447597, "timer/agent.train_min": 0.36551809310913086, "timer/agent.train_max": 0.458850622177124, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22412443161010742, "timer/agent.report_frac": 0.000746846201572241, "timer/agent.report_avg": 0.22412443161010742, "timer/agent.report_min": 0.22412443161010742, "timer/agent.report_max": 0.22412443161010742, "fps": 4.741785125705477}
+{"step": 99973, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.028985507246376812}
+{"step": 100142, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 100298, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03205128205128205}
+{"step": 100698, "episode/length": 399.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.015}
+{"step": 100842, "episode/length": 143.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.034722222222222224}
+{"step": 101033, "episode/length": 190.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02617801047120419}
+{"step": 101169, "episode/length": 135.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04411764705882353}
+{"step": 101291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.80307854546441, "train/action_min": 0.0, "train/action_std": 3.74315591984325, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048457129237552486, "train/actor_opt_grad_steps": 49735.0, "train/actor_opt_loss": -18.14909563296371, "train/adv_mag": 0.6223997510969639, "train/adv_max": 0.5884578683310084, "train/adv_mean": 0.0017436648886359762, "train/adv_min": -0.4909386912153827, "train/adv_std": 0.060399312474247485, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 9.298643199330393e-05, "train/cont_loss_std": 0.002496062629884616, "train/cont_neg_acc": 0.9962962973448966, "train/cont_neg_loss": 0.010490102966299573, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.4868101351099232e-05, "train/cont_pred": 0.994354038602776, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.560176412264506, "train/dyn_loss_std": 8.296493954128689, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1174264152844746, "train/extr_critic_critic_opt_grad_steps": 49735.0, "train/extr_critic_critic_opt_loss": 15327.915256076389, "train/extr_critic_mag": 6.687276052104102, "train/extr_critic_max": 6.687276052104102, "train/extr_critic_mean": 1.1202817749645975, "train/extr_critic_min": -0.6092668506834242, "train/extr_critic_std": 1.4741855065027873, "train/extr_return_normed_mag": 1.7345719320906534, "train/extr_return_normed_max": 1.7345719320906534, "train/extr_return_normed_mean": 0.31229094767736065, "train/extr_return_normed_min": -0.15621566518934238, "train/extr_return_normed_std": 0.3411427616245217, "train/extr_return_rate": 0.47709692021210987, "train/extr_return_raw_mag": 7.391248577170902, "train/extr_return_raw_max": 7.391248577170902, "train/extr_return_raw_mean": 1.127898045712047, "train/extr_return_raw_min": -0.9349412578675482, "train/extr_return_raw_std": 1.5021998054451413, "train/extr_reward_mag": 1.0092825028631423, "train/extr_reward_max": 1.0092825028631423, "train/extr_reward_mean": 0.028268782266726095, "train/extr_reward_min": -0.6633677317036523, "train/extr_reward_std": 0.16871170182194975, "train/image_loss_mean": 3.199861687090662, "train/image_loss_std": 8.487503892845577, "train/model_loss_mean": 5.977023277017805, "train/model_loss_std": 12.41472872098287, "train/model_opt_grad_norm": 47.571781635284424, "train/model_opt_grad_steps": 49691.0, "train/model_opt_loss": 7471.279100206163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4362723330656686, "train/policy_entropy_max": 2.4362723330656686, "train/policy_entropy_mean": 0.4453589150475131, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5157751478254795, "train/policy_logprob_mag": 7.438383870654636, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4459409883452786, "train/policy_logprob_min": -7.438383870654636, "train/policy_logprob_std": 1.0431088970767126, "train/policy_randomness_mag": 0.8598972194724612, "train/policy_randomness_max": 0.8598972194724612, "train/policy_randomness_mean": 0.15719215147611168, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18204599432647228, "train/post_ent_mag": 48.47919114430746, "train/post_ent_max": 48.47919114430746, "train/post_ent_mean": 32.815174447165596, "train/post_ent_min": 17.076814042197334, "train/post_ent_std": 4.9288310872183905, "train/prior_ent_mag": 73.44273577796088, "train/prior_ent_max": 73.44273577796088, "train/prior_ent_mean": 37.276598082648384, "train/prior_ent_min": 20.236283752653335, "train/prior_ent_std": 8.174623012542725, "train/rep_loss_mean": 4.560176412264506, "train/rep_loss_std": 8.296493954128689, "train/reward_avg": 0.022745768203296594, "train/reward_loss_mean": 0.04096280108205974, "train/reward_loss_std": 0.18446947851528725, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0054433014657762, "train/reward_neg_acc": 0.9951292930377854, "train/reward_neg_loss": 0.02104025513916794, "train/reward_pos_acc": 0.9865949799617132, "train/reward_pos_loss": 0.7365423697564337, "train/reward_pred": 0.022614486386171646, "train/reward_rate": 0.027804904513888888, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 8.428571428571429, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 3.5714285714285716, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 2.2857142857142856, "stats/mean_log_entropy": 0.39606480087552753, "replay/size": 101228.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.6948293612148222e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2569047140153073e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27537059783936, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.09247088432312, "timer/env.step_frac": 0.06358320646249001, "timer/env.step_avg": 0.013185408069283923, "timer/env.step_min": 0.0030078887939453125, "timer/env.step_max": 1.7560069561004639, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2503983974456787, "timer/replay.add_frac": 0.0008338958901196023, "timer/replay.add_avg": 0.00017292707005917037, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.00879669189453125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022057056427001953, "timer/logger.write_frac": 7.345609592650575e-05, "timer/logger.write_avg": 0.022057056427001953, "timer/logger.write_min": 0.022057056427001953, "timer/logger.write_max": 0.022057056427001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.510466814041138, "timer/agent.policy_frac": 0.03500276027672569, "timer/agent.policy_avg": 0.007258609678205206, "timer/agent.policy_min": 0.005585908889770508, "timer/agent.policy_max": 0.016831159591674805, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0645151138305664, "timer/dataset_frac": 0.00021485316528664582, "timer/dataset_avg": 8.910927324663868e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020313262939453125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.63978600502014, "timer/agent.train_frac": 0.8979750336105666, "timer/agent.train_avg": 0.3724306436533427, "timer/agent.train_min": 0.36614060401916504, "timer/agent.train_max": 0.38408899307250977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976733207702637, "timer/agent.report_frac": 0.0007318859739960562, "timer/agent.report_avg": 0.21976733207702637, "timer/agent.report_min": 0.21976733207702637, "timer/agent.report_max": 0.21976733207702637, "fps": 4.822134633191319}
+{"step": 101331, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 101511, "episode/length": 179.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.027777777777777776}
+{"step": 101679, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03571428571428571}
+{"step": 101891, "episode/length": 211.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.0330188679245283}
+{"step": 102067, "episode/length": 175.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03977272727272727}
+{"step": 102206, "episode/length": 138.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.050359712230215826}
+{"step": 102268, "episode/length": 61.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06451612903225806}
+{"step": 102436, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03571428571428571}
+{"step": 102643, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
+{"step": 102721, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605757819281684, "train/action_min": 0.0, "train/action_std": 3.547398885091146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0489980626023478, "train/actor_opt_grad_steps": 50455.0, "train/actor_opt_loss": -12.39470608615213, "train/adv_mag": 0.6052945570813285, "train/adv_max": 0.5724487014942699, "train/adv_mean": 0.00410868133700938, "train/adv_min": -0.4847850596739186, "train/adv_std": 0.061202196300857596, "train/cont_avg": 0.9940592447916666, "train/cont_loss_mean": 8.96011060720841e-05, "train/cont_loss_std": 0.0026552765545078375, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.008446295936942584, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 3.9687221186252624e-05, "train/cont_pred": 0.9940639568699731, "train/cont_rate": 0.9940592447916666, "train/dyn_loss_mean": 4.456791314813826, "train/dyn_loss_std": 8.262102623780569, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.103275747762786, "train/extr_critic_critic_opt_grad_steps": 50455.0, "train/extr_critic_critic_opt_loss": 15606.211385091146, "train/extr_critic_mag": 6.725236468844944, "train/extr_critic_max": 6.725236468844944, "train/extr_critic_mean": 1.1729280327757199, "train/extr_critic_min": -0.6167716003126569, "train/extr_critic_std": 1.4941417972246807, "train/extr_return_normed_mag": 1.7124901016553242, "train/extr_return_normed_max": 1.7124901016553242, "train/extr_return_normed_mean": 0.3144217383944326, "train/extr_return_normed_min": -0.1614632492678033, "train/extr_return_normed_std": 0.34027375653386116, "train/extr_return_rate": 0.4956534190310372, "train/extr_return_raw_mag": 7.477767831749386, "train/extr_return_raw_max": 7.477767831749386, "train/extr_return_raw_mean": 1.1913713705208566, "train/extr_return_raw_min": -0.9482489079236984, "train/extr_return_raw_std": 1.5299537132183711, "train/extr_reward_mag": 1.0145805213186476, "train/extr_reward_max": 1.0145805213186476, "train/extr_reward_mean": 0.029830947052687407, "train/extr_reward_min": -0.6611958709028032, "train/extr_reward_std": 0.1723883758402533, "train/image_loss_mean": 3.0626556459400387, "train/image_loss_std": 8.44133566485511, "train/model_loss_mean": 5.7792730993694725, "train/model_loss_std": 12.343033830324808, "train/model_opt_grad_norm": 40.552928156322906, "train/model_opt_grad_steps": 50410.291666666664, "train/model_opt_loss": 8002.355122884114, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.4241619441244335, "train/policy_entropy_max": 2.4241619441244335, "train/policy_entropy_mean": 0.4227803179787265, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49149848851892686, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4229997562037574, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0251976036363177, "train/policy_randomness_mag": 0.8556227816475762, "train/policy_randomness_max": 0.8556227816475762, "train/policy_randomness_mean": 0.1492228985039724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17347739678290156, "train/post_ent_mag": 49.15497864617242, "train/post_ent_max": 49.15497864617242, "train/post_ent_mean": 33.13549595408969, "train/post_ent_min": 17.25450560781691, "train/post_ent_std": 5.097836527559492, "train/prior_ent_mag": 73.4521001180013, "train/prior_ent_max": 73.4521001180013, "train/prior_ent_mean": 37.59051873948839, "train/prior_ent_min": 19.68026273780399, "train/prior_ent_std": 8.285249445173475, "train/rep_loss_mean": 4.456791314813826, "train/rep_loss_std": 8.262102623780569, "train/reward_avg": 0.023151312825373478, "train/reward_loss_mean": 0.042453098162594766, "train/reward_loss_std": 0.19049078577922451, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0074548125267029, "train/reward_neg_acc": 0.9953167140483856, "train/reward_neg_loss": 0.021944786202059023, "train/reward_pos_acc": 0.9867020199696223, "train/reward_pos_loss": 0.743546219335662, "train/reward_pred": 0.022964678070921864, "train/reward_rate": 0.0284423828125, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 6.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.319135672516293, "replay/size": 102658.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.803693331204928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3256614858453925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1581656932831, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.931585788726807, "timer/env.step_frac": 0.0730667637779264, "timer/env.step_avg": 0.015336773278829935, "timer/env.step_min": 0.002977609634399414, "timer/env.step_max": 1.662135124206543, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2652125358581543, "timer/replay.add_frac": 0.0008835759481858041, "timer/replay.add_avg": 0.0001854633117889191, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0021202564239501953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02707386016845703, "timer/logger.write_frac": 9.019864612353236e-05, "timer/logger.write_avg": 0.02707386016845703, "timer/logger.write_min": 0.02707386016845703, "timer/logger.write_max": 0.02707386016845703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.620159149169922, "timer/agent.policy_frac": 0.03538187650047856, "timer/agent.policy_avg": 0.007426684719699246, "timer/agent.policy_min": 0.005737781524658203, "timer/agent.policy_max": 0.01896834373474121, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06641364097595215, "timer/dataset_frac": 0.0002212621496488521, "timer/dataset_avg": 9.288621115517783e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.53297901153564, "timer/agent.train_frac": 0.8879751060442335, "timer/agent.train_avg": 0.372773397218931, "timer/agent.train_min": 0.3662381172180176, "timer/agent.train_max": 0.38431310653686523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22476744651794434, "timer/agent.report_frac": 0.0007488300243266517, "timer/agent.report_avg": 0.22476744651794434, "timer/agent.report_min": 0.22476744651794434, "timer/agent.report_max": 0.22476744651794434, "fps": 4.76408162223447}
+{"step": 102792, "episode/length": 148.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.03355704697986577}
+{"step": 103024, "episode/length": 231.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03017241379310345}
+{"step": 103199, "episode/length": 174.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022857142857142857}
+{"step": 103457, "episode/length": 257.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.027131782945736434}
+{"step": 103638, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03867403314917127}
+{"step": 103733, "episode/length": 94.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.07368421052631578}
+{"step": 103937, "episode/length": 203.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0392156862745098}
+{"step": 104107, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029411764705882353}
+{"step": 104137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.674558803013393, "train/action_min": 0.0, "train/action_std": 3.6234438896179197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048115131525056705, "train/actor_opt_grad_steps": 51165.0, "train/actor_opt_loss": -15.216792936410222, "train/adv_mag": 0.5940444482224329, "train/adv_max": 0.5722875884601049, "train/adv_mean": 0.0031922553372818845, "train/adv_min": -0.4823742138487952, "train/adv_std": 0.061012930901987214, "train/cont_avg": 0.9941127232142857, "train/cont_loss_mean": 5.8157146927685844e-05, "train/cont_loss_std": 0.0016743851441414596, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.0042527186822813486, "train/cont_pos_acc": 0.9999859767300742, "train/cont_pos_loss": 2.151810187253237e-05, "train/cont_pred": 0.9941116605486189, "train/cont_rate": 0.9941127232142857, "train/dyn_loss_mean": 4.437549645560129, "train/dyn_loss_std": 8.329364960534232, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1306069919041224, "train/extr_critic_critic_opt_grad_steps": 51165.0, "train/extr_critic_critic_opt_loss": 15512.802427455357, "train/extr_critic_mag": 6.815599897929601, "train/extr_critic_max": 6.815599897929601, "train/extr_critic_mean": 1.1861459033829824, "train/extr_critic_min": -0.6302853090422494, "train/extr_critic_std": 1.4975450686046055, "train/extr_return_normed_mag": 1.7177460534232003, "train/extr_return_normed_max": 1.7177460534232003, "train/extr_return_normed_mean": 0.306564909858363, "train/extr_return_normed_min": -0.16754249930381776, "train/extr_return_normed_std": 0.3394056117960385, "train/extr_return_rate": 0.49684061195169177, "train/extr_return_raw_mag": 7.555702488762992, "train/extr_return_raw_max": 7.555702488762992, "train/extr_return_raw_mean": 1.2005244553089143, "train/extr_return_raw_min": -0.9345044314861297, "train/extr_return_raw_std": 1.5287783162934439, "train/extr_reward_mag": 1.0086277621132986, "train/extr_reward_max": 1.0086277621132986, "train/extr_reward_mean": 0.02939755722348179, "train/extr_reward_min": -0.6796245455741883, "train/extr_reward_std": 0.1712565622159413, "train/image_loss_mean": 3.0045801486287798, "train/image_loss_std": 8.078558485848562, "train/model_loss_mean": 5.709318774087088, "train/model_loss_std": 12.050398594992501, "train/model_opt_grad_norm": 38.86120115007673, "train/model_opt_grad_steps": 51120.0, "train/model_opt_loss": 9190.555964006697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1625.0, "train/policy_entropy_mag": 2.4312457527433122, "train/policy_entropy_max": 2.4312457527433122, "train/policy_entropy_mean": 0.44377397809709823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5192953765392303, "train/policy_logprob_mag": 7.438383892604283, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44255613301481517, "train/policy_logprob_min": -7.438383892604283, "train/policy_logprob_std": 1.0364092656544277, "train/policy_randomness_mag": 0.858123060635158, "train/policy_randomness_max": 0.858123060635158, "train/policy_randomness_mean": 0.15663273877331188, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1832884826830455, "train/post_ent_mag": 49.10407660348075, "train/post_ent_max": 49.10407660348075, "train/post_ent_mean": 33.353436660766604, "train/post_ent_min": 16.914763927459717, "train/post_ent_std": 5.120697089603969, "train/prior_ent_mag": 73.43389522007533, "train/prior_ent_max": 73.43389522007533, "train/prior_ent_mean": 37.741751480102536, "train/prior_ent_min": 19.761239188058035, "train/prior_ent_std": 8.22307402065822, "train/rep_loss_mean": 4.437549645560129, "train/rep_loss_std": 8.329364960534232, "train/reward_avg": 0.02243861577340535, "train/reward_loss_mean": 0.042150716643248286, "train/reward_loss_std": 0.1932628991348403, "train/reward_max_data": 1.0014285717691693, "train/reward_max_pred": 1.0021558965955462, "train/reward_neg_acc": 0.9951615418706622, "train/reward_neg_loss": 0.022126187490565438, "train/reward_pos_acc": 0.9855760071958815, "train/reward_pos_loss": 0.7449450944151197, "train/reward_pred": 0.022268919620130743, "train/reward_rate": 0.027804129464285714, "stats/sum_log_reward": 5.22500005364418, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_wood": 4.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3738710358738899, "replay/size": 104074.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7535772485248114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2794372725621456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27959060668945, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.6708025932312, "timer/env.step_frac": 0.06883851996556808, "timer/env.step_avg": 0.014598024430248024, "timer/env.step_min": 0.002932310104370117, "timer/env.step_max": 1.7079923152923584, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.28592419624328613, "timer/replay.add_frac": 0.0009521932398588946, "timer/replay.add_avg": 0.00020192386740345065, "timer/replay.add_min": 6.556510925292969e-05, "timer/replay.add_max": 0.01838970184326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02798604965209961, "timer/logger.write_frac": 9.319997271728048e-05, "timer/logger.write_avg": 0.02798604965209961, "timer/logger.write_min": 0.02798604965209961, "timer/logger.write_max": 0.02798604965209961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005519390106201172, "timer/checkpoint.save_frac": 1.8380836656429803e-06, "timer/checkpoint.save_avg": 0.0005519390106201172, "timer/checkpoint.save_min": 0.0005519390106201172, "timer/checkpoint.save_max": 0.0005519390106201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.487623691558838, "timer/agent.save_frac": 0.004954128545843627, "timer/agent.save_avg": 1.487623691558838, "timer/agent.save_min": 1.487623691558838, "timer/agent.save_max": 1.487623691558838, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.9695174555096094e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.941540241241455, "timer/agent.policy_frac": 0.03976807153997575, "timer/agent.policy_avg": 0.008433291130820237, "timer/agent.policy_min": 0.00558924674987793, "timer/agent.policy_max": 1.4852724075317383, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06496119499206543, "timer/dataset_frac": 0.0002163356985428708, "timer/dataset_avg": 9.175310027127886e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 266.587126493454, "timer/agent.train_frac": 0.8877963565716781, "timer/agent.train_avg": 0.3765354893975339, "timer/agent.train_min": 0.365772008895874, "timer/agent.train_max": 2.826211929321289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22020602226257324, "timer/agent.report_frac": 0.0007333366274333385, "timer/agent.report_avg": 0.22020602226257324, "timer/agent.report_min": 0.22020602226257324, "timer/agent.report_max": 0.22020602226257324, "fps": 4.71552702357451}
+{"step": 104297, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031578947368421054}
+{"step": 104462, "episode/length": 164.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04242424242424243}
+{"step": 104609, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
+{"step": 104788, "episode/length": 178.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0335195530726257}
+{"step": 104968, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03888888888888889}
+{"step": 105163, "episode/length": 194.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.035897435897435895}
+{"step": 105346, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03278688524590164}
+{"step": 105509, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
+{"step": 105579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.655774260220462, "train/action_min": 0.0, "train/action_std": 3.5379644811969913, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0495203470632638, "train/actor_opt_grad_steps": 51880.0, "train/actor_opt_loss": -12.54398923704069, "train/adv_mag": 0.6165349663120426, "train/adv_max": 0.5719159400626405, "train/adv_mean": 0.003862356431193192, "train/adv_min": -0.4998587961882761, "train/adv_std": 0.0617426909914572, "train/cont_avg": 0.9943814212328768, "train/cont_loss_mean": 3.30074400258267e-05, "train/cont_loss_std": 0.0010117521516028556, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005693573962349073, "train/cont_pos_acc": 0.9999865146532451, "train/cont_pos_loss": 2.976814413569808e-05, "train/cont_pred": 0.9943675970377988, "train/cont_rate": 0.9943814212328768, "train/dyn_loss_mean": 4.34488769100137, "train/dyn_loss_std": 8.174106826520946, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0832563099795824, "train/extr_critic_critic_opt_grad_steps": 51880.0, "train/extr_critic_critic_opt_loss": 15590.08781035959, "train/extr_critic_mag": 6.685825700629247, "train/extr_critic_max": 6.685825700629247, "train/extr_critic_mean": 1.2545012333621717, "train/extr_critic_min": -0.5928555073803419, "train/extr_critic_std": 1.443724125215452, "train/extr_return_normed_mag": 1.7000391368996608, "train/extr_return_normed_max": 1.7000391368996608, "train/extr_return_normed_mean": 0.3225141079866723, "train/extr_return_normed_min": -0.17749590406270876, "train/extr_return_normed_std": 0.3334397977753861, "train/extr_return_rate": 0.5348325379907268, "train/extr_return_raw_mag": 7.374893717569847, "train/extr_return_raw_max": 7.374893717569847, "train/extr_return_raw_mean": 1.2716444755253726, "train/extr_return_raw_min": -0.9435683309215389, "train/extr_return_raw_std": 1.4773538774006987, "train/extr_reward_mag": 1.0235757533818075, "train/extr_reward_max": 1.0235757533818075, "train/extr_reward_mean": 0.02978770344275726, "train/extr_reward_min": -0.6576964593913457, "train/extr_reward_std": 0.17130825188878465, "train/image_loss_mean": 2.898548529572683, "train/image_loss_std": 7.635073900222778, "train/model_loss_mean": 5.546617400156308, "train/model_loss_std": 11.541421792278552, "train/model_opt_grad_norm": 44.38980165246415, "train/model_opt_grad_steps": 51834.28767123288, "train/model_opt_loss": 9005.784948897688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.5890410958905, "train/policy_entropy_mag": 2.419273164174328, "train/policy_entropy_max": 2.419273164174328, "train/policy_entropy_mean": 0.4196122276456389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4896817101191168, "train/policy_logprob_mag": 7.438383899322928, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4194081629792305, "train/policy_logprob_min": -7.438383899322928, "train/policy_logprob_std": 1.0207972673520649, "train/policy_randomness_mag": 0.8538972604764651, "train/policy_randomness_max": 0.8538972604764651, "train/policy_randomness_mean": 0.14810470277315949, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17283615592407853, "train/post_ent_mag": 48.74025559098753, "train/post_ent_max": 48.74025559098753, "train/post_ent_mean": 33.58872207223553, "train/post_ent_min": 17.14020108523434, "train/post_ent_std": 4.98478210135682, "train/prior_ent_mag": 73.5566173187674, "train/prior_ent_max": 73.5566173187674, "train/prior_ent_mean": 37.871305335057926, "train/prior_ent_min": 20.159357475907836, "train/prior_ent_std": 8.058770689245772, "train/rep_loss_mean": 4.34488769100137, "train/rep_loss_std": 8.174106826520946, "train/reward_avg": 0.022794038618672383, "train/reward_loss_mean": 0.041103289628477944, "train/reward_loss_std": 0.18858894226077486, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0120417173594645, "train/reward_neg_acc": 0.9958986476676105, "train/reward_neg_loss": 0.021288710187048945, "train/reward_pos_acc": 0.984675015488716, "train/reward_pos_loss": 0.7328679626935148, "train/reward_pred": 0.02267493853626186, "train/reward_rate": 0.02793236301369863, "stats/sum_log_reward": 5.349999964237213, "stats/max_log_achievement_collect_drink": 8.25, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 4.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.38295184075832367, "replay/size": 105516.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.74955377036424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2699881472964558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0749878883362, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.212648630142212, "timer/env.step_frac": 0.06735865848860331, "timer/env.step_avg": 0.01401709336348281, "timer/env.step_min": 0.0028846263885498047, "timer/env.step_max": 1.6943953037261963, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2623581886291504, "timer/replay.add_frac": 0.0008743087535398953, "timer/replay.add_avg": 0.00018194049142104742, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0015833377838134766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035772085189819336, "timer/logger.write_frac": 0.00011921048615731623, "timer/logger.write_avg": 0.035772085189819336, "timer/logger.write_min": 0.035772085189819336, "timer/logger.write_max": 0.035772085189819336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.528239250183105, "timer/agent.policy_frac": 0.035085360910189795, "timer/agent.policy_avg": 0.007301136789308672, "timer/agent.policy_min": 0.00569462776184082, "timer/agent.policy_max": 0.022684335708618164, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06643795967102051, "timer/dataset_frac": 0.00022140452337781442, "timer/dataset_avg": 9.214696209572886e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0005743503570556641, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.27344489097595, "timer/agent.train_frac": 0.8940213470601082, "timer/agent.train_avg": 0.37208522176279607, "timer/agent.train_min": 0.3611717224121094, "timer/agent.train_max": 0.3843879699707031, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21767163276672363, "timer/agent.report_frac": 0.0007253907908103408, "timer/agent.report_avg": 0.21767163276672363, "timer/agent.report_min": 0.21767163276672363, "timer/agent.report_max": 0.21767163276672363, "fps": 4.805388148749321}
+{"step": 105707, "episode/length": 197.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.025252525252525252}
+{"step": 105871, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 106037, "episode/length": 165.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030120481927710843}
+{"step": 106207, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.029411764705882353}
+{"step": 106249, "episode/length": 41.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.047619047619047616}
+{"step": 106405, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
+{"step": 106569, "episode/length": 163.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04878048780487805}
+{"step": 106752, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03278688524590164}
+{"step": 106932, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027777777777777776}
+{"step": 107013, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.731818400638204, "train/action_min": 0.0, "train/action_std": 3.532872602973186, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047738539605913025, "train/actor_opt_grad_steps": 52600.0, "train/actor_opt_loss": -16.368611176249008, "train/adv_mag": 0.5814609737463401, "train/adv_max": 0.5396818035924938, "train/adv_mean": 0.002824109208337228, "train/adv_min": -0.4941185994047514, "train/adv_std": 0.06034302984324979, "train/cont_avg": 0.9936042033450704, "train/cont_loss_mean": 4.393338408518298e-05, "train/cont_loss_std": 0.0012462204540093314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023130394232614726, "train/cont_pos_acc": 0.9999860768586817, "train/cont_pos_loss": 2.672833559763587e-05, "train/cont_pred": 0.9935972337991419, "train/cont_rate": 0.9936042033450704, "train/dyn_loss_mean": 4.432530443433305, "train/dyn_loss_std": 8.367725788707464, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1063727417462308, "train/extr_critic_critic_opt_grad_steps": 52600.0, "train/extr_critic_critic_opt_loss": 15215.744869608274, "train/extr_critic_mag": 6.724103000802054, "train/extr_critic_max": 6.724103000802054, "train/extr_critic_mean": 1.31324161526183, "train/extr_critic_min": -0.6088209454442414, "train/extr_critic_std": 1.5405409033869353, "train/extr_return_normed_mag": 1.6583293340575527, "train/extr_return_normed_max": 1.6583293340575527, "train/extr_return_normed_mean": 0.3286704576351273, "train/extr_return_normed_min": -0.17253214739997622, "train/extr_return_normed_std": 0.3462867799779059, "train/extr_return_rate": 0.5144329801411696, "train/extr_return_raw_mag": 7.373961609853825, "train/extr_return_raw_max": 7.373961609853825, "train/extr_return_raw_mean": 1.3260658551269853, "train/extr_return_raw_min": -0.9538457511176526, "train/extr_return_raw_std": 1.575311007634015, "train/extr_reward_mag": 1.0127406019560048, "train/extr_reward_max": 1.0127406019560048, "train/extr_reward_mean": 0.028712361316445847, "train/extr_reward_min": -0.6805128849728007, "train/extr_reward_std": 0.17048085197596483, "train/image_loss_mean": 3.0225471845814877, "train/image_loss_std": 7.778078650085019, "train/model_loss_mean": 5.725518562424351, "train/model_loss_std": 11.722395393210398, "train/model_opt_grad_norm": 41.35603256225586, "train/model_opt_grad_steps": 52553.81690140845, "train/model_opt_loss": 8317.86738693882, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.418750114843879, "train/policy_entropy_max": 2.418750114843879, "train/policy_entropy_mean": 0.42361311425625436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4918361176067675, "train/policy_logprob_mag": 7.438383901622934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4230100541887149, "train/policy_logprob_min": -7.438383901622934, "train/policy_logprob_std": 1.0211031495685308, "train/policy_randomness_mag": 0.853712647733554, "train/policy_randomness_max": 0.853712647733554, "train/policy_randomness_mean": 0.14951683916676212, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17359656662168638, "train/post_ent_mag": 49.754449333943114, "train/post_ent_max": 49.754449333943114, "train/post_ent_mean": 33.66725276893293, "train/post_ent_min": 16.74815196722326, "train/post_ent_std": 5.148173325498339, "train/prior_ent_mag": 73.63649244711432, "train/prior_ent_max": 73.63649244711432, "train/prior_ent_mean": 38.066272090858135, "train/prior_ent_min": 19.160638473403285, "train/prior_ent_std": 8.27358326441805, "train/rep_loss_mean": 4.432530443433305, "train/rep_loss_std": 8.367725788707464, "train/reward_avg": 0.02242380030400736, "train/reward_loss_mean": 0.04340919188525475, "train/reward_loss_std": 0.1951822321599638, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.005930934153812, "train/reward_neg_acc": 0.9956538912276147, "train/reward_neg_loss": 0.023330781556351085, "train/reward_pos_acc": 0.9888573095832073, "train/reward_pos_loss": 0.7333332669567054, "train/reward_pred": 0.022392172759897272, "train/reward_rate": 0.028182768485915492, "stats/sum_log_reward": 4.211111027333471, "stats/max_log_achievement_collect_drink": 2.888888888888889, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 1.1111111111111112, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3905472175942527, "replay/size": 106950.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.688338743925427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2440910897993143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2806088924408, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.75154399871826, "timer/env.step_frac": 0.07243739140847942, "timer/env.step_avg": 0.015168440724350252, "timer/env.step_min": 0.002792835235595703, "timer/env.step_max": 1.6998815536499023, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2553219795227051, "timer/replay.add_frac": 0.0008502779465661744, "timer/replay.add_avg": 0.0001780488002250384, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.004123210906982422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020608901977539062, "timer/logger.write_frac": 6.863214395878982e-05, "timer/logger.write_avg": 0.020608901977539062, "timer/logger.write_min": 0.020608901977539062, "timer/logger.write_max": 0.020608901977539062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.525215148925781, "timer/agent.policy_frac": 0.03505126484106694, "timer/agent.policy_avg": 0.0073397595180793454, "timer/agent.policy_min": 0.00564122200012207, "timer/agent.policy_max": 0.017145156860351562, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06462502479553223, "timer/dataset_frac": 0.00021521544475980675, "timer/dataset_avg": 9.013253109558191e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.9674713611603, "timer/agent.train_frac": 0.8890599774186113, "timer/agent.train_avg": 0.3723395695413672, "timer/agent.train_min": 0.36583685874938965, "timer/agent.train_max": 0.3866555690765381, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.221693754196167, "timer/agent.report_frac": 0.0007382886128207391, "timer/agent.report_avg": 0.221693754196167, "timer/agent.report_min": 0.221693754196167, "timer/agent.report_max": 0.221693754196167, "fps": 4.775434139926655}
+{"step": 107160, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03508771929824561}
+{"step": 107341, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03867403314917127}
+{"step": 107506, "episode/length": 164.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03636363636363636}
+{"step": 107549, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13953488372093023}
+{"step": 107717, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.02976190476190476}
+{"step": 107764, "episode/length": 46.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.0851063829787234}
+{"step": 107920, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
+{"step": 108112, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026041666666666668}
+{"step": 108303, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
+{"step": 108427, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.730984540052817, "train/action_min": 0.0, "train/action_std": 3.5233369578777904, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05023823636518398, "train/actor_opt_grad_steps": 53310.0, "train/actor_opt_loss": -14.6303501586679, "train/adv_mag": 0.6010076391025329, "train/adv_max": 0.561312671278564, "train/adv_mean": 0.00267345641869199, "train/adv_min": -0.49846340904773123, "train/adv_std": 0.06191022458000922, "train/cont_avg": 0.9943056778169014, "train/cont_loss_mean": 1.4348938095800278e-05, "train/cont_loss_std": 0.0003417163884157969, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004907514887979142, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 1.1006657714328643e-05, "train/cont_pred": 0.9942985966172017, "train/cont_rate": 0.9943056778169014, "train/dyn_loss_mean": 4.4896424085321565, "train/dyn_loss_std": 8.359543518281319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1103757183316727, "train/extr_critic_critic_opt_grad_steps": 53310.0, "train/extr_critic_critic_opt_loss": 15471.892839458627, "train/extr_critic_mag": 6.6085129858742295, "train/extr_critic_max": 6.6085129858742295, "train/extr_critic_mean": 1.2617231322006441, "train/extr_critic_min": -0.5632024801952739, "train/extr_critic_std": 1.4794393307726148, "train/extr_return_normed_mag": 1.627295324500178, "train/extr_return_normed_max": 1.627295324500178, "train/extr_return_normed_mean": 0.31965139508247375, "train/extr_return_normed_min": -0.16663621880219015, "train/extr_return_normed_std": 0.33362186332823524, "train/extr_return_rate": 0.5079445692015366, "train/extr_return_raw_mag": 7.188172300096968, "train/extr_return_raw_max": 7.188172300096968, "train/extr_return_raw_mean": 1.2737842605147562, "train/extr_return_raw_min": -0.9262460948715747, "train/extr_return_raw_std": 1.5091941356658936, "train/extr_reward_mag": 1.0083472627989003, "train/extr_reward_max": 1.0083472627989003, "train/extr_reward_mean": 0.02921204463067189, "train/extr_reward_min": -0.670481178122507, "train/extr_reward_std": 0.17018716037273407, "train/image_loss_mean": 3.150149023029166, "train/image_loss_std": 8.41872381156599, "train/model_loss_mean": 5.885248029735727, "train/model_loss_std": 12.39447338480345, "train/model_opt_grad_norm": 48.29596968100105, "train/model_opt_grad_steps": 53262.464788732395, "train/model_opt_loss": 5438.549288897447, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 915.4929577464789, "train/policy_entropy_mag": 2.4111045615773805, "train/policy_entropy_max": 2.4111045615773805, "train/policy_entropy_mean": 0.4047854660262524, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46854446765402674, "train/policy_logprob_mag": 7.438383894906917, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.405948969260068, "train/policy_logprob_min": -7.438383894906917, "train/policy_logprob_std": 1.0092974338732974, "train/policy_randomness_mag": 0.8510140969719685, "train/policy_randomness_max": 0.8510140969719685, "train/policy_randomness_mean": 0.14287150556772527, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16537563733651606, "train/post_ent_mag": 49.872752176204195, "train/post_ent_max": 49.872752176204195, "train/post_ent_mean": 33.97555928834727, "train/post_ent_min": 17.373274628545197, "train/post_ent_std": 5.087307459871534, "train/prior_ent_mag": 73.6575015430719, "train/prior_ent_max": 73.6575015430719, "train/prior_ent_mean": 38.34411975699411, "train/prior_ent_min": 20.82856683328118, "train/prior_ent_std": 8.057426828733632, "train/rep_loss_mean": 4.4896424085321565, "train/rep_loss_std": 8.359543518281319, "train/reward_avg": 0.022328895057590916, "train/reward_loss_mean": 0.04129926453698689, "train/reward_loss_std": 0.19523475927786088, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0017443022257846, "train/reward_neg_acc": 0.9959112288246692, "train/reward_neg_loss": 0.021624427105129605, "train/reward_pos_acc": 0.9845403583956437, "train/reward_pos_loss": 0.7410630138827042, "train/reward_pred": 0.022200223465095942, "train/reward_rate": 0.027412522007042254, "stats/sum_log_reward": 4.655555513170031, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4444444444444444, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 1.4444444444444444, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3373892605304718, "replay/size": 108364.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.7022324903345177e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2644910407707075e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0978593826294, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.310121774673462, "timer/env.step_frac": 0.0776750684680916, "timer/env.step_avg": 0.016485234635554076, "timer/env.step_min": 0.002911806106567383, "timer/env.step_max": 3.2198550701141357, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2816805839538574, "timer/replay.add_frac": 0.0009386291009650633, "timer/replay.add_avg": 0.00019920833377217638, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.00867462158203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02646017074584961, "timer/logger.write_frac": 8.817180769061229e-05, "timer/logger.write_avg": 0.02646017074584961, "timer/logger.write_min": 0.02646017074584961, "timer/logger.write_max": 0.02646017074584961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005140304565429688, "timer/checkpoint.save_frac": 1.7128761184783129e-06, "timer/checkpoint.save_avg": 0.0005140304565429688, "timer/checkpoint.save_min": 0.0005140304565429688, "timer/checkpoint.save_max": 0.0005140304565429688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3537263870239258, "timer/agent.save_frac": 0.004510949827529105, "timer/agent.save_avg": 1.3537263870239258, "timer/agent.save_min": 1.3537263870239258, "timer/agent.save_max": 1.3537263870239258, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.748603820800781e-05, "timer/replay.save_frac": 2.582025688800796e-07, "timer/replay.save_avg": 7.748603820800781e-05, "timer/replay.save_min": 7.748603820800781e-05, "timer/replay.save_max": 7.748603820800781e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.372119188308716, "timer/agent.policy_frac": 0.0412269491483912, "timer/agent.policy_avg": 0.008749730684801072, "timer/agent.policy_min": 0.005588054656982422, "timer/agent.policy_max": 1.3441526889801025, "timer/dataset_count": 707.0, "timer/dataset_total": 0.06435227394104004, "timer/dataset_frac": 0.00021443763068962747, "timer/dataset_avg": 9.102160387700147e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.3688073158264, "timer/agent.train_frac": 0.8776097498917083, "timer/agent.train_avg": 0.3725159933745777, "timer/agent.train_min": 0.36548614501953125, "timer/agent.train_max": 0.3867325782775879, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20052289962768555, "timer/agent.report_frac": 0.0006681917026672815, "timer/agent.report_avg": 0.20052289962768555, "timer/agent.report_min": 0.20052289962768555, "timer/agent.report_max": 0.20052289962768555, "fps": 4.711718692470809}
+{"step": 108485, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
+{"step": 108651, "episode/length": 165.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.018072289156626505}
+{"step": 108842, "episode/length": 190.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.041884816753926704}
+{"step": 109023, "episode/length": 180.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.03314917127071823}
+{"step": 109061, "episode/length": 37.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07894736842105263}
+{"step": 109239, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
+{"step": 109399, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025}
+{"step": 109577, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.028089887640449437}
+{"step": 109750, "episode/length": 172.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.028901734104046242}
+{"step": 109861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.667376200358073, "train/action_min": 0.0, "train/action_std": 3.487140304512448, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04793296578443713, "train/actor_opt_grad_steps": 54025.0, "train/actor_opt_loss": -12.795514158904552, "train/adv_mag": 0.557700686984592, "train/adv_max": 0.5177420274251037, "train/adv_mean": 0.003259800744444874, "train/adv_min": -0.4605241393049558, "train/adv_std": 0.060181312159531646, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 0.00011366818398232208, "train/cont_loss_std": 0.003576999302579351, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009795774635803253, "train/cont_pos_acc": 0.9999863107999166, "train/cont_pos_loss": 0.0001089808543757916, "train/cont_pred": 0.9942063225640191, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.327174921830495, "train/dyn_loss_std": 8.246933135721418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0877811685204506, "train/extr_critic_critic_opt_grad_steps": 54025.0, "train/extr_critic_critic_opt_loss": 15228.155558268229, "train/extr_critic_mag": 6.6866303947236805, "train/extr_critic_max": 6.6866303947236805, "train/extr_critic_mean": 1.3012108239862654, "train/extr_critic_min": -0.5884248581197526, "train/extr_critic_std": 1.496910239259402, "train/extr_return_normed_mag": 1.6391286667850282, "train/extr_return_normed_max": 1.6391286667850282, "train/extr_return_normed_mean": 0.3309631773995029, "train/extr_return_normed_min": -0.16623256189955604, "train/extr_return_normed_std": 0.33802048592931694, "train/extr_return_rate": 0.5214717446102036, "train/extr_return_raw_mag": 7.230795098675622, "train/extr_return_raw_max": 7.230795098675622, "train/extr_return_raw_mean": 1.3159517447153728, "train/extr_return_raw_min": -0.9323651894099183, "train/extr_return_raw_std": 1.528558976120419, "train/extr_reward_mag": 1.0129578808943431, "train/extr_reward_max": 1.0129578808943431, "train/extr_reward_mean": 0.029534901544037793, "train/extr_reward_min": -0.6586485124296613, "train/extr_reward_std": 0.17232593624956077, "train/image_loss_mean": 2.8209496570958033, "train/image_loss_std": 7.60623828570048, "train/model_loss_mean": 5.4595819976594715, "train/model_loss_std": 11.524920887417263, "train/model_opt_grad_norm": 44.527192989985146, "train/model_opt_grad_steps": 53977.0, "train/model_opt_loss": 3888.6058349609375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 711.8055555555555, "train/policy_entropy_mag": 2.4282892280154758, "train/policy_entropy_max": 2.4282892280154758, "train/policy_entropy_mean": 0.4011441419521968, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4745819928745429, "train/policy_logprob_mag": 7.438383903768328, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40156812055243385, "train/policy_logprob_min": -7.438383903768328, "train/policy_logprob_std": 1.0059520204861958, "train/policy_randomness_mag": 0.8570795373784171, "train/policy_randomness_max": 0.8570795373784171, "train/policy_randomness_mean": 0.14158627721998426, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16750661676956546, "train/post_ent_mag": 49.654452641805015, "train/post_ent_max": 49.654452641805015, "train/post_ent_mean": 33.87624634636773, "train/post_ent_min": 17.422587818569607, "train/post_ent_std": 5.0936841236220465, "train/prior_ent_mag": 73.69202878740099, "train/prior_ent_max": 73.69202878740099, "train/prior_ent_mean": 38.186906496683754, "train/prior_ent_min": 20.24430869685279, "train/prior_ent_std": 8.047103669908312, "train/rep_loss_mean": 4.327174921830495, "train/rep_loss_std": 8.246933135721418, "train/reward_avg": 0.023034667790246505, "train/reward_loss_mean": 0.04221375483191676, "train/reward_loss_std": 0.18728494995998013, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0062017722262278, "train/reward_neg_acc": 0.9956986879309019, "train/reward_neg_loss": 0.022209868947457936, "train/reward_pos_acc": 0.9867941530214416, "train/reward_pos_loss": 0.7333651789360576, "train/reward_pred": 0.022833225239689153, "train/reward_rate": 0.028252495659722224, "stats/sum_log_reward": 4.433333317438762, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 4.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.2977162003517151, "replay/size": 109798.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.733229271371328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2486632731502857e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18803238868713, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.58852481842041, "timer/env.step_frac": 0.07191667384816769, "timer/env.step_avg": 0.015054759287601402, "timer/env.step_min": 0.002790212631225586, "timer/env.step_max": 1.6983463764190674, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25985121726989746, "timer/replay.add_frac": 0.0008656281704576381, "timer/replay.add_avg": 0.00018120726448388945, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.009975910186767578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027140140533447266, "timer/logger.write_frac": 9.04104681238787e-05, "timer/logger.write_avg": 0.027140140533447266, "timer/logger.write_min": 0.027140140533447266, "timer/logger.write_max": 0.027140140533447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.478303909301758, "timer/agent.policy_frac": 0.03490580162680943, "timer/agent.policy_avg": 0.007307045961856177, "timer/agent.policy_min": 0.00558781623840332, "timer/agent.policy_max": 0.018629074096679688, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06402897834777832, "timer/dataset_frac": 0.00021329623915477357, "timer/dataset_avg": 8.930122503176893e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.000232696533203125, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0651469230652, "timer/agent.train_frac": 0.8896595403818963, "timer/agent.train_avg": 0.3724757976611788, "timer/agent.train_min": 0.3656926155090332, "timer/agent.train_max": 0.3847320079803467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214813232421875, "timer/agent.report_frac": 0.0007378086377387982, "timer/agent.report_avg": 0.2214813232421875, "timer/agent.report_min": 0.2214813232421875, "timer/agent.report_max": 0.2214813232421875, "fps": 4.776934870433517}
+{"step": 109913, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03680981595092025}
+{"step": 110104, "episode/length": 190.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.020942408376963352}
+{"step": 110142, "episode/length": 37.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.700000040233135, "episode/reward_rate": 0.13157894736842105}
+{"step": 110276, "episode/length": 133.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.700000017881393, "episode/reward_rate": 0.04477611940298507}
+{"step": 110476, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
+{"step": 110614, "episode/length": 137.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.036231884057971016}
+{"step": 110767, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
+{"step": 110917, "episode/length": 149.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.04}
+{"step": 111091, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.034482758620689655}
+{"step": 111282, "episode/length": 190.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03664921465968586}
+{"step": 111285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444351411201585, "train/action_min": 0.0, "train/action_std": 3.3830061193922876, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049937454537606576, "train/actor_opt_grad_steps": 54740.0, "train/actor_opt_loss": -16.532390806036936, "train/adv_mag": 0.6097641952440772, "train/adv_max": 0.573701839631712, "train/adv_mean": 0.002951379548442635, "train/adv_min": -0.4951192984278773, "train/adv_std": 0.06154914819438693, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 0.0003074157383796511, "train/cont_loss_std": 0.009753595307212353, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.03972253787698821, "train/cont_pos_acc": 0.9999861070807551, "train/cont_pos_loss": 6.356999040896182e-05, "train/cont_pred": 0.9943767584545512, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.3874299727695085, "train/dyn_loss_std": 8.186269464627118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1003042299982528, "train/extr_critic_critic_opt_grad_steps": 54740.0, "train/extr_critic_critic_opt_loss": 15341.770672865317, "train/extr_critic_mag": 6.8684846918347855, "train/extr_critic_max": 6.8684846918347855, "train/extr_critic_mean": 1.3741111805741215, "train/extr_critic_min": -0.5741583662973323, "train/extr_critic_std": 1.5388975932564535, "train/extr_return_normed_mag": 1.6922581296571544, "train/extr_return_normed_max": 1.6922581296571544, "train/extr_return_normed_mean": 0.34588306113867695, "train/extr_return_normed_min": -0.1647419691295691, "train/extr_return_normed_std": 0.3439687599598522, "train/extr_return_rate": 0.5507115897998004, "train/extr_return_raw_mag": 7.559557189404125, "train/extr_return_raw_max": 7.559557189404125, "train/extr_return_raw_mean": 1.3875852185235897, "train/extr_return_raw_min": -0.9542252891500231, "train/extr_return_raw_std": 1.5778501806124834, "train/extr_reward_mag": 1.014893159060411, "train/extr_reward_max": 1.014893159060411, "train/extr_reward_mean": 0.03030589531162675, "train/extr_reward_min": -0.6618630348796576, "train/extr_reward_std": 0.17430234312171666, "train/image_loss_mean": 2.8636111944494114, "train/image_loss_std": 7.625438858085955, "train/model_loss_mean": 5.53868851191561, "train/model_loss_std": 11.52401415730866, "train/model_opt_grad_norm": 39.83927192150707, "train/model_opt_grad_steps": 54692.0, "train/model_opt_loss": 6923.360599141725, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.423404344370667, "train/policy_entropy_max": 2.423404344370667, "train/policy_entropy_mean": 0.3951658673689399, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4724819601421625, "train/policy_logprob_mag": 7.438383968783096, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39627002578386117, "train/policy_logprob_min": -7.438383968783096, "train/policy_logprob_std": 1.0037627186573728, "train/policy_randomness_mag": 0.8553553861631474, "train/policy_randomness_max": 0.8553553861631474, "train/policy_randomness_mean": 0.13947620882954395, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16676539759820616, "train/post_ent_mag": 49.72837458865743, "train/post_ent_max": 49.72837458865743, "train/post_ent_mean": 34.22617571118852, "train/post_ent_min": 17.321697342563684, "train/post_ent_std": 5.114029347057074, "train/prior_ent_mag": 73.8347264679385, "train/prior_ent_max": 73.8347264679385, "train/prior_ent_mean": 38.57979239880199, "train/prior_ent_min": 20.57725240143252, "train/prior_ent_std": 7.983485812872228, "train/rep_loss_mean": 4.3874299727695085, "train/rep_loss_std": 8.186269464627118, "train/reward_avg": 0.0239079003419045, "train/reward_loss_mean": 0.042311948658504954, "train/reward_loss_std": 0.188917757130005, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0074364853576876, "train/reward_neg_acc": 0.995891919438268, "train/reward_neg_loss": 0.021750682046715642, "train/reward_pos_acc": 0.9887207503050146, "train/reward_pos_loss": 0.731544555073053, "train/reward_pred": 0.023640910648858884, "train/reward_rate": 0.028994278169014086, "stats/sum_log_reward": 4.099999928474427, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.3, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_table": 1.4, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3102911949157715, "replay/size": 111222.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.711895996265197e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249437251787507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1100127696991, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.517844915390015, "timer/env.step_frac": 0.07836407955317816, "timer/env.step_avg": 0.016515340530470515, "timer/env.step_min": 0.0029642581939697266, "timer/env.step_max": 1.6886630058288574, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2532334327697754, "timer/replay.add_frac": 0.0008438020125776469, "timer/replay.add_avg": 0.00017783246683270745, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0021631717681884766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026434898376464844, "timer/logger.write_frac": 8.808402669573932e-05, "timer/logger.write_avg": 0.026434898376464844, "timer/logger.write_min": 0.026434898376464844, "timer/logger.write_max": 0.026434898376464844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.367382764816284, "timer/agent.policy_frac": 0.03454527447830304, "timer/agent.policy_avg": 0.007280465424730537, "timer/agent.policy_min": 0.005690097808837891, "timer/agent.policy_max": 0.016295909881591797, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06347441673278809, "timer/dataset_frac": 0.00021150382870263514, "timer/dataset_avg": 8.914946170335405e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00019025802612304688, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.1837992668152, "timer/agent.train_frac": 0.8836219652235133, "timer/agent.train_avg": 0.37244915627361685, "timer/agent.train_min": 0.36557912826538086, "timer/agent.train_max": 0.38529014587402344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21862101554870605, "timer/agent.report_frac": 0.000728469581974505, "timer/agent.report_avg": 0.21862101554870605, "timer/agent.report_min": 0.21862101554870605, "timer/agent.report_max": 0.21862101554870605, "fps": 4.74482760794663}
+{"step": 111455, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
+{"step": 111647, "episode/length": 191.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03125}
+{"step": 111819, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
+{"step": 112011, "episode/length": 191.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03125}
+{"step": 112171, "episode/length": 159.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04375}
+{"step": 112318, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
+{"step": 112461, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04195804195804196}
+{"step": 112503, "episode/length": 41.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.09523809523809523}
+{"step": 112656, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
+{"step": 112691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.640897914341518, "train/action_min": 0.0, "train/action_std": 3.5577086346490043, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048392750322818756, "train/actor_opt_grad_steps": 55445.0, "train/actor_opt_loss": -14.497782515627998, "train/adv_mag": 0.5709603599139622, "train/adv_max": 0.5471785579408918, "train/adv_mean": 0.002480488466400337, "train/adv_min": -0.4398325000490461, "train/adv_std": 0.05899686068296432, "train/cont_avg": 0.9941964285714285, "train/cont_loss_mean": 3.780120539391061e-05, "train/cont_loss_std": 0.0011416504689074308, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.008537128532043425, "train/cont_pos_acc": 0.9999999804156167, "train/cont_pos_loss": 1.1394562830042381e-05, "train/cont_pred": 0.9942008231367384, "train/cont_rate": 0.9941964285714285, "train/dyn_loss_mean": 4.506120177677699, "train/dyn_loss_std": 8.382908589499337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1264065103871481, "train/extr_critic_critic_opt_grad_steps": 55445.0, "train/extr_critic_critic_opt_loss": 15298.789718191963, "train/extr_critic_mag": 6.785273170471191, "train/extr_critic_max": 6.785273170471191, "train/extr_critic_mean": 1.3566428916794913, "train/extr_critic_min": -0.6158236145973206, "train/extr_critic_std": 1.5841025829315185, "train/extr_return_normed_mag": 1.5929757016045707, "train/extr_return_normed_max": 1.5929757016045707, "train/extr_return_normed_mean": 0.3302436909505299, "train/extr_return_normed_min": -0.14792600188936506, "train/extr_return_normed_std": 0.33775106838771274, "train/extr_return_rate": 0.528661675964083, "train/extr_return_raw_mag": 7.4223186424800325, "train/extr_return_raw_max": 7.4223186424800325, "train/extr_return_raw_mean": 1.36853209904262, "train/extr_return_raw_min": -0.9240049379212516, "train/extr_return_raw_std": 1.619402347292219, "train/extr_reward_mag": 1.016404802458627, "train/extr_reward_max": 1.016404802458627, "train/extr_reward_mean": 0.03151073003453868, "train/extr_reward_min": -0.6740045598575047, "train/extr_reward_std": 0.17770363731043679, "train/image_loss_mean": 3.0917536054338726, "train/image_loss_std": 8.080208138057165, "train/model_loss_mean": 5.836878531319755, "train/model_loss_std": 12.094124167306083, "train/model_opt_grad_norm": 41.07816047668457, "train/model_opt_grad_steps": 55397.0, "train/model_opt_loss": 12556.949295479912, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2160.714285714286, "train/policy_entropy_mag": 2.4049528803144185, "train/policy_entropy_max": 2.4049528803144185, "train/policy_entropy_mean": 0.39845702818461826, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47127633605684555, "train/policy_logprob_mag": 7.438383947099958, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39830026498862675, "train/policy_logprob_min": -7.438383947099958, "train/policy_logprob_std": 1.0047183564731053, "train/policy_randomness_mag": 0.8488428269113814, "train/policy_randomness_max": 0.8488428269113814, "train/policy_randomness_mean": 0.14063784639750207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16633986553975513, "train/post_ent_mag": 50.0457457951137, "train/post_ent_max": 50.0457457951137, "train/post_ent_mean": 34.4282701764788, "train/post_ent_min": 17.406164945874895, "train/post_ent_std": 5.200085524150303, "train/prior_ent_mag": 73.80200565883092, "train/prior_ent_max": 73.80200565883092, "train/prior_ent_mean": 38.847372436523436, "train/prior_ent_min": 20.561764662606375, "train/prior_ent_std": 8.063831840242658, "train/rep_loss_mean": 4.506120177677699, "train/rep_loss_std": 8.382908589499337, "train/reward_avg": 0.023417968728712626, "train/reward_loss_mean": 0.04141502281916993, "train/reward_loss_std": 0.1816106366259711, "train/reward_max_data": 1.0028571435383389, "train/reward_max_pred": 1.0061083963939121, "train/reward_neg_acc": 0.9959060941423689, "train/reward_neg_loss": 0.021287917931165013, "train/reward_pos_acc": 0.9890452265739441, "train/reward_pos_loss": 0.7278910909380232, "train/reward_pred": 0.023256658270422902, "train/reward_rate": 0.028529575892857144, "stats/sum_log_reward": 4.766666571299235, "stats/max_log_achievement_collect_drink": 3.7777777777777777, "stats/max_log_achievement_collect_sapling": 3.4444444444444446, "stats/max_log_achievement_collect_wood": 4.777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3254091441631317, "replay/size": 112628.0, "replay/inserts": 1406.0, "replay/samples": 11248.0, "replay/insert_wait_avg": 3.769082331216522e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558520603315588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0035951137543, "timer/env.step_count": 1406.0, "timer/env.step_total": 21.86707377433777, "timer/env.step_frac": 0.07288937242917469, "timer/env.step_avg": 0.015552684050026862, "timer/env.step_min": 0.0029866695404052734, "timer/env.step_max": 1.7519886493682861, "timer/replay.add_count": 1406.0, "timer/replay.add_total": 0.28847265243530273, "timer/replay.add_frac": 0.0009615639850113154, "timer/replay.add_avg": 0.0002051725835243974, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.008170604705810547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027693986892700195, "timer/logger.write_frac": 9.231218339966657e-05, "timer/logger.write_avg": 0.027693986892700195, "timer/logger.write_min": 0.027693986892700195, "timer/logger.write_max": 0.027693986892700195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003719329833984375, "timer/checkpoint.save_frac": 1.2397617543796744e-06, "timer/checkpoint.save_avg": 0.0003719329833984375, "timer/checkpoint.save_min": 0.0003719329833984375, "timer/checkpoint.save_max": 0.0003719329833984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3596103191375732, "timer/agent.save_frac": 0.004531980087178759, "timer/agent.save_avg": 1.3596103191375732, "timer/agent.save_min": 1.3596103191375732, "timer/agent.save_max": 1.3596103191375732, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.440017700195312e-05, "timer/replay.save_frac": 2.8133055195538766e-07, "timer/replay.save_avg": 8.440017700195312e-05, "timer/replay.save_min": 8.440017700195312e-05, "timer/replay.save_max": 8.440017700195312e-05, "timer/agent.policy_count": 1406.0, "timer/agent.policy_total": 14.954587697982788, "timer/agent.policy_frac": 0.04984802829550213, "timer/agent.policy_avg": 0.01063626436556386, "timer/agent.policy_min": 0.00564265251159668, "timer/agent.policy_max": 3.300391435623169, "timer/dataset_count": 703.0, "timer/dataset_total": 0.06345629692077637, "timer/dataset_frac": 0.00021151845495956552, "timer/dataset_avg": 9.026500273225656e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00024127960205078125, "timer/agent.train_count": 703.0, "timer/agent.train_total": 262.1080553531647, "timer/agent.train_frac": 0.8736830478774079, "timer/agent.train_avg": 0.3728421840016567, "timer/agent.train_min": 0.36689305305480957, "timer/agent.train_max": 0.42193174362182617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204139232635498, "timer/agent.report_frac": 0.0007347042730603746, "timer/agent.report_avg": 0.2204139232635498, "timer/agent.report_min": 0.2204139232635498, "timer/agent.report_max": 0.2204139232635498, "fps": 4.686527544765966}
+{"step": 112710, "episode/length": 53.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.018518518518518517}
+{"step": 112913, "episode/length": 202.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03940886699507389}
+{"step": 113069, "episode/length": 155.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 113363, "episode/length": 293.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.023809523809523808}
+{"step": 113540, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
+{"step": 113728, "episode/length": 187.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03723404255319149}
+{"step": 113831, "episode/length": 102.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.019417475728155338}
+{"step": 114027, "episode/length": 195.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03571428571428571}
+{"step": 114131, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538092719184028, "train/action_min": 0.0, "train/action_std": 3.48289582795567, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04929205635562539, "train/actor_opt_grad_steps": 56155.0, "train/actor_opt_loss": -20.203913850916756, "train/adv_mag": 0.6580522350139089, "train/adv_max": 0.6326482751303248, "train/adv_mean": 0.0011261425412764463, "train/adv_min": -0.46811211067769265, "train/adv_std": 0.0613701539631519, "train/cont_avg": 0.9938286675347222, "train/cont_loss_mean": 0.0004274590042664765, "train/cont_loss_std": 0.013423868805931407, "train/cont_neg_acc": 0.9925595257017348, "train/cont_neg_loss": 0.04903394789996835, "train/cont_pos_acc": 0.9999726803766357, "train/cont_pos_loss": 0.00012830233449613438, "train/cont_pred": 0.9938424792554643, "train/cont_rate": 0.9938286675347222, "train/dyn_loss_mean": 4.421929375992881, "train/dyn_loss_std": 8.330844124158224, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.122675774825944, "train/extr_critic_critic_opt_grad_steps": 56155.0, "train/extr_critic_critic_opt_loss": 15371.536702473959, "train/extr_critic_mag": 6.966588662730323, "train/extr_critic_max": 6.966588662730323, "train/extr_critic_mean": 1.2928354400727484, "train/extr_critic_min": -0.6025094754166074, "train/extr_critic_std": 1.5298816992176905, "train/extr_return_normed_mag": 1.7007675336466894, "train/extr_return_normed_max": 1.7007675336466894, "train/extr_return_normed_mean": 0.326616236112184, "train/extr_return_normed_min": -0.15797436909957063, "train/extr_return_normed_std": 0.3385596213241418, "train/extr_return_rate": 0.5240948990815215, "train/extr_return_raw_mag": 7.608274486329821, "train/extr_return_raw_max": 7.608274486329821, "train/extr_return_raw_mean": 1.2978805891341634, "train/extr_return_raw_min": -0.9271707692080073, "train/extr_return_raw_std": 1.5553941594229803, "train/extr_reward_mag": 1.0185318456755743, "train/extr_reward_max": 1.0185318456755743, "train/extr_reward_mean": 0.03060532160775943, "train/extr_reward_min": -0.6860565659072664, "train/extr_reward_std": 0.17607290960020489, "train/image_loss_mean": 2.9258890913592444, "train/image_loss_std": 7.982865922980839, "train/model_loss_mean": 5.622595124774509, "train/model_loss_std": 12.01084009806315, "train/model_opt_grad_norm": 45.62471262613932, "train/model_opt_grad_steps": 56106.5, "train/model_opt_loss": 10516.49755859375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.424968716171053, "train/policy_entropy_max": 2.424968716171053, "train/policy_entropy_mean": 0.41054871885312927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4903276703423924, "train/policy_logprob_mag": 7.438383923636542, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41182364606195027, "train/policy_logprob_min": -7.438383923636542, "train/policy_logprob_std": 1.0183604773547914, "train/policy_randomness_mag": 0.8559075403544638, "train/policy_randomness_max": 0.8559075403544638, "train/policy_randomness_mean": 0.14490567841049698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17306414846744803, "train/post_ent_mag": 50.53342570198907, "train/post_ent_max": 50.53342570198907, "train/post_ent_mean": 34.61181587643094, "train/post_ent_min": 17.461535837915207, "train/post_ent_std": 5.173616939120823, "train/prior_ent_mag": 73.75131713019476, "train/prior_ent_max": 73.75131713019476, "train/prior_ent_mean": 38.967120541466606, "train/prior_ent_min": 20.764557666248745, "train/prior_ent_std": 7.975856959819794, "train/rep_loss_mean": 4.421929375992881, "train/rep_loss_std": 8.330844124158224, "train/reward_avg": 0.024873860464948747, "train/reward_loss_mean": 0.04312099449129568, "train/reward_loss_std": 0.18596843060933882, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0092204825745688, "train/reward_neg_acc": 0.9958012443449762, "train/reward_neg_loss": 0.021963987745241158, "train/reward_pos_acc": 0.9914305135607719, "train/reward_pos_loss": 0.7228335332539346, "train/reward_pred": 0.024721061332254775, "train/reward_rate": 0.030232747395833332, "stats/sum_log_reward": 4.349999973550439, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.36001574248075485, "replay/size": 114068.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7021107143825957e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2657294670740763e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0004301071167, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.23222041130066, "timer/env.step_frac": 0.06744063801534098, "timer/env.step_avg": 0.014050153063403235, "timer/env.step_min": 0.003023862838745117, "timer/env.step_max": 1.7358272075653076, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2578768730163574, "timer/replay.add_frac": 0.0008595883443376437, "timer/replay.add_avg": 0.00017908116181691486, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0018854141235351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030102014541625977, "timer/logger.write_frac": 0.00010033990461572971, "timer/logger.write_avg": 0.030102014541625977, "timer/logger.write_min": 0.030102014541625977, "timer/logger.write_max": 0.030102014541625977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.561035394668579, "timer/agent.policy_frac": 0.03520340084478448, "timer/agent.policy_avg": 0.007334052357408735, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 0.01710367202758789, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06512665748596191, "timer/dataset_frac": 0.00021708854704877625, "timer/dataset_avg": 9.045369095272488e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00023508071899414062, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.15089893341064, "timer/agent.train_frac": 0.8938350482953173, "timer/agent.train_avg": 0.37243180407418147, "timer/agent.train_min": 0.3662724494934082, "timer/agent.train_max": 0.3832530975341797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986699104309082, "timer/agent.report_frac": 0.0007328889194078361, "timer/agent.report_avg": 0.21986699104309082, "timer/agent.report_min": 0.21986699104309082, "timer/agent.report_max": 0.21986699104309082, "fps": 4.799918546151546}
+{"step": 114189, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.037037037037037035}
+{"step": 114372, "episode/length": 182.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03825136612021858}
+{"step": 114516, "episode/length": 143.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04861111111111111}
+{"step": 114724, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 114879, "episode/length": 154.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.04516129032258064}
+{"step": 115091, "episode/length": 211.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02830188679245283}
+{"step": 115133, "episode/length": 41.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11904761904761904}
+{"step": 115357, "episode/length": 223.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.022321428571428572}
+{"step": 115413, "episode/length": 55.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.07142857142857142}
+{"step": 115565, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.439319186740452, "train/action_min": 0.0, "train/action_std": 3.3184912535879345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0479333503689203, "train/actor_opt_grad_steps": 56875.0, "train/actor_opt_loss": -16.345102783292532, "train/adv_mag": 0.6011482232974635, "train/adv_max": 0.5508917739821805, "train/adv_mean": 0.0023566653846071655, "train/adv_min": -0.4943031420310338, "train/adv_std": 0.0610336205508146, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.6666613789813784e-05, "train/cont_loss_std": 0.0004961539293933331, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000335422717853362, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.5286044709720652e-05, "train/cont_pred": 0.9946844735079341, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.369704445203145, "train/dyn_loss_std": 8.171776798036364, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.151106639040841, "train/extr_critic_critic_opt_grad_steps": 56875.0, "train/extr_critic_critic_opt_loss": 15422.002875434027, "train/extr_critic_mag": 6.648131370544434, "train/extr_critic_max": 6.648131370544434, "train/extr_critic_mean": 1.2198776909046702, "train/extr_critic_min": -0.5954493367009692, "train/extr_critic_std": 1.4409773697455723, "train/extr_return_normed_mag": 1.676696519056956, "train/extr_return_normed_max": 1.676696519056956, "train/extr_return_normed_mean": 0.3198073235236936, "train/extr_return_normed_min": -0.16842262829757398, "train/extr_return_normed_std": 0.3303371872752905, "train/extr_return_rate": 0.5261167432698939, "train/extr_return_raw_mag": 7.269994232389662, "train/extr_return_raw_max": 7.269994232389662, "train/extr_return_raw_mean": 1.230333952440156, "train/extr_return_raw_min": -0.943399684296714, "train/extr_return_raw_std": 1.4705563725696669, "train/extr_reward_mag": 1.013309508562088, "train/extr_reward_max": 1.013309508562088, "train/extr_reward_mean": 0.029432271451999743, "train/extr_reward_min": -0.6672587460941739, "train/extr_reward_std": 0.17117986579736075, "train/image_loss_mean": 2.7023029923439026, "train/image_loss_std": 7.216675208674537, "train/model_loss_mean": 5.362854599952698, "train/model_loss_std": 11.151331901550293, "train/model_opt_grad_norm": 40.13355824682448, "train/model_opt_grad_steps": 56826.0, "train/model_opt_loss": 7426.206570095486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.4017894168694816, "train/policy_entropy_max": 2.4017894168694816, "train/policy_entropy_mean": 0.387796051800251, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46593184603585136, "train/policy_logprob_mag": 7.438383943504757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3872494060132239, "train/policy_logprob_min": -7.438383943504757, "train/policy_logprob_std": 0.9966460325651698, "train/policy_randomness_mag": 0.8477262639337115, "train/policy_randomness_max": 0.8477262639337115, "train/policy_randomness_mean": 0.13687498826119635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16445349487993452, "train/post_ent_mag": 50.56564548280504, "train/post_ent_max": 50.56564548280504, "train/post_ent_mean": 34.6263952255249, "train/post_ent_min": 17.45731752448612, "train/post_ent_std": 5.258523868189918, "train/prior_ent_mag": 73.76384417215984, "train/prior_ent_max": 73.76384417215984, "train/prior_ent_mean": 38.984836631351044, "train/prior_ent_min": 21.108930892414516, "train/prior_ent_std": 7.891418642467922, "train/rep_loss_mean": 4.369704445203145, "train/rep_loss_std": 8.171776798036364, "train/reward_avg": 0.02281629758524812, "train/reward_loss_mean": 0.03871229813537664, "train/reward_loss_std": 0.16959086143308216, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0047232227192984, "train/reward_neg_acc": 0.9953533593151305, "train/reward_neg_loss": 0.019301428278494213, "train/reward_pos_acc": 0.9882980891399913, "train/reward_pos_loss": 0.7267014938924048, "train/reward_pred": 0.022698770923953917, "train/reward_rate": 0.027533637152777776, "stats/sum_log_reward": 4.655555460188124, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 3.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3020187301768197, "replay/size": 115502.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7119478361377156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.270256448157828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1186754703522, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.61103367805481, "timer/env.step_frac": 0.07200829353316834, "timer/env.step_avg": 0.015070455842437106, "timer/env.step_min": 0.003017425537109375, "timer/env.step_max": 1.7282886505126953, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2520253658294678, "timer/replay.add_frac": 0.0008397523594107845, "timer/replay.add_avg": 0.00017574990643617, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0011668205261230469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02665424346923828, "timer/logger.write_frac": 8.881234540791306e-05, "timer/logger.write_avg": 0.02665424346923828, "timer/logger.write_min": 0.02665424346923828, "timer/logger.write_max": 0.02665424346923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.423452854156494, "timer/agent.policy_frac": 0.034731103746944915, "timer/agent.policy_avg": 0.007268795574725589, "timer/agent.policy_min": 0.005648612976074219, "timer/agent.policy_max": 0.01539158821105957, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06442904472351074, "timer/dataset_frac": 0.00021467855881522938, "timer/dataset_avg": 8.98591976618002e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.0002086162567138672, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0451867580414, "timer/agent.train_frac": 0.8897986316230493, "timer/agent.train_avg": 0.37244795921623625, "timer/agent.train_min": 0.36638450622558594, "timer/agent.train_max": 0.3824198246002197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21734976768493652, "timer/agent.report_frac": 0.0007242127379920676, "timer/agent.report_avg": 0.21734976768493652, "timer/agent.report_min": 0.21734976768493652, "timer/agent.report_max": 0.21734976768493652, "fps": 4.778031337074772}
+{"step": 115568, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
+{"step": 115656, "episode/length": 87.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.07954545454545454}
+{"step": 115834, "episode/length": 177.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.033707865168539325}
+{"step": 115890, "episode/length": 55.0, "episode/score": 0.10000002384185791, "episode/sum_abs_reward": 2.2999999821186066, "episode/reward_rate": 0.03571428571428571}
+{"step": 116096, "episode/length": 205.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02912621359223301}
+{"step": 116323, "episode/length": 226.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.030837004405286344}
+{"step": 116502, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03910614525139665}
+{"step": 116655, "episode/length": 152.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.0457516339869281}
+{"step": 116834, "episode/length": 178.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.0446927374301676}
+{"step": 116973, "stats/sum_log_reward": 4.544444388813442, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 6.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.2999591711494658, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.419428362165179, "train/action_min": 0.0, "train/action_std": 3.265652629307338, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04722218971167292, "train/actor_opt_grad_steps": 57585.0, "train/actor_opt_loss": -16.868840158730745, "train/adv_mag": 0.5669633580105645, "train/adv_max": 0.5382836358887809, "train/adv_mean": 0.002513763339707761, "train/adv_min": -0.46002035524163926, "train/adv_std": 0.060254317628485814, "train/cont_avg": 0.9940987723214286, "train/cont_loss_mean": 1.4633871374160533e-05, "train/cont_loss_std": 0.0003699687165489455, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008264281728770584, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 8.619923032426869e-06, "train/cont_pred": 0.9940966538020543, "train/cont_rate": 0.9940987723214286, "train/dyn_loss_mean": 4.457635045051575, "train/dyn_loss_std": 8.315908425194877, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1150827561106, "train/extr_critic_critic_opt_grad_steps": 57585.0, "train/extr_critic_critic_opt_loss": 15362.930329241071, "train/extr_critic_mag": 6.608938360214234, "train/extr_critic_max": 6.608938360214234, "train/extr_critic_mean": 1.2647506552083152, "train/extr_critic_min": -0.5795787147113255, "train/extr_critic_std": 1.4749536275863648, "train/extr_return_normed_mag": 1.6486939430236816, "train/extr_return_normed_max": 1.6486939430236816, "train/extr_return_normed_mean": 0.32569778178419384, "train/extr_return_normed_min": -0.16760252980249268, "train/extr_return_normed_std": 0.3333055853843689, "train/extr_return_rate": 0.5296289329017911, "train/extr_return_raw_mag": 7.264138003758021, "train/extr_return_raw_max": 7.264138003758021, "train/extr_return_raw_mean": 1.2761573553085328, "train/extr_return_raw_min": -0.9582551726273127, "train/extr_return_raw_std": 1.5095181397029331, "train/extr_reward_mag": 1.0176898513521466, "train/extr_reward_max": 1.0176898513521466, "train/extr_reward_mean": 0.030415934696793556, "train/extr_reward_min": -0.6797328386987959, "train/extr_reward_std": 0.17468380672591075, "train/image_loss_mean": 3.0657669033323014, "train/image_loss_std": 7.809748002461025, "train/model_loss_mean": 5.782608665738787, "train/model_loss_std": 11.703601087842669, "train/model_opt_grad_norm": 39.66024000985282, "train/model_opt_grad_steps": 57535.142857142855, "train/model_opt_loss": 8167.505970982143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1428.5714285714287, "train/policy_entropy_mag": 2.4073633636747087, "train/policy_entropy_max": 2.4073633636747087, "train/policy_entropy_mean": 0.3832590975931713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4629281141928264, "train/policy_logprob_mag": 7.438383960723877, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3839434700352805, "train/policy_logprob_min": -7.438383960723877, "train/policy_logprob_std": 0.9993263176509313, "train/policy_randomness_mag": 0.8496936244624002, "train/policy_randomness_max": 0.8496936244624002, "train/policy_randomness_mean": 0.13527364219938007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16339330822229386, "train/post_ent_mag": 50.69737347194127, "train/post_ent_max": 50.69737347194127, "train/post_ent_mean": 34.900814710344584, "train/post_ent_min": 17.556338473728726, "train/post_ent_std": 5.295165429796492, "train/prior_ent_mag": 73.8927241734096, "train/prior_ent_max": 73.8927241734096, "train/prior_ent_mean": 39.29401201520648, "train/prior_ent_min": 20.988213498251778, "train/prior_ent_std": 8.023969670704433, "train/rep_loss_mean": 4.457635045051575, "train/rep_loss_std": 8.315908425194877, "train/reward_avg": 0.023166852497628756, "train/reward_loss_mean": 0.04224611568663802, "train/reward_loss_std": 0.18770907925707953, "train/reward_max_data": 1.0057142870766775, "train/reward_max_pred": 1.0078454392296927, "train/reward_neg_acc": 0.9958217075892857, "train/reward_neg_loss": 0.021703043812885882, "train/reward_pos_acc": 0.9867411255836487, "train/reward_pos_loss": 0.7461794751031058, "train/reward_pred": 0.022949075273105076, "train/reward_rate": 0.028445870535714287, "replay/size": 116910.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7794763391668145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2668950313871556e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2852017879486, "timer/env.step_count": 1408.0, "timer/env.step_total": 21.578507661819458, "timer/env.step_frac": 0.07186004349644069, "timer/env.step_avg": 0.015325644646178593, "timer/env.step_min": 0.0029773712158203125, "timer/env.step_max": 1.7054247856140137, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.2838582992553711, "timer/replay.add_frac": 0.0009452956641393949, "timer/replay.add_avg": 0.00020160390572114423, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0052089691162109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02600574493408203, "timer/logger.write_frac": 8.660348488450131e-05, "timer/logger.write_avg": 0.02600574493408203, "timer/logger.write_min": 0.02600574493408203, "timer/logger.write_max": 0.02600574493408203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003790855407714844, "timer/checkpoint.save_frac": 1.2624183226957083e-06, "timer/checkpoint.save_avg": 0.0003790855407714844, "timer/checkpoint.save_min": 0.0003790855407714844, "timer/checkpoint.save_max": 0.0003790855407714844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4379687309265137, "timer/agent.save_frac": 0.004788676639290268, "timer/agent.save_avg": 1.4379687309265137, "timer/agent.save_min": 1.4379687309265137, "timer/agent.save_max": 1.4379687309265137, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001366138458251953, "timer/replay.save_frac": 4.549469804431703e-07, "timer/replay.save_avg": 0.0001366138458251953, "timer/replay.save_min": 0.0001366138458251953, "timer/replay.save_max": 0.0001366138458251953, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 15.236665487289429, "timer/agent.policy_frac": 0.05074064721327511, "timer/agent.policy_avg": 0.010821495374495333, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 3.4887139797210693, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06425881385803223, "timer/dataset_frac": 0.00021399260927752828, "timer/dataset_avg": 9.127672423015942e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0004055500030517578, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.4048137664795, "timer/agent.train_frac": 0.8738519654118054, "timer/agent.train_avg": 0.37273411046374927, "timer/agent.train_min": 0.3639097213745117, "timer/agent.train_max": 0.38758325576782227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21820306777954102, "timer/agent.report_frac": 0.0007266527503863768, "timer/agent.report_avg": 0.21820306777954102, "timer/agent.report_min": 0.21820306777954102, "timer/agent.report_max": 0.21820306777954102, "fps": 4.688773877809186}
+{"step": 117044, "episode/length": 209.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03333333333333333}
+{"step": 117230, "episode/length": 185.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03225806451612903}
+{"step": 117408, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03932584269662921}
+{"step": 117452, "episode/length": 43.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.06818181818181818}
+{"step": 117660, "episode/length": 207.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03365384615384615}
+{"step": 117812, "episode/length": 151.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03289473684210526}
+{"step": 117986, "episode/length": 173.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028735632183908046}
+{"step": 118129, "episode/length": 142.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04895104895104895}
+{"step": 118297, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03571428571428571}
+{"step": 118407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.389786614312066, "train/action_min": 0.0, "train/action_std": 3.3574088414510093, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04751462949853805, "train/actor_opt_grad_steps": 58295.0, "train/actor_opt_loss": -17.92383075174358, "train/adv_mag": 0.5628841432432333, "train/adv_max": 0.5279061877065234, "train/adv_mean": 0.0021567938686833563, "train/adv_min": -0.45139892109566265, "train/adv_std": 0.05927013010821409, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 1.869700263531134e-05, "train/cont_loss_std": 0.0005311756434530758, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003321278639102982, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.1254702962975532e-05, "train/cont_pred": 0.9940147888329294, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.4804754422770605, "train/dyn_loss_std": 8.387348744604322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544765864809353, "train/extr_critic_critic_opt_grad_steps": 58295.0, "train/extr_critic_critic_opt_loss": 15279.427910698785, "train/extr_critic_mag": 6.795018672943115, "train/extr_critic_max": 6.795018672943115, "train/extr_critic_mean": 1.2167928963899612, "train/extr_critic_min": -0.6090336028072569, "train/extr_critic_std": 1.4839977191554174, "train/extr_return_normed_mag": 1.6584846675395966, "train/extr_return_normed_max": 1.6584846675395966, "train/extr_return_normed_mean": 0.31679530089928043, "train/extr_return_normed_min": -0.17434075692047676, "train/extr_return_normed_std": 0.3339416746877962, "train/extr_return_rate": 0.5135046218832334, "train/extr_return_raw_mag": 7.329139629999797, "train/extr_return_raw_max": 7.329139629999797, "train/extr_return_raw_mean": 1.2266199539105098, "train/extr_return_raw_min": -1.0070232368177838, "train/extr_return_raw_std": 1.5188335436913702, "train/extr_reward_mag": 1.0173625747362773, "train/extr_reward_max": 1.0173625747362773, "train/extr_reward_mean": 0.0296573368832469, "train/extr_reward_min": -0.699808711806933, "train/extr_reward_std": 0.1736273310250706, "train/image_loss_mean": 2.967107892036438, "train/image_loss_std": 7.903682735231188, "train/model_loss_mean": 5.696958541870117, "train/model_loss_std": 11.890509300761753, "train/model_opt_grad_norm": 43.5976809112119, "train/model_opt_grad_steps": 58244.625, "train/model_opt_loss": 7726.992133246527, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.4036294321219125, "train/policy_entropy_max": 2.4036294321219125, "train/policy_entropy_mean": 0.3941929866042402, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47135118395090103, "train/policy_logprob_mag": 7.4383840163548784, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39290834425224197, "train/policy_logprob_min": -7.4383840163548784, "train/policy_logprob_std": 0.9998640707797475, "train/policy_randomness_mag": 0.8483757086926036, "train/policy_randomness_max": 0.8483757086926036, "train/policy_randomness_mean": 0.13913282700296906, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16636628285050392, "train/post_ent_mag": 51.2114839553833, "train/post_ent_max": 51.2114839553833, "train/post_ent_mean": 35.19354761971368, "train/post_ent_min": 17.4125653107961, "train/post_ent_std": 5.25039894051022, "train/prior_ent_mag": 73.90322981940375, "train/prior_ent_max": 73.90322981940375, "train/prior_ent_mean": 39.6093962987264, "train/prior_ent_min": 21.44334677855174, "train/prior_ent_std": 7.918167206976149, "train/rep_loss_mean": 4.4804754422770605, "train/rep_loss_std": 8.387348744604322, "train/reward_avg": 0.02245958097692993, "train/reward_loss_mean": 0.04154674501882659, "train/reward_loss_std": 0.18060825309819645, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.0047789878315396, "train/reward_neg_acc": 0.9955481762687365, "train/reward_neg_loss": 0.022211520492823586, "train/reward_pos_acc": 0.9897295749849744, "train/reward_pos_loss": 0.7211779173877504, "train/reward_pred": 0.022345047573455505, "train/reward_rate": 0.027737087673611112, "stats/sum_log_reward": 4.433333237965901, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_sapling": 3.3333333333333335, "stats/max_log_achievement_collect_wood": 3.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 0.8888888888888888, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3417905552519692, "replay/size": 118344.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.813865959561187e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.247852749738068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2417628765106, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.581416130065918, "timer/env.step_frac": 0.07188012727910324, "timer/env.step_avg": 0.015049802043281673, "timer/env.step_min": 0.0029573440551757812, "timer/env.step_max": 1.6820313930511475, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25601625442504883, "timer/replay.add_frac": 0.0008527003437904415, "timer/replay.add_avg": 0.00017853295287660308, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.002270221710205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028240680694580078, "timer/logger.write_frac": 9.405980175447965e-05, "timer/logger.write_avg": 0.028240680694580078, "timer/logger.write_min": 0.028240680694580078, "timer/logger.write_max": 0.028240680694580078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.463219404220581, "timer/agent.policy_frac": 0.03484931377958935, "timer/agent.policy_avg": 0.0072965267811859, "timer/agent.policy_min": 0.0056307315826416016, "timer/agent.policy_max": 0.016835689544677734, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06526970863342285, "timer/dataset_frac": 0.0002173905055982111, "timer/dataset_avg": 9.103167173420202e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002307891845703125, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.1389093399048, "timer/agent.train_frac": 0.8897460059538052, "timer/agent.train_avg": 0.3725786741142326, "timer/agent.train_min": 0.3662989139556885, "timer/agent.train_max": 0.3845369815826416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2209489345550537, "timer/agent.report_frac": 0.0007359034014396257, "timer/agent.report_avg": 0.2209489345550537, "timer/agent.report_min": 0.2209489345550537, "timer/agent.report_max": 0.2209489345550537, "fps": 4.77605659622267}
+{"step": 118546, "episode/length": 248.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.028112449799196786}
+{"step": 118714, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
+{"step": 118872, "episode/length": 157.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.0189873417721519}
+{"step": 119012, "episode/length": 139.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.05}
+{"step": 119187, "episode/length": 174.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03428571428571429}
+{"step": 119397, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.02857142857142857}
+{"step": 119564, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
+{"step": 119740, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
+{"step": 119847, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4254099527994795, "train/action_min": 0.0, "train/action_std": 3.348726514312956, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04924796516489652, "train/actor_opt_grad_steps": 59015.0, "train/actor_opt_loss": -17.85481916202439, "train/adv_mag": 0.6004234796596898, "train/adv_max": 0.5416626176900334, "train/adv_mean": 0.0023995221677574185, "train/adv_min": -0.5248176385131147, "train/adv_std": 0.060167954199843936, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 0.00016302336558007526, "train/cont_loss_std": 0.005166725184578367, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.020596464382328525, "train/cont_pos_acc": 0.9999863339795007, "train/cont_pos_loss": 4.341409860699999e-05, "train/cont_pred": 0.9943851215971841, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.5264780885643425, "train/dyn_loss_std": 8.40518089135488, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1053072131342359, "train/extr_critic_critic_opt_grad_steps": 59015.0, "train/extr_critic_critic_opt_loss": 15480.999538845486, "train/extr_critic_mag": 7.049361017015245, "train/extr_critic_max": 7.049361017015245, "train/extr_critic_mean": 1.2989319587747257, "train/extr_critic_min": -0.618834838271141, "train/extr_critic_std": 1.5835101339552138, "train/extr_return_normed_mag": 1.6845876723527908, "train/extr_return_normed_max": 1.6845876723527908, "train/extr_return_normed_mean": 0.3266620147559378, "train/extr_return_normed_min": -0.16505866890980136, "train/extr_return_normed_std": 0.3430104067342149, "train/extr_return_rate": 0.5298448610636923, "train/extr_return_raw_mag": 7.742167678144243, "train/extr_return_raw_max": 7.742167678144243, "train/extr_return_raw_mean": 1.310195318526692, "train/extr_return_raw_min": -1.0169315992130175, "train/extr_return_raw_std": 1.6241499450471666, "train/extr_reward_mag": 1.0151119828224182, "train/extr_reward_max": 1.0151119828224182, "train/extr_reward_mean": 0.03140038583013746, "train/extr_reward_min": -0.6928070386250814, "train/extr_reward_std": 0.17751504480838776, "train/image_loss_mean": 3.1158990561962128, "train/image_loss_std": 8.490286409854889, "train/model_loss_mean": 5.874474638038212, "train/model_loss_std": 12.461167196432749, "train/model_opt_grad_norm": 39.81912366549174, "train/model_opt_grad_steps": 58964.0, "train/model_opt_loss": 7343.093309190538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.416593690713247, "train/policy_entropy_max": 2.416593690713247, "train/policy_entropy_mean": 0.39269136471880806, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4783259621924824, "train/policy_logprob_mag": 7.4383840163548784, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3923471065031158, "train/policy_logprob_min": -7.4383840163548784, "train/policy_logprob_std": 1.0038372079531352, "train/policy_randomness_mag": 0.8529515233304765, "train/policy_randomness_max": 0.8529515233304765, "train/policy_randomness_mean": 0.13860281743109226, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1688280732681354, "train/post_ent_mag": 50.64510594473945, "train/post_ent_max": 50.64510594473945, "train/post_ent_mean": 35.18666829003228, "train/post_ent_min": 17.4157657623291, "train/post_ent_std": 5.301073677010006, "train/prior_ent_mag": 73.85197152031793, "train/prior_ent_max": 73.85197152031793, "train/prior_ent_mean": 39.63487286037869, "train/prior_ent_min": 21.286864399909973, "train/prior_ent_std": 7.895113242997064, "train/rep_loss_mean": 4.5264780885643425, "train/rep_loss_std": 8.40518089135488, "train/reward_avg": 0.023756238968215056, "train/reward_loss_mean": 0.0425257263187733, "train/reward_loss_std": 0.1941184060027202, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.006174311041832, "train/reward_neg_acc": 0.99564212312301, "train/reward_neg_loss": 0.022430169033921428, "train/reward_pos_acc": 0.9904982265498903, "train/reward_pos_loss": 0.7231070722142855, "train/reward_pred": 0.02371533610858023, "train/reward_rate": 0.028767903645833332, "stats/sum_log_reward": 4.974999904632568, "stats/max_log_achievement_collect_drink": 7.625, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3758701700717211, "replay/size": 119784.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.721316655476888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2578235732184516e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0128164291382, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.3151912689209, "timer/env.step_frac": 0.06771441137321967, "timer/env.step_avg": 0.014107771714528402, "timer/env.step_min": 0.003053426742553711, "timer/env.step_max": 1.7079877853393555, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26598405838012695, "timer/replay.add_frac": 0.0008865756521536849, "timer/replay.add_avg": 0.00018471115165286594, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.005400657653808594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0282137393951416, "timer/logger.write_frac": 9.404178038442425e-05, "timer/logger.write_avg": 0.0282137393951416, "timer/logger.write_min": 0.0282137393951416, "timer/logger.write_max": 0.0282137393951416, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.536129713058472, "timer/agent.policy_frac": 0.035118932045848324, "timer/agent.policy_avg": 0.007316756745179494, "timer/agent.policy_min": 0.005761623382568359, "timer/agent.policy_max": 0.018800020217895508, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06448984146118164, "timer/dataset_frac": 0.00021495695493533651, "timer/dataset_avg": 8.956922425164116e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00026798248291015625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0983350276947, "timer/agent.train_frac": 0.893622939908697, "timer/agent.train_avg": 0.372358798649576, "timer/agent.train_min": 0.3659477233886719, "timer/agent.train_max": 0.3853325843811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216043472290039, "timer/agent.report_frac": 0.0007386496012624379, "timer/agent.report_avg": 0.2216043472290039, "timer/agent.report_min": 0.2216043472290039, "timer/agent.report_max": 0.2216043472290039, "fps": 4.799700458147067}
+{"step": 119962, "episode/length": 221.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03153153153153153}
+{"step": 120288, "episode/length": 325.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.02147239263803681}
+{"step": 120450, "episode/length": 161.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.043209876543209874}
+{"step": 120651, "episode/length": 200.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029850746268656716}
+{"step": 120875, "episode/length": 223.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.900000035762787, "episode/reward_rate": 0.03125}
+{"step": 121069, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030927835051546393}
+{"step": 121280, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531365288628472, "train/action_min": 0.0, "train/action_std": 3.4374835623635187, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046147573480589524, "train/actor_opt_grad_steps": 59735.0, "train/actor_opt_loss": -17.860438315404785, "train/adv_mag": 0.5539071390198337, "train/adv_max": 0.5205292200876607, "train/adv_mean": 0.0015341149319788706, "train/adv_min": -0.46220746594998574, "train/adv_std": 0.0575494231759674, "train/cont_avg": 0.9940456814236112, "train/cont_loss_mean": 0.00016165975849238536, "train/cont_loss_std": 0.005113245613229999, "train/cont_neg_acc": 0.9970679018232558, "train/cont_neg_loss": 0.016863071018639805, "train/cont_pos_acc": 0.999999988410208, "train/cont_pos_loss": 1.3826796057362738e-06, "train/cont_pred": 0.9940703610579172, "train/cont_rate": 0.9940456814236112, "train/dyn_loss_mean": 4.578274839454227, "train/dyn_loss_std": 8.329818427562714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0730911220113437, "train/extr_critic_critic_opt_grad_steps": 59735.0, "train/extr_critic_critic_opt_loss": 15387.383531358508, "train/extr_critic_mag": 6.722590804100037, "train/extr_critic_max": 6.722590804100037, "train/extr_critic_mean": 1.1855111320813496, "train/extr_critic_min": -0.6088247845570246, "train/extr_critic_std": 1.5087762624025345, "train/extr_return_normed_mag": 1.6119323803318872, "train/extr_return_normed_max": 1.6119323803318872, "train/extr_return_normed_mean": 0.3092603064659569, "train/extr_return_normed_min": -0.17527421625951925, "train/extr_return_normed_std": 0.33071519020530915, "train/extr_return_rate": 0.5032651813493835, "train/extr_return_raw_mag": 7.240504523118337, "train/extr_return_raw_max": 7.240504523118337, "train/extr_return_raw_mean": 1.1926294283734427, "train/extr_return_raw_min": -1.0573142088121839, "train/extr_return_raw_std": 1.535536019338502, "train/extr_reward_mag": 1.0260040726926591, "train/extr_reward_max": 1.0260040726926591, "train/extr_reward_mean": 0.02890519958196415, "train/extr_reward_min": -0.6894078999757767, "train/extr_reward_std": 0.17165112909343508, "train/image_loss_mean": 3.052253392007616, "train/image_loss_std": 7.992940207322438, "train/model_loss_mean": 5.8421093755298195, "train/model_loss_std": 11.957390983899435, "train/model_opt_grad_norm": 43.806372218661835, "train/model_opt_grad_steps": 59683.055555555555, "train/model_opt_loss": 7465.33251953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.414024419254727, "train/policy_entropy_max": 2.414024419254727, "train/policy_entropy_mean": 0.3986342065036297, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48041827314429814, "train/policy_logprob_mag": 7.438384003109402, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.397983144554827, "train/policy_logprob_min": -7.438384003109402, "train/policy_logprob_std": 1.0076123707824283, "train/policy_randomness_mag": 0.8520446841915449, "train/policy_randomness_max": 0.8520446841915449, "train/policy_randomness_mean": 0.14070038166311052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16956656840112475, "train/post_ent_mag": 51.174435456593834, "train/post_ent_max": 51.174435456593834, "train/post_ent_mean": 35.52666812472873, "train/post_ent_min": 17.718952775001526, "train/post_ent_std": 5.271505918767717, "train/prior_ent_mag": 73.86651462978787, "train/prior_ent_max": 73.86651462978787, "train/prior_ent_mean": 40.01484510633681, "train/prior_ent_min": 21.491885503133137, "train/prior_ent_std": 7.8183264003859625, "train/rep_loss_mean": 4.578274839454227, "train/rep_loss_std": 8.329818427562714, "train/reward_avg": 0.023098415423495073, "train/reward_loss_mean": 0.04272936227627926, "train/reward_loss_std": 0.19581801268375582, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.006467663579517, "train/reward_neg_acc": 0.9954578396346834, "train/reward_neg_loss": 0.022314068770760462, "train/reward_pos_acc": 0.9856048656834496, "train/reward_pos_loss": 0.744648300939136, "train/reward_pred": 0.02294060604698542, "train/reward_rate": 0.028401692708333332, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 6.333333333333333, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_wood": 6.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.45149161914984387, "replay/size": 121217.0, "replay/inserts": 1433.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.705720176084509e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2788984029652687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0012381076813, "timer/env.step_count": 1433.0, "timer/env.step_total": 19.905460596084595, "timer/env.step_frac": 0.06635126148692695, "timer/env.step_avg": 0.01389076105797948, "timer/env.step_min": 0.0032677650451660156, "timer/env.step_max": 2.6681418418884277, "timer/replay.add_count": 1433.0, "timer/replay.add_total": 0.25709009170532227, "timer/replay.add_frac": 0.0008569634356410334, "timer/replay.add_avg": 0.0001794069027950609, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.002421855926513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0296170711517334, "timer/logger.write_frac": 9.872316307275626e-05, "timer/logger.write_avg": 0.0296170711517334, "timer/logger.write_min": 0.0296170711517334, "timer/logger.write_max": 0.0296170711517334, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004451274871826172, "timer/checkpoint.save_frac": 1.48375216712554e-06, "timer/checkpoint.save_avg": 0.0004451274871826172, "timer/checkpoint.save_min": 0.0004451274871826172, "timer/checkpoint.save_max": 0.0004451274871826172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3518967628479004, "timer/agent.save_frac": 0.0045063039451945725, "timer/agent.save_avg": 1.3518967628479004, "timer/agent.save_min": 1.3518967628479004, "timer/agent.save_max": 1.3518967628479004, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 2.6782243188072146e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1433.0, "timer/agent.policy_total": 11.811359167098999, "timer/agent.policy_frac": 0.0393710347383949, "timer/agent.policy_avg": 0.008242399977040474, "timer/agent.policy_min": 0.005598306655883789, "timer/agent.policy_max": 1.3525631427764893, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06523609161376953, "timer/dataset_frac": 0.00021745274127953412, "timer/dataset_avg": 9.11118597957675e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.2421703338623, "timer/agent.train_frac": 0.8908035580771151, "timer/agent.train_avg": 0.37324325465623226, "timer/agent.train_min": 0.3622620105743408, "timer/agent.train_max": 0.85154128074646, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2170724868774414, "timer/agent.report_frac": 0.000723571970058091, "timer/agent.report_avg": 0.2170724868774414, "timer/agent.report_min": 0.2170724868774414, "timer/agent.report_max": 0.2170724868774414, "fps": 4.776567050081469}
+{"step": 121283, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03271028037383177}
+{"step": 121480, "episode/length": 196.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03553299492385787}
+{"step": 121617, "episode/length": 136.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.029197080291970802}
+{"step": 121825, "episode/length": 207.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03365384615384615}
+{"step": 121874, "episode/length": 48.0, "episode/score": 1.1000000014901161, "episode/sum_abs_reward": 3.100000001490116, "episode/reward_rate": 0.061224489795918366}
+{"step": 122044, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03529411764705882}
+{"step": 122208, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03048780487804878}
+{"step": 122370, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 122546, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028409090909090908}
+{"step": 122706, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025}
+{"step": 122707, "stats/sum_log_reward": 4.29999988079071, "stats/max_log_achievement_collect_drink": 4.9, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_wood": 3.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_table": 0.9, "stats/max_log_achievement_wake_up": 1.3, "stats/mean_log_entropy": 0.33194016069173815, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437095104808539, "train/action_min": 0.0, "train/action_std": 3.3508833663564332, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04668175701943921, "train/actor_opt_grad_steps": 60450.0, "train/actor_opt_loss": -16.510944418504206, "train/adv_mag": 0.5576796451924553, "train/adv_max": 0.5224145210125077, "train/adv_mean": 0.0019673610259418072, "train/adv_min": -0.4715335180222149, "train/adv_std": 0.05811652614617012, "train/cont_avg": 0.994016835387324, "train/cont_loss_mean": 0.0001156723835239819, "train/cont_loss_std": 0.003619861594274944, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.013327000685024706, "train/cont_pos_acc": 0.9999861624878896, "train/cont_pos_loss": 3.6468864743990794e-05, "train/cont_pred": 0.9940308886514583, "train/cont_rate": 0.994016835387324, "train/dyn_loss_mean": 4.429143267618099, "train/dyn_loss_std": 8.321221768016546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0199325815053053, "train/extr_critic_critic_opt_grad_steps": 60450.0, "train/extr_critic_critic_opt_loss": 15299.536985585388, "train/extr_critic_mag": 6.775630608410903, "train/extr_critic_max": 6.775630608410903, "train/extr_critic_mean": 1.2421607131689367, "train/extr_critic_min": -0.6250331049234095, "train/extr_critic_std": 1.5253921596097275, "train/extr_return_normed_mag": 1.6227530459283104, "train/extr_return_normed_max": 1.6227530459283104, "train/extr_return_normed_mean": 0.3180713951587677, "train/extr_return_normed_min": -0.1664064040696117, "train/extr_return_normed_std": 0.3344837645409812, "train/extr_return_rate": 0.5153426024275767, "train/extr_return_raw_mag": 7.319062924720872, "train/extr_return_raw_max": 7.319062924720872, "train/extr_return_raw_mean": 1.25129827647142, "train/extr_return_raw_min": -1.0022670080963993, "train/extr_return_raw_std": 1.5557590823777965, "train/extr_reward_mag": 1.022369149705054, "train/extr_reward_max": 1.022369149705054, "train/extr_reward_mean": 0.031408459761402975, "train/extr_reward_min": -0.6782255961861409, "train/extr_reward_std": 0.17767722568881344, "train/image_loss_mean": 2.8596967693785547, "train/image_loss_std": 7.834306273661869, "train/model_loss_mean": 5.560010443271046, "train/model_loss_std": 11.778281379753436, "train/model_opt_grad_norm": 40.56132117795273, "train/model_opt_grad_steps": 60397.66197183099, "train/model_opt_loss": 8257.202588578346, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.389280315855859, "train/policy_entropy_max": 2.389280315855859, "train/policy_entropy_mean": 0.38544592597115207, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4709752088701221, "train/policy_logprob_mag": 7.438383968783096, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3848596538456393, "train/policy_logprob_min": -7.438383968783096, "train/policy_logprob_std": 0.9977521778832019, "train/policy_randomness_mag": 0.8433110982599393, "train/policy_randomness_max": 0.8433110982599393, "train/policy_randomness_mean": 0.13604549738303037, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16623357840826813, "train/post_ent_mag": 51.41366544911559, "train/post_ent_max": 51.41366544911559, "train/post_ent_mean": 35.61154905507262, "train/post_ent_min": 17.4223651751666, "train/post_ent_std": 5.369304656982422, "train/prior_ent_mag": 74.00806330291319, "train/prior_ent_max": 74.00806330291319, "train/prior_ent_mean": 40.02280103656608, "train/prior_ent_min": 21.371112944374623, "train/prior_ent_std": 7.847251623449191, "train/rep_loss_mean": 4.429143267618099, "train/rep_loss_std": 8.321221768016546, "train/reward_avg": 0.02443606937697656, "train/reward_loss_mean": 0.042712070861122976, "train/reward_loss_std": 0.1876096388613674, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0098702319910828, "train/reward_neg_acc": 0.9957064759563392, "train/reward_neg_loss": 0.02176988865970306, "train/reward_pos_acc": 0.9855318245753436, "train/reward_pos_loss": 0.7292392186715569, "train/reward_pred": 0.024298121437797665, "train/reward_rate": 0.02969575264084507, "replay/size": 122644.0, "replay/inserts": 1427.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7286527188574423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2803311441458908e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.9054036140442, "timer/env.step_count": 1427.0, "timer/env.step_total": 23.352482080459595, "timer/env.step_frac": 0.07760738690626047, "timer/env.step_avg": 0.01636473866885746, "timer/env.step_min": 0.003049612045288086, "timer/env.step_max": 1.7363216876983643, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2569398880004883, "timer/replay.add_frac": 0.0008538892453059826, "timer/replay.add_avg": 0.00018005598318184183, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0030117034912109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02850031852722168, "timer/logger.write_frac": 9.471521011227025e-05, "timer/logger.write_avg": 0.02850031852722168, "timer/logger.write_min": 0.02850031852722168, "timer/logger.write_max": 0.02850031852722168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 10.508564949035645, "timer/agent.policy_frac": 0.03492315133866601, "timer/agent.policy_avg": 0.007364095969891832, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 0.0176239013671875, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06595373153686523, "timer/dataset_frac": 0.00021918427101914287, "timer/dataset_avg": 9.237217302081965e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.9846489429474, "timer/agent.train_frac": 0.8839477315738475, "timer/agent.train_avg": 0.3725275195279375, "timer/agent.train_min": 0.3657801151275635, "timer/agent.train_max": 0.3860187530517578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063899040222168, "timer/agent.report_frac": 0.000733250342972318, "timer/agent.report_avg": 0.22063899040222168, "timer/agent.report_min": 0.22063899040222168, "timer/agent.report_max": 0.22063899040222168, "fps": 4.742285076861898}
+{"step": 122873, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
+{"step": 123055, "episode/length": 181.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027472527472527472}
+{"step": 123208, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
+{"step": 123255, "episode/length": 46.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.0851063829787234}
+{"step": 123461, "episode/length": 205.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.02912621359223301}
+{"step": 123626, "episode/length": 164.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.024242424242424242}
+{"step": 123797, "episode/length": 170.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.023391812865497075}
+{"step": 123936, "episode/length": 138.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02877697841726619}
+{"step": 124135, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04020100502512563}
+{"step": 124137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557164151903609, "train/action_min": 0.0, "train/action_std": 3.447897128655877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04702386333489082, "train/actor_opt_grad_steps": 61160.0, "train/actor_opt_loss": -16.828142947084466, "train/adv_mag": 0.5794145695760217, "train/adv_max": 0.5527547874920805, "train/adv_mean": 0.0021576859091997184, "train/adv_min": -0.4538938512264843, "train/adv_std": 0.058765849754424164, "train/cont_avg": 0.9943882042253521, "train/cont_loss_mean": 0.00014492122861242996, "train/cont_loss_std": 0.004440620212208992, "train/cont_neg_acc": 0.995171027284273, "train/cont_neg_loss": 0.007466166614417296, "train/cont_pos_acc": 0.9999723526793467, "train/cont_pos_loss": 0.0001040018293973793, "train/cont_pred": 0.9943737673087859, "train/cont_rate": 0.9943882042253521, "train/dyn_loss_mean": 4.420520654866393, "train/dyn_loss_std": 8.352584200845637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0480234102464059, "train/extr_critic_critic_opt_grad_steps": 61160.0, "train/extr_critic_critic_opt_loss": 15302.262764084508, "train/extr_critic_mag": 6.7660851277096175, "train/extr_critic_max": 6.7660851277096175, "train/extr_critic_mean": 1.218764325262795, "train/extr_critic_min": -0.607877942877756, "train/extr_critic_std": 1.506124629101283, "train/extr_return_normed_mag": 1.6370133698826106, "train/extr_return_normed_max": 1.6370133698826106, "train/extr_return_normed_mean": 0.3085350774123635, "train/extr_return_normed_min": -0.18121088799876225, "train/extr_return_normed_std": 0.33211619396444775, "train/extr_return_rate": 0.5021567138987528, "train/extr_return_raw_mag": 7.374528320742325, "train/extr_return_raw_max": 7.374528320742325, "train/extr_return_raw_mean": 1.228727208896422, "train/extr_return_raw_min": -1.0377014606771335, "train/extr_return_raw_std": 1.5367744069703868, "train/extr_reward_mag": 1.0270165456852443, "train/extr_reward_max": 1.0270165456852443, "train/extr_reward_mean": 0.030796646520915166, "train/extr_reward_min": -0.6845947671943987, "train/extr_reward_std": 0.1768256684004421, "train/image_loss_mean": 2.8445444577176806, "train/image_loss_std": 7.769469261169434, "train/model_loss_mean": 5.537648933034547, "train/model_loss_std": 11.778723837624133, "train/model_opt_grad_norm": 39.88729039044448, "train/model_opt_grad_steps": 61107.0, "train/model_opt_loss": 6922.061124559859, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4272713224652787, "train/policy_entropy_max": 2.4272713224652787, "train/policy_entropy_mean": 0.40554234301540215, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4926316633190907, "train/policy_logprob_mag": 7.438383881474884, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40525862028901005, "train/policy_logprob_min": -7.438383881474884, "train/policy_logprob_std": 1.015720224716294, "train/policy_randomness_mag": 0.8567202578128224, "train/policy_randomness_max": 0.8567202578128224, "train/policy_randomness_mean": 0.14313864917822286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17387735927608652, "train/post_ent_mag": 51.435196406404735, "train/post_ent_max": 51.435196406404735, "train/post_ent_mean": 35.85754437513754, "train/post_ent_min": 17.552454357415858, "train/post_ent_std": 5.458842129774497, "train/prior_ent_mag": 74.02527586171325, "train/prior_ent_max": 74.02527586171325, "train/prior_ent_mean": 40.224107822901765, "train/prior_ent_min": 21.08552750063614, "train/prior_ent_std": 7.864453302302831, "train/rep_loss_mean": 4.420520654866393, "train/rep_loss_std": 8.352584200845637, "train/reward_avg": 0.023755226559727123, "train/reward_loss_mean": 0.0406472048866497, "train/reward_loss_std": 0.17994130528728727, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0126805842762263, "train/reward_neg_acc": 0.995938411900695, "train/reward_neg_loss": 0.020185785381202127, "train/reward_pos_acc": 0.9869093659897925, "train/reward_pos_loss": 0.7325031908465104, "train/reward_pred": 0.023556417129723957, "train/reward_rate": 0.02871919014084507, "stats/sum_log_reward": 4.099999904632568, "stats/max_log_achievement_collect_drink": 4.111111111111111, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3569720387458801, "replay/size": 124074.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.7768504002711156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2465498664162376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0702567100525, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.84812092781067, "timer/env.step_frac": 0.07281001845151801, "timer/env.step_avg": 0.015278406243224244, "timer/env.step_min": 0.0029630661010742188, "timer/env.step_max": 1.7133214473724365, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2653384208679199, "timer/replay.add_frac": 0.0008842543202284365, "timer/replay.add_avg": 0.00018555134326427966, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0025153160095214844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02789616584777832, "timer/logger.write_frac": 9.296544800417663e-05, "timer/logger.write_avg": 0.02789616584777832, "timer/logger.write_min": 0.02789616584777832, "timer/logger.write_max": 0.02789616584777832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.533854246139526, "timer/agent.policy_frac": 0.03510462636861082, "timer/agent.policy_avg": 0.007366331640657011, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.021191120147705078, "timer/dataset_count": 715.0, "timer/dataset_total": 0.0652775764465332, "timer/dataset_frac": 0.0002175409757775782, "timer/dataset_avg": 9.129730971543105e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002989768981933594, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.62808299064636, "timer/agent.train_frac": 0.8885521874574855, "timer/agent.train_avg": 0.3729064097771278, "timer/agent.train_min": 0.36669492721557617, "timer/agent.train_max": 0.3867778778076172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200634479522705, "timer/agent.report_frac": 0.0007333730785750958, "timer/agent.report_avg": 0.2200634479522705, "timer/agent.report_min": 0.2200634479522705, "timer/agent.report_max": 0.2200634479522705, "fps": 4.765487788164001}
+{"step": 124286, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.039735099337748346}
+{"step": 124486, "episode/length": 199.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.035}
+{"step": 124689, "episode/length": 202.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.029556650246305417}
+{"step": 124868, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03910614525139665}
+{"step": 125141, "episode/length": 272.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02197802197802198}
+{"step": 125287, "episode/length": 145.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0273972602739726}
+{"step": 125387, "episode/length": 99.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.04}
+{"step": 125555, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
+{"step": 125556, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56299687775088, "train/action_min": 0.0, "train/action_std": 3.433889603950608, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04925648889071505, "train/actor_opt_grad_steps": 61870.0, "train/actor_opt_loss": -14.200045090326121, "train/adv_mag": 0.5817258630839872, "train/adv_max": 0.567161244405827, "train/adv_mean": 0.00260253251459725, "train/adv_min": -0.476896755292382, "train/adv_std": 0.060588557850307145, "train/cont_avg": 0.9937555017605634, "train/cont_loss_mean": 4.1963589030152614e-05, "train/cont_loss_std": 0.0011581059215785272, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.003610168211887124, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4851793380698773e-05, "train/cont_pred": 0.9937626140218385, "train/cont_rate": 0.9937555017605634, "train/dyn_loss_mean": 4.449571011771618, "train/dyn_loss_std": 8.322739419802813, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0504386567733657, "train/extr_critic_critic_opt_grad_steps": 61870.0, "train/extr_critic_critic_opt_loss": 15502.711845290492, "train/extr_critic_mag": 6.685837329273492, "train/extr_critic_max": 6.685837329273492, "train/extr_critic_mean": 1.2005796172249485, "train/extr_critic_min": -0.6332106707801282, "train/extr_critic_std": 1.5000535451190573, "train/extr_return_normed_mag": 1.6500596395680602, "train/extr_return_normed_max": 1.6500596395680602, "train/extr_return_normed_mean": 0.3107517659664154, "train/extr_return_normed_min": -0.16396298479865973, "train/extr_return_normed_std": 0.3339451016254828, "train/extr_return_rate": 0.5013772987983596, "train/extr_return_raw_mag": 7.351752099856524, "train/extr_return_raw_max": 7.351752099856524, "train/extr_return_raw_mean": 1.2124937294234692, "train/extr_return_raw_min": -0.9635017690524249, "train/extr_return_raw_std": 1.5308344061945525, "train/extr_reward_mag": 1.0236381040492528, "train/extr_reward_max": 1.0236381040492528, "train/extr_reward_mean": 0.03057786163834619, "train/extr_reward_min": -0.6923299927107045, "train/extr_reward_std": 0.17832712850100557, "train/image_loss_mean": 2.880798561472288, "train/image_loss_std": 7.454724305112597, "train/model_loss_mean": 5.593054999767895, "train/model_loss_std": 11.44050505463506, "train/model_opt_grad_norm": 40.788236752362316, "train/model_opt_grad_steps": 61816.32394366197, "train/model_opt_loss": 8721.432355853873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1566.9014084507041, "train/policy_entropy_mag": 2.4059908793006146, "train/policy_entropy_max": 2.4059908793006146, "train/policy_entropy_mean": 0.3985635990827856, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4833351188982037, "train/policy_logprob_mag": 7.438383955351064, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.397415923820415, "train/policy_logprob_min": -7.438383955351064, "train/policy_logprob_std": 1.006725553895386, "train/policy_randomness_mag": 0.8492091952914923, "train/policy_randomness_max": 0.8492091952914923, "train/policy_randomness_mean": 0.14067546099844114, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.170596085593734, "train/post_ent_mag": 51.71557735389387, "train/post_ent_max": 51.71557735389387, "train/post_ent_mean": 35.904639176919424, "train/post_ent_min": 17.666620818661972, "train/post_ent_std": 5.455711599806665, "train/prior_ent_mag": 74.10614712137571, "train/prior_ent_max": 74.10614712137571, "train/prior_ent_mean": 40.323156061306804, "train/prior_ent_min": 21.5284411470655, "train/prior_ent_std": 7.902711082512225, "train/rep_loss_mean": 4.449571011771618, "train/rep_loss_std": 8.322739419802813, "train/reward_avg": 0.02399180211703962, "train/reward_loss_mean": 0.04247185768900623, "train/reward_loss_std": 0.18292383251475616, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.011407821950778, "train/reward_neg_acc": 0.9954525207130003, "train/reward_neg_loss": 0.021659909642603194, "train/reward_pos_acc": 0.9895894116079303, "train/reward_pos_loss": 0.7266306541335414, "train/reward_pred": 0.02382512576878071, "train/reward_rate": 0.029558208626760563, "stats/sum_log_reward": 4.849999934434891, "stats/max_log_achievement_collect_drink": 7.125, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 4.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.40795154869556427, "replay/size": 125493.0, "replay/inserts": 1419.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.7125418772573115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2615545848528992e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.48602843284607, "timer/env.step_count": 1419.0, "timer/env.step_total": 20.405996322631836, "timer/env.step_frac": 0.06790996715906296, "timer/env.step_avg": 0.014380547091354359, "timer/env.step_min": 0.002819538116455078, "timer/env.step_max": 1.7287392616271973, "timer/replay.add_count": 1419.0, "timer/replay.add_total": 0.2462301254272461, "timer/replay.add_frac": 0.0008194395150797325, "timer/replay.add_avg": 0.0001735236965660649, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0013885498046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027685165405273438, "timer/logger.write_frac": 9.213461787112888e-05, "timer/logger.write_avg": 0.027685165405273438, "timer/logger.write_min": 0.027685165405273438, "timer/logger.write_max": 0.027685165405273438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005598068237304688, "timer/checkpoint.save_frac": 1.8630045019067396e-06, "timer/checkpoint.save_avg": 0.0005598068237304688, "timer/checkpoint.save_min": 0.0005598068237304688, "timer/checkpoint.save_max": 0.0005598068237304688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3517677783966064, "timer/agent.save_frac": 0.004498604429119757, "timer/agent.save_avg": 1.3517677783966064, "timer/agent.save_min": 1.3517677783966064, "timer/agent.save_max": 1.3517677783966064, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.96453857421875e-05, "timer/replay.save_frac": 2.9833462211113034e-07, "timer/replay.save_avg": 8.96453857421875e-05, "timer/replay.save_min": 8.96453857421875e-05, "timer/replay.save_max": 8.96453857421875e-05, "timer/agent.policy_count": 1419.0, "timer/agent.policy_total": 14.913532257080078, "timer/agent.policy_frac": 0.04963136667238763, "timer/agent.policy_avg": 0.01050988883515157, "timer/agent.policy_min": 0.005769014358520508, "timer/agent.policy_max": 3.1823506355285645, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06413102149963379, "timer/dataset_frac": 0.00021342430406532553, "timer/dataset_avg": 9.045278067649336e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.1350507736206, "timer/agent.train_frac": 0.8790260637114802, "timer/agent.train_avg": 0.37254591082316024, "timer/agent.train_min": 0.3618001937866211, "timer/agent.train_max": 0.383685827255249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22107338905334473, "timer/agent.report_frac": 0.0007357193617497966, "timer/agent.report_avg": 0.22107338905334473, "timer/agent.report_min": 0.22107338905334473, "timer/agent.report_max": 0.22107338905334473, "fps": 4.722260366414867}
+{"step": 125765, "episode/length": 209.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.0380952380952381}
+{"step": 125918, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
+{"step": 126192, "episode/length": 273.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 8.1000000461936, "episode/reward_rate": 0.021897810218978103}
+{"step": 126347, "episode/length": 154.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03870967741935484}
+{"step": 126557, "episode/length": 209.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.500000007450581, "episode/reward_rate": 0.02857142857142857}
+{"step": 126741, "episode/length": 183.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.03260869565217391}
+{"step": 126896, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
+{"step": 127003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.632014026380565, "train/action_min": 0.0, "train/action_std": 3.47521621886998, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04836472572937404, "train/actor_opt_grad_steps": 62590.0, "train/actor_opt_loss": -15.00313917088182, "train/adv_mag": 0.5963246981575064, "train/adv_max": 0.5627278273236261, "train/adv_mean": 0.0029320244021332595, "train/adv_min": -0.47908865670635276, "train/adv_std": 0.05992043084681851, "train/cont_avg": 0.9940336044520548, "train/cont_loss_mean": 1.4683785151372495e-05, "train/cont_loss_std": 0.00036437462334835226, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010585408502215802, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 7.3809855861831964e-06, "train/cont_pred": 0.9940333284743844, "train/cont_rate": 0.9940336044520548, "train/dyn_loss_mean": 4.576010815084797, "train/dyn_loss_std": 8.368074711054971, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0744042159759835, "train/extr_critic_critic_opt_grad_steps": 62590.0, "train/extr_critic_critic_opt_loss": 15459.679312928081, "train/extr_critic_mag": 6.796250140830262, "train/extr_critic_max": 6.796250140830262, "train/extr_critic_mean": 1.2289307958459201, "train/extr_critic_min": -0.6178650594737432, "train/extr_critic_std": 1.524836872538475, "train/extr_return_normed_mag": 1.6796759726250008, "train/extr_return_normed_max": 1.6796759726250008, "train/extr_return_normed_mean": 0.3170714108911279, "train/extr_return_normed_min": -0.1545293132123882, "train/extr_return_normed_std": 0.340386177374892, "train/extr_return_rate": 0.5015125838044572, "train/extr_return_raw_mag": 7.493889064004977, "train/extr_return_raw_max": 7.493889064004977, "train/extr_return_raw_mean": 1.2423781393325493, "train/extr_return_raw_min": -0.9208054403736167, "train/extr_return_raw_std": 1.5617574763624635, "train/extr_reward_mag": 1.01833625362344, "train/extr_reward_max": 1.01833625362344, "train/extr_reward_mean": 0.03125365546662105, "train/extr_reward_min": -0.6766780108621676, "train/extr_reward_std": 0.17748542160612263, "train/image_loss_mean": 2.943843557410044, "train/image_loss_std": 7.993889612694309, "train/model_loss_mean": 5.734190751428473, "train/model_loss_std": 12.021925847824306, "train/model_opt_grad_norm": 43.56257302793738, "train/model_opt_grad_steps": 62535.849315068495, "train/model_opt_loss": 8118.644986087329, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.4094869371962875, "train/policy_entropy_max": 2.4094869371962875, "train/policy_entropy_mean": 0.39205274802364715, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4824343433935348, "train/policy_logprob_mag": 7.438383938515023, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39188840454571866, "train/policy_logprob_min": -7.438383938515023, "train/policy_logprob_std": 1.0051884855309579, "train/policy_randomness_mag": 0.8504431533486876, "train/policy_randomness_max": 0.8504431533486876, "train/policy_randomness_mean": 0.13837741458252684, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1702781515578701, "train/post_ent_mag": 51.88381764660143, "train/post_ent_max": 51.88381764660143, "train/post_ent_mean": 35.942403976231404, "train/post_ent_min": 18.236933995599617, "train/post_ent_std": 5.3635231958676695, "train/prior_ent_mag": 74.21124267578125, "train/prior_ent_max": 74.21124267578125, "train/prior_ent_mean": 40.442723261166925, "train/prior_ent_min": 22.27283318402016, "train/prior_ent_std": 7.845802718645905, "train/rep_loss_mean": 4.576010815084797, "train/rep_loss_std": 8.368074711054971, "train/reward_avg": 0.02423614065787972, "train/reward_loss_mean": 0.04472600428821289, "train/reward_loss_std": 0.2033293994322215, "train/reward_max_data": 1.0068493167014971, "train/reward_max_pred": 1.0074127275649816, "train/reward_neg_acc": 0.9952595307402414, "train/reward_neg_loss": 0.02322336091111376, "train/reward_pos_acc": 0.9809384590958896, "train/reward_pos_loss": 0.755814113029062, "train/reward_pred": 0.023959240429613688, "train/reward_rate": 0.029457405821917807, "stats/sum_log_reward": 4.9571428298950195, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 5.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3021093202488763, "replay/size": 126940.0, "replay/inserts": 1447.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.72572281316139e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582013620197443e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16506576538086, "timer/env.step_count": 1447.0, "timer/env.step_total": 18.885843992233276, "timer/env.step_frac": 0.06291819450766829, "timer/env.step_avg": 0.013051723560631152, "timer/env.step_min": 0.002991914749145508, "timer/env.step_max": 1.7780375480651855, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.25838804244995117, "timer/replay.add_frac": 0.0008608198352166537, "timer/replay.add_avg": 0.00017856810120936501, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.003346681594848633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028710365295410156, "timer/logger.write_frac": 9.564858995900324e-05, "timer/logger.write_avg": 0.028710365295410156, "timer/logger.write_min": 0.028710365295410156, "timer/logger.write_max": 0.028710365295410156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.542052745819092, "timer/agent.policy_frac": 0.03512085165186783, "timer/agent.policy_avg": 0.00728545455827166, "timer/agent.policy_min": 0.005612373352050781, "timer/agent.policy_max": 0.020468473434448242, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06513547897338867, "timer/dataset_frac": 0.0002169988662981213, "timer/dataset_avg": 8.996613117871363e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00016498565673828125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6882004737854, "timer/agent.train_frac": 0.898466314812873, "timer/agent.train_avg": 0.37249751446655444, "timer/agent.train_min": 0.36377716064453125, "timer/agent.train_max": 0.38587331771850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2167527675628662, "timer/agent.report_frac": 0.0007221119053617235, "timer/agent.report_avg": 0.2167527675628662, "timer/agent.report_min": 0.2167527675628662, "timer/agent.report_max": 0.2167527675628662, "fps": 4.820604096845331}
+{"step": 127053, "episode/length": 156.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025477707006369428}
+{"step": 127246, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03626943005181347}
+{"step": 127414, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03571428571428571}
+{"step": 127575, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043478260869565216}
+{"step": 127738, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.04294478527607362}
+{"step": 127951, "episode/length": 212.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03755868544600939}
+{"step": 128129, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.028089887640449437}
+{"step": 128182, "episode/length": 52.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.07547169811320754}
+{"step": 128397, "episode/length": 214.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.900000043213367, "episode/reward_rate": 0.03255813953488372}
+{"step": 128435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.626626457966549, "train/action_min": 0.0, "train/action_std": 3.5075808108692437, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048251719332077135, "train/actor_opt_grad_steps": 63310.0, "train/actor_opt_loss": -13.515486174486053, "train/adv_mag": 0.5540951570154915, "train/adv_max": 0.5218180480977179, "train/adv_mean": 0.0030849569102685283, "train/adv_min": -0.45675817803597785, "train/adv_std": 0.058774039936317524, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 1.7226612280576863e-05, "train/cont_loss_std": 0.00048514603673125545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008550924070809294, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.1592760452051895e-05, "train/cont_pred": 0.9942731697794417, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 4.537697832349321, "train/dyn_loss_std": 8.396613671746053, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0587161577923196, "train/extr_critic_critic_opt_grad_steps": 63310.0, "train/extr_critic_critic_opt_loss": 15576.744415713029, "train/extr_critic_mag": 6.960511906046263, "train/extr_critic_max": 6.960511906046263, "train/extr_critic_mean": 1.2014215445854295, "train/extr_critic_min": -0.6126947436534184, "train/extr_critic_std": 1.5210484434181535, "train/extr_return_normed_mag": 1.6593858490527515, "train/extr_return_normed_max": 1.6593858490527515, "train/extr_return_normed_mean": 0.3118720037836424, "train/extr_return_normed_min": -0.16427063228378833, "train/extr_return_normed_std": 0.33570045610548743, "train/extr_return_rate": 0.5035660837737608, "train/extr_return_raw_mag": 7.462240232548243, "train/extr_return_raw_max": 7.462240232548243, "train/extr_return_raw_mean": 1.215714460527393, "train/extr_return_raw_min": -0.990460475565682, "train/extr_return_raw_std": 1.5562043341112808, "train/extr_reward_mag": 1.015630087382357, "train/extr_reward_max": 1.015630087382357, "train/extr_reward_mean": 0.030092936179692477, "train/extr_reward_min": -0.6813908043042035, "train/extr_reward_std": 0.17528150597928274, "train/image_loss_mean": 3.0062208948001055, "train/image_loss_std": 7.819556840708558, "train/model_loss_mean": 5.771559977195632, "train/model_loss_std": 11.826386203228587, "train/model_opt_grad_norm": 42.20877145041882, "train/model_opt_grad_steps": 63255.0, "train/model_opt_loss": 7214.44999587368, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4033446983552316, "train/policy_entropy_max": 2.4033446983552316, "train/policy_entropy_mean": 0.40399529774424053, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.494873004060396, "train/policy_logprob_mag": 7.438384069523341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40473037580369225, "train/policy_logprob_min": -7.438384069523341, "train/policy_logprob_std": 1.0134670902305924, "train/policy_randomness_mag": 0.8482752089769068, "train/policy_randomness_max": 0.8482752089769068, "train/policy_randomness_mean": 0.14259260976818247, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17466845478810056, "train/post_ent_mag": 51.82374400823888, "train/post_ent_max": 51.82374400823888, "train/post_ent_mean": 36.14491868354905, "train/post_ent_min": 17.83403528240365, "train/post_ent_std": 5.3776106632931135, "train/prior_ent_mag": 74.15698403371891, "train/prior_ent_max": 74.15698403371891, "train/prior_ent_mean": 40.61845671962684, "train/prior_ent_min": 21.888196622821646, "train/prior_ent_std": 7.745304033789836, "train/rep_loss_mean": 4.537697832349321, "train/rep_loss_std": 8.396613671746053, "train/reward_avg": 0.023136278443877965, "train/reward_loss_mean": 0.042703152830961724, "train/reward_loss_std": 0.19404979029171904, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0072768574029627, "train/reward_neg_acc": 0.9953020802685912, "train/reward_neg_loss": 0.02198238721983114, "train/reward_pos_acc": 0.9824708767340217, "train/reward_pos_loss": 0.7526129652077044, "train/reward_pred": 0.022864568230866546, "train/reward_rate": 0.02849911971830986, "stats/sum_log_reward": 5.099999957614475, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_wood": 6.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.28293607301182216, "replay/size": 128372.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.6823349958025543e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2763801899702189e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2563271522522, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.013906717300415, "timer/env.step_frac": 0.07331704522628672, "timer/env.step_avg": 0.015372839886382971, "timer/env.step_min": 0.0032148361206054688, "timer/env.step_max": 1.7287464141845703, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25326085090637207, "timer/replay.add_frac": 0.0008434821451004763, "timer/replay.add_avg": 0.0001768581361078017, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0023145675659179688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029720306396484375, "timer/logger.write_frac": 9.898311445544985e-05, "timer/logger.write_avg": 0.029720306396484375, "timer/logger.write_min": 0.029720306396484375, "timer/logger.write_max": 0.029720306396484375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.499017238616943, "timer/agent.policy_frac": 0.034966847620477165, "timer/agent.policy_avg": 0.007331715948754849, "timer/agent.policy_min": 0.005654573440551758, "timer/agent.policy_max": 0.016590595245361328, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06466889381408691, "timer/dataset_frac": 0.00021537895446677798, "timer/dataset_avg": 9.031968409788675e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6966552734375, "timer/agent.train_frac": 0.8882299260864619, "timer/agent.train_avg": 0.3724813621137395, "timer/agent.train_min": 0.36560893058776855, "timer/agent.train_max": 0.38683438301086426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21859431266784668, "timer/agent.report_frac": 0.0007280256664067004, "timer/agent.report_avg": 0.21859431266784668, "timer/agent.report_min": 0.21859431266784668, "timer/agent.report_max": 0.21859431266784668, "fps": 4.769180463555486}
+{"step": 128574, "episode/length": 176.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02824858757062147}
+{"step": 128727, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
+{"step": 128881, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.032467532467532464}
+{"step": 129118, "episode/length": 236.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03375527426160337}
+{"step": 129369, "episode/length": 250.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.02390438247011952}
+{"step": 129562, "episode/length": 192.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.02072538860103627}
+{"step": 129797, "episode/length": 234.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 7.500000059604645, "episode/reward_rate": 0.02127659574468085}
+{"step": 129861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708617316351996, "train/action_min": 0.0, "train/action_std": 3.628466741906272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04749644728791383, "train/actor_opt_grad_steps": 64025.0, "train/actor_opt_loss": -14.881168963594568, "train/adv_mag": 0.5421467311680317, "train/adv_max": 0.5144058023062017, "train/adv_mean": 0.002217463093630714, "train/adv_min": -0.43851741237772834, "train/adv_std": 0.05660910909581515, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 2.0509145340636475e-05, "train/cont_loss_std": 0.0005462534572113024, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010125353243337384, "train/cont_pos_acc": 0.999999988410208, "train/cont_pos_loss": 1.5902188839807725e-05, "train/cont_pred": 0.9946872169772784, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.369761702087191, "train/dyn_loss_std": 8.263380646705627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0249710861179564, "train/extr_critic_critic_opt_grad_steps": 64025.0, "train/extr_critic_critic_opt_loss": 15352.290052625867, "train/extr_critic_mag": 6.911141051186456, "train/extr_critic_max": 6.911141051186456, "train/extr_critic_mean": 1.2146046782533328, "train/extr_critic_min": -0.5868057062228521, "train/extr_critic_std": 1.5473898963795767, "train/extr_return_normed_mag": 1.616596104370223, "train/extr_return_normed_max": 1.616596104370223, "train/extr_return_normed_mean": 0.3077866697890891, "train/extr_return_normed_min": -0.14494481144679916, "train/extr_return_normed_std": 0.3307824652228091, "train/extr_return_rate": 0.5029921072224776, "train/extr_return_raw_mag": 7.4615824818611145, "train/extr_return_raw_max": 7.4615824818611145, "train/extr_return_raw_mean": 1.2251766348878543, "train/extr_return_raw_min": -0.9317965441279941, "train/extr_return_raw_std": 1.5764083299371932, "train/extr_reward_mag": 1.0156933301024966, "train/extr_reward_max": 1.0156933301024966, "train/extr_reward_mean": 0.029899797725698188, "train/extr_reward_min": -0.6599815338850021, "train/extr_reward_std": 0.17319499380472633, "train/image_loss_mean": 2.7112766669856176, "train/image_loss_std": 7.36502484149403, "train/model_loss_mean": 5.374484671486749, "train/model_loss_std": 11.322963025834826, "train/model_opt_grad_norm": 40.19221482012007, "train/model_opt_grad_steps": 63969.541666666664, "train/model_opt_loss": 8690.750678168402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1614.5833333333333, "train/policy_entropy_mag": 2.4149951371881695, "train/policy_entropy_max": 2.4149951371881695, "train/policy_entropy_mean": 0.4312574176324738, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5195291605260637, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43037426844239235, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0295405007070966, "train/policy_randomness_mag": 0.8523873032795058, "train/policy_randomness_max": 0.8523873032795058, "train/policy_randomness_mean": 0.1522149427069558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18337099647356403, "train/post_ent_mag": 52.01428884930081, "train/post_ent_max": 52.01428884930081, "train/post_ent_mean": 36.34792847103543, "train/post_ent_min": 17.46251736746894, "train/post_ent_std": 5.4512136114968195, "train/prior_ent_mag": 74.16634856330023, "train/prior_ent_max": 74.16634856330023, "train/prior_ent_mean": 40.6437267197503, "train/prior_ent_min": 22.40428180164761, "train/prior_ent_std": 7.712160302533044, "train/rep_loss_mean": 4.369761702087191, "train/rep_loss_std": 8.263380646705627, "train/reward_avg": 0.022820366772874776, "train/reward_loss_mean": 0.04133045137859881, "train/reward_loss_std": 0.1850661225616932, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0055459174844954, "train/reward_neg_acc": 0.994698746336831, "train/reward_neg_loss": 0.02125473940072374, "train/reward_pos_acc": 0.985706110795339, "train/reward_pos_loss": 0.7453385293483734, "train/reward_pred": 0.02261604582114766, "train/reward_rate": 0.027750651041666668, "stats/sum_log_reward": 4.242857047489712, "stats/max_log_achievement_collect_drink": 16.142857142857142, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_wood": 4.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3586610427924565, "replay/size": 129798.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7289267669720536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2676645629369192e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29942059516907, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.580111503601074, "timer/env.step_frac": 0.06187195255580847, "timer/env.step_avg": 0.013029531208696406, "timer/env.step_min": 0.0027587413787841797, "timer/env.step_max": 1.6453056335449219, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2974085807800293, "timer/replay.add_frac": 0.0009903734752154687, "timer/replay.add_avg": 0.00020856141709679475, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.007220268249511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028150558471679688, "timer/logger.write_frac": 9.374163431913244e-05, "timer/logger.write_avg": 0.028150558471679688, "timer/logger.write_min": 0.028150558471679688, "timer/logger.write_max": 0.028150558471679688, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034737586975097656, "timer/checkpoint.save_frac": 1.1567650349191676e-06, "timer/checkpoint.save_avg": 0.00034737586975097656, "timer/checkpoint.save_min": 0.00034737586975097656, "timer/checkpoint.save_max": 0.00034737586975097656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.427253246307373, "timer/agent.save_frac": 0.004752767233045848, "timer/agent.save_avg": 1.427253246307373, "timer/agent.save_min": 1.427253246307373, "timer/agent.save_max": 1.427253246307373, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.1436277242839757e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 15.036933183670044, "timer/agent.policy_frac": 0.050073134186766205, "timer/agent.policy_avg": 0.010544833929642387, "timer/agent.policy_min": 0.005756855010986328, "timer/agent.policy_max": 3.263246536254883, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06586432456970215, "timer/dataset_frac": 0.00021932884332298878, "timer/dataset_avg": 9.237633179481367e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0003001689910888672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.58804535865784, "timer/agent.train_frac": 0.8844107818532713, "timer/agent.train_avg": 0.3724937522561821, "timer/agent.train_min": 0.3663334846496582, "timer/agent.train_max": 0.3865644931793213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21958208084106445, "timer/agent.report_frac": 0.0007312104712219245, "timer/agent.report_avg": 0.21958208084106445, "timer/agent.report_min": 0.21958208084106445, "timer/agent.report_max": 0.21958208084106445, "fps": 4.748502420064216}
+{"step": 129966, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 130152, "episode/length": 185.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.026881720430107527}
+{"step": 130328, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
+{"step": 130498, "episode/length": 169.0, "episode/score": 6.100000016391277, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.041176470588235294}
+{"step": 130672, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
+{"step": 130853, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03314917127071823}
+{"step": 131061, "episode/length": 207.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.028846153846153848}
+{"step": 131226, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.030303030303030304}
+{"step": 131301, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.579027811686198, "train/action_min": 0.0, "train/action_std": 3.584817389647166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048932965327468186, "train/actor_opt_grad_steps": 64745.0, "train/actor_opt_loss": -15.264385742445787, "train/adv_mag": 0.5768900257017877, "train/adv_max": 0.5451118416256375, "train/adv_mean": 0.0022230018515306447, "train/adv_min": -0.4489418545530902, "train/adv_std": 0.058166508459382586, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 4.976531624360329e-05, "train/cont_loss_std": 0.001479273625032344, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021794608324954526, "train/cont_pos_acc": 0.9999863646096654, "train/cont_pos_loss": 3.4359749582632856e-05, "train/cont_pred": 0.9943813358743986, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.47797014315923, "train/dyn_loss_std": 8.391899718178642, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0356228599945705, "train/extr_critic_critic_opt_grad_steps": 64745.0, "train/extr_critic_critic_opt_loss": 15312.71400282118, "train/extr_critic_mag": 6.851336724228329, "train/extr_critic_max": 6.851336724228329, "train/extr_critic_mean": 1.2246374537547429, "train/extr_critic_min": -0.6218998316261504, "train/extr_critic_std": 1.5378125591410532, "train/extr_return_normed_mag": 1.6573150422837999, "train/extr_return_normed_max": 1.6573150422837999, "train/extr_return_normed_mean": 0.3150056132839786, "train/extr_return_normed_min": -0.15652682497683498, "train/extr_return_normed_std": 0.3363439122007953, "train/extr_return_rate": 0.5234655582656463, "train/extr_return_raw_mag": 7.493767937024434, "train/extr_return_raw_max": 7.493767937024434, "train/extr_return_raw_mean": 1.2349921522869005, "train/extr_return_raw_min": -0.9631277794639269, "train/extr_return_raw_std": 1.5680657459629908, "train/extr_reward_mag": 1.0305016305711534, "train/extr_reward_max": 1.0305016305711534, "train/extr_reward_mean": 0.029708604108438723, "train/extr_reward_min": -0.6849540885951784, "train/extr_reward_std": 0.17329355681108105, "train/image_loss_mean": 2.982831238044633, "train/image_loss_std": 8.162042273415459, "train/model_loss_mean": 5.711618079079522, "train/model_loss_std": 12.103951043552822, "train/model_opt_grad_norm": 40.39114054044088, "train/model_opt_grad_steps": 64689.0, "train/model_opt_loss": 7571.52385796441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.4222043653329215, "train/policy_entropy_max": 2.4222043653329215, "train/policy_entropy_mean": 0.4279052048093743, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5080588385462761, "train/policy_logprob_mag": 7.4383839633729725, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42763881509502727, "train/policy_logprob_min": -7.4383839633729725, "train/policy_logprob_std": 1.0271727103326056, "train/policy_randomness_mag": 0.8549318470888667, "train/policy_randomness_max": 0.8549318470888667, "train/policy_randomness_mean": 0.1510317615336842, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17932247639530235, "train/post_ent_mag": 51.91545979181925, "train/post_ent_max": 51.91545979181925, "train/post_ent_mean": 36.248799059126114, "train/post_ent_min": 18.093174748950535, "train/post_ent_std": 5.471186313364241, "train/prior_ent_mag": 74.24211883544922, "train/prior_ent_max": 74.24211883544922, "train/prior_ent_mean": 40.6731423801846, "train/prior_ent_min": 21.595822917090523, "train/prior_ent_std": 7.715512156486511, "train/rep_loss_mean": 4.47797014315923, "train/rep_loss_std": 8.391899718178642, "train/reward_avg": 0.022637261123034276, "train/reward_loss_mean": 0.04195498059400254, "train/reward_loss_std": 0.19380237286289534, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0151216983795166, "train/reward_neg_acc": 0.9951829231447644, "train/reward_neg_loss": 0.02198294340632856, "train/reward_pos_acc": 0.9852383467886183, "train/reward_pos_loss": 0.7407252920998467, "train/reward_pred": 0.02248035341552976, "train/reward_rate": 0.027804904513888888, "stats/sum_log_reward": 5.099999964237213, "stats/max_log_achievement_collect_drink": 4.375, "stats/max_log_achievement_collect_sapling": 3.75, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3875861279666424, "replay/size": 131238.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7226412031385634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2984085414144728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0438892841339, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.37777352333069, "timer/env.step_frac": 0.06791597579923868, "timer/env.step_avg": 0.01415123161342409, "timer/env.step_min": 0.002917766571044922, "timer/env.step_max": 1.6903977394104004, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2653970718383789, "timer/replay.add_frac": 0.0008845275018650843, "timer/replay.add_avg": 0.00018430352210998535, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0010759830474853516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02913498878479004, "timer/logger.write_frac": 9.710242342979346e-05, "timer/logger.write_avg": 0.02913498878479004, "timer/logger.write_min": 0.02913498878479004, "timer/logger.write_max": 0.02913498878479004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.51183533668518, "timer/agent.policy_frac": 0.03503432568403598, "timer/agent.policy_avg": 0.00729988565047582, "timer/agent.policy_min": 0.005616426467895508, "timer/agent.policy_max": 0.019033193588256836, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06428837776184082, "timer/dataset_frac": 0.0002142632463378095, "timer/dataset_avg": 8.928941355811225e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00032019615173339844, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1018695831299, "timer/agent.train_frac": 0.8935421755223425, "timer/agent.train_avg": 0.3723637077543471, "timer/agent.train_min": 0.36586880683898926, "timer/agent.train_max": 0.38446497917175293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2199242115020752, "timer/agent.report_frac": 0.0007329734727368921, "timer/agent.report_avg": 0.2199242115020752, "timer/agent.report_min": 0.2199242115020752, "timer/agent.report_max": 0.2199242115020752, "fps": 4.799218659768912}
+{"step": 131388, "episode/length": 161.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 7.700000017881393, "episode/reward_rate": 0.043209876543209874}
+{"step": 131549, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
+{"step": 131745, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
+{"step": 131934, "episode/length": 188.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.037037037037037035}
+{"step": 132097, "episode/length": 162.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04294478527607362}
+{"step": 132282, "episode/length": 184.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.043243243243243246}
+{"step": 132483, "episode/length": 200.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03980099502487562}
+{"step": 132660, "episode/length": 176.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.500000037252903, "episode/reward_rate": 0.022598870056497175}
+{"step": 132743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.595579359266493, "train/action_min": 0.0, "train/action_std": 3.581324580642912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048156122418327466, "train/actor_opt_grad_steps": 65465.0, "train/actor_opt_loss": -15.25287755495972, "train/adv_mag": 0.5677804458472464, "train/adv_max": 0.5137311716874441, "train/adv_mean": 0.00292512912427709, "train/adv_min": -0.4812737844056553, "train/adv_std": 0.057985352714442544, "train/cont_avg": 0.9939643012152778, "train/cont_loss_mean": 2.085455336479451e-05, "train/cont_loss_std": 0.0005568512974605255, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015414895661681133, "train/cont_pos_acc": 0.9999863356351852, "train/cont_pos_loss": 1.6272154727658972e-05, "train/cont_pred": 0.9939563473065695, "train/cont_rate": 0.9939643012152778, "train/dyn_loss_mean": 4.530817502074772, "train/dyn_loss_std": 8.398842778470781, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735585946175787, "train/extr_critic_critic_opt_grad_steps": 65465.0, "train/extr_critic_critic_opt_loss": 15481.687255859375, "train/extr_critic_mag": 6.857315805223253, "train/extr_critic_max": 6.857315805223253, "train/extr_critic_mean": 1.197433275481065, "train/extr_critic_min": -0.6271903432077832, "train/extr_critic_std": 1.5219364364941914, "train/extr_return_normed_mag": 1.6474078314171896, "train/extr_return_normed_max": 1.6474078314171896, "train/extr_return_normed_mean": 0.3046666280263, "train/extr_return_normed_min": -0.14839147662536967, "train/extr_return_normed_std": 0.33182375215821797, "train/extr_return_rate": 0.507966243972381, "train/extr_return_raw_mag": 7.502758185068767, "train/extr_return_raw_max": 7.502758185068767, "train/extr_return_raw_mean": 1.2111597549584177, "train/extr_return_raw_min": -0.9135474868946605, "train/extr_return_raw_std": 1.5555070986350377, "train/extr_reward_mag": 1.024413721428977, "train/extr_reward_max": 1.024413721428977, "train/extr_reward_mean": 0.030577803289310798, "train/extr_reward_min": -0.6698771847618951, "train/extr_reward_std": 0.17514871598945725, "train/image_loss_mean": 2.929516535666254, "train/image_loss_std": 7.495158559746212, "train/model_loss_mean": 5.691871186097463, "train/model_loss_std": 11.521117011706034, "train/model_opt_grad_norm": 41.066584242714775, "train/model_opt_grad_steps": 65408.11111111111, "train/model_opt_loss": 7894.81106906467, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.411937541431851, "train/policy_entropy_max": 2.411937541431851, "train/policy_entropy_mean": 0.42231101418534917, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.498568261663119, "train/policy_logprob_mag": 7.438383923636542, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.422773407979144, "train/policy_logprob_min": -7.438383923636542, "train/policy_logprob_std": 1.024890213376946, "train/policy_randomness_mag": 0.8513081032368872, "train/policy_randomness_max": 0.8513081032368872, "train/policy_randomness_mean": 0.14905725409173304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1759727168828249, "train/post_ent_mag": 52.29373762342665, "train/post_ent_max": 52.29373762342665, "train/post_ent_mean": 36.575611167483856, "train/post_ent_min": 17.67919905980428, "train/post_ent_std": 5.533862696753608, "train/prior_ent_mag": 74.19337473975287, "train/prior_ent_max": 74.19337473975287, "train/prior_ent_mean": 41.0738009346856, "train/prior_ent_min": 21.47065022256639, "train/prior_ent_std": 7.7933782074186535, "train/rep_loss_mean": 4.530817502074772, "train/rep_loss_std": 8.398842778470781, "train/reward_avg": 0.023086208500899374, "train/reward_loss_mean": 0.04384324510788752, "train/reward_loss_std": 0.1939839827310708, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0129266166024737, "train/reward_neg_acc": 0.9952688531743156, "train/reward_neg_loss": 0.02338972729113367, "train/reward_pos_acc": 0.9830810767081049, "train/reward_pos_loss": 0.7383480055464638, "train/reward_pred": 0.022845323132868443, "train/reward_rate": 0.028754340277777776, "stats/sum_log_reward": 5.099999964237213, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_wood": 6.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3912566155195236, "replay/size": 132680.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7386414082139605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.246820045079669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2100236415863, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.237282752990723, "timer/env.step_frac": 0.06741041657273755, "timer/env.step_avg": 0.014034176666429072, "timer/env.step_min": 0.0029554367065429688, "timer/env.step_max": 1.721132755279541, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25003910064697266, "timer/replay.add_frac": 0.0008328805867771039, "timer/replay.add_avg": 0.0001733974345679422, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0029892921447753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028237581253051758, "timer/logger.write_frac": 9.405942183584097e-05, "timer/logger.write_avg": 0.028237581253051758, "timer/logger.write_min": 0.028237581253051758, "timer/logger.write_max": 0.028237581253051758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.54603385925293, "timer/agent.policy_frac": 0.03512885323190804, "timer/agent.policy_avg": 0.007313477017512434, "timer/agent.policy_min": 0.005652427673339844, "timer/agent.policy_max": 0.017178773880004883, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06557631492614746, "timer/dataset_frac": 0.0002184347948502795, "timer/dataset_avg": 9.09518931014528e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3857831954956, "timer/agent.train_frac": 0.8939934114788755, "timer/agent.train_avg": 0.37224103078432125, "timer/agent.train_min": 0.36522340774536133, "timer/agent.train_max": 0.3859407901763916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21787095069885254, "timer/agent.report_frac": 0.0007257284352336068, "timer/agent.report_avg": 0.21787095069885254, "timer/agent.report_min": 0.21787095069885254, "timer/agent.report_max": 0.21787095069885254, "fps": 4.803242415285547}
+{"step": 132844, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.043478260869565216}
+{"step": 133046, "episode/length": 201.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.024752475247524754}
+{"step": 133309, "episode/length": 262.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03802281368821293}
+{"step": 133503, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.8999999687075615, "episode/reward_rate": 0.03608247422680412}
+{"step": 133686, "episode/length": 182.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.0273224043715847}
+{"step": 133886, "episode/length": 199.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 9.100000061094761, "episode/reward_rate": 0.035}
+{"step": 134133, "episode/length": 246.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.032388663967611336}
+{"step": 134169, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.625986878301056, "train/action_min": 0.0, "train/action_std": 3.622718800961132, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05002131580676831, "train/actor_opt_grad_steps": 66180.0, "train/actor_opt_loss": -13.456622620703468, "train/adv_mag": 0.5676138505969249, "train/adv_max": 0.5353315203962191, "train/adv_mean": 0.0036827800857947655, "train/adv_min": -0.4838000792013088, "train/adv_std": 0.059467412269031496, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 0.00018434429339754708, "train/cont_loss_std": 0.005652136287381727, "train/cont_neg_acc": 0.9912810216487293, "train/cont_neg_loss": 0.03915699999992233, "train/cont_pos_acc": 0.9999861305868122, "train/cont_pos_loss": 3.11093222380901e-05, "train/cont_pred": 0.9944321487990904, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.560311794281006, "train/dyn_loss_std": 8.406588245445574, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0843858609736805, "train/extr_critic_critic_opt_grad_steps": 66180.0, "train/extr_critic_critic_opt_loss": 15675.59980193662, "train/extr_critic_mag": 6.957013150336037, "train/extr_critic_max": 6.957013150336037, "train/extr_critic_mean": 1.2686983481259413, "train/extr_critic_min": -0.6107095144164394, "train/extr_critic_std": 1.557911992073059, "train/extr_return_normed_mag": 1.6721178662609046, "train/extr_return_normed_max": 1.6721178662609046, "train/extr_return_normed_mean": 0.3164867624430589, "train/extr_return_normed_min": -0.16296726129424405, "train/extr_return_normed_std": 0.3386190118084491, "train/extr_return_rate": 0.5240078761544026, "train/extr_return_raw_mag": 7.683790213625196, "train/extr_return_raw_max": 7.683790213625196, "train/extr_return_raw_mean": 1.2860382938049209, "train/extr_return_raw_min": -0.9748061500804525, "train/extr_return_raw_std": 1.5974766083166634, "train/extr_reward_mag": 1.0197476534776284, "train/extr_reward_max": 1.0197476534776284, "train/extr_reward_mean": 0.031664194591658215, "train/extr_reward_min": -0.6511358828611777, "train/extr_reward_std": 0.17732891482366642, "train/image_loss_mean": 2.926390743591416, "train/image_loss_std": 7.904235215254233, "train/model_loss_mean": 5.705488607917033, "train/model_loss_std": 11.92224110348124, "train/model_opt_grad_norm": 39.957238318214955, "train/model_opt_grad_steps": 66123.0, "train/model_opt_loss": 10657.14794921875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.1971830985915, "train/policy_entropy_mag": 2.4384355377143536, "train/policy_entropy_max": 2.4384355377143536, "train/policy_entropy_mean": 0.4165937048448643, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5023152836611573, "train/policy_logprob_mag": 7.438383955351064, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41670960061986684, "train/policy_logprob_min": -7.438383955351064, "train/policy_logprob_std": 1.0207927613191201, "train/policy_randomness_mag": 0.8606607393479683, "train/policy_randomness_max": 0.8606607393479683, "train/policy_randomness_mean": 0.14703929718111602, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17729525100177443, "train/post_ent_mag": 52.07848256070849, "train/post_ent_max": 52.07848256070849, "train/post_ent_mean": 36.64642140563105, "train/post_ent_min": 17.7704249771548, "train/post_ent_std": 5.505121412411542, "train/prior_ent_mag": 74.33483005577409, "train/prior_ent_max": 74.33483005577409, "train/prior_ent_mean": 41.10575630295445, "train/prior_ent_min": 22.12351817816076, "train/prior_ent_std": 7.751941251083159, "train/rep_loss_mean": 4.560311794281006, "train/rep_loss_std": 8.406588245445574, "train/reward_avg": 0.023337092880212084, "train/reward_loss_mean": 0.042726439673086286, "train/reward_loss_std": 0.19265509260372377, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.01034066878574, "train/reward_neg_acc": 0.9950756371860773, "train/reward_neg_loss": 0.022367524192996428, "train/reward_pos_acc": 0.9861291890412989, "train/reward_pos_loss": 0.7381904905950519, "train/reward_pred": 0.02320495112733522, "train/reward_rate": 0.028416593309859156, "stats/sum_log_reward": 5.9571428298950195, "stats/max_log_achievement_collect_drink": 6.428571428571429, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4290911299841745, "stats/max_log_achievement_collect_stone": 0.2, "replay/size": 134106.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.784936741725927e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761078576386226e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0685522556305, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.795634746551514, "timer/env.step_frac": 0.06263780261298219, "timer/env.step_avg": 0.013180669527735984, "timer/env.step_min": 0.002936840057373047, "timer/env.step_max": 1.7125301361083984, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.279388427734375, "timer/replay.add_frac": 0.0009310819998770216, "timer/replay.add_avg": 0.00019592456362859398, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0024764537811279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02628016471862793, "timer/logger.write_frac": 8.758053625106197e-05, "timer/logger.write_avg": 0.02628016471862793, "timer/logger.write_min": 0.02628016471862793, "timer/logger.write_max": 0.02628016471862793, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004153251647949219, "timer/checkpoint.save_frac": 1.3841009385118887e-06, "timer/checkpoint.save_avg": 0.0004153251647949219, "timer/checkpoint.save_min": 0.0004153251647949219, "timer/checkpoint.save_max": 0.0004153251647949219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.343158483505249, "timer/agent.save_frac": 0.004476172106035967, "timer/agent.save_avg": 1.343158483505249, "timer/agent.save_min": 1.343158483505249, "timer/agent.save_max": 1.343158483505249, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.72747802734375e-05, "timer/replay.save_frac": 3.241751911095583e-07, "timer/replay.save_avg": 9.72747802734375e-05, "timer/replay.save_min": 9.72747802734375e-05, "timer/replay.save_max": 9.72747802734375e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 14.43782901763916, "timer/agent.policy_frac": 0.0481151020628762, "timer/agent.policy_avg": 0.010124704780953129, "timer/agent.policy_min": 0.005646944046020508, "timer/agent.policy_max": 2.5845203399658203, "timer/dataset_count": 713.0, "timer/dataset_total": 0.0660238265991211, "timer/dataset_frac": 0.0002200291436833905, "timer/dataset_avg": 9.260003730592018e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.0002269744873046875, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.76609659194946, "timer/agent.train_frac": 0.8856846030487776, "timer/agent.train_avg": 0.372743473480995, "timer/agent.train_min": 0.3660261631011963, "timer/agent.train_max": 0.41948604583740234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21906614303588867, "timer/agent.report_frac": 0.0007300536540372438, "timer/agent.report_avg": 0.21906614303588867, "timer/agent.report_min": 0.21906614303588867, "timer/agent.report_max": 0.21906614303588867, "fps": 4.752164590270838}
+{"step": 134342, "episode/length": 208.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.028708133971291867}
+{"step": 134526, "episode/length": 183.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03804347826086957}
+{"step": 134693, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
+{"step": 134866, "episode/length": 172.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028901734104046242}
+{"step": 135029, "episode/length": 162.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04294478527607362}
+{"step": 135240, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
+{"step": 135404, "episode/length": 163.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 7.100000008940697, "episode/reward_rate": 0.036585365853658534}
+{"step": 135560, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
+{"step": 135605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.714419047037761, "train/action_min": 0.0, "train/action_std": 3.680527071158091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048568852038847074, "train/actor_opt_grad_steps": 66895.0, "train/actor_opt_loss": -15.77237179544237, "train/adv_mag": 0.6274225633177493, "train/adv_max": 0.5688295985261599, "train/adv_mean": 0.0021851957843021827, "train/adv_min": -0.509291909635067, "train/adv_std": 0.05884884189193448, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 0.00013325323107279038, "train/cont_loss_std": 0.004147624298587023, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.015089451482329727, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.2136316156979237e-05, "train/cont_pred": 0.9946716634763612, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 4.463964972231123, "train/dyn_loss_std": 8.262395011054146, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1012491650051541, "train/extr_critic_critic_opt_grad_steps": 66895.0, "train/extr_critic_critic_opt_loss": 15529.012776692709, "train/extr_critic_mag": 7.5777029395103455, "train/extr_critic_max": 7.5777029395103455, "train/extr_critic_mean": 1.3263357886009746, "train/extr_critic_min": -0.6138202928834491, "train/extr_critic_std": 1.6383932315640979, "train/extr_return_normed_mag": 1.742023476296001, "train/extr_return_normed_max": 1.742023476296001, "train/extr_return_normed_mean": 0.32718027838402325, "train/extr_return_normed_min": -0.15381698093066612, "train/extr_return_normed_std": 0.3499662863711516, "train/extr_return_rate": 0.5491835164527098, "train/extr_return_raw_mag": 8.114018287923601, "train/extr_return_raw_max": 8.114018287923601, "train/extr_return_raw_mean": 1.3368050538831286, "train/extr_return_raw_min": -0.9636632212334209, "train/extr_return_raw_std": 1.6749595238102808, "train/extr_reward_mag": 1.019065969520145, "train/extr_reward_max": 1.019065969520145, "train/extr_reward_mean": 0.03227848450963696, "train/extr_reward_min": -0.6601056555906931, "train/extr_reward_std": 0.17892027811871636, "train/image_loss_mean": 2.791828971770075, "train/image_loss_std": 7.562645607524448, "train/model_loss_mean": 5.512507249911626, "train/model_loss_std": 11.501380383968353, "train/model_opt_grad_norm": 37.918785572052, "train/model_opt_grad_steps": 66837.93055555556, "train/model_opt_loss": 14182.337443033854, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.398111585113737, "train/policy_entropy_max": 2.398111585113737, "train/policy_entropy_mean": 0.42058372870087624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5023782799641291, "train/policy_logprob_mag": 7.4383840097321405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4208885845210817, "train/policy_logprob_min": -7.4383840097321405, "train/policy_logprob_std": 1.0230074839459524, "train/policy_randomness_mag": 0.8464281501041518, "train/policy_randomness_max": 0.8464281501041518, "train/policy_randomness_mean": 0.14844759967592028, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17731748635156286, "train/post_ent_mag": 53.35677093929715, "train/post_ent_max": 53.35677093929715, "train/post_ent_mean": 36.86251221762763, "train/post_ent_min": 18.25559153821733, "train/post_ent_std": 5.6274742351637945, "train/prior_ent_mag": 74.39522955152724, "train/prior_ent_max": 74.39522955152724, "train/prior_ent_mean": 41.29908010694716, "train/prior_ent_min": 22.702441904279922, "train/prior_ent_std": 7.763638748062982, "train/rep_loss_mean": 4.463964972231123, "train/rep_loss_std": 8.262395011054146, "train/reward_avg": 0.02480875628276004, "train/reward_loss_mean": 0.042166074789646596, "train/reward_loss_std": 0.18448498244914743, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.008427037133111, "train/reward_neg_acc": 0.9951514510644807, "train/reward_neg_loss": 0.021149076424383868, "train/reward_pos_acc": 0.9864493235945702, "train/reward_pos_loss": 0.7311204133762254, "train/reward_pred": 0.024805082034112677, "train/reward_rate": 0.029758029513888888, "stats/sum_log_reward": 4.974999904632568, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_stone": 0.125, "stats/max_log_achievement_collect_wood": 5.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3651514984667301, "replay/size": 135542.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.758081154570938e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2613272600519291e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26067066192627, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.239514589309692, "timer/env.step_frac": 0.06740647899270848, "timer/env.step_avg": 0.014094369491162738, "timer/env.step_min": 0.0030035972595214844, "timer/env.step_max": 1.6804800033569336, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.27457475662231445, "timer/replay.add_frac": 0.0009144546171065725, "timer/replay.add_avg": 0.00019120804778712707, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.007965326309204102, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027736425399780273, "timer/logger.write_frac": 9.237448693708428e-05, "timer/logger.write_avg": 0.027736425399780273, "timer/logger.write_min": 0.027736425399780273, "timer/logger.write_max": 0.027736425399780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.607003927230835, "timer/agent.policy_frac": 0.03532598493118542, "timer/agent.policy_avg": 0.007386492985536793, "timer/agent.policy_min": 0.0056133270263671875, "timer/agent.policy_max": 0.019420146942138672, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06703972816467285, "timer/dataset_frac": 0.0002232717592246877, "timer/dataset_avg": 9.337009493687026e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.3343229293823, "timer/agent.train_frac": 0.8936712301942105, "timer/agent.train_avg": 0.3737246837456578, "timer/agent.train_min": 0.36617231369018555, "timer/agent.train_max": 1.0025572776794434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196359634399414, "timer/agent.report_frac": 0.0007314842898197514, "timer/agent.report_avg": 0.2196359634399414, "timer/agent.report_min": 0.2196359634399414, "timer/agent.report_max": 0.2196359634399414, "fps": 4.782399807310996}
+{"step": 135752, "episode/length": 191.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03125}
+{"step": 135919, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03592814371257485}
+{"step": 136040, "episode/length": 120.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.049586776859504134}
+{"step": 136204, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 136438, "episode/length": 233.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.029914529914529916}
+{"step": 136626, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
+{"step": 136886, "episode/length": 259.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.023076923076923078}
+{"step": 137055, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.664401584201389, "train/action_min": 0.0, "train/action_std": 3.6115113066302404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04711323060716192, "train/actor_opt_grad_steps": 67615.0, "train/actor_opt_loss": -18.94579399459892, "train/adv_mag": 0.5691296739710702, "train/adv_max": 0.5448923462794887, "train/adv_mean": 0.0012049328947291037, "train/adv_min": -0.46985527086589074, "train/adv_std": 0.05721067911427882, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 2.182508874258736e-05, "train/cont_loss_std": 0.0005071780463639344, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010332312810482512, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.3128180456018552e-05, "train/cont_pred": 0.9941889966527621, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 4.4079695211516485, "train/dyn_loss_std": 8.252711342440712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.135583184659481, "train/extr_critic_critic_opt_grad_steps": 67615.0, "train/extr_critic_critic_opt_loss": 15433.671061197916, "train/extr_critic_mag": 7.2663109170065985, "train/extr_critic_max": 7.2663109170065985, "train/extr_critic_mean": 1.2211634044845898, "train/extr_critic_min": -0.6325694637166129, "train/extr_critic_std": 1.5590747363037534, "train/extr_return_normed_mag": 1.7144485529926088, "train/extr_return_normed_max": 1.7144485529926088, "train/extr_return_normed_mean": 0.3111570881058772, "train/extr_return_normed_min": -0.1571410455637508, "train/extr_return_normed_std": 0.3351506781246927, "train/extr_return_rate": 0.5303575574523873, "train/extr_return_raw_mag": 7.8797460661994085, "train/extr_return_raw_max": 7.8797460661994085, "train/extr_return_raw_mean": 1.2268651980492804, "train/extr_return_raw_min": -0.9940042793750763, "train/extr_return_raw_std": 1.589537834127744, "train/extr_reward_mag": 1.024552086989085, "train/extr_reward_max": 1.024552086989085, "train/extr_reward_mean": 0.031153823249042034, "train/extr_reward_min": -0.6864938139915466, "train/extr_reward_std": 0.17767376783821318, "train/image_loss_mean": 2.7198993812004724, "train/image_loss_std": 7.11251535680559, "train/model_loss_mean": 5.406667845116721, "train/model_loss_std": 11.046077887217203, "train/model_opt_grad_norm": 42.875298738479614, "train/model_opt_grad_steps": 67556.375, "train/model_opt_loss": 9287.076110839844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1718.75, "train/policy_entropy_mag": 2.4073930316501193, "train/policy_entropy_max": 2.4073930316501193, "train/policy_entropy_mean": 0.42643166954318684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5123393601841397, "train/policy_logprob_mag": 7.4383840097321405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42594084185030723, "train/policy_logprob_min": -7.4383840097321405, "train/policy_logprob_std": 1.0279315263032913, "train/policy_randomness_mag": 0.8497040958868133, "train/policy_randomness_max": 0.8497040958868133, "train/policy_randomness_mean": 0.15051166568365362, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18083331175148487, "train/post_ent_mag": 52.86804040273031, "train/post_ent_max": 52.86804040273031, "train/post_ent_mean": 36.9152561823527, "train/post_ent_min": 17.868265403641594, "train/post_ent_std": 5.616895404126909, "train/prior_ent_mag": 74.29580476548936, "train/prior_ent_max": 74.29580476548936, "train/prior_ent_mean": 41.252964443630646, "train/prior_ent_min": 22.235494057337444, "train/prior_ent_std": 7.777630872196621, "train/rep_loss_mean": 4.4079695211516485, "train/rep_loss_std": 8.252711342440712, "train/reward_avg": 0.02388644734552751, "train/reward_loss_mean": 0.041964878172924124, "train/reward_loss_std": 0.17667458982517323, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0135186264912288, "train/reward_neg_acc": 0.9953032036622366, "train/reward_neg_loss": 0.02181304742892583, "train/reward_pos_acc": 0.9923559642500348, "train/reward_pos_loss": 0.7118967448671659, "train/reward_pred": 0.02382652830177297, "train/reward_rate": 0.0291748046875, "stats/sum_log_reward": 5.242857047489712, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4046056398323604, "replay/size": 136992.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7017361871127424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2628374428584659e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2770323753357, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.387958765029907, "timer/env.step_frac": 0.06123664743710937, "timer/env.step_avg": 0.012681350872434419, "timer/env.step_min": 0.0028791427612304688, "timer/env.step_max": 1.6535160541534424, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26009035110473633, "timer/replay.add_frac": 0.0008661679817710219, "timer/replay.add_avg": 0.00017937265593430092, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.003292083740234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02275395393371582, "timer/logger.write_frac": 7.577653793139324e-05, "timer/logger.write_avg": 0.02275395393371582, "timer/logger.write_min": 0.02275395393371582, "timer/logger.write_max": 0.02275395393371582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.635933876037598, "timer/agent.policy_frac": 0.03542040425770245, "timer/agent.policy_avg": 0.007335126811060412, "timer/agent.policy_min": 0.005703449249267578, "timer/agent.policy_max": 0.01627326011657715, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06526541709899902, "timer/dataset_frac": 0.00021735067974636022, "timer/dataset_avg": 9.002126496413658e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00023508071899414062, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.2073917388916, "timer/agent.train_frac": 0.8998603376402825, "timer/agent.train_avg": 0.37269985067433326, "timer/agent.train_min": 0.36607909202575684, "timer/agent.train_max": 0.3868899345397949, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21997666358947754, "timer/agent.report_frac": 0.0007325790515823218, "timer/agent.report_avg": 0.21997666358947754, "timer/agent.report_min": 0.21997666358947754, "timer/agent.report_max": 0.21997666358947754, "fps": 4.828801005820663}
+{"step": 137147, "episode/length": 260.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.02681992337164751}
+{"step": 137331, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
+{"step": 137533, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.039603960396039604}
+{"step": 137705, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
+{"step": 137877, "episode/length": 171.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.040697674418604654}
+{"step": 137926, "episode/length": 48.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.04081632653061224}
+{"step": 138111, "episode/length": 184.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.032432432432432434}
+{"step": 138381, "episode/length": 269.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.025925925925925925}
+{"step": 138473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.667170135068222, "train/action_min": 0.0, "train/action_std": 3.5777562705563826, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04998817384033136, "train/actor_opt_grad_steps": 68330.0, "train/actor_opt_loss": -13.6961566064979, "train/adv_mag": 0.6376248963282142, "train/adv_max": 0.5755092568800483, "train/adv_mean": 0.003086412155140915, "train/adv_min": -0.5239867278387849, "train/adv_std": 0.05987050541689698, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 3.236046056642895e-05, "train/cont_loss_std": 0.0008615108079404411, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.0043869280458930515, "train/cont_pos_acc": 0.9999861456978489, "train/cont_pos_loss": 1.805519245959325e-05, "train/cont_pred": 0.9943978828443608, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.712519887467505, "train/dyn_loss_std": 8.37850486728507, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1332246451310708, "train/extr_critic_critic_opt_grad_steps": 68330.0, "train/extr_critic_critic_opt_loss": 15572.140088578346, "train/extr_critic_mag": 7.165436751405958, "train/extr_critic_max": 7.165436751405958, "train/extr_critic_mean": 1.1643079342976423, "train/extr_critic_min": -0.622619565104095, "train/extr_critic_std": 1.5241976204052778, "train/extr_return_normed_mag": 1.7092485830817423, "train/extr_return_normed_max": 1.7092485830817423, "train/extr_return_normed_mean": 0.30478315999810124, "train/extr_return_normed_min": -0.1490151320754642, "train/extr_return_normed_std": 0.3313968846915473, "train/extr_return_rate": 0.5107018657973115, "train/extr_return_raw_mag": 7.8050129380024655, "train/extr_return_raw_max": 7.8050129380024655, "train/extr_return_raw_mean": 1.1788865856721367, "train/extr_return_raw_min": -0.9627312925499929, "train/extr_return_raw_std": 1.5638196082182334, "train/extr_reward_mag": 1.026704190482556, "train/extr_reward_max": 1.026704190482556, "train/extr_reward_mean": 0.03166649285966242, "train/extr_reward_min": -0.6654934967067879, "train/extr_reward_std": 0.17734469998050745, "train/image_loss_mean": 3.0197840945821413, "train/image_loss_std": 8.052277316509837, "train/model_loss_mean": 5.889698948658688, "train/model_loss_std": 12.096174172952141, "train/model_opt_grad_norm": 42.741686135950225, "train/model_opt_grad_steps": 68270.77464788733, "train/model_opt_loss": 6479.506468007262, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1109.1549295774648, "train/policy_entropy_mag": 2.3837203408630803, "train/policy_entropy_max": 2.3837203408630803, "train/policy_entropy_mean": 0.4355019209250598, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5176405520506309, "train/policy_logprob_mag": 7.438384029227243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43525415868826317, "train/policy_logprob_min": -7.438384029227243, "train/policy_logprob_std": 1.033838883252211, "train/policy_randomness_mag": 0.8413486724168482, "train/policy_randomness_max": 0.8413486724168482, "train/policy_randomness_mean": 0.1537130655537189, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18270439937920638, "train/post_ent_mag": 52.80174121050767, "train/post_ent_max": 52.80174121050767, "train/post_ent_mean": 36.60976028442383, "train/post_ent_min": 17.71714609441623, "train/post_ent_std": 5.560694251261967, "train/prior_ent_mag": 74.32657730747276, "train/prior_ent_max": 74.32657730747276, "train/prior_ent_mean": 41.25834338765749, "train/prior_ent_min": 22.004646381861726, "train/prior_ent_std": 7.78038246530882, "train/rep_loss_mean": 4.712519887467505, "train/rep_loss_std": 8.37850486728507, "train/reward_avg": 0.023898272342245345, "train/reward_loss_mean": 0.042370568409981865, "train/reward_loss_std": 0.189077905156243, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0098576763985863, "train/reward_neg_acc": 0.9954249246019713, "train/reward_neg_loss": 0.02161980492495735, "train/reward_pos_acc": 0.9834527809854964, "train/reward_pos_loss": 0.7447577756895146, "train/reward_pred": 0.0237392410504776, "train/reward_rate": 0.028925506161971832, "stats/sum_log_reward": 4.9749999195337296, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4245617501437664, "replay/size": 138410.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.801246287960596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.269036691178724e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03488063812256, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.621516227722168, "timer/env.step_frac": 0.07539628785696548, "timer/env.step_avg": 0.01595311440600999, "timer/env.step_min": 0.002916574478149414, "timer/env.step_max": 2.608335256576538, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.26914215087890625, "timer/replay.add_frac": 0.0008970362056121182, "timer/replay.add_avg": 0.00018980405562687324, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0016863346099853516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0282442569732666, "timer/logger.write_frac": 9.413657809783959e-05, "timer/logger.write_avg": 0.0282442569732666, "timer/logger.write_min": 0.0282442569732666, "timer/logger.write_max": 0.0282442569732666, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0007700920104980469, "timer/checkpoint.save_frac": 2.566674944127142e-06, "timer/checkpoint.save_avg": 0.0007700920104980469, "timer/checkpoint.save_min": 0.0007700920104980469, "timer/checkpoint.save_max": 0.0007700920104980469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3521535396575928, "timer/agent.save_frac": 0.004506654482244847, "timer/agent.save_avg": 1.3521535396575928, "timer/agent.save_min": 1.3521535396575928, "timer/agent.save_max": 1.3521535396575928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.709709461137323e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 11.746942043304443, "timer/agent.policy_frac": 0.039151921331015645, "timer/agent.policy_avg": 0.008284162230821188, "timer/agent.policy_min": 0.005708456039428711, "timer/agent.policy_max": 1.3424842357635498, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06408190727233887, "timer/dataset_frac": 0.00021358152470821951, "timer/dataset_avg": 9.038350814152168e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00024700164794921875, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.60335397720337, "timer/agent.train_frac": 0.881908641470077, "timer/agent.train_avg": 0.37320642309901747, "timer/agent.train_min": 0.36331772804260254, "timer/agent.train_max": 0.8921241760253906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21975445747375488, "timer/agent.report_frac": 0.0007324296995281848, "timer/agent.report_avg": 0.21975445747375488, "timer/agent.report_min": 0.21975445747375488, "timer/agent.report_max": 0.21975445747375488, "fps": 4.7260470630281395}
+{"step": 138543, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04938271604938271}
+{"step": 138689, "episode/length": 145.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02054794520547945}
+{"step": 138874, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
+{"step": 139098, "episode/length": 223.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 7.1000000461936, "episode/reward_rate": 0.022321428571428572}
+{"step": 139138, "episode/length": 39.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.1}
+{"step": 139329, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
+{"step": 139513, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04891304347826087}
+{"step": 139690, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
+{"step": 139873, "episode/length": 182.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03825136612021858}
+{"step": 139905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.858901129828559, "train/action_min": 0.0, "train/action_std": 3.8082802163230047, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049095047586080104, "train/actor_opt_grad_steps": 69045.0, "train/actor_opt_loss": -19.168124462167423, "train/adv_mag": 0.6856167916622427, "train/adv_max": 0.6330584440794256, "train/adv_mean": 0.0016022722757043084, "train/adv_min": -0.4990825785530938, "train/adv_std": 0.05868789776124888, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 3.1049109761285524e-05, "train/cont_loss_std": 0.0009557016796072225, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.00304529064851522, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 5.3419529173481806e-06, "train/cont_pred": 0.9943650563557943, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.5729317764441175, "train/dyn_loss_std": 8.390600827005175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0009677550858922, "train/extr_critic_critic_opt_grad_steps": 69045.0, "train/extr_critic_critic_opt_loss": 15451.798611111111, "train/extr_critic_mag": 7.4186155862278405, "train/extr_critic_max": 7.4186155862278405, "train/extr_critic_mean": 1.1022192562619846, "train/extr_critic_min": -0.6155573427677155, "train/extr_critic_std": 1.5233551445934508, "train/extr_return_normed_mag": 1.8006147510475583, "train/extr_return_normed_max": 1.8006147510475583, "train/extr_return_normed_mean": 0.2977520821409093, "train/extr_return_normed_min": -0.1693050425706638, "train/extr_return_normed_std": 0.3368683167629772, "train/extr_return_rate": 0.4837212703294224, "train/extr_return_raw_mag": 8.053013775083754, "train/extr_return_raw_max": 8.053013775083754, "train/extr_return_raw_mean": 1.1096152522497706, "train/extr_return_raw_min": -1.0467735023962126, "train/extr_return_raw_std": 1.5558373199568853, "train/extr_reward_mag": 1.025324867831336, "train/extr_reward_max": 1.025324867831336, "train/extr_reward_mean": 0.029815003715662494, "train/extr_reward_min": -0.6768934097554948, "train/extr_reward_std": 0.17434483311242527, "train/image_loss_mean": 2.957511333955659, "train/image_loss_std": 7.789267718791962, "train/model_loss_mean": 5.742505331834157, "train/model_loss_std": 11.780446761184269, "train/model_opt_grad_norm": 38.10448225339254, "train/model_opt_grad_steps": 68985.0, "train/model_opt_loss": 3589.0658196343315, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.356049958202574, "train/policy_entropy_max": 2.356049958202574, "train/policy_entropy_mean": 0.4421653751697805, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5156259731286101, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.441218258606063, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0328289618094761, "train/policy_randomness_mag": 0.8315822415881686, "train/policy_randomness_max": 0.8315822415881686, "train/policy_randomness_mean": 0.15606497259189686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18199334003859097, "train/post_ent_mag": 53.05249336030748, "train/post_ent_max": 53.05249336030748, "train/post_ent_mean": 37.033828841315376, "train/post_ent_min": 17.619642363654243, "train/post_ent_std": 5.671558108594683, "train/prior_ent_mag": 74.47828759087457, "train/prior_ent_max": 74.47828759087457, "train/prior_ent_mean": 41.57862091064453, "train/prior_ent_min": 21.724246912532383, "train/prior_ent_std": 7.730414344204797, "train/rep_loss_mean": 4.5729317764441175, "train/rep_loss_std": 8.390600827005175, "train/reward_avg": 0.023358832352742966, "train/reward_loss_mean": 0.04120389372110367, "train/reward_loss_std": 0.18139956591443884, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0130953970882628, "train/reward_neg_acc": 0.995716504752636, "train/reward_neg_loss": 0.020881348224874172, "train/reward_pos_acc": 0.987205439971553, "train/reward_pos_loss": 0.737349747783608, "train/reward_pred": 0.02308696708900647, "train/reward_rate": 0.028455946180555556, "stats/sum_log_reward": 5.211111174689399, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3544061995214886, "replay/size": 139842.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7271217260946776e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2525508190666497e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08664774894714, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.9559485912323, "timer/env.step_frac": 0.0731653632573505, "timer/env.step_avg": 0.015332366334659427, "timer/env.step_min": 0.0029497146606445312, "timer/env.step_max": 1.680647611618042, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25489377975463867, "timer/replay.add_frac": 0.0008494006036812512, "timer/replay.add_avg": 0.00017799844954932868, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0013985633850097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028987407684326172, "timer/logger.write_frac": 9.65967926322969e-05, "timer/logger.write_avg": 0.028987407684326172, "timer/logger.write_min": 0.028987407684326172, "timer/logger.write_max": 0.028987407684326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.461152791976929, "timer/agent.policy_frac": 0.03486044071087342, "timer/agent.policy_avg": 0.007305274296073274, "timer/agent.policy_min": 0.0056989192962646484, "timer/agent.policy_max": 0.016681432723999023, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06497836112976074, "timer/dataset_frac": 0.00021653199706546663, "timer/dataset_avg": 9.075190101921891e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00020885467529296875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.61868047714233, "timer/agent.train_frac": 0.8884723211683708, "timer/agent.train_avg": 0.37237245876695857, "timer/agent.train_min": 0.36653566360473633, "timer/agent.train_max": 0.3891904354095459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2189033031463623, "timer/agent.report_frac": 0.0007294669882463317, "timer/agent.report_avg": 0.2189033031463623, "timer/agent.report_min": 0.2189033031463623, "timer/agent.report_max": 0.2189033031463623, "fps": 4.771855382719351}
+{"step": 140065, "episode/length": 191.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.036458333333333336}
+{"step": 140250, "episode/length": 184.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02702702702702703}
+{"step": 140442, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.026041666666666668}
+{"step": 140620, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
+{"step": 140771, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
+{"step": 140916, "episode/length": 144.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.041379310344827586}
+{"step": 141080, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03048780487804878}
+{"step": 141243, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
+{"step": 141347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.819747077094184, "train/action_min": 0.0, "train/action_std": 3.8473345041275024, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05034254915598366, "train/actor_opt_grad_steps": 69765.0, "train/actor_opt_loss": -16.763485347231228, "train/adv_mag": 0.7526408355269167, "train/adv_max": 0.6670807806981934, "train/adv_mean": 0.0021255853941713415, "train/adv_min": -0.6203072567780813, "train/adv_std": 0.06154924936385618, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 2.3880223416088915e-05, "train/cont_loss_std": 0.0006425875020726027, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002076090959709139, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1068573073795088e-05, "train/cont_pred": 0.9939382962054677, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.3799592985047235, "train/dyn_loss_std": 8.377911686897278, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0433044723338551, "train/extr_critic_critic_opt_grad_steps": 69765.0, "train/extr_critic_critic_opt_loss": 15424.811848958334, "train/extr_critic_mag": 7.5559156272146435, "train/extr_critic_max": 7.5559156272146435, "train/extr_critic_mean": 1.1211521948377292, "train/extr_critic_min": -0.6290570100148519, "train/extr_critic_std": 1.5297419362597995, "train/extr_return_normed_mag": 1.8517234772443771, "train/extr_return_normed_max": 1.8517234772443771, "train/extr_return_normed_mean": 0.30595689246224034, "train/extr_return_normed_min": -0.16017280612140894, "train/extr_return_normed_std": 0.3448101549098889, "train/extr_return_rate": 0.485769340975417, "train/extr_return_raw_mag": 8.130684369140202, "train/extr_return_raw_max": 8.130684369140202, "train/extr_return_raw_mean": 1.1307739516099293, "train/extr_return_raw_min": -0.9806236111455493, "train/extr_return_raw_std": 1.5616968505912356, "train/extr_reward_mag": 1.0255950887997944, "train/extr_reward_max": 1.0255950887997944, "train/extr_reward_mean": 0.03159150152674152, "train/extr_reward_min": -0.6918611774841944, "train/extr_reward_std": 0.178506496672829, "train/image_loss_mean": 2.8221238089932337, "train/image_loss_std": 7.802030815018548, "train/model_loss_mean": 5.492585827906926, "train/model_loss_std": 11.797668615976969, "train/model_opt_grad_norm": 39.2288105752733, "train/model_opt_grad_steps": 69705.0, "train/model_opt_loss": 6306.735877143012, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1145.8333333333333, "train/policy_entropy_mag": 2.3884242143895893, "train/policy_entropy_max": 2.3884242143895893, "train/policy_entropy_mean": 0.44792260229587555, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5288341293732325, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44700022745463586, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 1.0405441133512392, "train/policy_randomness_mag": 0.843008933795823, "train/policy_randomness_max": 0.843008933795823, "train/policy_randomness_mean": 0.15809702252348265, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18665523971948358, "train/post_ent_mag": 53.11475854449802, "train/post_ent_max": 53.11475854449802, "train/post_ent_mean": 37.16464180416531, "train/post_ent_min": 17.869039681222702, "train/post_ent_std": 5.686061196857029, "train/prior_ent_mag": 74.49404907226562, "train/prior_ent_max": 74.49404907226562, "train/prior_ent_mean": 41.507271713680694, "train/prior_ent_min": 21.860363086064655, "train/prior_ent_std": 7.779621713691288, "train/rep_loss_mean": 4.3799592985047235, "train/rep_loss_std": 8.377911686897278, "train/reward_avg": 0.023673502340291936, "train/reward_loss_mean": 0.04246251396317449, "train/reward_loss_std": 0.18802819856339031, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0095001707474391, "train/reward_neg_acc": 0.9958949420187209, "train/reward_neg_loss": 0.02204102182036473, "train/reward_pos_acc": 0.9888160137666596, "train/reward_pos_loss": 0.7289740219712257, "train/reward_pred": 0.023510969476774335, "train/reward_rate": 0.029025607638888888, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 6.25, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.37842895835638046, "replay/size": 141284.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.663577583725674e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2572570581211296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2932028770447, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.363238096237183, "timer/env.step_frac": 0.06781118553847164, "timer/env.step_avg": 0.014121524338583344, "timer/env.step_min": 0.0028150081634521484, "timer/env.step_max": 1.7666492462158203, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2721896171569824, "timer/replay.add_frac": 0.0009064128476741803, "timer/replay.add_avg": 0.00018875840302148573, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.008983135223388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02669811248779297, "timer/logger.write_frac": 8.890681584532746e-05, "timer/logger.write_avg": 0.02669811248779297, "timer/logger.write_min": 0.02669811248779297, "timer/logger.write_max": 0.02669811248779297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.43278455734253, "timer/agent.policy_frac": 0.03474199368280154, "timer/agent.policy_avg": 0.007234940747116872, "timer/agent.policy_min": 0.005735158920288086, "timer/agent.policy_max": 0.025760650634765625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06466507911682129, "timer/dataset_frac": 0.0002153398028902388, "timer/dataset_avg": 8.968804315786587e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4365465641022, "timer/agent.train_frac": 0.8939148272164315, "timer/agent.train_avg": 0.3723114376755925, "timer/agent.train_min": 0.36609411239624023, "timer/agent.train_max": 0.38530778884887695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195422649383545, "timer/agent.report_frac": 0.0007310930212038342, "timer/agent.report_avg": 0.2195422649383545, "timer/agent.report_min": 0.2195422649383545, "timer/agent.report_max": 0.2195422649383545, "fps": 4.801893734854087}
+{"step": 141398, "episode/length": 154.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04516129032258064}
+{"step": 141586, "episode/length": 187.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03723404255319149}
+{"step": 141766, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03888888888888889}
+{"step": 141977, "episode/length": 210.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.037914691943127965}
+{"step": 142143, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04216867469879518}
+{"step": 142304, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 142487, "episode/length": 182.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0273224043715847}
+{"step": 142694, "episode/length": 206.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.024154589371980676}
+{"step": 142764, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.625801193882042, "train/action_min": 0.0, "train/action_std": 3.6628885840026424, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04922564096853767, "train/actor_opt_grad_steps": 70480.0, "train/actor_opt_loss": -16.689045814980922, "train/adv_mag": 0.6071502801398156, "train/adv_max": 0.5488658312340857, "train/adv_mean": 0.0023366071587255467, "train/adv_min": -0.5140889862053831, "train/adv_std": 0.05993627069491736, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 8.298390319293797e-06, "train/cont_loss_std": 0.00018153760214945707, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001914774031038306, "train/cont_pos_acc": 0.9999999882469714, "train/cont_pos_loss": 7.048796508908234e-06, "train/cont_pred": 0.9941765095146609, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.416933130210554, "train/dyn_loss_std": 8.338360786437988, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0657227408718055, "train/extr_critic_critic_opt_grad_steps": 70480.0, "train/extr_critic_critic_opt_loss": 15557.68633087588, "train/extr_critic_mag": 6.970136917812724, "train/extr_critic_max": 6.970136917812724, "train/extr_critic_mean": 1.0553022413186623, "train/extr_critic_min": -0.6449936947352449, "train/extr_critic_std": 1.4645288158470475, "train/extr_return_normed_mag": 1.7204111629808452, "train/extr_return_normed_max": 1.7204111629808452, "train/extr_return_normed_mean": 0.2932606037233917, "train/extr_return_normed_min": -0.15827986986284526, "train/extr_return_normed_std": 0.3329342861830349, "train/extr_return_rate": 0.47031619095466504, "train/extr_return_raw_mag": 7.477386488041407, "train/extr_return_raw_max": 7.477386488041407, "train/extr_return_raw_mean": 1.0657791083967183, "train/extr_return_raw_min": -0.9630094665876576, "train/extr_return_raw_std": 1.4957141859430663, "train/extr_reward_mag": 1.0221110397661235, "train/extr_reward_max": 1.0221110397661235, "train/extr_reward_mean": 0.030693639515781065, "train/extr_reward_min": -0.6896681684843251, "train/extr_reward_std": 0.1778588055724829, "train/image_loss_mean": 2.792415244478575, "train/image_loss_std": 7.482773230109416, "train/model_loss_mean": 5.485154111620406, "train/model_loss_std": 11.470592230138644, "train/model_opt_grad_norm": 41.598818013365836, "train/model_opt_grad_steps": 70419.84507042254, "train/model_opt_loss": 8753.196763589349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1602.112676056338, "train/policy_entropy_mag": 2.378771251356098, "train/policy_entropy_max": 2.378771251356098, "train/policy_entropy_mean": 0.4334592042674481, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5224552259478771, "train/policy_logprob_mag": 7.438383982215129, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4327794636639071, "train/policy_logprob_min": -7.438383982215129, "train/policy_logprob_std": 1.0305350666314783, "train/policy_randomness_mag": 0.8396018634379749, "train/policy_randomness_max": 0.8396018634379749, "train/policy_randomness_mean": 0.15299207496810968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1844037672583486, "train/post_ent_mag": 53.65876420786683, "train/post_ent_max": 53.65876420786683, "train/post_ent_mean": 37.56484668355593, "train/post_ent_min": 17.831188175040232, "train/post_ent_std": 5.7452256041513365, "train/prior_ent_mag": 74.4860390676579, "train/prior_ent_max": 74.4860390676579, "train/prior_ent_mean": 41.95883662264112, "train/prior_ent_min": 22.162316980496257, "train/prior_ent_std": 7.679992904125805, "train/rep_loss_mean": 4.416933130210554, "train/rep_loss_std": 8.338360786437988, "train/reward_avg": 0.023181667800625444, "train/reward_loss_mean": 0.04257072581791542, "train/reward_loss_std": 0.1844016668242468, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0063619529697256, "train/reward_neg_acc": 0.9952000555857806, "train/reward_neg_loss": 0.02216084165052629, "train/reward_pos_acc": 0.985856357594611, "train/reward_pos_loss": 0.737712992748744, "train/reward_pred": 0.02288605682027172, "train/reward_rate": 0.02854038292253521, "stats/sum_log_reward": 5.349999904632568, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.125, "stats/mean_log_entropy": 0.4320325702428818, "replay/size": 142701.0, "replay/inserts": 1417.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7460488674080362e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2474250322007863e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01177859306335, "timer/env.step_count": 1417.0, "timer/env.step_total": 20.117674827575684, "timer/env.step_frac": 0.06705628332967334, "timer/env.step_avg": 0.014197371085092225, "timer/env.step_min": 0.0028960704803466797, "timer/env.step_max": 1.7087242603302002, "timer/replay.add_count": 1417.0, "timer/replay.add_total": 0.25965261459350586, "timer/replay.add_frac": 0.0008654747350626498, "timer/replay.add_avg": 0.0001832410829876541, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.001875162124633789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026139020919799805, "timer/logger.write_frac": 8.712664896818878e-05, "timer/logger.write_avg": 0.026139020919799805, "timer/logger.write_min": 0.026139020919799805, "timer/logger.write_max": 0.026139020919799805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005490779876708984, "timer/checkpoint.save_frac": 1.830188102100048e-06, "timer/checkpoint.save_avg": 0.0005490779876708984, "timer/checkpoint.save_min": 0.0005490779876708984, "timer/checkpoint.save_max": 0.0005490779876708984, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.450047492980957, "timer/agent.save_frac": 0.004833301878283268, "timer/agent.save_avg": 1.450047492980957, "timer/agent.save_min": 1.450047492980957, "timer/agent.save_max": 1.450047492980957, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.868857598168117e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1417.0, "timer/agent.policy_total": 15.214063882827759, "timer/agent.policy_frac": 0.05071155524018325, "timer/agent.policy_avg": 0.010736812902489597, "timer/agent.policy_min": 0.005675554275512695, "timer/agent.policy_max": 3.4750943183898926, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06341886520385742, "timer/dataset_frac": 0.00021138791783864897, "timer/dataset_avg": 8.957466836703025e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0001862049102783203, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.6338348388672, "timer/agent.train_frac": 0.8787449481990529, "timer/agent.train_avg": 0.37236417350122486, "timer/agent.train_min": 0.3661158084869385, "timer/agent.train_max": 0.3923501968383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21755266189575195, "timer/agent.report_frac": 0.0007251470689450526, "timer/agent.report_avg": 0.21755266189575195, "timer/agent.report_min": 0.21755266189575195, "timer/agent.report_max": 0.21755266189575195, "fps": 4.72307104584736}
+{"step": 142866, "episode/length": 171.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.029069767441860465}
+{"step": 143004, "episode/length": 137.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.043478260869565216}
+{"step": 143220, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 143382, "episode/length": 161.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.030864197530864196}
+{"step": 143603, "episode/length": 220.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.01809954751131222}
+{"step": 143757, "episode/length": 153.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03896103896103896}
+{"step": 143924, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
+{"step": 144142, "episode/length": 217.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.022935779816513763}
+{"step": 144187, "episode/length": 44.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.1111111111111111}
+{"step": 144195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.621484031139965, "train/action_min": 0.0, "train/action_std": 3.6567411724950225, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04989463521141402, "train/actor_opt_grad_steps": 71190.0, "train/actor_opt_loss": -15.66891063713062, "train/adv_mag": 0.6528212356735283, "train/adv_max": 0.6004715675199536, "train/adv_mean": 0.0028846332182433476, "train/adv_min": -0.5257685910648023, "train/adv_std": 0.061734819548650524, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 1.0536606579211698e-05, "train/cont_loss_std": 0.00015654152397614717, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000284505915350193, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 8.71030871322341e-06, "train/cont_pred": 0.9941614370950511, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.492182466345773, "train/dyn_loss_std": 8.343166015517543, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735945928264672, "train/extr_critic_critic_opt_grad_steps": 71190.0, "train/extr_critic_critic_opt_loss": 15501.924777178698, "train/extr_critic_mag": 7.172732789751509, "train/extr_critic_max": 7.172732789751509, "train/extr_critic_mean": 1.0724754358681154, "train/extr_critic_min": -0.6407015290058834, "train/extr_critic_std": 1.4668128641558364, "train/extr_return_normed_mag": 1.7825594871816501, "train/extr_return_normed_max": 1.7825594871816501, "train/extr_return_normed_mean": 0.3029563758574741, "train/extr_return_normed_min": -0.17141575848972293, "train/extr_return_normed_std": 0.3373675581435083, "train/extr_return_rate": 0.4766230436278061, "train/extr_return_raw_mag": 7.6783096958214125, "train/extr_return_raw_max": 7.6783096958214125, "train/extr_return_raw_mean": 1.0853252595579121, "train/extr_return_raw_min": -1.0286215661277234, "train/extr_return_raw_std": 1.5037120647833382, "train/extr_reward_mag": 1.020075047519845, "train/extr_reward_max": 1.020075047519845, "train/extr_reward_mean": 0.03118093364255529, "train/extr_reward_min": -0.6787098495053573, "train/extr_reward_std": 0.17860690346905883, "train/image_loss_mean": 2.8288936648570315, "train/image_loss_std": 7.734069253357363, "train/model_loss_mean": 5.566493988037109, "train/model_loss_std": 11.695230873537735, "train/model_opt_grad_norm": 36.73507634015151, "train/model_opt_grad_steps": 71129.0, "train/model_opt_loss": 6958.117490096831, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3736553427199243, "train/policy_entropy_max": 2.3736553427199243, "train/policy_entropy_mean": 0.4405565849492248, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5313749078293921, "train/policy_logprob_mag": 7.43838403594326, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4408976439858826, "train/policy_logprob_min": -7.43838403594326, "train/policy_logprob_std": 1.037694493649711, "train/policy_randomness_mag": 0.8377961675885698, "train/policy_randomness_max": 0.8377961675885698, "train/policy_randomness_mean": 0.1554971403429206, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18755202457098893, "train/post_ent_mag": 53.547426841628386, "train/post_ent_max": 53.547426841628386, "train/post_ent_mean": 37.37215369855854, "train/post_ent_min": 17.970765557087642, "train/post_ent_std": 5.733369471321644, "train/prior_ent_mag": 74.48395398636939, "train/prior_ent_max": 74.48395398636939, "train/prior_ent_mean": 41.8302084694446, "train/prior_ent_min": 22.230773549684336, "train/prior_ent_std": 7.716302676939629, "train/rep_loss_mean": 4.492182466345773, "train/rep_loss_std": 8.343166015517543, "train/reward_avg": 0.023614931851625443, "train/reward_loss_mean": 0.04228031818925495, "train/reward_loss_std": 0.192108433431303, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0078063279810086, "train/reward_neg_acc": 0.9954733554746064, "train/reward_neg_loss": 0.021640084421550725, "train/reward_pos_acc": 0.9840212195691928, "train/reward_pos_loss": 0.7439957017629919, "train/reward_pred": 0.023400563786042407, "train/reward_rate": 0.028609154929577465, "stats/sum_log_reward": 4.544444296095106, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.4444444444444446, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.38110097580485874, "replay/size": 144132.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.713565135985134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2557974407792758e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1186330318451, "timer/env.step_count": 1431.0, "timer/env.step_total": 21.78190302848816, "timer/env.step_frac": 0.07257764307548648, "timer/env.step_avg": 0.015221455645344625, "timer/env.step_min": 0.0027256011962890625, "timer/env.step_max": 1.7999300956726074, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.26264166831970215, "timer/replay.add_frac": 0.0008751261648317373, "timer/replay.add_avg": 0.00018353715466086802, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.008450984954833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03233504295349121, "timer/logger.write_frac": 0.00010774087109100018, "timer/logger.write_avg": 0.03233504295349121, "timer/logger.write_min": 0.03233504295349121, "timer/logger.write_max": 0.03233504295349121, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 10.53078556060791, "timer/agent.policy_frac": 0.0350887429221714, "timer/agent.policy_avg": 0.007359039525232642, "timer/agent.policy_min": 0.00582122802734375, "timer/agent.policy_max": 0.0197296142578125, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06401300430297852, "timer/dataset_frac": 0.00021329233595498284, "timer/dataset_avg": 8.940363729466273e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00021147727966308594, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.7494878768921, "timer/agent.train_frac": 0.8888134841284171, "timer/agent.train_avg": 0.3725551506660504, "timer/agent.train_min": 0.3655099868774414, "timer/agent.train_max": 0.3851022720336914, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183551788330078, "timer/agent.report_frac": 0.0007275628861398903, "timer/agent.report_avg": 0.2183551788330078, "timer/agent.report_min": 0.2183551788330078, "timer/agent.report_max": 0.2183551788330078, "fps": 4.768043106850387}
+{"step": 144378, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
+{"step": 144534, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05128205128205128}
+{"step": 144681, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
+{"step": 144924, "episode/length": 242.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03292181069958848}
+{"step": 145114, "episode/length": 189.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03684210526315789}
+{"step": 145258, "episode/length": 143.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04861111111111111}
+{"step": 145435, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
+{"step": 145585, "episode/length": 149.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04666666666666667}
+{"step": 145635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.688220553927952, "train/action_min": 0.0, "train/action_std": 3.668488062090344, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05001428878555695, "train/actor_opt_grad_steps": 71905.0, "train/actor_opt_loss": -14.601801248474253, "train/adv_mag": 0.6624400661223464, "train/adv_max": 0.6160862143668864, "train/adv_mean": 0.0032763923501180317, "train/adv_min": -0.5154951024386618, "train/adv_std": 0.06073829433363345, "train/cont_avg": 0.9941270616319444, "train/cont_loss_mean": 4.467066254281665e-05, "train/cont_loss_std": 0.0013480075279154056, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0019237664477789924, "train/cont_pos_acc": 0.9999862685799599, "train/cont_pos_loss": 3.074880078873182e-05, "train/cont_pred": 0.9941211698783768, "train/cont_rate": 0.9941270616319444, "train/dyn_loss_mean": 4.396854807933171, "train/dyn_loss_std": 8.346328490310245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0371486246585846, "train/extr_critic_critic_opt_grad_steps": 71905.0, "train/extr_critic_critic_opt_loss": 15590.708726671008, "train/extr_critic_mag": 7.295770737859938, "train/extr_critic_max": 7.295770737859938, "train/extr_critic_mean": 1.122344298909108, "train/extr_critic_min": -0.6541753013928732, "train/extr_critic_std": 1.470845518840684, "train/extr_return_normed_mag": 1.7981021106243134, "train/extr_return_normed_max": 1.7981021106243134, "train/extr_return_normed_mean": 0.30647361402710277, "train/extr_return_normed_min": -0.1723694612996446, "train/extr_return_normed_std": 0.3315604366362095, "train/extr_return_rate": 0.4832049599952168, "train/extr_return_raw_mag": 7.916434937053257, "train/extr_return_raw_max": 7.916434937053257, "train/extr_return_raw_mean": 1.1372591948343649, "train/extr_return_raw_min": -1.0393582955002785, "train/extr_return_raw_std": 1.5073186407486598, "train/extr_reward_mag": 1.0244640575514898, "train/extr_reward_max": 1.0244640575514898, "train/extr_reward_mean": 0.03262844950788551, "train/extr_reward_min": -0.6874443540970484, "train/extr_reward_std": 0.18208098949657547, "train/image_loss_mean": 2.7360112567742667, "train/image_loss_std": 7.401269836558236, "train/model_loss_mean": 5.416713721222347, "train/model_loss_std": 11.395256214671665, "train/model_opt_grad_norm": 40.6371955341763, "train/model_opt_grad_steps": 71844.0, "train/model_opt_loss": 11835.850470648871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.3463506996631622, "train/policy_entropy_max": 2.3463506996631622, "train/policy_entropy_mean": 0.43694155539075535, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5214181931482421, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4369121918247806, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 1.0320839178231027, "train/policy_randomness_mag": 0.8281588306029638, "train/policy_randomness_max": 0.8281588306029638, "train/policy_randomness_mean": 0.15422119210577673, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18403774003187814, "train/post_ent_mag": 53.5343009630839, "train/post_ent_max": 53.5343009630839, "train/post_ent_mean": 37.60191843244765, "train/post_ent_min": 18.062347438600327, "train/post_ent_std": 5.681229293346405, "train/prior_ent_mag": 74.43223804897733, "train/prior_ent_max": 74.43223804897733, "train/prior_ent_mean": 41.93929227193197, "train/prior_ent_min": 21.913547303941513, "train/prior_ent_std": 7.636290437645382, "train/rep_loss_mean": 4.396854807933171, "train/rep_loss_std": 8.346328490310245, "train/reward_avg": 0.024145507564147312, "train/reward_loss_mean": 0.04254495549119181, "train/reward_loss_std": 0.18901874725189474, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0049008015129302, "train/reward_neg_acc": 0.995540150337749, "train/reward_neg_loss": 0.021414514307657048, "train/reward_pos_acc": 0.985425611337026, "train/reward_pos_loss": 0.7414024621248245, "train/reward_pred": 0.02390303085040715, "train/reward_rate": 0.029364691840277776, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 5.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 0.25, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.25, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.38811701722443104, "replay/size": 145572.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7757886780632866e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2469374471240574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10243225097656, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.19905114173889, "timer/env.step_frac": 0.06730718904952548, "timer/env.step_avg": 0.014027118848429786, "timer/env.step_min": 0.0027327537536621094, "timer/env.step_max": 1.6936559677124023, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25420451164245605, "timer/replay.add_frac": 0.0008470591515561728, "timer/replay.add_avg": 0.0001765309108628167, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.002123594284057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02747821807861328, "timer/logger.write_frac": 9.156279698404166e-05, "timer/logger.write_avg": 0.02747821807861328, "timer/logger.write_min": 0.02747821807861328, "timer/logger.write_max": 0.02747821807861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.567148447036743, "timer/agent.policy_frac": 0.035211805408492676, "timer/agent.policy_avg": 0.007338297532664405, "timer/agent.policy_min": 0.005710124969482422, "timer/agent.policy_max": 0.01831674575805664, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06587982177734375, "timer/dataset_frac": 0.0002195244513121715, "timer/dataset_avg": 9.149975246853298e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002624988555908203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2772982120514, "timer/agent.train_frac": 0.8939524288416639, "timer/agent.train_avg": 0.37260735862784916, "timer/agent.train_min": 0.36655402183532715, "timer/agent.train_max": 0.3848271369934082, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22152161598205566, "timer/agent.report_frac": 0.0007381533509091872, "timer/agent.report_avg": 0.22152161598205566, "timer/agent.report_min": 0.22152161598205566, "timer/agent.report_max": 0.22152161598205566, "fps": 4.798292161362095}
+{"step": 145771, "episode/length": 185.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03763440860215054}
+{"step": 146222, "episode/length": 450.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.015521064301552107}
+{"step": 146406, "episode/length": 183.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.03804347826086957}
+{"step": 146557, "episode/length": 150.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.019867549668874173}
+{"step": 146706, "episode/length": 148.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.040268456375838924}
+{"step": 146890, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03804347826086957}
+{"step": 147053, "episode/length": 162.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.04294478527607362}
+{"step": 147063, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.591277228461371, "train/action_min": 0.0, "train/action_std": 3.537717478142844, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04865283208588759, "train/actor_opt_grad_steps": 72625.0, "train/actor_opt_loss": -14.691596969690485, "train/adv_mag": 0.6497036971979671, "train/adv_max": 0.6077817529439926, "train/adv_mean": 0.0030098674944585785, "train/adv_min": -0.5056782253086567, "train/adv_std": 0.05990720147060023, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 6.031924913606367e-05, "train/cont_loss_std": 0.0014690520202091445, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.008283922976766512, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8077382993395316e-05, "train/cont_pred": 0.9939527966909938, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.51503798365593, "train/dyn_loss_std": 8.433610876401266, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0438110397921667, "train/extr_critic_critic_opt_grad_steps": 72625.0, "train/extr_critic_critic_opt_loss": 15742.131144205729, "train/extr_critic_mag": 7.5193087458610535, "train/extr_critic_max": 7.5193087458610535, "train/extr_critic_mean": 1.14188870953189, "train/extr_critic_min": -0.6229867471588982, "train/extr_critic_std": 1.5473784125513501, "train/extr_return_normed_mag": 1.781862121489313, "train/extr_return_normed_max": 1.781862121489313, "train/extr_return_normed_mean": 0.2996195656143957, "train/extr_return_normed_min": -0.16255791971666944, "train/extr_return_normed_std": 0.33627393779655296, "train/extr_return_rate": 0.4695195183157921, "train/extr_return_raw_mag": 8.141281624635061, "train/extr_return_raw_max": 8.141281624635061, "train/extr_return_raw_mean": 1.15604889475637, "train/extr_return_raw_min": -1.0203584167692397, "train/extr_return_raw_std": 1.5837397740946875, "train/extr_reward_mag": 1.02075614200698, "train/extr_reward_max": 1.02075614200698, "train/extr_reward_mean": 0.03183997166343033, "train/extr_reward_min": -0.6796343161000146, "train/extr_reward_std": 0.1794517365180784, "train/image_loss_mean": 2.850448633233706, "train/image_loss_std": 7.498920778433482, "train/model_loss_mean": 5.60215715236134, "train/model_loss_std": 11.54179138607449, "train/model_opt_grad_norm": 43.63394149144491, "train/model_opt_grad_steps": 72563.01388888889, "train/model_opt_loss": 7077.818203396268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.367947432729933, "train/policy_entropy_max": 2.367947432729933, "train/policy_entropy_mean": 0.43288049722711247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5195757908125719, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43249274003836846, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 1.0288514362441168, "train/policy_randomness_mag": 0.8357815287179418, "train/policy_randomness_max": 0.8357815287179418, "train/policy_randomness_mean": 0.15278781836645472, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18338745397826037, "train/post_ent_mag": 53.872643099890816, "train/post_ent_max": 53.872643099890816, "train/post_ent_mean": 37.662998888227676, "train/post_ent_min": 18.164598292774624, "train/post_ent_std": 5.809256725841099, "train/prior_ent_mag": 74.48695680830214, "train/prior_ent_max": 74.48695680830214, "train/prior_ent_mean": 42.134007612864174, "train/prior_ent_min": 23.253363132476807, "train/prior_ent_std": 7.787171317471398, "train/rep_loss_mean": 4.51503798365593, "train/rep_loss_std": 8.433610876401266, "train/reward_avg": 0.023777940291135263, "train/reward_loss_mean": 0.04262540626546575, "train/reward_loss_std": 0.1862759929564264, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0071964694394007, "train/reward_neg_acc": 0.9951525926589966, "train/reward_neg_loss": 0.02225716608679957, "train/reward_pos_acc": 0.990152114795314, "train/reward_pos_loss": 0.7220434430572722, "train/reward_pred": 0.023705588485528197, "train/reward_rate": 0.028984917534722224, "stats/sum_log_reward": 5.242857115609305, "stats/max_log_achievement_collect_drink": 6.142857142857143, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.41642976232937406, "replay/size": 147000.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.6464017980238972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2497983726800657e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3402810096741, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.24392294883728, "timer/env.step_frac": 0.06407373291435865, "timer/env.step_avg": 0.013476136518793614, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.7509613037109375, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2522697448730469, "timer/replay.add_frac": 0.0008399464235199313, "timer/replay.add_avg": 0.0001766594852052149, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.0025675296783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02730274200439453, "timer/logger.write_frac": 9.090602803130193e-05, "timer/logger.write_avg": 0.02730274200439453, "timer/logger.write_min": 0.02730274200439453, "timer/logger.write_max": 0.02730274200439453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003037452697753906, "timer/checkpoint.save_frac": 1.0113371032159582e-06, "timer/checkpoint.save_avg": 0.0003037452697753906, "timer/checkpoint.save_min": 0.0003037452697753906, "timer/checkpoint.save_max": 0.0003037452697753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3789596557617188, "timer/agent.save_frac": 0.004591324384215056, "timer/agent.save_avg": 1.3789596557617188, "timer/agent.save_min": 1.3789596557617188, "timer/agent.save_max": 1.3789596557617188, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.706954098874739e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.746213912963867, "timer/agent.policy_frac": 0.039109685432389664, "timer/agent.policy_avg": 0.008225639995072736, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 1.3736653327941895, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06341099739074707, "timer/dataset_frac": 0.0002111305122895073, "timer/dataset_avg": 8.881092071533203e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0003974437713623047, "timer/agent.train_count": 714.0, "timer/agent.train_total": 268.315847158432, "timer/agent.train_frac": 0.8933728311647596, "timer/agent.train_avg": 0.37579250302301404, "timer/agent.train_min": 0.36597609519958496, "timer/agent.train_max": 2.8367795944213867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21755456924438477, "timer/agent.report_frac": 0.0007243602773261614, "timer/agent.report_avg": 0.21755456924438477, "timer/agent.report_min": 0.21755456924438477, "timer/agent.report_max": 0.21755456924438477, "fps": 4.754524387981648}
+{"step": 147246, "episode/length": 192.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03626943005181347}
+{"step": 147425, "episode/length": 178.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.03910614525139665}
+{"step": 147603, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.033707865168539325}
+{"step": 147816, "episode/length": 212.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03286384976525822}
+{"step": 147998, "episode/length": 181.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.02197802197802198}
+{"step": 148288, "episode/length": 289.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.020689655172413793}
+{"step": 148468, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027777777777777776}
+{"step": 148511, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5494842529296875, "train/action_min": 0.0, "train/action_std": 3.553004559543398, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04947858153738909, "train/actor_opt_grad_steps": 73345.0, "train/actor_opt_loss": -14.114919789963299, "train/adv_mag": 0.6603266195290618, "train/adv_max": 0.6156508016089598, "train/adv_mean": 0.0027381768591617905, "train/adv_min": -0.501185087280141, "train/adv_std": 0.05941768249289857, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 0.0002414091011660149, "train/cont_loss_std": 0.007594131388006847, "train/cont_neg_acc": 0.9939649485879474, "train/cont_neg_loss": 0.02477578609412174, "train/cont_pos_acc": 0.9999863381187121, "train/cont_pos_loss": 7.680002617524749e-05, "train/cont_pred": 0.9943723181883494, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.539548506339391, "train/dyn_loss_std": 8.423365725411308, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0705868071979947, "train/extr_critic_critic_opt_grad_steps": 73345.0, "train/extr_critic_critic_opt_loss": 15639.00788031684, "train/extr_critic_mag": 7.638748288154602, "train/extr_critic_max": 7.638748288154602, "train/extr_critic_mean": 1.2233941190772586, "train/extr_critic_min": -0.603733069366879, "train/extr_critic_std": 1.5660077548689313, "train/extr_return_normed_mag": 1.7807477398051157, "train/extr_return_normed_max": 1.7807477398051157, "train/extr_return_normed_mean": 0.3061082777049806, "train/extr_return_normed_min": -0.15104075169397724, "train/extr_return_normed_std": 0.33601379663579994, "train/extr_return_rate": 0.49354205487502945, "train/extr_return_raw_mag": 8.25906236966451, "train/extr_return_raw_max": 8.25906236966451, "train/extr_return_raw_mean": 1.2364224427276187, "train/extr_return_raw_min": -0.9405100933379598, "train/extr_return_raw_std": 1.6004643953508801, "train/extr_reward_mag": 1.0260302556885614, "train/extr_reward_max": 1.0260302556885614, "train/extr_reward_mean": 0.03229831394532488, "train/extr_reward_min": -0.6563152356280221, "train/extr_reward_std": 0.179526931916674, "train/image_loss_mean": 2.795143981774648, "train/image_loss_std": 7.603202253580093, "train/model_loss_mean": 5.561800443463856, "train/model_loss_std": 11.654044681125217, "train/model_opt_grad_norm": 39.775896628697716, "train/model_opt_grad_steps": 73283.0, "train/model_opt_loss": 11052.22014702691, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.3811644547515445, "train/policy_entropy_max": 2.3811644547515445, "train/policy_entropy_mean": 0.42040549508399433, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5186163307064109, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42028703168034554, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 1.024478394124243, "train/policy_randomness_mag": 0.8404465566078821, "train/policy_randomness_max": 0.8404465566078821, "train/policy_randomness_mean": 0.14838469038820928, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18304880832632384, "train/post_ent_mag": 54.17930343416002, "train/post_ent_max": 54.17930343416002, "train/post_ent_mean": 37.79127264022827, "train/post_ent_min": 18.221570478545296, "train/post_ent_std": 5.702835573090447, "train/prior_ent_mag": 74.57123576270209, "train/prior_ent_max": 74.57123576270209, "train/prior_ent_mean": 42.24446540408664, "train/prior_ent_min": 22.965781079398262, "train/prior_ent_std": 7.619030409389072, "train/rep_loss_mean": 4.539548506339391, "train/rep_loss_std": 8.423365725411308, "train/reward_avg": 0.02444525808095932, "train/reward_loss_mean": 0.04268598305578861, "train/reward_loss_std": 0.18821650474435753, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0111121932665508, "train/reward_neg_acc": 0.9954194260968102, "train/reward_neg_loss": 0.021447799672993522, "train/reward_pos_acc": 0.9855539004007975, "train/reward_pos_loss": 0.740731899936994, "train/reward_pred": 0.024261087593105104, "train/reward_rate": 0.029568142361111112, "stats/sum_log_reward": 4.814285687037876, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.44819306475775583, "replay/size": 148448.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7610201545841784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2543731631495017e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0154480934143, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.734932899475098, "timer/env.step_frac": 0.06244656073057177, "timer/env.step_avg": 0.012938489571460703, "timer/env.step_min": 0.002936124801635742, "timer/env.step_max": 1.7320585250854492, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2756636142730713, "timer/replay.add_frac": 0.0009188314002658933, "timer/replay.add_avg": 0.00019037542422173433, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004351377487182617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023543119430541992, "timer/logger.write_frac": 7.847302390646061e-05, "timer/logger.write_avg": 0.023543119430541992, "timer/logger.write_min": 0.023543119430541992, "timer/logger.write_max": 0.023543119430541992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.57718300819397, "timer/agent.policy_frac": 0.035255461261783444, "timer/agent.policy_avg": 0.007304684397924012, "timer/agent.policy_min": 0.005656719207763672, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06544685363769531, "timer/dataset_frac": 0.0002181449457139869, "timer/dataset_avg": 9.03962066818996e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6334807872772, "timer/agent.train_frac": 0.8987319903051219, "timer/agent.train_avg": 0.37242193478905694, "timer/agent.train_min": 0.36637449264526367, "timer/agent.train_max": 0.38841915130615234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22002673149108887, "timer/agent.report_frac": 0.0007333846736538055, "timer/agent.report_avg": 0.22002673149108887, "timer/agent.report_min": 0.22002673149108887, "timer/agent.report_max": 0.22002673149108887, "fps": 4.826332940459132}
+{"step": 148660, "episode/length": 191.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.036458333333333336}
+{"step": 148823, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049079754601226995}
+{"step": 149060, "episode/length": 236.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.02531645569620253}
+{"step": 149224, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 149419, "episode/length": 194.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.035897435897435895}
+{"step": 149596, "episode/length": 176.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.02824858757062147}
+{"step": 149746, "episode/length": 149.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04666666666666667}
+{"step": 149885, "episode/length": 138.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.9000000432133675, "episode/reward_rate": 0.050359712230215826}
+{"step": 149955, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.518467373318142, "train/action_min": 0.0, "train/action_std": 3.4859145449267492, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04945040840862526, "train/actor_opt_grad_steps": 74065.0, "train/actor_opt_loss": -14.380132137901253, "train/adv_mag": 0.823880480395423, "train/adv_max": 0.7614356825749079, "train/adv_mean": 0.002766536912531592, "train/adv_min": -0.6070402007963922, "train/adv_std": 0.061485602986067533, "train/cont_avg": 0.9944525824652778, "train/cont_loss_mean": 4.939996263273214e-05, "train/cont_loss_std": 0.0014364016954383867, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0074928169585998855, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 8.285179920106441e-06, "train/cont_pred": 0.994468554854393, "train/cont_rate": 0.9944525824652778, "train/dyn_loss_mean": 4.462627808252971, "train/dyn_loss_std": 8.442742049694061, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0718485299083922, "train/extr_critic_critic_opt_grad_steps": 74065.0, "train/extr_critic_critic_opt_loss": 15588.89195421007, "train/extr_critic_mag": 8.463881995942858, "train/extr_critic_max": 8.463881995942858, "train/extr_critic_mean": 1.1565818844570055, "train/extr_critic_min": -0.629638844066196, "train/extr_critic_std": 1.5752073559496138, "train/extr_return_normed_mag": 1.968137683139907, "train/extr_return_normed_max": 1.968137683139907, "train/extr_return_normed_mean": 0.29443322204881245, "train/extr_return_normed_min": -0.172019487246871, "train/extr_return_normed_std": 0.34532565664913917, "train/extr_return_rate": 0.46882236210836303, "train/extr_return_raw_mag": 8.997137685616812, "train/extr_return_raw_max": 8.997137685616812, "train/extr_return_raw_mean": 1.1695137355062697, "train/extr_return_raw_min": -1.0111354630854394, "train/extr_return_raw_std": 1.6149618443515565, "train/extr_reward_mag": 1.0230800873703427, "train/extr_reward_max": 1.0230800873703427, "train/extr_reward_mean": 0.031520739301211305, "train/extr_reward_min": -0.6750567621654935, "train/extr_reward_std": 0.17746266826159424, "train/image_loss_mean": 2.8948776341146893, "train/image_loss_std": 7.632745875252618, "train/model_loss_mean": 5.614950971470939, "train/model_loss_std": 11.688681344191233, "train/model_opt_grad_norm": 42.09813581572639, "train/model_opt_grad_steps": 74002.09722222222, "train/model_opt_loss": 7751.172668457031, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1371.5277777777778, "train/policy_entropy_mag": 2.3735935389995575, "train/policy_entropy_max": 2.3735935389995575, "train/policy_entropy_mean": 0.42402397592862445, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5161579151948293, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42387064256601864, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 1.0254951491951942, "train/policy_randomness_mag": 0.837774352894889, "train/policy_randomness_max": 0.837774352894889, "train/policy_randomness_mean": 0.14966185484081507, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18218109156522486, "train/post_ent_mag": 54.47844537099203, "train/post_ent_max": 54.47844537099203, "train/post_ent_mean": 38.09368276596069, "train/post_ent_min": 18.213466935687595, "train/post_ent_std": 5.812139418390062, "train/prior_ent_mag": 74.73425642649333, "train/prior_ent_max": 74.73425642649333, "train/prior_ent_mean": 42.46120145585802, "train/prior_ent_min": 22.780144532521565, "train/prior_ent_std": 7.658847027354771, "train/rep_loss_mean": 4.462627808252971, "train/rep_loss_std": 8.442742049694061, "train/reward_avg": 0.023532443524648745, "train/reward_loss_mean": 0.04244723326216141, "train/reward_loss_std": 0.18984961323440075, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.007439661357138, "train/reward_neg_acc": 0.9958673235442903, "train/reward_neg_loss": 0.021928893046505336, "train/reward_pos_acc": 0.9887351393699646, "train/reward_pos_loss": 0.7379684630367491, "train/reward_pred": 0.02328961408541848, "train/reward_rate": 0.028645833333333332, "stats/sum_log_reward": 5.224999964237213, "stats/max_log_achievement_collect_drink": 5.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3879186324775219, "replay/size": 149892.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.703743467040339e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2613977421683948e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2947962284088, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.761901140213013, "timer/env.step_frac": 0.0658083369689224, "timer/env.step_avg": 0.013685527105410674, "timer/env.step_min": 0.002610921859741211, "timer/env.step_max": 1.6759464740753174, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26752805709838867, "timer/replay.add_frac": 0.0008908847587718527, "timer/replay.add_avg": 0.00018526873760276225, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.0028057098388671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02246880531311035, "timer/logger.write_frac": 7.482249308116627e-05, "timer/logger.write_avg": 0.02246880531311035, "timer/logger.write_min": 0.02246880531311035, "timer/logger.write_max": 0.02246880531311035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.547786235809326, "timer/agent.policy_frac": 0.03512477195171414, "timer/agent.policy_avg": 0.007304561105131112, "timer/agent.policy_min": 0.005721330642700195, "timer/agent.policy_max": 0.017526865005493164, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06454634666442871, "timer/dataset_frac": 0.00021494327399311234, "timer/dataset_avg": 8.93993721113971e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.92036151885986, "timer/agent.train_frac": 0.8955212174716305, "timer/agent.train_avg": 0.3724658746798613, "timer/agent.train_min": 0.3663461208343506, "timer/agent.train_max": 0.3840153217315674, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21878790855407715, "timer/agent.report_frac": 0.0007285770892535338, "timer/agent.report_avg": 0.21878790855407715, "timer/agent.report_min": 0.21878790855407715, "timer/agent.report_max": 0.21878790855407715, "fps": 4.8085137915626355}
+{"step": 150042, "episode/length": 156.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.03821656050955414}
+{"step": 150200, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05063291139240506}
+{"step": 150389, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.037037037037037035}
+{"step": 150558, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 150624, "episode/length": 65.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07575757575757576}
+{"step": 150806, "episode/length": 181.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.04945054945054945}
+{"step": 150981, "episode/length": 174.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04}
+{"step": 151168, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03208556149732621}
+{"step": 151373, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.579940580985915, "train/action_min": 0.0, "train/action_std": 3.5750022102409686, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050129981055645874, "train/actor_opt_grad_steps": 74780.0, "train/actor_opt_loss": -12.559779168434545, "train/adv_mag": 0.6997050815065142, "train/adv_max": 0.6492223328268024, "train/adv_mean": 0.00317875710883732, "train/adv_min": -0.5188204562160331, "train/adv_std": 0.061021747146274, "train/cont_avg": 0.9944294674295775, "train/cont_loss_mean": 0.00017812044194763177, "train/cont_loss_std": 0.005499978219330855, "train/cont_neg_acc": 0.9928236100035654, "train/cont_neg_loss": 0.03236993817751079, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4927897591181609e-05, "train/cont_pred": 0.9944564817656933, "train/cont_rate": 0.9944294674295775, "train/dyn_loss_mean": 4.614520788192749, "train/dyn_loss_std": 8.471419307547556, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047152881051453, "train/extr_critic_critic_opt_grad_steps": 74780.0, "train/extr_critic_critic_opt_loss": 15520.757289832747, "train/extr_critic_mag": 7.66641081554789, "train/extr_critic_max": 7.66641081554789, "train/extr_critic_mean": 1.1622958896865307, "train/extr_critic_min": -0.5998143024847541, "train/extr_critic_std": 1.5194954334850042, "train/extr_return_normed_mag": 1.7815709231604993, "train/extr_return_normed_max": 1.7815709231604993, "train/extr_return_normed_mean": 0.2978007644414902, "train/extr_return_normed_min": -0.15799820475595097, "train/extr_return_normed_std": 0.3365302476244913, "train/extr_return_rate": 0.4605579027827357, "train/extr_return_raw_mag": 8.029880691582049, "train/extr_return_raw_max": 8.029880691582049, "train/extr_return_raw_mean": 1.1769808027106272, "train/extr_return_raw_min": -0.9289343676096956, "train/extr_return_raw_std": 1.5552964630261275, "train/extr_reward_mag": 1.0187510957180614, "train/extr_reward_max": 1.0187510957180614, "train/extr_reward_mean": 0.03186049865899791, "train/extr_reward_min": -0.6651332294437248, "train/extr_reward_std": 0.177267763396384, "train/image_loss_mean": 2.9034745021605155, "train/image_loss_std": 7.821893765892781, "train/model_loss_mean": 5.714324974677932, "train/model_loss_std": 11.880733530286332, "train/model_opt_grad_norm": 37.31189123341735, "train/model_opt_grad_steps": 74716.71830985915, "train/model_opt_loss": 8752.364244058099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1531.6901408450703, "train/policy_entropy_mag": 2.3835260129310716, "train/policy_entropy_max": 2.3835260129310716, "train/policy_entropy_mean": 0.4323155695283917, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.525719121728145, "train/policy_logprob_mag": 7.438384076239357, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4313866076335101, "train/policy_logprob_min": -7.438384076239357, "train/policy_logprob_std": 1.02651804013991, "train/policy_randomness_mag": 0.8412800851002545, "train/policy_randomness_max": 0.8412800851002545, "train/policy_randomness_mean": 0.1525884240236081, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18555578190675923, "train/post_ent_mag": 53.784869664151906, "train/post_ent_max": 53.784869664151906, "train/post_ent_mean": 38.08817156939439, "train/post_ent_min": 18.158449495342417, "train/post_ent_std": 5.77894419683537, "train/prior_ent_mag": 74.78535418443276, "train/prior_ent_max": 74.78535418443276, "train/prior_ent_mean": 42.639652198469136, "train/prior_ent_min": 23.367115799809845, "train/prior_ent_std": 7.591602137390996, "train/rep_loss_mean": 4.614520788192749, "train/rep_loss_std": 8.471419307547556, "train/reward_avg": 0.023686454513333212, "train/reward_loss_mean": 0.04195989676239625, "train/reward_loss_std": 0.19158706142449042, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.006030324479224, "train/reward_neg_acc": 0.995930939493045, "train/reward_neg_loss": 0.021081694244394, "train/reward_pos_acc": 0.9851718838785736, "train/reward_pos_loss": 0.7449695283258465, "train/reward_pred": 0.023374968221489812, "train/reward_rate": 0.028760453345070422, "stats/sum_log_reward": 5.849999904632568, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3203839473426342, "replay/size": 151310.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.7161688542332402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2548921474784991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1435327529907, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.852766752243042, "timer/env.step_frac": 0.07613946081940134, "timer/env.step_avg": 0.016116196581271537, "timer/env.step_min": 0.002905130386352539, "timer/env.step_max": 2.6117122173309326, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2864494323730469, "timer/replay.add_frac": 0.000954374827755447, "timer/replay.add_avg": 0.00020200947275955352, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.007714748382568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0222170352935791, "timer/logger.write_frac": 7.40213693421909e-05, "timer/logger.write_avg": 0.0222170352935791, "timer/logger.write_min": 0.0222170352935791, "timer/logger.write_max": 0.0222170352935791, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006017684936523438, "timer/checkpoint.save_frac": 2.0049357323570304e-06, "timer/checkpoint.save_avg": 0.0006017684936523438, "timer/checkpoint.save_min": 0.0006017684936523438, "timer/checkpoint.save_max": 0.0006017684936523438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3288915157318115, "timer/agent.save_frac": 0.00442752007195654, "timer/agent.save_avg": 1.3288915157318115, "timer/agent.save_min": 1.3288915157318115, "timer/agent.save_max": 1.3288915157318115, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.295608520507812e-05, "timer/replay.save_frac": 2.430706553491487e-07, "timer/replay.save_avg": 7.295608520507812e-05, "timer/replay.save_min": 7.295608520507812e-05, "timer/replay.save_max": 7.295608520507812e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 11.661845922470093, "timer/agent.policy_frac": 0.03885423022613467, "timer/agent.policy_avg": 0.008224150862108669, "timer/agent.policy_min": 0.005669116973876953, "timer/agent.policy_max": 1.319117546081543, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06507515907287598, "timer/dataset_frac": 0.00021681346413161237, "timer/dataset_avg": 9.178442746526936e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002841949462890625, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.56145453453064, "timer/agent.train_frac": 0.8814497920641752, "timer/agent.train_avg": 0.37314732656492333, "timer/agent.train_min": 0.36629271507263184, "timer/agent.train_max": 0.863875150680542, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21832013130187988, "timer/agent.report_frac": 0.0007273857587381398, "timer/agent.report_avg": 0.21832013130187988, "timer/agent.report_min": 0.21832013130187988, "timer/agent.report_max": 0.21832013130187988, "fps": 4.724322942311054}
+{"step": 151400, "episode/length": 231.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 5.500000014901161, "episode/reward_rate": 0.017241379310344827}
+{"step": 151572, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
+{"step": 151765, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04145077720207254}
+{"step": 151995, "episode/length": 229.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.030434782608695653}
+{"step": 152179, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
+{"step": 152471, "episode/length": 291.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.023972602739726026}
+{"step": 152716, "episode/length": 244.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.0163265306122449}
+{"step": 152823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5383233893407535, "train/action_min": 0.0, "train/action_std": 3.547602565321204, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05177262001862264, "train/actor_opt_grad_steps": 75500.0, "train/actor_opt_loss": -15.806681818953932, "train/adv_mag": 0.6598750577397543, "train/adv_max": 0.6208563871579628, "train/adv_mean": 0.003101031678889827, "train/adv_min": -0.523786919165964, "train/adv_std": 0.061897523803253696, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00010582266084272043, "train/cont_loss_std": 0.0029451920180229674, "train/cont_neg_acc": 0.9908675804530105, "train/cont_neg_loss": 0.013782245077492592, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 2.385147044453508e-05, "train/cont_pred": 0.9941659986156307, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.503133140198172, "train/dyn_loss_std": 8.385790955530455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0691886380927202, "train/extr_critic_critic_opt_grad_steps": 75500.0, "train/extr_critic_critic_opt_loss": 15594.063596960616, "train/extr_critic_mag": 7.4442792722623645, "train/extr_critic_max": 7.4442792722623645, "train/extr_critic_mean": 1.206971772729534, "train/extr_critic_min": -0.6330776492210284, "train/extr_critic_std": 1.5052165952447343, "train/extr_return_normed_mag": 1.7573437086523396, "train/extr_return_normed_max": 1.7573437086523396, "train/extr_return_normed_mean": 0.30659268347367846, "train/extr_return_normed_min": -0.16668119740812745, "train/extr_return_normed_std": 0.33344357715894096, "train/extr_return_rate": 0.4921741493760723, "train/extr_return_raw_mag": 7.9254462294382595, "train/extr_return_raw_max": 7.9254462294382595, "train/extr_return_raw_mean": 1.2213478839560732, "train/extr_return_raw_min": -0.9658676830873097, "train/extr_return_raw_std": 1.5413375782640013, "train/extr_reward_mag": 1.0265930123525122, "train/extr_reward_max": 1.0265930123525122, "train/extr_reward_mean": 0.033657456148568896, "train/extr_reward_min": -0.6758333983486646, "train/extr_reward_std": 0.18184851314107034, "train/image_loss_mean": 2.777239544750893, "train/image_loss_std": 7.582882005874425, "train/model_loss_mean": 5.5239968234545564, "train/model_loss_std": 11.609980733427284, "train/model_opt_grad_norm": 38.098956878871135, "train/model_opt_grad_steps": 75436.0, "train/model_opt_loss": 6904.996020173373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.374194275842954, "train/policy_entropy_max": 2.374194275842954, "train/policy_entropy_mean": 0.4199332096805311, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5102494836670078, "train/policy_logprob_mag": 7.438384075687356, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4194772272077325, "train/policy_logprob_min": -7.438384075687356, "train/policy_logprob_std": 1.0214957284600767, "train/policy_randomness_mag": 0.8379863908846085, "train/policy_randomness_max": 0.8379863908846085, "train/policy_randomness_mean": 0.14821799599552807, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1800956760775553, "train/post_ent_mag": 54.2987875742455, "train/post_ent_max": 54.2987875742455, "train/post_ent_mean": 38.018567490251094, "train/post_ent_min": 18.115209200610852, "train/post_ent_std": 5.780554209669975, "train/prior_ent_mag": 74.59087444984749, "train/prior_ent_max": 74.59087444984749, "train/prior_ent_mean": 42.47383614108987, "train/prior_ent_min": 23.10672922003759, "train/prior_ent_std": 7.621036509944968, "train/rep_loss_mean": 4.503133140198172, "train/rep_loss_std": 8.385790955530455, "train/reward_avg": 0.025709010800984623, "train/reward_loss_mean": 0.04477154164996049, "train/reward_loss_std": 0.19646722670287303, "train/reward_max_data": 1.009589043382096, "train/reward_max_pred": 1.0088401657261261, "train/reward_neg_acc": 0.994890131362497, "train/reward_neg_loss": 0.02288495356293574, "train/reward_pos_acc": 0.9876047911709303, "train/reward_pos_loss": 0.733523963248893, "train/reward_pred": 0.025543995125040617, "train/reward_rate": 0.03087542808219178, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_sapling": 3.5714285714285716, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 2.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 3.142857142857143, "stats/mean_log_entropy": 0.5175726967198508, "replay/size": 152760.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7864158893453665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.27336074566019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2537684440613, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.57120370864868, "timer/env.step_frac": 0.06185169233640638, "timer/env.step_avg": 0.01280772669561978, "timer/env.step_min": 0.0030405521392822266, "timer/env.step_max": 1.6707096099853516, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27634596824645996, "timer/replay.add_frac": 0.00092037468731369, "timer/replay.add_avg": 0.00019058342637686893, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0038061141967773438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030393362045288086, "timer/logger.write_frac": 0.0001012255806239798, "timer/logger.write_avg": 0.030393362045288086, "timer/logger.write_min": 0.030393362045288086, "timer/logger.write_max": 0.030393362045288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.70837926864624, "timer/agent.policy_frac": 0.03566442920646061, "timer/agent.policy_avg": 0.00738508915079051, "timer/agent.policy_min": 0.005742311477661133, "timer/agent.policy_max": 0.016683101654052734, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06670546531677246, "timer/dataset_frac": 0.00022216362399861105, "timer/dataset_avg": 9.200753836796202e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0002682209014892578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.8975875377655, "timer/agent.train_frac": 0.8988982517568259, "timer/agent.train_avg": 0.372272534534849, "timer/agent.train_min": 0.36594271659851074, "timer/agent.train_max": 0.3841211795806885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21918845176696777, "timer/agent.report_frac": 0.000730010660325163, "timer/agent.report_avg": 0.21918845176696777, "timer/agent.report_min": 0.21918845176696777, "timer/agent.report_max": 0.21918845176696777, "fps": 4.829149291208248}
+{"step": 152905, "episode/length": 188.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.031746031746031744}
+{"step": 153085, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03333333333333333}
+{"step": 153282, "episode/length": 196.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030456852791878174}
+{"step": 153504, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.02702702702702703}
+{"step": 153672, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02976190476190476}
+{"step": 153889, "episode/length": 216.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03225806451612903}
+{"step": 154078, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 154240, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
+{"step": 154265, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7298329671223955, "train/action_min": 0.0, "train/action_std": 3.661718769205941, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05047020217817691, "train/actor_opt_grad_steps": 76225.0, "train/actor_opt_loss": -16.043286601702373, "train/adv_mag": 0.6221300843689177, "train/adv_max": 0.5727568910353713, "train/adv_mean": 0.002660022960400157, "train/adv_min": -0.5050649353199534, "train/adv_std": 0.06099812857185801, "train/cont_avg": 0.9941813151041666, "train/cont_loss_mean": 3.1757060127467364e-05, "train/cont_loss_std": 0.0008470475909424143, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.002636778590486857, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.6268612140398393e-05, "train/cont_pred": 0.9941770715845956, "train/cont_rate": 0.9941813151041666, "train/dyn_loss_mean": 4.464472144842148, "train/dyn_loss_std": 8.376818590694004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.10419400036335, "train/extr_critic_critic_opt_grad_steps": 76225.0, "train/extr_critic_critic_opt_loss": 15517.367933485242, "train/extr_critic_mag": 7.08116708861457, "train/extr_critic_max": 7.08116708861457, "train/extr_critic_mean": 1.192317032151752, "train/extr_critic_min": -0.6281568805376688, "train/extr_critic_std": 1.5232870827118556, "train/extr_return_normed_mag": 1.687168088224199, "train/extr_return_normed_max": 1.687168088224199, "train/extr_return_normed_mean": 0.30591984941727585, "train/extr_return_normed_min": -0.15862121888332897, "train/extr_return_normed_std": 0.33533464889559483, "train/extr_return_rate": 0.4828134288804399, "train/extr_return_raw_mag": 7.622565064165327, "train/extr_return_raw_max": 7.622565064165327, "train/extr_return_raw_mean": 1.2046781008442242, "train/extr_return_raw_min": -0.9538651986254586, "train/extr_return_raw_std": 1.5576857576767604, "train/extr_reward_mag": 1.0256014929877386, "train/extr_reward_max": 1.0256014929877386, "train/extr_reward_mean": 0.03148313675127509, "train/extr_reward_min": -0.6768928385443158, "train/extr_reward_std": 0.17830510147743756, "train/image_loss_mean": 2.7169083224402533, "train/image_loss_std": 7.1926168004671736, "train/model_loss_mean": 5.437587983078426, "train/model_loss_std": 11.23531593879064, "train/model_opt_grad_norm": 39.48601150512695, "train/model_opt_grad_steps": 76161.0, "train/model_opt_loss": 12931.817023383246, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.352037502659692, "train/policy_entropy_max": 2.352037502659692, "train/policy_entropy_mean": 0.42274395210875404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5006820501552688, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42205855747063953, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 1.0180828149120014, "train/policy_randomness_mag": 0.8301660219828287, "train/policy_randomness_max": 0.8301660219828287, "train/policy_randomness_mean": 0.14921006394757164, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17671879215372932, "train/post_ent_mag": 54.53904681735568, "train/post_ent_max": 54.53904681735568, "train/post_ent_mean": 38.31917799843682, "train/post_ent_min": 18.4947815073861, "train/post_ent_std": 5.86335770951377, "train/prior_ent_mag": 74.79982821146648, "train/prior_ent_max": 74.79982821146648, "train/prior_ent_mean": 42.72250493367513, "train/prior_ent_min": 23.30152792400784, "train/prior_ent_std": 7.667184842957391, "train/rep_loss_mean": 4.464472144842148, "train/rep_loss_std": 8.376818590694004, "train/reward_avg": 0.022482638583622046, "train/reward_loss_mean": 0.04196461010724306, "train/reward_loss_std": 0.1863713258256515, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0126081473297543, "train/reward_neg_acc": 0.9953406842218505, "train/reward_neg_loss": 0.02206127102383309, "train/reward_pos_acc": 0.9855174736844169, "train/reward_pos_loss": 0.7409059074189928, "train/reward_pred": 0.02227242944192969, "train/reward_rate": 0.027872721354166668, "stats/sum_log_reward": 5.349999845027924, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_sapling": 3.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.4119974561035633, "replay/size": 154202.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7765039980990216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2856746678874827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3432834148407, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.20088791847229, "timer/env.step_frac": 0.06725932968699148, "timer/env.step_avg": 0.014008937530147219, "timer/env.step_min": 0.0029571056365966797, "timer/env.step_max": 1.7317392826080322, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26535701751708984, "timer/replay.add_frac": 0.000883512407868875, "timer/replay.add_avg": 0.000184020123104778, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0025882720947265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021617650985717773, "timer/logger.write_frac": 7.19764755180458e-05, "timer/logger.write_avg": 0.021617650985717773, "timer/logger.write_min": 0.021617650985717773, "timer/logger.write_max": 0.021617650985717773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.570229053497314, "timer/agent.policy_frac": 0.03519382532319687, "timer/agent.policy_avg": 0.007330255931690232, "timer/agent.policy_min": 0.005723714828491211, "timer/agent.policy_max": 0.01584172248840332, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0671834945678711, "timer/dataset_frac": 0.00022368901945803057, "timer/dataset_avg": 9.318099107887808e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00020122528076171875, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.5124294757843, "timer/agent.train_frac": 0.8940184259253405, "timer/agent.train_avg": 0.37241668443243314, "timer/agent.train_min": 0.3664863109588623, "timer/agent.train_max": 0.3886878490447998, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21825194358825684, "timer/agent.report_frac": 0.0007266749604212141, "timer/agent.report_avg": 0.21825194358825684, "timer/agent.report_min": 0.21825194358825684, "timer/agent.report_max": 0.21825194358825684, "fps": 4.801081550005389}
+{"step": 154406, "episode/length": 165.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05421686746987952}
+{"step": 154566, "episode/length": 159.0, "episode/score": 5.099999964237213, "episode/sum_abs_reward": 6.699999988079071, "episode/reward_rate": 0.0375}
+{"step": 154609, "episode/length": 42.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.11627906976744186}
+{"step": 154808, "episode/length": 198.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.300000041723251, "episode/reward_rate": 0.03015075376884422}
+{"step": 154843, "episode/length": 34.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 3.9000000283122063, "episode/reward_rate": 0.11428571428571428}
+{"step": 155020, "episode/length": 176.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03954802259887006}
+{"step": 155185, "episode/length": 164.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04242424242424243}
+{"step": 155373, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031914893617021274}
+{"step": 155473, "episode/length": 99.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.04}
+{"step": 155621, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04054054054054054}
+{"step": 155665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5732953752790175, "train/action_min": 0.0, "train/action_std": 3.556388078417097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05214240955454963, "train/actor_opt_grad_steps": 76935.0, "train/actor_opt_loss": -15.875672604356494, "train/adv_mag": 0.5898026726075581, "train/adv_max": 0.5561499731881278, "train/adv_mean": 0.0028825618212002676, "train/adv_min": -0.5029164991208486, "train/adv_std": 0.06195058886493955, "train/cont_avg": 0.9940987723214286, "train/cont_loss_mean": 3.5740495889058366e-05, "train/cont_loss_std": 0.0010082518906301629, "train/cont_neg_acc": 0.9961734703608922, "train/cont_neg_loss": 0.003332260494270096, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.1486640345635481e-05, "train/cont_pred": 0.994104220185961, "train/cont_rate": 0.9940987723214286, "train/dyn_loss_mean": 4.671381456511361, "train/dyn_loss_std": 8.47633387701852, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0900149949959346, "train/extr_critic_critic_opt_grad_steps": 76935.0, "train/extr_critic_critic_opt_loss": 15583.233733258929, "train/extr_critic_mag": 6.974435867582049, "train/extr_critic_max": 6.974435867582049, "train/extr_critic_mean": 1.2382203595978873, "train/extr_critic_min": -0.6170898471559797, "train/extr_critic_std": 1.5475614615849087, "train/extr_return_normed_mag": 1.6810476439339774, "train/extr_return_normed_max": 1.6810476439339774, "train/extr_return_normed_mean": 0.3164712103349822, "train/extr_return_normed_min": -0.14875921766672814, "train/extr_return_normed_std": 0.3383702163185392, "train/extr_return_rate": 0.49612911641597746, "train/extr_return_raw_mag": 7.6347688266209195, "train/extr_return_raw_max": 7.6347688266209195, "train/extr_return_raw_mean": 1.2516648156302317, "train/extr_return_raw_min": -0.9242357552051544, "train/extr_return_raw_std": 1.5828234570366995, "train/extr_reward_mag": 1.0273377554757255, "train/extr_reward_max": 1.0273377554757255, "train/extr_reward_mean": 0.033297987468540666, "train/extr_reward_min": -0.6744834644453866, "train/extr_reward_std": 0.1822726764849254, "train/image_loss_mean": 2.9369039348193575, "train/image_loss_std": 7.774368231637137, "train/model_loss_mean": 5.78413872718811, "train/model_loss_std": 11.808524308885847, "train/model_opt_grad_norm": 41.7776440606601, "train/model_opt_grad_steps": 76870.34285714285, "train/model_opt_loss": 9648.843178013392, "train/model_opt_model_opt_grad_overflow": 0.014285714285714285, "train/model_opt_model_opt_grad_scale": 1678.5714285714287, "train/policy_entropy_mag": 2.3356993913650514, "train/policy_entropy_max": 2.3356993913650514, "train/policy_entropy_mean": 0.4083464486258371, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49344326385429926, "train/policy_logprob_mag": 7.438384035655431, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40899511320250376, "train/policy_logprob_min": -7.438384035655431, "train/policy_logprob_std": 1.0126748527799334, "train/policy_randomness_mag": 0.8243993869849614, "train/policy_randomness_max": 0.8243993869849614, "train/policy_randomness_mean": 0.1441283764583724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17416381857224872, "train/post_ent_mag": 54.578602818080356, "train/post_ent_max": 54.578602818080356, "train/post_ent_mean": 38.168330437796456, "train/post_ent_min": 18.475532381875173, "train/post_ent_std": 5.88080085345677, "train/prior_ent_mag": 74.77512784685408, "train/prior_ent_max": 74.77512784685408, "train/prior_ent_mean": 42.78471957615444, "train/prior_ent_min": 23.915568270002094, "train/prior_ent_std": 7.646103089196341, "train/rep_loss_mean": 4.671381456511361, "train/rep_loss_std": 8.47633387701852, "train/reward_avg": 0.02476981013481106, "train/reward_loss_mean": 0.044370150832193235, "train/reward_loss_std": 0.1958747088909149, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0095248682158333, "train/reward_neg_acc": 0.9950689417975289, "train/reward_neg_loss": 0.022676487479891094, "train/reward_pos_acc": 0.984186715739114, "train/reward_pos_loss": 0.7479813882282802, "train/reward_pred": 0.024458034136997802, "train/reward_rate": 0.029994419642857144, "stats/sum_log_reward": 4.6999999523162845, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 2.1, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.3, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.1, "stats/mean_log_entropy": 0.3426980048418045, "replay/size": 155602.0, "replay/inserts": 1400.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 3.684077944074358e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.263554607118879e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.163067817688, "timer/env.step_count": 1400.0, "timer/env.step_total": 24.37724995613098, "timer/env.step_frac": 0.08121335557156936, "timer/env.step_avg": 0.017412321397236415, "timer/env.step_min": 0.0027937889099121094, "timer/env.step_max": 1.805290937423706, "timer/replay.add_count": 1400.0, "timer/replay.add_total": 0.2576746940612793, "timer/replay.add_frac": 0.0008584490288385008, "timer/replay.add_avg": 0.00018405335290091378, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0013206005096435547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023778438568115234, "timer/logger.write_frac": 7.921840198727479e-05, "timer/logger.write_avg": 0.023778438568115234, "timer/logger.write_min": 0.023778438568115234, "timer/logger.write_max": 0.023778438568115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003631114959716797, "timer/checkpoint.save_frac": 1.2097141017769218e-06, "timer/checkpoint.save_avg": 0.0003631114959716797, "timer/checkpoint.save_min": 0.0003631114959716797, "timer/checkpoint.save_max": 0.0003631114959716797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4699623584747314, "timer/agent.save_frac": 0.004897212602343044, "timer/agent.save_avg": 1.4699623584747314, "timer/agent.save_min": 1.4699623584747314, "timer/agent.save_max": 1.4699623584747314, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.512901306152344e-05, "timer/replay.save_frac": 3.1692444294746673e-07, "timer/replay.save_avg": 9.512901306152344e-05, "timer/replay.save_min": 9.512901306152344e-05, "timer/replay.save_max": 9.512901306152344e-05, "timer/agent.policy_count": 1400.0, "timer/agent.policy_total": 11.654787540435791, "timer/agent.policy_frac": 0.03882818637606222, "timer/agent.policy_avg": 0.008324848243168422, "timer/agent.policy_min": 0.005654811859130859, "timer/agent.policy_max": 1.4707202911376953, "timer/dataset_count": 700.0, "timer/dataset_total": 0.06331110000610352, "timer/dataset_frac": 0.00021092235119530827, "timer/dataset_avg": 9.044442858014788e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00023245811462402344, "timer/agent.train_count": 700.0, "timer/agent.train_total": 263.0936019420624, "timer/agent.train_frac": 0.8765022421141406, "timer/agent.train_avg": 0.3758480027743748, "timer/agent.train_min": 0.3656737804412842, "timer/agent.train_max": 2.7989614009857178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212672233581543, "timer/agent.report_frac": 0.0007371567227336136, "timer/agent.report_avg": 0.2212672233581543, "timer/agent.report_min": 0.2212672233581543, "timer/agent.report_max": 0.2212672233581543, "fps": 4.664034958289213}
+{"step": 155780, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03773584905660377}
+{"step": 155984, "episode/length": 203.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03431372549019608}
+{"step": 156155, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03508771929824561}
+{"step": 156369, "episode/length": 213.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03271028037383177}
+{"step": 156533, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 156706, "episode/length": 172.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.046242774566473986}
+{"step": 156852, "episode/length": 145.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.0410958904109589}
+{"step": 157066, "episode/length": 213.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03271028037383177}
+{"step": 157107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506649441189236, "train/action_min": 0.0, "train/action_std": 3.3847811255190106, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05198538194720944, "train/actor_opt_grad_steps": 77645.0, "train/actor_opt_loss": -14.627231400460005, "train/adv_mag": 0.581050011018912, "train/adv_max": 0.5288138658636146, "train/adv_mean": 0.0035129555174838365, "train/adv_min": -0.4796483628451824, "train/adv_std": 0.061344432127144605, "train/cont_avg": 0.9941134982638888, "train/cont_loss_mean": 1.788321791135811e-05, "train/cont_loss_std": 0.0004447471245106903, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010296126116473817, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.0775998376881072e-05, "train/cont_pred": 0.994110494852066, "train/cont_rate": 0.9941134982638888, "train/dyn_loss_mean": 4.541252046823502, "train/dyn_loss_std": 8.430417544311947, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.054798809190591, "train/extr_critic_critic_opt_grad_steps": 77645.0, "train/extr_critic_critic_opt_loss": 15824.01422797309, "train/extr_critic_mag": 7.095289488633473, "train/extr_critic_max": 7.095289488633473, "train/extr_critic_mean": 1.241865569518672, "train/extr_critic_min": -0.6366299721929762, "train/extr_critic_std": 1.5368941227595012, "train/extr_return_normed_mag": 1.6388926340474024, "train/extr_return_normed_max": 1.6388926340474024, "train/extr_return_normed_mean": 0.3138495311141014, "train/extr_return_normed_min": -0.1633669308697184, "train/extr_return_normed_std": 0.3333962770799796, "train/extr_return_rate": 0.5022958533631431, "train/extr_return_raw_mag": 7.514898247188992, "train/extr_return_raw_max": 7.514898247188992, "train/extr_return_raw_mean": 1.2584300753143098, "train/extr_return_raw_min": -0.9944511436753802, "train/extr_return_raw_std": 1.5742199487156339, "train/extr_reward_mag": 1.0201831724908617, "train/extr_reward_max": 1.0201831724908617, "train/extr_reward_mean": 0.03391803345746464, "train/extr_reward_min": -0.678214548362626, "train/extr_reward_std": 0.1833744365721941, "train/image_loss_mean": 2.786322640048133, "train/image_loss_std": 7.591806398497687, "train/model_loss_mean": 5.555135918988122, "train/model_loss_std": 11.617352830039131, "train/model_opt_grad_norm": 38.3489916589525, "train/model_opt_grad_steps": 77580.0, "train/model_opt_loss": 8570.778835720486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1545.138888888889, "train/policy_entropy_mag": 2.3633564114570618, "train/policy_entropy_max": 2.3633564114570618, "train/policy_entropy_mean": 0.3929435966743363, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47449128536714447, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.392745482424895, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9978689071204927, "train/policy_randomness_mag": 0.8341611002882322, "train/policy_randomness_max": 0.8341611002882322, "train/policy_randomness_mean": 0.1386918458673689, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16747460203866163, "train/post_ent_mag": 54.44209994210137, "train/post_ent_max": 54.44209994210137, "train/post_ent_mean": 38.41365072462294, "train/post_ent_min": 18.527263191011215, "train/post_ent_std": 5.8399642374780445, "train/prior_ent_mag": 74.8438196182251, "train/prior_ent_max": 74.8438196182251, "train/prior_ent_mean": 42.918071799808075, "train/prior_ent_min": 23.98863132794698, "train/prior_ent_std": 7.560703939861721, "train/rep_loss_mean": 4.541252046823502, "train/rep_loss_std": 8.430417544311947, "train/reward_avg": 0.025223795647939876, "train/reward_loss_mean": 0.044044187706377774, "train/reward_loss_std": 0.19643516248712936, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0071671886576548, "train/reward_neg_acc": 0.9956071964568562, "train/reward_neg_loss": 0.02215698290254093, "train/reward_pos_acc": 0.9859525321258439, "train/reward_pos_loss": 0.7403621209992303, "train/reward_pred": 0.024934227267901104, "train/reward_rate": 0.030490451388888888, "stats/sum_log_reward": 5.474999904632568, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33399517834186554, "replay/size": 157044.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7766693369194804e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2736049339939917e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19442796707153, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.15348172187805, "timer/env.step_frac": 0.06713476282140952, "timer/env.step_avg": 0.013976062220442478, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.6785354614257812, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26842188835144043, "timer/replay.add_frac": 0.0008941601287179246, "timer/replay.add_avg": 0.0001861455536417756, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.003468036651611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02832937240600586, "timer/logger.write_frac": 9.437008074351507e-05, "timer/logger.write_avg": 0.02832937240600586, "timer/logger.write_min": 0.02832937240600586, "timer/logger.write_max": 0.02832937240600586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.603579044342041, "timer/agent.policy_frac": 0.03532237129166552, "timer/agent.policy_avg": 0.007353383525896006, "timer/agent.policy_min": 0.00577998161315918, "timer/agent.policy_max": 0.0187985897064209, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06682968139648438, "timer/dataset_frac": 0.00022262132528260968, "timer/dataset_avg": 9.269026545975641e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.363032579422, "timer/agent.train_frac": 0.8939640698756036, "timer/agent.train_avg": 0.3722094765317919, "timer/agent.train_min": 0.3658292293548584, "timer/agent.train_max": 0.3866078853607178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22020220756530762, "timer/agent.report_frac": 0.0007335319614575315, "timer/agent.report_avg": 0.22020220756530762, "timer/agent.report_min": 0.22020220756530762, "timer/agent.report_max": 0.22020220756530762, "fps": 4.803488802382144}
+{"step": 157273, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.028985507246376812}
+{"step": 157427, "episode/length": 153.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.045454545454545456}
+{"step": 157587, "episode/length": 159.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.05}
+{"step": 157755, "episode/length": 167.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.041666666666666664}
+{"step": 157943, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.031914893617021274}
+{"step": 158156, "episode/length": 212.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03286384976525822}
+{"step": 158304, "episode/length": 147.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05405405405405406}
+{"step": 158486, "episode/length": 181.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04395604395604396}
+{"step": 158547, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490610758463542, "train/action_min": 0.0, "train/action_std": 3.3934490415785046, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05155411378170053, "train/actor_opt_grad_steps": 78365.0, "train/actor_opt_loss": -17.758274603221153, "train/adv_mag": 0.6166595535145866, "train/adv_max": 0.5452611479494307, "train/adv_mean": 0.002449412455462152, "train/adv_min": -0.49175750836730003, "train/adv_std": 0.06030990736972955, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 8.833939170354515e-05, "train/cont_loss_std": 0.0027036844309438696, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.008989096169165755, "train/cont_pos_acc": 0.9999863240453932, "train/cont_pos_loss": 2.8457826699283355e-05, "train/cont_pred": 0.9946713381343417, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 4.471505767769283, "train/dyn_loss_std": 8.35795400540034, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1112078287535243, "train/extr_critic_critic_opt_grad_steps": 78365.0, "train/extr_critic_critic_opt_loss": 15917.593085394965, "train/extr_critic_mag": 7.192941731876797, "train/extr_critic_max": 7.192941731876797, "train/extr_critic_mean": 1.2370472542113728, "train/extr_critic_min": -0.6174437503019968, "train/extr_critic_std": 1.5304505262109969, "train/extr_return_normed_mag": 1.6416896647877164, "train/extr_return_normed_max": 1.6416896647877164, "train/extr_return_normed_mean": 0.3073206390771601, "train/extr_return_normed_min": -0.14814145014517838, "train/extr_return_normed_std": 0.3271521122919189, "train/extr_return_rate": 0.5108263078663084, "train/extr_return_raw_mag": 7.598633143636915, "train/extr_return_raw_max": 7.598633143636915, "train/extr_return_raw_mean": 1.248701615466012, "train/extr_return_raw_min": -0.918105896976259, "train/extr_return_raw_std": 1.5567996386024687, "train/extr_reward_mag": 1.0188422666655645, "train/extr_reward_max": 1.0188422666655645, "train/extr_reward_mean": 0.03211007109429273, "train/extr_reward_min": -0.6708993862072626, "train/extr_reward_std": 0.17756417352292272, "train/image_loss_mean": 2.7542335126135082, "train/image_loss_std": 7.406076580286026, "train/model_loss_mean": 5.477536012729009, "train/model_loss_std": 11.413161840703753, "train/model_opt_grad_norm": 36.956702099906074, "train/model_opt_grad_steps": 78299.34722222222, "train/model_opt_loss": 9303.710883246527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1684.0277777777778, "train/policy_entropy_mag": 2.357792016532686, "train/policy_entropy_max": 2.357792016532686, "train/policy_entropy_mean": 0.39937836138738525, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48346752259466386, "train/policy_logprob_mag": 7.438384042845832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988978469537364, "train/policy_logprob_min": -7.438384042845832, "train/policy_logprob_std": 1.0007692592011557, "train/policy_randomness_mag": 0.8321971139974065, "train/policy_randomness_max": 0.8321971139974065, "train/policy_randomness_mean": 0.1409630354286896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17064281842774814, "train/post_ent_mag": 53.97162199020386, "train/post_ent_max": 53.97162199020386, "train/post_ent_mean": 38.428853352864586, "train/post_ent_min": 18.067413873142666, "train/post_ent_std": 5.760995792018043, "train/prior_ent_mag": 74.80526394314236, "train/prior_ent_max": 74.80526394314236, "train/prior_ent_mean": 42.84880394405789, "train/prior_ent_min": 23.295714219411213, "train/prior_ent_std": 7.468338787555695, "train/rep_loss_mean": 4.471505767769283, "train/rep_loss_std": 8.35795400540034, "train/reward_avg": 0.023730468625823658, "train/reward_loss_mean": 0.040310636809509665, "train/reward_loss_std": 0.18542654367370737, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0082481139236026, "train/reward_neg_acc": 0.9959383846984969, "train/reward_neg_loss": 0.02007063372164137, "train/reward_pos_acc": 0.9890914021266831, "train/reward_pos_loss": 0.7285575154754851, "train/reward_pred": 0.023571563341344397, "train/reward_rate": 0.028415256076388888, "stats/sum_log_reward": 5.850000023841858, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3658748231828213, "replay/size": 158484.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.721316655476888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3066869642999437e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1357727050781, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.379942417144775, "timer/env.step_frac": 0.06790241041067331, "timer/env.step_avg": 0.014152737789683872, "timer/env.step_min": 0.0030469894409179688, "timer/env.step_max": 1.7832837104797363, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27249908447265625, "timer/replay.add_frac": 0.0009079193793417672, "timer/replay.add_avg": 0.0001892354753282335, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.006158590316772461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031336307525634766, "timer/logger.write_frac": 0.0001044071063012762, "timer/logger.write_avg": 0.031336307525634766, "timer/logger.write_min": 0.031336307525634766, "timer/logger.write_max": 0.031336307525634766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.632732391357422, "timer/agent.policy_frac": 0.03542640817362829, "timer/agent.policy_avg": 0.007383841938442654, "timer/agent.policy_min": 0.005716800689697266, "timer/agent.policy_max": 0.018827199935913086, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06558465957641602, "timer/dataset_frac": 0.00021851663660519852, "timer/dataset_avg": 9.108980496724447e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0480697154999, "timer/agent.train_frac": 0.8930893751838488, "timer/agent.train_avg": 0.3722889857159721, "timer/agent.train_min": 0.36500096321105957, "timer/agent.train_max": 0.3857598304748535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22145462036132812, "timer/agent.report_frac": 0.0007378481357466698, "timer/agent.report_avg": 0.22145462036132812, "timer/agent.report_min": 0.22145462036132812, "timer/agent.report_max": 0.22145462036132812, "fps": 4.797764107326848}
+{"step": 158646, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
+{"step": 158844, "episode/length": 197.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.500000014901161, "episode/reward_rate": 0.03535353535353535}
+{"step": 159086, "episode/length": 241.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.028925619834710745}
+{"step": 159266, "episode/length": 179.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.044444444444444446}
+{"step": 159439, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
+{"step": 159674, "episode/length": 234.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.02553191489361702}
+{"step": 159841, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
+{"step": 159971, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.487821337202905, "train/action_min": 0.0, "train/action_std": 3.4122801196407266, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.053358125015043875, "train/actor_opt_grad_steps": 79080.0, "train/actor_opt_loss": -15.836430757398336, "train/adv_mag": 0.5680701006466234, "train/adv_max": 0.5410818004272353, "train/adv_mean": 0.0036821361989009156, "train/adv_min": -0.47536670783875695, "train/adv_std": 0.06394560430461252, "train/cont_avg": 0.9944982394366197, "train/cont_loss_mean": 1.8742096321609134e-05, "train/cont_loss_std": 0.00038506848989392997, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021508787332851157, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.765373730102472e-05, "train/cont_pred": 0.9944826171431743, "train/cont_rate": 0.9944982394366197, "train/dyn_loss_mean": 4.499832223838483, "train/dyn_loss_std": 8.447700963893407, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.077661180160415, "train/extr_critic_critic_opt_grad_steps": 79080.0, "train/extr_critic_critic_opt_loss": 16291.867531360036, "train/extr_critic_mag": 6.858929909450907, "train/extr_critic_max": 6.858929909450907, "train/extr_critic_mean": 1.2767030336487462, "train/extr_critic_min": -0.6091989010152682, "train/extr_critic_std": 1.4885949786280241, "train/extr_return_normed_mag": 1.6769357970063115, "train/extr_return_normed_max": 1.6769357970063115, "train/extr_return_normed_mean": 0.3247164179321746, "train/extr_return_normed_min": -0.15857840896072523, "train/extr_return_normed_std": 0.32862194868880257, "train/extr_return_rate": 0.5527454089950508, "train/extr_return_raw_mag": 7.576998891964765, "train/extr_return_raw_max": 7.576998891964765, "train/extr_return_raw_mean": 1.2938215161713076, "train/extr_return_raw_min": -0.9521606640076973, "train/extr_return_raw_std": 1.5275469867276474, "train/extr_reward_mag": 1.023783673702831, "train/extr_reward_max": 1.023783673702831, "train/extr_reward_mean": 0.03439781334723385, "train/extr_reward_min": -0.6606685544403506, "train/extr_reward_std": 0.18355989624077165, "train/image_loss_mean": 2.763145520653523, "train/image_loss_std": 7.875022404630419, "train/model_loss_mean": 5.505044372988419, "train/model_loss_std": 11.91300448565416, "train/model_opt_grad_norm": 40.423588981091136, "train/model_opt_grad_steps": 79014.0, "train/model_opt_loss": 8581.028382207307, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1566.9014084507041, "train/policy_entropy_mag": 2.3647642303520526, "train/policy_entropy_max": 2.3647642303520526, "train/policy_entropy_mean": 0.37796809555779043, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4664301960401132, "train/policy_logprob_mag": 7.438384049375292, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37709513222667534, "train/policy_logprob_min": -7.438384049375292, "train/policy_logprob_std": 0.9848236978893549, "train/policy_randomness_mag": 0.834657995633676, "train/policy_randomness_max": 0.834657995633676, "train/policy_randomness_mean": 0.1334061529225027, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16462938991230977, "train/post_ent_mag": 54.125947817950184, "train/post_ent_max": 54.125947817950184, "train/post_ent_mean": 38.3325681552081, "train/post_ent_min": 18.225949515759105, "train/post_ent_std": 5.828676398371307, "train/prior_ent_mag": 74.81176725575622, "train/prior_ent_max": 74.81176725575622, "train/prior_ent_mean": 42.77797231539874, "train/prior_ent_min": 23.291097318622427, "train/prior_ent_std": 7.5687773395592055, "train/rep_loss_mean": 4.499832223838483, "train/rep_loss_std": 8.447700963893407, "train/reward_avg": 0.025403003759262428, "train/reward_loss_mean": 0.041980777066988, "train/reward_loss_std": 0.18257992599211947, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0130539914252052, "train/reward_neg_acc": 0.9955462771402278, "train/reward_neg_loss": 0.02046506434128108, "train/reward_pos_acc": 0.9893425148977361, "train/reward_pos_loss": 0.7257959137500172, "train/reward_pred": 0.025250211253132617, "train/reward_rate": 0.030355963908450703, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 3.5714285714285716, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.38745722600391935, "replay/size": 159908.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7741795014799313e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2769374284851418e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3352572917938, "timer/env.step_count": 1424.0, "timer/env.step_total": 19.60284972190857, "timer/env.step_frac": 0.06526989171592071, "timer/env.step_avg": 0.013766046153025681, "timer/env.step_min": 0.0030126571655273438, "timer/env.step_max": 1.7806744575500488, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.26235008239746094, "timer/replay.add_frac": 0.0008735240902554841, "timer/replay.add_avg": 0.00018423460842518325, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0022149085998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0321352481842041, "timer/logger.write_frac": 0.00010699792116975054, "timer/logger.write_avg": 0.0321352481842041, "timer/logger.write_min": 0.0321352481842041, "timer/logger.write_max": 0.0321352481842041, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003914833068847656, "timer/checkpoint.save_frac": 1.303487677120825e-06, "timer/checkpoint.save_avg": 0.0003914833068847656, "timer/checkpoint.save_min": 0.0003914833068847656, "timer/checkpoint.save_max": 0.0003914833068847656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3701930046081543, "timer/agent.save_frac": 0.0045622116329716465, "timer/agent.save_avg": 1.3701930046081543, "timer/agent.save_min": 1.3701930046081543, "timer/agent.save_max": 1.3701930046081543, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.012222290039062e-05, "timer/replay.save_frac": 3.0007207183414847e-07, "timer/replay.save_avg": 9.012222290039062e-05, "timer/replay.save_min": 9.012222290039062e-05, "timer/replay.save_max": 9.012222290039062e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.972442150115967, "timer/agent.policy_frac": 0.0398635919674393, "timer/agent.policy_avg": 0.008407613869463459, "timer/agent.policy_min": 0.005712270736694336, "timer/agent.policy_max": 1.3652105331420898, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06585931777954102, "timer/dataset_frac": 0.00021928600182813274, "timer/dataset_avg": 9.249904182519806e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.0002453327178955078, "timer/agent.train_count": 712.0, "timer/agent.train_total": 267.697154045105, "timer/agent.train_frac": 0.8913277663734999, "timer/agent.train_avg": 0.3759791489397542, "timer/agent.train_min": 0.3658144474029541, "timer/agent.train_max": 2.8185503482818604, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21850347518920898, "timer/agent.report_frac": 0.0007275318827350319, "timer/agent.report_avg": 0.21850347518920898, "timer/agent.report_min": 0.21850347518920898, "timer/agent.report_max": 0.21850347518920898, "fps": 4.741307866109196}
+{"step": 160052, "episode/length": 210.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.037914691943127965}
+{"step": 160252, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.025}
+{"step": 160690, "episode/length": 437.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.01598173515981735}
+{"step": 160934, "episode/length": 243.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03278688524590164}
+{"step": 161108, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 161308, "episode/length": 199.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03}
+{"step": 161427, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469836091342038, "train/action_min": 0.0, "train/action_std": 3.4137080924151695, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.053680369604940284, "train/actor_opt_grad_steps": 79800.0, "train/actor_opt_loss": -14.192088430874968, "train/adv_mag": 0.5603051422393486, "train/adv_max": 0.5306517930879985, "train/adv_mean": 0.003380180930372723, "train/adv_min": -0.45540210931268454, "train/adv_std": 0.06261214960927833, "train/cont_avg": 0.9945151969178082, "train/cont_loss_mean": 0.00014583344613026372, "train/cont_loss_std": 0.004599461065132744, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.02244951744959919, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.4438460564474865e-05, "train/cont_pred": 0.9945176774508333, "train/cont_rate": 0.9945151969178082, "train/dyn_loss_mean": 4.3560432081353175, "train/dyn_loss_std": 8.271535429236007, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1001626889999598, "train/extr_critic_critic_opt_grad_steps": 79800.0, "train/extr_critic_critic_opt_loss": 16365.00078927654, "train/extr_critic_mag": 6.712239722683005, "train/extr_critic_max": 6.712239722683005, "train/extr_critic_mean": 1.3141530033660263, "train/extr_critic_min": -0.6036312531118524, "train/extr_critic_std": 1.4800728608484137, "train/extr_return_normed_mag": 1.5984679819786385, "train/extr_return_normed_max": 1.5984679819786385, "train/extr_return_normed_mean": 0.32352422504392386, "train/extr_return_normed_min": -0.15400893976018853, "train/extr_return_normed_std": 0.32195037093064555, "train/extr_return_rate": 0.5726277419965561, "train/extr_return_raw_mag": 7.327306009318731, "train/extr_return_raw_max": 7.327306009318731, "train/extr_return_raw_mean": 1.330156830075669, "train/extr_return_raw_min": -0.9166197270563204, "train/extr_return_raw_std": 1.5148020492841119, "train/extr_reward_mag": 1.0248637395362332, "train/extr_reward_max": 1.0248637395362332, "train/extr_reward_mean": 0.03404782005675035, "train/extr_reward_min": -0.6520072613676934, "train/extr_reward_std": 0.18245992880977996, "train/image_loss_mean": 2.5719166847124493, "train/image_loss_std": 7.121818503288374, "train/model_loss_mean": 5.227369040659029, "train/model_loss_std": 11.09180080727355, "train/model_opt_grad_norm": 40.36412576126726, "train/model_opt_grad_steps": 79733.19178082192, "train/model_opt_loss": 7721.593107876713, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.347651808229211, "train/policy_entropy_max": 2.347651808229211, "train/policy_entropy_mean": 0.35913777963755883, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44421495150213375, "train/policy_logprob_mag": 7.438384062623324, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35710049736989685, "train/policy_logprob_min": -7.438384062623324, "train/policy_logprob_std": 0.9650133962500586, "train/policy_randomness_mag": 0.8286180610526098, "train/policy_randomness_max": 0.8286180610526098, "train/policy_randomness_mean": 0.12675987663742613, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15678838262819264, "train/post_ent_mag": 54.67629983980362, "train/post_ent_max": 54.67629983980362, "train/post_ent_mean": 38.436087151096295, "train/post_ent_min": 17.912010898328806, "train/post_ent_std": 5.811064249848666, "train/prior_ent_mag": 74.9101752712302, "train/prior_ent_max": 74.9101752712302, "train/prior_ent_mean": 42.74526491557082, "train/prior_ent_min": 23.721532847783337, "train/prior_ent_std": 7.512174554067116, "train/rep_loss_mean": 4.3560432081353175, "train/rep_loss_std": 8.271535429236007, "train/reward_avg": 0.02426557115291896, "train/reward_loss_mean": 0.04168057666249471, "train/reward_loss_std": 0.18506635051884063, "train/reward_max_data": 1.0068493167014971, "train/reward_max_pred": 1.0094274854006833, "train/reward_neg_acc": 0.9957261461101167, "train/reward_neg_loss": 0.02088027169341094, "train/reward_pos_acc": 0.9869711546048726, "train/reward_pos_loss": 0.7347745111543839, "train/reward_pred": 0.024109215450103152, "train/reward_rate": 0.0292433647260274, "stats/sum_log_reward": 5.433333317438762, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4660498301188151, "replay/size": 161364.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.7537826286567437e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.28342391370417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2301342487335, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.184829473495483, "timer/env.step_frac": 0.057238856174438045, "timer/env.step_avg": 0.011802767495532612, "timer/env.step_min": 0.003117084503173828, "timer/env.step_max": 1.7158617973327637, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26756834983825684, "timer/replay.add_frac": 0.0008912108390045312, "timer/replay.add_avg": 0.0001837694710427588, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0037603378295898438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023144006729125977, "timer/logger.write_frac": 7.708755414255559e-05, "timer/logger.write_avg": 0.023144006729125977, "timer/logger.write_min": 0.023144006729125977, "timer/logger.write_max": 0.023144006729125977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.776823282241821, "timer/agent.policy_frac": 0.035895208551295785, "timer/agent.policy_avg": 0.0074016643421990535, "timer/agent.policy_min": 0.00580143928527832, "timer/agent.policy_max": 0.01972174644470215, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06685280799865723, "timer/dataset_frac": 0.00022267187857722258, "timer/dataset_avg": 9.183078021793576e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021529197692871094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.20272421836853, "timer/agent.train_frac": 0.9033161341282402, "timer/agent.train_avg": 0.37253121458567107, "timer/agent.train_min": 0.36587953567504883, "timer/agent.train_max": 0.38692569732666016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21940112113952637, "timer/agent.report_frac": 0.0007307764814765655, "timer/agent.report_avg": 0.21940112113952637, "timer/agent.report_min": 0.21940112113952637, "timer/agent.report_max": 0.21940112113952637, "fps": 4.849543409658156}
+{"step": 161453, "episode/length": 144.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.041379310344827586}
+{"step": 161635, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.038461538461538464}
+{"step": 161799, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.036585365853658534}
+{"step": 161987, "episode/length": 187.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.047872340425531915}
+{"step": 162066, "episode/length": 78.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.05063291139240506}
+{"step": 162207, "episode/length": 140.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05673758865248227}
+{"step": 162386, "episode/length": 178.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0223463687150838}
+{"step": 162551, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
+{"step": 162710, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03773584905660377}
+{"step": 162859, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4594675699869795, "train/action_min": 0.0, "train/action_std": 3.32844814658165, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05214700661599636, "train/actor_opt_grad_steps": 80525.0, "train/actor_opt_loss": -15.565045901470715, "train/adv_mag": 0.589449153178268, "train/adv_max": 0.5626149173412058, "train/adv_mean": 0.002971704042768882, "train/adv_min": -0.473544602178865, "train/adv_std": 0.06138140123544468, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 7.957279407162016e-05, "train/cont_loss_std": 0.002435891226809872, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.011805522323963183, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 2.0811636163939636e-05, "train/cont_pred": 0.994287316997846, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.389246881008148, "train/dyn_loss_std": 8.2666068871816, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0382744719584782, "train/extr_critic_critic_opt_grad_steps": 80525.0, "train/extr_critic_critic_opt_loss": 15918.091593424479, "train/extr_critic_mag": 6.91652559571796, "train/extr_critic_max": 6.91652559571796, "train/extr_critic_mean": 1.3420797296696239, "train/extr_critic_min": -0.6068320522705714, "train/extr_critic_std": 1.4984584881199732, "train/extr_return_normed_mag": 1.629681881931093, "train/extr_return_normed_max": 1.629681881931093, "train/extr_return_normed_mean": 0.3317039304723342, "train/extr_return_normed_min": -0.14953250800155932, "train/extr_return_normed_std": 0.3251533094379637, "train/extr_return_rate": 0.5782678988244798, "train/extr_return_raw_mag": 7.4720152550273475, "train/extr_return_raw_max": 7.4720152550273475, "train/extr_return_raw_mean": 1.3560895356867049, "train/extr_return_raw_min": -0.9123028243581454, "train/extr_return_raw_std": 1.5322351588143244, "train/extr_reward_mag": 1.025791169868575, "train/extr_reward_max": 1.025791169868575, "train/extr_reward_mean": 0.03454675869498816, "train/extr_reward_min": -0.662141963839531, "train/extr_reward_std": 0.18387902859184477, "train/image_loss_mean": 2.5554871724711523, "train/image_loss_std": 6.9157682988378735, "train/model_loss_mean": 5.231456233395471, "train/model_loss_std": 10.899191909366184, "train/model_opt_grad_norm": 38.690839211146034, "train/model_opt_grad_steps": 80458.0, "train/model_opt_loss": 9305.535827636719, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1788.1944444444443, "train/policy_entropy_mag": 2.3547980222437115, "train/policy_entropy_max": 2.3547980222437115, "train/policy_entropy_mean": 0.3595390361216333, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44596945328844917, "train/policy_logprob_mag": 7.438384075959523, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.359594464302063, "train/policy_logprob_min": -7.438384075959523, "train/policy_logprob_std": 0.9742250690857569, "train/policy_randomness_mag": 0.8311403633819686, "train/policy_randomness_max": 0.8311403633819686, "train/policy_randomness_mean": 0.12690149972008335, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1574076446187165, "train/post_ent_mag": 54.34273502561781, "train/post_ent_max": 54.34273502561781, "train/post_ent_mean": 38.6432835261027, "train/post_ent_min": 18.70188097159068, "train/post_ent_std": 5.822572423352136, "train/prior_ent_mag": 74.87053839365642, "train/prior_ent_max": 74.87053839365642, "train/prior_ent_mean": 42.97472641203139, "train/prior_ent_min": 23.60398923026191, "train/prior_ent_std": 7.517423464192285, "train/rep_loss_mean": 4.389246881008148, "train/rep_loss_std": 8.2666068871816, "train/reward_avg": 0.024911837859286204, "train/reward_loss_mean": 0.04234141553752124, "train/reward_loss_std": 0.18677936121821404, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.004441711637709, "train/reward_neg_acc": 0.995384575592147, "train/reward_neg_loss": 0.02080680217800869, "train/reward_pos_acc": 0.9868743775619401, "train/reward_pos_loss": 0.7366136088967323, "train/reward_pred": 0.024632061495342188, "train/reward_rate": 0.030083550347222224, "stats/sum_log_reward": 5.100000090069241, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_sapling": 2.888888888888889, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4444444444444444, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.30794795685344273, "replay/size": 162796.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7817315682352586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.36589121552153e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13819313049316, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.8117733001709, "timer/env.step_frac": 0.07267243489630672, "timer/env.step_avg": 0.015231685265482471, "timer/env.step_min": 0.0029795169830322266, "timer/env.step_max": 1.716036319732666, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27776336669921875, "timer/replay.add_frac": 0.000925451585491666, "timer/replay.add_avg": 0.00019396883149386786, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.011811017990112305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02774500846862793, "timer/logger.write_frac": 9.244077929317393e-05, "timer/logger.write_avg": 0.02774500846862793, "timer/logger.write_min": 0.02774500846862793, "timer/logger.write_max": 0.02774500846862793, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.612744569778442, "timer/agent.policy_frac": 0.03535952708679187, "timer/agent.policy_avg": 0.007411134476102264, "timer/agent.policy_min": 0.0056421756744384766, "timer/agent.policy_max": 0.01971292495727539, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06720280647277832, "timer/dataset_frac": 0.00022390621390713873, "timer/dataset_avg": 9.385866825807028e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.002019166946411133, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6347351074219, "timer/agent.train_frac": 0.8883732267672286, "timer/agent.train_avg": 0.37239488143494676, "timer/agent.train_min": 0.3663444519042969, "timer/agent.train_max": 0.3849470615386963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22075414657592773, "timer/agent.report_frac": 0.0007355083479160846, "timer/agent.report_avg": 0.22075414657592773, "timer/agent.report_min": 0.22075414657592773, "timer/agent.report_max": 0.22075414657592773, "fps": 4.771038661159522}
+{"step": 162947, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.029535864978902954}
+{"step": 163137, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031578947368421054}
+{"step": 163327, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
+{"step": 163551, "episode/length": 223.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03125}
+{"step": 163767, "episode/length": 215.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.041666666666666664}
+{"step": 163972, "episode/length": 204.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.03902439024390244}
+{"step": 164120, "episode/length": 147.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0472972972972973}
+{"step": 164285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47960136306118, "train/action_min": 0.0, "train/action_std": 3.293784776204069, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05178959268919179, "train/actor_opt_grad_steps": 81240.0, "train/actor_opt_loss": -13.750759888702715, "train/adv_mag": 0.538361453254458, "train/adv_max": 0.5104120021135035, "train/adv_mean": 0.003446193707954798, "train/adv_min": -0.4432582347325876, "train/adv_std": 0.06105152071571686, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 9.188189767588534e-06, "train/cont_loss_std": 0.0002585327125955982, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004125221052880745, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 5.896019199729982e-06, "train/cont_pred": 0.9943723712168949, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.713220196710506, "train/dyn_loss_std": 8.458450189778503, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1263680474858888, "train/extr_critic_critic_opt_grad_steps": 81240.0, "train/extr_critic_critic_opt_loss": 16243.964774977992, "train/extr_critic_mag": 6.9522534155509845, "train/extr_critic_max": 6.9522534155509845, "train/extr_critic_mean": 1.301341087045804, "train/extr_critic_min": -0.5498776872393111, "train/extr_critic_std": 1.5054270247338524, "train/extr_return_normed_mag": 1.6284137930668576, "train/extr_return_normed_max": 1.6284137930668576, "train/extr_return_normed_mean": 0.3191982371286607, "train/extr_return_normed_min": -0.1508472479984794, "train/extr_return_normed_std": 0.32328074247064725, "train/extr_return_rate": 0.5721739576735967, "train/extr_return_raw_mag": 7.550762015329281, "train/extr_return_raw_max": 7.550762015329281, "train/extr_return_raw_mean": 1.3177912713776172, "train/extr_return_raw_min": -0.9196680104228813, "train/extr_return_raw_std": 1.5388642062603588, "train/extr_reward_mag": 1.0160167989596514, "train/extr_reward_max": 1.0160167989596514, "train/extr_reward_mean": 0.03282209031913482, "train/extr_reward_min": -0.6664676397619113, "train/extr_reward_std": 0.18004568613750835, "train/image_loss_mean": 2.859003617729939, "train/image_loss_std": 7.708674625611641, "train/model_loss_mean": 5.72964764312959, "train/model_loss_std": 11.753690921084981, "train/model_opt_grad_norm": 37.419970660142496, "train/model_opt_grad_steps": 81172.74647887323, "train/model_opt_loss": 12518.831102827904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2183.0985915492956, "train/policy_entropy_mag": 2.3612112428101018, "train/policy_entropy_max": 2.3612112428101018, "train/policy_entropy_mean": 0.35046518016868916, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4375740889932068, "train/policy_logprob_mag": 7.438384062807325, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.350256922799097, "train/policy_logprob_min": -7.438384062807325, "train/policy_logprob_std": 0.9657757147936754, "train/policy_randomness_mag": 0.8334039466481813, "train/policy_randomness_max": 0.8334039466481813, "train/policy_randomness_mean": 0.1236988290304869, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15444445148320265, "train/post_ent_mag": 54.60060076646402, "train/post_ent_max": 54.60060076646402, "train/post_ent_mean": 38.642945732868895, "train/post_ent_min": 18.582833276668065, "train/post_ent_std": 5.895436542134889, "train/prior_ent_mag": 74.94581818916429, "train/prior_ent_max": 74.94581818916429, "train/prior_ent_mean": 43.32638710989079, "train/prior_ent_min": 24.025848522992202, "train/prior_ent_std": 7.57088870061955, "train/rep_loss_mean": 4.713220196710506, "train/rep_loss_std": 8.458450189778503, "train/reward_avg": 0.02411834286971831, "train/reward_loss_mean": 0.04270284121829859, "train/reward_loss_std": 0.18396644084386424, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.00738705715663, "train/reward_neg_acc": 0.9952975477970821, "train/reward_neg_loss": 0.022034135765173067, "train/reward_pos_acc": 0.9886820022488984, "train/reward_pos_loss": 0.729910198231818, "train/reward_pred": 0.0239085857166161, "train/reward_rate": 0.029159330985915492, "stats/sum_log_reward": 6.242857047489712, "stats/max_log_achievement_collect_drink": 5.142857142857143, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3369999953678676, "replay/size": 164222.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.750494787101157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2623352556375768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27870082855225, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.48270273208618, "timer/env.step_frac": 0.07154254588423836, "timer/env.step_avg": 0.015065008928531683, "timer/env.step_min": 0.002910614013671875, "timer/env.step_max": 2.611290693283081, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2770271301269531, "timer/replay.add_frac": 0.0009225667000774893, "timer/replay.add_avg": 0.00019426867470333318, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.007915496826171875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028637409210205078, "timer/logger.write_frac": 9.536943223474233e-05, "timer/logger.write_avg": 0.028637409210205078, "timer/logger.write_min": 0.028637409210205078, "timer/logger.write_max": 0.028637409210205078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002009868621826172, "timer/checkpoint.save_frac": 6.693343937749786e-07, "timer/checkpoint.save_avg": 0.0002009868621826172, "timer/checkpoint.save_min": 0.0002009868621826172, "timer/checkpoint.save_max": 0.0002009868621826172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.361959457397461, "timer/agent.save_frac": 0.004535651225476322, "timer/agent.save_avg": 1.361959457397461, "timer/agent.save_min": 1.361959457397461, "timer/agent.save_max": 1.361959457397461, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.501071578162732e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 11.824184894561768, "timer/agent.policy_frac": 0.039377367964945766, "timer/agent.policy_avg": 0.008291854764769823, "timer/agent.policy_min": 0.005746126174926758, "timer/agent.policy_max": 1.3465189933776855, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06511425971984863, "timer/dataset_frac": 0.0002168460817906176, "timer/dataset_avg": 9.132434743316779e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.001180410385131836, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.9026942253113, "timer/agent.train_frac": 0.8855196638709705, "timer/agent.train_avg": 0.37293505501446184, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.8429806232452393, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195720672607422, "timer/agent.report_frac": 0.0007312275784292457, "timer/agent.report_avg": 0.2195720672607422, "timer/agent.report_min": 0.2195720672607422, "timer/agent.report_max": 0.2195720672607422, "fps": 4.748843563396949}
+{"step": 164331, "episode/length": 210.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.03317535545023697}
+{"step": 164469, "episode/length": 137.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.043478260869565216}
+{"step": 164637, "episode/length": 167.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05357142857142857}
+{"step": 164785, "episode/length": 147.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.033783783783783786}
+{"step": 164974, "episode/length": 188.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.037037037037037035}
+{"step": 165213, "episode/length": 238.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.029288702928870293}
+{"step": 165391, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
+{"step": 165538, "episode/length": 146.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.900000050663948, "episode/reward_rate": 0.027210884353741496}
+{"step": 165700, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 165717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404283120598592, "train/action_min": 0.0, "train/action_std": 3.3263091839535135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05296099553225746, "train/actor_opt_grad_steps": 81950.0, "train/actor_opt_loss": -15.003391100067487, "train/adv_mag": 0.6218364687872605, "train/adv_max": 0.5430530632885409, "train/adv_mean": 0.0037202605654410754, "train/adv_min": -0.5167558369502215, "train/adv_std": 0.06279812050117574, "train/cont_avg": 0.9943194322183099, "train/cont_loss_mean": 1.7613387887624258e-05, "train/cont_loss_std": 0.0004218970643841792, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004945676113442152, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.471670668416571e-05, "train/cont_pred": 0.9943089258502906, "train/cont_rate": 0.9943194322183099, "train/dyn_loss_mean": 4.650936690854355, "train/dyn_loss_std": 8.449154914264948, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0984685832345988, "train/extr_critic_critic_opt_grad_steps": 81950.0, "train/extr_critic_critic_opt_loss": 16410.324782680458, "train/extr_critic_mag": 7.325659758608106, "train/extr_critic_max": 7.325659758608106, "train/extr_critic_mean": 1.4016382056222836, "train/extr_critic_min": -0.6113722710542275, "train/extr_critic_std": 1.58370286813924, "train/extr_return_normed_mag": 1.6747793983405745, "train/extr_return_normed_max": 1.6747793983405745, "train/extr_return_normed_mean": 0.3369359829476182, "train/extr_return_normed_min": -0.1493648003104707, "train/extr_return_normed_std": 0.335429009837164, "train/extr_return_rate": 0.5956692275866656, "train/extr_return_raw_mag": 7.900573737184766, "train/extr_return_raw_max": 7.900573737184766, "train/extr_return_raw_mean": 1.419694419478027, "train/extr_return_raw_min": -0.9338491357548137, "train/extr_return_raw_std": 1.624087931404651, "train/extr_reward_mag": 1.0266891936181297, "train/extr_reward_max": 1.0266891936181297, "train/extr_reward_mean": 0.0348280864754613, "train/extr_reward_min": -0.6673857275868805, "train/extr_reward_std": 0.18591890893351865, "train/image_loss_mean": 2.831880015386662, "train/image_loss_std": 7.8115787103142535, "train/model_loss_mean": 5.667171169334734, "train/model_loss_std": 11.830945807443538, "train/model_opt_grad_norm": 39.81602279233261, "train/model_opt_grad_steps": 81882.0, "train/model_opt_loss": 7083.963977222711, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.35588229877848, "train/policy_entropy_max": 2.35588229877848, "train/policy_entropy_mean": 0.3483645802652332, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43518539843424947, "train/policy_logprob_mag": 7.438384076239357, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3492608152224984, "train/policy_logprob_min": -7.438384076239357, "train/policy_logprob_std": 0.9670233357120568, "train/policy_randomness_mag": 0.8315230658356573, "train/policy_randomness_max": 0.8315230658356573, "train/policy_randomness_mean": 0.12295740779856561, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15360134567173434, "train/post_ent_mag": 54.43815123866981, "train/post_ent_max": 54.43815123866981, "train/post_ent_mean": 38.54945368162343, "train/post_ent_min": 18.78605170988701, "train/post_ent_std": 5.898239518555117, "train/prior_ent_mag": 74.86408738687005, "train/prior_ent_max": 74.86408738687005, "train/prior_ent_mean": 43.15445918768224, "train/prior_ent_min": 23.81850062625509, "train/prior_ent_std": 7.585487345574608, "train/rep_loss_mean": 4.650936690854355, "train/rep_loss_std": 8.449154914264948, "train/reward_avg": 0.025174680716869697, "train/reward_loss_mean": 0.04471154602795419, "train/reward_loss_std": 0.19702148101699185, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0164648059388282, "train/reward_neg_acc": 0.9952341091464942, "train/reward_neg_loss": 0.022858612987042313, "train/reward_pos_acc": 0.9870630494305785, "train/reward_pos_loss": 0.7459429284216652, "train/reward_pred": 0.024945420265512566, "train/reward_rate": 0.030369718309859156, "stats/sum_log_reward": 5.322222126854791, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3029217604133818, "replay/size": 165654.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.866310226184696e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2533832861724513e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0884063243866, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.904540538787842, "timer/env.step_frac": 0.0729936248023847, "timer/env.step_avg": 0.015296466856695421, "timer/env.step_min": 0.0027582645416259766, "timer/env.step_max": 1.7176158428192139, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.28469204902648926, "timer/replay.add_frac": 0.0009486939282777412, "timer/replay.add_avg": 0.00019880729680620758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.006735086441040039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030523300170898438, "timer/logger.write_frac": 0.00010171435992733309, "timer/logger.write_avg": 0.030523300170898438, "timer/logger.write_min": 0.030523300170898438, "timer/logger.write_max": 0.030523300170898438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.417921781539917, "timer/agent.policy_frac": 0.034716175506888644, "timer/agent.policy_avg": 0.007275085042974802, "timer/agent.policy_min": 0.005674123764038086, "timer/agent.policy_max": 0.019144296646118164, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06436514854431152, "timer/dataset_frac": 0.00021448728837172976, "timer/dataset_avg": 8.989545886077028e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0003523826599121094, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6831531524658, "timer/agent.train_frac": 0.8886819601560658, "timer/agent.train_avg": 0.3724625044028852, "timer/agent.train_min": 0.3667869567871094, "timer/agent.train_max": 0.38335227966308594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219276428222656, "timer/agent.report_frac": 0.0007404243536221217, "timer/agent.report_avg": 0.22219276428222656, "timer/agent.report_min": 0.22219276428222656, "timer/agent.report_max": 0.22219276428222656, "fps": 4.771866532534398}
+{"step": 165865, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
+{"step": 166043, "episode/length": 177.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.0449438202247191}
+{"step": 166284, "episode/length": 240.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03734439834024896}
+{"step": 166402, "episode/length": 117.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0423728813559322}
+{"step": 166579, "episode/length": 176.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04519774011299435}
+{"step": 166761, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.038461538461538464}
+{"step": 166930, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
+{"step": 167082, "episode/length": 151.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 7.299999982118607, "episode/reward_rate": 0.046052631578947366}
+{"step": 167155, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.536715189615886, "train/action_min": 0.0, "train/action_std": 3.4059281084272595, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04989191796630621, "train/actor_opt_grad_steps": 82665.0, "train/actor_opt_loss": -15.844849919279417, "train/adv_mag": 0.5504154318736659, "train/adv_max": 0.5127759099834495, "train/adv_mean": 0.002535534437811293, "train/adv_min": -0.45269112040599185, "train/adv_std": 0.05964932787335581, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.365345211313474e-05, "train/cont_loss_std": 0.0009014968854488517, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014027894032122073, "train/cont_pos_acc": 0.9999862785140673, "train/cont_pos_loss": 2.3369699326517928e-05, "train/cont_pred": 0.9943343011869324, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.5462740692827435, "train/dyn_loss_std": 8.411356780264112, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0983322660128276, "train/extr_critic_critic_opt_grad_steps": 82665.0, "train/extr_critic_critic_opt_loss": 15917.962809244791, "train/extr_critic_mag": 7.002248644828796, "train/extr_critic_max": 7.002248644828796, "train/extr_critic_mean": 1.4037408621774778, "train/extr_critic_min": -0.619931826988856, "train/extr_critic_std": 1.547600617011388, "train/extr_return_normed_mag": 1.5932392014397516, "train/extr_return_normed_max": 1.5932392014397516, "train/extr_return_normed_mean": 0.33130112704303527, "train/extr_return_normed_min": -0.14941201343511543, "train/extr_return_normed_std": 0.3238384657435947, "train/extr_return_rate": 0.5954572078254488, "train/extr_return_raw_mag": 7.581360571914249, "train/extr_return_raw_max": 7.581360571914249, "train/extr_return_raw_mean": 1.416196891831027, "train/extr_return_raw_min": -0.9318891097274091, "train/extr_return_raw_std": 1.5821094893746905, "train/extr_reward_mag": 1.0272603564792209, "train/extr_reward_max": 1.0272603564792209, "train/extr_reward_mean": 0.03339359384133584, "train/extr_reward_min": -0.6691368967294693, "train/extr_reward_std": 0.1821745592686865, "train/image_loss_mean": 2.8717202064063816, "train/image_loss_std": 7.59440611799558, "train/model_loss_mean": 5.6428055498335095, "train/model_loss_std": 11.600188930829367, "train/model_opt_grad_norm": 37.67397141792405, "train/model_opt_grad_steps": 82596.30555555556, "train/model_opt_loss": 8299.90416124132, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.3524194856484733, "train/policy_entropy_max": 2.3524194856484733, "train/policy_entropy_mean": 0.36507563210195965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4547450964649518, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3646377685169379, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9772318046953943, "train/policy_randomness_mag": 0.830300842722257, "train/policy_randomness_max": 0.830300842722257, "train/policy_randomness_mean": 0.12885567773547438, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16050506052043703, "train/post_ent_mag": 54.79481426874796, "train/post_ent_max": 54.79481426874796, "train/post_ent_mean": 38.80582698186239, "train/post_ent_min": 18.99236606227027, "train/post_ent_std": 5.890840662850274, "train/prior_ent_mag": 75.09611913892958, "train/prior_ent_max": 75.09611913892958, "train/prior_ent_mean": 43.32110505633884, "train/prior_ent_min": 24.42366666264004, "train/prior_ent_std": 7.539158980051677, "train/rep_loss_mean": 4.5462740692827435, "train/rep_loss_std": 8.411356780264112, "train/reward_avg": 0.02481825057313674, "train/reward_loss_mean": 0.04328727846344312, "train/reward_loss_std": 0.1911318167630169, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0074765748447843, "train/reward_neg_acc": 0.9954948450128237, "train/reward_neg_loss": 0.02178883160619686, "train/reward_pos_acc": 0.9860133197572496, "train/reward_pos_loss": 0.7401270866394043, "train/reward_pred": 0.0245738204749715, "train/reward_rate": 0.029975043402777776, "stats/sum_log_reward": 5.725000023841858, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.333922415971756, "replay/size": 167092.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.7137258367843523e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2658940568587047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14712357521057, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.936383485794067, "timer/env.step_frac": 0.06975373688879563, "timer/env.step_avg": 0.014559376554794206, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.7855522632598877, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.26368021965026855, "timer/replay.add_frac": 0.0008785032370440019, "timer/replay.add_avg": 0.00018336593856068745, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0017559528350830078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022813081741333008, "timer/logger.write_frac": 7.60063313937324e-05, "timer/logger.write_avg": 0.022813081741333008, "timer/logger.write_min": 0.022813081741333008, "timer/logger.write_max": 0.022813081741333008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.560189962387085, "timer/agent.policy_frac": 0.03518337885967087, "timer/agent.policy_avg": 0.007343664786082813, "timer/agent.policy_min": 0.005644798278808594, "timer/agent.policy_max": 0.023676633834838867, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0641324520111084, "timer/dataset_frac": 0.00021367005369631053, "timer/dataset_avg": 8.919673436871821e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.59765696525574, "timer/agent.train_frac": 0.8915549607064662, "timer/agent.train_avg": 0.37218032957615543, "timer/agent.train_min": 0.36587977409362793, "timer/agent.train_max": 0.3848409652709961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029423713684082, "timer/agent.report_frac": 0.000733954183910877, "timer/agent.report_avg": 0.22029423713684082, "timer/agent.report_min": 0.22029423713684082, "timer/agent.report_max": 0.22029423713684082, "fps": 4.790909557048906}
+{"step": 167267, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03783783783783784}
+{"step": 167429, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 167486, "episode/length": 56.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 167637, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
+{"step": 167813, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
+{"step": 167981, "episode/length": 167.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.041666666666666664}
+{"step": 168137, "episode/length": 155.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04487179487179487}
+{"step": 168217, "episode/length": 79.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0875}
+{"step": 168571, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.511957732724472, "train/action_min": 0.0, "train/action_std": 3.3904175657621574, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05124923969868203, "train/actor_opt_grad_steps": 83380.0, "train/actor_opt_loss": -16.164890589638496, "train/adv_mag": 0.5680078817924983, "train/adv_max": 0.5355204595646388, "train/adv_mean": 0.0032923416457238154, "train/adv_min": -0.4612063253429574, "train/adv_std": 0.06089081987738609, "train/cont_avg": 0.9943331866197183, "train/cont_loss_mean": 6.731037407122822e-06, "train/cont_loss_std": 0.00015225349945809978, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00032250811248777094, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 5.08883256560226e-06, "train/cont_pred": 0.9943298185375374, "train/cont_rate": 0.9943331866197183, "train/dyn_loss_mean": 4.477777514659183, "train/dyn_loss_std": 8.435495497475207, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0786512275816689, "train/extr_critic_critic_opt_grad_steps": 83380.0, "train/extr_critic_critic_opt_loss": 16070.123266945422, "train/extr_critic_mag": 7.138284696659571, "train/extr_critic_max": 7.138284696659571, "train/extr_critic_mean": 1.4235887040554638, "train/extr_critic_min": -0.6403389329641638, "train/extr_critic_std": 1.5720300758388681, "train/extr_return_normed_mag": 1.62978861869221, "train/extr_return_normed_max": 1.62978861869221, "train/extr_return_normed_mean": 0.3348393448641602, "train/extr_return_normed_min": -0.1584498254765927, "train/extr_return_normed_std": 0.33054913853255796, "train/extr_return_rate": 0.589340371145329, "train/extr_return_raw_mag": 7.737166485316317, "train/extr_return_raw_max": 7.737166485316317, "train/extr_return_raw_mean": 1.4396203479296725, "train/extr_return_raw_min": -0.9586472821907258, "train/extr_return_raw_std": 1.6072020228479948, "train/extr_reward_mag": 1.0281674425366898, "train/extr_reward_max": 1.0281674425366898, "train/extr_reward_mean": 0.034008670650737385, "train/extr_reward_min": -0.6888337152104982, "train/extr_reward_std": 0.18414236059491063, "train/image_loss_mean": 2.7549489064955375, "train/image_loss_std": 7.522071683910531, "train/model_loss_mean": 5.484218859336745, "train/model_loss_std": 11.59635174442345, "train/model_opt_grad_norm": 36.45177607469156, "train/model_opt_grad_steps": 83311.0, "train/model_opt_loss": 8836.858673525529, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1602.112676056338, "train/policy_entropy_mag": 2.3084876000041694, "train/policy_entropy_max": 2.3084876000041694, "train/policy_entropy_mean": 0.3695971264805592, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45687155614436514, "train/policy_logprob_mag": 7.438384109819439, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36982827874976143, "train/policy_logprob_min": -7.438384109819439, "train/policy_logprob_std": 0.9821772231182582, "train/policy_randomness_mag": 0.8147948182804484, "train/policy_randomness_max": 0.8147948182804484, "train/policy_randomness_mean": 0.13045156589696105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16125560982126586, "train/post_ent_mag": 55.10086365820656, "train/post_ent_max": 55.10086365820656, "train/post_ent_mean": 38.84307855955312, "train/post_ent_min": 18.714119561961, "train/post_ent_std": 5.945976465520724, "train/prior_ent_mag": 74.85588148949851, "train/prior_ent_max": 74.85588148949851, "train/prior_ent_mean": 43.25724916055169, "train/prior_ent_min": 23.705864892879003, "train/prior_ent_std": 7.586654669801954, "train/rep_loss_mean": 4.477777514659183, "train/rep_loss_std": 8.435495497475207, "train/reward_avg": 0.025086652461281965, "train/reward_loss_mean": 0.042596687707053105, "train/reward_loss_std": 0.18745933997798975, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0088168802395674, "train/reward_neg_acc": 0.9956851257404811, "train/reward_neg_loss": 0.020953312844142948, "train/reward_pos_acc": 0.9888122837308427, "train/reward_pos_loss": 0.7382810241739515, "train/reward_pred": 0.024907996090994755, "train/reward_rate": 0.030163402288732395, "stats/sum_log_reward": 5.474999904632568, "stats/max_log_achievement_collect_drink": 5.25, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 2.125, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3206537030637264, "replay/size": 168508.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7333722841941704e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2436155545509468e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35904335975647, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.45501184463501, "timer/env.step_frac": 0.0681018677374562, "timer/env.step_avg": 0.014445629833781786, "timer/env.step_min": 0.003004789352416992, "timer/env.step_max": 1.6822807788848877, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.25533580780029297, "timer/replay.add_frac": 0.0008501019478027278, "timer/replay.add_avg": 0.00018032189816404872, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0026891231536865234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02838611602783203, "timer/logger.write_frac": 9.450727938906246e-05, "timer/logger.write_avg": 0.02838611602783203, "timer/logger.write_min": 0.02838611602783203, "timer/logger.write_max": 0.02838611602783203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002498626708984375, "timer/checkpoint.save_frac": 8.318799664012889e-07, "timer/checkpoint.save_avg": 0.0002498626708984375, "timer/checkpoint.save_min": 0.0002498626708984375, "timer/checkpoint.save_max": 0.0002498626708984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4459607601165771, "timer/agent.save_frac": 0.004814107622471918, "timer/agent.save_avg": 1.4459607601165771, "timer/agent.save_min": 1.4459607601165771, "timer/agent.save_max": 1.4459607601165771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.058547973632812e-05, "timer/replay.save_frac": 2.682971647362936e-07, "timer/replay.save_avg": 8.058547973632812e-05, "timer/replay.save_min": 8.058547973632812e-05, "timer/replay.save_max": 8.058547973632812e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 15.311958074569702, "timer/agent.policy_frac": 0.05097884819212762, "timer/agent.policy_avg": 0.010813529713679168, "timer/agent.policy_min": 0.005617856979370117, "timer/agent.policy_max": 3.570232391357422, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06339621543884277, "timer/dataset_frac": 0.00021106810945229192, "timer/dataset_avg": 8.954267717350674e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0001857280731201172, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.55815076828003, "timer/agent.train_frac": 0.8774769949330342, "timer/agent.train_avg": 0.37225727509644074, "timer/agent.train_min": 0.36617136001586914, "timer/agent.train_max": 0.3844156265258789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177140712738037, "timer/agent.report_frac": 0.0007248460670219796, "timer/agent.report_avg": 0.2177140712738037, "timer/agent.report_min": 0.2177140712738037, "timer/agent.report_max": 0.2177140712738037, "fps": 4.714278602375789}
+{"step": 168764, "episode/length": 546.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.012797074954296161}
+{"step": 168974, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.04285714285714286}
+{"step": 169061, "episode/length": 86.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.06896551724137931}
+{"step": 169242, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
+{"step": 169421, "episode/length": 178.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 9.699999988079071, "episode/reward_rate": 0.05027932960893855}
+{"step": 169649, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03508771929824561}
+{"step": 169822, "episode/length": 172.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.046242774566473986}
+{"step": 169999, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
+{"step": 170011, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4982147216796875, "train/action_min": 0.0, "train/action_std": 3.3321791423691645, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0495867437372605, "train/actor_opt_grad_steps": 84095.0, "train/actor_opt_loss": -18.15076325005955, "train/adv_mag": 0.5814959444105625, "train/adv_max": 0.5352654005918238, "train/adv_mean": 0.002180107750468273, "train/adv_min": -0.44075485691428185, "train/adv_std": 0.05875426510141955, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 1.5209589731865788e-05, "train/cont_loss_std": 0.0003421505922571239, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00013055766715473914, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.4491801624198311e-05, "train/cont_pred": 0.9942641796337234, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.728393276532491, "train/dyn_loss_std": 8.38278106186125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1049187812540266, "train/extr_critic_critic_opt_grad_steps": 84095.0, "train/extr_critic_critic_opt_loss": 16006.292575412326, "train/extr_critic_mag": 7.3570250206523475, "train/extr_critic_max": 7.3570250206523475, "train/extr_critic_mean": 1.4606625644697084, "train/extr_critic_min": -0.5979912562502755, "train/extr_critic_std": 1.6360397222969267, "train/extr_return_normed_mag": 1.6230421082841024, "train/extr_return_normed_max": 1.6230421082841024, "train/extr_return_normed_mean": 0.3348012038817008, "train/extr_return_normed_min": -0.1524984830369552, "train/extr_return_normed_std": 0.334488936389486, "train/extr_return_rate": 0.581911919431554, "train/extr_return_raw_mag": 7.91967244942983, "train/extr_return_raw_max": 7.91967244942983, "train/extr_return_raw_mean": 1.4716071552700467, "train/extr_return_raw_min": -0.96807701802916, "train/extr_return_raw_std": 1.6740324977371428, "train/extr_reward_mag": 1.018894738621182, "train/extr_reward_max": 1.018894738621182, "train/extr_reward_mean": 0.033929197040076055, "train/extr_reward_min": -0.6577068550719155, "train/extr_reward_std": 0.18386722707913983, "train/image_loss_mean": 3.026666791902648, "train/image_loss_std": 8.052280604839325, "train/model_loss_mean": 5.906535857253605, "train/model_loss_std": 12.04087856080797, "train/model_opt_grad_norm": 52.57353671391805, "train/model_opt_grad_steps": 84024.63888888889, "train/model_opt_loss": 6451.065819634332, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1102.4305555555557, "train/policy_entropy_mag": 2.3171207971043057, "train/policy_entropy_max": 2.3171207971043057, "train/policy_entropy_mean": 0.35256897202796406, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43719644306434524, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3521208568579621, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 0.9672919536630312, "train/policy_randomness_mag": 0.81784195618497, "train/policy_randomness_max": 0.81784195618497, "train/policy_randomness_mean": 0.12444137492113644, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15431115848736632, "train/post_ent_mag": 54.50730360878838, "train/post_ent_max": 54.50730360878838, "train/post_ent_mean": 38.533447901407875, "train/post_ent_min": 18.158806284268696, "train/post_ent_std": 5.749818464120229, "train/prior_ent_mag": 74.86166826883952, "train/prior_ent_max": 74.86166826883952, "train/prior_ent_mean": 43.192530949910484, "train/prior_ent_min": 24.419669257269966, "train/prior_ent_std": 7.505159709188673, "train/rep_loss_mean": 4.728393276532491, "train/rep_loss_std": 8.38278106186125, "train/reward_avg": 0.024970160693758063, "train/reward_loss_mean": 0.042817915970873505, "train/reward_loss_std": 0.19154885783791542, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0096963793039322, "train/reward_neg_acc": 0.9952705485953225, "train/reward_neg_loss": 0.021434320815994095, "train/reward_pos_acc": 0.9870571916302046, "train/reward_pos_loss": 0.7375555568271213, "train/reward_pred": 0.024804256261429854, "train/reward_rate": 0.029920789930555556, "stats/sum_log_reward": 6.100000023841858, "stats/max_log_achievement_collect_drink": 8.125, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3445369340479374, "replay/size": 169948.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.74068816502889e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2766776813401117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2783856391907, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.511544704437256, "timer/env.step_frac": 0.06830842872947764, "timer/env.step_avg": 0.014244128266970317, "timer/env.step_min": 0.002988576889038086, "timer/env.step_max": 1.7540168762207031, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2730841636657715, "timer/replay.add_frac": 0.0009094366318923291, "timer/replay.add_avg": 0.00018964178032345242, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0015408992767333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029275894165039062, "timer/logger.write_frac": 9.749584240877222e-05, "timer/logger.write_avg": 0.029275894165039062, "timer/logger.write_min": 0.029275894165039062, "timer/logger.write_max": 0.029275894165039062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.654029369354248, "timer/agent.policy_frac": 0.03548050701909643, "timer/agent.policy_avg": 0.007398631506496006, "timer/agent.policy_min": 0.005697011947631836, "timer/agent.policy_max": 0.016553878784179688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06604194641113281, "timer/dataset_frac": 0.0002199357315397575, "timer/dataset_avg": 9.17249255710178e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00022220611572265625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0333323478699, "timer/agent.train_frac": 0.8926161361142193, "timer/agent.train_avg": 0.3722685171498193, "timer/agent.train_min": 0.36363649368286133, "timer/agent.train_max": 0.38394689559936523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179408073425293, "timer/agent.report_frac": 0.0007257958539993058, "timer/agent.report_avg": 0.2179408073425293, "timer/agent.report_min": 0.2179408073425293, "timer/agent.report_max": 0.2179408073425293, "fps": 4.795473716479011}
+{"step": 170236, "episode/length": 236.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03375527426160337}
+{"step": 170276, "episode/length": 39.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 0.9000000134110451, "episode/reward_rate": 0.0}
+{"step": 170477, "episode/length": 200.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03482587064676617}
+{"step": 170710, "episode/length": 232.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.034334763948497854}
+{"step": 170862, "episode/length": 151.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.05263157894736842}
+{"step": 171014, "episode/length": 151.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.046052631578947366}
+{"step": 171221, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
+{"step": 171390, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 171451, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.53993394639757, "train/action_min": 0.0, "train/action_std": 3.3842818240324655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050184287027352385, "train/actor_opt_grad_steps": 84815.0, "train/actor_opt_loss": -18.216197560230892, "train/adv_mag": 0.5764060951769352, "train/adv_max": 0.5227888437608877, "train/adv_mean": 0.001622424691656003, "train/adv_min": -0.5221499068041643, "train/adv_std": 0.0592417961710857, "train/cont_avg": 0.9938422309027778, "train/cont_loss_mean": 1.2212405597011866e-05, "train/cont_loss_std": 0.000280283433922711, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004194396369838513, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 9.671635092997929e-06, "train/cont_pred": 0.9938363151417838, "train/cont_rate": 0.9938422309027778, "train/dyn_loss_mean": 4.480531894498402, "train/dyn_loss_std": 8.441058258215586, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0477214256922405, "train/extr_critic_critic_opt_grad_steps": 84815.0, "train/extr_critic_critic_opt_loss": 15953.869222005209, "train/extr_critic_mag": 7.148050645987193, "train/extr_critic_max": 7.148050645987193, "train/extr_critic_mean": 1.3784848145312734, "train/extr_critic_min": -0.6359315680132972, "train/extr_critic_std": 1.5920499099625482, "train/extr_return_normed_mag": 1.6047113653686311, "train/extr_return_normed_max": 1.6047113653686311, "train/extr_return_normed_mean": 0.3238123502168391, "train/extr_return_normed_min": -0.15211146604269743, "train/extr_return_normed_std": 0.32918293919000363, "train/extr_return_rate": 0.5718207773235109, "train/extr_return_raw_mag": 7.689133160644108, "train/extr_return_raw_max": 7.689133160644108, "train/extr_return_raw_mean": 1.3864346055520906, "train/extr_return_raw_min": -0.9545896285110049, "train/extr_return_raw_std": 1.6200218068228827, "train/extr_reward_mag": 1.0390751196278467, "train/extr_reward_max": 1.0390751196278467, "train/extr_reward_mean": 0.032671505947493844, "train/extr_reward_min": -0.6880621297491921, "train/extr_reward_std": 0.18254224293761784, "train/image_loss_mean": 2.644651878211233, "train/image_loss_std": 7.198983278539446, "train/model_loss_mean": 5.377350052197774, "train/model_loss_std": 11.259842064645555, "train/model_opt_grad_norm": 27.887052032682632, "train/model_opt_grad_steps": 84744.0, "train/model_opt_loss": 3697.175496419271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 685.7638888888889, "train/policy_entropy_mag": 2.321142574151357, "train/policy_entropy_max": 2.321142574151357, "train/policy_entropy_mean": 0.35159435992439586, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44083980181150967, "train/policy_logprob_mag": 7.438384095827739, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3525835619204574, "train/policy_logprob_min": -7.438384095827739, "train/policy_logprob_std": 0.9709213450551033, "train/policy_randomness_mag": 0.8192614664634069, "train/policy_randomness_max": 0.8192614664634069, "train/policy_randomness_mean": 0.1240973791314496, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1555971031387647, "train/post_ent_mag": 55.191619873046875, "train/post_ent_max": 55.191619873046875, "train/post_ent_mean": 39.01513470543755, "train/post_ent_min": 18.676894505818684, "train/post_ent_std": 5.870377454492781, "train/prior_ent_mag": 75.16200129191081, "train/prior_ent_max": 75.16200129191081, "train/prior_ent_mean": 43.4579062461853, "train/prior_ent_min": 24.383042997784084, "train/prior_ent_std": 7.542080071237352, "train/rep_loss_mean": 4.480531894498402, "train/rep_loss_std": 8.441058258215586, "train/reward_avg": 0.02489284917505251, "train/reward_loss_mean": 0.044366799760609865, "train/reward_loss_std": 0.192959856448902, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.008991688489914, "train/reward_neg_acc": 0.9958333522081375, "train/reward_neg_loss": 0.02313013885739363, "train/reward_pos_acc": 0.9907029006216261, "train/reward_pos_loss": 0.7221768663989173, "train/reward_pred": 0.024706817232072353, "train/reward_rate": 0.030354817708333332, "stats/sum_log_reward": 5.2249999195337296, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3250423688441515, "replay/size": 171388.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7337342898050943e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2720624605814615e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3276994228363, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.450674295425415, "timer/env.step_frac": 0.06809453252139948, "timer/env.step_avg": 0.014201857149600983, "timer/env.step_min": 0.003182649612426758, "timer/env.step_max": 1.6985142230987549, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2594761848449707, "timer/replay.add_frac": 0.0008639768670809479, "timer/replay.add_avg": 0.00018019179503122966, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0019342899322509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026505470275878906, "timer/logger.write_frac": 8.825516369890816e-05, "timer/logger.write_avg": 0.026505470275878906, "timer/logger.write_min": 0.026505470275878906, "timer/logger.write_max": 0.026505470275878906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.620462894439697, "timer/agent.policy_frac": 0.03536291495872638, "timer/agent.policy_avg": 0.007375321454472012, "timer/agent.policy_min": 0.005734443664550781, "timer/agent.policy_max": 0.01670694351196289, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06547355651855469, "timer/dataset_frac": 0.0002180070524443148, "timer/dataset_avg": 9.093549516465928e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.19854259490967, "timer/agent.train_frac": 0.8930196685498147, "timer/agent.train_avg": 0.3724979758262634, "timer/agent.train_min": 0.3661055564880371, "timer/agent.train_max": 0.3854069709777832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22070050239562988, "timer/agent.report_frac": 0.0007348656245153799, "timer/agent.report_avg": 0.22070050239562988, "timer/agent.report_min": 0.22070050239562988, "timer/agent.report_max": 0.22070050239562988, "fps": 4.794660909785983}
+{"step": 171567, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
+{"step": 171621, "episode/length": 53.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.07407407407407407}
+{"step": 171792, "episode/length": 170.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.899999976158142, "episode/reward_rate": 0.029239766081871343}
+{"step": 171945, "episode/length": 152.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05228758169934641}
+{"step": 172172, "episode/length": 226.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.039647577092511016}
+{"step": 172384, "episode/length": 211.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02830188679245283}
+{"step": 172608, "episode/length": 223.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03125}
+{"step": 172759, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
+{"step": 172865, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.518224581866197, "train/action_min": 0.0, "train/action_std": 3.4278792831259715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05200032648486151, "train/actor_opt_grad_steps": 85530.0, "train/actor_opt_loss": -16.39223666510112, "train/adv_mag": 0.6222902402071886, "train/adv_max": 0.5810016763042396, "train/adv_mean": 0.002774696057162479, "train/adv_min": -0.5131218769180943, "train/adv_std": 0.06207328027402851, "train/cont_avg": 0.9943469410211268, "train/cont_loss_mean": 0.00010352393836699417, "train/cont_loss_std": 0.003220292826306793, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.010227526217630852, "train/cont_pos_acc": 0.9999861213522898, "train/cont_pos_loss": 3.4101871832858644e-05, "train/cont_pred": 0.9943459227051533, "train/cont_rate": 0.9943469410211268, "train/dyn_loss_mean": 4.437918105595548, "train/dyn_loss_std": 8.384206080100906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.142398066923652, "train/extr_critic_critic_opt_grad_steps": 85530.0, "train/extr_critic_critic_opt_loss": 16311.714211047536, "train/extr_critic_mag": 7.368425134202124, "train/extr_critic_max": 7.368425134202124, "train/extr_critic_mean": 1.3422325690027694, "train/extr_critic_min": -0.6097841665778362, "train/extr_critic_std": 1.5481303544111655, "train/extr_return_normed_mag": 1.6649927925056136, "train/extr_return_normed_max": 1.6649927925056136, "train/extr_return_normed_mean": 0.3193558802906896, "train/extr_return_normed_min": -0.15529292139788747, "train/extr_return_normed_std": 0.3248905854325899, "train/extr_return_rate": 0.5742646287864362, "train/extr_return_raw_mag": 7.884733193357226, "train/extr_return_raw_max": 7.884733193357226, "train/extr_return_raw_mean": 1.3556328810436624, "train/extr_return_raw_min": -0.9447878792252339, "train/extr_return_raw_std": 1.5760161406557325, "train/extr_reward_mag": 1.0291934819288657, "train/extr_reward_max": 1.0291934819288657, "train/extr_reward_mean": 0.034334550965839705, "train/extr_reward_min": -0.7014795978304366, "train/extr_reward_std": 0.18456786283304993, "train/image_loss_mean": 2.8303286089024073, "train/image_loss_std": 7.354850399662071, "train/model_loss_mean": 5.536155747695708, "train/model_loss_std": 11.370571230498838, "train/model_opt_grad_norm": 34.571199820075236, "train/model_opt_grad_steps": 85459.0, "train/model_opt_loss": 6920.194679797535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3166611563991495, "train/policy_entropy_max": 2.3166611563991495, "train/policy_entropy_mean": 0.36753789429933253, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45913860495661346, "train/policy_logprob_mag": 7.438384069523341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3688724326415801, "train/policy_logprob_min": -7.438384069523341, "train/policy_logprob_std": 0.9841130275121877, "train/policy_randomness_mag": 0.8176797250626793, "train/policy_randomness_max": 0.8176797250626793, "train/policy_randomness_mean": 0.12972474843263626, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16205577898613163, "train/post_ent_mag": 55.43223931755818, "train/post_ent_max": 55.43223931755818, "train/post_ent_mean": 39.14776498499051, "train/post_ent_min": 18.689444703115544, "train/post_ent_std": 6.000761468645552, "train/prior_ent_mag": 75.06441057232064, "train/prior_ent_max": 75.06441057232064, "train/prior_ent_mean": 43.511676465961294, "train/prior_ent_min": 24.07040373036559, "train/prior_ent_std": 7.588427550356153, "train/rep_loss_mean": 4.437918105595548, "train/rep_loss_std": 8.384206080100906, "train/reward_avg": 0.025665712936348478, "train/reward_loss_mean": 0.04297272286469668, "train/reward_loss_std": 0.18635533676600793, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0156138363018843, "train/reward_neg_acc": 0.9954600468487806, "train/reward_neg_loss": 0.02109020208598862, "train/reward_pos_acc": 0.9877180406745051, "train/reward_pos_loss": 0.7288608727320819, "train/reward_pred": 0.025401912878831506, "train/reward_rate": 0.030768595950704226, "stats/sum_log_reward": 5.475000023841858, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.31829030625522137, "replay/size": 172802.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.837291388397001e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2808675644589955e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30039405822754, "timer/env.step_count": 1414.0, "timer/env.step_total": 20.506266832351685, "timer/env.step_frac": 0.06828584723194059, "timer/env.step_avg": 0.014502310348197796, "timer/env.step_min": 0.002848386764526367, "timer/env.step_max": 1.7528913021087646, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.28495049476623535, "timer/replay.add_frac": 0.0009488848513165258, "timer/replay.add_avg": 0.00020152085909917636, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.002790689468383789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022126197814941406, "timer/logger.write_frac": 7.368021571976756e-05, "timer/logger.write_avg": 0.022126197814941406, "timer/logger.write_min": 0.022126197814941406, "timer/logger.write_max": 0.022126197814941406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033855438232421875, "timer/checkpoint.save_frac": 1.127385741154152e-06, "timer/checkpoint.save_avg": 0.00033855438232421875, "timer/checkpoint.save_min": 0.00033855438232421875, "timer/checkpoint.save_max": 0.00033855438232421875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.366086483001709, "timer/agent.save_frac": 0.004549066568113887, "timer/agent.save_avg": 1.366086483001709, "timer/agent.save_min": 1.366086483001709, "timer/agent.save_max": 1.366086483001709, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.535385131835938e-05, "timer/replay.save_frac": 2.8422823615013125e-07, "timer/replay.save_avg": 8.535385131835938e-05, "timer/replay.save_min": 8.535385131835938e-05, "timer/replay.save_max": 8.535385131835938e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 15.255578517913818, "timer/agent.policy_frac": 0.05080106060385588, "timer/agent.policy_avg": 0.010788952275752347, "timer/agent.policy_min": 0.00568842887878418, "timer/agent.policy_max": 3.4043378829956055, "timer/dataset_count": 707.0, "timer/dataset_total": 0.0649709701538086, "timer/dataset_frac": 0.00021635326306368707, "timer/dataset_avg": 9.189670460227524e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.45552372932434, "timer/agent.train_frac": 0.8773066201113308, "timer/agent.train_avg": 0.3726386474247869, "timer/agent.train_min": 0.3660547733306885, "timer/agent.train_max": 0.38918566703796387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22315263748168945, "timer/agent.report_frac": 0.0007430980508084871, "timer/agent.report_avg": 0.22315263748168945, "timer/agent.report_min": 0.22315263748168945, "timer/agent.report_max": 0.22315263748168945, "fps": 4.708526976230371}
+{"step": 172928, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 173137, "episode/length": 208.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03349282296650718}
+{"step": 173178, "episode/length": 40.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.12195121951219512}
+{"step": 173331, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.0457516339869281}
+{"step": 173516, "episode/length": 184.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.02702702702702703}
+{"step": 173668, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02631578947368421}
+{"step": 173819, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
+{"step": 174052, "episode/length": 232.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.030042918454935622}
+{"step": 174187, "episode/length": 134.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.02962962962962963}
+{"step": 174299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4221649169921875, "train/action_min": 0.0, "train/action_std": 3.4181020988358393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05260957430841194, "train/actor_opt_grad_steps": 86245.0, "train/actor_opt_loss": -14.129043467860255, "train/adv_mag": 0.5421656051443683, "train/adv_max": 0.5073796672125658, "train/adv_mean": 0.0037873333292029404, "train/adv_min": -0.4527868591248989, "train/adv_std": 0.06152757060610586, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 9.877589533068152e-06, "train/cont_loss_std": 0.00023417090439023823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.437993230043301e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 9.478650446068412e-06, "train/cont_pred": 0.9947290346026421, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 4.551439321703381, "train/dyn_loss_std": 8.391173488563961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0964684304263856, "train/extr_critic_critic_opt_grad_steps": 86245.0, "train/extr_critic_critic_opt_loss": 16482.61545138889, "train/extr_critic_mag": 6.899618142180973, "train/extr_critic_max": 6.899618142180973, "train/extr_critic_mean": 1.3473262083199289, "train/extr_critic_min": -0.5880829956796434, "train/extr_critic_std": 1.4658371541235182, "train/extr_return_normed_mag": 1.6383322576681774, "train/extr_return_normed_max": 1.6383322576681774, "train/extr_return_normed_mean": 0.32724121316439575, "train/extr_return_normed_min": -0.1487987343635824, "train/extr_return_normed_std": 0.3175491603712241, "train/extr_return_rate": 0.6007478270265791, "train/extr_return_raw_mag": 7.5643689499961, "train/extr_return_raw_max": 7.5643689499961, "train/extr_return_raw_mean": 1.3652642650736704, "train/extr_return_raw_min": -0.8860348636905352, "train/extr_return_raw_std": 1.501752871606085, "train/extr_reward_mag": 1.032402108112971, "train/extr_reward_max": 1.032402108112971, "train/extr_reward_mean": 0.035438531815695264, "train/extr_reward_min": -0.7001701527171664, "train/extr_reward_std": 0.18671957010196316, "train/image_loss_mean": 2.8616153250137963, "train/image_loss_std": 7.839475936359829, "train/model_loss_mean": 5.635599123107062, "train/model_loss_std": 11.831443866093954, "train/model_opt_grad_norm": 42.97528616587321, "train/model_opt_grad_steps": 86172.81944444444, "train/model_opt_loss": 5641.570641411676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 998.2638888888889, "train/policy_entropy_mag": 2.282455288701587, "train/policy_entropy_max": 2.282455288701587, "train/policy_entropy_mean": 0.3472565954758061, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4329009349975321, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34724822599026894, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9617049114571677, "train/policy_randomness_mag": 0.8056065522962146, "train/policy_randomness_max": 0.8056065522962146, "train/policy_randomness_mean": 0.12256633873201078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15279503094239366, "train/post_ent_mag": 54.98056443532308, "train/post_ent_max": 54.98056443532308, "train/post_ent_mean": 39.259146213531494, "train/post_ent_min": 18.617238124211628, "train/post_ent_std": 5.890610463089413, "train/prior_ent_mag": 75.09631729125977, "train/prior_ent_max": 75.09631729125977, "train/prior_ent_mean": 43.71153656641642, "train/prior_ent_min": 24.298036310407852, "train/prior_ent_std": 7.4133013354407415, "train/rep_loss_mean": 4.551439321703381, "train/rep_loss_std": 8.391173488563961, "train/reward_avg": 0.025965711748641398, "train/reward_loss_mean": 0.043110297087373003, "train/reward_loss_std": 0.19072758654753366, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.011215819252862, "train/reward_neg_acc": 0.9959407506717576, "train/reward_neg_loss": 0.020759156064337328, "train/reward_pos_acc": 0.9851048083768951, "train/reward_pos_loss": 0.7443287654055489, "train/reward_pred": 0.025568455625842843, "train/reward_rate": 0.030843098958333332, "stats/sum_log_reward": 4.655555460188124, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.27653757731119794, "replay/size": 174236.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.754676967817703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2735816724130797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3559992313385, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.720654010772705, "timer/env.step_frac": 0.07231636480163377, "timer/env.step_avg": 0.015146899589102305, "timer/env.step_min": 0.002994537353515625, "timer/env.step_max": 1.6257619857788086, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2931222915649414, "timer/replay.add_frac": 0.0009759162204686793, "timer/replay.add_avg": 0.00020440885046369694, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.008534431457519531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027628183364868164, "timer/logger.write_frac": 9.198478950170241e-05, "timer/logger.write_avg": 0.027628183364868164, "timer/logger.write_min": 0.027628183364868164, "timer/logger.write_max": 0.027628183364868164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.582150220870972, "timer/agent.policy_frac": 0.03523202548959393, "timer/agent.policy_avg": 0.0073794631944706915, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.017913103103637695, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06474089622497559, "timer/dataset_frac": 0.00021554720528525623, "timer/dataset_avg": 9.029413699438715e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00016808509826660156, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.9628064632416, "timer/agent.train_frac": 0.888821289224934, "timer/agent.train_avg": 0.37233306340758937, "timer/agent.train_min": 0.36409425735473633, "timer/agent.train_max": 0.3852090835571289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017335891723633, "timer/agent.report_frac": 0.0007330413225662113, "timer/agent.report_avg": 0.22017335891723633, "timer/agent.report_min": 0.22017335891723633, "timer/agent.report_max": 0.22017335891723633, "fps": 4.774256718333014}
+{"step": 174385, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03535353535353535}
+{"step": 174612, "episode/length": 226.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03524229074889868}
+{"step": 174751, "episode/length": 138.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.050359712230215826}
+{"step": 174930, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.027932960893854747}
+{"step": 175119, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
+{"step": 175273, "episode/length": 153.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.032467532467532464}
+{"step": 175562, "episode/length": 288.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.02768166089965398}
+{"step": 175620, "episode/length": 57.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08620689655172414}
+{"step": 175739, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324365403917101, "train/action_min": 0.0, "train/action_std": 3.3062606155872345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051009721122682095, "train/actor_opt_grad_steps": 86965.0, "train/actor_opt_loss": -14.155066203325987, "train/adv_mag": 0.6362080040077368, "train/adv_max": 0.586389505614837, "train/adv_mean": 0.002934465420998499, "train/adv_min": -0.5429733809497621, "train/adv_std": 0.060993088926706046, "train/cont_avg": 0.9944932725694444, "train/cont_loss_mean": 0.00024246036690161391, "train/cont_loss_std": 0.0076290826428015, "train/cont_neg_acc": 0.9961419759525193, "train/cont_neg_loss": 0.029839365483768334, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 2.2697966823020328e-05, "train/cont_pred": 0.9945050511095259, "train/cont_rate": 0.9944932725694444, "train/dyn_loss_mean": 4.501361280679703, "train/dyn_loss_std": 8.442783223258125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0572093907329772, "train/extr_critic_critic_opt_grad_steps": 86965.0, "train/extr_critic_critic_opt_loss": 16030.138061523438, "train/extr_critic_mag": 7.2097861766815186, "train/extr_critic_max": 7.2097861766815186, "train/extr_critic_mean": 1.3891706715027492, "train/extr_critic_min": -0.5697458469205432, "train/extr_critic_std": 1.5325569444232516, "train/extr_return_normed_mag": 1.7018008828163147, "train/extr_return_normed_max": 1.7018008828163147, "train/extr_return_normed_mean": 0.3341719127363629, "train/extr_return_normed_min": -0.1625452476243178, "train/extr_return_normed_std": 0.33094423864450717, "train/extr_return_rate": 0.613181819104486, "train/extr_return_raw_mag": 7.880185511377123, "train/extr_return_raw_max": 7.880185511377123, "train/extr_return_raw_mean": 1.4030873543686337, "train/extr_return_raw_min": -0.9493302760852708, "train/extr_return_raw_std": 1.5672390361626942, "train/extr_reward_mag": 1.033569077650706, "train/extr_reward_max": 1.033569077650706, "train/extr_reward_mean": 0.0336358637497243, "train/extr_reward_min": -0.6884390198522143, "train/extr_reward_std": 0.18335414615770182, "train/image_loss_mean": 2.6749105387263827, "train/image_loss_std": 7.482005212042067, "train/model_loss_mean": 5.418748150269191, "train/model_loss_std": 11.54841360118654, "train/model_opt_grad_norm": 36.493026389016045, "train/model_opt_grad_steps": 86892.0, "train/model_opt_loss": 4039.101593017578, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 737.8472222222222, "train/policy_entropy_mag": 2.2881153888172574, "train/policy_entropy_max": 2.2881153888172574, "train/policy_entropy_mean": 0.34664399632149273, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43121685170465046, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34501753830247456, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9567935897244347, "train/policy_randomness_mag": 0.8076043220029937, "train/policy_randomness_max": 0.8076043220029937, "train/policy_randomness_mean": 0.1223501189508372, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15220062413977253, "train/post_ent_mag": 55.030154122246635, "train/post_ent_max": 55.030154122246635, "train/post_ent_mean": 39.12355793846978, "train/post_ent_min": 18.338549150360954, "train/post_ent_std": 5.870738671885596, "train/prior_ent_mag": 75.18857373131647, "train/prior_ent_max": 75.18857373131647, "train/prior_ent_mean": 43.5619035826789, "train/prior_ent_min": 24.61447082625495, "train/prior_ent_std": 7.411728885438707, "train/rep_loss_mean": 4.501361280679703, "train/rep_loss_std": 8.442783223258125, "train/reward_avg": 0.024713812667566042, "train/reward_loss_mean": 0.04277838895925217, "train/reward_loss_std": 0.1912127657689982, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.012668937444687, "train/reward_neg_acc": 0.9950373669465383, "train/reward_neg_loss": 0.02126453538140696, "train/reward_pos_acc": 0.9857949043313662, "train/reward_pos_loss": 0.746354705757565, "train/reward_pred": 0.0244164716762801, "train/reward_rate": 0.029649522569444444, "stats/sum_log_reward": 5.474999964237213, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.75, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.2866223696619272, "replay/size": 175676.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7279393937852647e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690615322854783e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3361258506775, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.538525104522705, "timer/env.step_frac": 0.0683851303147399, "timer/env.step_avg": 0.014262864655918545, "timer/env.step_min": 0.0029325485229492188, "timer/env.step_max": 1.7946441173553467, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28827738761901855, "timer/replay.add_frac": 0.0009598491916431846, "timer/replay.add_avg": 0.00020019263029098512, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0234377384185791, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02727484703063965, "timer/logger.write_frac": 9.081440653662918e-05, "timer/logger.write_avg": 0.02727484703063965, "timer/logger.write_min": 0.02727484703063965, "timer/logger.write_max": 0.02727484703063965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.521749496459961, "timer/agent.policy_frac": 0.03503324638905149, "timer/agent.policy_avg": 0.00730677048365275, "timer/agent.policy_min": 0.005698442459106445, "timer/agent.policy_max": 0.016578197479248047, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06464171409606934, "timer/dataset_frac": 0.000215231231051466, "timer/dataset_avg": 8.978015846676297e-05, "timer/dataset_min": 6.866455078125e-05, "timer/dataset_max": 0.0002014636993408203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1910629272461, "timer/agent.train_frac": 0.8929697090805072, "timer/agent.train_avg": 0.37248758739895294, "timer/agent.train_min": 0.36562108993530273, "timer/agent.train_max": 0.3839278221130371, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21835732460021973, "timer/agent.report_frac": 0.0007270431553371759, "timer/agent.report_avg": 0.21835732460021973, "timer/agent.report_min": 0.21835732460021973, "timer/agent.report_max": 0.21835732460021973, "fps": 4.794548533900452}
+{"step": 175776, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.0641025641025641}
+{"step": 176058, "episode/length": 281.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.024822695035460994}
+{"step": 176248, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.042105263157894736}
+{"step": 176455, "episode/length": 206.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03864734299516908}
+{"step": 176625, "episode/length": 169.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.047058823529411764}
+{"step": 176799, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04597701149425287}
+{"step": 177006, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
+{"step": 177163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.33478642853213, "train/action_min": 0.0, "train/action_std": 3.2570215883389326, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049422629282508096, "train/actor_opt_grad_steps": 87680.0, "train/actor_opt_loss": -17.376220146745023, "train/adv_mag": 0.5626783194676251, "train/adv_max": 0.5308179620286109, "train/adv_mean": 0.00229350970930938, "train/adv_min": -0.4556360557465486, "train/adv_std": 0.05795706346840926, "train/cont_avg": 0.9942093970070423, "train/cont_loss_mean": 0.00022380525062134707, "train/cont_loss_std": 0.006977007476011045, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.025393375658495643, "train/cont_pos_acc": 0.9999861221917918, "train/cont_pos_loss": 2.4742085027045007e-05, "train/cont_pred": 0.9942106864821743, "train/cont_rate": 0.9942093970070423, "train/dyn_loss_mean": 4.587229355959825, "train/dyn_loss_std": 8.439350658739118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0649017876302693, "train/extr_critic_critic_opt_grad_steps": 87680.0, "train/extr_critic_critic_opt_loss": 15831.671957526409, "train/extr_critic_mag": 7.059009693038296, "train/extr_critic_max": 7.059009693038296, "train/extr_critic_mean": 1.3718076742870706, "train/extr_critic_min": -0.617558262717556, "train/extr_critic_std": 1.5093837909295524, "train/extr_return_normed_mag": 1.6293676184936308, "train/extr_return_normed_max": 1.6293676184936308, "train/extr_return_normed_mean": 0.3322136553240494, "train/extr_return_normed_min": -0.15228793644149538, "train/extr_return_normed_std": 0.32078444789832744, "train/extr_return_rate": 0.6129218331525024, "train/extr_return_raw_mag": 7.628425510836319, "train/extr_return_raw_max": 7.628425510836319, "train/extr_return_raw_mean": 1.3828317027696422, "train/extr_return_raw_min": -0.9497775233967204, "train/extr_return_raw_std": 1.544494632264258, "train/extr_reward_mag": 1.0253367256110824, "train/extr_reward_max": 1.0253367256110824, "train/extr_reward_mean": 0.03293746796397256, "train/extr_reward_min": -0.6840878590731554, "train/extr_reward_std": 0.18144760081465816, "train/image_loss_mean": 2.661488996425145, "train/image_loss_std": 7.431527251928625, "train/model_loss_mean": 5.456848258703527, "train/model_loss_std": 11.48765692912357, "train/model_opt_grad_norm": 39.33531350149235, "train/model_opt_grad_steps": 87607.0, "train/model_opt_loss": 6821.060319927376, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.297172828459404, "train/policy_entropy_max": 2.297172828459404, "train/policy_entropy_mean": 0.3494164551227865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4358957443438785, "train/policy_logprob_mag": 7.438384116535455, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.348552598919667, "train/policy_logprob_min": -7.438384116535455, "train/policy_logprob_std": 0.9610281267636259, "train/policy_randomness_mag": 0.8108011979452321, "train/policy_randomness_max": 0.8108011979452321, "train/policy_randomness_mean": 0.12332867568647357, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15385206998653814, "train/post_ent_mag": 55.47666802204831, "train/post_ent_max": 55.47666802204831, "train/post_ent_mean": 39.143032235159, "train/post_ent_min": 18.689760570794764, "train/post_ent_std": 5.963068767332695, "train/prior_ent_mag": 75.15338800994444, "train/prior_ent_max": 75.15338800994444, "train/prior_ent_mean": 43.71101819965202, "train/prior_ent_min": 24.383658691191336, "train/prior_ent_std": 7.495985588557284, "train/rep_loss_mean": 4.587229355959825, "train/rep_loss_std": 8.439350658739118, "train/reward_avg": 0.024881711780605182, "train/reward_loss_mean": 0.04279784716560807, "train/reward_loss_std": 0.19307627371499236, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0136093539251407, "train/reward_neg_acc": 0.9953313184456086, "train/reward_neg_loss": 0.020949287995905945, "train/reward_pos_acc": 0.9862080610973735, "train/reward_pos_loss": 0.7471094232209972, "train/reward_pred": 0.024553397001410033, "train/reward_rate": 0.03005336707746479, "stats/sum_log_reward": 6.6714286123003275, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 2.4285714285714284, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 4.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3348317933934076, "replay/size": 177100.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7497348999709225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2788837880231022e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25533056259155, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.828144073486328, "timer/env.step_frac": 0.06270711010594829, "timer/env.step_avg": 0.013222011287560623, "timer/env.step_min": 0.0030477046966552734, "timer/env.step_max": 1.7843148708343506, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.26845765113830566, "timer/replay.add_frac": 0.0008940978687548819, "timer/replay.add_avg": 0.0001885236314173495, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.002312183380126953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02813410758972168, "timer/logger.write_frac": 9.370060986763002e-05, "timer/logger.write_avg": 0.02813410758972168, "timer/logger.write_min": 0.02813410758972168, "timer/logger.write_max": 0.02813410758972168, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003581047058105469, "timer/checkpoint.save_frac": 1.1926672713505613e-06, "timer/checkpoint.save_avg": 0.0003581047058105469, "timer/checkpoint.save_min": 0.0003581047058105469, "timer/checkpoint.save_max": 0.0003581047058105469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3371593952178955, "timer/agent.save_frac": 0.004453407680431338, "timer/agent.save_avg": 1.3371593952178955, "timer/agent.save_min": 1.3371593952178955, "timer/agent.save_max": 1.3371593952178955, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.72747802734375e-05, "timer/replay.save_frac": 3.2397353309655727e-07, "timer/replay.save_avg": 9.72747802734375e-05, "timer/replay.save_min": 9.72747802734375e-05, "timer/replay.save_max": 9.72747802734375e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.249439001083374, "timer/agent.policy_frac": 0.05078823737287309, "timer/agent.policy_avg": 0.010708875703007987, "timer/agent.policy_min": 0.00569605827331543, "timer/agent.policy_max": 3.44600248336792, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06448054313659668, "timer/dataset_frac": 0.00021475236764582602, "timer/dataset_avg": 9.056256058510769e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.1248948574066, "timer/agent.train_frac": 0.8829981281619191, "timer/agent.train_avg": 0.37236642536152614, "timer/agent.train_min": 0.3662381172180176, "timer/agent.train_max": 0.41791820526123047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21862339973449707, "timer/agent.report_frac": 0.0007281249572650721, "timer/agent.report_avg": 0.21862339973449707, "timer/agent.report_min": 0.21862339973449707, "timer/agent.report_max": 0.21862339973449707, "fps": 4.742560921213287}
+{"step": 177248, "episode/length": 241.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.0371900826446281}
+{"step": 177475, "episode/length": 226.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.02643171806167401}
+{"step": 177641, "episode/length": 165.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04216867469879518}
+{"step": 177897, "episode/length": 255.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.02734375}
+{"step": 178054, "episode/length": 156.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.044585987261146494}
+{"step": 178216, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.037037037037037035}
+{"step": 178414, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03535353535353535}
+{"step": 178472, "episode/length": 57.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 178605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5751758151584205, "train/action_min": 0.0, "train/action_std": 3.4823535448975034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0513034343926443, "train/actor_opt_grad_steps": 88395.0, "train/actor_opt_loss": -16.246252232515772, "train/adv_mag": 0.5757168663872613, "train/adv_max": 0.5380290055440532, "train/adv_mean": 0.0022962850310553526, "train/adv_min": -0.4873565232588185, "train/adv_std": 0.06016792346619897, "train/cont_avg": 0.9941541883680556, "train/cont_loss_mean": 5.747749853115794e-05, "train/cont_loss_std": 0.001763908986107923, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.9363652038859476e-05, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 5.763302794569035e-05, "train/cont_pred": 0.9941307322846519, "train/cont_rate": 0.9941541883680556, "train/dyn_loss_mean": 4.487188302808338, "train/dyn_loss_std": 8.351989487806955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0768842664029863, "train/extr_critic_critic_opt_grad_steps": 88395.0, "train/extr_critic_critic_opt_loss": 15885.764268663195, "train/extr_critic_mag": 7.111904952261183, "train/extr_critic_max": 7.111904952261183, "train/extr_critic_mean": 1.359444917904006, "train/extr_critic_min": -0.6190553572442796, "train/extr_critic_std": 1.5272455397579405, "train/extr_return_normed_mag": 1.658515653676457, "train/extr_return_normed_max": 1.658515653676457, "train/extr_return_normed_mean": 0.33092402170101803, "train/extr_return_normed_min": -0.15880833617928955, "train/extr_return_normed_std": 0.32519665732979774, "train/extr_return_rate": 0.5890562016930845, "train/extr_return_raw_mag": 7.753641221258375, "train/extr_return_raw_max": 7.753641221258375, "train/extr_return_raw_mean": 1.3704903490013547, "train/extr_return_raw_min": -0.9853543995155228, "train/extr_return_raw_std": 1.5638565636343427, "train/extr_reward_mag": 1.0298534399933286, "train/extr_reward_max": 1.0298534399933286, "train/extr_reward_mean": 0.03418938249039153, "train/extr_reward_min": -0.6948510756095251, "train/extr_reward_std": 0.18428590666088793, "train/image_loss_mean": 2.6336347924338446, "train/image_loss_std": 7.353716942999098, "train/model_loss_mean": 5.368423713578118, "train/model_loss_std": 11.339855008655125, "train/model_opt_grad_norm": 38.14841397603353, "train/model_opt_grad_steps": 88321.22222222222, "train/model_opt_loss": 6710.529629177518, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3107436100641885, "train/policy_entropy_max": 2.3107436100641885, "train/policy_entropy_mean": 0.3661236609849665, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45289913482136196, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36659762428866494, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.978497157494227, "train/policy_randomness_mag": 0.8155910910831558, "train/policy_randomness_max": 0.8155910910831558, "train/policy_randomness_mean": 0.12922558478183216, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1598535201822718, "train/post_ent_mag": 55.28743330637614, "train/post_ent_max": 55.28743330637614, "train/post_ent_mean": 39.2964571317037, "train/post_ent_min": 18.678379363483852, "train/post_ent_std": 6.084312048223284, "train/prior_ent_mag": 75.14543215433757, "train/prior_ent_max": 75.14543215433757, "train/prior_ent_mean": 43.766865253448486, "train/prior_ent_min": 23.880483110745747, "train/prior_ent_std": 7.579791890250312, "train/rep_loss_mean": 4.487188302808338, "train/rep_loss_std": 8.351989487806955, "train/reward_avg": 0.024602593077967565, "train/reward_loss_mean": 0.04241844546049833, "train/reward_loss_std": 0.17610187352531487, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.01157150665919, "train/reward_neg_acc": 0.9948997447888056, "train/reward_neg_loss": 0.021607091650366783, "train/reward_pos_acc": 0.9914176637927691, "train/reward_pos_loss": 0.7186227945817841, "train/reward_pred": 0.024465433257218037, "train/reward_rate": 0.029866536458333332, "stats/sum_log_reward": 5.5999999940395355, "stats/max_log_achievement_collect_drink": 5.125, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.3409844897687435, "replay/size": 178542.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.686063663308068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2715588660908143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2177073955536, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.18817710876465, "timer/env.step_frac": 0.06724512449282546, "timer/env.step_avg": 0.0140001228216121, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.6897060871124268, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25879883766174316, "timer/replay.add_frac": 0.0008620372192795452, "timer/replay.add_avg": 0.00017947214817041828, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012824535369873047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024346351623535156, "timer/logger.write_frac": 8.109565499898205e-05, "timer/logger.write_avg": 0.024346351623535156, "timer/logger.write_min": 0.024346351623535156, "timer/logger.write_max": 0.024346351623535156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.601726770401001, "timer/agent.policy_frac": 0.035313462561462554, "timer/agent.policy_avg": 0.007352099008599862, "timer/agent.policy_min": 0.005702972412109375, "timer/agent.policy_max": 0.016722917556762695, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06430816650390625, "timer/dataset_frac": 0.0002142051082256006, "timer/dataset_avg": 8.919301872941228e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.38038992881775, "timer/agent.train_frac": 0.8939525661463119, "timer/agent.train_avg": 0.372233550525406, "timer/agent.train_min": 0.3632538318634033, "timer/agent.train_max": 0.38509440422058105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21886897087097168, "timer/agent.report_frac": 0.0007290341824594629, "timer/agent.report_avg": 0.21886897087097168, "timer/agent.report_min": 0.21886897087097168, "timer/agent.report_max": 0.21886897087097168, "fps": 4.8031067010787645}
+{"step": 178689, "episode/length": 216.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.03686635944700461}
+{"step": 178739, "episode/length": 49.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.06}
+{"step": 178873, "episode/length": 133.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.05223880597014925}
+{"step": 179031, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0379746835443038}
+{"step": 179242, "episode/length": 210.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02843601895734597}
+{"step": 179518, "episode/length": 275.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.028985507246376812}
+{"step": 179722, "episode/length": 203.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029411764705882353}
+{"step": 179776, "episode/length": 53.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 179957, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
+{"step": 180035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557151257152289, "train/action_min": 0.0, "train/action_std": 3.534394237357126, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050718790785947314, "train/actor_opt_grad_steps": 89110.0, "train/actor_opt_loss": -15.488837281478123, "train/adv_mag": 0.5637546832292852, "train/adv_max": 0.5375177767914785, "train/adv_mean": 0.003220473656768609, "train/adv_min": -0.4654668699687635, "train/adv_std": 0.06059797118667146, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 2.7913219333852243e-05, "train/cont_loss_std": 0.0008108906334866691, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000549281198307423, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 2.475381268461308e-05, "train/cont_pred": 0.9941646633013873, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.45704381902453, "train/dyn_loss_std": 8.459258542933934, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0446443314283667, "train/extr_critic_critic_opt_grad_steps": 89110.0, "train/extr_critic_critic_opt_loss": 15957.20147447183, "train/extr_critic_mag": 7.107554811826894, "train/extr_critic_max": 7.107554811826894, "train/extr_critic_mean": 1.3501152488547312, "train/extr_critic_min": -0.5893609725253682, "train/extr_critic_std": 1.5354263094109548, "train/extr_return_normed_mag": 1.6401533140263087, "train/extr_return_normed_max": 1.6401533140263087, "train/extr_return_normed_mean": 0.3255760201685865, "train/extr_return_normed_min": -0.15547504464925174, "train/extr_return_normed_std": 0.3285513704931232, "train/extr_return_rate": 0.5674030184745789, "train/extr_return_raw_mag": 7.657710357451103, "train/extr_return_raw_max": 7.657710357451103, "train/extr_return_raw_mean": 1.3655294272261607, "train/extr_return_raw_min": -0.9366874040012628, "train/extr_return_raw_std": 1.5727872697400376, "train/extr_reward_mag": 1.0342566261828785, "train/extr_reward_max": 1.0342566261828785, "train/extr_reward_mean": 0.03486820158194488, "train/extr_reward_min": -0.6727304458618164, "train/extr_reward_std": 0.18593849262721102, "train/image_loss_mean": 2.6371023806048113, "train/image_loss_std": 7.474857625826983, "train/model_loss_mean": 5.355408399877414, "train/model_loss_std": 11.532677945956378, "train/model_opt_grad_norm": 35.695236958248515, "train/model_opt_grad_steps": 89036.0, "train/model_opt_loss": 9133.489526023328, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1725.3521126760563, "train/policy_entropy_mag": 2.321697040342949, "train/policy_entropy_max": 2.321697040342949, "train/policy_entropy_mean": 0.35093189587055795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4374127463555672, "train/policy_logprob_mag": 7.438384123251471, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3515623022972698, "train/policy_logprob_min": -7.438384123251471, "train/policy_logprob_std": 0.9663010105280809, "train/policy_randomness_mag": 0.8194571683104609, "train/policy_randomness_max": 0.8194571683104609, "train/policy_randomness_mean": 0.12386355958354305, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15438750281300342, "train/post_ent_mag": 55.82242621838207, "train/post_ent_max": 55.82242621838207, "train/post_ent_mean": 39.33040688743054, "train/post_ent_min": 18.66290199924523, "train/post_ent_std": 6.001376722899961, "train/prior_ent_mag": 75.15177627348564, "train/prior_ent_max": 75.15177627348564, "train/prior_ent_mean": 43.72807897648341, "train/prior_ent_min": 24.257342969867544, "train/prior_ent_std": 7.508845423308896, "train/rep_loss_mean": 4.45704381902453, "train/rep_loss_std": 8.459258542933934, "train/reward_avg": 0.0252984701590219, "train/reward_loss_mean": 0.04405183334585647, "train/reward_loss_std": 0.195530939375011, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0136722913930114, "train/reward_neg_acc": 0.9957480900724169, "train/reward_neg_loss": 0.02226352746742712, "train/reward_pos_acc": 0.9861268745341771, "train/reward_pos_loss": 0.739470855450966, "train/reward_pred": 0.024940471558398764, "train/reward_rate": 0.03043849031690141, "stats/sum_log_reward": 4.988888793521458, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_plant": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.27777163022094303, "replay/size": 179972.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.733334841428103e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2625764299939562e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28564500808716, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.421277046203613, "timer/env.step_frac": 0.07466649644740685, "timer/env.step_avg": 0.015679214717624904, "timer/env.step_min": 0.002917051315307617, "timer/env.step_max": 1.801551342010498, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2763068675994873, "timer/replay.add_frac": 0.0009201467742224106, "timer/replay.add_avg": 0.00019322158573390722, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.008038759231567383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025727033615112305, "timer/logger.write_frac": 8.567520307012823e-05, "timer/logger.write_avg": 0.025727033615112305, "timer/logger.write_min": 0.025727033615112305, "timer/logger.write_max": 0.025727033615112305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.492096662521362, "timer/agent.policy_frac": 0.03494038705126512, "timer/agent.policy_avg": 0.007337130533231722, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.01537466049194336, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06580138206481934, "timer/dataset_frac": 0.0002191292962507322, "timer/dataset_avg": 9.20299049857613e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.0001990795135498047, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.30284667015076, "timer/agent.train_frac": 0.8868317586842315, "timer/agent.train_avg": 0.37245153380440665, "timer/agent.train_min": 0.366091251373291, "timer/agent.train_max": 0.38744425773620605, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21814966201782227, "timer/agent.report_frac": 0.0007264738279845084, "timer/agent.report_avg": 0.21814966201782227, "timer/agent.report_min": 0.21814966201782227, "timer/agent.report_max": 0.21814966201782227, "fps": 4.7620300526276935}
+{"step": 180117, "episode/length": 159.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.05}
+{"step": 180315, "episode/length": 197.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.030303030303030304}
+{"step": 180518, "episode/length": 202.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.04433497536945813}
+{"step": 180711, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031088082901554404}
+{"step": 180748, "episode/length": 36.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.10810810810810811}
+{"step": 180912, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 181131, "episode/length": 218.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.0365296803652968}
+{"step": 181313, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.038461538461538464}
+{"step": 181453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.52824638259243, "train/action_min": 0.0, "train/action_std": 3.498599609858553, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05150680443350698, "train/actor_opt_grad_steps": 89820.0, "train/actor_opt_loss": -16.212127233711136, "train/adv_mag": 0.5785136281604498, "train/adv_max": 0.54118165709603, "train/adv_mean": 0.0025691701871757787, "train/adv_min": -0.4892189490123534, "train/adv_std": 0.06100603728227212, "train/cont_avg": 0.9936317121478874, "train/cont_loss_mean": 2.322865281206452e-05, "train/cont_loss_std": 0.0006465910614374928, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006906245961045629, "train/cont_pos_acc": 0.9999999907654775, "train/cont_pos_loss": 1.8790366916266682e-05, "train/cont_pred": 0.9936197274167773, "train/cont_rate": 0.9936317121478874, "train/dyn_loss_mean": 4.596358658562244, "train/dyn_loss_std": 8.492588412593788, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.051897405738562, "train/extr_critic_critic_opt_grad_steps": 89820.0, "train/extr_critic_critic_opt_loss": 15917.374917473591, "train/extr_critic_mag": 7.091066454497861, "train/extr_critic_max": 7.091066454497861, "train/extr_critic_mean": 1.386443750959047, "train/extr_critic_min": -0.5983109171961395, "train/extr_critic_std": 1.5276650207143434, "train/extr_return_normed_mag": 1.647729860225194, "train/extr_return_normed_max": 1.647729860225194, "train/extr_return_normed_mean": 0.33595217575489633, "train/extr_return_normed_min": -0.16620679273152014, "train/extr_return_normed_std": 0.32762511641206876, "train/extr_return_rate": 0.5908927846122796, "train/extr_return_raw_mag": 7.635124213258985, "train/extr_return_raw_max": 7.635124213258985, "train/extr_return_raw_mean": 1.3986880787661378, "train/extr_return_raw_min": -0.9885063952123615, "train/extr_return_raw_std": 1.55786231202139, "train/extr_reward_mag": 1.0296778443833472, "train/extr_reward_max": 1.0296778443833472, "train/extr_reward_mean": 0.03468948201289479, "train/extr_reward_min": -0.6682560678938745, "train/extr_reward_std": 0.18596240017615573, "train/image_loss_mean": 2.7000218646627077, "train/image_loss_std": 7.634400025219985, "train/model_loss_mean": 5.503256186633043, "train/model_loss_std": 11.70949429525456, "train/model_opt_grad_norm": 37.044464218784384, "train/model_opt_grad_steps": 89746.0, "train/model_opt_loss": 13758.140459947183, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.2770322510893917, "train/policy_entropy_max": 2.2770322510893917, "train/policy_entropy_mean": 0.34233774139847556, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.42546801290041963, "train/policy_logprob_mag": 7.438384116535455, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3424618768859917, "train/policy_logprob_min": -7.438384116535455, "train/policy_logprob_std": 0.9561692459482543, "train/policy_randomness_mag": 0.8036924600601196, "train/policy_randomness_max": 0.8036924600601196, "train/policy_randomness_mean": 0.1208301971495991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1501715375294148, "train/post_ent_mag": 55.69693874305403, "train/post_ent_max": 55.69693874305403, "train/post_ent_mean": 39.2579484858983, "train/post_ent_min": 18.61928351496307, "train/post_ent_std": 6.044422042201942, "train/prior_ent_mag": 75.05321416720538, "train/prior_ent_max": 75.05321416720538, "train/prior_ent_mean": 43.79392817322637, "train/prior_ent_min": 24.025510626779475, "train/prior_ent_std": 7.6406164639432665, "train/rep_loss_mean": 4.596358658562244, "train/rep_loss_std": 8.492588412593788, "train/reward_avg": 0.025855523678408543, "train/reward_loss_mean": 0.045395954787521293, "train/reward_loss_std": 0.19640287819882513, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0148688537973753, "train/reward_neg_acc": 0.9955933186369883, "train/reward_neg_loss": 0.023148003624568522, "train/reward_pos_acc": 0.9871778832355016, "train/reward_pos_loss": 0.7351739389795653, "train/reward_pred": 0.02559693405588328, "train/reward_rate": 0.031373789612676055, "stats/sum_log_reward": 5.724999964237213, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26165207475423813, "replay/size": 181390.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.64992278923605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2678807477856892e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.155029296875, "timer/env.step_count": 1418.0, "timer/env.step_total": 19.92885947227478, "timer/env.step_frac": 0.06639522089287965, "timer/env.step_avg": 0.014054202730800268, "timer/env.step_min": 0.0029573440551757812, "timer/env.step_max": 1.6777002811431885, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2615957260131836, "timer/replay.add_frac": 0.0008715353749893243, "timer/replay.add_avg": 0.00018448217631395175, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0013072490692138672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023848772048950195, "timer/logger.write_frac": 7.945484739941518e-05, "timer/logger.write_avg": 0.023848772048950195, "timer/logger.write_min": 0.023848772048950195, "timer/logger.write_max": 0.023848772048950195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005662441253662109, "timer/checkpoint.save_frac": 1.8865055391297628e-06, "timer/checkpoint.save_avg": 0.0005662441253662109, "timer/checkpoint.save_min": 0.0005662441253662109, "timer/checkpoint.save_max": 0.0005662441253662109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4460194110870361, "timer/agent.save_frac": 0.004817575152661588, "timer/agent.save_avg": 1.4460194110870361, "timer/agent.save_min": 1.4460194110870361, "timer/agent.save_max": 1.4460194110870361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.201102030607556e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 15.154095888137817, "timer/agent.policy_frac": 0.05048756278925889, "timer/agent.policy_avg": 0.010686950555809462, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 3.388664722442627, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06463146209716797, "timer/dataset_frac": 0.00021532693371345373, "timer/dataset_avg": 9.115862072943297e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0009963512420654297, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.0306463241577, "timer/agent.train_frac": 0.8796475839257464, "timer/agent.train_avg": 0.3723986549000814, "timer/agent.train_min": 0.36568570137023926, "timer/agent.train_max": 0.4592709541320801, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21866607666015625, "timer/agent.report_frac": 0.0007285104539890275, "timer/agent.report_avg": 0.21866607666015625, "timer/agent.report_min": 0.21866607666015625, "timer/agent.report_max": 0.21866607666015625, "fps": 4.7241617471375195}
+{"step": 181509, "episode/length": 195.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03571428571428571}
+{"step": 181754, "episode/length": 244.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.024489795918367346}
+{"step": 181932, "episode/length": 177.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.700000047683716, "episode/reward_rate": 0.03932584269662921}
+{"step": 182121, "episode/length": 188.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026455026455026454}
+{"step": 182294, "episode/length": 172.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04046242774566474}
+{"step": 182482, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03723404255319149}
+{"step": 182635, "episode/length": 152.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.05228758169934641}
+{"step": 182675, "episode/length": 39.0, "episode/score": 1.0999999716877937, "episode/sum_abs_reward": 3.1000000312924385, "episode/reward_rate": 0.075}
+{"step": 182875, "episode/length": 199.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04}
+{"step": 182885, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.59275139702691, "train/action_min": 0.0, "train/action_std": 3.6286865837044187, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05121761037864619, "train/actor_opt_grad_steps": 90535.0, "train/actor_opt_loss": -16.63348666140357, "train/adv_mag": 0.5331750259631209, "train/adv_max": 0.5126205641362402, "train/adv_mean": 0.002443960003094819, "train/adv_min": -0.4389887986083825, "train/adv_std": 0.060092856279677816, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 9.058812755292756e-05, "train/cont_loss_std": 0.002733430014070374, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.010885472254428773, "train/cont_pos_acc": 0.9999863248732355, "train/cont_pos_loss": 2.7542841526124245e-05, "train/cont_pred": 0.9941350941856703, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.566637016004986, "train/dyn_loss_std": 8.447954886489445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0634728140301175, "train/extr_critic_critic_opt_grad_steps": 90535.0, "train/extr_critic_critic_opt_loss": 15790.374240451389, "train/extr_critic_mag": 6.960749838087294, "train/extr_critic_max": 6.960749838087294, "train/extr_critic_mean": 1.3395835119816992, "train/extr_critic_min": -0.5990656216939291, "train/extr_critic_std": 1.465662956237793, "train/extr_return_normed_mag": 1.6570822132958307, "train/extr_return_normed_max": 1.6570822132958307, "train/extr_return_normed_mean": 0.3342667000575198, "train/extr_return_normed_min": -0.14491631432125965, "train/extr_return_normed_std": 0.3197181543542279, "train/extr_return_rate": 0.5987449677454101, "train/extr_return_raw_mag": 7.550066219435798, "train/extr_return_raw_max": 7.550066219435798, "train/extr_return_raw_mean": 1.351030859682295, "train/extr_return_raw_min": -0.8946237804161178, "train/extr_return_raw_std": 1.498482495546341, "train/extr_reward_mag": 1.0304691625965967, "train/extr_reward_max": 1.0304691625965967, "train/extr_reward_mean": 0.03421746700122538, "train/extr_reward_min": -0.652602333161566, "train/extr_reward_std": 0.18425340433087614, "train/image_loss_mean": 2.728099897503853, "train/image_loss_std": 7.676747017436558, "train/model_loss_mean": 5.511750012636185, "train/model_loss_std": 11.71168499522739, "train/model_opt_grad_norm": 36.051063219706215, "train/model_opt_grad_steps": 90459.26388888889, "train/model_opt_loss": 8782.994676378039, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.2919757465521493, "train/policy_entropy_max": 2.2919757465521493, "train/policy_entropy_mean": 0.3631373287902938, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.441809316062265, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3624394978913996, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9715361578596963, "train/policy_randomness_mag": 0.8089668568637636, "train/policy_randomness_max": 0.8089668568637636, "train/policy_randomness_mean": 0.12817154131415817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1559392993027965, "train/post_ent_mag": 55.2028095987108, "train/post_ent_max": 55.2028095987108, "train/post_ent_mean": 39.2135976685418, "train/post_ent_min": 18.619804210133022, "train/post_ent_std": 5.90449763668908, "train/prior_ent_mag": 75.19653839535184, "train/prior_ent_max": 75.19653839535184, "train/prior_ent_mean": 43.744720141092934, "train/prior_ent_min": 25.234261406792534, "train/prior_ent_std": 7.428102466795179, "train/rep_loss_mean": 4.566637016004986, "train/rep_loss_std": 8.447954886489445, "train/reward_avg": 0.02579481298259149, "train/reward_loss_mean": 0.04357733683557146, "train/reward_loss_std": 0.1903216243825025, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0157751242319744, "train/reward_neg_acc": 0.9957024372286267, "train/reward_neg_loss": 0.021548366439270064, "train/reward_pos_acc": 0.9867368853754468, "train/reward_pos_loss": 0.7347524886329969, "train/reward_pred": 0.025495784189034667, "train/reward_rate": 0.0308837890625, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3560454414950477, "replay/size": 182822.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.733281982677609e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2775664555959862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03293228149414, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.99304175376892, "timer/env.step_frac": 0.07330209249541585, "timer/env.step_avg": 0.015358269381123548, "timer/env.step_min": 0.002893686294555664, "timer/env.step_max": 1.7940099239349365, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2621614933013916, "timer/replay.add_frac": 0.0008737757262440406, "timer/replay.add_avg": 0.0001830736685065584, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0016732215881347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028450727462768555, "timer/logger.write_frac": 9.48253488256275e-05, "timer/logger.write_avg": 0.028450727462768555, "timer/logger.write_min": 0.028450727462768555, "timer/logger.write_max": 0.028450727462768555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.531437158584595, "timer/agent.policy_frac": 0.03510093734878372, "timer/agent.policy_avg": 0.007354355557670806, "timer/agent.policy_min": 0.0056819915771484375, "timer/agent.policy_max": 0.015507698059082031, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0647430419921875, "timer/dataset_frac": 0.0002157864521733397, "timer/dataset_avg": 9.042324300584846e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0002143383026123047, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45104360580444, "timer/agent.train_frac": 0.8880726578234992, "timer/agent.train_avg": 0.3721383290583861, "timer/agent.train_min": 0.3622264862060547, "timer/agent.train_max": 0.3847169876098633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21905064582824707, "timer/agent.report_frac": 0.0007300886744750119, "timer/agent.report_avg": 0.21905064582824707, "timer/agent.report_min": 0.21905064582824707, "timer/agent.report_max": 0.21905064582824707, "fps": 4.772747600871111}
+{"step": 183116, "episode/length": 240.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03319502074688797}
+{"step": 183269, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0457516339869281}
+{"step": 183476, "episode/length": 206.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03864734299516908}
+{"step": 183635, "episode/length": 158.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.0440251572327044}
+{"step": 183797, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
+{"step": 183914, "episode/length": 116.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.05128205128205128}
+{"step": 184071, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03184713375796178}
+{"step": 184301, "episode/length": 229.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.0391304347826087}
+{"step": 184325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503624810112847, "train/action_min": 0.0, "train/action_std": 3.4897895554701486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05190066455139054, "train/actor_opt_grad_steps": 91255.0, "train/actor_opt_loss": -14.271965323223007, "train/adv_mag": 0.6122186237739192, "train/adv_max": 0.5566626311176353, "train/adv_mean": 0.003621795515856421, "train/adv_min": -0.5106013123359945, "train/adv_std": 0.06160419242870477, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 9.466556476351368e-05, "train/cont_loss_std": 0.0028914882753604664, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.010681862431561563, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 2.3323628140935347e-05, "train/cont_pred": 0.9942662417888641, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.488798055383894, "train/dyn_loss_std": 8.4113652838601, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0838067299789853, "train/extr_critic_critic_opt_grad_steps": 91255.0, "train/extr_critic_critic_opt_loss": 15917.568386501736, "train/extr_critic_mag": 6.962513446807861, "train/extr_critic_max": 6.962513446807861, "train/extr_critic_mean": 1.3547871303227212, "train/extr_critic_min": -0.6010195596350564, "train/extr_critic_std": 1.4903691642814212, "train/extr_return_normed_mag": 1.6505315320359335, "train/extr_return_normed_max": 1.6505315320359335, "train/extr_return_normed_mean": 0.33343662155999076, "train/extr_return_normed_min": -0.1522540423191256, "train/extr_return_normed_std": 0.32101354872186977, "train/extr_return_rate": 0.6107494562036462, "train/extr_return_raw_mag": 7.6302851173612805, "train/extr_return_raw_max": 7.6302851173612805, "train/extr_return_raw_mean": 1.3719926079114277, "train/extr_return_raw_min": -0.9361140529314677, "train/extr_return_raw_std": 1.5254290766186185, "train/extr_reward_mag": 1.0268069207668304, "train/extr_reward_max": 1.0268069207668304, "train/extr_reward_mean": 0.03400415489967498, "train/extr_reward_min": -0.6731461965375476, "train/extr_reward_std": 0.18411497068074015, "train/image_loss_mean": 2.633806922369533, "train/image_loss_std": 7.138785613907708, "train/model_loss_mean": 5.37056169907252, "train/model_loss_std": 11.145209716426002, "train/model_opt_grad_norm": 36.29656606250339, "train/model_opt_grad_steps": 91179.0, "train/model_opt_loss": 9596.295552571615, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1805.5555555555557, "train/policy_entropy_mag": 2.3131219844023385, "train/policy_entropy_max": 2.3131219844023385, "train/policy_entropy_mean": 0.354461907926533, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4371609894765748, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35475029175480205, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9667576634221606, "train/policy_randomness_mag": 0.8164305513103803, "train/policy_randomness_max": 0.8164305513103803, "train/policy_randomness_mean": 0.12510949569857782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15429864544421434, "train/post_ent_mag": 55.697273095448814, "train/post_ent_max": 55.697273095448814, "train/post_ent_mean": 39.429644690619575, "train/post_ent_min": 18.35323754946391, "train/post_ent_std": 5.985844062434302, "train/prior_ent_mag": 75.1803854836358, "train/prior_ent_max": 75.1803854836358, "train/prior_ent_mean": 43.893935680389404, "train/prior_ent_min": 24.263564666112263, "train/prior_ent_std": 7.467432783709632, "train/rep_loss_mean": 4.488798055383894, "train/rep_loss_std": 8.4113652838601, "train/reward_avg": 0.02544216564597769, "train/reward_loss_mean": 0.04338125323152377, "train/reward_loss_std": 0.18752024446924528, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0128011686934366, "train/reward_neg_acc": 0.9956492781639099, "train/reward_neg_loss": 0.021396196977649298, "train/reward_pos_acc": 0.9846160544289483, "train/reward_pos_loss": 0.7407794702384207, "train/reward_pred": 0.025225636820929747, "train/reward_rate": 0.030707465277777776, "stats/sum_log_reward": 5.724999904632568, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.30412110313773155, "replay/size": 184262.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7378735012478297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2596241301960416e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07577323913574, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.29183077812195, "timer/env.step_frac": 0.06762235604388837, "timer/env.step_avg": 0.014091549151473575, "timer/env.step_min": 0.0029366016387939453, "timer/env.step_max": 1.6841907501220703, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2805047035217285, "timer/replay.add_frac": 0.0009347795741517237, "timer/replay.add_avg": 0.00019479493300120037, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0049626827239990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030887603759765625, "timer/logger.write_frac": 0.00010293268072378086, "timer/logger.write_avg": 0.030887603759765625, "timer/logger.write_min": 0.030887603759765625, "timer/logger.write_max": 0.030887603759765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.589976787567139, "timer/agent.policy_frac": 0.03529100891169844, "timer/agent.policy_avg": 0.007354150546921624, "timer/agent.policy_min": 0.005549907684326172, "timer/agent.policy_max": 0.016367673873901367, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06479573249816895, "timer/dataset_frac": 0.0002159312356300489, "timer/dataset_avg": 8.999407291412353e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00018453598022460938, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.12330889701843, "timer/agent.train_frac": 0.893518680307944, "timer/agent.train_avg": 0.37239348457919225, "timer/agent.train_min": 0.3662431240081787, "timer/agent.train_max": 0.38596439361572266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22054767608642578, "timer/agent.report_frac": 0.0007349732826004164, "timer/agent.report_avg": 0.22054767608642578, "timer/agent.report_min": 0.22054767608642578, "timer/agent.report_max": 0.22054767608642578, "fps": 4.798684797263163}
+{"step": 184493, "episode/length": 191.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.036458333333333336}
+{"step": 184643, "episode/length": 149.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04666666666666667}
+{"step": 184895, "episode/length": 251.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.031746031746031744}
+{"step": 185179, "episode/length": 283.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.02464788732394366}
+{"step": 185452, "episode/length": 272.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.029304029304029304}
+{"step": 185650, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.03535353535353535}
+{"step": 185759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538924323187934, "train/action_min": 0.0, "train/action_std": 3.5693727201885648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05084808413974113, "train/actor_opt_grad_steps": 91975.0, "train/actor_opt_loss": -15.1796482304732, "train/adv_mag": 0.5640872692068418, "train/adv_max": 0.5212036793430647, "train/adv_mean": 0.0023258843317914093, "train/adv_min": -0.4581042097674476, "train/adv_std": 0.05882143756995598, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 3.725603493462712e-05, "train/cont_loss_std": 0.0011143907737884244, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.005305293817375261, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.0891727381137332e-05, "train/cont_pred": 0.9941988488038381, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 4.604616433382034, "train/dyn_loss_std": 8.46949756807751, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.083063867357042, "train/extr_critic_critic_opt_grad_steps": 91975.0, "train/extr_critic_critic_opt_loss": 15702.540974934896, "train/extr_critic_mag": 7.0618129637506275, "train/extr_critic_max": 7.0618129637506275, "train/extr_critic_mean": 1.4419527583652072, "train/extr_critic_min": -0.6147876613669925, "train/extr_critic_std": 1.551021236512396, "train/extr_return_normed_mag": 1.649808453189002, "train/extr_return_normed_max": 1.649808453189002, "train/extr_return_normed_mean": 0.34530312940478325, "train/extr_return_normed_min": -0.14464359554565615, "train/extr_return_normed_std": 0.32681705099013114, "train/extr_return_rate": 0.6182680763304234, "train/extr_return_raw_mag": 7.782215032312605, "train/extr_return_raw_max": 7.782215032312605, "train/extr_return_raw_mean": 1.4532402786943648, "train/extr_return_raw_min": -0.9242151197459962, "train/extr_return_raw_std": 1.5857848020063505, "train/extr_reward_mag": 1.0271146065658994, "train/extr_reward_max": 1.0271146065658994, "train/extr_reward_mean": 0.03457339568477538, "train/extr_reward_min": -0.6636825187338723, "train/extr_reward_std": 0.18562344937688774, "train/image_loss_mean": 2.710017152958446, "train/image_loss_std": 7.582075337568919, "train/model_loss_mean": 5.516003244453007, "train/model_loss_std": 11.654718816280365, "train/model_opt_grad_norm": 39.38250788052877, "train/model_opt_grad_steps": 91898.59722222222, "train/model_opt_loss": 11005.738986545139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.3067579534318714, "train/policy_entropy_max": 2.3067579534318714, "train/policy_entropy_mean": 0.35055096737212604, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4307417215572463, "train/policy_logprob_mag": 7.4383841090732155, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3510227083332009, "train/policy_logprob_min": -7.4383841090732155, "train/policy_logprob_std": 0.9632609842552079, "train/policy_randomness_mag": 0.8141843287481202, "train/policy_randomness_max": 0.8141843287481202, "train/policy_randomness_mean": 0.12372910790145397, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15203292512645325, "train/post_ent_mag": 54.94032997555203, "train/post_ent_max": 54.94032997555203, "train/post_ent_mean": 39.217125415802, "train/post_ent_min": 18.48365463150872, "train/post_ent_std": 5.957337776819865, "train/prior_ent_mag": 75.20670223236084, "train/prior_ent_max": 75.20670223236084, "train/prior_ent_mean": 43.797083907657196, "train/prior_ent_min": 24.205545081032646, "train/prior_ent_std": 7.451933403809865, "train/rep_loss_mean": 4.604616433382034, "train/rep_loss_std": 8.46949756807751, "train/reward_avg": 0.02617458754684776, "train/reward_loss_mean": 0.04317900866994427, "train/reward_loss_std": 0.18406799932320914, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0160280962785084, "train/reward_neg_acc": 0.9956443657477697, "train/reward_neg_loss": 0.02103703184467223, "train/reward_pos_acc": 0.9903590165906482, "train/reward_pos_loss": 0.7274178473485841, "train/reward_pred": 0.026024233834404085, "train/reward_rate": 0.031331380208333336, "stats/sum_log_reward": 6.433333158493042, "stats/max_log_achievement_collect_drink": 7.5, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.31560493260622025, "replay/size": 185696.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7156055828184928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2653725250329267e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30232286453247, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.03377604484558, "timer/env.step_frac": 0.05672209219816652, "timer/env.step_avg": 0.011878504912723558, "timer/env.step_min": 0.0030744075775146484, "timer/env.step_max": 1.636549711227417, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2668185234069824, "timer/replay.add_frac": 0.0008884996987763737, "timer/replay.add_avg": 0.0001860659159044508, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.002870798110961914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024750709533691406, "timer/logger.write_frac": 8.241930764170794e-05, "timer/logger.write_avg": 0.024750709533691406, "timer/logger.write_min": 0.024750709533691406, "timer/logger.write_max": 0.024750709533691406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002968311309814453, "timer/checkpoint.save_frac": 9.884410088807305e-07, "timer/checkpoint.save_avg": 0.0002968311309814453, "timer/checkpoint.save_min": 0.0002968311309814453, "timer/checkpoint.save_max": 0.0002968311309814453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.379608392715454, "timer/agent.save_frac": 0.0045940650060765625, "timer/agent.save_avg": 1.379608392715454, "timer/agent.save_min": 1.379608392715454, "timer/agent.save_max": 1.379608392715454, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.667599831196188e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 15.045028924942017, "timer/agent.policy_frac": 0.050099608892232535, "timer/agent.policy_avg": 0.010491651969973512, "timer/agent.policy_min": 0.005627632141113281, "timer/agent.policy_max": 3.1296262741088867, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06380128860473633, "timer/dataset_frac": 0.00021245686012731022, "timer/dataset_avg": 8.898366611539236e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017905235290527344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.17302203178406, "timer/agent.train_frac": 0.8896801712463172, "timer/agent.train_avg": 0.37262625109035435, "timer/agent.train_min": 0.3607034683227539, "timer/agent.train_max": 0.4239931106567383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21989870071411133, "timer/agent.report_frac": 0.000732257741520396, "timer/agent.report_avg": 0.21989870071411133, "timer/agent.report_min": 0.21989870071411133, "timer/agent.report_max": 0.21989870071411133, "fps": 4.775121084672975}
+{"step": 185827, "episode/length": 176.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03954802259887006}
+{"step": 186003, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03977272727272727}
+{"step": 186226, "episode/length": 222.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04035874439461883}
+{"step": 186398, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
+{"step": 186535, "episode/length": 136.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.051094890510948905}
+{"step": 186678, "episode/length": 142.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.055944055944055944}
+{"step": 186856, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
+{"step": 187059, "episode/length": 202.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.03940886699507389}
+{"step": 187201, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48213873969184, "train/action_min": 0.0, "train/action_std": 3.574725624587801, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050155958678159446, "train/actor_opt_grad_steps": 92695.0, "train/actor_opt_loss": -14.227630482572648, "train/adv_mag": 0.5276759751141071, "train/adv_max": 0.5039486342834102, "train/adv_mean": 0.0032695040576982137, "train/adv_min": -0.43894974432057804, "train/adv_std": 0.05827027460974124, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 4.972981858012797e-06, "train/cont_loss_std": 6.410209388087019e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018022913051633319, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 3.96305917268099e-06, "train/cont_pred": 0.9942598053150706, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.471058785915375, "train/dyn_loss_std": 8.385480417145622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0668386568625767, "train/extr_critic_critic_opt_grad_steps": 92695.0, "train/extr_critic_critic_opt_loss": 15663.80601671007, "train/extr_critic_mag": 7.188762611813015, "train/extr_critic_max": 7.188762611813015, "train/extr_critic_mean": 1.4485045646627743, "train/extr_critic_min": -0.6199253052473068, "train/extr_critic_std": 1.579730702771081, "train/extr_return_normed_mag": 1.638599283165402, "train/extr_return_normed_max": 1.638599283165402, "train/extr_return_normed_mean": 0.3399740116049846, "train/extr_return_normed_min": -0.15302744487093556, "train/extr_return_normed_std": 0.32595840551786953, "train/extr_return_rate": 0.6103570196363661, "train/extr_return_raw_mag": 7.904446754190657, "train/extr_return_raw_max": 7.904446754190657, "train/extr_return_raw_mean": 1.4647370659642749, "train/extr_return_raw_min": -0.9793744368685616, "train/extr_return_raw_std": 1.6163808719979391, "train/extr_reward_mag": 1.0211108095116086, "train/extr_reward_max": 1.0211108095116086, "train/extr_reward_mean": 0.03445109921611018, "train/extr_reward_min": -0.6960442529784309, "train/extr_reward_std": 0.18509278011818728, "train/image_loss_mean": 2.6983043435547085, "train/image_loss_std": 7.382319900724623, "train/model_loss_mean": 5.424004435539246, "train/model_loss_std": 11.369898233148787, "train/model_opt_grad_norm": 38.92144219080607, "train/model_opt_grad_steps": 92618.0, "train/model_opt_loss": 6860.543782552083, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.3312722543875375, "train/policy_entropy_max": 2.3312722543875375, "train/policy_entropy_mean": 0.35102562606334686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4376109962662061, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35180720769696766, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9667389533585973, "train/policy_randomness_mag": 0.8228367980983522, "train/policy_randomness_max": 0.8228367980983522, "train/policy_randomness_mean": 0.1238966423811184, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1544574766109387, "train/post_ent_mag": 54.90579027599759, "train/post_ent_max": 54.90579027599759, "train/post_ent_mean": 39.598358154296875, "train/post_ent_min": 18.79210669464535, "train/post_ent_std": 5.974303947554694, "train/prior_ent_mag": 75.1906000773112, "train/prior_ent_max": 75.1906000773112, "train/prior_ent_mean": 44.01410457823012, "train/prior_ent_min": 24.19596224360996, "train/prior_ent_std": 7.428359899255964, "train/rep_loss_mean": 4.471058785915375, "train/rep_loss_std": 8.385480417145622, "train/reward_avg": 0.025644259798961382, "train/reward_loss_mean": 0.04305979650881556, "train/reward_loss_std": 0.18784594639307922, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0102683736218347, "train/reward_neg_acc": 0.9954950718416108, "train/reward_neg_loss": 0.021227178461332288, "train/reward_pos_acc": 0.9856272091468176, "train/reward_pos_loss": 0.7338995105690427, "train/reward_pred": 0.025383548009105854, "train/reward_rate": 0.030775282118055556, "stats/sum_log_reward": 6.224999904632568, "stats/max_log_achievement_collect_drink": 6.125, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3134511336684227, "replay/size": 187138.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7493884315437813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761056836534308e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2693524360657, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.11792540550232, "timer/env.step_frac": 0.06699959633671203, "timer/env.step_avg": 0.013951404580792177, "timer/env.step_min": 0.0028731822967529297, "timer/env.step_max": 1.657292127609253, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28452444076538086, "timer/replay.add_frac": 0.0009475640402760143, "timer/replay.add_avg": 0.00019731237223674124, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0022857189178466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027982711791992188, "timer/logger.write_frac": 9.31920343017703e-05, "timer/logger.write_avg": 0.027982711791992188, "timer/logger.write_min": 0.027982711791992188, "timer/logger.write_max": 0.027982711791992188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.605204820632935, "timer/agent.policy_frac": 0.035318971898375906, "timer/agent.policy_avg": 0.007354510971312715, "timer/agent.policy_min": 0.005638599395751953, "timer/agent.policy_max": 0.016556501388549805, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06525945663452148, "timer/dataset_frac": 0.00021733638849611448, "timer/dataset_avg": 9.051242251667334e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002193450927734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4652910232544, "timer/agent.train_frac": 0.894081559923492, "timer/agent.train_avg": 0.37235130516401443, "timer/agent.train_min": 0.3662705421447754, "timer/agent.train_max": 0.38390493392944336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2215266227722168, "timer/agent.report_frac": 0.0007377596846797242, "timer/agent.report_avg": 0.2215266227722168, "timer/agent.report_min": 0.2215266227722168, "timer/agent.report_max": 0.2215266227722168, "fps": 4.802285103303601}
+{"step": 187208, "episode/length": 148.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.040268456375838924}
+{"step": 187361, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0457516339869281}
+{"step": 187495, "episode/length": 133.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.05223880597014925}
+{"step": 187675, "episode/length": 179.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.03333333333333333}
+{"step": 187829, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032467532467532464}
+{"step": 187968, "episode/length": 138.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.06474820143884892}
+{"step": 188009, "episode/length": 40.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.07317073170731707}
+{"step": 188171, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
+{"step": 188333, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 188385, "episode/length": 51.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.11538461538461539}
+{"step": 188625, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 3.1, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.7, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_table": 2.3, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.27804711610078814, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549899249009683, "train/action_min": 0.0, "train/action_std": 3.5982879148402684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05069224426234272, "train/actor_opt_grad_steps": 93410.0, "train/actor_opt_loss": -16.118310532099763, "train/adv_mag": 0.5471963974791514, "train/adv_max": 0.5032426353911279, "train/adv_mean": 0.002270338429644, "train/adv_min": -0.47714274492062314, "train/adv_std": 0.05859204019669076, "train/cont_avg": 0.9939068001760564, "train/cont_loss_mean": 0.0001787326810622738, "train/cont_loss_std": 0.005652808617091529, "train/cont_neg_acc": 0.9962441325187683, "train/cont_neg_loss": 0.024734057265011638, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 5.037380431480908e-06, "train/cont_pred": 0.9939352047275489, "train/cont_rate": 0.9939068001760564, "train/dyn_loss_mean": 4.600903094654352, "train/dyn_loss_std": 8.424089599663104, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0611859727913224, "train/extr_critic_critic_opt_grad_steps": 93410.0, "train/extr_critic_critic_opt_loss": 15830.601452464789, "train/extr_critic_mag": 7.233156808665101, "train/extr_critic_max": 7.233156808665101, "train/extr_critic_mean": 1.5000448378039077, "train/extr_critic_min": -0.6168158054351807, "train/extr_critic_std": 1.624621740529235, "train/extr_return_normed_mag": 1.6200896081790117, "train/extr_return_normed_max": 1.6200896081790117, "train/extr_return_normed_mean": 0.3442187271487545, "train/extr_return_normed_min": -0.15219584632087763, "train/extr_return_normed_std": 0.3313673822812631, "train/extr_return_rate": 0.6185684724592827, "train/extr_return_raw_mag": 7.883039837152186, "train/extr_return_raw_max": 7.883039837152186, "train/extr_return_raw_mean": 1.511377535235714, "train/extr_return_raw_min": -0.968084605646805, "train/extr_return_raw_std": 1.6551183042391924, "train/extr_reward_mag": 1.020867495469644, "train/extr_reward_max": 1.020867495469644, "train/extr_reward_mean": 0.03518376035064879, "train/extr_reward_min": -0.6728255731958739, "train/extr_reward_std": 0.18683814729603243, "train/image_loss_mean": 2.7548927035130246, "train/image_loss_std": 7.5136215653218015, "train/model_loss_mean": 5.560438700125251, "train/model_loss_std": 11.510673952774264, "train/model_opt_grad_norm": 39.45632716971384, "train/model_opt_grad_steps": 93332.1690140845, "train/model_opt_loss": 8086.889077629841, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.311567135260139, "train/policy_entropy_max": 2.311567135260139, "train/policy_entropy_mean": 0.345529576002712, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4214124486479961, "train/policy_logprob_mag": 7.438384123251471, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3447035559466187, "train/policy_logprob_min": -7.438384123251471, "train/policy_logprob_std": 0.9542501820644862, "train/policy_randomness_mag": 0.815881761027054, "train/policy_randomness_max": 0.815881761027054, "train/policy_randomness_mean": 0.12195677866398448, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14874009955936754, "train/post_ent_mag": 55.332067247847434, "train/post_ent_max": 55.332067247847434, "train/post_ent_mean": 39.52143456902302, "train/post_ent_min": 18.656751807306854, "train/post_ent_std": 5.986996858892306, "train/prior_ent_mag": 75.21589671390157, "train/prior_ent_max": 75.21589671390157, "train/prior_ent_mean": 44.096711978106434, "train/prior_ent_min": 24.721970302957885, "train/prior_ent_std": 7.429924797004377, "train/rep_loss_mean": 4.600903094654352, "train/rep_loss_std": 8.424089599663104, "train/reward_avg": 0.026284660881673787, "train/reward_loss_mean": 0.04482548439901479, "train/reward_loss_std": 0.19059404604871508, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0078775211119315, "train/reward_neg_acc": 0.9950448727943528, "train/reward_neg_loss": 0.02253629136043535, "train/reward_pos_acc": 0.9910054425118675, "train/reward_pos_loss": 0.727686948339704, "train/reward_pred": 0.026122670148459957, "train/reward_rate": 0.03166263204225352, "replay/size": 188562.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7909223792258274e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3077652521347733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30448746681213, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.50759983062744, "timer/env.step_frac": 0.07827921596817751, "timer/env.step_avg": 0.016508145948474325, "timer/env.step_min": 0.0031173229217529297, "timer/env.step_max": 1.7324273586273193, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2787508964538574, "timer/replay.add_frac": 0.0009282275426692161, "timer/replay.add_avg": 0.00019575203402658528, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0023598670959472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02747368812561035, "timer/logger.write_frac": 9.148610584331205e-05, "timer/logger.write_avg": 0.02747368812561035, "timer/logger.write_min": 0.02747368812561035, "timer/logger.write_max": 0.02747368812561035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.620320558547974, "timer/agent.policy_frac": 0.035365174353985195, "timer/agent.policy_avg": 0.007458090279879195, "timer/agent.policy_min": 0.005700826644897461, "timer/agent.policy_max": 0.016956567764282227, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06612563133239746, "timer/dataset_frac": 0.00022019528209582707, "timer/dataset_avg": 9.287307771404138e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.0937747955322, "timer/agent.train_frac": 0.8827499616529334, "timer/agent.train_avg": 0.3723227174094554, "timer/agent.train_min": 0.3644680976867676, "timer/agent.train_max": 0.38836026191711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22182106971740723, "timer/agent.report_frac": 0.000738653862912793, "timer/agent.report_avg": 0.22182106971740723, "timer/agent.report_min": 0.22182106971740723, "timer/agent.report_max": 0.22182106971740723, "fps": 4.741772292876898}
+{"step": 188727, "episode/length": 341.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.02046783625730994}
+{"step": 188947, "episode/length": 219.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.031818181818181815}
+{"step": 189082, "episode/length": 134.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.05185185185185185}
+{"step": 189267, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
+{"step": 189422, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
+{"step": 189566, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.041666666666666664}
+{"step": 189615, "episode/length": 48.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10204081632653061}
+{"step": 189775, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
+{"step": 189959, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 190035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558899797712054, "train/action_min": 0.0, "train/action_std": 3.612931432042803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05235092373830932, "train/actor_opt_grad_steps": 94115.0, "train/actor_opt_loss": -13.9415223049266, "train/adv_mag": 0.5993016971009119, "train/adv_max": 0.5408411379371371, "train/adv_mean": 0.0035617546124350544, "train/adv_min": -0.4776780788387571, "train/adv_std": 0.060993945864694456, "train/cont_avg": 0.9945870535714286, "train/cont_loss_mean": 1.999296032246483e-05, "train/cont_loss_std": 0.000489695606821832, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012333065925174327, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 1.0903958990939243e-05, "train/cont_pred": 0.994585017647062, "train/cont_rate": 0.9945870535714286, "train/dyn_loss_mean": 4.462045199530465, "train/dyn_loss_std": 8.401985910960606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0904393783637456, "train/extr_critic_critic_opt_grad_steps": 94115.0, "train/extr_critic_critic_opt_loss": 16064.330022321428, "train/extr_critic_mag": 7.735670300892421, "train/extr_critic_max": 7.735670300892421, "train/extr_critic_mean": 1.4914042030061994, "train/extr_critic_min": -0.6123920048986162, "train/extr_critic_std": 1.6098589863095965, "train/extr_return_normed_mag": 1.7360019632748196, "train/extr_return_normed_max": 1.7360019632748196, "train/extr_return_normed_mean": 0.34302886085850853, "train/extr_return_normed_min": -0.1439105569251946, "train/extr_return_normed_std": 0.3300859868526459, "train/extr_return_rate": 0.6376488421644483, "train/extr_return_raw_mag": 8.489867074148995, "train/extr_return_raw_max": 8.489867074148995, "train/extr_return_raw_mean": 1.5092713049479893, "train/extr_return_raw_min": -0.9311991776738848, "train/extr_return_raw_std": 1.6542866178921292, "train/extr_reward_mag": 1.019693500655038, "train/extr_reward_max": 1.019693500655038, "train/extr_reward_mean": 0.03535752110183239, "train/extr_reward_min": -0.6866933328764779, "train/extr_reward_std": 0.18637191844838005, "train/image_loss_mean": 2.715168537412371, "train/image_loss_std": 7.796960084778922, "train/model_loss_mean": 5.43515031678336, "train/model_loss_std": 11.80561855179923, "train/model_opt_grad_norm": 38.74404035295759, "train/model_opt_grad_steps": 94036.97142857143, "train/model_opt_loss": 9573.89914202009, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1732.142857142857, "train/policy_entropy_mag": 2.275940012931824, "train/policy_entropy_max": 2.275940012931824, "train/policy_entropy_mean": 0.3476201627935682, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.42878685380731313, "train/policy_logprob_mag": 7.4383841855185375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3462775081396103, "train/policy_logprob_min": -7.4383841855185375, "train/policy_logprob_std": 0.9540014590535845, "train/policy_randomness_mag": 0.8033069542476109, "train/policy_randomness_max": 0.8033069542476109, "train/policy_randomness_mean": 0.12269466412918908, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15134294245924268, "train/post_ent_mag": 55.072401428222655, "train/post_ent_max": 55.072401428222655, "train/post_ent_mean": 39.62097004481724, "train/post_ent_min": 18.882523087092807, "train/post_ent_std": 5.900177124568394, "train/prior_ent_mag": 75.27256186349051, "train/prior_ent_max": 75.27256186349051, "train/prior_ent_mean": 44.01837855747768, "train/prior_ent_min": 25.367490822928293, "train/prior_ent_std": 7.33427449635097, "train/rep_loss_mean": 4.462045199530465, "train/rep_loss_std": 8.401985910960606, "train/reward_avg": 0.02504743275099567, "train/reward_loss_mean": 0.042734657600522044, "train/reward_loss_std": 0.1902878630374159, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0129886525017875, "train/reward_neg_acc": 0.995268360206059, "train/reward_neg_loss": 0.021083176282367538, "train/reward_pos_acc": 0.983655846118927, "train/reward_pos_loss": 0.7471462522234236, "train/reward_pred": 0.024727900153292078, "train/reward_rate": 0.029924665178571428, "stats/sum_log_reward": 5.544444349077013, "stats/max_log_achievement_collect_drink": 10.555555555555555, "stats/max_log_achievement_collect_sapling": 3.4444444444444446, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_plant": 2.7777777777777777, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3347749412059784, "replay/size": 189972.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.778342659591783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2749264426265203e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3719952106476, "timer/env.step_count": 1410.0, "timer/env.step_total": 21.94687795639038, "timer/env.step_frac": 0.07306565960318397, "timer/env.step_avg": 0.015565161671198851, "timer/env.step_min": 0.0027840137481689453, "timer/env.step_max": 1.759328842163086, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.26363301277160645, "timer/replay.add_frac": 0.0008776883896473887, "timer/replay.add_avg": 0.00018697376792312513, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.002162933349609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02644515037536621, "timer/logger.write_frac": 8.804133140581404e-05, "timer/logger.write_avg": 0.02644515037536621, "timer/logger.write_min": 0.02644515037536621, "timer/logger.write_max": 0.02644515037536621, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00035071372985839844, "timer/checkpoint.save_frac": 1.167597963360222e-06, "timer/checkpoint.save_avg": 0.00035071372985839844, "timer/checkpoint.save_min": 0.00035071372985839844, "timer/checkpoint.save_max": 0.00035071372985839844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3423373699188232, "timer/agent.save_frac": 0.004468916514595366, "timer/agent.save_avg": 1.3423373699188232, "timer/agent.save_min": 1.3423373699188232, "timer/agent.save_max": 1.3423373699188232, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.368492126464844e-05, "timer/replay.save_frac": 2.786042726984622e-07, "timer/replay.save_avg": 8.368492126464844e-05, "timer/replay.save_min": 8.368492126464844e-05, "timer/replay.save_max": 8.368492126464844e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 14.957074165344238, "timer/agent.policy_frac": 0.04979516867028501, "timer/agent.policy_avg": 0.010607854017974637, "timer/agent.policy_min": 0.0056188106536865234, "timer/agent.policy_max": 3.2726194858551025, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06501936912536621, "timer/dataset_frac": 0.00021646281997683852, "timer/dataset_avg": 9.222605549697334e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.4142816066742, "timer/agent.train_frac": 0.8736309835497346, "timer/agent.train_avg": 0.3722188391584031, "timer/agent.train_min": 0.3659093379974365, "timer/agent.train_max": 0.46225404739379883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22159314155578613, "timer/agent.report_frac": 0.0007377290329625613, "timer/agent.report_avg": 0.22159314155578613, "timer/agent.report_min": 0.22159314155578613, "timer/agent.report_max": 0.22159314155578613, "fps": 4.694109722180389}
+{"step": 190193, "episode/length": 233.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.038461538461538464}
+{"step": 190362, "episode/length": 168.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.047337278106508875}
+{"step": 190520, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
+{"step": 190694, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
+{"step": 190873, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03910614525139665}
+{"step": 191018, "episode/length": 144.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04827586206896552}
+{"step": 191236, "episode/length": 217.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03211009174311927}
+{"step": 191467, "episode/length": 230.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.025974025974025976}
+{"step": 191471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.685133192274305, "train/action_min": 0.0, "train/action_std": 3.6726925240622625, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05161976064037946, "train/actor_opt_grad_steps": 94825.0, "train/actor_opt_loss": -15.285348173230886, "train/adv_mag": 0.5939028267231252, "train/adv_max": 0.5502192191779613, "train/adv_mean": 0.002697040519251459, "train/adv_min": -0.4736686994632085, "train/adv_std": 0.05887384024552173, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 3.338479614711787e-05, "train/cont_loss_std": 0.00099476335970097, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001914822103673133, "train/cont_pos_acc": 0.999986340602239, "train/cont_pos_loss": 2.2769476861108887e-05, "train/cont_pred": 0.9944565387235748, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 4.530789722998937, "train/dyn_loss_std": 8.492855383290184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.112831040389008, "train/extr_critic_critic_opt_grad_steps": 94825.0, "train/extr_critic_critic_opt_loss": 15703.710693359375, "train/extr_critic_mag": 7.161727329095204, "train/extr_critic_max": 7.161727329095204, "train/extr_critic_mean": 1.4842790853646066, "train/extr_critic_min": -0.6240781644980112, "train/extr_critic_std": 1.5746937427255843, "train/extr_return_normed_mag": 1.5862541513310537, "train/extr_return_normed_max": 1.5862541513310537, "train/extr_return_normed_mean": 0.34295015202628243, "train/extr_return_normed_min": -0.14805603503353065, "train/extr_return_normed_std": 0.322892453107569, "train/extr_return_rate": 0.6292788237333298, "train/extr_return_raw_mag": 7.693677888976203, "train/extr_return_raw_max": 7.693677888976203, "train/extr_return_raw_mean": 1.4977194335725572, "train/extr_return_raw_min": -0.9491343125700951, "train/extr_return_raw_std": 1.6090596566597621, "train/extr_reward_mag": 1.0287291010220845, "train/extr_reward_max": 1.0287291010220845, "train/extr_reward_mean": 0.03480970461128487, "train/extr_reward_min": -0.672903479801284, "train/extr_reward_std": 0.18510743644502428, "train/image_loss_mean": 2.714852887723181, "train/image_loss_std": 7.499802043040593, "train/model_loss_mean": 5.4762013753255205, "train/model_loss_std": 11.594600531789991, "train/model_opt_grad_norm": 41.68259565035502, "train/model_opt_grad_steps": 94746.0, "train/model_opt_loss": 6845.251715766059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3184207909637027, "train/policy_entropy_max": 2.3184207909637027, "train/policy_entropy_mean": 0.35647811368107796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43364007729623055, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35642657842901015, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9651706483629015, "train/policy_randomness_mag": 0.8183007993631892, "train/policy_randomness_max": 0.8183007993631892, "train/policy_randomness_mean": 0.12582112931542927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15305591757512754, "train/post_ent_mag": 55.17630963855319, "train/post_ent_max": 55.17630963855319, "train/post_ent_mean": 39.59349913067288, "train/post_ent_min": 18.731177581681145, "train/post_ent_std": 6.006413757801056, "train/prior_ent_mag": 75.28140788608127, "train/prior_ent_max": 75.28140788608127, "train/prior_ent_mean": 44.07098621792264, "train/prior_ent_min": 24.930971384048462, "train/prior_ent_std": 7.4073282149102955, "train/rep_loss_mean": 4.530789722998937, "train/rep_loss_std": 8.492855383290184, "train/reward_avg": 0.024479166604578495, "train/reward_loss_mean": 0.04284129703106979, "train/reward_loss_std": 0.18826321626289022, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0137729313638475, "train/reward_neg_acc": 0.9952737043301264, "train/reward_neg_loss": 0.021704136245211378, "train/reward_pos_acc": 0.9837999501162105, "train/reward_pos_loss": 0.7401177527176009, "train/reward_pred": 0.024307211317742865, "train/reward_rate": 0.029595269097222224, "stats/sum_log_reward": 6.099999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3248588126152754, "replay/size": 191408.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7497796720116916e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.325954301775664e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34710788726807, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.524038553237915, "timer/env.step_frac": 0.0683343971500514, "timer/env.step_avg": 0.014292505956293812, "timer/env.step_min": 0.0030193328857421875, "timer/env.step_max": 1.7112834453582764, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2871701717376709, "timer/replay.add_frac": 0.0009561276409741792, "timer/replay.add_avg": 0.00019997922822957584, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.004056215286254883, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0295870304107666, "timer/logger.write_frac": 9.850945667128502e-05, "timer/logger.write_avg": 0.0295870304107666, "timer/logger.write_min": 0.0295870304107666, "timer/logger.write_max": 0.0295870304107666, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.712945699691772, "timer/agent.policy_frac": 0.0356685495493859, "timer/agent.policy_avg": 0.00746026859310012, "timer/agent.policy_min": 0.0057201385498046875, "timer/agent.policy_max": 0.0650320053100586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06792044639587402, "timer/dataset_frac": 0.0002261398382479754, "timer/dataset_avg": 9.459672199982455e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00044155120849609375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.0149266719818, "timer/agent.train_frac": 0.8923506157834495, "timer/agent.train_avg": 0.37327984216153454, "timer/agent.train_min": 0.36588096618652344, "timer/agent.train_max": 1.1403756141662598, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153472900390625, "timer/agent.report_frac": 0.0007375956790869344, "timer/agent.report_avg": 0.22153472900390625, "timer/agent.report_min": 0.22153472900390625, "timer/agent.report_max": 0.22153472900390625, "fps": 4.781067140309542}
+{"step": 191524, "episode/length": 56.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.10526315789473684}
+{"step": 191676, "episode/length": 151.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.046052631578947366}
+{"step": 191839, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03067484662576687}
+{"step": 192018, "episode/length": 178.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0446927374301676}
+{"step": 192453, "episode/length": 434.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.016091954022988506}
+{"step": 192634, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03867403314917127}
+{"step": 192695, "episode/length": 60.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.08196721311475409}
+{"step": 192889, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.03608247422680412}
+{"step": 192911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.768223232693142, "train/action_min": 0.0, "train/action_std": 3.728622214661704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05108446741683616, "train/actor_opt_grad_steps": 95545.0, "train/actor_opt_loss": -15.069919095271164, "train/adv_mag": 0.5412228103313181, "train/adv_max": 0.5006069209840562, "train/adv_mean": 0.003144380910599567, "train/adv_min": -0.4512252091533608, "train/adv_std": 0.059547822198106184, "train/cont_avg": 0.9941677517361112, "train/cont_loss_mean": 1.4854275240949733e-05, "train/cont_loss_std": 0.0002903359031686629, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005685085348735205, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1401099509219156e-05, "train/cont_pred": 0.9941600585977236, "train/cont_rate": 0.9941677517361112, "train/dyn_loss_mean": 4.56995129916403, "train/dyn_loss_std": 8.54130662812127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1347772594955232, "train/extr_critic_critic_opt_grad_steps": 95545.0, "train/extr_critic_critic_opt_loss": 15775.41071234809, "train/extr_critic_mag": 7.508845508098602, "train/extr_critic_max": 7.508845508098602, "train/extr_critic_mean": 1.567744352751308, "train/extr_critic_min": -0.5621987034877142, "train/extr_critic_std": 1.6635193443960614, "train/extr_return_normed_mag": 1.6411608739031687, "train/extr_return_normed_max": 1.6411608739031687, "train/extr_return_normed_mean": 0.3529879069990582, "train/extr_return_normed_min": -0.13776316845582592, "train/extr_return_normed_std": 0.33662959850496715, "train/extr_return_rate": 0.6357801970508363, "train/extr_return_raw_mag": 8.091116607189178, "train/extr_return_raw_max": 8.091116607189178, "train/extr_return_raw_mean": 1.5836272935072582, "train/extr_return_raw_min": -0.8963039815425873, "train/extr_return_raw_std": 1.7010497980647616, "train/extr_reward_mag": 1.027412196000417, "train/extr_reward_max": 1.027412196000417, "train/extr_reward_mean": 0.0352775055087275, "train/extr_reward_min": -0.6729755832089318, "train/extr_reward_std": 0.18684914232128197, "train/image_loss_mean": 2.717944963110818, "train/image_loss_std": 7.295814719465044, "train/model_loss_mean": 5.505227933327357, "train/model_loss_std": 11.40341846810447, "train/model_opt_grad_norm": 41.63760987917582, "train/model_opt_grad_steps": 95465.76388888889, "train/model_opt_loss": 9628.777086046008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1753.4722222222222, "train/policy_entropy_mag": 2.344185574187173, "train/policy_entropy_max": 2.344185574187173, "train/policy_entropy_mean": 0.35629139054152703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43845737932456863, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35608638553983635, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9657760643296771, "train/policy_randomness_mag": 0.8273946386244562, "train/policy_randomness_max": 0.8273946386244562, "train/policy_randomness_mean": 0.12575522665348318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15475621167570353, "train/post_ent_mag": 55.73735867606269, "train/post_ent_max": 55.73735867606269, "train/post_ent_mean": 39.68873855802748, "train/post_ent_min": 18.511554055743748, "train/post_ent_std": 6.097339239385393, "train/prior_ent_mag": 75.26301617092557, "train/prior_ent_max": 75.26301617092557, "train/prior_ent_mean": 44.18592807981703, "train/prior_ent_min": 25.0748966799842, "train/prior_ent_std": 7.531159434053633, "train/rep_loss_mean": 4.56995129916403, "train/rep_loss_std": 8.54130662812127, "train/reward_avg": 0.026947699435469177, "train/reward_loss_mean": 0.045297353890621, "train/reward_loss_std": 0.19601061805668804, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0154406196541257, "train/reward_neg_acc": 0.9951064669423633, "train/reward_neg_loss": 0.022022772282879386, "train/reward_pos_acc": 0.9858669713139534, "train/reward_pos_loss": 0.743233836359448, "train/reward_pred": 0.026569912106626563, "train/reward_rate": 0.03219943576388889, "stats/sum_log_reward": 5.225000023841858, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.2903084196150303, "replay/size": 192848.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7852260801527234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3211121161778768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01923179626465, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.312427520751953, "timer/env.step_frac": 0.06770375151998789, "timer/env.step_avg": 0.014105852444966633, "timer/env.step_min": 0.003019571304321289, "timer/env.step_max": 1.6728358268737793, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26851677894592285, "timer/replay.add_frac": 0.0008949985550535163, "timer/replay.add_avg": 0.00018646998537911308, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0019516944885253906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020886659622192383, "timer/logger.write_frac": 6.961773582693517e-05, "timer/logger.write_avg": 0.020886659622192383, "timer/logger.write_min": 0.020886659622192383, "timer/logger.write_max": 0.020886659622192383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.726036071777344, "timer/agent.policy_frac": 0.03575116170906377, "timer/agent.policy_avg": 0.007448636160956488, "timer/agent.policy_min": 0.005681753158569336, "timer/agent.policy_max": 0.015404224395751953, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06814336776733398, "timer/dataset_frac": 0.00022712999883156955, "timer/dataset_avg": 9.464356634351943e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0002777576446533203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9217209815979, "timer/agent.train_frac": 0.8930151556535437, "timer/agent.train_avg": 0.37211350136333043, "timer/agent.train_min": 0.36393213272094727, "timer/agent.train_max": 0.3943915367126465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22033977508544922, "timer/agent.report_frac": 0.0007344188363067215, "timer/agent.report_avg": 0.22033977508544922, "timer/agent.report_min": 0.22033977508544922, "timer/agent.report_max": 0.22033977508544922, "fps": 4.799507988822471}
+{"step": 193047, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05063291139240506}
+{"step": 193213, "episode/length": 165.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04819277108433735}
+{"step": 193354, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04964539007092199}
+{"step": 193741, "episode/length": 386.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.015503875968992248}
+{"step": 194001, "episode/length": 259.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.026923076923076925}
+{"step": 194140, "episode/length": 138.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.050359712230215826}
+{"step": 194343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4835010104709205, "train/action_min": 0.0, "train/action_std": 3.475553125143051, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.052473491730375424, "train/actor_opt_grad_steps": 96265.0, "train/actor_opt_loss": -13.547983464267519, "train/adv_mag": 0.5397954997089174, "train/adv_max": 0.5055374668704139, "train/adv_mean": 0.003163036692664415, "train/adv_min": -0.4466318695081605, "train/adv_std": 0.05887125551493631, "train/cont_avg": 0.9938151041666666, "train/cont_loss_mean": 5.320922262283842e-05, "train/cont_loss_std": 0.0015488414211135807, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0032332274118971327, "train/cont_pos_acc": 0.9999863422579236, "train/cont_pos_loss": 3.4448269048760314e-05, "train/cont_pred": 0.9937998958759837, "train/cont_rate": 0.9938151041666666, "train/dyn_loss_mean": 4.5276395546065435, "train/dyn_loss_std": 8.504988431930542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0551064991288714, "train/extr_critic_critic_opt_grad_steps": 96265.0, "train/extr_critic_critic_opt_loss": 15894.071343315973, "train/extr_critic_mag": 7.443911029232873, "train/extr_critic_max": 7.443911029232873, "train/extr_critic_mean": 1.60350773566299, "train/extr_critic_min": -0.5843423638078902, "train/extr_critic_std": 1.6857236756218805, "train/extr_return_normed_mag": 1.6181116700172424, "train/extr_return_normed_max": 1.6181116700172424, "train/extr_return_normed_mean": 0.3545120842754841, "train/extr_return_normed_min": -0.14208596929286918, "train/extr_return_normed_std": 0.33453089122970897, "train/extr_return_rate": 0.642412686927451, "train/extr_return_raw_mag": 8.124743050999111, "train/extr_return_raw_max": 8.124743050999111, "train/extr_return_raw_mean": 1.6197488208611805, "train/extr_return_raw_min": -0.9368187901046541, "train/extr_return_raw_std": 1.7220377557807498, "train/extr_reward_mag": 1.0232023000717163, "train/extr_reward_max": 1.0232023000717163, "train/extr_reward_mean": 0.03607769250973231, "train/extr_reward_min": -0.6910033606820636, "train/extr_reward_std": 0.18931607012119558, "train/image_loss_mean": 2.6793579856554666, "train/image_loss_std": 7.327198459042443, "train/model_loss_mean": 5.441506856017643, "train/model_loss_std": 11.404659608999888, "train/model_opt_grad_norm": 36.6298893822564, "train/model_opt_grad_steps": 96185.0, "train/model_opt_loss": 6801.8835856119795, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3155187004142337, "train/policy_entropy_max": 2.3155187004142337, "train/policy_entropy_mean": 0.3409958618382613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4217045596904225, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34210402104589677, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9554726059238116, "train/policy_randomness_mag": 0.8172764885756705, "train/policy_randomness_max": 0.8172764885756705, "train/policy_randomness_mean": 0.12035657403369744, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1488432021190723, "train/post_ent_mag": 54.81603558858236, "train/post_ent_max": 54.81603558858236, "train/post_ent_mean": 39.693709797329376, "train/post_ent_min": 18.74666754404704, "train/post_ent_std": 5.906388719876607, "train/prior_ent_mag": 75.32212458716498, "train/prior_ent_max": 75.32212458716498, "train/prior_ent_mean": 44.16757424672445, "train/prior_ent_min": 24.402855687671238, "train/prior_ent_std": 7.4086438284979925, "train/rep_loss_mean": 4.5276395546065435, "train/rep_loss_std": 8.504988431930542, "train/reward_avg": 0.026121690274319716, "train/reward_loss_mean": 0.04551188259695967, "train/reward_loss_std": 0.19421399922834504, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0076313267151515, "train/reward_neg_acc": 0.9953331119484372, "train/reward_neg_loss": 0.02288894430320296, "train/reward_pos_acc": 0.9849511732657751, "train/reward_pos_loss": 0.736130548020204, "train/reward_pred": 0.02590814388046662, "train/reward_rate": 0.03172471788194445, "stats/sum_log_reward": 5.933333237965901, "stats/max_log_achievement_collect_drink": 7.833333333333333, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.3333333333333335, "stats/mean_log_entropy": 0.4096849511067073, "replay/size": 194280.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7487658708455177e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3112189383480136e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35093808174133, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.65825343132019, "timer/env.step_frac": 0.058792070183294874, "timer/env.step_avg": 0.012331182563771083, "timer/env.step_min": 0.0030748844146728516, "timer/env.step_max": 1.7702021598815918, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2701990604400635, "timer/replay.add_frac": 0.000899611175399519, "timer/replay.add_avg": 0.00018868649472071473, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0011625289916992188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02675461769104004, "timer/logger.write_frac": 8.907785626345771e-05, "timer/logger.write_avg": 0.02675461769104004, "timer/logger.write_min": 0.02675461769104004, "timer/logger.write_max": 0.02675461769104004, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046753883361816406, "timer/checkpoint.save_frac": 1.5566418290690409e-06, "timer/checkpoint.save_avg": 0.00046753883361816406, "timer/checkpoint.save_min": 0.00046753883361816406, "timer/checkpoint.save_max": 0.00046753883361816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.433624029159546, "timer/agent.save_frac": 0.004773163148135003, "timer/agent.save_avg": 1.433624029159546, "timer/agent.save_min": 1.433624029159546, "timer/agent.save_max": 1.433624029159546, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6354160492142863e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 15.147918701171875, "timer/agent.policy_frac": 0.05043406489061582, "timer/agent.policy_avg": 0.010578155517578125, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 3.159548044204712, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06569051742553711, "timer/dataset_frac": 0.00021871254288428178, "timer/dataset_avg": 9.17465327172306e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00026917457580566406, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.4850845336914, "timer/agent.train_frac": 0.8872457207414041, "timer/agent.train_avg": 0.37218587225375893, "timer/agent.train_min": 0.3648502826690674, "timer/agent.train_max": 0.42313408851623535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21806716918945312, "timer/agent.report_frac": 0.0007260412455582394, "timer/agent.report_avg": 0.21806716918945312, "timer/agent.report_min": 0.21806716918945312, "timer/agent.report_max": 0.21806716918945312, "fps": 4.767666287853644}
+{"step": 194346, "episode/length": 205.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000068545341, "episode/reward_rate": 0.043689320388349516}
+{"step": 194549, "episode/length": 202.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 194715, "episode/length": 165.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03614457831325301}
+{"step": 194776, "episode/length": 60.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08196721311475409}
+{"step": 194929, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0392156862745098}
+{"step": 195072, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04195804195804196}
+{"step": 195236, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.042682926829268296}
+{"step": 195398, "episode/length": 161.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.043209876543209874}
+{"step": 195688, "episode/length": 289.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.027586206896551724}
+{"step": 195777, "stats/sum_log_reward": 5.544444349077013, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 3.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3417999545733134, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610097106073944, "train/action_min": 0.0, "train/action_std": 3.6026230865800883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0512698034060673, "train/actor_opt_grad_steps": 96980.0, "train/actor_opt_loss": -17.787320820378586, "train/adv_mag": 0.5384529060880903, "train/adv_max": 0.5009255044057336, "train/adv_mean": 0.0012348823654744119, "train/adv_min": -0.4499058916535176, "train/adv_std": 0.05722204732223296, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 4.976726481591983e-05, "train/cont_loss_std": 0.0015427190519707898, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016713194159358825, "train/cont_pos_acc": 0.9999861448583468, "train/cont_pos_loss": 4.894574563612538e-05, "train/cont_pred": 0.9943639493324388, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.5930111911934866, "train/dyn_loss_std": 8.441720116306358, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.132213744479166, "train/extr_critic_critic_opt_grad_steps": 96980.0, "train/extr_critic_critic_opt_loss": 15788.364491637323, "train/extr_critic_mag": 7.438632441238618, "train/extr_critic_max": 7.438632441238618, "train/extr_critic_mean": 1.5737697011987928, "train/extr_critic_min": -0.5906135397897639, "train/extr_critic_std": 1.696201829843118, "train/extr_return_normed_mag": 1.5646404531640066, "train/extr_return_normed_max": 1.5646404531640066, "train/extr_return_normed_mean": 0.3471328389476722, "train/extr_return_normed_min": -0.13894034617803466, "train/extr_return_normed_std": 0.33039374565574486, "train/extr_return_rate": 0.6341705494363543, "train/extr_return_raw_mag": 7.947696551470689, "train/extr_return_raw_max": 7.947696551470689, "train/extr_return_raw_mean": 1.5802098571414678, "train/extr_return_raw_min": -0.9623293121096114, "train/extr_return_raw_std": 1.7281549682079906, "train/extr_reward_mag": 1.0345868258409097, "train/extr_reward_max": 1.0345868258409097, "train/extr_reward_mean": 0.03360835816973532, "train/extr_reward_min": -0.6765320032415255, "train/extr_reward_std": 0.18321695944792787, "train/image_loss_mean": 2.7455850100853074, "train/image_loss_std": 7.721905970237624, "train/model_loss_mean": 5.54607003171679, "train/model_loss_std": 11.72662972732329, "train/model_opt_grad_norm": 38.69459955457231, "train/model_opt_grad_steps": 96900.0, "train/model_opt_loss": 12833.360035211268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2306.3380281690143, "train/policy_entropy_mag": 2.321501678144428, "train/policy_entropy_max": 2.321501678144428, "train/policy_entropy_mean": 0.3608139765934205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4468586545594981, "train/policy_logprob_mag": 7.438384129967488, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3608576130699104, "train/policy_logprob_min": -7.438384129967488, "train/policy_logprob_std": 0.9699992042192271, "train/policy_randomness_mag": 0.8193882200079905, "train/policy_randomness_max": 0.8193882200079905, "train/policy_randomness_mean": 0.12735149977912366, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1577214932357761, "train/post_ent_mag": 55.45284593609017, "train/post_ent_max": 55.45284593609017, "train/post_ent_mean": 39.65713409638741, "train/post_ent_min": 18.809074683928152, "train/post_ent_std": 5.93259423887226, "train/prior_ent_mag": 75.3889447064467, "train/prior_ent_max": 75.3889447064467, "train/prior_ent_mean": 44.21634426922866, "train/prior_ent_min": 25.02035989895673, "train/prior_ent_std": 7.418913774087396, "train/rep_loss_mean": 4.5930111911934866, "train/rep_loss_std": 8.441720116306358, "train/reward_avg": 0.025885782978484328, "train/reward_loss_mean": 0.04462853758792642, "train/reward_loss_std": 0.19133838496997324, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0181611490921236, "train/reward_neg_acc": 0.9951796355381818, "train/reward_neg_loss": 0.022710504561242923, "train/reward_pos_acc": 0.9870543379179189, "train/reward_pos_loss": 0.7343293336075796, "train/reward_pred": 0.025643500604365075, "train/reward_rate": 0.03102992957746479, "replay/size": 195714.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.721424725265184e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3367817159144615e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33106684684753, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.879857540130615, "timer/env.step_frac": 0.0728524616845188, "timer/env.step_avg": 0.015257920181402103, "timer/env.step_min": 0.0030694007873535156, "timer/env.step_max": 1.7586357593536377, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28380370140075684, "timer/replay.add_frac": 0.0009449695110811871, "timer/replay.add_avg": 0.00019791053096287087, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.006033420562744141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028008222579956055, "timer/logger.write_frac": 9.325782668443928e-05, "timer/logger.write_avg": 0.028008222579956055, "timer/logger.write_min": 0.028008222579956055, "timer/logger.write_max": 0.028008222579956055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.487951278686523, "timer/agent.policy_frac": 0.034921299980047706, "timer/agent.policy_avg": 0.007313773555569403, "timer/agent.policy_min": 0.005643606185913086, "timer/agent.policy_max": 0.01898336410522461, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06466817855834961, "timer/dataset_frac": 0.00021532297420075712, "timer/dataset_avg": 9.019271765460197e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00020742416381835938, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.88722467422485, "timer/agent.train_frac": 0.8886434143368951, "timer/agent.train_avg": 0.37222764947590636, "timer/agent.train_min": 0.3662433624267578, "timer/agent.train_max": 0.38459181785583496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22124671936035156, "timer/agent.report_frac": 0.0007366761010880547, "timer/agent.report_avg": 0.22124671936035156, "timer/agent.report_min": 0.22124671936035156, "timer/agent.report_max": 0.22124671936035156, "fps": 4.774669325024412}
+{"step": 195847, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0440251572327044}
+{"step": 195886, "episode/length": 38.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.1282051282051282}
+{"step": 196082, "episode/length": 195.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025510204081632654}
+{"step": 196246, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03048780487804878}
+{"step": 196439, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04145077720207254}
+{"step": 196613, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
+{"step": 196792, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027932960893854747}
+{"step": 196966, "episode/length": 173.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.040229885057471264}
+{"step": 197134, "episode/length": 167.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.041666666666666664}
+{"step": 197211, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7240447998046875, "train/action_min": 0.0, "train/action_std": 3.694374909003576, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051159688685503274, "train/actor_opt_grad_steps": 97695.0, "train/actor_opt_loss": -16.785128557019764, "train/adv_mag": 0.5055174475742711, "train/adv_max": 0.4717810195353296, "train/adv_mean": 0.0022095662954800194, "train/adv_min": -0.43352905702259803, "train/adv_std": 0.057679727466570005, "train/cont_avg": 0.9942898220486112, "train/cont_loss_mean": 0.00020064146190061175, "train/cont_loss_std": 0.006341324059660123, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.004335232169991186, "train/cont_pos_acc": 0.9999726812044779, "train/cont_pos_loss": 0.00016040430238792623, "train/cont_pred": 0.9942742495073212, "train/cont_rate": 0.9942898220486112, "train/dyn_loss_mean": 4.669264124499427, "train/dyn_loss_std": 8.504254341125488, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1241705202394061, "train/extr_critic_critic_opt_grad_steps": 97695.0, "train/extr_critic_critic_opt_loss": 15987.994439019098, "train/extr_critic_mag": 7.289776504039764, "train/extr_critic_max": 7.289776504039764, "train/extr_critic_mean": 1.4906203399101894, "train/extr_critic_min": -0.5976683331860436, "train/extr_critic_std": 1.664242962996165, "train/extr_return_normed_mag": 1.5891423920790355, "train/extr_return_normed_max": 1.5891423920790355, "train/extr_return_normed_mean": 0.3383762256966697, "train/extr_return_normed_min": -0.14421260149942505, "train/extr_return_normed_std": 0.3319053509169155, "train/extr_return_rate": 0.6050980488459269, "train/extr_return_raw_mag": 7.888803594642216, "train/extr_return_raw_max": 7.888803594642216, "train/extr_return_raw_mean": 1.5018894250194232, "train/extr_return_raw_min": -0.9624013387494617, "train/extr_return_raw_std": 1.6949798415104549, "train/extr_reward_mag": 1.0369030104743109, "train/extr_reward_max": 1.0369030104743109, "train/extr_reward_mean": 0.03422257650850548, "train/extr_reward_min": -0.6843692196740044, "train/extr_reward_std": 0.18470646834207904, "train/image_loss_mean": 2.7750519348515406, "train/image_loss_std": 7.728087120585972, "train/model_loss_mean": 5.620840513043934, "train/model_loss_std": 11.80926337507036, "train/model_opt_grad_norm": 37.045901934305824, "train/model_opt_grad_steps": 97614.55555555556, "train/model_opt_loss": 14052.101277669271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.2944618893994226, "train/policy_entropy_max": 2.2944618893994226, "train/policy_entropy_mean": 0.3619985145827134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4433375315533744, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36259137880471015, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 0.9726139505704244, "train/policy_randomness_mag": 0.809844359755516, "train/policy_randomness_max": 0.809844359755516, "train/policy_randomness_mean": 0.12776958921717274, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15647869163917172, "train/post_ent_mag": 55.47217729356554, "train/post_ent_max": 55.47217729356554, "train/post_ent_mean": 39.66044802135892, "train/post_ent_min": 18.67220519648658, "train/post_ent_std": 6.006236010127598, "train/prior_ent_mag": 75.24206797281902, "train/prior_ent_max": 75.24206797281902, "train/prior_ent_mean": 44.2921814388699, "train/prior_ent_min": 25.413472678926254, "train/prior_ent_std": 7.423418362935384, "train/rep_loss_mean": 4.669264124499427, "train/rep_loss_std": 8.504254341125488, "train/reward_avg": 0.025489637162536383, "train/reward_loss_mean": 0.04402947570714685, "train/reward_loss_std": 0.19399601438393196, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0179796599679523, "train/reward_neg_acc": 0.995351705286238, "train/reward_neg_loss": 0.02225532393074698, "train/reward_pos_acc": 0.9871317678027682, "train/reward_pos_loss": 0.7312252248326937, "train/reward_pred": 0.02523403804904471, "train/reward_rate": 0.030666775173611112, "stats/sum_log_reward": 5.211111068725586, "stats/max_log_achievement_collect_drink": 3.7777777777777777, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.5555555555555556, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.2829566647609075, "replay/size": 197148.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6544214565218574e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2641047832856119e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0588550567627, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.59774947166443, "timer/env.step_frac": 0.07197837726728225, "timer/env.step_avg": 0.0150611921001844, "timer/env.step_min": 0.0030875205993652344, "timer/env.step_max": 1.675490379333496, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2626338005065918, "timer/replay.add_frac": 0.0008752742872957669, "timer/replay.add_avg": 0.0001831476990980417, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0027527809143066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02239513397216797, "timer/logger.write_frac": 7.463580425890594e-05, "timer/logger.write_avg": 0.02239513397216797, "timer/logger.write_min": 0.02239513397216797, "timer/logger.write_max": 0.02239513397216797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.538414001464844, "timer/agent.policy_frac": 0.0351211564793556, "timer/agent.policy_avg": 0.007348963738817883, "timer/agent.policy_min": 0.005641460418701172, "timer/agent.policy_max": 0.017774105072021484, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06435656547546387, "timer/dataset_frac": 0.0002144798075140606, "timer/dataset_avg": 8.975811084444054e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002396106719970703, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.87660479545593, "timer/agent.train_frac": 0.8894141942418943, "timer/agent.train_avg": 0.37221283792950616, "timer/agent.train_min": 0.3660428524017334, "timer/agent.train_max": 0.38401174545288086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972393989562988, "timer/agent.report_frac": 0.0007322694737806164, "timer/agent.report_avg": 0.21972393989562988, "timer/agent.report_min": 0.21972393989562988, "timer/agent.report_max": 0.21972393989562988, "fps": 4.778972671306309}
+{"step": 197298, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.042682926829268296}
+{"step": 197493, "episode/length": 194.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.041025641025641026}
+{"step": 197723, "episode/length": 229.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.034782608695652174}
+{"step": 197879, "episode/length": 155.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04487179487179487}
+{"step": 198094, "episode/length": 214.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.037209302325581395}
+{"step": 198397, "episode/length": 302.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.026402640264026403}
+{"step": 198564, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
+{"step": 198637, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.676907391615317, "train/action_min": 0.0, "train/action_std": 3.7022826973821075, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04965049337962983, "train/actor_opt_grad_steps": 98410.0, "train/actor_opt_loss": -15.737281564255836, "train/adv_mag": 0.5535256065113444, "train/adv_max": 0.498334246622005, "train/adv_mean": 0.002038176930743158, "train/adv_min": -0.48545571804886134, "train/adv_std": 0.05814467701064029, "train/cont_avg": 0.9940856073943662, "train/cont_loss_mean": 1.3592826072729455e-05, "train/cont_loss_std": 0.0003288489717552808, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003048079089867443, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.1626685814952664e-05, "train/cont_pred": 0.9940772535095752, "train/cont_rate": 0.9940856073943662, "train/dyn_loss_mean": 4.568556187858044, "train/dyn_loss_std": 8.435039110586677, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0900103760437228, "train/extr_critic_critic_opt_grad_steps": 98410.0, "train/extr_critic_critic_opt_loss": 15608.442300286091, "train/extr_critic_mag": 7.528488951669613, "train/extr_critic_max": 7.528488951669613, "train/extr_critic_mean": 1.5072383729504868, "train/extr_critic_min": -0.6125441873577279, "train/extr_critic_std": 1.6841391963018497, "train/extr_return_normed_mag": 1.6541261370752898, "train/extr_return_normed_max": 1.6541261370752898, "train/extr_return_normed_mean": 0.3411633573787313, "train/extr_return_normed_min": -0.16071131489646268, "train/extr_return_normed_std": 0.33750670770524255, "train/extr_return_rate": 0.6141019623044511, "train/extr_return_raw_mag": 8.203156343648132, "train/extr_return_raw_max": 8.203156343648132, "train/extr_return_raw_mean": 1.5176522244869823, "train/extr_return_raw_min": -1.0381265601641696, "train/extr_return_raw_std": 1.7188188257351729, "train/extr_reward_mag": 1.0277568521633955, "train/extr_reward_max": 1.0277568521633955, "train/extr_reward_mean": 0.03365108658048049, "train/extr_reward_min": -0.6927521027309794, "train/extr_reward_std": 0.18397774180056345, "train/image_loss_mean": 2.7063796050112012, "train/image_loss_std": 7.163641439357274, "train/model_loss_mean": 5.492289422263561, "train/model_loss_std": 11.210755939215002, "train/model_opt_grad_norm": 37.0783134782818, "train/model_opt_grad_steps": 98328.98591549296, "train/model_opt_loss": 13937.550726232394, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.311629940086687, "train/policy_entropy_max": 2.311629940086687, "train/policy_entropy_mean": 0.36230625904781716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4447343718837684, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3635111619049395, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 0.9743304882251042, "train/policy_randomness_mag": 0.815903923041384, "train/policy_randomness_max": 0.815903923041384, "train/policy_randomness_mean": 0.12787820860533647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15697171507586896, "train/post_ent_mag": 55.63999224380708, "train/post_ent_max": 55.63999224380708, "train/post_ent_mean": 39.895275223423056, "train/post_ent_min": 18.46270522265367, "train/post_ent_std": 5.998547956977092, "train/prior_ent_mag": 75.27943302208269, "train/prior_ent_max": 75.27943302208269, "train/prior_ent_mean": 44.39932680801606, "train/prior_ent_min": 24.955017062979685, "train/prior_ent_std": 7.429320953261684, "train/rep_loss_mean": 4.568556187858044, "train/rep_loss_std": 8.435039110586677, "train/reward_avg": 0.025774372689111133, "train/reward_loss_mean": 0.04476252675686084, "train/reward_loss_std": 0.19101042520832007, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0140438952916104, "train/reward_neg_acc": 0.994845773972256, "train/reward_neg_loss": 0.02254218189701648, "train/reward_pos_acc": 0.9854764333913024, "train/reward_pos_loss": 0.7380491495132446, "train/reward_pred": 0.02554627806997635, "train/reward_rate": 0.03108494718309859, "stats/sum_log_reward": 6.528571333203997, "stats/max_log_achievement_collect_drink": 7.714285714285714, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.35644468665122986, "replay/size": 198574.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.696992721664621e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2656582354830491e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0791573524475, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.380775690078735, "timer/env.step_frac": 0.061253090192099666, "timer/env.step_avg": 0.01288974452319687, "timer/env.step_min": 0.0030117034912109375, "timer/env.step_max": 1.6721746921539307, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2617528438568115, "timer/replay.add_frac": 0.0008722793217836814, "timer/replay.add_avg": 0.00018355739400898423, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0020825862884521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027062177658081055, "timer/logger.write_frac": 9.018346324631976e-05, "timer/logger.write_avg": 0.027062177658081055, "timer/logger.write_min": 0.027062177658081055, "timer/logger.write_max": 0.027062177658081055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005431175231933594, "timer/checkpoint.save_frac": 1.8099141839280082e-06, "timer/checkpoint.save_avg": 0.0005431175231933594, "timer/checkpoint.save_min": 0.0005431175231933594, "timer/checkpoint.save_max": 0.0005431175231933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3437120914459229, "timer/agent.save_frac": 0.004477858786665788, "timer/agent.save_avg": 1.3437120914459229, "timer/agent.save_min": 1.3437120914459229, "timer/agent.save_max": 1.3437120914459229, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001049041748046875, "timer/replay.save_frac": 3.495883410572096e-07, "timer/replay.save_avg": 0.0001049041748046875, "timer/replay.save_min": 0.0001049041748046875, "timer/replay.save_max": 0.0001049041748046875, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 15.238504409790039, "timer/agent.policy_frac": 0.050781615571827886, "timer/agent.policy_avg": 0.010686188225659215, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 3.485938310623169, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06345033645629883, "timer/dataset_frac": 0.00021144533001262545, "timer/dataset_avg": 8.89906542164079e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.40815138816833, "timer/agent.train_frac": 0.884460466131083, "timer/agent.train_avg": 0.3722414465472207, "timer/agent.train_min": 0.36653876304626465, "timer/agent.train_max": 0.38582730293273926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2247161865234375, "timer/agent.report_frac": 0.0007488563634544766, "timer/agent.report_avg": 0.2247161865234375, "timer/agent.report_min": 0.2247161865234375, "timer/agent.report_max": 0.2247161865234375, "fps": 4.752009846094017}
+{"step": 198793, "episode/length": 228.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.039301310043668124}
+{"step": 198989, "episode/length": 195.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03571428571428571}
+{"step": 199139, "episode/length": 149.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05333333333333334}
+{"step": 199183, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11363636363636363}
+{"step": 199343, "episode/length": 159.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03125}
+{"step": 199555, "episode/length": 211.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03773584905660377}
+{"step": 199740, "episode/length": 184.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.043243243243243246}
+{"step": 199901, "episode/length": 160.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049689440993788817}
+{"step": 199945, "episode/length": 43.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.045454545454545456}
+{"step": 200071, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686890496148004, "train/action_min": 0.0, "train/action_std": 3.6495329870118036, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049178331003834806, "train/actor_opt_grad_steps": 99125.0, "train/actor_opt_loss": -16.02021146317323, "train/adv_mag": 0.5346232110427486, "train/adv_max": 0.4925089507467217, "train/adv_mean": 0.0018916104477347693, "train/adv_min": -0.4589194344977538, "train/adv_std": 0.056944982821328774, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 8.850310184074476e-06, "train/cont_loss_std": 0.00020661221557974032, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010203151243280849, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 8.221578682644627e-06, "train/cont_pred": 0.9947437172134718, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 4.462449295653237, "train/dyn_loss_std": 8.318665027618408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.059922528763612, "train/extr_critic_critic_opt_grad_steps": 99125.0, "train/extr_critic_critic_opt_loss": 15536.274617513021, "train/extr_critic_mag": 7.332170214917925, "train/extr_critic_max": 7.332170214917925, "train/extr_critic_mean": 1.4404058638546202, "train/extr_critic_min": -0.5922692169745764, "train/extr_critic_std": 1.5994213736719556, "train/extr_return_normed_mag": 1.6329670233858957, "train/extr_return_normed_max": 1.6329670233858957, "train/extr_return_normed_mean": 0.33424273050493664, "train/extr_return_normed_min": -0.1410246164434486, "train/extr_return_normed_std": 0.3280570086919599, "train/extr_return_rate": 0.6094301860365603, "train/extr_return_raw_mag": 7.903814223077562, "train/extr_return_raw_max": 7.903814223077562, "train/extr_return_raw_mean": 1.4497964911990695, "train/extr_return_raw_min": -0.9121397684017817, "train/extr_return_raw_std": 1.6301698717806075, "train/extr_reward_mag": 1.0330931345621746, "train/extr_reward_max": 1.0330931345621746, "train/extr_reward_mean": 0.03312843349865741, "train/extr_reward_min": -0.6781985577609804, "train/extr_reward_std": 0.18216349929571152, "train/image_loss_mean": 2.5658797522385917, "train/image_loss_std": 7.146867513656616, "train/model_loss_mean": 5.285538458161884, "train/model_loss_std": 11.113840599854788, "train/model_opt_grad_norm": 34.93369147512648, "train/model_opt_grad_steps": 99043.0, "train/model_opt_loss": 13213.846110026041, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3387775321801505, "train/policy_entropy_max": 2.3387775321801505, "train/policy_entropy_mean": 0.3676414353152116, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4541720358861817, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3678647205233574, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9778503684533967, "train/policy_randomness_mag": 0.8254858338170581, "train/policy_randomness_max": 0.8254858338170581, "train/policy_randomness_mean": 0.12976129208174017, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16030279857416949, "train/post_ent_mag": 56.233049127790665, "train/post_ent_max": 56.233049127790665, "train/post_ent_mean": 40.03277275297377, "train/post_ent_min": 18.59332729710473, "train/post_ent_std": 5.9471451375219555, "train/prior_ent_mag": 75.31003867255316, "train/prior_ent_max": 75.31003867255316, "train/prior_ent_mean": 44.450879944695366, "train/prior_ent_min": 25.458553658591377, "train/prior_ent_std": 7.314812971485986, "train/rep_loss_mean": 4.462449295653237, "train/rep_loss_std": 8.318665027618408, "train/reward_avg": 0.025480142910964787, "train/reward_loss_mean": 0.04218025057990518, "train/reward_loss_std": 0.18506016375290024, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0134135666820738, "train/reward_neg_acc": 0.9955518891414007, "train/reward_neg_loss": 0.020716822874318395, "train/reward_pos_acc": 0.9885403224163585, "train/reward_pos_loss": 0.7274656933214929, "train/reward_pred": 0.025286690319060452, "train/reward_rate": 0.030409071180555556, "stats/sum_log_reward": 5.099999916222361, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3206800702545378, "replay/size": 200008.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7292390022650256e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2934083220350194e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01781940460205, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.509066343307495, "timer/env.step_frac": 0.07169262941112345, "timer/env.step_avg": 0.014999348914440373, "timer/env.step_min": 0.0026540756225585938, "timer/env.step_max": 1.7086877822875977, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26825928688049316, "timer/replay.add_frac": 0.0008941445125255059, "timer/replay.add_avg": 0.00018707063241317514, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.0015215873718261719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02762317657470703, "timer/logger.write_frac": 9.207178636764437e-05, "timer/logger.write_avg": 0.02762317657470703, "timer/logger.write_min": 0.02762317657470703, "timer/logger.write_max": 0.02762317657470703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.552352666854858, "timer/agent.policy_frac": 0.03517241971759026, "timer/agent.policy_avg": 0.007358683868099622, "timer/agent.policy_min": 0.005733489990234375, "timer/agent.policy_max": 0.01709151268005371, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06557703018188477, "timer/dataset_frac": 0.00021857711755930075, "timer/dataset_avg": 9.1460293140704e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00024580955505371094, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.89462447166443, "timer/agent.train_frac": 0.889595908007491, "timer/agent.train_avg": 0.3722379699744274, "timer/agent.train_min": 0.36601686477661133, "timer/agent.train_max": 0.3872547149658203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22093772888183594, "timer/agent.report_frac": 0.0007364153546622535, "timer/agent.report_avg": 0.22093772888183594, "timer/agent.report_min": 0.22093772888183594, "timer/agent.report_max": 0.22093772888183594, "fps": 4.779621505875818}
+{"step": 200099, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
+{"step": 200290, "episode/length": 190.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.041884816753926704}
+{"step": 200474, "episode/length": 183.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043478260869565216}
+{"step": 200701, "episode/length": 226.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02643171806167401}
+{"step": 201146, "episode/length": 444.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.008988764044943821}
+{"step": 201439, "episode/length": 292.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.023890784982935155}
+{"step": 201531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5495062005029965, "train/action_min": 0.0, "train/action_std": 3.542834517073958, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05167828357382996, "train/actor_opt_grad_steps": 99850.0, "train/actor_opt_loss": -15.103574690753467, "train/adv_mag": 0.5425796570026711, "train/adv_max": 0.5106054454633634, "train/adv_mean": 0.0031403008442420326, "train/adv_min": -0.43773206782667606, "train/adv_std": 0.05939177821760308, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 8.277457140736746e-05, "train/cont_loss_std": 0.0026085855290984474, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011318690385824955, "train/cont_pos_acc": 0.9999730195084663, "train/cont_pos_loss": 8.284334411819347e-05, "train/cont_pred": 0.9941745547399129, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 4.781394497988975, "train/dyn_loss_std": 8.612873292949102, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0641477638727999, "train/extr_critic_critic_opt_grad_steps": 99850.0, "train/extr_critic_critic_opt_loss": 15481.581991117295, "train/extr_critic_mag": 7.198116753199329, "train/extr_critic_max": 7.198116753199329, "train/extr_critic_mean": 1.4321756950796467, "train/extr_critic_min": -0.5920818619532128, "train/extr_critic_std": 1.5915367178720972, "train/extr_return_normed_mag": 1.6391314088481745, "train/extr_return_normed_max": 1.6391314088481745, "train/extr_return_normed_mean": 0.3376211711805161, "train/extr_return_normed_min": -0.14619067923663415, "train/extr_return_normed_std": 0.33383980005571284, "train/extr_return_rate": 0.5812990804241128, "train/extr_return_raw_mag": 7.801061094623723, "train/extr_return_raw_max": 7.801061094623723, "train/extr_return_raw_mean": 1.4474749132378462, "train/extr_return_raw_min": -0.9148025096279301, "train/extr_return_raw_std": 1.6302663300135365, "train/extr_reward_mag": 1.0256850164230555, "train/extr_reward_max": 1.0256850164230555, "train/extr_reward_mean": 0.03414881760126924, "train/extr_reward_min": -0.6630882482006125, "train/extr_reward_std": 0.1850822339319203, "train/image_loss_mean": 2.8218789949809033, "train/image_loss_std": 7.6450569074447845, "train/model_loss_mean": 5.735744639618756, "train/model_loss_std": 11.790230215412297, "train/model_opt_grad_norm": 41.94332201186925, "train/model_opt_grad_steps": 99767.08219178082, "train/model_opt_loss": 7757.929854719606, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1352.7397260273972, "train/policy_entropy_mag": 2.311453264053554, "train/policy_entropy_max": 2.311453264053554, "train/policy_entropy_mean": 0.3678476149088716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4556937238124952, "train/policy_logprob_mag": 7.4383841279434835, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3683817451947356, "train/policy_logprob_min": -7.4383841279434835, "train/policy_logprob_std": 0.9797326056924585, "train/policy_randomness_mag": 0.8158415662099238, "train/policy_randomness_max": 0.8158415662099238, "train/policy_randomness_mean": 0.12983406467797004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16083988863719653, "train/post_ent_mag": 55.260896656611195, "train/post_ent_max": 55.260896656611195, "train/post_ent_mean": 39.79959534945553, "train/post_ent_min": 17.97708814438075, "train/post_ent_std": 5.936232364341004, "train/prior_ent_mag": 75.33893867388163, "train/prior_ent_max": 75.33893867388163, "train/prior_ent_mean": 44.51955251824366, "train/prior_ent_min": 25.697792575783925, "train/prior_ent_std": 7.322185535953469, "train/rep_loss_mean": 4.781394497988975, "train/rep_loss_std": 8.612873292949102, "train/reward_avg": 0.026343107670035264, "train/reward_loss_mean": 0.04494618874502509, "train/reward_loss_std": 0.19804801220354967, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.012071913235808, "train/reward_neg_acc": 0.9951388648111527, "train/reward_neg_loss": 0.022608657373906407, "train/reward_pos_acc": 0.9886681788588223, "train/reward_pos_loss": 0.7308040089803199, "train/reward_pred": 0.026105508374126805, "train/reward_rate": 0.03149079623287671, "stats/sum_log_reward": 5.599999825159709, "stats/max_log_achievement_collect_drink": 6.666666666666667, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.4110117306311925, "replay/size": 201468.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7061025018561378e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2544124093774248e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29033851623535, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.110553979873657, "timer/env.step_frac": 0.05698003493691678, "timer/env.step_avg": 0.011719557520461409, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 1.748450517654419, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2665822505950928, "timer/replay.add_frac": 0.0008877483435274754, "timer/replay.add_avg": 0.00018259058259937862, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0034232139587402344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03150200843811035, "timer/logger.write_frac": 0.00010490516809087142, "timer/logger.write_avg": 0.03150200843811035, "timer/logger.write_min": 0.03150200843811035, "timer/logger.write_max": 0.03150200843811035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.571974277496338, "timer/agent.policy_frac": 0.035205842218346155, "timer/agent.policy_avg": 0.0072410782722577656, "timer/agent.policy_min": 0.005736351013183594, "timer/agent.policy_max": 0.017499208450317383, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06504082679748535, "timer/dataset_frac": 0.0002165931382236891, "timer/dataset_avg": 8.90970230102539e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.54692029953003, "timer/agent.train_frac": 0.9042812420848122, "timer/agent.train_avg": 0.3719820826020959, "timer/agent.train_min": 0.36283278465270996, "timer/agent.train_max": 0.38233423233032227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22205400466918945, "timer/agent.report_frac": 0.0007394643656082328, "timer/agent.report_avg": 0.22205400466918945, "timer/agent.report_min": 0.22205400466918945, "timer/agent.report_max": 0.22205400466918945, "fps": 4.861894650657653}
+{"step": 201697, "episode/length": 257.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.023255813953488372}
+{"step": 201910, "episode/length": 212.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.028169014084507043}
+{"step": 202181, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.025830258302583026}
+{"step": 202332, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
+{"step": 202476, "episode/length": 143.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.04861111111111111}
+{"step": 202531, "episode/length": 54.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.09090909090909091}
+{"step": 202689, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
+{"step": 202879, "episode/length": 189.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03684210526315789}
+{"step": 202947, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508476149867958, "train/action_min": 0.0, "train/action_std": 3.437924667143486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04993260158619411, "train/actor_opt_grad_steps": 100570.0, "train/actor_opt_loss": -14.919200503490341, "train/adv_mag": 0.5595688261616398, "train/adv_max": 0.5126838768032235, "train/adv_mean": 0.0025506751511989345, "train/adv_min": -0.47321053541881936, "train/adv_std": 0.05890195139906776, "train/cont_avg": 0.9939480633802817, "train/cont_loss_mean": 5.821069537448789e-05, "train/cont_loss_std": 0.0017378246688740803, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010186298364458989, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 7.763704062658946e-06, "train/cont_pred": 0.9939561519824284, "train/cont_rate": 0.9939480633802817, "train/dyn_loss_mean": 4.543291854186797, "train/dyn_loss_std": 8.432803295028041, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0359466428488073, "train/extr_critic_critic_opt_grad_steps": 100570.0, "train/extr_critic_critic_opt_loss": 15502.60108109595, "train/extr_critic_mag": 7.39125970383765, "train/extr_critic_max": 7.39125970383765, "train/extr_critic_mean": 1.4152000336579873, "train/extr_critic_min": -0.6099105737578701, "train/extr_critic_std": 1.6448680615760911, "train/extr_return_normed_mag": 1.6404848568876025, "train/extr_return_normed_max": 1.6404848568876025, "train/extr_return_normed_mean": 0.3275441735143393, "train/extr_return_normed_min": -0.14023913915308428, "train/extr_return_normed_std": 0.33924215990053097, "train/extr_return_rate": 0.5732871482909565, "train/extr_return_raw_mag": 7.91612984428943, "train/extr_return_raw_max": 7.91612984428943, "train/extr_return_raw_mean": 1.427771485187638, "train/extr_return_raw_min": -0.883019035970661, "train/extr_return_raw_std": 1.675751741503326, "train/extr_reward_mag": 1.0242131226499316, "train/extr_reward_max": 1.0242131226499316, "train/extr_reward_mean": 0.03342057260828958, "train/extr_reward_min": -0.6991211797150088, "train/extr_reward_std": 0.18299224091247773, "train/image_loss_mean": 2.728901737172839, "train/image_loss_std": 7.568077564239502, "train/model_loss_mean": 5.498694527317101, "train/model_loss_std": 11.581426479447057, "train/model_opt_grad_norm": 36.33579092965999, "train/model_opt_grad_steps": 100487.0, "train/model_opt_loss": 10544.483804192341, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1919.0140845070423, "train/policy_entropy_mag": 2.336305876852761, "train/policy_entropy_max": 2.336305876852761, "train/policy_entropy_mean": 0.3627746197539316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45564517924483394, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3628144379652722, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9752170409954769, "train/policy_randomness_mag": 0.8246134494391966, "train/policy_randomness_max": 0.8246134494391966, "train/policy_randomness_mean": 0.12804352166787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16082275260082432, "train/post_ent_mag": 56.313436642499035, "train/post_ent_max": 56.313436642499035, "train/post_ent_mean": 40.24282869150941, "train/post_ent_min": 18.8145423405607, "train/post_ent_std": 6.062440442367339, "train/prior_ent_mag": 75.3222041600187, "train/prior_ent_max": 75.3222041600187, "train/prior_ent_mean": 44.75617293236961, "train/prior_ent_min": 25.203618519742722, "train/prior_ent_std": 7.39617617701141, "train/rep_loss_mean": 4.543291854186797, "train/rep_loss_std": 8.432803295028041, "train/reward_avg": 0.025646456792740753, "train/reward_loss_mean": 0.04375947159255894, "train/reward_loss_std": 0.1904004006318643, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0085790778549624, "train/reward_neg_acc": 0.9954690421131295, "train/reward_neg_loss": 0.021643641404807568, "train/reward_pos_acc": 0.9862652471367742, "train/reward_pos_loss": 0.7331593112206795, "train/reward_pred": 0.025445710303602924, "train/reward_rate": 0.03108494718309859, "stats/sum_log_reward": 5.224999904632568, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3558361306786537, "replay/size": 202884.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7586284896074715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2787848205889686e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1393599510193, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.394161462783813, "timer/env.step_frac": 0.06794897365714381, "timer/env.step_avg": 0.014402656400271054, "timer/env.step_min": 0.003086566925048828, "timer/env.step_max": 1.6964623928070068, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2995007038116455, "timer/replay.add_frac": 0.0009978721346661165, "timer/replay.add_avg": 0.00021151179647715078, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.008990764617919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026698589324951172, "timer/logger.write_frac": 8.895397567752594e-05, "timer/logger.write_avg": 0.026698589324951172, "timer/logger.write_min": 0.026698589324951172, "timer/logger.write_max": 0.026698589324951172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021576881408691406, "timer/checkpoint.save_frac": 7.188954295168953e-07, "timer/checkpoint.save_avg": 0.00021576881408691406, "timer/checkpoint.save_min": 0.00021576881408691406, "timer/checkpoint.save_max": 0.00021576881408691406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3641948699951172, "timer/agent.save_frac": 0.0045452048349065065, "timer/agent.save_avg": 1.3641948699951172, "timer/agent.save_min": 1.3641948699951172, "timer/agent.save_max": 1.3641948699951172, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.1447708946912899e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 15.10543179512024, "timer/agent.policy_frac": 0.05032806026368999, "timer/agent.policy_avg": 0.010667677821412598, "timer/agent.policy_min": 0.005723237991333008, "timer/agent.policy_max": 3.3783187866210938, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06355810165405273, "timer/dataset_frac": 0.00021176196838836796, "timer/dataset_avg": 8.977133001984849e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00018310546875, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.55924010276794, "timer/agent.train_frac": 0.8781228831359507, "timer/agent.train_avg": 0.3722588137044745, "timer/agent.train_min": 0.36606550216674805, "timer/agent.train_max": 0.38475680351257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192552089691162, "timer/agent.report_frac": 0.0007305113498106252, "timer/agent.report_avg": 0.2192552089691162, "timer/agent.report_min": 0.2192552089691162, "timer/agent.report_max": 0.2192552089691162, "fps": 4.717748707416164}
+{"step": 203010, "episode/length": 130.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.030534351145038167}
+{"step": 203190, "episode/length": 179.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.044444444444444446}
+{"step": 203420, "episode/length": 229.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.030434782608695653}
+{"step": 203565, "episode/length": 144.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04827586206896552}
+{"step": 203741, "episode/length": 175.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03977272727272727}
+{"step": 203910, "episode/length": 168.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.700000032782555, "episode/reward_rate": 0.029585798816568046}
+{"step": 204114, "episode/length": 203.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.04411764705882353}
+{"step": 204307, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04145077720207254}
+{"step": 204387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495687696668837, "train/action_min": 0.0, "train/action_std": 3.3769125640392303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05161063952578439, "train/actor_opt_grad_steps": 101285.0, "train/actor_opt_loss": -12.265861349594262, "train/adv_mag": 0.6996794094642004, "train/adv_max": 0.6241095815267828, "train/adv_mean": 0.003047754273615687, "train/adv_min": -0.5502657968964841, "train/adv_std": 0.05975771969598201, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 1.1419804528777098e-05, "train/cont_loss_std": 0.0003120607349684532, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011144827532613515, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 2.8680936955775374e-06, "train/cont_pred": 0.99422687292099, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.461946219205856, "train/dyn_loss_std": 8.456320544083914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0739278097947438, "train/extr_critic_critic_opt_grad_steps": 101285.0, "train/extr_critic_critic_opt_loss": 15784.307440863715, "train/extr_critic_mag": 7.792608022689819, "train/extr_critic_max": 7.792608022689819, "train/extr_critic_mean": 1.4870768280492888, "train/extr_critic_min": -0.6237573706441455, "train/extr_critic_std": 1.7034328165981505, "train/extr_return_normed_mag": 1.73907081120544, "train/extr_return_normed_max": 1.73907081120544, "train/extr_return_normed_mean": 0.3434941153973341, "train/extr_return_normed_min": -0.14814830685241354, "train/extr_return_normed_std": 0.34575946090949905, "train/extr_return_rate": 0.6029975364605585, "train/extr_return_raw_mag": 8.546317074033949, "train/extr_return_raw_max": 8.546317074033949, "train/extr_return_raw_mean": 1.5024033379223611, "train/extr_return_raw_min": -0.978239024678866, "train/extr_return_raw_std": 1.7449068542983797, "train/extr_reward_mag": 1.0302070776621501, "train/extr_reward_max": 1.0302070776621501, "train/extr_reward_mean": 0.03401706942046682, "train/extr_reward_min": -0.6816082745790482, "train/extr_reward_std": 0.18509468995034695, "train/image_loss_mean": 2.6726742254363165, "train/image_loss_std": 7.366056561470032, "train/model_loss_mean": 5.3939926657411785, "train/model_loss_std": 11.38739197784, "train/model_opt_grad_norm": 38.52406856748793, "train/model_opt_grad_steps": 101201.76388888889, "train/model_opt_loss": 12880.281127929688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.318166414896647, "train/policy_entropy_max": 2.318166414896647, "train/policy_entropy_mean": 0.34110735687944627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4239233550098207, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33957985623015297, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9501615481244193, "train/policy_randomness_mag": 0.8182110157277849, "train/policy_randomness_max": 0.8182110157277849, "train/policy_randomness_mean": 0.12039592789693011, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14962633999271524, "train/post_ent_mag": 56.18227847417196, "train/post_ent_max": 56.18227847417196, "train/post_ent_mean": 40.17417393790351, "train/post_ent_min": 18.656412469016182, "train/post_ent_std": 6.003236141469744, "train/prior_ent_mag": 75.47894318898518, "train/prior_ent_max": 75.47894318898518, "train/prior_ent_mean": 44.57760180367364, "train/prior_ent_min": 25.365524530410767, "train/prior_ent_std": 7.33600597249137, "train/rep_loss_mean": 4.461946219205856, "train/rep_loss_std": 8.456320544083914, "train/reward_avg": 0.02551405168034964, "train/reward_loss_mean": 0.04413930670772162, "train/reward_loss_std": 0.18850033833748764, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0188832316133711, "train/reward_neg_acc": 0.995699456996388, "train/reward_neg_loss": 0.022144744935859408, "train/reward_pos_acc": 0.9873640487591425, "train/reward_pos_loss": 0.7351196996039815, "train/reward_pred": 0.025231994002954, "train/reward_rate": 0.030924479166666668, "stats/sum_log_reward": 5.600000083446503, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.35281267389655113, "replay/size": 204324.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7887030177646214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2666814857059056e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11530351638794, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.418595552444458, "timer/env.step_frac": 0.06803583593773481, "timer/env.step_avg": 0.014179580244753095, "timer/env.step_min": 0.0030813217163085938, "timer/env.step_max": 1.6756725311279297, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28987598419189453, "timer/replay.add_frac": 0.0009658820486508969, "timer/replay.add_avg": 0.00020130276679992677, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.001661062240600586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023418903350830078, "timer/logger.write_frac": 7.80330195642665e-05, "timer/logger.write_avg": 0.023418903350830078, "timer/logger.write_min": 0.023418903350830078, "timer/logger.write_max": 0.023418903350830078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.545347452163696, "timer/agent.policy_frac": 0.035137653190643985, "timer/agent.policy_avg": 0.007323157952891456, "timer/agent.policy_min": 0.005660533905029297, "timer/agent.policy_max": 0.01839160919189453, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06557798385620117, "timer/dataset_frac": 0.00021850929655315045, "timer/dataset_avg": 9.108053313361274e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.07248163223267, "timer/agent.train_frac": 0.8932316296146305, "timer/agent.train_avg": 0.3723228911558787, "timer/agent.train_min": 0.3631289005279541, "timer/agent.train_max": 0.38756608963012695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845221519470215, "timer/agent.report_frac": 0.0007278942880790931, "timer/agent.report_avg": 0.21845221519470215, "timer/agent.report_min": 0.21845221519470215, "timer/agent.report_max": 0.21845221519470215, "fps": 4.7980774343334085}
+{"step": 204651, "episode/length": 343.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.014534883720930232}
+{"step": 204820, "episode/length": 168.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.04142011834319527}
+{"step": 204993, "episode/length": 172.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.046242774566473986}
+{"step": 205164, "episode/length": 170.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04678362573099415}
+{"step": 205349, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.032432432432432434}
+{"step": 205542, "episode/length": 192.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 8.100000061094761, "episode/reward_rate": 0.031088082901554404}
+{"step": 205678, "episode/length": 135.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.051470588235294115}
+{"step": 205837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493582831488715, "train/action_min": 0.0, "train/action_std": 3.3602071735594006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05198912265607052, "train/actor_opt_grad_steps": 102005.0, "train/actor_opt_loss": -15.718114289455116, "train/adv_mag": 0.5669447146356106, "train/adv_max": 0.5381962557633718, "train/adv_mean": 0.0026684889311986305, "train/adv_min": -0.44548997324373985, "train/adv_std": 0.05945099352134599, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 8.871732047271368e-06, "train/cont_loss_std": 0.00023703511566629408, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010366950367723701, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 2.959839145136003e-06, "train/cont_pred": 0.9943467593855329, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.583722571531932, "train/dyn_loss_std": 8.508337537447611, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0743631488747067, "train/extr_critic_critic_opt_grad_steps": 102005.0, "train/extr_critic_critic_opt_loss": 15629.841525607639, "train/extr_critic_mag": 7.4030049840609236, "train/extr_critic_max": 7.4030049840609236, "train/extr_critic_mean": 1.4857548135850165, "train/extr_critic_min": -0.6171895629829831, "train/extr_critic_std": 1.6781627254353628, "train/extr_return_normed_mag": 1.670219471057256, "train/extr_return_normed_max": 1.670219471057256, "train/extr_return_normed_mean": 0.34744331758055425, "train/extr_return_normed_min": -0.14779486921098497, "train/extr_return_normed_std": 0.3404376262591945, "train/extr_return_rate": 0.5993444716764821, "train/extr_return_raw_mag": 8.163846631844839, "train/extr_return_raw_max": 8.163846631844839, "train/extr_return_raw_mean": 1.4992335711916287, "train/extr_return_raw_min": -0.9957962988151444, "train/extr_return_raw_std": 1.7153263572189543, "train/extr_reward_mag": 1.0333481993940141, "train/extr_reward_max": 1.0333481993940141, "train/extr_reward_mean": 0.03502063898162709, "train/extr_reward_min": -0.6600838088326983, "train/extr_reward_std": 0.18708150937325424, "train/image_loss_mean": 2.721431530184216, "train/image_loss_std": 7.587906337446636, "train/model_loss_mean": 5.516522304879294, "train/model_loss_std": 11.675476590792337, "train/model_opt_grad_norm": 35.39960294299655, "train/model_opt_grad_steps": 101920.0, "train/model_opt_loss": 6895.652879503038, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.315044836865531, "train/policy_entropy_max": 2.315044836865531, "train/policy_entropy_mean": 0.35037012543115353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4373636113272773, "train/policy_logprob_mag": 7.438384122318691, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3517334156980117, "train/policy_logprob_min": -7.438384122318691, "train/policy_logprob_std": 0.9662054735753272, "train/policy_randomness_mag": 0.8171092371145884, "train/policy_randomness_max": 0.8171092371145884, "train/policy_randomness_mean": 0.12366527867399985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15437015953163305, "train/post_ent_mag": 55.82627381218804, "train/post_ent_max": 55.82627381218804, "train/post_ent_mean": 39.94303687413534, "train/post_ent_min": 18.579945762952168, "train/post_ent_std": 5.950099733140734, "train/prior_ent_mag": 75.40675311618381, "train/prior_ent_max": 75.40675311618381, "train/prior_ent_mean": 44.470528019799126, "train/prior_ent_min": 25.547613541285198, "train/prior_ent_std": 7.372073570887248, "train/rep_loss_mean": 4.583722571531932, "train/rep_loss_std": 8.508337537447611, "train/reward_avg": 0.02668185761043181, "train/reward_loss_mean": 0.044848371400601335, "train/reward_loss_std": 0.19224137191971144, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0137578083409204, "train/reward_neg_acc": 0.9950113726986779, "train/reward_neg_loss": 0.02179852975273712, "train/reward_pos_acc": 0.9840829190280702, "train/reward_pos_loss": 0.7468161814742618, "train/reward_pred": 0.026325253588664863, "train/reward_rate": 0.031806098090277776, "stats/sum_log_reward": 5.671428544180734, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.4190123294081007, "replay/size": 205774.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7043670128131735e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2871520272616683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1036274433136, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.561135053634644, "timer/env.step_frac": 0.06184908596994765, "timer/env.step_avg": 0.012800782795610099, "timer/env.step_min": 0.0029325485229492188, "timer/env.step_max": 1.705765724182129, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2737112045288086, "timer/replay.add_frac": 0.0009120556351172721, "timer/replay.add_avg": 0.00018876634795090248, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.009653806686401367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027262210845947266, "timer/logger.write_frac": 9.084265684558181e-05, "timer/logger.write_avg": 0.027262210845947266, "timer/logger.write_min": 0.027262210845947266, "timer/logger.write_max": 0.027262210845947266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.59837031364441, "timer/agent.policy_frac": 0.035315702125747646, "timer/agent.policy_avg": 0.0073092209059616615, "timer/agent.policy_min": 0.005675792694091797, "timer/agent.policy_max": 0.019087553024291992, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06424283981323242, "timer/dataset_frac": 0.00021406885468376157, "timer/dataset_avg": 8.8610813535493e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.8784453868866, "timer/agent.train_frac": 0.8992841828873387, "timer/agent.train_avg": 0.3722461315681194, "timer/agent.train_min": 0.3659791946411133, "timer/agent.train_max": 0.3854093551635742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046828269958496, "timer/agent.report_frac": 0.0007346405126050304, "timer/agent.report_avg": 0.22046828269958496, "timer/agent.report_min": 0.22046828269958496, "timer/agent.report_max": 0.22046828269958496, "fps": 4.831565850247228}
+{"step": 205874, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.030612244897959183}
+{"step": 206072, "episode/length": 197.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 8.699999988079071, "episode/reward_rate": 0.04040404040404041}
+{"step": 206218, "episode/length": 145.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.0547945205479452}
+{"step": 206431, "episode/length": 212.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.018779342723004695}
+{"step": 206582, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.039735099337748346}
+{"step": 206775, "episode/length": 192.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04145077720207254}
+{"step": 206975, "episode/length": 199.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.045}
+{"step": 207217, "episode/length": 241.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.028925619834710745}
+{"step": 207279, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580849007384418, "train/action_min": 0.0, "train/action_std": 3.506908060753182, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051354656991076796, "train/actor_opt_grad_steps": 102730.0, "train/actor_opt_loss": -12.240068750124271, "train/adv_mag": 0.5770268403503993, "train/adv_max": 0.5349951031273359, "train/adv_mean": 0.0038397252845317953, "train/adv_min": -0.48041233175421416, "train/adv_std": 0.060709064749822225, "train/cont_avg": 0.994501819349315, "train/cont_loss_mean": 4.158050942717088e-05, "train/cont_loss_std": 0.0012437529046923225, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023373992815895815, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 3.0267308690745827e-05, "train/cont_pred": 0.9944908373976407, "train/cont_rate": 0.994501819349315, "train/dyn_loss_mean": 4.6337325736267925, "train/dyn_loss_std": 8.475265692358148, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0955944469530288, "train/extr_critic_critic_opt_grad_steps": 102730.0, "train/extr_critic_critic_opt_loss": 15921.667861729453, "train/extr_critic_mag": 7.412394249275939, "train/extr_critic_max": 7.412394249275939, "train/extr_critic_mean": 1.421970197599228, "train/extr_critic_min": -0.6236808659279183, "train/extr_critic_std": 1.617049174766018, "train/extr_return_normed_mag": 1.6748578287150762, "train/extr_return_normed_max": 1.6748578287150762, "train/extr_return_normed_mean": 0.33702639010671065, "train/extr_return_normed_min": -0.14467709562549852, "train/extr_return_normed_std": 0.33049623341593026, "train/extr_return_rate": 0.619290486182252, "train/extr_return_raw_mag": 8.132256952050614, "train/extr_return_raw_max": 8.132256952050614, "train/extr_return_raw_mean": 1.4412505822638944, "train/extr_return_raw_min": -0.968737833303948, "train/extr_return_raw_std": 1.6533321207516813, "train/extr_reward_mag": 1.0291553686742914, "train/extr_reward_max": 1.0291553686742914, "train/extr_reward_mean": 0.03554278415666051, "train/extr_reward_min": -0.6606481156937064, "train/extr_reward_std": 0.1877891327420326, "train/image_loss_mean": 2.586266870368017, "train/image_loss_std": 7.136299074512639, "train/model_loss_mean": 5.410311597667328, "train/model_loss_std": 11.206676261065757, "train/model_opt_grad_norm": 38.175722069936256, "train/model_opt_grad_steps": 102644.78082191781, "train/model_opt_loss": 10101.752080211902, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.336136412947145, "train/policy_entropy_max": 2.336136412947145, "train/policy_entropy_mean": 0.3475813583968437, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4325531533319656, "train/policy_logprob_mag": 7.438384147539531, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3461806841500818, "train/policy_logprob_min": -7.438384147539531, "train/policy_logprob_std": 0.9578294517242745, "train/policy_randomness_mag": 0.8245536333894077, "train/policy_randomness_max": 0.8245536333894077, "train/policy_randomness_mean": 0.12268096524966907, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1526722787585977, "train/post_ent_mag": 55.91958424816393, "train/post_ent_max": 55.91958424816393, "train/post_ent_mean": 39.995913623130484, "train/post_ent_min": 18.835597809046916, "train/post_ent_std": 6.003920600838857, "train/prior_ent_mag": 75.3748400962516, "train/prior_ent_max": 75.3748400962516, "train/prior_ent_mean": 44.59333006976402, "train/prior_ent_min": 25.499393907311845, "train/prior_ent_std": 7.3505255751413845, "train/rep_loss_mean": 4.6337325736267925, "train/rep_loss_std": 8.475265692358148, "train/reward_avg": 0.02654109555870703, "train/reward_loss_mean": 0.0437636283570773, "train/reward_loss_std": 0.1926703257103489, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.013829231262207, "train/reward_neg_acc": 0.9950299548776183, "train/reward_neg_loss": 0.02123995941795715, "train/reward_pos_acc": 0.9859899347775603, "train/reward_pos_loss": 0.7409198382129408, "train/reward_pred": 0.026307021376153785, "train/reward_rate": 0.03146404109589041, "stats/sum_log_reward": 5.849999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3954004533588886, "replay/size": 207216.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.684740952744398e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2633952618306618e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1421711444855, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.198260068893433, "timer/env.step_frac": 0.06729564190155135, "timer/env.step_avg": 0.014007115165668122, "timer/env.step_min": 0.0029625892639160156, "timer/env.step_max": 1.826146125793457, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2680351734161377, "timer/replay.add_frac": 0.0008930273689767781, "timer/replay.add_avg": 0.00018587737407499148, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0030989646911621094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02752995491027832, "timer/logger.write_frac": 9.172304846500785e-05, "timer/logger.write_avg": 0.02752995491027832, "timer/logger.write_min": 0.02752995491027832, "timer/logger.write_max": 0.02752995491027832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.566728591918945, "timer/agent.policy_frac": 0.035205744503101585, "timer/agent.policy_avg": 0.007327828427128256, "timer/agent.policy_min": 0.005580902099609375, "timer/agent.policy_max": 0.016931772232055664, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06437945365905762, "timer/dataset_frac": 0.00021449652814054573, "timer/dataset_avg": 8.929189134404662e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3155994415283, "timer/agent.train_frac": 0.893961679621368, "timer/agent.train_avg": 0.37214368854580904, "timer/agent.train_min": 0.36467480659484863, "timer/agent.train_max": 0.38309764862060547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889209747314453, "timer/agent.report_frac": 0.0007292947093654894, "timer/agent.report_avg": 0.21889209747314453, "timer/agent.report_min": 0.21889209747314453, "timer/agent.report_max": 0.21889209747314453, "fps": 4.804288731381616}
+{"step": 207383, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04216867469879518}
+{"step": 207557, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 207728, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03508771929824561}
+{"step": 207917, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 208087, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03529411764705882}
+{"step": 208277, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.042105263157894736}
+{"step": 208442, "episode/length": 164.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.048484848484848485}
+{"step": 208680, "episode/length": 237.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.03361344537815126}
+{"step": 208699, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484786772392165, "train/action_min": 0.0, "train/action_std": 3.4341802227665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05008874775868066, "train/actor_opt_grad_steps": 103450.0, "train/actor_opt_loss": -16.08486449886376, "train/adv_mag": 0.6327721073593892, "train/adv_max": 0.6013371172085614, "train/adv_mean": 0.0016812232817858491, "train/adv_min": -0.4821709461615119, "train/adv_std": 0.05945518786008929, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 7.243677295661309e-05, "train/cont_loss_std": 0.002292985862332341, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0019502498192541936, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 6.306994953505241e-05, "train/cont_pred": 0.9941763231452082, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.58591855747599, "train/dyn_loss_std": 8.491356769078214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0549641402674392, "train/extr_critic_critic_opt_grad_steps": 103450.0, "train/extr_critic_critic_opt_loss": 15711.027550066021, "train/extr_critic_mag": 7.751662207321382, "train/extr_critic_max": 7.751662207321382, "train/extr_critic_mean": 1.3955384996575368, "train/extr_critic_min": -0.6177056809546242, "train/extr_critic_std": 1.6319179316641579, "train/extr_return_normed_mag": 1.7620980857123791, "train/extr_return_normed_max": 1.7620980857123791, "train/extr_return_normed_mean": 0.33262856094770027, "train/extr_return_normed_min": -0.149610687099712, "train/extr_return_normed_std": 0.33713919365070233, "train/extr_return_rate": 0.6187876269850933, "train/extr_return_raw_mag": 8.442529167927487, "train/extr_return_raw_max": 8.442529167927487, "train/extr_return_raw_mean": 1.403806206206201, "train/extr_return_raw_min": -0.9727313686424578, "train/extr_return_raw_std": 1.6605969482744243, "train/extr_reward_mag": 1.0220015485521774, "train/extr_reward_max": 1.0220015485521774, "train/extr_reward_mean": 0.033433630170536716, "train/extr_reward_min": -0.6833221660533422, "train/extr_reward_std": 0.18300243645486697, "train/image_loss_mean": 2.748532306980079, "train/image_loss_std": 7.615613353084511, "train/model_loss_mean": 5.543504620941592, "train/model_loss_std": 11.65854605822496, "train/model_opt_grad_norm": 38.66249345054089, "train/model_opt_grad_steps": 103364.0, "train/model_opt_loss": 6929.380797480194, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3290059197116904, "train/policy_entropy_max": 2.3290059197116904, "train/policy_entropy_mean": 0.3431830662237087, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4192991294491459, "train/policy_logprob_mag": 7.438384129967488, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3429277048144542, "train/policy_logprob_min": -7.438384129967488, "train/policy_logprob_std": 0.955291682565716, "train/policy_randomness_mag": 0.8220368842004051, "train/policy_randomness_max": 0.8220368842004051, "train/policy_randomness_mean": 0.12112856068661515, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14799419339274017, "train/post_ent_mag": 56.20363380539585, "train/post_ent_max": 56.20363380539585, "train/post_ent_mean": 40.00908354638328, "train/post_ent_min": 18.632838880512075, "train/post_ent_std": 6.085769445123807, "train/prior_ent_mag": 75.43628821574467, "train/prior_ent_max": 75.43628821574467, "train/prior_ent_mean": 44.580579139816926, "train/prior_ent_min": 24.710737335849817, "train/prior_ent_std": 7.471037999005385, "train/rep_loss_mean": 4.58591855747599, "train/rep_loss_std": 8.491356769078214, "train/reward_avg": 0.02490509456207215, "train/reward_loss_mean": 0.04334878672281621, "train/reward_loss_std": 0.19472089241927779, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0078621414345754, "train/reward_neg_acc": 0.9954189599399835, "train/reward_neg_loss": 0.021740976143890704, "train/reward_pos_acc": 0.9842674765788334, "train/reward_pos_loss": 0.7441418758580383, "train/reward_pred": 0.024791040733246734, "train/reward_rate": 0.03006712147887324, "stats/sum_log_reward": 5.724999964237213, "stats/max_log_achievement_collect_drink": 6.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3111739419400692, "replay/size": 208636.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.7292359580456373e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2795690079809913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.181254863739, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.376867532730103, "timer/env.step_frac": 0.07454451991976518, "timer/env.step_avg": 0.015758357417415565, "timer/env.step_min": 0.0030417442321777344, "timer/env.step_max": 2.601959466934204, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2847123146057129, "timer/replay.add_frac": 0.0009484680005583696, "timer/replay.add_avg": 0.00020050163000402316, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0024764537811279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025072813034057617, "timer/logger.write_frac": 8.352557872222533e-05, "timer/logger.write_avg": 0.025072813034057617, "timer/logger.write_min": 0.025072813034057617, "timer/logger.write_max": 0.025072813034057617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000316619873046875, "timer/checkpoint.save_frac": 1.0547623074951763e-06, "timer/checkpoint.save_avg": 0.000316619873046875, "timer/checkpoint.save_min": 0.000316619873046875, "timer/checkpoint.save_max": 0.000316619873046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4484789371490479, "timer/agent.save_frac": 0.004825347731345032, "timer/agent.save_avg": 1.4484789371490479, "timer/agent.save_min": 1.4484789371490479, "timer/agent.save_max": 1.4484789371490479, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001068115234375, "timer/replay.save_frac": 3.5582342903451735e-07, "timer/replay.save_avg": 0.0001068115234375, "timer/replay.save_min": 0.0001068115234375, "timer/replay.save_max": 0.0001068115234375, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 11.790156126022339, "timer/agent.policy_frac": 0.03927679005597546, "timer/agent.policy_avg": 0.008302926849311507, "timer/agent.policy_min": 0.005664825439453125, "timer/agent.policy_max": 1.4378786087036133, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06518840789794922, "timer/dataset_frac": 0.00021716348653262886, "timer/dataset_avg": 9.181465901119608e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.00024008750915527344, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.9468152523041, "timer/agent.train_frac": 0.8826227852654261, "timer/agent.train_avg": 0.37316452852437193, "timer/agent.train_min": 0.3652069568634033, "timer/agent.train_max": 0.8622941970825195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21789216995239258, "timer/agent.report_frac": 0.000725868675748258, "timer/agent.report_avg": 0.21789216995239258, "timer/agent.report_min": 0.21789216995239258, "timer/agent.report_max": 0.21789216995239258, "fps": 4.730395644237295}
+{"step": 208915, "episode/length": 234.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.029787234042553193}
+{"step": 209051, "episode/length": 135.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.051470588235294115}
+{"step": 209210, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0440251572327044}
+{"step": 209362, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
+{"step": 209533, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04093567251461988}
+{"step": 209743, "episode/length": 209.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03333333333333333}
+{"step": 210016, "episode/length": 272.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.018315018315018316}
+{"step": 210145, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406712002224392, "train/action_min": 0.0, "train/action_std": 3.4065711531374188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05294077082847556, "train/actor_opt_grad_steps": 104165.0, "train/actor_opt_loss": -15.444557924237516, "train/adv_mag": 0.6453122049570084, "train/adv_max": 0.6094551657636961, "train/adv_mean": 0.002575123222514877, "train/adv_min": -0.5123316740824116, "train/adv_std": 0.060525710539271436, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 1.5532668972559646e-05, "train/cont_loss_std": 0.0004159654158785781, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001981265178925805, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 7.44825351740709e-06, "train/cont_pred": 0.9947647013598018, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 4.513603902525372, "train/dyn_loss_std": 8.435726477040184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0702117151684232, "train/extr_critic_critic_opt_grad_steps": 104165.0, "train/extr_critic_critic_opt_loss": 15561.569132486979, "train/extr_critic_mag": 7.656731307506561, "train/extr_critic_max": 7.656731307506561, "train/extr_critic_mean": 1.4497207171387143, "train/extr_critic_min": -0.6126235922177633, "train/extr_critic_std": 1.598163679242134, "train/extr_return_normed_mag": 1.7612993286715612, "train/extr_return_normed_max": 1.7612993286715612, "train/extr_return_normed_mean": 0.3471529877020253, "train/extr_return_normed_min": -0.15222385774056116, "train/extr_return_normed_std": 0.33738662654327023, "train/extr_return_rate": 0.6471354497803582, "train/extr_return_raw_mag": 8.305545932716793, "train/extr_return_raw_max": 8.305545932716793, "train/extr_return_raw_mean": 1.4621676612231467, "train/extr_return_raw_min": -0.9528255917959743, "train/extr_return_raw_std": 1.632054951455858, "train/extr_reward_mag": 1.0337750415007274, "train/extr_reward_max": 1.0337750415007274, "train/extr_reward_mean": 0.03583216372256478, "train/extr_reward_min": -0.648973372247484, "train/extr_reward_std": 0.18776833597156736, "train/image_loss_mean": 2.7004584123690925, "train/image_loss_std": 7.809438546498616, "train/model_loss_mean": 5.451203624407451, "train/model_loss_std": 11.810468289587233, "train/model_opt_grad_norm": 37.44038777881198, "train/model_opt_grad_steps": 104078.22222222222, "train/model_opt_loss": 7115.221516927083, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.350011650058958, "train/policy_entropy_max": 2.350011650058958, "train/policy_entropy_mean": 0.34761221210161847, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43087850221329266, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3488801121711731, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9658868759870529, "train/policy_randomness_mag": 0.8294509864515729, "train/policy_randomness_max": 0.8294509864515729, "train/policy_randomness_mean": 0.1226918569041623, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15208120230171415, "train/post_ent_mag": 55.02851650449965, "train/post_ent_max": 55.02851650449965, "train/post_ent_mean": 40.13701475991143, "train/post_ent_min": 18.608182907104492, "train/post_ent_std": 5.944999390178257, "train/prior_ent_mag": 75.46359369489882, "train/prior_ent_max": 75.46359369489882, "train/prior_ent_mean": 44.615738762749565, "train/prior_ent_min": 25.57107244597541, "train/prior_ent_std": 7.238884442382389, "train/rep_loss_mean": 4.513603902525372, "train/rep_loss_std": 8.435726477040184, "train/reward_avg": 0.02666965041620036, "train/reward_loss_mean": 0.042567383187512554, "train/reward_loss_std": 0.1812270728664266, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0104702214399974, "train/reward_neg_acc": 0.9953336715698242, "train/reward_neg_loss": 0.020718011293663748, "train/reward_pos_acc": 0.9891904749804072, "train/reward_pos_loss": 0.7180582036574682, "train/reward_pred": 0.026599877785580855, "train/reward_rate": 0.03148057725694445, "stats/sum_log_reward": 5.385714258466448, "stats/max_log_achievement_collect_drink": 11.142857142857142, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3547296481473105, "replay/size": 210082.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.703072522850617e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2757084016813118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0012454986572, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.131450414657593, "timer/env.step_frac": 0.06377123662556002, "timer/env.step_avg": 0.013230601946512857, "timer/env.step_min": 0.0030012130737304688, "timer/env.step_max": 1.740978479385376, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2742929458618164, "timer/replay.add_frac": 0.0009143060236496388, "timer/replay.add_avg": 0.0001896908339293336, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.007089853286743164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031321048736572266, "timer/logger.write_frac": 0.0001044030623423277, "timer/logger.write_avg": 0.031321048736572266, "timer/logger.write_min": 0.031321048736572266, "timer/logger.write_max": 0.031321048736572266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.621403932571411, "timer/agent.policy_frac": 0.03540453278757788, "timer/agent.policy_avg": 0.007345369247974696, "timer/agent.policy_min": 0.005628824234008789, "timer/agent.policy_max": 0.020853519439697266, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06517267227172852, "timer/dataset_frac": 0.00021724133899310834, "timer/dataset_avg": 9.014200867458993e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0001773834228515625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.1732256412506, "timer/agent.train_frac": 0.897240360431955, "timer/agent.train_avg": 0.37230045040283627, "timer/agent.train_min": 0.3663938045501709, "timer/agent.train_max": 0.3850717544555664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22009015083312988, "timer/agent.report_frac": 0.0007336307903232187, "timer/agent.report_avg": 0.22009015083312988, "timer/agent.report_min": 0.22009015083312988, "timer/agent.report_max": 0.22009015083312988, "fps": 4.819881243087308}
+{"step": 210395, "episode/length": 378.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.018469656992084433}
+{"step": 210611, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.037037037037037035}
+{"step": 210771, "episode/length": 159.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05625}
+{"step": 210994, "episode/length": 222.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03139013452914798}
+{"step": 211258, "episode/length": 263.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.026515151515151516}
+{"step": 211436, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0449438202247191}
+{"step": 211601, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395052975171233, "train/action_min": 0.0, "train/action_std": 3.4222462079296374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049337306557452845, "train/actor_opt_grad_steps": 104890.0, "train/actor_opt_loss": -14.538938803215549, "train/adv_mag": 0.5492859690973203, "train/adv_max": 0.5055787734789391, "train/adv_mean": 0.0027026065662826173, "train/adv_min": -0.45774605911071986, "train/adv_std": 0.05746606318917993, "train/cont_avg": 0.9943412885273972, "train/cont_loss_mean": 7.041687730983141e-06, "train/cont_loss_std": 0.00018511195506493692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007382197990135528, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 2.2593231478074887e-06, "train/cont_pred": 0.9943436661811724, "train/cont_rate": 0.9943412885273972, "train/dyn_loss_mean": 4.595303140274466, "train/dyn_loss_std": 8.507027737081867, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0258236723403409, "train/extr_critic_critic_opt_grad_steps": 104890.0, "train/extr_critic_critic_opt_loss": 15462.109321489726, "train/extr_critic_mag": 7.088243020723944, "train/extr_critic_max": 7.088243020723944, "train/extr_critic_mean": 1.3946806494503805, "train/extr_critic_min": -0.6019924781093858, "train/extr_critic_std": 1.5395724332495913, "train/extr_return_normed_mag": 1.6602210508633966, "train/extr_return_normed_max": 1.6602210508633966, "train/extr_return_normed_mean": 0.33770420269606866, "train/extr_return_normed_min": -0.15321358885258846, "train/extr_return_normed_std": 0.3283833187736877, "train/extr_return_rate": 0.6291452952443737, "train/extr_return_raw_mag": 7.73664246519951, "train/extr_return_raw_max": 7.73664246519951, "train/extr_return_raw_mean": 1.4075870840516809, "train/extr_return_raw_min": -0.9421973138639371, "train/extr_return_raw_std": 1.5717618367443347, "train/extr_reward_mag": 1.0271185293589553, "train/extr_reward_max": 1.0271185293589553, "train/extr_reward_mean": 0.03390114981528014, "train/extr_reward_min": -0.6604769344199194, "train/extr_reward_std": 0.1837494426394162, "train/image_loss_mean": 2.712171588858513, "train/image_loss_std": 7.399177289988897, "train/model_loss_mean": 5.512027302833452, "train/model_loss_std": 11.456978784848566, "train/model_opt_grad_norm": 36.78237476087596, "train/model_opt_grad_steps": 104802.71232876713, "train/model_opt_loss": 7773.7155260059935, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.3441413526665675, "train/policy_entropy_max": 2.3441413526665675, "train/policy_entropy_mean": 0.3486170885089326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4313039632692729, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3465751817781631, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.955457964172102, "train/policy_randomness_mag": 0.8273790290910904, "train/policy_randomness_max": 0.8273790290910904, "train/policy_randomness_mean": 0.12304653237535529, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15223137299491935, "train/post_ent_mag": 55.549579097800056, "train/post_ent_max": 55.549579097800056, "train/post_ent_mean": 40.321111496180706, "train/post_ent_min": 18.614831741542034, "train/post_ent_std": 6.029084297075664, "train/prior_ent_mag": 75.58897723890331, "train/prior_ent_max": 75.58897723890331, "train/prior_ent_mean": 44.8526605579951, "train/prior_ent_min": 25.852626931177426, "train/prior_ent_std": 7.2872448032849455, "train/rep_loss_mean": 4.595303140274466, "train/rep_loss_std": 8.507027737081867, "train/reward_avg": 0.025228756275793462, "train/reward_loss_mean": 0.042666784806610784, "train/reward_loss_std": 0.18114848169561934, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0115972038817733, "train/reward_neg_acc": 0.9953895464335403, "train/reward_neg_loss": 0.021524342567953346, "train/reward_pos_acc": 0.9915500471036728, "train/reward_pos_loss": 0.7186654242750716, "train/reward_pred": 0.02514005652692628, "train/reward_rate": 0.030353702910958905, "stats/sum_log_reward": 6.599999904632568, "stats/max_log_achievement_collect_drink": 7.666666666666667, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 3.3333333333333335, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4603361984093984, "replay/size": 211538.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.688283019013457e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2654729269363069e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18237948417664, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.39913845062256, "timer/env.step_frac": 0.05796189130261628, "timer/env.step_avg": 0.011949957727075933, "timer/env.step_min": 0.003109455108642578, "timer/env.step_max": 1.7257328033447266, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2654125690460205, "timer/replay.add_frac": 0.0008841710479545688, "timer/replay.add_avg": 0.00018228885236677234, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.002489328384399414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022472858428955078, "timer/logger.write_frac": 7.486401589450948e-05, "timer/logger.write_avg": 0.022472858428955078, "timer/logger.write_min": 0.022472858428955078, "timer/logger.write_max": 0.022472858428955078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.65047574043274, "timer/agent.policy_frac": 0.03548001637782391, "timer/agent.policy_avg": 0.007314887184363145, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.018303632736206055, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06511211395263672, "timer/dataset_frac": 0.0002169085142989512, "timer/dataset_avg": 8.943971696790758e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.0822548866272, "timer/agent.train_frac": 0.90305851846616, "timer/agent.train_avg": 0.372365734734378, "timer/agent.train_min": 0.3661782741546631, "timer/agent.train_max": 0.3863673210144043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22175192832946777, "timer/agent.report_frac": 0.0007387240007575357, "timer/agent.report_avg": 0.22175192832946777, "timer/agent.report_min": 0.22175192832946777, "timer/agent.report_max": 0.22175192832946777, "fps": 4.85032011593559}
+{"step": 211870, "episode/length": 433.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.016129032258064516}
+{"step": 212016, "episode/length": 145.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.500000037252903, "episode/reward_rate": 0.03424657534246575}
+{"step": 212204, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
+{"step": 212457, "episode/length": 252.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.02766798418972332}
+{"step": 212607, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
+{"step": 212735, "episode/length": 127.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.046875}
+{"step": 212957, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02702702702702703}
+{"step": 213025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478586116307218, "train/action_min": 0.0, "train/action_std": 3.440817074036934, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05075165482474045, "train/actor_opt_grad_steps": 105610.0, "train/actor_opt_loss": -14.609829639884788, "train/adv_mag": 0.5995125371805379, "train/adv_max": 0.5381464412514593, "train/adv_mean": 0.002893638401128299, "train/adv_min": -0.49606936918178074, "train/adv_std": 0.060467598094067106, "train/cont_avg": 0.9944982394366197, "train/cont_loss_mean": 4.5068724615779966e-05, "train/cont_loss_std": 0.0012857114865076089, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00046296744157714296, "train/cont_pos_acc": 0.9999862002654815, "train/cont_pos_loss": 4.295473726476213e-05, "train/cont_pred": 0.9944816466788171, "train/cont_rate": 0.9944982394366197, "train/dyn_loss_mean": 4.615886335641566, "train/dyn_loss_std": 8.480949119782784, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0690769670714795, "train/extr_critic_critic_opt_grad_steps": 105610.0, "train/extr_critic_critic_opt_loss": 15549.25605193662, "train/extr_critic_mag": 7.2189629783093086, "train/extr_critic_max": 7.2189629783093086, "train/extr_critic_mean": 1.385562863987936, "train/extr_critic_min": -0.6015716153131404, "train/extr_critic_std": 1.5359903406089461, "train/extr_return_normed_mag": 1.693875468952555, "train/extr_return_normed_max": 1.693875468952555, "train/extr_return_normed_mean": 0.3383304867106424, "train/extr_return_normed_min": -0.14903395622968674, "train/extr_return_normed_std": 0.32889119672103667, "train/extr_return_rate": 0.6353662639436587, "train/extr_return_raw_mag": 7.8640816043800035, "train/extr_return_raw_max": 7.8640816043800035, "train/extr_return_raw_mean": 1.3993393191149537, "train/extr_return_raw_min": -0.9252251747628333, "train/extr_return_raw_std": 1.5688828800765562, "train/extr_reward_mag": 1.0185242068599647, "train/extr_reward_max": 1.0185242068599647, "train/extr_reward_mean": 0.03399840060254218, "train/extr_reward_min": -0.664042098421446, "train/extr_reward_std": 0.18364912114093002, "train/image_loss_mean": 2.790636704001628, "train/image_loss_std": 7.702037831427345, "train/model_loss_mean": 5.603758516445966, "train/model_loss_std": 11.762741505260198, "train/model_opt_grad_norm": 35.92495558295452, "train/model_opt_grad_steps": 105522.0, "train/model_opt_loss": 7004.69814590669, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3347380832887032, "train/policy_entropy_max": 2.3347380832887032, "train/policy_entropy_mean": 0.3637190519923895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4465632614955096, "train/policy_logprob_mag": 7.438384103103423, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36351498625647855, "train/policy_logprob_min": -7.438384103103423, "train/policy_logprob_std": 0.9725655300516478, "train/policy_randomness_mag": 0.8240600824356079, "train/policy_randomness_max": 0.8240600824356079, "train/policy_randomness_mean": 0.128376863372158, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15761723379853745, "train/post_ent_mag": 55.9020451827788, "train/post_ent_max": 55.9020451827788, "train/post_ent_mean": 40.06884926809391, "train/post_ent_min": 18.618837383431448, "train/post_ent_std": 6.047317578758992, "train/prior_ent_mag": 75.48554057806311, "train/prior_ent_max": 75.48554057806311, "train/prior_ent_mean": 44.63621166390433, "train/prior_ent_min": 25.581861334787288, "train/prior_ent_std": 7.383713265539894, "train/rep_loss_mean": 4.615886335641566, "train/rep_loss_std": 8.480949119782784, "train/reward_avg": 0.025833516486618722, "train/reward_loss_mean": 0.043544909798763166, "train/reward_loss_std": 0.1945393509428266, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.007367473253062, "train/reward_neg_acc": 0.9955286375233825, "train/reward_neg_loss": 0.021425952433123136, "train/reward_pos_acc": 0.9863809758508709, "train/reward_pos_loss": 0.7356724554384259, "train/reward_pred": 0.025546031754831194, "train/reward_rate": 0.03085112235915493, "stats/sum_log_reward": 5.099999972752163, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.3895440697669983, "replay/size": 212962.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7718354985955055e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2698844912346828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0822410583496, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.913743019104004, "timer/env.step_frac": 0.06302853161985789, "timer/env.step_avg": 0.01328212290667416, "timer/env.step_min": 0.0029649734497070312, "timer/env.step_max": 1.706068992614746, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2655599117279053, "timer/replay.add_frac": 0.0008849571063962708, "timer/replay.add_avg": 0.00018648870205611326, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0011360645294189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02704334259033203, "timer/logger.write_frac": 9.011977015018886e-05, "timer/logger.write_avg": 0.02704334259033203, "timer/logger.write_min": 0.02704334259033203, "timer/logger.write_max": 0.02704334259033203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029587745666503906, "timer/checkpoint.save_frac": 9.85987893257259e-07, "timer/checkpoint.save_avg": 0.00029587745666503906, "timer/checkpoint.save_min": 0.00029587745666503906, "timer/checkpoint.save_max": 0.00029587745666503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3483538627624512, "timer/agent.save_frac": 0.004493281101897229, "timer/agent.save_avg": 1.3483538627624512, "timer/agent.save_min": 1.3483538627624512, "timer/agent.save_max": 1.3483538627624512, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.557868957519531e-05, "timer/replay.save_frac": 2.518599211624102e-07, "timer/replay.save_avg": 7.557868957519531e-05, "timer/replay.save_min": 7.557868957519531e-05, "timer/replay.save_max": 7.557868957519531e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.03542160987854, "timer/agent.policy_frac": 0.050104336587365635, "timer/agent.policy_avg": 0.010558582591206839, "timer/agent.policy_min": 0.005692720413208008, "timer/agent.policy_max": 3.2137491703033447, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06444072723388672, "timer/dataset_frac": 0.0002147435549888356, "timer/dataset_avg": 9.05066393734364e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.07810139656067, "timer/agent.train_frac": 0.8833515121110331, "timer/agent.train_avg": 0.37230070420865263, "timer/agent.train_min": 0.36564183235168457, "timer/agent.train_max": 0.4158635139465332, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22203469276428223, "timer/agent.report_frac": 0.000739912805173661, "timer/agent.report_avg": 0.22203469276428223, "timer/agent.report_min": 0.22203469276428223, "timer/agent.report_max": 0.22203469276428223, "fps": 4.745259419465709}
+{"step": 213118, "episode/length": 160.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.031055900621118012}
+{"step": 213280, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04938271604938271}
+{"step": 213459, "episode/length": 178.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0335195530726257}
+{"step": 213635, "episode/length": 175.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.045454545454545456}
+{"step": 213814, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03910614525139665}
+{"step": 213986, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
+{"step": 214347, "episode/length": 360.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.019390581717451522}
+{"step": 214475, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461197747124566, "train/action_min": 0.0, "train/action_std": 3.3606904910670385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05449743796553877, "train/actor_opt_grad_steps": 106325.0, "train/actor_opt_loss": -11.806398686849409, "train/adv_mag": 0.5997747364971373, "train/adv_max": 0.5719497543242242, "train/adv_mean": 0.004327771541941022, "train/adv_min": -0.4755708509021335, "train/adv_std": 0.061922269511140056, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.0001429130808132426, "train/cont_loss_std": 0.0045314689283865546, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003610693075744267, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 0.0001258446115681464, "train/cont_pred": 0.9946115604705281, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.503088653087616, "train/dyn_loss_std": 8.378554979960123, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0622331558002367, "train/extr_critic_critic_opt_grad_steps": 106325.0, "train/extr_critic_critic_opt_loss": 15868.849283854166, "train/extr_critic_mag": 7.37449613544676, "train/extr_critic_max": 7.37449613544676, "train/extr_critic_mean": 1.4545312474171321, "train/extr_critic_min": -0.5627269066042371, "train/extr_critic_std": 1.5302293284071817, "train/extr_return_normed_mag": 1.740582870112525, "train/extr_return_normed_max": 1.740582870112525, "train/extr_return_normed_mean": 0.3548622309333748, "train/extr_return_normed_min": -0.14855340547445747, "train/extr_return_normed_std": 0.3331763773328728, "train/extr_return_rate": 0.66985590217842, "train/extr_return_raw_mag": 8.013403779930538, "train/extr_return_raw_max": 8.013403779930538, "train/extr_return_raw_mean": 1.474950077633063, "train/extr_return_raw_min": -0.9009897915853394, "train/extr_return_raw_std": 1.5726086811886892, "train/extr_reward_mag": 1.0276909669240315, "train/extr_reward_max": 1.0276909669240315, "train/extr_reward_mean": 0.03630983177572489, "train/extr_reward_min": -0.6853483418623606, "train/extr_reward_std": 0.18959692265424463, "train/image_loss_mean": 2.6354418413506613, "train/image_loss_std": 7.12670303384463, "train/model_loss_mean": 5.381261881854799, "train/model_loss_std": 11.13144455353419, "train/model_opt_grad_norm": 36.01879125171237, "train/model_opt_grad_steps": 106237.0, "train/model_opt_loss": 12722.405619303385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.318985531727473, "train/policy_entropy_max": 2.318985531727473, "train/policy_entropy_mean": 0.354932960950666, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4341067766977681, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3555224790341324, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9668303579092026, "train/policy_randomness_mag": 0.8185001272294257, "train/policy_randomness_max": 0.8185001272294257, "train/policy_randomness_mean": 0.1252757573707236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15322064080586037, "train/post_ent_mag": 56.112555768754746, "train/post_ent_max": 56.112555768754746, "train/post_ent_mean": 40.23223532570733, "train/post_ent_min": 18.732287486394245, "train/post_ent_std": 5.968464056650798, "train/prior_ent_mag": 75.32004578908284, "train/prior_ent_max": 75.32004578908284, "train/prior_ent_mean": 44.706303437550865, "train/prior_ent_min": 25.78059352768792, "train/prior_ent_std": 7.222575134701199, "train/rep_loss_mean": 4.503088653087616, "train/rep_loss_std": 8.378554979960123, "train/reward_avg": 0.02703450488237043, "train/reward_loss_mean": 0.043824008769459195, "train/reward_loss_std": 0.18622278401421177, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010497917731603, "train/reward_neg_acc": 0.9948857037557496, "train/reward_neg_loss": 0.02118675426916323, "train/reward_pos_acc": 0.9897273141476843, "train/reward_pos_loss": 0.7308084236250983, "train/reward_pred": 0.02681914300450848, "train/reward_rate": 0.031982421875, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 6.857142857142857, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.36595634051731657, "replay/size": 214412.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.723933778960129e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558493120916958e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2258791923523, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.46031618118286, "timer/env.step_frac": 0.06148809100282619, "timer/env.step_avg": 0.0127312525387468, "timer/env.step_min": 0.002968311309814453, "timer/env.step_max": 1.698530912399292, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26583242416381836, "timer/replay.add_frac": 0.0008854414045815872, "timer/replay.add_avg": 0.00018333270631987474, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.003302335739135742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0281832218170166, "timer/logger.write_frac": 9.387339256973193e-05, "timer/logger.write_avg": 0.0281832218170166, "timer/logger.write_min": 0.0281832218170166, "timer/logger.write_max": 0.0281832218170166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.657761812210083, "timer/agent.policy_frac": 0.03549914431387756, "timer/agent.policy_avg": 0.007350180560144885, "timer/agent.policy_min": 0.005599021911621094, "timer/agent.policy_max": 0.01720881462097168, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06569790840148926, "timer/dataset_frac": 0.00021882826549871518, "timer/dataset_avg": 9.061780469170932e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0481414794922, "timer/agent.train_frac": 0.8994832231183992, "timer/agent.train_avg": 0.37248019514412717, "timer/agent.train_min": 0.36644625663757324, "timer/agent.train_max": 0.38880062103271484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22128772735595703, "timer/agent.report_frac": 0.0007370707946671704, "timer/agent.report_avg": 0.22128772735595703, "timer/agent.report_min": 0.22128772735595703, "timer/agent.report_max": 0.22128772735595703, "fps": 4.829613737101474}
+{"step": 214776, "episode/length": 428.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.013986013986013986}
+{"step": 214924, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04054054054054054}
+{"step": 215112, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03723404255319149}
+{"step": 215302, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
+{"step": 215536, "episode/length": 233.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.021367521367521368}
+{"step": 215733, "episode/length": 196.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04060913705583756}
+{"step": 215887, "episode/length": 153.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.05194805194805195}
+{"step": 215921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.547141715271832, "train/action_min": 0.0, "train/action_std": 3.480611987309913, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05156947764223569, "train/actor_opt_grad_steps": 107050.0, "train/actor_opt_loss": -18.46470454539338, "train/adv_mag": 0.5540730255107357, "train/adv_max": 0.5076470289328326, "train/adv_mean": 0.0015096120859110769, "train/adv_min": -0.47966422242661044, "train/adv_std": 0.05974999871360113, "train/cont_avg": 0.9942877782534246, "train/cont_loss_mean": 9.242539850637427e-06, "train/cont_loss_std": 0.00020739110505019198, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006479116489896264, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 3.988211213699169e-06, "train/cont_pred": 0.994288731927741, "train/cont_rate": 0.9942877782534246, "train/dyn_loss_mean": 4.799280901477761, "train/dyn_loss_std": 8.434368283781287, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0955758323408153, "train/extr_critic_critic_opt_grad_steps": 107050.0, "train/extr_critic_critic_opt_loss": 15599.434744220891, "train/extr_critic_mag": 7.25126925559893, "train/extr_critic_max": 7.25126925559893, "train/extr_critic_mean": 1.430744658594262, "train/extr_critic_min": -0.6163107042443262, "train/extr_critic_std": 1.5109421961928067, "train/extr_return_normed_mag": 1.6776214658397517, "train/extr_return_normed_max": 1.6776214658397517, "train/extr_return_normed_mean": 0.34620431147209585, "train/extr_return_normed_min": -0.16392863327509735, "train/extr_return_normed_std": 0.3240220550804922, "train/extr_return_rate": 0.6744783112447555, "train/extr_return_raw_mag": 7.778839757997695, "train/extr_return_raw_max": 7.778839757997695, "train/extr_return_raw_mean": 1.437912496801925, "train/extr_return_raw_min": -0.9913719386270602, "train/extr_return_raw_std": 1.542998880556185, "train/extr_reward_mag": 1.0275601360895863, "train/extr_reward_max": 1.0275601360895863, "train/extr_reward_mean": 0.033216082299612974, "train/extr_reward_min": -0.6706911815355902, "train/extr_reward_std": 0.18191319071266748, "train/image_loss_mean": 2.723002938375081, "train/image_loss_std": 7.444616376537166, "train/model_loss_mean": 5.646785037158287, "train/model_loss_std": 11.459453700339957, "train/model_opt_grad_norm": 37.07347992674945, "train/model_opt_grad_steps": 106961.28767123287, "train/model_opt_loss": 9054.618157373716, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.5890410958905, "train/policy_entropy_mag": 2.3082677142260826, "train/policy_entropy_max": 2.3082677142260826, "train/policy_entropy_mean": 0.3568204061625755, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43291340584624305, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35709439973308615, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9690859374934679, "train/policy_randomness_mag": 0.8147172078694382, "train/policy_randomness_max": 0.8147172078694382, "train/policy_randomness_mean": 0.12594194404066425, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15279943434751198, "train/post_ent_mag": 55.270126238261184, "train/post_ent_max": 55.270126238261184, "train/post_ent_mean": 39.82565443483117, "train/post_ent_min": 18.695005756534943, "train/post_ent_std": 5.886076796544741, "train/prior_ent_mag": 75.44095005401194, "train/prior_ent_max": 75.44095005401194, "train/prior_ent_mean": 44.566514838231754, "train/prior_ent_min": 25.748105297349905, "train/prior_ent_std": 7.320717667880124, "train/rep_loss_mean": 4.799280901477761, "train/rep_loss_std": 8.434368283781287, "train/reward_avg": 0.02523410720878268, "train/reward_loss_mean": 0.044204316012663385, "train/reward_loss_std": 0.19533438398821712, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.018311134756428, "train/reward_neg_acc": 0.9948544102172329, "train/reward_neg_loss": 0.022216355045364327, "train/reward_pos_acc": 0.984402062958234, "train/reward_pos_loss": 0.7429836580198105, "train/reward_pred": 0.025029296029920448, "train/reward_rate": 0.030500856164383562, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 9.714285714285714, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.38075814715453554, "replay/size": 215858.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8249199156279715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2925263097507166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3533205986023, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.73546290397644, "timer/env.step_frac": 0.06237807814688641, "timer/env.step_avg": 0.012956751662500996, "timer/env.step_min": 0.002958536148071289, "timer/env.step_max": 1.6731665134429932, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26593875885009766, "timer/replay.add_frac": 0.0008854197393925374, "timer/replay.add_avg": 0.00018391338786313808, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0012805461883544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03074955940246582, "timer/logger.write_frac": 0.00010237795720447551, "timer/logger.write_avg": 0.03074955940246582, "timer/logger.write_min": 0.03074955940246582, "timer/logger.write_max": 0.03074955940246582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.713413953781128, "timer/agent.policy_frac": 0.035669370767832234, "timer/agent.policy_avg": 0.007408999968036741, "timer/agent.policy_min": 0.005728244781494141, "timer/agent.policy_max": 0.02371358871459961, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06549596786499023, "timer/dataset_frac": 0.0002180630722991748, "timer/dataset_avg": 9.05891671714941e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.83835649490356, "timer/agent.train_frac": 0.8984031072375608, "timer/agent.train_avg": 0.3732204100897698, "timer/agent.train_min": 0.36353278160095215, "timer/agent.train_max": 0.40870022773742676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083163261413574, "timer/agent.report_frac": 0.0007352395244840965, "timer/agent.report_avg": 0.22083163261413574, "timer/agent.report_min": 0.22083163261413574, "timer/agent.report_max": 0.22083163261413574, "fps": 4.8142660745022985}
+{"step": 216000, "episode/length": 112.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.04424778761061947}
+{"step": 216190, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042105263157894736}
+{"step": 216400, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02857142857142857}
+{"step": 216671, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025830258302583026}
+{"step": 216855, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03804347826086957}
+{"step": 217017, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
+{"step": 217268, "episode/length": 250.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0199203187250996}
+{"step": 217345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481367943992077, "train/action_min": 0.0, "train/action_std": 3.4303871208513286, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048393766540037075, "train/actor_opt_grad_steps": 107770.0, "train/actor_opt_loss": -16.40960106904238, "train/adv_mag": 0.5669102954192901, "train/adv_max": 0.5232563988423683, "train/adv_mean": 0.0017295554361174857, "train/adv_min": -0.4640209901500756, "train/adv_std": 0.056777159198069235, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 1.5802468938955557e-05, "train/cont_loss_std": 0.00038964339656674164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004172171240087933, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.3386878108844844e-05, "train/cont_pred": 0.9941584022951798, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.6083238225587655, "train/dyn_loss_std": 8.56662458097431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0272989373811534, "train/extr_critic_critic_opt_grad_steps": 107770.0, "train/extr_critic_critic_opt_loss": 15142.75693221831, "train/extr_critic_mag": 7.323382491796789, "train/extr_critic_max": 7.323382491796789, "train/extr_critic_mean": 1.4487282381930822, "train/extr_critic_min": -0.60149265846736, "train/extr_critic_std": 1.5637601227827476, "train/extr_return_normed_mag": 1.667080409090284, "train/extr_return_normed_max": 1.667080409090284, "train/extr_return_normed_mean": 0.34622390484306176, "train/extr_return_normed_min": -0.15064915091219083, "train/extr_return_normed_std": 0.33115887599931637, "train/extr_return_rate": 0.6480258216320629, "train/extr_return_raw_mag": 7.814823661052006, "train/extr_return_raw_max": 7.814823661052006, "train/extr_return_raw_mean": 1.4570661833588505, "train/extr_return_raw_min": -0.9341095257812823, "train/extr_return_raw_std": 1.5938016176223755, "train/extr_reward_mag": 1.0279474627803749, "train/extr_reward_max": 1.0279474627803749, "train/extr_reward_mean": 0.03407555784452969, "train/extr_reward_min": -0.6730088448860276, "train/extr_reward_std": 0.18498587587349852, "train/image_loss_mean": 2.7654385415601057, "train/image_loss_std": 7.6715780379067, "train/model_loss_mean": 5.5749402113363775, "train/model_loss_std": 11.779999504626637, "train/model_opt_grad_norm": 36.177330849875865, "train/model_opt_grad_steps": 107681.0, "train/model_opt_loss": 9073.61952574824, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.304941775093616, "train/policy_entropy_max": 2.304941775093616, "train/policy_entropy_mean": 0.36501986334021663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4492670780336353, "train/policy_logprob_mag": 7.438384136683505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36561051137010814, "train/policy_logprob_min": -7.438384136683505, "train/policy_logprob_std": 0.9779479520421632, "train/policy_randomness_mag": 0.8135432987145974, "train/policy_randomness_max": 0.8135432987145974, "train/policy_randomness_mean": 0.1288359919694108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15857156439566275, "train/post_ent_mag": 55.386246211092235, "train/post_ent_max": 55.386246211092235, "train/post_ent_mean": 40.02720249874491, "train/post_ent_min": 18.938073185128225, "train/post_ent_std": 5.899021155397657, "train/prior_ent_mag": 75.50246107074577, "train/prior_ent_max": 75.50246107074577, "train/prior_ent_mean": 44.53238291135976, "train/prior_ent_min": 25.641226943110077, "train/prior_ent_std": 7.401688488436417, "train/rep_loss_mean": 4.6083238225587655, "train/rep_loss_std": 8.56662458097431, "train/reward_avg": 0.026455215755587732, "train/reward_loss_mean": 0.044491613546097784, "train/reward_loss_std": 0.19497112132294078, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0120357694760176, "train/reward_neg_acc": 0.9954244721103722, "train/reward_neg_loss": 0.02226695447215732, "train/reward_pos_acc": 0.9888238050568272, "train/reward_pos_loss": 0.7247730149349696, "train/reward_pred": 0.026325302854390213, "train/reward_rate": 0.03163512323943662, "stats/sum_log_reward": 5.242856979370117, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3948003223964146, "replay/size": 217282.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.814864694402459e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2689636329586586e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1415777206421, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.628249645233154, "timer/env.step_frac": 0.06206487547210626, "timer/env.step_avg": 0.013081635986821036, "timer/env.step_min": 0.0030395984649658203, "timer/env.step_max": 1.6683461666107178, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2897028923034668, "timer/replay.add_frac": 0.0009652207951445796, "timer/replay.add_avg": 0.00020344304234794016, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.002871274948120117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02616286277770996, "timer/logger.write_frac": 8.716840557845385e-05, "timer/logger.write_avg": 0.02616286277770996, "timer/logger.write_min": 0.02616286277770996, "timer/logger.write_max": 0.02616286277770996, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00014710426330566406, "timer/checkpoint.save_frac": 4.901162458824079e-07, "timer/checkpoint.save_avg": 0.00014710426330566406, "timer/checkpoint.save_min": 0.00014710426330566406, "timer/checkpoint.save_max": 0.00014710426330566406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3450288772583008, "timer/agent.save_frac": 0.004481314743104974, "timer/agent.save_avg": 1.3450288772583008, "timer/agent.save_min": 1.3450288772583008, "timer/agent.save_max": 1.3450288772583008, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.984306335449219e-05, "timer/replay.save_frac": 1.9938278398133612e-07, "timer/replay.save_avg": 5.984306335449219e-05, "timer/replay.save_min": 5.984306335449219e-05, "timer/replay.save_max": 5.984306335449219e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 14.9232497215271, "timer/agent.policy_frac": 0.04972070125991332, "timer/agent.policy_avg": 0.010479810197701615, "timer/agent.policy_min": 0.00569462776184082, "timer/agent.policy_max": 3.1360175609588623, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06523799896240234, "timer/dataset_frac": 0.00021735741998105593, "timer/dataset_avg": 9.162640303708195e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.5141689777374, "timer/agent.train_frac": 0.8846297503802214, "timer/agent.train_avg": 0.3729131586765975, "timer/agent.train_min": 0.3663475513458252, "timer/agent.train_max": 0.4157991409301758, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21825432777404785, "timer/agent.report_frac": 0.000727171255084122, "timer/agent.report_avg": 0.21825432777404785, "timer/agent.report_min": 0.21825432777404785, "timer/agent.report_max": 0.21825432777404785, "fps": 4.744323577306856}
+{"step": 217452, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03804347826086957}
+{"step": 217496, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11363636363636363}
+{"step": 217682, "episode/length": 185.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03763440860215054}
+{"step": 217943, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03065134099616858}
+{"step": 218103, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
+{"step": 218342, "episode/length": 238.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.02092050209205021}
+{"step": 218490, "episode/length": 147.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.033783783783783786}
+{"step": 218680, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.042105263157894736}
+{"step": 218787, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.569730970594618, "train/action_min": 0.0, "train/action_std": 3.551910208331214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04893511383690768, "train/actor_opt_grad_steps": 108485.0, "train/actor_opt_loss": -16.927057654286426, "train/adv_mag": 0.5646134846740298, "train/adv_max": 0.5326590865022607, "train/adv_mean": 0.0021733411629662035, "train/adv_min": -0.4618109021749761, "train/adv_std": 0.05727700935676694, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 6.514567021337964e-05, "train/cont_loss_std": 0.0020038828435531286, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.009456944718219043, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 8.981707672914593e-06, "train/cont_pred": 0.99415097054508, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.448465191655689, "train/dyn_loss_std": 8.41196557548311, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.013806872897678, "train/extr_critic_critic_opt_grad_steps": 108485.0, "train/extr_critic_critic_opt_loss": 15265.37590874566, "train/extr_critic_mag": 7.169552955362532, "train/extr_critic_max": 7.169552955362532, "train/extr_critic_mean": 1.421619830860032, "train/extr_critic_min": -0.5939912878804736, "train/extr_critic_std": 1.5320135205984116, "train/extr_return_normed_mag": 1.636504704753558, "train/extr_return_normed_max": 1.636504704753558, "train/extr_return_normed_mean": 0.3375948512305816, "train/extr_return_normed_min": -0.14052022424423033, "train/extr_return_normed_std": 0.32168056236373055, "train/extr_return_rate": 0.6519667270282904, "train/extr_return_raw_mag": 7.74542870786455, "train/extr_return_raw_max": 7.74542870786455, "train/extr_return_raw_mean": 1.4321998713745012, "train/extr_return_raw_min": -0.8925409822000397, "train/extr_return_raw_std": 1.564235453804334, "train/extr_reward_mag": 1.0303592549429998, "train/extr_reward_max": 1.0303592549429998, "train/extr_reward_mean": 0.034781019332715206, "train/extr_reward_min": -0.6679098722007539, "train/extr_reward_std": 0.18633455824520853, "train/image_loss_mean": 2.6363887886206308, "train/image_loss_std": 7.1905180513858795, "train/model_loss_mean": 5.350316991408666, "train/model_loss_std": 11.189280364248487, "train/model_opt_grad_norm": 33.92975878715515, "train/model_opt_grad_steps": 108396.0, "train/model_opt_loss": 13375.792534722223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.275665627585517, "train/policy_entropy_max": 2.275665627585517, "train/policy_entropy_mean": 0.36765723923842114, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4509508146180047, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3669265980521838, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9734877579742007, "train/policy_randomness_mag": 0.8032100962267982, "train/policy_randomness_max": 0.8032100962267982, "train/policy_randomness_mean": 0.12976687132484382, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15916584763262007, "train/post_ent_mag": 55.614173412323, "train/post_ent_max": 55.614173412323, "train/post_ent_mean": 40.294743590884735, "train/post_ent_min": 19.045801666047836, "train/post_ent_std": 5.9614787167972985, "train/prior_ent_mag": 75.41710811191135, "train/prior_ent_max": 75.41710811191135, "train/prior_ent_mean": 44.70255623923408, "train/prior_ent_min": 25.915264129638672, "train/prior_ent_std": 7.360544006029765, "train/rep_loss_mean": 4.448465191655689, "train/rep_loss_std": 8.41196557548311, "train/reward_avg": 0.025827365448801883, "train/reward_loss_mean": 0.04478398832078609, "train/reward_loss_std": 0.19214415715800393, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0130779710080888, "train/reward_neg_acc": 0.9950030023852984, "train/reward_neg_loss": 0.02258741202402032, "train/reward_pos_acc": 0.9861210832993189, "train/reward_pos_loss": 0.7376119560665555, "train/reward_pred": 0.02561860519926995, "train/reward_rate": 0.0311279296875, "stats/sum_log_reward": 5.224999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3641904406249523, "replay/size": 218724.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7140059239656022e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2630025821320722e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0365993976593, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.923884868621826, "timer/env.step_frac": 0.06640484830390748, "timer/env.step_avg": 0.013816841101679491, "timer/env.step_min": 0.002916097640991211, "timer/env.step_max": 1.6859028339385986, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26271700859069824, "timer/replay.add_frac": 0.0008756165385093609, "timer/replay.add_avg": 0.00018218932634583789, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0023288726806640625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028611421585083008, "timer/logger.write_frac": 9.535977158294048e-05, "timer/logger.write_avg": 0.028611421585083008, "timer/logger.write_min": 0.028611421585083008, "timer/logger.write_max": 0.028611421585083008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.588588237762451, "timer/agent.policy_frac": 0.03529098869611124, "timer/agent.policy_avg": 0.00734298768222084, "timer/agent.policy_min": 0.0056874752044677734, "timer/agent.policy_max": 0.016896963119506836, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06534910202026367, "timer/dataset_frac": 0.00021780376844510218, "timer/dataset_avg": 9.063675730965835e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.46525526046753, "timer/agent.train_frac": 0.8947750234452295, "timer/agent.train_avg": 0.37235125556236826, "timer/agent.train_min": 0.3644087314605713, "timer/agent.train_max": 0.39166855812072754, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22360754013061523, "timer/agent.report_frac": 0.0007452675459577938, "timer/agent.report_avg": 0.22360754013061523, "timer/agent.report_min": 0.22360754013061523, "timer/agent.report_max": 0.22360754013061523, "fps": 4.80601259292086}
+{"step": 218838, "episode/length": 157.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.05063291139240506}
+{"step": 219015, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.022598870056497175}
+{"step": 219200, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
+{"step": 219389, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031746031746031744}
+{"step": 219624, "episode/length": 234.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03829787234042553}
+{"step": 219761, "episode/length": 136.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.051094890510948905}
+{"step": 219929, "episode/length": 167.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.047619047619047616}
+{"step": 220081, "episode/length": 151.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.046052631578947366}
+{"step": 220229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.604966905381945, "train/action_min": 0.0, "train/action_std": 3.6261725061469607, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05165614617160625, "train/actor_opt_grad_steps": 109205.0, "train/actor_opt_loss": -17.23502581483788, "train/adv_mag": 0.5558151764174303, "train/adv_max": 0.49206019813815755, "train/adv_mean": 0.002024169924172586, "train/adv_min": -0.4667024372352494, "train/adv_std": 0.05877068799196018, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 2.6045308485736188e-05, "train/cont_loss_std": 0.000802734411362533, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021779206953043387, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 1.3955681152218643e-05, "train/cont_pred": 0.9942207874523269, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.673100875483619, "train/dyn_loss_std": 8.614964505036673, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0122103840112686, "train/extr_critic_critic_opt_grad_steps": 109205.0, "train/extr_critic_critic_opt_loss": 15495.013414171008, "train/extr_critic_mag": 7.047603382004632, "train/extr_critic_max": 7.047603382004632, "train/extr_critic_mean": 1.3901419498854213, "train/extr_critic_min": -0.5936476671033435, "train/extr_critic_std": 1.5318452550305262, "train/extr_return_normed_mag": 1.6434602157937155, "train/extr_return_normed_max": 1.6434602157937155, "train/extr_return_normed_mean": 0.33507732301950455, "train/extr_return_normed_min": -0.15282931323680612, "train/extr_return_normed_std": 0.3249809325983127, "train/extr_return_rate": 0.6360333818528388, "train/extr_return_raw_mag": 7.695799602402581, "train/extr_return_raw_max": 7.695799602402581, "train/extr_return_raw_mean": 1.399936757153935, "train/extr_return_raw_min": -0.9474357755647765, "train/extr_return_raw_std": 1.5637207180261612, "train/extr_reward_mag": 1.0263793104224734, "train/extr_reward_max": 1.0263793104224734, "train/extr_reward_mean": 0.03550605760473344, "train/extr_reward_min": -0.6715312931272719, "train/extr_reward_std": 0.18810173703564537, "train/image_loss_mean": 2.7482229123512902, "train/image_loss_std": 7.8804530832502575, "train/model_loss_mean": 5.59770221180386, "train/model_loss_std": 11.991064733929104, "train/model_opt_grad_norm": 40.16391566101934, "train/model_opt_grad_steps": 109115.08333333333, "train/model_opt_loss": 14359.681871202258, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.254468116495344, "train/policy_entropy_max": 2.254468116495344, "train/policy_entropy_mean": 0.3661532795263661, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4448818200164371, "train/policy_logprob_mag": 7.438384089205, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3663289087514083, "train/policy_logprob_min": -7.438384089205, "train/policy_logprob_std": 0.9748259973194864, "train/policy_randomness_mag": 0.7957283101148076, "train/policy_randomness_max": 0.7957283101148076, "train/policy_randomness_mean": 0.12923604022297594, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15702375728223059, "train/post_ent_mag": 55.3325965139601, "train/post_ent_max": 55.3325965139601, "train/post_ent_mean": 40.11668957604302, "train/post_ent_min": 18.899259183141922, "train/post_ent_std": 5.887973374790615, "train/prior_ent_mag": 75.53081692589654, "train/prior_ent_max": 75.53081692589654, "train/prior_ent_mean": 44.72080495622423, "train/prior_ent_min": 25.83315086364746, "train/prior_ent_std": 7.263103432125515, "train/rep_loss_mean": 4.673100875483619, "train/rep_loss_std": 8.614964505036673, "train/reward_avg": 0.02673068557245036, "train/reward_loss_mean": 0.04559275062961711, "train/reward_loss_std": 0.19815069561203322, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0150283144579992, "train/reward_neg_acc": 0.9950576449433962, "train/reward_neg_loss": 0.022879617987200618, "train/reward_pos_acc": 0.9872803654935625, "train/reward_pos_loss": 0.73439831369453, "train/reward_pred": 0.026423991062781878, "train/reward_rate": 0.031914605034722224, "stats/sum_log_reward": 5.849999934434891, "stats/max_log_achievement_collect_drink": 9.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3900090306997299, "replay/size": 220166.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7631115536418603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.254239624647757e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14036083221436, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.98527479171753, "timer/env.step_frac": 0.06658642888381738, "timer/env.step_avg": 0.013859413863881781, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.6643035411834717, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.27553343772888184, "timer/replay.add_frac": 0.0009180152811334548, "timer/replay.add_avg": 0.00019107727997842014, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.002122163772583008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026674747467041016, "timer/logger.write_frac": 8.887424334760775e-05, "timer/logger.write_avg": 0.026674747467041016, "timer/logger.write_min": 0.026674747467041016, "timer/logger.write_max": 0.026674747467041016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.596398115158081, "timer/agent.policy_frac": 0.035304809009281235, "timer/agent.policy_avg": 0.007348403685962609, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.015900135040283203, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06570196151733398, "timer/dataset_frac": 0.00021890411984299224, "timer/dataset_avg": 9.112616021821635e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4857099056244, "timer/agent.train_frac": 0.8945338413040501, "timer/agent.train_avg": 0.37237962538921554, "timer/agent.train_min": 0.36632847785949707, "timer/agent.train_max": 0.3865809440612793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2247910499572754, "timer/agent.report_frac": 0.00074895308759537, "timer/agent.report_avg": 0.2247910499572754, "timer/agent.report_min": 0.2247910499572754, "timer/agent.report_max": 0.2247910499572754, "fps": 4.804318723216401}
+{"step": 220300, "episode/length": 218.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0365296803652968}
+{"step": 220464, "episode/length": 163.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04878048780487805}
+{"step": 220658, "episode/length": 193.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.02577319587628866}
+{"step": 220827, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03550295857988166}
+{"step": 221027, "episode/length": 199.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.035}
+{"step": 221231, "episode/length": 203.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.029411764705882353}
+{"step": 221421, "episode/length": 189.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.05263157894736842}
+{"step": 221619, "episode/length": 197.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04040404040404041}
+{"step": 221645, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598550286091549, "train/action_min": 0.0, "train/action_std": 3.5163527475276464, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050834840819449494, "train/actor_opt_grad_steps": 109920.0, "train/actor_opt_loss": -17.56400706062854, "train/adv_mag": 0.5223400974777382, "train/adv_max": 0.4666094717005609, "train/adv_mean": 0.002272035139444789, "train/adv_min": -0.4608310822030188, "train/adv_std": 0.05869024724397861, "train/cont_avg": 0.9941956426056338, "train/cont_loss_mean": 1.4756313746834423e-05, "train/cont_loss_std": 0.0003737809066449981, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010035992678803921, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 9.361075925985748e-06, "train/cont_pred": 0.9941922694864408, "train/cont_rate": 0.9941956426056338, "train/dyn_loss_mean": 4.648105634769923, "train/dyn_loss_std": 8.558684584120629, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.03902517070233, "train/extr_critic_critic_opt_grad_steps": 109920.0, "train/extr_critic_critic_opt_loss": 15584.512571522888, "train/extr_critic_mag": 7.013502960473719, "train/extr_critic_max": 7.013502960473719, "train/extr_critic_mean": 1.3384769584091616, "train/extr_critic_min": -0.6179898356048155, "train/extr_critic_std": 1.4994016298106019, "train/extr_return_normed_mag": 1.635595351877347, "train/extr_return_normed_max": 1.635595351877347, "train/extr_return_normed_mean": 0.3280607589953382, "train/extr_return_normed_min": -0.15723946973891326, "train/extr_return_normed_std": 0.31959531025987276, "train/extr_return_rate": 0.6195221140351094, "train/extr_return_raw_mag": 7.607925173262475, "train/extr_return_raw_max": 7.607925173262475, "train/extr_return_raw_mean": 1.3494058587181736, "train/extr_return_raw_min": -0.9752072935373011, "train/extr_return_raw_std": 1.5307949277716624, "train/extr_reward_mag": 1.025771355964768, "train/extr_reward_max": 1.025771355964768, "train/extr_reward_mean": 0.035877169542749165, "train/extr_reward_min": -0.6773965996755681, "train/extr_reward_std": 0.1894130866292497, "train/image_loss_mean": 2.7972665622200763, "train/image_loss_std": 7.883131342874447, "train/model_loss_mean": 5.631111668868804, "train/model_loss_std": 11.96717168243838, "train/model_opt_grad_norm": 35.16895672972773, "train/model_opt_grad_steps": 109829.49295774648, "train/model_opt_loss": 14077.779145576584, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.270501714357188, "train/policy_entropy_max": 2.270501714357188, "train/policy_entropy_mean": 0.36612621579371707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4471834117258099, "train/policy_logprob_mag": 7.438384062807325, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36635712460732794, "train/policy_logprob_min": -7.438384062807325, "train/policy_logprob_std": 0.9745781774252233, "train/policy_randomness_mag": 0.8013874686939616, "train/policy_randomness_max": 0.8013874686939616, "train/policy_randomness_mean": 0.1292264887564619, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15783611863431796, "train/post_ent_mag": 55.36878800727952, "train/post_ent_max": 55.36878800727952, "train/post_ent_mean": 40.1778146985551, "train/post_ent_min": 18.798827171325684, "train/post_ent_std": 5.933860113922979, "train/prior_ent_mag": 75.63763922033175, "train/prior_ent_max": 75.63763922033175, "train/prior_ent_mean": 44.762414099464955, "train/prior_ent_min": 25.687011047148367, "train/prior_ent_std": 7.328755136946557, "train/rep_loss_mean": 4.648105634769923, "train/rep_loss_std": 8.558684584120629, "train/reward_avg": 0.027144310799178104, "train/reward_loss_mean": 0.044966969586594005, "train/reward_loss_std": 0.19754317486789866, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0114544965851475, "train/reward_neg_acc": 0.9955288154978148, "train/reward_neg_loss": 0.021828440070467095, "train/reward_pos_acc": 0.9868259387956538, "train/reward_pos_loss": 0.7359822845794786, "train/reward_pred": 0.02681558225041544, "train/reward_rate": 0.03233659771126761, "stats/sum_log_reward": 5.975000083446503, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.36064719781279564, "replay/size": 221582.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7614908595543122e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2436366013887912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26267099380493, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.089139461517334, "timer/env.step_frac": 0.07689646996443894, "timer/env.step_avg": 0.016305889450224105, "timer/env.step_min": 0.002822399139404297, "timer/env.step_max": 2.6583635807037354, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.27646613121032715, "timer/replay.add_frac": 0.0009207475917511946, "timer/replay.add_avg": 0.0001952444429451463, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004968404769897461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0273590087890625, "timer/logger.write_frac": 9.11169167266449e-05, "timer/logger.write_avg": 0.0273590087890625, "timer/logger.write_min": 0.0273590087890625, "timer/logger.write_max": 0.0273590087890625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003447532653808594, "timer/checkpoint.save_frac": 1.1481722461197063e-06, "timer/checkpoint.save_avg": 0.0003447532653808594, "timer/checkpoint.save_min": 0.0003447532653808594, "timer/checkpoint.save_max": 0.0003447532653808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4380946159362793, "timer/agent.save_frac": 0.004789455216582518, "timer/agent.save_avg": 1.4380946159362793, "timer/agent.save_min": 1.4380946159362793, "timer/agent.save_max": 1.4380946159362793, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.906162116734526e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.608473539352417, "timer/agent.policy_frac": 0.03866106133316827, "timer/agent.policy_avg": 0.008198074533440972, "timer/agent.policy_min": 0.0056569576263427734, "timer/agent.policy_max": 1.4270720481872559, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06339001655578613, "timer/dataset_frac": 0.0002111152090467283, "timer/dataset_avg": 8.953392168896347e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002110004425048828, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.51795840263367, "timer/agent.train_frac": 0.8809551900911827, "timer/agent.train_avg": 0.3736129355969402, "timer/agent.train_min": 0.36241745948791504, "timer/agent.train_max": 0.9490237236022949, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21945738792419434, "timer/agent.report_frac": 0.000730884685724794, "timer/agent.report_avg": 0.21945738792419434, "timer/agent.report_min": 0.21945738792419434, "timer/agent.report_max": 0.21945738792419434, "fps": 4.715814221818565}
+{"step": 221779, "episode/length": 159.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.0375}
+{"step": 222013, "episode/length": 233.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.017094017094017096}
+{"step": 222169, "episode/length": 155.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05128205128205128}
+{"step": 222345, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
+{"step": 222505, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
+{"step": 222687, "episode/length": 181.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 222740, "episode/length": 52.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.07547169811320754}
+{"step": 223007, "episode/length": 266.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0299625468164794}
+{"step": 223089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.699975755479601, "train/action_min": 0.0, "train/action_std": 3.5279637773831687, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04934041238286429, "train/actor_opt_grad_steps": 110635.0, "train/actor_opt_loss": -15.864016216662195, "train/adv_mag": 0.5409723379545741, "train/adv_max": 0.5237811725172732, "train/adv_mean": 0.0025197673063909556, "train/adv_min": -0.4238263178202841, "train/adv_std": 0.057465057923562, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 4.958956637087416e-05, "train/cont_loss_std": 0.0015238693597415438, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002432957627434007, "train/cont_pos_acc": 0.9999862983822823, "train/cont_pos_loss": 4.853448182965773e-05, "train/cont_pred": 0.9940047429667579, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.521842310825984, "train/dyn_loss_std": 8.470078719986809, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.024798325366444, "train/extr_critic_critic_opt_grad_steps": 110635.0, "train/extr_critic_critic_opt_loss": 15393.153103298611, "train/extr_critic_mag": 7.005920363797082, "train/extr_critic_max": 7.005920363797082, "train/extr_critic_mean": 1.3696276909775205, "train/extr_critic_min": -0.6064027183585696, "train/extr_critic_std": 1.5372915748092864, "train/extr_return_normed_mag": 1.621326156788402, "train/extr_return_normed_max": 1.621326156788402, "train/extr_return_normed_mean": 0.3335088125119607, "train/extr_return_normed_min": -0.14494167423496643, "train/extr_return_normed_std": 0.3234691392216418, "train/extr_return_rate": 0.6128834245933427, "train/extr_return_raw_mag": 7.637318717108832, "train/extr_return_raw_max": 7.637318717108832, "train/extr_return_raw_mean": 1.3818445172574785, "train/extr_return_raw_min": -0.9420120219389597, "train/extr_return_raw_std": 1.5713256696859996, "train/extr_reward_mag": 1.0221120715141296, "train/extr_reward_max": 1.0221120715141296, "train/extr_reward_mean": 0.03565962749740316, "train/extr_reward_min": -0.6699274943934547, "train/extr_reward_std": 0.1883939899918106, "train/image_loss_mean": 2.6660546312729516, "train/image_loss_std": 7.152371413177914, "train/model_loss_mean": 5.4235343138376875, "train/model_loss_std": 11.183288852373758, "train/model_opt_grad_norm": 37.27139478259616, "train/model_opt_grad_steps": 110543.93055555556, "train/model_opt_loss": 14022.163208007812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.2741200923919678, "train/policy_entropy_max": 2.2741200923919678, "train/policy_entropy_mean": 0.37576960068609977, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4592534253994624, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37543974734014934, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9798588951428732, "train/policy_randomness_mag": 0.8026645936899715, "train/policy_randomness_max": 0.8026645936899715, "train/policy_randomness_mean": 0.13263018015358183, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1620963044050667, "train/post_ent_mag": 55.53540484110514, "train/post_ent_max": 55.53540484110514, "train/post_ent_mean": 40.285717169443764, "train/post_ent_min": 18.72163638803694, "train/post_ent_std": 5.956272886859046, "train/prior_ent_mag": 75.35392316182454, "train/prior_ent_max": 75.35392316182454, "train/prior_ent_mean": 44.77758640713162, "train/prior_ent_min": 25.94866704940796, "train/prior_ent_std": 7.325768417782253, "train/rep_loss_mean": 4.521842310825984, "train/rep_loss_std": 8.470078719986809, "train/reward_avg": 0.026656087035209768, "train/reward_loss_mean": 0.04432474707977639, "train/reward_loss_std": 0.18749544024467468, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.014835986826155, "train/reward_neg_acc": 0.9951531895332866, "train/reward_neg_loss": 0.021966787106874917, "train/reward_pos_acc": 0.9907636170585951, "train/reward_pos_loss": 0.7232571451200379, "train/reward_pred": 0.02658548892941326, "train/reward_rate": 0.031914605034722224, "stats/sum_log_reward": 5.099999934434891, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3209161050617695, "replay/size": 223026.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6908649011331914e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2281487523023441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2610332965851, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.099812030792236, "timer/env.step_frac": 0.06694112722558473, "timer/env.step_avg": 0.013919537417446146, "timer/env.step_min": 0.0029497146606445312, "timer/env.step_max": 1.7045421600341797, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25063061714172363, "timer/replay.add_frac": 0.0008347091009114105, "timer/replay.add_avg": 0.00017356690937792496, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0012938976287841797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024977684020996094, "timer/logger.write_frac": 8.318656519217464e-05, "timer/logger.write_avg": 0.024977684020996094, "timer/logger.write_min": 0.024977684020996094, "timer/logger.write_max": 0.024977684020996094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.371264696121216, "timer/agent.policy_frac": 0.03454082796643453, "timer/agent.policy_avg": 0.007182316271552088, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.016385793685913086, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06470823287963867, "timer/dataset_frac": 0.00021550659494241675, "timer/dataset_avg": 8.962359124603694e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.7621533870697, "timer/agent.train_frac": 0.8950950126172312, "timer/agent.train_avg": 0.37224674984358685, "timer/agent.train_min": 0.3660717010498047, "timer/agent.train_max": 0.3866114616394043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029352188110352, "timer/agent.report_frac": 0.0007336733623490429, "timer/agent.report_avg": 0.22029352188110352, "timer/agent.report_min": 0.22029352188110352, "timer/agent.report_max": 0.22029352188110352, "fps": 4.809088342042642}
+{"step": 223181, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.040229885057471264}
+{"step": 223239, "episode/length": 57.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.1206896551724138}
+{"step": 223433, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03608247422680412}
+{"step": 223475, "episode/length": 41.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.14285714285714285}
+{"step": 223637, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
+{"step": 223810, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
+{"step": 224057, "episode/length": 246.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03643724696356275}
+{"step": 224260, "episode/length": 202.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 224421, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043478260869565216}
+{"step": 224525, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.693358527289496, "train/action_min": 0.0, "train/action_std": 3.5698623624112873, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05000650246317188, "train/actor_opt_grad_steps": 111355.0, "train/actor_opt_loss": -15.60521490044064, "train/adv_mag": 0.6608288362622261, "train/adv_max": 0.6152027990255091, "train/adv_mean": 0.002607184933241216, "train/adv_min": -0.43626759697993595, "train/adv_std": 0.058692691951162286, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00010524833077991186, "train/cont_loss_std": 0.003248222095420614, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.008566352687896343, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.5225388256428434e-05, "train/cont_pred": 0.9941448428564601, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.7298666006988945, "train/dyn_loss_std": 8.526225176122454, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0177256266276042, "train/extr_critic_critic_opt_grad_steps": 111355.0, "train/extr_critic_critic_opt_loss": 15571.825453016492, "train/extr_critic_mag": 7.888649741808574, "train/extr_critic_max": 7.888649741808574, "train/extr_critic_mean": 1.3843418401148584, "train/extr_critic_min": -0.6062927809026506, "train/extr_critic_std": 1.6681554400258594, "train/extr_return_normed_mag": 1.7592535383171506, "train/extr_return_normed_max": 1.7592535383171506, "train/extr_return_normed_mean": 0.33122289925813675, "train/extr_return_normed_min": -0.15055102544526258, "train/extr_return_normed_std": 0.3439490782717864, "train/extr_return_rate": 0.5912471380498674, "train/extr_return_raw_mag": 8.47539653380712, "train/extr_return_raw_max": 8.47539653380712, "train/extr_return_raw_mean": 1.3972970528735056, "train/extr_return_raw_min": -0.9920167384876145, "train/extr_return_raw_std": 1.705183337132136, "train/extr_reward_mag": 1.0177335341771443, "train/extr_reward_max": 1.0177335341771443, "train/extr_reward_mean": 0.035522707854397595, "train/extr_reward_min": -0.6774218049314287, "train/extr_reward_std": 0.1879255436360836, "train/image_loss_mean": 2.800215272439851, "train/image_loss_std": 7.700826737615797, "train/model_loss_mean": 5.683639215098487, "train/model_loss_std": 11.761719869242775, "train/model_opt_grad_norm": 38.61518394947052, "train/model_opt_grad_steps": 111262.59722222222, "train/model_opt_loss": 11304.873460557727, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.2882810963524713, "train/policy_entropy_max": 2.2882810963524713, "train/policy_entropy_mean": 0.3755147515071763, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4582618690199322, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753169783287578, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.978704023692343, "train/policy_randomness_mag": 0.8076628082328372, "train/policy_randomness_max": 0.8076628082328372, "train/policy_randomness_mean": 0.13254022618962658, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1617463291105297, "train/post_ent_mag": 55.73067839940389, "train/post_ent_max": 55.73067839940389, "train/post_ent_mean": 40.22651396857368, "train/post_ent_min": 19.19130512078603, "train/post_ent_std": 5.941437449720171, "train/prior_ent_mag": 75.57409010993109, "train/prior_ent_max": 75.57409010993109, "train/prior_ent_mean": 44.93183104197184, "train/prior_ent_min": 26.37856345706516, "train/prior_ent_std": 7.33505857653088, "train/rep_loss_mean": 4.7298666006988945, "train/rep_loss_std": 8.526225176122454, "train/reward_avg": 0.02681477865876837, "train/reward_loss_mean": 0.045398773004611336, "train/reward_loss_std": 0.19530535427232584, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.008646513024966, "train/reward_neg_acc": 0.9952197381191783, "train/reward_neg_loss": 0.022810472634672705, "train/reward_pos_acc": 0.9867203227347798, "train/reward_pos_loss": 0.7320375243822733, "train/reward_pred": 0.026688764945396945, "train/reward_rate": 0.032036675347222224, "stats/sum_log_reward": 5.988889005449083, "stats/max_log_achievement_collect_drink": 3.111111111111111, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3340984880924225, "replay/size": 224462.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.702129162121616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.234222919495989e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0869505405426, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.505205869674683, "timer/env.step_frac": 0.0716632490381126, "timer/env.step_avg": 0.01497577010423028, "timer/env.step_min": 0.0028884410858154297, "timer/env.step_max": 1.6911766529083252, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2589428424835205, "timer/replay.add_frac": 0.0008628927116527068, "timer/replay.add_avg": 0.00018032231370718698, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0011031627655029297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023978233337402344, "timer/logger.write_frac": 7.990428538865376e-05, "timer/logger.write_avg": 0.023978233337402344, "timer/logger.write_min": 0.023978233337402344, "timer/logger.write_max": 0.023978233337402344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.328307151794434, "timer/agent.policy_frac": 0.03441771504289071, "timer/agent.policy_avg": 0.00719241445111033, "timer/agent.policy_min": 0.005608320236206055, "timer/agent.policy_max": 0.015932559967041016, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06509709358215332, "timer/dataset_frac": 0.00021692743874698582, "timer/dataset_avg": 9.066447574116062e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.2188115119934, "timer/agent.train_frac": 0.8904712818423318, "timer/agent.train_avg": 0.3721710466740855, "timer/agent.train_min": 0.3661167621612549, "timer/agent.train_max": 0.3834800720214844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22042036056518555, "timer/agent.report_frac": 0.0007345216450370311, "timer/agent.report_avg": 0.22042036056518555, "timer/agent.report_min": 0.22042036056518555, "timer/agent.report_max": 0.22042036056518555, "fps": 4.785174467473769}
+{"step": 224577, "episode/length": 155.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04487179487179487}
+{"step": 224758, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03314917127071823}
+{"step": 224906, "episode/length": 147.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.0472972972972973}
+{"step": 225066, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04375}
+{"step": 225111, "episode/length": 44.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.13333333333333333}
+{"step": 225265, "episode/length": 153.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.045454545454545456}
+{"step": 225482, "episode/length": 216.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03225806451612903}
+{"step": 225648, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04216867469879518}
+{"step": 225851, "episode/length": 202.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.034482758620689655}
+{"step": 225896, "episode/length": 44.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.0999999940395355, "episode/reward_rate": 0.044444444444444446}
+{"step": 225931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.649697440011161, "train/action_min": 0.0, "train/action_std": 3.5337342296327865, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04880658515862056, "train/actor_opt_grad_steps": 112065.0, "train/actor_opt_loss": -15.073846600736891, "train/adv_mag": 0.5232518702745438, "train/adv_max": 0.49089455221380507, "train/adv_mean": 0.0025943800319510046, "train/adv_min": -0.41893348268100195, "train/adv_std": 0.05663289129734039, "train/cont_avg": 0.9941824776785714, "train/cont_loss_mean": 3.5577055392975256e-05, "train/cont_loss_std": 0.0009355029555438575, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.0034683690738217723, "train/cont_pos_acc": 0.9999999812671116, "train/cont_pos_loss": 1.2039695739523332e-05, "train/cont_pred": 0.9941874921321869, "train/cont_rate": 0.9941824776785714, "train/dyn_loss_mean": 4.707308523995536, "train/dyn_loss_std": 8.547033418927874, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0465561713491167, "train/extr_critic_critic_opt_grad_steps": 112065.0, "train/extr_critic_critic_opt_loss": 15608.945744977678, "train/extr_critic_mag": 7.264348002842494, "train/extr_critic_max": 7.264348002842494, "train/extr_critic_mean": 1.3575249288763318, "train/extr_critic_min": -0.6261533175195967, "train/extr_critic_std": 1.5985181501933508, "train/extr_return_normed_mag": 1.6469786167144775, "train/extr_return_normed_max": 1.6469786167144775, "train/extr_return_normed_mean": 0.33073481342622213, "train/extr_return_normed_min": -0.15210914335080555, "train/extr_return_normed_std": 0.33219696517501557, "train/extr_return_rate": 0.587863684977804, "train/extr_return_raw_mag": 7.842325850895473, "train/extr_return_raw_max": 7.842325850895473, "train/extr_return_raw_mean": 1.3703444991792952, "train/extr_return_raw_min": -1.0052245344434465, "train/extr_return_raw_std": 1.6338430540902273, "train/extr_reward_mag": 1.0284041370664323, "train/extr_reward_max": 1.0284041370664323, "train/extr_reward_mean": 0.03520321899226734, "train/extr_reward_min": -0.6525036011423383, "train/extr_reward_std": 0.18795965037175588, "train/image_loss_mean": 2.812410339287349, "train/image_loss_std": 7.6697575501033235, "train/model_loss_mean": 5.682690027781895, "train/model_loss_std": 11.74033283506121, "train/model_opt_grad_norm": 37.216158921377996, "train/model_opt_grad_steps": 111972.0, "train/model_opt_loss": 7103.362541852679, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2408859729766846, "train/policy_entropy_max": 2.2408859729766846, "train/policy_entropy_mean": 0.37084041110106875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4524383166006633, "train/policy_logprob_mag": 7.438384090151105, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3695372577224459, "train/policy_logprob_min": -7.438384090151105, "train/policy_logprob_std": 0.9711058957236154, "train/policy_randomness_mag": 0.7909344051565442, "train/policy_randomness_max": 0.7909344051565442, "train/policy_randomness_mean": 0.13089039134127753, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15969087140900748, "train/post_ent_mag": 55.63804740905762, "train/post_ent_max": 55.63804740905762, "train/post_ent_mean": 40.22741186959403, "train/post_ent_min": 18.577714252471925, "train/post_ent_std": 6.007386602674212, "train/prior_ent_mag": 75.61744657244002, "train/prior_ent_max": 75.61744657244002, "train/prior_ent_mean": 44.91647039140974, "train/prior_ent_min": 25.684764099121093, "train/prior_ent_std": 7.391243730272565, "train/rep_loss_mean": 4.707308523995536, "train/rep_loss_std": 8.547033418927874, "train/reward_avg": 0.02667968732171825, "train/reward_loss_mean": 0.04585907206471477, "train/reward_loss_std": 0.1956266775727272, "train/reward_max_data": 1.0185714329992022, "train/reward_max_pred": 1.015528518812997, "train/reward_neg_acc": 0.9954621246882848, "train/reward_neg_loss": 0.02350577577682478, "train/reward_pos_acc": 0.9913012274674007, "train/reward_pos_loss": 0.7260409474372864, "train/reward_pred": 0.026561424495386225, "train/reward_rate": 0.03179408482142857, "stats/sum_log_reward": 5.000000011175871, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.6, "stats/max_log_achievement_defeat_skeleton": 0.1, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 1.3, "stats/mean_log_entropy": 0.31562493145465853, "replay/size": 225868.0, "replay/inserts": 1406.0, "replay/samples": 11248.0, "replay/insert_wait_avg": 3.739576760260852e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2255834142649665e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3191821575165, "timer/env.step_count": 1406.0, "timer/env.step_total": 25.670849561691284, "timer/env.step_frac": 0.08547855444087818, "timer/env.step_avg": 0.01825807223448882, "timer/env.step_min": 0.0028815269470214844, "timer/env.step_max": 2.639451742172241, "timer/replay.add_count": 1406.0, "timer/replay.add_total": 0.26470375061035156, "timer/replay.add_frac": 0.0008814080696034769, "timer/replay.add_avg": 0.0001882672479447735, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.004300117492675781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028134822845458984, "timer/logger.write_frac": 9.368306960393345e-05, "timer/logger.write_avg": 0.028134822845458984, "timer/logger.write_min": 0.028134822845458984, "timer/logger.write_max": 0.028134822845458984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044345855712890625, "timer/checkpoint.save_frac": 1.4766241501560617e-06, "timer/checkpoint.save_avg": 0.00044345855712890625, "timer/checkpoint.save_min": 0.00044345855712890625, "timer/checkpoint.save_max": 0.00044345855712890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3396694660186768, "timer/agent.save_frac": 0.0044608188407892786, "timer/agent.save_avg": 1.3396694660186768, "timer/agent.save_min": 1.3396694660186768, "timer/agent.save_max": 1.3396694660186768, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.796287536621094e-05, "timer/replay.save_frac": 2.5960005220485603e-07, "timer/replay.save_avg": 7.796287536621094e-05, "timer/replay.save_min": 7.796287536621094e-05, "timer/replay.save_max": 7.796287536621094e-05, "timer/agent.policy_count": 1406.0, "timer/agent.policy_total": 11.42340636253357, "timer/agent.policy_frac": 0.038037551515913585, "timer/agent.policy_avg": 0.008124755592129138, "timer/agent.policy_min": 0.005674839019775391, "timer/agent.policy_max": 1.3332703113555908, "timer/dataset_count": 703.0, "timer/dataset_total": 0.06294608116149902, "timer/dataset_frac": 0.00020959727150723258, "timer/dataset_avg": 8.953923351564584e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002830028533935547, "timer/agent.train_count": 703.0, "timer/agent.train_total": 262.1923725605011, "timer/agent.train_frac": 0.8730457064943058, "timer/agent.train_avg": 0.37296212313015803, "timer/agent.train_min": 0.3657546043395996, "timer/agent.train_max": 0.9303431510925293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970057487487793, "timer/agent.report_frac": 0.0007315569165330427, "timer/agent.report_avg": 0.21970057487487793, "timer/agent.report_min": 0.21970057487487793, "timer/agent.report_max": 0.21970057487487793, "fps": 4.681587337697426}
+{"step": 226048, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
+{"step": 226232, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.043478260869565216}
+{"step": 226268, "episode/length": 35.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.16666666666666666}
+{"step": 226795, "episode/length": 526.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.009487666034155597}
+{"step": 226999, "episode/length": 203.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0392156862745098}
+{"step": 227283, "episode/length": 283.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.02464788732394366}
+{"step": 227340, "episode/length": 56.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.10526315789473684}
+{"step": 227381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.662722234856592, "train/action_min": 0.0, "train/action_std": 3.6393406260503482, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046886536382036666, "train/actor_opt_grad_steps": 112780.0, "train/actor_opt_loss": -15.353698209540484, "train/adv_mag": 0.6114330524451113, "train/adv_max": 0.586068866187579, "train/adv_mean": 0.0023446012293714203, "train/adv_min": -0.4287387444956662, "train/adv_std": 0.05585574506692691, "train/cont_avg": 0.994234267979452, "train/cont_loss_mean": 4.916647463954003e-05, "train/cont_loss_std": 0.0014468155098518465, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.005235496643850538, "train/cont_pos_acc": 0.9999865073047273, "train/cont_pos_loss": 2.1153083177479907e-05, "train/cont_pred": 0.9942331461057271, "train/cont_rate": 0.994234267979452, "train/dyn_loss_mean": 4.638135701009672, "train/dyn_loss_std": 8.510934437790961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0426295391500813, "train/extr_critic_critic_opt_grad_steps": 112780.0, "train/extr_critic_critic_opt_loss": 15544.647474315068, "train/extr_critic_mag": 8.046063383964643, "train/extr_critic_max": 8.046063383964643, "train/extr_critic_mean": 1.4196976709039244, "train/extr_critic_min": -0.6045285675623645, "train/extr_critic_std": 1.7248319893667143, "train/extr_return_normed_mag": 1.7202114177076784, "train/extr_return_normed_max": 1.7202114177076784, "train/extr_return_normed_mean": 0.3253582660874275, "train/extr_return_normed_min": -0.1352178876938885, "train/extr_return_normed_std": 0.3416868572773999, "train/extr_return_rate": 0.5903806686401367, "train/extr_return_raw_mag": 8.625800478948305, "train/extr_return_raw_max": 8.625800478948305, "train/extr_return_raw_mean": 1.4317403721482787, "train/extr_return_raw_min": -0.9420673871693546, "train/extr_return_raw_std": 1.7625460641024864, "train/extr_reward_mag": 1.01888487437, "train/extr_reward_max": 1.01888487437, "train/extr_reward_mean": 0.03556793953662049, "train/extr_reward_min": -0.6636181432906896, "train/extr_reward_std": 0.18763794351930488, "train/image_loss_mean": 2.74864408088057, "train/image_loss_std": 7.464463671592817, "train/model_loss_mean": 5.576771158061615, "train/model_loss_std": 11.550046241446717, "train/model_opt_grad_norm": 38.895305738057175, "train/model_opt_grad_steps": 112686.64383561644, "train/model_opt_loss": 11406.97967947346, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.2748438560799378, "train/policy_entropy_max": 2.2748438560799378, "train/policy_entropy_mean": 0.37592082031785623, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45858193464475133, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3765420742230873, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9792229378060119, "train/policy_randomness_mag": 0.8029200500004912, "train/policy_randomness_max": 0.8029200500004912, "train/policy_randomness_mean": 0.13268355280160904, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16185929860970746, "train/post_ent_mag": 55.63355976261505, "train/post_ent_max": 55.63355976261505, "train/post_ent_mean": 40.31248918298173, "train/post_ent_min": 18.95218636238412, "train/post_ent_std": 5.949781973068029, "train/prior_ent_mag": 75.54375499568573, "train/prior_ent_max": 75.54375499568573, "train/prior_ent_mean": 44.919644029173135, "train/prior_ent_min": 26.12484675890779, "train/prior_ent_std": 7.283170504112766, "train/rep_loss_mean": 4.638135701009672, "train/rep_loss_std": 8.510934437790961, "train/reward_avg": 0.026165186159618912, "train/reward_loss_mean": 0.04519656144899048, "train/reward_loss_std": 0.196761792449102, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0104287601497075, "train/reward_neg_acc": 0.9952921695905189, "train/reward_neg_loss": 0.02231748129100832, "train/reward_pos_acc": 0.9776532772469194, "train/reward_pos_loss": 0.759821408415494, "train/reward_pred": 0.02583995686639866, "train/reward_rate": 0.03142390839041096, "stats/sum_log_reward": 5.242857115609305, "stats/max_log_achievement_collect_drink": 8.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.4087224815573011, "replay/size": 227318.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7388966001313306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2323774140456628e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19868183135986, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.87186908721924, "timer/env.step_frac": 0.06286459678001095, "timer/env.step_avg": 0.013015082129116716, "timer/env.step_min": 0.002989053726196289, "timer/env.step_max": 1.7729823589324951, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2673494815826416, "timer/replay.add_frac": 0.0008905751349462231, "timer/replay.add_avg": 0.0001843789528156149, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.001943349838256836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029781341552734375, "timer/logger.write_frac": 9.920543744913708e-05, "timer/logger.write_avg": 0.029781341552734375, "timer/logger.write_min": 0.029781341552734375, "timer/logger.write_max": 0.029781341552734375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.452193021774292, "timer/agent.policy_frac": 0.03481758466763, "timer/agent.policy_avg": 0.007208408980533995, "timer/agent.policy_min": 0.005619049072265625, "timer/agent.policy_max": 0.017810344696044922, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0652472972869873, "timer/dataset_frac": 0.0002173470479248831, "timer/dataset_avg": 8.99962721199825e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019240379333496094, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.81408190727234, "timer/agent.train_frac": 0.8987850321702731, "timer/agent.train_avg": 0.3721573543548584, "timer/agent.train_min": 0.36361074447631836, "timer/agent.train_max": 0.38509678840637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2188243865966797, "timer/agent.report_frac": 0.0007289318702592, "timer/agent.report_avg": 0.2188243865966797, "timer/agent.report_min": 0.2188243865966797, "timer/agent.report_max": 0.2188243865966797, "fps": 4.830053963627737}
+{"step": 227508, "episode/length": 167.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.300000011920929, "episode/reward_rate": 0.05357142857142857}
+{"step": 227692, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 227771, "episode/length": 78.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.0759493670886076}
+{"step": 228045, "episode/length": 273.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025547445255474453}
+{"step": 228196, "episode/length": 150.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.046357615894039736}
+{"step": 228355, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
+{"step": 228520, "episode/length": 164.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03636363636363636}
+{"step": 228676, "episode/length": 155.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.100000038743019, "episode/reward_rate": 0.03205128205128205}
+{"step": 228820, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.041666666666666664}
+{"step": 228821, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.720873514811198, "train/action_min": 0.0, "train/action_std": 3.636487560139762, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046083866592703596, "train/actor_opt_grad_steps": 113505.0, "train/actor_opt_loss": -16.56150132748816, "train/adv_mag": 0.5478794963823425, "train/adv_max": 0.512997541990545, "train/adv_mean": 0.0017579977879146706, "train/adv_min": -0.4672200820512242, "train/adv_std": 0.05536458744770951, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 2.677880516838766e-05, "train/cont_loss_std": 0.0007620361982800558, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0033830550293411457, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 4.016193205163492e-06, "train/cont_pred": 0.9941548547810979, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.617947889698876, "train/dyn_loss_std": 8.455882655249702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0024621842636003, "train/extr_critic_critic_opt_grad_steps": 113505.0, "train/extr_critic_critic_opt_loss": 15422.74030219184, "train/extr_critic_mag": 7.465248982111613, "train/extr_critic_max": 7.465248982111613, "train/extr_critic_mean": 1.3369074140985806, "train/extr_critic_min": -0.6139270895057254, "train/extr_critic_std": 1.613168991274304, "train/extr_return_normed_mag": 1.6476281202501721, "train/extr_return_normed_max": 1.6476281202501721, "train/extr_return_normed_mean": 0.317051219029559, "train/extr_return_normed_min": -0.1461213506344292, "train/extr_return_normed_std": 0.32719716388318276, "train/extr_return_rate": 0.5707962918612692, "train/extr_return_raw_mag": 8.01912130912145, "train/extr_return_raw_max": 8.01912130912145, "train/extr_return_raw_mean": 1.345688467224439, "train/extr_return_raw_min": -0.974730461008019, "train/extr_return_raw_std": 1.640670723385281, "train/extr_reward_mag": 1.0228207574950323, "train/extr_reward_max": 1.0228207574950323, "train/extr_reward_mean": 0.03506292951189809, "train/extr_reward_min": -0.658899747663074, "train/extr_reward_std": 0.18773207937677702, "train/image_loss_mean": 2.6555365837282605, "train/image_loss_std": 7.284824185901218, "train/model_loss_mean": 5.471955080827077, "train/model_loss_std": 11.287877559661865, "train/model_opt_grad_norm": 35.69320403205024, "train/model_opt_grad_steps": 113411.0, "train/model_opt_loss": 6839.943874782986, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2988665766186185, "train/policy_entropy_max": 2.2988665766186185, "train/policy_entropy_mean": 0.378029227670696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4644817416038778, "train/policy_logprob_mag": 7.438384148809645, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3788732397887442, "train/policy_logprob_min": -7.438384148809645, "train/policy_logprob_std": 0.9835435375571251, "train/policy_randomness_mag": 0.8113990177710851, "train/policy_randomness_max": 0.8113990177710851, "train/policy_randomness_mean": 0.1334277271396584, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16394167196833426, "train/post_ent_mag": 55.16929652955797, "train/post_ent_max": 55.16929652955797, "train/post_ent_mean": 40.24891418880887, "train/post_ent_min": 18.853596568107605, "train/post_ent_std": 5.848409374554952, "train/prior_ent_mag": 75.53882344563802, "train/prior_ent_max": 75.53882344563802, "train/prior_ent_mean": 44.851912604437935, "train/prior_ent_min": 25.9471824698978, "train/prior_ent_std": 7.323067439926995, "train/rep_loss_mean": 4.617947889698876, "train/rep_loss_std": 8.455882655249702, "train/reward_avg": 0.026642523835309677, "train/reward_loss_mean": 0.04562296001758012, "train/reward_loss_std": 0.19773166357643074, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0089529090457492, "train/reward_neg_acc": 0.9957526855998569, "train/reward_neg_loss": 0.02279235607582248, "train/reward_pos_acc": 0.9843545175260968, "train/reward_pos_loss": 0.7400507662031386, "train/reward_pred": 0.026355854649510648, "train/reward_rate": 0.03195529513888889, "stats/sum_log_reward": 5.544444455040826, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3458113984929191, "replay/size": 228758.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.6704871389600966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2250617146492005e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1979486942291, "timer/env.step_count": 1440.0, "timer/env.step_total": 21.943245887756348, "timer/env.step_frac": 0.0728532381541308, "timer/env.step_avg": 0.015238365199830796, "timer/env.step_min": 0.003009796142578125, "timer/env.step_max": 1.8033864498138428, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2537117004394531, "timer/replay.add_frac": 0.0008423420595636818, "timer/replay.add_avg": 0.00017618868086073135, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.001768350601196289, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03005385398864746, "timer/logger.write_frac": 9.978107128198807e-05, "timer/logger.write_avg": 0.03005385398864746, "timer/logger.write_min": 0.03005385398864746, "timer/logger.write_max": 0.03005385398864746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.22667407989502, "timer/agent.policy_frac": 0.03395333243214402, "timer/agent.policy_avg": 0.007101856999927097, "timer/agent.policy_min": 0.0055811405181884766, "timer/agent.policy_max": 0.016403675079345703, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06426692008972168, "timer/dataset_frac": 0.00021337104176285187, "timer/dataset_avg": 8.925961123572456e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002505779266357422, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.99864625930786, "timer/agent.train_frac": 0.8897758016651547, "timer/agent.train_avg": 0.3722203420268165, "timer/agent.train_min": 0.36530447006225586, "timer/agent.train_max": 0.38571763038635254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21990704536437988, "timer/agent.report_frac": 0.0007301080446189415, "timer/agent.report_avg": 0.21990704536437988, "timer/agent.report_min": 0.21990704536437988, "timer/agent.report_max": 0.21990704536437988, "fps": 4.780843035958322}
+{"step": 229011, "episode/length": 190.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.041884816753926704}
+{"step": 229166, "episode/length": 154.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05161290322580645}
+{"step": 229346, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.044444444444444446}
+{"step": 229508, "episode/length": 161.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.04938271604938271}
+{"step": 229680, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
+{"step": 229810, "episode/length": 129.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.06153846153846154}
+{"step": 230025, "episode/length": 214.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.03255813953488372}
+{"step": 230201, "episode/length": 175.0, "episode/score": 5.100000016391277, "episode/sum_abs_reward": 8.500000052154064, "episode/reward_rate": 0.03977272727272727}
+{"step": 230241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.593556578730194, "train/action_min": 0.0, "train/action_std": 3.56826260392095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050062284135902434, "train/actor_opt_grad_steps": 114220.0, "train/actor_opt_loss": -14.968403705408875, "train/adv_mag": 0.5757482950116547, "train/adv_max": 0.49527897255521425, "train/adv_mean": 0.002389693756618137, "train/adv_min": -0.475799346054104, "train/adv_std": 0.05546955124173366, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 1.9293865888434545e-05, "train/cont_loss_std": 0.0005122909399745714, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006018495512019489, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 1.5369493247373905e-05, "train/cont_pred": 0.9944051806355866, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.630232035274237, "train/dyn_loss_std": 8.488526559211838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0035848760269057, "train/extr_critic_critic_opt_grad_steps": 114220.0, "train/extr_critic_critic_opt_loss": 15565.060890735036, "train/extr_critic_mag": 7.582007045477209, "train/extr_critic_max": 7.582007045477209, "train/extr_critic_mean": 1.3565137831258103, "train/extr_critic_min": -0.6253150953373439, "train/extr_critic_std": 1.6439450828122422, "train/extr_return_normed_mag": 1.6545286732660214, "train/extr_return_normed_max": 1.6545286732660214, "train/extr_return_normed_mean": 0.3198348735000046, "train/extr_return_normed_min": -0.16652400529300662, "train/extr_return_normed_std": 0.329503508940549, "train/extr_return_rate": 0.5900528498098884, "train/extr_return_raw_mag": 8.164213576786954, "train/extr_return_raw_max": 8.164213576786954, "train/extr_return_raw_mean": 1.3686355537092183, "train/extr_return_raw_min": -1.1049660175618992, "train/extr_return_raw_std": 1.6775365748875577, "train/extr_reward_mag": 1.0191534304283034, "train/extr_reward_max": 1.0191534304283034, "train/extr_reward_mean": 0.03562889940721888, "train/extr_reward_min": -0.679018346356674, "train/extr_reward_std": 0.18816936498796435, "train/image_loss_mean": 2.6660538592808685, "train/image_loss_std": 7.592035945032684, "train/model_loss_mean": 5.488762016027746, "train/model_loss_std": 11.656970319613604, "train/model_opt_grad_norm": 35.25799880229251, "train/model_opt_grad_steps": 114125.94366197183, "train/model_opt_loss": 13108.166056888203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2394.3661971830984, "train/policy_entropy_mag": 2.2812672400138747, "train/policy_entropy_max": 2.2812672400138747, "train/policy_entropy_mean": 0.36903947759682026, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4556687906594344, "train/policy_logprob_mag": 7.438384109819439, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3697797353838531, "train/policy_logprob_min": -7.438384109819439, "train/policy_logprob_std": 0.9762815648401287, "train/policy_randomness_mag": 0.8051872261812989, "train/policy_randomness_max": 0.8051872261812989, "train/policy_randomness_mean": 0.13025474265007905, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1608310842388113, "train/post_ent_mag": 55.71426703224719, "train/post_ent_max": 55.71426703224719, "train/post_ent_mean": 40.370812590693085, "train/post_ent_min": 18.69786717858113, "train/post_ent_std": 5.909018214319794, "train/prior_ent_mag": 75.63276822802047, "train/prior_ent_max": 75.63276822802047, "train/prior_ent_mean": 44.964542335187886, "train/prior_ent_min": 26.500912840937225, "train/prior_ent_std": 7.25951439897779, "train/rep_loss_mean": 4.630232035274237, "train/rep_loss_std": 8.488526559211838, "train/reward_avg": 0.027065911002352203, "train/reward_loss_mean": 0.04454961880831651, "train/reward_loss_std": 0.18970675304741927, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0097107853687985, "train/reward_neg_acc": 0.9946021706285612, "train/reward_neg_loss": 0.02173854123381242, "train/reward_pos_acc": 0.9845689148970054, "train/reward_pos_loss": 0.7376349098245862, "train/reward_pred": 0.026780731202116315, "train/reward_rate": 0.032061509683098594, "stats/sum_log_reward": 6.225000023841858, "stats/max_log_achievement_collect_drink": 6.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3866698816418648, "replay/size": 230178.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.6879324577224088e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582036810861507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3317680358887, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.202643394470215, "timer/env.step_frac": 0.06726775367984403, "timer/env.step_avg": 0.014227213658077616, "timer/env.step_min": 0.0029964447021484375, "timer/env.step_max": 1.6758794784545898, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2586336135864258, "timer/replay.add_frac": 0.0008611596944200718, "timer/replay.add_avg": 0.0001821363475960745, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003869771957397461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027336835861206055, "timer/logger.write_frac": 9.102212543143085e-05, "timer/logger.write_avg": 0.027336835861206055, "timer/logger.write_min": 0.027336835861206055, "timer/logger.write_max": 0.027336835861206055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00039577484130859375, "timer/checkpoint.save_frac": 1.3177921333360244e-06, "timer/checkpoint.save_avg": 0.00039577484130859375, "timer/checkpoint.save_min": 0.00039577484130859375, "timer/checkpoint.save_max": 0.00039577484130859375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3370108604431152, "timer/agent.save_frac": 0.004451779674148047, "timer/agent.save_avg": 1.3370108604431152, "timer/agent.save_min": 1.3370108604431152, "timer/agent.save_max": 1.3370108604431152, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.6990923212906525e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 15.055425882339478, "timer/agent.policy_frac": 0.050129315259584535, "timer/agent.policy_avg": 0.010602412593196815, "timer/agent.policy_min": 0.005579710006713867, "timer/agent.policy_max": 3.56775164604187, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06392955780029297, "timer/dataset_frac": 0.00021286312206790457, "timer/dataset_avg": 9.004163070463799e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00017261505126953125, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.05329394340515, "timer/agent.train_frac": 0.8792053390497526, "timer/agent.train_avg": 0.3719060478076129, "timer/agent.train_min": 0.36323022842407227, "timer/agent.train_max": 0.3839378356933594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21842288970947266, "timer/agent.report_frac": 0.0007272720136731317, "timer/agent.report_avg": 0.21842288970947266, "timer/agent.report_min": 0.21842288970947266, "timer/agent.report_max": 0.21842288970947266, "fps": 4.728029816763551}
+{"step": 230356, "episode/length": 154.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04516129032258064}
+{"step": 230522, "episode/length": 165.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.04216867469879518}
+{"step": 230730, "episode/length": 207.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.028846153846153848}
+{"step": 230916, "episode/length": 185.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03225806451612903}
+{"step": 231096, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03333333333333333}
+{"step": 231307, "episode/length": 210.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.037914691943127965}
+{"step": 231507, "episode/length": 199.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03}
+{"step": 231693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.590012444390191, "train/action_min": 0.0, "train/action_std": 3.6313012407885656, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04719955815623204, "train/actor_opt_grad_steps": 114935.0, "train/actor_opt_loss": -17.341007069581085, "train/adv_mag": 0.5900737175510989, "train/adv_max": 0.5368982462419404, "train/adv_mean": 0.001761887203530124, "train/adv_min": -0.4509881954226229, "train/adv_std": 0.055442595285260014, "train/cont_avg": 0.9945203993055556, "train/cont_loss_mean": 0.00010151322065965473, "train/cont_loss_std": 0.003104388305524076, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.003380239938097576, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 7.73205926626947e-05, "train/cont_pred": 0.9945130604836676, "train/cont_rate": 0.9945203993055556, "train/dyn_loss_mean": 4.547806289460924, "train/dyn_loss_std": 8.492370466391245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9906525065501531, "train/extr_critic_critic_opt_grad_steps": 114935.0, "train/extr_critic_critic_opt_loss": 15220.445624457465, "train/extr_critic_mag": 7.679937567975786, "train/extr_critic_max": 7.679937567975786, "train/extr_critic_mean": 1.3323535960581567, "train/extr_critic_min": -0.6263232529163361, "train/extr_critic_std": 1.6451832585864596, "train/extr_return_normed_mag": 1.7393692334493, "train/extr_return_normed_max": 1.7393692334493, "train/extr_return_normed_mean": 0.32476777045263183, "train/extr_return_normed_min": -0.1509724668123656, "train/extr_return_normed_std": 0.34239772169126403, "train/extr_return_rate": 0.5828098191155328, "train/extr_return_raw_mag": 8.25873527261946, "train/extr_return_raw_max": 8.25873527261946, "train/extr_return_raw_mean": 1.3409080472257402, "train/extr_return_raw_min": -0.984259990354379, "train/extr_return_raw_std": 1.674533173441887, "train/extr_reward_mag": 1.022960752248764, "train/extr_reward_max": 1.022960752248764, "train/extr_reward_mean": 0.034402741947107844, "train/extr_reward_min": -0.6549718644883897, "train/extr_reward_std": 0.18564038392570284, "train/image_loss_mean": 2.761762579282125, "train/image_loss_std": 7.514540804757012, "train/model_loss_mean": 5.534360931979285, "train/model_loss_std": 11.539272083176506, "train/model_opt_grad_norm": 36.25667315059238, "train/model_opt_grad_steps": 114840.0, "train/model_opt_loss": 6917.951151529948, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3101363910569086, "train/policy_entropy_max": 2.3101363910569086, "train/policy_entropy_mean": 0.3939233124256134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48043423394362134, "train/policy_logprob_mag": 7.438384135564168, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39380449511938626, "train/policy_logprob_min": -7.438384135564168, "train/policy_logprob_std": 0.9935317817661498, "train/policy_randomness_mag": 0.8153767668538623, "train/policy_randomness_max": 0.8153767668538623, "train/policy_randomness_mean": 0.13903764159315163, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16957220331662232, "train/post_ent_mag": 55.612182723151314, "train/post_ent_max": 55.612182723151314, "train/post_ent_mean": 40.53835482067532, "train/post_ent_min": 18.74841781457265, "train/post_ent_std": 5.989708026250203, "train/prior_ent_mag": 75.62318017747667, "train/prior_ent_max": 75.62318017747667, "train/prior_ent_mean": 45.04091940985786, "train/prior_ent_min": 26.578240897920395, "train/prior_ent_std": 7.262715723779467, "train/rep_loss_mean": 4.547806289460924, "train/rep_loss_std": 8.492370466391245, "train/reward_avg": 0.0253526473728319, "train/reward_loss_mean": 0.043813132836172976, "train/reward_loss_std": 0.19881282498439154, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0110873182614644, "train/reward_neg_acc": 0.9953445411390729, "train/reward_neg_loss": 0.022005203516326018, "train/reward_pos_acc": 0.9840416825479932, "train/reward_pos_loss": 0.7475216603941388, "train/reward_pred": 0.025114968263854582, "train/reward_rate": 0.030219184027777776, "stats/sum_log_reward": 5.528571401323591, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3387766480445862, "replay/size": 231630.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.722745196550017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.238192080137815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1756126880646, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.66748309135437, "timer/env.step_frac": 0.062188539982270905, "timer/env.step_avg": 0.012856393313604938, "timer/env.step_min": 0.002962827682495117, "timer/env.step_max": 1.731379747390747, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2599210739135742, "timer/replay.add_frac": 0.0008658967048854767, "timer/replay.add_avg": 0.00017900900407270953, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0010390281677246094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029027462005615234, "timer/logger.write_frac": 9.670159992570712e-05, "timer/logger.write_avg": 0.029027462005615234, "timer/logger.write_min": 0.029027462005615234, "timer/logger.write_max": 0.029027462005615234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.381273031234741, "timer/agent.policy_frac": 0.03458399880746713, "timer/agent.policy_avg": 0.007149637073853128, "timer/agent.policy_min": 0.005726814270019531, "timer/agent.policy_max": 0.014940977096557617, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06704974174499512, "timer/dataset_frac": 0.00022336838474173993, "timer/dataset_avg": 9.235501617767922e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.084468126297, "timer/agent.train_frac": 0.8997548658523516, "timer/agent.train_avg": 0.37201717372768184, "timer/agent.train_min": 0.3657383918762207, "timer/agent.train_max": 0.3901972770690918, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201066017150879, "timer/agent.report_frac": 0.0007332594401791644, "timer/agent.report_avg": 0.2201066017150879, "timer/agent.report_min": 0.2201066017150879, "timer/agent.report_max": 0.2201066017150879, "fps": 4.837093110824789}
+{"step": 231794, "episode/length": 286.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.024390243902439025}
+{"step": 231954, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
+{"step": 232128, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.040229885057471264}
+{"step": 232364, "episode/length": 235.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.038135593220338986}
+{"step": 232640, "episode/length": 275.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025362318840579712}
+{"step": 232814, "episode/length": 173.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.04597701149425287}
+{"step": 232973, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
+{"step": 233123, "episode/length": 149.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.10000005364418, "episode/reward_rate": 0.05333333333333334}
+{"step": 233137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.527903238932292, "train/action_min": 0.0, "train/action_std": 3.5379965835147433, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715983600666126, "train/actor_opt_grad_steps": 115655.0, "train/actor_opt_loss": -14.33098139655259, "train/adv_mag": 0.548570660667287, "train/adv_max": 0.5185589653750261, "train/adv_mean": 0.002430949626033099, "train/adv_min": -0.43585260916087365, "train/adv_std": 0.056303135895480715, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 4.614068668078946e-06, "train/cont_loss_std": 0.00011579312011002053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002568431238816831, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.290504199634133e-06, "train/cont_pred": 0.994301518632306, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 4.55928494532903, "train/dyn_loss_std": 8.444265597396427, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.006956612898244, "train/extr_critic_critic_opt_grad_steps": 115655.0, "train/extr_critic_critic_opt_loss": 15617.17083062066, "train/extr_critic_mag": 7.249137726094988, "train/extr_critic_max": 7.249137726094988, "train/extr_critic_mean": 1.3269417178299692, "train/extr_critic_min": -0.6381988392935859, "train/extr_critic_std": 1.5647666735781565, "train/extr_return_normed_mag": 1.6285828898350398, "train/extr_return_normed_max": 1.6285828898350398, "train/extr_return_normed_mean": 0.32147618052032256, "train/extr_return_normed_min": -0.15202034471763504, "train/extr_return_normed_std": 0.3191316407173872, "train/extr_return_rate": 0.5872043511933751, "train/extr_return_raw_mag": 7.878667142656115, "train/extr_return_raw_max": 7.878667142656115, "train/extr_return_raw_mean": 1.3390590929322772, "train/extr_return_raw_min": -1.0292033056418102, "train/extr_return_raw_std": 1.596557734741105, "train/extr_reward_mag": 1.0243046945995755, "train/extr_reward_max": 1.0243046945995755, "train/extr_reward_mean": 0.03543156504424082, "train/extr_reward_min": -0.6486234863599142, "train/extr_reward_std": 0.188303515728977, "train/image_loss_mean": 2.5529441320233874, "train/image_loss_std": 7.314316338962978, "train/model_loss_mean": 5.333147366841634, "train/model_loss_std": 11.354247212409973, "train/model_opt_grad_norm": 37.999919705920746, "train/model_opt_grad_steps": 115560.0, "train/model_opt_loss": 11094.181342230902, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2083.3333333333335, "train/policy_entropy_mag": 2.296256903145048, "train/policy_entropy_max": 2.296256903145048, "train/policy_entropy_mean": 0.3763527385890484, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46875154144234127, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37616172101762557, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 0.9828041858143277, "train/policy_randomness_mag": 0.8104779190487332, "train/policy_randomness_max": 0.8104779190487332, "train/policy_randomness_mean": 0.13283600151124927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16544872460265955, "train/post_ent_mag": 55.55181837081909, "train/post_ent_max": 55.55181837081909, "train/post_ent_mean": 40.38295189539591, "train/post_ent_min": 18.648702608214485, "train/post_ent_std": 5.853861980968052, "train/prior_ent_mag": 75.62676991356744, "train/prior_ent_max": 75.62676991356744, "train/prior_ent_mean": 44.88719786538018, "train/prior_ent_min": 26.789439413282608, "train/prior_ent_std": 7.202840858035618, "train/rep_loss_mean": 4.55928494532903, "train/rep_loss_std": 8.444265597396427, "train/reward_avg": 0.026482475792161293, "train/reward_loss_mean": 0.04462769581004977, "train/reward_loss_std": 0.2005206656952699, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0096370180447896, "train/reward_neg_acc": 0.995743496550454, "train/reward_neg_loss": 0.021381425904110074, "train/reward_pos_acc": 0.9814938629666964, "train/reward_pos_loss": 0.7572292213638624, "train/reward_pred": 0.02602737126613243, "train/reward_rate": 0.031548394097222224, "stats/sum_log_reward": 6.100000023841858, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.45512973330914974, "replay/size": 233074.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6806280923352017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2448248440539078e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3731451034546, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.394214391708374, "timer/env.step_frac": 0.06789626411070868, "timer/env.step_avg": 0.014123417168773113, "timer/env.step_min": 0.002985715866088867, "timer/env.step_max": 1.7549176216125488, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2681863307952881, "timer/replay.add_frac": 0.0008928439015509169, "timer/replay.add_avg": 0.00018572460581391142, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0032088756561279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030421972274780273, "timer/logger.write_frac": 0.00010128059971640385, "timer/logger.write_avg": 0.030421972274780273, "timer/logger.write_min": 0.030421972274780273, "timer/logger.write_max": 0.030421972274780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.362113952636719, "timer/agent.policy_frac": 0.03449747130046462, "timer/agent.policy_avg": 0.007175979191576675, "timer/agent.policy_min": 0.005695343017578125, "timer/agent.policy_max": 0.016583681106567383, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06564068794250488, "timer/dataset_frac": 0.0002185304812116173, "timer/dataset_avg": 9.091508025277684e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5660321712494, "timer/agent.train_frac": 0.8941080004963486, "timer/agent.train_avg": 0.3719751138105947, "timer/agent.train_min": 0.3660550117492676, "timer/agent.train_max": 0.38496994972229004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21974754333496094, "timer/agent.report_frac": 0.0007315818571572883, "timer/agent.report_avg": 0.21974754333496094, "timer/agent.report_min": 0.21974754333496094, "timer/agent.report_max": 0.21974754333496094, "fps": 4.807285433314582}
+{"step": 233289, "episode/length": 165.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.04216867469879518}
+{"step": 233448, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
+{"step": 233622, "episode/length": 173.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.299999997019768, "episode/reward_rate": 0.022988505747126436}
+{"step": 233800, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03932584269662921}
+{"step": 234236, "episode/length": 435.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.01834862385321101}
+{"step": 234448, "episode/length": 211.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03773584905660377}
+{"step": 234573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.596711900499132, "train/action_min": 0.0, "train/action_std": 3.5448668930265637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05059752499477731, "train/actor_opt_grad_steps": 116375.0, "train/actor_opt_loss": -16.8610700070858, "train/adv_mag": 0.5723022417061858, "train/adv_max": 0.5485756686992116, "train/adv_mean": 0.0024936090469256872, "train/adv_min": -0.43810348129934734, "train/adv_std": 0.05904031255178981, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 0.00010648454183886318, "train/cont_loss_std": 0.0033308659089199308, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.005026963997427932, "train/cont_pos_acc": 0.9999727374977536, "train/cont_pos_loss": 6.468098310286052e-05, "train/cont_pred": 0.9943490318126149, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.479854166507721, "train/dyn_loss_std": 8.380220552285513, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0425450909468863, "train/extr_critic_critic_opt_grad_steps": 116375.0, "train/extr_critic_critic_opt_loss": 15705.376546223959, "train/extr_critic_mag": 7.169415189160241, "train/extr_critic_max": 7.169415189160241, "train/extr_critic_mean": 1.3577810592121549, "train/extr_critic_min": -0.6055795964267519, "train/extr_critic_std": 1.5722667293416128, "train/extr_return_normed_mag": 1.6695073710547552, "train/extr_return_normed_max": 1.6695073710547552, "train/extr_return_normed_mean": 0.33424274685482186, "train/extr_return_normed_min": -0.15286087782846558, "train/extr_return_normed_std": 0.3345288145873282, "train/extr_return_rate": 0.5889531195991569, "train/extr_return_raw_mag": 7.777268363369836, "train/extr_return_raw_max": 7.777268363369836, "train/extr_return_raw_mean": 1.369760260813766, "train/extr_return_raw_min": -0.9684863512714704, "train/extr_return_raw_std": 1.6053593042824004, "train/extr_reward_mag": 1.031253606081009, "train/extr_reward_max": 1.031253606081009, "train/extr_reward_mean": 0.03648056765086949, "train/extr_reward_min": -0.6753238356775708, "train/extr_reward_std": 0.19037442633675206, "train/image_loss_mean": 2.523179082406892, "train/image_loss_std": 6.883927954567803, "train/model_loss_mean": 5.25414130753941, "train/model_loss_std": 10.886786176098717, "train/model_opt_grad_norm": 34.611922052171494, "train/model_opt_grad_steps": 116279.77777777778, "train/model_opt_loss": 13910.879177517361, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.341379208697213, "train/policy_entropy_max": 2.341379208697213, "train/policy_entropy_mean": 0.37782688314716023, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47168289290534127, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37832171925240093, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9878476858139038, "train/policy_randomness_mag": 0.8264041087693639, "train/policy_randomness_max": 0.8264041087693639, "train/policy_randomness_mean": 0.13335630825410286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16648336230880684, "train/post_ent_mag": 55.62490367889404, "train/post_ent_max": 55.62490367889404, "train/post_ent_mean": 40.521712356143524, "train/post_ent_min": 18.623423139254253, "train/post_ent_std": 5.809477587540944, "train/prior_ent_mag": 75.67760584089491, "train/prior_ent_max": 75.67760584089491, "train/prior_ent_mean": 44.9669263097975, "train/prior_ent_min": 27.08722029791938, "train/prior_ent_std": 7.189242177539402, "train/rep_loss_mean": 4.479854166507721, "train/rep_loss_std": 8.380220552285513, "train/reward_avg": 0.025499131659873657, "train/reward_loss_mean": 0.04294324870635238, "train/reward_loss_std": 0.18329654654694927, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.011885987387763, "train/reward_neg_acc": 0.9953402827183405, "train/reward_neg_loss": 0.021529660404970247, "train/reward_pos_acc": 0.990111294719908, "train/reward_pos_loss": 0.719750329024262, "train/reward_pred": 0.025339603191241622, "train/reward_rate": 0.030653211805555556, "stats/sum_log_reward": 5.433333357175191, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.4196583777666092, "replay/size": 234510.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.731516410381349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2246762145528554e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2611894607544, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.582117795944214, "timer/env.step_frac": 0.06521694605657216, "timer/env.step_avg": 0.0136365722812982, "timer/env.step_min": 0.003043651580810547, "timer/env.step_max": 2.6408510208129883, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2982769012451172, "timer/replay.add_frac": 0.0009933914595515964, "timer/replay.add_avg": 0.0002077137195300259, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.002544879913330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026937484741210938, "timer/logger.write_frac": 8.97135083944367e-05, "timer/logger.write_avg": 0.026937484741210938, "timer/logger.write_min": 0.026937484741210938, "timer/logger.write_max": 0.026937484741210938, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022983551025390625, "timer/checkpoint.save_frac": 7.65451940914085e-07, "timer/checkpoint.save_avg": 0.00022983551025390625, "timer/checkpoint.save_min": 0.00022983551025390625, "timer/checkpoint.save_max": 0.00022983551025390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4485878944396973, "timer/agent.save_frac": 0.004824426017365907, "timer/agent.save_avg": 1.4485878944396973, "timer/agent.save_min": 1.4485878944396973, "timer/agent.save_max": 1.4485878944396973, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.222724914550781e-05, "timer/replay.save_frac": 2.0724373089063918e-07, "timer/replay.save_avg": 6.222724914550781e-05, "timer/replay.save_min": 6.222724914550781e-05, "timer/replay.save_max": 6.222724914550781e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.764779567718506, "timer/agent.policy_frac": 0.039181818965172054, "timer/agent.policy_avg": 0.008192743431558848, "timer/agent.policy_min": 0.0056362152099609375, "timer/agent.policy_max": 1.4369916915893555, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06579899787902832, "timer/dataset_frac": 0.00021913920342884864, "timer/dataset_avg": 9.16420583273375e-05, "timer/dataset_min": 7.295608520507812e-05, "timer/dataset_max": 0.00027179718017578125, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.841269493103, "timer/agent.train_frac": 0.8920276042805432, "timer/agent.train_avg": 0.3730379797954081, "timer/agent.train_min": 0.36623644828796387, "timer/agent.train_max": 0.9180748462677002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200922966003418, "timer/agent.report_frac": 0.0007330028133026794, "timer/agent.report_avg": 0.2200922966003418, "timer/agent.report_min": 0.2200922966003418, "timer/agent.report_max": 0.2200922966003418, "fps": 4.782440625072656}
+{"step": 234884, "episode/length": 435.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.01834862385321101}
+{"step": 235085, "episode/length": 200.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04477611940298507}
+{"step": 235249, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
+{"step": 235437, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03723404255319149}
+{"step": 235606, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
+{"step": 235787, "episode/length": 180.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027624309392265192}
+{"step": 235836, "episode/length": 48.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10204081632653061}
+{"step": 235997, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.049689440993788817}
+{"step": 236017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.448585510253906, "train/action_min": 0.0, "train/action_std": 3.3673023680845895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05051403270206518, "train/actor_opt_grad_steps": 117095.0, "train/actor_opt_loss": -17.314887138290537, "train/adv_mag": 0.6482750243610806, "train/adv_max": 0.5883191294140286, "train/adv_mean": 0.002352932526933829, "train/adv_min": -0.4838770466546218, "train/adv_std": 0.05977259917805592, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 2.9032277863747266e-05, "train/cont_loss_std": 0.0008371295880714848, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015013939601607894, "train/cont_pos_acc": 0.9999863281846046, "train/cont_pos_loss": 1.9772093353341723e-05, "train/cont_pred": 0.9947039302852418, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 4.678315507041083, "train/dyn_loss_std": 8.486682322290209, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300910431477759, "train/extr_critic_critic_opt_grad_steps": 117095.0, "train/extr_critic_critic_opt_loss": 15805.886623806424, "train/extr_critic_mag": 7.416936940617031, "train/extr_critic_max": 7.416936940617031, "train/extr_critic_mean": 1.321113804148303, "train/extr_critic_min": -0.6056891464524798, "train/extr_critic_std": 1.5922142581807242, "train/extr_return_normed_mag": 1.6982188986407385, "train/extr_return_normed_max": 1.6982188986407385, "train/extr_return_normed_mean": 0.3248677882883284, "train/extr_return_normed_min": -0.1536761682687534, "train/extr_return_normed_std": 0.3380383431083626, "train/extr_return_rate": 0.5695782999197642, "train/extr_return_raw_mag": 7.9252431525124445, "train/extr_return_raw_max": 7.9252431525124445, "train/extr_return_raw_mean": 1.3324514602621396, "train/extr_return_raw_min": -0.9618467763066292, "train/extr_return_raw_std": 1.6221998913420572, "train/extr_reward_mag": 1.0273761947949727, "train/extr_reward_max": 1.0273761947949727, "train/extr_reward_mean": 0.03519164232744111, "train/extr_reward_min": -0.6543782270616956, "train/extr_reward_std": 0.18740785577230984, "train/image_loss_mean": 2.710884971751107, "train/image_loss_std": 7.732985105779436, "train/model_loss_mean": 5.562548849317762, "train/model_loss_std": 11.786859035491943, "train/model_opt_grad_norm": 37.960176653332184, "train/model_opt_grad_steps": 116998.88888888889, "train/model_opt_loss": 13108.328986273871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.2966870798005, "train/policy_entropy_max": 2.2966870798005, "train/policy_entropy_mean": 0.3658495011428992, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4568686361114184, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36578279236952466, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9748793087071843, "train/policy_randomness_mag": 0.8106297511193488, "train/policy_randomness_max": 0.8106297511193488, "train/policy_randomness_mean": 0.12912881850368446, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16125457899438012, "train/post_ent_mag": 55.05980973773532, "train/post_ent_max": 55.05980973773532, "train/post_ent_mean": 40.2515050040351, "train/post_ent_min": 18.877639253934223, "train/post_ent_std": 5.803297168678707, "train/prior_ent_mag": 75.7037771013048, "train/prior_ent_max": 75.7037771013048, "train/prior_ent_mean": 44.87192667855157, "train/prior_ent_min": 26.80768084526062, "train/prior_ent_std": 7.186578141318427, "train/rep_loss_mean": 4.678315507041083, "train/rep_loss_std": 8.486682322290209, "train/reward_avg": 0.026379394448465772, "train/reward_loss_mean": 0.044645612257429294, "train/reward_loss_std": 0.19616757250494427, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0131000495619245, "train/reward_neg_acc": 0.9949012191759216, "train/reward_neg_loss": 0.022102061128761206, "train/reward_pos_acc": 0.9841044015354581, "train/reward_pos_loss": 0.7459630270799001, "train/reward_pred": 0.026049809362221923, "train/reward_rate": 0.031222873263888888, "stats/sum_log_reward": 5.850000023841858, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.3532870188355446, "replay/size": 235954.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6705563933565345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2390872778324539e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1583993434906, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.119399070739746, "timer/env.step_frac": 0.06702927226006367, "timer/env.step_avg": 0.01393310184954276, "timer/env.step_min": 0.0030303001403808594, "timer/env.step_max": 1.7349588871002197, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2551887035369873, "timer/replay.add_frac": 0.0008501801185478685, "timer/replay.add_avg": 0.00017672347890373082, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003506183624267578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02266836166381836, "timer/logger.write_frac": 7.552133044885242e-05, "timer/logger.write_avg": 0.02266836166381836, "timer/logger.write_min": 0.02266836166381836, "timer/logger.write_max": 0.02266836166381836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.370851516723633, "timer/agent.policy_frac": 0.03455126206498589, "timer/agent.policy_avg": 0.007182030136235203, "timer/agent.policy_min": 0.005734920501708984, "timer/agent.policy_max": 0.017105579376220703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06525468826293945, "timer/dataset_frac": 0.00021740084037516575, "timer/dataset_avg": 9.038045465781088e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.000202178955078125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6362907886505, "timer/agent.train_frac": 0.8949817542211527, "timer/agent.train_avg": 0.3720724249150284, "timer/agent.train_min": 0.3634481430053711, "timer/agent.train_max": 0.38882946968078613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21966266632080078, "timer/agent.report_frac": 0.0007318224870643272, "timer/agent.report_avg": 0.21966266632080078, "timer/agent.report_min": 0.21966266632080078, "timer/agent.report_max": 0.21966266632080078, "fps": 4.810718479468372}
+{"step": 236178, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
+{"step": 236376, "episode/length": 197.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030303030303030304}
+{"step": 236566, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042105263157894736}
+{"step": 236747, "episode/length": 180.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.049723756906077346}
+{"step": 236909, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 237096, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
+{"step": 237295, "episode/length": 198.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03015075376884422}
+{"step": 237343, "episode/length": 47.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.125}
+{"step": 237461, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429456736943493, "train/action_min": 0.0, "train/action_std": 3.3208453851203394, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05080685315475072, "train/actor_opt_grad_steps": 117820.0, "train/actor_opt_loss": -14.165220403916216, "train/adv_mag": 0.6273082131392336, "train/adv_max": 0.5905809353475702, "train/adv_mean": 0.002969226690267583, "train/adv_min": -0.49271587394688227, "train/adv_std": 0.05912005243031946, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 2.3301291406985984e-05, "train/cont_loss_std": 0.0007029904240604139, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00235691482475886, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 5.120544427997368e-06, "train/cont_pred": 0.9942174994782226, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 4.519563723916876, "train/dyn_loss_std": 8.549592932609663, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0333925844871834, "train/extr_critic_critic_opt_grad_steps": 117820.0, "train/extr_critic_critic_opt_loss": 15546.649186643835, "train/extr_critic_mag": 7.587523597560517, "train/extr_critic_max": 7.587523597560517, "train/extr_critic_mean": 1.294467514508391, "train/extr_critic_min": -0.6042481513872539, "train/extr_critic_std": 1.6062925547769624, "train/extr_return_normed_mag": 1.7752650731230435, "train/extr_return_normed_max": 1.7752650731230435, "train/extr_return_normed_mean": 0.3206027468589887, "train/extr_return_normed_min": -0.15238884152614907, "train/extr_return_normed_std": 0.343636104913607, "train/extr_return_rate": 0.5595355589095861, "train/extr_return_raw_mag": 8.255626005669162, "train/extr_return_raw_max": 8.255626005669162, "train/extr_return_raw_mean": 1.3086338892374954, "train/extr_return_raw_min": -0.9480544042913881, "train/extr_return_raw_std": 1.640415271667585, "train/extr_reward_mag": 1.033537502158178, "train/extr_reward_max": 1.033537502158178, "train/extr_reward_mean": 0.03628767212878351, "train/extr_reward_min": -0.6533714467532015, "train/extr_reward_std": 0.18974333307514452, "train/image_loss_mean": 2.698839143530963, "train/image_loss_std": 7.674994155152203, "train/model_loss_mean": 5.455751004284376, "train/model_loss_std": 11.766177164365168, "train/model_opt_grad_norm": 33.374698952452775, "train/model_opt_grad_steps": 117723.0, "train/model_opt_loss": 6819.688784246576, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.284622894574518, "train/policy_entropy_max": 2.284622894574518, "train/policy_entropy_mean": 0.37327239039826066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45703178154279106, "train/policy_logprob_mag": 7.438384167135578, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37395949763794467, "train/policy_logprob_min": -7.438384167135578, "train/policy_logprob_std": 0.9805044001095915, "train/policy_randomness_mag": 0.8063716243391168, "train/policy_randomness_max": 0.8063716243391168, "train/policy_randomness_mean": 0.13174877172871813, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16131216236581541, "train/post_ent_mag": 55.73550320978034, "train/post_ent_max": 55.73550320978034, "train/post_ent_mean": 40.31395993167407, "train/post_ent_min": 18.749342291322474, "train/post_ent_std": 6.00041030857661, "train/prior_ent_mag": 75.73287963867188, "train/prior_ent_max": 75.73287963867188, "train/prior_ent_mean": 44.756301409577674, "train/prior_ent_min": 26.05660469891274, "train/prior_ent_std": 7.375751253676741, "train/rep_loss_mean": 4.519563723916876, "train/rep_loss_std": 8.549592932609663, "train/reward_avg": 0.025794627361816085, "train/reward_loss_mean": 0.04515032498293543, "train/reward_loss_std": 0.19769655188469037, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0175141569686263, "train/reward_neg_acc": 0.9953903662015314, "train/reward_neg_loss": 0.02298588677602884, "train/reward_pos_acc": 0.9862963867514101, "train/reward_pos_loss": 0.7335755588257149, "train/reward_pred": 0.025600389602964055, "train/reward_rate": 0.0312232448630137, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.2953245658427477, "replay/size": 237398.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6878929243853878e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.243813546410558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0696289539337, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.049683332443237, "timer/env.step_frac": 0.06681676983551453, "timer/env.step_avg": 0.013884822252384514, "timer/env.step_min": 0.003067493438720703, "timer/env.step_max": 1.697019100189209, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2611823081970215, "timer/replay.add_frac": 0.0008704056758677094, "timer/replay.add_avg": 0.00018087417465167694, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0020399093627929688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02356886863708496, "timer/logger.write_frac": 7.85446655139605e-05, "timer/logger.write_avg": 0.02356886863708496, "timer/logger.write_min": 0.02356886863708496, "timer/logger.write_max": 0.02356886863708496, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.31827425956726, "timer/agent.policy_frac": 0.034386266599314215, "timer/agent.policy_avg": 0.007145619293329128, "timer/agent.policy_min": 0.0056345462799072266, "timer/agent.policy_max": 0.018755435943603516, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06452822685241699, "timer/dataset_frac": 0.00021504417850406072, "timer/dataset_avg": 8.93742754188601e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00019240379333496094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6720952987671, "timer/agent.train_frac": 0.8953658397065345, "timer/agent.train_avg": 0.3721220156492619, "timer/agent.train_min": 0.36548519134521484, "timer/agent.train_max": 0.3860006332397461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21927452087402344, "timer/agent.report_frac": 0.0007307454661054224, "timer/agent.report_avg": 0.21927452087402344, "timer/agent.report_min": 0.21927452087402344, "timer/agent.report_max": 0.21927452087402344, "fps": 4.812128900636166}
+{"step": 237491, "episode/length": 147.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0472972972972973}
+{"step": 237659, "episode/length": 167.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03571428571428571}
+{"step": 238073, "episode/length": 413.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.014492753623188406}
+{"step": 238294, "episode/length": 220.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03619909502262444}
+{"step": 238437, "episode/length": 142.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.055944055944055944}
+{"step": 238594, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
+{"step": 238897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586754167583627, "train/action_min": 0.0, "train/action_std": 3.4593599816443215, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05129451336155475, "train/actor_opt_grad_steps": 118540.0, "train/actor_opt_loss": -13.643985924586444, "train/adv_mag": 0.6298241661468023, "train/adv_max": 0.5769771543187154, "train/adv_mean": 0.0034249421926649797, "train/adv_min": -0.4957468560044195, "train/adv_std": 0.06145338845294966, "train/cont_avg": 0.9942506602112676, "train/cont_loss_mean": 0.00022800279661784313, "train/cont_loss_std": 0.007203693072534313, "train/cont_neg_acc": 0.9960876375856534, "train/cont_neg_loss": 0.026072501369564866, "train/cont_pos_acc": 0.9999861314263142, "train/cont_pos_loss": 1.79199228082133e-05, "train/cont_pred": 0.9942707771986303, "train/cont_rate": 0.9942506602112676, "train/dyn_loss_mean": 4.6231899865916075, "train/dyn_loss_std": 8.535157573055214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0261587702052695, "train/extr_critic_critic_opt_grad_steps": 118540.0, "train/extr_critic_critic_opt_loss": 15962.996341329226, "train/extr_critic_mag": 7.760525797454404, "train/extr_critic_max": 7.760525797454404, "train/extr_critic_mean": 1.3551423306196508, "train/extr_critic_min": -0.6249789385728433, "train/extr_critic_std": 1.6451190155996402, "train/extr_return_normed_mag": 1.7924117353600515, "train/extr_return_normed_max": 1.7924117353600515, "train/extr_return_normed_mean": 0.33472964545370826, "train/extr_return_normed_min": -0.1550279753938527, "train/extr_return_normed_std": 0.3504884960785718, "train/extr_return_rate": 0.5853754353355354, "train/extr_return_raw_mag": 8.336534278493533, "train/extr_return_raw_max": 8.336534278493533, "train/extr_return_raw_mean": 1.3714125895164382, "train/extr_return_raw_min": -0.9661530281456423, "train/extr_return_raw_std": 1.6747076947924118, "train/extr_reward_mag": 1.0247765057523486, "train/extr_reward_max": 1.0247765057523486, "train/extr_reward_mean": 0.03668656654026307, "train/extr_reward_min": -0.6825050535336347, "train/extr_reward_std": 0.19050727511795473, "train/image_loss_mean": 2.637645523313066, "train/image_loss_std": 7.400752416798766, "train/model_loss_mean": 5.456784214771969, "train/model_loss_std": 11.506961332240575, "train/model_opt_grad_norm": 36.981046112490375, "train/model_opt_grad_steps": 118442.85915492958, "train/model_opt_loss": 10801.561158945862, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1989.4366197183099, "train/policy_entropy_mag": 2.3064203094428692, "train/policy_entropy_max": 2.3064203094428692, "train/policy_entropy_mean": 0.37173436057399695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4594482897033154, "train/policy_logprob_mag": 7.438384143399521, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37112816244783536, "train/policy_logprob_min": -7.438384143399521, "train/policy_logprob_std": 0.9770492684673255, "train/policy_randomness_mag": 0.8140651550091488, "train/policy_randomness_max": 0.8140651550091488, "train/policy_randomness_mean": 0.1312059171392884, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16216508435531402, "train/post_ent_mag": 55.200262526391256, "train/post_ent_max": 55.200262526391256, "train/post_ent_mean": 40.44513820594465, "train/post_ent_min": 19.097857596169057, "train/post_ent_std": 5.955032496385171, "train/prior_ent_mag": 75.64908707309776, "train/prior_ent_max": 75.64908707309776, "train/prior_ent_mean": 45.03729436095332, "train/prior_ent_min": 26.388706180411326, "train/prior_ent_std": 7.301112678689017, "train/rep_loss_mean": 4.6231899865916075, "train/rep_loss_std": 8.535157573055214, "train/reward_avg": 0.02657212783962908, "train/reward_loss_mean": 0.04499671448179534, "train/reward_loss_std": 0.1918343769412645, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0089837766029466, "train/reward_neg_acc": 0.9955542163110115, "train/reward_neg_loss": 0.02241689949230829, "train/reward_pos_acc": 0.9879878448768401, "train/reward_pos_loss": 0.726990112116639, "train/reward_pred": 0.026368458401149427, "train/reward_rate": 0.031923965669014086, "stats/sum_log_reward": 6.099999904632568, "stats/max_log_achievement_collect_drink": 8.833333333333334, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4054638395706813, "replay/size": 238834.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.709766526076123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2215631585931378e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1712644100189, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.796530723571777, "timer/env.step_frac": 0.06595078567057874, "timer/env.step_avg": 0.013785884904994274, "timer/env.step_min": 0.0028514862060546875, "timer/env.step_max": 2.684063196182251, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28502988815307617, "timer/replay.add_frac": 0.0009495575424692872, "timer/replay.add_avg": 0.0001984887800508887, "timer/replay.add_min": 8.392333984375e-05, "timer/replay.add_max": 0.0023865699768066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02968597412109375, "timer/logger.write_frac": 9.889678873639348e-05, "timer/logger.write_avg": 0.02968597412109375, "timer/logger.write_min": 0.02968597412109375, "timer/logger.write_max": 0.02968597412109375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003752708435058594, "timer/checkpoint.save_frac": 1.2501891020229645e-06, "timer/checkpoint.save_avg": 0.0003752708435058594, "timer/checkpoint.save_min": 0.0003752708435058594, "timer/checkpoint.save_max": 0.0003752708435058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3144831657409668, "timer/agent.save_frac": 0.0043791105998256, "timer/agent.save_avg": 1.3144831657409668, "timer/agent.save_min": 1.3144831657409668, "timer/agent.save_max": 1.3144831657409668, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478138499562674e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.54806661605835, "timer/agent.policy_frac": 0.03847159267145661, "timer/agent.policy_avg": 0.008041829119817791, "timer/agent.policy_min": 0.0056285858154296875, "timer/agent.policy_max": 1.3017094135284424, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06436634063720703, "timer/dataset_frac": 0.000214432053526902, "timer/dataset_avg": 8.964671397939698e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0001583099365234375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.7654504776001, "timer/agent.train_frac": 0.8920422512924019, "timer/agent.train_avg": 0.3729323822807801, "timer/agent.train_min": 0.36594414710998535, "timer/agent.train_max": 0.8688409328460693, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223660945892334, "timer/agent.report_frac": 0.0007407974078607753, "timer/agent.report_avg": 0.2223660945892334, "timer/agent.report_min": 0.2223660945892334, "timer/agent.report_max": 0.2223660945892334, "fps": 4.7838302609090375}
+{"step": 238992, "episode/length": 397.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.017587939698492462}
+{"step": 239161, "episode/length": 168.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.047337278106508875}
+{"step": 239324, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03067484662576687}
+{"step": 239482, "episode/length": 157.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04430379746835443}
+{"step": 239588, "episode/length": 105.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.03773584905660377}
+{"step": 239773, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03783783783783784}
+{"step": 239913, "episode/length": 139.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.05714285714285714}
+{"step": 240108, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
+{"step": 240341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500748307737585, "train/action_min": 0.0, "train/action_std": 3.3675133822715444, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05101916142930723, "train/actor_opt_grad_steps": 119260.0, "train/actor_opt_loss": -14.307203383886652, "train/adv_mag": 0.5789847757718335, "train/adv_max": 0.5391624794430929, "train/adv_mean": 0.003123468084994198, "train/adv_min": -0.477867213422305, "train/adv_std": 0.059761370391878364, "train/cont_avg": 0.9941807577054794, "train/cont_loss_mean": 0.00010231766127508432, "train/cont_loss_std": 0.0031628463274289173, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.019116666578947717, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 6.685973760776917e-06, "train/cont_pred": 0.994201126163953, "train/cont_rate": 0.9941807577054794, "train/dyn_loss_mean": 4.814147923090687, "train/dyn_loss_std": 8.542978508831704, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0559816825879764, "train/extr_critic_critic_opt_grad_steps": 119260.0, "train/extr_critic_critic_opt_loss": 15924.107876712329, "train/extr_critic_mag": 7.227368211093014, "train/extr_critic_max": 7.227368211093014, "train/extr_critic_mean": 1.419460170073052, "train/extr_critic_min": -0.6072398032227607, "train/extr_critic_std": 1.5843987432244706, "train/extr_return_normed_mag": 1.6730694003301123, "train/extr_return_normed_max": 1.6730694003301123, "train/extr_return_normed_mean": 0.341021744559889, "train/extr_return_normed_min": -0.1592073763580355, "train/extr_return_normed_std": 0.3340842072686104, "train/extr_return_rate": 0.6062714351366644, "train/extr_return_raw_mag": 7.893262804371037, "train/extr_return_raw_max": 7.893262804371037, "train/extr_return_raw_mean": 1.4345961392742315, "train/extr_return_raw_min": -0.9916544450472479, "train/extr_return_raw_std": 1.6201199734047667, "train/extr_reward_mag": 1.0369409306408608, "train/extr_reward_max": 1.0369409306408608, "train/extr_reward_mean": 0.03730234143974846, "train/extr_reward_min": -0.68329889153781, "train/extr_reward_std": 0.19276277169789355, "train/image_loss_mean": 2.777126965457446, "train/image_loss_std": 7.947822952923709, "train/model_loss_mean": 5.710535193142825, "train/model_loss_std": 12.019535064697266, "train/model_opt_grad_norm": 42.04627679798701, "train/model_opt_grad_steps": 119162.0, "train/model_opt_loss": 7138.168985445205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3314123937528426, "train/policy_entropy_max": 2.3314123937528426, "train/policy_entropy_mean": 0.37001452258188433, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4584667298891773, "train/policy_logprob_mag": 7.438384167135578, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3692873977635005, "train/policy_logprob_min": -7.438384167135578, "train/policy_logprob_std": 0.9776918030764958, "train/policy_randomness_mag": 0.8228862628544846, "train/policy_randomness_max": 0.8228862628544846, "train/policy_randomness_mean": 0.13059888882179782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1618186355861899, "train/post_ent_mag": 55.51875765029698, "train/post_ent_max": 55.51875765029698, "train/post_ent_mean": 40.04207961200035, "train/post_ent_min": 18.638448375545135, "train/post_ent_std": 5.900865300060952, "train/prior_ent_mag": 75.75740646989378, "train/prior_ent_max": 75.75740646989378, "train/prior_ent_mean": 44.79002359468643, "train/prior_ent_min": 25.77415288637762, "train/prior_ent_std": 7.39705878087919, "train/rep_loss_mean": 4.814147923090687, "train/rep_loss_std": 8.542978508831704, "train/reward_avg": 0.02630565050121856, "train/reward_loss_mean": 0.044817102613718546, "train/reward_loss_std": 0.1950353747361327, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0180603380072606, "train/reward_neg_acc": 0.9952351034504093, "train/reward_neg_loss": 0.02250498250024776, "train/reward_pos_acc": 0.9858932944193278, "train/reward_pos_loss": 0.7329822215315414, "train/reward_pred": 0.026147302240133286, "train/reward_rate": 0.03139715325342466, "stats/sum_log_reward": 5.099999934434891, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.33965479768812656, "replay/size": 240278.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6913602305911586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516356241009573e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1544692516327, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.070038080215454, "timer/env.step_frac": 0.06686569795297587, "timer/env.step_avg": 0.013898918338099345, "timer/env.step_min": 0.002832651138305664, "timer/env.step_max": 1.7133963108062744, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25287413597106934, "timer/replay.add_frac": 0.0008424799957220488, "timer/replay.add_avg": 0.00017512059277774886, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.001039743423461914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028017759323120117, "timer/logger.write_frac": 9.334446824322179e-05, "timer/logger.write_avg": 0.028017759323120117, "timer/logger.write_min": 0.028017759323120117, "timer/logger.write_max": 0.028017759323120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.372835397720337, "timer/agent.policy_frac": 0.0345583239975825, "timer/agent.policy_avg": 0.007183404015041785, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 0.016795873641967773, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06510591506958008, "timer/dataset_frac": 0.00021690803149427345, "timer/dataset_avg": 9.017439760329651e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6810052394867, "timer/agent.train_frac": 0.8951424441867617, "timer/agent.train_avg": 0.3721343562873777, "timer/agent.train_min": 0.3655080795288086, "timer/agent.train_max": 0.3830149173736572, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21888446807861328, "timer/agent.report_frac": 0.0007292394100422766, "timer/agent.report_avg": 0.21888446807861328, "timer/agent.report_min": 0.21888446807861328, "timer/agent.report_max": 0.21888446807861328, "fps": 4.810787452008561}
+{"step": 240351, "episode/length": 242.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.03292181069958848}
+{"step": 240523, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
+{"step": 240566, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.13953488372093023}
+{"step": 240753, "episode/length": 186.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.0427807486631016}
+{"step": 240908, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04516129032258064}
+{"step": 241075, "episode/length": 166.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029940119760479042}
+{"step": 241253, "episode/length": 177.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0449438202247191}
+{"step": 241429, "episode/length": 175.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.045454545454545456}
+{"step": 241584, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
+{"step": 241757, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03468208092485549}
+{"step": 241767, "stats/sum_log_reward": 5.899999952316284, "stats/max_log_achievement_collect_drink": 4.1, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.1, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3184395059943199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.514265033560739, "train/action_min": 0.0, "train/action_std": 3.444712309770181, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04957710253730626, "train/actor_opt_grad_steps": 119980.0, "train/actor_opt_loss": -16.038100699303854, "train/adv_mag": 0.5330035405259737, "train/adv_max": 0.5026058411934007, "train/adv_mean": 0.0023969198161249154, "train/adv_min": -0.4241089321358103, "train/adv_std": 0.05720067370525548, "train/cont_avg": 0.9947870818661971, "train/cont_loss_mean": 0.00013084842659549008, "train/cont_loss_std": 0.0036230039386338487, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.007972382167761834, "train/cont_pos_acc": 0.99997242403702, "train/cont_pos_loss": 8.426343491167623e-05, "train/cont_pred": 0.9947743340277336, "train/cont_rate": 0.9947870818661971, "train/dyn_loss_mean": 4.6307327142903505, "train/dyn_loss_std": 8.51513283689257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0478004133197623, "train/extr_critic_critic_opt_grad_steps": 119980.0, "train/extr_critic_critic_opt_loss": 15739.176964128521, "train/extr_critic_mag": 7.002517216642138, "train/extr_critic_max": 7.002517216642138, "train/extr_critic_mean": 1.3766490531639315, "train/extr_critic_min": -0.6403182039798145, "train/extr_critic_std": 1.5118613142362782, "train/extr_return_normed_mag": 1.5953238446947555, "train/extr_return_normed_max": 1.5953238446947555, "train/extr_return_normed_mean": 0.332904984833489, "train/extr_return_normed_min": -0.15778707618444737, "train/extr_return_normed_std": 0.31741414796298656, "train/extr_return_rate": 0.6057952197504716, "train/extr_return_raw_mag": 7.512277764333805, "train/extr_return_raw_max": 7.512277764333805, "train/extr_return_raw_mean": 1.3882734716778071, "train/extr_return_raw_min": -0.9917097083279784, "train/extr_return_raw_std": 1.539948668278439, "train/extr_reward_mag": 1.025257711679163, "train/extr_reward_max": 1.025257711679163, "train/extr_reward_mean": 0.03564232537968898, "train/extr_reward_min": -0.6764445069810034, "train/extr_reward_std": 0.1879273296242029, "train/image_loss_mean": 2.6723598812667415, "train/image_loss_std": 7.331520224960757, "train/model_loss_mean": 5.494507467243033, "train/model_loss_std": 11.416946317108584, "train/model_opt_grad_norm": 31.958706573701242, "train/model_opt_grad_steps": 119882.0, "train/model_opt_loss": 12120.367999009683, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2200.7042253521126, "train/policy_entropy_mag": 2.3241320428713945, "train/policy_entropy_max": 2.3241320428713945, "train/policy_entropy_mean": 0.3684867481950303, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4528197427870522, "train/policy_logprob_mag": 7.438384156831553, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3691528964210564, "train/policy_logprob_min": -7.438384156831553, "train/policy_logprob_std": 0.980833820893731, "train/policy_randomness_mag": 0.820316621955012, "train/policy_randomness_max": 0.820316621955012, "train/policy_randomness_mean": 0.13005965234528125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15982549805456484, "train/post_ent_mag": 55.45222322705766, "train/post_ent_max": 55.45222322705766, "train/post_ent_mean": 40.394392900063956, "train/post_ent_min": 18.37181588293801, "train/post_ent_std": 5.908258156037666, "train/prior_ent_mag": 75.7448598297549, "train/prior_ent_max": 75.7448598297549, "train/prior_ent_mean": 44.93589707495461, "train/prior_ent_min": 26.22287492349114, "train/prior_ent_std": 7.258142014624367, "train/rep_loss_mean": 4.6307327142903505, "train/rep_loss_std": 8.51513283689257, "train/reward_avg": 0.026352057338390553, "train/reward_loss_mean": 0.043577181122882266, "train/reward_loss_std": 0.1986764178309642, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.013218622812083, "train/reward_neg_acc": 0.9956294482862446, "train/reward_neg_loss": 0.02097088466464004, "train/reward_pos_acc": 0.9845756905179628, "train/reward_pos_loss": 0.7569169486072701, "train/reward_pred": 0.026016058190397814, "train/reward_rate": 0.031098701584507043, "replay/size": 241704.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7652078550962045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2442365100641238e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3673982620239, "timer/env.step_count": 1426.0, "timer/env.step_total": 23.530513048171997, "timer/env.step_frac": 0.07833910465757431, "timer/env.step_avg": 0.016501061043598875, "timer/env.step_min": 0.003054380416870117, "timer/env.step_max": 1.77598237991333, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2705531120300293, "timer/replay.add_frac": 0.0009007406049907378, "timer/replay.add_avg": 0.00018972869006313414, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.003149747848510742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029119253158569336, "timer/logger.write_frac": 9.694545189344187e-05, "timer/logger.write_avg": 0.029119253158569336, "timer/logger.write_min": 0.029119253158569336, "timer/logger.write_max": 0.029119253158569336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 10.369860649108887, "timer/agent.policy_frac": 0.03452392206714389, "timer/agent.policy_avg": 0.007271992040048307, "timer/agent.policy_min": 0.005631446838378906, "timer/agent.policy_max": 0.017627954483032227, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06567692756652832, "timer/dataset_frac": 0.00021865531328148802, "timer/dataset_avg": 9.21135028983567e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.4140453338623, "timer/agent.train_frac": 0.8836313357228262, "timer/agent.train_avg": 0.3722497129507185, "timer/agent.train_min": 0.36591076850891113, "timer/agent.train_max": 0.38831329345703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21918296813964844, "timer/agent.report_frac": 0.000729716238872387, "timer/agent.report_avg": 0.21918296813964844, "timer/agent.report_min": 0.21918296813964844, "timer/agent.report_max": 0.21918296813964844, "fps": 4.747437968682627}
+{"step": 242129, "episode/length": 371.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.01881720430107527}
+{"step": 242330, "episode/length": 200.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03980099502487562}
+{"step": 242507, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03389830508474576}
+{"step": 242697, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03684210526315789}
+{"step": 242912, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.04186046511627907}
+{"step": 243081, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
+{"step": 243203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.693186442057292, "train/action_min": 0.0, "train/action_std": 3.6844521198007794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05454770051356819, "train/actor_opt_grad_steps": 120695.0, "train/actor_opt_loss": -12.217935326612658, "train/adv_mag": 0.5615005894667573, "train/adv_max": 0.5195536435478263, "train/adv_mean": 0.004310969855873105, "train/adv_min": -0.4674227283232742, "train/adv_std": 0.06124140166987976, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 1.3346296857551386e-05, "train/cont_loss_std": 0.00033214244476790594, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016322250229197583, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.646777768017867e-06, "train/cont_pred": 0.9944326811366611, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.561423381169637, "train/dyn_loss_std": 8.468557629320356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.044858420888583, "train/extr_critic_critic_opt_grad_steps": 120695.0, "train/extr_critic_critic_opt_loss": 15996.104220920139, "train/extr_critic_mag": 7.3496620588832435, "train/extr_critic_max": 7.3496620588832435, "train/extr_critic_mean": 1.3977634285887082, "train/extr_critic_min": -0.6200931817293167, "train/extr_critic_std": 1.5600425120857027, "train/extr_return_normed_mag": 1.703250401549869, "train/extr_return_normed_max": 1.703250401549869, "train/extr_return_normed_mean": 0.33928292120496434, "train/extr_return_normed_min": -0.15483252321266466, "train/extr_return_normed_std": 0.3319254635522763, "train/extr_return_rate": 0.6087782453331683, "train/extr_return_raw_mag": 8.002202484342787, "train/extr_return_raw_max": 8.002202484342787, "train/extr_return_raw_mean": 1.4185779980487294, "train/extr_return_raw_min": -0.9667877381046613, "train/extr_return_raw_std": 1.6023333254787657, "train/extr_reward_mag": 1.034511258204778, "train/extr_reward_max": 1.034511258204778, "train/extr_reward_mean": 0.03752846645915674, "train/extr_reward_min": -0.6658179958661398, "train/extr_reward_std": 0.19286347635918194, "train/image_loss_mean": 2.6558223565419516, "train/image_loss_std": 7.484008418189155, "train/model_loss_mean": 5.436334636476305, "train/model_loss_std": 11.52684991227256, "train/model_opt_grad_norm": 37.28934517171648, "train/model_opt_grad_steps": 120596.375, "train/model_opt_loss": 11987.917168511285, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.31852548983362, "train/policy_entropy_max": 2.31852548983362, "train/policy_entropy_mean": 0.38895497222741443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47574571727050674, "train/policy_logprob_mag": 7.438384142186907, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884467027253575, "train/policy_logprob_min": -7.438384142186907, "train/policy_logprob_std": 0.9928511041733954, "train/policy_randomness_mag": 0.8183377517594231, "train/policy_randomness_max": 0.8183377517594231, "train/policy_randomness_mean": 0.1372840352770355, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16791736003425387, "train/post_ent_mag": 55.373514811197914, "train/post_ent_max": 55.373514811197914, "train/post_ent_mean": 40.57266150580512, "train/post_ent_min": 19.16823697090149, "train/post_ent_std": 5.853696544965108, "train/prior_ent_mag": 75.71958933936224, "train/prior_ent_max": 75.71958933936224, "train/prior_ent_mean": 45.09740596347385, "train/prior_ent_min": 26.717590861850315, "train/prior_ent_std": 7.230305201477474, "train/rep_loss_mean": 4.561423381169637, "train/rep_loss_std": 8.468557629320356, "train/reward_avg": 0.026422796964955825, "train/reward_loss_mean": 0.04364493851446443, "train/reward_loss_std": 0.1895514429650373, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.017013086213006, "train/reward_neg_acc": 0.9953346583578322, "train/reward_neg_loss": 0.02140492039810245, "train/reward_pos_acc": 0.9879661293493377, "train/reward_pos_loss": 0.7351896257864105, "train/reward_pred": 0.026265167566533718, "train/reward_rate": 0.03127712673611111, "stats/sum_log_reward": 6.766666730244954, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.5, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4644315242767334, "replay/size": 243140.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7139172673557464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2511994513296483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.275887966156, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.27185082435608, "timer/env.step_frac": 0.0641804806735871, "timer/env.step_avg": 0.013420508930610083, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 2.0656211376190186, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2886807918548584, "timer/replay.add_frac": 0.00096138519083289, "timer/replay.add_avg": 0.00020103119209948357, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0076253414154052734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03235888481140137, "timer/logger.write_frac": 0.00010776384687620514, "timer/logger.write_avg": 0.03235888481140137, "timer/logger.write_min": 0.03235888481140137, "timer/logger.write_max": 0.03235888481140137, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044035911560058594, "timer/checkpoint.save_frac": 1.4665150724663536e-06, "timer/checkpoint.save_avg": 0.00044035911560058594, "timer/checkpoint.save_min": 0.00044035911560058594, "timer/checkpoint.save_max": 0.00044035911560058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.327566146850586, "timer/agent.save_frac": 0.004421154678261131, "timer/agent.save_avg": 1.327566146850586, "timer/agent.save_min": 1.327566146850586, "timer/agent.save_max": 1.327566146850586, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.7789944524267665e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.273540019989014, "timer/agent.policy_frac": 0.04087421105677443, "timer/agent.policy_avg": 0.00854703344010377, "timer/agent.policy_min": 0.005609035491943359, "timer/agent.policy_max": 1.3229708671569824, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06524229049682617, "timer/dataset_frac": 0.00021727449026536427, "timer/dataset_avg": 9.086669985630386e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.6645929813385, "timer/agent.train_frac": 0.8913955589118328, "timer/agent.train_avg": 0.37279191223027647, "timer/agent.train_min": 0.36463356018066406, "timer/agent.train_max": 0.8522129058837891, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22298455238342285, "timer/agent.report_frac": 0.0007425989275854056, "timer/agent.report_avg": 0.22298455238342285, "timer/agent.report_min": 0.22298455238342285, "timer/agent.report_max": 0.22298455238342285, "fps": 4.78220541511465}
+{"step": 243265, "episode/length": 183.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04891304347826087}
+{"step": 243460, "episode/length": 194.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.041025641025641026}
+{"step": 243675, "episode/length": 214.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03255813953488372}
+{"step": 243866, "episode/length": 190.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03664921465968586}
+{"step": 244024, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0379746835443038}
+{"step": 244223, "episode/length": 198.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.100000038743019, "episode/reward_rate": 0.04522613065326633}
+{"step": 244401, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03932584269662921}
+{"step": 244591, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042105263157894736}
+{"step": 244647, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.743288675944011, "train/action_min": 0.0, "train/action_std": 3.5779131717152066, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05179981799382302, "train/actor_opt_grad_steps": 121415.0, "train/actor_opt_loss": -8.775036923794282, "train/adv_mag": 0.5712992168135114, "train/adv_max": 0.5343987233936787, "train/adv_mean": 0.0050927265304684015, "train/adv_min": -0.433868913186921, "train/adv_std": 0.05892867884702153, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 4.761696928268222e-05, "train/cont_loss_std": 0.001514770553486539, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002799324281726159, "train/cont_pos_acc": 0.9999863124556012, "train/cont_pos_loss": 2.924259191824004e-05, "train/cont_pred": 0.9943602598375745, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.5890206760830345, "train/dyn_loss_std": 8.5251741276847, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.083691073788537, "train/extr_critic_critic_opt_grad_steps": 121415.0, "train/extr_critic_critic_opt_loss": 16043.671440972223, "train/extr_critic_mag": 7.543429791927338, "train/extr_critic_max": 7.543429791927338, "train/extr_critic_mean": 1.512958233555158, "train/extr_critic_min": -0.6447907156414456, "train/extr_critic_std": 1.5912519014543958, "train/extr_return_normed_mag": 1.6823735932509105, "train/extr_return_normed_max": 1.6823735932509105, "train/extr_return_normed_mean": 0.3597564709683259, "train/extr_return_normed_min": -0.1615585144609213, "train/extr_return_normed_std": 0.3307211502558655, "train/extr_return_rate": 0.6634648433989949, "train/extr_return_raw_mag": 8.03733977344301, "train/extr_return_raw_max": 8.03733977344301, "train/extr_return_raw_mean": 1.537970362438096, "train/extr_return_raw_min": -1.0235492860277493, "train/extr_return_raw_std": 1.6256629046466615, "train/extr_reward_mag": 1.036734037929111, "train/extr_reward_max": 1.036734037929111, "train/extr_reward_mean": 0.036524925432685346, "train/extr_reward_min": -0.6712941080331802, "train/extr_reward_std": 0.19023194226125875, "train/image_loss_mean": 2.635248377919197, "train/image_loss_std": 7.332530743545956, "train/model_loss_mean": 5.433677103784349, "train/model_loss_std": 11.426648219426474, "train/model_opt_grad_norm": 37.232328944736054, "train/model_opt_grad_steps": 121315.0, "train/model_opt_loss": 6792.096381293402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2994657357533774, "train/policy_entropy_max": 2.2994657357533774, "train/policy_entropy_mean": 0.36196813732385635, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4335927433437771, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36222728797131115, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9718398369020886, "train/policy_randomness_mag": 0.8116104958785905, "train/policy_randomness_max": 0.8116104958785905, "train/policy_randomness_mean": 0.12775886793517405, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15303920871681637, "train/post_ent_mag": 55.40427176157633, "train/post_ent_max": 55.40427176157633, "train/post_ent_mean": 40.46383682886759, "train/post_ent_min": 19.00327628188663, "train/post_ent_std": 5.922038555145264, "train/prior_ent_mag": 75.70262188381619, "train/prior_ent_max": 75.70262188381619, "train/prior_ent_mean": 44.996937645806206, "train/prior_ent_min": 25.938883463541668, "train/prior_ent_std": 7.306627028518253, "train/rep_loss_mean": 4.5890206760830345, "train/rep_loss_std": 8.5251741276847, "train/reward_avg": 0.026456705385094717, "train/reward_loss_mean": 0.044968763262861304, "train/reward_loss_std": 0.19138488049308458, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017897594306204, "train/reward_neg_acc": 0.9952958913313018, "train/reward_neg_loss": 0.022458905082506437, "train/reward_pos_acc": 0.9886519445313348, "train/reward_pos_loss": 0.7286364676223861, "train/reward_pred": 0.026256299681133695, "train/reward_rate": 0.031697591145833336, "stats/sum_log_reward": 6.7250001430511475, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.75, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3162951394915581, "replay/size": 244584.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6629613416677035e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2228033219017812e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2334702014923, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.17681336402893, "timer/env.step_frac": 0.06720374430768127, "timer/env.step_avg": 0.013972862440463248, "timer/env.step_min": 0.0029227733612060547, "timer/env.step_max": 1.7148573398590088, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25229406356811523, "timer/replay.add_frac": 0.0008403262414373586, "timer/replay.add_avg": 0.00017471888058733743, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0010864734649658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026979446411132812, "timer/logger.write_frac": 8.98615547194868e-05, "timer/logger.write_avg": 0.026979446411132812, "timer/logger.write_min": 0.026979446411132812, "timer/logger.write_max": 0.026979446411132812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.361161470413208, "timer/agent.policy_frac": 0.034510347775215194, "timer/agent.policy_avg": 0.007175319577848482, "timer/agent.policy_min": 0.005682706832885742, "timer/agent.policy_max": 0.017390727996826172, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06406021118164062, "timer/dataset_frac": 0.00021336798704904092, "timer/dataset_avg": 8.872605426820032e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00016450881958007812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.66235733032227, "timer/agent.train_frac": 0.894844792454412, "timer/agent.train_avg": 0.3721085281583411, "timer/agent.train_min": 0.3659188747406006, "timer/agent.train_max": 0.3838942050933838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22138428688049316, "timer/agent.report_frac": 0.0007373737735899932, "timer/agent.report_avg": 0.22138428688049316, "timer/agent.report_min": 0.22138428688049316, "timer/agent.report_max": 0.22138428688049316, "fps": 4.809495972371941}
+{"step": 244765, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04597701149425287}
+{"step": 244933, "episode/length": 167.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.041666666666666664}
+{"step": 245058, "episode/length": 124.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.056}
+{"step": 245226, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05357142857142857}
+{"step": 245389, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049079754601226995}
+{"step": 245622, "episode/length": 232.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.034334763948497854}
+{"step": 245791, "episode/length": 168.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05917159763313609}
+{"step": 245984, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03626943005181347}
+{"step": 246091, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630410936143663, "train/action_min": 0.0, "train/action_std": 3.5985284977489047, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05155436435921325, "train/actor_opt_grad_steps": 122135.0, "train/actor_opt_loss": -12.586216832200686, "train/adv_mag": 0.5822777272098594, "train/adv_max": 0.5376716848048899, "train/adv_mean": 0.004167937539477862, "train/adv_min": -0.4627821449604299, "train/adv_std": 0.059625231091760926, "train/cont_avg": 0.9941813151041666, "train/cont_loss_mean": 2.9636410266863244e-06, "train/cont_loss_std": 9.117059114909725e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001618334494363833, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.7007219418700241e-06, "train/cont_pred": 0.9941809111171298, "train/cont_rate": 0.9941813151041666, "train/dyn_loss_mean": 4.531615452633964, "train/dyn_loss_std": 8.487396154138777, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0613210168149736, "train/extr_critic_critic_opt_grad_steps": 122135.0, "train/extr_critic_critic_opt_loss": 15707.592990451389, "train/extr_critic_mag": 7.843370583322313, "train/extr_critic_max": 7.843370583322313, "train/extr_critic_mean": 1.7153367582294676, "train/extr_critic_min": -0.6266025255123774, "train/extr_critic_std": 1.6705290145344205, "train/extr_return_normed_mag": 1.7225859347316954, "train/extr_return_normed_max": 1.7225859347316954, "train/extr_return_normed_mean": 0.3855382237169478, "train/extr_return_normed_min": -0.14452367896835008, "train/extr_return_normed_std": 0.3363092765212059, "train/extr_return_rate": 0.6923502956827482, "train/extr_return_raw_mag": 8.549390547805363, "train/extr_return_raw_max": 8.549390547805363, "train/extr_return_raw_mean": 1.7365613447295294, "train/extr_return_raw_min": -0.9630235723323293, "train/extr_return_raw_std": 1.7131818301147885, "train/extr_reward_mag": 1.0306229922506545, "train/extr_reward_max": 1.0306229922506545, "train/extr_reward_mean": 0.03862558281980455, "train/extr_reward_min": -0.6306822250286738, "train/extr_reward_std": 0.19457057283984291, "train/image_loss_mean": 2.528745593296157, "train/image_loss_std": 7.190927763779958, "train/model_loss_mean": 5.292493810256322, "train/model_loss_std": 11.28151680363549, "train/model_opt_grad_norm": 36.666887044906616, "train/model_opt_grad_steps": 122034.58333333333, "train/model_opt_loss": 9644.421196831598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1840.2777777777778, "train/policy_entropy_mag": 2.291896618074841, "train/policy_entropy_max": 2.291896618074841, "train/policy_entropy_mean": 0.3649011424018277, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4427786481877168, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3659341124196847, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9750547019971741, "train/policy_randomness_mag": 0.8089389296041595, "train/policy_randomness_max": 0.8089389296041595, "train/policy_randomness_mean": 0.12879408864925304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15628143317169613, "train/post_ent_mag": 54.690866470336914, "train/post_ent_max": 54.690866470336914, "train/post_ent_mean": 40.34676133261787, "train/post_ent_min": 18.75174343585968, "train/post_ent_std": 5.846101529068417, "train/prior_ent_mag": 75.74771870507135, "train/prior_ent_max": 75.74771870507135, "train/prior_ent_mean": 44.83104292551676, "train/prior_ent_min": 25.98512993918525, "train/prior_ent_std": 7.269611067242092, "train/rep_loss_mean": 4.531615452633964, "train/rep_loss_std": 8.487396154138777, "train/reward_avg": 0.028123643624389336, "train/reward_loss_mean": 0.044776010068340436, "train/reward_loss_std": 0.19537902685503164, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0168911897473865, "train/reward_neg_acc": 0.995653343697389, "train/reward_neg_loss": 0.021052772890672915, "train/reward_pos_acc": 0.9869873896241188, "train/reward_pos_loss": 0.7375562613209089, "train/reward_pred": 0.02785723053643273, "train/reward_rate": 0.03323025173611111, "stats/sum_log_reward": 6.975000083446503, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3643546551465988, "replay/size": 246028.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7162918133088428e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2413781765755524e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06565165519714, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.956356048583984, "timer/env.step_frac": 0.06650663259357542, "timer/env.step_avg": 0.01382019116937949, "timer/env.step_min": 0.003149747848510742, "timer/env.step_max": 1.7203636169433594, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.28742456436157227, "timer/replay.add_frac": 0.000957872261540449, "timer/replay.add_avg": 0.00019904748224485613, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.010041475296020508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02736949920654297, "timer/logger.write_frac": 9.121170335748066e-05, "timer/logger.write_avg": 0.02736949920654297, "timer/logger.write_min": 0.02736949920654297, "timer/logger.write_max": 0.02736949920654297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.454944133758545, "timer/agent.policy_frac": 0.03484218895460994, "timer/agent.policy_avg": 0.00724026602060841, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.02237224578857422, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06559300422668457, "timer/dataset_frac": 0.0002185955102320639, "timer/dataset_avg": 9.084903632504788e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00020456314086914062, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.58079266548157, "timer/agent.train_frac": 0.8950734320438164, "timer/agent.train_avg": 0.37199555770842324, "timer/agent.train_min": 0.36339616775512695, "timer/agent.train_max": 0.3841521739959717, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22503328323364258, "timer/agent.report_frac": 0.0007499468266105525, "timer/agent.report_avg": 0.22503328323364258, "timer/agent.report_min": 0.22503328323364258, "timer/agent.report_max": 0.22503328323364258, "fps": 4.812181151507649}
+{"step": 246148, "episode/length": 163.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06707317073170732}
+{"step": 246315, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
+{"step": 246455, "episode/length": 139.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03571428571428571}
+{"step": 246645, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
+{"step": 246742, "episode/length": 96.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08247422680412371}
+{"step": 246911, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03550295857988166}
+{"step": 247081, "episode/length": 169.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.041176470588235294}
+{"step": 247238, "episode/length": 156.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.050955414012738856}
+{"step": 247418, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
+{"step": 247501, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.607564576914613, "train/action_min": 0.0, "train/action_std": 3.5313043829420923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05008643367130992, "train/actor_opt_grad_steps": 122850.0, "train/actor_opt_loss": -16.571080446243286, "train/adv_mag": 0.5481148009568872, "train/adv_max": 0.5109050252907713, "train/adv_mean": 0.002332427169292227, "train/adv_min": -0.43952803712495614, "train/adv_std": 0.056790476323853076, "train/cont_avg": 0.9939343089788732, "train/cont_loss_mean": 0.00016334679854292588, "train/cont_loss_std": 0.005133275254017833, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0028047926352595003, "train/cont_pos_acc": 0.9999861188337836, "train/cont_pos_loss": 0.00014363879684024865, "train/cont_pred": 0.9939258896129232, "train/cont_rate": 0.9939343089788732, "train/dyn_loss_mean": 4.6983906920527065, "train/dyn_loss_std": 8.511344842507805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0406585369311587, "train/extr_critic_critic_opt_grad_steps": 122850.0, "train/extr_critic_critic_opt_loss": 15734.125041263203, "train/extr_critic_mag": 7.8532264467696065, "train/extr_critic_max": 7.8532264467696065, "train/extr_critic_mean": 1.713853117445825, "train/extr_critic_min": -0.6166950346718372, "train/extr_critic_std": 1.7337964655647815, "train/extr_return_normed_mag": 1.6348584487404623, "train/extr_return_normed_max": 1.6348584487404623, "train/extr_return_normed_mean": 0.36919377681235194, "train/extr_return_normed_min": -0.13853213364179706, "train/extr_return_normed_std": 0.3331149203676573, "train/extr_return_rate": 0.6553752531468029, "train/extr_return_raw_mag": 8.447712199788699, "train/extr_return_raw_max": 8.447712199788699, "train/extr_return_raw_mean": 1.7261648614641647, "train/extr_return_raw_min": -0.9707422944861399, "train/extr_return_raw_std": 1.7698060072643655, "train/extr_reward_mag": 1.025390537691788, "train/extr_reward_max": 1.025390537691788, "train/extr_reward_mean": 0.036431095287413666, "train/extr_reward_min": -0.6526243048654475, "train/extr_reward_std": 0.19026553253052939, "train/image_loss_mean": 2.666041612625122, "train/image_loss_std": 7.449809997854098, "train/model_loss_mean": 5.530773515432653, "train/model_loss_std": 11.51054025032151, "train/model_opt_grad_norm": 36.44029794612401, "train/model_opt_grad_steps": 122749.0, "train/model_opt_loss": 7060.925416758363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.605633802817, "train/policy_entropy_mag": 2.2783190330988923, "train/policy_entropy_max": 2.2783190330988923, "train/policy_entropy_mean": 0.36087381587901585, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44054488648831003, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36122054365319267, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9677385259682024, "train/policy_randomness_mag": 0.8041466340212755, "train/policy_randomness_max": 0.8041466340212755, "train/policy_randomness_mean": 0.12737262102080063, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1554930138755852, "train/post_ent_mag": 55.18821222009793, "train/post_ent_max": 55.18821222009793, "train/post_ent_mean": 40.33053954218475, "train/post_ent_min": 18.749903826646403, "train/post_ent_std": 5.813729440662223, "train/prior_ent_mag": 75.8386552837533, "train/prior_ent_max": 75.8386552837533, "train/prior_ent_mean": 44.9987312101982, "train/prior_ent_min": 26.450858398222586, "train/prior_ent_std": 7.2882026349994495, "train/rep_loss_mean": 4.6983906920527065, "train/rep_loss_std": 8.511344842507805, "train/reward_avg": 0.02671792474903271, "train/reward_loss_mean": 0.045534104659733635, "train/reward_loss_std": 0.196143723079856, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0113936830574357, "train/reward_neg_acc": 0.9953438379395176, "train/reward_neg_loss": 0.02202376251069593, "train/reward_pos_acc": 0.9800457198854903, "train/reward_pos_loss": 0.7599898039455145, "train/reward_pred": 0.02624000796497288, "train/reward_rate": 0.032061509683098594, "stats/sum_log_reward": 6.544444508022732, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_stone": 0.1111111111111111, "stats/max_log_achievement_collect_wood": 8.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 1.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.34531591998206246, "replay/size": 247438.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.72051347232034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.228468637939886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9893901348114, "timer/env.step_count": 1410.0, "timer/env.step_total": 24.517521858215332, "timer/env.step_frac": 0.08172796326962588, "timer/env.step_avg": 0.017388313374620802, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 2.725926399230957, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.2621023654937744, "timer/replay.add_frac": 0.0008737054513027577, "timer/replay.add_avg": 0.0001858882024778542, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.00599217414855957, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028246164321899414, "timer/logger.write_frac": 9.415721105738423e-05, "timer/logger.write_avg": 0.028246164321899414, "timer/logger.write_min": 0.028246164321899414, "timer/logger.write_max": 0.028246164321899414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003933906555175781, "timer/checkpoint.save_frac": 1.311348562496805e-06, "timer/checkpoint.save_avg": 0.0003933906555175781, "timer/checkpoint.save_min": 0.0003933906555175781, "timer/checkpoint.save_max": 0.0003933906555175781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4289281368255615, "timer/agent.save_frac": 0.004763262247986236, "timer/agent.save_avg": 1.4289281368255615, "timer/agent.save_min": 1.4289281368255615, "timer/agent.save_max": 1.4289281368255615, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.584426879882812e-05, "timer/replay.save_frac": 3.194921952264943e-07, "timer/replay.save_avg": 9.584426879882812e-05, "timer/replay.save_min": 9.584426879882812e-05, "timer/replay.save_max": 9.584426879882812e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 11.574899435043335, "timer/agent.policy_frac": 0.03858436269976656, "timer/agent.policy_avg": 0.008209148535491727, "timer/agent.policy_min": 0.005671977996826172, "timer/agent.policy_max": 1.4283876419067383, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06450486183166504, "timer/dataset_frac": 0.00021502381068436247, "timer/dataset_avg": 9.149625791725538e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.00023031234741210938, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.85893964767456, "timer/agent.train_frac": 0.8762274543427989, "timer/agent.train_avg": 0.3728495597839355, "timer/agent.train_min": 0.36592841148376465, "timer/agent.train_max": 0.8848850727081299, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21848773956298828, "timer/agent.report_frac": 0.0007283182230704982, "timer/agent.report_avg": 0.21848773956298828, "timer/agent.report_min": 0.21848773956298828, "timer/agent.report_max": 0.21848773956298828, "fps": 4.700095205328141}
+{"step": 247574, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05128205128205128}
+{"step": 247769, "episode/length": 194.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05128205128205128}
+{"step": 247903, "episode/length": 133.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05223880597014925}
+{"step": 248132, "episode/length": 228.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.039301310043668124}
+{"step": 248289, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
+{"step": 248550, "episode/length": 260.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.034482758620689655}
+{"step": 248703, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0457516339869281}
+{"step": 248882, "episode/length": 178.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05027932960893855}
+{"step": 248943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549802992078993, "train/action_min": 0.0, "train/action_std": 3.5013873212867312, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0477106042413248, "train/actor_opt_grad_steps": 123565.0, "train/actor_opt_loss": -16.377454923258888, "train/adv_mag": 0.521744341072109, "train/adv_max": 0.4913218642274539, "train/adv_mean": 0.0015080697339252918, "train/adv_min": -0.4372336309817102, "train/adv_std": 0.0542444514317645, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 0.00010297870719355728, "train/cont_loss_std": 0.003178499495246475, "train/cont_neg_acc": 0.9918981492519379, "train/cont_neg_loss": 0.01575595672817877, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 2.3826368807020356e-05, "train/cont_pred": 0.9943632392419709, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.744970917701721, "train/dyn_loss_std": 8.598657773600685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9943332084351115, "train/extr_critic_critic_opt_grad_steps": 123565.0, "train/extr_critic_critic_opt_loss": 15527.560004340277, "train/extr_critic_mag": 7.752188788519965, "train/extr_critic_max": 7.752188788519965, "train/extr_critic_mean": 1.6931948620412085, "train/extr_critic_min": -0.6316375037034353, "train/extr_critic_std": 1.7523133489820693, "train/extr_return_normed_mag": 1.59093100991514, "train/extr_return_normed_max": 1.59093100991514, "train/extr_return_normed_mean": 0.3581031846503417, "train/extr_return_normed_min": -0.13095937689973247, "train/extr_return_normed_std": 0.3260958848728074, "train/extr_return_rate": 0.6402280781832006, "train/extr_return_raw_mag": 8.44786877102322, "train/extr_return_raw_max": 8.44786877102322, "train/extr_return_raw_mean": 1.70144289235274, "train/extr_return_raw_min": -0.9751159962680604, "train/extr_return_raw_std": 1.784643977880478, "train/extr_reward_mag": 1.0199695295757718, "train/extr_reward_max": 1.0199695295757718, "train/extr_reward_mean": 0.0365531123501973, "train/extr_reward_min": -0.6376123163435194, "train/extr_reward_std": 0.191030357653896, "train/image_loss_mean": 2.7535143527719708, "train/image_loss_std": 7.4645028246773615, "train/model_loss_mean": 5.644969728257921, "train/model_loss_std": 11.561824878056845, "train/model_opt_grad_norm": 36.63570589489407, "train/model_opt_grad_steps": 123463.90277777778, "train/model_opt_loss": 13385.000637478299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.277737660540475, "train/policy_entropy_max": 2.277737660540475, "train/policy_entropy_mean": 0.3594271486832036, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4375946848756737, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3601004009445508, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9697499258650674, "train/policy_randomness_mag": 0.8039414385954539, "train/policy_randomness_max": 0.8039414385954539, "train/policy_randomness_mean": 0.1268620098837548, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15445172041654587, "train/post_ent_mag": 55.24560080634223, "train/post_ent_max": 55.24560080634223, "train/post_ent_mean": 40.50004275639852, "train/post_ent_min": 18.63991051250034, "train/post_ent_std": 5.886971056461334, "train/prior_ent_mag": 75.65838199191623, "train/prior_ent_max": 75.65838199191623, "train/prior_ent_mean": 45.1933921708001, "train/prior_ent_min": 27.36518669128418, "train/prior_ent_std": 7.253312706947327, "train/rep_loss_mean": 4.744970917701721, "train/rep_loss_std": 8.598657773600685, "train/reward_avg": 0.027035861437778093, "train/reward_loss_mean": 0.04436984290886256, "train/reward_loss_std": 0.1872807155466742, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0099849336677127, "train/reward_neg_acc": 0.9956009992294841, "train/reward_neg_loss": 0.021491023285004, "train/reward_pos_acc": 0.9892206481761403, "train/reward_pos_loss": 0.7304599293404155, "train/reward_pred": 0.02675984629119436, "train/reward_rate": 0.03221299913194445, "stats/sum_log_reward": 7.225000083446503, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.75, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3964673653244972, "replay/size": 248880.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.677135367003294e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249196790623764e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15514087677, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.595504760742188, "timer/env.step_frac": 0.06861619861176312, "timer/env.step_avg": 0.014282596921457828, "timer/env.step_min": 0.003172636032104492, "timer/env.step_max": 1.8500845432281494, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25747084617614746, "timer/replay.add_frac": 0.0008577925582885593, "timer/replay.add_avg": 0.00017855121094046287, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0058040618896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030870437622070312, "timer/logger.write_frac": 0.00010284827216983867, "timer/logger.write_avg": 0.030870437622070312, "timer/logger.write_min": 0.030870437622070312, "timer/logger.write_max": 0.030870437622070312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.359830141067505, "timer/agent.policy_frac": 0.03451491822131002, "timer/agent.policy_avg": 0.007184348225428228, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.016912221908569336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06569051742553711, "timer/dataset_frac": 0.00021885521345278784, "timer/dataset_avg": 9.11102876914523e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.00022673606872558594, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.15836119651794, "timer/agent.train_frac": 0.893399194873732, "timer/agent.train_avg": 0.3719256049882357, "timer/agent.train_min": 0.3640470504760742, "timer/agent.train_max": 0.3850860595703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22031474113464355, "timer/agent.report_frac": 0.0007340028909419702, "timer/agent.report_avg": 0.22031474113464355, "timer/agent.report_min": 0.22031474113464355, "timer/agent.report_max": 0.22031474113464355, "fps": 4.804104918885439}
+{"step": 249065, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03278688524590164}
+{"step": 249236, "episode/length": 170.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05263157894736842}
+{"step": 249280, "episode/length": 43.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13636363636363635}
+{"step": 249525, "episode/length": 244.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.036734693877551024}
+{"step": 249723, "episode/length": 197.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.045454545454545456}
+{"step": 249808, "episode/length": 84.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.08235294117647059}
+{"step": 249990, "episode/length": 181.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 250179, "episode/length": 188.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.047619047619047616}
+{"step": 250385, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572090148925781, "train/action_min": 0.0, "train/action_std": 3.621995528539022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04851188019124998, "train/actor_opt_grad_steps": 124285.0, "train/actor_opt_loss": -16.277434474892086, "train/adv_mag": 0.498908881098032, "train/adv_max": 0.46309004061751896, "train/adv_mean": 0.0018477461213074599, "train/adv_min": -0.4243854040073024, "train/adv_std": 0.05543480684152908, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 8.713035201976834e-06, "train/cont_loss_std": 0.00015303755226941322, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018246316715754397, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 7.751438057251252e-06, "train/cont_pred": 0.9944053226047092, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.534303377072017, "train/dyn_loss_std": 8.469542470243242, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0434065668119326, "train/extr_critic_critic_opt_grad_steps": 124285.0, "train/extr_critic_critic_opt_loss": 15752.984402126736, "train/extr_critic_mag": 7.672374626000722, "train/extr_critic_max": 7.672374626000722, "train/extr_critic_mean": 1.5935781233840518, "train/extr_critic_min": -0.6338422877920998, "train/extr_critic_std": 1.7383426411284342, "train/extr_return_normed_mag": 1.5761960165368185, "train/extr_return_normed_max": 1.5761960165368185, "train/extr_return_normed_mean": 0.3435707382029957, "train/extr_return_normed_min": -0.13774110526881284, "train/extr_return_normed_std": 0.32622527041369015, "train/extr_return_rate": 0.6187825815545188, "train/extr_return_raw_mag": 8.279725319809383, "train/extr_return_raw_max": 8.279725319809383, "train/extr_return_raw_mean": 1.603552468948894, "train/extr_return_raw_min": -1.0032380570967991, "train/extr_return_raw_std": 1.766756726635827, "train/extr_reward_mag": 1.033615122238795, "train/extr_reward_max": 1.033615122238795, "train/extr_reward_mean": 0.03640575613826513, "train/extr_reward_min": -0.6482732478115294, "train/extr_reward_std": 0.1899891777171029, "train/image_loss_mean": 2.7958705408705606, "train/image_loss_std": 7.794338504473369, "train/model_loss_mean": 5.561047977871365, "train/model_loss_std": 11.770070883962843, "train/model_opt_grad_norm": 37.51109875573052, "train/model_opt_grad_steps": 124183.0, "train/model_opt_loss": 6951.309950086806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3134819997681513, "train/policy_entropy_max": 2.3134819997681513, "train/policy_entropy_mean": 0.3898267729414834, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47292256396677756, "train/policy_logprob_mag": 7.4383841090732155, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3900090062783824, "train/policy_logprob_min": -7.4383841090732155, "train/policy_logprob_std": 0.992487339509858, "train/policy_randomness_mag": 0.8165576234459877, "train/policy_randomness_max": 0.8165576234459877, "train/policy_randomness_mean": 0.13759174446264902, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16692091317640412, "train/post_ent_mag": 55.30476427078247, "train/post_ent_max": 55.30476427078247, "train/post_ent_mean": 40.60244788063897, "train/post_ent_min": 18.948167814148796, "train/post_ent_std": 5.939679655763838, "train/prior_ent_mag": 75.86944897969563, "train/prior_ent_max": 75.86944897969563, "train/prior_ent_mean": 45.08899741702609, "train/prior_ent_min": 26.616240978240967, "train/prior_ent_std": 7.29552976290385, "train/rep_loss_mean": 4.534303377072017, "train/rep_loss_std": 8.469542470243242, "train/reward_avg": 0.02680528408382088, "train/reward_loss_mean": 0.04458667581073112, "train/reward_loss_std": 0.18853880113197696, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0099780162175496, "train/reward_neg_acc": 0.9950840307606591, "train/reward_neg_loss": 0.02228745201136917, "train/reward_pos_acc": 0.9889234900474548, "train/reward_pos_loss": 0.7242626994848251, "train/reward_pred": 0.026645885922739074, "train/reward_rate": 0.03176540798611111, "stats/sum_log_reward": 6.475000202655792, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3692008703947067, "replay/size": 250322.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7320278553956092e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2264007007530096e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00124979019165, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.37959885597229, "timer/env.step_frac": 0.06793171318527816, "timer/env.step_avg": 0.014132870219120866, "timer/env.step_min": 0.0028464794158935547, "timer/env.step_max": 1.8325397968292236, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2614595890045166, "timer/replay.add_frac": 0.0008715283325898493, "timer/replay.add_avg": 0.00018131732940673828, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0034728050231933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027892589569091797, "timer/logger.write_frac": 9.297491123319889e-05, "timer/logger.write_avg": 0.027892589569091797, "timer/logger.write_min": 0.027892589569091797, "timer/logger.write_max": 0.027892589569091797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.382013320922852, "timer/agent.policy_frac": 0.03460656689991658, "timer/agent.policy_avg": 0.0071997318453001745, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 0.015621662139892578, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06693506240844727, "timer/dataset_frac": 0.00022311594520109116, "timer/dataset_avg": 9.283642497704198e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00017833709716796875, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.19341111183167, "timer/agent.train_frac": 0.8939743127716799, "timer/agent.train_avg": 0.371974217908227, "timer/agent.train_min": 0.36597299575805664, "timer/agent.train_max": 0.3834242820739746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22205734252929688, "timer/agent.report_frac": 0.0007401880581650727, "timer/agent.report_avg": 0.22205734252929688, "timer/agent.report_min": 0.22205734252929688, "timer/agent.report_max": 0.22205734252929688, "fps": 4.806570282474067}
+{"step": 250423, "episode/length": 243.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.03278688524590164}
+{"step": 250592, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
+{"step": 250784, "episode/length": 191.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.041666666666666664}
+{"step": 251010, "episode/length": 225.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.035398230088495575}
+{"step": 251240, "episode/length": 229.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.0391304347826087}
+{"step": 251415, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
+{"step": 251555, "episode/length": 139.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.03571428571428571}
+{"step": 251804, "episode/length": 248.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.040160642570281124}
+{"step": 251805, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.497972085442342, "train/action_min": 0.0, "train/action_std": 3.489038363308974, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04887907752688502, "train/actor_opt_grad_steps": 125000.0, "train/actor_opt_loss": -15.134392284171682, "train/adv_mag": 0.47290454532059145, "train/adv_max": 0.45462243951542275, "train/adv_mean": 0.0022054395304224616, "train/adv_min": -0.39462219619415173, "train/adv_std": 0.055621399426124464, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 1.332147978116513e-05, "train/cont_loss_std": 0.00034473963033156314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001735574661632225, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 7.84092282106991e-06, "train/cont_pred": 0.9943994938487738, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.492456963364507, "train/dyn_loss_std": 8.40772229181209, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9608092568290065, "train/extr_critic_critic_opt_grad_steps": 125000.0, "train/extr_critic_critic_opt_loss": 15834.12274427817, "train/extr_critic_mag": 7.653870414680158, "train/extr_critic_max": 7.653870414680158, "train/extr_critic_mean": 1.5901522250242637, "train/extr_critic_min": -0.6283630199835334, "train/extr_critic_std": 1.7034437992203404, "train/extr_return_normed_mag": 1.5955519810528822, "train/extr_return_normed_max": 1.5955519810528822, "train/extr_return_normed_mean": 0.34749278489133, "train/extr_return_normed_min": -0.14090251313968444, "train/extr_return_normed_std": 0.328803334647501, "train/extr_return_rate": 0.632073464108185, "train/extr_return_raw_mag": 8.166222867831378, "train/extr_return_raw_max": 8.166222867831378, "train/extr_return_raw_mean": 1.6017295038196402, "train/extr_return_raw_min": -0.9647465809969835, "train/extr_return_raw_std": 1.7288875143292923, "train/extr_reward_mag": 1.0203488208878209, "train/extr_reward_max": 1.0203488208878209, "train/extr_reward_mean": 0.03712810421178878, "train/extr_reward_min": -0.6649034090445075, "train/extr_reward_std": 0.19113554522185258, "train/image_loss_mean": 2.598251179910042, "train/image_loss_std": 7.0120436372891275, "train/model_loss_mean": 5.338203786124645, "train/model_loss_std": 11.046840533404284, "train/model_opt_grad_norm": 36.014532545922506, "train/model_opt_grad_steps": 124897.76056338029, "train/model_opt_loss": 9826.948290327904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1830.9859154929577, "train/policy_entropy_mag": 2.375336553009463, "train/policy_entropy_max": 2.375336553009463, "train/policy_entropy_mean": 0.3759763400319596, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4697801814952367, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3760493922401482, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9840577463029136, "train/policy_randomness_mag": 0.8383895654073903, "train/policy_randomness_max": 0.8383895654073903, "train/policy_randomness_mean": 0.13270314730389018, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1658117875037059, "train/post_ent_mag": 55.2045259072747, "train/post_ent_max": 55.2045259072747, "train/post_ent_mean": 40.4770791497029, "train/post_ent_min": 18.8725775732121, "train/post_ent_std": 5.893438722046328, "train/prior_ent_mag": 75.7820135841907, "train/prior_ent_max": 75.7820135841907, "train/prior_ent_mean": 44.959762035960885, "train/prior_ent_min": 26.779907199698435, "train/prior_ent_std": 7.289057933108907, "train/rep_loss_mean": 4.492456963364507, "train/rep_loss_std": 8.40772229181209, "train/reward_avg": 0.02668353861433939, "train/reward_loss_mean": 0.0444650873541832, "train/reward_loss_std": 0.1927718958804305, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0075229003395834, "train/reward_neg_acc": 0.9954652685514638, "train/reward_neg_loss": 0.021758222729492356, "train/reward_pos_acc": 0.9852586598463462, "train/reward_pos_loss": 0.7426985594588267, "train/reward_pred": 0.026382967606711556, "train/reward_rate": 0.03178642165492958, "stats/sum_log_reward": 7.100000083446503, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.5, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 2.75, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3722406066954136, "replay/size": 251742.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.728228555598729e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2437852335647797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34751772880554, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.768006801605225, "timer/env.step_frac": 0.06914659045178924, "timer/env.step_avg": 0.01462535690253889, "timer/env.step_min": 0.0029757022857666016, "timer/env.step_max": 1.6880285739898682, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2700650691986084, "timer/replay.add_frac": 0.0008991752994691295, "timer/replay.add_avg": 0.00019018666844972421, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.0018563270568847656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029239416122436523, "timer/logger.write_frac": 9.735194864782545e-05, "timer/logger.write_avg": 0.029239416122436523, "timer/logger.write_min": 0.029239416122436523, "timer/logger.write_max": 0.029239416122436523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002422332763671875, "timer/checkpoint.save_frac": 8.065099994796978e-07, "timer/checkpoint.save_avg": 0.0002422332763671875, "timer/checkpoint.save_min": 0.0002422332763671875, "timer/checkpoint.save_max": 0.0002422332763671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3261351585388184, "timer/agent.save_frac": 0.004415335836856268, "timer/agent.save_avg": 1.3261351585388184, "timer/agent.save_min": 1.3261351585388184, "timer/agent.save_max": 1.3261351585388184, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.667198423476166e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.308083534240723, "timer/agent.policy_frac": 0.047638427786708064, "timer/agent.policy_avg": 0.010076115164958255, "timer/agent.policy_min": 0.0056955814361572266, "timer/agent.policy_max": 2.702687978744507, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06400775909423828, "timer/dataset_frac": 0.0002131123292719641, "timer/dataset_avg": 9.01517733721666e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017690658569335938, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.22283005714417, "timer/agent.train_frac": 0.8797237015813141, "timer/agent.train_avg": 0.37214483106640023, "timer/agent.train_min": 0.36479926109313965, "timer/agent.train_max": 0.38433313369750977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194211483001709, "timer/agent.report_frac": 0.000730557555325941, "timer/agent.report_avg": 0.2194211483001709, "timer/agent.report_min": 0.2194211483001709, "timer/agent.report_max": 0.2194211483001709, "fps": 4.727793686540236}
+{"step": 251951, "episode/length": 146.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.04081632653061224}
+{"step": 252272, "episode/length": 320.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.028037383177570093}
+{"step": 252454, "episode/length": 181.0, "episode/score": 8.100000038743019, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.054945054945054944}
+{"step": 252624, "episode/length": 169.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.052941176470588235}
+{"step": 252850, "episode/length": 225.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03982300884955752}
+{"step": 252897, "episode/length": 46.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.1276595744680851}
+{"step": 253114, "episode/length": 216.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.041474654377880185}
+{"step": 253253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.479665968153212, "train/action_min": 0.0, "train/action_std": 3.429474241203732, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04997415514662862, "train/actor_opt_grad_steps": 125715.0, "train/actor_opt_loss": -15.086452058723403, "train/adv_mag": 0.528978174759282, "train/adv_max": 0.4623468870090114, "train/adv_mean": 0.0027857792300791414, "train/adv_min": -0.4676512885424826, "train/adv_std": 0.05728938321893414, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 5.4691358049770615e-06, "train/cont_loss_std": 0.00013433386974131482, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004952190644694889, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 2.362684845103047e-06, "train/cont_pred": 0.994371906750732, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.670158134566413, "train/dyn_loss_std": 8.551432821485731, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0113881006836891, "train/extr_critic_critic_opt_grad_steps": 125715.0, "train/extr_critic_critic_opt_loss": 15923.702419704861, "train/extr_critic_mag": 7.563193632496728, "train/extr_critic_max": 7.563193632496728, "train/extr_critic_mean": 1.6125983926985, "train/extr_critic_min": -0.6282390289836459, "train/extr_critic_std": 1.6928531842099295, "train/extr_return_normed_mag": 1.6205796665615506, "train/extr_return_normed_max": 1.6205796665615506, "train/extr_return_normed_mean": 0.3574154387331671, "train/extr_return_normed_min": -0.13788632882965934, "train/extr_return_normed_std": 0.3334798398945067, "train/extr_return_rate": 0.6373345586988661, "train/extr_return_raw_mag": 8.164906640847525, "train/extr_return_raw_max": 8.164906640847525, "train/extr_return_raw_mean": 1.6270084695683584, "train/extr_return_raw_min": -0.9362452195750343, "train/extr_return_raw_std": 1.7259020590119891, "train/extr_reward_mag": 1.0253453354040782, "train/extr_reward_max": 1.0253453354040782, "train/extr_reward_mean": 0.03671303319020404, "train/extr_reward_min": -0.6583604746394687, "train/extr_reward_std": 0.1896921605285671, "train/image_loss_mean": 2.7001039187113443, "train/image_loss_std": 7.640618450111813, "train/model_loss_mean": 5.546452121602164, "train/model_loss_std": 11.723659541871813, "train/model_opt_grad_norm": 37.60857372813754, "train/model_opt_grad_steps": 125612.0, "train/model_opt_loss": 6933.065110948351, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3796253237459393, "train/policy_entropy_max": 2.3796253237459393, "train/policy_entropy_mean": 0.37064214588867295, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4582429706222481, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37072429516249233, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9799851692385144, "train/policy_randomness_mag": 0.839903313252661, "train/policy_randomness_max": 0.839903313252661, "train/policy_randomness_mean": 0.13082041249920925, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1617396583573686, "train/post_ent_mag": 55.077112409803604, "train/post_ent_max": 55.077112409803604, "train/post_ent_mean": 40.337856716579864, "train/post_ent_min": 18.710916850301956, "train/post_ent_std": 5.868576089541118, "train/prior_ent_mag": 75.77180438571506, "train/prior_ent_max": 75.77180438571506, "train/prior_ent_mean": 44.95187966028849, "train/prior_ent_min": 26.383450508117676, "train/prior_ent_std": 7.318054556846619, "train/rep_loss_mean": 4.670158134566413, "train/rep_loss_std": 8.551432821485731, "train/reward_avg": 0.027335611689421866, "train/reward_loss_mean": 0.0442478412296623, "train/reward_loss_std": 0.18912891815933916, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0081232421927981, "train/reward_neg_acc": 0.9956411851776971, "train/reward_neg_loss": 0.02142059863803701, "train/reward_pos_acc": 0.9864976911081208, "train/reward_pos_loss": 0.7311598509550095, "train/reward_pred": 0.027114569558762014, "train/reward_rate": 0.03221299913194445, "stats/sum_log_reward": 6.957142761775425, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3792865914957864, "replay/size": 253190.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7020741246681847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2402129436724752e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1536931991577, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.4206759929657, "timer/env.step_frac": 0.061370812388249464, "timer/env.step_avg": 0.012721461321108908, "timer/env.step_min": 0.0030565261840820312, "timer/env.step_max": 1.7110991477966309, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2742342948913574, "timer/replay.add_frac": 0.0009136462455899142, "timer/replay.add_avg": 0.0001893883252012137, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.006682634353637695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034157514572143555, "timer/logger.write_frac": 0.00011380008091214587, "timer/logger.write_avg": 0.034157514572143555, "timer/logger.write_min": 0.034157514572143555, "timer/logger.write_max": 0.034157514572143555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.369490385055542, "timer/agent.policy_frac": 0.03454726901586111, "timer/agent.policy_avg": 0.0071612502659223354, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 0.015336275100708008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06524872779846191, "timer/dataset_frac": 0.00021738439098654746, "timer/dataset_avg": 9.012255220782033e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 724.0, "timer/agent.train_total": 270.3036525249481, "timer/agent.train_frac": 0.9005508132981608, "timer/agent.train_avg": 0.3733475863604256, "timer/agent.train_min": 0.3649179935455322, "timer/agent.train_max": 1.2405591011047363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22266578674316406, "timer/agent.report_frac": 0.0007418392369919002, "timer/agent.report_avg": 0.22266578674316406, "timer/agent.report_min": 0.22266578674316406, "timer/agent.report_max": 0.22266578674316406, "fps": 4.824110924306866}
+{"step": 253343, "episode/length": 228.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.039301310043668124}
+{"step": 253590, "episode/length": 246.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03643724696356275}
+{"step": 253779, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.042328042328042326}
+{"step": 254005, "episode/length": 225.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.035398230088495575}
+{"step": 254038, "episode/length": 32.0, "episode/score": 1.0999999716877937, "episode/sum_abs_reward": 2.9000000283122063, "episode/reward_rate": 0.09090909090909091}
+{"step": 254204, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04819277108433735}
+{"step": 254422, "episode/length": 217.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03669724770642202}
+{"step": 254567, "episode/length": 144.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05517241379310345}
+{"step": 254695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465237087673611, "train/action_min": 0.0, "train/action_std": 3.4062985512945385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048399553220305175, "train/actor_opt_grad_steps": 126435.0, "train/actor_opt_loss": -14.346644793947538, "train/adv_mag": 0.5546284938851992, "train/adv_max": 0.5104521947602431, "train/adv_mean": 0.0025112086297869813, "train/adv_min": -0.43891792827182347, "train/adv_std": 0.05546337407496241, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 1.3122996825407382e-05, "train/cont_loss_std": 0.00040060865609427136, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014892420812976247, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 3.333248167554833e-06, "train/cont_pred": 0.9945928851763407, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.568897826804055, "train/dyn_loss_std": 8.487052718798319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9909060440129704, "train/extr_critic_critic_opt_grad_steps": 126435.0, "train/extr_critic_critic_opt_loss": 15698.377685546875, "train/extr_critic_mag": 7.771936926576826, "train/extr_critic_max": 7.771936926576826, "train/extr_critic_mean": 1.601077862083912, "train/extr_critic_min": -0.6326563027169969, "train/extr_critic_std": 1.7459833274285, "train/extr_return_normed_mag": 1.6484975036647584, "train/extr_return_normed_max": 1.6484975036647584, "train/extr_return_normed_mean": 0.35196111185683143, "train/extr_return_normed_min": -0.13951222226023674, "train/extr_return_normed_std": 0.34238724286357564, "train/extr_return_rate": 0.6248897202312946, "train/extr_return_raw_mag": 8.359710527790917, "train/extr_return_raw_max": 8.359710527790917, "train/extr_return_raw_mean": 1.6141547527578142, "train/extr_return_raw_min": -0.9405586744348208, "train/extr_return_raw_std": 1.7809902081886928, "train/extr_reward_mag": 1.023686558008194, "train/extr_reward_max": 1.023686558008194, "train/extr_reward_mean": 0.03512829397287634, "train/extr_reward_min": -0.6582018136978149, "train/extr_reward_std": 0.1869044355634186, "train/image_loss_mean": 2.6680155992507935, "train/image_loss_std": 7.907368779182434, "train/model_loss_mean": 5.452872766388787, "train/model_loss_std": 11.932916204134623, "train/model_opt_grad_norm": 33.17908669842614, "train/model_opt_grad_steps": 126332.0, "train/model_opt_loss": 12507.516920301648, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2309.027777777778, "train/policy_entropy_mag": 2.420989000134998, "train/policy_entropy_max": 2.420989000134998, "train/policy_entropy_mean": 0.3790048737492826, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48063699197438026, "train/policy_logprob_mag": 7.438384142186907, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3785758308238453, "train/policy_logprob_min": -7.438384142186907, "train/policy_logprob_std": 0.9871353457371393, "train/policy_randomness_mag": 0.8545028749439452, "train/policy_randomness_max": 0.8545028749439452, "train/policy_randomness_mean": 0.13377208438598448, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16964376386668947, "train/post_ent_mag": 55.08317025502523, "train/post_ent_max": 55.08317025502523, "train/post_ent_mean": 40.48955233891805, "train/post_ent_min": 18.914208319452072, "train/post_ent_std": 5.84465957350201, "train/prior_ent_mag": 75.88113064236111, "train/prior_ent_max": 75.88113064236111, "train/prior_ent_mean": 45.02846617168851, "train/prior_ent_min": 27.179837942123413, "train/prior_ent_std": 7.200036115116543, "train/rep_loss_mean": 4.568897826804055, "train/rep_loss_std": 8.487052718798319, "train/reward_avg": 0.026558430774861738, "train/reward_loss_mean": 0.043505392813434206, "train/reward_loss_std": 0.18648910398284593, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0120394792821672, "train/reward_neg_acc": 0.9955186752809418, "train/reward_neg_loss": 0.020968134430909738, "train/reward_pos_acc": 0.9885415360331535, "train/reward_pos_loss": 0.7374598938557837, "train/reward_pred": 0.02623272566900899, "train/reward_rate": 0.031548394097222224, "stats/sum_log_reward": 6.475000038743019, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.5, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34279487282037735, "replay/size": 254632.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.704250933558534e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2488041109251744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1344804763794, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.360396146774292, "timer/env.step_frac": 0.06783757772335211, "timer/env.step_avg": 0.014119553499843476, "timer/env.step_min": 0.003099679946899414, "timer/env.step_max": 1.7169239521026611, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2582662105560303, "timer/replay.add_frac": 0.0008605016329550175, "timer/replay.add_avg": 0.00017910278124551337, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0015635490417480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027144908905029297, "timer/logger.write_frac": 9.044248718755793e-05, "timer/logger.write_avg": 0.027144908905029297, "timer/logger.write_min": 0.027144908905029297, "timer/logger.write_max": 0.027144908905029297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.467056512832642, "timer/agent.policy_frac": 0.034874555220110404, "timer/agent.policy_avg": 0.007258707706541361, "timer/agent.policy_min": 0.005672454833984375, "timer/agent.policy_max": 0.01927495002746582, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06484556198120117, "timer/dataset_frac": 0.0002160550226627644, "timer/dataset_avg": 8.993836613204046e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.26877331733704, "timer/agent.train_frac": 0.8938285694184005, "timer/agent.train_avg": 0.3720787424650999, "timer/agent.train_min": 0.3634054660797119, "timer/agent.train_max": 0.3864607810974121, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21851611137390137, "timer/agent.report_frac": 0.0007280606714265827, "timer/agent.report_avg": 0.21851611137390137, "timer/agent.report_min": 0.21851611137390137, "timer/agent.report_max": 0.21851611137390137, "fps": 4.804426508390306}
+{"step": 254769, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.039603960396039604}
+{"step": 254985, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037037037037037035}
+{"step": 255239, "episode/length": 253.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03543307086614173}
+{"step": 255415, "episode/length": 175.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000038743019, "episode/reward_rate": 0.045454545454545456}
+{"step": 255581, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04819277108433735}
+{"step": 255800, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
+{"step": 255968, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03571428571428571}
+{"step": 256125, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529081556532118, "train/action_min": 0.0, "train/action_std": 3.4354661438200207, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05059368458266059, "train/actor_opt_grad_steps": 127155.0, "train/actor_opt_loss": -13.719079631070295, "train/adv_mag": 0.5303315466476811, "train/adv_max": 0.4787842751377159, "train/adv_mean": 0.002703333015334566, "train/adv_min": -0.4365042025844256, "train/adv_std": 0.05659258246628775, "train/cont_avg": 0.9943305121527778, "train/cont_loss_mean": 0.00019432013651056302, "train/cont_loss_std": 0.00610117732089953, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.052336089036507535, "train/cont_pos_acc": 0.9999863232175509, "train/cont_pos_loss": 4.079900513387358e-05, "train/cont_pred": 0.9943238976928923, "train/cont_rate": 0.9943305121527778, "train/dyn_loss_mean": 4.614598635170195, "train/dyn_loss_std": 8.550768660174477, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0070245506034956, "train/extr_critic_critic_opt_grad_steps": 127155.0, "train/extr_critic_critic_opt_loss": 16118.540147569445, "train/extr_critic_mag": 7.810814360777537, "train/extr_critic_max": 7.810814360777537, "train/extr_critic_mean": 1.570002252029048, "train/extr_critic_min": -0.6012531105015013, "train/extr_critic_std": 1.696941355864207, "train/extr_return_normed_mag": 1.6273211008972592, "train/extr_return_normed_max": 1.6273211008972592, "train/extr_return_normed_mean": 0.3396675137595998, "train/extr_return_normed_min": -0.1385819795024064, "train/extr_return_normed_std": 0.3289678473439481, "train/extr_return_rate": 0.6192573019199901, "train/extr_return_raw_mag": 8.331052541732788, "train/extr_return_raw_max": 8.331052541732788, "train/extr_return_raw_mean": 1.5841771016518276, "train/extr_return_raw_min": -0.9232068583369255, "train/extr_return_raw_std": 1.7243325263261795, "train/extr_reward_mag": 1.0239576631122165, "train/extr_reward_max": 1.0239576631122165, "train/extr_reward_mean": 0.037373209786083966, "train/extr_reward_min": -0.6676923665735457, "train/extr_reward_std": 0.19156437988082567, "train/image_loss_mean": 2.715651507178942, "train/image_loss_std": 7.72681247194608, "train/model_loss_mean": 5.529754810863071, "train/model_loss_std": 11.833146545622084, "train/model_opt_grad_norm": 38.099948008855186, "train/model_opt_grad_steps": 127051.54166666667, "train/model_opt_loss": 13824.387044270834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4174875848823123, "train/policy_entropy_max": 2.4174875848823123, "train/policy_entropy_mean": 0.373074483540323, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46935366425249314, "train/policy_logprob_mag": 7.438384148809645, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3734909084935983, "train/policy_logprob_min": -7.438384148809645, "train/policy_logprob_std": 0.9827597124709023, "train/policy_randomness_mag": 0.8532670305834876, "train/policy_randomness_max": 0.8532670305834876, "train/policy_randomness_mean": 0.1316789203426904, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16566124806801477, "train/post_ent_mag": 54.68844487931993, "train/post_ent_max": 54.68844487931993, "train/post_ent_mean": 40.34832525253296, "train/post_ent_min": 18.767409258418613, "train/post_ent_std": 5.807846691873339, "train/prior_ent_mag": 75.83651574452718, "train/prior_ent_max": 75.83651574452718, "train/prior_ent_mean": 44.897571351793076, "train/prior_ent_min": 26.779394494162666, "train/prior_ent_std": 7.25787658823861, "train/rep_loss_mean": 4.614598635170195, "train/rep_loss_std": 8.550768660174477, "train/reward_avg": 0.027080620574350987, "train/reward_loss_mean": 0.045149851150603756, "train/reward_loss_std": 0.19959377155949673, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0102597888973024, "train/reward_neg_acc": 0.9956963227854835, "train/reward_neg_loss": 0.02208066802834057, "train/reward_pos_acc": 0.9901436310675409, "train/reward_pos_loss": 0.7344142157170508, "train/reward_pred": 0.026795401056814525, "train/reward_rate": 0.03232150607638889, "stats/sum_log_reward": 7.100000040871756, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.7142857142857144, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3642983649458204, "replay/size": 256062.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.790855407714844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2225412822269894e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457124233246, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.220746994018555, "timer/env.step_frac": 0.07065440296383792, "timer/env.step_avg": 0.014839683212600388, "timer/env.step_min": 0.0029935836791992188, "timer/env.step_max": 2.729611873626709, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.25877976417541504, "timer/replay.add_frac": 0.0008616063205546144, "timer/replay.add_avg": 0.0001809648700527378, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0010313987731933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027866601943969727, "timer/logger.write_frac": 9.278175379674783e-05, "timer/logger.write_avg": 0.027866601943969727, "timer/logger.write_min": 0.027866601943969727, "timer/logger.write_max": 0.027866601943969727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004215240478515625, "timer/checkpoint.save_frac": 1.4034628443686326e-06, "timer/checkpoint.save_avg": 0.0004215240478515625, "timer/checkpoint.save_min": 0.0004215240478515625, "timer/checkpoint.save_max": 0.0004215240478515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3345005512237549, "timer/agent.save_frac": 0.004443214922085629, "timer/agent.save_avg": 1.3345005512237549, "timer/agent.save_min": 1.3345005512237549, "timer/agent.save_max": 1.3345005512237549, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5878330727611667e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.525603771209717, "timer/agent.policy_frac": 0.03837445748173313, "timer/agent.policy_avg": 0.008059862777069732, "timer/agent.policy_min": 0.00557708740234375, "timer/agent.policy_max": 1.3337960243225098, "timer/dataset_count": 715.0, "timer/dataset_total": 0.0654897689819336, "timer/dataset_frac": 0.0002180479569810823, "timer/dataset_avg": 9.159408249221482e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002231597900390625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.5614535808563, "timer/agent.train_frac": 0.887515428238074, "timer/agent.train_avg": 0.37281322179140747, "timer/agent.train_min": 0.36579418182373047, "timer/agent.train_max": 0.921640157699585, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22257089614868164, "timer/agent.report_frac": 0.000741049020986114, "timer/agent.report_avg": 0.22257089614868164, "timer/agent.report_min": 0.22257089614868164, "timer/agent.report_max": 0.22257089614868164, "fps": 4.761071273397977}
+{"step": 256240, "episode/length": 271.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.029411764705882353}
+{"step": 256426, "episode/length": 185.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03763440860215054}
+{"step": 256666, "episode/length": 239.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.700000017881393, "episode/reward_rate": 0.03333333333333333}
+{"step": 256967, "episode/length": 300.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.036544850498338874}
+{"step": 257154, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.0481283422459893}
+{"step": 257339, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03783783783783784}
+{"step": 257587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.571751424711045, "train/action_min": 0.0, "train/action_std": 3.543552953902989, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049384396319111734, "train/actor_opt_grad_steps": 127880.0, "train/actor_opt_loss": -13.389445955622685, "train/adv_mag": 0.5389790530890635, "train/adv_max": 0.5063290718483598, "train/adv_mean": 0.0033283486165152543, "train/adv_min": -0.4460891701587259, "train/adv_std": 0.05692293545971178, "train/cont_avg": 0.993699165239726, "train/cont_loss_mean": 6.790305128825908e-05, "train/cont_loss_std": 0.002103348062148567, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01633325451090224, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 4.160911869691256e-06, "train/cont_pred": 0.9937101537234163, "train/cont_rate": 0.993699165239726, "train/dyn_loss_mean": 4.803124039140466, "train/dyn_loss_std": 8.586214196192076, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.005072979894403, "train/extr_critic_critic_opt_grad_steps": 127880.0, "train/extr_critic_critic_opt_loss": 16098.659741545376, "train/extr_critic_mag": 7.742548883777776, "train/extr_critic_max": 7.742548883777776, "train/extr_critic_mean": 1.658453689862604, "train/extr_critic_min": -0.6176952221622206, "train/extr_critic_std": 1.7640527356160831, "train/extr_return_normed_mag": 1.600042795481747, "train/extr_return_normed_max": 1.600042795481747, "train/extr_return_normed_mean": 0.3542417102072337, "train/extr_return_normed_min": -0.13221825118342492, "train/extr_return_normed_std": 0.3404414429240031, "train/extr_return_rate": 0.6271243891487382, "train/extr_return_raw_mag": 8.251495309071998, "train/extr_return_raw_max": 8.251495309071998, "train/extr_return_raw_mean": 1.6760490038623548, "train/extr_return_raw_min": -0.8922339824781026, "train/extr_return_raw_std": 1.7972542259791127, "train/extr_reward_mag": 1.023089549312853, "train/extr_reward_max": 1.023089549312853, "train/extr_reward_mean": 0.03935682306653016, "train/extr_reward_min": -0.657857156779668, "train/extr_reward_std": 0.1971848286586265, "train/image_loss_mean": 2.7093200601943552, "train/image_loss_std": 7.327446637088305, "train/model_loss_mean": 5.638185553354759, "train/model_loss_std": 11.471358874072767, "train/model_opt_grad_norm": 38.2092586935383, "train/model_opt_grad_steps": 127775.95890410959, "train/model_opt_loss": 14458.642176797945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.3895944863149565, "train/policy_entropy_max": 2.3895944863149565, "train/policy_entropy_mean": 0.36469763762330354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4630732801679063, "train/policy_logprob_mag": 7.438384141007515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36551292914233796, "train/policy_logprob_min": -7.438384141007515, "train/policy_logprob_std": 0.978646116713955, "train/policy_randomness_mag": 0.8434219882912832, "train/policy_randomness_max": 0.8434219882912832, "train/policy_randomness_mean": 0.12872225893278644, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16344454782466367, "train/post_ent_mag": 55.51322801145789, "train/post_ent_max": 55.51322801145789, "train/post_ent_mean": 40.46670291848378, "train/post_ent_min": 18.951067676282907, "train/post_ent_std": 5.854222395648695, "train/prior_ent_mag": 75.74003590622993, "train/prior_ent_max": 75.74003590622993, "train/prior_ent_mean": 45.230674273347205, "train/prior_ent_min": 26.28369697152752, "train/prior_ent_std": 7.3205871059469985, "train/rep_loss_mean": 4.803124039140466, "train/rep_loss_std": 8.586214196192076, "train/reward_avg": 0.028622645170313037, "train/reward_loss_mean": 0.04692320714462293, "train/reward_loss_std": 0.19692950583484076, "train/reward_max_data": 1.0082191800417966, "train/reward_max_pred": 1.0095820982162267, "train/reward_neg_acc": 0.9956343925162537, "train/reward_neg_loss": 0.02294157625316349, "train/reward_pos_acc": 0.9895178185750361, "train/reward_pos_loss": 0.7240647673606873, "train/reward_pred": 0.028422690175269563, "train/reward_rate": 0.03416630993150685, "stats/sum_log_reward": 7.266666730244954, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 1.1666666666666667, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5098625322182974, "stats/max_log_achievement_place_stone": 0.6666666666666666, "replay/size": 257524.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7343003029047057e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2376933026085473e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24479842185974, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.71180486679077, "timer/env.step_frac": 0.05566059746790286, "timer/env.step_avg": 0.011430783082620227, "timer/env.step_min": 0.002765178680419922, "timer/env.step_max": 1.6770806312561035, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.26717066764831543, "timer/replay.add_frac": 0.000889842785129375, "timer/replay.add_avg": 0.00018274327472524995, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0072307586669921875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02971673011779785, "timer/logger.write_frac": 9.897500397673595e-05, "timer/logger.write_avg": 0.02971673011779785, "timer/logger.write_min": 0.02971673011779785, "timer/logger.write_max": 0.02971673011779785, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.514353036880493, "timer/agent.policy_frac": 0.035019267917865055, "timer/agent.policy_avg": 0.0071917599431467125, "timer/agent.policy_min": 0.0056972503662109375, "timer/agent.policy_max": 0.01739954948425293, "timer/dataset_count": 731.0, "timer/dataset_total": 0.0663764476776123, "timer/dataset_frac": 0.00022107443002009948, "timer/dataset_avg": 9.08022540049416e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00030803680419921875, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.9688398838043, "timer/agent.train_frac": 0.9058236522774785, "timer/agent.train_avg": 0.37205039655787187, "timer/agent.train_min": 0.364757776260376, "timer/agent.train_max": 0.3859975337982178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21919012069702148, "timer/agent.report_frac": 0.0007300380284658514, "timer/agent.report_avg": 0.21919012069702148, "timer/agent.report_min": 0.21919012069702148, "timer/agent.report_max": 0.21919012069702148, "fps": 4.869286004652769}
+{"step": 257610, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025830258302583026}
+{"step": 257799, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042328042328042326}
+{"step": 257956, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
+{"step": 258178, "episode/length": 221.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04504504504504504}
+{"step": 258330, "episode/length": 151.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.039473684210526314}
+{"step": 258550, "episode/length": 219.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.045454545454545456}
+{"step": 258757, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.033816425120772944}
+{"step": 258991, "episode/length": 233.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.038461538461538464}
+{"step": 259029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508404201931423, "train/action_min": 0.0, "train/action_std": 3.4278205964300366, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04915798186428017, "train/actor_opt_grad_steps": 128605.0, "train/actor_opt_loss": -12.669766618973679, "train/adv_mag": 0.5122360632651382, "train/adv_max": 0.4967954717576504, "train/adv_mean": 0.0028206807899348657, "train/adv_min": -0.40089219560225803, "train/adv_std": 0.055282581287125744, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 0.0001093624129764079, "train/cont_loss_std": 0.0033134904024873573, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.0159002840468795, "train/cont_pos_acc": 0.9999863240453932, "train/cont_pos_loss": 2.1889222813974306e-05, "train/cont_pred": 0.9944395745793978, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.607132878568438, "train/dyn_loss_std": 8.492722067568037, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.060872880121072, "train/extr_critic_critic_opt_grad_steps": 128605.0, "train/extr_critic_critic_opt_loss": 16076.048380533854, "train/extr_critic_mag": 7.771070076359643, "train/extr_critic_max": 7.771070076359643, "train/extr_critic_mean": 1.672892654935519, "train/extr_critic_min": -0.6077392730447981, "train/extr_critic_std": 1.7453028162320454, "train/extr_return_normed_mag": 1.5897296832667456, "train/extr_return_normed_max": 1.5897296832667456, "train/extr_return_normed_mean": 0.34930861244599026, "train/extr_return_normed_min": -0.1309150414955285, "train/extr_return_normed_std": 0.3292357441451814, "train/extr_return_rate": 0.6384820164077811, "train/extr_return_raw_mag": 8.388777335484823, "train/extr_return_raw_max": 8.388777335484823, "train/extr_return_raw_mean": 1.6881074325905905, "train/extr_return_raw_min": -0.9064258535703024, "train/extr_return_raw_std": 1.778921890589926, "train/extr_reward_mag": 1.0371573732958899, "train/extr_reward_max": 1.0371573732958899, "train/extr_reward_mean": 0.038512743155782424, "train/extr_reward_min": -0.6848432173331579, "train/extr_reward_std": 0.19447205236388576, "train/image_loss_mean": 2.7119042525688806, "train/image_loss_std": 7.382660504844454, "train/model_loss_mean": 5.522928741243151, "train/model_loss_std": 11.466055115063986, "train/model_opt_grad_norm": 34.82634947035048, "train/model_opt_grad_steps": 128500.0, "train/model_opt_loss": 13807.32184516059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4054346084594727, "train/policy_entropy_max": 2.4054346084594727, "train/policy_entropy_mean": 0.3768557918568452, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4762417409155104, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37653303932812476, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9835463282134798, "train/policy_randomness_mag": 0.8490128558542993, "train/policy_randomness_max": 0.8490128558542993, "train/policy_randomness_mean": 0.13301355660789543, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16809243553628525, "train/post_ent_mag": 55.563596884409584, "train/post_ent_max": 55.563596884409584, "train/post_ent_mean": 40.531905598110626, "train/post_ent_min": 18.474500669373406, "train/post_ent_std": 5.895757271183862, "train/prior_ent_mag": 75.86815918816461, "train/prior_ent_max": 75.86815918816461, "train/prior_ent_mean": 45.104796727498375, "train/prior_ent_min": 26.439879258473713, "train/prior_ent_std": 7.30077385240131, "train/rep_loss_mean": 4.607132878568438, "train/rep_loss_std": 8.492722067568037, "train/reward_avg": 0.02810058562964615, "train/reward_loss_mean": 0.04663541982881725, "train/reward_loss_std": 0.1959771898885568, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0155250761244032, "train/reward_neg_acc": 0.9955571335222986, "train/reward_neg_loss": 0.023140575814371307, "train/reward_pos_acc": 0.9873950870500671, "train/reward_pos_loss": 0.7322914650042852, "train/reward_pred": 0.0278530949079949, "train/reward_rate": 0.033203125, "stats/sum_log_reward": 6.975000083446503, "stats/max_log_achievement_collect_drink": 4.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.125, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.625, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.388625655323267, "replay/size": 258966.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7348386153434086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2194564702937409e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08242750167847, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.167471170425415, "timer/env.step_frac": 0.06720643837204567, "timer/env.step_avg": 0.013985763641071717, "timer/env.step_min": 0.0028848648071289062, "timer/env.step_max": 1.7130086421966553, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26207923889160156, "timer/replay.add_frac": 0.000873357500715818, "timer/replay.add_avg": 0.00018174704500111065, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0014064311981201172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027637243270874023, "timer/logger.write_frac": 9.209883931214012e-05, "timer/logger.write_avg": 0.027637243270874023, "timer/logger.write_min": 0.027637243270874023, "timer/logger.write_max": 0.027637243270874023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.364833354949951, "timer/agent.policy_frac": 0.034539954376008826, "timer/agent.policy_avg": 0.007187817860575555, "timer/agent.policy_min": 0.005667209625244141, "timer/agent.policy_max": 0.018468618392944336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06523633003234863, "timer/dataset_frac": 0.0002173947024338296, "timer/dataset_avg": 9.048034678550434e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.49300813674927, "timer/agent.train_frac": 0.8947308590245509, "timer/agent.train_avg": 0.3723897477624816, "timer/agent.train_min": 0.36530590057373047, "timer/agent.train_max": 0.38935256004333496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22235465049743652, "timer/agent.report_frac": 0.0007409785782814385, "timer/agent.report_avg": 0.22235465049743652, "timer/agent.report_min": 0.22235465049743652, "timer/agent.report_max": 0.22235465049743652, "fps": 4.805241020391774}
+{"step": 259167, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
+{"step": 259356, "episode/length": 188.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.047619047619047616}
+{"step": 259529, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
+{"step": 259583, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
+{"step": 259744, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.049689440993788817}
+{"step": 259932, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03723404255319149}
+{"step": 260061, "episode/length": 128.0, "episode/score": 5.100000061094761, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05426356589147287}
+{"step": 260247, "episode/length": 185.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.053763440860215055}
+{"step": 260406, "episode/length": 158.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.0440251572327044}
+{"step": 260441, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462102325869278, "train/action_min": 0.0, "train/action_std": 3.3975384571182894, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04956857240955594, "train/actor_opt_grad_steps": 129320.0, "train/actor_opt_loss": -14.207344206312383, "train/adv_mag": 0.5125635220131404, "train/adv_max": 0.45191862885381134, "train/adv_mean": 0.002297157680670711, "train/adv_min": -0.4381885008073189, "train/adv_std": 0.05565367639064789, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 0.00047155673450695654, "train/cont_loss_std": 0.014970620057347717, "train/cont_neg_acc": 0.9901190485273089, "train/cont_neg_loss": 0.04566417490989433, "train/cont_pos_acc": 0.9999722653711346, "train/cont_pos_loss": 0.00022523700244997939, "train/cont_pred": 0.9950097488685393, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 4.489685726837373, "train/dyn_loss_std": 8.41949879955238, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.037296800546243, "train/extr_critic_critic_opt_grad_steps": 129320.0, "train/extr_critic_critic_opt_loss": 16103.759408010563, "train/extr_critic_mag": 7.699396758012369, "train/extr_critic_max": 7.699396758012369, "train/extr_critic_mean": 1.6612041491857716, "train/extr_critic_min": -0.6228645888852401, "train/extr_critic_std": 1.6804367874709654, "train/extr_return_normed_mag": 1.5953387156338759, "train/extr_return_normed_max": 1.5953387156338759, "train/extr_return_normed_mean": 0.3514575391588077, "train/extr_return_normed_min": -0.14372295760352846, "train/extr_return_normed_std": 0.31873740528670835, "train/extr_return_rate": 0.6668473406576775, "train/extr_return_raw_mag": 8.354742950117084, "train/extr_return_raw_max": 8.354742950117084, "train/extr_return_raw_mean": 1.673446685495511, "train/extr_return_raw_min": -0.9871788352308138, "train/extr_return_raw_std": 1.7124444078391707, "train/extr_reward_mag": 1.0327101761186626, "train/extr_reward_max": 1.0327101761186626, "train/extr_reward_mean": 0.03606199856165429, "train/extr_reward_min": -0.6467016465227369, "train/extr_reward_std": 0.18784862462903412, "train/image_loss_mean": 2.5557511440465146, "train/image_loss_std": 6.976686524673247, "train/model_loss_mean": 5.293556737228179, "train/model_loss_std": 11.039341268405108, "train/model_opt_grad_norm": 33.692575508440044, "train/model_opt_grad_steps": 129214.18309859154, "train/model_opt_loss": 12298.117627640846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2341.549295774648, "train/policy_entropy_mag": 2.4073545093267734, "train/policy_entropy_max": 2.4073545093267734, "train/policy_entropy_mean": 0.3782046302943162, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47540524979712256, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37676039967738406, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9850712065965357, "train/policy_randomness_mag": 0.8496904960820373, "train/policy_randomness_max": 0.8496904960820373, "train/policy_randomness_mean": 0.13348963667809124, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16779719030773135, "train/post_ent_mag": 55.23580019238969, "train/post_ent_max": 55.23580019238969, "train/post_ent_mean": 40.56157700444611, "train/post_ent_min": 18.518527796570684, "train/post_ent_std": 5.826932779500182, "train/prior_ent_mag": 75.77452753631162, "train/prior_ent_max": 75.77452753631162, "train/prior_ent_mean": 45.00193002190388, "train/prior_ent_min": 26.474365314967194, "train/prior_ent_std": 7.1951737605350115, "train/rep_loss_mean": 4.489685726837373, "train/rep_loss_std": 8.41949879955238, "train/reward_avg": 0.026134738108326852, "train/reward_loss_mean": 0.0435225879379981, "train/reward_loss_std": 0.1886482446546286, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.011390916058715, "train/reward_neg_acc": 0.99511907721909, "train/reward_neg_loss": 0.021537900023477177, "train/reward_pos_acc": 0.9892476024762006, "train/reward_pos_loss": 0.7317486271052294, "train/reward_pred": 0.02582603689073257, "train/reward_rate": 0.030974911971830985, "stats/sum_log_reward": 6.211111068725586, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 0.6666666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 2.6666666666666665, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2792656355433994, "stats/max_log_achievement_collect_coal": 0.5, "replay/size": 260378.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.7198026187021402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2531538860656047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0443034172058, "timer/env.step_count": 1412.0, "timer/env.step_total": 24.13851809501648, "timer/env.step_frac": 0.08044984630637142, "timer/env.step_avg": 0.01709526777267456, "timer/env.step_min": 0.003037691116333008, "timer/env.step_max": 2.7560412883758545, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.2668893337249756, "timer/replay.add_frac": 0.0008894997528210729, "timer/replay.add_avg": 0.0001890151088703793, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.008373498916625977, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027749300003051758, "timer/logger.write_frac": 9.248400881808075e-05, "timer/logger.write_avg": 0.027749300003051758, "timer/logger.write_min": 0.027749300003051758, "timer/logger.write_max": 0.027749300003051758, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006992816925048828, "timer/checkpoint.save_frac": 2.330594797304134e-06, "timer/checkpoint.save_avg": 0.0006992816925048828, "timer/checkpoint.save_min": 0.0006992816925048828, "timer/checkpoint.save_max": 0.0006992816925048828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.440955638885498, "timer/agent.save_frac": 0.004802476242589672, "timer/agent.save_avg": 1.440955638885498, "timer/agent.save_min": 1.440955638885498, "timer/agent.save_max": 1.440955638885498, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.679794311523438e-05, "timer/replay.save_frac": 3.226121676459183e-07, "timer/replay.save_avg": 9.679794311523438e-05, "timer/replay.save_min": 9.679794311523438e-05, "timer/replay.save_max": 9.679794311523438e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 11.555064916610718, "timer/agent.policy_frac": 0.03851119579678746, "timer/agent.policy_avg": 0.00818347373697643, "timer/agent.policy_min": 0.0056416988372802734, "timer/agent.policy_max": 1.4406330585479736, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06297183036804199, "timer/dataset_frac": 0.00020987510727867704, "timer/dataset_avg": 8.919522715020112e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 706.0, "timer/agent.train_total": 263.3029055595398, "timer/agent.train_frac": 0.8775467574647541, "timer/agent.train_avg": 0.37295029116082123, "timer/agent.train_min": 0.36400294303894043, "timer/agent.train_max": 0.9199378490447998, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21932196617126465, "timer/agent.report_frac": 0.0007309652730393675, "timer/agent.report_avg": 0.21932196617126465, "timer/agent.report_min": 0.21932196617126465, "timer/agent.report_max": 0.21932196617126465, "fps": 4.705911172466177}
+{"step": 260605, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04020100502512563}
+{"step": 260819, "episode/length": 213.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04672897196261682}
+{"step": 260994, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
+{"step": 261209, "episode/length": 214.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.04186046511627907}
+{"step": 261386, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
+{"step": 261561, "episode/length": 174.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04}
+{"step": 261719, "episode/length": 157.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.90000006556511, "episode/reward_rate": 0.056962025316455694}
+{"step": 261891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395988464355469, "train/action_min": 0.0, "train/action_std": 3.3166153331597648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04889338091015816, "train/actor_opt_grad_steps": 130035.0, "train/actor_opt_loss": -15.213025181657738, "train/adv_mag": 0.48997191339731216, "train/adv_max": 0.4430350818567806, "train/adv_mean": 0.0022633489109517135, "train/adv_min": -0.4150163423683908, "train/adv_std": 0.05497361300513148, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 9.521896234302811e-05, "train/cont_loss_std": 0.0030164717375448114, "train/cont_neg_acc": 0.9962962973448966, "train/cont_neg_loss": 0.005453363767915991, "train/cont_pos_acc": 0.9999863041771783, "train/cont_pos_loss": 5.5761052930838576e-05, "train/cont_pred": 0.9946016197403272, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.6817917293972435, "train/dyn_loss_std": 8.607161376211378, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0234429902500577, "train/extr_critic_critic_opt_grad_steps": 130035.0, "train/extr_critic_critic_opt_loss": 15985.322021484375, "train/extr_critic_mag": 7.662120189931658, "train/extr_critic_max": 7.662120189931658, "train/extr_critic_mean": 1.62362522052394, "train/extr_critic_min": -0.5978818039099375, "train/extr_critic_std": 1.6956461469332378, "train/extr_return_normed_mag": 1.5553865747319326, "train/extr_return_normed_max": 1.5553865747319326, "train/extr_return_normed_mean": 0.3413999308314588, "train/extr_return_normed_min": -0.1251053743892246, "train/extr_return_normed_std": 0.3207919591416915, "train/extr_return_rate": 0.640315790557199, "train/extr_return_raw_mag": 8.162207470999824, "train/extr_return_raw_max": 8.162207470999824, "train/extr_return_raw_mean": 1.6357487721575632, "train/extr_return_raw_min": -0.8719415101740096, "train/extr_return_raw_std": 1.724701272116767, "train/extr_reward_mag": 1.0346153643396165, "train/extr_reward_max": 1.0346153643396165, "train/extr_reward_mean": 0.03718070804865824, "train/extr_reward_min": -0.6626426064305835, "train/extr_reward_std": 0.19088057511382633, "train/image_loss_mean": 2.78947291109297, "train/image_loss_std": 7.8629500601026745, "train/model_loss_mean": 5.64349561267429, "train/model_loss_std": 12.001332733366224, "train/model_opt_grad_norm": 36.5624738269382, "train/model_opt_grad_steps": 129928.0, "train/model_opt_loss": 7054.369486490886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.431128376060062, "train/policy_entropy_max": 2.431128376060062, "train/policy_entropy_mean": 0.375218669573466, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4728570737772518, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.374257806274626, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9814509145087666, "train/policy_randomness_mag": 0.8580816288789114, "train/policy_randomness_max": 0.8580816288789114, "train/policy_randomness_mean": 0.13243572403573328, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16689779568049642, "train/post_ent_mag": 55.118654092152916, "train/post_ent_max": 55.118654092152916, "train/post_ent_mean": 40.415130297342934, "train/post_ent_min": 19.013365361425613, "train/post_ent_std": 5.855300227801005, "train/prior_ent_mag": 75.69921493530273, "train/prior_ent_max": 75.69921493530273, "train/prior_ent_mean": 45.025501569112144, "train/prior_ent_min": 26.560475243462456, "train/prior_ent_std": 7.201905945936839, "train/rep_loss_mean": 4.6817917293972435, "train/rep_loss_std": 8.607161376211378, "train/reward_avg": 0.02649739564448181, "train/reward_loss_mean": 0.04485250021227532, "train/reward_loss_std": 0.19973651133477688, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0170235517952178, "train/reward_neg_acc": 0.9957179857624902, "train/reward_neg_loss": 0.022192674171593454, "train/reward_pos_acc": 0.9850841032134162, "train/reward_pos_loss": 0.7465619320670763, "train/reward_pred": 0.02625709514702774, "train/reward_rate": 0.0313720703125, "stats/sum_log_reward": 7.528571469443185, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 0.14285714285714285, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.8571428571428572, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3550341086728232, "replay/size": 261828.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7502420359644396e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.223662803912985e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00273180007935, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.66964054107666, "timer/env.step_frac": 0.06223156845624338, "timer/env.step_avg": 0.012875614166259765, "timer/env.step_min": 0.0030405521392822266, "timer/env.step_max": 1.7240328788757324, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2602269649505615, "timer/replay.add_frac": 0.0008674153178177583, "timer/replay.add_avg": 0.0001794668723796976, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.005124568939208984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03059554100036621, "timer/logger.write_frac": 0.00010198420799966235, "timer/logger.write_avg": 0.03059554100036621, "timer/logger.write_min": 0.03059554100036621, "timer/logger.write_max": 0.03059554100036621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.370585680007935, "timer/agent.policy_frac": 0.03456830415437301, "timer/agent.policy_avg": 0.0071521280551778855, "timer/agent.policy_min": 0.005673885345458984, "timer/agent.policy_max": 0.020604610443115234, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06573677062988281, "timer/dataset_frac": 0.0002191205734542762, "timer/dataset_avg": 9.06714077653556e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00020956993103027344, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.91992807388306, "timer/agent.train_frac": 0.8997249006844266, "timer/agent.train_avg": 0.3723033490674249, "timer/agent.train_min": 0.36566996574401855, "timer/agent.train_max": 0.41002869606018066, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21968865394592285, "timer/agent.report_frac": 0.0007322888449306606, "timer/agent.report_avg": 0.21968865394592285, "timer/agent.report_min": 0.21968865394592285, "timer/agent.report_max": 0.21968865394592285, "fps": 4.833185425224965}
+{"step": 261970, "episode/length": 250.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.035856573705179286}
+{"step": 262012, "episode/length": 41.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.09523809523809523}
+{"step": 262250, "episode/length": 237.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.029411764705882353}
+{"step": 262417, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
+{"step": 262627, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02857142857142857}
+{"step": 262864, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04219409282700422}
+{"step": 263033, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.047337278106508875}
+{"step": 263226, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
+{"step": 263333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398641798231337, "train/action_min": 0.0, "train/action_std": 3.3336826066176095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050554184501783714, "train/actor_opt_grad_steps": 130755.0, "train/actor_opt_loss": -14.960726243754229, "train/adv_mag": 0.5160333915717072, "train/adv_max": 0.4963642578158114, "train/adv_mean": 0.0030894077877342673, "train/adv_min": -0.42095137925611603, "train/adv_std": 0.05738537453321947, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 3.282290667004794e-05, "train/cont_loss_std": 0.0009455759628615507, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002329782156838039, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.8739389236564917e-05, "train/cont_pred": 0.9943794641229842, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.490253663725323, "train/dyn_loss_std": 8.432938575744629, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0248720140920744, "train/extr_critic_critic_opt_grad_steps": 130755.0, "train/extr_critic_critic_opt_loss": 16010.697835286459, "train/extr_critic_mag": 7.6605210767851935, "train/extr_critic_max": 7.6605210767851935, "train/extr_critic_mean": 1.6983663688103359, "train/extr_critic_min": -0.613667670223448, "train/extr_critic_std": 1.6834264679087534, "train/extr_return_normed_mag": 1.629675406548712, "train/extr_return_normed_max": 1.629675406548712, "train/extr_return_normed_mean": 0.36324936751690173, "train/extr_return_normed_min": -0.1325517716921038, "train/extr_return_normed_std": 0.3252999571462472, "train/extr_return_rate": 0.6681270235114627, "train/extr_return_raw_mag": 8.390681372748482, "train/extr_return_raw_max": 8.390681372748482, "train/extr_return_raw_mean": 1.7146610418955486, "train/extr_return_raw_min": -0.8982615255647235, "train/extr_return_raw_std": 1.7148340145746868, "train/extr_reward_mag": 1.0348264111412897, "train/extr_reward_max": 1.0348264111412897, "train/extr_reward_mean": 0.0391944508947846, "train/extr_reward_min": -0.654417355855306, "train/extr_reward_std": 0.19512168318033218, "train/image_loss_mean": 2.5564597696065903, "train/image_loss_std": 7.010427872339885, "train/model_loss_mean": 5.2951151331265764, "train/model_loss_std": 11.089611887931824, "train/model_opt_grad_norm": 34.402965519163345, "train/model_opt_grad_steps": 130648.0, "train/model_opt_loss": 12019.020629882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.4262828561994763, "train/policy_entropy_max": 2.4262828561994763, "train/policy_entropy_mean": 0.37463020698891747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47700119266907376, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37512776255607605, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9855212999714745, "train/policy_randomness_mag": 0.8563713712824715, "train/policy_randomness_max": 0.8563713712824715, "train/policy_randomness_mean": 0.13222802326911026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1683604855918222, "train/post_ent_mag": 55.358911726209854, "train/post_ent_max": 55.358911726209854, "train/post_ent_mean": 40.65099864535861, "train/post_ent_min": 18.320037576887344, "train/post_ent_std": 5.889572123686473, "train/prior_ent_mag": 75.80018944210477, "train/prior_ent_max": 75.80018944210477, "train/prior_ent_mean": 45.13574345906576, "train/prior_ent_min": 26.13773488998413, "train/prior_ent_std": 7.233116812176174, "train/rep_loss_mean": 4.490253663725323, "train/rep_loss_std": 8.432938575744629, "train/reward_avg": 0.02793104372297724, "train/reward_loss_mean": 0.044470367565130196, "train/reward_loss_std": 0.19314995573626625, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0113649004035525, "train/reward_neg_acc": 0.9952286374237802, "train/reward_neg_loss": 0.02125799533031467, "train/reward_pos_acc": 0.9906564859880341, "train/reward_pos_loss": 0.726193385819594, "train/reward_pred": 0.027769158749530714, "train/reward_rate": 0.03294542100694445, "stats/sum_log_reward": 6.475000083446503, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 0.625, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.375, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38586821407079697, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "replay/size": 263270.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7817948403537026e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.235701009403816e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2103509902954, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.633201599121094, "timer/env.step_frac": 0.06872914784936274, "timer/env.step_avg": 0.014308738973038207, "timer/env.step_min": 0.002978086471557617, "timer/env.step_max": 1.7267909049987793, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2673063278198242, "timer/replay.add_frac": 0.0008903967732560465, "timer/replay.add_avg": 0.00018537193330084897, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0038607120513916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029682159423828125, "timer/logger.write_frac": 9.88712058925231e-05, "timer/logger.write_avg": 0.029682159423828125, "timer/logger.write_min": 0.029682159423828125, "timer/logger.write_max": 0.029682159423828125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.322206020355225, "timer/agent.policy_frac": 0.03438324490246807, "timer/agent.policy_avg": 0.007158256602188089, "timer/agent.policy_min": 0.005751609802246094, "timer/agent.policy_max": 0.017602920532226562, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06612277030944824, "timer/dataset_frac": 0.00022025479831501787, "timer/dataset_avg": 9.170980625443584e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.000217437744140625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.20133447647095, "timer/agent.train_frac": 0.8933780384046146, "timer/agent.train_avg": 0.3719852073182676, "timer/agent.train_min": 0.3656160831451416, "timer/agent.train_max": 0.38335394859313965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22086381912231445, "timer/agent.report_frac": 0.0007356968818488677, "timer/agent.report_avg": 0.22086381912231445, "timer/agent.report_min": 0.22086381912231445, "timer/agent.report_max": 0.22086381912231445, "fps": 4.803228114562578}
+{"step": 263382, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.0641025641025641}
+{"step": 263623, "episode/length": 240.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03734439834024896}
+{"step": 263887, "episode/length": 263.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03409090909090909}
+{"step": 264073, "episode/length": 185.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.500000044703484, "episode/reward_rate": 0.043010752688172046}
+{"step": 264291, "episode/length": 217.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03211009174311927}
+{"step": 264441, "episode/length": 149.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.04666666666666667}
+{"step": 264606, "episode/length": 164.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.048484848484848485}
+{"step": 264763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324733310275608, "train/action_min": 0.0, "train/action_std": 3.1555255585246615, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049780304026272565, "train/actor_opt_grad_steps": 131475.0, "train/actor_opt_loss": -14.24646229752236, "train/adv_mag": 0.4899665229022503, "train/adv_max": 0.4616095746556918, "train/adv_mean": 0.003046253132323626, "train/adv_min": -0.4100515627198749, "train/adv_std": 0.05657635774049494, "train/cont_avg": 0.9941134982638888, "train/cont_loss_mean": 3.62799054212104e-05, "train/cont_loss_std": 0.0009802725066063228, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.0041635582984109005, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.5186222497792161e-05, "train/cont_pred": 0.9941129518879784, "train/cont_rate": 0.9941134982638888, "train/dyn_loss_mean": 4.577964776092106, "train/dyn_loss_std": 8.550871094067892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047063685953617, "train/extr_critic_critic_opt_grad_steps": 131475.0, "train/extr_critic_critic_opt_loss": 16276.487481011285, "train/extr_critic_mag": 7.548030813535054, "train/extr_critic_max": 7.548030813535054, "train/extr_critic_mean": 1.7605929639604356, "train/extr_critic_min": -0.6313939260111915, "train/extr_critic_std": 1.7355039831664827, "train/extr_return_normed_mag": 1.5507912751701143, "train/extr_return_normed_max": 1.5507912751701143, "train/extr_return_normed_mean": 0.3702422502554125, "train/extr_return_normed_min": -0.13586557584090364, "train/extr_return_normed_std": 0.32718314189049935, "train/extr_return_rate": 0.6746211614873674, "train/extr_return_raw_mag": 8.169219619697994, "train/extr_return_raw_max": 8.169219619697994, "train/extr_return_raw_mean": 1.7770971341265573, "train/extr_return_raw_min": -0.963616218831804, "train/extr_return_raw_std": 1.7715631590949164, "train/extr_reward_mag": 1.035524543788698, "train/extr_reward_max": 1.035524543788698, "train/extr_reward_mean": 0.038628967504741415, "train/extr_reward_min": -0.6584630360205969, "train/extr_reward_std": 0.19506478123366833, "train/image_loss_mean": 2.679642755124304, "train/image_loss_std": 7.461637785037358, "train/model_loss_mean": 5.473364803526136, "train/model_loss_std": 11.572181748019325, "train/model_opt_grad_norm": 36.03887395064036, "train/model_opt_grad_steps": 131367.23611111112, "train/model_opt_loss": 11566.683634440104, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2118.0555555555557, "train/policy_entropy_mag": 2.375983330938551, "train/policy_entropy_max": 2.375983330938551, "train/policy_entropy_mean": 0.34440335383017856, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44122208654880524, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.345198057177994, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9615107013119591, "train/policy_randomness_mag": 0.8386178505089548, "train/policy_randomness_max": 0.8386178505089548, "train/policy_randomness_mean": 0.1215592711750004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1557320343951384, "train/post_ent_mag": 55.358465883466934, "train/post_ent_max": 55.358465883466934, "train/post_ent_mean": 40.49331029256185, "train/post_ent_min": 18.931657446755302, "train/post_ent_std": 5.817295551300049, "train/prior_ent_mag": 75.74460856119792, "train/prior_ent_max": 75.74460856119792, "train/prior_ent_mean": 44.995103200276695, "train/prior_ent_min": 26.788968483606975, "train/prior_ent_std": 7.275108443366157, "train/rep_loss_mean": 4.577964776092106, "train/rep_loss_std": 8.550871094067892, "train/reward_avg": 0.02854682058872034, "train/reward_loss_mean": 0.046906937638090715, "train/reward_loss_std": 0.1938538122922182, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0202239288224115, "train/reward_neg_acc": 0.9951090398761961, "train/reward_neg_loss": 0.022858178100755647, "train/reward_pos_acc": 0.9880342781543732, "train/reward_pos_loss": 0.7323840608199438, "train/reward_pred": 0.028341076388541196, "train/reward_rate": 0.033854166666666664, "stats/sum_log_reward": 7.100000108991351, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.42857142857142855, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 2.2857142857142856, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 4.571428571428571, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3293706348964146, "replay/size": 264700.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.710493341192499e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.242819365921554e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29454612731934, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.01224708557129, "timer/env.step_frac": 0.06997212355852273, "timer/env.step_avg": 0.014693879080819084, "timer/env.step_min": 0.002978086471557617, "timer/env.step_max": 2.7362194061279297, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26170945167541504, "timer/replay.add_frac": 0.0008715091734115447, "timer/replay.add_avg": 0.0001830136025702203, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0016241073608398438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028026580810546875, "timer/logger.write_frac": 9.33303024380074e-05, "timer/logger.write_avg": 0.028026580810546875, "timer/logger.write_min": 0.028026580810546875, "timer/logger.write_max": 0.028026580810546875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038909912109375, "timer/checkpoint.save_frac": 1.2957249011401598e-06, "timer/checkpoint.save_avg": 0.00038909912109375, "timer/checkpoint.save_min": 0.00038909912109375, "timer/checkpoint.save_max": 0.00038909912109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3519623279571533, "timer/agent.save_frac": 0.004502120819017293, "timer/agent.save_avg": 1.3519623279571533, "timer/agent.save_min": 1.3519623279571533, "timer/agent.save_max": 1.3519623279571533, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.01663066721569e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.585907697677612, "timer/agent.policy_frac": 0.03858181191464397, "timer/agent.policy_avg": 0.008102033355019309, "timer/agent.policy_min": 0.005678415298461914, "timer/agent.policy_max": 1.3473005294799805, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06413888931274414, "timer/dataset_frac": 0.00021358659402875214, "timer/dataset_avg": 8.970474029754425e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.65860056877136, "timer/agent.train_frac": 0.8879901550250368, "timer/agent.train_avg": 0.37294909170457535, "timer/agent.train_min": 0.3637831211090088, "timer/agent.train_max": 0.8842785358428955, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22210979461669922, "timer/agent.report_frac": 0.0007396397886045149, "timer/agent.report_avg": 0.22210979461669922, "timer/agent.report_min": 0.22210979461669922, "timer/agent.report_max": 0.22210979461669922, "fps": 4.761894059689566}
+{"step": 264782, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05113636363636364}
+{"step": 264956, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04597701149425287}
+{"step": 265148, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.057291666666666664}
+{"step": 265182, "episode/length": 33.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.058823529411764705}
+{"step": 265371, "episode/length": 188.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.0582010582010582}
+{"step": 265532, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.049689440993788817}
+{"step": 265744, "episode/length": 211.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.04245283018867924}
+{"step": 265908, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04878048780487805}
+{"step": 266076, "episode/length": 167.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.047619047619047616}
+{"step": 266199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486746893988715, "train/action_min": 0.0, "train/action_std": 3.3159070346090527, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049184213340696364, "train/actor_opt_grad_steps": 132195.0, "train/actor_opt_loss": -12.721340536311295, "train/adv_mag": 0.5201133588949839, "train/adv_max": 0.470995648453633, "train/adv_mean": 0.0027443411122223755, "train/adv_min": -0.42779527066482437, "train/adv_std": 0.05471300525176856, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 0.0001026290043234389, "train/cont_loss_std": 0.003084707632963399, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.015229261987100371, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.2116451986736114e-05, "train/cont_pred": 0.9948324056135284, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 4.6044351226753655, "train/dyn_loss_std": 8.585386799441444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1107343741589122, "train/extr_critic_critic_opt_grad_steps": 132195.0, "train/extr_critic_critic_opt_loss": 16214.140584309896, "train/extr_critic_mag": 7.791816943221622, "train/extr_critic_max": 7.791816943221622, "train/extr_critic_mean": 1.6404571384191513, "train/extr_critic_min": -0.6395042588313421, "train/extr_critic_std": 1.72613339457247, "train/extr_return_normed_mag": 1.56808226969507, "train/extr_return_normed_max": 1.56808226969507, "train/extr_return_normed_mean": 0.34185973596241737, "train/extr_return_normed_min": -0.13594649162971312, "train/extr_return_normed_std": 0.3205046947631571, "train/extr_return_rate": 0.6520191671119796, "train/extr_return_raw_mag": 8.381911350621117, "train/extr_return_raw_max": 8.381911350621117, "train/extr_return_raw_mean": 1.655513991912206, "train/extr_return_raw_min": -0.9640022226505809, "train/extr_return_raw_std": 1.7583248631821737, "train/extr_reward_mag": 1.0319265325864155, "train/extr_reward_max": 1.0319265325864155, "train/extr_reward_mean": 0.035754984658625394, "train/extr_reward_min": -0.6799800412522422, "train/extr_reward_std": 0.18771080921093622, "train/image_loss_mean": 2.7047319130765066, "train/image_loss_std": 7.548264775011274, "train/model_loss_mean": 5.511092868116167, "train/model_loss_std": 11.686361405584547, "train/model_opt_grad_norm": 34.27616230646769, "train/model_opt_grad_steps": 132086.0, "train/model_opt_loss": 6888.866082085504, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4171668224864535, "train/policy_entropy_max": 2.4171668224864535, "train/policy_entropy_mean": 0.37930352654722, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47322405295239556, "train/policy_logprob_mag": 7.438384135564168, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37905338240994346, "train/policy_logprob_min": -7.438384135564168, "train/policy_logprob_std": 0.9834938736425506, "train/policy_randomness_mag": 0.8531538173556328, "train/policy_randomness_max": 0.8531538173556328, "train/policy_randomness_mean": 0.13387749892556006, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16702732350677252, "train/post_ent_mag": 55.13087855445014, "train/post_ent_max": 55.13087855445014, "train/post_ent_mean": 40.563245084550644, "train/post_ent_min": 18.66083249780867, "train/post_ent_std": 5.848853011926015, "train/prior_ent_mag": 75.76889091067844, "train/prior_ent_max": 75.76889091067844, "train/prior_ent_mean": 45.08995236290826, "train/prior_ent_min": 26.93499191602071, "train/prior_ent_std": 7.152924802568224, "train/rep_loss_mean": 4.6044351226753655, "train/rep_loss_std": 8.585386799441444, "train/reward_avg": 0.024810112779960036, "train/reward_loss_mean": 0.04359731753356755, "train/reward_loss_std": 0.19297017850395706, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0161417126655579, "train/reward_neg_acc": 0.9947568385137452, "train/reward_neg_loss": 0.022133172256872058, "train/reward_pos_acc": 0.9850231359402338, "train/reward_pos_loss": 0.7438453982273737, "train/reward_pred": 0.024352128617465496, "train/reward_rate": 0.029608832465277776, "stats/sum_log_reward": 7.322222352027893, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_stone": 0.8888888888888888, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5555555555555556, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.273228676782714, "replay/size": 266136.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.726203461543431e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2391415479123425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3739900588989, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.54156184196472, "timer/env.step_frac": 0.07171580281548591, "timer/env.step_avg": 0.015001087633680169, "timer/env.step_min": 0.0028123855590820312, "timer/env.step_max": 1.6254746913909912, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2773444652557373, "timer/replay.add_frac": 0.0009233304960970626, "timer/replay.add_avg": 0.00019313681424494241, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.005975246429443359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02346038818359375, "timer/logger.write_frac": 7.81039269711519e-05, "timer/logger.write_avg": 0.02346038818359375, "timer/logger.write_min": 0.02346038818359375, "timer/logger.write_max": 0.02346038818359375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.349061727523804, "timer/agent.policy_frac": 0.03445392101191753, "timer/agent.policy_avg": 0.00720686749827563, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 0.018073081970214844, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06483864784240723, "timer/dataset_frac": 0.00021585972816652108, "timer/dataset_avg": 9.030452345739168e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.42102551460266, "timer/agent.train_frac": 0.89029354859309, "timer/agent.train_avg": 0.3724526817752126, "timer/agent.train_min": 0.36589550971984863, "timer/agent.train_max": 0.38663506507873535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22458624839782715, "timer/agent.report_frac": 0.0007476887341470182, "timer/agent.report_avg": 0.22458624839782715, "timer/agent.report_min": 0.22458624839782715, "timer/agent.report_max": 0.22458624839782715, "fps": 4.78061600880605}
+{"step": 266254, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
+{"step": 266430, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03977272727272727}
+{"step": 266586, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.0641025641025641}
+{"step": 266986, "episode/length": 399.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.0275}
+{"step": 267171, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 267534, "episode/length": 362.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.030303030303030304}
+{"step": 267655, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4043324788411455, "train/action_min": 0.0, "train/action_std": 3.2704690992832184, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048724267010887466, "train/actor_opt_grad_steps": 132915.0, "train/actor_opt_loss": -15.199972975171274, "train/adv_mag": 0.5116301572157277, "train/adv_max": 0.4828990225990613, "train/adv_mean": 0.0019077490030415195, "train/adv_min": -0.43478550637761754, "train/adv_std": 0.054316685535013676, "train/cont_avg": 0.9940728081597222, "train/cont_loss_mean": 0.0002665555061322304, "train/cont_loss_std": 0.008384260979572863, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.009233947727024214, "train/cont_pos_acc": 0.9999863356351852, "train/cont_pos_loss": 0.00017904622685923263, "train/cont_pred": 0.9940617746777005, "train/cont_rate": 0.9940728081597222, "train/dyn_loss_mean": 4.75055518746376, "train/dyn_loss_std": 8.599818448225657, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343968354993396, "train/extr_critic_critic_opt_grad_steps": 132915.0, "train/extr_critic_critic_opt_loss": 16040.834526909723, "train/extr_critic_mag": 7.779146313667297, "train/extr_critic_max": 7.779146313667297, "train/extr_critic_mean": 1.614857046140565, "train/extr_critic_min": -0.6224734253353543, "train/extr_critic_std": 1.749464472134908, "train/extr_return_normed_mag": 1.5749510725339253, "train/extr_return_normed_max": 1.5749510725339253, "train/extr_return_normed_mean": 0.33874778428839314, "train/extr_return_normed_min": -0.13141521645916832, "train/extr_return_normed_std": 0.3263243908683459, "train/extr_return_rate": 0.6339509499569734, "train/extr_return_raw_mag": 8.360313600964016, "train/extr_return_raw_max": 8.360313600964016, "train/extr_return_raw_mean": 1.625224416454633, "train/extr_return_raw_min": -0.9367327392101288, "train/extr_return_raw_std": 1.778073752919833, "train/extr_reward_mag": 1.0366606348090701, "train/extr_reward_max": 1.0366606348090701, "train/extr_reward_mean": 0.035536864306777716, "train/extr_reward_min": -0.6595153328445222, "train/extr_reward_std": 0.1883455543882317, "train/image_loss_mean": 2.835057912601365, "train/image_loss_std": 7.477454589472877, "train/model_loss_mean": 5.730398615201314, "train/model_loss_std": 11.572678022914463, "train/model_opt_grad_norm": 35.941219329833984, "train/model_opt_grad_steps": 132806.0, "train/model_opt_loss": 14126.896118164062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.38343408703804, "train/policy_entropy_max": 2.38343408703804, "train/policy_entropy_mean": 0.3596183508634567, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45282699209120536, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3593347238169776, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.967953183584743, "train/policy_randomness_mag": 0.8412476380666097, "train/policy_randomness_max": 0.8412476380666097, "train/policy_randomness_mean": 0.12692949693236086, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15982805606391695, "train/post_ent_mag": 55.30157205793593, "train/post_ent_max": 55.30157205793593, "train/post_ent_mean": 40.58281135559082, "train/post_ent_min": 18.70965838432312, "train/post_ent_std": 5.866794758372837, "train/prior_ent_mag": 75.77310064103868, "train/prior_ent_max": 75.77310064103868, "train/prior_ent_mean": 45.27075878779093, "train/prior_ent_min": 26.594149324629043, "train/prior_ent_std": 7.306698011027442, "train/rep_loss_mean": 4.75055518746376, "train/rep_loss_std": 8.599818448225657, "train/reward_avg": 0.026105414274045162, "train/reward_loss_mean": 0.044741029695918165, "train/reward_loss_std": 0.1886780777325233, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0193360216087766, "train/reward_neg_acc": 0.9946940913796425, "train/reward_neg_loss": 0.022382418715601995, "train/reward_pos_acc": 0.9883203829328219, "train/reward_pos_loss": 0.7341555315587256, "train/reward_pred": 0.025817757498265967, "train/reward_rate": 0.03138563368055555, "stats/sum_log_reward": 8.43333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 10.166666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 0.3333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.40889247755209607, "replay/size": 267592.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.7542738757290684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2553614246976245e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3118004798889, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.010074377059937, "timer/env.step_frac": 0.05664137856014438, "timer/env.step_avg": 0.011682743390837868, "timer/env.step_min": 0.0031015872955322266, "timer/env.step_max": 1.7422981262207031, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2801330089569092, "timer/replay.add_frac": 0.0009328071974170358, "timer/replay.add_avg": 0.0001923990446132618, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.007278919219970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03065204620361328, "timer/logger.write_frac": 0.00010206740512571356, "timer/logger.write_avg": 0.03065204620361328, "timer/logger.write_min": 0.03065204620361328, "timer/logger.write_max": 0.03065204620361328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.684545040130615, "timer/agent.policy_frac": 0.035578172496242386, "timer/agent.policy_avg": 0.007338286428661137, "timer/agent.policy_min": 0.005614280700683594, "timer/agent.policy_max": 0.019020795822143555, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06701493263244629, "timer/dataset_frac": 0.00022315117995815853, "timer/dataset_avg": 9.205347889072293e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00022673606872558594, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.52983808517456, "timer/agent.train_frac": 0.9041597354858462, "timer/agent.train_avg": 0.37298054682029474, "timer/agent.train_min": 0.366579532623291, "timer/agent.train_max": 0.41488027572631836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051119804382324, "timer/agent.report_frac": 0.0007342741700174726, "timer/agent.report_avg": 0.22051119804382324, "timer/agent.report_min": 0.22051119804382324, "timer/agent.report_max": 0.22051119804382324, "fps": 4.848207540370449}
+{"step": 267740, "episode/length": 205.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.038834951456310676}
+{"step": 267944, "episode/length": 203.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.024509803921568627}
+{"step": 268198, "episode/length": 253.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03937007874015748}
+{"step": 268469, "episode/length": 270.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.02952029520295203}
+{"step": 268619, "episode/length": 149.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.03333333333333333}
+{"step": 268827, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 269087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.541503058539496, "train/action_min": 0.0, "train/action_std": 3.404983702633116, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05088829989027646, "train/actor_opt_grad_steps": 133635.0, "train/actor_opt_loss": -13.109613666103947, "train/adv_mag": 0.5508735047446357, "train/adv_max": 0.5014346150888337, "train/adv_mean": 0.0033796869293812254, "train/adv_min": -0.42324807970888084, "train/adv_std": 0.056542553938925266, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 5.024953668690083e-05, "train/cont_loss_std": 0.0014456499759521397, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005569910178286995, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 9.400322430488631e-06, "train/cont_pred": 0.994395073917177, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.7391535805331335, "train/dyn_loss_std": 8.60563220580419, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0993094700906012, "train/extr_critic_critic_opt_grad_steps": 133635.0, "train/extr_critic_critic_opt_loss": 16328.987806532117, "train/extr_critic_mag": 7.9681481917699175, "train/extr_critic_max": 7.9681481917699175, "train/extr_critic_mean": 1.7156247744957607, "train/extr_critic_min": -0.5663719574610392, "train/extr_critic_std": 1.7929838846127193, "train/extr_return_normed_mag": 1.5818437387545903, "train/extr_return_normed_max": 1.5818437387545903, "train/extr_return_normed_mean": 0.3486598746644126, "train/extr_return_normed_min": -0.12179790866664714, "train/extr_return_normed_std": 0.3301134953896205, "train/extr_return_rate": 0.6550003969007068, "train/extr_return_raw_mag": 8.574450148476494, "train/extr_return_raw_max": 8.574450148476494, "train/extr_return_raw_mean": 1.7343510389328003, "train/extr_return_raw_min": -0.8728541053003736, "train/extr_return_raw_std": 1.8311111877361934, "train/extr_reward_mag": 1.0277131663428412, "train/extr_reward_max": 1.0277131663428412, "train/extr_reward_mean": 0.03864403198369675, "train/extr_reward_min": -0.651956738697158, "train/extr_reward_std": 0.19336655032303599, "train/image_loss_mean": 3.0062757117880716, "train/image_loss_std": 8.340566350354088, "train/model_loss_mean": 5.894772999816471, "train/model_loss_std": 12.418773982259962, "train/model_opt_grad_norm": 37.69939788182577, "train/model_opt_grad_steps": 133525.04166666666, "train/model_opt_loss": 11886.501017252604, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2048.6111111111113, "train/policy_entropy_mag": 2.3956768678294287, "train/policy_entropy_max": 2.3956768678294287, "train/policy_entropy_mean": 0.37760861880249447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4745265576574538, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3792019399503867, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9889629988206757, "train/policy_randomness_mag": 0.8455688009659449, "train/policy_randomness_max": 0.8455688009659449, "train/policy_randomness_mean": 0.13327926956117153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1674870496822728, "train/post_ent_mag": 55.006122536129425, "train/post_ent_max": 55.006122536129425, "train/post_ent_mean": 40.44199540879991, "train/post_ent_min": 18.768434392081367, "train/post_ent_std": 5.760513173209296, "train/prior_ent_mag": 75.92092937893338, "train/prior_ent_max": 75.92092937893338, "train/prior_ent_mean": 45.0993324915568, "train/prior_ent_min": 27.309229850769043, "train/prior_ent_std": 7.247818211714427, "train/rep_loss_mean": 4.7391535805331335, "train/rep_loss_std": 8.60563220580419, "train/reward_avg": 0.027202690886850987, "train/reward_loss_mean": 0.04495498354339765, "train/reward_loss_std": 0.19274178457756838, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.013124167919159, "train/reward_neg_acc": 0.9950967927773794, "train/reward_neg_loss": 0.02211390646536731, "train/reward_pos_acc": 0.9869528495603137, "train/reward_pos_loss": 0.7340534122453796, "train/reward_pred": 0.026897557855894167, "train/reward_rate": 0.032145182291666664, "stats/sum_log_reward": 6.433333317438762, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 12.333333333333334, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 3.6666666666666665, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.33359119047721225, "replay/size": 269024.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.710139397136326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2300117721770729e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02561688423157, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.147491455078125, "timer/env.step_frac": 0.057153424541394035, "timer/env.step_avg": 0.011974505206060143, "timer/env.step_min": 0.003070354461669922, "timer/env.step_max": 1.7097349166870117, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27546262741088867, "timer/replay.add_frac": 0.0009181303592392219, "timer/replay.add_avg": 0.00019236216997967087, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003436565399169922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02626824378967285, "timer/logger.write_frac": 8.755333648662661e-05, "timer/logger.write_avg": 0.02626824378967285, "timer/logger.write_min": 0.02626824378967285, "timer/logger.write_max": 0.02626824378967285, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004754066467285156, "timer/checkpoint.save_frac": 1.584553518014953e-06, "timer/checkpoint.save_avg": 0.0004754066467285156, "timer/checkpoint.save_min": 0.0004754066467285156, "timer/checkpoint.save_max": 0.0004754066467285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3427038192749023, "timer/agent.save_frac": 0.00447529725367751, "timer/agent.save_avg": 1.3427038192749023, "timer/agent.save_min": 1.3427038192749023, "timer/agent.save_max": 1.3427038192749023, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4555016904043153e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.625343799591064, "timer/agent.policy_frac": 0.03874783733575937, "timer/agent.policy_avg": 0.00811825684328985, "timer/agent.policy_min": 0.00564122200012207, "timer/agent.policy_max": 1.330155849456787, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06552386283874512, "timer/dataset_frac": 0.00021839422753033876, "timer/dataset_avg": 9.151377491444849e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00023245811462402344, "timer/agent.train_count": 716.0, "timer/agent.train_total": 270.20132303237915, "timer/agent.train_frac": 0.9005941753854956, "timer/agent.train_avg": 0.37737614948656306, "timer/agent.train_min": 0.3648343086242676, "timer/agent.train_max": 3.664905071258545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21801137924194336, "timer/agent.report_frac": 0.0007266425497462292, "timer/agent.report_avg": 0.21801137924194336, "timer/agent.report_min": 0.21801137924194336, "timer/agent.report_max": 0.21801137924194336, "fps": 4.7728417912943755}
+{"step": 269163, "episode/length": 335.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.026785714285714284}
+{"step": 269335, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
+{"step": 269491, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05128205128205128}
+{"step": 269639, "episode/length": 147.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.05405405405405406}
+{"step": 269801, "episode/length": 161.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.043209876543209874}
+{"step": 269991, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042105263157894736}
+{"step": 270166, "episode/length": 174.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.045714285714285714}
+{"step": 270362, "episode/length": 195.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.04591836734693878}
+{"step": 270531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.575443691677517, "train/action_min": 0.0, "train/action_std": 3.4182731608549752, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051695754958523646, "train/actor_opt_grad_steps": 134355.0, "train/actor_opt_loss": -11.232186688420674, "train/adv_mag": 0.4804020623366038, "train/adv_max": 0.4526730966236856, "train/adv_mean": 0.004099727530564855, "train/adv_min": -0.4136431747012668, "train/adv_std": 0.05757877297906412, "train/cont_avg": 0.9940863715277778, "train/cont_loss_mean": 2.9115057900399835e-05, "train/cont_loss_std": 0.0008012574931276125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012825102108738268, "train/cont_pos_acc": 0.9999863654375076, "train/cont_pos_loss": 2.421328156978733e-05, "train/cont_pred": 0.9940728288557794, "train/cont_rate": 0.9940863715277778, "train/dyn_loss_mean": 4.687393052710427, "train/dyn_loss_std": 8.58729973104265, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0571919952829678, "train/extr_critic_critic_opt_grad_steps": 134355.0, "train/extr_critic_critic_opt_loss": 16479.49107530382, "train/extr_critic_mag": 7.819504982895321, "train/extr_critic_max": 7.819504982895321, "train/extr_critic_mean": 1.8182092424896028, "train/extr_critic_min": -0.6106658577919006, "train/extr_critic_std": 1.817505967285898, "train/extr_return_normed_mag": 1.5403900626632903, "train/extr_return_normed_max": 1.5403900626632903, "train/extr_return_normed_mean": 0.3663736805319786, "train/extr_return_normed_min": -0.1249390175152156, "train/extr_return_normed_std": 0.3309110138151381, "train/extr_return_rate": 0.667113385680649, "train/extr_return_raw_mag": 8.413922521803114, "train/extr_return_raw_max": 8.413922521803114, "train/extr_return_raw_mean": 1.8411409225728776, "train/extr_return_raw_min": -0.910517253809505, "train/extr_return_raw_std": 1.8532071709632874, "train/extr_reward_mag": 1.0330549014939203, "train/extr_reward_max": 1.0330549014939203, "train/extr_reward_mean": 0.04068582533444795, "train/extr_reward_min": -0.6574126829703649, "train/extr_reward_std": 0.19991009475456345, "train/image_loss_mean": 2.839947667386797, "train/image_loss_std": 7.634464495711857, "train/model_loss_mean": 5.69971776008606, "train/model_loss_std": 11.742936081356472, "train/model_opt_grad_norm": 37.308947536680435, "train/model_opt_grad_steps": 134244.0, "train/model_opt_loss": 7124.647162543402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.386476629310184, "train/policy_entropy_max": 2.386476629310184, "train/policy_entropy_mean": 0.36420755295289886, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4615221495429675, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3641756541199154, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9736425719327397, "train/policy_randomness_mag": 0.8423215258452628, "train/policy_randomness_max": 0.8423215258452628, "train/policy_randomness_mean": 0.12854928326689535, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1628970629018214, "train/post_ent_mag": 55.094929218292236, "train/post_ent_max": 55.094929218292236, "train/post_ent_mean": 40.507172425587974, "train/post_ent_min": 19.127645823690628, "train/post_ent_std": 5.8166462779045105, "train/prior_ent_mag": 75.8156385421753, "train/prior_ent_max": 75.8156385421753, "train/prior_ent_mean": 45.11741590499878, "train/prior_ent_min": 26.757535033755833, "train/prior_ent_std": 7.345859640174442, "train/rep_loss_mean": 4.687393052710427, "train/rep_loss_std": 8.58729973104265, "train/reward_avg": 0.027791340796587367, "train/reward_loss_mean": 0.047305191297911935, "train/reward_loss_std": 0.1996637520690759, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0192887882391612, "train/reward_neg_acc": 0.9949507787823677, "train/reward_neg_loss": 0.02393385629531824, "train/reward_pos_acc": 0.9894189718696806, "train/reward_pos_loss": 0.728863319589032, "train/reward_pred": 0.02760592751049747, "train/reward_rate": 0.033203125, "stats/sum_log_reward": 7.100000202655792, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 1.0, "stats/max_log_achievement_collect_wood": 12.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 3.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3098527304828167, "replay/size": 270468.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.81816457183077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2402017691128802e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28811049461365, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.322359085083008, "timer/env.step_frac": 0.06767620286933583, "timer/env.step_avg": 0.014073655876096266, "timer/env.step_min": 0.003077268600463867, "timer/env.step_max": 1.6863987445831299, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2666630744934082, "timer/replay.add_frac": 0.0008880240847837078, "timer/replay.add_avg": 0.00018466971917826053, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0032906532287597656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029572486877441406, "timer/logger.write_frac": 9.848037882263027e-05, "timer/logger.write_avg": 0.029572486877441406, "timer/logger.write_min": 0.029572486877441406, "timer/logger.write_max": 0.029572486877441406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.388852834701538, "timer/agent.policy_frac": 0.03459628427375877, "timer/agent.policy_avg": 0.0071944964229235025, "timer/agent.policy_min": 0.005671501159667969, "timer/agent.policy_max": 0.016099214553833008, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06468772888183594, "timer/dataset_frac": 0.00021541888147115387, "timer/dataset_avg": 8.959519235711349e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5274043083191, "timer/agent.train_frac": 0.894232555081916, "timer/agent.train_avg": 0.3719216126154004, "timer/agent.train_min": 0.36550474166870117, "timer/agent.train_max": 0.38335251808166504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017574310302734, "timer/agent.report_frac": 0.0007332149872346568, "timer/agent.report_avg": 0.22017574310302734, "timer/agent.report_min": 0.22017574310302734, "timer/agent.report_max": 0.22017574310302734, "fps": 4.808636253024266}
+{"step": 270562, "episode/length": 199.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.045}
+{"step": 270744, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03296703296703297}
+{"step": 270798, "episode/length": 53.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.100000001490116, "episode/reward_rate": 0.07407407407407407}
+{"step": 270857, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.1016949152542373}
+{"step": 270907, "episode/length": 49.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.1}
+{"step": 271078, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05263157894736842}
+{"step": 271237, "episode/length": 158.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05660377358490566}
+{"step": 271442, "episode/length": 204.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.5, "episode/reward_rate": 0.04878048780487805}
+{"step": 271587, "episode/length": 144.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04827586206896552}
+{"step": 271846, "episode/length": 258.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03861003861003861}
+{"step": 271959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.515130784776476, "train/action_min": 0.0, "train/action_std": 3.424753722217348, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04879810997388429, "train/actor_opt_grad_steps": 135075.0, "train/actor_opt_loss": -13.291637075651023, "train/adv_mag": 0.5469393307964007, "train/adv_max": 0.5011769218577279, "train/adv_mean": 0.003027542589128037, "train/adv_min": -0.4469620957970619, "train/adv_std": 0.056047947301218905, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 3.339996940394169e-05, "train/cont_loss_std": 0.0009766388538842029, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0037982147068633923, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 7.482239828012401e-06, "train/cont_pred": 0.9944164347317483, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.580723904901081, "train/dyn_loss_std": 8.504556198914846, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0520722857779927, "train/extr_critic_critic_opt_grad_steps": 135075.0, "train/extr_critic_critic_opt_loss": 16077.305962456598, "train/extr_critic_mag": 8.153666423426735, "train/extr_critic_max": 8.153666423426735, "train/extr_critic_mean": 1.8603279872073069, "train/extr_critic_min": -0.5747046967347463, "train/extr_critic_std": 1.8340364495913188, "train/extr_return_normed_mag": 1.5937921520736482, "train/extr_return_normed_max": 1.5937921520736482, "train/extr_return_normed_mean": 0.36507801256246036, "train/extr_return_normed_min": -0.1145207475249966, "train/extr_return_normed_std": 0.3310352410707209, "train/extr_return_rate": 0.6729203189412752, "train/extr_return_raw_mag": 8.818905187977684, "train/extr_return_raw_max": 8.818905187977684, "train/extr_return_raw_mean": 1.8773900949292712, "train/extr_return_raw_min": -0.8330460612972578, "train/extr_return_raw_std": 1.8704747011264165, "train/extr_reward_mag": 1.029857532845603, "train/extr_reward_max": 1.029857532845603, "train/extr_reward_mean": 0.03832749536054002, "train/extr_reward_min": -0.6457128690348731, "train/extr_reward_std": 0.1926310881972313, "train/image_loss_mean": 2.716726208726565, "train/image_loss_std": 7.046246058411068, "train/model_loss_mean": 5.51026756895913, "train/model_loss_std": 11.115752769841087, "train/model_opt_grad_norm": 31.676758726437885, "train/model_opt_grad_steps": 134964.0, "train/model_opt_loss": 13674.551771375867, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3985121813085346, "train/policy_entropy_max": 2.3985121813085346, "train/policy_entropy_mean": 0.3646661904123094, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4614360038605001, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36346087749633527, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9701330893569522, "train/policy_randomness_mag": 0.8465695422556665, "train/policy_randomness_max": 0.8465695422556665, "train/policy_randomness_mean": 0.1287111604793204, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16286666008333364, "train/post_ent_mag": 55.320459842681885, "train/post_ent_max": 55.320459842681885, "train/post_ent_mean": 40.81535731421577, "train/post_ent_min": 18.628421584765118, "train/post_ent_std": 5.828283091386159, "train/prior_ent_mag": 75.70523632897272, "train/prior_ent_max": 75.70523632897272, "train/prior_ent_mean": 45.324257373809814, "train/prior_ent_min": 26.871194044748943, "train/prior_ent_std": 7.241733206642999, "train/rep_loss_mean": 4.580723904901081, "train/rep_loss_std": 8.504556198914846, "train/reward_avg": 0.02781439871372034, "train/reward_loss_mean": 0.045073574564109244, "train/reward_loss_std": 0.18639978642265, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0118645363383822, "train/reward_neg_acc": 0.9954814894331826, "train/reward_neg_loss": 0.021856640497895166, "train/reward_pos_acc": 0.9904842798908552, "train/reward_pos_loss": 0.7291372675034735, "train/reward_pred": 0.02753733225270278, "train/reward_rate": 0.03286404079861111, "stats/sum_log_reward": 6.100000095367432, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.3, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.2, "stats/max_log_achievement_collect_wood": 9.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 1.8, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.9, "stats/mean_log_entropy": 0.3065332621335983, "replay/size": 271896.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7836427448176537e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2262570423906256e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36375188827515, "timer/env.step_count": 1428.0, "timer/env.step_total": 23.470728158950806, "timer/env.step_frac": 0.07814101405845103, "timer/env.step_avg": 0.016436084144923535, "timer/env.step_min": 0.003080129623413086, "timer/env.step_max": 1.7559890747070312, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.25404787063598633, "timer/replay.add_frac": 0.0008458006967847547, "timer/replay.add_avg": 0.0001779046713137159, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0024890899658203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027959108352661133, "timer/logger.write_frac": 9.308416270902405e-05, "timer/logger.write_avg": 0.027959108352661133, "timer/logger.write_min": 0.027959108352661133, "timer/logger.write_max": 0.027959108352661133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.202182054519653, "timer/agent.policy_frac": 0.03396608941785529, "timer/agent.policy_avg": 0.007144385192240654, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.01572108268737793, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06380295753479004, "timer/dataset_frac": 0.0002124189657829368, "timer/dataset_avg": 8.935988450250705e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00016164779663085938, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.6635653972626, "timer/agent.train_frac": 0.8844727891669171, "timer/agent.train_avg": 0.3720778226852417, "timer/agent.train_min": 0.36600780487060547, "timer/agent.train_max": 0.3882899284362793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21934890747070312, "timer/agent.report_frac": 0.0007302775587657904, "timer/agent.report_avg": 0.21934890747070312, "timer/agent.report_min": 0.21934890747070312, "timer/agent.report_max": 0.21934890747070312, "fps": 4.754152770583272}
+{"step": 271991, "episode/length": 144.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05517241379310345}
+{"step": 272175, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.043478260869565216}
+{"step": 272389, "episode/length": 213.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04205607476635514}
+{"step": 272552, "episode/length": 162.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05521472392638037}
+{"step": 272719, "episode/length": 166.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.04790419161676647}
+{"step": 272902, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
+{"step": 273151, "episode/length": 248.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.0321285140562249}
+{"step": 273307, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
+{"step": 273379, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570904798910651, "train/action_min": 0.0, "train/action_std": 3.5169111473459593, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050086894190647234, "train/actor_opt_grad_steps": 135790.0, "train/actor_opt_loss": -12.087057338634008, "train/adv_mag": 0.510194826293999, "train/adv_max": 0.45643685233425085, "train/adv_mean": 0.0028749361089736134, "train/adv_min": -0.42331243652692985, "train/adv_std": 0.05647676201983237, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 2.4038665577083366e-05, "train/cont_loss_std": 0.0006514158163229336, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003177067392756162, "train/cont_pos_acc": 0.9999999764939429, "train/cont_pos_loss": 2.2313269308732532e-05, "train/cont_pred": 0.9944936784220414, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 4.574303929234894, "train/dyn_loss_std": 8.527038097381592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0537944343728078, "train/extr_critic_critic_opt_grad_steps": 135790.0, "train/extr_critic_critic_opt_loss": 16292.914406360036, "train/extr_critic_mag": 8.072642131590507, "train/extr_critic_max": 8.072642131590507, "train/extr_critic_mean": 1.8722658879320386, "train/extr_critic_min": -0.6118959792902772, "train/extr_critic_std": 1.820188349401447, "train/extr_return_normed_mag": 1.5371360946709, "train/extr_return_normed_max": 1.5371360946709, "train/extr_return_normed_mean": 0.3642011885072144, "train/extr_return_normed_min": -0.12865301525928605, "train/extr_return_normed_std": 0.32385333533018407, "train/extr_return_rate": 0.6819698499961638, "train/extr_return_raw_mag": 8.599015262764944, "train/extr_return_raw_max": 8.599015262764944, "train/extr_return_raw_mean": 1.888695132564491, "train/extr_return_raw_min": -0.9303906635499336, "train/extr_return_raw_std": 1.8525080177145945, "train/extr_reward_mag": 1.0316475780916885, "train/extr_reward_max": 1.0316475780916885, "train/extr_reward_mean": 0.03779212180787409, "train/extr_reward_min": -0.675610859629134, "train/extr_reward_std": 0.1920607173946542, "train/image_loss_mean": 2.7442266420579293, "train/image_loss_std": 7.894249754892269, "train/model_loss_mean": 5.532967570801856, "train/model_loss_std": 11.960209550991864, "train/model_opt_grad_norm": 34.01906591066172, "train/model_opt_grad_steps": 135678.29577464788, "train/model_opt_loss": 8922.543408890846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1619.718309859155, "train/policy_entropy_mag": 2.3762512912212963, "train/policy_entropy_max": 2.3762512912212963, "train/policy_entropy_mean": 0.36463673475762487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46344128964652476, "train/policy_logprob_mag": 7.438384170263586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36483985122660517, "train/policy_logprob_min": -7.438384170263586, "train/policy_logprob_std": 0.9729219381238373, "train/policy_randomness_mag": 0.8387124269780978, "train/policy_randomness_max": 0.8387124269780978, "train/policy_randomness_mean": 0.12870076456120316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16357443775509445, "train/post_ent_mag": 54.46241491613254, "train/post_ent_max": 54.46241491613254, "train/post_ent_mean": 40.43169757681833, "train/post_ent_min": 18.98436344845194, "train/post_ent_std": 5.7801037170517615, "train/prior_ent_mag": 75.9618906370351, "train/prior_ent_max": 75.9618906370351, "train/prior_ent_mean": 44.97877352002641, "train/prior_ent_min": 26.662460004779653, "train/prior_ent_std": 7.270071721412767, "train/rep_loss_mean": 4.574303929234894, "train/rep_loss_std": 8.527038097381592, "train/reward_avg": 0.026092099301307133, "train/reward_loss_mean": 0.04413456060517002, "train/reward_loss_std": 0.19349010729453933, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0179268608630543, "train/reward_neg_acc": 0.9952724030320074, "train/reward_neg_loss": 0.021914050494596153, "train/reward_pos_acc": 0.9887658005029383, "train/reward_pos_loss": 0.7319330959252908, "train/reward_pred": 0.025864337006924858, "train/reward_rate": 0.031194982394366196, "stats/sum_log_reward": 7.2250001430511475, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 1.25, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.75, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3213029969483614, "replay/size": 273316.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.722352041325099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2386432835753536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3158049583435, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.90793013572693, "timer/env.step_frac": 0.07627946900398554, "timer/env.step_avg": 0.01613234516600488, "timer/env.step_min": 0.003038644790649414, "timer/env.step_max": 2.6762545108795166, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.28077220916748047, "timer/replay.add_frac": 0.0009349231859656074, "timer/replay.add_avg": 0.00019772690786442286, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0075054168701171875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03073263168334961, "timer/logger.write_frac": 0.00010233437992919654, "timer/logger.write_avg": 0.03073263168334961, "timer/logger.write_min": 0.03073263168334961, "timer/logger.write_max": 0.03073263168334961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003643035888671875, "timer/checkpoint.save_frac": 1.2130683195901717e-06, "timer/checkpoint.save_avg": 0.0003643035888671875, "timer/checkpoint.save_min": 0.0003643035888671875, "timer/checkpoint.save_max": 0.0003643035888671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4217820167541504, "timer/agent.save_frac": 0.004734289681994473, "timer/agent.save_avg": 1.4217820167541504, "timer/agent.save_min": 1.4217820167541504, "timer/agent.save_max": 1.4217820167541504, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.295608520507812e-05, "timer/replay.save_frac": 2.429312210697595e-07, "timer/replay.save_avg": 7.295608520507812e-05, "timer/replay.save_min": 7.295608520507812e-05, "timer/replay.save_max": 7.295608520507812e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 11.613115787506104, "timer/agent.policy_frac": 0.03866967903709546, "timer/agent.policy_avg": 0.008178250554581762, "timer/agent.policy_min": 0.005724668502807617, "timer/agent.policy_max": 1.410736083984375, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06328678131103516, "timer/dataset_frac": 0.00021073410145634394, "timer/dataset_avg": 8.913631170568331e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.7388114929199, "timer/agent.train_frac": 0.8815347281826927, "timer/agent.train_avg": 0.3728715654829858, "timer/agent.train_min": 0.3627474308013916, "timer/agent.train_max": 0.9168753623962402, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190542221069336, "timer/agent.report_frac": 0.0007294128996551426, "timer/agent.report_avg": 0.2190542221069336, "timer/agent.report_min": 0.2190542221069336, "timer/agent.report_max": 0.2190542221069336, "fps": 4.728283537794088}
+{"step": 273465, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03164556962025317}
+{"step": 273622, "episode/length": 156.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06369426751592357}
+{"step": 273798, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
+{"step": 274017, "episode/length": 218.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.0410958904109589}
+{"step": 274218, "episode/length": 200.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.100000008940697, "episode/reward_rate": 0.05472636815920398}
+{"step": 274303, "episode/length": 84.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.10588235294117647}
+{"step": 274475, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
+{"step": 274637, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05555555555555555}
+{"step": 274817, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03888888888888889}
+{"step": 274818, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463312713193222, "train/action_min": 0.0, "train/action_std": 3.4093859934471022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04930330398426929, "train/actor_opt_grad_steps": 136500.0, "train/actor_opt_loss": -14.34986585084821, "train/adv_mag": 0.540579831516239, "train/adv_max": 0.5025551898378722, "train/adv_mean": 0.002085704400241424, "train/adv_min": -0.41063392707999324, "train/adv_std": 0.05519403868787725, "train/cont_avg": 0.9941268705985915, "train/cont_loss_mean": 9.508647454041097e-06, "train/cont_loss_std": 0.000212324553918849, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.676464477058379e-05, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 9.243023279616825e-06, "train/cont_pred": 0.994118869304657, "train/cont_rate": 0.9941268705985915, "train/dyn_loss_mean": 4.692870032619423, "train/dyn_loss_std": 8.595181498729007, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0425171994827163, "train/extr_critic_critic_opt_grad_steps": 136500.0, "train/extr_critic_critic_opt_loss": 16096.234485035211, "train/extr_critic_mag": 8.376214537822024, "train/extr_critic_max": 8.376214537822024, "train/extr_critic_mean": 1.8876549861800502, "train/extr_critic_min": -0.5812201499938965, "train/extr_critic_std": 1.8751848701020362, "train/extr_return_normed_mag": 1.6002978909183556, "train/extr_return_normed_max": 1.6002978909183556, "train/extr_return_normed_mean": 0.3662537241905508, "train/extr_return_normed_min": -0.12020594343333177, "train/extr_return_normed_std": 0.3340958205746933, "train/extr_return_rate": 0.6697183431873859, "train/extr_return_raw_mag": 8.944517350532639, "train/extr_return_raw_max": 8.944517350532639, "train/extr_return_raw_mean": 1.899568366332793, "train/extr_return_raw_min": -0.8774354390695062, "train/extr_return_raw_std": 1.907558647679611, "train/extr_reward_mag": 1.0401256823203933, "train/extr_reward_max": 1.0401256823203933, "train/extr_reward_mean": 0.03781080051836833, "train/extr_reward_min": -0.6702574642611222, "train/extr_reward_std": 0.1921110711467098, "train/image_loss_mean": 2.787271032870655, "train/image_loss_std": 7.282068339871689, "train/model_loss_mean": 5.650768599040072, "train/model_loss_std": 11.43898385679218, "train/model_opt_grad_norm": 34.47685367960325, "train/model_opt_grad_steps": 136388.0, "train/model_opt_loss": 9146.29658615757, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1619.718309859155, "train/policy_entropy_mag": 2.350138140396333, "train/policy_entropy_max": 2.350138140396333, "train/policy_entropy_mean": 0.36199662215273143, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45691117350484284, "train/policy_logprob_mag": 7.438384190411635, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.363690992476235, "train/policy_logprob_min": -7.438384190411635, "train/policy_logprob_std": 0.9711820693083213, "train/policy_randomness_mag": 0.8294956297941611, "train/policy_randomness_max": 0.8294956297941611, "train/policy_randomness_mean": 0.12776892170519896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16126959351166872, "train/post_ent_mag": 55.00528550483811, "train/post_ent_max": 55.00528550483811, "train/post_ent_mean": 40.47014370770522, "train/post_ent_min": 18.519652836759324, "train/post_ent_std": 5.812624568670568, "train/prior_ent_mag": 75.96833328461983, "train/prior_ent_max": 75.96833328461983, "train/prior_ent_mean": 45.11314934743962, "train/prior_ent_min": 27.216507468425053, "train/prior_ent_std": 7.351963224545331, "train/rep_loss_mean": 4.692870032619423, "train/rep_loss_std": 8.595181498729007, "train/reward_avg": 0.0271223040271393, "train/reward_loss_mean": 0.04776603460941516, "train/reward_loss_std": 0.202828941001019, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0135726022048734, "train/reward_neg_acc": 0.9951431860386486, "train/reward_neg_loss": 0.024785351768975526, "train/reward_pos_acc": 0.986891079116875, "train/reward_pos_loss": 0.7342787032396021, "train/reward_pred": 0.026864115857112576, "train/reward_rate": 0.032460387323943664, "stats/sum_log_reward": 6.988889111412896, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_stone": 1.6666666666666667, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.28004710872968036, "replay/size": 274755.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.743784720902645e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2282784691440546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3758969306946, "timer/env.step_count": 1439.0, "timer/env.step_total": 21.563615560531616, "timer/env.step_frac": 0.07178876794334456, "timer/env.step_avg": 0.014985139374935105, "timer/env.step_min": 0.002897024154663086, "timer/env.step_max": 1.6564452648162842, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.263291597366333, "timer/replay.add_frac": 0.0008765403617823637, "timer/replay.add_avg": 0.00018296844848251077, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0024840831756591797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028195619583129883, "timer/logger.write_frac": 9.386778323839821e-05, "timer/logger.write_avg": 0.028195619583129883, "timer/logger.write_min": 0.028195619583129883, "timer/logger.write_max": 0.028195619583129883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.293893098831177, "timer/agent.policy_frac": 0.03427003699037235, "timer/agent.policy_avg": 0.007153504585706169, "timer/agent.policy_min": 0.0056610107421875, "timer/agent.policy_max": 0.016155242919921875, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06444025039672852, "timer/dataset_frac": 0.000214532028219284, "timer/dataset_avg": 8.962482669920517e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00017070770263671875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.46987748146057, "timer/agent.train_frac": 0.890450532864072, "timer/agent.train_avg": 0.3720026112398617, "timer/agent.train_min": 0.3653984069824219, "timer/agent.train_max": 0.38259410858154297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22487759590148926, "timer/agent.report_frac": 0.0007486539306227191, "timer/agent.report_avg": 0.22487759590148926, "timer/agent.report_min": 0.22487759590148926, "timer/agent.report_max": 0.22487759590148926, "fps": 4.79057232922781}
+{"step": 275132, "episode/length": 314.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.03492063492063492}
+{"step": 275339, "episode/length": 206.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.043478260869565216}
+{"step": 275512, "episode/length": 172.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05202312138728324}
+{"step": 275642, "episode/length": 129.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.06153846153846154}
+{"step": 275790, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05405405405405406}
+{"step": 276091, "episode/length": 300.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.029900332225913623}
+{"step": 276275, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397726816673801, "train/action_min": 0.0, "train/action_std": 3.352835913227029, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715528885183269, "train/actor_opt_grad_steps": 137220.0, "train/actor_opt_loss": -16.966342312220025, "train/adv_mag": 0.48472903607642814, "train/adv_max": 0.4456399230107869, "train/adv_mean": 0.0012527469002945933, "train/adv_min": -0.41479204819627, "train/adv_std": 0.05251665214357311, "train/cont_avg": 0.9946891053082192, "train/cont_loss_mean": 3.16200443208264e-05, "train/cont_loss_std": 0.0008976471960043094, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.004916628601876417, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 7.603562599417447e-06, "train/cont_pred": 0.9946931102504469, "train/cont_rate": 0.9946891053082192, "train/dyn_loss_mean": 4.485598858088663, "train/dyn_loss_std": 8.507715493032377, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9944076636066176, "train/extr_critic_critic_opt_grad_steps": 137220.0, "train/extr_critic_critic_opt_loss": 15681.625454837329, "train/extr_critic_mag": 7.939666225485606, "train/extr_critic_max": 7.939666225485606, "train/extr_critic_mean": 1.863672095618836, "train/extr_critic_min": -0.5949411980093342, "train/extr_critic_std": 1.835822490796651, "train/extr_return_normed_mag": 1.5251707932720446, "train/extr_return_normed_max": 1.5251707932720446, "train/extr_return_normed_mean": 0.3611297750309722, "train/extr_return_normed_min": -0.1199158687297612, "train/extr_return_normed_std": 0.32682599555956177, "train/extr_return_rate": 0.684193102872535, "train/extr_return_raw_mag": 8.513083947847967, "train/extr_return_raw_max": 8.513083947847967, "train/extr_return_raw_mean": 1.8707917740900222, "train/extr_return_raw_min": -0.8741627719304333, "train/extr_return_raw_std": 1.8650335726672655, "train/extr_reward_mag": 1.0286395909035042, "train/extr_reward_max": 1.0286395909035042, "train/extr_reward_mean": 0.0373460857631409, "train/extr_reward_min": -0.6609870342359151, "train/extr_reward_std": 0.19079757696145203, "train/image_loss_mean": 2.5833857810660583, "train/image_loss_std": 7.411467558717074, "train/model_loss_mean": 5.319309606944045, "train/model_loss_std": 11.48223876953125, "train/model_opt_grad_norm": 35.159601629596864, "train/model_opt_grad_steps": 137107.04109589042, "train/model_opt_loss": 6908.342004227312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1301.3698630136987, "train/policy_entropy_mag": 2.3147918328846973, "train/policy_entropy_max": 2.3147918328846973, "train/policy_entropy_mean": 0.3553014914058659, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45397039962141483, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3560859054735262, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 0.9645433115632567, "train/policy_randomness_mag": 0.8170199369731015, "train/policy_randomness_max": 0.8170199369731015, "train/policy_randomness_mean": 0.12540583404367917, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16023162925896578, "train/post_ent_mag": 55.02337155276782, "train/post_ent_max": 55.02337155276782, "train/post_ent_mean": 40.644572323315764, "train/post_ent_min": 18.67537084344315, "train/post_ent_std": 5.748732037740211, "train/prior_ent_mag": 75.91887946978007, "train/prior_ent_max": 75.91887946978007, "train/prior_ent_mean": 45.05309990660785, "train/prior_ent_min": 26.74566535427146, "train/prior_ent_std": 7.186989823432818, "train/rep_loss_mean": 4.485598858088663, "train/rep_loss_std": 8.507715493032377, "train/reward_avg": 0.02713505969676253, "train/reward_loss_mean": 0.044532963904003575, "train/reward_loss_std": 0.1959461357495556, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0141881688000405, "train/reward_neg_acc": 0.9953039753926943, "train/reward_neg_loss": 0.021700314131297478, "train/reward_pos_acc": 0.9895623146671139, "train/reward_pos_loss": 0.7340193292866014, "train/reward_pred": 0.026826865001492305, "train/reward_rate": 0.03202589897260274, "stats/sum_log_reward": 8.100000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 10.166666666666666, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 3.3333333333333335, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 0.16666666666666666, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35403142621119815, "replay/size": 276212.0, "replay/inserts": 1457.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.726824391927307e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2361218409283171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02421021461487, "timer/env.step_count": 1457.0, "timer/env.step_total": 17.30291771888733, "timer/env.step_frac": 0.05767173824575729, "timer/env.step_avg": 0.011875715661556163, "timer/env.step_min": 0.003045797348022461, "timer/env.step_max": 1.6864538192749023, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.25614237785339355, "timer/replay.add_frac": 0.0008537390288276018, "timer/replay.add_avg": 0.0001758012202150951, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0013158321380615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024497509002685547, "timer/logger.write_frac": 8.165177398571223e-05, "timer/logger.write_avg": 0.024497509002685547, "timer/logger.write_min": 0.024497509002685547, "timer/logger.write_max": 0.024497509002685547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.527653455734253, "timer/agent.policy_frac": 0.03508934645041997, "timer/agent.policy_avg": 0.007225568603798389, "timer/agent.policy_min": 0.0057353973388671875, "timer/agent.policy_max": 0.02637648582458496, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06658267974853516, "timer/dataset_frac": 0.00022192435637413024, "timer/dataset_avg": 9.13342657730249e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00039649009704589844, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1616632938385, "timer/agent.train_frac": 0.903799273731509, "timer/agent.train_avg": 0.3719638728310542, "timer/agent.train_min": 0.36553502082824707, "timer/agent.train_max": 0.3846707344055176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21859145164489746, "timer/agent.report_frac": 0.0007285793752728605, "timer/agent.report_avg": 0.21859145164489746, "timer/agent.report_min": 0.21859145164489746, "timer/agent.report_max": 0.21859145164489746, "fps": 4.856199410026255}
+{"step": 276291, "episode/length": 199.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.045}
+{"step": 276439, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.04054054054054054}
+{"step": 276634, "episode/length": 194.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.041025641025641026}
+{"step": 276714, "episode/length": 79.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0875}
+{"step": 276868, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
+{"step": 277266, "episode/length": 397.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.032663316582914576}
+{"step": 277519, "episode/length": 252.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.043478260869565216}
+{"step": 277694, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
+{"step": 277695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442621795224472, "train/action_min": 0.0, "train/action_std": 3.3374554506489926, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047026267511324146, "train/actor_opt_grad_steps": 137940.0, "train/actor_opt_loss": -15.016469208287521, "train/adv_mag": 0.542425919586504, "train/adv_max": 0.48002824061353444, "train/adv_mean": 0.002165449356179009, "train/adv_min": -0.43774438198183624, "train/adv_std": 0.05426502967594375, "train/cont_avg": 0.9943331866197183, "train/cont_loss_mean": 0.00011346350512087771, "train/cont_loss_std": 0.0035013773549348063, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.03361347772127207, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 1.425468728274942e-05, "train/cont_pred": 0.994335305522865, "train/cont_rate": 0.9943331866197183, "train/dyn_loss_mean": 4.64902590362119, "train/dyn_loss_std": 8.5793447561667, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0371534135979665, "train/extr_critic_critic_opt_grad_steps": 137940.0, "train/extr_critic_critic_opt_loss": 15847.472793794013, "train/extr_critic_mag": 8.09714922434847, "train/extr_critic_max": 8.09714922434847, "train/extr_critic_mean": 1.7814721549060983, "train/extr_critic_min": -0.5931356557658021, "train/extr_critic_std": 1.8445666575096022, "train/extr_return_normed_mag": 1.5966784517529984, "train/extr_return_normed_max": 1.5966784517529984, "train/extr_return_normed_mean": 0.3582099823045059, "train/extr_return_normed_min": -0.1231119428617014, "train/extr_return_normed_std": 0.3361619385615201, "train/extr_return_rate": 0.6623753296657348, "train/extr_return_raw_mag": 8.687898172459132, "train/extr_return_raw_max": 8.687898172459132, "train/extr_return_raw_mean": 1.7935052069140152, "train/extr_return_raw_min": -0.8852350392811735, "train/extr_return_raw_std": 1.871740267310344, "train/extr_reward_mag": 1.0330762359457957, "train/extr_reward_max": 1.0330762359457957, "train/extr_reward_mean": 0.03752573542821575, "train/extr_reward_min": -0.649164124273918, "train/extr_reward_std": 0.19178974985236852, "train/image_loss_mean": 2.9715254508273703, "train/image_loss_std": 8.424474507990018, "train/model_loss_mean": 5.80611464003442, "train/model_loss_std": 12.460318887737435, "train/model_opt_grad_norm": 37.8373864939515, "train/model_opt_grad_steps": 137826.7605633803, "train/model_opt_loss": 9661.983480963909, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.3412368734117965, "train/policy_entropy_max": 2.3412368734117965, "train/policy_entropy_mean": 0.35654997699697255, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4489101750749937, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3553785807649854, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9628316919568559, "train/policy_randomness_mag": 0.8263538748445646, "train/policy_randomness_max": 0.8263538748445646, "train/policy_randomness_mean": 0.12584649624539093, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15844559197274732, "train/post_ent_mag": 54.81172545527069, "train/post_ent_max": 54.81172545527069, "train/post_ent_mean": 40.55116685679261, "train/post_ent_min": 18.665642160764882, "train/post_ent_std": 5.7536081260358785, "train/prior_ent_mag": 75.86714731135838, "train/prior_ent_max": 75.86714731135838, "train/prior_ent_mean": 45.16203727184887, "train/prior_ent_min": 26.7228529218217, "train/prior_ent_std": 7.264469556405511, "train/rep_loss_mean": 4.64902590362119, "train/rep_loss_std": 8.5793447561667, "train/reward_avg": 0.026968254668402, "train/reward_loss_mean": 0.04506016194715466, "train/reward_loss_std": 0.19562201705616963, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0203725603264822, "train/reward_neg_acc": 0.995780393271379, "train/reward_neg_loss": 0.022327809305992763, "train/reward_pos_acc": 0.9873462772705186, "train/reward_pos_loss": 0.7321929302014095, "train/reward_pred": 0.026713593954771336, "train/reward_rate": 0.03207526408450704, "stats/sum_log_reward": 7.8500001430511475, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 8.25, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 4.25, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.35465182922780514, "replay/size": 277632.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.713789120526381e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2169841309668313e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2604887485504, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.519339084625244, "timer/env.step_frac": 0.07499934199961886, "timer/env.step_avg": 0.01585868949621496, "timer/env.step_min": 0.002847909927368164, "timer/env.step_max": 2.101388692855835, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.25843286514282227, "timer/replay.add_frac": 0.0008606955454576769, "timer/replay.add_avg": 0.00018199497545269173, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0014798641204833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023434877395629883, "timer/logger.write_frac": 7.804848880817996e-05, "timer/logger.write_avg": 0.023434877395629883, "timer/logger.write_min": 0.023434877395629883, "timer/logger.write_max": 0.023434877395629883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003757476806640625, "timer/checkpoint.save_frac": 1.2514056785497606e-06, "timer/checkpoint.save_avg": 0.0003757476806640625, "timer/checkpoint.save_min": 0.0003757476806640625, "timer/checkpoint.save_max": 0.0003757476806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3444571495056152, "timer/agent.save_frac": 0.004477635919095286, "timer/agent.save_avg": 1.3444571495056152, "timer/agent.save_min": 1.3444571495056152, "timer/agent.save_max": 1.3444571495056152, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.866481281449642e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.188016891479492, "timer/agent.policy_frac": 0.04059147756095942, "timer/agent.policy_avg": 0.008583110486957389, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 1.3348093032836914, "timer/dataset_count": 710.0, "timer/dataset_total": 0.0637505054473877, "timer/dataset_frac": 0.0002123173305721713, "timer/dataset_avg": 8.978944429209535e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00016951560974121094, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.54073095321655, "timer/agent.train_frac": 0.8810374353808271, "timer/agent.train_avg": 0.37259257880734725, "timer/agent.train_min": 0.36531591415405273, "timer/agent.train_max": 0.863194465637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20136189460754395, "timer/agent.report_frac": 0.0006706240153234816, "timer/agent.report_avg": 0.20136189460754395, "timer/agent.report_min": 0.20136189460754395, "timer/agent.report_max": 0.20136189460754395, "fps": 4.7291612503528455}
+{"step": 277985, "episode/length": 290.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.027491408934707903}
+{"step": 278035, "episode/length": 49.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.1}
+{"step": 278199, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04878048780487805}
+{"step": 278256, "episode/length": 56.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.10526315789473684}
+{"step": 278353, "episode/length": 96.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.030927835051546393}
+{"step": 278520, "episode/length": 166.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.03592814371257485}
+{"step": 279017, "episode/length": 496.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.02414486921529175}
+{"step": 279147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470919674389983, "train/action_min": 0.0, "train/action_std": 3.3560608184500915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04898666784371415, "train/actor_opt_grad_steps": 138660.0, "train/actor_opt_loss": -15.565464519474604, "train/adv_mag": 0.5193698594014938, "train/adv_max": 0.47586393560448736, "train/adv_mean": 0.002400960546279524, "train/adv_min": -0.42601776408822567, "train/adv_std": 0.054662408945086886, "train/cont_avg": 0.9944349315068494, "train/cont_loss_mean": 4.528160629094338e-05, "train/cont_loss_std": 0.0013291271076537072, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.005501668418798533, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.3641059008802076e-05, "train/cont_pred": 0.9944268554857333, "train/cont_rate": 0.9944349315068494, "train/dyn_loss_mean": 4.53952607063398, "train/dyn_loss_std": 8.57500258537188, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9760907039250413, "train/extr_critic_critic_opt_grad_steps": 138660.0, "train/extr_critic_critic_opt_loss": 15851.013725385274, "train/extr_critic_mag": 7.857146465615051, "train/extr_critic_max": 7.857146465615051, "train/extr_critic_mean": 1.7562577022265082, "train/extr_critic_min": -0.583809008337047, "train/extr_critic_std": 1.7727015655334681, "train/extr_return_normed_mag": 1.6011559244704574, "train/extr_return_normed_max": 1.6011559244704574, "train/extr_return_normed_mean": 0.3590384235937301, "train/extr_return_normed_min": -0.12438951983843764, "train/extr_return_normed_std": 0.3288669333066026, "train/extr_return_rate": 0.6675808323572759, "train/extr_return_raw_mag": 8.573298134215891, "train/extr_return_raw_max": 8.573298134215891, "train/extr_return_raw_mean": 1.7694282972649351, "train/extr_return_raw_min": -0.8788730298003106, "train/extr_return_raw_std": 1.8015542079324591, "train/extr_reward_mag": 1.0356542378255766, "train/extr_reward_max": 1.0356542378255766, "train/extr_reward_mean": 0.03888241066406035, "train/extr_reward_min": -0.658933797927752, "train/extr_reward_std": 0.19491121009604573, "train/image_loss_mean": 2.6650227765514427, "train/image_loss_std": 7.873753599924584, "train/model_loss_mean": 5.434037228153176, "train/model_loss_std": 11.965377899065409, "train/model_opt_grad_norm": 33.150297112660866, "train/model_opt_grad_steps": 138546.0, "train/model_opt_loss": 6792.546547249572, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.348418118202523, "train/policy_entropy_max": 2.348418118202523, "train/policy_entropy_mean": 0.36285224434447616, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.462399181437819, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3632507177248393, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 0.9755307729930094, "train/policy_randomness_mag": 0.8288885371325767, "train/policy_randomness_max": 0.8288885371325767, "train/policy_randomness_mean": 0.1280709156026579, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16320661935087752, "train/post_ent_mag": 54.349537888618364, "train/post_ent_max": 54.349537888618364, "train/post_ent_mean": 40.625717894671716, "train/post_ent_min": 18.501303202485385, "train/post_ent_std": 5.662148253558433, "train/prior_ent_mag": 75.89132732234589, "train/prior_ent_max": 75.89132732234589, "train/prior_ent_mean": 45.092160420875025, "train/prior_ent_min": 27.181155975550823, "train/prior_ent_std": 7.183861967635481, "train/rep_loss_mean": 4.53952607063398, "train/rep_loss_std": 8.57500258537188, "train/reward_avg": 0.02844071059092267, "train/reward_loss_mean": 0.04525355213921364, "train/reward_loss_std": 0.18468479546782088, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0160151671056878, "train/reward_neg_acc": 0.9952525284192334, "train/reward_neg_loss": 0.02198081806761353, "train/reward_pos_acc": 0.9918076485803683, "train/reward_pos_loss": 0.7200626159367496, "train/reward_pred": 0.028191480441146517, "train/reward_rate": 0.03339041095890411, "stats/sum_log_reward": 5.814285687037876, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 3.2857142857142856, "stats/max_log_achievement_collect_stone": 0.7142857142857143, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 0.42857142857142855, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.31896120948450907, "replay/size": 279084.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.7107585875455997e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2440211845166755e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2970492839813, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.779924869537354, "timer/env.step_frac": 0.0625378268428398, "timer/env.step_avg": 0.012933832554777792, "timer/env.step_min": 0.0030519962310791016, "timer/env.step_max": 1.683105230331421, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2574422359466553, "timer/replay.add_frac": 0.0008572919266456074, "timer/replay.add_avg": 0.00017730181539025845, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0037689208984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031171798706054688, "timer/logger.write_frac": 0.0001038032134527453, "timer/logger.write_avg": 0.031171798706054688, "timer/logger.write_min": 0.031171798706054688, "timer/logger.write_max": 0.031171798706054688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.426559925079346, "timer/agent.policy_frac": 0.034720820434100505, "timer/agent.policy_avg": 0.007180826394682745, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.01643967628479004, "timer/dataset_count": 726.0, "timer/dataset_total": 0.0648040771484375, "timer/dataset_frac": 0.00021579991312919747, "timer/dataset_avg": 8.926181425404614e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00015163421630859375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0668246746063, "timer/agent.train_frac": 0.8993322622334952, "timer/agent.train_avg": 0.3719928714526258, "timer/agent.train_min": 0.36434030532836914, "timer/agent.train_max": 0.3836400508880615, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2037975788116455, "timer/agent.report_frac": 0.0006786532844647456, "timer/agent.report_avg": 0.2037975788116455, "timer/agent.report_min": 0.2037975788116455, "timer/agent.report_max": 0.2037975788116455, "fps": 4.835143883825905}
+{"step": 279208, "episode/length": 190.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.03664921465968586}
+{"step": 279377, "episode/length": 168.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0650887573964497}
+{"step": 279585, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.038461538461538464}
+{"step": 279782, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.050761421319796954}
+{"step": 279965, "episode/length": 182.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03825136612021858}
+{"step": 280151, "episode/length": 185.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.043010752688172046}
+{"step": 280318, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
+{"step": 280556, "episode/length": 237.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04201680672268908}
+{"step": 280589, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531962076822917, "train/action_min": 0.0, "train/action_std": 3.4097191327148013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049964207586728863, "train/actor_opt_grad_steps": 139385.0, "train/actor_opt_loss": -17.084521133866573, "train/adv_mag": 0.5640327516529295, "train/adv_max": 0.5179434791207314, "train/adv_mean": 0.002617718671621737, "train/adv_min": -0.44037719319264096, "train/adv_std": 0.05611993481094638, "train/cont_avg": 0.9943169487847222, "train/cont_loss_mean": 1.4349108161818927e-05, "train/cont_loss_std": 0.0003992592496347116, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005501987035864255, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.2171391361448514e-05, "train/cont_pred": 0.9943090809716119, "train/cont_rate": 0.9943169487847222, "train/dyn_loss_mean": 4.7805258764161005, "train/dyn_loss_std": 8.60952478647232, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9983403484026591, "train/extr_critic_critic_opt_grad_steps": 139385.0, "train/extr_critic_critic_opt_loss": 16059.077392578125, "train/extr_critic_mag": 7.969506899515788, "train/extr_critic_max": 7.969506899515788, "train/extr_critic_mean": 1.772476938035753, "train/extr_critic_min": -0.6173852036396662, "train/extr_critic_std": 1.7932820932732687, "train/extr_return_normed_mag": 1.614168119099405, "train/extr_return_normed_max": 1.614168119099405, "train/extr_return_normed_mean": 0.3682967705859078, "train/extr_return_normed_min": -0.12586755067523983, "train/extr_return_normed_std": 0.3349288126660718, "train/extr_return_rate": 0.666424371716049, "train/extr_return_raw_mag": 8.579883224434322, "train/extr_return_raw_max": 8.579883224434322, "train/extr_return_raw_mean": 1.7867570999595854, "train/extr_return_raw_min": -0.9064413284262022, "train/extr_return_raw_std": 1.8258554637432098, "train/extr_reward_mag": 1.0336942540274725, "train/extr_reward_max": 1.0336942540274725, "train/extr_reward_mean": 0.039039440634143024, "train/extr_reward_min": -0.6448038352860345, "train/extr_reward_std": 0.1952494161410464, "train/image_loss_mean": 3.0382233361403146, "train/image_loss_std": 8.073553373416265, "train/model_loss_mean": 5.952645089891222, "train/model_loss_std": 12.161946713924408, "train/model_opt_grad_norm": 35.52653951115079, "train/model_opt_grad_steps": 139270.97222222222, "train/model_opt_loss": 13618.07282172309, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.366344107521905, "train/policy_entropy_max": 2.366344107521905, "train/policy_entropy_mean": 0.3743679453101423, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47169117050038445, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3745701321297222, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9813564684655931, "train/policy_randomness_mag": 0.8352156256635984, "train/policy_randomness_max": 0.8352156256635984, "train/policy_randomness_mean": 0.13213545435832608, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16648628521296713, "train/post_ent_mag": 55.103294690450035, "train/post_ent_max": 55.103294690450035, "train/post_ent_mean": 40.653204917907715, "train/post_ent_min": 18.47068218390147, "train/post_ent_std": 5.799577289157444, "train/prior_ent_mag": 75.83697848849826, "train/prior_ent_max": 75.83697848849826, "train/prior_ent_mean": 45.335258430904815, "train/prior_ent_min": 26.630351225535076, "train/prior_ent_std": 7.228253205617269, "train/rep_loss_mean": 4.7805258764161005, "train/rep_loss_std": 8.60952478647232, "train/reward_avg": 0.028515624839605555, "train/reward_loss_mean": 0.04609191324561834, "train/reward_loss_std": 0.20054110677705872, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0181889451212354, "train/reward_neg_acc": 0.9951622519228194, "train/reward_neg_loss": 0.02220143033708963, "train/reward_pos_acc": 0.9884771216246817, "train/reward_pos_loss": 0.7343956803282102, "train/reward_pred": 0.028334210652651057, "train/reward_rate": 0.033610026041666664, "stats/sum_log_reward": 7.6000001430511475, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 3.625, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_stone": 0.25, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3601258583366871, "replay/size": 280526.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.887777024267781e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2246646431381924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03961062431335, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.375989198684692, "timer/env.step_frac": 0.06791099733894118, "timer/env.step_avg": 0.01413036698937912, "timer/env.step_min": 0.003007650375366211, "timer/env.step_max": 1.7404894828796387, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2495555877685547, "timer/replay.add_frac": 0.0008317421398104303, "timer/replay.add_avg": 0.0001730621274400518, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.001409769058227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02753448486328125, "timer/logger.write_frac": 9.176949938705868e-05, "timer/logger.write_avg": 0.02753448486328125, "timer/logger.write_min": 0.02753448486328125, "timer/logger.write_max": 0.02753448486328125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.33882188796997, "timer/agent.policy_frac": 0.034458189925181085, "timer/agent.policy_avg": 0.007169779395263503, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.01511073112487793, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06480574607849121, "timer/dataset_frac": 0.00021599063518195271, "timer/dataset_avg": 8.988314296600723e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3125605583191, "timer/agent.train_frac": 0.8942571282505747, "timer/agent.train_avg": 0.3721394737285979, "timer/agent.train_min": 0.36461400985717773, "timer/agent.train_max": 0.39226794242858887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20222163200378418, "timer/agent.report_frac": 0.0006739831170391386, "timer/agent.report_avg": 0.20222163200378418, "timer/agent.report_min": 0.20222163200378418, "timer/agent.report_max": 0.20222163200378418, "fps": 4.805966189235709}
+{"step": 280834, "episode/length": 277.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03237410071942446}
+{"step": 281033, "episode/length": 198.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.035175879396984924}
+{"step": 281204, "episode/length": 170.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04678362573099415}
+{"step": 281362, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
+{"step": 281517, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
+{"step": 281728, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.037914691943127965}
+{"step": 282025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471176995171441, "train/action_min": 0.0, "train/action_std": 3.424276398287879, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048861927145885095, "train/actor_opt_grad_steps": 140105.0, "train/actor_opt_loss": -14.405023272252745, "train/adv_mag": 0.4801756834818257, "train/adv_max": 0.43820131777061355, "train/adv_mean": 0.002675170588999107, "train/adv_min": -0.4192776386108663, "train/adv_std": 0.05453017338489493, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.456959061232112e-05, "train/cont_loss_std": 0.0010820741753233183, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.004228351756605914, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 2.163914268068131e-06, "train/cont_pred": 0.9943590056565073, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.6220884919166565, "train/dyn_loss_std": 8.443102227316963, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.006946620841821, "train/extr_critic_critic_opt_grad_steps": 140105.0, "train/extr_critic_critic_opt_loss": 16010.570434570312, "train/extr_critic_mag": 7.766349156697591, "train/extr_critic_max": 7.766349156697591, "train/extr_critic_mean": 1.7693950980901718, "train/extr_critic_min": -0.6220382336113188, "train/extr_critic_std": 1.8115533110168245, "train/extr_return_normed_mag": 1.5406382117006514, "train/extr_return_normed_max": 1.5406382117006514, "train/extr_return_normed_mean": 0.35850208894246155, "train/extr_return_normed_min": -0.13103818355335128, "train/extr_return_normed_std": 0.33040448485149276, "train/extr_return_rate": 0.6553865013023218, "train/extr_return_raw_mag": 8.375105215443504, "train/extr_return_raw_max": 8.375105215443504, "train/extr_return_raw_mean": 1.7842968619532056, "train/extr_return_raw_min": -0.9455460707346598, "train/extr_return_raw_std": 1.8422956764698029, "train/extr_reward_mag": 1.0275731020503573, "train/extr_reward_max": 1.0275731020503573, "train/extr_reward_mean": 0.03684706551333269, "train/extr_reward_min": -0.6733713895082474, "train/extr_reward_std": 0.19049610921906102, "train/image_loss_mean": 2.759002975291676, "train/image_loss_std": 7.347043540742662, "train/model_loss_mean": 5.577268299129274, "train/model_loss_std": 11.345990982320574, "train/model_opt_grad_norm": 34.91680860519409, "train/model_opt_grad_steps": 139990.0, "train/model_opt_loss": 6971.585354275174, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3642027941015034, "train/policy_entropy_max": 2.3642027941015034, "train/policy_entropy_mean": 0.3749878716965516, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47765995520684457, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37364420832859147, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9778594962424703, "train/policy_randomness_mag": 0.8344598387678465, "train/policy_randomness_max": 0.8344598387678465, "train/policy_randomness_mean": 0.13235426280233595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16859300434589386, "train/post_ent_mag": 55.37050814098782, "train/post_ent_max": 55.37050814098782, "train/post_ent_mean": 40.633117569817436, "train/post_ent_min": 19.124853081173367, "train/post_ent_std": 5.734276334444682, "train/prior_ent_mag": 75.86725616455078, "train/prior_ent_max": 75.86725616455078, "train/prior_ent_mean": 45.221733782026504, "train/prior_ent_min": 26.96374773979187, "train/prior_ent_std": 7.2127940853436785, "train/rep_loss_mean": 4.6220884919166565, "train/rep_loss_std": 8.443102227316963, "train/reward_avg": 0.026662868745107617, "train/reward_loss_mean": 0.044977621666880116, "train/reward_loss_std": 0.1932415391008059, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0138641827636294, "train/reward_neg_acc": 0.9949032208985753, "train/reward_neg_loss": 0.022137247569238145, "train/reward_pos_acc": 0.9863836773567729, "train/reward_pos_loss": 0.7428643926978111, "train/reward_pred": 0.026416918301644426, "train/reward_rate": 0.031806098090277776, "stats/sum_log_reward": 6.599999984105428, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 2.6666666666666665, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3405737280845642, "replay/size": 281962.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.8837656005179316e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2465921285092664e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15639543533325, "timer/env.step_count": 1436.0, "timer/env.step_total": 16.832565307617188, "timer/env.step_frac": 0.0560793158619992, "timer/env.step_avg": 0.011721842136223667, "timer/env.step_min": 0.0030469894409179688, "timer/env.step_max": 1.627387285232544, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24710679054260254, "timer/replay.add_frac": 0.0008232601213917499, "timer/replay.add_avg": 0.00017207993770376222, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0027234554290771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029423236846923828, "timer/logger.write_frac": 9.802635324244781e-05, "timer/logger.write_avg": 0.029423236846923828, "timer/logger.write_min": 0.029423236846923828, "timer/logger.write_max": 0.029423236846923828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002651214599609375, "timer/checkpoint.save_frac": 8.832777311854952e-07, "timer/checkpoint.save_avg": 0.0002651214599609375, "timer/checkpoint.save_min": 0.0002651214599609375, "timer/checkpoint.save_max": 0.0002651214599609375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.227674961090088, "timer/agent.save_frac": 0.00409011761788225, "timer/agent.save_avg": 1.227674961090088, "timer/agent.save_min": 1.227674961090088, "timer/agent.save_max": 1.227674961090088, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.009615701348294e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 15.156271696090698, "timer/agent.policy_frac": 0.05049458191323469, "timer/agent.policy_avg": 0.010554506752152297, "timer/agent.policy_min": 0.005639791488647461, "timer/agent.policy_max": 3.6288511753082275, "timer/dataset_count": 718.0, "timer/dataset_total": 0.064056396484375, "timer/dataset_frac": 0.00021341006708009837, "timer/dataset_avg": 8.921503688631615e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00019478797912597656, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.1689991950989, "timer/agent.train_frac": 0.890099305755618, "timer/agent.train_avg": 0.37210167018816, "timer/agent.train_min": 0.36594390869140625, "timer/agent.train_max": 0.3843851089477539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2027599811553955, "timer/agent.report_frac": 0.0006755144459318337, "timer/agent.report_avg": 0.2027599811553955, "timer/agent.report_min": 0.2027599811553955, "timer/agent.report_max": 0.2027599811553955, "fps": 4.784102570504238}
+{"step": 282096, "episode/length": 367.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.029891304347826088}
+{"step": 282252, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05128205128205128}
+{"step": 282306, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
+{"step": 282476, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 282630, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
+{"step": 282837, "episode/length": 206.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.043478260869565216}
+{"step": 283168, "episode/length": 330.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03323262839879154}
+{"step": 283477, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.391543918185764, "train/action_min": 0.0, "train/action_std": 3.2576858401298523, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05006303762396177, "train/actor_opt_grad_steps": 140825.0, "train/actor_opt_loss": -13.805610969662666, "train/adv_mag": 0.5797445434663031, "train/adv_max": 0.5449002029167281, "train/adv_mean": 0.003192330643388333, "train/adv_min": -0.47860114607546067, "train/adv_std": 0.05676519555143184, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 4.147947085028944e-05, "train/cont_loss_std": 0.0013146981837519117, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0065009167721920376, "train/cont_pos_acc": 0.9999863604704539, "train/cont_pos_loss": 1.583310294413683e-05, "train/cont_pred": 0.9945345587200589, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 4.736362079779307, "train/dyn_loss_std": 8.530544579029083, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0553347203466628, "train/extr_critic_critic_opt_grad_steps": 140825.0, "train/extr_critic_critic_opt_loss": 16071.904486762152, "train/extr_critic_mag": 8.432848532994589, "train/extr_critic_max": 8.432848532994589, "train/extr_critic_mean": 1.8807613187366061, "train/extr_critic_min": -0.6193527049488492, "train/extr_critic_std": 1.8876235965225432, "train/extr_return_normed_mag": 1.6742277575863733, "train/extr_return_normed_max": 1.6742277575863733, "train/extr_return_normed_mean": 0.37350742891430855, "train/extr_return_normed_min": -0.12615617457777262, "train/extr_return_normed_std": 0.34133441125353176, "train/extr_return_rate": 0.6824291451937623, "train/extr_return_raw_mag": 9.234450625048744, "train/extr_return_raw_max": 9.234450625048744, "train/extr_return_raw_mean": 1.898805957701471, "train/extr_return_raw_min": -0.9163114627202352, "train/extr_return_raw_std": 1.9242102089855406, "train/extr_reward_mag": 1.0284362534681957, "train/extr_reward_max": 1.0284362534681957, "train/extr_reward_mean": 0.03996993265011244, "train/extr_reward_min": -0.6473491539557775, "train/extr_reward_std": 0.19711067982845837, "train/image_loss_mean": 2.708372657497724, "train/image_loss_std": 7.733907328711616, "train/model_loss_mean": 5.595274594095018, "train/model_loss_std": 11.813725882106358, "train/model_opt_grad_norm": 35.292113410102, "train/model_opt_grad_steps": 140709.41666666666, "train/model_opt_loss": 7413.046244303386, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.352551211913427, "train/policy_entropy_max": 2.352551211913427, "train/policy_entropy_mean": 0.3455112564067046, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44495884080727893, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3461753825346629, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9608100064926677, "train/policy_randomness_mag": 0.8303473384843932, "train/policy_randomness_max": 0.8303473384843932, "train/policy_randomness_mean": 0.1219503100340565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15705094331254563, "train/post_ent_mag": 54.5509737332662, "train/post_ent_max": 54.5509737332662, "train/post_ent_mean": 40.27096817228529, "train/post_ent_min": 18.49841652976142, "train/post_ent_std": 5.613987008730571, "train/prior_ent_mag": 75.86709997389052, "train/prior_ent_max": 75.86709997389052, "train/prior_ent_mean": 44.98098288642036, "train/prior_ent_min": 27.089030583699543, "train/prior_ent_std": 7.225685430897607, "train/rep_loss_mean": 4.736362079779307, "train/rep_loss_std": 8.530544579029083, "train/reward_avg": 0.029439290480998654, "train/reward_loss_mean": 0.04504321782021887, "train/reward_loss_std": 0.18458348295340934, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0078181740310457, "train/reward_neg_acc": 0.9952820870611403, "train/reward_neg_loss": 0.0208183338594002, "train/reward_pos_acc": 0.989691384964519, "train/reward_pos_loss": 0.7255052601297697, "train/reward_pred": 0.02922246577994277, "train/reward_rate": 0.034342447916666664, "stats/sum_log_reward": 7.957143102373395, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.40607440045901705, "replay/size": 283414.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.743434412091888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2088823581201643e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2634036540985, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.741409301757812, "timer/env.step_frac": 0.06241656183764504, "timer/env.step_avg": 0.012907306681651387, "timer/env.step_min": 0.0031566619873046875, "timer/env.step_max": 1.7519662380218506, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.26528239250183105, "timer/replay.add_frac": 0.0008834989188607036, "timer/replay.add_avg": 0.00018270137224644012, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.008987665176391602, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030173540115356445, "timer/logger.write_frac": 0.00010049023540050244, "timer/logger.write_avg": 0.030173540115356445, "timer/logger.write_min": 0.030173540115356445, "timer/logger.write_max": 0.030173540115356445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.403885841369629, "timer/agent.policy_frac": 0.03464919705417993, "timer/agent.policy_avg": 0.007165210634552086, "timer/agent.policy_min": 0.005716085433959961, "timer/agent.policy_max": 0.015568733215332031, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06534051895141602, "timer/dataset_frac": 0.00021761066502359332, "timer/dataset_avg": 9.000071480911297e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00018072128295898438, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0946726799011, "timer/agent.train_frac": 0.8995257810074265, "timer/agent.train_avg": 0.37203122958664064, "timer/agent.train_min": 0.3623316287994385, "timer/agent.train_max": 0.3843045234680176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20061349868774414, "timer/agent.report_frac": 0.000668125040369054, "timer/agent.report_avg": 0.20061349868774414, "timer/agent.report_min": 0.20061349868774414, "timer/agent.report_max": 0.20061349868774414, "fps": 4.835700853941613}
+{"step": 283573, "episode/length": 404.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.027160493827160494}
+{"step": 283862, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04152249134948097}
+{"step": 284069, "episode/length": 206.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.04830917874396135}
+{"step": 284246, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
+{"step": 284422, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
+{"step": 284688, "episode/length": 265.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.041353383458646614}
+{"step": 284933, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387535617776113, "train/action_min": 0.0, "train/action_std": 3.233821258153001, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04811481263947814, "train/actor_opt_grad_steps": 141550.0, "train/actor_opt_loss": -11.783286393913505, "train/adv_mag": 0.4910598397254944, "train/adv_max": 0.4571030544091577, "train/adv_mean": 0.003352764470037073, "train/adv_min": -0.38542269558122716, "train/adv_std": 0.05424372606898007, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 7.873687026543364e-05, "train/cont_loss_std": 0.002247752200834071, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004295597282227466, "train/cont_pos_acc": 0.9999865064882252, "train/cont_pos_loss": 5.041820463347335e-05, "train/cont_pred": 0.9946333684333383, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 4.764582245317224, "train/dyn_loss_std": 8.579762073412333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0273577334129647, "train/extr_critic_critic_opt_grad_steps": 141550.0, "train/extr_critic_critic_opt_loss": 16036.834412457192, "train/extr_critic_mag": 7.853870104437005, "train/extr_critic_max": 7.853870104437005, "train/extr_critic_mean": 1.822924893196315, "train/extr_critic_min": -0.5919658549844402, "train/extr_critic_std": 1.7965471760867393, "train/extr_return_normed_mag": 1.5469123394521949, "train/extr_return_normed_max": 1.5469123394521949, "train/extr_return_normed_mean": 0.36251342806914083, "train/extr_return_normed_min": -0.1213393871710725, "train/extr_return_normed_std": 0.3271281384441951, "train/extr_return_rate": 0.670430257304074, "train/extr_return_raw_mag": 8.465135900941613, "train/extr_return_raw_max": 8.465135900941613, "train/extr_return_raw_mean": 1.8416935793341023, "train/extr_return_raw_min": -0.8644535778319999, "train/extr_return_raw_std": 1.829695265587062, "train/extr_reward_mag": 1.0308361445387748, "train/extr_reward_max": 1.0308361445387748, "train/extr_reward_mean": 0.039468291764185856, "train/extr_reward_min": -0.6294434380857912, "train/extr_reward_std": 0.19518414445935864, "train/image_loss_mean": 2.977947331454656, "train/image_loss_std": 7.938495635986328, "train/model_loss_mean": 5.882885031504173, "train/model_loss_std": 12.016476650760598, "train/model_opt_grad_norm": 38.59513562346158, "train/model_opt_grad_steps": 141434.0, "train/model_opt_loss": 8771.534219820205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1506.849315068493, "train/policy_entropy_mag": 2.3935838137587457, "train/policy_entropy_max": 2.3935838137587457, "train/policy_entropy_mean": 0.3757674000034594, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4755532504761056, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3758054036800175, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9829025342039865, "train/policy_randomness_mag": 0.8448300492273618, "train/policy_randomness_max": 0.8448300492273618, "train/policy_randomness_mean": 0.1326294015735796, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1678494269104853, "train/post_ent_mag": 55.00766822083356, "train/post_ent_max": 55.00766822083356, "train/post_ent_mean": 40.50168024350519, "train/post_ent_min": 19.112707974159555, "train/post_ent_std": 5.720001475451744, "train/prior_ent_mag": 75.9347533134565, "train/prior_ent_max": 75.9347533134565, "train/prior_ent_mean": 45.215362078522986, "train/prior_ent_min": 27.220261508471346, "train/prior_ent_std": 7.287102503319309, "train/rep_loss_mean": 4.764582245317224, "train/rep_loss_std": 8.579762073412333, "train/reward_avg": 0.027810626663267612, "train/reward_loss_mean": 0.04610962640136888, "train/reward_loss_std": 0.20117396728633202, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0138754126143783, "train/reward_neg_acc": 0.994824033893951, "train/reward_neg_loss": 0.02255494568547974, "train/reward_pos_acc": 0.9844782425932688, "train/reward_pos_loss": 0.7417420361140002, "train/reward_pred": 0.0275679247275199, "train/reward_rate": 0.03282855308219178, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 2.3333333333333335, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 0.8333333333333334, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4735314945379893, "stats/max_log_achievement_make_stone_sword": 0.2, "replay/size": 284870.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.803071084913317e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2445335204784687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3583390712738, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.605870723724365, "timer/env.step_frac": 0.05861622080533134, "timer/env.step_avg": 0.012091944178382118, "timer/env.step_min": 0.002936840057373047, "timer/env.step_max": 1.840226650238037, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2607734203338623, "timer/replay.add_frac": 0.000868207691986144, "timer/replay.add_avg": 0.00017910262385567466, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0010886192321777344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023246288299560547, "timer/logger.write_frac": 7.739518193981056e-05, "timer/logger.write_avg": 0.023246288299560547, "timer/logger.write_min": 0.023246288299560547, "timer/logger.write_max": 0.023246288299560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.6408052444458, "timer/agent.policy_frac": 0.03542703451266849, "timer/agent.policy_avg": 0.007308245360196292, "timer/agent.policy_min": 0.005598783493041992, "timer/agent.policy_max": 0.016258716583251953, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06752490997314453, "timer/dataset_frac": 0.0002248145005127397, "timer/dataset_avg": 9.275399721585787e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.07162594795227, "timer/agent.train_frac": 0.9024940901794909, "timer/agent.train_avg": 0.37235113454389046, "timer/agent.train_min": 0.3661966323852539, "timer/agent.train_max": 0.38455820083618164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21100378036499023, "timer/agent.report_frac": 0.0007025068157502359, "timer/agent.report_avg": 0.21100378036499023, "timer/agent.report_min": 0.21100378036499023, "timer/agent.report_max": 0.21100378036499023, "fps": 4.847478972426761}
+{"step": 284956, "episode/length": 267.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.033582089552238806}
+{"step": 285200, "episode/length": 243.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.028688524590163935}
+{"step": 285507, "episode/length": 306.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.019543973941368076}
+{"step": 285768, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03065134099616858}
+{"step": 286035, "episode/length": 266.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.033707865168539325}
+{"step": 286351, "episode/length": 315.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.03481012658227848}
+{"step": 286362, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365856594509548, "train/action_min": 0.0, "train/action_std": 3.222309281428655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04908822590692176, "train/actor_opt_grad_steps": 142275.0, "train/actor_opt_loss": -10.487464176283943, "train/adv_mag": 0.511074747890234, "train/adv_max": 0.4703463274571631, "train/adv_mean": 0.0039586874177075515, "train/adv_min": -0.4258367758658197, "train/adv_std": 0.054980346053424806, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 0.0001101998049344546, "train/cont_loss_std": 0.00326044272672653, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.015572795158367254, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.476670062040676e-05, "train/cont_pred": 0.994606731666459, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.697655459245046, "train/dyn_loss_std": 8.557761980427635, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1642800370852153, "train/extr_critic_critic_opt_grad_steps": 142275.0, "train/extr_critic_critic_opt_loss": 16064.591335720486, "train/extr_critic_mag": 8.190844429863823, "train/extr_critic_max": 8.190844429863823, "train/extr_critic_mean": 1.9432055784596338, "train/extr_critic_min": -0.5762738833824793, "train/extr_critic_std": 1.8881404714451895, "train/extr_return_normed_mag": 1.5706168661514919, "train/extr_return_normed_max": 1.5706168661514919, "train/extr_return_normed_mean": 0.37257563488350975, "train/extr_return_normed_min": -0.12069848050466842, "train/extr_return_normed_std": 0.33469320254193413, "train/extr_return_rate": 0.6837077165643374, "train/extr_return_raw_mag": 8.864609334203932, "train/extr_return_raw_max": 8.864609334203932, "train/extr_return_raw_mean": 1.9659998168547947, "train/extr_return_raw_min": -0.8747637449867196, "train/extr_return_raw_std": 1.9275046288967133, "train/extr_reward_mag": 1.0311802195178137, "train/extr_reward_max": 1.0311802195178137, "train/extr_reward_mean": 0.03929968015290797, "train/extr_reward_min": -0.6686945011218389, "train/extr_reward_std": 0.1950379771490892, "train/image_loss_mean": 2.8302287889851465, "train/image_loss_std": 7.9626293778419495, "train/model_loss_mean": 5.693153831693861, "train/model_loss_std": 12.031031529108683, "train/model_opt_grad_norm": 33.55720824665494, "train/model_opt_grad_steps": 142159.0, "train/model_opt_loss": 14232.884535047742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4017401569419436, "train/policy_entropy_max": 2.4017401569419436, "train/policy_entropy_mean": 0.35944266782866585, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.460842031157679, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3592449376980464, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9692592314547963, "train/policy_randomness_mag": 0.8477088784178098, "train/policy_randomness_max": 0.8477088784178098, "train/policy_randomness_mean": 0.12686748750921753, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16265701305949026, "train/post_ent_mag": 54.940737300448944, "train/post_ent_max": 54.940737300448944, "train/post_ent_mean": 40.62731732262505, "train/post_ent_min": 19.163385060098435, "train/post_ent_std": 5.701100481881036, "train/prior_ent_mag": 75.96594058142767, "train/prior_ent_max": 75.96594058142767, "train/prior_ent_mean": 45.30990611182319, "train/prior_ent_min": 27.19743667708503, "train/prior_ent_std": 7.219780789481269, "train/rep_loss_mean": 4.697655459245046, "train/rep_loss_std": 8.557761980427635, "train/reward_avg": 0.0274766707378957, "train/reward_loss_mean": 0.044221564661711454, "train/reward_loss_std": 0.18328316282067034, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0117191440529294, "train/reward_neg_acc": 0.9954305382238494, "train/reward_neg_loss": 0.021245343060905322, "train/reward_pos_acc": 0.9893202483654022, "train/reward_pos_loss": 0.7286193296313286, "train/reward_pred": 0.027225527834768098, "train/reward_rate": 0.032470703125, "stats/sum_log_reward": 7.4333334763844805, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 3.6666666666666665, "stats/max_log_achievement_collect_stone": 1.0, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 3.5, "stats/max_log_achievement_place_stone": 0.3333333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4776700437068939, "replay/size": 286299.0, "replay/inserts": 1429.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.820536768961987e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2413669033210818e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00406980514526, "timer/env.step_count": 1429.0, "timer/env.step_total": 17.764312267303467, "timer/env.step_frac": 0.05921357093202606, "timer/env.step_avg": 0.012431289200352321, "timer/env.step_min": 0.0031998157501220703, "timer/env.step_max": 1.7849771976470947, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.25171971321105957, "timer/replay.add_frac": 0.0008390543280781267, "timer/replay.add_avg": 0.00017615095396155322, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0010094642639160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03117084503173828, "timer/logger.write_frac": 0.00010390140724418826, "timer/logger.write_avg": 0.03117084503173828, "timer/logger.write_min": 0.03117084503173828, "timer/logger.write_max": 0.03117084503173828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004138946533203125, "timer/checkpoint.save_frac": 1.3796301283150591e-06, "timer/checkpoint.save_avg": 0.0004138946533203125, "timer/checkpoint.save_min": 0.0004138946533203125, "timer/checkpoint.save_max": 0.0004138946533203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5333905220031738, "timer/agent.save_frac": 0.005111232400944166, "timer/agent.save_avg": 1.5333905220031738, "timer/agent.save_min": 1.5333905220031738, "timer/agent.save_max": 1.5333905220031738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.724761962890625e-05, "timer/replay.save_frac": 2.5748857233529907e-07, "timer/replay.save_avg": 7.724761962890625e-05, "timer/replay.save_min": 7.724761962890625e-05, "timer/replay.save_max": 7.724761962890625e-05, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 11.900784015655518, "timer/agent.policy_frac": 0.039668741905352016, "timer/agent.policy_avg": 0.00832805039584011, "timer/agent.policy_min": 0.005730390548706055, "timer/agent.policy_max": 1.5195720195770264, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0654289722442627, "timer/dataset_frac": 0.00021809361548581413, "timer/dataset_avg": 9.163721602837912e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 714.0, "timer/agent.train_total": 269.3193824291229, "timer/agent.train_frac": 0.8977190962910861, "timer/agent.train_avg": 0.37719801460661473, "timer/agent.train_min": 0.36509156227111816, "timer/agent.train_max": 3.593505382537842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20099115371704102, "timer/agent.report_frac": 0.0006699614236819726, "timer/agent.report_avg": 0.20099115371704102, "timer/agent.report_min": 0.20099115371704102, "timer/agent.report_max": 0.20099115371704102, "fps": 4.763185629256513}
+{"step": 286527, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05113636363636364}
+{"step": 286588, "episode/length": 60.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.09836065573770492}
+{"step": 286776, "episode/length": 187.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0425531914893617}
+{"step": 286975, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04020100502512563}
+{"step": 287137, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
+{"step": 287347, "episode/length": 209.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04285714285714286}
+{"step": 287495, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05405405405405406}
+{"step": 287766, "episode/length": 270.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.033210332103321034}
+{"step": 287803, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332271999782986, "train/action_min": 0.0, "train/action_std": 3.159712897406684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0469490478022231, "train/actor_opt_grad_steps": 142995.0, "train/actor_opt_loss": -12.76310634944174, "train/adv_mag": 0.49989797671635944, "train/adv_max": 0.4578378179834949, "train/adv_mean": 0.0027919717043308387, "train/adv_min": -0.399111886198322, "train/adv_std": 0.053019908981190786, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 3.551401069638397e-05, "train/cont_loss_std": 0.0010296943464748803, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.003064857041917119, "train/cont_pos_acc": 0.9999999892380502, "train/cont_pos_loss": 8.672877074092059e-06, "train/cont_pred": 0.9942855056789186, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.659115009837681, "train/dyn_loss_std": 8.586232476764255, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0326707247230742, "train/extr_critic_critic_opt_grad_steps": 142995.0, "train/extr_critic_critic_opt_loss": 15967.532877604166, "train/extr_critic_mag": 8.467863294813368, "train/extr_critic_max": 8.467863294813368, "train/extr_critic_mean": 1.9744029740492504, "train/extr_critic_min": -0.5873694486088223, "train/extr_critic_std": 1.985666510131624, "train/extr_return_normed_mag": 1.582930102944374, "train/extr_return_normed_max": 1.582930102944374, "train/extr_return_normed_mean": 0.3656166382133961, "train/extr_return_normed_min": -0.12348899369438489, "train/extr_return_normed_std": 0.3408336130281289, "train/extr_return_rate": 0.6800175789329741, "train/extr_return_raw_mag": 9.190274205472734, "train/extr_return_raw_max": 9.190274205472734, "train/extr_return_raw_mean": 1.9909152587254841, "train/extr_return_raw_min": -0.9002283298306994, "train/extr_return_raw_std": 2.0154001977708607, "train/extr_reward_mag": 1.0387843549251556, "train/extr_reward_max": 1.0387843549251556, "train/extr_reward_mean": 0.03799921631192168, "train/extr_reward_min": -0.6514199905925326, "train/extr_reward_std": 0.19315501405960983, "train/image_loss_mean": 2.8819276276561947, "train/image_loss_std": 7.977262053224775, "train/model_loss_mean": 5.723463204171923, "train/model_loss_std": 12.082850363519457, "train/model_opt_grad_norm": 33.54119118054708, "train/model_opt_grad_steps": 142878.15277777778, "train/model_opt_loss": 14051.034071180555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.390342606438531, "train/policy_entropy_max": 2.390342606438531, "train/policy_entropy_mean": 0.3502156597872575, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44289254107409054, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34928931461440194, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9590477090742853, "train/policy_randomness_mag": 0.8436860417326292, "train/policy_randomness_max": 0.8436860417326292, "train/policy_randomness_mean": 0.12361075987832414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15632163215842512, "train/post_ent_mag": 54.84007199605306, "train/post_ent_max": 54.84007199605306, "train/post_ent_mean": 40.715994781918, "train/post_ent_min": 18.770969178941513, "train/post_ent_std": 5.666797048515743, "train/prior_ent_mag": 76.01501284705267, "train/prior_ent_max": 76.01501284705267, "train/prior_ent_mean": 45.3422982427809, "train/prior_ent_min": 27.455012400945026, "train/prior_ent_std": 7.187210480372111, "train/rep_loss_mean": 4.659115009837681, "train/rep_loss_std": 8.586232476764255, "train/reward_avg": 0.026490613947518997, "train/reward_loss_mean": 0.0460310408897284, "train/reward_loss_std": 0.1899094194587734, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0185478296544817, "train/reward_neg_acc": 0.9950689234667354, "train/reward_neg_loss": 0.023675135815412633, "train/reward_pos_acc": 0.9889164947801166, "train/reward_pos_loss": 0.7297599390149117, "train/reward_pred": 0.026287783351209428, "train/reward_rate": 0.031819661458333336, "stats/sum_log_reward": 7.1000001430511475, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 4.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.875, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 0.625, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31276978366076946, "replay/size": 287740.0, "replay/inserts": 1441.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.792691942224231e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2506021705976637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08077335357666, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.364306688308716, "timer/env.step_frac": 0.06786275062119368, "timer/env.step_avg": 0.0141320657101379, "timer/env.step_min": 0.003166675567626953, "timer/env.step_max": 1.7196860313415527, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2478163242340088, "timer/replay.add_frac": 0.0008258320633625329, "timer/replay.add_avg": 0.0001719752423553149, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.001241922378540039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0302731990814209, "timer/logger.write_frac": 0.00010088350127567436, "timer/logger.write_avg": 0.0302731990814209, "timer/logger.write_min": 0.0302731990814209, "timer/logger.write_max": 0.0302731990814209, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.32373309135437, "timer/agent.policy_frac": 0.03440318077023285, "timer/agent.policy_avg": 0.007164283894069653, "timer/agent.policy_min": 0.005711078643798828, "timer/agent.policy_max": 0.01951289176940918, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0654001235961914, "timer/dataset_frac": 0.00021794173237194473, "timer/dataset_avg": 9.07075223248147e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3801784515381, "timer/agent.train_frac": 0.8943597933724109, "timer/agent.train_avg": 0.37223325721433853, "timer/agent.train_min": 0.3662903308868408, "timer/agent.train_max": 0.43032383918762207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20333147048950195, "timer/agent.report_frac": 0.0006775891311434413, "timer/agent.report_avg": 0.20333147048950195, "timer/agent.report_min": 0.20333147048950195, "timer/agent.report_max": 0.20333147048950195, "fps": 4.801950184171279}
+{"step": 287811, "episode/length": 44.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.13333333333333333}
+{"step": 288013, "episode/length": 201.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0297029702970297}
+{"step": 288180, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
+{"step": 288360, "episode/length": 179.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05}
+{"step": 288437, "episode/length": 76.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.11688311688311688}
+{"step": 288590, "episode/length": 152.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 288830, "episode/length": 239.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.029166666666666667}
+{"step": 289001, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04678362573099415}
+{"step": 289155, "episode/length": 153.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05844155844155844}
+{"step": 289239, "stats/sum_log_reward": 6.766666783226861, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_stone": 0.3333333333333333, "stats/max_log_achievement_collect_wood": 9.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4444444444444444, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3192013204097748, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3750559488932295, "train/action_min": 0.0, "train/action_std": 3.2212742467721305, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046148606524285346, "train/actor_opt_grad_steps": 143715.0, "train/actor_opt_loss": -13.107896049817404, "train/adv_mag": 0.4806232311659389, "train/adv_max": 0.43529755456580055, "train/adv_mean": 0.0026114392561188047, "train/adv_min": -0.4110315094391505, "train/adv_std": 0.05169416596699092, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.0693344677522485e-05, "train/cont_loss_std": 0.0009695787170546705, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.005180648312056569, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 6.619831802723297e-07, "train/cont_pred": 0.9946553458770117, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 4.638175845146179, "train/dyn_loss_std": 8.611038194762337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0223559505409665, "train/extr_critic_critic_opt_grad_steps": 143715.0, "train/extr_critic_critic_opt_loss": 15983.204603407117, "train/extr_critic_mag": 8.283697101804945, "train/extr_critic_max": 8.283697101804945, "train/extr_critic_mean": 1.9955749147468143, "train/extr_critic_min": -0.575503076116244, "train/extr_critic_std": 1.9110264231761296, "train/extr_return_normed_mag": 1.5293136023812823, "train/extr_return_normed_max": 1.5293136023812823, "train/extr_return_normed_mean": 0.3661476808289687, "train/extr_return_normed_min": -0.1251011816267338, "train/extr_return_normed_std": 0.3265636097639799, "train/extr_return_rate": 0.6998644040690528, "train/extr_return_raw_mag": 8.902667707867092, "train/extr_return_raw_max": 8.902667707867092, "train/extr_return_raw_mean": 2.0110355814297995, "train/extr_return_raw_min": -0.8997841709189944, "train/extr_return_raw_std": 1.9348479277557797, "train/extr_reward_mag": 1.0383495158619351, "train/extr_reward_max": 1.0383495158619351, "train/extr_reward_mean": 0.03838366254543265, "train/extr_reward_min": -0.6694801714685228, "train/extr_reward_std": 0.19313795140220058, "train/image_loss_mean": 2.8733183128966227, "train/image_loss_std": 7.974549147817823, "train/model_loss_mean": 5.703333430820042, "train/model_loss_std": 12.10128104686737, "train/model_opt_grad_norm": 33.95037178198496, "train/model_opt_grad_steps": 143597.0, "train/model_opt_loss": 7129.166822645399, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.387558947006861, "train/policy_entropy_max": 2.387558947006861, "train/policy_entropy_mean": 0.3564503172205554, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45429259000553024, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3566555366333988, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9687688963280784, "train/policy_randomness_mag": 0.8427035320136282, "train/policy_randomness_max": 0.8427035320136282, "train/policy_randomness_mean": 0.12581131959127057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1603453489434388, "train/post_ent_mag": 55.00659026039971, "train/post_ent_max": 55.00659026039971, "train/post_ent_mean": 40.67831399705675, "train/post_ent_min": 18.621311598353916, "train/post_ent_std": 5.69481529129876, "train/prior_ent_mag": 75.99438571929932, "train/prior_ent_max": 75.99438571929932, "train/prior_ent_mean": 45.24895821677314, "train/prior_ent_min": 27.64545249938965, "train/prior_ent_std": 7.230689194467333, "train/rep_loss_mean": 4.638175845146179, "train/rep_loss_std": 8.611038194762337, "train/reward_avg": 0.02813313803118136, "train/reward_loss_mean": 0.04707886837422848, "train/reward_loss_std": 0.2076513920393255, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0178451703654394, "train/reward_neg_acc": 0.9949945302473174, "train/reward_neg_loss": 0.022970079437881295, "train/reward_pos_acc": 0.9849893980556064, "train/reward_pos_loss": 0.7484178253346019, "train/reward_pred": 0.02780346014899098, "train/reward_rate": 0.033148871527777776, "replay/size": 289176.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7081062295642736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2466336359220627e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3508331775665, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.968297719955444, "timer/env.step_frac": 0.07314212345456639, "timer/env.step_avg": 0.01529825746515003, "timer/env.step_min": 0.003052234649658203, "timer/env.step_max": 1.7324066162109375, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24854135513305664, "timer/replay.add_frac": 0.0008275034648767554, "timer/replay.add_avg": 0.00017307893811494194, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.001092672348022461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03226661682128906, "timer/logger.write_frac": 0.00010742975632837061, "timer/logger.write_avg": 0.03226661682128906, "timer/logger.write_min": 0.03226661682128906, "timer/logger.write_max": 0.03226661682128906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.24941897392273, "timer/agent.policy_frac": 0.03412482284629889, "timer/agent.policy_avg": 0.007137478394096609, "timer/agent.policy_min": 0.005643129348754883, "timer/agent.policy_max": 0.015424489974975586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0645899772644043, "timer/dataset_frac": 0.00021504843712625527, "timer/dataset_avg": 8.995818560501991e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.1206970214844, "timer/agent.train_frac": 0.8893622641078655, "timer/agent.train_avg": 0.37203439696585566, "timer/agent.train_min": 0.36557698249816895, "timer/agent.train_max": 0.39037060737609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2042686939239502, "timer/agent.report_frac": 0.0006801003072403237, "timer/agent.report_avg": 0.2042686939239502, "timer/agent.report_min": 0.2042686939239502, "timer/agent.report_max": 0.2042686939239502, "fps": 4.781010383679339}
+{"step": 289428, "episode/length": 272.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03663003663003663}
+{"step": 289617, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05291005291005291}
+{"step": 289896, "episode/length": 278.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03225806451612903}
+{"step": 290063, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
+{"step": 290103, "episode/length": 39.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.15}
+{"step": 290347, "episode/length": 243.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.040983606557377046}
+{"step": 290426, "episode/length": 78.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.05063291139240506}
+{"step": 290596, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06470588235294118}
+{"step": 290659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412342340173856, "train/action_min": 0.0, "train/action_std": 3.3073562635502345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04796963625810516, "train/actor_opt_grad_steps": 144430.0, "train/actor_opt_loss": -14.45467300964913, "train/adv_mag": 0.5645055162235045, "train/adv_max": 0.5133043577973272, "train/adv_mean": 0.0020325836762630145, "train/adv_min": -0.49995235196301635, "train/adv_std": 0.05382240154373814, "train/cont_avg": 0.9947045554577465, "train/cont_loss_mean": 0.0001148855663753328, "train/cont_loss_std": 0.0035648221449962516, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006697559341017963, "train/cont_pos_acc": 0.9999585050932118, "train/cont_pos_loss": 0.00011149776819718067, "train/cont_pred": 0.9946690940521132, "train/cont_rate": 0.9947045554577465, "train/dyn_loss_mean": 4.695974930910997, "train/dyn_loss_std": 8.491436622512172, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9988673673549169, "train/extr_critic_critic_opt_grad_steps": 144430.0, "train/extr_critic_critic_opt_loss": 15852.005322953346, "train/extr_critic_mag": 8.664917475740674, "train/extr_critic_max": 8.664917475740674, "train/extr_critic_mean": 1.9882906473858255, "train/extr_critic_min": -0.5450733094148232, "train/extr_critic_std": 1.9243758849694694, "train/extr_return_normed_mag": 1.6228319372929318, "train/extr_return_normed_max": 1.6228319372929318, "train/extr_return_normed_mean": 0.3684713683077987, "train/extr_return_normed_min": -0.11131610154685839, "train/extr_return_normed_std": 0.3332770223348913, "train/extr_return_rate": 0.692765216592332, "train/extr_return_raw_mag": 9.33809695445316, "train/extr_return_raw_max": 9.33809695445316, "train/extr_return_raw_mean": 2.000199789732275, "train/extr_return_raw_min": -0.807355049630286, "train/extr_return_raw_std": 1.950019552674092, "train/extr_reward_mag": 1.0301900312934122, "train/extr_reward_max": 1.0301900312934122, "train/extr_reward_mean": 0.03879944778139323, "train/extr_reward_min": -0.6348642883166461, "train/extr_reward_std": 0.1935546148410985, "train/image_loss_mean": 2.7160234921415087, "train/image_loss_std": 7.556039078134886, "train/model_loss_mean": 5.578152871467698, "train/model_loss_std": 11.592437072538994, "train/model_opt_grad_norm": 32.94303509886836, "train/model_opt_grad_steps": 144312.0, "train/model_opt_loss": 11413.941846390846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2059.8591549295775, "train/policy_entropy_mag": 2.364599348793567, "train/policy_entropy_max": 2.364599348793567, "train/policy_entropy_mean": 0.36083194361606113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45498151174733337, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3612271333244485, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9707790042313051, "train/policy_randomness_mag": 0.8345998021918284, "train/policy_randomness_max": 0.8345998021918284, "train/policy_randomness_mean": 0.1273578393837096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1605885073962346, "train/post_ent_mag": 55.1693786298725, "train/post_ent_max": 55.1693786298725, "train/post_ent_mean": 40.63041063765405, "train/post_ent_min": 18.909403868124517, "train/post_ent_std": 5.740196093707017, "train/prior_ent_mag": 75.9659624771333, "train/prior_ent_max": 75.9659624771333, "train/prior_ent_mean": 45.305449848443686, "train/prior_ent_min": 27.369385302906306, "train/prior_ent_std": 7.199579165015422, "train/rep_loss_mean": 4.695974930910997, "train/rep_loss_std": 8.491436622512172, "train/reward_avg": 0.027239216412876695, "train/reward_loss_mean": 0.04442955288563816, "train/reward_loss_std": 0.19034961411650753, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0142623270061655, "train/reward_neg_acc": 0.9953366047899488, "train/reward_neg_loss": 0.021748387556470617, "train/reward_pos_acc": 0.9859504959952663, "train/reward_pos_loss": 0.7333837470538179, "train/reward_pred": 0.02713360950927919, "train/reward_rate": 0.03215779049295775, "stats/sum_log_reward": 7.475000113248825, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 2.75, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3143098335713148, "replay/size": 290596.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.7782628771284934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2261347031929124e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3015205860138, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.106441736221313, "timer/env.step_frac": 0.0669541789098678, "timer/env.step_avg": 0.01415946601142346, "timer/env.step_min": 0.0031173229217529297, "timer/env.step_max": 1.6738436222076416, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2548689842224121, "timer/replay.add_frac": 0.0008487102686828099, "timer/replay.add_avg": 0.00017948520015662826, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0073850154876708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027012348175048828, "timer/logger.write_frac": 8.99507539033983e-05, "timer/logger.write_avg": 0.027012348175048828, "timer/logger.write_min": 0.027012348175048828, "timer/logger.write_max": 0.027012348175048828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003509521484375, "timer/checkpoint.save_frac": 1.1686659053628687e-06, "timer/checkpoint.save_avg": 0.0003509521484375, "timer/checkpoint.save_min": 0.0003509521484375, "timer/checkpoint.save_max": 0.0003509521484375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2764782905578613, "timer/agent.save_frac": 0.004250655434800725, "timer/agent.save_avg": 1.2764782905578613, "timer/agent.save_min": 1.2764782905578613, "timer/agent.save_max": 1.2764782905578613, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.581710815429688e-05, "timer/replay.save_frac": 2.5246994422920674e-07, "timer/replay.save_avg": 7.581710815429688e-05, "timer/replay.save_min": 7.581710815429688e-05, "timer/replay.save_max": 7.581710815429688e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.928346872329712, "timer/agent.policy_frac": 0.04971119308086841, "timer/agent.policy_avg": 0.010512920332626558, "timer/agent.policy_min": 0.005666971206665039, "timer/agent.policy_max": 3.5151896476745605, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06348848342895508, "timer/dataset_frac": 0.00021141579071948257, "timer/dataset_avg": 8.942039919571138e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00034332275390625, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.2674958705902, "timer/agent.train_frac": 0.8800071852946127, "timer/agent.train_avg": 0.3722077406628031, "timer/agent.train_min": 0.36609792709350586, "timer/agent.train_max": 0.38341641426086426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20064616203308105, "timer/agent.report_frac": 0.0006681490045123199, "timer/agent.report_avg": 0.20064616203308105, "timer/agent.report_min": 0.20064616203308105, "timer/agent.report_max": 0.20064616203308105, "fps": 4.7285016411831755}
+{"step": 290752, "episode/length": 155.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.057692307692307696}
+{"step": 290932, "episode/length": 179.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.044444444444444446}
+{"step": 291094, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04938271604938271}
+{"step": 291263, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
+{"step": 291457, "episode/length": 193.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.041237113402061855}
+{"step": 291630, "episode/length": 172.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05202312138728324}
+{"step": 291824, "episode/length": 193.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04639175257731959}
+{"step": 292082, "episode/length": 257.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03875968992248062}
+{"step": 292103, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4040578206380205, "train/action_min": 0.0, "train/action_std": 3.319541076819102, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04679657813782493, "train/actor_opt_grad_steps": 145145.0, "train/actor_opt_loss": -13.248012945055962, "train/adv_mag": 0.4730957829289966, "train/adv_max": 0.4169080816209316, "train/adv_mean": 0.0024814085539522543, "train/adv_min": -0.4007405460708671, "train/adv_std": 0.0520924035873678, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.6848057687942248e-05, "train/cont_loss_std": 0.0004459201009739091, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001595361069168651, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.0190481017641812e-05, "train/cont_pred": 0.994395426577992, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.5944842961099415, "train/dyn_loss_std": 8.51714132891761, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9864872660901811, "train/extr_critic_critic_opt_grad_steps": 145145.0, "train/extr_critic_critic_opt_loss": 15678.405653211805, "train/extr_critic_mag": 8.259973088900248, "train/extr_critic_max": 8.259973088900248, "train/extr_critic_mean": 2.075015308128463, "train/extr_critic_min": -0.6021591458055708, "train/extr_critic_std": 1.926462396979332, "train/extr_return_normed_mag": 1.5363514290915594, "train/extr_return_normed_max": 1.5363514290915594, "train/extr_return_normed_mean": 0.38457412976357674, "train/extr_return_normed_min": -0.12173817296408945, "train/extr_return_normed_std": 0.3317663185298443, "train/extr_return_rate": 0.7116699558165338, "train/extr_return_raw_mag": 8.882031904326546, "train/extr_return_raw_max": 8.882031904326546, "train/extr_return_raw_mean": 2.0896212226814694, "train/extr_return_raw_min": -0.8957993454403348, "train/extr_return_raw_std": 1.956378772854805, "train/extr_reward_mag": 1.0302753912078009, "train/extr_reward_max": 1.0302753912078009, "train/extr_reward_mean": 0.04025630373507738, "train/extr_reward_min": -0.6506947924693426, "train/extr_reward_std": 0.19764049496087763, "train/image_loss_mean": 2.7073409954706826, "train/image_loss_std": 7.568617549207476, "train/model_loss_mean": 5.510258972644806, "train/model_loss_std": 11.593108190430534, "train/model_opt_grad_norm": 35.281946738561, "train/model_opt_grad_steps": 145026.75, "train/model_opt_loss": 13775.647433810764, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3653048045105405, "train/policy_entropy_max": 2.3653048045105405, "train/policy_entropy_mean": 0.3571360922522015, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45643510876430404, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35745665844943786, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9680137675669458, "train/policy_randomness_mag": 0.8348487996392779, "train/policy_randomness_max": 0.8348487996392779, "train/policy_randomness_mean": 0.12605336763792568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16110156321277222, "train/post_ent_mag": 55.07240502039591, "train/post_ent_max": 55.07240502039591, "train/post_ent_mean": 40.75589323043823, "train/post_ent_min": 18.991006122695076, "train/post_ent_std": 5.702252407868703, "train/prior_ent_mag": 76.09008100297716, "train/prior_ent_max": 76.09008100297716, "train/prior_ent_mean": 45.29158565733168, "train/prior_ent_min": 27.169073184331257, "train/prior_ent_std": 7.2090913322236805, "train/rep_loss_mean": 4.5944842961099415, "train/rep_loss_std": 8.51714132891761, "train/reward_avg": 0.028516981065169804, "train/reward_loss_mean": 0.04621053192143639, "train/reward_loss_std": 0.20021840184926987, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0130079090595245, "train/reward_neg_acc": 0.9946262927518951, "train/reward_neg_loss": 0.02215547285353144, "train/reward_pos_acc": 0.9879581290814612, "train/reward_pos_loss": 0.7414442143506474, "train/reward_pred": 0.028287542893344328, "train/reward_rate": 0.033487955729166664, "stats/sum_log_reward": 7.975000023841858, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 3.625, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.625, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 0.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3364590108394623, "replay/size": 292040.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6447992615422383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2451550636925527e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3641748428345, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.351797103881836, "timer/env.step_frac": 0.06775707227578293, "timer/env.step_avg": 0.014094042315707643, "timer/env.step_min": 0.003110647201538086, "timer/env.step_max": 1.6875450611114502, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2515709400177002, "timer/replay.add_frac": 0.0008375530808537159, "timer/replay.add_avg": 0.00017421810250533256, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0010895729064941406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02796196937561035, "timer/logger.write_frac": 9.309355681396242e-05, "timer/logger.write_avg": 0.02796196937561035, "timer/logger.write_min": 0.02796196937561035, "timer/logger.write_max": 0.02796196937561035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.312187194824219, "timer/agent.policy_frac": 0.034332280806191585, "timer/agent.policy_avg": 0.007141403874532008, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.017968416213989258, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06455779075622559, "timer/dataset_frac": 0.00021493172676137373, "timer/dataset_avg": 8.941522265405205e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68867921829224, "timer/agent.train_frac": 0.8945430305025011, "timer/agent.train_avg": 0.37214498506688676, "timer/agent.train_min": 0.36109471321105957, "timer/agent.train_max": 0.3830533027648926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20350933074951172, "timer/agent.report_frac": 0.00067754195671304, "timer/agent.report_avg": 0.20350933074951172, "timer/agent.report_min": 0.20350933074951172, "timer/agent.report_max": 0.20350933074951172, "fps": 4.8074267209023835}
+{"step": 292296, "episode/length": 213.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04205607476635514}
+{"step": 292664, "episode/length": 367.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.02717391304347826}
+{"step": 292752, "episode/length": 87.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.09090909090909091}
+{"step": 292937, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
+{"step": 293190, "episode/length": 252.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.04743083003952569}
+{"step": 293394, "episode/length": 203.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04411764705882353}
+{"step": 293560, "episode/length": 165.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000038743019, "episode/reward_rate": 0.060240963855421686}
+{"step": 293561, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362628257437928, "train/action_min": 0.0, "train/action_std": 3.2285490264631296, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046386515185849304, "train/actor_opt_grad_steps": 145870.0, "train/actor_opt_loss": -12.39350397782783, "train/adv_mag": 0.47832282071244225, "train/adv_max": 0.451876213289287, "train/adv_mean": 0.0029321059763825446, "train/adv_min": -0.3964913046523316, "train/adv_std": 0.05258883852256487, "train/cont_avg": 0.994234267979452, "train/cont_loss_mean": 0.00022307633617258456, "train/cont_loss_std": 0.0069764150776317774, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.04580934723148484, "train/cont_pos_acc": 0.9999865138367431, "train/cont_pos_loss": 2.0970690611601303e-05, "train/cont_pred": 0.994244884138238, "train/cont_rate": 0.994234267979452, "train/dyn_loss_mean": 4.652129574997784, "train/dyn_loss_std": 8.585712498181486, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0523937720141998, "train/extr_critic_critic_opt_grad_steps": 145870.0, "train/extr_critic_critic_opt_loss": 15971.938195633562, "train/extr_critic_mag": 8.620955467224121, "train/extr_critic_max": 8.620955467224121, "train/extr_critic_mean": 2.0795714250982624, "train/extr_critic_min": -0.6277102346289648, "train/extr_critic_std": 1.9731917528256977, "train/extr_return_normed_mag": 1.5743202950856456, "train/extr_return_normed_max": 1.5743202950856456, "train/extr_return_normed_mean": 0.3795757669292084, "train/extr_return_normed_min": -0.12548394291980625, "train/extr_return_normed_std": 0.3318497403843762, "train/extr_return_rate": 0.713434682316976, "train/extr_return_raw_mag": 9.30986967478713, "train/extr_return_raw_max": 9.30986967478713, "train/extr_return_raw_mean": 2.0972673419403702, "train/extr_return_raw_min": -0.9529888809543766, "train/extr_return_raw_std": 2.003463629173906, "train/extr_reward_mag": 1.037885407878928, "train/extr_reward_max": 1.037885407878928, "train/extr_reward_mean": 0.040727629109400594, "train/extr_reward_min": -0.6763203242053725, "train/extr_reward_std": 0.19908154072010353, "train/image_loss_mean": 2.865913255573952, "train/image_loss_std": 7.818266933911468, "train/model_loss_mean": 5.705144131020324, "train/model_loss_std": 11.921684787697988, "train/model_opt_grad_norm": 36.858455893111554, "train/model_opt_grad_steps": 145750.57534246575, "train/model_opt_loss": 11286.720582726884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1969.1780821917807, "train/policy_entropy_mag": 2.378074721114276, "train/policy_entropy_max": 2.378074721114276, "train/policy_entropy_mean": 0.3479446040032661, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4435348698537644, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34671546049314, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9571475558084984, "train/policy_randomness_mag": 0.8393560174393327, "train/policy_randomness_max": 0.8393560174393327, "train/policy_randomness_mean": 0.12280917616739664, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15654834390503086, "train/post_ent_mag": 54.78258211318761, "train/post_ent_max": 54.78258211318761, "train/post_ent_mean": 40.67264086579623, "train/post_ent_min": 18.502678936474943, "train/post_ent_std": 5.760889837186631, "train/prior_ent_mag": 75.94867852615984, "train/prior_ent_max": 75.94867852615984, "train/prior_ent_mean": 45.25989187580265, "train/prior_ent_min": 26.87776317335155, "train/prior_ent_std": 7.331987093572748, "train/rep_loss_mean": 4.652129574997784, "train/rep_loss_std": 8.585712498181486, "train/reward_avg": 0.028476829678840833, "train/reward_loss_mean": 0.047730104844659976, "train/reward_loss_std": 0.1987931438504833, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0157616105798173, "train/reward_neg_acc": 0.9943223203698249, "train/reward_neg_loss": 0.023897809091292015, "train/reward_pos_acc": 0.9880740903828242, "train/reward_pos_loss": 0.7314792561204466, "train/reward_pred": 0.02842106779858674, "train/reward_rate": 0.03376498287671233, "stats/sum_log_reward": 8.100000245230538, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 5.714285714285714, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44902888791901724, "replay/size": 293498.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.677827340585214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2322994580157662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.5008809566498, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.696033477783203, "timer/env.step_frac": 0.06200988009872961, "timer/env.step_avg": 0.012823068228932238, "timer/env.step_min": 0.0030298233032226562, "timer/env.step_max": 1.7545216083526611, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.24752593040466309, "timer/replay.add_frac": 0.0008209791282177139, "timer/replay.add_avg": 0.00016977087133378813, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.001222372055053711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02909564971923828, "timer/logger.write_frac": 9.650270217094886e-05, "timer/logger.write_avg": 0.02909564971923828, "timer/logger.write_min": 0.02909564971923828, "timer/logger.write_max": 0.02909564971923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.380641460418701, "timer/agent.policy_frac": 0.03442988765897253, "timer/agent.policy_avg": 0.00711978152292092, "timer/agent.policy_min": 0.005688667297363281, "timer/agent.policy_max": 0.016569852828979492, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06545233726501465, "timer/dataset_frac": 0.00021708837817434264, "timer/dataset_avg": 8.978372738685137e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00017023086547851562, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.41095423698425, "timer/agent.train_frac": 0.9001995396358663, "timer/agent.train_avg": 0.37230583571602777, "timer/agent.train_min": 0.3629279136657715, "timer/agent.train_max": 0.39217448234558105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028796672821045, "timer/agent.report_frac": 0.000672899086192968, "timer/agent.report_avg": 0.2028796672821045, "timer/agent.report_min": 0.2028796672821045, "timer/agent.report_max": 0.2028796672821045, "fps": 4.83572508215101}
+{"step": 293612, "episode/length": 51.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.09615384615384616}
+{"step": 293832, "episode/length": 219.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.700000017881393, "episode/reward_rate": 0.03636363636363636}
+{"step": 294010, "episode/length": 177.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.0449438202247191}
+{"step": 294068, "episode/length": 57.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05172413793103448}
+{"step": 294227, "episode/length": 158.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.050314465408805034}
+{"step": 294411, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04891304347826087}
+{"step": 294661, "episode/length": 249.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.016}
+{"step": 294989, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416280397227113, "train/action_min": 0.0, "train/action_std": 3.2750413686456814, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045700069044677306, "train/actor_opt_grad_steps": 146590.0, "train/actor_opt_loss": -14.984628596775968, "train/adv_mag": 0.47617325648455555, "train/adv_max": 0.4390900370100854, "train/adv_mean": 0.0019190877433751486, "train/adv_min": -0.3877945374435102, "train/adv_std": 0.05164182841987677, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 1.2801094836139411e-05, "train/cont_loss_std": 0.0002463916544178266, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00043180623502751456, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 9.819058152676058e-06, "train/cont_pred": 0.994285416435188, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.668125820831514, "train/dyn_loss_std": 8.52600507333245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0491668716282911, "train/extr_critic_critic_opt_grad_steps": 146590.0, "train/extr_critic_critic_opt_loss": 15606.685698173416, "train/extr_critic_mag": 8.536063462915555, "train/extr_critic_max": 8.536063462915555, "train/extr_critic_mean": 2.0923854549166183, "train/extr_critic_min": -0.6350416902085425, "train/extr_critic_std": 2.016616964004409, "train/extr_return_normed_mag": 1.5462365419092312, "train/extr_return_normed_max": 1.5462365419092312, "train/extr_return_normed_mean": 0.3785346496692846, "train/extr_return_normed_min": -0.12776125337876065, "train/extr_return_normed_std": 0.3358506812176234, "train/extr_return_rate": 0.7112062027756597, "train/extr_return_raw_mag": 9.218045093643834, "train/extr_return_raw_max": 9.218045093643834, "train/extr_return_raw_mean": 2.1041124437896297, "train/extr_return_raw_min": -0.9798911893871468, "train/extr_return_raw_std": 2.0459672581981607, "train/extr_reward_mag": 1.0362768005317367, "train/extr_reward_max": 1.0362768005317367, "train/extr_reward_mean": 0.039847244285571744, "train/extr_reward_min": -0.6555798960403657, "train/extr_reward_std": 0.19708464703929257, "train/image_loss_mean": 2.814812169948094, "train/image_loss_std": 7.273414820012912, "train/model_loss_mean": 5.661591455970012, "train/model_loss_std": 11.338986013976621, "train/model_opt_grad_norm": 34.70974059843681, "train/model_opt_grad_steps": 146470.0, "train/model_opt_loss": 7271.018148932659, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1285.2112676056338, "train/policy_entropy_mag": 2.388471438851155, "train/policy_entropy_max": 2.388471438851155, "train/policy_entropy_mean": 0.36337374465566286, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4643028055278348, "train/policy_logprob_mag": 7.438384156831553, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3629247164222556, "train/policy_logprob_min": -7.438384156831553, "train/policy_logprob_std": 0.9714304519371247, "train/policy_randomness_mag": 0.8430256062829998, "train/policy_randomness_max": 0.8430256062829998, "train/policy_randomness_mean": 0.12825498687969128, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.163878513893611, "train/post_ent_mag": 54.974484779465364, "train/post_ent_max": 54.974484779465364, "train/post_ent_mean": 40.52546863824549, "train/post_ent_min": 18.461182016721914, "train/post_ent_std": 5.658984143969039, "train/prior_ent_mag": 75.9787324717347, "train/prior_ent_max": 75.9787324717347, "train/prior_ent_mean": 45.16559847979478, "train/prior_ent_min": 26.900559653698558, "train/prior_ent_std": 7.263012603974678, "train/rep_loss_mean": 4.668125820831514, "train/rep_loss_std": 8.52600507333245, "train/reward_avg": 0.029221225936542933, "train/reward_loss_mean": 0.04589100302734845, "train/reward_loss_std": 0.19000213981514247, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0167243094511436, "train/reward_neg_acc": 0.9948612317233019, "train/reward_neg_loss": 0.021834731889022907, "train/reward_pos_acc": 0.9885270310119844, "train/reward_pos_loss": 0.7228519966904546, "train/reward_pred": 0.029054886320422232, "train/reward_rate": 0.03422095070422535, "stats/sum_log_reward": 5.3857143606458395, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 0.42857142857142855, "stats/max_log_achievement_collect_stone": 0.2857142857142857, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.27468478998967577, "replay/size": 294926.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.8046796782677915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2416590829523337e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21185517311096, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.35015106201172, "timer/env.step_frac": 0.07111694856187672, "timer/env.step_avg": 0.014951086177879354, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 2.67746901512146, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.25460362434387207, "timer/replay.add_frac": 0.0008480798474699147, "timer/replay.add_avg": 0.00017829385458254348, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0012383460998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02753305435180664, "timer/logger.write_frac": 9.17120822424893e-05, "timer/logger.write_avg": 0.02753305435180664, "timer/logger.write_min": 0.02753305435180664, "timer/logger.write_max": 0.02753305435180664, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005097389221191406, "timer/checkpoint.save_frac": 1.6979306890635956e-06, "timer/checkpoint.save_avg": 0.0005097389221191406, "timer/checkpoint.save_min": 0.0005097389221191406, "timer/checkpoint.save_max": 0.0005097389221191406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.242131233215332, "timer/agent.save_frac": 0.004137515597107525, "timer/agent.save_avg": 1.242131233215332, "timer/agent.save_min": 1.242131233215332, "timer/agent.save_max": 1.242131233215332, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.677078247070312e-05, "timer/replay.save_frac": 2.5572202145859575e-07, "timer/replay.save_avg": 7.677078247070312e-05, "timer/replay.save_min": 7.677078247070312e-05, "timer/replay.save_max": 7.677078247070312e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.466765403747559, "timer/agent.policy_frac": 0.0381955782430227, "timer/agent.policy_avg": 0.008029947761727982, "timer/agent.policy_min": 0.005654573440551758, "timer/agent.policy_max": 1.2276439666748047, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06498360633850098, "timer/dataset_frac": 0.00021645916115147924, "timer/dataset_avg": 9.101345425560361e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.3923370838165, "timer/agent.train_frac": 0.8873478261882992, "timer/agent.train_avg": 0.3730985113218719, "timer/agent.train_min": 0.3663170337677002, "timer/agent.train_max": 0.9590597152709961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1988694667816162, "timer/agent.report_frac": 0.0006624304248975852, "timer/agent.report_avg": 0.1988694667816162, "timer/agent.report_min": 0.1988694667816162, "timer/agent.report_max": 0.1988694667816162, "fps": 4.756549543908327}
+{"step": 295053, "episode/length": 391.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.02295918367346939}
+{"step": 295231, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.0449438202247191}
+{"step": 295399, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05952380952380952}
+{"step": 295689, "episode/length": 289.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.034482758620689655}
+{"step": 296058, "episode/length": 368.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.032520325203252036}
+{"step": 296267, "episode/length": 208.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05263157894736842}
+{"step": 296430, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03680981595092025}
+{"step": 296439, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473933807791096, "train/action_min": 0.0, "train/action_std": 3.3076489461611396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04659838601946831, "train/actor_opt_grad_steps": 147310.0, "train/actor_opt_loss": -13.124925793033757, "train/adv_mag": 0.46462448492442093, "train/adv_max": 0.44020779124678, "train/adv_mean": 0.002548569441001148, "train/adv_min": -0.3720402370576989, "train/adv_std": 0.051607487187401886, "train/cont_avg": 0.9941272474315068, "train/cont_loss_mean": 1.9895781732252358e-05, "train/cont_loss_std": 0.0005499062042316563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007358023099731613, "train/cont_pos_acc": 0.9999864836261697, "train/cont_pos_loss": 1.6538089797739753e-05, "train/cont_pred": 0.9941183932840008, "train/cont_rate": 0.9941272474315068, "train/dyn_loss_mean": 4.828401222620925, "train/dyn_loss_std": 8.580986414870171, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0321515357657656, "train/extr_critic_critic_opt_grad_steps": 147310.0, "train/extr_critic_critic_opt_loss": 15750.90190229024, "train/extr_critic_mag": 8.503972105783959, "train/extr_critic_max": 8.503972105783959, "train/extr_critic_mean": 2.120594227150695, "train/extr_critic_min": -0.5988584495570561, "train/extr_critic_std": 2.036489777369042, "train/extr_return_normed_mag": 1.5358469812837365, "train/extr_return_normed_max": 1.5358469812837365, "train/extr_return_normed_mean": 0.3809760621149246, "train/extr_return_normed_min": -0.12239385539129989, "train/extr_return_normed_std": 0.33816743101159186, "train/extr_return_rate": 0.7071837929830159, "train/extr_return_raw_mag": 9.191390298817256, "train/extr_return_raw_max": 9.191390298817256, "train/extr_return_raw_mean": 2.1361694466577816, "train/extr_return_raw_min": -0.9391023549315047, "train/extr_return_raw_std": 2.0659660329557443, "train/extr_reward_mag": 1.0320934236866155, "train/extr_reward_max": 1.0320934236866155, "train/extr_reward_mean": 0.04099591277947981, "train/extr_reward_min": -0.6482715916960207, "train/extr_reward_std": 0.19924242345437612, "train/image_loss_mean": 2.974583248569541, "train/image_loss_std": 7.781188507602639, "train/model_loss_mean": 5.918634630229375, "train/model_loss_std": 11.870096115216818, "train/model_opt_grad_norm": 37.06034158680537, "train/model_opt_grad_steps": 147189.02739726027, "train/model_opt_loss": 7597.042239672517, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.40067526085736, "train/policy_entropy_max": 2.40067526085736, "train/policy_entropy_mean": 0.36300529559997663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46158925515331634, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36447715391851454, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 0.9767922105854505, "train/policy_randomness_mag": 0.8473330189103949, "train/policy_randomness_max": 0.8473330189103949, "train/policy_randomness_mean": 0.12812494272238587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16292075098377384, "train/post_ent_mag": 54.68077259847563, "train/post_ent_max": 54.68077259847563, "train/post_ent_mean": 40.47655340743391, "train/post_ent_min": 19.07885373781805, "train/post_ent_std": 5.667228600750231, "train/prior_ent_mag": 75.96047200242134, "train/prior_ent_max": 75.96047200242134, "train/prior_ent_mean": 45.25672860341529, "train/prior_ent_min": 27.429153912687955, "train/prior_ent_std": 7.3022114283418, "train/rep_loss_mean": 4.828401222620925, "train/rep_loss_std": 8.580986414870171, "train/reward_avg": 0.02958315489686107, "train/reward_loss_mean": 0.04699072897536297, "train/reward_loss_std": 0.19632999629598774, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0188081362476087, "train/reward_neg_acc": 0.9952067773636073, "train/reward_neg_loss": 0.02232740088429761, "train/reward_pos_acc": 0.9887045148300798, "train/reward_pos_loss": 0.7319577540436836, "train/reward_pred": 0.029388857074081898, "train/reward_rate": 0.03476830051369863, "stats/sum_log_reward": 8.528571673801967, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.142857142857143, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.41667106321879793, "replay/size": 296376.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.831304352858971e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.236179779315817e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28515911102295, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.846584796905518, "timer/env.step_frac": 0.06276229185851127, "timer/env.step_avg": 0.012997644687521046, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.6702609062194824, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2707555294036865, "timer/replay.add_frac": 0.0009016613748253254, "timer/replay.add_avg": 0.00018672795131288725, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.004993915557861328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030596494674682617, "timer/logger.write_frac": 0.00010189146465067336, "timer/logger.write_avg": 0.030596494674682617, "timer/logger.write_min": 0.030596494674682617, "timer/logger.write_max": 0.030596494674682617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.489043235778809, "timer/agent.policy_frac": 0.034930275165216365, "timer/agent.policy_avg": 0.007233822921226764, "timer/agent.policy_min": 0.005643367767333984, "timer/agent.policy_max": 0.017899036407470703, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06719231605529785, "timer/dataset_frac": 0.00022376169456464937, "timer/dataset_avg": 9.267905662799704e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.9003372192383, "timer/agent.train_frac": 0.8988134412578457, "timer/agent.train_avg": 0.3722763271989494, "timer/agent.train_min": 0.3664219379425049, "timer/agent.train_max": 0.38515210151672363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20433354377746582, "timer/agent.report_frac": 0.0006804650099338362, "timer/agent.report_avg": 0.20433354377746582, "timer/agent.report_min": 0.20433354377746582, "timer/agent.report_max": 0.20433354377746582, "fps": 4.828680475925313}
+{"step": 296642, "episode/length": 211.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04245283018867924}
+{"step": 296724, "episode/length": 81.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.08536585365853659}
+{"step": 296970, "episode/length": 245.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04878048780487805}
+{"step": 297172, "episode/length": 201.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04455445544554455}
+{"step": 297296, "episode/length": 123.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.056451612903225805}
+{"step": 297518, "episode/length": 221.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.036036036036036036}
+{"step": 297695, "episode/length": 176.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000038743019, "episode/reward_rate": 0.05649717514124294}
+{"step": 297843, "episode/length": 147.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.04054054054054054}
+{"step": 297881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401251051161024, "train/action_min": 0.0, "train/action_std": 3.2949348986148834, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04640373204731279, "train/actor_opt_grad_steps": 148035.0, "train/actor_opt_loss": -14.309422127074665, "train/adv_mag": 0.5046960479683347, "train/adv_max": 0.46010946275459397, "train/adv_mean": 0.001589286545418468, "train/adv_min": -0.4086782539056407, "train/adv_std": 0.0518669362904297, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.6827420737620792e-05, "train/cont_loss_std": 0.00048336621918170723, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002793518192431874, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 2.7179429369855116e-06, "train/cont_pred": 0.9947052465544807, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.720432798067729, "train/dyn_loss_std": 8.545602705743578, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0148011520504951, "train/extr_critic_critic_opt_grad_steps": 148035.0, "train/extr_critic_critic_opt_loss": 15680.642700195312, "train/extr_critic_mag": 8.52013517750634, "train/extr_critic_max": 8.52013517750634, "train/extr_critic_mean": 2.044101339247492, "train/extr_critic_min": -0.6025322477022806, "train/extr_critic_std": 1.9256210972865422, "train/extr_return_normed_mag": 1.535826661520534, "train/extr_return_normed_max": 1.535826661520534, "train/extr_return_normed_mean": 0.3717365591890282, "train/extr_return_normed_min": -0.12008054549288419, "train/extr_return_normed_std": 0.3233895082440641, "train/extr_return_rate": 0.7128662467002869, "train/extr_return_raw_mag": 9.087132387691074, "train/extr_return_raw_max": 9.087132387691074, "train/extr_return_raw_mean": 2.053742657105128, "train/extr_return_raw_min": -0.9176992716060745, "train/extr_return_raw_std": 1.953880907760726, "train/extr_reward_mag": 1.0289192994435628, "train/extr_reward_max": 1.0289192994435628, "train/extr_reward_mean": 0.039031901836602226, "train/extr_reward_min": -0.6462355289194319, "train/extr_reward_std": 0.19467884819540712, "train/image_loss_mean": 2.773759717742602, "train/image_loss_std": 8.118620779779222, "train/model_loss_mean": 5.651086211204529, "train/model_loss_std": 12.18781394428677, "train/model_opt_grad_norm": 34.02285503016578, "train/model_opt_grad_steps": 147913.61111111112, "train/model_opt_loss": 8562.094882541232, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1510.4166666666667, "train/policy_entropy_mag": 2.406941145658493, "train/policy_entropy_max": 2.406941145658493, "train/policy_entropy_mean": 0.34912387364440495, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44311512178844875, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3493194927771886, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9605330146021314, "train/policy_randomness_mag": 0.8495445988244481, "train/policy_randomness_max": 0.8495445988244481, "train/policy_randomness_mean": 0.12322540601922406, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15640019221852222, "train/post_ent_mag": 54.30815479490492, "train/post_ent_max": 54.30815479490492, "train/post_ent_mean": 40.5685436990526, "train/post_ent_min": 19.194860829247368, "train/post_ent_std": 5.616971115271251, "train/prior_ent_mag": 75.95866976843939, "train/prior_ent_max": 75.95866976843939, "train/prior_ent_mean": 45.24919944339328, "train/prior_ent_min": 27.511604600482517, "train/prior_ent_std": 7.176429145865971, "train/rep_loss_mean": 4.720432798067729, "train/rep_loss_std": 8.545602705743578, "train/reward_avg": 0.027773708493138354, "train/reward_loss_mean": 0.045050017432206206, "train/reward_loss_std": 0.18883037587834728, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0102543764644198, "train/reward_neg_acc": 0.9948247306876712, "train/reward_neg_loss": 0.022007892425689433, "train/reward_pos_acc": 0.9879143585761389, "train/reward_pos_loss": 0.7282633342676692, "train/reward_pred": 0.02761405320941574, "train/reward_rate": 0.03271484375, "stats/sum_log_reward": 7.4750001430511475, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 2.625, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.75, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 0.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.35762015730142593, "replay/size": 297818.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7502151256460755e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.286646033457678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3405110836029, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.348430395126343, "timer/env.step_frac": 0.06775120120063371, "timer/env.step_avg": 0.01411125547512229, "timer/env.step_min": 0.0031061172485351562, "timer/env.step_max": 1.6842007637023926, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2588043212890625, "timer/replay.add_frac": 0.0008617030062155739, "timer/replay.add_avg": 0.00017947595096328884, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.00176239013671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027364730834960938, "timer/logger.write_frac": 9.111235356239932e-05, "timer/logger.write_avg": 0.027364730834960938, "timer/logger.write_min": 0.027364730834960938, "timer/logger.write_max": 0.027364730834960938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.457367181777954, "timer/agent.policy_frac": 0.03481837046906748, "timer/agent.policy_avg": 0.007251988336877915, "timer/agent.policy_min": 0.005603313446044922, "timer/agent.policy_max": 0.0171816349029541, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06610655784606934, "timer/dataset_frac": 0.00022010536509897558, "timer/dataset_avg": 9.168732017485345e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00023555755615234375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4909007549286, "timer/agent.train_frac": 0.8939549972337609, "timer/agent.train_avg": 0.37238682490281355, "timer/agent.train_min": 0.36539459228515625, "timer/agent.train_max": 0.386629581451416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22230839729309082, "timer/agent.report_frac": 0.0007401878504202483, "timer/agent.report_avg": 0.22230839729309082, "timer/agent.report_min": 0.22230839729309082, "timer/agent.report_max": 0.22230839729309082, "fps": 4.801126129128669}
+{"step": 298148, "episode/length": 304.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.036065573770491806}
+{"step": 298325, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
+{"step": 298473, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 298625, "episode/length": 151.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.05921052631578947}
+{"step": 298701, "episode/length": 75.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 298918, "episode/length": 216.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04608294930875576}
+{"step": 299274, "episode/length": 355.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016853932584269662}
+{"step": 299309, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.492053394586268, "train/action_min": 0.0, "train/action_std": 3.359816490764349, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04798192777474162, "train/actor_opt_grad_steps": 148750.0, "train/actor_opt_loss": -12.665163878403918, "train/adv_mag": 0.4973606891195539, "train/adv_max": 0.45465853012783425, "train/adv_mean": 0.002784670079422604, "train/adv_min": -0.4233388040267246, "train/adv_std": 0.052921820222072195, "train/cont_avg": 0.9947458186619719, "train/cont_loss_mean": 6.420659458383302e-05, "train/cont_loss_std": 0.0019845230542950704, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.006385049842047523, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 9.93237341937959e-06, "train/cont_pred": 0.9947537485982331, "train/cont_rate": 0.9947458186619719, "train/dyn_loss_mean": 4.691547833697896, "train/dyn_loss_std": 8.548197934325312, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0672950534753396, "train/extr_critic_critic_opt_grad_steps": 148750.0, "train/extr_critic_critic_opt_loss": 15914.803738446302, "train/extr_critic_mag": 8.653467943970586, "train/extr_critic_max": 8.653467943970586, "train/extr_critic_mean": 2.0510478237984886, "train/extr_critic_min": -0.6202840721103507, "train/extr_critic_std": 1.9369409940612148, "train/extr_return_normed_mag": 1.5616540102891519, "train/extr_return_normed_max": 1.5616540102891519, "train/extr_return_normed_mean": 0.37894943965152955, "train/extr_return_normed_min": -0.12408588039623179, "train/extr_return_normed_std": 0.32747677682151255, "train/extr_return_rate": 0.7200264477393996, "train/extr_return_raw_mag": 9.17319342116235, "train/extr_return_raw_max": 9.17319342116235, "train/extr_return_raw_mean": 2.0677549536799043, "train/extr_return_raw_min": -0.9531247154088087, "train/extr_return_raw_std": 1.967411566788042, "train/extr_reward_mag": 1.0347246217056059, "train/extr_reward_max": 1.0347246217056059, "train/extr_reward_mean": 0.04003013489426861, "train/extr_reward_min": -0.653248731519135, "train/extr_reward_std": 0.19694543808278903, "train/image_loss_mean": 2.810791185204412, "train/image_loss_std": 7.454784944023885, "train/model_loss_mean": 5.6716257954987, "train/model_loss_std": 11.556559320906517, "train/model_opt_grad_norm": 33.15936647334569, "train/model_opt_grad_steps": 148628.0, "train/model_opt_loss": 7089.532219685299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3907182921826, "train/policy_entropy_max": 2.3907182921826, "train/policy_entropy_mean": 0.35734326297968205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45012681794838166, "train/policy_logprob_mag": 7.438384183695619, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35581323252597324, "train/policy_logprob_min": -7.438384183695619, "train/policy_logprob_std": 0.9609620495581291, "train/policy_randomness_mag": 0.8438186385262181, "train/policy_randomness_max": 0.8438186385262181, "train/policy_randomness_mean": 0.1261264909531029, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15887501447553365, "train/post_ent_mag": 54.606693321550395, "train/post_ent_max": 54.606693321550395, "train/post_ent_mean": 40.5319855918347, "train/post_ent_min": 18.35206955923161, "train/post_ent_std": 5.610631680824388, "train/prior_ent_mag": 76.06843910754567, "train/prior_ent_max": 76.06843910754567, "train/prior_ent_mean": 45.149320091999755, "train/prior_ent_min": 27.69486505212918, "train/prior_ent_std": 7.16005587242019, "train/rep_loss_mean": 4.691547833697896, "train/rep_loss_std": 8.548197934325312, "train/reward_avg": 0.027610585145967106, "train/reward_loss_mean": 0.04584169810191846, "train/reward_loss_std": 0.20648619154809225, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0126810409653355, "train/reward_neg_acc": 0.9954706799816078, "train/reward_neg_loss": 0.02227345435604663, "train/reward_pos_acc": 0.9818886149097497, "train/reward_pos_loss": 0.754186383435424, "train/reward_pred": 0.027194123374114573, "train/reward_rate": 0.03226782570422535, "stats/sum_log_reward": 6.957142932074411, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 3.0, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.38125175876276834, "replay/size": 299246.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.953440850522338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2424104020041244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.8632621765137, "timer/env.step_count": 1428.0, "timer/env.step_total": 18.93921136856079, "timer/env.step_frac": 0.06274102794756833, "timer/env.step_avg": 0.01326275305921624, "timer/env.step_min": 0.003229379653930664, "timer/env.step_max": 1.7385759353637695, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.28470897674560547, "timer/replay.add_frac": 0.0009431720001062027, "timer/replay.add_avg": 0.00019937603413557807, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.006887197494506836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027493953704833984, "timer/logger.write_frac": 9.108082085443366e-05, "timer/logger.write_avg": 0.027493953704833984, "timer/logger.write_min": 0.027493953704833984, "timer/logger.write_max": 0.027493953704833984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005095005035400391, "timer/checkpoint.save_frac": 1.687851975978813e-06, "timer/checkpoint.save_avg": 0.0005095005035400391, "timer/checkpoint.save_min": 0.0005095005035400391, "timer/checkpoint.save_max": 0.0005095005035400391, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.533085584640503, "timer/agent.save_frac": 0.0050787418567816165, "timer/agent.save_avg": 1.533085584640503, "timer/agent.save_min": 1.533085584640503, "timer/agent.save_max": 1.533085584640503, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.84336317900034e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.183016061782837, "timer/agent.policy_frac": 0.040359386478301736, "timer/agent.policy_avg": 0.0085315238527891, "timer/agent.policy_min": 0.0057489871978759766, "timer/agent.policy_max": 1.5316624641418457, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06810712814331055, "timer/dataset_frac": 0.00022562244789988754, "timer/dataset_avg": 9.538813465449657e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00021767616271972656, "timer/agent.train_count": 714.0, "timer/agent.train_total": 268.9514391422272, "timer/agent.train_frac": 0.8909710880450189, "timer/agent.train_avg": 0.37668268787426773, "timer/agent.train_min": 0.36629438400268555, "timer/agent.train_max": 3.043524980545044, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22659754753112793, "timer/agent.report_frac": 0.0007506628858950901, "timer/agent.report_avg": 0.22659754753112793, "timer/agent.report_min": 0.22659754753112793, "timer/agent.report_max": 0.22659754753112793, "fps": 4.730548417646296}
+{"step": 299433, "episode/length": 158.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.06289308176100629}
+{"step": 299590, "episode/length": 156.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.044585987261146494}
+{"step": 299863, "episode/length": 272.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03663003663003663}
+{"step": 300147, "episode/length": 283.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04225352112676056}
+{"step": 300330, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
+{"step": 300547, "episode/length": 216.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.013824884792626729}
+{"step": 300711, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04878048780487805}
+{"step": 300755, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493838840060764, "train/action_min": 0.0, "train/action_std": 3.3091627756754556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575207415554258, "train/actor_opt_grad_steps": 149465.0, "train/actor_opt_loss": -13.720080971717834, "train/adv_mag": 0.4587732557621267, "train/adv_max": 0.41494636982679367, "train/adv_mean": 0.0028943009665454156, "train/adv_min": -0.40051910736494595, "train/adv_std": 0.0509582316606409, "train/cont_avg": 0.9942084418402778, "train/cont_loss_mean": 0.00011420611638681934, "train/cont_loss_std": 0.003634616904597444, "train/cont_neg_acc": 0.9945436517397562, "train/cont_neg_loss": 0.009165992003720666, "train/cont_pos_acc": 0.9999863339795007, "train/cont_pos_loss": 5.916935407501711e-05, "train/cont_pred": 0.9942130595445633, "train/cont_rate": 0.9942084418402778, "train/dyn_loss_mean": 4.787739551729626, "train/dyn_loss_std": 8.610344184769524, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0225299580229654, "train/extr_critic_critic_opt_grad_steps": 149465.0, "train/extr_critic_critic_opt_loss": 15854.828084309896, "train/extr_critic_mag": 8.417457752757603, "train/extr_critic_max": 8.417457752757603, "train/extr_critic_mean": 2.0842044750849404, "train/extr_critic_min": -0.6374807125992246, "train/extr_critic_std": 2.001129256354438, "train/extr_return_normed_mag": 1.5258917990658019, "train/extr_return_normed_max": 1.5258917990658019, "train/extr_return_normed_mean": 0.37966501630014843, "train/extr_return_normed_min": -0.10872373978296916, "train/extr_return_normed_std": 0.33000420530637103, "train/extr_return_rate": 0.699367986785041, "train/extr_return_raw_mag": 9.166546185811361, "train/extr_return_raw_max": 9.166546185811361, "train/extr_return_raw_mean": 2.102052080962393, "train/extr_return_raw_min": -0.9084588322374556, "train/extr_return_raw_std": 2.0340315534008875, "train/extr_reward_mag": 1.0307279924551647, "train/extr_reward_max": 1.0307279924551647, "train/extr_reward_mean": 0.04062960552982986, "train/extr_reward_min": -0.6622782879405551, "train/extr_reward_std": 0.19827446838219961, "train/image_loss_mean": 2.8642515109644995, "train/image_loss_std": 7.682644724845886, "train/model_loss_mean": 5.784762389130062, "train/model_loss_std": 11.789526760578156, "train/model_opt_grad_norm": 34.14462208747864, "train/model_opt_grad_steps": 149342.16666666666, "train/model_opt_loss": 8396.277262369791, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.4042907092306347, "train/policy_entropy_max": 2.4042907092306347, "train/policy_entropy_mean": 0.365605167630646, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46191806056433254, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36414528224203324, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9704970419406891, "train/policy_randomness_mag": 0.8486091097195944, "train/policy_randomness_max": 0.8486091097195944, "train/policy_randomness_mean": 0.12904258186204565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16303680361145073, "train/post_ent_mag": 54.8469828499688, "train/post_ent_max": 54.8469828499688, "train/post_ent_mean": 40.53871070014106, "train/post_ent_min": 18.727904121081036, "train/post_ent_std": 5.623314314418369, "train/prior_ent_mag": 76.0699126985338, "train/prior_ent_max": 76.0699126985338, "train/prior_ent_mean": 45.299574322170685, "train/prior_ent_min": 27.651222255494858, "train/prior_ent_std": 7.25886650217904, "train/rep_loss_mean": 4.787739551729626, "train/rep_loss_std": 8.610344184769524, "train/reward_avg": 0.029387749343489606, "train/reward_loss_mean": 0.04775298785211311, "train/reward_loss_std": 0.20217086498936018, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.014144207040469, "train/reward_neg_acc": 0.9952230784628127, "train/reward_neg_loss": 0.023175117197550006, "train/reward_pos_acc": 0.984441357354323, "train/reward_pos_loss": 0.7402596871058146, "train/reward_pred": 0.029093380318954587, "train/reward_rate": 0.03441026475694445, "stats/sum_log_reward": 7.528571605682373, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 6.714285714285714, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43732739772115437, "replay/size": 300692.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.815686554334965e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2381566510655574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.62505316734314, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.44499683380127, "timer/env.step_frac": 0.06156026219709866, "timer/env.step_avg": 0.01275587609529825, "timer/env.step_min": 0.002888202667236328, "timer/env.step_max": 1.7126731872558594, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28209972381591797, "timer/replay.add_frac": 0.0009415091322766086, "timer/replay.add_avg": 0.00019508971218251588, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0077626705169677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030571460723876953, "timer/logger.write_frac": 0.00010203239148631051, "timer/logger.write_avg": 0.030571460723876953, "timer/logger.write_min": 0.030571460723876953, "timer/logger.write_max": 0.030571460723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.83379602432251, "timer/agent.policy_frac": 0.036157844311742994, "timer/agent.policy_avg": 0.007492251745727877, "timer/agent.policy_min": 0.005651712417602539, "timer/agent.policy_max": 0.015634775161743164, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0672156810760498, "timer/dataset_frac": 0.00022433264630414358, "timer/dataset_avg": 9.296774699315325e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00022101402282714844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.2925064563751, "timer/agent.train_frac": 0.8987649851361827, "timer/agent.train_avg": 0.3724654307833681, "timer/agent.train_min": 0.36345839500427246, "timer/agent.train_max": 0.3880348205566406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20143985748291016, "timer/agent.report_frac": 0.000672306455529953, "timer/agent.report_avg": 0.20143985748291016, "timer/agent.report_min": 0.20143985748291016, "timer/agent.report_max": 0.20143985748291016, "fps": 4.8259647853799805}
+{"step": 300924, "episode/length": 212.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.051643192488262914}
+{"step": 300975, "episode/length": 50.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.11764705882352941}
+{"step": 301168, "episode/length": 192.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06217616580310881}
+{"step": 301404, "episode/length": 235.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0423728813559322}
+{"step": 301663, "episode/length": 258.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.04247104247104247}
+{"step": 301889, "episode/length": 225.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.035398230088495575}
+{"step": 302080, "episode/length": 190.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05235602094240838}
+{"step": 302203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4144178416630995, "train/action_min": 0.0, "train/action_std": 3.3041586908575606, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045666539352642345, "train/actor_opt_grad_steps": 150190.0, "train/actor_opt_loss": -13.482090968791752, "train/adv_mag": 0.4778067935002993, "train/adv_max": 0.43582435258447305, "train/adv_mean": 0.0024572166464155365, "train/adv_min": -0.39004108146445393, "train/adv_std": 0.05146086899793311, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.6475200549965684e-05, "train/cont_loss_std": 0.0014640291846595972, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0068268808234136, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 2.186303424011855e-06, "train/cont_pred": 0.9945061647728698, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 4.609645693269495, "train/dyn_loss_std": 8.50630077597213, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0401142802956986, "train/extr_critic_critic_opt_grad_steps": 150190.0, "train/extr_critic_critic_opt_loss": 15743.092265089897, "train/extr_critic_mag": 8.420220427317162, "train/extr_critic_max": 8.420220427317162, "train/extr_critic_mean": 2.1866902602862006, "train/extr_critic_min": -0.607516688843296, "train/extr_critic_std": 2.0046789058267254, "train/extr_return_normed_mag": 1.494924930677022, "train/extr_return_normed_max": 1.494924930677022, "train/extr_return_normed_mean": 0.3909536957332533, "train/extr_return_normed_min": -0.11555260705621276, "train/extr_return_normed_std": 0.3285899758338928, "train/extr_return_rate": 0.7125526568660997, "train/extr_return_raw_mag": 9.033792678623984, "train/extr_return_raw_max": 9.033792678623984, "train/extr_return_raw_mean": 2.2019551339214796, "train/extr_return_raw_min": -0.9316589603685352, "train/extr_return_raw_std": 2.033002407583472, "train/extr_reward_mag": 1.032285788287855, "train/extr_reward_max": 1.032285788287855, "train/extr_reward_mean": 0.04188056573373814, "train/extr_reward_min": -0.6631848599812756, "train/extr_reward_std": 0.20106745970575776, "train/image_loss_mean": 2.7108345342009037, "train/image_loss_std": 7.433703834063386, "train/model_loss_mean": 5.523018386266003, "train/model_loss_std": 11.495618310693192, "train/model_opt_grad_norm": 33.95644888159347, "train/model_opt_grad_steps": 150067.0, "train/model_opt_loss": 10055.156537617722, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1815.0684931506848, "train/policy_entropy_mag": 2.37993217167789, "train/policy_entropy_max": 2.37993217167789, "train/policy_entropy_mean": 0.3336181495695898, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4257620985377325, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33289744633517854, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 0.945182204246521, "train/policy_randomness_mag": 0.840011617908739, "train/policy_randomness_max": 0.840011617908739, "train/policy_randomness_mean": 0.11775256713775739, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1502753364509099, "train/post_ent_mag": 55.0798462123087, "train/post_ent_max": 55.0798462123087, "train/post_ent_mean": 40.64212391474476, "train/post_ent_min": 18.904422825329924, "train/post_ent_std": 5.650590628793795, "train/prior_ent_mag": 76.03183735886665, "train/prior_ent_max": 76.03183735886665, "train/prior_ent_mean": 45.19160539809972, "train/prior_ent_min": 27.55744382779892, "train/prior_ent_std": 7.176950787844723, "train/rep_loss_mean": 4.609645693269495, "train/rep_loss_std": 8.50630077597213, "train/reward_avg": 0.02962863863739249, "train/reward_loss_mean": 0.04634994225040691, "train/reward_loss_std": 0.2017979828053958, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0117836243485752, "train/reward_neg_acc": 0.9951897998378701, "train/reward_neg_loss": 0.02147423228478595, "train/reward_pos_acc": 0.9826464906130752, "train/reward_pos_loss": 0.7413690139169562, "train/reward_pred": 0.029345715520520732, "train/reward_rate": 0.03455425941780822, "stats/sum_log_reward": 8.385714394705635, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 10.428571428571429, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3905416450330189, "replay/size": 302140.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.9413159723439926e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2529530248589278e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3582332134247, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.892356157302856, "timer/env.step_frac": 0.06289941166313416, "timer/env.step_avg": 0.013047207290955012, "timer/env.step_min": 0.002955198287963867, "timer/env.step_max": 1.6612019538879395, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2776973247528076, "timer/replay.add_frac": 0.0009245537296641541, "timer/replay.add_avg": 0.00019177992040939754, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.004052639007568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02846503257751465, "timer/logger.write_frac": 9.477027572368336e-05, "timer/logger.write_avg": 0.02846503257751465, "timer/logger.write_min": 0.02846503257751465, "timer/logger.write_max": 0.02846503257751465, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.760814428329468, "timer/agent.policy_frac": 0.035826600500353814, "timer/agent.policy_avg": 0.007431501677023113, "timer/agent.policy_min": 0.005590200424194336, "timer/agent.policy_max": 0.02023911476135254, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06743407249450684, "timer/dataset_frac": 0.0002245121492860507, "timer/dataset_avg": 9.314098410843486e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.63817501068115, "timer/agent.train_frac": 0.8977219373210427, "timer/agent.train_avg": 0.37242841852304026, "timer/agent.train_min": 0.36575913429260254, "timer/agent.train_max": 0.3877708911895752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20366525650024414, "timer/agent.report_frac": 0.0006780744923197304, "timer/agent.report_avg": 0.20366525650024414, "timer/agent.report_min": 0.20366525650024414, "timer/agent.report_max": 0.20366525650024414, "fps": 4.820844958561779}
+{"step": 302276, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04591836734693878}
+{"step": 302455, "episode/length": 178.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.061452513966480445}
+{"step": 302716, "episode/length": 260.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.038314176245210725}
+{"step": 302971, "episode/length": 254.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0392156862745098}
+{"step": 303219, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05241935483870968}
+{"step": 303396, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05649717514124294}
+{"step": 303551, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07096774193548387}
+{"step": 303649, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431015862358941, "train/action_min": 0.0, "train/action_std": 3.314408974515067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04522111779078841, "train/actor_opt_grad_steps": 150915.0, "train/actor_opt_loss": -13.498204066935513, "train/adv_mag": 0.49343502355946434, "train/adv_max": 0.4560334732135137, "train/adv_mean": 0.002329484712946497, "train/adv_min": -0.37805057544675136, "train/adv_std": 0.05075395821283261, "train/cont_avg": 0.9945203993055556, "train/cont_loss_mean": 3.36859550649709e-05, "train/cont_loss_std": 0.0010646078219367855, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000481690909987745, "train/cont_pos_acc": 0.9999863132834435, "train/cont_pos_loss": 3.1073997168778395e-05, "train/cont_pred": 0.9945050825675329, "train/cont_rate": 0.9945203993055556, "train/dyn_loss_mean": 4.628197885221905, "train/dyn_loss_std": 8.593147032790714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0495727707942326, "train/extr_critic_critic_opt_grad_steps": 150915.0, "train/extr_critic_critic_opt_loss": 15945.54066297743, "train/extr_critic_mag": 8.730846563975016, "train/extr_critic_max": 8.730846563975016, "train/extr_critic_mean": 2.162728488445282, "train/extr_critic_min": -0.6366076171398163, "train/extr_critic_std": 2.07577485177252, "train/extr_return_normed_mag": 1.5271322859658136, "train/extr_return_normed_max": 1.5271322859658136, "train/extr_return_normed_mean": 0.3806174960401323, "train/extr_return_normed_min": -0.11095397241620554, "train/extr_return_normed_std": 0.33409542880124515, "train/extr_return_rate": 0.6986870989203453, "train/extr_return_raw_mag": 9.411108997133043, "train/extr_return_raw_max": 9.411108997133043, "train/extr_return_raw_mean": 2.1774082945452795, "train/extr_return_raw_min": -0.9216898936364386, "train/extr_return_raw_std": 2.106958284974098, "train/extr_reward_mag": 1.0306709971692827, "train/extr_reward_max": 1.0306709971692827, "train/extr_reward_mean": 0.04066724648388723, "train/extr_reward_min": -0.6572296321392059, "train/extr_reward_std": 0.1987760276016262, "train/image_loss_mean": 2.7514746801720724, "train/image_loss_std": 7.518306507004632, "train/model_loss_mean": 5.573675165573756, "train/model_loss_std": 11.667874813079834, "train/model_opt_grad_norm": 32.38819204436408, "train/model_opt_grad_steps": 150791.47222222222, "train/model_opt_loss": 10250.861707899305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1840.2777777777778, "train/policy_entropy_mag": 2.4262139565414853, "train/policy_entropy_max": 2.4262139565414853, "train/policy_entropy_mean": 0.3519070694843928, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.452496519105302, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3505896180868149, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9612377848890092, "train/policy_randomness_mag": 0.8563470567266146, "train/policy_randomness_max": 0.8563470567266146, "train/policy_randomness_mean": 0.1242077521358927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1597114136028621, "train/post_ent_mag": 54.76830657323202, "train/post_ent_max": 54.76830657323202, "train/post_ent_mean": 40.61505227618747, "train/post_ent_min": 18.73615511258443, "train/post_ent_std": 5.628507905536228, "train/prior_ent_mag": 76.01897610558404, "train/prior_ent_max": 76.01897610558404, "train/prior_ent_mean": 45.15373044543796, "train/prior_ent_min": 27.79062803586324, "train/prior_ent_std": 7.197486731741163, "train/rep_loss_mean": 4.628197885221905, "train/rep_loss_std": 8.593147032790714, "train/reward_avg": 0.0283148870156664, "train/reward_loss_mean": 0.045248056632570095, "train/reward_loss_std": 0.19059345353808668, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010173522763782, "train/reward_neg_acc": 0.9951759394672182, "train/reward_neg_loss": 0.02164283216310044, "train/reward_pos_acc": 0.9880923446681764, "train/reward_pos_loss": 0.7309327241447237, "train/reward_pred": 0.02811972393343846, "train/reward_rate": 0.03323025173611111, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 8.857142857142858, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.43257204975400654, "replay/size": 303586.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.859215257573424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2652178193193913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24874901771545, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.873193979263306, "timer/env.step_frac": 0.06285852660838144, "timer/env.step_avg": 0.013052001368785135, "timer/env.step_min": 0.003043651580810547, "timer/env.step_max": 1.6958324909210205, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27481818199157715, "timer/replay.add_frac": 0.0009153016719991801, "timer/replay.add_avg": 0.00019005406776734243, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.003108978271484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028464794158935547, "timer/logger.write_frac": 9.480403915773201e-05, "timer/logger.write_avg": 0.028464794158935547, "timer/logger.write_min": 0.028464794158935547, "timer/logger.write_max": 0.028464794158935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.907442808151245, "timer/agent.policy_frac": 0.03632802082884841, "timer/agent.policy_avg": 0.007543183131501553, "timer/agent.policy_min": 0.005651712417602539, "timer/agent.policy_max": 0.01662302017211914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06839561462402344, "timer/dataset_frac": 0.00022779650156007117, "timer/dataset_avg": 9.459974360169216e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00022149085998535156, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.40473318099976, "timer/agent.train_frac": 0.8972717923467657, "timer/agent.train_avg": 0.3726206544688793, "timer/agent.train_min": 0.36353087425231934, "timer/agent.train_max": 0.38918399810791016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2024695873260498, "timer/agent.report_frac": 0.0006743394868036688, "timer/agent.report_avg": 0.2024695873260498, "timer/agent.report_min": 0.2024695873260498, "timer/agent.report_max": 0.2024695873260498, "fps": 4.815911196586235}
+{"step": 303790, "episode/length": 238.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03765690376569038}
+{"step": 303913, "episode/length": 122.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04065040650406504}
+{"step": 303992, "episode/length": 78.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.06329113924050633}
+{"step": 304172, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
+{"step": 304391, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0502283105022831}
+{"step": 304588, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.050761421319796954}
+{"step": 304648, "episode/length": 59.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08333333333333333}
+{"step": 304869, "episode/length": 220.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.049773755656108594}
+{"step": 305057, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
+{"step": 305058, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394774518694196, "train/action_min": 0.0, "train/action_std": 3.260423742021833, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04558851069637707, "train/actor_opt_grad_steps": 151625.0, "train/actor_opt_loss": -13.971243063041141, "train/adv_mag": 0.4346707650593349, "train/adv_max": 0.37296280690601896, "train/adv_mean": 0.0018637972878683025, "train/adv_min": -0.38793576317174094, "train/adv_std": 0.0508773431714092, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.0001293748399560154, "train/cont_loss_std": 0.00397799656670017, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.01376637488857081, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.0916417012702644e-05, "train/cont_pred": 0.9941484783376966, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.709166370119367, "train/dyn_loss_std": 8.598029954092842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0432775574071067, "train/extr_critic_critic_opt_grad_steps": 151625.0, "train/extr_critic_critic_opt_loss": 15956.597446986607, "train/extr_critic_mag": 8.66006338936942, "train/extr_critic_max": 8.66006338936942, "train/extr_critic_mean": 2.2026417238371714, "train/extr_critic_min": -0.618546724319458, "train/extr_critic_std": 2.1032979164804733, "train/extr_return_normed_mag": 1.4998445681163244, "train/extr_return_normed_max": 1.4998445681163244, "train/extr_return_normed_mean": 0.38840573600360323, "train/extr_return_normed_min": -0.11386320782559259, "train/extr_return_normed_std": 0.3381201294916017, "train/extr_return_rate": 0.6952269715922219, "train/extr_return_raw_mag": 9.221411269051687, "train/extr_return_raw_max": 9.221411269051687, "train/extr_return_raw_mean": 2.2143645252500264, "train/extr_return_raw_min": -0.9527872383594513, "train/extr_return_raw_std": 2.131846238885607, "train/extr_reward_mag": 1.0235517978668214, "train/extr_reward_max": 1.0235517978668214, "train/extr_reward_mean": 0.04199076419962304, "train/extr_reward_min": -0.6558736426489694, "train/extr_reward_std": 0.20146255940198898, "train/image_loss_mean": 2.840647307464055, "train/image_loss_std": 8.031128794806344, "train/model_loss_mean": 5.7131971870149885, "train/model_loss_std": 12.123576750074115, "train/model_opt_grad_norm": 38.04006178719657, "train/model_opt_grad_steps": 151501.0, "train/model_opt_loss": 7924.495556640625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1392.857142857143, "train/policy_entropy_mag": 2.3803208691733224, "train/policy_entropy_max": 2.3803208691733224, "train/policy_entropy_mean": 0.34930498280695504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44382364068712504, "train/policy_logprob_mag": 7.438384240014212, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.348957470698016, "train/policy_logprob_min": -7.438384240014212, "train/policy_logprob_std": 0.9600600847176143, "train/policy_randomness_mag": 0.8401488099779402, "train/policy_randomness_max": 0.8401488099779402, "train/policy_randomness_mean": 0.12328932923930032, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15665026871221407, "train/post_ent_mag": 54.86191433497837, "train/post_ent_max": 54.86191433497837, "train/post_ent_mean": 40.49588236127581, "train/post_ent_min": 18.367679268973216, "train/post_ent_std": 5.66264363016401, "train/prior_ent_mag": 76.05167214529855, "train/prior_ent_max": 76.05167214529855, "train/prior_ent_mean": 45.154532950265065, "train/prior_ent_min": 27.521260479518347, "train/prior_ent_std": 7.233377483912877, "train/rep_loss_mean": 4.709166370119367, "train/rep_loss_std": 8.598029954092842, "train/reward_avg": 0.029977678254778897, "train/reward_loss_mean": 0.04692059281681265, "train/reward_loss_std": 0.19211027877671377, "train/reward_max_data": 1.007142858845847, "train/reward_max_pred": 1.0079307249614171, "train/reward_neg_acc": 0.9954466036387852, "train/reward_neg_loss": 0.02223397425508925, "train/reward_pos_acc": 0.9892346509865352, "train/reward_pos_loss": 0.7292002218110221, "train/reward_pred": 0.029655822605959007, "train/reward_rate": 0.03507254464285714, "stats/sum_log_reward": 7.100000275505914, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 7.222222222222222, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.444444444444445, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.37649264103836483, "replay/size": 304995.0, "replay/inserts": 1409.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.8060674944864763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2170904400673779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8760070800781, "timer/env.step_count": 1409.0, "timer/env.step_total": 22.542112350463867, "timer/env.step_frac": 0.07492160165653981, "timer/env.step_avg": 0.015998660291315733, "timer/env.step_min": 0.0029048919677734375, "timer/env.step_max": 1.7458977699279785, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.2967081069946289, "timer/replay.add_frac": 0.0009861474494895835, "timer/replay.add_avg": 0.00021058062952067347, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.00574803352355957, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02837681770324707, "timer/logger.write_frac": 9.431399325800871e-05, "timer/logger.write_avg": 0.02837681770324707, "timer/logger.write_min": 0.02837681770324707, "timer/logger.write_max": 0.02837681770324707, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041794776916503906, "timer/checkpoint.save_frac": 1.3891030169574216e-06, "timer/checkpoint.save_avg": 0.00041794776916503906, "timer/checkpoint.save_min": 0.00041794776916503906, "timer/checkpoint.save_max": 0.00041794776916503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4195621013641357, "timer/agent.save_frac": 0.004718096717450519, "timer/agent.save_avg": 1.4195621013641357, "timer/agent.save_min": 1.4195621013641357, "timer/agent.save_max": 1.4195621013641357, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.900237901919089e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 14.809016466140747, "timer/agent.policy_frac": 0.049219665635217395, "timer/agent.policy_avg": 0.010510302672917493, "timer/agent.policy_min": 0.00571751594543457, "timer/agent.policy_max": 2.756869316101074, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06542181968688965, "timer/dataset_frac": 0.00021743780875647435, "timer/dataset_avg": 9.292872114615007e-05, "timer/dataset_min": 7.319450378417969e-05, "timer/dataset_max": 0.00016069412231445312, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.4582185745239, "timer/agent.train_frac": 0.8723135524218476, "timer/agent.train_avg": 0.37280996956608514, "timer/agent.train_min": 0.3660714626312256, "timer/agent.train_max": 0.44274163246154785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028944492340088, "timer/agent.report_frac": 0.0006743457253472805, "timer/agent.report_avg": 0.2028944492340088, "timer/agent.report_min": 0.2028944492340088, "timer/agent.report_max": 0.2028944492340088, "fps": 4.682925798911835}
+{"step": 305257, "episode/length": 199.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05}
+{"step": 305320, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07936507936507936}
+{"step": 305529, "episode/length": 208.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05741626794258373}
+{"step": 305793, "episode/length": 263.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.041666666666666664}
+{"step": 305946, "episode/length": 152.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05228758169934641}
+{"step": 306143, "episode/length": 196.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.03553299492385787}
+{"step": 306248, "episode/length": 104.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10476190476190476}
+{"step": 306406, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
+{"step": 306493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.499590555826823, "train/action_min": 0.0, "train/action_std": 3.352647433678309, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0470448395030366, "train/actor_opt_grad_steps": 152335.0, "train/actor_opt_loss": -14.125345403949419, "train/adv_mag": 0.5133502669632435, "train/adv_max": 0.4803797871702247, "train/adv_mean": 0.0023432730592200337, "train/adv_min": -0.3961992408666346, "train/adv_std": 0.05340260143081347, "train/cont_avg": 0.9940456814236112, "train/cont_loss_mean": 2.0586821674347295e-05, "train/cont_loss_std": 0.000549758141087548, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0017057289508962804, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 7.376463338223023e-06, "train/cont_pred": 0.994047101173136, "train/cont_rate": 0.9940456814236112, "train/dyn_loss_mean": 4.584598746564653, "train/dyn_loss_std": 8.503115283118355, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.063975479039881, "train/extr_critic_critic_opt_grad_steps": 152335.0, "train/extr_critic_critic_opt_loss": 15948.160685221354, "train/extr_critic_mag": 9.010677390628391, "train/extr_critic_max": 9.010677390628391, "train/extr_critic_mean": 2.180254509051641, "train/extr_critic_min": -0.583673338095347, "train/extr_critic_std": 2.1659395976199045, "train/extr_return_normed_mag": 1.584858195649253, "train/extr_return_normed_max": 1.584858195649253, "train/extr_return_normed_mean": 0.3860088694426749, "train/extr_return_normed_min": -0.10586447868910101, "train/extr_return_normed_std": 0.35049233999517226, "train/extr_return_rate": 0.6893102948864301, "train/extr_return_raw_mag": 9.707467834154764, "train/extr_return_raw_max": 9.707467834154764, "train/extr_return_raw_mean": 2.194945154918565, "train/extr_return_raw_min": -0.8865107744932175, "train/extr_return_raw_std": 2.195926187766923, "train/extr_reward_mag": 1.0290649599499173, "train/extr_reward_max": 1.0290649599499173, "train/extr_reward_mean": 0.04255669483811491, "train/extr_reward_min": -0.658429698811637, "train/extr_reward_std": 0.20315663143992424, "train/image_loss_mean": 2.803447205159399, "train/image_loss_std": 7.742063158088261, "train/model_loss_mean": 5.601146827141444, "train/model_loss_std": 11.765260345406002, "train/model_opt_grad_norm": 36.116816918055214, "train/model_opt_grad_steps": 152211.0, "train/model_opt_loss": 14002.867038302951, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3887894054253898, "train/policy_entropy_max": 2.3887894054253898, "train/policy_entropy_mean": 0.36370426499181324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4659056170947022, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3638620927102036, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9745790428585477, "train/policy_randomness_mag": 0.8431378313236766, "train/policy_randomness_max": 0.8431378313236766, "train/policy_randomness_mean": 0.12837164600690207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16444424043099085, "train/post_ent_mag": 54.53727361891005, "train/post_ent_max": 54.53727361891005, "train/post_ent_mean": 40.513668643103706, "train/post_ent_min": 19.116193215052288, "train/post_ent_std": 5.6157663398318824, "train/prior_ent_mag": 76.12146229214139, "train/prior_ent_max": 76.12146229214139, "train/prior_ent_mean": 45.08412509494357, "train/prior_ent_min": 27.51985438664754, "train/prior_ent_std": 7.268774840566847, "train/rep_loss_mean": 4.584598746564653, "train/rep_loss_std": 8.503115283118355, "train/reward_avg": 0.029254828476243548, "train/reward_loss_mean": 0.046919750386021204, "train/reward_loss_std": 0.19234016879151264, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0155311392413244, "train/reward_neg_acc": 0.9950144150190883, "train/reward_neg_loss": 0.022800018571110234, "train/reward_pos_acc": 0.9904123163885541, "train/reward_pos_loss": 0.7216776551471816, "train/reward_pred": 0.029184115171018574, "train/reward_rate": 0.034505208333333336, "stats/sum_log_reward": 8.100000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 11.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.625, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3504709415137768, "replay/size": 306430.0, "replay/inserts": 1435.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.897603795918854e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.237252960630114e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02605509757996, "timer/env.step_count": 1435.0, "timer/env.step_total": 20.22706127166748, "timer/env.step_frac": 0.06741768232458632, "timer/env.step_avg": 0.01409551308130138, "timer/env.step_min": 0.0028171539306640625, "timer/env.step_max": 1.7301664352416992, "timer/replay.add_count": 1435.0, "timer/replay.add_total": 0.28769707679748535, "timer/replay.add_frac": 0.0009589069746089727, "timer/replay.add_avg": 0.0002004857678031257, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.005753040313720703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030034542083740234, "timer/logger.write_frac": 0.00010010644600173758, "timer/logger.write_avg": 0.030034542083740234, "timer/logger.write_min": 0.030034542083740234, "timer/logger.write_max": 0.030034542083740234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1435.0, "timer/agent.policy_total": 10.882884740829468, "timer/agent.policy_frac": 0.036273132136107104, "timer/agent.policy_avg": 0.007583891805456075, "timer/agent.policy_min": 0.0056324005126953125, "timer/agent.policy_max": 0.017875194549560547, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06826591491699219, "timer/dataset_frac": 0.00022753328838320225, "timer/dataset_avg": 9.507787592895847e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0006358623504638672, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.832505941391, "timer/agent.train_frac": 0.8926974887373752, "timer/agent.train_avg": 0.3730257742916309, "timer/agent.train_min": 0.3665196895599365, "timer/agent.train_max": 0.3886528015136719, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2220010757446289, "timer/agent.report_frac": 0.00073993932184465, "timer/agent.report_avg": 0.2220010757446289, "timer/agent.report_min": 0.2220010757446289, "timer/agent.report_max": 0.2220010757446289, "fps": 4.782865496408703}
+{"step": 306643, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04219409282700422}
+{"step": 307043, "episode/length": 399.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03}
+{"step": 307223, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
+{"step": 307428, "episode/length": 204.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06341463414634146}
+{"step": 307493, "episode/length": 64.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.07692307692307693}
+{"step": 307700, "episode/length": 206.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03864734299516908}
+{"step": 307940, "episode/length": 239.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.041666666666666664}
+{"step": 307941, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45276882223887, "train/action_min": 0.0, "train/action_std": 3.3390271500365376, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04758191323035384, "train/actor_opt_grad_steps": 153060.0, "train/actor_opt_loss": -8.11511689281627, "train/adv_mag": 0.5100319442683703, "train/adv_max": 0.47373173661427953, "train/adv_mean": 0.00409476725969261, "train/adv_min": -0.43163985463037885, "train/adv_std": 0.053695876406480186, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 3.456121842487248e-05, "train/cont_loss_std": 0.0010557967373667034, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.005116060636280836, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 4.3567649723403e-06, "train/cont_pred": 0.9948890674604128, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 4.766541193609369, "train/dyn_loss_std": 8.53071882300181, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1134389148999566, "train/extr_critic_critic_opt_grad_steps": 153060.0, "train/extr_critic_critic_opt_loss": 16212.793851669521, "train/extr_critic_mag": 8.93502389568172, "train/extr_critic_max": 8.93502389568172, "train/extr_critic_mean": 2.1986471104295284, "train/extr_critic_min": -0.609045340590281, "train/extr_critic_std": 2.1105004875627285, "train/extr_return_normed_mag": 1.5418467717627957, "train/extr_return_normed_max": 1.5418467717627957, "train/extr_return_normed_mean": 0.3840892570067758, "train/extr_return_normed_min": -0.10708617572098562, "train/extr_return_normed_std": 0.3383140729306495, "train/extr_return_rate": 0.6962882039481646, "train/extr_return_raw_mag": 9.57548230314908, "train/extr_return_raw_max": 9.57548230314908, "train/extr_return_raw_mean": 2.2247694453147995, "train/extr_return_raw_min": -0.8985381722450256, "train/extr_return_raw_std": 2.1496389483752316, "train/extr_reward_mag": 1.035614065928002, "train/extr_reward_max": 1.035614065928002, "train/extr_reward_mean": 0.04093895066682607, "train/extr_reward_min": -0.6536355034945762, "train/extr_reward_std": 0.19822397726039365, "train/image_loss_mean": 3.0567501669060695, "train/image_loss_std": 7.92879872126122, "train/model_loss_mean": 5.960719186965734, "train/model_loss_std": 11.96070241274899, "train/model_opt_grad_norm": 37.02469325392214, "train/model_opt_grad_steps": 152934.19178082192, "train/model_opt_loss": 4700.556092144692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 804.7945205479452, "train/policy_entropy_mag": 2.3695467628844797, "train/policy_entropy_max": 2.3695467628844797, "train/policy_entropy_mean": 0.3774730371285791, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47276624547292107, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37821794209414966, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 0.9833893212553573, "train/policy_randomness_mag": 0.8363460228867727, "train/policy_randomness_max": 0.8363460228867727, "train/policy_randomness_mean": 0.13323141685495637, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16686573726673648, "train/post_ent_mag": 55.096335789928695, "train/post_ent_max": 55.096335789928695, "train/post_ent_mean": 40.61995482771364, "train/post_ent_min": 18.905981076906805, "train/post_ent_std": 5.686760745636405, "train/prior_ent_mag": 76.07292478378506, "train/prior_ent_max": 76.07292478378506, "train/prior_ent_mean": 45.31696387513043, "train/prior_ent_min": 27.312916193922906, "train/prior_ent_std": 7.269315726136508, "train/rep_loss_mean": 4.766541193609369, "train/rep_loss_std": 8.53071882300181, "train/reward_avg": 0.02848351890961193, "train/reward_loss_mean": 0.04400975685821821, "train/reward_loss_std": 0.1852249219401242, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0166691949922744, "train/reward_neg_acc": 0.9953084073654593, "train/reward_neg_loss": 0.02076966879404571, "train/reward_pos_acc": 0.9890380665047528, "train/reward_pos_loss": 0.7249913689208357, "train/reward_pred": 0.028329767860880452, "train/reward_rate": 0.0331496147260274, "stats/sum_log_reward": 8.52857140132359, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 8.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5152431385857719, "replay/size": 307878.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.8018542758667665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2045448326932792e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8998634815216, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.948029041290283, "timer/env.step_frac": 0.06297121182460719, "timer/env.step_avg": 0.01308565541525572, "timer/env.step_min": 0.0032291412353515625, "timer/env.step_max": 1.7512454986572266, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.30692338943481445, "timer/replay.add_frac": 0.0010200183738324055, "timer/replay.add_avg": 0.0002119636667367503, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.008137226104736328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027953386306762695, "timer/logger.write_frac": 9.289929873457495e-05, "timer/logger.write_avg": 0.027953386306762695, "timer/logger.write_min": 0.027953386306762695, "timer/logger.write_max": 0.027953386306762695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.925934791564941, "timer/agent.policy_frac": 0.036310866562543016, "timer/agent.policy_avg": 0.007545535077047611, "timer/agent.policy_min": 0.005600452423095703, "timer/agent.policy_max": 0.018174409866333008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06812644004821777, "timer/dataset_frac": 0.0002264090094956173, "timer/dataset_avg": 9.40972928842787e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00020051002502441406, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.91509461402893, "timer/agent.train_frac": 0.8970263113150416, "timer/agent.train_avg": 0.37281090416302337, "timer/agent.train_min": 0.36478233337402344, "timer/agent.train_max": 0.3886997699737549, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21863698959350586, "timer/agent.report_frac": 0.0007266104645704914, "timer/agent.report_avg": 0.21863698959350586, "timer/agent.report_min": 0.21863698959350586, "timer/agent.report_max": 0.21863698959350586, "fps": 4.812157480155694}
+{"step": 308178, "episode/length": 237.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05042016806722689}
+{"step": 308428, "episode/length": 249.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04}
+{"step": 308838, "episode/length": 409.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.01951219512195122}
+{"step": 309172, "episode/length": 333.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.038922155688622756}
+{"step": 309387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446985032823351, "train/action_min": 0.0, "train/action_std": 3.28278828991784, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04736439480135838, "train/actor_opt_grad_steps": 153785.0, "train/actor_opt_loss": -13.085766502759522, "train/adv_mag": 0.5231145723826356, "train/adv_max": 0.4897009577188227, "train/adv_mean": 0.0028409455463689584, "train/adv_min": -0.37283660885360503, "train/adv_std": 0.05205458588898182, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 0.00027671769977328294, "train/cont_loss_std": 0.00866773237073125, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.0073863745453250675, "train/cont_pos_acc": 0.9999726795487933, "train/cont_pos_loss": 0.0002394261352078628, "train/cont_pred": 0.9942852863007121, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 4.833785742521286, "train/dyn_loss_std": 8.681944595442879, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1060835760500696, "train/extr_critic_critic_opt_grad_steps": 153785.0, "train/extr_critic_critic_opt_loss": 16154.431532118055, "train/extr_critic_mag": 9.495351195335388, "train/extr_critic_max": 9.495351195335388, "train/extr_critic_mean": 2.3096773011816873, "train/extr_critic_min": -0.6141893714666367, "train/extr_critic_std": 2.2556940929757223, "train/extr_return_normed_mag": 1.547277773420016, "train/extr_return_normed_max": 1.547277773420016, "train/extr_return_normed_mean": 0.3793005479706658, "train/extr_return_normed_min": -0.10288959736418393, "train/extr_return_normed_std": 0.34242462118466693, "train/extr_return_rate": 0.6936261533863015, "train/extr_return_raw_mag": 10.141514579455057, "train/extr_return_raw_max": 10.141514579455057, "train/extr_return_raw_mean": 2.3286488122410245, "train/extr_return_raw_min": -0.895975686609745, "train/extr_return_raw_std": 2.290154423978594, "train/extr_reward_mag": 1.0316325161192152, "train/extr_reward_max": 1.0316325161192152, "train/extr_reward_mean": 0.04270486797516545, "train/extr_reward_min": -0.6582590606477525, "train/extr_reward_std": 0.20320681151416567, "train/image_loss_mean": 3.082881165875329, "train/image_loss_std": 8.13631671667099, "train/model_loss_mean": 6.030785501003265, "train/model_loss_std": 12.258478800455729, "train/model_opt_grad_norm": 33.735106613900925, "train/model_opt_grad_steps": 153659.0, "train/model_opt_loss": 5810.401394314236, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 954.8611111111111, "train/policy_entropy_mag": 2.365539535880089, "train/policy_entropy_max": 2.365539535880089, "train/policy_entropy_mean": 0.3596038429273499, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45028553861710763, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36025287873215145, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9695909470319748, "train/policy_randomness_mag": 0.8349316451284621, "train/policy_randomness_max": 0.8349316451284621, "train/policy_randomness_mean": 0.12692437765912878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15893103399624428, "train/post_ent_mag": 54.622040059831406, "train/post_ent_max": 54.622040059831406, "train/post_ent_mean": 40.64236174689399, "train/post_ent_min": 18.751417358716328, "train/post_ent_std": 5.6805183092753095, "train/prior_ent_mag": 76.10446940528021, "train/prior_ent_max": 76.10446940528021, "train/prior_ent_mean": 45.4332537121243, "train/prior_ent_min": 27.767910321553547, "train/prior_ent_std": 7.30993045700921, "train/rep_loss_mean": 4.833785742521286, "train/rep_loss_std": 8.681944595442879, "train/reward_avg": 0.029077148349541757, "train/reward_loss_mean": 0.04735616180631849, "train/reward_loss_std": 0.19693449243075317, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.008134361770418, "train/reward_neg_acc": 0.9954061905543009, "train/reward_neg_loss": 0.02287716696607984, "train/reward_pos_acc": 0.9881950302256478, "train/reward_pos_loss": 0.7353830188512802, "train/reward_pred": 0.028830406695811286, "train/reward_rate": 0.03427463107638889, "stats/sum_log_reward": 9.600000262260437, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.25, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 10.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6525781750679016, "replay/size": 309324.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8066180744936193e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.206684903979796e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12085580825806, "timer/env.step_count": 1446.0, "timer/env.step_total": 14.354527235031128, "timer/env.step_frac": 0.04782915601240983, "timer/env.step_avg": 0.009927058945388055, "timer/env.step_min": 0.00264739990234375, "timer/env.step_max": 1.65732741355896, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.29123902320861816, "timer/replay.add_frac": 0.0009704058134323249, "timer/replay.add_avg": 0.00020141011286903054, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.009330034255981445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027918338775634766, "timer/logger.write_frac": 9.302365442230813e-05, "timer/logger.write_avg": 0.027918338775634766, "timer/logger.write_min": 0.027918338775634766, "timer/logger.write_max": 0.027918338775634766, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002593994140625, "timer/checkpoint.save_frac": 8.64316521302424e-07, "timer/checkpoint.save_avg": 0.0002593994140625, "timer/checkpoint.save_min": 0.0002593994140625, "timer/checkpoint.save_max": 0.0002593994140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3744657039642334, "timer/agent.save_frac": 0.004579707399083106, "timer/agent.save_avg": 1.3744657039642334, "timer/agent.save_min": 1.3744657039642334, "timer/agent.save_max": 1.3744657039642334, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.5659396726165715e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 15.027129888534546, "timer/agent.policy_frac": 0.05007026202182735, "timer/agent.policy_avg": 0.010392206008668428, "timer/agent.policy_min": 0.0056915283203125, "timer/agent.policy_max": 2.8516488075256348, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06694650650024414, "timer/dataset_frac": 0.000223065159267089, "timer/dataset_avg": 9.25954446753031e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.65489530563354, "timer/agent.train_frac": 0.8984876928310218, "timer/agent.train_avg": 0.372966660173767, "timer/agent.train_min": 0.3662447929382324, "timer/agent.train_max": 0.4735264778137207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22623896598815918, "timer/agent.report_frac": 0.0007538262057092736, "timer/agent.report_avg": 0.22623896598815918, "timer/agent.report_min": 0.22623896598815918, "timer/agent.report_max": 0.22623896598815918, "fps": 4.817980393255247}
+{"step": 309405, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05150214592274678}
+{"step": 309663, "episode/length": 257.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03488372093023256}
+{"step": 309704, "episode/length": 40.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.0975609756097561}
+{"step": 309959, "episode/length": 254.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.0392156862745098}
+{"step": 310157, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05555555555555555}
+{"step": 310452, "episode/length": 294.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.020338983050847456}
+{"step": 310623, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04678362573099415}
+{"step": 310670, "episode/length": 46.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.10638297872340426}
+{"step": 310827, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384295993381077, "train/action_min": 0.0, "train/action_std": 3.270093457566367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04520375840365887, "train/actor_opt_grad_steps": 154505.0, "train/actor_opt_loss": -14.560275137424469, "train/adv_mag": 0.46427803486585617, "train/adv_max": 0.43078568536374306, "train/adv_mean": 0.0013260064583341267, "train/adv_min": -0.36826067024634945, "train/adv_std": 0.049973734033604465, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 1.756399092814023e-05, "train/cont_loss_std": 0.0004947673178084718, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001916301998032092, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6706926451269686e-05, "train/cont_pred": 0.9945752364065912, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.6564269595676, "train/dyn_loss_std": 8.585980587535435, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1076947136057749, "train/extr_critic_critic_opt_grad_steps": 154505.0, "train/extr_critic_critic_opt_loss": 15934.925740559896, "train/extr_critic_mag": 9.330178088612026, "train/extr_critic_max": 9.330178088612026, "train/extr_critic_mean": 2.275888442993164, "train/extr_critic_min": -0.615553112493621, "train/extr_critic_std": 2.220913029379315, "train/extr_return_normed_mag": 1.5101478182607226, "train/extr_return_normed_max": 1.5101478182607226, "train/extr_return_normed_mean": 0.374891411099169, "train/extr_return_normed_min": -0.1120865698903799, "train/extr_return_normed_std": 0.33849870910247165, "train/extr_return_rate": 0.6918927646345563, "train/extr_return_raw_mag": 9.8173944817649, "train/extr_return_raw_max": 9.8173944817649, "train/extr_return_raw_mean": 2.2847028457456164, "train/extr_return_raw_min": -0.9463618588116434, "train/extr_return_raw_std": 2.245823403199514, "train/extr_reward_mag": 1.0338764753606584, "train/extr_reward_max": 1.0338764753606584, "train/extr_reward_mean": 0.04122114290172855, "train/extr_reward_min": -0.6866069055265851, "train/extr_reward_std": 0.19952291270924938, "train/image_loss_mean": 2.985212489962578, "train/image_loss_std": 7.725793318616019, "train/model_loss_mean": 5.8251876466804084, "train/model_loss_std": 11.831150737073687, "train/model_opt_grad_norm": 34.55544373724196, "train/model_opt_grad_steps": 154379.0, "train/model_opt_loss": 8137.097737630208, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.3849829965167575, "train/policy_entropy_max": 2.3849829965167575, "train/policy_entropy_mean": 0.3671061127550072, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4667552175621192, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3667486268613074, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9757745431529151, "train/policy_randomness_mag": 0.8417943393190702, "train/policy_randomness_max": 0.8417943393190702, "train/policy_randomness_mean": 0.12957234763436848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.164744109639691, "train/post_ent_mag": 54.94499058193631, "train/post_ent_max": 54.94499058193631, "train/post_ent_mean": 40.74972587161594, "train/post_ent_min": 18.936430229081047, "train/post_ent_std": 5.65110029776891, "train/prior_ent_mag": 76.00322945912679, "train/prior_ent_max": 76.00322945912679, "train/prior_ent_mean": 45.3688563240899, "train/prior_ent_min": 27.781697750091553, "train/prior_ent_std": 7.298257304562463, "train/rep_loss_mean": 4.6564269595676, "train/rep_loss_std": 8.585980587535435, "train/reward_avg": 0.028672959862483874, "train/reward_loss_mean": 0.04610140606140097, "train/reward_loss_std": 0.19516538435386288, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0205227351850934, "train/reward_neg_acc": 0.994524305065473, "train/reward_neg_loss": 0.02225771138910204, "train/reward_pos_acc": 0.9863228094246652, "train/reward_pos_loss": 0.7351896795961592, "train/reward_pred": 0.028409204665674932, "train/reward_rate": 0.033447265625, "stats/sum_log_reward": 7.225000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 5.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.45457392930984497, "replay/size": 310764.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7547614839341907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2275452415148417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13767766952515, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.027501344680786, "timer/env.step_frac": 0.06672771476139899, "timer/env.step_avg": 0.013907987044917212, "timer/env.step_min": 0.002874612808227539, "timer/env.step_max": 1.6514663696289062, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2927556037902832, "timer/replay.add_frac": 0.0009754043746304648, "timer/replay.add_avg": 0.0002033025026321411, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.005571603775024414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029196977615356445, "timer/logger.write_frac": 9.72786150744612e-05, "timer/logger.write_avg": 0.029196977615356445, "timer/logger.write_min": 0.029196977615356445, "timer/logger.write_max": 0.029196977615356445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.752542495727539, "timer/agent.policy_frac": 0.03582536714223171, "timer/agent.policy_avg": 0.007467043399810791, "timer/agent.policy_min": 0.0056192874908447266, "timer/agent.policy_max": 0.01676774024963379, "timer/dataset_count": 720.0, "timer/dataset_total": 0.066864013671875, "timer/dataset_frac": 0.00022277780714188595, "timer/dataset_avg": 9.286668565538195e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00020265579223632812, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2723298072815, "timer/agent.train_frac": 0.8938308975078768, "timer/agent.train_avg": 0.3726004580656687, "timer/agent.train_min": 0.3659989833831787, "timer/agent.train_max": 0.447742223739624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167301177978516, "timer/agent.report_frac": 0.0007385710901110668, "timer/agent.report_avg": 0.22167301177978516, "timer/agent.report_min": 0.22167301177978516, "timer/agent.report_max": 0.22167301177978516, "fps": 4.7977375819096055}
+{"step": 310938, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.048507462686567165}
+{"step": 311301, "episode/length": 362.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03581267217630854}
+{"step": 311490, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
+{"step": 311645, "episode/length": 154.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06451612903225806}
+{"step": 311836, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
+{"step": 312024, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03723404255319149}
+{"step": 312065, "episode/length": 40.0, "episode/score": -0.9000000283122063, "episode/sum_abs_reward": 0.9000000283122063, "episode/reward_rate": 0.024390243902439025}
+{"step": 312271, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416439480251736, "train/action_min": 0.0, "train/action_std": 3.3050553136401706, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04581831116229296, "train/actor_opt_grad_steps": 155225.0, "train/actor_opt_loss": -12.01251189203726, "train/adv_mag": 0.5136326104402542, "train/adv_max": 0.4660281203687191, "train/adv_mean": 0.0028426657319060825, "train/adv_min": -0.417551479405827, "train/adv_std": 0.051516243618809514, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 7.123107240640063e-06, "train/cont_loss_std": 0.00012534002083460413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00044704468672939076, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.142851932126885e-06, "train/cont_pred": 0.9944649868541293, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 4.754360321495268, "train/dyn_loss_std": 8.5698089533382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.084986001253128, "train/extr_critic_critic_opt_grad_steps": 155225.0, "train/extr_critic_critic_opt_loss": 15974.955200195312, "train/extr_critic_mag": 9.239934669600594, "train/extr_critic_max": 9.239934669600594, "train/extr_critic_mean": 2.2224548872974186, "train/extr_critic_min": -0.6250044736597273, "train/extr_critic_std": 2.1919402927160263, "train/extr_return_normed_mag": 1.5269065035714044, "train/extr_return_normed_max": 1.5269065035714044, "train/extr_return_normed_mean": 0.37676642400523025, "train/extr_return_normed_min": -0.10576417167774504, "train/extr_return_normed_std": 0.3421100146240658, "train/extr_return_rate": 0.6857566891445054, "train/extr_return_raw_mag": 9.707986076672872, "train/extr_return_raw_max": 9.707986076672872, "train/extr_return_raw_mean": 2.2409205502933927, "train/extr_return_raw_min": -0.8918928081790606, "train/extr_return_raw_std": 2.2211118506060705, "train/extr_reward_mag": 1.0376886890994177, "train/extr_reward_max": 1.0376886890994177, "train/extr_reward_mean": 0.04180456625504626, "train/extr_reward_min": -0.6179005006949106, "train/extr_reward_std": 0.1998467513670524, "train/image_loss_mean": 2.9519746055205665, "train/image_loss_std": 7.494026442368825, "train/model_loss_mean": 5.851709342665142, "train/model_loss_std": 11.608516375223795, "train/model_opt_grad_norm": 36.55057059393989, "train/model_opt_grad_steps": 155099.0, "train/model_opt_loss": 14629.273328993055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.370068109697766, "train/policy_entropy_max": 2.370068109697766, "train/policy_entropy_mean": 0.37096335159407723, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47039901672138107, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37155666885276634, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9793330331643423, "train/policy_randomness_mag": 0.8365300363964505, "train/policy_randomness_max": 0.8365300363964505, "train/policy_randomness_mean": 0.13093378394842148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16603021127068335, "train/post_ent_mag": 54.92087120480008, "train/post_ent_max": 54.92087120480008, "train/post_ent_mean": 40.77991331948174, "train/post_ent_min": 19.114227030012344, "train/post_ent_std": 5.633243785964118, "train/prior_ent_mag": 76.02434582180447, "train/prior_ent_max": 76.02434582180447, "train/prior_ent_mean": 45.497665564219155, "train/prior_ent_min": 27.415374093585545, "train/prior_ent_std": 7.26735536257426, "train/rep_loss_mean": 4.754360321495268, "train/rep_loss_std": 8.5698089533382, "train/reward_avg": 0.028743489490201075, "train/reward_loss_mean": 0.047111354121524424, "train/reward_loss_std": 0.2103919384794103, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0176086127758026, "train/reward_neg_acc": 0.9948796869979964, "train/reward_neg_loss": 0.022353138412452407, "train/reward_pos_acc": 0.9802587280670801, "train/reward_pos_loss": 0.759775747027662, "train/reward_pred": 0.028346137738683157, "train/reward_rate": 0.033650716145833336, "stats/sum_log_reward": 7.957142974649157, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 9.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.41182294487953186, "replay/size": 312208.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.8270805020741806e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2562586990419848e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3762757778168, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.392137050628662, "timer/env.step_frac": 0.06455948293657085, "timer/env.step_avg": 0.013429457791294088, "timer/env.step_min": 0.0033309459686279297, "timer/env.step_max": 1.7118737697601318, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29662656784057617, "timer/replay.add_frac": 0.0009875166308406654, "timer/replay.add_avg": 0.00020542006083142393, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0048639774322509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02676987648010254, "timer/logger.write_frac": 8.912114117795296e-05, "timer/logger.write_avg": 0.02676987648010254, "timer/logger.write_min": 0.02676987648010254, "timer/logger.write_max": 0.02676987648010254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.861364841461182, "timer/agent.policy_frac": 0.03615919670531886, "timer/agent.policy_avg": 0.007521720804335998, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.02102184295654297, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06839346885681152, "timer/dataset_frac": 0.00022769264543182833, "timer/dataset_avg": 9.472779620056998e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0002117156982421875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.02847027778625, "timer/agent.train_frac": 0.8956382110442772, "timer/agent.train_avg": 0.37261560980302805, "timer/agent.train_min": 0.3659520149230957, "timer/agent.train_max": 0.41957545280456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22221088409423828, "timer/agent.report_frac": 0.000739775082165956, "timer/agent.report_avg": 0.22221088409423828, "timer/agent.report_min": 0.22221088409423828, "timer/agent.report_max": 0.22221088409423828, "fps": 4.8072237535287226}
+{"step": 312292, "episode/length": 226.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04405286343612335}
+{"step": 312489, "episode/length": 196.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.025380710659898477}
+{"step": 312771, "episode/length": 281.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.0425531914893617}
+{"step": 313038, "episode/length": 266.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03745318352059925}
+{"step": 313364, "episode/length": 325.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.03680981595092025}
+{"step": 313515, "episode/length": 150.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.059602649006622516}
+{"step": 313571, "episode/length": 55.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08928571428571429}
+{"step": 313628, "episode/length": 56.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.10526315789473684}
+{"step": 313679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428595744388204, "train/action_min": 0.0, "train/action_std": 3.251463312498281, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048072993230651805, "train/actor_opt_grad_steps": 155940.0, "train/actor_opt_loss": -11.623640306398903, "train/adv_mag": 0.45963016740033324, "train/adv_max": 0.4227696778908582, "train/adv_mean": 0.0034578593371355658, "train/adv_min": -0.3835863189798006, "train/adv_std": 0.05251827615667397, "train/cont_avg": 0.994264414612676, "train/cont_loss_mean": 3.687090219913648e-05, "train/cont_loss_std": 0.0011109271471929827, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002282975950281621, "train/cont_pos_acc": 0.999986149055857, "train/cont_pos_loss": 2.5324294367964554e-05, "train/cont_pred": 0.9942596722656573, "train/cont_rate": 0.994264414612676, "train/dyn_loss_mean": 4.763523168966803, "train/dyn_loss_std": 8.605277632323789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.097302690358229, "train/extr_critic_critic_opt_grad_steps": 155940.0, "train/extr_critic_critic_opt_loss": 16186.176221390846, "train/extr_critic_mag": 9.001226653515452, "train/extr_critic_max": 9.001226653515452, "train/extr_critic_mean": 2.391963826098912, "train/extr_critic_min": -0.5986070347503877, "train/extr_critic_std": 2.2149436910387497, "train/extr_return_normed_mag": 1.48387903226933, "train/extr_return_normed_max": 1.48387903226933, "train/extr_return_normed_mean": 0.3938368791845483, "train/extr_return_normed_min": -0.10462794342721013, "train/extr_return_normed_std": 0.3384562369803308, "train/extr_return_rate": 0.7131960051999965, "train/extr_return_raw_mag": 9.663845330896512, "train/extr_return_raw_max": 9.663845330896512, "train/extr_return_raw_mean": 2.4149232061815935, "train/extr_return_raw_min": -0.9005353501145269, "train/extr_return_raw_std": 2.2510071707443453, "train/extr_reward_mag": 1.0285534455742635, "train/extr_reward_max": 1.0285534455742635, "train/extr_reward_mean": 0.04590800958095302, "train/extr_reward_min": -0.6316910579170979, "train/extr_reward_std": 0.20933142325408022, "train/image_loss_mean": 2.953229158696994, "train/image_loss_std": 8.048304967477288, "train/model_loss_mean": 5.860787593143087, "train/model_loss_std": 12.119928830106494, "train/model_opt_grad_norm": 36.875513376508444, "train/model_opt_grad_steps": 155813.1690140845, "train/model_opt_loss": 8665.878858109596, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.3847077060753192, "train/policy_entropy_max": 2.3847077060753192, "train/policy_entropy_mean": 0.35966783237289374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4624068779005131, "train/policy_logprob_mag": 7.438384183695619, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36123496944635686, "train/policy_logprob_min": -7.438384183695619, "train/policy_logprob_std": 0.9731322778782374, "train/policy_randomness_mag": 0.8416971732193316, "train/policy_randomness_max": 0.8416971732193316, "train/policy_randomness_mean": 0.12694695917233614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16320933527509932, "train/post_ent_mag": 54.51327246007785, "train/post_ent_max": 54.51327246007785, "train/post_ent_mean": 40.44270706176758, "train/post_ent_min": 18.22344719524115, "train/post_ent_std": 5.628525827971982, "train/prior_ent_mag": 76.15694373762103, "train/prior_ent_max": 76.15694373762103, "train/prior_ent_mean": 45.17611887757207, "train/prior_ent_min": 27.393093082266795, "train/prior_ent_std": 7.340472335546789, "train/rep_loss_mean": 4.763523168966803, "train/rep_loss_std": 8.605277632323789, "train/reward_avg": 0.03120048393980718, "train/reward_loss_mean": 0.04940767756755084, "train/reward_loss_std": 0.2052628733742405, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.012213431613546, "train/reward_neg_acc": 0.9945920378389493, "train/reward_neg_loss": 0.02361046459893106, "train/reward_pos_acc": 0.9877823515677117, "train/reward_pos_loss": 0.7344103203692907, "train/reward_pred": 0.030807334732946376, "train/reward_rate": 0.03614656690140845, "stats/sum_log_reward": 7.725000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 5.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 10.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38945891708135605, "replay/size": 313616.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.896314989436757e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2240330265326933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97820353507996, "timer/env.step_count": 1408.0, "timer/env.step_total": 21.17915678024292, "timer/env.step_frac": 0.07060231887069819, "timer/env.step_avg": 0.015042014758695255, "timer/env.step_min": 0.0030388832092285156, "timer/env.step_max": 1.7503418922424316, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.32458925247192383, "timer/replay.add_frac": 0.001082042790598837, "timer/replay.add_avg": 0.00023053213953971863, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.005540132522583008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027422666549682617, "timer/logger.write_frac": 9.141553028360531e-05, "timer/logger.write_avg": 0.027422666549682617, "timer/logger.write_min": 0.027422666549682617, "timer/logger.write_max": 0.027422666549682617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019097328186035156, "timer/checkpoint.save_frac": 6.366238600332802e-07, "timer/checkpoint.save_avg": 0.00019097328186035156, "timer/checkpoint.save_min": 0.00019097328186035156, "timer/checkpoint.save_max": 0.00019097328186035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5548176765441895, "timer/agent.save_frac": 0.005183102166162437, "timer/agent.save_avg": 1.5548176765441895, "timer/agent.save_min": 1.5548176765441895, "timer/agent.save_max": 1.5548176765441895, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.2095060310768025e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 14.974908351898193, "timer/agent.policy_frac": 0.049919988103892365, "timer/agent.policy_avg": 0.010635588318109512, "timer/agent.policy_min": 0.00571441650390625, "timer/agent.policy_max": 2.82589054107666, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06670618057250977, "timer/dataset_frac": 0.00022237009151469578, "timer/dataset_avg": 9.475309740413319e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00023627281188964844, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.7210373878479, "timer/agent.train_frac": 0.8758004224701108, "timer/agent.train_avg": 0.37318329174410214, "timer/agent.train_min": 0.36632537841796875, "timer/agent.train_max": 0.47966861724853516, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20284485816955566, "timer/agent.report_frac": 0.0006761986563661605, "timer/agent.report_avg": 0.20284485816955566, "timer/agent.report_min": 0.20284485816955566, "timer/agent.report_max": 0.20284485816955566, "fps": 4.693602858359125}
+{"step": 314013, "episode/length": 384.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03116883116883117}
+{"step": 314123, "episode/length": 109.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.05454545454545454}
+{"step": 314304, "episode/length": 180.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.049723756906077346}
+{"step": 314495, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
+{"step": 314673, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.056179775280898875}
+{"step": 314874, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05472636815920398}
+{"step": 315054, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
+{"step": 315123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.39347669813368, "train/action_min": 0.0, "train/action_std": 3.280315786600113, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044768938329070807, "train/actor_opt_grad_steps": 156655.0, "train/actor_opt_loss": -12.729617885003487, "train/adv_mag": 0.47727800036470097, "train/adv_max": 0.4366861374841796, "train/adv_mean": 0.0022495051210474535, "train/adv_min": -0.38181001755098504, "train/adv_std": 0.04982022806588146, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.813748245480282e-05, "train/cont_loss_std": 0.00041057061207538936, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001082236980841521, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 1.3716320135396623e-05, "train/cont_pred": 0.9946890696883202, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.814042942391501, "train/dyn_loss_std": 8.64296148882972, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0792189952399995, "train/extr_critic_critic_opt_grad_steps": 156655.0, "train/extr_critic_critic_opt_loss": 16223.167914496527, "train/extr_critic_mag": 9.263245516353184, "train/extr_critic_max": 9.263245516353184, "train/extr_critic_mean": 2.3181637906365924, "train/extr_critic_min": -0.5904072291321225, "train/extr_critic_std": 2.255991647640864, "train/extr_return_normed_mag": 1.4859821961985693, "train/extr_return_normed_max": 1.4859821961985693, "train/extr_return_normed_mean": 0.370796637609601, "train/extr_return_normed_min": -0.10203830426972774, "train/extr_return_normed_std": 0.33591365151935154, "train/extr_return_rate": 0.6933178181449572, "train/extr_return_raw_mag": 9.93493926525116, "train/extr_return_raw_max": 9.93493926525116, "train/extr_return_raw_mean": 2.333478015330103, "train/extr_return_raw_min": -0.8891392971078554, "train/extr_return_raw_std": 2.2897282242774963, "train/extr_reward_mag": 1.0328919755087957, "train/extr_reward_max": 1.0328919755087957, "train/extr_reward_mean": 0.041340160752750106, "train/extr_reward_min": -0.6462030890915129, "train/extr_reward_std": 0.19936755837665665, "train/image_loss_mean": 2.8278772317700915, "train/image_loss_std": 7.743211487929027, "train/model_loss_mean": 5.762434350119697, "train/model_loss_std": 11.917839659584892, "train/model_opt_grad_norm": 34.5878783331977, "train/model_opt_grad_steps": 156528.0, "train/model_opt_loss": 10208.792236328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1770.8333333333333, "train/policy_entropy_mag": 2.3818588885996075, "train/policy_entropy_max": 2.3818588885996075, "train/policy_entropy_mean": 0.35398297384381294, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4462919835415151, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3547015395015478, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9657821042670144, "train/policy_randomness_mag": 0.8406916641526752, "train/policy_randomness_max": 0.8406916641526752, "train/policy_randomness_mean": 0.12494045413202709, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15752148235009777, "train/post_ent_mag": 54.685671170552574, "train/post_ent_max": 54.685671170552574, "train/post_ent_mean": 40.679482301076256, "train/post_ent_min": 18.992558227645027, "train/post_ent_std": 5.61030638217926, "train/prior_ent_mag": 76.15796555413141, "train/prior_ent_max": 76.15796555413141, "train/prior_ent_mean": 45.41026067733765, "train/prior_ent_min": 27.549546003341675, "train/prior_ent_std": 7.23410650756624, "train/rep_loss_mean": 4.814042942391501, "train/rep_loss_std": 8.64296148882972, "train/reward_avg": 0.02867024694569409, "train/reward_loss_mean": 0.04611319929568304, "train/reward_loss_std": 0.19482050960262617, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0088431239128113, "train/reward_neg_acc": 0.9955374946196874, "train/reward_neg_loss": 0.022352987525260284, "train/reward_pos_acc": 0.987097890012794, "train/reward_pos_loss": 0.7296003020471997, "train/reward_pred": 0.028441233793273568, "train/reward_rate": 0.033623589409722224, "stats/sum_log_reward": 8.957143102373395, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.47791709644453867, "replay/size": 315060.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.841775275993876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.22443378136759e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13659858703613, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.940935611724854, "timer/env.step_frac": 0.06310771728904031, "timer/env.step_avg": 0.013116991420862086, "timer/env.step_min": 0.0029904842376708984, "timer/env.step_max": 1.7431526184082031, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29376935958862305, "timer/replay.add_frac": 0.000978785529560912, "timer/replay.add_avg": 0.00020344138475666417, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.005045413970947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03041529655456543, "timer/logger.write_frac": 0.00010133817967469684, "timer/logger.write_avg": 0.03041529655456543, "timer/logger.write_min": 0.03041529655456543, "timer/logger.write_max": 0.03041529655456543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.891858100891113, "timer/agent.policy_frac": 0.03628966994417577, "timer/agent.policy_avg": 0.0075428380200076965, "timer/agent.policy_min": 0.005672931671142578, "timer/agent.policy_max": 0.017893314361572266, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06794953346252441, "timer/dataset_frac": 0.00022639536058718888, "timer/dataset_avg": 9.411292723341331e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.21382236480713, "timer/agent.train_frac": 0.8969709913159366, "timer/agent.train_avg": 0.37287233014516225, "timer/agent.train_min": 0.36600804328918457, "timer/agent.train_max": 0.3865954875946045, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20352816581726074, "timer/agent.report_frac": 0.0006781184526492857, "timer/agent.report_avg": 0.20352816581726074, "timer/agent.report_min": 0.20352816581726074, "timer/agent.report_max": 0.20352816581726074, "fps": 4.811080731575739}
+{"step": 315439, "episode/length": 384.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02857142857142857}
+{"step": 315595, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
+{"step": 315705, "episode/length": 109.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09090909090909091}
+{"step": 315877, "episode/length": 171.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.05232558139534884}
+{"step": 316061, "episode/length": 183.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.059782608695652176}
+{"step": 316342, "episode/length": 280.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.300000056624413, "episode/reward_rate": 0.03914590747330961}
+{"step": 316543, "episode/length": 200.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03980099502487562}
+{"step": 316567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.491690741644965, "train/action_min": 0.0, "train/action_std": 3.3549357453982034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715690006398492, "train/actor_opt_grad_steps": 157375.0, "train/actor_opt_loss": -9.757300728311142, "train/adv_mag": 0.4835035349759791, "train/adv_max": 0.4526864468223519, "train/adv_mean": 0.0037444512107261594, "train/adv_min": -0.3914589335521062, "train/adv_std": 0.052458379831579, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.7748305287865504e-05, "train/cont_loss_std": 0.00046955045236371816, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005265841835150948, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.5207149605345194e-05, "train/cont_pred": 0.994590797358089, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.794912732309765, "train/dyn_loss_std": 8.609037657578787, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0833441962798436, "train/extr_critic_critic_opt_grad_steps": 157375.0, "train/extr_critic_critic_opt_loss": 16438.441012912328, "train/extr_critic_mag": 9.469917151663038, "train/extr_critic_max": 9.469917151663038, "train/extr_critic_mean": 2.421573869056172, "train/extr_critic_min": -0.6161304099692239, "train/extr_critic_std": 2.333004375298818, "train/extr_return_normed_mag": 1.4942134353849623, "train/extr_return_normed_max": 1.4942134353849623, "train/extr_return_normed_mean": 0.37851699586543774, "train/extr_return_normed_min": -0.10246329200971457, "train/extr_return_normed_std": 0.3402234932614697, "train/extr_return_rate": 0.7086959663364623, "train/extr_return_raw_mag": 10.223966492546928, "train/extr_return_raw_max": 10.223966492546928, "train/extr_return_raw_mean": 2.4476758423778744, "train/extr_return_raw_min": -0.9024007415605916, "train/extr_return_raw_std": 2.370576621757613, "train/extr_reward_mag": 1.03805015484492, "train/extr_reward_max": 1.03805015484492, "train/extr_reward_mean": 0.04350606344329814, "train/extr_reward_min": -0.671724753247367, "train/extr_reward_std": 0.20348093596597513, "train/image_loss_mean": 2.8673366887701883, "train/image_loss_std": 7.634810070196788, "train/model_loss_mean": 5.789828469355901, "train/model_loss_std": 11.786095261573792, "train/model_opt_grad_norm": 37.70089634259542, "train/model_opt_grad_steps": 157247.48611111112, "train/model_opt_loss": 10664.779947916666, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1857.638888888889, "train/policy_entropy_mag": 2.4053975409931607, "train/policy_entropy_max": 2.4053975409931607, "train/policy_entropy_mean": 0.3696254752576351, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46470964493023026, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36962996754381394, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9738078150484297, "train/policy_randomness_mag": 0.8489997718069289, "train/policy_randomness_max": 0.8489997718069289, "train/policy_randomness_mean": 0.1304615694615576, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16402211123042637, "train/post_ent_mag": 54.69588751263089, "train/post_ent_max": 54.69588751263089, "train/post_ent_mean": 40.70138035880195, "train/post_ent_min": 18.782666590478684, "train/post_ent_std": 5.633206897311741, "train/prior_ent_mag": 76.05551931593153, "train/prior_ent_max": 76.05551931593153, "train/prior_ent_mean": 45.463543521033394, "train/prior_ent_min": 27.595047129525078, "train/prior_ent_std": 7.278346485561794, "train/rep_loss_mean": 4.794912732309765, "train/rep_loss_std": 8.609037657578787, "train/reward_avg": 0.028827582304883335, "train/reward_loss_mean": 0.04552641272958782, "train/reward_loss_std": 0.1920951164017121, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0180522948503494, "train/reward_neg_acc": 0.99523114413023, "train/reward_neg_loss": 0.02184885406556229, "train/reward_pos_acc": 0.9913656777805753, "train/reward_pos_loss": 0.7232605392734209, "train/reward_pred": 0.028731865860107873, "train/reward_rate": 0.03370496961805555, "stats/sum_log_reward": 8.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.857142857142858, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.4924080286707197, "replay/size": 316504.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7686316260340473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2281074748475136e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0346348285675, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.71796178817749, "timer/env.step_frac": 0.06238600353213381, "timer/env.step_avg": 0.012962577415635381, "timer/env.step_min": 0.0031211376190185547, "timer/env.step_max": 1.712031602859497, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29190635681152344, "timer/replay.add_frac": 0.0009729088675989411, "timer/replay.add_avg": 0.00020215121662847882, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.006094217300415039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026878833770751953, "timer/logger.write_frac": 8.958576994322627e-05, "timer/logger.write_avg": 0.026878833770751953, "timer/logger.write_min": 0.026878833770751953, "timer/logger.write_max": 0.026878833770751953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.870333671569824, "timer/agent.policy_frac": 0.036230262808761626, "timer/agent.policy_avg": 0.007527931905519269, "timer/agent.policy_min": 0.005715608596801758, "timer/agent.policy_max": 0.024091243743896484, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06793618202209473, "timer/dataset_frac": 0.0002264277991136317, "timer/dataset_avg": 9.40944349336492e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00023937225341796875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.36743927001953, "timer/agent.train_frac": 0.8977878151431735, "timer/agent.train_avg": 0.3730850959418553, "timer/agent.train_min": 0.36348485946655273, "timer/agent.train_max": 0.4341704845428467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20505380630493164, "timer/agent.report_frac": 0.0006834337856430955, "timer/agent.report_avg": 0.20505380630493164, "timer/agent.report_min": 0.20505380630493164, "timer/agent.report_max": 0.20505380630493164, "fps": 4.812705011424655}
+{"step": 316687, "episode/length": 143.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.0625}
+{"step": 316900, "episode/length": 212.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.051643192488262914}
+{"step": 317147, "episode/length": 246.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04048582995951417}
+{"step": 317346, "episode/length": 198.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.035175879396984924}
+{"step": 317536, "episode/length": 189.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.05789473684210526}
+{"step": 317735, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06030150753768844}
+{"step": 317866, "episode/length": 130.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06870229007633588}
+{"step": 317976, "episode/length": 109.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.1}
+{"step": 317977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529338727678572, "train/action_min": 0.0, "train/action_std": 3.36413882119315, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575308406991618, "train/actor_opt_grad_steps": 158085.0, "train/actor_opt_loss": -13.454286914212362, "train/adv_mag": 0.4760342321225575, "train/adv_max": 0.43968076578208376, "train/adv_mean": 0.0019053150237076416, "train/adv_min": -0.3841322430542537, "train/adv_std": 0.050961185991764066, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 3.424687430262046e-05, "train/cont_loss_std": 0.0009998725633717446, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.004560672420224624, "train/cont_pos_acc": 0.9999999795641218, "train/cont_pos_loss": 3.2020961344057597e-06, "train/cont_pred": 0.9945272045476096, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.835618216650826, "train/dyn_loss_std": 8.68782217161996, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1179662312780108, "train/extr_critic_critic_opt_grad_steps": 158085.0, "train/extr_critic_critic_opt_loss": 16373.87060546875, "train/extr_critic_mag": 9.361002009255545, "train/extr_critic_max": 9.361002009255545, "train/extr_critic_mean": 2.414030533177512, "train/extr_critic_min": -0.6101475204740252, "train/extr_critic_std": 2.3247132216181075, "train/extr_return_normed_mag": 1.4528462733541216, "train/extr_return_normed_max": 1.4528462733541216, "train/extr_return_normed_mean": 0.37096805827958246, "train/extr_return_normed_min": -0.1078257574566773, "train/extr_return_normed_std": 0.3347514241933823, "train/extr_return_rate": 0.7042011129004615, "train/extr_return_raw_mag": 10.034547996520995, "train/extr_return_raw_max": 10.034547996520995, "train/extr_return_raw_mean": 2.4274031281471253, "train/extr_return_raw_min": -0.9386079754148211, "train/extr_return_raw_std": 2.3535332219941276, "train/extr_reward_mag": 1.0392789466040475, "train/extr_reward_max": 1.0392789466040475, "train/extr_reward_mean": 0.042229997712586606, "train/extr_reward_min": -0.6621998344148908, "train/extr_reward_std": 0.2012308499642781, "train/image_loss_mean": 3.1713905692100526, "train/image_loss_std": 8.339810562133788, "train/model_loss_mean": 6.119399315970284, "train/model_loss_std": 12.48511656352452, "train/model_opt_grad_norm": 34.525546836853025, "train/model_opt_grad_steps": 157957.0, "train/model_opt_loss": 8384.315129743303, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1375.0, "train/policy_entropy_mag": 2.4180584566933767, "train/policy_entropy_max": 2.4180584566933767, "train/policy_entropy_mean": 0.3664129450917244, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4569156161376408, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3668468360389982, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 0.9718570096152169, "train/policy_randomness_mag": 0.853468519449234, "train/policy_randomness_max": 0.853468519449234, "train/policy_randomness_mean": 0.1293276896434171, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1612711607345513, "train/post_ent_mag": 54.779500470842635, "train/post_ent_max": 54.779500470842635, "train/post_ent_mean": 40.62765601021903, "train/post_ent_min": 18.89678395135062, "train/post_ent_std": 5.560292993273054, "train/prior_ent_mag": 76.08054558890207, "train/prior_ent_max": 76.08054558890207, "train/prior_ent_mean": 45.41987653459822, "train/prior_ent_min": 27.081999288286482, "train/prior_ent_std": 7.33308025768825, "train/rep_loss_mean": 4.835618216650826, "train/rep_loss_std": 8.68782217161996, "train/reward_avg": 0.028254743053444793, "train/reward_loss_mean": 0.046603542566299436, "train/reward_loss_std": 0.1949827994619097, "train/reward_max_data": 1.021428576537541, "train/reward_max_pred": 1.0182121293885367, "train/reward_neg_acc": 0.994631028175354, "train/reward_neg_loss": 0.02301043574033039, "train/reward_pos_acc": 0.9875479195799146, "train/reward_pos_loss": 0.7324479579925537, "train/reward_pred": 0.02809243935293385, "train/reward_rate": 0.03318917410714286, "stats/sum_log_reward": 8.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 0.75, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 10.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.4270855449140072, "replay/size": 317914.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.874555547186669e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1921985775020951e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0107524394989, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.116721153259277, "timer/env.step_frac": 0.07705297548600717, "timer/env.step_avg": 0.016394837697347005, "timer/env.step_min": 0.003123044967651367, "timer/env.step_max": 2.7917137145996094, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.29566121101379395, "timer/replay.add_frac": 0.000985502048208815, "timer/replay.add_avg": 0.00020968880213744252, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.009655952453613281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02736949920654297, "timer/logger.write_frac": 9.122839426251027e-05, "timer/logger.write_avg": 0.02736949920654297, "timer/logger.write_min": 0.02736949920654297, "timer/logger.write_max": 0.02736949920654297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004029273986816406, "timer/checkpoint.save_frac": 1.3430431923032366e-06, "timer/checkpoint.save_avg": 0.0004029273986816406, "timer/checkpoint.save_min": 0.0004029273986816406, "timer/checkpoint.save_max": 0.0004029273986816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4113779067993164, "timer/agent.save_frac": 0.0047044244092015975, "timer/agent.save_avg": 1.4113779067993164, "timer/agent.save_min": 1.4113779067993164, "timer/agent.save_max": 1.4113779067993164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.937980651855469e-05, "timer/replay.save_frac": 2.3125773311256915e-07, "timer/replay.save_avg": 6.937980651855469e-05, "timer/replay.save_min": 6.937980651855469e-05, "timer/replay.save_max": 6.937980651855469e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.82234525680542, "timer/agent.policy_frac": 0.04273961900545953, "timer/agent.policy_avg": 0.009093861884259162, "timer/agent.policy_min": 0.005669116973876953, "timer/agent.policy_max": 1.3978948593139648, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06633472442626953, "timer/dataset_frac": 0.00022110782325925735, "timer/dataset_avg": 9.409180769683622e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0002231597900390625, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.9992697238922, "timer/agent.train_frac": 0.8766328126087063, "timer/agent.train_avg": 0.37304860953743574, "timer/agent.train_min": 0.36595702171325684, "timer/agent.train_max": 0.43343639373779297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2010653018951416, "timer/agent.report_frac": 0.0006701936522614771, "timer/agent.report_avg": 0.2010653018951416, "timer/agent.report_min": 0.2010653018951416, "timer/agent.report_max": 0.2010653018951416, "fps": 4.699676510745468}
+{"step": 318129, "episode/length": 152.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.026143790849673203}
+{"step": 318290, "episode/length": 160.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.062111801242236024}
+{"step": 318497, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05314009661835749}
+{"step": 318875, "episode/length": 377.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.031746031746031744}
+{"step": 319064, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042328042328042326}
+{"step": 319136, "episode/length": 71.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.1111111111111111}
+{"step": 319294, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 319423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.434220823523116, "train/action_min": 0.0, "train/action_std": 3.336770318958857, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045777975900532446, "train/actor_opt_grad_steps": 158800.0, "train/actor_opt_loss": -13.59537633294112, "train/adv_mag": 0.4782495245541612, "train/adv_max": 0.4128588719727242, "train/adv_mean": 0.001974504274772225, "train/adv_min": -0.39478696821487114, "train/adv_std": 0.050649977557054936, "train/cont_avg": 0.9943412885273972, "train/cont_loss_mean": 8.143757999003929e-05, "train/cont_loss_std": 0.0025296248121564643, "train/cont_neg_acc": 0.9953300128244373, "train/cont_neg_loss": 0.013851707476570569, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 2.0200169035122176e-05, "train/cont_pred": 0.9943487807495953, "train/cont_rate": 0.9943412885273972, "train/dyn_loss_mean": 4.716160336585894, "train/dyn_loss_std": 8.615813608038914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1050811352795118, "train/extr_critic_critic_opt_grad_steps": 158800.0, "train/extr_critic_critic_opt_loss": 16248.443372752568, "train/extr_critic_mag": 9.570669161130304, "train/extr_critic_max": 9.570669161130304, "train/extr_critic_mean": 2.4664186533183265, "train/extr_critic_min": -0.5787028972416708, "train/extr_critic_std": 2.337732680856365, "train/extr_return_normed_mag": 1.4813433820254183, "train/extr_return_normed_max": 1.4813433820254183, "train/extr_return_normed_mean": 0.37942982046571494, "train/extr_return_normed_min": -0.10045280644338425, "train/extr_return_normed_std": 0.3375520759249387, "train/extr_return_rate": 0.708695455364985, "train/extr_return_raw_mag": 10.195650636333308, "train/extr_return_raw_max": 10.195650636333308, "train/extr_return_raw_mean": 2.4802694500309146, "train/extr_return_raw_min": -0.8801021135016663, "train/extr_return_raw_std": 2.3638006040494735, "train/extr_reward_mag": 1.0366316396896154, "train/extr_reward_max": 1.0366316396896154, "train/extr_reward_mean": 0.04246529490265944, "train/extr_reward_min": -0.649993602543661, "train/extr_reward_std": 0.20176554542698272, "train/image_loss_mean": 2.934536530546946, "train/image_loss_std": 7.897860402930273, "train/model_loss_mean": 5.812018776593143, "train/model_loss_std": 12.025443103215466, "train/model_opt_grad_norm": 34.005089629186344, "train/model_opt_grad_steps": 158672.0, "train/model_opt_loss": 14530.046928510274, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3980227888446963, "train/policy_entropy_max": 2.3980227888446963, "train/policy_entropy_mean": 0.3552255953011447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45251570172505834, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3566712351286248, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9675419183626567, "train/policy_randomness_mag": 0.8463968079384059, "train/policy_randomness_max": 0.8463968079384059, "train/policy_randomness_mean": 0.12537904706311553, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15971818474465854, "train/post_ent_mag": 54.98418969977392, "train/post_ent_max": 54.98418969977392, "train/post_ent_mean": 40.78287270950945, "train/post_ent_min": 19.047689816723132, "train/post_ent_std": 5.639612080299691, "train/prior_ent_mag": 76.02382576302307, "train/prior_ent_max": 76.02382576302307, "train/prior_ent_mean": 45.4519029382157, "train/prior_ent_min": 27.62749695451292, "train/prior_ent_std": 7.271321166051577, "train/rep_loss_mean": 4.716160336585894, "train/rep_loss_std": 8.615813608038914, "train/reward_avg": 0.02859722820353018, "train/reward_loss_mean": 0.04770459732270404, "train/reward_loss_std": 0.20247222605633408, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0183327002068088, "train/reward_neg_acc": 0.9951405859973332, "train/reward_neg_loss": 0.023318509928473872, "train/reward_pos_acc": 0.9850546627828519, "train/reward_pos_loss": 0.7469671482909216, "train/reward_pred": 0.028246859522306756, "train/reward_rate": 0.033831870719178085, "stats/sum_log_reward": 7.528571401323591, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3854760250874928, "replay/size": 319360.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.816016317238287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2137335860382967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0831878185272, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.614782571792603, "timer/env.step_frac": 0.062032074196205, "timer/env.step_avg": 0.012873293618113834, "timer/env.step_min": 0.002916574478149414, "timer/env.step_max": 1.731684923171997, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2781951427459717, "timer/replay.add_frac": 0.0009270600754688325, "timer/replay.add_avg": 0.00019238944864866645, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.0028510093688964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02813434600830078, "timer/logger.write_frac": 9.375515573806417e-05, "timer/logger.write_avg": 0.02813434600830078, "timer/logger.write_min": 0.02813434600830078, "timer/logger.write_max": 0.02813434600830078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.887301683425903, "timer/agent.policy_frac": 0.03628094516914392, "timer/agent.policy_avg": 0.007529254276228149, "timer/agent.policy_min": 0.0057146549224853516, "timer/agent.policy_max": 0.01702404022216797, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06726264953613281, "timer/dataset_frac": 0.0002241466775433262, "timer/dataset_avg": 9.303271028510763e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.5241997241974, "timer/agent.train_frac": 0.8981649444726303, "timer/agent.train_avg": 0.3727858917347128, "timer/agent.train_min": 0.36617469787597656, "timer/agent.train_max": 0.3909127712249756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2035057544708252, "timer/agent.report_frac": 0.0006781644648279783, "timer/agent.report_avg": 0.2035057544708252, "timer/agent.report_min": 0.2035057544708252, "timer/agent.report_max": 0.2035057544708252, "fps": 4.818564465200602}
+{"step": 319502, "episode/length": 207.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04326923076923077}
+{"step": 319687, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
+{"step": 319877, "episode/length": 189.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04736842105263158}
+{"step": 320078, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04975124378109453}
+{"step": 320274, "episode/length": 195.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05102040816326531}
+{"step": 320410, "episode/length": 135.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08088235294117647}
+{"step": 320837, "episode/length": 426.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.02107728337236534}
+{"step": 320863, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41998291015625, "train/action_min": 0.0, "train/action_std": 3.2839694950315685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04587863473635581, "train/actor_opt_grad_steps": 159525.0, "train/actor_opt_loss": -9.437339239443341, "train/adv_mag": 0.43822669237852097, "train/adv_max": 0.403968411601252, "train/adv_mean": 0.0033271310148342715, "train/adv_min": -0.3741307213074631, "train/adv_std": 0.05095354550414615, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.00015987129794107582, "train/cont_loss_std": 0.005015916589008561, "train/cont_neg_acc": 0.987020504143503, "train/cont_neg_loss": 0.03201780852461727, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1564601355750091e-05, "train/cont_pred": 0.9946653586294916, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.643903755479389, "train/dyn_loss_std": 8.555595298608145, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0305528764923413, "train/extr_critic_critic_opt_grad_steps": 159525.0, "train/extr_critic_critic_opt_loss": 16234.906643337674, "train/extr_critic_mag": 9.226358996497261, "train/extr_critic_max": 9.226358996497261, "train/extr_critic_mean": 2.5204927408032947, "train/extr_critic_min": -0.5612433436844084, "train/extr_critic_std": 2.272842288017273, "train/extr_return_normed_mag": 1.4511275986830394, "train/extr_return_normed_max": 1.4511275986830394, "train/extr_return_normed_mean": 0.3894602623250749, "train/extr_return_normed_min": -0.09837947087362409, "train/extr_return_normed_std": 0.3318808724482854, "train/extr_return_rate": 0.7331253993842337, "train/extr_return_raw_mag": 9.922128253512913, "train/extr_return_raw_max": 9.922128253512913, "train/extr_return_raw_mean": 2.543598257833057, "train/extr_return_raw_min": -0.8470394983887672, "train/extr_return_raw_std": 2.306831176082293, "train/extr_reward_mag": 1.0297008156776428, "train/extr_reward_max": 1.0297008156776428, "train/extr_reward_mean": 0.045348713976434536, "train/extr_reward_min": -0.6600985924402872, "train/extr_reward_std": 0.20743007502622074, "train/image_loss_mean": 2.8167329016658993, "train/image_loss_std": 7.777694278293186, "train/model_loss_mean": 5.650946689976586, "train/model_loss_std": 11.890856557422214, "train/model_opt_grad_norm": 33.04398589664035, "train/model_opt_grad_steps": 159396.29166666666, "train/model_opt_loss": 14279.853176540799, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.3866745034853616, "train/policy_entropy_max": 2.3866745034853616, "train/policy_entropy_mean": 0.3428148101601336, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44315053812331623, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34352738451626563, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9581635975175433, "train/policy_randomness_mag": 0.8423913634485669, "train/policy_randomness_max": 0.8423913634485669, "train/policy_randomness_mean": 0.1209985829061932, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15641269377536243, "train/post_ent_mag": 55.059896575080025, "train/post_ent_max": 55.059896575080025, "train/post_ent_mean": 40.79875606960721, "train/post_ent_min": 19.20939422978295, "train/post_ent_std": 5.598838223351373, "train/prior_ent_mag": 76.03712039523654, "train/prior_ent_max": 76.03712039523654, "train/prior_ent_mean": 45.40763415230645, "train/prior_ent_min": 27.763981342315674, "train/prior_ent_std": 7.229619774553511, "train/rep_loss_mean": 4.643903755479389, "train/rep_loss_std": 8.555595298608145, "train/reward_avg": 0.031164550713987813, "train/reward_loss_mean": 0.04771166077504555, "train/reward_loss_std": 0.20043440266615814, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010845210817125, "train/reward_neg_acc": 0.9951160343156921, "train/reward_neg_loss": 0.0215666046521316, "train/reward_pos_acc": 0.9858598700828023, "train/reward_pos_loss": 0.7450666154424349, "train/reward_pred": 0.03075624272848169, "train/reward_rate": 0.036092122395833336, "stats/sum_log_reward": 8.100000177110944, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 3.0, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 2.142857142857143, "stats/max_log_achievement_place_furnace": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3873083846909659, "replay/size": 320800.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.858241770002577e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2273175848854913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.216744184494, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.452332019805908, "timer/env.step_frac": 0.06146336730794164, "timer/env.step_avg": 0.012814119458198547, "timer/env.step_min": 0.0027103424072265625, "timer/env.step_max": 1.714268445968628, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29486584663391113, "timer/replay.add_frac": 0.000982176551927115, "timer/replay.add_avg": 0.00020476794905132718, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.008823871612548828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028352737426757812, "timer/logger.write_frac": 9.444089304137557e-05, "timer/logger.write_avg": 0.028352737426757812, "timer/logger.write_min": 0.028352737426757812, "timer/logger.write_max": 0.028352737426757812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.776063680648804, "timer/agent.policy_frac": 0.03589427934781187, "timer/agent.policy_avg": 0.007483377556006114, "timer/agent.policy_min": 0.0056324005126953125, "timer/agent.policy_max": 0.021296977996826172, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06751894950866699, "timer/dataset_frac": 0.00022490067864827074, "timer/dataset_avg": 9.37763187620375e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00018525123596191406, "timer/agent.train_count": 720.0, "timer/agent.train_total": 269.92280101776123, "timer/agent.train_frac": 0.8990930927286452, "timer/agent.train_avg": 0.37489277919133507, "timer/agent.train_min": 0.36649155616760254, "timer/agent.train_max": 1.9480946063995361, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20196056365966797, "timer/agent.report_frac": 0.0006727158547011486, "timer/agent.report_avg": 0.20196056365966797, "timer/agent.report_min": 0.20196056365966797, "timer/agent.report_max": 0.20196056365966797, "fps": 4.796464432460295}
+{"step": 321043, "episode/length": 205.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04854368932038835}
+{"step": 321236, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
+{"step": 321464, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
+{"step": 321628, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 321816, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05851063829787234}
+{"step": 322036, "episode/length": 219.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04090909090909091}
+{"step": 322297, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505383128851232, "train/action_min": 0.0, "train/action_std": 3.3597037087024098, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04457489721162219, "train/actor_opt_grad_steps": 160240.0, "train/actor_opt_loss": -12.395509601583782, "train/adv_mag": 0.45049675879344137, "train/adv_max": 0.4162104003865954, "train/adv_mean": 0.0020650200807927244, "train/adv_min": -0.3686845508259787, "train/adv_std": 0.049693104456847825, "train/cont_avg": 0.9944707306338029, "train/cont_loss_mean": 6.740208762183511e-05, "train/cont_loss_std": 0.0018847228107118316, "train/cont_neg_acc": 0.9971428573131561, "train/cont_neg_loss": 0.006884832905208376, "train/cont_pos_acc": 0.9999861221917918, "train/cont_pos_loss": 3.3873955791138325e-05, "train/cont_pred": 0.9944633396578507, "train/cont_rate": 0.9944707306338029, "train/dyn_loss_mean": 4.764447061108871, "train/dyn_loss_std": 8.597209782667562, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.050300230442638, "train/extr_critic_critic_opt_grad_steps": 160240.0, "train/extr_critic_critic_opt_loss": 16056.852910431338, "train/extr_critic_mag": 9.367660267252317, "train/extr_critic_max": 9.367660267252317, "train/extr_critic_mean": 2.5225299260985685, "train/extr_critic_min": -0.5813298947374586, "train/extr_critic_std": 2.3039660856757367, "train/extr_return_normed_mag": 1.4415482047577979, "train/extr_return_normed_max": 1.4415482047577979, "train/extr_return_normed_mean": 0.38570908089758643, "train/extr_return_normed_min": -0.10488889146019036, "train/extr_return_normed_std": 0.33177376779871925, "train/extr_return_rate": 0.7312738761095934, "train/extr_return_raw_mag": 9.951026097149915, "train/extr_return_raw_max": 9.951026097149915, "train/extr_return_raw_mean": 2.5370288046313005, "train/extr_return_raw_min": -0.9074917175400425, "train/extr_return_raw_std": 2.3296722240850958, "train/extr_reward_mag": 1.03281891849679, "train/extr_reward_max": 1.03281891849679, "train/extr_reward_mean": 0.04453024506883722, "train/extr_reward_min": -0.6757321508837418, "train/extr_reward_std": 0.20638603580669618, "train/image_loss_mean": 2.9479784528974076, "train/image_loss_std": 7.801739961328641, "train/model_loss_mean": 5.853286756596095, "train/model_loss_std": 11.913962014963928, "train/model_opt_grad_norm": 33.227531298785145, "train/model_opt_grad_steps": 160110.70422535212, "train/model_opt_loss": 14633.21689315581, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.3847449329537405, "train/policy_entropy_max": 2.3847449329537405, "train/policy_entropy_mean": 0.36093923407541195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45812465271479647, "train/policy_logprob_mag": 7.438384190411635, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36107246388851755, "train/policy_logprob_min": -7.438384190411635, "train/policy_logprob_std": 0.9706905719260095, "train/policy_randomness_mag": 0.8417103097472393, "train/policy_randomness_max": 0.8417103097472393, "train/policy_randomness_mean": 0.12739570984538173, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16169789769280124, "train/post_ent_mag": 54.40288463108976, "train/post_ent_max": 54.40288463108976, "train/post_ent_mean": 40.669883674299214, "train/post_ent_min": 18.653317129108267, "train/post_ent_std": 5.584054248433717, "train/prior_ent_mag": 76.03165113422233, "train/prior_ent_max": 76.03165113422233, "train/prior_ent_mean": 45.40508092960841, "train/prior_ent_min": 27.414524454466054, "train/prior_ent_std": 7.298398508152491, "train/rep_loss_mean": 4.764447061108871, "train/rep_loss_std": 8.597209782667562, "train/reward_avg": 0.030073998469701956, "train/reward_loss_mean": 0.0465726627325508, "train/reward_loss_std": 0.19381978719587056, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0142274373014208, "train/reward_neg_acc": 0.9949524192742898, "train/reward_neg_loss": 0.021595313279351717, "train/reward_pos_acc": 0.9876779989457466, "train/reward_pos_loss": 0.7343789926716979, "train/reward_pred": 0.029752864699128648, "train/reward_rate": 0.03508747799295775, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 8.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.41638416051864624, "replay/size": 322234.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.790755650987186e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2467928345067065e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3450655937195, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.34800148010254, "timer/env.step_frac": 0.057760234701406406, "timer/env.step_avg": 0.01209763004191251, "timer/env.step_min": 0.002761363983154297, "timer/env.step_max": 1.6543042659759521, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28326892852783203, "timer/replay.add_frac": 0.00094314493886513, "timer/replay.add_avg": 0.00019753760706264436, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004885673522949219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02869129180908203, "timer/logger.write_frac": 9.552776155108571e-05, "timer/logger.write_avg": 0.02869129180908203, "timer/logger.write_min": 0.02869129180908203, "timer/logger.write_max": 0.02869129180908203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018858909606933594, "timer/checkpoint.save_frac": 6.279080886397607e-07, "timer/checkpoint.save_avg": 0.00018858909606933594, "timer/checkpoint.save_min": 0.00018858909606933594, "timer/checkpoint.save_max": 0.00018858909606933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.299628734588623, "timer/agent.save_frac": 0.0043271186494092334, "timer/agent.save_avg": 1.299628734588623, "timer/agent.save_min": 1.299628734588623, "timer/agent.save_max": 1.299628734588623, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.67572021484375e-05, "timer/replay.save_frac": 2.222683499609772e-07, "timer/replay.save_avg": 6.67572021484375e-05, "timer/replay.save_min": 6.67572021484375e-05, "timer/replay.save_max": 6.67572021484375e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.740857601165771, "timer/agent.policy_frac": 0.04907973957230219, "timer/agent.policy_avg": 0.010279538076126759, "timer/agent.policy_min": 0.0056760311126708984, "timer/agent.policy_max": 2.75437331199646, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06682586669921875, "timer/dataset_frac": 0.0002224969688352228, "timer/dataset_avg": 9.320204560560495e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.20966243743896, "timer/agent.train_frac": 0.8896755533813124, "timer/agent.train_avg": 0.3726773534692315, "timer/agent.train_min": 0.3654663562774658, "timer/agent.train_max": 0.44121479988098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2019362449645996, "timer/agent.report_frac": 0.0006723474699523158, "timer/agent.report_avg": 0.2019362449645996, "timer/agent.report_min": 0.2019362449645996, "timer/agent.report_max": 0.2019362449645996, "fps": 4.7744332291802865}
+{"step": 322324, "episode/length": 287.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.041666666666666664}
+{"step": 322595, "episode/length": 270.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03690036900369004}
+{"step": 322638, "episode/length": 42.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.13953488372093023}
+{"step": 322929, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.044673539518900345}
+{"step": 323122, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031088082901554404}
+{"step": 323434, "episode/length": 311.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.038461538461538464}
+{"step": 323609, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
+{"step": 323743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507719693118578, "train/action_min": 0.0, "train/action_std": 3.3175404333088494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04441699339714769, "train/actor_opt_grad_steps": 160960.0, "train/actor_opt_loss": -11.967934900767183, "train/adv_mag": 0.44627846838676766, "train/adv_max": 0.3868595304554456, "train/adv_mean": 0.0025122447031245515, "train/adv_min": -0.39686341338778197, "train/adv_std": 0.04958996875849489, "train/cont_avg": 0.9943680436643836, "train/cont_loss_mean": 4.8330111913444806e-05, "train/cont_loss_std": 0.0014497569127779073, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015218365047761312, "train/cont_pos_acc": 0.9999864991397074, "train/cont_pos_loss": 3.68559278640322e-05, "train/cont_pred": 0.9943525039986388, "train/cont_rate": 0.9943680436643836, "train/dyn_loss_mean": 4.9094871952109145, "train/dyn_loss_std": 8.681872420115013, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1052135302595896, "train/extr_critic_critic_opt_grad_steps": 160960.0, "train/extr_critic_critic_opt_loss": 16060.900216716609, "train/extr_critic_mag": 9.339129369552822, "train/extr_critic_max": 9.339129369552822, "train/extr_critic_mean": 2.4931372698039223, "train/extr_critic_min": -0.5784620618166989, "train/extr_critic_std": 2.299523755295636, "train/extr_return_normed_mag": 1.439064473321993, "train/extr_return_normed_max": 1.439064473321993, "train/extr_return_normed_mean": 0.3795014642281075, "train/extr_return_normed_min": -0.09445059493388215, "train/extr_return_normed_std": 0.32990317271180347, "train/extr_return_rate": 0.7294556625085334, "train/extr_return_raw_mag": 9.988393182623875, "train/extr_return_raw_max": 9.988393182623875, "train/extr_return_raw_mean": 2.5108663741856407, "train/extr_return_raw_min": -0.8337151571495892, "train/extr_return_raw_std": 2.3282328223528928, "train/extr_reward_mag": 1.0389928393167993, "train/extr_reward_max": 1.0389928393167993, "train/extr_reward_mean": 0.044205372004884565, "train/extr_reward_min": -0.6550160858729114, "train/extr_reward_std": 0.20551515054212857, "train/image_loss_mean": 3.036224473012637, "train/image_loss_std": 7.85753451308159, "train/model_loss_mean": 6.03010292575784, "train/model_loss_std": 12.024505628298407, "train/model_opt_grad_norm": 35.43417272175828, "train/model_opt_grad_steps": 160829.86301369863, "train/model_opt_loss": 14075.272173319778, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2328.7671232876714, "train/policy_entropy_mag": 2.380207799885371, "train/policy_entropy_max": 2.380207799885371, "train/policy_entropy_mean": 0.35341532793763564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4510172760649903, "train/policy_logprob_mag": 7.438384193263642, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3530149553736595, "train/policy_logprob_min": -7.438384193263642, "train/policy_logprob_std": 0.9640153262713184, "train/policy_randomness_mag": 0.8401089041200402, "train/policy_randomness_max": 0.8401089041200402, "train/policy_randomness_mean": 0.12474010149910025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15918930630161338, "train/post_ent_mag": 54.775165139812316, "train/post_ent_max": 54.775165139812316, "train/post_ent_mean": 40.57713443285798, "train/post_ent_min": 18.733556603732175, "train/post_ent_std": 5.61486933329334, "train/prior_ent_mag": 76.0753637862532, "train/prior_ent_max": 76.0753637862532, "train/prior_ent_mean": 45.42130561724101, "train/prior_ent_min": 27.881290252894573, "train/prior_ent_std": 7.387610330973586, "train/rep_loss_mean": 4.9094871952109145, "train/rep_loss_std": 8.681872420115013, "train/reward_avg": 0.0293182786809255, "train/reward_loss_mean": 0.04813783330051866, "train/reward_loss_std": 0.20363762096999444, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0136390516202745, "train/reward_neg_acc": 0.9949963109133995, "train/reward_neg_loss": 0.02345080052387633, "train/reward_pos_acc": 0.9843760810486258, "train/reward_pos_loss": 0.7400898157733761, "train/reward_pred": 0.028991669429185456, "train/reward_rate": 0.034500749143835614, "stats/sum_log_reward": 8.81428589139666, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3995868819100516, "replay/size": 323680.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.859215257573424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2269653225340785e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33708000183105, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.881752729415894, "timer/env.step_frac": 0.06286853667652618, "timer/env.step_avg": 0.013057920283136857, "timer/env.step_min": 0.0030775070190429688, "timer/env.step_max": 1.7742180824279785, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2934873104095459, "timer/replay.add_frac": 0.000977193060569666, "timer/replay.add_avg": 0.00020296494495819218, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.006651878356933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03150629997253418, "timer/logger.write_frac": 0.00010490313075009618, "timer/logger.write_avg": 0.03150629997253418, "timer/logger.write_min": 0.03150629997253418, "timer/logger.write_max": 0.03150629997253418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.873412132263184, "timer/agent.policy_frac": 0.036204028261168725, "timer/agent.policy_avg": 0.007519648777498744, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 0.01704859733581543, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0680687427520752, "timer/dataset_frac": 0.00022664115517025138, "timer/dataset_avg": 9.414763866123817e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002071857452392578, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.4900555610657, "timer/agent.train_frac": 0.8972919879204482, "timer/agent.train_avg": 0.37273866605956524, "timer/agent.train_min": 0.36335301399230957, "timer/agent.train_max": 0.38889384269714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21251654624938965, "timer/agent.report_frac": 0.0007075934355095082, "timer/agent.report_avg": 0.21251654624938965, "timer/agent.report_min": 0.21251654624938965, "timer/agent.report_max": 0.21251654624938965, "fps": 4.814520736342319}
+{"step": 323806, "episode/length": 196.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.05583756345177665}
+{"step": 324000, "episode/length": 193.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.05670103092783505}
+{"step": 324226, "episode/length": 225.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05309734513274336}
+{"step": 324435, "episode/length": 208.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.04784688995215311}
+{"step": 324481, "episode/length": 45.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10869565217391304}
+{"step": 324689, "episode/length": 207.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03365384615384615}
+{"step": 324855, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
+{"step": 324894, "episode/length": 38.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.100000038743019, "episode/reward_rate": 0.07692307692307693}
+{"step": 325057, "episode/length": 162.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04294478527607362}
+{"step": 325173, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522120516065141, "train/action_min": 0.0, "train/action_std": 3.3780859792736213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046593903340923955, "train/actor_opt_grad_steps": 161680.0, "train/actor_opt_loss": -11.033160209026136, "train/adv_mag": 0.4860284991667304, "train/adv_max": 0.434213808304827, "train/adv_mean": 0.002819862377909373, "train/adv_min": -0.41067949630005257, "train/adv_std": 0.05275344355425365, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 5.48405062366962e-06, "train/cont_loss_std": 0.00011360473662611646, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002380555270833675, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 4.047859728408163e-06, "train/cont_pred": 0.9943994611081942, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.829471655294928, "train/dyn_loss_std": 8.603256138277725, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.134399522358263, "train/extr_critic_critic_opt_grad_steps": 161680.0, "train/extr_critic_critic_opt_loss": 16208.739134022888, "train/extr_critic_mag": 9.497691584305025, "train/extr_critic_max": 9.497691584305025, "train/extr_critic_mean": 2.575629066413557, "train/extr_critic_min": -0.5531507881594376, "train/extr_critic_std": 2.317041496155967, "train/extr_return_normed_mag": 1.4652873781365408, "train/extr_return_normed_max": 1.4652873781365408, "train/extr_return_normed_mean": 0.39115822273240963, "train/extr_return_normed_min": -0.09281685759483928, "train/extr_return_normed_std": 0.3338868571838862, "train/extr_return_rate": 0.7453868137279027, "train/extr_return_raw_mag": 10.157272258274991, "train/extr_return_raw_max": 10.157272258274991, "train/extr_return_raw_mean": 2.5954983805266902, "train/extr_return_raw_min": -0.812241944628702, "train/extr_return_raw_std": 2.3508814741188373, "train/extr_reward_mag": 1.0385211387150723, "train/extr_reward_max": 1.0385211387150723, "train/extr_reward_mean": 0.04404897221796949, "train/extr_reward_min": -0.6475198017039769, "train/extr_reward_std": 0.20441117798778372, "train/image_loss_mean": 2.9153629541397095, "train/image_loss_std": 7.910088354433086, "train/model_loss_mean": 5.860545255768467, "train/model_loss_std": 12.047519408481222, "train/model_opt_grad_norm": 34.86620678700192, "train/model_opt_grad_steps": 161549.0, "train/model_opt_loss": 7325.681606238996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.38219016370639, "train/policy_entropy_max": 2.38219016370639, "train/policy_entropy_mean": 0.3479193793216222, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44213505446071355, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3478627935261794, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9591579193800268, "train/policy_randomness_mag": 0.8408085896935261, "train/policy_randomness_max": 0.8408085896935261, "train/policy_randomness_mean": 0.12280027295502138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15605426967983516, "train/post_ent_mag": 54.76678482915314, "train/post_ent_max": 54.76678482915314, "train/post_ent_mean": 40.53432367888974, "train/post_ent_min": 18.768089240705464, "train/post_ent_std": 5.558415177842261, "train/prior_ent_mag": 76.07275036019338, "train/prior_ent_max": 76.07275036019338, "train/prior_ent_mean": 45.333723363742024, "train/prior_ent_min": 27.345291701840683, "train/prior_ent_std": 7.303898441959435, "train/rep_loss_mean": 4.829471655294928, "train/rep_loss_std": 8.603256138277725, "train/reward_avg": 0.030068496661916584, "train/reward_loss_mean": 0.04749381820290861, "train/reward_loss_std": 0.19663330702714518, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0183499161626253, "train/reward_neg_acc": 0.9952656542751152, "train/reward_neg_loss": 0.022092898612395977, "train/reward_pos_acc": 0.9849444971957677, "train/reward_pos_loss": 0.743141770362854, "train/reward_pred": 0.029688084393110072, "train/reward_rate": 0.0351287411971831, "stats/sum_log_reward": 7.322222391764323, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 6.333333333333333, "stats/max_log_achievement_collect_wood": 8.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.4444444444444446, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.34031996462080216, "replay/size": 325110.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.827701915394176e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507180233935376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2264971733093, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.74653911590576, "timer/env.step_frac": 0.07243377690061885, "timer/env.step_avg": 0.01520737001112291, "timer/env.step_min": 0.0027687549591064453, "timer/env.step_max": 1.7116985321044922, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2877511978149414, "timer/replay.add_frac": 0.0009584470408980377, "timer/replay.add_avg": 0.0002012246138566024, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.003615856170654297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027456045150756836, "timer/logger.write_frac": 9.145110577933935e-05, "timer/logger.write_avg": 0.027456045150756836, "timer/logger.write_min": 0.027456045150756836, "timer/logger.write_max": 0.027456045150756836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.917370080947876, "timer/agent.policy_frac": 0.03636377929242433, "timer/agent.policy_avg": 0.007634524532131382, "timer/agent.policy_min": 0.005691051483154297, "timer/agent.policy_max": 0.01750493049621582, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06743264198303223, "timer/dataset_frac": 0.00022460589794013393, "timer/dataset_avg": 9.431138738885626e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.00023436546325683594, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.49209475517273, "timer/agent.train_frac": 0.8876368250778911, "timer/agent.train_avg": 0.372716216440801, "timer/agent.train_min": 0.366138219833374, "timer/agent.train_max": 0.38503408432006836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20909905433654785, "timer/agent.report_frac": 0.0006964710187317109, "timer/agent.report_avg": 0.20909905433654785, "timer/agent.report_min": 0.20909905433654785, "timer/agent.report_max": 0.20909905433654785, "fps": 4.762984970500642}
+{"step": 325216, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
+{"step": 325383, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
+{"step": 325549, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
+{"step": 325718, "episode/length": 168.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.047337278106508875}
+{"step": 325884, "episode/length": 165.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06626506024096386}
+{"step": 326049, "episode/length": 164.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06060606060606061}
+{"step": 326244, "episode/length": 194.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05128205128205128}
+{"step": 326340, "episode/length": 95.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.041666666666666664}
+{"step": 326493, "episode/length": 152.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 326575, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467740304129464, "train/action_min": 0.0, "train/action_std": 3.2934697457722257, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045685892605355806, "train/actor_opt_grad_steps": 162385.0, "train/actor_opt_loss": -12.205971104758126, "train/adv_mag": 0.4985086108957018, "train/adv_max": 0.4321890102965491, "train/adv_mean": 0.002546127556810721, "train/adv_min": -0.41953806025641305, "train/adv_std": 0.05168082985494818, "train/cont_avg": 0.9945033482142858, "train/cont_loss_mean": 2.0955809089124547e-05, "train/cont_loss_std": 0.0006087706731152918, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001380732989790496, "train/cont_pos_acc": 0.9999999812671116, "train/cont_pos_loss": 1.4396124355187112e-05, "train/cont_pred": 0.9944957579885211, "train/cont_rate": 0.9945033482142858, "train/dyn_loss_mean": 4.76354523726872, "train/dyn_loss_std": 8.531223685400827, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0860374510288238, "train/extr_critic_critic_opt_grad_steps": 162385.0, "train/extr_critic_critic_opt_loss": 16315.765694754464, "train/extr_critic_mag": 9.592430523463658, "train/extr_critic_max": 9.592430523463658, "train/extr_critic_mean": 2.566126237596784, "train/extr_critic_min": -0.5470867225102016, "train/extr_critic_std": 2.301299088341849, "train/extr_return_normed_mag": 1.463556740965162, "train/extr_return_normed_max": 1.463556740965162, "train/extr_return_normed_mean": 0.3893834846360343, "train/extr_return_normed_min": -0.09210513292678765, "train/extr_return_normed_std": 0.32888527831860953, "train/extr_return_rate": 0.7439695315701621, "train/extr_return_raw_mag": 10.197548866271973, "train/extr_return_raw_max": 10.197548866271973, "train/extr_return_raw_mean": 2.584139975479671, "train/extr_return_raw_min": -0.8313590475491115, "train/extr_return_raw_std": 2.33238353899547, "train/extr_reward_mag": 1.026381506238665, "train/extr_reward_max": 1.026381506238665, "train/extr_reward_mean": 0.04428688987557377, "train/extr_reward_min": -0.6445346151079451, "train/extr_reward_std": 0.20427792157445634, "train/image_loss_mean": 2.755595249789102, "train/image_loss_std": 7.736325740814209, "train/model_loss_mean": 5.661195087432861, "train/model_loss_std": 11.829796273367746, "train/model_opt_grad_norm": 34.2861590385437, "train/model_opt_grad_steps": 162253.82857142857, "train/model_opt_loss": 10946.135023716517, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.3651647703988212, "train/policy_entropy_max": 2.3651647703988212, "train/policy_entropy_mean": 0.33610704711505346, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4255322286060878, "train/policy_logprob_mag": 7.438384199142456, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33659540372235436, "train/policy_logprob_min": -7.438384199142456, "train/policy_logprob_std": 0.9515381608690534, "train/policy_randomness_mag": 0.834799371446882, "train/policy_randomness_max": 0.834799371446882, "train/policy_randomness_mean": 0.11863103913409369, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15019420204418046, "train/post_ent_mag": 54.44880322047642, "train/post_ent_max": 54.44880322047642, "train/post_ent_mean": 40.70806100027902, "train/post_ent_min": 19.13348595755441, "train/post_ent_std": 5.546669381005423, "train/prior_ent_mag": 76.13654992239816, "train/prior_ent_max": 76.13654992239816, "train/prior_ent_mean": 45.475019563947406, "train/prior_ent_min": 28.100188664027623, "train/prior_ent_std": 7.2026434421539305, "train/rep_loss_mean": 4.76354523726872, "train/rep_loss_std": 8.531223685400827, "train/reward_avg": 0.029665178300014566, "train/reward_loss_mean": 0.04745175194527421, "train/reward_loss_std": 0.1960956716111728, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0162643602916173, "train/reward_neg_acc": 0.9950443889413562, "train/reward_neg_loss": 0.022772712021001746, "train/reward_pos_acc": 0.9878187886306218, "train/reward_pos_loss": 0.732817770753588, "train/reward_pred": 0.029392038538519825, "train/reward_rate": 0.03475167410714286, "stats/sum_log_reward": 7.655555672115749, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 4.444444444444445, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 3.4444444444444446, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3328486515416039, "replay/size": 326512.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.8934332157847885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.21568817214857e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19832706451416, "timer/env.step_count": 1402.0, "timer/env.step_total": 24.664642095565796, "timer/env.step_frac": 0.082161157714464, "timer/env.step_avg": 0.01759246939769315, "timer/env.step_min": 0.003095388412475586, "timer/env.step_max": 2.7726423740386963, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.280620813369751, "timer/replay.add_frac": 0.0009347847341915537, "timer/replay.add_avg": 0.00020015749883719756, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0071184635162353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031203269958496094, "timer/logger.write_frac": 0.00010394218470041757, "timer/logger.write_avg": 0.031203269958496094, "timer/logger.write_min": 0.031203269958496094, "timer/logger.write_max": 0.031203269958496094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023365020751953125, "timer/checkpoint.save_frac": 7.783194856689479e-07, "timer/checkpoint.save_avg": 0.00023365020751953125, "timer/checkpoint.save_min": 0.00023365020751953125, "timer/checkpoint.save_max": 0.00023365020751953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5051805973052979, "timer/agent.save_frac": 0.005013953981768282, "timer/agent.save_avg": 1.5051805973052979, "timer/agent.save_min": 1.5051805973052979, "timer/agent.save_max": 1.5051805973052979, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3826106704151464e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 12.765724420547485, "timer/agent.policy_frac": 0.042524302334982916, "timer/agent.policy_avg": 0.009105366919078092, "timer/agent.policy_min": 0.005767107009887695, "timer/agent.policy_max": 1.5025246143341064, "timer/dataset_count": 701.0, "timer/dataset_total": 0.06478381156921387, "timer/dataset_frac": 0.00021580337306573828, "timer/dataset_avg": 9.241627898603976e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0002658367156982422, "timer/agent.train_count": 701.0, "timer/agent.train_total": 261.7255918979645, "timer/agent.train_frac": 0.8718422732639622, "timer/agent.train_avg": 0.37336033081022035, "timer/agent.train_min": 0.3660130500793457, "timer/agent.train_max": 0.5504775047302246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20211172103881836, "timer/agent.report_frac": 0.0006732606507676624, "timer/agent.report_avg": 0.20211172103881836, "timer/agent.report_min": 0.20211172103881836, "timer/agent.report_max": 0.20211172103881836, "fps": 4.670184230912938}
+{"step": 326641, "episode/length": 147.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.06756756756756757}
+{"step": 326785, "episode/length": 143.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 326959, "episode/length": 173.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06896551724137931}
+{"step": 327120, "episode/length": 160.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.049689440993788817}
+{"step": 327316, "episode/length": 195.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.061224489795918366}
+{"step": 327535, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
+{"step": 327722, "episode/length": 186.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 10.699999988079071, "episode/reward_rate": 0.053475935828877004}
+{"step": 327880, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05063291139240506}
+{"step": 327978, "episode/length": 97.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.04081632653061224}
+{"step": 328007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44405280219184, "train/action_min": 0.0, "train/action_std": 3.3064113590452404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04645148514666491, "train/actor_opt_grad_steps": 163095.0, "train/actor_opt_loss": -11.903185734318363, "train/adv_mag": 0.44559158343407845, "train/adv_max": 0.40584979351196027, "train/adv_mean": 0.002280285410557149, "train/adv_min": -0.36134020632339847, "train/adv_std": 0.050672842655330896, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.422290822483218e-06, "train/cont_loss_std": 6.0640245654515944e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010335222406057356, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 2.836160570199e-06, "train/cont_pred": 0.9946402832865715, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 4.782484508223003, "train/dyn_loss_std": 8.569214211569893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0443384100993474, "train/extr_critic_critic_opt_grad_steps": 163095.0, "train/extr_critic_critic_opt_loss": 16068.400594075521, "train/extr_critic_mag": 9.444230768415663, "train/extr_critic_max": 9.444230768415663, "train/extr_critic_mean": 2.5921308630042605, "train/extr_critic_min": -0.5584644575913748, "train/extr_critic_std": 2.3131896009047828, "train/extr_return_normed_mag": 1.449484748972787, "train/extr_return_normed_max": 1.449484748972787, "train/extr_return_normed_mean": 0.39440693540705574, "train/extr_return_normed_min": -0.09333604832904206, "train/extr_return_normed_std": 0.3307236666894621, "train/extr_return_rate": 0.7463478744029999, "train/extr_return_raw_mag": 10.080281178156534, "train/extr_return_raw_max": 10.080281178156534, "train/extr_return_raw_mean": 2.608290867673026, "train/extr_return_raw_min": -0.8457162326408757, "train/extr_return_raw_std": 2.3418593870268927, "train/extr_reward_mag": 1.0281980666849349, "train/extr_reward_max": 1.0281980666849349, "train/extr_reward_mean": 0.04380655681921376, "train/extr_reward_min": -0.6351917038361231, "train/extr_reward_std": 0.2031631442821688, "train/image_loss_mean": 2.8786718116866217, "train/image_loss_std": 7.56119837363561, "train/model_loss_mean": 5.795060555140178, "train/model_loss_std": 11.705172909630669, "train/model_opt_grad_norm": 33.32759277025858, "train/model_opt_grad_steps": 162963.0, "train/model_opt_loss": 7243.825690375434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4041369921631284, "train/policy_entropy_max": 2.4041369921631284, "train/policy_entropy_mean": 0.3533165028525723, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4469708266357581, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3538019967575868, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9662527350915803, "train/policy_randomness_mag": 0.8485548554195298, "train/policy_randomness_max": 0.8485548554195298, "train/policy_randomness_mean": 0.124705220055249, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15776108536455366, "train/post_ent_mag": 54.49295128716363, "train/post_ent_max": 54.49295128716363, "train/post_ent_mean": 40.63474231296115, "train/post_ent_min": 18.876417226261562, "train/post_ent_std": 5.5703478587998285, "train/prior_ent_mag": 76.18489593929715, "train/prior_ent_max": 76.18489593929715, "train/prior_ent_mean": 45.39591439565023, "train/prior_ent_min": 27.61485719680786, "train/prior_ent_std": 7.287706712881724, "train/rep_loss_mean": 4.782484508223003, "train/rep_loss_std": 8.569214211569893, "train/reward_avg": 0.02943793372509794, "train/reward_loss_mean": 0.04689471159751216, "train/reward_loss_std": 0.20011515894697773, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0179619325531855, "train/reward_neg_acc": 0.9953759734829267, "train/reward_neg_loss": 0.02199395751166675, "train/reward_pos_acc": 0.9860975013838874, "train/reward_pos_loss": 0.7423860761854384, "train/reward_pred": 0.02909224494619088, "train/reward_rate": 0.0345458984375, "stats/sum_log_reward": 7.877778026792738, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 5.222222222222222, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2824610273043315, "replay/size": 327944.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.842335173537611e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395018971832104e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.293555021286, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.52325439453125, "timer/env.step_frac": 0.07167404706040259, "timer/env.step_avg": 0.01503020558277322, "timer/env.step_min": 0.002939462661743164, "timer/env.step_max": 1.6735122203826904, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27942991256713867, "timer/replay.add_frac": 0.0009305225100396563, "timer/replay.add_avg": 0.0001951326205077784, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.00534510612487793, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029597043991088867, "timer/logger.write_frac": 9.856037033159406e-05, "timer/logger.write_avg": 0.029597043991088867, "timer/logger.write_min": 0.029597043991088867, "timer/logger.write_max": 0.029597043991088867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.831144332885742, "timer/agent.policy_frac": 0.03606852079165664, "timer/agent.policy_avg": 0.007563648277154848, "timer/agent.policy_min": 0.0057048797607421875, "timer/agent.policy_max": 0.02547430992126465, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0673067569732666, "timer/dataset_frac": 0.00022413653522632422, "timer/dataset_avg": 9.400385052132207e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.8708369731903, "timer/agent.train_frac": 0.8886998489004315, "timer/agent.train_avg": 0.37272463264412053, "timer/agent.train_min": 0.3654763698577881, "timer/agent.train_max": 0.3849642276763916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20184683799743652, "timer/agent.report_frac": 0.000672165068554764, "timer/agent.report_avg": 0.20184683799743652, "timer/agent.report_min": 0.20184683799743652, "timer/agent.report_max": 0.20184683799743652, "fps": 4.768584899190682}
+{"step": 328122, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
+{"step": 328407, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
+{"step": 328573, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04819277108433735}
+{"step": 328639, "episode/length": 65.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.5, "episode/reward_rate": 0.09090909090909091}
+{"step": 328822, "episode/length": 182.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04371584699453552}
+{"step": 329122, "episode/length": 299.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.02}
+{"step": 329359, "episode/length": 236.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0379746835443038}
+{"step": 329453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442139519585504, "train/action_min": 0.0, "train/action_std": 3.2929556137985654, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04409569388048516, "train/actor_opt_grad_steps": 163815.0, "train/actor_opt_loss": -12.844160853574673, "train/adv_mag": 0.44067293364140725, "train/adv_max": 0.3958438274761041, "train/adv_mean": 0.0022648949918928135, "train/adv_min": -0.3583532470381922, "train/adv_std": 0.049056201707571745, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 3.8067800358692556e-05, "train/cont_loss_std": 0.0010417297704524093, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005777413611175083, "train/cont_pos_acc": 0.9999863538477156, "train/cont_pos_loss": 3.448769292290087e-05, "train/cont_pred": 0.9946369727452596, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 4.762419597970115, "train/dyn_loss_std": 8.556576000319588, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.028362134264575, "train/extr_critic_critic_opt_grad_steps": 163815.0, "train/extr_critic_critic_opt_loss": 15929.916164822049, "train/extr_critic_mag": 9.502313084072536, "train/extr_critic_max": 9.502313084072536, "train/extr_critic_mean": 2.634854934281773, "train/extr_critic_min": -0.5645064363876978, "train/extr_critic_std": 2.386128548118803, "train/extr_return_normed_mag": 1.4373254477977753, "train/extr_return_normed_max": 1.4373254477977753, "train/extr_return_normed_mean": 0.39193805928031605, "train/extr_return_normed_min": -0.09263884312369758, "train/extr_return_normed_std": 0.335940664427148, "train/extr_return_rate": 0.7459662920898862, "train/extr_return_raw_mag": 10.182371894518534, "train/extr_return_raw_max": 10.182371894518534, "train/extr_return_raw_mean": 2.6511554386880665, "train/extr_return_raw_min": -0.8400085808502303, "train/extr_return_raw_std": 2.4199753171867795, "train/extr_reward_mag": 1.0365076031949785, "train/extr_reward_max": 1.0365076031949785, "train/extr_reward_mean": 0.044669374668349825, "train/extr_reward_min": -0.6555212173197005, "train/extr_reward_std": 0.2059272862970829, "train/image_loss_mean": 2.8280556036366358, "train/image_loss_std": 7.766964932282765, "train/model_loss_mean": 5.73118711842431, "train/model_loss_std": 11.863980253537497, "train/model_opt_grad_norm": 32.19887864589691, "train/model_opt_grad_steps": 163683.0, "train/model_opt_loss": 12683.012213812934, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.4321860803498163, "train/policy_entropy_max": 2.4321860803498163, "train/policy_entropy_mean": 0.35386387734777397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45439683232042527, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3539037872105837, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9669065723816553, "train/policy_randomness_mag": 0.8584549501538277, "train/policy_randomness_max": 0.8584549501538277, "train/policy_randomness_mean": 0.12489841878414154, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16038214249743354, "train/post_ent_mag": 54.5624418258667, "train/post_ent_max": 54.5624418258667, "train/post_ent_mean": 40.62103917863634, "train/post_ent_min": 18.7064833773507, "train/post_ent_std": 5.599168207910326, "train/prior_ent_mag": 76.02676465776231, "train/prior_ent_max": 76.02676465776231, "train/prior_ent_mean": 45.32180722554525, "train/prior_ent_min": 27.473976135253906, "train/prior_ent_std": 7.255989280011919, "train/rep_loss_mean": 4.762419597970115, "train/rep_loss_std": 8.556576000319588, "train/reward_avg": 0.03015001066442993, "train/reward_loss_mean": 0.04564174502674076, "train/reward_loss_std": 0.186844775142769, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0221402032507791, "train/reward_neg_acc": 0.9949527283509573, "train/reward_neg_loss": 0.021057330951508548, "train/reward_pos_acc": 0.9885433912277222, "train/reward_pos_loss": 0.725962364839183, "train/reward_pred": 0.029863271293126874, "train/reward_rate": 0.03493923611111111, "stats/sum_log_reward": 7.385714394705636, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 8.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 0.5714285714285714, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32899200703416553, "replay/size": 329390.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.815027028528322e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2211326411815765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1659073829651, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.659541368484497, "timer/env.step_frac": 0.06216409295502644, "timer/env.step_avg": 0.012904247142797025, "timer/env.step_min": 0.002953052520751953, "timer/env.step_max": 1.8391318321228027, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28158044815063477, "timer/replay.add_frac": 0.0009380827110101542, "timer/replay.add_avg": 0.0001947306003807986, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.004528522491455078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02715921401977539, "timer/logger.write_frac": 9.048067535905885e-05, "timer/logger.write_avg": 0.02715921401977539, "timer/logger.write_min": 0.02715921401977539, "timer/logger.write_max": 0.02715921401977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.828933238983154, "timer/agent.policy_frac": 0.0360764929415089, "timer/agent.policy_avg": 0.007488888823639802, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.02022409439086914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06734132766723633, "timer/dataset_frac": 0.00022434702279935893, "timer/dataset_avg": 9.314153204320377e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.6147246360779, "timer/agent.train_frac": 0.8982190115684635, "timer/agent.train_avg": 0.37291109908171216, "timer/agent.train_min": 0.36609482765197754, "timer/agent.train_max": 0.38980937004089355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20337510108947754, "timer/agent.report_frac": 0.0006775423060621021, "timer/agent.report_avg": 0.20337510108947754, "timer/agent.report_min": 0.20337510108947754, "timer/agent.report_max": 0.20337510108947754, "fps": 4.8172526613572515}
+{"step": 329509, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06}
+{"step": 329702, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04145077720207254}
+{"step": 329951, "episode/length": 248.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03614457831325301}
+{"step": 330062, "episode/length": 110.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.07207207207207207}
+{"step": 330309, "episode/length": 246.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03643724696356275}
+{"step": 330434, "episode/length": 124.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.088}
+{"step": 330618, "episode/length": 183.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05434782608695652}
+{"step": 330803, "episode/length": 184.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.02702702702702703}
+{"step": 330869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404809226452465, "train/action_min": 0.0, "train/action_std": 3.2755402578434474, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043352157612081985, "train/actor_opt_grad_steps": 164530.0, "train/actor_opt_loss": -13.803209810189799, "train/adv_mag": 0.4335376414614664, "train/adv_max": 0.40205736269413583, "train/adv_mean": 0.0015286992549436932, "train/adv_min": -0.35028287957251913, "train/adv_std": 0.04761902583946644, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 6.134247442486425e-05, "train/cont_loss_std": 0.0018338236322224602, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.002369017275066679, "train/cont_pos_acc": 0.9999723375683099, "train/cont_pos_loss": 4.321793172969489e-05, "train/cont_pred": 0.9946453101198438, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 4.80692848017518, "train/dyn_loss_std": 8.59178275793371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0553395051351735, "train/extr_critic_critic_opt_grad_steps": 164530.0, "train/extr_critic_critic_opt_loss": 15974.124917473591, "train/extr_critic_mag": 9.642631759106273, "train/extr_critic_max": 9.642631759106273, "train/extr_critic_mean": 2.542284500431007, "train/extr_critic_min": -0.5696948833868537, "train/extr_critic_std": 2.3862477893560703, "train/extr_return_normed_mag": 1.4203528400877832, "train/extr_return_normed_max": 1.4203528400877832, "train/extr_return_normed_mean": 0.37504498030937894, "train/extr_return_normed_min": -0.08913225433985952, "train/extr_return_normed_std": 0.32948011621622975, "train/extr_return_rate": 0.7256721686309492, "train/extr_return_raw_mag": 10.209916101375097, "train/extr_return_raw_max": 10.209916101375097, "train/extr_return_raw_mean": 2.5535002510312577, "train/extr_return_raw_min": -0.8467742943427932, "train/extr_return_raw_std": 2.413368673391745, "train/extr_reward_mag": 1.0346031222544925, "train/extr_reward_max": 1.0346031222544925, "train/extr_reward_mean": 0.044367407855223605, "train/extr_reward_min": -0.6296652857686432, "train/extr_reward_std": 0.20493231818709576, "train/image_loss_mean": 2.8818239880279757, "train/image_loss_std": 7.774015104266959, "train/model_loss_mean": 5.8136458934192925, "train/model_loss_std": 11.888357041587293, "train/model_opt_grad_norm": 33.466597839140555, "train/model_opt_grad_steps": 164397.5915492958, "train/model_opt_loss": 11555.036504181338, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1989.4366197183099, "train/policy_entropy_mag": 2.4014958764465764, "train/policy_entropy_max": 2.4014958764465764, "train/policy_entropy_mean": 0.34810466413766566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4434315654593454, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34683210455196006, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9575355926030119, "train/policy_randomness_mag": 0.8476226531283956, "train/policy_randomness_max": 0.8476226531283956, "train/policy_randomness_mean": 0.12286566942930222, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15651188161171659, "train/post_ent_mag": 54.74044869651257, "train/post_ent_max": 54.74044869651257, "train/post_ent_mean": 40.68966771515323, "train/post_ent_min": 18.839895651374064, "train/post_ent_std": 5.586792260828153, "train/prior_ent_mag": 76.11603825528857, "train/prior_ent_max": 76.11603825528857, "train/prior_ent_mean": 45.45809076873349, "train/prior_ent_min": 28.10851365747586, "train/prior_ent_std": 7.258145909913829, "train/rep_loss_mean": 4.80692848017518, "train/rep_loss_std": 8.59178275793371, "train/reward_avg": 0.03009325458707524, "train/reward_loss_mean": 0.04760341718792915, "train/reward_loss_std": 0.20017214119434357, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0188179016113281, "train/reward_neg_acc": 0.9952338405058417, "train/reward_neg_loss": 0.02233724234442056, "train/reward_pos_acc": 0.9847332675692061, "train/reward_pos_loss": 0.7435967376534368, "train/reward_pred": 0.029681212413059155, "train/reward_rate": 0.03497744278169014, "stats/sum_log_reward": 7.475000023841858, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 4.75, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34468158334493637, "replay/size": 330806.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.846688459148515e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2032266727275094e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9900996685028, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.29236364364624, "timer/env.step_frac": 0.06764344445389982, "timer/env.step_avg": 0.014330765285060904, "timer/env.step_min": 0.0030808448791503906, "timer/env.step_max": 2.1893253326416016, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.293093204498291, "timer/replay.add_frac": 0.0009770095907237172, "timer/replay.add_avg": 0.000206986726340601, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.00531315803527832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030879497528076172, "timer/logger.write_frac": 0.00010293505539749096, "timer/logger.write_avg": 0.030879497528076172, "timer/logger.write_min": 0.030879497528076172, "timer/logger.write_max": 0.030879497528076172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046181678771972656, "timer/checkpoint.save_frac": 1.5394400956233111e-06, "timer/checkpoint.save_avg": 0.00046181678771972656, "timer/checkpoint.save_min": 0.00046181678771972656, "timer/checkpoint.save_max": 0.00046181678771972656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.356532096862793, "timer/agent.save_frac": 0.004521922884661187, "timer/agent.save_avg": 1.356532096862793, "timer/agent.save_min": 1.356532096862793, "timer/agent.save_max": 1.356532096862793, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.5352678910884677e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.844614267349243, "timer/agent.policy_frac": 0.04948368057396876, "timer/agent.policy_avg": 0.010483484652082799, "timer/agent.policy_min": 0.005650997161865234, "timer/agent.policy_max": 2.9068799018859863, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06525278091430664, "timer/dataset_frac": 0.00021751644799749303, "timer/dataset_avg": 9.216494479421841e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00021409988403320312, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.7875702381134, "timer/agent.train_frac": 0.8793209193556915, "timer/agent.train_avg": 0.3725813138956404, "timer/agent.train_min": 0.3656806945800781, "timer/agent.train_max": 0.38462162017822266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014777660369873, "timer/agent.report_frac": 0.0006716147174844294, "timer/agent.report_avg": 0.2014777660369873, "timer/agent.report_min": 0.2014777660369873, "timer/agent.report_max": 0.2014777660369873, "fps": 4.7200762389735225}
+{"step": 331222, "episode/length": 418.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.028639618138424822}
+{"step": 331467, "episode/length": 244.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.04897959183673469}
+{"step": 331629, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 331678, "episode/length": 48.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.10204081632653061}
+{"step": 331875, "episode/length": 196.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04060913705583756}
+{"step": 332087, "episode/length": 211.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.04716981132075472}
+{"step": 332325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468735786333476, "train/action_min": 0.0, "train/action_std": 3.3134841886285233, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044253860944754454, "train/actor_opt_grad_steps": 165250.0, "train/actor_opt_loss": -13.62138633205466, "train/adv_mag": 0.42935750255845995, "train/adv_max": 0.39527227862240516, "train/adv_mean": 0.0012971106856365286, "train/adv_min": -0.3605777539619028, "train/adv_std": 0.04845422138906505, "train/cont_avg": 0.9944750642123288, "train/cont_loss_mean": 3.0853998986433545e-05, "train/cont_loss_std": 0.0008249489307504581, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021317879929471292, "train/cont_pos_acc": 0.9999865285337788, "train/cont_pos_loss": 2.965449581036609e-05, "train/cont_pred": 0.9944578049934074, "train/cont_rate": 0.9944750642123288, "train/dyn_loss_mean": 4.843832858621258, "train/dyn_loss_std": 8.687017120727122, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0501738353951338, "train/extr_critic_critic_opt_grad_steps": 165250.0, "train/extr_critic_critic_opt_loss": 15847.273183326199, "train/extr_critic_mag": 9.743588421442738, "train/extr_critic_max": 9.743588421442738, "train/extr_critic_mean": 2.467767452540463, "train/extr_critic_min": -0.5548593720344648, "train/extr_critic_std": 2.3686501244976097, "train/extr_return_normed_mag": 1.4731597786080348, "train/extr_return_normed_max": 1.4731597786080348, "train/extr_return_normed_mean": 0.3664890723685696, "train/extr_return_normed_min": -0.09147932666213546, "train/extr_return_normed_std": 0.3306370357128039, "train/extr_return_rate": 0.7185056719877948, "train/extr_return_raw_mag": 10.500337025890612, "train/extr_return_raw_max": 10.500337025890612, "train/extr_return_raw_mean": 2.4771931138757157, "train/extr_return_raw_min": -0.8416412840150806, "train/extr_return_raw_std": 2.396525077623864, "train/extr_reward_mag": 1.036921791834374, "train/extr_reward_max": 1.036921791834374, "train/extr_reward_mean": 0.04295217682135432, "train/extr_reward_min": -0.644177498882764, "train/extr_reward_std": 0.2027504707444204, "train/image_loss_mean": 2.9602034091949463, "train/image_loss_std": 7.794533109011716, "train/model_loss_mean": 5.9123394325987935, "train/model_loss_std": 11.983978023267772, "train/model_opt_grad_norm": 34.88609121923577, "train/model_opt_grad_steps": 165117.0, "train/model_opt_loss": 7565.452676851455, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.421697779877545, "train/policy_entropy_max": 2.421697779877545, "train/policy_entropy_mean": 0.3644154030982762, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46302650726004824, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36350776357193515, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 0.9730650260023874, "train/policy_randomness_mag": 0.8547530419205966, "train/policy_randomness_max": 0.8547530419205966, "train/policy_randomness_mean": 0.12862264630320955, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16342803621537064, "train/post_ent_mag": 55.03545405766735, "train/post_ent_max": 55.03545405766735, "train/post_ent_mean": 40.790003214796926, "train/post_ent_min": 18.79394795143441, "train/post_ent_std": 5.627177088227991, "train/prior_ent_mag": 76.0296442737318, "train/prior_ent_max": 76.0296442737318, "train/prior_ent_mean": 45.6028938293457, "train/prior_ent_min": 27.62094103146906, "train/prior_ent_std": 7.279144143405026, "train/rep_loss_mean": 4.843832858621258, "train/rep_loss_std": 8.687017120727122, "train/reward_avg": 0.0284045908268388, "train/reward_loss_mean": 0.045805475330107835, "train/reward_loss_std": 0.18630863481188473, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.019171309797731, "train/reward_neg_acc": 0.995199154501092, "train/reward_neg_loss": 0.02237856172484486, "train/reward_pos_acc": 0.9903384055176826, "train/reward_pos_loss": 0.7230809306445187, "train/reward_pred": 0.028198573814883623, "train/reward_rate": 0.03345729880136986, "stats/sum_log_reward": 8.600000301996866, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 6.833333333333333, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37612706422805786, "replay/size": 332262.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.967147607069749e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2140147961102998e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.288804769516, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.877313375473022, "timer/env.step_frac": 0.05620360502092995, "timer/env.step_avg": 0.011591561384253449, "timer/env.step_min": 0.0028123855590820312, "timer/env.step_max": 1.6541833877563477, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.28667712211608887, "timer/replay.add_frac": 0.0009546713615784823, "timer/replay.add_avg": 0.0001968936278269841, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.006843090057373047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030306577682495117, "timer/logger.write_frac": 0.00010092476709465297, "timer/logger.write_avg": 0.030306577682495117, "timer/logger.write_min": 0.030306577682495117, "timer/logger.write_max": 0.030306577682495117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.006680488586426, "timer/agent.policy_frac": 0.036653649132988846, "timer/agent.policy_avg": 0.007559533302600567, "timer/agent.policy_min": 0.005733013153076172, "timer/agent.policy_max": 0.017309188842773438, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06820988655090332, "timer/dataset_frac": 0.00022714761745199662, "timer/dataset_avg": 9.369489910838368e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00020647048950195312, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.33359384536743, "timer/agent.train_frac": 0.9035754564797284, "timer/agent.train_avg": 0.3727109805568234, "timer/agent.train_min": 0.36599278450012207, "timer/agent.train_max": 0.3887593746185303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20067214965820312, "timer/agent.report_frac": 0.0006682638395801244, "timer/agent.report_avg": 0.20067214965820312, "timer/agent.report_min": 0.20067214965820312, "timer/agent.report_max": 0.20067214965820312, "fps": 4.8485634625714225}
+{"step": 332325, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05042016806722689}
+{"step": 332448, "episode/length": 122.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.056910569105691054}
+{"step": 332603, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04516129032258064}
+{"step": 332778, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
+{"step": 332977, "episode/length": 198.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06030150753768844}
+{"step": 333131, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06493506493506493}
+{"step": 333303, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
+{"step": 333499, "episode/length": 195.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05102040816326531}
+{"step": 333763, "stats/sum_log_reward": 8.850000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 6.875, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2928117383271456, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3563791910807295, "train/action_min": 0.0, "train/action_std": 3.241534130440818, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043986045082824096, "train/actor_opt_grad_steps": 165975.0, "train/actor_opt_loss": -14.583865287817186, "train/adv_mag": 0.42599355967508423, "train/adv_max": 0.3926847324603134, "train/adv_mean": 0.0015296064822097025, "train/adv_min": -0.3574953021274673, "train/adv_std": 0.048570103529426784, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 6.294062045755468e-05, "train/cont_loss_std": 0.0019125900843022237, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.002387451173586336, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 4.5117180953605875e-05, "train/cont_pred": 0.9943940134512054, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.786817298995124, "train/dyn_loss_std": 8.628693872027927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0190732379754384, "train/extr_critic_critic_opt_grad_steps": 165975.0, "train/extr_critic_critic_opt_loss": 15836.648844401041, "train/extr_critic_mag": 9.341225193606483, "train/extr_critic_max": 9.341225193606483, "train/extr_critic_mean": 2.4335619625118046, "train/extr_critic_min": -0.5791696988874011, "train/extr_critic_std": 2.26472640534242, "train/extr_return_normed_mag": 1.437349842654334, "train/extr_return_normed_max": 1.437349842654334, "train/extr_return_normed_mean": 0.37686435216002995, "train/extr_return_normed_min": -0.09779725244475736, "train/extr_return_normed_std": 0.32819216408663326, "train/extr_return_rate": 0.7292779270145628, "train/extr_return_raw_mag": 9.842643148369259, "train/extr_return_raw_max": 9.842643148369259, "train/extr_return_raw_mean": 2.4442466613319187, "train/extr_return_raw_min": -0.8692331661780676, "train/extr_return_raw_std": 2.290238357252545, "train/extr_reward_mag": 1.0345014896657732, "train/extr_reward_max": 1.0345014896657732, "train/extr_reward_mean": 0.04213969952737292, "train/extr_reward_min": -0.6490551994906532, "train/extr_reward_std": 0.20124306405584017, "train/image_loss_mean": 2.9294215655989118, "train/image_loss_std": 7.3530395395225945, "train/model_loss_mean": 5.849151531855266, "train/model_loss_std": 11.508705291483137, "train/model_opt_grad_norm": 33.06476782427894, "train/model_opt_grad_steps": 165841.86111111112, "train/model_opt_loss": 13568.65872531467, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2326.3888888888887, "train/policy_entropy_mag": 2.452557020717197, "train/policy_entropy_max": 2.452557020717197, "train/policy_entropy_mean": 0.34830430812305874, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4558006872733434, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34838552876479095, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9633044575651487, "train/policy_randomness_mag": 0.8656449996762805, "train/policy_randomness_max": 0.8656449996762805, "train/policy_randomness_mean": 0.12293613433010048, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16087763911734024, "train/post_ent_mag": 55.05272187127007, "train/post_ent_max": 55.05272187127007, "train/post_ent_mean": 40.82087988323636, "train/post_ent_min": 19.140124771330093, "train/post_ent_std": 5.616715715991126, "train/prior_ent_mag": 76.0738951365153, "train/prior_ent_max": 76.0738951365153, "train/prior_ent_mean": 45.55968613094754, "train/prior_ent_min": 27.75360992219713, "train/prior_ent_std": 7.285024497244093, "train/rep_loss_mean": 4.786817298995124, "train/rep_loss_std": 8.628693872027927, "train/reward_avg": 0.02930908189672563, "train/reward_loss_mean": 0.04757665312435064, "train/reward_loss_std": 0.20109746046364307, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.012611107693778, "train/reward_neg_acc": 0.995079807109303, "train/reward_neg_loss": 0.02297308011394408, "train/reward_pos_acc": 0.9861962969104449, "train/reward_pos_loss": 0.7388665667838521, "train/reward_pred": 0.028968003927730024, "train/reward_rate": 0.03431532118055555, "replay/size": 333700.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.791817040370469e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259510805610158e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0166988372803, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.267175674438477, "timer/env.step_frac": 0.06755349203222438, "timer/env.step_avg": 0.014094002555242334, "timer/env.step_min": 0.002856731414794922, "timer/env.step_max": 1.7119643688201904, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.25700855255126953, "timer/replay.add_frac": 0.0008566474917806591, "timer/replay.add_avg": 0.00017872639259476324, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002421855926513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028756380081176758, "timer/logger.write_frac": 9.584926503298846e-05, "timer/logger.write_avg": 0.028756380081176758, "timer/logger.write_min": 0.028756380081176758, "timer/logger.write_max": 0.028756380081176758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.709948539733887, "timer/agent.policy_frac": 0.03569784142429562, "timer/agent.policy_avg": 0.007447808442095888, "timer/agent.policy_min": 0.00555419921875, "timer/agent.policy_max": 0.01860332489013672, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06626701354980469, "timer/dataset_frac": 0.00022087775049396785, "timer/dataset_avg": 9.216552649486048e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.98620343208313, "timer/agent.train_frac": 0.8932376246744536, "timer/agent.train_avg": 0.37272072800011563, "timer/agent.train_min": 0.36649060249328613, "timer/agent.train_max": 0.38689374923706055, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20287489891052246, "timer/agent.report_frac": 0.000676212023186601, "timer/agent.report_avg": 0.20287489891052246, "timer/agent.report_min": 0.20287489891052246, "timer/agent.report_max": 0.20287489891052246, "fps": 4.792988074271638}
+{"step": 333823, "episode/length": 323.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.030864197530864196}
+{"step": 334080, "episode/length": 256.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.023346303501945526}
+{"step": 334248, "episode/length": 167.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047619047619047616}
+{"step": 334457, "episode/length": 208.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04784688995215311}
+{"step": 334615, "episode/length": 157.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.056962025316455694}
+{"step": 334787, "episode/length": 171.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05232558139534884}
+{"step": 334956, "episode/length": 168.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.07100591715976332}
+{"step": 335185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359929474306778, "train/action_min": 0.0, "train/action_std": 3.3052185958539937, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04524494681349942, "train/actor_opt_grad_steps": 166690.0, "train/actor_opt_loss": -13.695142083604571, "train/adv_mag": 0.4430611330858419, "train/adv_max": 0.3857211327888596, "train/adv_mean": 0.00245830796351148, "train/adv_min": -0.3902704633877311, "train/adv_std": 0.04961074589633606, "train/cont_avg": 0.9944707306338029, "train/cont_loss_mean": 6.748871418973838e-05, "train/cont_loss_std": 0.002137808524244353, "train/cont_neg_acc": 0.9966465469817041, "train/cont_neg_loss": 0.007147574277701417, "train/cont_pos_acc": 0.9999861347843224, "train/cont_pos_loss": 1.880254881619992e-05, "train/cont_pred": 0.9944813385815687, "train/cont_rate": 0.9944707306338029, "train/dyn_loss_mean": 4.767782392636152, "train/dyn_loss_std": 8.573071191008662, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0118214832225316, "train/extr_critic_critic_opt_grad_steps": 166690.0, "train/extr_critic_critic_opt_loss": 15918.590751540492, "train/extr_critic_mag": 9.40669356601339, "train/extr_critic_max": 9.40669356601339, "train/extr_critic_mean": 2.492123477895495, "train/extr_critic_min": -0.5799097595080523, "train/extr_critic_std": 2.3318972470055166, "train/extr_return_normed_mag": 1.4388353102643725, "train/extr_return_normed_max": 1.4388353102643725, "train/extr_return_normed_mean": 0.3794057155159158, "train/extr_return_normed_min": -0.09274773966048805, "train/extr_return_normed_std": 0.3325598336441416, "train/extr_return_rate": 0.7241041668703858, "train/extr_return_raw_mag": 10.06164228412467, "train/extr_return_raw_max": 10.06164228412467, "train/extr_return_raw_mean": 2.509593574094101, "train/extr_return_raw_min": -0.8558080800822083, "train/extr_return_raw_std": 2.3712077124018065, "train/extr_reward_mag": 1.0345034129183057, "train/extr_reward_max": 1.0345034129183057, "train/extr_reward_mean": 0.04238251580948561, "train/extr_reward_min": -0.6589424929148714, "train/extr_reward_std": 0.20031074298099733, "train/image_loss_mean": 2.8862240314483643, "train/image_loss_std": 8.001269897944491, "train/model_loss_mean": 5.793551337551063, "train/model_loss_std": 12.109358250255315, "train/model_opt_grad_norm": 30.394641124026876, "train/model_opt_grad_steps": 166556.0, "train/model_opt_loss": 7241.93916428257, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4319225499327755, "train/policy_entropy_max": 2.4319225499327755, "train/policy_entropy_mean": 0.3546364359872442, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4645482969116157, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35417835141571474, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 0.9660604226757104, "train/policy_randomness_mag": 0.8583619359513404, "train/policy_randomness_max": 0.8583619359513404, "train/policy_randomness_mean": 0.12517110069452878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16396516194226038, "train/post_ent_mag": 54.52694240086515, "train/post_ent_max": 54.52694240086515, "train/post_ent_mean": 40.718850901429086, "train/post_ent_min": 19.018275690750336, "train/post_ent_std": 5.565419385130976, "train/prior_ent_mag": 76.21760935178945, "train/prior_ent_max": 76.21760935178945, "train/prior_ent_mean": 45.46041853998749, "train/prior_ent_min": 28.147297818895797, "train/prior_ent_std": 7.248652149254168, "train/rep_loss_mean": 4.767782392636152, "train/rep_loss_std": 8.573071191008662, "train/reward_avg": 0.029504566414045617, "train/reward_loss_mean": 0.04659044884250198, "train/reward_loss_std": 0.20068803450591127, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.014502528687598, "train/reward_neg_acc": 0.9955118029889926, "train/reward_neg_loss": 0.02169366524567906, "train/reward_pos_acc": 0.9860469715695985, "train/reward_pos_loss": 0.7460111900114678, "train/reward_pred": 0.029095082635610874, "train/reward_rate": 0.03439975792253521, "stats/sum_log_reward": 7.95714317049299, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 7.428571428571429, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36034759879112244, "replay/size": 335122.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.810505659100711e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2077066298107894e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0282566547394, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.388723134994507, "timer/env.step_frac": 0.07128902915170354, "timer/env.step_avg": 0.015041296156817515, "timer/env.step_min": 0.003021717071533203, "timer/env.step_max": 2.8334720134735107, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2904324531555176, "timer/replay.add_frac": 0.0009680170007778158, "timer/replay.add_avg": 0.00020424223147364105, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.008502483367919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02903580665588379, "timer/logger.write_frac": 9.677690688079771e-05, "timer/logger.write_avg": 0.02903580665588379, "timer/logger.write_min": 0.02903580665588379, "timer/logger.write_max": 0.02903580665588379, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019860267639160156, "timer/checkpoint.save_frac": 6.619465733194112e-07, "timer/checkpoint.save_avg": 0.00019860267639160156, "timer/checkpoint.save_min": 0.00019860267639160156, "timer/checkpoint.save_max": 0.00019860267639160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.375366449356079, "timer/agent.save_frac": 0.00458412305791183, "timer/agent.save_avg": 1.375366449356079, "timer/agent.save_min": 1.375366449356079, "timer/agent.save_max": 1.375366449356079, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.341934204101562e-05, "timer/replay.save_frac": 2.1137789736250106e-07, "timer/replay.save_avg": 6.341934204101562e-05, "timer/replay.save_min": 6.341934204101562e-05, "timer/replay.save_max": 6.341934204101562e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.033329963684082, "timer/agent.policy_frac": 0.040107322216425635, "timer/agent.policy_avg": 0.008462257358427625, "timer/agent.policy_min": 0.005645751953125, "timer/agent.policy_max": 1.3659508228302002, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06714200973510742, "timer/dataset_frac": 0.00022378562100692996, "timer/dataset_avg": 9.443320637849145e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0011324882507324219, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.55070519447327, "timer/agent.train_frac": 0.8850856521159555, "timer/agent.train_avg": 0.37348903684173457, "timer/agent.train_min": 0.36603522300720215, "timer/agent.train_max": 0.938164234161377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20105814933776855, "timer/agent.report_frac": 0.0006701307122853375, "timer/agent.report_avg": 0.20105814933776855, "timer/agent.report_min": 0.20105814933776855, "timer/agent.report_max": 0.20105814933776855, "fps": 4.739449575166529}
+{"step": 335186, "episode/length": 229.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.034782608695652174}
+{"step": 335419, "episode/length": 232.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04291845493562232}
+{"step": 335659, "episode/length": 239.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0375}
+{"step": 335822, "episode/length": 162.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06748466257668712}
+{"step": 335932, "episode/length": 109.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.05454545454545454}
+{"step": 336128, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
+{"step": 336548, "episode/length": 419.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02857142857142857}
+{"step": 336633, "stats/sum_log_reward": 7.957143102373395, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 6.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3964629130704062, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.439606560601129, "train/action_min": 0.0, "train/action_std": 3.375918404923545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0433543402598136, "train/actor_opt_grad_steps": 167405.0, "train/actor_opt_loss": -15.386053777403301, "train/adv_mag": 0.46674873265955186, "train/adv_max": 0.42912942295273143, "train/adv_mean": 0.0010160930230287907, "train/adv_min": -0.351972668328219, "train/adv_std": 0.04837593244802621, "train/cont_avg": 0.9945068359375, "train/cont_loss_mean": 8.983004532719323e-06, "train/cont_loss_std": 0.00023529779489292777, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003882095428669648, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.7532689107036644e-06, "train/cont_pred": 0.994502472380797, "train/cont_rate": 0.9945068359375, "train/dyn_loss_mean": 4.768180297480689, "train/dyn_loss_std": 8.66024030579461, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0036566994256444, "train/extr_critic_critic_opt_grad_steps": 167405.0, "train/extr_critic_critic_opt_loss": 16010.083984375, "train/extr_critic_mag": 9.769385245111254, "train/extr_critic_max": 9.769385245111254, "train/extr_critic_mean": 2.4086153689357968, "train/extr_critic_min": -0.5634588781330321, "train/extr_critic_std": 2.379494610759947, "train/extr_return_normed_mag": 1.459292588962449, "train/extr_return_normed_max": 1.459292588962449, "train/extr_return_normed_mean": 0.361474610451195, "train/extr_return_normed_min": -0.09676550551214153, "train/extr_return_normed_std": 0.33388128048843807, "train/extr_return_rate": 0.6966878618631098, "train/extr_return_raw_mag": 10.319943851894802, "train/extr_return_raw_max": 10.319943851894802, "train/extr_return_raw_mean": 2.4159319400787354, "train/extr_return_raw_min": -0.8836796830097834, "train/extr_return_raw_std": 2.403791591525078, "train/extr_reward_mag": 1.0368125471803877, "train/extr_reward_max": 1.0368125471803877, "train/extr_reward_mean": 0.04238378225515286, "train/extr_reward_min": -0.6606407513221105, "train/extr_reward_std": 0.20112104465564093, "train/image_loss_mean": 2.9223244703478284, "train/image_loss_std": 7.996538996696472, "train/model_loss_mean": 5.830644885698955, "train/model_loss_std": 12.133957438998753, "train/model_opt_grad_norm": 33.58537071281009, "train/model_opt_grad_steps": 167271.0, "train/model_opt_loss": 12619.079481336805, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2170.1388888888887, "train/policy_entropy_mag": 2.4143914911482067, "train/policy_entropy_max": 2.4143914911482067, "train/policy_entropy_mean": 0.3623717572126124, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4721814700298839, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3628936799036132, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9755266764097743, "train/policy_randomness_mag": 0.8521742439932294, "train/policy_randomness_max": 0.8521742439932294, "train/policy_randomness_mean": 0.12790132862412268, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.166659338089327, "train/post_ent_mag": 54.6883438428243, "train/post_ent_max": 54.6883438428243, "train/post_ent_mean": 40.78487459818522, "train/post_ent_min": 18.88863678773244, "train/post_ent_std": 5.647618412971497, "train/prior_ent_mag": 76.0475336710612, "train/prior_ent_max": 76.0475336710612, "train/prior_ent_mean": 45.481172773573135, "train/prior_ent_min": 27.309532907274033, "train/prior_ent_std": 7.287552376588185, "train/rep_loss_mean": 4.768180297480689, "train/rep_loss_std": 8.66024030579461, "train/reward_avg": 0.0305541992549681, "train/reward_loss_mean": 0.047403269809567265, "train/reward_loss_std": 0.19445923467477164, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0220868471595976, "train/reward_neg_acc": 0.9952062732643552, "train/reward_neg_loss": 0.022106159284400444, "train/reward_pos_acc": 0.9892807395921813, "train/reward_pos_loss": 0.732769096063243, "train/reward_pred": 0.030259400062883895, "train/reward_rate": 0.03561740451388889, "replay/size": 336570.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7839070209482097e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.201663392683419e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1840445995331, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.592925786972046, "timer/env.step_frac": 0.061938421183498724, "timer/env.step_avg": 0.01284041836116854, "timer/env.step_min": 0.0030481815338134766, "timer/env.step_max": 1.6957345008850098, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2838890552520752, "timer/replay.add_frac": 0.0009457166706871561, "timer/replay.add_avg": 0.00019605597738402982, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.005155086517333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030636072158813477, "timer/logger.write_frac": 0.00010205763001056295, "timer/logger.write_avg": 0.030636072158813477, "timer/logger.write_min": 0.030636072158813477, "timer/logger.write_max": 0.030636072158813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.710683345794678, "timer/agent.policy_frac": 0.03568038854324684, "timer/agent.policy_avg": 0.007396880763670358, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.01879405975341797, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06605672836303711, "timer/dataset_frac": 0.00022005409531729607, "timer/dataset_avg": 9.123857508706783e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.7995684146881, "timer/agent.train_frac": 0.8987805090527712, "timer/agent.train_avg": 0.3726513375893482, "timer/agent.train_min": 0.36636781692504883, "timer/agent.train_max": 0.38840556144714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2053236961364746, "timer/agent.report_frac": 0.0006839927032444081, "timer/agent.report_avg": 0.2053236961364746, "timer/agent.report_min": 0.2053236961364746, "timer/agent.report_max": 0.2053236961364746, "fps": 4.823628162186603}
+{"step": 336717, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
+{"step": 336840, "episode/length": 122.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0975609756097561}
+{"step": 337105, "episode/length": 264.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.045283018867924525}
+{"step": 337152, "episode/length": 46.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.1276595744680851}
+{"step": 337302, "episode/length": 149.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 337463, "episode/length": 160.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.055900621118012424}
+{"step": 337627, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
+{"step": 337772, "episode/length": 144.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06896551724137931}
+{"step": 337927, "episode/length": 154.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03870967741935484}
+{"step": 338065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.560730828179254, "train/action_min": 0.0, "train/action_std": 3.424637347459793, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04531084875472718, "train/actor_opt_grad_steps": 168125.0, "train/actor_opt_loss": -14.634907672388685, "train/adv_mag": 0.43840452863110435, "train/adv_max": 0.39986416200796765, "train/adv_mean": 0.0016054748155309223, "train/adv_min": -0.37352099021275836, "train/adv_std": 0.05036147037107083, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 7.465398936466903e-06, "train/cont_loss_std": 0.00019273438249298478, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.41845050685212e-05, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.988044398939211e-06, "train/cont_pred": 0.9945956452025307, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.83254587981436, "train/dyn_loss_std": 8.537234597735935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.030558538933595, "train/extr_critic_critic_opt_grad_steps": 168125.0, "train/extr_critic_critic_opt_loss": 16195.430894639758, "train/extr_critic_mag": 9.319881796836853, "train/extr_critic_max": 9.319881796836853, "train/extr_critic_mean": 2.281944680545065, "train/extr_critic_min": -0.5843716892931197, "train/extr_critic_std": 2.281953642765681, "train/extr_return_normed_mag": 1.4521990517775218, "train/extr_return_normed_max": 1.4521990517775218, "train/extr_return_normed_mean": 0.35819970774981713, "train/extr_return_normed_min": -0.09929377109640175, "train/extr_return_normed_std": 0.3310248661372397, "train/extr_return_rate": 0.672704204916954, "train/extr_return_raw_mag": 9.922907167010838, "train/extr_return_raw_max": 9.922907167010838, "train/extr_return_raw_mean": 2.293180829948849, "train/extr_return_raw_min": -0.8971373736858368, "train/extr_return_raw_std": 2.308831754657957, "train/extr_reward_mag": 1.0341325137350295, "train/extr_reward_max": 1.0341325137350295, "train/extr_reward_mean": 0.04331878151020242, "train/extr_reward_min": -0.6417471236652799, "train/extr_reward_std": 0.2038524562699927, "train/image_loss_mean": 3.058119078477224, "train/image_loss_std": 7.65447876850764, "train/model_loss_mean": 6.004717396365272, "train/model_loss_std": 11.694341739018759, "train/model_opt_grad_norm": 32.41167510880364, "train/model_opt_grad_steps": 167990.27777777778, "train/model_opt_loss": 9703.631727430555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.4702806141641407, "train/policy_entropy_max": 2.4702806141641407, "train/policy_entropy_mean": 0.3855068799522188, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5026213572257094, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38584678599403965, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9963405364089541, "train/policy_randomness_mag": 0.8719006478786469, "train/policy_randomness_max": 0.8719006478786469, "train/policy_randomness_mean": 0.1360670095309615, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17740328434026903, "train/post_ent_mag": 54.651823944515655, "train/post_ent_max": 54.651823944515655, "train/post_ent_mean": 40.82981559965346, "train/post_ent_min": 19.349956393241882, "train/post_ent_std": 5.580246349175771, "train/prior_ent_mag": 76.07096004486084, "train/prior_ent_max": 76.07096004486084, "train/prior_ent_mean": 45.64468166563246, "train/prior_ent_min": 27.939944240781998, "train/prior_ent_std": 7.233818418449825, "train/rep_loss_mean": 4.83254587981436, "train/rep_loss_std": 8.537234597735935, "train/reward_avg": 0.02951388882421371, "train/reward_loss_mean": 0.04706337939326962, "train/reward_loss_std": 0.19880647584795952, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.011425322956509, "train/reward_neg_acc": 0.9950717190901438, "train/reward_neg_loss": 0.022682137037109997, "train/reward_pos_acc": 0.9908040314912796, "train/reward_pos_loss": 0.7293927330109808, "train/reward_pred": 0.029281282991481323, "train/reward_rate": 0.034383138020833336, "stats/sum_log_reward": 8.100000275505913, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 0.7777777777777778, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_stone": 10.222222222222221, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_stone": 5.444444444444445, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.28958211839199066, "replay/size": 338002.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.8018772721956563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2181074925641107e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1625757217407, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.644567728042603, "timer/env.step_frac": 0.07210948159009581, "timer/env.step_avg": 0.015114921597795114, "timer/env.step_min": 0.00310516357421875, "timer/env.step_max": 1.7056145668029785, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2793142795562744, "timer/replay.add_frac": 0.0009305433193484012, "timer/replay.add_avg": 0.00019505187119851566, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.005303621292114258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026531696319580078, "timer/logger.write_frac": 8.839108691609749e-05, "timer/logger.write_avg": 0.026531696319580078, "timer/logger.write_min": 0.026531696319580078, "timer/logger.write_max": 0.026531696319580078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.66642165184021, "timer/agent.policy_frac": 0.035535481484301655, "timer/agent.policy_avg": 0.007448618471955454, "timer/agent.policy_min": 0.005699872970581055, "timer/agent.policy_max": 0.014502525329589844, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06653952598571777, "timer/dataset_frac": 0.00022167828826003216, "timer/dataset_avg": 9.293229886273432e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0003464221954345703, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.79089069366455, "timer/agent.train_frac": 0.8888212997645227, "timer/agent.train_avg": 0.37261297582914044, "timer/agent.train_min": 0.3654787540435791, "timer/agent.train_max": 0.38671278953552246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2120361328125, "timer/agent.report_frac": 0.0007064042954144408, "timer/agent.report_avg": 0.2120361328125, "timer/agent.report_min": 0.2120361328125, "timer/agent.report_max": 0.2120361328125, "fps": 4.770667291554813}
+{"step": 338225, "episode/length": 297.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03691275167785235}
+{"step": 338524, "episode/length": 298.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.033444816053511704}
+{"step": 338691, "episode/length": 166.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000056624413, "episode/reward_rate": 0.05389221556886228}
+{"step": 338884, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.046632124352331605}
+{"step": 339081, "episode/length": 196.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.04568527918781726}
+{"step": 339297, "episode/length": 215.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05092592592592592}
+{"step": 339491, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469241719850352, "train/action_min": 0.0, "train/action_std": 3.3595512014039803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046621716830512167, "train/actor_opt_grad_steps": 168840.0, "train/actor_opt_loss": -13.463344373333623, "train/adv_mag": 0.42376707179445616, "train/adv_max": 0.3834989666938782, "train/adv_mean": 0.002092626908333713, "train/adv_min": -0.37907795062367344, "train/adv_std": 0.050513091798819285, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 3.197904148527106e-05, "train/cont_loss_std": 0.0008735172407981941, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008660844945629385, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 2.609293716865279e-05, "train/cont_pred": 0.994550559722202, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 4.857302850400898, "train/dyn_loss_std": 8.646739019474513, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0613827310817343, "train/extr_critic_critic_opt_grad_steps": 168840.0, "train/extr_critic_critic_opt_loss": 16179.038746148768, "train/extr_critic_mag": 9.102962614784778, "train/extr_critic_max": 9.102962614784778, "train/extr_critic_mean": 2.244288506642194, "train/extr_critic_min": -0.5709658928320441, "train/extr_critic_std": 2.2057876217533163, "train/extr_return_normed_mag": 1.4590276378980824, "train/extr_return_normed_max": 1.4590276378980824, "train/extr_return_normed_mean": 0.3625054338448484, "train/extr_return_normed_min": -0.09712259314009841, "train/extr_return_normed_std": 0.3296025768971779, "train/extr_return_rate": 0.6796719457062197, "train/extr_return_raw_mag": 9.678996045824508, "train/extr_return_raw_max": 9.678996045824508, "train/extr_return_raw_mean": 2.2584199804655265, "train/extr_return_raw_min": -0.8516789414513279, "train/extr_return_raw_std": 2.230680119823402, "train/extr_reward_mag": 1.0433751529371236, "train/extr_reward_max": 1.0433751529371236, "train/extr_reward_mean": 0.043623129535518904, "train/extr_reward_min": -0.6622101605778009, "train/extr_reward_std": 0.20369661651866536, "train/image_loss_mean": 3.010665216916044, "train/image_loss_std": 8.033664488456619, "train/model_loss_mean": 5.972646585652526, "train/model_loss_std": 12.154933445890185, "train/model_opt_grad_norm": 35.87408534573837, "train/model_opt_grad_steps": 168705.0, "train/model_opt_loss": 9888.361149317781, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.453180494442792, "train/policy_entropy_max": 2.453180494442792, "train/policy_entropy_mean": 0.367669713958888, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4808654558490699, "train/policy_logprob_mag": 7.438384210559684, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3673761306514203, "train/policy_logprob_min": -7.438384210559684, "train/policy_logprob_std": 0.977127278354806, "train/policy_randomness_mag": 0.8658650593018867, "train/policy_randomness_max": 0.8658650593018867, "train/policy_randomness_mean": 0.1297712732158916, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16972440113903772, "train/post_ent_mag": 55.027938305492135, "train/post_ent_max": 55.027938305492135, "train/post_ent_mean": 40.83907516909317, "train/post_ent_min": 18.84511759583379, "train/post_ent_std": 5.594362816340487, "train/prior_ent_mag": 76.03564109264964, "train/prior_ent_max": 76.03564109264964, "train/prior_ent_mean": 45.643150222133585, "train/prior_ent_min": 28.18474476773974, "train/prior_ent_std": 7.261317474741332, "train/rep_loss_mean": 4.857302850400898, "train/rep_loss_std": 8.646739019474513, "train/reward_avg": 0.029764524477363472, "train/reward_loss_mean": 0.04756764222828435, "train/reward_loss_std": 0.20409512121072956, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.018487937013868, "train/reward_neg_acc": 0.9953694385541997, "train/reward_neg_loss": 0.022731871068687508, "train/reward_pos_acc": 0.987489038789776, "train/reward_pos_loss": 0.7398616092305788, "train/reward_pred": 0.02959866341675671, "train/reward_rate": 0.03479863556338028, "stats/sum_log_reward": 8.93333355585734, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.373592014114062, "replay/size": 339428.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.823725739167415e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2047578375603675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01904797554016, "timer/env.step_count": 1426.0, "timer/env.step_total": 20.042399406433105, "timer/env.step_frac": 0.06680375643371522, "timer/env.step_avg": 0.014054978545885768, "timer/env.step_min": 0.003194093704223633, "timer/env.step_max": 2.8297102451324463, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2783808708190918, "timer/replay.add_frac": 0.0009278773221151862, "timer/replay.add_avg": 0.0001952180019769227, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004778861999511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02791881561279297, "timer/logger.write_frac": 9.305681022982622e-05, "timer/logger.write_avg": 0.02791881561279297, "timer/logger.write_min": 0.02791881561279297, "timer/logger.write_max": 0.02791881561279297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043582916259765625, "timer/checkpoint.save_frac": 1.4526716404792683e-06, "timer/checkpoint.save_avg": 0.00043582916259765625, "timer/checkpoint.save_min": 0.00043582916259765625, "timer/checkpoint.save_max": 0.00043582916259765625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5344209671020508, "timer/agent.save_frac": 0.005114411826368933, "timer/agent.save_avg": 1.5344209671020508, "timer/agent.save_min": 1.5344209671020508, "timer/agent.save_max": 1.5344209671020508, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.298324584960938e-05, "timer/replay.save_frac": 3.0992447471931874e-07, "timer/replay.save_avg": 9.298324584960938e-05, "timer/replay.save_min": 9.298324584960938e-05, "timer/replay.save_max": 9.298324584960938e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.319522142410278, "timer/agent.policy_frac": 0.0410624666185017, "timer/agent.policy_avg": 0.008639216088646758, "timer/agent.policy_min": 0.005652189254760742, "timer/agent.policy_max": 1.5300350189208984, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06735491752624512, "timer/dataset_frac": 0.00022450213738341173, "timer/dataset_avg": 9.44669250017463e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00022530555725097656, "timer/agent.train_count": 713.0, "timer/agent.train_total": 266.6134490966797, "timer/agent.train_frac": 0.8886550733885938, "timer/agent.train_avg": 0.37393190616645117, "timer/agent.train_min": 0.3662991523742676, "timer/agent.train_max": 1.051576852798462, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20018243789672852, "timer/agent.report_frac": 0.0006672324282325198, "timer/agent.report_avg": 0.20018243789672852, "timer/agent.report_min": 0.20018243789672852, "timer/agent.report_max": 0.20018243789672852, "fps": 4.752964229065094}
+{"step": 339521, "episode/length": 223.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.049107142857142856}
+{"step": 339615, "episode/length": 93.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.11702127659574468}
+{"step": 339776, "episode/length": 160.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.062111801242236024}
+{"step": 339974, "episode/length": 197.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05555555555555555}
+{"step": 340259, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
+{"step": 340400, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04964539007092199}
+{"step": 340714, "episode/length": 313.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.028662420382165606}
+{"step": 340862, "episode/length": 147.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.060810810810810814}
+{"step": 340930, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495548672146267, "train/action_min": 0.0, "train/action_std": 3.44534660047955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04602946651478609, "train/actor_opt_grad_steps": 169555.0, "train/actor_opt_loss": -12.192467658056152, "train/adv_mag": 0.48479485346211326, "train/adv_max": 0.4521694133679072, "train/adv_mean": 0.0025164746454417277, "train/adv_min": -0.36937974993553424, "train/adv_std": 0.051176711399522096, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 0.0001776609673436427, "train/cont_loss_std": 0.005599973034902759, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.029001788887316908, "train/cont_pos_acc": 0.9999863223897086, "train/cont_pos_loss": 1.829528234075105e-05, "train/cont_pred": 0.9943643692466948, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.688180135356055, "train/dyn_loss_std": 8.559155172771877, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9994000436531173, "train/extr_critic_critic_opt_grad_steps": 169555.0, "train/extr_critic_critic_opt_loss": 16061.835232204861, "train/extr_critic_mag": 9.247750944561428, "train/extr_critic_max": 9.247750944561428, "train/extr_critic_mean": 2.2575003802776337, "train/extr_critic_min": -0.5875315732426114, "train/extr_critic_std": 2.167264176739587, "train/extr_return_normed_mag": 1.5052600238058302, "train/extr_return_normed_max": 1.5052600238058302, "train/extr_return_normed_mean": 0.3722311370074749, "train/extr_return_normed_min": -0.10505410827075441, "train/extr_return_normed_std": 0.333050219135152, "train/extr_return_rate": 0.691214589195119, "train/extr_return_raw_mag": 9.736264639430576, "train/extr_return_raw_max": 9.736264639430576, "train/extr_return_raw_mean": 2.2740696801079645, "train/extr_return_raw_min": -0.8692399660746256, "train/extr_return_raw_std": 2.193523089090983, "train/extr_reward_mag": 1.0428980423344507, "train/extr_reward_max": 1.0428980423344507, "train/extr_reward_mean": 0.043149773212563663, "train/extr_reward_min": -0.6619509309530258, "train/extr_reward_std": 0.20310464998086294, "train/image_loss_mean": 2.873325796590911, "train/image_loss_std": 7.793178624576992, "train/model_loss_mean": 5.734815292888218, "train/model_loss_std": 11.866728782653809, "train/model_opt_grad_norm": 34.543374644385445, "train/model_opt_grad_steps": 169419.88888888888, "train/model_opt_loss": 13559.694844563803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.4466156131691403, "train/policy_entropy_max": 2.4466156131691403, "train/policy_entropy_mean": 0.37271731967727345, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4850654618607627, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37289073649379945, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9845709494418569, "train/policy_randomness_mag": 0.8635479468438361, "train/policy_randomness_max": 0.8635479468438361, "train/policy_randomness_mean": 0.13155285651899046, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17120682023879555, "train/post_ent_mag": 54.59252198537191, "train/post_ent_max": 54.59252198537191, "train/post_ent_mean": 40.741118590037026, "train/post_ent_min": 18.71134208308326, "train/post_ent_std": 5.554937872621748, "train/prior_ent_mag": 76.05037964714899, "train/prior_ent_max": 76.05037964714899, "train/prior_ent_mean": 45.42348305384318, "train/prior_ent_min": 27.94609196980794, "train/prior_ent_std": 7.223262806733449, "train/rep_loss_mean": 4.688180135356055, "train/rep_loss_std": 8.559155172771877, "train/reward_avg": 0.03035074863065448, "train/reward_loss_mean": 0.04840373889439636, "train/reward_loss_std": 0.20318421804242665, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.01653586824735, "train/reward_neg_acc": 0.9955572196178966, "train/reward_neg_loss": 0.022723534112123564, "train/reward_pos_acc": 0.9842338098420037, "train/reward_pos_loss": 0.7468701832824283, "train/reward_pred": 0.02994736240038441, "train/reward_rate": 0.03553602430555555, "stats/sum_log_reward": 8.975000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.34996485710144043, "replay/size": 340867.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.8085669755438616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.226433958231325e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0273633003235, "timer/env.step_count": 1439.0, "timer/env.step_total": 19.94246768951416, "timer/env.step_frac": 0.06646882960989131, "timer/env.step_avg": 0.013858559895423322, "timer/env.step_min": 0.0026726722717285156, "timer/env.step_max": 1.706920862197876, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.3107130527496338, "timer/replay.add_frac": 0.0010356157162858977, "timer/replay.add_avg": 0.00021592289975652104, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0067594051361083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029176712036132812, "timer/logger.write_frac": 9.724683680577262e-05, "timer/logger.write_avg": 0.029176712036132812, "timer/logger.write_min": 0.029176712036132812, "timer/logger.write_max": 0.029176712036132812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.87918734550476, "timer/agent.policy_frac": 0.03626065044812208, "timer/agent.policy_avg": 0.007560241379780932, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.017670154571533203, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06659460067749023, "timer/dataset_frac": 0.00022196175690425245, "timer/dataset_avg": 9.262114141514636e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00021505355834960938, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.0962224006653, "timer/agent.train_frac": 0.8935725710201454, "timer/agent.train_avg": 0.37287374464626605, "timer/agent.train_min": 0.36457347869873047, "timer/agent.train_max": 0.3884408473968506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22232747077941895, "timer/agent.report_frac": 0.000741023979725716, "timer/agent.report_avg": 0.22232747077941895, "timer/agent.report_min": 0.22232747077941895, "timer/agent.report_max": 0.22232747077941895, "fps": 4.796151519875477}
+{"step": 341083, "episode/length": 220.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05429864253393665}
+{"step": 341334, "episode/length": 250.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.035856573705179286}
+{"step": 341620, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.038461538461538464}
+{"step": 341780, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0625}
+{"step": 341955, "episode/length": 174.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05142857142857143}
+{"step": 342169, "episode/length": 213.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04672897196261682}
+{"step": 342385, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517295523865582, "train/action_min": 0.0, "train/action_std": 3.403277962175134, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04709812707892836, "train/actor_opt_grad_steps": 170280.0, "train/actor_opt_loss": -12.16565139407981, "train/adv_mag": 0.5160336976181971, "train/adv_max": 0.4572251659550079, "train/adv_mean": 0.003034229424510196, "train/adv_min": -0.42912946457732215, "train/adv_std": 0.05268678951957454, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 7.193776477693873e-06, "train/cont_loss_std": 0.00013373815701383236, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00017426961642441922, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 6.432684250473532e-06, "train/cont_pred": 0.9946702604424463, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 4.859783329375802, "train/dyn_loss_std": 8.622585126798446, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0414200629273507, "train/extr_critic_critic_opt_grad_steps": 170280.0, "train/extr_critic_critic_opt_loss": 16161.803042059075, "train/extr_critic_mag": 9.159822673013766, "train/extr_critic_max": 9.159822673013766, "train/extr_critic_mean": 2.358882433747592, "train/extr_critic_min": -0.5655066656739745, "train/extr_critic_std": 2.1653097410724587, "train/extr_return_normed_mag": 1.505160739977066, "train/extr_return_normed_max": 1.505160739977066, "train/extr_return_normed_mean": 0.3867760968126663, "train/extr_return_normed_min": -0.1064159738997074, "train/extr_return_normed_std": 0.33246793240717015, "train/extr_return_rate": 0.715972852625259, "train/extr_return_raw_mag": 9.777460908236568, "train/extr_return_raw_max": 9.777460908236568, "train/extr_return_raw_mean": 2.378980679054783, "train/extr_return_raw_min": -0.8849173245364672, "train/extr_return_raw_std": 2.2000200683123445, "train/extr_reward_mag": 1.041308389951105, "train/extr_reward_max": 1.041308389951105, "train/extr_reward_mean": 0.045710988240699246, "train/extr_reward_min": -0.6708648825344974, "train/extr_reward_std": 0.20852073394272425, "train/image_loss_mean": 2.874463283852355, "train/image_loss_std": 7.755928163659083, "train/model_loss_mean": 5.837603536370683, "train/model_loss_std": 11.91867854497204, "train/model_opt_grad_norm": 37.028320586844664, "train/model_opt_grad_steps": 170144.0, "train/model_opt_loss": 7297.004421286387, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4313362461246855, "train/policy_entropy_max": 2.4313362461246855, "train/policy_entropy_mean": 0.3565535208542053, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46516187509445295, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35744594996922635, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9707769963839282, "train/policy_randomness_mag": 0.8581549974337016, "train/policy_randomness_max": 0.8581549974337016, "train/policy_randomness_mean": 0.12584774675842833, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16418172735465716, "train/post_ent_mag": 54.28337300966864, "train/post_ent_max": 54.28337300966864, "train/post_ent_mean": 40.66734371446584, "train/post_ent_min": 18.981796695761485, "train/post_ent_std": 5.598862785182587, "train/prior_ent_mag": 76.16349165406946, "train/prior_ent_max": 76.16349165406946, "train/prior_ent_mean": 45.46359550789611, "train/prior_ent_min": 27.799021237517056, "train/prior_ent_std": 7.282403475617709, "train/rep_loss_mean": 4.859783329375802, "train/rep_loss_std": 8.622585126798446, "train/reward_avg": 0.031406517076778086, "train/reward_loss_mean": 0.04726307333944595, "train/reward_loss_std": 0.19150025285270117, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0197901137887615, "train/reward_neg_acc": 0.9945307627116164, "train/reward_neg_loss": 0.022123701398401228, "train/reward_pos_acc": 0.9919359038953912, "train/reward_pos_loss": 0.716892856441132, "train/reward_pred": 0.031334933658985244, "train/reward_rate": 0.03619970034246575, "stats/sum_log_reward": 8.9333336353302, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 6.5, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39115748802820843, "replay/size": 342322.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.812730926828286e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.21297089608161e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2567207813263, "timer/env.step_count": 1455.0, "timer/env.step_total": 16.854915380477905, "timer/env.step_frac": 0.05613501451896944, "timer/env.step_avg": 0.011584134282115398, "timer/env.step_min": 0.0030488967895507812, "timer/env.step_max": 1.6341989040374756, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.28412890434265137, "timer/replay.add_frac": 0.0009462865763780168, "timer/replay.add_avg": 0.00019527759748635832, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.006785154342651367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033731937408447266, "timer/logger.write_frac": 0.00011234365485864967, "timer/logger.write_avg": 0.033731937408447266, "timer/logger.write_min": 0.033731937408447266, "timer/logger.write_max": 0.033731937408447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.929585695266724, "timer/agent.policy_frac": 0.036400802842400395, "timer/agent.policy_avg": 0.007511742745887782, "timer/agent.policy_min": 0.0056304931640625, "timer/agent.policy_max": 0.01686263084411621, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06730175018310547, "timer/dataset_frac": 0.000224147356328855, "timer/dataset_avg": 9.24474590427273e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.38455295562744, "timer/agent.train_frac": 0.9038417266712037, "timer/agent.train_avg": 0.3727809793346531, "timer/agent.train_min": 0.3664405345916748, "timer/agent.train_max": 0.38660097122192383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230236530303955, "timer/agent.report_frac": 0.0007427765561751446, "timer/agent.report_avg": 0.2230236530303955, "timer/agent.report_min": 0.2230236530303955, "timer/agent.report_max": 0.2230236530303955, "fps": 4.845787004880546}
+{"step": 342391, "episode/length": 221.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.036036036036036036}
+{"step": 342663, "episode/length": 271.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.025735294117647058}
+{"step": 342848, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05405405405405406}
+{"step": 343143, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03728813559322034}
+{"step": 343410, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04868913857677903}
+{"step": 343528, "episode/length": 117.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0847457627118644}
+{"step": 343685, "episode/length": 156.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.07643312101910828}
+{"step": 343807, "stats/sum_log_reward": 9.100000040871757, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4763787729399545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.634097676881602, "train/action_min": 0.0, "train/action_std": 3.4389784503990497, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046208056240854126, "train/actor_opt_grad_steps": 171000.0, "train/actor_opt_loss": -11.669369872187225, "train/adv_mag": 0.4594617418839898, "train/adv_max": 0.4110472924272779, "train/adv_mean": 0.0022957430608098357, "train/adv_min": -0.3927354390772296, "train/adv_std": 0.05129598857651294, "train/cont_avg": 0.994264414612676, "train/cont_loss_mean": 4.720101021920092e-05, "train/cont_loss_std": 0.0014841688771155815, "train/cont_neg_acc": 0.9936619719988863, "train/cont_neg_loss": 0.008515636950276748, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 7.327796555060418e-06, "train/cont_pred": 0.9942834133833227, "train/cont_rate": 0.994264414612676, "train/dyn_loss_mean": 4.971318557228841, "train/dyn_loss_std": 8.645350503249906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0956190387967606, "train/extr_critic_critic_opt_grad_steps": 171000.0, "train/extr_critic_critic_opt_loss": 16141.949287522008, "train/extr_critic_mag": 9.302614332924426, "train/extr_critic_max": 9.302614332924426, "train/extr_critic_mean": 2.383150730334537, "train/extr_critic_min": -0.5961624098495698, "train/extr_critic_std": 2.2189788146757743, "train/extr_return_normed_mag": 1.4811132508264462, "train/extr_return_normed_max": 1.4811132508264462, "train/extr_return_normed_mean": 0.3840459560004758, "train/extr_return_normed_min": -0.10933642335970636, "train/extr_return_normed_std": 0.3322989428547067, "train/extr_return_rate": 0.708378298181883, "train/extr_return_raw_mag": 9.811327316391637, "train/extr_return_raw_max": 9.811327316391637, "train/extr_return_raw_mean": 2.3986553155200583, "train/extr_return_raw_min": -0.9349173215073598, "train/extr_return_raw_std": 2.245376691012315, "train/extr_reward_mag": 1.0407518836813914, "train/extr_reward_max": 1.0407518836813914, "train/extr_reward_mean": 0.04499539352533683, "train/extr_reward_min": -0.6847663966702743, "train/extr_reward_std": 0.20686760628727122, "train/image_loss_mean": 2.95233455678107, "train/image_loss_std": 7.918325357034173, "train/model_loss_mean": 5.983796482354823, "train/model_loss_std": 12.076434901062871, "train/model_opt_grad_norm": 28.986635637954926, "train/model_opt_grad_steps": 170864.0, "train/model_opt_loss": 12936.329823668573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2165.492957746479, "train/policy_entropy_mag": 2.4392806644171054, "train/policy_entropy_max": 2.4392806644171054, "train/policy_entropy_mean": 0.3668566190860641, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4759009623191726, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36693653716167934, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.9787798339212445, "train/policy_randomness_mag": 0.8609590286939917, "train/policy_randomness_max": 0.8609590286939917, "train/policy_randomness_mean": 0.1294842892339532, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16797215460051954, "train/post_ent_mag": 54.78559461781676, "train/post_ent_max": 54.78559461781676, "train/post_ent_mean": 40.73483894240688, "train/post_ent_min": 18.943507167654978, "train/post_ent_std": 5.624134097300785, "train/prior_ent_mag": 76.13847232872331, "train/prior_ent_max": 76.13847232872331, "train/prior_ent_mean": 45.68485410448531, "train/prior_ent_min": 28.269696490865357, "train/prior_ent_std": 7.354520280596236, "train/rep_loss_mean": 4.971318557228841, "train/rep_loss_std": 8.645350503249906, "train/reward_avg": 0.030633802433878605, "train/reward_loss_mean": 0.0486236352630904, "train/reward_loss_std": 0.2098629417973505, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0133587676034848, "train/reward_neg_acc": 0.9956591255228284, "train/reward_neg_loss": 0.022997315933691784, "train/reward_pos_acc": 0.9874276863017553, "train/reward_pos_loss": 0.7432084049977047, "train/reward_pred": 0.03030661931654937, "train/reward_rate": 0.035678917253521125, "replay/size": 343744.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.816373908234716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2066587281797171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.049124956131, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.048989057540894, "timer/env.step_frac": 0.063486234330215, "timer/env.step_avg": 0.013395913542574469, "timer/env.step_min": 0.0030324459075927734, "timer/env.step_max": 1.6990759372711182, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2716062068939209, "timer/replay.add_frac": 0.0009052057956630648, "timer/replay.add_avg": 0.00019100295843454352, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0033817291259765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027594327926635742, "timer/logger.write_frac": 9.19660336642215e-05, "timer/logger.write_avg": 0.027594327926635742, "timer/logger.write_min": 0.027594327926635742, "timer/logger.write_max": 0.027594327926635742, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004265308380126953, "timer/checkpoint.save_frac": 1.4215366836182466e-06, "timer/checkpoint.save_avg": 0.0004265308380126953, "timer/checkpoint.save_min": 0.0004265308380126953, "timer/checkpoint.save_max": 0.0004265308380126953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3534438610076904, "timer/agent.save_frac": 0.004510740903528955, "timer/agent.save_avg": 1.3534438610076904, "timer/agent.save_min": 1.3534438610076904, "timer/agent.save_max": 1.3534438610076904, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.399687414492512e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.791284799575806, "timer/agent.policy_frac": 0.049296210418005325, "timer/agent.policy_avg": 0.010401747397732634, "timer/agent.policy_min": 0.005726337432861328, "timer/agent.policy_max": 2.819406747817993, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06546497344970703, "timer/dataset_frac": 0.00021818085108322983, "timer/dataset_avg": 9.20745055551435e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.1461126804352, "timer/agent.train_frac": 0.8836756738390794, "timer/agent.train_avg": 0.3729199897052534, "timer/agent.train_min": 0.3650166988372803, "timer/agent.train_max": 0.49729442596435547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22390508651733398, "timer/agent.report_frac": 0.0007462280936498991, "timer/agent.report_avg": 0.22390508651733398, "timer/agent.report_min": 0.22390508651733398, "timer/agent.report_max": 0.22390508651733398, "fps": 4.739158967593685}
+{"step": 343869, "episode/length": 183.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.043478260869565216}
+{"step": 344126, "episode/length": 256.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.042801556420233464}
+{"step": 344315, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05291005291005291}
+{"step": 344442, "episode/length": 126.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07874015748031496}
+{"step": 344546, "episode/length": 103.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10576923076923077}
+{"step": 344721, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
+{"step": 344895, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05747126436781609}
+{"step": 345124, "episode/length": 228.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.05240174672489083}
+{"step": 345247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526451958550347, "train/action_min": 0.0, "train/action_std": 3.3444089194138846, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045882990376816854, "train/actor_opt_grad_steps": 171715.0, "train/actor_opt_loss": -11.839385480516487, "train/adv_mag": 0.4595119431614876, "train/adv_max": 0.4136152205367883, "train/adv_mean": 0.0026362629836664078, "train/adv_min": -0.38664089515805244, "train/adv_std": 0.05083504567543665, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 5.92378402461217e-05, "train/cont_loss_std": 0.0018459794369244757, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004520902104903573, "train/cont_pos_acc": 0.9999862735470136, "train/cont_pos_loss": 5.725302406281132e-05, "train/cont_pred": 0.9945689373546176, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.864425490299861, "train/dyn_loss_std": 8.587046510643429, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0745998066332605, "train/extr_critic_critic_opt_grad_steps": 171715.0, "train/extr_critic_critic_opt_loss": 16037.339667426215, "train/extr_critic_mag": 9.243202103508843, "train/extr_critic_max": 9.243202103508843, "train/extr_critic_mean": 2.4239667074547873, "train/extr_critic_min": -0.5836731973621581, "train/extr_critic_std": 2.267180477579435, "train/extr_return_normed_mag": 1.4864239361551073, "train/extr_return_normed_max": 1.4864239361551073, "train/extr_return_normed_mean": 0.3892532106902864, "train/extr_return_normed_min": -0.09810058446601033, "train/extr_return_normed_std": 0.3390870400600963, "train/extr_return_rate": 0.7049624241060681, "train/extr_return_raw_mag": 9.868871715333727, "train/extr_return_raw_max": 9.868871715333727, "train/extr_return_raw_mean": 2.441765727268325, "train/extr_return_raw_min": -0.8580891961852709, "train/extr_return_raw_std": 2.2959820098347135, "train/extr_reward_mag": 1.0349418454700046, "train/extr_reward_max": 1.0349418454700046, "train/extr_reward_mean": 0.04650131781171593, "train/extr_reward_min": -0.6409709768162833, "train/extr_reward_std": 0.21019520589874852, "train/image_loss_mean": 2.8060016747978, "train/image_loss_std": 7.587420029772653, "train/model_loss_mean": 5.773445639345381, "train/model_loss_std": 11.732129249307844, "train/model_opt_grad_norm": 34.40087310473124, "train/model_opt_grad_steps": 171578.0, "train/model_opt_loss": 7216.80706108941, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.438521103726493, "train/policy_entropy_max": 2.438521103726493, "train/policy_entropy_mean": 0.35413030203845763, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46291610019074547, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3549301309718026, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9705548733472824, "train/policy_randomness_mag": 0.8606909397575591, "train/policy_randomness_max": 0.8606909397575591, "train/policy_randomness_mean": 0.12499245659758647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16338906820035642, "train/post_ent_mag": 54.78665849897597, "train/post_ent_max": 54.78665849897597, "train/post_ent_mean": 40.80689451429579, "train/post_ent_min": 18.82410184542338, "train/post_ent_std": 5.582665946748522, "train/prior_ent_mag": 76.12084409925673, "train/prior_ent_max": 76.12084409925673, "train/prior_ent_mean": 45.654592196146645, "train/prior_ent_min": 28.07158046298557, "train/prior_ent_std": 7.271552602450053, "train/rep_loss_mean": 4.864425490299861, "train/rep_loss_std": 8.587046510643429, "train/reward_avg": 0.031131998234842386, "train/reward_loss_mean": 0.048729440197348595, "train/reward_loss_std": 0.20363680004245704, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0142025550206502, "train/reward_neg_acc": 0.9949331664376788, "train/reward_neg_loss": 0.02296256057969812, "train/reward_pos_acc": 0.9867370782627, "train/reward_pos_loss": 0.7390893076856931, "train/reward_pred": 0.03081120742071006, "train/reward_rate": 0.03602430555555555, "stats/sum_log_reward": 8.975000083446503, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.5, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3467382900416851, "replay/size": 345184.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.852446873982748e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2048416667514377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3163139820099, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.140592098236084, "timer/env.step_frac": 0.06706459543001245, "timer/env.step_avg": 0.013986522290441726, "timer/env.step_min": 0.0030705928802490234, "timer/env.step_max": 1.725778341293335, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.3059406280517578, "timer/replay.add_frac": 0.0010187279671729217, "timer/replay.add_avg": 0.00021245876948038737, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.00616145133972168, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028551101684570312, "timer/logger.write_frac": 9.50700989433449e-05, "timer/logger.write_avg": 0.028551101684570312, "timer/logger.write_min": 0.028551101684570312, "timer/logger.write_max": 0.028551101684570312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.743464469909668, "timer/agent.policy_frac": 0.03577382902532975, "timer/agent.policy_avg": 0.007460739215215047, "timer/agent.policy_min": 0.005781888961791992, "timer/agent.policy_max": 0.020332813262939453, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06780314445495605, "timer/dataset_frac": 0.0002257724315936354, "timer/dataset_avg": 9.417103396521674e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002129077911376953, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.33385467529297, "timer/agent.train_frac": 0.8935040894627096, "timer/agent.train_avg": 0.37268590927124023, "timer/agent.train_min": 0.36601924896240234, "timer/agent.train_max": 0.38617372512817383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22208547592163086, "timer/agent.report_frac": 0.0007395052002900337, "timer/agent.report_avg": 0.22208547592163086, "timer/agent.report_min": 0.22208547592163086, "timer/agent.report_max": 0.22208547592163086, "fps": 4.794822622315266}
+{"step": 345299, "episode/length": 174.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.06857142857142857}
+{"step": 345491, "episode/length": 191.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.052083333333333336}
+{"step": 345618, "episode/length": 126.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07874015748031496}
+{"step": 345817, "episode/length": 198.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.035175879396984924}
+{"step": 346037, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05909090909090909}
+{"step": 346201, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.054878048780487805}
+{"step": 346378, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06779661016949153}
+{"step": 346528, "episode/length": 149.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 346687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686307271321614, "train/action_min": 0.0, "train/action_std": 3.5515501267380185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044611083498845495, "train/actor_opt_grad_steps": 172435.0, "train/actor_opt_loss": -12.460243395633167, "train/adv_mag": 0.5008117548293538, "train/adv_max": 0.44817155599594116, "train/adv_mean": 0.0025417383724794084, "train/adv_min": -0.4113766791092025, "train/adv_std": 0.05126127621365918, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 0.0001492830967519707, "train/cont_loss_std": 0.0046920859130909305, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.023341614942204103, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.2153386273262691e-05, "train/cont_pred": 0.9944664753145642, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 4.837516668770048, "train/dyn_loss_std": 8.69305388795005, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0779883133040533, "train/extr_critic_critic_opt_grad_steps": 172435.0, "train/extr_critic_critic_opt_loss": 16022.610866970486, "train/extr_critic_mag": 9.373924122916328, "train/extr_critic_max": 9.373924122916328, "train/extr_critic_mean": 2.3340944382879467, "train/extr_critic_min": -0.5883322887950473, "train/extr_critic_std": 2.232236554225286, "train/extr_return_normed_mag": 1.5294731441471312, "train/extr_return_normed_max": 1.5294731441471312, "train/extr_return_normed_mean": 0.37980154943135047, "train/extr_return_normed_min": -0.10231336723599169, "train/extr_return_normed_std": 0.3389365749640597, "train/extr_return_rate": 0.6896430510613654, "train/extr_return_raw_mag": 10.037437266773647, "train/extr_return_raw_max": 10.037437266773647, "train/extr_return_raw_mean": 2.3510957625177173, "train/extr_return_raw_min": -0.8720162941349877, "train/extr_return_raw_std": 2.2664325303501553, "train/extr_reward_mag": 1.0315218501620822, "train/extr_reward_max": 1.0315218501620822, "train/extr_reward_mean": 0.043294771393347115, "train/extr_reward_min": -0.6582080490059323, "train/extr_reward_std": 0.20328957421912086, "train/image_loss_mean": 3.012393290797869, "train/image_loss_std": 7.883741451634301, "train/model_loss_mean": 5.9616471197870045, "train/model_loss_std": 12.034509976704916, "train/model_opt_grad_norm": 33.0321102142334, "train/model_opt_grad_steps": 172297.45833333334, "train/model_opt_loss": 7931.079210069444, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.452579392327203, "train/policy_entropy_max": 2.452579392327203, "train/policy_entropy_mean": 0.38311371248629356, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5006542172696855, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38230272175537217, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9895632705754704, "train/policy_randomness_mag": 0.8656528972917132, "train/policy_randomness_max": 0.8656528972917132, "train/policy_randomness_mean": 0.13522232810242307, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17670896877017286, "train/post_ent_mag": 54.9232923189799, "train/post_ent_max": 54.9232923189799, "train/post_ent_mean": 40.978321976131866, "train/post_ent_min": 18.920556558503044, "train/post_ent_std": 5.733905924691094, "train/prior_ent_mag": 76.21415371365018, "train/prior_ent_max": 76.21415371365018, "train/prior_ent_mean": 45.79685793982612, "train/prior_ent_min": 27.728814045588177, "train/prior_ent_std": 7.315053058995141, "train/rep_loss_mean": 4.837516668770048, "train/rep_loss_std": 8.69305388795005, "train/reward_avg": 0.028831651292016938, "train/reward_loss_mean": 0.046594521703405514, "train/reward_loss_std": 0.19552500483890375, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.014146672354804, "train/reward_neg_acc": 0.9954374631245931, "train/reward_neg_loss": 0.02262050966318283, "train/reward_pos_acc": 0.9864550042483542, "train/reward_pos_loss": 0.734604488644335, "train/reward_pred": 0.028511020122095942, "train/reward_rate": 0.03378634982638889, "stats/sum_log_reward": 9.225000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.315520191565156, "replay/size": 346624.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7820802794562445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.218107839425405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2014901638031, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.91792345046997, "timer/env.step_frac": 0.06634851625687094, "timer/env.step_avg": 0.013831891285048591, "timer/env.step_min": 0.0028972625732421875, "timer/env.step_max": 1.676928997039795, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28473353385925293, "timer/replay.add_frac": 0.0009484747517538631, "timer/replay.add_avg": 0.0001977316207355923, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004355907440185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02687382698059082, "timer/logger.write_frac": 8.951929907452252e-05, "timer/logger.write_avg": 0.02687382698059082, "timer/logger.write_min": 0.02687382698059082, "timer/logger.write_max": 0.02687382698059082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.741147994995117, "timer/agent.policy_frac": 0.03577979572697749, "timer/agent.policy_avg": 0.007459130552079942, "timer/agent.policy_min": 0.0057599544525146484, "timer/agent.policy_max": 0.018191099166870117, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06656217575073242, "timer/dataset_frac": 0.00022172500114644062, "timer/dataset_avg": 9.24474663204617e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.4675841331482, "timer/agent.train_frac": 0.8942913107681794, "timer/agent.train_avg": 0.3728716446293725, "timer/agent.train_min": 0.3628661632537842, "timer/agent.train_max": 0.3843960762023926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22204828262329102, "timer/agent.report_frac": 0.0007396641585694052, "timer/agent.report_avg": 0.22204828262329102, "timer/agent.report_min": 0.22204828262329102, "timer/agent.report_max": 0.22204828262329102, "fps": 4.796681396026583}
+{"step": 346799, "episode/length": 270.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04059040590405904}
+{"step": 346990, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
+{"step": 347108, "episode/length": 117.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.07627118644067797}
+{"step": 347500, "episode/length": 391.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.700000062584877, "episode/reward_rate": 0.02040816326530612}
+{"step": 347703, "episode/length": 202.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.03940886699507389}
+{"step": 347885, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.054945054945054944}
+{"step": 348060, "episode/length": 174.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06857142857142857}
+{"step": 348109, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465742943992077, "train/action_min": 0.0, "train/action_std": 3.3023066184890104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04594516051067433, "train/actor_opt_grad_steps": 173150.0, "train/actor_opt_loss": -12.138068514425163, "train/adv_mag": 0.44377767494027043, "train/adv_max": 0.3912994210988703, "train/adv_mean": 0.0026366781481479387, "train/adv_min": -0.3879950357155061, "train/adv_std": 0.0504395895650689, "train/cont_avg": 0.9945532570422535, "train/cont_loss_mean": 0.00012116763466757464, "train/cont_loss_std": 0.0038235664712536798, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.016598645077611846, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.0969649770151565e-05, "train/cont_pred": 0.9945713634222326, "train/cont_rate": 0.9945532570422535, "train/dyn_loss_mean": 4.848135028086918, "train/dyn_loss_std": 8.652872099003321, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.040570209563618, "train/extr_critic_critic_opt_grad_steps": 173150.0, "train/extr_critic_critic_opt_loss": 16036.866829885563, "train/extr_critic_mag": 9.25654063426273, "train/extr_critic_max": 9.25654063426273, "train/extr_critic_mean": 2.399751238419976, "train/extr_critic_min": -0.5704257068499713, "train/extr_critic_std": 2.2609607132387834, "train/extr_return_normed_mag": 1.4543128550892146, "train/extr_return_normed_max": 1.4543128550892146, "train/extr_return_normed_mean": 0.3777291632034409, "train/extr_return_normed_min": -0.09828355714259013, "train/extr_return_normed_std": 0.33394691956714845, "train/extr_return_rate": 0.6956316425766743, "train/extr_return_raw_mag": 9.822171412723165, "train/extr_return_raw_max": 9.822171412723165, "train/extr_return_raw_mean": 2.417817619484915, "train/extr_return_raw_min": -0.8558379974163753, "train/extr_return_raw_std": 2.2970798468925584, "train/extr_reward_mag": 1.046942563124106, "train/extr_reward_max": 1.046942563124106, "train/extr_reward_mean": 0.043631094757100225, "train/extr_reward_min": -0.6297146921426477, "train/extr_reward_std": 0.20393979381507552, "train/image_loss_mean": 2.92900524844586, "train/image_loss_std": 7.860665912359533, "train/model_loss_mean": 5.885197599169234, "train/model_loss_std": 12.011042245676819, "train/model_opt_grad_norm": 33.89322186859561, "train/model_opt_grad_steps": 173012.0, "train/model_opt_loss": 8381.76114106514, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.504924797675979, "train/policy_entropy_max": 2.504924797675979, "train/policy_entropy_mean": 0.3770432866794962, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4996846931081423, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771127395226922, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9886387108077466, "train/policy_randomness_mag": 0.8841285243840284, "train/policy_randomness_max": 0.8841285243840284, "train/policy_randomness_mean": 0.13307973427671782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1763667682526817, "train/post_ent_mag": 55.08056855537522, "train/post_ent_max": 55.08056855537522, "train/post_ent_mean": 40.94360254851865, "train/post_ent_min": 18.997396334795884, "train/post_ent_std": 5.649151600582499, "train/prior_ent_mag": 76.19180652457224, "train/prior_ent_max": 76.19180652457224, "train/prior_ent_mean": 45.778848674935354, "train/prior_ent_min": 27.825565176950374, "train/prior_ent_std": 7.26493545317314, "train/rep_loss_mean": 4.848135028086918, "train/rep_loss_std": 8.652872099003321, "train/reward_avg": 0.029847050649704228, "train/reward_loss_mean": 0.04719018070420749, "train/reward_loss_std": 0.1962666801163848, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0200073920505148, "train/reward_neg_acc": 0.9945607176968749, "train/reward_neg_loss": 0.022671110646038408, "train/reward_pos_acc": 0.9908434496798986, "train/reward_pos_loss": 0.725818588700093, "train/reward_pred": 0.029749209035030554, "train/reward_rate": 0.034812389964788734, "stats/sum_log_reward": 8.814286027635847, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 9.857142857142858, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.40597144620759146, "replay/size": 348046.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.823751135717464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.198799465946675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09093022346497, "timer/env.step_count": 1422.0, "timer/env.step_total": 18.589106798171997, "timer/env.step_frac": 0.06194491377773223, "timer/env.step_avg": 0.013072508296886073, "timer/env.step_min": 0.0028738975524902344, "timer/env.step_max": 1.6500415802001953, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.32028722763061523, "timer/replay.add_frac": 0.0010673005924974506, "timer/replay.add_avg": 0.00022523715023250017, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.007856607437133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028154373168945312, "timer/logger.write_frac": 9.381947381075446e-05, "timer/logger.write_avg": 0.028154373168945312, "timer/logger.write_min": 0.028154373168945312, "timer/logger.write_max": 0.028154373168945312, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001857280731201172, "timer/checkpoint.save_frac": 6.189059862016269e-07, "timer/checkpoint.save_avg": 0.0001857280731201172, "timer/checkpoint.save_min": 0.0001857280731201172, "timer/checkpoint.save_max": 0.0001857280731201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5120656490325928, "timer/agent.save_frac": 0.005038691598931769, "timer/agent.save_avg": 1.5120656490325928, "timer/agent.save_min": 1.5120656490325928, "timer/agent.save_max": 1.5120656490325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0974477581159114e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.946450471878052, "timer/agent.policy_frac": 0.0498064052144064, "timer/agent.policy_avg": 0.010510865310744058, "timer/agent.policy_min": 0.0055696964263916016, "timer/agent.policy_max": 2.775736093521118, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06619811058044434, "timer/dataset_frac": 0.00022059350654533082, "timer/dataset_avg": 9.310564076011861e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.4435694217682, "timer/agent.train_frac": 0.8845437921902659, "timer/agent.train_avg": 0.3733383536171142, "timer/agent.train_min": 0.3666393756866455, "timer/agent.train_max": 0.42627859115600586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22417330741882324, "timer/agent.report_frac": 0.0007470179363697893, "timer/agent.report_avg": 0.22417330741882324, "timer/agent.report_min": 0.22417330741882324, "timer/agent.report_max": 0.22417330741882324, "fps": 4.7384799740169585}
+{"step": 348163, "episode/length": 102.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.11650485436893204}
+{"step": 348544, "episode/length": 380.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.031496062992125984}
+{"step": 348727, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.060109289617486336}
+{"step": 348795, "episode/length": 67.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.1323529411764706}
+{"step": 348949, "episode/length": 153.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.045454545454545456}
+{"step": 349162, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.051643192488262914}
+{"step": 349356, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06701030927835051}
+{"step": 349536, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06111111111111111}
+{"step": 349547, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.451135423448351, "train/action_min": 0.0, "train/action_std": 3.294043709834417, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047005693066037364, "train/actor_opt_grad_steps": 173865.0, "train/actor_opt_loss": -11.2877318740098, "train/adv_mag": 0.4589388705790043, "train/adv_max": 0.41133194665114087, "train/adv_mean": 0.0030373393348984085, "train/adv_min": -0.3956701055996948, "train/adv_std": 0.051455007348623544, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.000304068184612384, "train/cont_loss_std": 0.00960989637386294, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.013030074954342928, "train/cont_pos_acc": 0.9999591468109025, "train/cont_pos_loss": 0.00023777753582344808, "train/cont_pred": 0.9942397624254227, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.911441220177545, "train/dyn_loss_std": 8.677511639065212, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300652095013194, "train/extr_critic_critic_opt_grad_steps": 173865.0, "train/extr_critic_critic_opt_loss": 16357.44489203559, "train/extr_critic_mag": 9.332782626152039, "train/extr_critic_max": 9.332782626152039, "train/extr_critic_mean": 2.5010773407088385, "train/extr_critic_min": -0.5900511824422412, "train/extr_critic_std": 2.3462681935893164, "train/extr_return_normed_mag": 1.4250963578621547, "train/extr_return_normed_max": 1.4250963578621547, "train/extr_return_normed_mean": 0.38193969801068306, "train/extr_return_normed_min": -0.10396808349630898, "train/extr_return_normed_std": 0.3359903697338369, "train/extr_return_rate": 0.7072573428352674, "train/extr_return_raw_mag": 9.917367060979208, "train/extr_return_raw_max": 9.917367060979208, "train/extr_return_raw_mean": 2.522600425614251, "train/extr_return_raw_min": -0.9219166156318452, "train/extr_return_raw_std": 2.3817713575230703, "train/extr_reward_mag": 1.0405948460102081, "train/extr_reward_max": 1.0405948460102081, "train/extr_reward_mean": 0.04624935288706587, "train/extr_reward_min": -0.655794522828526, "train/extr_reward_std": 0.20970003348257807, "train/image_loss_mean": 2.9640858272711434, "train/image_loss_std": 7.993249952793121, "train/model_loss_mean": 5.95938057369656, "train/model_loss_std": 12.066388580534193, "train/model_opt_grad_norm": 36.13009934955173, "train/model_opt_grad_steps": 173727.0, "train/model_opt_loss": 14898.451456705729, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4938525127040014, "train/policy_entropy_max": 2.4938525127040014, "train/policy_entropy_mean": 0.35666125847233665, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46983959194686675, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.356458281684253, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9708771738741133, "train/policy_randomness_mag": 0.8802205001314481, "train/policy_randomness_max": 0.8802205001314481, "train/policy_randomness_mean": 0.12588577231185305, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16583275846723053, "train/post_ent_mag": 54.930569118923614, "train/post_ent_max": 54.930569118923614, "train/post_ent_mean": 40.817472298940025, "train/post_ent_min": 18.867059893078274, "train/post_ent_std": 5.671864284409417, "train/prior_ent_mag": 76.10136678483751, "train/prior_ent_max": 76.10136678483751, "train/prior_ent_mean": 45.708903577592636, "train/prior_ent_min": 28.01450726721022, "train/prior_ent_std": 7.26961436536577, "train/rep_loss_mean": 4.911441220177545, "train/rep_loss_std": 8.677511639065212, "train/reward_avg": 0.031108940641085308, "train/reward_loss_mean": 0.048125978300554886, "train/reward_loss_std": 0.20115214958786964, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0161309987306595, "train/reward_neg_acc": 0.9952820820940865, "train/reward_neg_loss": 0.022602215758524835, "train/reward_pos_acc": 0.9885228996475538, "train/reward_pos_loss": 0.7242483579450183, "train/reward_pred": 0.030885578107295766, "train/reward_rate": 0.036322699652777776, "stats/sum_log_reward": 9.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 0.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 6.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 6.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33675065264105797, "replay/size": 349484.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.83111134026412e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2139368786765405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3160729408264, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.064327478408813, "timer/env.step_frac": 0.06681070141178305, "timer/env.step_avg": 0.013952939831995002, "timer/env.step_min": 0.0027921199798583984, "timer/env.step_max": 1.6423325538635254, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3031647205352783, "timer/replay.add_frac": 0.0010094854982837138, "timer/replay.add_avg": 0.000210823866853462, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.004493236541748047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03380846977233887, "timer/logger.write_frac": 0.00011257629150938055, "timer/logger.write_avg": 0.03380846977233887, "timer/logger.write_min": 0.03380846977233887, "timer/logger.write_max": 0.03380846977233887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.839654684066772, "timer/agent.policy_frac": 0.03609415432853836, "timer/agent.policy_avg": 0.007538007429809995, "timer/agent.policy_min": 0.0056209564208984375, "timer/agent.policy_max": 0.018981218338012695, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06667184829711914, "timer/dataset_frac": 0.00022200559445333454, "timer/dataset_avg": 9.272857899460242e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.3054361343384, "timer/agent.train_frac": 0.8934101778402139, "timer/agent.train_avg": 0.37316472341354434, "timer/agent.train_min": 0.36615705490112305, "timer/agent.train_max": 0.39060544967651367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22085046768188477, "timer/agent.report_frac": 0.0007353934323901493, "timer/agent.report_avg": 0.22085046768188477, "timer/agent.report_min": 0.22085046768188477, "timer/agent.report_max": 0.22085046768188477, "fps": 4.7882164206614855}
+{"step": 349822, "episode/length": 285.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04195804195804196}
+{"step": 349974, "episode/length": 151.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.08552631578947369}
+{"step": 350411, "episode/length": 436.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.02517162471395881}
+{"step": 350452, "episode/length": 40.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 0.9000000134110451, "episode/reward_rate": 0.0}
+{"step": 350644, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 350800, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05128205128205128}
+{"step": 350938, "episode/length": 137.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.057971014492753624}
+{"step": 350993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.560667249891493, "train/action_min": 0.0, "train/action_std": 3.408495691087511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04623899334627721, "train/actor_opt_grad_steps": 174585.0, "train/actor_opt_loss": -10.42074497209655, "train/adv_mag": 0.4651726538108455, "train/adv_max": 0.41784793842169976, "train/adv_mean": 0.003121077661969846, "train/adv_min": -0.4009377604557408, "train/adv_std": 0.05180795428653558, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 5.789560750615566e-05, "train/cont_loss_std": 0.0017913407393553233, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007305933129815558, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.1286157224787985e-05, "train/cont_pred": 0.9947866143451797, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 4.855327708853616, "train/dyn_loss_std": 8.580014089743296, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0696192449993558, "train/extr_critic_critic_opt_grad_steps": 174585.0, "train/extr_critic_critic_opt_loss": 16300.217013888889, "train/extr_critic_mag": 9.730103453000387, "train/extr_critic_max": 9.730103453000387, "train/extr_critic_mean": 2.5704477263821497, "train/extr_critic_min": -0.5833466880851321, "train/extr_critic_std": 2.373946393529574, "train/extr_return_normed_mag": 1.455843758251932, "train/extr_return_normed_max": 1.455843758251932, "train/extr_return_normed_mean": 0.3838402434355683, "train/extr_return_normed_min": -0.10184460593801406, "train/extr_return_normed_std": 0.33336881134245133, "train/extr_return_rate": 0.7322048967083296, "train/extr_return_raw_mag": 10.346963538063896, "train/extr_return_raw_max": 10.346963538063896, "train/extr_return_raw_mean": 2.593036487698555, "train/extr_return_raw_min": -0.9191180388960574, "train/extr_return_raw_std": 2.4110854549540415, "train/extr_reward_mag": 1.0442768004205492, "train/extr_reward_max": 1.0442768004205492, "train/extr_reward_mean": 0.047193750739097595, "train/extr_reward_min": -0.6673606485128403, "train/extr_reward_std": 0.21148162686990368, "train/image_loss_mean": 3.1084252430333033, "train/image_loss_std": 8.320184383127424, "train/model_loss_mean": 6.068731115923987, "train/model_loss_std": 12.35791958702935, "train/model_opt_grad_norm": 32.563824428452385, "train/model_opt_grad_steps": 174446.26388888888, "train/model_opt_loss": 15409.78801812066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.514152384466595, "train/policy_entropy_max": 2.514152384466595, "train/policy_entropy_mean": 0.3650762513279915, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47882918640971184, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3655646737251017, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 0.9802358936932352, "train/policy_randomness_mag": 0.8873854610655043, "train/policy_randomness_max": 0.8873854610655043, "train/policy_randomness_mean": 0.12885589556147656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16900569086687434, "train/post_ent_mag": 55.027101304796005, "train/post_ent_max": 55.027101304796005, "train/post_ent_mean": 40.86898035473294, "train/post_ent_min": 18.87214257982042, "train/post_ent_std": 5.683540026346843, "train/prior_ent_mag": 76.14801332685683, "train/prior_ent_max": 76.14801332685683, "train/prior_ent_mean": 45.730980449252655, "train/prior_ent_min": 27.529818269941543, "train/prior_ent_std": 7.26618492603302, "train/rep_loss_mean": 4.855327708853616, "train/rep_loss_std": 8.580014089743296, "train/reward_avg": 0.03006049230073889, "train/reward_loss_mean": 0.04705134489470058, "train/reward_loss_std": 0.20203611420260537, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0209072364701166, "train/reward_neg_acc": 0.9954632487561967, "train/reward_neg_loss": 0.021940614562481642, "train/reward_pos_acc": 0.9843326608339945, "train/reward_pos_loss": 0.7409989196393225, "train/reward_pred": 0.02972307933184008, "train/reward_rate": 0.034979926215277776, "stats/sum_log_reward": 7.957143042768751, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.37667628271239145, "replay/size": 350930.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8062883115902976e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1982141194007208e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23722290992737, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.704242944717407, "timer/env.step_frac": 0.06229821460321984, "timer/env.step_avg": 0.012935161095931817, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.7432057857513428, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.34192419052124023, "timer/replay.add_frac": 0.0011388467665910272, "timer/replay.add_avg": 0.00023646209579615508, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.042609214782714844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0274503231048584, "timer/logger.write_frac": 9.142878034511274e-05, "timer/logger.write_avg": 0.0274503231048584, "timer/logger.write_min": 0.0274503231048584, "timer/logger.write_max": 0.0274503231048584, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.716828107833862, "timer/agent.policy_frac": 0.035694535154453394, "timer/agent.policy_avg": 0.007411361070424525, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.014837265014648438, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06619119644165039, "timer/dataset_frac": 0.00022046299189727074, "timer/dataset_avg": 9.155075579758007e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.68030834198, "timer/agent.train_frac": 0.8982240966933184, "timer/agent.train_avg": 0.37300180960163204, "timer/agent.train_min": 0.36664628982543945, "timer/agent.train_max": 0.38838696479797363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22297263145446777, "timer/agent.report_frac": 0.0007426548556950936, "timer/agent.report_avg": 0.22297263145446777, "timer/agent.report_min": 0.22297263145446777, "timer/agent.report_max": 0.22297263145446777, "fps": 4.816118624466271}
+{"step": 351085, "episode/length": 146.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05442176870748299}
+{"step": 351256, "episode/length": 170.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07017543859649122}
+{"step": 351313, "episode/length": 56.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.10526315789473684}
+{"step": 351482, "episode/length": 168.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0650887573964497}
+{"step": 351640, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06329113924050633}
+{"step": 351836, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04591836734693878}
+{"step": 352071, "episode/length": 234.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04680851063829787}
+{"step": 352248, "episode/length": 176.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05084745762711865}
+{"step": 352407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.427479058923856, "train/action_min": 0.0, "train/action_std": 3.3788653058065496, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04477538798056858, "train/actor_opt_grad_steps": 175300.0, "train/actor_opt_loss": -13.368488310088575, "train/adv_mag": 0.44759943619580334, "train/adv_max": 0.397104220071309, "train/adv_mean": 0.001790701481759627, "train/adv_min": -0.37429760522405864, "train/adv_std": 0.04954480699880023, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 2.9721173509530454e-06, "train/cont_loss_std": 8.47920832263337e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022062307175154172, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.5037708897445658e-06, "train/cont_pred": 0.9941681480743516, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.988847437039228, "train/dyn_loss_std": 8.748324904643313, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0340130371107181, "train/extr_critic_critic_opt_grad_steps": 175300.0, "train/extr_critic_critic_opt_loss": 16144.438050176057, "train/extr_critic_mag": 9.617906798779124, "train/extr_critic_max": 9.617906798779124, "train/extr_critic_mean": 2.600535537155581, "train/extr_critic_min": -0.5666524373309713, "train/extr_critic_std": 2.4376076795685457, "train/extr_return_normed_mag": 1.4171700863771035, "train/extr_return_normed_max": 1.4171700863771035, "train/extr_return_normed_mean": 0.37628234188321613, "train/extr_return_normed_min": -0.09656218428846816, "train/extr_return_normed_std": 0.3329158370763483, "train/extr_return_rate": 0.7377723766044831, "train/extr_return_raw_mag": 10.325254749244367, "train/extr_return_raw_max": 10.325254749244367, "train/extr_return_raw_mean": 2.6137930389860986, "train/extr_return_raw_min": -0.8886295708132462, "train/extr_return_raw_std": 2.46640515495354, "train/extr_reward_mag": 1.0365384699593128, "train/extr_reward_max": 1.0365384699593128, "train/extr_reward_mean": 0.04463262383786725, "train/extr_reward_min": -0.6570290578922755, "train/extr_reward_std": 0.20558744962786285, "train/image_loss_mean": 3.0498094206124966, "train/image_loss_std": 8.26108517445309, "train/model_loss_mean": 6.091037320419097, "train/model_loss_std": 12.427241929819886, "train/model_opt_grad_norm": 35.9333356937892, "train/model_opt_grad_steps": 175160.338028169, "train/model_opt_loss": 10226.864973041373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.4851889341649875, "train/policy_entropy_max": 2.4851889341649875, "train/policy_entropy_mean": 0.3555712326311729, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.471023484015129, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35693767876692223, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.974541530642711, "train/policy_randomness_mag": 0.8771626328078794, "train/policy_randomness_max": 0.8771626328078794, "train/policy_randomness_mean": 0.12550104052667888, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1662506183058443, "train/post_ent_mag": 54.318925024757924, "train/post_ent_max": 54.318925024757924, "train/post_ent_mean": 40.82296403696839, "train/post_ent_min": 19.120755437394262, "train/post_ent_std": 5.491226572385976, "train/prior_ent_mag": 76.07726814377476, "train/prior_ent_max": 76.07726814377476, "train/prior_ent_mean": 45.761521137936015, "train/prior_ent_min": 28.173504654790314, "train/prior_ent_std": 7.258808337466817, "train/rep_loss_mean": 4.988847437039228, "train/rep_loss_std": 8.748324904643313, "train/reward_avg": 0.030426110901778013, "train/reward_loss_mean": 0.047916389345912865, "train/reward_loss_std": 0.19947204539473629, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0158523942383242, "train/reward_neg_acc": 0.9948466495728828, "train/reward_neg_loss": 0.0228993346075147, "train/reward_pos_acc": 0.9894193687909086, "train/reward_pos_loss": 0.7259624432510053, "train/reward_pred": 0.030327612888330305, "train/reward_rate": 0.035500110035211266, "stats/sum_log_reward": 8.350000262260437, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.29178585670888424, "replay/size": 352344.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.7789513400454165e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395152614005385e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2828986644745, "timer/env.step_count": 1414.0, "timer/env.step_total": 22.8045551776886, "timer/env.step_frac": 0.07594356947769311, "timer/env.step_avg": 0.016127691073329984, "timer/env.step_min": 0.0030460357666015625, "timer/env.step_max": 2.6817798614501953, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2905762195587158, "timer/replay.add_frac": 0.00096767488541995, "timer/replay.add_avg": 0.0002054994480613266, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0035698413848876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0277707576751709, "timer/logger.write_frac": 9.24819821531061e-05, "timer/logger.write_avg": 0.0277707576751709, "timer/logger.write_min": 0.0277707576751709, "timer/logger.write_max": 0.0277707576751709, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003750324249267578, "timer/checkpoint.save_frac": 1.2489303473315868e-06, "timer/checkpoint.save_avg": 0.0003750324249267578, "timer/checkpoint.save_min": 0.0003750324249267578, "timer/checkpoint.save_max": 0.0003750324249267578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.375354528427124, "timer/agent.save_frac": 0.004580195990328096, "timer/agent.save_avg": 1.375354528427124, "timer/agent.save_min": 1.375354528427124, "timer/agent.save_max": 1.375354528427124, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6439529921259913e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.698641061782837, "timer/agent.policy_frac": 0.04228892527100536, "timer/agent.policy_avg": 0.00898065138739946, "timer/agent.policy_min": 0.005649566650390625, "timer/agent.policy_max": 1.374107837677002, "timer/dataset_count": 707.0, "timer/dataset_total": 0.0666961669921875, "timer/dataset_frac": 0.00022211110685564362, "timer/dataset_avg": 9.433686986165135e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.0002224445343017578, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.69076108932495, "timer/agent.train_frac": 0.878141120463752, "timer/agent.train_avg": 0.37297137353511306, "timer/agent.train_min": 0.3626260757446289, "timer/agent.train_max": 0.4193432331085205, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22341156005859375, "timer/agent.report_frac": 0.0007440036081049888, "timer/agent.report_avg": 0.22341156005859375, "timer/agent.report_min": 0.22341156005859375, "timer/agent.report_max": 0.22341156005859375, "fps": 4.708733303187839}
+{"step": 352442, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061855670103092786}
+{"step": 352710, "episode/length": 267.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.04477611940298507}
+{"step": 352938, "episode/length": 227.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05263157894736842}
+{"step": 353226, "episode/length": 287.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.041666666666666664}
+{"step": 353393, "episode/length": 166.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.059880239520958084}
+{"step": 353600, "episode/length": 206.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.05314009661835749}
+{"step": 353800, "episode/length": 199.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.06}
+{"step": 353853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416940477159288, "train/action_min": 0.0, "train/action_std": 3.2876918613910675, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046030869293544024, "train/actor_opt_grad_steps": 176015.0, "train/actor_opt_loss": -10.68820125837293, "train/adv_mag": 0.4584004663758808, "train/adv_max": 0.42333517885870403, "train/adv_mean": 0.0029719676632440598, "train/adv_min": -0.3689837252928151, "train/adv_std": 0.051402882776326604, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 2.6768738779776096e-05, "train/cont_loss_std": 0.0006495213279558401, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00039603584243271445, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 2.5251949723569132e-05, "train/cont_pred": 0.9947629728251033, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.039798736572266, "train/dyn_loss_std": 8.651122642887962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.102900341980987, "train/extr_critic_critic_opt_grad_steps": 176015.0, "train/extr_critic_critic_opt_loss": 16511.742865668402, "train/extr_critic_mag": 9.633411831325954, "train/extr_critic_max": 9.633411831325954, "train/extr_critic_mean": 2.5476836231019764, "train/extr_critic_min": -0.5561802287896475, "train/extr_critic_std": 2.3985476427608066, "train/extr_return_normed_mag": 1.4209328989187877, "train/extr_return_normed_max": 1.4209328989187877, "train/extr_return_normed_mean": 0.37158349094291526, "train/extr_return_normed_min": -0.09592671951072083, "train/extr_return_normed_std": 0.33078765413827366, "train/extr_return_rate": 0.7327600883113013, "train/extr_return_raw_mag": 10.275003949801127, "train/extr_return_raw_max": 10.275003949801127, "train/extr_return_raw_mean": 2.5694715264770718, "train/extr_return_raw_min": -0.8637355466683706, "train/extr_return_raw_std": 2.4292464935117297, "train/extr_reward_mag": 1.0388871000872717, "train/extr_reward_max": 1.0388871000872717, "train/extr_reward_mean": 0.04582281604719659, "train/extr_reward_min": -0.6564117289251752, "train/extr_reward_std": 0.2075262237340212, "train/image_loss_mean": 3.125021603372362, "train/image_loss_std": 7.914894812636906, "train/model_loss_mean": 6.197106884585486, "train/model_loss_std": 12.062440223164028, "train/model_opt_grad_norm": 33.87924944029914, "train/model_opt_grad_steps": 175874.98611111112, "train/model_opt_loss": 9576.180548773871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.4994256529543133, "train/policy_entropy_max": 2.4994256529543133, "train/policy_entropy_mean": 0.3627150747925043, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4768565462695228, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36188970216446453, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9744179223974546, "train/policy_randomness_mag": 0.882187570962641, "train/policy_randomness_max": 0.882187570962641, "train/policy_randomness_mean": 0.12802250331474674, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16830943307528892, "train/post_ent_mag": 54.980591244167755, "train/post_ent_max": 54.980591244167755, "train/post_ent_mean": 40.907625410291885, "train/post_ent_min": 18.95272085401747, "train/post_ent_std": 5.60070479578442, "train/prior_ent_mag": 76.17416434817844, "train/prior_ent_max": 76.17416434817844, "train/prior_ent_mean": 45.92784039179484, "train/prior_ent_min": 28.133602115843033, "train/prior_ent_std": 7.242002891169654, "train/rep_loss_mean": 5.039798736572266, "train/rep_loss_std": 8.651122642887962, "train/reward_avg": 0.031197102468771238, "train/reward_loss_mean": 0.04817927245878511, "train/reward_loss_std": 0.20127106809781659, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.01103362109926, "train/reward_neg_acc": 0.9949351946512858, "train/reward_neg_loss": 0.02259096670119713, "train/reward_pos_acc": 0.987799254556497, "train/reward_pos_loss": 0.7357959821820259, "train/reward_pred": 0.030836734377468627, "train/reward_rate": 0.03587510850694445, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.41995153043951305, "replay/size": 353790.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.845530097085576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2562111700224184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24246764183044, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.633910655975342, "timer/env.step_frac": 0.06206287472365293, "timer/env.step_avg": 0.01288652189209913, "timer/env.step_min": 0.002873659133911133, "timer/env.step_max": 1.6695716381072998, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.31137609481811523, "timer/replay.add_frac": 0.0010370821198737497, "timer/replay.add_avg": 0.00021533616515775604, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.010035037994384766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030628442764282227, "timer/logger.write_frac": 0.00010201236022620207, "timer/logger.write_avg": 0.030628442764282227, "timer/logger.write_min": 0.030628442764282227, "timer/logger.write_max": 0.030628442764282227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.874449253082275, "timer/agent.policy_frac": 0.03621889114652088, "timer/agent.policy_avg": 0.007520366011813468, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.01708245277404785, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06754207611083984, "timer/dataset_frac": 0.0002249584365640543, "timer/dataset_avg": 9.341919240780061e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.6121118068695, "timer/agent.train_frac": 0.8979812680213481, "timer/agent.train_avg": 0.3729074852100546, "timer/agent.train_min": 0.36359143257141113, "timer/agent.train_max": 0.38517332077026367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21885251998901367, "timer/agent.report_frac": 0.0007289192688427087, "timer/agent.report_avg": 0.21885251998901367, "timer/agent.report_min": 0.21885251998901367, "timer/agent.report_max": 0.21885251998901367, "fps": 4.816007148881056}
+{"step": 354207, "episode/length": 406.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.029484029484029485}
+{"step": 354391, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
+{"step": 354478, "episode/length": 86.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12643678160919541}
+{"step": 354631, "episode/length": 152.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 354881, "episode/length": 249.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.052}
+{"step": 355020, "episode/length": 138.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06474820143884892}
+{"step": 355307, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526771858946918, "train/action_min": 0.0, "train/action_std": 3.3298309371895987, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04530130969743206, "train/actor_opt_grad_steps": 176740.0, "train/actor_opt_loss": -15.34418724661004, "train/adv_mag": 0.4624244007345748, "train/adv_max": 0.42047259089064926, "train/adv_mean": 0.0013714187087515873, "train/adv_min": -0.3929552754310712, "train/adv_std": 0.05031451664558829, "train/cont_avg": 0.9938596960616438, "train/cont_loss_mean": 3.9114956216029404e-05, "train/cont_loss_std": 0.0012425419761693277, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021118418138665793, "train/cont_pos_acc": 0.9999865415978105, "train/cont_pos_loss": 2.5774730010545643e-05, "train/cont_pred": 0.9938552199977718, "train/cont_rate": 0.9938596960616438, "train/dyn_loss_mean": 4.854694085578396, "train/dyn_loss_std": 8.619693841019721, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0363714188745576, "train/extr_critic_critic_opt_grad_steps": 176740.0, "train/extr_critic_critic_opt_loss": 16227.543784781677, "train/extr_critic_mag": 9.83996860295126, "train/extr_critic_max": 9.83996860295126, "train/extr_critic_mean": 2.616578330732372, "train/extr_critic_min": -0.5994295224751511, "train/extr_critic_std": 2.476990067795531, "train/extr_return_normed_mag": 1.4534487332383248, "train/extr_return_normed_max": 1.4534487332383248, "train/extr_return_normed_mean": 0.38218346401436687, "train/extr_return_normed_min": -0.09801616300254652, "train/extr_return_normed_std": 0.3406220274428799, "train/extr_return_rate": 0.724386454445042, "train/extr_return_raw_mag": 10.500818801252809, "train/extr_return_raw_max": 10.500818801252809, "train/extr_return_raw_mean": 2.626595325665931, "train/extr_return_raw_min": -0.904318147326169, "train/extr_return_raw_std": 2.504158238842063, "train/extr_reward_mag": 1.0376896368314141, "train/extr_reward_max": 1.0376896368314141, "train/extr_reward_mean": 0.047665970323428716, "train/extr_reward_min": -0.6677600880191751, "train/extr_reward_std": 0.21327088834488228, "train/image_loss_mean": 2.8661971500475114, "train/image_loss_std": 7.467928406310408, "train/model_loss_mean": 5.827601609164721, "train/model_loss_std": 11.572209795860395, "train/model_opt_grad_norm": 33.320636801523705, "train/model_opt_grad_steps": 176599.0, "train/model_opt_loss": 7284.501986568921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4673568385921114, "train/policy_entropy_max": 2.4673568385921114, "train/policy_entropy_mean": 0.36146715732469953, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47310111702304997, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36162836176075347, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9758400606782469, "train/policy_randomness_mag": 0.870868688576842, "train/policy_randomness_max": 0.870868688576842, "train/policy_randomness_mean": 0.1275820431031593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16698393327732608, "train/post_ent_mag": 54.94623320070031, "train/post_ent_max": 54.94623320070031, "train/post_ent_mean": 40.65580096310132, "train/post_ent_min": 18.78352444792447, "train/post_ent_std": 5.57756614031857, "train/prior_ent_mag": 76.06323336248528, "train/prior_ent_max": 76.06323336248528, "train/prior_ent_mean": 45.50379745274374, "train/prior_ent_min": 27.85723393583951, "train/prior_ent_std": 7.325313881651996, "train/rep_loss_mean": 4.854694085578396, "train/rep_loss_std": 8.619693841019721, "train/reward_avg": 0.03160985653633124, "train/reward_loss_mean": 0.04854891362459692, "train/reward_loss_std": 0.19860973362236806, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.015878974574886, "train/reward_neg_acc": 0.9950722921384524, "train/reward_neg_loss": 0.022361789881060384, "train/reward_pos_acc": 0.9877683495822018, "train/reward_pos_loss": 0.7350113522516538, "train/reward_pred": 0.03123963741611128, "train/reward_rate": 0.03672142551369863, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.1666666666666667, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 6.166666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4183073192834854, "replay/size": 355244.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.810761883301453e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.222797076344654e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0202946662903, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.92676877975464, "timer/env.step_frac": 0.056418745933777985, "timer/env.step_avg": 0.011641519105745969, "timer/env.step_min": 0.0026967525482177734, "timer/env.step_max": 1.752331018447876, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.30887460708618164, "timer/replay.add_frac": 0.0010295123782534108, "timer/replay.add_avg": 0.0002124309539794922, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.007907629013061523, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026655197143554688, "timer/logger.write_frac": 8.8844646903647e-05, "timer/logger.write_avg": 0.026655197143554688, "timer/logger.write_min": 0.026655197143554688, "timer/logger.write_max": 0.026655197143554688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.88132381439209, "timer/agent.policy_frac": 0.03626862584911225, "timer/agent.policy_avg": 0.007483716516088095, "timer/agent.policy_min": 0.005671024322509766, "timer/agent.policy_max": 0.018915891647338867, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06734395027160645, "timer/dataset_frac": 0.0002244646494548393, "timer/dataset_avg": 9.263266887428672e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.1104464530945, "timer/agent.train_frac": 0.9036403579119474, "timer/agent.train_avg": 0.3729167076383693, "timer/agent.train_min": 0.3661174774169922, "timer/agent.train_max": 0.38983583450317383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228264808654785, "timer/agent.report_frac": 0.0007408920397661456, "timer/agent.report_avg": 0.22228264808654785, "timer/agent.report_min": 0.22228264808654785, "timer/agent.report_max": 0.22228264808654785, "fps": 4.846273731757274}
+{"step": 355342, "episode/length": 321.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.024844720496894408}
+{"step": 355509, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
+{"step": 355676, "episode/length": 166.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.059880239520958084}
+{"step": 355868, "episode/length": 191.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.052083333333333336}
+{"step": 356097, "episode/length": 228.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.043668122270742356}
+{"step": 356261, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
+{"step": 356539, "episode/length": 277.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.039568345323741004}
+{"step": 356601, "episode/length": 61.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.08064516129032258}
+{"step": 356717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558101109095982, "train/action_min": 0.0, "train/action_std": 3.4037674461092267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04598038036908422, "train/actor_opt_grad_steps": 177455.0, "train/actor_opt_loss": -12.254481978980559, "train/adv_mag": 0.4549905845097133, "train/adv_max": 0.3984582620007651, "train/adv_mean": 0.0026442003982083406, "train/adv_min": -0.3962146343929427, "train/adv_std": 0.05049501268991402, "train/cont_avg": 0.9942940848214286, "train/cont_loss_mean": 0.00012214416671102617, "train/cont_loss_std": 0.0038043999077485425, "train/cont_neg_acc": 0.9948412699358804, "train/cont_neg_loss": 0.019410223834724353, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.2504039985802454e-05, "train/cont_pred": 0.9943113718714033, "train/cont_rate": 0.9942940848214286, "train/dyn_loss_mean": 4.818998054095677, "train/dyn_loss_std": 8.612401628494263, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0252301752567292, "train/extr_critic_critic_opt_grad_steps": 177455.0, "train/extr_critic_critic_opt_loss": 16320.707575334822, "train/extr_critic_mag": 9.696993391854422, "train/extr_critic_max": 9.696993391854422, "train/extr_critic_mean": 2.604939067363739, "train/extr_critic_min": -0.5780646800994873, "train/extr_critic_std": 2.408025760310037, "train/extr_return_normed_mag": 1.4490724563598634, "train/extr_return_normed_max": 1.4490724563598634, "train/extr_return_normed_mean": 0.38561262339353564, "train/extr_return_normed_min": -0.10108369418552944, "train/extr_return_normed_std": 0.3348340570926666, "train/extr_return_rate": 0.7329836692128863, "train/extr_return_raw_mag": 10.37713805607387, "train/extr_return_raw_max": 10.37713805607387, "train/extr_return_raw_mean": 2.624219158717564, "train/extr_return_raw_min": -0.9241947105952671, "train/extr_return_raw_std": 2.441291454860142, "train/extr_reward_mag": 1.035415141923087, "train/extr_reward_max": 1.035415141923087, "train/extr_reward_mean": 0.04954308590718678, "train/extr_reward_min": -0.6742552331515721, "train/extr_reward_std": 0.21644977778196334, "train/image_loss_mean": 2.892471740927015, "train/image_loss_std": 7.922629547119141, "train/model_loss_mean": 5.83390064239502, "train/model_loss_std": 12.039055476869855, "train/model_opt_grad_norm": 33.65627726146153, "train/model_opt_grad_steps": 177313.45714285714, "train/model_opt_loss": 7830.259256417411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1357.142857142857, "train/policy_entropy_mag": 2.473171366964068, "train/policy_entropy_max": 2.473171366964068, "train/policy_entropy_mean": 0.3592765869838851, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4765570878982544, "train/policy_logprob_mag": 7.438384212766375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35981641156332833, "train/policy_logprob_min": -7.438384212766375, "train/policy_logprob_std": 0.9743342518806457, "train/policy_randomness_mag": 0.8729209576334273, "train/policy_randomness_max": 0.8729209576334273, "train/policy_randomness_mean": 0.1268088688807828, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16820373886397907, "train/post_ent_mag": 54.613259070260185, "train/post_ent_max": 54.613259070260185, "train/post_ent_mean": 40.71457524980818, "train/post_ent_min": 18.7048718724932, "train/post_ent_std": 5.5299211365836, "train/prior_ent_mag": 76.3109130859375, "train/prior_ent_max": 76.3109130859375, "train/prior_ent_mean": 45.525236402239116, "train/prior_ent_min": 27.816246822902134, "train/prior_ent_std": 7.248107051849365, "train/rep_loss_mean": 4.818998054095677, "train/rep_loss_std": 8.612401628494263, "train/reward_avg": 0.03321847058832646, "train/reward_loss_mean": 0.04990786771689142, "train/reward_loss_std": 0.20071268784148352, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0170067174094064, "train/reward_neg_acc": 0.9950995291982379, "train/reward_neg_loss": 0.022845221304201652, "train/reward_pos_acc": 0.9888092177254814, "train/reward_pos_loss": 0.7313928195408412, "train/reward_pred": 0.03290877935609647, "train/reward_rate": 0.038267299107142855, "stats/sum_log_reward": 7.975000083446503, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 6.75, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4461880251765251, "replay/size": 356654.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.8103008946628433e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.206698147117669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2747404575348, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.28231906890869, "timer/env.step_frac": 0.07753672198145253, "timer/env.step_avg": 0.016512283027594818, "timer/env.step_min": 0.0030236244201660156, "timer/env.step_max": 2.698164463043213, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.32335805892944336, "timer/replay.add_frac": 0.0010768739935857943, "timer/replay.add_avg": 0.00022933195668754848, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.008357048034667969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026598691940307617, "timer/logger.write_frac": 8.858118368457715e-05, "timer/logger.write_avg": 0.026598691940307617, "timer/logger.write_min": 0.026598691940307617, "timer/logger.write_max": 0.026598691940307617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036644935607910156, "timer/checkpoint.save_frac": 1.2203802275234178e-06, "timer/checkpoint.save_avg": 0.00036644935607910156, "timer/checkpoint.save_min": 0.00036644935607910156, "timer/checkpoint.save_max": 0.00036644935607910156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4278345108032227, "timer/agent.save_frac": 0.004755093647329782, "timer/agent.save_avg": 1.4278345108032227, "timer/agent.save_min": 1.4278345108032227, "timer/agent.save_max": 1.4278345108032227, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.557868957519531e-05, "timer/replay.save_frac": 2.5169845941764704e-07, "timer/replay.save_avg": 7.557868957519531e-05, "timer/replay.save_min": 7.557868957519531e-05, "timer/replay.save_max": 7.557868957519531e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.748071193695068, "timer/agent.policy_frac": 0.04245469057527307, "timer/agent.policy_avg": 0.009041185243755367, "timer/agent.policy_min": 0.005708932876586914, "timer/agent.policy_max": 1.4179816246032715, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06629443168640137, "timer/dataset_frac": 0.0002207792489817398, "timer/dataset_avg": 9.403465487432817e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.12876868247986, "timer/agent.train_frac": 0.8762933847900265, "timer/agent.train_avg": 0.37323229600351754, "timer/agent.train_min": 0.36631202697753906, "timer/agent.train_max": 0.4593789577484131, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22159409523010254, "timer/agent.report_frac": 0.0007379711489965992, "timer/agent.report_avg": 0.22159409523010254, "timer/agent.report_min": 0.22159409523010254, "timer/agent.report_max": 0.22159409523010254, "fps": 4.695634138042095}
+{"step": 356825, "episode/length": 223.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.049107142857142856}
+{"step": 357035, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.04285714285714286}
+{"step": 357189, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
+{"step": 357453, "episode/length": 263.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.03787878787878788}
+{"step": 357607, "episode/length": 153.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03896103896103896}
+{"step": 357776, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
+{"step": 357920, "episode/length": 143.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.0625}
+{"step": 358092, "episode/length": 171.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.06976744186046512}
+{"step": 358157, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435062832302517, "train/action_min": 0.0, "train/action_std": 3.3334021965662637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04452054916570584, "train/actor_opt_grad_steps": 178165.0, "train/actor_opt_loss": -13.300645836525494, "train/adv_mag": 0.4748219706945949, "train/adv_max": 0.42574697567356956, "train/adv_mean": 0.001965365477777444, "train/adv_min": -0.38650193189581233, "train/adv_std": 0.050469215855830245, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 4.985567176597606e-05, "train/cont_loss_std": 0.0014995793463804653, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005132688029757699, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 9.861845803982305e-06, "train/cont_pred": 0.9942827133668793, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.886370867490768, "train/dyn_loss_std": 8.717350039217207, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0572491453753576, "train/extr_critic_critic_opt_grad_steps": 178165.0, "train/extr_critic_critic_opt_loss": 16099.316867404514, "train/extr_critic_mag": 9.941633502642313, "train/extr_critic_max": 9.941633502642313, "train/extr_critic_mean": 2.5226016127400928, "train/extr_critic_min": -0.6004653208785586, "train/extr_critic_std": 2.4032390216986337, "train/extr_return_normed_mag": 1.4819068196747038, "train/extr_return_normed_max": 1.4819068196747038, "train/extr_return_normed_mean": 0.3756677893300851, "train/extr_return_normed_min": -0.09883895123170482, "train/extr_return_normed_std": 0.3362678976522552, "train/extr_return_rate": 0.730585435198413, "train/extr_return_raw_mag": 10.529174579514397, "train/extr_return_raw_max": 10.529174579514397, "train/extr_return_raw_mean": 2.536748338076803, "train/extr_return_raw_min": -0.895154368546274, "train/extr_return_raw_std": 2.4312388367123074, "train/extr_reward_mag": 1.0330158405833774, "train/extr_reward_max": 1.0330158405833774, "train/extr_reward_mean": 0.046044489161835775, "train/extr_reward_min": -0.6526461790005366, "train/extr_reward_std": 0.20914525290330252, "train/image_loss_mean": 2.974193634258376, "train/image_loss_std": 7.701571173138088, "train/model_loss_mean": 5.953191598256429, "train/model_loss_std": 11.863384882609049, "train/model_opt_grad_norm": 33.54285158051385, "train/model_opt_grad_steps": 178023.0, "train/model_opt_loss": 8440.308180067273, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.514991177452935, "train/policy_entropy_max": 2.514991177452935, "train/policy_entropy_mean": 0.36948295103179085, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49379679850406116, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36888805238737, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9806502246194415, "train/policy_randomness_mag": 0.8876815198196305, "train/policy_randomness_max": 0.8876815198196305, "train/policy_randomness_mean": 0.13041126769449976, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17428860006233057, "train/post_ent_mag": 54.78697888056437, "train/post_ent_max": 54.78697888056437, "train/post_ent_mean": 40.84308237499661, "train/post_ent_min": 19.0371427403556, "train/post_ent_std": 5.528593003749847, "train/prior_ent_mag": 76.2588399251302, "train/prior_ent_max": 76.2588399251302, "train/prior_ent_mean": 45.721498542361786, "train/prior_ent_min": 27.873740355173748, "train/prior_ent_std": 7.253886428144243, "train/rep_loss_mean": 4.886370867490768, "train/rep_loss_std": 8.717350039217207, "train/reward_avg": 0.031262206793245345, "train/reward_loss_mean": 0.0471255303774443, "train/reward_loss_std": 0.19019180536270142, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0109718607531653, "train/reward_neg_acc": 0.9952719542715285, "train/reward_neg_loss": 0.021718400491711993, "train/reward_pos_acc": 0.9880151641037729, "train/reward_pos_loss": 0.7269646558496687, "train/reward_pred": 0.031055671654434666, "train/reward_rate": 0.036214192708333336, "stats/sum_log_reward": 7.975000202655792, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.34183498844504356, "replay/size": 358094.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7574105792575414e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3382070594363743e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19931149482727, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.046135663986206, "timer/env.step_frac": 0.06677608807351186, "timer/env.step_avg": 0.013920927544434865, "timer/env.step_min": 0.002905607223510742, "timer/env.step_max": 1.671617031097412, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28426504135131836, "timer/replay.add_frac": 0.0009469210303509191, "timer/replay.add_avg": 0.00019740627871619331, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.004054069519042969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03207898139953613, "timer/logger.write_frac": 0.0001068589439456089, "timer/logger.write_avg": 0.03207898139953613, "timer/logger.write_min": 0.03207898139953613, "timer/logger.write_max": 0.03207898139953613, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.734387636184692, "timer/agent.policy_frac": 0.03575753582755854, "timer/agent.policy_avg": 0.007454435858461592, "timer/agent.policy_min": 0.005694866180419922, "timer/agent.policy_max": 0.016244173049926758, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06569075584411621, "timer/dataset_frac": 0.00021882380581425193, "timer/dataset_avg": 9.123716089460585e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.3400032520294, "timer/agent.train_frac": 0.8938728137511174, "timer/agent.train_avg": 0.37269444896115195, "timer/agent.train_min": 0.36674928665161133, "timer/agent.train_max": 0.3865830898284912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21815228462219238, "timer/agent.report_frac": 0.0007266914888509042, "timer/agent.report_avg": 0.21815228462219238, "timer/agent.report_min": 0.21815228462219238, "timer/agent.report_max": 0.21815228462219238, "fps": 4.796729208587681}
+{"step": 358562, "episode/length": 469.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.027659574468085105}
+{"step": 358738, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.056818181818181816}
+{"step": 358917, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055865921787709494}
+{"step": 359162, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04897959183673469}
+{"step": 359331, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
+{"step": 359501, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.10000005364418, "episode/reward_rate": 0.06470588235294118}
+{"step": 359611, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501289263163527, "train/action_min": 0.0, "train/action_std": 3.344777953134824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04528029329360348, "train/actor_opt_grad_steps": 178890.0, "train/actor_opt_loss": -12.770180171483183, "train/adv_mag": 0.44225730430589966, "train/adv_max": 0.39251848116312943, "train/adv_mean": 0.002938480624417112, "train/adv_min": -0.3918188771564666, "train/adv_std": 0.05074792421639782, "train/cont_avg": 0.9945553296232876, "train/cont_loss_mean": 0.00018438171739427624, "train/cont_loss_std": 0.005880452377186573, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.004488269935442475, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 0.00016016629105532635, "train/cont_pred": 0.9945578281193563, "train/cont_rate": 0.9945553296232876, "train/dyn_loss_mean": 4.943293901338969, "train/dyn_loss_std": 8.701815637823653, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0545234549535465, "train/extr_critic_critic_opt_grad_steps": 178890.0, "train/extr_critic_critic_opt_loss": 16170.246949914384, "train/extr_critic_mag": 9.555983608716154, "train/extr_critic_max": 9.555983608716154, "train/extr_critic_mean": 2.496199612748133, "train/extr_critic_min": -0.5717006072606126, "train/extr_critic_std": 2.3365198994336063, "train/extr_return_normed_mag": 1.4474437955307633, "train/extr_return_normed_max": 1.4474437955307633, "train/extr_return_normed_mean": 0.37754584603930175, "train/extr_return_normed_min": -0.09313872476963148, "train/extr_return_normed_std": 0.33092213166903145, "train/extr_return_rate": 0.7212275629990721, "train/extr_return_raw_mag": 10.19641377174691, "train/extr_return_raw_max": 10.19641377174691, "train/extr_return_raw_mean": 2.517261023390783, "train/extr_return_raw_min": -0.8620153420592007, "train/extr_return_raw_std": 2.375595561445576, "train/extr_reward_mag": 1.045495039796176, "train/extr_reward_max": 1.045495039796176, "train/extr_reward_mean": 0.04745958735273309, "train/extr_reward_min": -0.6521587192195736, "train/extr_reward_std": 0.21163326950922404, "train/image_loss_mean": 3.0301109813664056, "train/image_loss_std": 7.777033570694597, "train/model_loss_mean": 6.045976756370231, "train/model_loss_std": 11.946700801588085, "train/model_opt_grad_norm": 33.367119044473725, "train/model_opt_grad_steps": 178747.16438356164, "train/model_opt_loss": 8748.87815041738, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.4991913886919415, "train/policy_entropy_max": 2.4991913886919415, "train/policy_entropy_mean": 0.368137681729173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49225094138759456, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36739437016722276, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 0.9798918921653539, "train/policy_randomness_mag": 0.8821048834552504, "train/policy_randomness_max": 0.8821048834552504, "train/policy_randomness_mean": 0.12993644473895635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17374298109175407, "train/post_ent_mag": 54.72731932548628, "train/post_ent_max": 54.72731932548628, "train/post_ent_mean": 40.80296863921701, "train/post_ent_min": 18.61353129556734, "train/post_ent_std": 5.602081716877141, "train/prior_ent_mag": 76.21935167704542, "train/prior_ent_max": 76.21935167704542, "train/prior_ent_mean": 45.731443065486545, "train/prior_ent_min": 27.533321145462665, "train/prior_ent_std": 7.350043277217917, "train/rep_loss_mean": 4.943293901338969, "train/rep_loss_std": 8.701815637823653, "train/reward_avg": 0.03136237141714521, "train/reward_loss_mean": 0.04970508489808808, "train/reward_loss_std": 0.20671115284913208, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0216347093451512, "train/reward_neg_acc": 0.9946109538208948, "train/reward_neg_loss": 0.023857383325389805, "train/reward_pos_acc": 0.9857475275862707, "train/reward_pos_loss": 0.7381901014341067, "train/reward_pred": 0.031038212475098977, "train/reward_rate": 0.0362398330479452, "stats/sum_log_reward": 9.766666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.5, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.28544137130180997, "replay/size": 359548.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.783214207036623e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2123232202647969e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32442450523376, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.050961017608643, "timer/env.step_frac": 0.056775139237173484, "timer/env.step_avg": 0.01172693329959329, "timer/env.step_min": 0.002969026565551758, "timer/env.step_max": 1.867708683013916, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2999894618988037, "timer/replay.add_frac": 0.0009988846641195372, "timer/replay.add_avg": 0.00020632012510234094, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.009500503540039062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02856135368347168, "timer/logger.write_frac": 9.510166790638082e-05, "timer/logger.write_avg": 0.02856135368347168, "timer/logger.write_min": 0.02856135368347168, "timer/logger.write_max": 0.02856135368347168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.034961462020874, "timer/agent.policy_frac": 0.036743469933224054, "timer/agent.policy_avg": 0.007589382023398125, "timer/agent.policy_min": 0.005631923675537109, "timer/agent.policy_max": 0.022880077362060547, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06818032264709473, "timer/dataset_frac": 0.00022702223690070384, "timer/dataset_avg": 9.378311230687033e-05, "timer/dataset_min": 7.295608520507812e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.1362729072571, "timer/agent.train_frac": 0.9028112627001205, "timer/agent.train_avg": 0.37295223233460395, "timer/agent.train_min": 0.36598873138427734, "timer/agent.train_max": 0.3850517272949219, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22366547584533691, "timer/agent.report_frac": 0.0007447462064193154, "timer/agent.report_avg": 0.22366547584533691, "timer/agent.report_min": 0.22366547584533691, "timer/agent.report_max": 0.22366547584533691, "fps": 4.841329812528537}
+{"step": 359672, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04678362573099415}
+{"step": 359904, "episode/length": 231.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05172413793103448}
+{"step": 360064, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
+{"step": 360496, "episode/length": 431.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027777777777777776}
+{"step": 360679, "episode/length": 182.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04371584699453552}
+{"step": 360847, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05952380952380952}
+{"step": 361018, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06432748538011696}
+{"step": 361033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.452174227002641, "train/action_min": 0.0, "train/action_std": 3.3485438084938157, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04431107540575551, "train/actor_opt_grad_steps": 179610.0, "train/actor_opt_loss": -13.169916133645554, "train/adv_mag": 0.4810629959257556, "train/adv_max": 0.445622024611688, "train/adv_mean": 0.002150392552926271, "train/adv_min": -0.3683820925128292, "train/adv_std": 0.05006246079861278, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 2.332477207850113e-05, "train/cont_loss_std": 0.0005806084131954392, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005105085868013754, "train/cont_pos_acc": 0.9999999748149389, "train/cont_pos_loss": 2.1032000829499865e-05, "train/cont_pred": 0.9944953549076134, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 4.9683890040491665, "train/dyn_loss_std": 8.66535859040811, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0339448284095443, "train/extr_critic_critic_opt_grad_steps": 179610.0, "train/extr_critic_critic_opt_loss": 16073.750728983274, "train/extr_critic_mag": 9.84377650140037, "train/extr_critic_max": 9.84377650140037, "train/extr_critic_mean": 2.5258326362556134, "train/extr_critic_min": -0.560103114222137, "train/extr_critic_std": 2.3928606963493455, "train/extr_return_normed_mag": 1.471831612184014, "train/extr_return_normed_max": 1.471831612184014, "train/extr_return_normed_mean": 0.3739316138163419, "train/extr_return_normed_min": -0.09696213428823042, "train/extr_return_normed_std": 0.3319054279528873, "train/extr_return_rate": 0.7291391970406116, "train/extr_return_raw_mag": 10.556513638563558, "train/extr_return_raw_max": 10.556513638563558, "train/extr_return_raw_mean": 2.541535412761527, "train/extr_return_raw_min": -0.8975975790493925, "train/extr_return_raw_std": 2.42395534985502, "train/extr_reward_mag": 1.03521187540511, "train/extr_reward_max": 1.03521187540511, "train/extr_reward_mean": 0.045551854959675966, "train/extr_reward_min": -0.6670196610437312, "train/extr_reward_std": 0.20728731722059385, "train/image_loss_mean": 2.9348131116007417, "train/image_loss_std": 7.980171277489461, "train/model_loss_mean": 5.964074450479427, "train/model_loss_std": 12.156146815125371, "train/model_opt_grad_norm": 33.21301882031938, "train/model_opt_grad_steps": 179467.0, "train/model_opt_loss": 10927.78076859595, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.484783622580515, "train/policy_entropy_max": 2.484783622580515, "train/policy_entropy_mean": 0.36159413843087745, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4810753817289648, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36080484071248015, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9741229683580533, "train/policy_randomness_mag": 0.8770195741049001, "train/policy_randomness_max": 0.8770195741049001, "train/policy_randomness_mean": 0.12762686138001966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16979849653344758, "train/post_ent_mag": 54.90027382004429, "train/post_ent_max": 54.90027382004429, "train/post_ent_mean": 40.801273453403525, "train/post_ent_min": 18.881452493264643, "train/post_ent_std": 5.560575364341198, "train/prior_ent_mag": 76.11769942162742, "train/prior_ent_max": 76.11769942162742, "train/prior_ent_mean": 45.72826535936812, "train/prior_ent_min": 27.859991825802226, "train/prior_ent_std": 7.299378865201708, "train/rep_loss_mean": 4.9683890040491665, "train/rep_loss_std": 8.66535859040811, "train/reward_avg": 0.030532019934289053, "train/reward_loss_mean": 0.048204596351150056, "train/reward_loss_std": 0.20717816338152953, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.011465952429973, "train/reward_neg_acc": 0.9952819028370817, "train/reward_neg_loss": 0.02251132506824715, "train/reward_pos_acc": 0.986862708984966, "train/reward_pos_loss": 0.7449485122317999, "train/reward_pred": 0.030206636578159432, "train/reward_rate": 0.035500110035211266, "stats/sum_log_reward": 8.81428589139666, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.714285714285714, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3989273011684418, "replay/size": 360970.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.7845176986501185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2100748874970126e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3161082267761, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.804539680480957, "timer/env.step_frac": 0.07260529516457309, "timer/env.step_avg": 0.01533371285547184, "timer/env.step_min": 0.0027980804443359375, "timer/env.step_max": 3.3814804553985596, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.30423402786254883, "timer/replay.add_frac": 0.0010130459856412836, "timer/replay.add_avg": 0.00021394798021276288, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.013806581497192383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031461477279663086, "timer/logger.write_frac": 0.00010476120467006633, "timer/logger.write_avg": 0.031461477279663086, "timer/logger.write_min": 0.031461477279663086, "timer/logger.write_max": 0.031461477279663086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0009768009185791016, "timer/checkpoint.save_frac": 3.2525758419907833e-06, "timer/checkpoint.save_avg": 0.0009768009185791016, "timer/checkpoint.save_min": 0.0009768009185791016, "timer/checkpoint.save_max": 0.0009768009185791016, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.528881549835205, "timer/agent.save_frac": 0.005090907573564815, "timer/agent.save_avg": 1.528881549835205, "timer/agent.save_min": 1.528881549835205, "timer/agent.save_max": 1.528881549835205, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8659504001920255e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.254530191421509, "timer/agent.policy_frac": 0.040805437523077547, "timer/agent.policy_avg": 0.008617813074136083, "timer/agent.policy_min": 0.005717754364013672, "timer/agent.policy_max": 1.513282060623169, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06658101081848145, "timer/dataset_frac": 0.00022170309548698758, "timer/dataset_avg": 9.364417836635928e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00022268295288085938, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.14647674560547, "timer/agent.train_frac": 0.8828912918163777, "timer/agent.train_avg": 0.37292050175190644, "timer/agent.train_min": 0.3653748035430908, "timer/agent.train_max": 0.442535400390625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2234477996826172, "timer/agent.report_frac": 0.0007440420062778858, "timer/agent.report_avg": 0.2234477996826172, "timer/agent.report_min": 0.2234477996826172, "timer/agent.report_max": 0.2234477996826172, "fps": 4.734928623802482}
+{"step": 361230, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05660377358490566}
+{"step": 361351, "episode/length": 120.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.08264462809917356}
+{"step": 361398, "episode/length": 46.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.10638297872340426}
+{"step": 361623, "episode/length": 224.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05333333333333334}
+{"step": 361800, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05649717514124294}
+{"step": 361960, "episode/length": 159.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06875}
+{"step": 362081, "episode/length": 120.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.10743801652892562}
+{"step": 362277, "episode/length": 195.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05102040816326531}
+{"step": 362471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562598334418403, "train/action_min": 0.0, "train/action_std": 3.3902882006433277, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04533232764030496, "train/actor_opt_grad_steps": 180325.0, "train/actor_opt_loss": -11.710057233770689, "train/adv_mag": 0.45029711143838036, "train/adv_max": 0.4153740294277668, "train/adv_mean": 0.0027156015998520567, "train/adv_min": -0.3800005769977967, "train/adv_std": 0.05037579338790642, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.032789726293812e-05, "train/cont_loss_std": 0.0002446177442341953, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015865816836389647, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 9.453216030408385e-06, "train/cont_pred": 0.9943901780578825, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.901248362329271, "train/dyn_loss_std": 8.645071427027384, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0173517498705122, "train/extr_critic_critic_opt_grad_steps": 180325.0, "train/extr_critic_critic_opt_loss": 16140.086452907986, "train/extr_critic_mag": 9.753647062513563, "train/extr_critic_max": 9.753647062513563, "train/extr_critic_mean": 2.4826673600408764, "train/extr_critic_min": -0.6096053421497345, "train/extr_critic_std": 2.3902975436713962, "train/extr_return_normed_mag": 1.4621465785635843, "train/extr_return_normed_max": 1.4621465785635843, "train/extr_return_normed_mean": 0.36693089952071506, "train/extr_return_normed_min": -0.1011050475968255, "train/extr_return_normed_std": 0.33086616918444633, "train/extr_return_rate": 0.7108498281902738, "train/extr_return_raw_mag": 10.538346396552193, "train/extr_return_raw_max": 10.538346396552193, "train/extr_return_raw_mean": 2.502557247877121, "train/extr_return_raw_min": -0.931378349247906, "train/extr_return_raw_std": 2.4276236875189676, "train/extr_reward_mag": 1.0406687160332997, "train/extr_reward_max": 1.0406687160332997, "train/extr_reward_mean": 0.046828003108708396, "train/extr_reward_min": -0.6685145845015844, "train/extr_reward_std": 0.2100832551303837, "train/image_loss_mean": 2.9837142328421273, "train/image_loss_std": 7.999757846196492, "train/model_loss_mean": 5.973613818486531, "train/model_loss_std": 12.117346154318916, "train/model_opt_grad_norm": 33.08254192935096, "train/model_opt_grad_steps": 180181.97222222222, "train/model_opt_loss": 15456.823499891492, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.4870988527933755, "train/policy_entropy_max": 2.4870988527933755, "train/policy_entropy_mean": 0.3670087137983905, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48670993372797966, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36705898286567795, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9802201886971792, "train/policy_randomness_mag": 0.8778367522690032, "train/policy_randomness_max": 0.8778367522690032, "train/policy_randomness_mean": 0.1295379718972577, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17178724664780828, "train/post_ent_mag": 54.7734572092692, "train/post_ent_max": 54.7734572092692, "train/post_ent_mean": 40.82768641577827, "train/post_ent_min": 19.08395481109619, "train/post_ent_std": 5.567227145036061, "train/prior_ent_mag": 76.18664752112494, "train/prior_ent_max": 76.18664752112494, "train/prior_ent_mean": 45.71384308073256, "train/prior_ent_min": 27.46839581595527, "train/prior_ent_std": 7.296625415484111, "train/rep_loss_mean": 4.901248362329271, "train/rep_loss_std": 8.645071427027384, "train/reward_avg": 0.03153076165148781, "train/reward_loss_mean": 0.049140239807052746, "train/reward_loss_std": 0.20276275277137756, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0152941015031602, "train/reward_neg_acc": 0.9949855224953758, "train/reward_neg_loss": 0.022963200475917094, "train/reward_pos_acc": 0.9879716957608858, "train/reward_pos_loss": 0.7371498718857765, "train/reward_pred": 0.031101873066897195, "train/reward_rate": 0.03660753038194445, "stats/sum_log_reward": 9.10000017285347, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 5.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.28144325502216816, "replay/size": 362408.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.86393948954236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2247966957357564e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35951018333435, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.15792417526245, "timer/env.step_frac": 0.06711265497456163, "timer/env.step_avg": 0.014018027938290996, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.8116743564605713, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.31444597244262695, "timer/replay.add_frac": 0.0010468986723633105, "timer/replay.add_avg": 0.00021866896553729274, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.006780862808227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03509831428527832, "timer/logger.write_frac": 0.00011685434652578473, "timer/logger.write_avg": 0.03509831428527832, "timer/logger.write_min": 0.03509831428527832, "timer/logger.write_max": 0.03509831428527832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.88345980644226, "timer/agent.policy_frac": 0.036234776783991895, "timer/agent.policy_avg": 0.007568469962755397, "timer/agent.policy_min": 0.005574226379394531, "timer/agent.policy_max": 0.017787694931030273, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06898379325866699, "timer/dataset_frac": 0.00022967074762027828, "timer/dataset_avg": 9.594407963653267e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.0016887187957763672, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.1990647315979, "timer/agent.train_frac": 0.8929268281463562, "timer/agent.train_avg": 0.37301677987704857, "timer/agent.train_min": 0.3648412227630615, "timer/agent.train_max": 0.3888967037200928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21953582763671875, "timer/agent.report_frac": 0.0007309101932637918, "timer/agent.report_avg": 0.21953582763671875, "timer/agent.report_min": 0.21953582763671875, "timer/agent.report_max": 0.21953582763671875, "fps": 4.787515485412991}
+{"step": 362482, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04878048780487805}
+{"step": 362731, "episode/length": 248.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.04819277108433735}
+{"step": 362915, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.059782608695652176}
+{"step": 363271, "episode/length": 355.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.028089887640449437}
+{"step": 363472, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04975124378109453}
+{"step": 363698, "episode/length": 225.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04424778761061947}
+{"step": 363923, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468831101508989, "train/action_min": 0.0, "train/action_std": 3.340445495631597, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04583057143712697, "train/actor_opt_grad_steps": 181050.0, "train/actor_opt_loss": -13.852644505566113, "train/adv_mag": 0.522140234300535, "train/adv_max": 0.4675903259074851, "train/adv_mean": 0.0021566980741064908, "train/adv_min": -0.4133034442385582, "train/adv_std": 0.05179197703526445, "train/cont_avg": 0.9941807577054794, "train/cont_loss_mean": 1.4628727236080124e-05, "train/cont_loss_std": 0.000368665546808213, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.198684188427263e-05, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.4348790648610914e-05, "train/cont_pred": 0.9941689314907545, "train/cont_rate": 0.9941807577054794, "train/dyn_loss_mean": 4.804503293886577, "train/dyn_loss_std": 8.576304840714965, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.04552521525997, "train/extr_critic_critic_opt_grad_steps": 181050.0, "train/extr_critic_critic_opt_loss": 16108.515103274829, "train/extr_critic_mag": 10.039658611767912, "train/extr_critic_max": 10.039658611767912, "train/extr_critic_mean": 2.5521374336660725, "train/extr_critic_min": -0.6027705604082918, "train/extr_critic_std": 2.461277857218703, "train/extr_return_normed_mag": 1.4874925335792646, "train/extr_return_normed_max": 1.4874925335792646, "train/extr_return_normed_mean": 0.3772139230819598, "train/extr_return_normed_min": -0.0958217770779786, "train/extr_return_normed_std": 0.3390458826332876, "train/extr_return_rate": 0.7144335447108909, "train/extr_return_raw_mag": 10.730386838521042, "train/extr_return_raw_max": 10.730386838521042, "train/extr_return_raw_mean": 2.568017007553414, "train/extr_return_raw_min": -0.9095725466127265, "train/extr_return_raw_std": 2.493094705555537, "train/extr_reward_mag": 1.0425857746437803, "train/extr_reward_max": 1.0425857746437803, "train/extr_reward_mean": 0.04622529977804994, "train/extr_reward_min": -0.6642248450893246, "train/extr_reward_std": 0.21000655015853986, "train/image_loss_mean": 2.9252844379372793, "train/image_loss_std": 7.815401946028618, "train/model_loss_mean": 5.857612965858146, "train/model_loss_std": 11.886725412656183, "train/model_opt_grad_norm": 30.95598287451757, "train/model_opt_grad_steps": 180906.0, "train/model_opt_loss": 14644.032400470891, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5085210571550345, "train/policy_entropy_max": 2.5085210571550345, "train/policy_entropy_mean": 0.37599880360577204, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5118084035507621, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3764787206094559, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 0.9928270137473328, "train/policy_randomness_mag": 0.8853978498341286, "train/policy_randomness_max": 0.8853978498341286, "train/policy_randomness_mean": 0.13271107534839682, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18064590757840301, "train/post_ent_mag": 54.52313274226776, "train/post_ent_max": 54.52313274226776, "train/post_ent_mean": 40.95633321265652, "train/post_ent_min": 18.89297263263023, "train/post_ent_std": 5.559847655361646, "train/prior_ent_mag": 76.21682551135756, "train/prior_ent_max": 76.21682551135756, "train/prior_ent_mean": 45.71496383457968, "train/prior_ent_min": 27.55581179057082, "train/prior_ent_std": 7.226106780849091, "train/rep_loss_mean": 4.804503293886577, "train/rep_loss_std": 8.576304840714965, "train/reward_avg": 0.031403841910092795, "train/reward_loss_mean": 0.049611985504831355, "train/reward_loss_std": 0.2021683391234646, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0135204449091872, "train/reward_neg_acc": 0.9951793281999353, "train/reward_neg_loss": 0.02346026221264715, "train/reward_pos_acc": 0.9870811553850566, "train/reward_pos_loss": 0.7371601911440288, "train/reward_pred": 0.031184387916367347, "train/reward_rate": 0.03673480308219178, "stats/sum_log_reward": 9.266667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4985481798648834, "replay/size": 363860.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.8754513112638276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2188985656444035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2641553878784, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.247998476028442, "timer/env.step_frac": 0.05744274888138959, "timer/env.step_avg": 0.011878786829220691, "timer/env.step_min": 0.003094196319580078, "timer/env.step_max": 1.6393568515777588, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.30265355110168457, "timer/replay.add_frac": 0.001007957645529549, "timer/replay.add_avg": 0.0002084390847807745, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004998207092285156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030463218688964844, "timer/logger.write_frac": 0.000101454729585064, "timer/logger.write_avg": 0.030463218688964844, "timer/logger.write_min": 0.030463218688964844, "timer/logger.write_max": 0.030463218688964844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 11.00007700920105, "timer/agent.policy_frac": 0.03663466588274999, "timer/agent.policy_avg": 0.007575810612397417, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.01941704750061035, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06827473640441895, "timer/dataset_frac": 0.0002273822405349126, "timer/dataset_avg": 9.404233664520515e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.8910641670227, "timer/agent.train_frac": 0.9021758318674041, "timer/agent.train_avg": 0.3731281875578825, "timer/agent.train_min": 0.366243839263916, "timer/agent.train_max": 0.3884408473968506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22323036193847656, "timer/agent.report_frac": 0.0007434465883885131, "timer/agent.report_avg": 0.22323036193847656, "timer/agent.report_min": 0.22323036193847656, "timer/agent.report_max": 0.22323036193847656, "fps": 4.83559726607778}
+{"step": 363953, "episode/length": 254.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.043137254901960784}
+{"step": 364054, "episode/length": 100.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09900990099009901}
+{"step": 364192, "episode/length": 137.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07971014492753623}
+{"step": 364346, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 364573, "episode/length": 226.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.048458149779735685}
+{"step": 364849, "episode/length": 275.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.036231884057971016}
+{"step": 364996, "episode/length": 146.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.07482993197278912}
+{"step": 365102, "episode/length": 105.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.11320754716981132}
+{"step": 365339, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503026827959947, "train/action_min": 0.0, "train/action_std": 3.34303806869077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04494227385017234, "train/actor_opt_grad_steps": 181770.0, "train/actor_opt_loss": -11.882146454193222, "train/adv_mag": 0.49034096195664206, "train/adv_max": 0.44029349256569233, "train/adv_mean": 0.0023497759082115217, "train/adv_min": -0.4390197530598708, "train/adv_std": 0.05110282797208974, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 1.716293881830571e-05, "train/cont_loss_std": 0.00035399270925320794, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007289276186960526, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 1.4548271557612064e-05, "train/cont_pred": 0.9948718933991982, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 4.9045956235536385, "train/dyn_loss_std": 8.584845066070557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0463700093014139, "train/extr_critic_critic_opt_grad_steps": 181770.0, "train/extr_critic_critic_opt_loss": 16185.621079995599, "train/extr_critic_mag": 9.811373885248749, "train/extr_critic_max": 9.811373885248749, "train/extr_critic_mean": 2.4573165698790214, "train/extr_critic_min": -0.5773646294231146, "train/extr_critic_std": 2.328014587012815, "train/extr_return_normed_mag": 1.478186115412645, "train/extr_return_normed_max": 1.478186115412645, "train/extr_return_normed_mean": 0.37025116132178776, "train/extr_return_normed_min": -0.08957528768920563, "train/extr_return_normed_std": 0.3260829037343952, "train/extr_return_rate": 0.7189049989404813, "train/extr_return_raw_mag": 10.479094424717863, "train/extr_return_raw_max": 10.479094424717863, "train/extr_return_raw_mean": 2.47429096698761, "train/extr_return_raw_min": -0.8475917128609939, "train/extr_return_raw_std": 2.3558779635899505, "train/extr_reward_mag": 1.036651030392714, "train/extr_reward_max": 1.036651030392714, "train/extr_reward_mean": 0.046843669101805756, "train/extr_reward_min": -0.6406367882876329, "train/extr_reward_std": 0.20947345818432284, "train/image_loss_mean": 3.051125341737774, "train/image_loss_std": 8.140540599822998, "train/model_loss_mean": 6.04290427288539, "train/model_loss_std": 12.26740438165799, "train/model_opt_grad_norm": 35.34974835624158, "train/model_opt_grad_steps": 181624.8028169014, "train/model_opt_loss": 10965.824101837588, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.4963250227377447, "train/policy_entropy_max": 2.4963250227377447, "train/policy_entropy_mean": 0.36758327337218005, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49497395124233945, "train/policy_logprob_mag": 7.438384176979603, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36814473947169074, "train/policy_logprob_min": -7.438384176979603, "train/policy_logprob_std": 0.9829396714626903, "train/policy_randomness_mag": 0.8810931830339028, "train/policy_randomness_max": 0.8810931830339028, "train/policy_randomness_mean": 0.1297407632982227, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17470408178551097, "train/post_ent_mag": 54.83499005814673, "train/post_ent_max": 54.83499005814673, "train/post_ent_mean": 40.77595138549805, "train/post_ent_min": 18.749936950038855, "train/post_ent_std": 5.585966875855352, "train/prior_ent_mag": 76.19184617593255, "train/prior_ent_max": 76.19184617593255, "train/prior_ent_mean": 45.67694107915314, "train/prior_ent_min": 27.48045161072637, "train/prior_ent_std": 7.291061549119546, "train/rep_loss_mean": 4.9045956235536385, "train/rep_loss_std": 8.584845066070557, "train/reward_avg": 0.031314645500355204, "train/reward_loss_mean": 0.049004375357443175, "train/reward_loss_std": 0.20255325797577978, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0095833674283095, "train/reward_neg_acc": 0.9945892641242121, "train/reward_neg_loss": 0.023244606514631862, "train/reward_pos_acc": 0.9856086725920019, "train/reward_pos_loss": 0.7381328109284522, "train/reward_pred": 0.03107104074000053, "train/reward_rate": 0.03611905809859155, "stats/sum_log_reward": 9.475000143051147, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3165602572262287, "replay/size": 365276.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.824968122493076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.205983808485128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37488174438477, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.5560085773468, "timer/env.step_frac": 0.06843451242650744, "timer/env.step_avg": 0.01451695520999068, "timer/env.step_min": 0.0030717849731445312, "timer/env.step_max": 1.6825168132781982, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.29720520973205566, "timer/replay.add_frac": 0.0009894476129497856, "timer/replay.add_avg": 0.00020989068483902236, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.005454063415527344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028583288192749023, "timer/logger.write_frac": 9.515871642380884e-05, "timer/logger.write_avg": 0.028583288192749023, "timer/logger.write_min": 0.028583288192749023, "timer/logger.write_max": 0.028583288192749023, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022912025451660156, "timer/checkpoint.save_frac": 7.627810061414523e-07, "timer/checkpoint.save_avg": 0.00022912025451660156, "timer/checkpoint.save_min": 0.00022912025451660156, "timer/checkpoint.save_max": 0.00022912025451660156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4718382358551025, "timer/agent.save_frac": 0.0049000043788868415, "timer/agent.save_avg": 1.4718382358551025, "timer/agent.save_min": 1.4718382358551025, "timer/agent.save_max": 1.4718382358551025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.91278076171875e-05, "timer/replay.save_frac": 1.9684671126231027e-07, "timer/replay.save_avg": 5.91278076171875e-05, "timer/replay.save_min": 5.91278076171875e-05, "timer/replay.save_max": 5.91278076171875e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.859586000442505, "timer/agent.policy_frac": 0.049470135166254765, "timer/agent.policy_avg": 0.010494057909917023, "timer/agent.policy_min": 0.005552530288696289, "timer/agent.policy_max": 2.8740692138671875, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06432771682739258, "timer/dataset_frac": 0.00021415810953904813, "timer/dataset_avg": 9.085835710083697e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.882652759552, "timer/agent.train_frac": 0.8785110500155363, "timer/agent.train_avg": 0.37271561124230507, "timer/agent.train_min": 0.36622071266174316, "timer/agent.train_max": 0.3863379955291748, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22030067443847656, "timer/agent.report_frac": 0.0007334190966938097, "timer/agent.report_avg": 0.22030067443847656, "timer/agent.report_min": 0.22030067443847656, "timer/agent.report_max": 0.22030067443847656, "fps": 4.7140233161648855}
+{"step": 365346, "episode/length": 243.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.040983606557377046}
+{"step": 365610, "episode/length": 263.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.041666666666666664}
+{"step": 365786, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06818181818181818}
+{"step": 365957, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04093567251461988}
+{"step": 366108, "episode/length": 150.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06622516556291391}
+{"step": 366262, "episode/length": 153.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.07142857142857142}
+{"step": 366471, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06698564593301436}
+{"step": 366655, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
+{"step": 366775, "stats/sum_log_reward": 9.850000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.33046925626695156, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476381113831426, "train/action_min": 0.0, "train/action_std": 3.350533814497397, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04568844949695426, "train/actor_opt_grad_steps": 182480.0, "train/actor_opt_loss": -10.935185943690824, "train/adv_mag": 0.46070803512989633, "train/adv_max": 0.4062912632042254, "train/adv_mean": 0.0031518984003373013, "train/adv_min": -0.3834199477249468, "train/adv_std": 0.05138752714429103, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 0.00020695535000544958, "train/cont_loss_std": 0.006465987347738378, "train/cont_neg_acc": 0.9956181536258106, "train/cont_neg_loss": 0.03136564667725189, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 1.3570615287405839e-05, "train/cont_pred": 0.9943963935677435, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.798043331629794, "train/dyn_loss_std": 8.663889166334984, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0626398744717451, "train/extr_critic_critic_opt_grad_steps": 182480.0, "train/extr_critic_critic_opt_loss": 16149.813008912852, "train/extr_critic_mag": 9.512257132731692, "train/extr_critic_max": 9.512257132731692, "train/extr_critic_mean": 2.5170762757180443, "train/extr_critic_min": -0.5737731272066143, "train/extr_critic_std": 2.377567616986557, "train/extr_return_normed_mag": 1.4443092833102589, "train/extr_return_normed_max": 1.4443092833102589, "train/extr_return_normed_mean": 0.38113222365647975, "train/extr_return_normed_min": -0.0987551035490674, "train/extr_return_normed_std": 0.33800284333632025, "train/extr_return_rate": 0.7115693214073987, "train/extr_return_raw_mag": 10.121287869735502, "train/extr_return_raw_max": 10.121287869735502, "train/extr_return_raw_mean": 2.5395119643547166, "train/extr_return_raw_min": -0.88184070503208, "train/extr_return_raw_std": 2.4101622272545185, "train/extr_reward_mag": 1.045207913492767, "train/extr_reward_max": 1.045207913492767, "train/extr_reward_mean": 0.04747439461799575, "train/extr_reward_min": -0.6720161874529341, "train/extr_reward_std": 0.21229770045045396, "train/image_loss_mean": 2.9672008887143204, "train/image_loss_std": 7.737281389639411, "train/model_loss_mean": 5.894516985181352, "train/model_loss_std": 11.866533601787728, "train/model_opt_grad_norm": 32.969577937059, "train/model_opt_grad_steps": 182334.0, "train/model_opt_loss": 8411.760707801497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.5296449896315454, "train/policy_entropy_max": 2.5296449896315454, "train/policy_entropy_mean": 0.37261933277190573, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.505053139068711, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37312522719443686, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 0.9891233393843745, "train/policy_randomness_mag": 0.8928536713962824, "train/policy_randomness_max": 0.8928536713962824, "train/policy_randomness_mean": 0.13151827318147874, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17826159550270565, "train/post_ent_mag": 54.757941984794506, "train/post_ent_max": 54.757941984794506, "train/post_ent_mean": 40.933183374539226, "train/post_ent_min": 19.047407042812292, "train/post_ent_std": 5.62059687224912, "train/prior_ent_mag": 76.2273031960071, "train/prior_ent_max": 76.2273031960071, "train/prior_ent_mean": 45.713859074552296, "train/prior_ent_min": 27.164484400144765, "train/prior_ent_std": 7.312766565403468, "train/rep_loss_mean": 4.798043331629794, "train/rep_loss_std": 8.663889166334984, "train/reward_avg": 0.03110007674131595, "train/reward_loss_mean": 0.048283162093918086, "train/reward_loss_std": 0.1965974082409496, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0143990080121537, "train/reward_neg_acc": 0.9949298349904342, "train/reward_neg_loss": 0.023083199655086224, "train/reward_pos_acc": 0.9891298421671693, "train/reward_pos_loss": 0.7206326756678837, "train/reward_pred": 0.030875561089897658, "train/reward_rate": 0.0360502860915493, "replay/size": 366712.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.832960527255342e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2113730887516627e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0066125392914, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.241297721862793, "timer/env.step_frac": 0.0674695052570277, "timer/env.step_avg": 0.014095611226923951, "timer/env.step_min": 0.003017902374267578, "timer/env.step_max": 1.697584867477417, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.29564332962036133, "timer/replay.add_frac": 0.0009854560441784975, "timer/replay.add_avg": 0.00020587975600303715, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0035164356231689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030092954635620117, "timer/logger.write_frac": 0.00010030763782474591, "timer/logger.write_avg": 0.030092954635620117, "timer/logger.write_min": 0.030092954635620117, "timer/logger.write_max": 0.030092954635620117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.82424259185791, "timer/agent.policy_frac": 0.036080013371172864, "timer/agent.policy_avg": 0.007537773392658712, "timer/agent.policy_min": 0.005640268325805664, "timer/agent.policy_max": 0.015337705612182617, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06914353370666504, "timer/dataset_frac": 0.00023047336564159705, "timer/dataset_avg": 9.630018622098195e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0025746822357177734, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.8452899456024, "timer/agent.train_frac": 0.8927979542801683, "timer/agent.train_avg": 0.37304357931142396, "timer/agent.train_min": 0.3665494918823242, "timer/agent.train_max": 0.39011120796203613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21863126754760742, "timer/agent.report_frac": 0.0007287548287588949, "timer/agent.report_avg": 0.21863126754760742, "timer/agent.report_min": 0.21863126754760742, "timer/agent.report_max": 0.21863126754760742, "fps": 4.786499120907958}
+{"step": 366905, "episode/length": 249.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.048}
+{"step": 366952, "episode/length": 46.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.10638297872340426}
+{"step": 367148, "episode/length": 195.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.05612244897959184}
+{"step": 367438, "episode/length": 289.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.041379310344827586}
+{"step": 367676, "episode/length": 237.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.046218487394957986}
+{"step": 367845, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
+{"step": 368091, "episode/length": 245.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.02032520325203252}
+{"step": 368219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532915507277397, "train/action_min": 0.0, "train/action_std": 3.3292592551610243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04512102871316753, "train/actor_opt_grad_steps": 183200.0, "train/actor_opt_loss": -13.031512331472685, "train/adv_mag": 0.45931604014684074, "train/adv_max": 0.3976274863497852, "train/adv_mean": 0.0022715797318123305, "train/adv_min": -0.39831217143633596, "train/adv_std": 0.0504540645912902, "train/cont_avg": 0.994314533390411, "train/cont_loss_mean": 2.520745908273119e-05, "train/cont_loss_std": 0.0006753753244150749, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00061270115346105, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 2.2680700679953365e-05, "train/cont_pred": 0.9943014448636198, "train/cont_rate": 0.994314533390411, "train/dyn_loss_mean": 4.918311063557455, "train/dyn_loss_std": 8.699812190173423, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0257921488317725, "train/extr_critic_critic_opt_grad_steps": 183200.0, "train/extr_critic_critic_opt_loss": 16209.937981592466, "train/extr_critic_mag": 9.528377663599302, "train/extr_critic_max": 9.528377663599302, "train/extr_critic_mean": 2.508448973093947, "train/extr_critic_min": -0.5810364893037979, "train/extr_critic_std": 2.362805918471454, "train/extr_return_normed_mag": 1.4367226411218512, "train/extr_return_normed_max": 1.4367226411218512, "train/extr_return_normed_mean": 0.37463478356191554, "train/extr_return_normed_min": -0.09323325054082152, "train/extr_return_normed_std": 0.33286412366449014, "train/extr_return_rate": 0.7213916615264057, "train/extr_return_raw_mag": 10.17199231500495, "train/extr_return_raw_max": 10.17199231500495, "train/extr_return_raw_mean": 2.5248068734391094, "train/extr_return_raw_min": -0.8443031637635949, "train/extr_return_raw_std": 2.396848252374832, "train/extr_reward_mag": 1.0368198662588042, "train/extr_reward_max": 1.0368198662588042, "train/extr_reward_mean": 0.046831933909083065, "train/extr_reward_min": -0.6364972330119512, "train/extr_reward_std": 0.21090760827064514, "train/image_loss_mean": 2.9803614877674676, "train/image_loss_std": 7.857951131585526, "train/model_loss_mean": 5.9813744793199515, "train/model_loss_std": 12.004617553867705, "train/model_opt_grad_norm": 29.627332360777135, "train/model_opt_grad_steps": 183054.0, "train/model_opt_loss": 14953.436135488013, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5347641690136635, "train/policy_entropy_max": 2.5347641690136635, "train/policy_entropy_mean": 0.3689803117758607, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5016891821606518, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3686486498950279, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 0.9838702466389905, "train/policy_randomness_mag": 0.8946605153279762, "train/policy_randomness_max": 0.8946605153279762, "train/policy_randomness_mean": 0.1302338596688558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17707426315301086, "train/post_ent_mag": 55.19871949496334, "train/post_ent_max": 55.19871949496334, "train/post_ent_mean": 40.75335782194791, "train/post_ent_min": 18.634904312760863, "train/post_ent_std": 5.6078255339844585, "train/prior_ent_mag": 76.22366625642124, "train/prior_ent_max": 76.22366625642124, "train/prior_ent_mean": 45.64987412544146, "train/prior_ent_min": 27.685698391640024, "train/prior_ent_std": 7.329583377054293, "train/rep_loss_mean": 4.918311063557455, "train/rep_loss_std": 8.699812190173423, "train/reward_avg": 0.03188142086034768, "train/reward_loss_mean": 0.050001131192053835, "train/reward_loss_std": 0.2038678083926031, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0122196739667082, "train/reward_neg_acc": 0.9948581963369291, "train/reward_neg_loss": 0.02392144815052209, "train/reward_pos_acc": 0.9907487042962688, "train/reward_pos_loss": 0.72907272675266, "train/reward_pred": 0.03164023262997196, "train/reward_rate": 0.0370023544520548, "stats/sum_log_reward": 8.242857456207275, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4934528853212084, "replay/size": 368156.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.831373357376564e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2075513023418733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20896553993225, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.83416175842285, "timer/env.step_frac": 0.0627368397361125, "timer/env.step_avg": 0.013043048309157099, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 1.7234697341918945, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2802083492279053, "timer/replay.add_frac": 0.0009333776848534306, "timer/replay.add_avg": 0.0001940501033434247, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0029172897338867188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027462244033813477, "timer/logger.write_frac": 9.147709491094659e-05, "timer/logger.write_avg": 0.027462244033813477, "timer/logger.write_min": 0.027462244033813477, "timer/logger.write_max": 0.027462244033813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.87262511253357, "timer/agent.policy_frac": 0.036216856791664837, "timer/agent.policy_avg": 0.007529518775992777, "timer/agent.policy_min": 0.005633831024169922, "timer/agent.policy_max": 0.01503443717956543, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06705403327941895, "timer/dataset_frac": 0.0002233578639426069, "timer/dataset_avg": 9.287262227066336e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00020694732666015625, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.4162132740021, "timer/agent.train_frac": 0.897428938504389, "timer/agent.train_avg": 0.3731526499639918, "timer/agent.train_min": 0.36663198471069336, "timer/agent.train_max": 0.3874225616455078, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351336479187012, "timer/agent.report_frac": 0.0007445259484168854, "timer/agent.report_avg": 0.22351336479187012, "timer/agent.report_min": 0.22351336479187012, "timer/agent.report_max": 0.22351336479187012, "fps": 4.809916151274297}
+{"step": 368530, "episode/length": 438.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.025056947608200455}
+{"step": 368731, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04975124378109453}
+{"step": 368956, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04888888888888889}
+{"step": 369139, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.0546448087431694}
+{"step": 369371, "episode/length": 231.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03879310344827586}
+{"step": 369655, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.574285802706866, "train/action_min": 0.0, "train/action_std": 3.4433000893659993, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046038234685088546, "train/actor_opt_grad_steps": 183920.0, "train/actor_opt_loss": -15.317086532082357, "train/adv_mag": 0.5637523741789268, "train/adv_max": 0.5117876198090298, "train/adv_mean": 0.0013265868061276245, "train/adv_min": -0.38879030481190746, "train/adv_std": 0.0501586500502808, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 7.2388293023656114e-06, "train/cont_loss_std": 0.0001948044824741732, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005034976167453479, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 4.597294073464878e-06, "train/cont_pred": 0.994647956230271, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 4.97801320989367, "train/dyn_loss_std": 8.762680510400047, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9798944869511564, "train/extr_critic_critic_opt_grad_steps": 183920.0, "train/extr_critic_critic_opt_loss": 16017.338454555458, "train/extr_critic_mag": 10.272167313266808, "train/extr_critic_max": 10.272167313266808, "train/extr_critic_mean": 2.506996080908977, "train/extr_critic_min": -0.5733341079362682, "train/extr_critic_std": 2.4235446973585746, "train/extr_return_normed_mag": 1.5324759802348178, "train/extr_return_normed_max": 1.5324759802348178, "train/extr_return_normed_mean": 0.37158925957243205, "train/extr_return_normed_min": -0.1015768311393093, "train/extr_return_normed_std": 0.3384593578291611, "train/extr_return_rate": 0.7177459664747748, "train/extr_return_raw_mag": 10.942449596566213, "train/extr_return_raw_max": 10.942449596566213, "train/extr_return_raw_mean": 2.516619126561662, "train/extr_return_raw_min": -0.9172895399617477, "train/extr_return_raw_std": 2.4563229352655545, "train/extr_reward_mag": 1.0327954157977037, "train/extr_reward_max": 1.0327954157977037, "train/extr_reward_mean": 0.0464220504788026, "train/extr_reward_min": -0.6433959846765223, "train/extr_reward_std": 0.21031214569655943, "train/image_loss_mean": 3.0070502606915754, "train/image_loss_std": 7.852725371508531, "train/model_loss_mean": 6.0425999399641865, "train/model_loss_std": 12.06820007780908, "train/model_opt_grad_norm": 35.866569330994515, "train/model_opt_grad_steps": 183773.21126760563, "train/model_opt_loss": 9126.800526793573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.5170516296171805, "train/policy_entropy_max": 2.5170516296171805, "train/policy_entropy_mean": 0.3853198550116848, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5092988051998784, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.386215070603599, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9960557088046007, "train/policy_randomness_mag": 0.8884087658264268, "train/policy_randomness_max": 0.8884087658264268, "train/policy_randomness_mean": 0.13600099768856883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17976012909916086, "train/post_ent_mag": 55.06395313101755, "train/post_ent_max": 55.06395313101755, "train/post_ent_mean": 40.79458231321523, "train/post_ent_min": 18.983094255689164, "train/post_ent_std": 5.569432285470023, "train/prior_ent_mag": 76.24353629098812, "train/prior_ent_max": 76.24353629098812, "train/prior_ent_mean": 45.715446042342926, "train/prior_ent_min": 28.369252110870793, "train/prior_ent_std": 7.318055676742339, "train/rep_loss_mean": 4.97801320989367, "train/rep_loss_std": 8.762680510400047, "train/reward_avg": 0.03116197165259173, "train/reward_loss_mean": 0.04873460625678721, "train/reward_loss_std": 0.20774900913238525, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0130664647465022, "train/reward_neg_acc": 0.9949504867405958, "train/reward_neg_loss": 0.02271064784063, "train/reward_pos_acc": 0.9869729339236945, "train/reward_pos_loss": 0.7441750915957169, "train/reward_pred": 0.030869534895033905, "train/reward_rate": 0.036077794894366196, "stats/sum_log_reward": 9.300000381469726, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.53026362657547, "replay/size": 369592.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.8651702795852194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2104599256701457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25024819374084, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.485116720199585, "timer/env.step_frac": 0.0615657000498857, "timer/env.step_avg": 0.012872643955570742, "timer/env.step_min": 0.0030231475830078125, "timer/env.step_max": 2.764045000076294, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.31664371490478516, "timer/replay.add_frac": 0.001054599344412419, "timer/replay.add_avg": 0.00022050397973870833, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.005948781967163086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027689218521118164, "timer/logger.write_frac": 9.222046838492967e-05, "timer/logger.write_avg": 0.027689218521118164, "timer/logger.write_min": 0.027689218521118164, "timer/logger.write_max": 0.027689218521118164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023818016052246094, "timer/checkpoint.save_frac": 7.932721519975955e-07, "timer/checkpoint.save_avg": 0.00023818016052246094, "timer/checkpoint.save_min": 0.00023818016052246094, "timer/checkpoint.save_max": 0.00023818016052246094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4458692073822021, "timer/agent.save_frac": 0.004815547084741239, "timer/agent.save_avg": 1.4458692073822021, "timer/agent.save_min": 1.4458692073822021, "timer/agent.save_max": 1.4458692073822021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.91278076171875e-05, "timer/replay.save_frac": 1.9692842211752119e-07, "timer/replay.save_avg": 5.91278076171875e-05, "timer/replay.save_min": 5.91278076171875e-05, "timer/replay.save_max": 5.91278076171875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.261835098266602, "timer/agent.policy_frac": 0.04083871760983349, "timer/agent.policy_avg": 0.008538882380408497, "timer/agent.policy_min": 0.005670785903930664, "timer/agent.policy_max": 1.4456088542938232, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06649088859558105, "timer/dataset_frac": 0.0002214515691346801, "timer/dataset_avg": 9.260569442281484e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.38821482658386, "timer/agent.train_frac": 0.8938817417842814, "timer/agent.train_avg": 0.37379974209830624, "timer/agent.train_min": 0.36603856086730957, "timer/agent.train_max": 0.9840829372406006, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2238607406616211, "timer/agent.report_frac": 0.0007455805349315538, "timer/agent.report_avg": 0.2238607406616211, "timer/agent.report_min": 0.2238607406616211, "timer/agent.report_max": 0.2238607406616211, "fps": 4.782560910322831}
+{"step": 369676, "episode/length": 304.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04262295081967213}
+{"step": 369861, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04864864864864865}
+{"step": 369962, "episode/length": 100.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.06930693069306931}
+{"step": 370104, "episode/length": 141.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.08450704225352113}
+{"step": 370535, "episode/length": 430.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027842227378190254}
+{"step": 370598, "episode/length": 62.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.12698412698412698}
+{"step": 370871, "episode/length": 272.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.040293040293040296}
+{"step": 371047, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 371093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.544981214735243, "train/action_min": 0.0, "train/action_std": 3.3744940956433616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04508251448472341, "train/actor_opt_grad_steps": 184635.0, "train/actor_opt_loss": -14.14078438282013, "train/adv_mag": 0.4489302225410938, "train/adv_max": 0.4153851568698883, "train/adv_mean": 0.0016116993629111676, "train/adv_min": -0.3707625199523237, "train/adv_std": 0.05071553225732512, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 5.344125528081476e-06, "train/cont_loss_std": 0.00013628844214963465, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002028761533539283, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 4.39944258465472e-06, "train/cont_pred": 0.9949646873606576, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.021831032302645, "train/dyn_loss_std": 8.642210317982567, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0129843486679926, "train/extr_critic_critic_opt_grad_steps": 184635.0, "train/extr_critic_critic_opt_loss": 15995.691094292535, "train/extr_critic_mag": 9.600454078780281, "train/extr_critic_max": 9.600454078780281, "train/extr_critic_mean": 2.4122534510162144, "train/extr_critic_min": -0.5462998731268777, "train/extr_critic_std": 2.2695775396294064, "train/extr_return_normed_mag": 1.4694710125525792, "train/extr_return_normed_max": 1.4694710125525792, "train/extr_return_normed_mean": 0.3702628057863977, "train/extr_return_normed_min": -0.09406261228852802, "train/extr_return_normed_std": 0.3260316674908002, "train/extr_return_rate": 0.7098479453060362, "train/extr_return_raw_mag": 10.16400040520562, "train/extr_return_raw_max": 10.16400040520562, "train/extr_return_raw_mean": 2.42358508043819, "train/extr_return_raw_min": -0.8445484870009952, "train/extr_return_raw_std": 2.2949123630921044, "train/extr_reward_mag": 1.048586282465193, "train/extr_reward_max": 1.048586282465193, "train/extr_reward_mean": 0.04666858432917959, "train/extr_reward_min": -0.6297098563777076, "train/extr_reward_std": 0.20975366007122728, "train/image_loss_mean": 3.137342646718025, "train/image_loss_std": 8.247231788105434, "train/model_loss_mean": 6.198344727357228, "train/model_loss_std": 12.343042069011265, "train/model_opt_grad_norm": 30.550517254405552, "train/model_opt_grad_steps": 184488.0, "train/model_opt_loss": 10680.769354926215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1736.111111111111, "train/policy_entropy_mag": 2.54750218656328, "train/policy_entropy_max": 2.54750218656328, "train/policy_entropy_mean": 0.39068134211831623, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5264983139932156, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3902569990605116, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9998761183685727, "train/policy_randomness_mag": 0.8991564793719186, "train/policy_randomness_max": 0.8991564793719186, "train/policy_randomness_mean": 0.13789336921440232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18583079810357755, "train/post_ent_mag": 54.486076566908096, "train/post_ent_max": 54.486076566908096, "train/post_ent_mean": 40.73832209904989, "train/post_ent_min": 18.740502927038406, "train/post_ent_std": 5.651823931270176, "train/prior_ent_mag": 76.20225705040826, "train/prior_ent_max": 76.20225705040826, "train/prior_ent_mean": 45.7031577428182, "train/prior_ent_min": 27.61214542388916, "train/prior_ent_std": 7.33982656399409, "train/rep_loss_mean": 5.021831032302645, "train/rep_loss_std": 8.642210317982567, "train/reward_avg": 0.031571451535758875, "train/reward_loss_mean": 0.04789810050796303, "train/reward_loss_std": 0.2042366878853904, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0256878750191794, "train/reward_neg_acc": 0.9951347211996714, "train/reward_neg_loss": 0.021466925061152626, "train/reward_pos_acc": 0.9823418267899089, "train/reward_pos_loss": 0.7508744498093923, "train/reward_pred": 0.031178451880502205, "train/reward_rate": 0.0361328125, "stats/sum_log_reward": 9.225000143051147, "stats/max_log_achievement_collect_coal": 1.625, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 6.125, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.43772316724061966, "replay/size": 371030.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.843048849092571e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2318224170775009e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2581088542938, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.2951762676239, "timer/env.step_frac": 0.06759243354014641, "timer/env.step_avg": 0.014113474455927609, "timer/env.step_min": 0.003060579299926758, "timer/env.step_max": 1.7957301139831543, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3034391403198242, "timer/replay.add_frac": 0.001010594323256309, "timer/replay.add_avg": 0.00021101470119598347, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0074558258056640625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02908635139465332, "timer/logger.write_frac": 9.687116030151261e-05, "timer/logger.write_avg": 0.02908635139465332, "timer/logger.write_min": 0.02908635139465332, "timer/logger.write_max": 0.02908635139465332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.822288990020752, "timer/agent.policy_frac": 0.036043286328938016, "timer/agent.policy_avg": 0.007525931147441413, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.015539407730102539, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0679159164428711, "timer/dataset_frac": 0.00022619178113796965, "timer/dataset_avg": 9.44588545797929e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00020384788513183594, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.03588676452637, "timer/agent.train_frac": 0.8926849229394037, "timer/agent.train_avg": 0.37278982860156656, "timer/agent.train_min": 0.36623406410217285, "timer/agent.train_max": 0.3894972801208496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22209644317626953, "timer/agent.report_frac": 0.000739685079692706, "timer/agent.report_avg": 0.22209644317626953, "timer/agent.report_min": 0.22209644317626953, "timer/agent.report_max": 0.22209644317626953, "fps": 4.789143661591361}
+{"step": 371320, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04395604395604396}
+{"step": 371552, "episode/length": 231.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.05172413793103448}
+{"step": 371767, "episode/length": 214.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05116279069767442}
+{"step": 371903, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.07352941176470588}
+{"step": 372117, "episode/length": 213.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000002980232, "episode/reward_rate": 0.04205607476635514}
+{"step": 372331, "episode/length": 213.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04672897196261682}
+{"step": 372544, "episode/length": 212.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.051643192488262914}
+{"step": 372545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505347683005137, "train/action_min": 0.0, "train/action_std": 3.348146196914046, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04745747123474944, "train/actor_opt_grad_steps": 185360.0, "train/actor_opt_loss": -10.875624986544047, "train/adv_mag": 0.48189333407846213, "train/adv_max": 0.4457529068809666, "train/adv_mean": 0.003549489829958774, "train/adv_min": -0.372920278000505, "train/adv_std": 0.05280208853009629, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 5.87151317617635e-05, "train/cont_loss_std": 0.0017655097430216387, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.014846776641879592, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 9.147371914712942e-06, "train/cont_pred": 0.9945550667096491, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 4.79472145315719, "train/dyn_loss_std": 8.601235938398805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0660084616648007, "train/extr_critic_critic_opt_grad_steps": 185360.0, "train/extr_critic_critic_opt_loss": 16197.80131635274, "train/extr_critic_mag": 9.615821511778114, "train/extr_critic_max": 9.615821511778114, "train/extr_critic_mean": 2.416833165573747, "train/extr_critic_min": -0.5731887556102178, "train/extr_critic_std": 2.328417082355447, "train/extr_return_normed_mag": 1.5033180713653564, "train/extr_return_normed_max": 1.5033180713653564, "train/extr_return_normed_mean": 0.3758446643613789, "train/extr_return_normed_min": -0.09479154125876622, "train/extr_return_normed_std": 0.3402665212546309, "train/extr_return_rate": 0.7105156975249721, "train/extr_return_raw_mag": 10.279662654824453, "train/extr_return_raw_max": 10.279662654824453, "train/extr_return_raw_mean": 2.441527200071779, "train/extr_return_raw_min": -0.827926124611946, "train/extr_return_raw_std": 2.3648004972771424, "train/extr_reward_mag": 1.0427143051199717, "train/extr_reward_max": 1.0427143051199717, "train/extr_reward_mean": 0.048215303008687004, "train/extr_reward_min": -0.6491758382483704, "train/extr_reward_std": 0.2130556382136802, "train/image_loss_mean": 3.0483328544930237, "train/image_loss_std": 7.732489239679624, "train/model_loss_mean": 5.9730143938979054, "train/model_loss_std": 11.799478138962836, "train/model_opt_grad_norm": 28.432290325426077, "train/model_opt_grad_steps": 185213.0, "train/model_opt_loss": 14932.536025791953, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5751972263806486, "train/policy_entropy_max": 2.5751972263806486, "train/policy_entropy_mean": 0.3965617726518683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5339472677609692, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3942861885648884, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0030105922320118, "train/policy_randomness_mag": 0.9089316097024369, "train/policy_randomness_max": 0.9089316097024369, "train/policy_randomness_mean": 0.13996890248501137, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18845995301253174, "train/post_ent_mag": 55.13251249757531, "train/post_ent_max": 55.13251249757531, "train/post_ent_mean": 40.97007777592907, "train/post_ent_min": 18.840427790602593, "train/post_ent_std": 5.60495191730865, "train/prior_ent_mag": 76.41120513497967, "train/prior_ent_max": 76.41120513497967, "train/prior_ent_mean": 45.761841604154405, "train/prior_ent_min": 27.698063602186227, "train/prior_ent_std": 7.348255582051735, "train/rep_loss_mean": 4.79472145315719, "train/rep_loss_std": 8.601235938398805, "train/reward_avg": 0.031054687239739993, "train/reward_loss_mean": 0.04778997962401338, "train/reward_loss_std": 0.18987829391270467, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0161806198015606, "train/reward_neg_acc": 0.9950476876676899, "train/reward_neg_loss": 0.02275946040395392, "train/reward_pos_acc": 0.9917644368459101, "train/reward_pos_loss": 0.7168455572977458, "train/reward_pred": 0.030932018711958845, "train/reward_rate": 0.03609267979452055, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 5.285714285714286, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 7.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4380476347037724, "replay/size": 372482.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 4.216659167581353e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2050441802369006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.66221737861633, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.933248043060303, "timer/env.step_frac": 0.06276307390294482, "timer/env.step_avg": 0.013039427026901034, "timer/env.step_min": 0.003253459930419922, "timer/env.step_max": 1.6824777126312256, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2984309196472168, "timer/replay.add_frac": 0.000989288357821278, "timer/replay.add_avg": 0.0002055309363961548, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0070726871490478516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030560731887817383, "timer/logger.write_frac": 0.00010130778774148107, "timer/logger.write_avg": 0.030560731887817383, "timer/logger.write_min": 0.030560731887817383, "timer/logger.write_max": 0.030560731887817383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.937062978744507, "timer/agent.policy_frac": 0.03625599212849846, "timer/agent.policy_avg": 0.007532412519796492, "timer/agent.policy_min": 0.0056476593017578125, "timer/agent.policy_max": 0.018679141998291016, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06952428817749023, "timer/dataset_frac": 0.0002304706528435753, "timer/dataset_avg": 9.576348233814082e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00027942657470703125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.6850688457489, "timer/agent.train_frac": 0.8973118052301923, "timer/agent.train_avg": 0.37284444744593515, "timer/agent.train_min": 0.36572265625, "timer/agent.train_max": 0.3866696357727051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21964240074157715, "timer/agent.report_frac": 0.0007281070949163777, "timer/agent.report_avg": 0.21964240074157715, "timer/agent.report_min": 0.21964240074157715, "timer/agent.report_max": 0.21964240074157715, "fps": 4.81323992023191}
+{"step": 372766, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05405405405405406}
+{"step": 373013, "episode/length": 246.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.044534412955465584}
+{"step": 373193, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06111111111111111}
+{"step": 373478, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
+{"step": 373692, "episode/length": 213.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04672897196261682}
+{"step": 373845, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0718954248366013}
+{"step": 373973, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436279296875, "train/action_min": 0.0, "train/action_std": 3.249765819227192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04677201907189799, "train/actor_opt_grad_steps": 186080.0, "train/actor_opt_loss": -11.800218867584013, "train/adv_mag": 0.46647724425288994, "train/adv_max": 0.41596166474718443, "train/adv_mean": 0.0031096549814783815, "train/adv_min": -0.3974054993038446, "train/adv_std": 0.05252276654814331, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 1.1974337570924151e-05, "train/cont_loss_std": 0.00027090173747778797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7796063720966806e-05, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.1892722766469567e-05, "train/cont_pred": 0.9946657142169039, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 4.905764462242664, "train/dyn_loss_std": 8.701213426992927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.049985175401392, "train/extr_critic_critic_opt_grad_steps": 186080.0, "train/extr_critic_critic_opt_loss": 16354.10615647007, "train/extr_critic_mag": 9.56326336927817, "train/extr_critic_max": 9.56326336927817, "train/extr_critic_mean": 2.575619323152891, "train/extr_critic_min": -0.5409606510484722, "train/extr_critic_std": 2.3641658601626543, "train/extr_return_normed_mag": 1.4528237379772562, "train/extr_return_normed_max": 1.4528237379772562, "train/extr_return_normed_mean": 0.38331245410610254, "train/extr_return_normed_min": -0.09269702859537703, "train/extr_return_normed_std": 0.3324157406746502, "train/extr_return_rate": 0.7292758259974735, "train/extr_return_raw_mag": 10.333167196999133, "train/extr_return_raw_max": 10.333167196999133, "train/extr_return_raw_mean": 2.5981063288702093, "train/extr_return_raw_min": -0.8425091509248169, "train/extr_return_raw_std": 2.403536536324192, "train/extr_reward_mag": 1.0352430108567359, "train/extr_reward_max": 1.0352430108567359, "train/extr_reward_mean": 0.0487366704348947, "train/extr_reward_min": -0.6524975350205328, "train/extr_reward_std": 0.21408076458413836, "train/image_loss_mean": 3.056838265607055, "train/image_loss_std": 7.963172476056596, "train/model_loss_mean": 6.049352575355853, "train/model_loss_std": 12.152444785749408, "train/model_opt_grad_norm": 32.45845832287426, "train/model_opt_grad_steps": 185932.0, "train/model_opt_loss": 15123.381464568662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5746774975682647, "train/policy_entropy_max": 2.5746774975682647, "train/policy_entropy_mean": 0.36966547034156155, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5043043418669365, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37148170907732464, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.9926684565947089, "train/policy_randomness_mag": 0.908748169180373, "train/policy_randomness_max": 0.908748169180373, "train/policy_randomness_mean": 0.13047568919792982, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17799730294607055, "train/post_ent_mag": 54.86544842787192, "train/post_ent_max": 54.86544842787192, "train/post_ent_mean": 40.81194428994622, "train/post_ent_min": 18.650926912334604, "train/post_ent_std": 5.502761706499986, "train/prior_ent_mag": 76.32942489838936, "train/prior_ent_max": 76.32942489838936, "train/prior_ent_mean": 45.69184848624216, "train/prior_ent_min": 27.71887596560196, "train/prior_ent_std": 7.380388958353392, "train/rep_loss_mean": 4.905764462242664, "train/rep_loss_std": 8.701213426992927, "train/reward_avg": 0.03195422507402763, "train/reward_loss_mean": 0.04904370413909496, "train/reward_loss_std": 0.20387887891749262, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0092767325925156, "train/reward_neg_acc": 0.9946005495501237, "train/reward_neg_loss": 0.022710016364572753, "train/reward_pos_acc": 0.9854749970033135, "train/reward_pos_loss": 0.7368235042397405, "train/reward_pred": 0.031723893444303056, "train/reward_rate": 0.03693056778169014, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 5.833333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4310290639599164, "replay/size": 373910.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7923246538605677e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.207745375753451e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21505999565125, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.93413782119751, "timer/env.step_frac": 0.06639952646441609, "timer/env.step_avg": 0.013959480266945035, "timer/env.step_min": 0.0030434131622314453, "timer/env.step_max": 2.7227470874786377, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.3166084289550781, "timer/replay.add_frac": 0.0010546054183946147, "timer/replay.add_avg": 0.0002217145861029959, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.008090019226074219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03202247619628906, "timer/logger.write_frac": 0.00010666512265158492, "timer/logger.write_avg": 0.03202247619628906, "timer/logger.write_min": 0.03202247619628906, "timer/logger.write_max": 0.03202247619628906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004591941833496094, "timer/checkpoint.save_frac": 1.5295507938751007e-06, "timer/checkpoint.save_avg": 0.0004591941833496094, "timer/checkpoint.save_min": 0.0004591941833496094, "timer/checkpoint.save_max": 0.0004591941833496094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5622656345367432, "timer/agent.save_frac": 0.005203821668904196, "timer/agent.save_avg": 1.5622656345367432, "timer/agent.save_min": 1.5622656345367432, "timer/agent.save_max": 1.5622656345367432, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.796287536621094e-05, "timer/replay.save_frac": 2.59690088056676e-07, "timer/replay.save_avg": 7.796287536621094e-05, "timer/replay.save_min": 7.796287536621094e-05, "timer/replay.save_max": 7.796287536621094e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.88510799407959, "timer/agent.policy_frac": 0.042919592355780675, "timer/agent.policy_avg": 0.009023184869803634, "timer/agent.policy_min": 0.005715370178222656, "timer/agent.policy_max": 1.5453221797943115, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0677032470703125, "timer/dataset_frac": 0.00022551582545956626, "timer/dataset_avg": 9.482247488839286e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00022840499877929688, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.2765562534332, "timer/agent.train_frac": 0.8869526940363697, "timer/agent.train_avg": 0.37293635329612496, "timer/agent.train_min": 0.3663325309753418, "timer/agent.train_max": 0.3926880359649658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195453643798828, "timer/agent.report_frac": 0.0007312936412419252, "timer/agent.report_avg": 0.2195453643798828, "timer/agent.report_min": 0.2195453643798828, "timer/agent.report_max": 0.2195453643798828, "fps": 4.756514950494834}
+{"step": 373992, "episode/length": 146.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.061224489795918366}
+{"step": 374243, "episode/length": 250.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.035856573705179286}
+{"step": 374481, "episode/length": 237.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.046218487394957986}
+{"step": 374618, "episode/length": 136.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08029197080291971}
+{"step": 374803, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
+{"step": 375161, "episode/length": 357.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.030726256983240222}
+{"step": 375408, "episode/length": 246.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.048582995951417005}
+{"step": 375417, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.643501281738281, "train/action_min": 0.0, "train/action_std": 3.414928396542867, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04595608305599955, "train/actor_opt_grad_steps": 186795.0, "train/actor_opt_loss": -15.280101888709599, "train/adv_mag": 0.4597003749675221, "train/adv_max": 0.4035409026675754, "train/adv_mean": 0.0014278775871490426, "train/adv_min": -0.40645466765595806, "train/adv_std": 0.05134632521205478, "train/cont_avg": 0.9940592447916666, "train/cont_loss_mean": 5.749176411187465e-05, "train/cont_loss_std": 0.0017039783447927448, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.9479728595999608e-05, "train/cont_pos_acc": 0.9999726605084207, "train/cont_pos_loss": 5.778430115160265e-05, "train/cont_pred": 0.9940268107586436, "train/cont_rate": 0.9940592447916666, "train/dyn_loss_mean": 4.899803863631354, "train/dyn_loss_std": 8.626149965657127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0845532682206895, "train/extr_critic_critic_opt_grad_steps": 186795.0, "train/extr_critic_critic_opt_loss": 16231.751247829861, "train/extr_critic_mag": 9.70760707060496, "train/extr_critic_max": 9.70760707060496, "train/extr_critic_mean": 2.55911356707414, "train/extr_critic_min": -0.546479786435763, "train/extr_critic_std": 2.429470499356588, "train/extr_return_normed_mag": 1.4366241031222873, "train/extr_return_normed_max": 1.4366241031222873, "train/extr_return_normed_mean": 0.37137787375185227, "train/extr_return_normed_min": -0.09320069316567646, "train/extr_return_normed_std": 0.33392080706026817, "train/extr_return_rate": 0.7113869372341368, "train/extr_return_raw_mag": 10.39740186267429, "train/extr_return_raw_max": 10.39740186267429, "train/extr_return_raw_mean": 2.5696313861343594, "train/extr_return_raw_min": -0.8438538478480445, "train/extr_return_raw_std": 2.4539887325631247, "train/extr_reward_mag": 1.0423878365092807, "train/extr_reward_max": 1.0423878365092807, "train/extr_reward_mean": 0.04777476465743449, "train/extr_reward_min": -0.6626339703798294, "train/extr_reward_std": 0.21265475265681744, "train/image_loss_mean": 3.0585641976859836, "train/image_loss_std": 7.879269540309906, "train/model_loss_mean": 6.047510590818193, "train/model_loss_std": 11.956800705856747, "train/model_opt_grad_norm": 31.7618408203125, "train/model_opt_grad_steps": 186646.05555555556, "train/model_opt_loss": 7977.946539984809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.5260232587655387, "train/policy_entropy_max": 2.5260232587655387, "train/policy_entropy_mean": 0.38709022146132255, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5214599333703518, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3885228919486205, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0023533494936094, "train/policy_randomness_mag": 0.8915753612915674, "train/policy_randomness_max": 0.8915753612915674, "train/policy_randomness_mean": 0.13662585936900642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1840524741758903, "train/post_ent_mag": 54.96311828825209, "train/post_ent_max": 54.96311828825209, "train/post_ent_mean": 40.922912226782906, "train/post_ent_min": 18.740348908636307, "train/post_ent_std": 5.516807291242811, "train/prior_ent_mag": 76.28888448079427, "train/prior_ent_max": 76.28888448079427, "train/prior_ent_mean": 45.79217825995551, "train/prior_ent_min": 28.029613786273533, "train/prior_ent_std": 7.372323883904351, "train/rep_loss_mean": 4.899803863631354, "train/rep_loss_std": 8.626149965657127, "train/reward_avg": 0.031812879619085126, "train/reward_loss_mean": 0.04900664779254132, "train/reward_loss_std": 0.2023634873330593, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0166433619128332, "train/reward_neg_acc": 0.994843045870463, "train/reward_neg_loss": 0.02280776066860805, "train/reward_pos_acc": 0.9870500241716703, "train/reward_pos_loss": 0.7347334557109408, "train/reward_pred": 0.03140967879961762, "train/reward_rate": 0.03696017795138889, "stats/sum_log_reward": 9.242857456207275, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5229224009173257, "replay/size": 375354.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.78662859634019e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2044761319569933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0034987926483, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.933804750442505, "timer/env.step_frac": 0.06311194644942748, "timer/env.step_avg": 0.013112053151275973, "timer/env.step_min": 0.0030133724212646484, "timer/env.step_max": 1.8437552452087402, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.284517765045166, "timer/replay.add_frac": 0.000948381489516609, "timer/replay.add_avg": 0.0001970344633276773, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.006512641906738281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030121326446533203, "timer/logger.write_frac": 0.00010040325052126138, "timer/logger.write_avg": 0.030121326446533203, "timer/logger.write_min": 0.030121326446533203, "timer/logger.write_max": 0.030121326446533203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.839253902435303, "timer/agent.policy_frac": 0.03613042496523351, "timer/agent.policy_avg": 0.007506408519692038, "timer/agent.policy_min": 0.005652904510498047, "timer/agent.policy_max": 0.01853656768798828, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06741809844970703, "timer/dataset_frac": 0.0002247243739523985, "timer/dataset_avg": 9.337686765887401e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.1440579891205, "timer/agent.train_frac": 0.8971363969829673, "timer/agent.train_avg": 0.37277570358603945, "timer/agent.train_min": 0.3640172481536865, "timer/agent.train_max": 0.38780736923217773, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22247576713562012, "timer/agent.report_frac": 0.0007415772417020623, "timer/agent.report_avg": 0.22247576713562012, "timer/agent.report_min": 0.22247576713562012, "timer/agent.report_max": 0.22247576713562012, "fps": 4.813170056212863}
+{"step": 375629, "episode/length": 220.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.058823529411764705}
+{"step": 375938, "episode/length": 308.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.042071197411003236}
+{"step": 376118, "episode/length": 179.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 14.300000049173832, "episode/reward_rate": 0.07222222222222222}
+{"step": 376363, "episode/length": 244.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.04897959183673469}
+{"step": 376515, "episode/length": 151.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.07236842105263158}
+{"step": 376782, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04868913857677903}
+{"step": 376869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529801042112585, "train/action_min": 0.0, "train/action_std": 3.312541083113788, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045686758748472556, "train/actor_opt_grad_steps": 187520.0, "train/actor_opt_loss": -10.943325358302626, "train/adv_mag": 0.46339976052715354, "train/adv_max": 0.4272344500234682, "train/adv_mean": 0.002283336421074537, "train/adv_min": -0.3765683059823023, "train/adv_std": 0.05094397496687223, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 0.00025012332142143525, "train/cont_loss_std": 0.00790544396583244, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.03148615622651723, "train/cont_pos_acc": 0.9999865530288383, "train/cont_pos_loss": 0.00015644378224930722, "train/cont_pred": 0.9948083693034029, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 4.799037280148023, "train/dyn_loss_std": 8.563328533956449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0456653033217338, "train/extr_critic_critic_opt_grad_steps": 187520.0, "train/extr_critic_critic_opt_loss": 16133.199191994863, "train/extr_critic_mag": 9.43127946984278, "train/extr_critic_max": 9.43127946984278, "train/extr_critic_mean": 2.4252701017954577, "train/extr_critic_min": -0.5544246288195048, "train/extr_critic_std": 2.2373715018572873, "train/extr_return_normed_mag": 1.4480036742066684, "train/extr_return_normed_max": 1.4480036742066684, "train/extr_return_normed_mean": 0.36798362862573913, "train/extr_return_normed_min": -0.09866459876911281, "train/extr_return_normed_std": 0.320417753841779, "train/extr_return_rate": 0.7392016592091077, "train/extr_return_raw_mag": 10.073208887283116, "train/extr_return_raw_max": 10.073208887283116, "train/extr_return_raw_mean": 2.4413982809406436, "train/extr_return_raw_min": -0.8558267289645052, "train/extr_return_raw_std": 2.2641393811735386, "train/extr_reward_mag": 1.0375617105666906, "train/extr_reward_max": 1.0375617105666906, "train/extr_reward_mean": 0.046607035224976605, "train/extr_reward_min": -0.6539559364318848, "train/extr_reward_std": 0.20975304568467074, "train/image_loss_mean": 2.8865413616781366, "train/image_loss_std": 7.489200670425206, "train/model_loss_mean": 5.813503644237779, "train/model_loss_std": 11.569618956683433, "train/model_opt_grad_norm": 29.671974025360527, "train/model_opt_grad_steps": 187370.6301369863, "train/model_opt_loss": 8703.092592840325, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.5304374760144377, "train/policy_entropy_max": 2.5304374760144377, "train/policy_entropy_mean": 0.36283545849257953, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4850442727951154, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3627311260732886, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 0.9773363291400753, "train/policy_randomness_mag": 0.89313338227468, "train/policy_randomness_max": 0.89313338227468, "train/policy_randomness_mean": 0.12806499575915403, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17119934175112475, "train/post_ent_mag": 54.55342859764622, "train/post_ent_max": 54.55342859764622, "train/post_ent_mean": 40.92142617212583, "train/post_ent_min": 18.901112817738156, "train/post_ent_std": 5.615896989221442, "train/prior_ent_mag": 76.32897907413849, "train/prior_ent_max": 76.32897907413849, "train/prior_ent_mean": 45.69694095768341, "train/prior_ent_min": 27.52945440109462, "train/prior_ent_std": 7.252438185966178, "train/rep_loss_mean": 4.799037280148023, "train/rep_loss_std": 8.563328533956449, "train/reward_avg": 0.03156437278304198, "train/reward_loss_mean": 0.047289736875116006, "train/reward_loss_std": 0.18895882531388164, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0128318528606468, "train/reward_neg_acc": 0.9949375815587501, "train/reward_neg_loss": 0.021929874697266375, "train/reward_pos_acc": 0.9896929876445091, "train/reward_pos_loss": 0.722638286139867, "train/reward_pred": 0.03135910880279868, "train/reward_rate": 0.03626658818493151, "stats/sum_log_reward": 11.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4021989554166794, "replay/size": 376806.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.8051736584708054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2345181023778993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0340452194214, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.26631784439087, "timer/env.step_frac": 0.057547862049333896, "timer/env.step_avg": 0.011891403474098394, "timer/env.step_min": 0.0030336380004882812, "timer/env.step_max": 1.723567247390747, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.29249072074890137, "timer/replay.add_frac": 0.0009748584382648862, "timer/replay.add_avg": 0.00020143989032293482, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.004416704177856445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027384281158447266, "timer/logger.write_frac": 9.127057943847855e-05, "timer/logger.write_avg": 0.027384281158447266, "timer/logger.write_min": 0.027384281158447266, "timer/logger.write_max": 0.027384281158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.957642078399658, "timer/agent.policy_frac": 0.03652132900580032, "timer/agent.policy_avg": 0.0075465854534432905, "timer/agent.policy_min": 0.005697727203369141, "timer/agent.policy_max": 0.020917415618896484, "timer/dataset_count": 726.0, "timer/dataset_total": 0.07071495056152344, "timer/dataset_frac": 0.00023568975484034843, "timer/dataset_avg": 9.740351317014248e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0012652873992919922, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.6959481239319, "timer/agent.train_frac": 0.9022174397774295, "timer/agent.train_avg": 0.37285943267759214, "timer/agent.train_min": 0.36513566970825195, "timer/agent.train_max": 0.38854384422302246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22193622589111328, "timer/agent.report_frac": 0.0007397034750799914, "timer/agent.report_avg": 0.22193622589111328, "timer/agent.report_min": 0.22193622589111328, "timer/agent.report_max": 0.22193622589111328, "fps": 4.839385524888586}
+{"step": 376976, "episode/length": 193.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.041237113402061855}
+{"step": 377153, "episode/length": 176.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06779661016949153}
+{"step": 377353, "episode/length": 199.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.900000005960464, "episode/reward_rate": 0.05}
+{"step": 377741, "episode/length": 387.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.028350515463917526}
+{"step": 377831, "episode/length": 89.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.1}
+{"step": 377995, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
+{"step": 378277, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.03900709219858156}
+{"step": 378291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.553098866637324, "train/action_min": 0.0, "train/action_std": 3.3619669558296743, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04690727292441986, "train/actor_opt_grad_steps": 188240.0, "train/actor_opt_loss": -10.960392839052307, "train/adv_mag": 0.4652935875133729, "train/adv_max": 0.4328264380005044, "train/adv_mean": 0.0032605480006731996, "train/adv_min": -0.37303372650918826, "train/adv_std": 0.05262261608117063, "train/cont_avg": 0.9951446963028169, "train/cont_loss_mean": 0.00011848139671764983, "train/cont_loss_std": 0.003665224695383509, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.018900740025907307, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 7.880254244096058e-06, "train/cont_pred": 0.9951514114796276, "train/cont_rate": 0.9951446963028169, "train/dyn_loss_mean": 4.928768463537726, "train/dyn_loss_std": 8.622708481802068, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.055141183691965, "train/extr_critic_critic_opt_grad_steps": 188240.0, "train/extr_critic_critic_opt_loss": 16335.179701254401, "train/extr_critic_mag": 9.324856153676208, "train/extr_critic_max": 9.324856153676208, "train/extr_critic_mean": 2.486498626185135, "train/extr_critic_min": -0.5317181180900251, "train/extr_critic_std": 2.212947111734202, "train/extr_return_normed_mag": 1.4427402254561303, "train/extr_return_normed_max": 1.4427402254561303, "train/extr_return_normed_mean": 0.3809148518132492, "train/extr_return_normed_min": -0.10224683724448715, "train/extr_return_normed_std": 0.3206742825642438, "train/extr_return_rate": 0.7594483998459829, "train/extr_return_raw_mag": 9.958815211981115, "train/extr_return_raw_max": 9.958815211981115, "train/extr_return_raw_mean": 2.5093341394209525, "train/extr_return_raw_min": -0.8800151457249279, "train/extr_return_raw_std": 2.2495356680641714, "train/extr_reward_mag": 1.0420204182745705, "train/extr_reward_max": 1.0420204182745705, "train/extr_reward_mean": 0.049259723151023956, "train/extr_reward_min": -0.6619181800896013, "train/extr_reward_std": 0.21505345760936467, "train/image_loss_mean": 3.053649818393546, "train/image_loss_std": 7.9837287983424226, "train/model_loss_mean": 6.058560734063807, "train/model_loss_std": 12.076282353468343, "train/model_opt_grad_norm": 35.69034291656924, "train/model_opt_grad_steps": 188090.0, "train/model_opt_loss": 7573.200869278169, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5873867625921543, "train/policy_entropy_max": 2.5873867625921543, "train/policy_entropy_mean": 0.3724477064441627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5097372347200421, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.371846079826355, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 0.9860639798809105, "train/policy_randomness_mag": 0.9132339828450915, "train/policy_randomness_max": 0.9132339828450915, "train/policy_randomness_mean": 0.13145769628840434, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1799148754544661, "train/post_ent_mag": 55.02425110508019, "train/post_ent_max": 55.02425110508019, "train/post_ent_mean": 40.74903122807892, "train/post_ent_min": 18.81727434883655, "train/post_ent_std": 5.503038628000609, "train/prior_ent_mag": 76.38377455590476, "train/prior_ent_max": 76.38377455590476, "train/prior_ent_mean": 45.65517371808979, "train/prior_ent_min": 28.008273675408162, "train/prior_ent_std": 7.28044971278016, "train/rep_loss_mean": 4.928768463537726, "train/rep_loss_std": 8.622708481802068, "train/reward_avg": 0.03217291998558901, "train/reward_loss_mean": 0.047531393422207364, "train/reward_loss_std": 0.1988646858175036, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.016027376685344, "train/reward_neg_acc": 0.9948543755101485, "train/reward_neg_loss": 0.02127578648620508, "train/reward_pos_acc": 0.9862506498753185, "train/reward_pos_loss": 0.739983942307217, "train/reward_pred": 0.0317419659818562, "train/reward_rate": 0.03657295334507042, "stats/sum_log_reward": 8.528571469443184, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.37908537472997395, "replay/size": 378228.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.798936825093673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.225898202126204e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1188304424286, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.989051580429077, "timer/env.step_frac": 0.07326781711102, "timer/env.step_avg": 0.015463468059373472, "timer/env.step_min": 0.0031142234802246094, "timer/env.step_max": 3.3588640689849854, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.29592013359069824, "timer/replay.add_frac": 0.0009860098853326173, "timer/replay.add_avg": 0.00020810135976842353, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0054779052734375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03014206886291504, "timer/logger.write_frac": 0.00010043378090765002, "timer/logger.write_avg": 0.03014206886291504, "timer/logger.write_min": 0.03014206886291504, "timer/logger.write_max": 0.03014206886291504, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004229545593261719, "timer/checkpoint.save_frac": 1.4092903091174304e-06, "timer/checkpoint.save_avg": 0.0004229545593261719, "timer/checkpoint.save_min": 0.0004229545593261719, "timer/checkpoint.save_max": 0.0004229545593261719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3731131553649902, "timer/agent.save_frac": 0.004575231595234384, "timer/agent.save_avg": 1.3731131553649902, "timer/agent.save_min": 1.3731131553649902, "timer/agent.save_max": 1.3731131553649902, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.893013000488281e-05, "timer/replay.save_frac": 2.963163953217596e-07, "timer/replay.save_avg": 8.893013000488281e-05, "timer/replay.save_min": 8.893013000488281e-05, "timer/replay.save_max": 8.893013000488281e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 11.952466249465942, "timer/agent.policy_frac": 0.03982577911504546, "timer/agent.policy_avg": 0.008405391174026682, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.377302885055542, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06645035743713379, "timer/dataset_frac": 0.0002214134892474895, "timer/dataset_avg": 9.346041833633445e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.1104054450989, "timer/agent.train_frac": 0.8833514546697351, "timer/agent.train_avg": 0.37286976855850756, "timer/agent.train_min": 0.366832971572876, "timer/agent.train_max": 0.40358948707580566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20047330856323242, "timer/agent.report_frac": 0.0006679797741038077, "timer/agent.report_avg": 0.20047330856323242, "timer/agent.report_min": 0.20047330856323242, "timer/agent.report_max": 0.20047330856323242, "fps": 4.738045409867338}
+{"step": 378517, "episode/length": 239.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.05}
+{"step": 378770, "episode/length": 252.0, "episode/score": 10.100000031292439, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04743083003952569}
+{"step": 379120, "episode/length": 349.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03428571428571429}
+{"step": 379399, "episode/length": 278.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03942652329749104}
+{"step": 379624, "episode/length": 224.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06222222222222222}
+{"step": 379723, "episode/length": 98.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.0707070707070707}
+{"step": 379743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473061757544949, "train/action_min": 0.0, "train/action_std": 3.352784858991022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04488237860472235, "train/actor_opt_grad_steps": 188960.0, "train/actor_opt_loss": -13.475801935751145, "train/adv_mag": 0.48113846942170024, "train/adv_max": 0.41950678376302325, "train/adv_mean": 0.0017876156479397737, "train/adv_min": -0.4005740370652447, "train/adv_std": 0.05037620658539746, "train/cont_avg": 0.994582084760274, "train/cont_loss_mean": 1.2822284846506964e-05, "train/cont_loss_std": 0.00032258706679473006, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000678409294130389, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.175161195166579e-06, "train/cont_pred": 0.9945771841153707, "train/cont_rate": 0.994582084760274, "train/dyn_loss_mean": 4.883845410934867, "train/dyn_loss_std": 8.57342687371659, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0228769191323894, "train/extr_critic_critic_opt_grad_steps": 188960.0, "train/extr_critic_critic_opt_loss": 16019.290841716609, "train/extr_critic_mag": 9.550712507065029, "train/extr_critic_max": 9.550712507065029, "train/extr_critic_mean": 2.5348366890868097, "train/extr_critic_min": -0.5523931065650836, "train/extr_critic_std": 2.3429813336019647, "train/extr_return_normed_mag": 1.447220171967598, "train/extr_return_normed_max": 1.447220171967598, "train/extr_return_normed_mean": 0.3751176697750614, "train/extr_return_normed_min": -0.09282982405530263, "train/extr_return_normed_std": 0.3293255306270024, "train/extr_return_rate": 0.746047411062946, "train/extr_return_raw_mag": 10.279450416564941, "train/extr_return_raw_max": 10.279450416564941, "train/extr_return_raw_mean": 2.547692115992716, "train/extr_return_raw_min": -0.826301346902978, "train/extr_return_raw_std": 2.3746842341880274, "train/extr_reward_mag": 1.0464850059927326, "train/extr_reward_max": 1.0464850059927326, "train/extr_reward_mean": 0.047153991685338216, "train/extr_reward_min": -0.6773383062179774, "train/extr_reward_std": 0.21177641332966007, "train/image_loss_mean": 2.990508453486717, "train/image_loss_std": 8.082610894555915, "train/model_loss_mean": 5.969951306303886, "train/model_loss_std": 12.121246141930149, "train/model_opt_grad_norm": 31.79367830981947, "train/model_opt_grad_steps": 188810.0, "train/model_opt_loss": 14708.091663099314, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.753424657534, "train/policy_entropy_mag": 2.558103675711645, "train/policy_entropy_max": 2.558103675711645, "train/policy_entropy_mean": 0.3775050785035303, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5085562528812722, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37661712157399685, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9896271432915779, "train/policy_randomness_mag": 0.9028983377430537, "train/policy_randomness_max": 0.9028983377430537, "train/policy_randomness_mean": 0.13324272418267105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17949804092106753, "train/post_ent_mag": 54.576056807008506, "train/post_ent_max": 54.576056807008506, "train/post_ent_mean": 40.74299088569536, "train/post_ent_min": 18.77622038697543, "train/post_ent_std": 5.53300979692642, "train/prior_ent_mag": 76.35145297115797, "train/prior_ent_max": 76.35145297115797, "train/prior_ent_mean": 45.65168547956911, "train/prior_ent_min": 27.95088984868298, "train/prior_ent_std": 7.289307633491411, "train/rep_loss_mean": 4.883845410934867, "train/rep_loss_std": 8.57342687371659, "train/reward_avg": 0.0324593319570365, "train/reward_loss_mean": 0.0491227011055979, "train/reward_loss_std": 0.19844382307300829, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0249535547543878, "train/reward_neg_acc": 0.9944526357193516, "train/reward_neg_loss": 0.023073114518535463, "train/reward_pos_acc": 0.9903138998436601, "train/reward_pos_loss": 0.7236450461492147, "train/reward_pred": 0.03228192643760002, "train/reward_rate": 0.03731003852739726, "stats/sum_log_reward": 9.933333476384481, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.5399616161982218, "replay/size": 379680.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.81830966833866e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2029301036487927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21328473091125, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.608476638793945, "timer/env.step_frac": 0.05865322267326333, "timer/env.step_avg": 0.012127050026717594, "timer/env.step_min": 0.0031402111053466797, "timer/env.step_max": 1.7886378765106201, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2898387908935547, "timer/replay.add_frac": 0.0009654429221989443, "timer/replay.add_avg": 0.000199613492350933, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.003245115280151367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287015438079834, "timer/logger.write_frac": 9.560384322668903e-05, "timer/logger.write_avg": 0.0287015438079834, "timer/logger.write_min": 0.0287015438079834, "timer/logger.write_max": 0.0287015438079834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.855261325836182, "timer/agent.policy_frac": 0.03615849756804076, "timer/agent.policy_avg": 0.007476075293275607, "timer/agent.policy_min": 0.0056078433990478516, "timer/agent.policy_max": 0.01587510108947754, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06748294830322266, "timer/dataset_frac": 0.00022478335148862357, "timer/dataset_avg": 9.295171942592652e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00018334388732910156, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.639452457428, "timer/agent.train_frac": 0.9014905942620393, "timer/agent.train_avg": 0.37278161495513495, "timer/agent.train_min": 0.3663442134857178, "timer/agent.train_max": 0.3885025978088379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22053742408752441, "timer/agent.report_frac": 0.0007346024819827599, "timer/agent.report_avg": 0.22053742408752441, "timer/agent.report_min": 0.22053742408752441, "timer/agent.report_max": 0.22053742408752441, "fps": 4.836448446879535}
+{"step": 379921, "episode/length": 197.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.050505050505050504}
+{"step": 380086, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
+{"step": 380483, "episode/length": 396.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0327455919395466}
+{"step": 380678, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05641025641025641}
+{"step": 380974, "episode/length": 295.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.037162162162162164}
+{"step": 381194, "episode/length": 219.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.05}
+{"step": 381195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.596861945258246, "train/action_min": 0.0, "train/action_std": 3.4289221929179297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04651111943854226, "train/actor_opt_grad_steps": 189685.0, "train/actor_opt_loss": -12.539800297882822, "train/adv_mag": 0.531311210244894, "train/adv_max": 0.46714085506068337, "train/adv_mean": 0.0030245158291614237, "train/adv_min": -0.4072830018897851, "train/adv_std": 0.05202201805594894, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.4012147032597492e-05, "train/cont_loss_std": 0.0003578068512797788, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011389364785507393, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.772899781599563e-06, "train/cont_pred": 0.9943965880407227, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.9734699792332115, "train/dyn_loss_std": 8.671958499484592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0497263272603352, "train/extr_critic_critic_opt_grad_steps": 189685.0, "train/extr_critic_critic_opt_loss": 16235.363199869791, "train/extr_critic_mag": 10.004998286565145, "train/extr_critic_max": 10.004998286565145, "train/extr_critic_mean": 2.4381669478283987, "train/extr_critic_min": -0.550565297404925, "train/extr_critic_std": 2.352461031741566, "train/extr_return_normed_mag": 1.5299018108182483, "train/extr_return_normed_max": 1.5299018108182483, "train/extr_return_normed_mean": 0.3643744925243987, "train/extr_return_normed_min": -0.09593857819628385, "train/extr_return_normed_std": 0.3324150952200095, "train/extr_return_rate": 0.7319318246510294, "train/extr_return_raw_mag": 10.848022818565369, "train/extr_return_raw_max": 10.848022818565369, "train/extr_return_raw_mean": 2.459895667102602, "train/extr_return_raw_min": -0.8525920969744524, "train/extr_return_raw_std": 2.39171368877093, "train/extr_reward_mag": 1.0451757179366217, "train/extr_reward_max": 1.0451757179366217, "train/extr_reward_mean": 0.0477059752576881, "train/extr_reward_min": -0.6451617065403197, "train/extr_reward_std": 0.2122908505714602, "train/image_loss_mean": 3.1417139801714153, "train/image_loss_std": 8.23352501127455, "train/model_loss_mean": 6.176592439413071, "train/model_loss_std": 12.364227645927006, "train/model_opt_grad_norm": 31.026628269089592, "train/model_opt_grad_steps": 189534.41666666666, "train/model_opt_loss": 15609.55413140191, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.577722324265374, "train/policy_entropy_max": 2.577722324265374, "train/policy_entropy_mean": 0.3941981484078699, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.531932050983111, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39333323513468105, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0044493650396664, "train/policy_randomness_mag": 0.909822860525714, "train/policy_randomness_max": 0.909822860525714, "train/policy_randomness_mean": 0.13913464660031927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18774866902579865, "train/post_ent_mag": 54.556456353929306, "train/post_ent_max": 54.556456353929306, "train/post_ent_mean": 40.9065113597446, "train/post_ent_min": 19.166125774383545, "train/post_ent_std": 5.5379411644405785, "train/prior_ent_mag": 76.40700319078233, "train/prior_ent_max": 76.40700319078233, "train/prior_ent_mean": 45.87543461057875, "train/prior_ent_min": 28.11720781856113, "train/prior_ent_std": 7.286949442492591, "train/rep_loss_mean": 4.9734699792332115, "train/rep_loss_std": 8.671958499484592, "train/reward_avg": 0.03211941188460009, "train/reward_loss_mean": 0.05078247036888368, "train/reward_loss_std": 0.20601313447372782, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0210613012313843, "train/reward_neg_acc": 0.9943372077412076, "train/reward_neg_loss": 0.024462902129420802, "train/reward_pos_acc": 0.9860475212335587, "train/reward_pos_loss": 0.734762751393848, "train/reward_pred": 0.03191928482717938, "train/reward_rate": 0.037353515625, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.6666666666666665, "stats/mean_log_entropy": 0.5287826930483183, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "replay/size": 381132.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.921098945554623e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2043052796818336e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0949738025665, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.297815561294556, "timer/env.step_frac": 0.057641137211031215, "timer/env.step_avg": 0.011913096116594047, "timer/env.step_min": 0.002939462661743164, "timer/env.step_max": 1.8156654834747314, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2888932228088379, "timer/replay.add_frac": 0.0009626726470897233, "timer/replay.add_avg": 0.0001989622746617341, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0033833980560302734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027384281158447266, "timer/logger.write_frac": 9.125204868130672e-05, "timer/logger.write_avg": 0.027384281158447266, "timer/logger.write_min": 0.027384281158447266, "timer/logger.write_max": 0.027384281158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.865056276321411, "timer/agent.policy_frac": 0.036205392375113776, "timer/agent.policy_avg": 0.007482821126943121, "timer/agent.policy_min": 0.005530357360839844, "timer/agent.policy_max": 0.015806198120117188, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06785845756530762, "timer/dataset_frac": 0.00022612327259420185, "timer/dataset_avg": 9.346894981447331e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0001888275146484375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.8360946178436, "timer/agent.train_frac": 0.9025012688017481, "timer/agent.train_avg": 0.37305247192540447, "timer/agent.train_min": 0.36669349670410156, "timer/agent.train_max": 0.3876926898956299, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214956283569336, "timer/agent.report_frac": 0.0007380850986949761, "timer/agent.report_avg": 0.2214956283569336, "timer/agent.report_min": 0.2214956283569336, "timer/agent.report_max": 0.2214956283569336, "fps": 4.838393548284688}
+{"step": 381494, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.043333333333333335}
+{"step": 381735, "episode/length": 240.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04149377593360996}
+{"step": 381978, "episode/length": 242.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.0411522633744856}
+{"step": 382218, "episode/length": 239.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.04583333333333333}
+{"step": 382383, "episode/length": 164.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.06666666666666667}
+{"step": 382629, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488375345865886, "train/action_min": 0.0, "train/action_std": 3.3671290112866297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04673229752936297, "train/actor_opt_grad_steps": 190405.0, "train/actor_opt_loss": -13.652017061081198, "train/adv_mag": 0.5288691131605042, "train/adv_max": 0.4807389916645156, "train/adv_mean": 0.002129592290253236, "train/adv_min": -0.39618247002363205, "train/adv_std": 0.051945881348931126, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 1.481183581120149e-05, "train/cont_loss_std": 0.0003903882249195097, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005680010619168266, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.1839659537216107e-05, "train/cont_pred": 0.9943637632661395, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.807482129997677, "train/dyn_loss_std": 8.668136265542772, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0623153638508585, "train/extr_critic_critic_opt_grad_steps": 190405.0, "train/extr_critic_critic_opt_loss": 16075.984781901041, "train/extr_critic_mag": 9.999464750289917, "train/extr_critic_max": 9.999464750289917, "train/extr_critic_mean": 2.601360989941491, "train/extr_critic_min": -0.5677039755715264, "train/extr_critic_std": 2.399644762277603, "train/extr_return_normed_mag": 1.5294102148877249, "train/extr_return_normed_max": 1.5294102148877249, "train/extr_return_normed_mean": 0.3870299586819278, "train/extr_return_normed_min": -0.10125031115280257, "train/extr_return_normed_std": 0.33842578944232726, "train/extr_return_rate": 0.748521631790532, "train/extr_return_raw_mag": 10.828138245476616, "train/extr_return_raw_max": 10.828138245476616, "train/extr_return_raw_mean": 2.616660553548071, "train/extr_return_raw_min": -0.8928957142763667, "train/extr_return_raw_std": 2.4325183729330697, "train/extr_reward_mag": 1.04995177520646, "train/extr_reward_max": 1.04995177520646, "train/extr_reward_mean": 0.047562135849148035, "train/extr_reward_min": -0.6735862592856089, "train/extr_reward_std": 0.21229209336969587, "train/image_loss_mean": 2.882284477353096, "train/image_loss_std": 7.832959764533573, "train/model_loss_mean": 5.81570827960968, "train/model_loss_std": 12.000804000430637, "train/model_opt_grad_norm": 32.97921159233845, "train/model_opt_grad_steps": 190253.80555555556, "train/model_opt_loss": 14726.86126030816, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5414249863889484, "train/policy_entropy_max": 2.5414249863889484, "train/policy_entropy_mean": 0.36956328857276177, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49921059153146213, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3702426416178544, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9857049981753031, "train/policy_randomness_mag": 0.8970114936431249, "train/policy_randomness_max": 0.8970114936431249, "train/policy_randomness_mean": 0.1304396227416065, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17619943308333555, "train/post_ent_mag": 54.71437030368381, "train/post_ent_max": 54.71437030368381, "train/post_ent_mean": 40.7847834693061, "train/post_ent_min": 18.635805659823948, "train/post_ent_std": 5.48296226395501, "train/prior_ent_mag": 76.26647726694743, "train/prior_ent_max": 76.26647726694743, "train/prior_ent_mean": 45.557690938313804, "train/prior_ent_min": 27.48602792951796, "train/prior_ent_std": 7.3030277954207525, "train/rep_loss_mean": 4.807482129997677, "train/rep_loss_std": 8.668136265542772, "train/reward_avg": 0.031465657288208604, "train/reward_loss_mean": 0.048919676130430564, "train/reward_loss_std": 0.2030105505966478, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.023029926750395, "train/reward_neg_acc": 0.9947032208244005, "train/reward_neg_loss": 0.023416894643257063, "train/reward_pos_acc": 0.9904242323504554, "train/reward_pos_loss": 0.7255697995424271, "train/reward_pred": 0.03131374346816705, "train/reward_rate": 0.036431206597222224, "stats/sum_log_reward": 9.700000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.8, "stats/max_log_achievement_collect_wood": 9.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5218988597393036, "replay/size": 382566.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.895333953814859e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.208656668829286e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06112718582153, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.35931944847107, "timer/env.step_frac": 0.06118526455145098, "timer/env.step_avg": 0.01280287269767857, "timer/env.step_min": 0.003202199935913086, "timer/env.step_max": 2.6647567749023438, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2967700958251953, "timer/replay.add_frac": 0.0009890321302479538, "timer/replay.add_avg": 0.00020695264701896466, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.007588624954223633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027496337890625, "timer/logger.write_frac": 9.163578817591089e-05, "timer/logger.write_avg": 0.027496337890625, "timer/logger.write_min": 0.027496337890625, "timer/logger.write_max": 0.027496337890625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005009174346923828, "timer/checkpoint.save_frac": 1.6693846330257076e-06, "timer/checkpoint.save_avg": 0.0005009174346923828, "timer/checkpoint.save_min": 0.0005009174346923828, "timer/checkpoint.save_max": 0.0005009174346923828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.445343255996704, "timer/agent.save_frac": 0.004816829389238525, "timer/agent.save_avg": 1.445343255996704, "timer/agent.save_min": 1.445343255996704, "timer/agent.save_max": 1.445343255996704, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.145330085278158e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.969573497772217, "timer/agent.policy_frac": 0.04322310463674434, "timer/agent.policy_avg": 0.009044332983104754, "timer/agent.policy_min": 0.005548238754272461, "timer/agent.policy_max": 1.434427261352539, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06699371337890625, "timer/dataset_frac": 0.00022326688567499267, "timer/dataset_avg": 9.343614139317468e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.6451816558838, "timer/agent.train_frac": 0.891968860365364, "timer/agent.train_avg": 0.37328477218393835, "timer/agent.train_min": 0.36622190475463867, "timer/agent.train_max": 0.5173947811126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060489654541016, "timer/agent.report_frac": 0.0007351998528246353, "timer/agent.report_avg": 0.22060489654541016, "timer/agent.report_min": 0.22060489654541016, "timer/agent.report_max": 0.22060489654541016, "fps": 4.778959966009353}
+{"step": 382654, "episode/length": 270.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.02952029520295203}
+{"step": 383005, "episode/length": 350.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03418803418803419}
+{"step": 383201, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
+{"step": 383371, "episode/length": 169.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.058823529411764705}
+{"step": 383577, "episode/length": 205.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.043689320388349516}
+{"step": 383850, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04395604395604396}
+{"step": 384021, "episode/length": 170.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.07602339181286549}
+{"step": 384073, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6030078464084205, "train/action_min": 0.0, "train/action_std": 3.430582106113434, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04448134734088348, "train/actor_opt_grad_steps": 191125.0, "train/actor_opt_loss": -13.04274119105604, "train/adv_mag": 0.4387367508477635, "train/adv_max": 0.3896030696729819, "train/adv_mean": 0.0022026748484809864, "train/adv_min": -0.3838201788150602, "train/adv_std": 0.05023095808509323, "train/cont_avg": 0.9942084418402778, "train/cont_loss_mean": 2.1795827832546718e-05, "train/cont_loss_std": 0.0005391592409777798, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012503530147946998, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.3691706866738843e-05, "train/cont_pred": 0.9942026742630534, "train/cont_rate": 0.9942084418402778, "train/dyn_loss_mean": 4.921340654293696, "train/dyn_loss_std": 8.668208638827005, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.060276084476047, "train/extr_critic_critic_opt_grad_steps": 191125.0, "train/extr_critic_critic_opt_loss": 15993.878133138021, "train/extr_critic_mag": 9.558218055301243, "train/extr_critic_max": 9.558218055301243, "train/extr_critic_mean": 2.5555530223581524, "train/extr_critic_min": -0.5571241544352638, "train/extr_critic_std": 2.3497115770975747, "train/extr_return_normed_mag": 1.4446151653925579, "train/extr_return_normed_max": 1.4446151653925579, "train/extr_return_normed_mean": 0.38048172638648087, "train/extr_return_normed_min": -0.09698059389160739, "train/extr_return_normed_std": 0.33057941248019534, "train/extr_return_rate": 0.7367468178272247, "train/extr_return_raw_mag": 10.22426634364658, "train/extr_return_raw_max": 10.22426634364658, "train/extr_return_raw_mean": 2.5713863554928036, "train/extr_return_raw_min": -0.8630882874131203, "train/extr_return_raw_std": 2.3777945753600864, "train/extr_reward_mag": 1.0482038491302066, "train/extr_reward_max": 1.0482038491302066, "train/extr_reward_mean": 0.048754819901660085, "train/extr_reward_min": -0.7106350345744027, "train/extr_reward_std": 0.21459494820899433, "train/image_loss_mean": 3.0153401460912495, "train/image_loss_std": 8.021426664458382, "train/model_loss_mean": 6.017107675472896, "train/model_loss_std": 12.19340411822001, "train/model_opt_grad_norm": 34.77400308185153, "train/model_opt_grad_steps": 190972.58333333334, "train/model_opt_loss": 12243.531622992621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1979.1666666666667, "train/policy_entropy_mag": 2.54139044880867, "train/policy_entropy_max": 2.54139044880867, "train/policy_entropy_mean": 0.37844713321990436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5092883196969827, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37745796599321896, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9906294850839509, "train/policy_randomness_mag": 0.8969993020097414, "train/policy_randomness_max": 0.8969993020097414, "train/policy_randomness_mean": 0.133575230009026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17975642676982614, "train/post_ent_mag": 54.68012200461494, "train/post_ent_max": 54.68012200461494, "train/post_ent_mean": 40.824604193369545, "train/post_ent_min": 18.936259057786728, "train/post_ent_std": 5.490007864104377, "train/prior_ent_mag": 76.3749025132921, "train/prior_ent_max": 76.3749025132921, "train/prior_ent_mean": 45.70642699135674, "train/prior_ent_min": 27.732009437349106, "train/prior_ent_std": 7.3834140168295965, "train/rep_loss_mean": 4.921340654293696, "train/rep_loss_std": 8.668208638827005, "train/reward_avg": 0.03264024486351344, "train/reward_loss_mean": 0.048941387639691435, "train/reward_loss_std": 0.19708369113504887, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.017195959885915, "train/reward_neg_acc": 0.9954753228359752, "train/reward_neg_loss": 0.02251413759465019, "train/reward_pos_acc": 0.9892061236831877, "train/reward_pos_loss": 0.7270297002461221, "train/reward_pred": 0.032327397648865976, "train/reward_rate": 0.037665473090277776, "stats/sum_log_reward": 9.671428748539515, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 7.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.41360398488385336, "replay/size": 384010.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.829887369002662e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2143827211163381e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14284348487854, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.772870302200317, "timer/env.step_frac": 0.06254645316287913, "timer/env.step_avg": 0.01300060270235479, "timer/env.step_min": 0.0032269954681396484, "timer/env.step_max": 1.6804823875427246, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.31140589714050293, "timer/replay.add_frac": 0.001037525644539287, "timer/replay.add_avg": 0.0002156550534214009, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.00682377815246582, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287020206451416, "timer/logger.write_frac": 9.562786942340551e-05, "timer/logger.write_avg": 0.0287020206451416, "timer/logger.write_min": 0.0287020206451416, "timer/logger.write_max": 0.0287020206451416, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.901968479156494, "timer/agent.policy_frac": 0.0363226001079241, "timer/agent.policy_avg": 0.007549839667005882, "timer/agent.policy_min": 0.0057485103607177734, "timer/agent.policy_max": 0.020119190216064453, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06777620315551758, "timer/dataset_frac": 0.00022581315739061492, "timer/dataset_avg": 9.387285755611854e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.33593940734863, "timer/agent.train_frac": 0.897359191644088, "timer/agent.train_avg": 0.37304146732319754, "timer/agent.train_min": 0.3662576675415039, "timer/agent.train_max": 0.3864774703979492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22574520111083984, "timer/agent.report_frac": 0.0007521258827622625, "timer/agent.report_avg": 0.22574520111083984, "timer/agent.report_min": 0.22574520111083984, "timer/agent.report_max": 0.22574520111083984, "fps": 4.810935438216441}
+{"step": 384230, "episode/length": 208.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05263157894736842}
+{"step": 384432, "episode/length": 201.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.06435643564356436}
+{"step": 384634, "episode/length": 201.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.034653465346534656}
+{"step": 384816, "episode/length": 181.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04395604395604396}
+{"step": 385088, "episode/length": 271.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.04411764705882353}
+{"step": 385259, "episode/length": 170.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.05263157894736842}
+{"step": 385460, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04975124378109453}
+{"step": 385517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.594930860731337, "train/action_min": 0.0, "train/action_std": 3.4075243771076202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045787723993675575, "train/actor_opt_grad_steps": 191845.0, "train/actor_opt_loss": -11.859937119815084, "train/adv_mag": 0.4463536561363273, "train/adv_max": 0.4122152448528343, "train/adv_mean": 0.002913869210563765, "train/adv_min": -0.3746625410599841, "train/adv_std": 0.050582025251868695, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 5.111522933039699e-05, "train/cont_loss_std": 0.001476227963337351, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.00502291306322099, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.1647830480099452e-05, "train/cont_pred": 0.9943926607569059, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.022961318492889, "train/dyn_loss_std": 8.72937030924691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0789026808407571, "train/extr_critic_critic_opt_grad_steps": 191845.0, "train/extr_critic_critic_opt_loss": 16313.0185546875, "train/extr_critic_mag": 9.65192691485087, "train/extr_critic_max": 9.65192691485087, "train/extr_critic_mean": 2.4931630028618708, "train/extr_critic_min": -0.5376098040077422, "train/extr_critic_std": 2.3774584747023053, "train/extr_return_normed_mag": 1.448018244571156, "train/extr_return_normed_max": 1.448018244571156, "train/extr_return_normed_mean": 0.3677321289562517, "train/extr_return_normed_min": -0.0987209247218238, "train/extr_return_normed_std": 0.33225563002957237, "train/extr_return_rate": 0.7154875960614946, "train/extr_return_raw_mag": 10.371442914009094, "train/extr_return_raw_max": 10.371442914009094, "train/extr_return_raw_mean": 2.5143526229593487, "train/extr_return_raw_min": -0.8795710934533013, "train/extr_return_raw_std": 2.417433695660697, "train/extr_reward_mag": 1.0402292940351698, "train/extr_reward_max": 1.0402292940351698, "train/extr_reward_mean": 0.048163483617827296, "train/extr_reward_min": -0.6755669729577171, "train/extr_reward_std": 0.21437089724673164, "train/image_loss_mean": 3.3857225560479693, "train/image_loss_std": 8.655918174319797, "train/model_loss_mean": 6.449823396073447, "train/model_loss_std": 12.757024791505602, "train/model_opt_grad_norm": 31.099262608422173, "train/model_opt_grad_steps": 191692.0, "train/model_opt_loss": 8298.436767578125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.5741864144802094, "train/policy_entropy_max": 2.5741864144802094, "train/policy_entropy_mean": 0.38877802424960667, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5229343809187412, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3879452906548977, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9994047474530008, "train/policy_randomness_mag": 0.9085748435722457, "train/policy_randomness_max": 0.9085748435722457, "train/policy_randomness_mean": 0.13722158150954378, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18457288729647794, "train/post_ent_mag": 54.8660741382175, "train/post_ent_max": 54.8660741382175, "train/post_ent_mean": 40.99023283852471, "train/post_ent_min": 19.153687357902527, "train/post_ent_std": 5.542384597990248, "train/prior_ent_mag": 76.40988254547119, "train/prior_ent_max": 76.40988254547119, "train/prior_ent_mean": 45.97167348861694, "train/prior_ent_min": 28.10451873143514, "train/prior_ent_std": 7.363024585776859, "train/rep_loss_mean": 5.022961318492889, "train/rep_loss_std": 8.72937030924691, "train/reward_avg": 0.03163113029828916, "train/reward_loss_mean": 0.05027285135454602, "train/reward_loss_std": 0.2036872590995497, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0138116892841127, "train/reward_neg_acc": 0.9943562150001526, "train/reward_neg_loss": 0.024398201934268907, "train/reward_pos_acc": 0.9880880481666989, "train/reward_pos_loss": 0.7312651500105858, "train/reward_pred": 0.03154649562202394, "train/reward_rate": 0.03663465711805555, "stats/sum_log_reward": 8.67142881665911, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 7.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3849627694913319, "replay/size": 385454.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.8526725240691546e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.234505480346257e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0854208469391, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.848971843719482, "timer/env.step_frac": 0.06281202129220916, "timer/env.step_avg": 0.013053304600913768, "timer/env.step_min": 0.003093719482421875, "timer/env.step_max": 1.7107300758361816, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.291363000869751, "timer/replay.add_frac": 0.0009709335430139505, "timer/replay.add_avg": 0.00020177493135024307, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005092144012451172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029592037200927734, "timer/logger.write_frac": 9.861204558825063e-05, "timer/logger.write_avg": 0.029592037200927734, "timer/logger.write_min": 0.029592037200927734, "timer/logger.write_max": 0.029592037200927734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.88823914527893, "timer/agent.policy_frac": 0.03628379917474419, "timer/agent.policy_avg": 0.007540331818060201, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 0.01901721954345703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06733441352844238, "timer/dataset_frac": 0.00022438415481299516, "timer/dataset_avg": 9.326096056570967e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.2506756782532, "timer/agent.train_frac": 0.8972467736631117, "timer/agent.train_avg": 0.37292337351558613, "timer/agent.train_min": 0.3660728931427002, "timer/agent.train_max": 0.4210083484649658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21898198127746582, "timer/agent.report_frac": 0.0007297321564620738, "timer/agent.report_avg": 0.21898198127746582, "timer/agent.report_min": 0.21898198127746582, "timer/agent.report_max": 0.21898198127746582, "fps": 4.811860304102915}
+{"step": 385661, "episode/length": 200.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05970149253731343}
+{"step": 385826, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
+{"step": 386014, "episode/length": 187.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05851063829787234}
+{"step": 386179, "episode/length": 164.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05454545454545454}
+{"step": 386240, "episode/length": 60.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08196721311475409}
+{"step": 386416, "episode/length": 175.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.045454545454545456}
+{"step": 386598, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
+{"step": 386730, "episode/length": 131.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.08333333333333333}
+{"step": 386885, "episode/length": 154.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05806451612903226}
+{"step": 386921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.588682362731074, "train/action_min": 0.0, "train/action_std": 3.401136636734009, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04595852947570908, "train/actor_opt_grad_steps": 192560.0, "train/actor_opt_loss": -13.945773635951566, "train/adv_mag": 0.5270580724931099, "train/adv_max": 0.48261431069441246, "train/adv_mean": 0.002109674959337752, "train/adv_min": -0.3838278500127121, "train/adv_std": 0.051379210879685173, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 5.504314835296638e-05, "train/cont_loss_std": 0.0016798473203831672, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023308074705966366, "train/cont_pos_acc": 0.999986104562249, "train/cont_pos_loss": 4.61492787095062e-05, "train/cont_pred": 0.9942703473735863, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.8629918770051335, "train/dyn_loss_std": 8.653755073816004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0840507325991777, "train/extr_critic_critic_opt_grad_steps": 192560.0, "train/extr_critic_critic_opt_loss": 16219.543395136443, "train/extr_critic_mag": 10.25865916131248, "train/extr_critic_max": 10.25865916131248, "train/extr_critic_mean": 2.649408417688289, "train/extr_critic_min": -0.5483065054450237, "train/extr_critic_std": 2.464204172013511, "train/extr_return_normed_mag": 1.5232098555900682, "train/extr_return_normed_max": 1.5232098555900682, "train/extr_return_normed_mean": 0.3828748972483084, "train/extr_return_normed_min": -0.09774401159563535, "train/extr_return_normed_std": 0.340068410819685, "train/extr_return_rate": 0.7403050216150956, "train/extr_return_raw_mag": 11.042112780288912, "train/extr_return_raw_max": 11.042112780288912, "train/extr_return_raw_mean": 2.6649212098457444, "train/extr_return_raw_min": -0.8648635350482564, "train/extr_return_raw_std": 2.4980717947785283, "train/extr_reward_mag": 1.042018175125122, "train/extr_reward_max": 1.042018175125122, "train/extr_reward_mean": 0.05008025923875016, "train/extr_reward_min": -0.6559642368639019, "train/extr_reward_std": 0.2172186099727389, "train/image_loss_mean": 2.9980009676704946, "train/image_loss_std": 7.946691566789654, "train/model_loss_mean": 5.965706509603581, "train/model_loss_std": 12.079270806111081, "train/model_opt_grad_norm": 31.468244283971654, "train/model_opt_grad_steps": 192407.0, "train/model_opt_loss": 14914.266230193662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.54062304026644, "train/policy_entropy_max": 2.54062304026644, "train/policy_entropy_mean": 0.36818964191725556, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5056444242806502, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36914113604686627, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 0.9873546177232769, "train/policy_randomness_mag": 0.8967284409093185, "train/policy_randomness_max": 0.8967284409093185, "train/policy_randomness_mean": 0.1299547853184418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17847029298124178, "train/post_ent_mag": 54.75324125692878, "train/post_ent_max": 54.75324125692878, "train/post_ent_mean": 40.9459519184811, "train/post_ent_min": 18.76684136457846, "train/post_ent_std": 5.5174446643238335, "train/prior_ent_mag": 76.27268401669784, "train/prior_ent_max": 76.27268401669784, "train/prior_ent_mean": 45.827044903392526, "train/prior_ent_min": 27.92742680831694, "train/prior_ent_std": 7.282053920584665, "train/rep_loss_mean": 4.8629918770051335, "train/rep_loss_std": 8.653755073816004, "train/reward_avg": 0.03305732797254139, "train/reward_loss_mean": 0.04985534557154481, "train/reward_loss_std": 0.2050863078362505, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0181834529822982, "train/reward_neg_acc": 0.9953642999622184, "train/reward_neg_loss": 0.022843625186614588, "train/reward_pos_acc": 0.9868402867250039, "train/reward_pos_loss": 0.7353597711509382, "train/reward_pred": 0.032748187328098526, "train/reward_rate": 0.03797590228873239, "stats/sum_log_reward": 7.877777947319879, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 6.222222222222222, "stats/max_log_achievement_collect_wood": 6.777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.2899187323119905, "replay/size": 386858.0, "replay/inserts": 1404.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 3.878377441667084e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2227442869094022e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0479431152344, "timer/env.step_count": 1404.0, "timer/env.step_total": 22.23581886291504, "timer/env.step_frac": 0.07410755305319758, "timer/env.step_avg": 0.01583747782258906, "timer/env.step_min": 0.0029790401458740234, "timer/env.step_max": 1.7767293453216553, "timer/replay.add_count": 1404.0, "timer/replay.add_total": 0.281299352645874, "timer/replay.add_frac": 0.0009375146842377789, "timer/replay.add_avg": 0.00020035566427768805, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.005705118179321289, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029801368713378906, "timer/logger.write_frac": 9.932202302061305e-05, "timer/logger.write_avg": 0.029801368713378906, "timer/logger.write_min": 0.029801368713378906, "timer/logger.write_max": 0.029801368713378906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002124309539794922, "timer/checkpoint.save_frac": 7.079900357720746e-07, "timer/checkpoint.save_avg": 0.0002124309539794922, "timer/checkpoint.save_min": 0.0002124309539794922, "timer/checkpoint.save_max": 0.0002124309539794922, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5834689140319824, "timer/agent.save_frac": 0.005277386332303055, "timer/agent.save_avg": 1.5834689140319824, "timer/agent.save_min": 1.5834689140319824, "timer/agent.save_max": 1.5834689140319824, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.0103420768836685e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1404.0, "timer/agent.policy_total": 14.926585674285889, "timer/agent.policy_frac": 0.049747335440167594, "timer/agent.policy_avg": 0.010631471277981402, "timer/agent.policy_min": 0.00561213493347168, "timer/agent.policy_max": 2.817143440246582, "timer/dataset_count": 702.0, "timer/dataset_total": 0.06565332412719727, "timer/dataset_frac": 0.00021880944573575328, "timer/dataset_avg": 9.352325374244625e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00021409988403320312, "timer/agent.train_count": 702.0, "timer/agent.train_total": 261.8116865158081, "timer/agent.train_frac": 0.8725661765835151, "timer/agent.train_avg": 0.372951120392889, "timer/agent.train_min": 0.3661353588104248, "timer/agent.train_max": 0.4422605037689209, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220383882522583, "timer/agent.report_frac": 0.0007344955617240938, "timer/agent.report_avg": 0.220383882522583, "timer/agent.report_min": 0.220383882522583, "timer/agent.report_max": 0.220383882522583, "fps": 4.6791856419699025}
+{"step": 387078, "episode/length": 192.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06735751295336788}
+{"step": 387278, "episode/length": 199.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06}
+{"step": 387526, "episode/length": 247.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04435483870967742}
+{"step": 387585, "episode/length": 58.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.0847457627118644}
+{"step": 387765, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 387921, "episode/length": 155.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.057692307692307696}
+{"step": 388088, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
+{"step": 388179, "episode/length": 90.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.500000044703484, "episode/reward_rate": 0.08791208791208792}
+{"step": 388357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.60393427459287, "train/action_min": 0.0, "train/action_std": 3.4800041964356327, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0464839626785735, "train/actor_opt_grad_steps": 193270.0, "train/actor_opt_loss": -11.491391218044388, "train/adv_mag": 0.5600650008295623, "train/adv_max": 0.4867700565029198, "train/adv_mean": 0.002970070843832833, "train/adv_min": -0.47066302618510286, "train/adv_std": 0.052167788882490615, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 9.350336810698568e-05, "train/cont_loss_std": 0.002892469101579094, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.002055735612820697, "train/cont_pos_acc": 0.9999861599693836, "train/cont_pos_loss": 7.986806471869456e-05, "train/cont_pred": 0.9946712095972517, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 4.872110900744586, "train/dyn_loss_std": 8.651669119445371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1149726325357463, "train/extr_critic_critic_opt_grad_steps": 193270.0, "train/extr_critic_critic_opt_loss": 16106.954211597711, "train/extr_critic_mag": 10.524269748741473, "train/extr_critic_max": 10.524269748741473, "train/extr_critic_mean": 2.585171304957967, "train/extr_critic_min": -0.5310643793831409, "train/extr_critic_std": 2.413228751907886, "train/extr_return_normed_mag": 1.5704562697612063, "train/extr_return_normed_max": 1.5704562697612063, "train/extr_return_normed_mean": 0.3791891793969651, "train/extr_return_normed_min": -0.09910675872799377, "train/extr_return_normed_std": 0.33724922865209445, "train/extr_return_rate": 0.7510591258465404, "train/extr_return_raw_mag": 11.243087687962491, "train/extr_return_raw_max": 11.243087687962491, "train/extr_return_raw_mean": 2.606732358395214, "train/extr_return_raw_min": -0.8615671270330187, "train/extr_return_raw_std": 2.4457811973464323, "train/extr_reward_mag": 1.0463542803912096, "train/extr_reward_max": 1.0463542803912096, "train/extr_reward_mean": 0.04813957314046336, "train/extr_reward_min": -0.6595794247909331, "train/extr_reward_std": 0.21337972812249628, "train/image_loss_mean": 2.9863673515722784, "train/image_loss_std": 7.528130773087622, "train/model_loss_mean": 5.957823810443072, "train/model_loss_std": 11.654912948608398, "train/model_opt_grad_norm": 31.169109048977703, "train/model_opt_grad_steps": 193116.39436619717, "train/model_opt_loss": 14894.559542803698, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.5449710664614824, "train/policy_entropy_max": 2.5449710664614824, "train/policy_entropy_mean": 0.3892743079595163, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5223905956241447, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3897706832684262, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 0.9996110116931755, "train/policy_randomness_mag": 0.8982631035254035, "train/policy_randomness_max": 0.8982631035254035, "train/policy_randomness_mean": 0.13739674664299253, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18438095735832, "train/post_ent_mag": 54.53187330004195, "train/post_ent_max": 54.53187330004195, "train/post_ent_mean": 40.9190932797714, "train/post_ent_min": 18.89226848978392, "train/post_ent_std": 5.486439610870791, "train/prior_ent_mag": 76.30376874896842, "train/prior_ent_max": 76.30376874896842, "train/prior_ent_mean": 45.75997484234017, "train/prior_ent_min": 27.694582012337698, "train/prior_ent_std": 7.245704462830449, "train/rep_loss_mean": 4.872110900744586, "train/rep_loss_std": 8.651669119445371, "train/reward_avg": 0.03036834248407206, "train/reward_loss_mean": 0.048096411349907726, "train/reward_loss_std": 0.20031775282302372, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0200053201594823, "train/reward_neg_acc": 0.9945795410115954, "train/reward_neg_loss": 0.02333640740712134, "train/reward_pos_acc": 0.9896272748288973, "train/reward_pos_loss": 0.7259826349540496, "train/reward_pred": 0.030278083264932667, "train/reward_rate": 0.035211267605633804, "stats/sum_log_reward": 8.600000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3224284779280424, "replay/size": 388294.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.860023360398486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2140088094642236e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0211970806122, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.427063703536987, "timer/env.step_frac": 0.06808540163929976, "timer/env.step_avg": 0.014224974723911552, "timer/env.step_min": 0.002981901168823242, "timer/env.step_max": 1.781891107559204, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28584742546081543, "timer/replay.add_frac": 0.000952757432615708, "timer/replay.add_avg": 0.00019905809572480184, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004758596420288086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029882431030273438, "timer/logger.write_frac": 9.960106592816633e-05, "timer/logger.write_avg": 0.029882431030273438, "timer/logger.write_min": 0.029882431030273438, "timer/logger.write_max": 0.029882431030273438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.795929908752441, "timer/agent.policy_frac": 0.03598389051774799, "timer/agent.policy_avg": 0.007518057039521199, "timer/agent.policy_min": 0.0057163238525390625, "timer/agent.policy_max": 0.01756882667541504, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06674075126647949, "timer/dataset_frac": 0.000222453453009012, "timer/dataset_avg": 9.295369257169845e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.7026879787445, "timer/agent.train_frac": 0.8922792475453524, "timer/agent.train_avg": 0.3728449693297277, "timer/agent.train_min": 0.36617112159729004, "timer/agent.train_max": 0.3871574401855469, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22534561157226562, "timer/agent.report_frac": 0.0007510989682229616, "timer/agent.report_avg": 0.22534561157226562, "timer/agent.report_min": 0.22534561157226562, "timer/agent.report_max": 0.22534561157226562, "fps": 4.7862564143345265}
+{"step": 388364, "episode/length": 184.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.06486486486486487}
+{"step": 388571, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05314009661835749}
+{"step": 388712, "episode/length": 140.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07801418439716312}
+{"step": 388935, "episode/length": 222.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.04932735426008968}
+{"step": 389148, "episode/length": 212.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.056338028169014086}
+{"step": 389314, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04819277108433735}
+{"step": 389518, "episode/length": 203.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.05392156862745098}
+{"step": 389661, "episode/length": 142.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.027972027972027972}
+{"step": 389791, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548207600911458, "train/action_min": 0.0, "train/action_std": 3.331751071744495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04479809043308099, "train/actor_opt_grad_steps": 193985.0, "train/actor_opt_loss": -13.433623284515408, "train/adv_mag": 0.48449093517329955, "train/adv_max": 0.4508826740913921, "train/adv_mean": 0.001751025713461887, "train/adv_min": -0.3993005390382475, "train/adv_std": 0.050748076393372483, "train/cont_avg": 0.9940999348958334, "train/cont_loss_mean": 0.0001529218637238551, "train/cont_loss_std": 0.004710266989661704, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.028053376046336273, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.1726655969823696e-05, "train/cont_pred": 0.9941097928418053, "train/cont_rate": 0.9940999348958334, "train/dyn_loss_mean": 4.914060013161765, "train/dyn_loss_std": 8.646366516749064, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0320350295967526, "train/extr_critic_critic_opt_grad_steps": 193985.0, "train/extr_critic_critic_opt_loss": 15918.995727539062, "train/extr_critic_mag": 10.088411370913187, "train/extr_critic_max": 10.088411370913187, "train/extr_critic_mean": 2.6296600848436356, "train/extr_critic_min": -0.5330312367942598, "train/extr_critic_std": 2.4097927229271994, "train/extr_return_normed_mag": 1.4974311292171478, "train/extr_return_normed_max": 1.4974311292171478, "train/extr_return_normed_mean": 0.38615454195274246, "train/extr_return_normed_min": -0.09406738955941465, "train/extr_return_normed_std": 0.3359637933058871, "train/extr_return_rate": 0.7595857241087489, "train/extr_return_raw_mag": 10.71021130349901, "train/extr_return_raw_max": 10.71021130349901, "train/extr_return_raw_mean": 2.642381116747856, "train/extr_return_raw_min": -0.8439981229603291, "train/extr_return_raw_std": 2.438934965266122, "train/extr_reward_mag": 1.0354504850175645, "train/extr_reward_max": 1.0354504850175645, "train/extr_reward_mean": 0.04797710499001874, "train/extr_reward_min": -0.6724297089709176, "train/extr_reward_std": 0.21358982142474917, "train/image_loss_mean": 2.937087113658587, "train/image_loss_std": 7.821055471897125, "train/model_loss_mean": 5.935942875014411, "train/model_loss_std": 11.959469026989407, "train/model_opt_grad_norm": 31.333142585224575, "train/model_opt_grad_steps": 193830.79166666666, "train/model_opt_loss": 14839.857191297742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5532326334052615, "train/policy_entropy_max": 2.5532326334052615, "train/policy_entropy_mean": 0.3662445652816031, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5010660654968686, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3662615306675434, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9806437566876411, "train/policy_randomness_mag": 0.9011790744132466, "train/policy_randomness_max": 0.9011790744132466, "train/policy_randomness_mean": 0.12926826098312935, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17685433177070486, "train/post_ent_mag": 54.71065203348795, "train/post_ent_max": 54.71065203348795, "train/post_ent_mean": 40.833967473771835, "train/post_ent_min": 18.46358323097229, "train/post_ent_std": 5.539731707837847, "train/prior_ent_mag": 76.21171432071262, "train/prior_ent_max": 76.21171432071262, "train/prior_ent_mean": 45.73031531439887, "train/prior_ent_min": 28.05648159980774, "train/prior_ent_std": 7.307403239938948, "train/rep_loss_mean": 4.914060013161765, "train/rep_loss_std": 8.646366516749064, "train/reward_avg": 0.03283284462264015, "train/reward_loss_mean": 0.05026680510491133, "train/reward_loss_std": 0.20380921310020816, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.012676055232684, "train/reward_neg_acc": 0.9944293830129836, "train/reward_neg_loss": 0.023079506690717407, "train/reward_pos_acc": 0.9875169744094213, "train/reward_pos_loss": 0.7396557248300977, "train/reward_pred": 0.03243038265241517, "train/reward_rate": 0.03797743055555555, "stats/sum_log_reward": 8.725000262260437, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33809105306863785, "replay/size": 389728.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.8198513632206406e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2047910956325558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1188781261444, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.147138595581055, "timer/env.step_frac": 0.06713052748089014, "timer/env.step_avg": 0.014049608504589299, "timer/env.step_min": 0.002922534942626953, "timer/env.step_max": 1.7542808055877686, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.3096480369567871, "timer/replay.add_frac": 0.001031751280992852, "timer/replay.add_avg": 0.0002159330801651235, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.012259960174560547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02894115447998047, "timer/logger.write_frac": 9.643230262848068e-05, "timer/logger.write_avg": 0.02894115447998047, "timer/logger.write_min": 0.02894115447998047, "timer/logger.write_max": 0.02894115447998047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 11.068936109542847, "timer/agent.policy_frac": 0.036881838885491264, "timer/agent.policy_avg": 0.007718923367882041, "timer/agent.policy_min": 0.0055768489837646484, "timer/agent.policy_max": 0.06302595138549805, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06820034980773926, "timer/dataset_frac": 0.00022724445137727603, "timer/dataset_avg": 9.511903738875768e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0004546642303466797, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.75845861434937, "timer/agent.train_frac": 0.8921746618745073, "timer/agent.train_avg": 0.37344275957370904, "timer/agent.train_min": 0.36292219161987305, "timer/agent.train_max": 0.4426584243774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22563576698303223, "timer/agent.report_frac": 0.0007518213062498326, "timer/agent.report_avg": 0.22563576698303223, "timer/agent.report_min": 0.22563576698303223, "timer/agent.report_max": 0.22563576698303223, "fps": 4.778028501707802}
+{"step": 389833, "episode/length": 171.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.046511627906976744}
+{"step": 390007, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05747126436781609}
+{"step": 390181, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 390246, "episode/length": 64.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.30000002682209, "episode/reward_rate": 0.06153846153846154}
+{"step": 390429, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.060109289617486336}
+{"step": 390599, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07058823529411765}
+{"step": 390807, "episode/length": 207.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.0625}
+{"step": 391178, "episode/length": 370.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.026954177897574125}
+{"step": 391193, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5551068987165175, "train/action_min": 0.0, "train/action_std": 3.3473321301596504, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045216518587299755, "train/actor_opt_grad_steps": 194695.0, "train/actor_opt_loss": -11.510816013813018, "train/adv_mag": 0.43412271738052366, "train/adv_max": 0.3809660864727838, "train/adv_mean": 0.002779402220429412, "train/adv_min": -0.384982887336186, "train/adv_std": 0.05006746644420283, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 1.4986079191560617e-05, "train/cont_loss_std": 0.00025959984762786395, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.448947389427174e-05, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.4642416625422682e-05, "train/cont_pred": 0.9945034188883645, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.873889868600028, "train/dyn_loss_std": 8.576884882790702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0710750545774188, "train/extr_critic_critic_opt_grad_steps": 194695.0, "train/extr_critic_critic_opt_loss": 16077.27134486607, "train/extr_critic_mag": 9.629340280805316, "train/extr_critic_max": 9.629340280805316, "train/extr_critic_mean": 2.554973232746124, "train/extr_critic_min": -0.556979935509818, "train/extr_critic_std": 2.349565511090415, "train/extr_return_normed_mag": 1.4389774015971593, "train/extr_return_normed_max": 1.4389774015971593, "train/extr_return_normed_mean": 0.3784188144973346, "train/extr_return_normed_min": -0.09407394469848701, "train/extr_return_normed_std": 0.3290034966809409, "train/extr_return_rate": 0.743409634062222, "train/extr_return_raw_mag": 10.273108877454485, "train/extr_return_raw_max": 10.273108877454485, "train/extr_return_raw_mean": 2.575167759827205, "train/extr_return_raw_min": -0.855323543718883, "train/extr_return_raw_std": 2.388401259694781, "train/extr_reward_mag": 1.0362047059195383, "train/extr_reward_max": 1.0362047059195383, "train/extr_reward_mean": 0.04868597915130002, "train/extr_reward_min": -0.6669547779219491, "train/extr_reward_std": 0.2139371265258108, "train/image_loss_mean": 2.8629533563341414, "train/image_loss_std": 7.762745210102627, "train/model_loss_mean": 5.837586225782122, "train/model_loss_std": 11.870129987171717, "train/model_opt_grad_norm": 31.545739269256593, "train/model_opt_grad_steps": 194540.0, "train/model_opt_loss": 14593.965541294643, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.549816884313311, "train/policy_entropy_max": 2.549816884313311, "train/policy_entropy_mean": 0.37930211829287663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5179935446807317, "train/policy_logprob_mag": 7.4383841923304965, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37886786205427986, "train/policy_logprob_min": -7.4383841923304965, "train/policy_logprob_std": 0.9928845584392547, "train/policy_randomness_mag": 0.8999734648636409, "train/policy_randomness_max": 0.8999734648636409, "train/policy_randomness_mean": 0.13387700117060117, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1828289912215301, "train/post_ent_mag": 55.31835005623954, "train/post_ent_max": 55.31835005623954, "train/post_ent_mean": 40.77483400617327, "train/post_ent_min": 18.784797504970005, "train/post_ent_std": 5.575251000268119, "train/prior_ent_mag": 76.28422404697963, "train/prior_ent_max": 76.28422404697963, "train/prior_ent_mean": 45.63612343924386, "train/prior_ent_min": 27.358543150765556, "train/prior_ent_std": 7.330626848765782, "train/rep_loss_mean": 4.873889868600028, "train/rep_loss_std": 8.576884882790702, "train/reward_avg": 0.03334123867430857, "train/reward_loss_mean": 0.05028394529862063, "train/reward_loss_std": 0.20853320360183716, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0133722441537039, "train/reward_neg_acc": 0.9950552156993321, "train/reward_neg_loss": 0.022939495436315026, "train/reward_pos_acc": 0.9871773047106607, "train/reward_pos_loss": 0.7361563052449908, "train/reward_pred": 0.03290643636137247, "train/reward_rate": 0.03823939732142857, "stats/sum_log_reward": 8.850000143051147, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.25, "stats/max_log_achievement_collect_wood": 10.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.34674547612667084, "replay/size": 391130.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.927784537452774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2599877726164421e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05637669563293, "timer/env.step_count": 1402.0, "timer/env.step_total": 22.661264896392822, "timer/env.step_frac": 0.07552335713024905, "timer/env.step_avg": 0.01616352703023739, "timer/env.step_min": 0.0031638145446777344, "timer/env.step_max": 3.7872185707092285, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.36834096908569336, "timer/replay.add_frac": 0.0012275725420070843, "timer/replay.add_avg": 0.0002627253702465716, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.023386478424072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026672840118408203, "timer/logger.write_frac": 8.889276212737926e-05, "timer/logger.write_avg": 0.026672840118408203, "timer/logger.write_min": 0.026672840118408203, "timer/logger.write_max": 0.026672840118408203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001761913299560547, "timer/checkpoint.save_frac": 5.871940863125773e-07, "timer/checkpoint.save_avg": 0.0001761913299560547, "timer/checkpoint.save_min": 0.0001761913299560547, "timer/checkpoint.save_max": 0.0001761913299560547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3530206680297852, "timer/agent.save_frac": 0.004509221510070568, "timer/agent.save_avg": 1.3530206680297852, "timer/agent.save_min": 1.3530206680297852, "timer/agent.save_max": 1.3530206680297852, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.6697863734915556e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 13.272811651229858, "timer/agent.policy_frac": 0.0442343928744209, "timer/agent.policy_avg": 0.009467055386041269, "timer/agent.policy_min": 0.005627632141113281, "timer/agent.policy_max": 1.3421437740325928, "timer/dataset_count": 701.0, "timer/dataset_total": 0.06811022758483887, "timer/dataset_frac": 0.0002269914351926191, "timer/dataset_avg": 9.716152294556187e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0003886222839355469, "timer/agent.train_count": 701.0, "timer/agent.train_total": 262.9032824039459, "timer/agent.train_frac": 0.8761796209737817, "timer/agent.train_avg": 0.3750403457973551, "timer/agent.train_min": 0.36600756645202637, "timer/agent.train_max": 0.5789487361907959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22196340560913086, "timer/agent.report_frac": 0.000739739005227951, "timer/agent.report_avg": 0.22196340560913086, "timer/agent.report_min": 0.22196340560913086, "timer/agent.report_max": 0.22196340560913086, "fps": 4.67237236929719}
+{"step": 391361, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.060109289617486336}
+{"step": 391511, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06}
+{"step": 391671, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06875}
+{"step": 391905, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04700854700854701}
+{"step": 392089, "episode/length": 183.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07065217391304347}
+{"step": 392258, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07100591715976332}
+{"step": 392285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.613620827414772, "train/action_min": 0.0, "train/action_std": 3.456151164661754, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04360017884861339, "train/actor_opt_grad_steps": 195320.0, "train/actor_opt_loss": -13.522872918302363, "train/adv_mag": 0.44614100456237793, "train/adv_max": 0.41924940618601714, "train/adv_mean": 0.0011448048358777834, "train/adv_min": -0.36108755496415224, "train/adv_std": 0.048185391791842204, "train/cont_avg": 0.9945667613636363, "train/cont_loss_mean": 4.867427819952106e-05, "train/cont_loss_std": 0.001464292989498972, "train/cont_neg_acc": 0.9969696976921775, "train/cont_neg_loss": 0.006418334102533084, "train/cont_pos_acc": 0.9999999804930253, "train/cont_pos_loss": 9.449060592394496e-06, "train/cont_pred": 0.9945824872363698, "train/cont_rate": 0.9945667613636363, "train/dyn_loss_mean": 4.803084802627564, "train/dyn_loss_std": 8.564716313102029, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0755145246332343, "train/extr_critic_critic_opt_grad_steps": 195320.0, "train/extr_critic_critic_opt_loss": 16054.947318892046, "train/extr_critic_mag": 9.909367613358931, "train/extr_critic_max": 9.909367613358931, "train/extr_critic_mean": 2.5160426573319867, "train/extr_critic_min": -0.5710578246550126, "train/extr_critic_std": 2.4127161264419557, "train/extr_return_normed_mag": 1.4625370784239335, "train/extr_return_normed_max": 1.4625370784239335, "train/extr_return_normed_mean": 0.3678210274739699, "train/extr_return_normed_min": -0.08920202729376879, "train/extr_return_normed_std": 0.3310695458542217, "train/extr_return_rate": 0.734153687953949, "train/extr_return_raw_mag": 10.602430187572132, "train/extr_return_raw_max": 10.602430187572132, "train/extr_return_raw_mean": 2.524482922120528, "train/extr_return_raw_min": -0.8478315288370306, "train/extr_return_raw_std": 2.4430784225463866, "train/extr_reward_mag": 1.0465317422693425, "train/extr_reward_max": 1.0465317422693425, "train/extr_reward_mean": 0.04576887017623945, "train/extr_reward_min": -0.6452056668021462, "train/extr_reward_std": 0.20867605426094749, "train/image_loss_mean": 2.8656973470341076, "train/image_loss_std": 7.367746448516845, "train/model_loss_mean": 5.795533769780939, "train/model_loss_std": 11.51504003351385, "train/model_opt_grad_norm": 30.297781042619185, "train/model_opt_grad_steps": 195164.21818181817, "train/model_opt_loss": 8817.728471235796, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1522.7272727272727, "train/policy_entropy_mag": 2.5448845169760963, "train/policy_entropy_max": 2.5448845169760963, "train/policy_entropy_mean": 0.386885279417038, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5233689226887442, "train/policy_logprob_mag": 7.438384281505238, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3868004590272903, "train/policy_logprob_min": -7.438384281505238, "train/policy_logprob_std": 1.0007924470034513, "train/policy_randomness_mag": 0.8982325499708003, "train/policy_randomness_max": 0.8982325499708003, "train/policy_randomness_mean": 0.1365535242991014, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1847262608734044, "train/post_ent_mag": 55.05559109774503, "train/post_ent_max": 55.05559109774503, "train/post_ent_mean": 41.004642347856, "train/post_ent_min": 18.70875885703347, "train/post_ent_std": 5.525552203438499, "train/prior_ent_mag": 76.26941528320313, "train/prior_ent_max": 76.26941528320313, "train/prior_ent_mean": 45.79421476884322, "train/prior_ent_min": 28.99352316422896, "train/prior_ent_std": 7.287760777906938, "train/rep_loss_mean": 4.803084802627564, "train/rep_loss_std": 8.564716313102029, "train/reward_avg": 0.03138139175081795, "train/reward_loss_mean": 0.047936849025162785, "train/reward_loss_std": 0.1989204916087064, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0224307537078858, "train/reward_neg_acc": 0.9950832757082853, "train/reward_neg_loss": 0.02207623396746137, "train/reward_pos_acc": 0.9873119202527133, "train/reward_pos_loss": 0.737124730240215, "train/reward_pred": 0.03111050618304448, "train/reward_rate": 0.036328125, "stats/sum_log_reward": 9.93333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.333333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3530599921941757, "replay/size": 392222.0, "replay/inserts": 1092.0, "replay/samples": 8736.0, "replay/insert_wait_avg": 4.0149077391013124e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1604347508468906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1318883895874, "timer/env.step_count": 1092.0, "timer/env.step_total": 19.44050884246826, "timer/env.step_frac": 0.06477322002263695, "timer/env.step_avg": 0.017802663775154087, "timer/env.step_min": 0.003153085708618164, "timer/env.step_max": 1.6800487041473389, "timer/replay.add_count": 1092.0, "timer/replay.add_total": 0.4581122398376465, "timer/replay.add_frac": 0.0015263697646249173, "timer/replay.add_avg": 0.0004195167031480279, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.01543426513671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030499935150146484, "timer/logger.write_frac": 0.00010162177472643601, "timer/logger.write_avg": 0.030499935150146484, "timer/logger.write_min": 0.030499935150146484, "timer/logger.write_max": 0.030499935150146484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1092.0, "timer/agent.policy_total": 52.858187198638916, "timer/agent.policy_frac": 0.1761165315763653, "timer/agent.policy_avg": 0.04840493333208692, "timer/agent.policy_min": 0.005707740783691406, "timer/agent.policy_max": 15.901424169540405, "timer/dataset_count": 546.0, "timer/dataset_total": 0.05940866470336914, "timer/dataset_frac": 0.00019794186156671726, "timer/dataset_avg": 0.0001088070782112988, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.002996683120727539, "timer/agent.train_count": 546.0, "timer/agent.train_total": 226.52074599266052, "timer/agent.train_frac": 0.7547373496635065, "timer/agent.train_avg": 0.4148731611587189, "timer/agent.train_min": 0.3624286651611328, "timer/agent.train_max": 8.1928870677948, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24782919883728027, "timer/agent.report_frac": 0.0008257343135614587, "timer/agent.report_avg": 0.24782919883728027, "timer/agent.report_min": 0.24782919883728027, "timer/agent.report_max": 0.24782919883728027, "fps": 3.6383332772088197}
+{"step": 392453, "episode/length": 194.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.035897435897435895}
+{"step": 392750, "episode/length": 296.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.04377104377104377}
+{"step": 392875, "episode/length": 124.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.08}
+{"step": 392966, "episode/length": 90.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0989010989010989}
+{"step": 393124, "episode/length": 157.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0759493670886076}
+{"step": 393386, "episode/length": 261.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04580152671755725}
+{"step": 393446, "episode/length": 59.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.1}
+{"step": 393589, "episode/length": 142.0, "episode/score": 8.100000068545341, "episode/sum_abs_reward": 10.300000056624413, "episode/reward_rate": 0.06993006993006994}
+{"step": 393723, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.594800313313802, "train/action_min": 0.0, "train/action_std": 3.370401246680154, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04518880405359798, "train/actor_opt_grad_steps": 195955.0, "train/actor_opt_loss": -12.960052228636211, "train/adv_mag": 0.434255688968632, "train/adv_max": 0.40149037953880096, "train/adv_mean": 0.0024797295350759262, "train/adv_min": -0.36233944197495777, "train/adv_std": 0.05076533504244354, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 4.206879893242643e-05, "train/cont_loss_std": 0.0012940611201565212, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004492819467303535, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 1.9865820643271013e-05, "train/cont_pred": 0.9946135125226445, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.871426482995351, "train/dyn_loss_std": 8.618379957146114, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.058018506401115, "train/extr_critic_critic_opt_grad_steps": 195955.0, "train/extr_critic_critic_opt_loss": 16191.92027452257, "train/extr_critic_mag": 9.712806754642063, "train/extr_critic_max": 9.712806754642063, "train/extr_critic_mean": 2.5876579682032266, "train/extr_critic_min": -0.5640711817476485, "train/extr_critic_std": 2.3547273841169147, "train/extr_return_normed_mag": 1.427313130762842, "train/extr_return_normed_max": 1.427313130762842, "train/extr_return_normed_mean": 0.37731658418973285, "train/extr_return_normed_min": -0.09280538890096876, "train/extr_return_normed_std": 0.3227390373746554, "train/extr_return_rate": 0.7604275552762879, "train/extr_return_raw_mag": 10.378954105907017, "train/extr_return_raw_max": 10.378954105907017, "train/extr_return_raw_mean": 2.6059879014889398, "train/extr_return_raw_min": -0.8746712762448523, "train/extr_return_raw_std": 2.3892042537530265, "train/extr_reward_mag": 1.0454786088731554, "train/extr_reward_max": 1.0454786088731554, "train/extr_reward_mean": 0.049853980282528534, "train/extr_reward_min": -0.6864231642749574, "train/extr_reward_std": 0.216850523940391, "train/image_loss_mean": 2.9065741300582886, "train/image_loss_std": 7.894231140613556, "train/model_loss_mean": 5.877529988686244, "train/model_loss_std": 11.996383561028374, "train/model_opt_grad_norm": 30.580906907717388, "train/model_opt_grad_steps": 195799.0, "train/model_opt_loss": 8887.641330295139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1510.4166666666667, "train/policy_entropy_mag": 2.533933791849348, "train/policy_entropy_max": 2.533933791849348, "train/policy_entropy_mean": 0.3733123545017507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5113051301903195, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3734929950700866, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9897408940725856, "train/policy_randomness_mag": 0.8943674332565732, "train/policy_randomness_max": 0.8943674332565732, "train/policy_randomness_mean": 0.13176287938323286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18046827179690203, "train/post_ent_mag": 54.49015257093642, "train/post_ent_max": 54.49015257093642, "train/post_ent_mean": 40.727835761176216, "train/post_ent_min": 18.778070913420784, "train/post_ent_std": 5.475844045480092, "train/prior_ent_mag": 76.33098549313016, "train/prior_ent_max": 76.33098549313016, "train/prior_ent_mean": 45.59388732910156, "train/prior_ent_min": 28.10975636376275, "train/prior_ent_std": 7.250622020827399, "train/rep_loss_mean": 4.871426482995351, "train/rep_loss_std": 8.618379957146114, "train/reward_avg": 0.031979708880600005, "train/reward_loss_mean": 0.04805791569459769, "train/reward_loss_std": 0.20201509156160885, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0244451546006732, "train/reward_neg_acc": 0.9954075333144929, "train/reward_neg_loss": 0.02145600515521235, "train/reward_pos_acc": 0.9844882960120837, "train/reward_pos_loss": 0.741911332640383, "train/reward_pred": 0.03162912015492717, "train/reward_rate": 0.036905924479166664, "stats/sum_log_reward": 8.349999904632568, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 6.625, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36063444428145885, "replay/size": 393660.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.797951593518423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2353663650109472e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1802887916565, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.117198944091797, "timer/env.step_frac": 0.06701705506737775, "timer/env.step_avg": 0.013989707193387898, "timer/env.step_min": 0.0029456615447998047, "timer/env.step_max": 1.6489007472991943, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.28109097480773926, "timer/replay.add_frac": 0.0009364071703016903, "timer/replay.add_avg": 0.00019547355688994384, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.005229473114013672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.04739856719970703, "timer/logger.write_frac": 0.00015790033179894947, "timer/logger.write_avg": 0.04739856719970703, "timer/logger.write_min": 0.04739856719970703, "timer/logger.write_max": 0.04739856719970703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.760332822799683, "timer/agent.policy_frac": 0.03584623382872422, "timer/agent.policy_avg": 0.007482846191098527, "timer/agent.policy_min": 0.00566554069519043, "timer/agent.policy_max": 0.027437925338745117, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06868958473205566, "timer/dataset_frac": 0.00022882776550238595, "timer/dataset_avg": 9.553488836169077e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00033211708068847656, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.20573687553406, "timer/agent.train_frac": 0.8934821735136822, "timer/agent.train_avg": 0.37302605963217533, "timer/agent.train_min": 0.3658578395843506, "timer/agent.train_max": 0.3862593173980713, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22178435325622559, "timer/agent.report_frac": 0.000738837163988997, "timer/agent.report_avg": 0.22178435325622559, "timer/agent.report_min": 0.22178435325622559, "timer/agent.report_max": 0.22178435325622559, "fps": 4.790407836733789}
+{"step": 393773, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 393833, "episode/length": 59.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.11666666666666667}
+{"step": 394152, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03761755485893417}
+{"step": 394352, "episode/length": 199.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07}
+{"step": 394605, "episode/length": 252.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.043478260869565216}
+{"step": 394782, "episode/length": 176.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05084745762711865}
+{"step": 394984, "episode/length": 201.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.0594059405940594}
+{"step": 395135, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564837646484375, "train/action_min": 0.0, "train/action_std": 3.371036580630711, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044827176683715414, "train/actor_opt_grad_steps": 196665.0, "train/actor_opt_loss": -12.490113603643008, "train/adv_mag": 0.44263455995491574, "train/adv_max": 0.3973908007144928, "train/adv_mean": 0.0023125244223462815, "train/adv_min": -0.38004920205899645, "train/adv_std": 0.05027163757809571, "train/cont_avg": 0.9942661830357142, "train/cont_loss_mean": 0.00011529600998585465, "train/cont_loss_std": 0.0035110324580240816, "train/cont_neg_acc": 0.9982142857142857, "train/cont_neg_loss": 0.007967948412338695, "train/cont_pos_acc": 0.9999719449451991, "train/cont_pos_loss": 5.500230494947443e-05, "train/cont_pred": 0.9942470669746399, "train/cont_rate": 0.9942661830357142, "train/dyn_loss_mean": 4.899956744057792, "train/dyn_loss_std": 8.720402956008911, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1072112211159297, "train/extr_critic_critic_opt_grad_steps": 196665.0, "train/extr_critic_critic_opt_loss": 16353.499567522322, "train/extr_critic_mag": 9.649023737226214, "train/extr_critic_max": 9.649023737226214, "train/extr_critic_mean": 2.405186075823648, "train/extr_critic_min": -0.5533673865454537, "train/extr_critic_std": 2.3629552040781294, "train/extr_return_normed_mag": 1.4309694017682757, "train/extr_return_normed_max": 1.4309694017682757, "train/extr_return_normed_mean": 0.3523139744997025, "train/extr_return_normed_min": -0.09504479036799499, "train/extr_return_normed_std": 0.32388373485633304, "train/extr_return_rate": 0.7162016753639494, "train/extr_return_raw_mag": 10.406851550510952, "train/extr_return_raw_max": 10.406851550510952, "train/extr_return_raw_mean": 2.4223027655056546, "train/extr_return_raw_min": -0.889270794391632, "train/extr_return_raw_std": 2.397390505245754, "train/extr_reward_mag": 1.0440452984401158, "train/extr_reward_max": 1.0440452984401158, "train/extr_reward_mean": 0.04655531368085316, "train/extr_reward_min": -0.6466063584600176, "train/extr_reward_std": 0.21080864540168218, "train/image_loss_mean": 3.1000287907464164, "train/image_loss_std": 8.05729662350246, "train/model_loss_mean": 6.089710991723197, "train/model_loss_std": 12.225279590061733, "train/model_opt_grad_norm": 31.685806478772843, "train/model_opt_grad_steps": 196509.0, "train/model_opt_loss": 15224.277469308036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5619937283652168, "train/policy_entropy_max": 2.5619937283652168, "train/policy_entropy_mean": 0.3889791258743831, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5265773794480733, "train/policy_logprob_mag": 7.438384219578334, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3894512121166502, "train/policy_logprob_min": -7.438384219578334, "train/policy_logprob_std": 1.0007378697395324, "train/policy_randomness_mag": 0.904271354845592, "train/policy_randomness_max": 0.904271354845592, "train/policy_randomness_mean": 0.13729256434100015, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18585870862007142, "train/post_ent_mag": 55.159208461216515, "train/post_ent_max": 55.159208461216515, "train/post_ent_mean": 41.002057157244, "train/post_ent_min": 18.95365586962019, "train/post_ent_std": 5.610262673241752, "train/prior_ent_mag": 76.30350843157088, "train/prior_ent_max": 76.30350843157088, "train/prior_ent_mean": 45.868824114118304, "train/prior_ent_min": 28.12428185599191, "train/prior_ent_std": 7.323702314921788, "train/rep_loss_mean": 4.899956744057792, "train/rep_loss_std": 8.720402956008911, "train/reward_avg": 0.031590401487691065, "train/reward_loss_mean": 0.049592834977166995, "train/reward_loss_std": 0.20112276204994747, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0153964638710022, "train/reward_neg_acc": 0.9946844117982047, "train/reward_neg_loss": 0.023973960283079316, "train/reward_pos_acc": 0.9918424946921213, "train/reward_pos_loss": 0.7196544528007507, "train/reward_pred": 0.0313824700191617, "train/reward_rate": 0.036830357142857144, "stats/sum_log_reward": 9.242857388087682, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3538968286343983, "replay/size": 395072.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 4.680568705874867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2315830833175702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0616993904114, "timer/env.step_count": 1412.0, "timer/env.step_total": 19.53535556793213, "timer/env.step_frac": 0.06510446220766952, "timer/env.step_avg": 0.013835237654342868, "timer/env.step_min": 0.0027761459350585938, "timer/env.step_max": 1.7148826122283936, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.3051598072052002, "timer/replay.add_frac": 0.0010169901984330085, "timer/replay.add_avg": 0.00021611884362974517, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.006321907043457031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024304866790771484, "timer/logger.write_frac": 8.099956389018624e-05, "timer/logger.write_avg": 0.024304866790771484, "timer/logger.write_min": 0.024304866790771484, "timer/logger.write_max": 0.024304866790771484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041937828063964844, "timer/checkpoint.save_frac": 1.3976401569798278e-06, "timer/checkpoint.save_avg": 0.00041937828063964844, "timer/checkpoint.save_min": 0.00041937828063964844, "timer/checkpoint.save_max": 0.00041937828063964844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4807143211364746, "timer/agent.save_frac": 0.004934699510616021, "timer/agent.save_avg": 1.4807143211364746, "timer/agent.save_min": 1.4807143211364746, "timer/agent.save_max": 1.4807143211364746, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.773032488834337e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 14.782304763793945, "timer/agent.policy_frac": 0.049264217305390365, "timer/agent.policy_avg": 0.010469054365293162, "timer/agent.policy_min": 0.005753993988037109, "timer/agent.policy_max": 2.8304293155670166, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06709527969360352, "timer/dataset_frac": 0.0002236049446827454, "timer/dataset_avg": 9.503580693144973e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.000232696533203125, "timer/agent.train_count": 706.0, "timer/agent.train_total": 264.64520144462585, "timer/agent.train_frac": 0.8819692815919669, "timer/agent.train_avg": 0.37485156011986664, "timer/agent.train_min": 0.3668231964111328, "timer/agent.train_max": 0.4790949821472168, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22320985794067383, "timer/agent.report_frac": 0.0007438798700205142, "timer/agent.report_avg": 0.22320985794067383, "timer/agent.report_min": 0.22320985794067383, "timer/agent.report_max": 0.22320985794067383, "fps": 4.705602829493114}
+{"step": 395234, "episode/length": 249.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.048}
+{"step": 395416, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06043956043956044}
+{"step": 395808, "episode/length": 391.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.030612244897959183}
+{"step": 395976, "episode/length": 167.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.06547619047619048}
+{"step": 396153, "episode/length": 176.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.062146892655367235}
+{"step": 396361, "episode/length": 207.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.052884615384615384}
+{"step": 396491, "episode/length": 129.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07692307692307693}
+{"step": 396565, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610568576388889, "train/action_min": 0.0, "train/action_std": 3.41607626941469, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045548238015423216, "train/actor_opt_grad_steps": 197375.0, "train/actor_opt_loss": -10.874713556634056, "train/adv_mag": 0.44873077505164677, "train/adv_max": 0.41001612817247707, "train/adv_mean": 0.0026944614241731163, "train/adv_min": -0.37735258208380806, "train/adv_std": 0.050995506760146886, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 7.007499053912625e-05, "train/cont_loss_std": 0.0021570620402416, "train/cont_neg_acc": 0.9947916666666666, "train/cont_neg_loss": 0.010014535842376264, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.2124618006481569e-05, "train/cont_pred": 0.9948871028092172, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 4.875158856312434, "train/dyn_loss_std": 8.611437016063267, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0732589860757191, "train/extr_critic_critic_opt_grad_steps": 197375.0, "train/extr_critic_critic_opt_loss": 16480.208957248266, "train/extr_critic_mag": 9.69697728421953, "train/extr_critic_max": 9.69697728421953, "train/extr_critic_mean": 2.51700796186924, "train/extr_critic_min": -0.5940759579340616, "train/extr_critic_std": 2.3885671926869287, "train/extr_return_normed_mag": 1.4373634821838803, "train/extr_return_normed_max": 1.4373634821838803, "train/extr_return_normed_mean": 0.3671765861411889, "train/extr_return_normed_min": -0.09654733548975653, "train/extr_return_normed_std": 0.3268098346889019, "train/extr_return_rate": 0.7433187224798732, "train/extr_return_raw_mag": 10.481556389066908, "train/extr_return_raw_max": 10.481556389066908, "train/extr_return_raw_mean": 2.5370512704054513, "train/extr_return_raw_min": -0.905927257405387, "train/extr_return_raw_std": 2.4266691870159574, "train/extr_reward_mag": 1.0387553771336873, "train/extr_reward_max": 1.0387553771336873, "train/extr_reward_mean": 0.04716927511617541, "train/extr_reward_min": -0.690551393561893, "train/extr_reward_std": 0.21201377817326122, "train/image_loss_mean": 2.885209224290318, "train/image_loss_std": 7.576447500122918, "train/model_loss_mean": 5.857943018277486, "train/model_loss_std": 11.700445069207085, "train/model_opt_grad_norm": 31.88407254219055, "train/model_opt_grad_steps": 197218.22222222222, "train/model_opt_loss": 14833.063788519965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.5397939715120526, "train/policy_entropy_max": 2.5397939715120526, "train/policy_entropy_mean": 0.38060433521038955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5213712371057935, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3802292911956708, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9949056150184737, "train/policy_randomness_mag": 0.8964358162548807, "train/policy_randomness_max": 0.8964358162548807, "train/policy_randomness_mean": 0.13433662770936886, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.184021167560584, "train/post_ent_mag": 54.60545110702515, "train/post_ent_max": 54.60545110702515, "train/post_ent_mean": 40.96655559539795, "train/post_ent_min": 18.708342870076496, "train/post_ent_std": 5.519862870375316, "train/prior_ent_mag": 76.38653543260362, "train/prior_ent_max": 76.38653543260362, "train/prior_ent_mean": 45.83453602261014, "train/prior_ent_min": 27.797724591361153, "train/prior_ent_std": 7.25911631849077, "train/rep_loss_mean": 4.875158856312434, "train/rep_loss_std": 8.611437016063267, "train/reward_avg": 0.03096245635404355, "train/reward_loss_mean": 0.04756842403569155, "train/reward_loss_std": 0.2018018507709106, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0178655882676442, "train/reward_neg_acc": 0.9951187993089358, "train/reward_neg_loss": 0.022006021566792495, "train/reward_pos_acc": 0.988413617014885, "train/reward_pos_loss": 0.7343223931060897, "train/reward_pred": 0.030792596814636555, "train/reward_rate": 0.03575303819444445, "stats/sum_log_reward": 10.100000245230538, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.42527732253074646, "replay/size": 396502.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.956414602853201e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2922120261025595e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384023666382, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.954707860946655, "timer/env.step_frac": 0.0664628765129746, "timer/env.step_avg": 0.013954341161501158, "timer/env.step_min": 0.003189563751220703, "timer/env.step_max": 1.8876476287841797, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.3025178909301758, "timer/replay.add_frac": 0.0010075922618344936, "timer/replay.add_avg": 0.0002115509726784446, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0032689571380615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02761983871459961, "timer/logger.write_frac": 9.199302453278929e-05, "timer/logger.write_avg": 0.02761983871459961, "timer/logger.write_min": 0.02761983871459961, "timer/logger.write_max": 0.02761983871459961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.773399353027344, "timer/agent.policy_frac": 0.03588281601589171, "timer/agent.policy_avg": 0.007533845701417723, "timer/agent.policy_min": 0.005845308303833008, "timer/agent.policy_max": 0.05504727363586426, "timer/dataset_count": 715.0, "timer/dataset_total": 0.07192540168762207, "timer/dataset_frac": 0.00023956096595461454, "timer/dataset_avg": 0.00010059496739527563, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000225067138671875, "timer/agent.train_count": 715.0, "timer/agent.train_total": 268.3883099555969, "timer/agent.train_frac": 0.8939173264979364, "timer/agent.train_avg": 0.3753682656721635, "timer/agent.train_min": 0.36667442321777344, "timer/agent.train_max": 1.7481465339660645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228217124938965, "timer/agent.report_frac": 0.0007403522317506481, "timer/agent.report_avg": 0.22228217124938965, "timer/agent.report_min": 0.22228217124938965, "timer/agent.report_max": 0.22228217124938965, "fps": 4.7627797675804056}
+{"step": 396677, "episode/length": 185.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.05913978494623656}
+{"step": 396787, "episode/length": 109.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09090909090909091}
+{"step": 396995, "episode/length": 207.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.04807692307692308}
+{"step": 397271, "episode/length": 275.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.03985507246376811}
+{"step": 397477, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
+{"step": 397669, "episode/length": 191.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046875}
+{"step": 397848, "episode/length": 178.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.061452513966480445}
+{"step": 397995, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.616114656690141, "train/action_min": 0.0, "train/action_std": 3.492120232380612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04676081617953072, "train/actor_opt_grad_steps": 198090.0, "train/actor_opt_loss": -11.725877359037248, "train/adv_mag": 0.47131611008039664, "train/adv_max": 0.4330560976350811, "train/adv_mean": 0.0032576090064613825, "train/adv_min": -0.3898946806578569, "train/adv_std": 0.052315494071849634, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 2.365893615254042e-05, "train/cont_loss_std": 0.0005993104886678159, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009232176183898664, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 1.7147545664111535e-05, "train/cont_pred": 0.9942678020034038, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 4.984579922447742, "train/dyn_loss_std": 8.710398633715133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0453950443737943, "train/extr_critic_critic_opt_grad_steps": 198090.0, "train/extr_critic_critic_opt_loss": 16493.191722601234, "train/extr_critic_mag": 10.337138283420616, "train/extr_critic_max": 10.337138283420616, "train/extr_critic_mean": 2.64300059936416, "train/extr_critic_min": -0.5888772883885344, "train/extr_critic_std": 2.5525351796351687, "train/extr_return_normed_mag": 1.475479562517623, "train/extr_return_normed_max": 1.475479562517623, "train/extr_return_normed_mean": 0.36544743914839245, "train/extr_return_normed_min": -0.09750302686867579, "train/extr_return_normed_std": 0.3342552592217083, "train/extr_return_rate": 0.7342494188899725, "train/extr_return_raw_mag": 11.293366848582952, "train/extr_return_raw_max": 11.293366848582952, "train/extr_return_raw_mean": 2.668345144097234, "train/extr_return_raw_min": -0.9302275306741956, "train/extr_return_raw_std": 2.597999891764681, "train/extr_reward_mag": 1.0540346662763138, "train/extr_reward_max": 1.0540346662763138, "train/extr_reward_mean": 0.049443046024567644, "train/extr_reward_min": -0.6854613028781514, "train/extr_reward_std": 0.21650019015224886, "train/image_loss_mean": 3.088979062899737, "train/image_loss_std": 7.963333183610943, "train/model_loss_mean": 6.128196924505099, "train/model_loss_std": 12.148359003201337, "train/model_opt_grad_norm": 33.35496534428126, "train/model_opt_grad_steps": 197932.32394366196, "train/model_opt_loss": 10135.601892605633, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.5571983095625757, "train/policy_entropy_max": 2.5571983095625757, "train/policy_entropy_mean": 0.39466617057021236, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5405393150490774, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3939775461462182, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0053040813392318, "train/policy_randomness_mag": 0.902578785385884, "train/policy_randomness_max": 0.902578785385884, "train/policy_randomness_mean": 0.13929983921034236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19078665803855574, "train/post_ent_mag": 54.81153719190141, "train/post_ent_max": 54.81153719190141, "train/post_ent_mean": 40.96693076550121, "train/post_ent_min": 19.32254752306871, "train/post_ent_std": 5.476873753776013, "train/prior_ent_mag": 76.34331824074329, "train/prior_ent_max": 76.34331824074329, "train/prior_ent_mean": 45.9063253805671, "train/prior_ent_min": 28.336219008539764, "train/prior_ent_std": 7.303740830488608, "train/rep_loss_mean": 4.984579922447742, "train/rep_loss_std": 8.710398633715133, "train/reward_avg": 0.031849691408201, "train/reward_loss_mean": 0.048446279806150516, "train/reward_loss_std": 0.2029009912635239, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0227707339004732, "train/reward_neg_acc": 0.9952891594927076, "train/reward_neg_loss": 0.0218903103344877, "train/reward_pos_acc": 0.9879364027103907, "train/reward_pos_loss": 0.7405813924023803, "train/reward_pred": 0.031447368346049755, "train/reward_rate": 0.03690305897887324, "stats/sum_log_reward": 8.957143102373395, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.571428571428571, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4050490068537848, "replay/size": 397932.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 4.148816728925371e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2844175725550085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2938175201416, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.06068229675293, "timer/env.step_frac": 0.06680351417959979, "timer/env.step_avg": 0.014028449158568483, "timer/env.step_min": 0.002946138381958008, "timer/env.step_max": 1.873091697692871, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.3158597946166992, "timer/replay.add_frac": 0.0010518358227455467, "timer/replay.add_avg": 0.00022088097525643302, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0010063648223876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031319379806518555, "timer/logger.write_frac": 0.0001042957862574639, "timer/logger.write_avg": 0.031319379806518555, "timer/logger.write_min": 0.031319379806518555, "timer/logger.write_max": 0.031319379806518555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.21348762512207, "timer/agent.policy_frac": 0.037341719911932414, "timer/agent.policy_avg": 0.007841599737847602, "timer/agent.policy_min": 0.005894660949707031, "timer/agent.policy_max": 0.016570091247558594, "timer/dataset_count": 715.0, "timer/dataset_total": 0.07996344566345215, "timer/dataset_frac": 0.00026628402250768537, "timer/dataset_avg": 0.00011183698694189112, "timer/dataset_min": 7.343292236328125e-05, "timer/dataset_max": 0.0012984275817871094, "timer/agent.train_count": 715.0, "timer/agent.train_total": 267.8440761566162, "timer/agent.train_frac": 0.8919400284977599, "timer/agent.train_avg": 0.37460709951974297, "timer/agent.train_min": 0.36478710174560547, "timer/agent.train_max": 0.4009697437286377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22328805923461914, "timer/agent.report_frac": 0.00074356528908439, "timer/agent.report_avg": 0.22328805923461914, "timer/agent.report_min": 0.22328805923461914, "timer/agent.report_max": 0.22328805923461914, "fps": 4.76191104609494}
+{"step": 398048, "episode/length": 199.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04}
+{"step": 398198, "episode/length": 149.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08}
+{"step": 398419, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
+{"step": 398599, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
+{"step": 398812, "episode/length": 212.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.06572769953051644}
+{"step": 398976, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
+{"step": 399404, "episode/length": 427.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.028037383177570093}
+{"step": 399405, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530329314755722, "train/action_min": 0.0, "train/action_std": 3.436827924889578, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04460502268982605, "train/actor_opt_grad_steps": 198800.0, "train/actor_opt_loss": -14.42717345667557, "train/adv_mag": 0.4317685323701778, "train/adv_max": 0.3921573535657265, "train/adv_mean": 0.0015346492899124327, "train/adv_min": -0.3686923309111259, "train/adv_std": 0.05018358945216931, "train/cont_avg": 0.9942369058098591, "train/cont_loss_mean": 3.2229220261595556e-05, "train/cont_loss_std": 0.0009726542939941436, "train/cont_neg_acc": 0.9987195906504779, "train/cont_neg_loss": 0.002146348868567221, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.090485945218954e-05, "train/cont_pred": 0.9942408892470347, "train/cont_rate": 0.9942369058098591, "train/dyn_loss_mean": 4.900946580188375, "train/dyn_loss_std": 8.687345283132204, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0431595108878444, "train/extr_critic_critic_opt_grad_steps": 198800.0, "train/extr_critic_critic_opt_loss": 16175.966948173416, "train/extr_critic_mag": 10.013461287592499, "train/extr_critic_max": 10.013461287592499, "train/extr_critic_mean": 2.5965630588397173, "train/extr_critic_min": -0.5719254604527648, "train/extr_critic_std": 2.4822187423706055, "train/extr_return_normed_mag": 1.4361696931677805, "train/extr_return_normed_max": 1.4361696931677805, "train/extr_return_normed_mean": 0.36649580845530605, "train/extr_return_normed_min": -0.10138721554212167, "train/extr_return_normed_std": 0.33071087237814784, "train/extr_return_rate": 0.7244040118136876, "train/extr_return_raw_mag": 10.730444330564687, "train/extr_return_raw_max": 10.730444330564687, "train/extr_return_raw_mean": 2.6082182719673908, "train/extr_return_raw_min": -0.9442888208678071, "train/extr_return_raw_std": 2.5113510867239723, "train/extr_reward_mag": 1.0419946086238807, "train/extr_reward_max": 1.0419946086238807, "train/extr_reward_mean": 0.04693634228282411, "train/extr_reward_min": -0.694649985138799, "train/extr_reward_std": 0.21178793214576344, "train/image_loss_mean": 3.0810655674464265, "train/image_loss_std": 7.799829516612308, "train/model_loss_mean": 6.071863553893398, "train/model_loss_std": 11.957022586338956, "train/model_opt_grad_norm": 30.771512286763794, "train/model_opt_grad_steps": 198642.0, "train/model_opt_loss": 9568.844960387323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1584.5070422535211, "train/policy_entropy_mag": 2.5647084142120793, "train/policy_entropy_max": 2.5647084142120793, "train/policy_entropy_mean": 0.38756032351037145, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5304856166033678, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881301065565835, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0030443534045153, "train/policy_randomness_mag": 0.9052295239878373, "train/policy_randomness_max": 0.9052295239878373, "train/policy_randomness_mean": 0.13679178457864574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18723814210421602, "train/post_ent_mag": 55.019504869487925, "train/post_ent_max": 55.019504869487925, "train/post_ent_mean": 41.03003783964775, "train/post_ent_min": 18.676161618299886, "train/post_ent_std": 5.534329985229062, "train/prior_ent_mag": 76.26314523186483, "train/prior_ent_max": 76.26314523186483, "train/prior_ent_mean": 45.91746553232972, "train/prior_ent_min": 28.214867309785227, "train/prior_ent_std": 7.297408480039785, "train/rep_loss_mean": 4.900946580188375, "train/rep_loss_std": 8.687345283132204, "train/reward_avg": 0.03216329193346097, "train/reward_loss_mean": 0.0501977957155503, "train/reward_loss_std": 0.20629419281449116, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.025510955864275, "train/reward_neg_acc": 0.9948008765637035, "train/reward_neg_loss": 0.023325030862445563, "train/reward_pos_acc": 0.9843454965403382, "train/reward_pos_loss": 0.7465635143535237, "train/reward_pred": 0.03179444014553873, "train/reward_rate": 0.03735695422535211, "stats/sum_log_reward": 9.957143102373395, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 6.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3687568115336554, "replay/size": 399342.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 4.248754352542526e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.279132585998968e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.920530796051, "timer/env.step_count": 1410.0, "timer/env.step_total": 22.36880850791931, "timer/env.step_frac": 0.07408839819187243, "timer/env.step_avg": 0.015864403197105893, "timer/env.step_min": 0.003018617630004883, "timer/env.step_max": 2.713310956954956, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.3392188549041748, "timer/replay.add_frac": 0.0011235368923397891, "timer/replay.add_avg": 0.00024058074815898922, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.011078596115112305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030223608016967773, "timer/logger.write_frac": 0.00010010451404970531, "timer/logger.write_avg": 0.030223608016967773, "timer/logger.write_min": 0.030223608016967773, "timer/logger.write_max": 0.030223608016967773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008349418640136719, "timer/checkpoint.save_frac": 2.765435864239652e-06, "timer/checkpoint.save_avg": 0.0008349418640136719, "timer/checkpoint.save_min": 0.0008349418640136719, "timer/checkpoint.save_max": 0.0008349418640136719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5496559143066406, "timer/agent.save_frac": 0.005132661598801446, "timer/agent.save_avg": 1.5496559143066406, "timer/agent.save_min": 1.5496559143066406, "timer/agent.save_max": 1.5496559143066406, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.5367431640625e-05, "timer/replay.save_frac": 3.1586931630378666e-07, "timer/replay.save_avg": 9.5367431640625e-05, "timer/replay.save_min": 9.5367431640625e-05, "timer/replay.save_max": 9.5367431640625e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 13.268954038619995, "timer/agent.policy_frac": 0.04394849864510621, "timer/agent.policy_avg": 0.009410605701148933, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.5352323055267334, "timer/dataset_count": 705.0, "timer/dataset_total": 0.07720804214477539, "timer/dataset_frac": 0.00025572306043980113, "timer/dataset_avg": 0.00010951495339684453, "timer/dataset_min": 7.534027099609375e-05, "timer/dataset_max": 0.00025725364685058594, "timer/agent.train_count": 705.0, "timer/agent.train_total": 265.0873429775238, "timer/agent.train_frac": 0.878003699445639, "timer/agent.train_avg": 0.37601041557095577, "timer/agent.train_min": 0.3670334815979004, "timer/agent.train_max": 0.5378992557525635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113656997680664, "timer/agent.report_frac": 0.0007324330326054759, "timer/agent.report_avg": 0.22113656997680664, "timer/agent.report_min": 0.22113656997680664, "timer/agent.report_max": 0.22113656997680664, "fps": 4.670014839741791}
+{"step": 399548, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
+{"step": 399734, "episode/length": 185.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05913978494623656}
+{"step": 399927, "episode/length": 192.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06217616580310881}
+{"step": 400098, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05847953216374269}
+{"step": 400280, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.054945054945054944}
+{"step": 400439, "episode/length": 158.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05660377358490566}
+{"step": 400701, "episode/length": 261.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.04961832061068702}
+{"step": 400837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.496741066516285, "train/action_min": 0.0, "train/action_std": 3.3842864976802343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045141119562404255, "train/actor_opt_grad_steps": 199510.0, "train/actor_opt_loss": -13.220466581868454, "train/adv_mag": 0.44017185459674246, "train/adv_max": 0.4048524729802575, "train/adv_mean": 0.0019223100059886273, "train/adv_min": -0.36172490346599634, "train/adv_std": 0.050242421020504455, "train/cont_avg": 0.9946082746478874, "train/cont_loss_mean": 0.00015056506777961056, "train/cont_loss_std": 0.0047016358161669465, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0170300735739352, "train/cont_pos_acc": 0.9999999722964327, "train/cont_pos_loss": 1.8489249862020995e-05, "train/cont_pred": 0.9946078951929657, "train/cont_rate": 0.9946082746478874, "train/dyn_loss_mean": 4.839938741334727, "train/dyn_loss_std": 8.6239456660311, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0205467376910464, "train/extr_critic_critic_opt_grad_steps": 199510.0, "train/extr_critic_critic_opt_loss": 16112.70858549736, "train/extr_critic_mag": 9.780390618552625, "train/extr_critic_max": 9.780390618552625, "train/extr_critic_mean": 2.5445602057685313, "train/extr_critic_min": -0.5598745799400437, "train/extr_critic_std": 2.3905015596201724, "train/extr_return_normed_mag": 1.4424778592418617, "train/extr_return_normed_max": 1.4424778592418617, "train/extr_return_normed_mean": 0.36963573874722067, "train/extr_return_normed_min": -0.10049071078988868, "train/extr_return_normed_std": 0.328753037561833, "train/extr_return_rate": 0.7390845451556461, "train/extr_return_raw_mag": 10.470814610870791, "train/extr_return_raw_max": 10.470814610870791, "train/extr_return_raw_mean": 2.558729022321567, "train/extr_return_raw_min": -0.9087039005588478, "train/extr_return_raw_std": 2.4246691599698136, "train/extr_reward_mag": 1.0408637221430388, "train/extr_reward_max": 1.0408637221430388, "train/extr_reward_mean": 0.048077018537991484, "train/extr_reward_min": -0.6730408550987781, "train/extr_reward_std": 0.21347848525349522, "train/image_loss_mean": 2.8987191294280574, "train/image_loss_std": 7.857321960825316, "train/model_loss_mean": 5.852344848740269, "train/model_loss_std": 11.942546643001933, "train/model_opt_grad_norm": 31.04699728522502, "train/model_opt_grad_steps": 199352.0, "train/model_opt_loss": 14630.862070862677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5405641643094343, "train/policy_entropy_max": 2.5405641643094343, "train/policy_entropy_mean": 0.3822816559966181, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5256453177458803, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3813016263531967, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 0.996312548576946, "train/policy_randomness_mag": 0.8967076590363409, "train/policy_randomness_max": 0.8967076590363409, "train/policy_randomness_mean": 0.13492864748121988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18552972984985566, "train/post_ent_mag": 54.98386071433484, "train/post_ent_max": 54.98386071433484, "train/post_ent_mean": 41.02871929759711, "train/post_ent_min": 18.653610122035925, "train/post_ent_std": 5.57204184733646, "train/prior_ent_mag": 76.44879623198173, "train/prior_ent_max": 76.44879623198173, "train/prior_ent_mean": 45.83538512109031, "train/prior_ent_min": 28.276676070522253, "train/prior_ent_std": 7.275755224093585, "train/rep_loss_mean": 4.839938741334727, "train/rep_loss_std": 8.6239456660311, "train/reward_avg": 0.032972050699549664, "train/reward_loss_mean": 0.049511909957083176, "train/reward_loss_std": 0.20080561726026133, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0174629553942613, "train/reward_neg_acc": 0.9948552914068732, "train/reward_neg_loss": 0.022848088477908726, "train/reward_pos_acc": 0.9884890477422258, "train/reward_pos_loss": 0.7307149818245794, "train/reward_pred": 0.03275330364704132, "train/reward_rate": 0.037742077464788734, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3458788756813322, "replay/size": 400774.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 4.086248035537464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2918848898157728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0219051837921, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.503159284591675, "timer/env.step_frac": 0.06500578440312257, "timer/env.step_avg": 0.013619524640077985, "timer/env.step_min": 0.002897977828979492, "timer/env.step_max": 1.8841192722320557, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.31288862228393555, "timer/replay.add_frac": 0.0010428859255868712, "timer/replay.add_avg": 0.00021849764125973152, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0021538734436035156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03268146514892578, "timer/logger.write_frac": 0.00010893026337162035, "timer/logger.write_avg": 0.03268146514892578, "timer/logger.write_min": 0.03268146514892578, "timer/logger.write_max": 0.03268146514892578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.17048978805542, "timer/agent.policy_frac": 0.037232247362779816, "timer/agent.policy_avg": 0.007800621360373896, "timer/agent.policy_min": 0.0055332183837890625, "timer/agent.policy_max": 0.016945838928222656, "timer/dataset_count": 716.0, "timer/dataset_total": 0.07824230194091797, "timer/dataset_frac": 0.000260788631060079, "timer/dataset_avg": 0.00010927695801804185, "timer/dataset_min": 7.581710815429688e-05, "timer/dataset_max": 0.00023984909057617188, "timer/agent.train_count": 716.0, "timer/agent.train_total": 268.1732425689697, "timer/agent.train_frac": 0.8938455423936061, "timer/agent.train_avg": 0.37454363487286274, "timer/agent.train_min": 0.3661360740661621, "timer/agent.train_max": 0.43351316452026367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22217249870300293, "timer/agent.report_frac": 0.0007405209248534737, "timer/agent.report_avg": 0.22217249870300293, "timer/agent.report_min": 0.22217249870300293, "timer/agent.report_max": 0.22217249870300293, "fps": 4.772915557109082}
+{"step": 400877, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.056818181818181816}
+{"step": 401081, "episode/length": 203.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.0392156862745098}
+{"step": 401292, "episode/length": 210.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.03317535545023697}
+{"step": 401441, "episode/length": 148.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.053691275167785234}
+{"step": 401669, "episode/length": 227.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.039473684210526314}
+{"step": 402097, "episode/length": 427.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.02102803738317757}
+{"step": 402249, "episode/length": 151.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07236842105263158}
+{"step": 402273, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.523261176215278, "train/action_min": 0.0, "train/action_std": 3.3835161891248493, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04571673325780365, "train/actor_opt_grad_steps": 200225.0, "train/actor_opt_loss": -13.687392996624112, "train/adv_mag": 0.47313589768277275, "train/adv_max": 0.44007785825265777, "train/adv_mean": 0.0021790752295803234, "train/adv_min": -0.39153167770968544, "train/adv_std": 0.051237585643927254, "train/cont_avg": 0.9943305121527778, "train/cont_loss_mean": 3.0659313522147296e-05, "train/cont_loss_std": 0.0009029368609319022, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018806347607854454, "train/cont_pos_acc": 0.9999863372908698, "train/cont_pos_loss": 2.9850383262185352e-05, "train/cont_pred": 0.9943121936586168, "train/cont_rate": 0.9943305121527778, "train/dyn_loss_mean": 5.257592876752217, "train/dyn_loss_std": 8.773697959052193, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0480267446902063, "train/extr_critic_critic_opt_grad_steps": 200225.0, "train/extr_critic_critic_opt_loss": 16178.327948676215, "train/extr_critic_mag": 9.871130731370714, "train/extr_critic_max": 9.871130731370714, "train/extr_critic_mean": 2.508812536795934, "train/extr_critic_min": -0.5576696611113019, "train/extr_critic_std": 2.401903748512268, "train/extr_return_normed_mag": 1.4804914726151361, "train/extr_return_normed_max": 1.4804914726151361, "train/extr_return_normed_mean": 0.37004339922633434, "train/extr_return_normed_min": -0.10024278647162849, "train/extr_return_normed_std": 0.3340048912084765, "train/extr_return_rate": 0.727043585644828, "train/extr_return_raw_mag": 10.615221407678392, "train/extr_return_raw_max": 10.615221407678392, "train/extr_return_raw_mean": 2.5247048570050135, "train/extr_return_raw_min": -0.9032963448100619, "train/extr_return_raw_std": 2.4342469854487314, "train/extr_reward_mag": 1.0446435477998521, "train/extr_reward_max": 1.0446435477998521, "train/extr_reward_mean": 0.047563749805299774, "train/extr_reward_min": -0.6806292798784044, "train/extr_reward_std": 0.2126396604710155, "train/image_loss_mean": 3.273657528890504, "train/image_loss_std": 8.656773183080885, "train/model_loss_mean": 6.4788722263442144, "train/model_loss_std": 12.791847745577494, "train/model_opt_grad_norm": 34.658884512053596, "train/model_opt_grad_steps": 200066.04166666666, "train/model_opt_loss": 8372.297892252604, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.5375852949089475, "train/policy_entropy_max": 2.5375852949089475, "train/policy_entropy_mean": 0.3800433944496844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5176299417184459, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37976983437935513, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.9929524171683524, "train/policy_randomness_mag": 0.8956562487615479, "train/policy_randomness_max": 0.8956562487615479, "train/policy_randomness_mean": 0.13413864032675824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18270065376742017, "train/post_ent_mag": 55.27467568715414, "train/post_ent_max": 55.27467568715414, "train/post_ent_mean": 40.80458275477091, "train/post_ent_min": 18.731571316719055, "train/post_ent_std": 5.625107016828325, "train/prior_ent_mag": 76.33598952823215, "train/prior_ent_max": 76.33598952823215, "train/prior_ent_mean": 46.03607442643907, "train/prior_ent_min": 28.060583459006416, "train/prior_ent_std": 7.319698486063215, "train/rep_loss_mean": 5.257592876752217, "train/rep_loss_std": 8.773697959052193, "train/reward_avg": 0.032294379003966846, "train/reward_loss_mean": 0.05062836775970128, "train/reward_loss_std": 0.2047445285651419, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0157238725158904, "train/reward_neg_acc": 0.9941818515459696, "train/reward_neg_loss": 0.02415019439326392, "train/reward_pos_acc": 0.9890922837787204, "train/reward_pos_loss": 0.7310740144716369, "train/reward_pred": 0.03209548805736833, "train/reward_rate": 0.03732638888888889, "stats/sum_log_reward": 7.957142761775425, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 6.571428571428571, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3754609376192093, "replay/size": 402210.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 4.156884376717145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3072759660173591e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.258229970932, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.825633764266968, "timer/env.step_frac": 0.06269814408114467, "timer/env.step_avg": 0.013109772816341899, "timer/env.step_min": 0.003275632858276367, "timer/env.step_max": 1.788236141204834, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.3259294033050537, "timer/replay.add_frac": 0.0010854969848340442, "timer/replay.add_avg": 0.00022697033656340787, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0014977455139160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028618335723876953, "timer/logger.write_frac": 9.531241067612865e-05, "timer/logger.write_avg": 0.028618335723876953, "timer/logger.write_min": 0.028618335723876953, "timer/logger.write_max": 0.028618335723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.179558992385864, "timer/agent.policy_frac": 0.03723314759255111, "timer/agent.policy_avg": 0.007785208211967872, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.015874624252319336, "timer/dataset_count": 718.0, "timer/dataset_total": 0.08105278015136719, "timer/dataset_frac": 0.0002699435754324333, "timer/dataset_avg": 0.00011288688043365903, "timer/dataset_min": 7.724761962890625e-05, "timer/dataset_max": 0.0012259483337402344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 269.0553979873657, "timer/agent.train_frac": 0.8960800109073213, "timer/agent.train_avg": 0.3747289665562197, "timer/agent.train_min": 0.3668391704559326, "timer/agent.train_max": 0.4692375659942627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22129392623901367, "timer/agent.report_frac": 0.000737012025483655, "timer/agent.report_avg": 0.22129392623901367, "timer/agent.report_min": 0.22129392623901367, "timer/agent.report_max": 0.22129392623901367, "fps": 4.782484139723208}
+{"step": 402293, "episode/length": 43.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.11363636363636363}
+{"step": 402439, "episode/length": 145.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.0684931506849315}
+{"step": 402640, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05970149253731343}
+{"step": 402795, "episode/length": 154.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.05806451612903226}
+{"step": 403063, "episode/length": 267.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.033582089552238806}
+{"step": 403215, "episode/length": 151.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05921052631578947}
+{"step": 403395, "episode/length": 179.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06111111111111111}
+{"step": 403570, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05714285714285714}
+{"step": 403673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461534772600446, "train/action_min": 0.0, "train/action_std": 3.3651809079306467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047572787425347735, "train/actor_opt_grad_steps": 200935.0, "train/actor_opt_loss": -8.753666948846409, "train/adv_mag": 0.4702155317578997, "train/adv_max": 0.4346401687179293, "train/adv_mean": 0.003667316568524776, "train/adv_min": -0.39268409737518856, "train/adv_std": 0.05309344051139695, "train/cont_avg": 0.99453125, "train/cont_loss_mean": 1.907907147012468e-05, "train/cont_loss_std": 0.0005193885403863467, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013071605805115333, "train/cont_pos_acc": 0.9999999787126269, "train/cont_pos_loss": 1.1660707287676684e-05, "train/cont_pred": 0.9945261691297803, "train/cont_rate": 0.99453125, "train/dyn_loss_mean": 5.005755220140729, "train/dyn_loss_std": 8.641573449543545, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0357658292566028, "train/extr_critic_critic_opt_grad_steps": 200935.0, "train/extr_critic_critic_opt_loss": 16473.837248883927, "train/extr_critic_mag": 9.876662308829172, "train/extr_critic_max": 9.876662308829172, "train/extr_critic_mean": 2.645663334642138, "train/extr_critic_min": -0.5486861194883074, "train/extr_critic_std": 2.3872966374669757, "train/extr_return_normed_mag": 1.450719198158809, "train/extr_return_normed_max": 1.450719198158809, "train/extr_return_normed_mean": 0.38389844702822823, "train/extr_return_normed_min": -0.09502351369176593, "train/extr_return_normed_std": 0.32923265397548673, "train/extr_return_rate": 0.7475065503801618, "train/extr_return_raw_mag": 10.530209405081612, "train/extr_return_raw_max": 10.530209405081612, "train/extr_return_raw_mean": 2.672620023999895, "train/extr_return_raw_min": -0.8545303549085345, "train/extr_return_raw_std": 2.4248423763683866, "train/extr_reward_mag": 1.042615042413984, "train/extr_reward_max": 1.042615042413984, "train/extr_reward_mean": 0.04993814645068986, "train/extr_reward_min": -0.6458970086915152, "train/extr_reward_std": 0.21709446949618202, "train/image_loss_mean": 2.950047208581652, "train/image_loss_std": 7.866733401162284, "train/model_loss_mean": 6.0048801217760355, "train/model_loss_std": 11.9974086693355, "train/model_opt_grad_norm": 30.821598829541887, "train/model_opt_grad_steps": 200776.0, "train/model_opt_loss": 11687.708091517858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.495262428692409, "train/policy_entropy_max": 2.495262428692409, "train/policy_entropy_mean": 0.35010039061307907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47424097444329943, "train/policy_logprob_mag": 7.438384205954415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3509171913777079, "train/policy_logprob_min": -7.438384205954415, "train/policy_logprob_std": 0.9683349634919848, "train/policy_randomness_mag": 0.8807181358337403, "train/policy_randomness_max": 0.8807181358337403, "train/policy_randomness_mean": 0.12357007467320986, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16738625456179893, "train/post_ent_mag": 54.90827418736049, "train/post_ent_max": 54.90827418736049, "train/post_ent_mean": 40.97200339181082, "train/post_ent_min": 18.936735330309187, "train/post_ent_std": 5.609892266137259, "train/prior_ent_mag": 76.3786266871861, "train/prior_ent_max": 76.3786266871861, "train/prior_ent_mean": 46.01074970790318, "train/prior_ent_min": 28.12248627798898, "train/prior_ent_std": 7.264409194673811, "train/rep_loss_mean": 5.005755220140729, "train/rep_loss_std": 8.641573449543545, "train/reward_avg": 0.034122488488044056, "train/reward_loss_mean": 0.05136073412639754, "train/reward_loss_std": 0.20789111001150948, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0195400255067009, "train/reward_neg_acc": 0.9946177227156503, "train/reward_neg_loss": 0.023738292657903264, "train/reward_pos_acc": 0.9882351611341749, "train/reward_pos_loss": 0.7291152732712882, "train/reward_pred": 0.03382594050573451, "train/reward_rate": 0.03921595982142857, "stats/sum_log_reward": 8.350000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.875, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.27710239216685295, "replay/size": 403610.0, "replay/inserts": 1400.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 4.102672849382673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2883543968200683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3385498523712, "timer/env.step_count": 1400.0, "timer/env.step_total": 21.456857204437256, "timer/env.step_frac": 0.0714422348212848, "timer/env.step_avg": 0.01532632657459804, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.8413963317871094, "timer/replay.add_count": 1400.0, "timer/replay.add_total": 0.3238363265991211, "timer/replay.add_frac": 0.001078237631360676, "timer/replay.add_avg": 0.00023131166185651506, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.013312101364135742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02893805503845215, "timer/logger.write_frac": 9.635145089658453e-05, "timer/logger.write_avg": 0.02893805503845215, "timer/logger.write_min": 0.02893805503845215, "timer/logger.write_max": 0.02893805503845215, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00039005279541015625, "timer/checkpoint.save_frac": 1.2987103906637468e-06, "timer/checkpoint.save_avg": 0.00039005279541015625, "timer/checkpoint.save_min": 0.00039005279541015625, "timer/checkpoint.save_max": 0.00039005279541015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4203534126281738, "timer/agent.save_frac": 0.004729174504326321, "timer/agent.save_avg": 1.4203534126281738, "timer/agent.save_min": 1.4203534126281738, "timer/agent.save_max": 1.4203534126281738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.857797925665947e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1400.0, "timer/agent.policy_total": 15.165823459625244, "timer/agent.policy_frac": 0.05049576042462705, "timer/agent.policy_avg": 0.01083273104258946, "timer/agent.policy_min": 0.005663156509399414, "timer/agent.policy_max": 2.824086904525757, "timer/dataset_count": 700.0, "timer/dataset_total": 0.07680082321166992, "timer/dataset_frac": 0.00025571417072307466, "timer/dataset_avg": 0.00010971546173095703, "timer/dataset_min": 7.43865966796875e-05, "timer/dataset_max": 0.00022220611572265625, "timer/agent.train_count": 700.0, "timer/agent.train_total": 262.565021276474, "timer/agent.train_frac": 0.8742301692724278, "timer/agent.train_avg": 0.37509288753782, "timer/agent.train_min": 0.3669917583465576, "timer/agent.train_max": 0.5112555027008057, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2015843391418457, "timer/agent.report_frac": 0.0006711903591494756, "timer/agent.report_avg": 0.2015843391418457, "timer/agent.report_min": 0.2015843391418457, "timer/agent.report_max": 0.2015843391418457, "fps": 4.661304136414763}
+{"step": 403757, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
+{"step": 403986, "episode/length": 228.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.048034934497816595}
+{"step": 404129, "episode/length": 142.0, "episode/score": 9.099999949336052, "episode/sum_abs_reward": 11.500000014901161, "episode/reward_rate": 0.07692307692307693}
+{"step": 404425, "episode/length": 295.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.04054054054054054}
+{"step": 404644, "episode/length": 218.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0547945205479452}
+{"step": 405127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539637735445205, "train/action_min": 0.0, "train/action_std": 3.37626491180838, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04617130552252678, "train/actor_opt_grad_steps": 201650.0, "train/actor_opt_loss": -10.557545348389509, "train/adv_mag": 0.46497055561575173, "train/adv_max": 0.4118981120521075, "train/adv_mean": 0.0035644882637289772, "train/adv_min": -0.38708657557017184, "train/adv_std": 0.051239424576498056, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 6.26635494629775e-05, "train/cont_loss_std": 0.0018704429204973005, "train/cont_neg_acc": 0.99041095906741, "train/cont_neg_loss": 0.01819100807504533, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.756152313800631e-05, "train/cont_pred": 0.9946155482775545, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 4.913668730487562, "train/dyn_loss_std": 8.733480335914926, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.046023615419048, "train/extr_critic_critic_opt_grad_steps": 201650.0, "train/extr_critic_critic_opt_loss": 16363.001096960616, "train/extr_critic_mag": 9.808792062001686, "train/extr_critic_max": 9.808792062001686, "train/extr_critic_mean": 2.6986401113745284, "train/extr_critic_min": -0.5092891536346854, "train/extr_critic_std": 2.416359885098183, "train/extr_return_normed_mag": 1.4189281006381935, "train/extr_return_normed_max": 1.4189281006381935, "train/extr_return_normed_mean": 0.3824703732173737, "train/extr_return_normed_min": -0.08897069683426047, "train/extr_return_normed_std": 0.32612653301186756, "train/extr_return_rate": 0.7636157310988805, "train/extr_return_raw_mag": 10.529176868804514, "train/extr_return_raw_max": 10.529176868804514, "train/extr_return_raw_mean": 2.725530363109014, "train/extr_return_raw_min": -0.8256598212947585, "train/extr_return_raw_std": 2.456125690512461, "train/extr_reward_mag": 1.0347933116024488, "train/extr_reward_max": 1.0347933116024488, "train/extr_reward_mean": 0.051115177673836276, "train/extr_reward_min": -0.6386059114377792, "train/extr_reward_std": 0.21870664986845564, "train/image_loss_mean": 2.9655598385693276, "train/image_loss_std": 8.144469143593149, "train/model_loss_mean": 5.961548824832864, "train/model_loss_std": 12.338620198916082, "train/model_opt_grad_norm": 32.71985459001097, "train/model_opt_grad_steps": 201490.84931506848, "train/model_opt_loss": 15058.662564212329, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.545120461346352, "train/policy_entropy_max": 2.545120461346352, "train/policy_entropy_mean": 0.37611980470892503, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5204469443184055, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.377675619843888, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9966488472402912, "train/policy_randomness_mag": 0.8983158346724837, "train/policy_randomness_max": 0.8983158346724837, "train/policy_randomness_mean": 0.13275378524032358, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18369493347732987, "train/post_ent_mag": 54.821987935941515, "train/post_ent_max": 54.821987935941515, "train/post_ent_mean": 40.963615156199836, "train/post_ent_min": 18.775815101519022, "train/post_ent_std": 5.526506018965212, "train/prior_ent_mag": 76.44260584164972, "train/prior_ent_max": 76.44260584164972, "train/prior_ent_mean": 45.867430543246336, "train/prior_ent_min": 28.48451828630003, "train/prior_ent_std": 7.268297626547618, "train/rep_loss_mean": 4.913668730487562, "train/rep_loss_std": 8.733480335914926, "train/reward_avg": 0.03282320188128785, "train/reward_loss_mean": 0.04772505204971522, "train/reward_loss_std": 0.19672228804189865, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0142059146541438, "train/reward_neg_acc": 0.9953302210324431, "train/reward_neg_loss": 0.021720732702580216, "train/reward_pos_acc": 0.9908800451722863, "train/reward_pos_loss": 0.7221033744616051, "train/reward_pred": 0.03276306046300555, "train/reward_rate": 0.03724315068493151, "stats/sum_log_reward": 10.500000190734863, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 11.4, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 5.2, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3434266746044159, "replay/size": 405064.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.914229643558045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.260982582952822e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2016339302063, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.59393310546875, "timer/env.step_frac": 0.055275958655597, "timer/env.step_avg": 0.011412608738286622, "timer/env.step_min": 0.0030517578125, "timer/env.step_max": 1.863631248474121, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2966597080230713, "timer/replay.add_frac": 0.0009882015102290933, "timer/replay.add_avg": 0.00020403006053856348, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0016112327575683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02479839324951172, "timer/logger.write_frac": 8.260579039778672e-05, "timer/logger.write_avg": 0.02479839324951172, "timer/logger.write_min": 0.02479839324951172, "timer/logger.write_max": 0.02479839324951172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.980593919754028, "timer/agent.policy_frac": 0.03657739558575121, "timer/agent.policy_avg": 0.007551990316199469, "timer/agent.policy_min": 0.00571894645690918, "timer/agent.policy_max": 0.08105278015136719, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0721883773803711, "timer/dataset_frac": 0.00024046630404801238, "timer/dataset_avg": 9.929625499363286e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00020933151245117188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.5119638442993, "timer/agent.train_frac": 0.9044319988858655, "timer/agent.train_avg": 0.37346900116134707, "timer/agent.train_min": 0.36606884002685547, "timer/agent.train_max": 0.4461703300476074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177269458770752, "timer/agent.report_frac": 0.0007252690234447372, "timer/agent.report_avg": 0.2177269458770752, "timer/agent.report_min": 0.2177269458770752, "timer/agent.report_max": 0.2177269458770752, "fps": 4.843313217514412}
+{"step": 405260, "episode/length": 615.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.016233766233766232}
+{"step": 405555, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03728813559322034}
+{"step": 405949, "episode/length": 393.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.02284263959390863}
+{"step": 406005, "episode/length": 55.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10714285714285714}
+{"step": 406305, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.043333333333333335}
+{"step": 406471, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.060240963855421686}
+{"step": 406579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.618638130083476, "train/action_min": 0.0, "train/action_std": 3.453346157727176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04376593359733281, "train/actor_opt_grad_steps": 202380.0, "train/actor_opt_loss": -13.405398019372601, "train/adv_mag": 0.4397433779827536, "train/adv_max": 0.3925217226760028, "train/adv_mean": 0.0018087651509606623, "train/adv_min": -0.36227130502054133, "train/adv_std": 0.048664476263196504, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 4.9762555632908406e-05, "train/cont_loss_std": 0.0015278814866908836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004910064394233852, "train/cont_pos_acc": 0.9999865073047273, "train/cont_pos_loss": 4.667554980863452e-05, "train/cont_pred": 0.9945816291521673, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 4.943709840513256, "train/dyn_loss_std": 8.66692405857452, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031021091219497, "train/extr_critic_critic_opt_grad_steps": 202380.0, "train/extr_critic_critic_opt_loss": 16133.836887307363, "train/extr_critic_mag": 10.392077824840808, "train/extr_critic_max": 10.392077824840808, "train/extr_critic_mean": 2.7514489366583628, "train/extr_critic_min": -0.5297039485957524, "train/extr_critic_std": 2.539769381692965, "train/extr_return_normed_mag": 1.448407436070377, "train/extr_return_normed_max": 1.448407436070377, "train/extr_return_normed_mean": 0.375299481088168, "train/extr_return_normed_min": -0.09556289435657736, "train/extr_return_normed_std": 0.3314786394164987, "train/extr_return_rate": 0.74362785971328, "train/extr_return_raw_mag": 11.087873537246494, "train/extr_return_raw_max": 11.087873537246494, "train/extr_return_raw_mean": 2.76547109264217, "train/extr_return_raw_min": -0.885426789930422, "train/extr_return_raw_std": 2.570637670281815, "train/extr_reward_mag": 1.0464381387788955, "train/extr_reward_max": 1.0464381387788955, "train/extr_reward_mean": 0.049247081761490806, "train/extr_reward_min": -0.6829074441570125, "train/extr_reward_std": 0.2155601255697747, "train/image_loss_mean": 3.0033656734309786, "train/image_loss_std": 8.021398890508364, "train/model_loss_mean": 6.017964366364152, "train/model_loss_std": 12.14516076649705, "train/model_opt_grad_norm": 35.65295932717519, "train/model_opt_grad_steps": 202220.0, "train/model_opt_loss": 15044.910958904109, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5364952087402344, "train/policy_entropy_max": 2.5364952087402344, "train/policy_entropy_mean": 0.38777797638553463, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5255803865929173, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3867981891109519, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9986404972533657, "train/policy_randomness_mag": 0.8952714955970033, "train/policy_randomness_max": 0.8952714955970033, "train/policy_randomness_mean": 0.13686861077400103, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1855068133301931, "train/post_ent_mag": 54.47614884049925, "train/post_ent_max": 54.47614884049925, "train/post_ent_mean": 40.91039877068506, "train/post_ent_min": 18.71503483759214, "train/post_ent_std": 5.548390120676119, "train/prior_ent_mag": 76.24222899136478, "train/prior_ent_max": 76.24222899136478, "train/prior_ent_mean": 45.8668063438102, "train/prior_ent_min": 28.313823726079235, "train/prior_ent_std": 7.295095502513728, "train/rep_loss_mean": 4.943709840513256, "train/rep_loss_std": 8.66692405857452, "train/reward_avg": 0.03284594363035404, "train/reward_loss_mean": 0.048323020594169014, "train/reward_loss_std": 0.19457536303017237, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0169677358784088, "train/reward_neg_acc": 0.9946900148914285, "train/reward_neg_loss": 0.021961133850559797, "train/reward_pos_acc": 0.9886056748155045, "train/reward_pos_loss": 0.7251779363579947, "train/reward_pred": 0.032677146874062, "train/reward_rate": 0.03752407962328767, "stats/sum_log_reward": 8.9333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.833333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.5401246609787146, "replay/size": 406516.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.7649446282505005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2943485223228937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33763003349304, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.969850540161133, "timer/env.step_frac": 0.05983216468131939, "timer/env.step_avg": 0.012375930124077915, "timer/env.step_min": 0.0030536651611328125, "timer/env.step_max": 1.796327829360962, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2792501449584961, "timer/replay.add_frac": 0.0009297874026886165, "timer/replay.add_avg": 0.00019232103647279344, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0022537708282470703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028752803802490234, "timer/logger.write_frac": 9.573493604275888e-05, "timer/logger.write_avg": 0.028752803802490234, "timer/logger.write_min": 0.028752803802490234, "timer/logger.write_max": 0.028752803802490234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.54425311088562, "timer/agent.policy_frac": 0.035107998653747606, "timer/agent.policy_avg": 0.007261882307772465, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 0.014248847961425781, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06766915321350098, "timer/dataset_frac": 0.00022531027232902733, "timer/dataset_avg": 9.320820001859639e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002319812774658203, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.7491834163666, "timer/agent.train_frac": 0.9014827192522401, "timer/agent.train_avg": 0.3729327595266757, "timer/agent.train_min": 0.36620402336120605, "timer/agent.train_max": 0.4347224235534668, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2186744213104248, "timer/agent.report_frac": 0.0007280953148829159, "timer/agent.report_avg": 0.2186744213104248, "timer/agent.report_min": 0.2186744213104248, "timer/agent.report_max": 0.2186744213104248, "fps": 4.834477349984444}
+{"step": 406641, "episode/length": 169.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.058823529411764705}
+{"step": 406804, "episode/length": 162.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.0736196319018405}
+{"step": 406968, "episode/length": 163.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.06707317073170732}
+{"step": 407119, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.059602649006622516}
+{"step": 407314, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 407573, "episode/length": 258.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.04633204633204633}
+{"step": 407754, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03314917127071823}
+{"step": 407880, "episode/length": 125.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07142857142857142}
+{"step": 407993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605275181361607, "train/action_min": 0.0, "train/action_std": 3.4559460060937064, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04459390318287271, "train/actor_opt_grad_steps": 203095.0, "train/actor_opt_loss": -12.114378444052168, "train/adv_mag": 0.4320520622389657, "train/adv_max": 0.398191522700446, "train/adv_mean": 0.0021531116275062753, "train/adv_min": -0.3532231809837478, "train/adv_std": 0.04926360962646348, "train/cont_avg": 0.9944614955357143, "train/cont_loss_mean": 0.00010386853185845471, "train/cont_loss_std": 0.0032512963521108013, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.009060227538501359, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 4.361945496092241e-05, "train/cont_pred": 0.9944410264492035, "train/cont_rate": 0.9944614955357143, "train/dyn_loss_mean": 5.063403167043414, "train/dyn_loss_std": 8.742065164021083, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1059542102473123, "train/extr_critic_critic_opt_grad_steps": 203095.0, "train/extr_critic_critic_opt_loss": 16124.185379464287, "train/extr_critic_mag": 10.004386029924666, "train/extr_critic_max": 10.004386029924666, "train/extr_critic_mean": 2.6581606422151838, "train/extr_critic_min": -0.529080103124891, "train/extr_critic_std": 2.4664233769689288, "train/extr_return_normed_mag": 1.4195566841534206, "train/extr_return_normed_max": 1.4195566841534206, "train/extr_return_normed_mean": 0.37376189657620024, "train/extr_return_normed_min": -0.08936323342578752, "train/extr_return_normed_std": 0.3280836101089205, "train/extr_return_rate": 0.7446149919714247, "train/extr_return_raw_mag": 10.626768698011126, "train/extr_return_raw_max": 10.626768698011126, "train/extr_return_raw_mean": 2.6745197909218925, "train/extr_return_raw_min": -0.8462122061422893, "train/extr_return_raw_std": 2.4945866874286104, "train/extr_reward_mag": 1.0341294050216674, "train/extr_reward_max": 1.0341294050216674, "train/extr_reward_mean": 0.048476385271974974, "train/extr_reward_min": -0.6762943863868713, "train/extr_reward_std": 0.2142269622002329, "train/image_loss_mean": 3.1528497508593967, "train/image_loss_std": 8.126498178073339, "train/model_loss_mean": 6.239072346687317, "train/model_loss_std": 12.283508716310774, "train/model_opt_grad_norm": 33.53318173544748, "train/model_opt_grad_steps": 202934.3142857143, "train/model_opt_loss": 16934.806752232143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2714.285714285714, "train/policy_entropy_mag": 2.5508196558271137, "train/policy_entropy_max": 2.5508196558271137, "train/policy_entropy_mean": 0.4014644744140761, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5479547381401062, "train/policy_logprob_mag": 7.438384233202253, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4010572212082999, "train/policy_logprob_min": -7.438384233202253, "train/policy_logprob_std": 1.0128372669219972, "train/policy_randomness_mag": 0.9003273963928222, "train/policy_randomness_max": 0.9003273963928222, "train/policy_randomness_mean": 0.14169934423906463, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19340397481407437, "train/post_ent_mag": 54.91205024719238, "train/post_ent_max": 54.91205024719238, "train/post_ent_mean": 40.87741977146694, "train/post_ent_min": 19.119451495579312, "train/post_ent_std": 5.500860057558332, "train/prior_ent_mag": 76.35483714512416, "train/prior_ent_max": 76.35483714512416, "train/prior_ent_mean": 45.95537518092564, "train/prior_ent_min": 27.96422563280378, "train/prior_ent_std": 7.386193820408413, "train/rep_loss_mean": 5.063403167043414, "train/rep_loss_std": 8.742065164021083, "train/reward_avg": 0.03235351535092507, "train/reward_loss_mean": 0.04807684676987784, "train/reward_loss_std": 0.19686237424612046, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0161663940974643, "train/reward_neg_acc": 0.9950262929712023, "train/reward_neg_loss": 0.021763931161590984, "train/reward_pos_acc": 0.9874058706419808, "train/reward_pos_loss": 0.72943640095847, "train/reward_pred": 0.032183396137718645, "train/reward_rate": 0.037360491071428574, "stats/sum_log_reward": 8.975000023841858, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 6.625, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.34922664426267147, "replay/size": 407930.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.849768739778554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249505573148606e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2904050350189, "timer/env.step_count": 1414.0, "timer/env.step_total": 21.454511404037476, "timer/env.step_frac": 0.07144587720521912, "timer/env.step_avg": 0.015172921785033575, "timer/env.step_min": 0.003009319305419922, "timer/env.step_max": 1.757103443145752, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2644939422607422, "timer/replay.add_frac": 0.0008807938509720207, "timer/replay.add_avg": 0.0001870537073979789, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0020227432250976562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023835420608520508, "timer/logger.write_frac": 7.937456611622638e-05, "timer/logger.write_avg": 0.023835420608520508, "timer/logger.write_min": 0.023835420608520508, "timer/logger.write_max": 0.023835420608520508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024819374084472656, "timer/checkpoint.save_frac": 8.265123916156529e-07, "timer/checkpoint.save_avg": 0.00024819374084472656, "timer/checkpoint.save_min": 0.00024819374084472656, "timer/checkpoint.save_max": 0.00024819374084472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3701045513153076, "timer/agent.save_frac": 0.00456259849912797, "timer/agent.save_avg": 1.3701045513153076, "timer/agent.save_min": 1.3701045513153076, "timer/agent.save_max": 1.3701045513153076, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.532669067382812e-05, "timer/replay.save_frac": 2.1754504832150707e-07, "timer/replay.save_avg": 6.532669067382812e-05, "timer/replay.save_min": 6.532669067382812e-05, "timer/replay.save_max": 6.532669067382812e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 14.351029872894287, "timer/agent.policy_frac": 0.047790504232796634, "timer/agent.policy_avg": 0.010149243191580119, "timer/agent.policy_min": 0.005559682846069336, "timer/agent.policy_max": 2.7641983032226562, "timer/dataset_count": 707.0, "timer/dataset_total": 0.06631708145141602, "timer/dataset_frac": 0.000220843158287666, "timer/dataset_avg": 9.380068097795759e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00023555755615234375, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.41921496391296, "timer/agent.train_frac": 0.8772148911424388, "timer/agent.train_avg": 0.37258729132095186, "timer/agent.train_min": 0.36571478843688965, "timer/agent.train_max": 0.4526045322418213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21975493431091309, "timer/agent.report_frac": 0.0007318080452330335, "timer/agent.report_avg": 0.21975493431091309, "timer/agent.report_min": 0.21975493431091309, "timer/agent.report_max": 0.21975493431091309, "fps": 4.708709238503905}
+{"step": 408048, "episode/length": 167.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07142857142857142}
+{"step": 408214, "episode/length": 165.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07228915662650602}
+{"step": 408369, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06451612903225806}
+{"step": 408445, "episode/length": 75.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.07894736842105263}
+{"step": 408704, "episode/length": 258.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.03088803088803089}
+{"step": 408889, "episode/length": 184.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 409039, "episode/length": 149.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07333333333333333}
+{"step": 409237, "episode/length": 197.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.045454545454545456}
+{"step": 409405, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05357142857142857}
+{"step": 409425, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566759745279948, "train/action_min": 0.0, "train/action_std": 3.391959978474511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04481304457618131, "train/actor_opt_grad_steps": 203805.0, "train/actor_opt_loss": -12.89917083322588, "train/adv_mag": 0.4334767709175746, "train/adv_max": 0.38087012784348595, "train/adv_mean": 0.0021322042684914777, "train/adv_min": -0.3804885558784008, "train/adv_std": 0.049888590454227395, "train/cont_avg": 0.9940999348958334, "train/cont_loss_mean": 2.751255864789452e-05, "train/cont_loss_std": 0.000803541139864213, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.003103120549222164, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.114598237401398e-06, "train/cont_pred": 0.9941059889064895, "train/cont_rate": 0.9940999348958334, "train/dyn_loss_mean": 4.9694850709703235, "train/dyn_loss_std": 8.800291034910414, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0052638318803575, "train/extr_critic_critic_opt_grad_steps": 203805.0, "train/extr_critic_critic_opt_loss": 16083.546440972223, "train/extr_critic_mag": 9.979566640324062, "train/extr_critic_max": 9.979566640324062, "train/extr_critic_mean": 2.6262935532463922, "train/extr_critic_min": -0.5563040590948529, "train/extr_critic_std": 2.480505608850055, "train/extr_return_normed_mag": 1.429460561937756, "train/extr_return_normed_max": 1.429460561937756, "train/extr_return_normed_mean": 0.37369897816744113, "train/extr_return_normed_min": -0.08992657479312685, "train/extr_return_normed_std": 0.33355236012074685, "train/extr_return_rate": 0.7311921674344275, "train/extr_return_raw_mag": 10.598278297318352, "train/extr_return_raw_max": 10.598278297318352, "train/extr_return_raw_mean": 2.6423606938785977, "train/extr_return_raw_min": -0.8514884205328094, "train/extr_return_raw_std": 2.513690733247333, "train/extr_reward_mag": 1.0384940140777164, "train/extr_reward_max": 1.0384940140777164, "train/extr_reward_mean": 0.04844883415434095, "train/extr_reward_min": -0.6897562030288908, "train/extr_reward_std": 0.21445640259318882, "train/image_loss_mean": 3.110406504737006, "train/image_loss_std": 8.26104505856832, "train/model_loss_mean": 6.142094870408376, "train/model_loss_std": 12.41173968050215, "train/model_opt_grad_norm": 31.74766891532474, "train/model_opt_grad_steps": 203643.54166666666, "train/model_opt_loss": 14148.910549587674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.5615517927540674, "train/policy_entropy_max": 2.5615517927540674, "train/policy_entropy_mean": 0.3917251576979955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5358283565276198, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39186617359519005, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0038228150871065, "train/policy_randomness_mag": 0.9041153722339206, "train/policy_randomness_max": 0.9041153722339206, "train/policy_randomness_mean": 0.138261790594293, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18912389605409569, "train/post_ent_mag": 54.73596265580919, "train/post_ent_max": 54.73596265580919, "train/post_ent_mean": 41.12970553504096, "train/post_ent_min": 19.002008040746052, "train/post_ent_std": 5.565493047237396, "train/prior_ent_mag": 76.36074786716037, "train/prior_ent_max": 76.36074786716037, "train/prior_ent_mean": 46.05815495385064, "train/prior_ent_min": 27.89041198624505, "train/prior_ent_std": 7.30120313167572, "train/rep_loss_mean": 4.9694850709703235, "train/rep_loss_std": 8.800291034910414, "train/reward_avg": 0.032284884907615684, "train/reward_loss_mean": 0.049969786415911384, "train/reward_loss_std": 0.2027607173141506, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0141081826554403, "train/reward_neg_acc": 0.9947566067179044, "train/reward_neg_loss": 0.023452031710702512, "train/reward_pos_acc": 0.9869798835780885, "train/reward_pos_loss": 0.7311609726813104, "train/reward_pred": 0.032068417730948165, "train/reward_rate": 0.03750271267361111, "stats/sum_log_reward": 8.211111280653212, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 8.11111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.31517592403623795, "replay/size": 409362.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.826518298527382e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2512188716973672e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08200120925903, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.157967567443848, "timer/env.step_frac": 0.07383970874011941, "timer/env.step_avg": 0.015473441038717771, "timer/env.step_min": 0.002925872802734375, "timer/env.step_max": 1.822587013244629, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2829887866973877, "timer/replay.add_frac": 0.0009430381880852908, "timer/replay.add_avg": 0.00019761786780543832, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.001543283462524414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033580780029296875, "timer/logger.write_frac": 0.00011190534551880594, "timer/logger.write_avg": 0.033580780029296875, "timer/logger.write_min": 0.033580780029296875, "timer/logger.write_max": 0.033580780029296875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.31778597831726, "timer/agent.policy_frac": 0.0343832217085298, "timer/agent.policy_avg": 0.007205157806087472, "timer/agent.policy_min": 0.005658388137817383, "timer/agent.policy_max": 0.016919612884521484, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06634879112243652, "timer/dataset_frac": 0.00022110220158178993, "timer/dataset_avg": 9.266590938887782e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.520480632782, "timer/agent.train_frac": 0.888158835114295, "timer/agent.train_avg": 0.37223530814634354, "timer/agent.train_min": 0.36354899406433105, "timer/agent.train_max": 0.3891937732696533, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223801612854004, "timer/agent.report_frac": 0.0007410646436282792, "timer/agent.report_avg": 0.2223801612854004, "timer/agent.report_min": 0.2223801612854004, "timer/agent.report_max": 0.2223801612854004, "fps": 4.7719652908553}
+{"step": 409829, "episode/length": 423.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02830188679245283}
+{"step": 409882, "episode/length": 52.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 4.300000011920929, "episode/reward_rate": 0.07547169811320754}
+{"step": 410045, "episode/length": 162.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0736196319018405}
+{"step": 410250, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
+{"step": 410426, "episode/length": 175.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.07386363636363637}
+{"step": 410730, "episode/length": 303.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.03618421052631579}
+{"step": 410882, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548353221318493, "train/action_min": 0.0, "train/action_std": 3.32572040819142, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04471106020963355, "train/actor_opt_grad_steps": 204530.0, "train/actor_opt_loss": -14.215516848106907, "train/adv_mag": 0.4404779660375151, "train/adv_max": 0.40367777563937723, "train/adv_mean": 0.0021134256178450177, "train/adv_min": -0.36438916399054333, "train/adv_std": 0.049483329516975844, "train/cont_avg": 0.9942610231164384, "train/cont_loss_mean": 3.332625909737769e-05, "train/cont_loss_std": 0.0010362965951831902, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.289321140373007e-05, "train/cont_pos_acc": 0.9999865130202411, "train/cont_pos_loss": 3.329653083028461e-05, "train/cont_pred": 0.994237970815946, "train/cont_rate": 0.9942610231164384, "train/dyn_loss_mean": 4.772707334936482, "train/dyn_loss_std": 8.643281296507952, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0719301888387498, "train/extr_critic_critic_opt_grad_steps": 204530.0, "train/extr_critic_critic_opt_loss": 16043.618939961472, "train/extr_critic_mag": 10.106547355651855, "train/extr_critic_max": 10.106547355651855, "train/extr_critic_mean": 2.5991852512098337, "train/extr_critic_min": -0.5655189736248696, "train/extr_critic_std": 2.4868429931875777, "train/extr_return_normed_mag": 1.4399721802097478, "train/extr_return_normed_max": 1.4399721802097478, "train/extr_return_normed_mean": 0.3682675439200989, "train/extr_return_normed_min": -0.09088345586437069, "train/extr_return_normed_std": 0.33355496354299047, "train/extr_return_rate": 0.7299907632070045, "train/extr_return_raw_mag": 10.72044155695667, "train/extr_return_raw_max": 10.72044155695667, "train/extr_return_raw_mean": 2.615171350844919, "train/extr_return_raw_min": -0.8584435141249879, "train/extr_return_raw_std": 2.52323968443152, "train/extr_reward_mag": 1.0383573460252318, "train/extr_reward_max": 1.0383573460252318, "train/extr_reward_mean": 0.04871992685206949, "train/extr_reward_min": -0.6752036271029955, "train/extr_reward_std": 0.21517239184412237, "train/image_loss_mean": 2.87559507317739, "train/image_loss_std": 7.507011256805838, "train/model_loss_mean": 5.788990295096619, "train/model_loss_std": 11.620989276938243, "train/model_opt_grad_norm": 30.14144380125281, "train/model_opt_grad_steps": 204367.0, "train/model_opt_loss": 7236.237859856593, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.562423967335322, "train/policy_entropy_max": 2.562423967335322, "train/policy_entropy_mean": 0.38320575552443936, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5256980988260818, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38236596302626885, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9957727708228646, "train/policy_randomness_mag": 0.9044232107188603, "train/policy_randomness_max": 0.9044232107188603, "train/policy_randomness_mean": 0.1352548145063936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18554836062535848, "train/post_ent_mag": 54.76332698456228, "train/post_ent_max": 54.76332698456228, "train/post_ent_mean": 41.07828192514916, "train/post_ent_min": 18.782432255679613, "train/post_ent_std": 5.52309369387692, "train/prior_ent_mag": 76.30196432871361, "train/prior_ent_max": 76.30196432871361, "train/prior_ent_mean": 45.836998821937875, "train/prior_ent_min": 28.216393222547556, "train/prior_ent_std": 7.252682679320035, "train/rep_loss_mean": 4.772707334936482, "train/rep_loss_std": 8.643281296507952, "train/reward_avg": 0.03290480492662077, "train/reward_loss_mean": 0.049737562336129686, "train/reward_loss_std": 0.20354235682585467, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0142888549255997, "train/reward_neg_acc": 0.9950065710773207, "train/reward_neg_loss": 0.02277654327758371, "train/reward_pos_acc": 0.9888826388202302, "train/reward_pos_loss": 0.7319856939250475, "train/reward_pred": 0.032554403368434674, "train/reward_rate": 0.03799229452054795, "stats/sum_log_reward": 9.100000301996866, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 10.666666666666666, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.3930107057094574, "replay/size": 410819.0, "replay/inserts": 1457.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.834824571890952e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2646746504437793e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0087242126465, "timer/env.step_count": 1457.0, "timer/env.step_total": 17.200023412704468, "timer/env.step_frac": 0.05733174412792434, "timer/env.step_avg": 0.01180509499842448, "timer/env.step_min": 0.003084421157836914, "timer/env.step_max": 1.684861421585083, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.28281164169311523, "timer/replay.add_frac": 0.0009426780585642505, "timer/replay.add_avg": 0.0001941054507159336, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0020093917846679688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028326988220214844, "timer/logger.write_frac": 9.442054825091235e-05, "timer/logger.write_avg": 0.028326988220214844, "timer/logger.write_min": 0.028326988220214844, "timer/logger.write_max": 0.028326988220214844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.49439024925232, "timer/agent.policy_frac": 0.03498028357939979, "timer/agent.policy_avg": 0.007202738674847165, "timer/agent.policy_min": 0.0055849552154541016, "timer/agent.policy_max": 0.017628908157348633, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06803750991821289, "timer/dataset_frac": 0.00022678510465578273, "timer/dataset_avg": 9.34581180195232e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00020766258239746094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.2336723804474, "timer/agent.train_frac": 0.9040859498079019, "timer/agent.train_avg": 0.37257372579731785, "timer/agent.train_min": 0.3648262023925781, "timer/agent.train_max": 0.38514208793640137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22285246849060059, "timer/agent.report_frac": 0.0007428199599043744, "timer/agent.report_avg": 0.22285246849060059, "timer/agent.report_min": 0.22285246849060059, "timer/agent.report_max": 0.22285246849060059, "fps": 4.856444730646335}
+{"step": 410898, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05952380952380952}
+{"step": 411072, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 411243, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 411411, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
+{"step": 411617, "episode/length": 205.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04854368932038835}
+{"step": 411858, "episode/length": 240.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04979253112033195}
+{"step": 412313, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 8.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.2636722922325134, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56238652618838, "train/action_min": 0.0, "train/action_std": 3.3373115264194113, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044995999357230226, "train/actor_opt_grad_steps": 205250.0, "train/actor_opt_loss": -11.968206659589015, "train/adv_mag": 0.435531692185872, "train/adv_max": 0.38981133699417114, "train/adv_mean": 0.0025544961896281472, "train/adv_min": -0.37753154274443507, "train/adv_std": 0.050445273938313336, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 0.00024215557318395703, "train/cont_loss_std": 0.007692663262088858, "train/cont_neg_acc": 0.9966269842215947, "train/cont_neg_loss": 0.008266160395971512, "train/cont_pos_acc": 0.9999861599693836, "train/cont_pos_loss": 0.00017710615984501793, "train/cont_pred": 0.9947347682966313, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.030494548905064, "train/dyn_loss_std": 8.766497108298289, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.079969475806599, "train/extr_critic_critic_opt_grad_steps": 205250.0, "train/extr_critic_critic_opt_loss": 16260.392536861797, "train/extr_critic_mag": 9.936868304937658, "train/extr_critic_max": 9.936868304937658, "train/extr_critic_mean": 2.5337092574213593, "train/extr_critic_min": -0.5918403259465392, "train/extr_critic_std": 2.3880589948573583, "train/extr_return_normed_mag": 1.4379525570802285, "train/extr_return_normed_max": 1.4379525570802285, "train/extr_return_normed_mean": 0.3651638326930328, "train/extr_return_normed_min": -0.1075327122505282, "train/extr_return_normed_std": 0.32296454948438724, "train/extr_return_rate": 0.7377732941802119, "train/extr_return_raw_mag": 10.589318262019628, "train/extr_return_raw_max": 10.589318262019628, "train/extr_return_raw_mean": 2.5528449021594626, "train/extr_return_raw_min": -0.9888228455059965, "train/extr_return_raw_std": 2.4196660182845426, "train/extr_reward_mag": 1.0416897686434463, "train/extr_reward_max": 1.0416897686434463, "train/extr_reward_mean": 0.049376928864020696, "train/extr_reward_min": -0.70563122084443, "train/extr_reward_std": 0.21524219949480514, "train/image_loss_mean": 3.2090433298701972, "train/image_loss_std": 8.303256887785146, "train/model_loss_mean": 6.276671315582705, "train/model_loss_std": 12.498993846732127, "train/model_opt_grad_norm": 30.71293461490685, "train/model_opt_grad_steps": 205087.0, "train/model_opt_loss": 14206.735826089349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2271.1267605633802, "train/policy_entropy_mag": 2.5521516128325126, "train/policy_entropy_max": 2.5521516128325126, "train/policy_entropy_mean": 0.39076658411764764, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5282646316877553, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39109274514124426, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0026517485229063, "train/policy_randomness_mag": 0.9007975224038245, "train/policy_randomness_max": 0.9007975224038245, "train/policy_randomness_mean": 0.13792345714820942, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18645423115559026, "train/post_ent_mag": 55.121138505532706, "train/post_ent_max": 55.121138505532706, "train/post_ent_mean": 40.92353364111672, "train/post_ent_min": 19.05286799686056, "train/post_ent_std": 5.644524829488405, "train/prior_ent_mag": 76.4956850938394, "train/prior_ent_max": 76.4956850938394, "train/prior_ent_mean": 45.94268514069034, "train/prior_ent_min": 27.911815294077698, "train/prior_ent_std": 7.3594853777281, "train/rep_loss_mean": 5.030494548905064, "train/rep_loss_std": 8.766497108298289, "train/reward_avg": 0.032710717335133484, "train/reward_loss_mean": 0.04908917988584915, "train/reward_loss_std": 0.20151380984716014, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0143816571840099, "train/reward_neg_acc": 0.9940654862094933, "train/reward_neg_loss": 0.022496802994692828, "train/reward_pos_acc": 0.9880816684642308, "train/reward_pos_loss": 0.7338324953132952, "train/reward_pred": 0.032457008564346274, "train/reward_rate": 0.03739821742957746, "replay/size": 412250.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.855516658972228e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2567755896285925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2111647129059, "timer/env.step_count": 1431.0, "timer/env.step_total": 19.413679122924805, "timer/env.step_frac": 0.06466674596026516, "timer/env.step_avg": 0.013566512315111674, "timer/env.step_min": 0.0031654834747314453, "timer/env.step_max": 2.1157946586608887, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.26322507858276367, "timer/replay.add_frac": 0.0008767997647072444, "timer/replay.add_avg": 0.00018394484876503402, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0028960704803466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029007673263549805, "timer/logger.write_frac": 9.662423211771638e-05, "timer/logger.write_avg": 0.029007673263549805, "timer/logger.write_min": 0.029007673263549805, "timer/logger.write_max": 0.029007673263549805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004391670227050781, "timer/checkpoint.save_frac": 1.462860394033169e-06, "timer/checkpoint.save_avg": 0.0004391670227050781, "timer/checkpoint.save_min": 0.0004391670227050781, "timer/checkpoint.save_max": 0.0004391670227050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5606470108032227, "timer/agent.save_frac": 0.005198497571853068, "timer/agent.save_avg": 1.5606470108032227, "timer/agent.save_min": 1.5606470108032227, "timer/agent.save_max": 1.5606470108032227, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.748603820800781e-05, "timer/replay.save_frac": 2.581051183826167e-07, "timer/replay.save_avg": 7.748603820800781e-05, "timer/replay.save_min": 7.748603820800781e-05, "timer/replay.save_max": 7.748603820800781e-05, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 12.521129608154297, "timer/agent.policy_frac": 0.04170774134975408, "timer/agent.policy_avg": 0.008749915868731166, "timer/agent.policy_min": 0.00562286376953125, "timer/agent.policy_max": 1.5492947101593018, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0645749568939209, "timer/dataset_frac": 0.00021509845230331255, "timer/dataset_avg": 9.018848728201243e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.22922444343567, "timer/agent.train_frac": 0.890137529358673, "timer/agent.train_avg": 0.3732251738036811, "timer/agent.train_min": 0.3661997318267822, "timer/agent.train_max": 0.9443118572235107, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191524505615234, "timer/agent.report_frac": 0.0007391971756559138, "timer/agent.report_avg": 0.22191524505615234, "timer/agent.report_min": 0.22191524505615234, "timer/agent.report_max": 0.22191524505615234, "fps": 4.766550532011905}
+{"step": 412313, "episode/length": 454.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.02857142857142857}
+{"step": 412490, "episode/length": 176.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.05649717514124294}
+{"step": 412693, "episode/length": 202.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.059113300492610835}
+{"step": 412903, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05714285714285714}
+{"step": 413049, "episode/length": 145.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0821917808219178}
+{"step": 413232, "episode/length": 182.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04918032786885246}
+{"step": 413442, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06190476190476191}
+{"step": 413622, "episode/length": 179.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.06111111111111111}
+{"step": 413755, "stats/sum_log_reward": 10.225000262260437, "stats/max_log_achievement_collect_coal": 1.75, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 8.25, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36935616098344326, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532400343153212, "train/action_min": 0.0, "train/action_std": 3.3220776981777616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04498228679100672, "train/actor_opt_grad_steps": 205965.0, "train/actor_opt_loss": -10.882033293859827, "train/adv_mag": 0.4379153711100419, "train/adv_max": 0.38290906076629955, "train/adv_mean": 0.002903707977616755, "train/adv_min": -0.3715407916655143, "train/adv_std": 0.0495651141843862, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 8.064744683010538e-05, "train/cont_loss_std": 0.002530444334774352, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.007179608594273961, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.309739901866891e-05, "train/cont_pred": 0.9946328534020318, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 4.994717912541495, "train/dyn_loss_std": 8.705063117874992, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0178990877336926, "train/extr_critic_critic_opt_grad_steps": 205965.0, "train/extr_critic_critic_opt_loss": 16308.771633572049, "train/extr_critic_mag": 9.950979524188572, "train/extr_critic_max": 9.950979524188572, "train/extr_critic_mean": 2.6994961433940463, "train/extr_critic_min": -0.5969499548276266, "train/extr_critic_std": 2.4791537440485425, "train/extr_return_normed_mag": 1.422419947054651, "train/extr_return_normed_max": 1.422419947054651, "train/extr_return_normed_mean": 0.38140374256504905, "train/extr_return_normed_min": -0.09490092284977436, "train/extr_return_normed_std": 0.3294439659350448, "train/extr_return_rate": 0.753166632519828, "train/extr_return_raw_mag": 10.662275075912476, "train/extr_return_raw_max": 10.662275075912476, "train/extr_return_raw_mean": 2.7216721177101135, "train/extr_return_raw_min": -0.9136862829327583, "train/extr_return_raw_std": 2.5136669443713293, "train/extr_reward_mag": 1.0403963426748912, "train/extr_reward_max": 1.0403963426748912, "train/extr_reward_mean": 0.052405687462952405, "train/extr_reward_min": -0.6758545057641135, "train/extr_reward_std": 0.22211906272504064, "train/image_loss_mean": 3.023333269688818, "train/image_loss_std": 8.043164703581068, "train/model_loss_mean": 6.069768064551884, "train/model_loss_std": 12.179830220010546, "train/model_opt_grad_norm": 33.20671264330546, "train/model_opt_grad_steps": 205801.59722222222, "train/model_opt_loss": 15440.296020507812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.552698698308733, "train/policy_entropy_max": 2.552698698308733, "train/policy_entropy_mean": 0.36829350019494694, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4995325431227684, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36783563614719444, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.981642553375827, "train/policy_randomness_mag": 0.9009906202554703, "train/policy_randomness_max": 0.9009906202554703, "train/policy_randomness_mean": 0.12999144331034687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1763130653028687, "train/post_ent_mag": 54.883631494310166, "train/post_ent_max": 54.883631494310166, "train/post_ent_mean": 41.0425066418118, "train/post_ent_min": 18.807753986782497, "train/post_ent_std": 5.559142437246111, "train/prior_ent_mag": 76.40831036037869, "train/prior_ent_max": 76.40831036037869, "train/prior_ent_mean": 46.011267768012154, "train/prior_ent_min": 28.13629566298591, "train/prior_ent_std": 7.27351215812895, "train/rep_loss_mean": 4.994717912541495, "train/rep_loss_std": 8.705063117874992, "train/reward_avg": 0.0334120008111414, "train/reward_loss_mean": 0.049523427694415055, "train/reward_loss_std": 0.19752257607049412, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0169485873646207, "train/reward_neg_acc": 0.994583300418324, "train/reward_neg_loss": 0.022717979413250253, "train/reward_pos_acc": 0.9903574428624577, "train/reward_pos_loss": 0.7207756737867991, "train/reward_pred": 0.03326530115575426, "train/reward_rate": 0.038397894965277776, "replay/size": 413692.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7948566071699463e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.237602405839092e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2132124900818, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.262821435928345, "timer/env.step_frac": 0.06749476902718854, "timer/env.step_avg": 0.014051887264860155, "timer/env.step_min": 0.00298309326171875, "timer/env.step_max": 1.6536250114440918, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.270524263381958, "timer/replay.add_frac": 0.000901107120296697, "timer/replay.add_avg": 0.00018760351136058113, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0012524127960205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03340744972229004, "timer/logger.write_frac": 0.00011127907877603398, "timer/logger.write_avg": 0.03340744972229004, "timer/logger.write_min": 0.03340744972229004, "timer/logger.write_max": 0.03340744972229004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.398848295211792, "timer/agent.policy_frac": 0.03463820998736137, "timer/agent.policy_avg": 0.007211406584751589, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 0.011095762252807617, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06674408912658691, "timer/dataset_frac": 0.0002223222907912221, "timer/dataset_avg": 9.257155218666702e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4546329975128, "timer/agent.train_frac": 0.8942132518780526, "timer/agent.train_avg": 0.3723365228814325, "timer/agent.train_min": 0.36419129371643066, "timer/agent.train_max": 0.3834106922149658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21751189231872559, "timer/agent.report_frac": 0.0007245247153334785, "timer/agent.report_avg": 0.21751189231872559, "timer/agent.report_min": 0.21751189231872559, "timer/agent.report_max": 0.21751189231872559, "fps": 4.803181665455845}
+{"step": 413799, "episode/length": 176.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06779661016949153}
+{"step": 413851, "episode/length": 51.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.700000040233135, "episode/reward_rate": 0.09615384615384616}
+{"step": 414030, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.061452513966480445}
+{"step": 414233, "episode/length": 202.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.06403940886699508}
+{"step": 414417, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 414607, "episode/length": 189.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06842105263157895}
+{"step": 414811, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05392156862745098}
+{"step": 414988, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06779661016949153}
+{"step": 415195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562452528211805, "train/action_min": 0.0, "train/action_std": 3.424675782521566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043802364004982844, "train/actor_opt_grad_steps": 206685.0, "train/actor_opt_loss": -11.655167629114455, "train/adv_mag": 0.42206665956311756, "train/adv_max": 0.3748025877608193, "train/adv_mean": 0.002097252446775302, "train/adv_min": -0.3701929317580329, "train/adv_std": 0.04899891693558958, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 3.95778517806712e-05, "train/cont_loss_std": 0.0012175269672438402, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.0057070361929771945, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.208493060248325e-06, "train/cont_pred": 0.9950463192330466, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 4.908846894900004, "train/dyn_loss_std": 8.589155819680956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0457097788651784, "train/extr_critic_critic_opt_grad_steps": 206685.0, "train/extr_critic_critic_opt_loss": 16117.676866319445, "train/extr_critic_mag": 9.963933361901177, "train/extr_critic_max": 9.963933361901177, "train/extr_critic_mean": 2.65821320646339, "train/extr_critic_min": -0.558614194393158, "train/extr_critic_std": 2.4627112829022937, "train/extr_return_normed_mag": 1.4074169629149966, "train/extr_return_normed_max": 1.4074169629149966, "train/extr_return_normed_mean": 0.3689184888369507, "train/extr_return_normed_min": -0.08878340473812488, "train/extr_return_normed_std": 0.3225481710914109, "train/extr_return_rate": 0.7468623783853319, "train/extr_return_raw_mag": 10.706941776805454, "train/extr_return_raw_max": 10.706941776805454, "train/extr_return_raw_mean": 2.6744399103853436, "train/extr_return_raw_min": -0.8662622099121412, "train/extr_return_raw_std": 2.4951145317819385, "train/extr_reward_mag": 1.0448576940430536, "train/extr_reward_max": 1.0448576940430536, "train/extr_reward_mean": 0.0486735044978559, "train/extr_reward_min": -0.6566505564583672, "train/extr_reward_std": 0.2135593547589249, "train/image_loss_mean": 3.029774862858984, "train/image_loss_std": 7.847316748566097, "train/model_loss_mean": 6.023086508115132, "train/model_loss_std": 11.91850537723965, "train/model_opt_grad_norm": 31.95627992682987, "train/model_opt_grad_steps": 206520.77777777778, "train/model_opt_loss": 13344.136813693576, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.582151903046502, "train/policy_entropy_max": 2.582151903046502, "train/policy_entropy_mean": 0.40622779892550576, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5584688062469164, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4068097294204765, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0203004744317796, "train/policy_randomness_mag": 0.911386306087176, "train/policy_randomness_max": 0.911386306087176, "train/policy_randomness_mean": 0.14338058709270424, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19711498129698965, "train/post_ent_mag": 54.84809419843886, "train/post_ent_max": 54.84809419843886, "train/post_ent_mean": 41.222251415252686, "train/post_ent_min": 18.86128815015157, "train/post_ent_std": 5.556333661079407, "train/prior_ent_mag": 76.32914119296603, "train/prior_ent_max": 76.32914119296603, "train/prior_ent_mean": 46.10177103678385, "train/prior_ent_min": 28.178144878811306, "train/prior_ent_std": 7.247553077008989, "train/rep_loss_mean": 4.908846894900004, "train/rep_loss_std": 8.589155819680956, "train/reward_avg": 0.03203938800531129, "train/reward_loss_mean": 0.04796397660134567, "train/reward_loss_std": 0.20629062317311764, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0152540355920792, "train/reward_neg_acc": 0.9953825506899092, "train/reward_neg_loss": 0.02129043087673684, "train/reward_pos_acc": 0.9846882058514489, "train/reward_pos_loss": 0.7462193411257532, "train/reward_pred": 0.031685878729654685, "train/reward_rate": 0.03664822048611111, "stats/sum_log_reward": 9.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33281764201819897, "replay/size": 415132.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.787047333187527e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2554021345244515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08565521240234, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.665050268173218, "timer/env.step_frac": 0.06886383907136906, "timer/env.step_avg": 0.014350729352898068, "timer/env.step_min": 0.0029828548431396484, "timer/env.step_max": 1.7285206317901611, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26410531997680664, "timer/replay.add_frac": 0.000880099782809916, "timer/replay.add_avg": 0.00018340647220611573, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0010101795196533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027332544326782227, "timer/logger.write_frac": 9.10824754600019e-05, "timer/logger.write_avg": 0.027332544326782227, "timer/logger.write_min": 0.027332544326782227, "timer/logger.write_max": 0.027332544326782227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.402882099151611, "timer/agent.policy_frac": 0.034666375811227605, "timer/agent.policy_avg": 0.007224223679966397, "timer/agent.policy_min": 0.005636453628540039, "timer/agent.policy_max": 0.019286155700683594, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06710147857666016, "timer/dataset_frac": 0.0002236077513574094, "timer/dataset_avg": 9.31964980231391e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9707441329956, "timer/agent.train_frac": 0.8929808522280893, "timer/agent.train_avg": 0.372181589073605, "timer/agent.train_min": 0.3619110584259033, "timer/agent.train_max": 0.38488316535949707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21787691116333008, "timer/agent.report_frac": 0.0007260490709198197, "timer/agent.report_avg": 0.21787691116333008, "timer/agent.report_min": 0.21787691116333008, "timer/agent.report_max": 0.21787691116333008, "fps": 4.79855986900637}
+{"step": 415195, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05314009661835749}
+{"step": 415376, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055248618784530384}
+{"step": 415688, "episode/length": 311.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.035256410256410256}
+{"step": 415871, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.0546448087431694}
+{"step": 416028, "episode/length": 156.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.07006369426751592}
+{"step": 416199, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04093567251461988}
+{"step": 416467, "episode/length": 267.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.03731343283582089}
+{"step": 416619, "stats/sum_log_reward": 9.100000177110944, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 8.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3460865787097386, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5247344970703125, "train/action_min": 0.0, "train/action_std": 3.3225690291987524, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043877167937656246, "train/actor_opt_grad_steps": 207405.0, "train/actor_opt_loss": -12.961871006422573, "train/adv_mag": 0.4226272255182266, "train/adv_max": 0.3939672029680676, "train/adv_mean": 0.0017389760519613952, "train/adv_min": -0.35587257912589443, "train/adv_std": 0.0495091889364024, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 8.708503904604943e-05, "train/cont_loss_std": 0.002717386519659865, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.010972117789277844, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.4675512155060133e-05, "train/cont_pred": 0.9944069012999535, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.187570419576433, "train/dyn_loss_std": 8.90119410223431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0919821518990729, "train/extr_critic_critic_opt_grad_steps": 207405.0, "train/extr_critic_critic_opt_loss": 16244.769992404514, "train/extr_critic_mag": 10.049566838476393, "train/extr_critic_max": 10.049566838476393, "train/extr_critic_mean": 2.5948625206947327, "train/extr_critic_min": -0.5516519513395097, "train/extr_critic_std": 2.464287840657764, "train/extr_return_normed_mag": 1.4260449177689023, "train/extr_return_normed_max": 1.4260449177689023, "train/extr_return_normed_mean": 0.363101558552848, "train/extr_return_normed_min": -0.08606813532403773, "train/extr_return_normed_std": 0.3256816541155179, "train/extr_return_rate": 0.7446841042902734, "train/extr_return_raw_mag": 10.736406683921814, "train/extr_return_raw_max": 10.736406683921814, "train/extr_return_raw_mean": 2.608138574494256, "train/extr_return_raw_min": -0.827541901005639, "train/extr_return_raw_std": 2.4907657967673407, "train/extr_reward_mag": 1.0453112688329484, "train/extr_reward_max": 1.0453112688329484, "train/extr_reward_mean": 0.049330819553385176, "train/extr_reward_min": -0.6371088408761554, "train/extr_reward_std": 0.2155208287553655, "train/image_loss_mean": 3.293262160486645, "train/image_loss_std": 8.736258447170258, "train/model_loss_mean": 6.4556606610616045, "train/model_loss_std": 12.951492495006985, "train/model_opt_grad_norm": 29.63996174600389, "train/model_opt_grad_steps": 207240.0, "train/model_opt_loss": 8069.575792100694, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.568438433938556, "train/policy_entropy_max": 2.568438433938556, "train/policy_entropy_mean": 0.3895070737020837, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5361575380795531, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39054733845922684, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0076323797305424, "train/policy_randomness_mag": 0.9065460529592302, "train/policy_randomness_max": 0.9065460529592302, "train/policy_randomness_mean": 0.13747890407426488, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18924008227056927, "train/post_ent_mag": 54.569479624430336, "train/post_ent_max": 54.569479624430336, "train/post_ent_mean": 40.94519244299995, "train/post_ent_min": 18.838476366466946, "train/post_ent_std": 5.604569772879283, "train/prior_ent_mag": 76.35134559207492, "train/prior_ent_max": 76.35134559207492, "train/prior_ent_mean": 46.112225691477455, "train/prior_ent_min": 27.76100688510471, "train/prior_ent_std": 7.298955420653026, "train/rep_loss_mean": 5.187570419576433, "train/rep_loss_std": 8.90119410223431, "train/reward_avg": 0.03309326166183584, "train/reward_loss_mean": 0.04976919153705239, "train/reward_loss_std": 0.19993879749543136, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.022597074508667, "train/reward_neg_acc": 0.9948692495624224, "train/reward_neg_loss": 0.02283337815768189, "train/reward_pos_acc": 0.9904976694120301, "train/reward_pos_loss": 0.7304978122313818, "train/reward_pred": 0.032744363985127874, "train/reward_rate": 0.03811306423611111, "replay/size": 416556.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.793098953332794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2636896264687014e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25106287002563, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.62172293663025, "timer/env.step_frac": 0.0720121445364874, "timer/env.step_avg": 0.015183794197071804, "timer/env.step_min": 0.0030503273010253906, "timer/env.step_max": 2.80275821685791, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2684769630432129, "timer/replay.add_frac": 0.0008941748964247055, "timer/replay.add_avg": 0.00018853719314832366, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0015444755554199219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023246288299560547, "timer/logger.write_frac": 7.742283433522276e-05, "timer/logger.write_avg": 0.023246288299560547, "timer/logger.write_min": 0.023246288299560547, "timer/logger.write_max": 0.023246288299560547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002570152282714844, "timer/checkpoint.save_frac": 8.560010606281936e-07, "timer/checkpoint.save_avg": 0.0002570152282714844, "timer/checkpoint.save_min": 0.0002570152282714844, "timer/checkpoint.save_max": 0.0002570152282714844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.392592430114746, "timer/agent.save_frac": 0.004638093257033962, "timer/agent.save_avg": 1.392592430114746, "timer/agent.save_min": 1.392592430114746, "timer/agent.save_max": 1.392592430114746, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.3424889878044257e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.42350697517395, "timer/agent.policy_frac": 0.04137706243708422, "timer/agent.policy_avg": 0.008724372875824404, "timer/agent.policy_min": 0.005677700042724609, "timer/agent.policy_max": 1.3813433647155762, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06616401672363281, "timer/dataset_frac": 0.0002203623064351125, "timer/dataset_avg": 9.292698978038317e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.14430832862854, "timer/agent.train_frac": 0.8830753363341322, "timer/agent.train_avg": 0.3723936914727929, "timer/agent.train_min": 0.36496663093566895, "timer/agent.train_max": 0.38568782806396484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21737909317016602, "timer/agent.report_frac": 0.0007239910863005547, "timer/agent.report_avg": 0.21737909317016602, "timer/agent.report_min": 0.21737909317016602, "timer/agent.report_max": 0.21737909317016602, "fps": 4.742622631994974}
+{"step": 416667, "episode/length": 199.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06}
+{"step": 416851, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.059782608695652176}
+{"step": 417050, "episode/length": 198.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.06030150753768844}
+{"step": 417232, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07692307692307693}
+{"step": 417380, "episode/length": 147.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08108108108108109}
+{"step": 417532, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 417589, "episode/length": 56.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.12280701754385964}
+{"step": 417796, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05314009661835749}
+{"step": 417837, "episode/length": 40.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.12195121951219512}
+{"step": 418015, "episode/length": 177.0, "episode/score": 9.100000031292439, "episode/sum_abs_reward": 11.90000007301569, "episode/reward_rate": 0.056179775280898875}
+{"step": 418043, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.519349004181338, "train/action_min": 0.0, "train/action_std": 3.365139121740637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04406564556796786, "train/actor_opt_grad_steps": 208120.0, "train/actor_opt_loss": -12.312478459217179, "train/adv_mag": 0.42900756085422675, "train/adv_max": 0.3743247234485519, "train/adv_mean": 0.002198897793476417, "train/adv_min": -0.38463715516345603, "train/adv_std": 0.04941169497832446, "train/cont_avg": 0.9947183098591549, "train/cont_loss_mean": 1.605035859317378e-05, "train/cont_loss_std": 0.0004701861196393328, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002108041232168034, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 5.586153501183898e-06, "train/cont_pred": 0.9947219927546004, "train/cont_rate": 0.9947183098591549, "train/dyn_loss_mean": 4.969972939558432, "train/dyn_loss_std": 8.67643777417465, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0026992190052086, "train/extr_critic_critic_opt_grad_steps": 208120.0, "train/extr_critic_critic_opt_loss": 16107.093089788732, "train/extr_critic_mag": 9.892871453728475, "train/extr_critic_max": 9.892871453728475, "train/extr_critic_mean": 2.628901803997201, "train/extr_critic_min": -0.5420502340289909, "train/extr_critic_std": 2.4259954237602126, "train/extr_return_normed_mag": 1.4058362665310713, "train/extr_return_normed_max": 1.4058362665310713, "train/extr_return_normed_mean": 0.3726049835833026, "train/extr_return_normed_min": -0.08801542141173087, "train/extr_return_normed_std": 0.3253922982954643, "train/extr_return_rate": 0.7546802003618697, "train/extr_return_raw_mag": 10.459994235508878, "train/extr_return_raw_max": 10.459994235508878, "train/extr_return_raw_mean": 2.6455284911142267, "train/extr_return_raw_min": -0.8377973353359062, "train/extr_return_raw_std": 2.4608830247126834, "train/extr_reward_mag": 1.0430548090330312, "train/extr_reward_max": 1.0430548090330312, "train/extr_reward_mean": 0.049088442252135614, "train/extr_reward_min": -0.6511661150086094, "train/extr_reward_std": 0.2153796412995164, "train/image_loss_mean": 2.9570965699746576, "train/image_loss_std": 7.819486483721666, "train/model_loss_mean": 5.988559313223395, "train/model_loss_std": 11.987246473070602, "train/model_opt_grad_norm": 33.26894572083379, "train/model_opt_grad_steps": 207954.49295774646, "train/model_opt_loss": 9923.687245543573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.570174600037051, "train/policy_entropy_max": 2.570174600037051, "train/policy_entropy_mean": 0.37996942686363006, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5272684227412855, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810328501211086, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 0.9990094463590166, "train/policy_randomness_mag": 0.9071588491050291, "train/policy_randomness_max": 0.9071588491050291, "train/policy_randomness_mean": 0.13411253501831646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18610261800423475, "train/post_ent_mag": 54.74880137913664, "train/post_ent_max": 54.74880137913664, "train/post_ent_mean": 40.963890612964896, "train/post_ent_min": 18.801887888303945, "train/post_ent_std": 5.547161995525092, "train/prior_ent_mag": 76.30745073775171, "train/prior_ent_max": 76.30745073775171, "train/prior_ent_mean": 45.89522273103956, "train/prior_ent_min": 27.462378837692906, "train/prior_ent_std": 7.303228042495083, "train/rep_loss_mean": 4.969972939558432, "train/rep_loss_std": 8.67643777417465, "train/reward_avg": 0.03215366415679455, "train/reward_loss_mean": 0.049463014682413826, "train/reward_loss_std": 0.20823117377052844, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0138780197627109, "train/reward_neg_acc": 0.9949421160657641, "train/reward_neg_loss": 0.022769961493011092, "train/reward_pos_acc": 0.985860525722235, "train/reward_pos_loss": 0.7452016657506916, "train/reward_pred": 0.03181680281397323, "train/reward_rate": 0.037013094190140844, "stats/sum_log_reward": 9.100000047683716, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.9, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 7.6, "stats/max_log_achievement_defeat_skeleton": 0.1, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 5.8, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 0.9, "stats/mean_log_entropy": 0.2519883170723915, "replay/size": 417980.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.898244225577023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2566366892182424e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0079884529114, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.423494577407837, "timer/env.step_frac": 0.07807623623023738, "timer/env.step_avg": 0.01644908327065157, "timer/env.step_min": 0.00311279296875, "timer/env.step_max": 1.6851270198822021, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.27303314208984375, "timer/replay.add_frac": 0.0009100862396959088, "timer/replay.add_avg": 0.00019173675708556443, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.001886129379272461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028852224349975586, "timer/logger.write_frac": 9.6171520294381e-05, "timer/logger.write_avg": 0.028852224349975586, "timer/logger.write_min": 0.028852224349975586, "timer/logger.write_max": 0.028852224349975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.343656539916992, "timer/agent.policy_frac": 0.034477937048467994, "timer/agent.policy_avg": 0.007263803749941708, "timer/agent.policy_min": 0.005682229995727539, "timer/agent.policy_max": 0.015453577041625977, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06614208221435547, "timer/dataset_frac": 0.00022046773672740715, "timer/dataset_avg": 9.289618288533071e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.180300951004, "timer/agent.train_frac": 0.8839107995706793, "timer/agent.train_avg": 0.37244424290871353, "timer/agent.train_min": 0.36589860916137695, "timer/agent.train_max": 0.44979429244995117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976065635681152, "timer/agent.report_frac": 0.0007325160156237129, "timer/agent.report_avg": 0.21976065635681152, "timer/agent.report_min": 0.21976065635681152, "timer/agent.report_max": 0.21976065635681152, "fps": 4.74647414322907}
+{"step": 418244, "episode/length": 228.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.05240174672489083}
+{"step": 418404, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.075}
+{"step": 418684, "episode/length": 279.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.039285714285714285}
+{"step": 419004, "episode/length": 319.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0375}
+{"step": 419062, "episode/length": 57.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.034482758620689655}
+{"step": 419232, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 419384, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05263157894736842}
+{"step": 419494, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56520250108507, "train/action_min": 0.0, "train/action_std": 3.4232401284906597, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04487496785198649, "train/actor_opt_grad_steps": 208835.0, "train/actor_opt_loss": -12.1862885935439, "train/adv_mag": 0.42718952521681786, "train/adv_max": 0.39740773662924767, "train/adv_mean": 0.002423324462142773, "train/adv_min": -0.36492403596639633, "train/adv_std": 0.05016298845617308, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 2.5851922526637987e-05, "train/cont_loss_std": 0.0007379184872509844, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004132290205297472, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 9.177434386565943e-06, "train/cont_pred": 0.9946208182308409, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.933749053213331, "train/dyn_loss_std": 8.638730433252123, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.007048613495297, "train/extr_critic_critic_opt_grad_steps": 208835.0, "train/extr_critic_critic_opt_loss": 16126.992838541666, "train/extr_critic_mag": 9.91673187414805, "train/extr_critic_max": 9.91673187414805, "train/extr_critic_mean": 2.6764321476221085, "train/extr_critic_min": -0.5435215731461843, "train/extr_critic_std": 2.4445540292395487, "train/extr_return_normed_mag": 1.4115093350410461, "train/extr_return_normed_max": 1.4115093350410461, "train/extr_return_normed_mean": 0.3752738235311376, "train/extr_return_normed_min": -0.08978177524275249, "train/extr_return_normed_std": 0.32463674743970233, "train/extr_return_rate": 0.7603398495250278, "train/extr_return_raw_mag": 10.605185588200888, "train/extr_return_raw_max": 10.605185588200888, "train/extr_return_raw_mean": 2.69496018687884, "train/extr_return_raw_min": -0.8555202947722541, "train/extr_return_raw_std": 2.478465348482132, "train/extr_reward_mag": 1.0363963213231828, "train/extr_reward_max": 1.0363963213231828, "train/extr_reward_mean": 0.050403457393662796, "train/extr_reward_min": -0.6577802863385942, "train/extr_reward_std": 0.21828306280076504, "train/image_loss_mean": 2.883197420173221, "train/image_loss_std": 7.457443184322781, "train/model_loss_mean": 5.892629616790348, "train/model_loss_std": 11.616502934032017, "train/model_opt_grad_norm": 32.90060969193777, "train/model_opt_grad_steps": 208669.0, "train/model_opt_loss": 8213.532708062066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.559248063299391, "train/policy_entropy_max": 2.559248063299391, "train/policy_entropy_mean": 0.3837849485377471, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5274505573842261, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3835861368311776, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.9992584420575036, "train/policy_randomness_mag": 0.9033022547761599, "train/policy_randomness_max": 0.9033022547761599, "train/policy_randomness_mean": 0.13545924538953436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18616689989964166, "train/post_ent_mag": 55.3457031779819, "train/post_ent_max": 55.3457031779819, "train/post_ent_mean": 41.13272386127048, "train/post_ent_min": 18.783056749237907, "train/post_ent_std": 5.666116237640381, "train/prior_ent_mag": 76.28440984090169, "train/prior_ent_max": 76.28440984090169, "train/prior_ent_mean": 46.05624193615384, "train/prior_ent_min": 27.562060276667278, "train/prior_ent_std": 7.317520936330159, "train/rep_loss_mean": 4.933749053213331, "train/rep_loss_std": 8.638730433252123, "train/reward_avg": 0.0328776039597061, "train/reward_loss_mean": 0.04915692238137126, "train/reward_loss_std": 0.20096020959317684, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.012905842728085, "train/reward_neg_acc": 0.9948998317122459, "train/reward_neg_loss": 0.022677069982617266, "train/reward_pos_acc": 0.9880814701318741, "train/reward_pos_loss": 0.7254801119367281, "train/reward_pred": 0.0327409200835973, "train/reward_rate": 0.0377197265625, "stats/sum_log_reward": 8.671428833689008, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.38442166575363707, "replay/size": 419431.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.82028391737514e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.252190820102034e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00229811668396, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.488361358642578, "timer/env.step_frac": 0.061627399105628346, "timer/env.step_avg": 0.012741806587624107, "timer/env.step_min": 0.0030553340911865234, "timer/env.step_max": 1.6466822624206543, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.26866769790649414, "timer/replay.add_frac": 0.0008955521327439884, "timer/replay.add_avg": 0.0001851603707143309, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0009584426879882812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026340961456298828, "timer/logger.write_frac": 8.780253225278188e-05, "timer/logger.write_avg": 0.026340961456298828, "timer/logger.write_min": 0.026340961456298828, "timer/logger.write_max": 0.026340961456298828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.485049486160278, "timer/agent.policy_frac": 0.034949897224061215, "timer/agent.policy_avg": 0.0072260851041766215, "timer/agent.policy_min": 0.005638837814331055, "timer/agent.policy_max": 0.014704465866088867, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06728148460388184, "timer/dataset_frac": 0.00022426989735163007, "timer/dataset_avg": 9.280204772949219e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.9728605747223, "timer/agent.train_frac": 0.8999026416448253, "timer/agent.train_avg": 0.3723763594134101, "timer/agent.train_min": 0.3661072254180908, "timer/agent.train_max": 0.4038815498352051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22166180610656738, "timer/agent.report_frac": 0.0007388670270130846, "timer/agent.report_avg": 0.22166180610656738, "timer/agent.report_min": 0.22166180610656738, "timer/agent.report_max": 0.22166180610656738, "fps": 4.836538132162778}
+{"step": 419638, "episode/length": 253.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.051181102362204724}
+{"step": 419806, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07142857142857142}
+{"step": 420112, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.042483660130718956}
+{"step": 420351, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0502092050209205}
+{"step": 420546, "episode/length": 194.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.06153846153846154}
+{"step": 420716, "episode/length": 169.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041176470588235294}
+{"step": 420928, "episode/length": 211.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04245283018867924}
+{"step": 420939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.700125080265411, "train/action_min": 0.0, "train/action_std": 3.5075784742015683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04390602094465739, "train/actor_opt_grad_steps": 209560.0, "train/actor_opt_loss": -11.946126622696445, "train/adv_mag": 0.45529677198357776, "train/adv_max": 0.416879217510354, "train/adv_mean": 0.0021141731582521397, "train/adv_min": -0.3569480844148218, "train/adv_std": 0.049628602315301765, "train/cont_avg": 0.9948630136986302, "train/cont_loss_mean": 8.348931207321634e-05, "train/cont_loss_std": 0.0025777755899887107, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.011089334206354174, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 9.153950765662496e-06, "train/cont_pred": 0.9948689537505581, "train/cont_rate": 0.9948630136986302, "train/dyn_loss_mean": 5.024665701879214, "train/dyn_loss_std": 8.736988511804032, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0154556493236595, "train/extr_critic_critic_opt_grad_steps": 209560.0, "train/extr_critic_critic_opt_loss": 16110.077121682363, "train/extr_critic_mag": 9.90027133732626, "train/extr_critic_max": 9.90027133732626, "train/extr_critic_mean": 2.5159275629749036, "train/extr_critic_min": -0.5468129948393939, "train/extr_critic_std": 2.383250731311432, "train/extr_return_normed_mag": 1.4452501796696284, "train/extr_return_normed_max": 1.4452501796696284, "train/extr_return_normed_mean": 0.3644657990295593, "train/extr_return_normed_min": -0.08635213414896024, "train/extr_return_normed_std": 0.32591669873832024, "train/extr_return_rate": 0.7380841888793527, "train/extr_return_raw_mag": 10.54262570159076, "train/extr_return_raw_max": 10.54262570159076, "train/extr_return_raw_mean": 2.531611576472243, "train/extr_return_raw_min": -0.8098769984016679, "train/extr_return_raw_std": 2.4158560870444936, "train/extr_reward_mag": 1.0440181052848085, "train/extr_reward_max": 1.0440181052848085, "train/extr_reward_mean": 0.049778008756980505, "train/extr_reward_min": -0.6442173245834978, "train/extr_reward_std": 0.21609031378406368, "train/image_loss_mean": 3.1302043738430494, "train/image_loss_std": 8.05640123968255, "train/model_loss_mean": 6.195463761891404, "train/model_loss_std": 12.230783488652477, "train/model_opt_grad_norm": 31.995857003616962, "train/model_opt_grad_steps": 209393.301369863, "train/model_opt_loss": 10178.679881474744, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1626.7123287671234, "train/policy_entropy_mag": 2.568253801293569, "train/policy_entropy_max": 2.568253801293569, "train/policy_entropy_mean": 0.40689746831377893, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5494870208714107, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40820943921396174, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0204799983599415, "train/policy_randomness_mag": 0.9064808855318043, "train/policy_randomness_max": 0.9064808855318043, "train/policy_randomness_mean": 0.1436169502669818, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1939448059013445, "train/post_ent_mag": 54.63212789248114, "train/post_ent_max": 54.63212789248114, "train/post_ent_mean": 40.98051248837824, "train/post_ent_min": 18.482839127109475, "train/post_ent_std": 5.598727637774323, "train/prior_ent_mag": 76.44201148046206, "train/prior_ent_max": 76.44201148046206, "train/prior_ent_mean": 46.023704790089226, "train/prior_ent_min": 27.495848146203446, "train/prior_ent_std": 7.351595388699884, "train/rep_loss_mean": 5.024665701879214, "train/rep_loss_std": 8.736988511804032, "train/reward_avg": 0.03289276529868988, "train/reward_loss_mean": 0.050376385399331786, "train/reward_loss_std": 0.2106126750985237, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.017751986033296, "train/reward_neg_acc": 0.9945055646439122, "train/reward_neg_loss": 0.023220367716906005, "train/reward_pos_acc": 0.9852109861700502, "train/reward_pos_loss": 0.744428859998102, "train/reward_pred": 0.03262942394063081, "train/reward_rate": 0.037778253424657536, "stats/sum_log_reward": 10.100000313350133, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4221901723316738, "replay/size": 420876.0, "replay/inserts": 1445.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.866670865913576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2505639803030349e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0292532444, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.23446750640869, "timer/env.step_frac": 0.06410864040227617, "timer/env.step_avg": 0.01331105017744546, "timer/env.step_min": 0.0030486583709716797, "timer/env.step_max": 1.8092951774597168, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.27645325660705566, "timer/replay.add_frac": 0.0009214210068438239, "timer/replay.add_avg": 0.00019131713260003852, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0018463134765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02824997901916504, "timer/logger.write_frac": 9.415741536427104e-05, "timer/logger.write_avg": 0.02824997901916504, "timer/logger.write_min": 0.02824997901916504, "timer/logger.write_max": 0.02824997901916504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 10.540891170501709, "timer/agent.policy_frac": 0.03513287806611055, "timer/agent.policy_avg": 0.007294734374049625, "timer/agent.policy_min": 0.005712270736694336, "timer/agent.policy_max": 0.015798568725585938, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06692838668823242, "timer/dataset_frac": 0.00022307287027679734, "timer/dataset_avg": 9.257038269465066e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001990795135498047, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.1852169036865, "timer/agent.train_frac": 0.897196569977167, "timer/agent.train_avg": 0.3723170358280588, "timer/agent.train_min": 0.36237144470214844, "timer/agent.train_max": 0.3841383457183838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174971103668213, "timer/agent.report_frac": 0.0007249196803808025, "timer/agent.report_avg": 0.2174971103668213, "timer/agent.report_min": 0.2174971103668213, "timer/agent.report_max": 0.2174971103668213, "fps": 4.8161305770231255}
+{"step": 421162, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04700854700854701}
+{"step": 421349, "episode/length": 186.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.0481283422459893}
+{"step": 421595, "episode/length": 245.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.044715447154471545}
+{"step": 421753, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06329113924050633}
+{"step": 421940, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.053475935828877004}
+{"step": 422102, "episode/length": 161.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05555555555555555}
+{"step": 422270, "episode/length": 167.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06547619047619048}
+{"step": 422363, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.537699954610475, "train/action_min": 0.0, "train/action_std": 3.403183957220803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04532814812912068, "train/actor_opt_grad_steps": 210280.0, "train/actor_opt_loss": -12.166519655728004, "train/adv_mag": 0.4464911717764089, "train/adv_max": 0.39913926158152835, "train/adv_mean": 0.002278802379920999, "train/adv_min": -0.38857529889529857, "train/adv_std": 0.05020907348100568, "train/cont_avg": 0.9943606954225352, "train/cont_loss_mean": 1.0448712868323205e-05, "train/cont_loss_std": 0.0002546219941850851, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004015251692641907, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 7.926005149132334e-06, "train/cont_pred": 0.9943555853736232, "train/cont_rate": 0.9943606954225352, "train/dyn_loss_mean": 5.015467858650315, "train/dyn_loss_std": 8.743406114443927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0261065884375236, "train/extr_critic_critic_opt_grad_steps": 210280.0, "train/extr_critic_critic_opt_loss": 16077.97334397007, "train/extr_critic_mag": 9.80126645531453, "train/extr_critic_max": 9.80126645531453, "train/extr_critic_mean": 2.5551776264754817, "train/extr_critic_min": -0.5775175816576246, "train/extr_critic_std": 2.3884763331480428, "train/extr_return_normed_mag": 1.42312263267141, "train/extr_return_normed_max": 1.42312263267141, "train/extr_return_normed_mean": 0.37008246086852653, "train/extr_return_normed_min": -0.09968170303274208, "train/extr_return_normed_std": 0.3266129453837032, "train/extr_return_rate": 0.7405782711337989, "train/extr_return_raw_mag": 10.369142089091556, "train/extr_return_raw_max": 10.369142089091556, "train/extr_return_raw_mean": 2.5720432022927513, "train/extr_return_raw_min": -0.906235375034977, "train/extr_return_raw_std": 2.4186109573068753, "train/extr_reward_mag": 1.047625568551077, "train/extr_reward_max": 1.047625568551077, "train/extr_reward_mean": 0.04813059831274227, "train/extr_reward_min": -0.6789085327739447, "train/extr_reward_std": 0.21339173656953891, "train/image_loss_mean": 3.1107645387380893, "train/image_loss_std": 8.183178122614471, "train/model_loss_mean": 6.170182805665782, "train/model_loss_std": 12.334097217506086, "train/model_opt_grad_norm": 32.55951287712849, "train/model_opt_grad_steps": 210113.0, "train/model_opt_loss": 10250.992139359596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1637.3239436619717, "train/policy_entropy_mag": 2.5610947474627426, "train/policy_entropy_max": 2.5610947474627426, "train/policy_entropy_mean": 0.3892067723291021, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5273516996645592, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881926200759243, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 0.9990763076594178, "train/policy_randomness_mag": 0.9039540551078151, "train/policy_randomness_max": 0.9039540551078151, "train/policy_randomness_mean": 0.1373729128652895, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18613200666199267, "train/post_ent_mag": 55.00646612677776, "train/post_ent_max": 55.00646612677776, "train/post_ent_mean": 41.09057724643761, "train/post_ent_min": 18.932237141568894, "train/post_ent_std": 5.550353701685516, "train/prior_ent_mag": 76.31298495010591, "train/prior_ent_max": 76.31298495010591, "train/prior_ent_mean": 46.11250315921407, "train/prior_ent_min": 28.458749529341578, "train/prior_ent_std": 7.2358796428626695, "train/rep_loss_mean": 5.015467858650315, "train/rep_loss_std": 8.743406114443927, "train/reward_avg": 0.03350297091397601, "train/reward_loss_mean": 0.05012709762848599, "train/reward_loss_std": 0.20556118412756583, "train/reward_max_data": 1.0309859228805758, "train/reward_max_pred": 1.0292912620893666, "train/reward_neg_acc": 0.9948097014091384, "train/reward_neg_loss": 0.022545716712172603, "train/reward_pos_acc": 0.9859658865861489, "train/reward_pos_loss": 0.7398613011333305, "train/reward_pred": 0.033114915634964555, "train/reward_rate": 0.03841604313380282, "stats/sum_log_reward": 9.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.34022211177008493, "replay/size": 422300.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7684869230463265e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2553600447901178e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15979838371277, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.486189126968384, "timer/env.step_frac": 0.0715825011965835, "timer/env.step_avg": 0.015088615959949708, "timer/env.step_min": 0.0031867027282714844, "timer/env.step_max": 2.794851064682007, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.28203749656677246, "timer/replay.add_frac": 0.0009396244869748565, "timer/replay.add_avg": 0.00019806003972385705, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0010082721710205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02889251708984375, "timer/logger.write_frac": 9.625711785996293e-05, "timer/logger.write_avg": 0.02889251708984375, "timer/logger.write_min": 0.02889251708984375, "timer/logger.write_max": 0.02889251708984375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020623207092285156, "timer/checkpoint.save_frac": 6.870742585561455e-07, "timer/checkpoint.save_avg": 0.00020623207092285156, "timer/checkpoint.save_min": 0.00020623207092285156, "timer/checkpoint.save_max": 0.00020623207092285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3720297813415527, "timer/agent.save_frac": 0.004570997810931371, "timer/agent.save_avg": 1.3720297813415527, "timer/agent.save_min": 1.3720297813415527, "timer/agent.save_max": 1.3720297813415527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.9604644775390625e-05, "timer/replay.save_frac": 1.9857637530524436e-07, "timer/replay.save_avg": 5.9604644775390625e-05, "timer/replay.save_min": 5.9604644775390625e-05, "timer/replay.save_max": 5.9604644775390625e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.639062643051147, "timer/agent.policy_frac": 0.038776220885423894, "timer/agent.policy_avg": 0.00817349904708648, "timer/agent.policy_min": 0.0055544376373291016, "timer/agent.policy_max": 1.3621668815612793, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06536364555358887, "timer/dataset_frac": 0.00021776282468723707, "timer/dataset_avg": 9.18028729685237e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020647048950195312, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.9748206138611, "timer/agent.train_frac": 0.8861107385001941, "timer/agent.train_avg": 0.37356014131160264, "timer/agent.train_min": 0.36530566215515137, "timer/agent.train_max": 0.9604678153991699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22307372093200684, "timer/agent.report_frac": 0.000743183204856894, "timer/agent.report_avg": 0.22307372093200684, "timer/agent.report_min": 0.22307372093200684, "timer/agent.report_max": 0.22307372093200684, "fps": 4.744075669903797}
+{"step": 422412, "episode/length": 141.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.07042253521126761}
+{"step": 422582, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06470588235294118}
+{"step": 422806, "episode/length": 223.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05357142857142857}
+{"step": 423028, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05405405405405406}
+{"step": 423225, "episode/length": 196.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.06091370558375635}
+{"step": 423380, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07096774193548387}
+{"step": 423637, "episode/length": 256.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.042801556420233464}
+{"step": 423809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.606736924913195, "train/action_min": 0.0, "train/action_std": 3.4432291388511658, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04640057077631354, "train/actor_opt_grad_steps": 210995.0, "train/actor_opt_loss": -10.310337227251795, "train/adv_mag": 0.44355423872669536, "train/adv_max": 0.40821341756317353, "train/adv_mean": 0.0036032112038305465, "train/adv_min": -0.37033929199808174, "train/adv_std": 0.05160652349392573, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 8.784862551970541e-05, "train/cont_loss_std": 0.0027414212170510962, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.01476922773857344, "train/cont_pos_acc": 0.9999863654375076, "train/cont_pos_loss": 2.965976996962796e-05, "train/cont_pred": 0.994379311800003, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.8750282592243614, "train/dyn_loss_std": 8.652910576926338, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.000474616057343, "train/extr_critic_critic_opt_grad_steps": 210995.0, "train/extr_critic_critic_opt_loss": 16169.062269422742, "train/extr_critic_mag": 9.834898908933004, "train/extr_critic_max": 9.834898908933004, "train/extr_critic_mean": 2.6194753613736896, "train/extr_critic_min": -0.5442351020044751, "train/extr_critic_std": 2.4003170314762325, "train/extr_return_normed_mag": 1.4514246814780765, "train/extr_return_normed_max": 1.4514246814780765, "train/extr_return_normed_mean": 0.37564638753732044, "train/extr_return_normed_min": -0.08671823387137717, "train/extr_return_normed_std": 0.32790372437900966, "train/extr_return_rate": 0.747680701315403, "train/extr_return_raw_mag": 10.650037593311733, "train/extr_return_raw_max": 10.650037593311733, "train/extr_return_raw_mean": 2.646261261569129, "train/extr_return_raw_min": -0.7935802108711667, "train/extr_return_raw_std": 2.4394657678074307, "train/extr_reward_mag": 1.034618877702289, "train/extr_reward_max": 1.034618877702289, "train/extr_reward_mean": 0.0518420052766386, "train/extr_reward_min": -0.6593096339040332, "train/extr_reward_std": 0.2203835758070151, "train/image_loss_mean": 3.03244815270106, "train/image_loss_std": 7.941750910547045, "train/model_loss_mean": 6.007973300086127, "train/model_loss_std": 12.064048873053657, "train/model_opt_grad_norm": 28.422591580284966, "train/model_opt_grad_steps": 210828.0, "train/model_opt_loss": 15019.93324110243, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.564963804350959, "train/policy_entropy_max": 2.564963804350959, "train/policy_entropy_mean": 0.4053622902267509, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5514207738969061, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40556953888800407, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0178974800639682, "train/policy_randomness_mag": 0.9053196650412347, "train/policy_randomness_max": 0.9053196650412347, "train/policy_randomness_mean": 0.14307509931839174, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19462733426027828, "train/post_ent_mag": 54.792026625739204, "train/post_ent_max": 54.792026625739204, "train/post_ent_mean": 41.018433782789444, "train/post_ent_min": 19.083367824554443, "train/post_ent_std": 5.53928483194775, "train/prior_ent_mag": 76.47546312544081, "train/prior_ent_max": 76.47546312544081, "train/prior_ent_mean": 45.87084436416626, "train/prior_ent_min": 27.856141222847832, "train/prior_ent_std": 7.343112263414595, "train/rep_loss_mean": 4.8750282592243614, "train/rep_loss_std": 8.652910576926338, "train/reward_avg": 0.03425835479154355, "train/reward_loss_mean": 0.0504204195458442, "train/reward_loss_std": 0.2023422254456414, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.013729648457633, "train/reward_neg_acc": 0.9949105464749866, "train/reward_neg_loss": 0.022806765421086714, "train/reward_pos_acc": 0.9888520489136378, "train/reward_pos_loss": 0.7277672969632678, "train/reward_pred": 0.034022171722931996, "train/reward_rate": 0.03927951388888889, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.36417266939367565, "replay/size": 423746.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7584726906086566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2605186979470576e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1112656593323, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.306918144226074, "timer/env.step_frac": 0.064332533808118, "timer/env.step_avg": 0.013351948924084422, "timer/env.step_min": 0.003040790557861328, "timer/env.step_max": 1.8761167526245117, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27115631103515625, "timer/replay.add_frac": 0.0009035192678936489, "timer/replay.add_avg": 0.0001875216535512837, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0020711421966552734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030722856521606445, "timer/logger.write_frac": 0.00010237155361065695, "timer/logger.write_avg": 0.030722856521606445, "timer/logger.write_min": 0.030722856521606445, "timer/logger.write_max": 0.030722856521606445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.429991006851196, "timer/agent.policy_frac": 0.03475374702757968, "timer/agent.policy_avg": 0.0072129951637975075, "timer/agent.policy_min": 0.005651235580444336, "timer/agent.policy_max": 0.015222311019897461, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06646513938903809, "timer/dataset_frac": 0.00022146832523269952, "timer/dataset_avg": 9.192965337349666e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00014472007751464844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.311564207077, "timer/agent.train_frac": 0.8973723915875349, "timer/agent.train_avg": 0.3724917900512822, "timer/agent.train_min": 0.3660576343536377, "timer/agent.train_max": 0.3880794048309326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22058868408203125, "timer/agent.report_frac": 0.0007350230042094783, "timer/agent.report_avg": 0.22058868408203125, "timer/agent.report_min": 0.22058868408203125, "timer/agent.report_max": 0.22058868408203125, "fps": 4.818119759935603}
+{"step": 423835, "episode/length": 197.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.06060606060606061}
+{"step": 423997, "episode/length": 161.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.08024691358024691}
+{"step": 424166, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07692307692307693}
+{"step": 424388, "episode/length": 221.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05855855855855856}
+{"step": 424558, "episode/length": 169.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06470588235294118}
+{"step": 424764, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05825242718446602}
+{"step": 424932, "episode/length": 167.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05952380952380952}
+{"step": 425128, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
+{"step": 425249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.621934678819445, "train/action_min": 0.0, "train/action_std": 3.4706617659992642, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044442772244413696, "train/actor_opt_grad_steps": 211715.0, "train/actor_opt_loss": -14.10186109940211, "train/adv_mag": 0.4596747292412652, "train/adv_max": 0.3945756314529313, "train/adv_mean": 0.002154552779100211, "train/adv_min": -0.40139955033858615, "train/adv_std": 0.050677268041504756, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 7.313453718103978e-05, "train/cont_loss_std": 0.002318311761796347, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006515291139865869, "train/cont_pos_acc": 0.99998632652892, "train/cont_pos_loss": 4.776086384497249e-05, "train/cont_pred": 0.9945986626876725, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.862166000737084, "train/dyn_loss_std": 8.598689436912537, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0333846906820934, "train/extr_critic_critic_opt_grad_steps": 211715.0, "train/extr_critic_critic_opt_loss": 16099.205322265625, "train/extr_critic_mag": 9.875528256098429, "train/extr_critic_max": 9.875528256098429, "train/extr_critic_mean": 2.6430737707349987, "train/extr_critic_min": -0.5275239066945182, "train/extr_critic_std": 2.452712823947271, "train/extr_return_normed_mag": 1.4289952036407259, "train/extr_return_normed_max": 1.4289952036407259, "train/extr_return_normed_mean": 0.3724265204121669, "train/extr_return_normed_min": -0.0913861261991163, "train/extr_return_normed_std": 0.33067001609338653, "train/extr_return_rate": 0.7429434690210555, "train/extr_return_raw_mag": 10.61157578892178, "train/extr_return_raw_max": 10.61157578892178, "train/extr_return_raw_mean": 2.6593383186393313, "train/extr_return_raw_min": -0.8325283966130681, "train/extr_return_raw_std": 2.489018294546339, "train/extr_reward_mag": 1.034188061952591, "train/extr_reward_max": 1.034188061952591, "train/extr_reward_mean": 0.051460471055987805, "train/extr_reward_min": -0.6842475980520248, "train/extr_reward_std": 0.21976764665709603, "train/image_loss_mean": 2.8869692848788366, "train/image_loss_std": 7.4180382755067615, "train/model_loss_mean": 5.8543064792950945, "train/model_loss_std": 11.521013021469116, "train/model_opt_grad_norm": 29.361796842681038, "train/model_opt_grad_steps": 211547.08333333334, "train/model_opt_loss": 14635.76611328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.571521004041036, "train/policy_entropy_max": 2.571521004041036, "train/policy_entropy_mean": 0.40325153225825894, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5489060224758254, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40319042404492694, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.015543291138278, "train/policy_randomness_mag": 0.9076340637273259, "train/policy_randomness_max": 0.9076340637273259, "train/policy_randomness_mean": 0.14233009403364527, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19373973883274528, "train/post_ent_mag": 54.86227538850572, "train/post_ent_max": 54.86227538850572, "train/post_ent_mean": 41.02281194263034, "train/post_ent_min": 19.00109312269423, "train/post_ent_std": 5.519165323840247, "train/prior_ent_mag": 76.36622132195367, "train/prior_ent_max": 76.36622132195367, "train/prior_ent_mean": 45.873682234022354, "train/prior_ent_min": 28.264519479539658, "train/prior_ent_std": 7.292090402709113, "train/rep_loss_mean": 4.862166000737084, "train/rep_loss_std": 8.598689436912537, "train/reward_avg": 0.033733452424510486, "train/reward_loss_mean": 0.04996451011134519, "train/reward_loss_std": 0.20201857263843218, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0138680272632175, "train/reward_neg_acc": 0.9947532423668437, "train/reward_neg_loss": 0.02292730960632778, "train/reward_pos_acc": 0.9914411736859216, "train/reward_pos_loss": 0.7258151976598634, "train/reward_pred": 0.03355147098449783, "train/reward_rate": 0.03856065538194445, "stats/sum_log_reward": 10.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3077733460813761, "replay/size": 425186.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.818174203236898e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2503109044498868e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053538322449, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.77502131462097, "timer/env.step_frac": 0.06922576038491451, "timer/env.step_avg": 0.014427098135153452, "timer/env.step_min": 0.0030202865600585938, "timer/env.step_max": 1.7500884532928467, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2647111415863037, "timer/replay.add_frac": 0.000882060710367313, "timer/replay.add_avg": 0.00018382718165715534, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0023272037506103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03070974349975586, "timer/logger.write_frac": 0.00010232987551738987, "timer/logger.write_avg": 0.03070974349975586, "timer/logger.write_min": 0.03070974349975586, "timer/logger.write_max": 0.03070974349975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.294235467910767, "timer/agent.policy_frac": 0.03430207204389001, "timer/agent.policy_avg": 0.007148774630493588, "timer/agent.policy_min": 0.005615234375, "timer/agent.policy_max": 0.01703023910522461, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0664212703704834, "timer/dataset_frac": 0.0002213265092485223, "timer/dataset_avg": 9.225176440344917e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020742416381835938, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9834463596344, "timer/agent.train_frac": 0.8929645637359531, "timer/agent.train_avg": 0.37219923105504776, "timer/agent.train_min": 0.3651449680328369, "timer/agent.train_max": 0.38791656494140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21690058708190918, "timer/agent.report_frac": 0.00072274814265111, "timer/agent.report_avg": 0.21690058708190918, "timer/agent.report_min": 0.21690058708190918, "timer/agent.report_max": 0.21690058708190918, "fps": 4.798244935166899}
+{"step": 425321, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.046632124352331605}
+{"step": 425494, "episode/length": 172.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06936416184971098}
+{"step": 425542, "episode/length": 47.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.14583333333333334}
+{"step": 425920, "episode/length": 377.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.031746031746031744}
+{"step": 426076, "episode/length": 155.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07051282051282051}
+{"step": 426243, "episode/length": 166.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.07784431137724551}
+{"step": 426566, "episode/length": 322.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.04024767801857585}
+{"step": 426667, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.600283340669014, "train/action_min": 0.0, "train/action_std": 3.432879236382498, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046576211465076664, "train/actor_opt_grad_steps": 212430.0, "train/actor_opt_loss": -12.09537726556751, "train/adv_mag": 0.46907999062202343, "train/adv_max": 0.43072437022773313, "train/adv_mean": 0.003098592593770763, "train/adv_min": -0.3896523829497082, "train/adv_std": 0.053052815595563026, "train/cont_avg": 0.9944569762323944, "train/cont_loss_mean": 3.280678671997971e-05, "train/cont_loss_std": 0.0009708075516029589, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007618680825243259, "train/cont_pos_acc": 0.9999861582903795, "train/cont_pos_loss": 2.8547217626615526e-05, "train/cont_pred": 0.994439379430153, "train/cont_rate": 0.9944569762323944, "train/dyn_loss_mean": 5.120412141504422, "train/dyn_loss_std": 8.70197369347156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0373613187964534, "train/extr_critic_critic_opt_grad_steps": 212430.0, "train/extr_critic_critic_opt_loss": 16446.943428147006, "train/extr_critic_mag": 10.138682741514394, "train/extr_critic_max": 10.138682741514394, "train/extr_critic_mean": 2.705134181909158, "train/extr_critic_min": -0.5238484530381753, "train/extr_critic_std": 2.4752604121893222, "train/extr_return_normed_mag": 1.456086276282727, "train/extr_return_normed_max": 1.456086276282727, "train/extr_return_normed_mean": 0.3782517528030234, "train/extr_return_normed_min": -0.09241021272372192, "train/extr_return_normed_std": 0.33103790333573246, "train/extr_return_rate": 0.754737053118961, "train/extr_return_raw_mag": 10.913387795569191, "train/extr_return_raw_max": 10.913387795569191, "train/extr_return_raw_mean": 2.7286391476510277, "train/extr_return_raw_min": -0.8453123758376484, "train/extr_return_raw_std": 2.5138488890419546, "train/extr_reward_mag": 1.038328012949984, "train/extr_reward_max": 1.038328012949984, "train/extr_reward_mean": 0.052622558732687584, "train/extr_reward_min": -0.6667075173955568, "train/extr_reward_std": 0.22214298726807177, "train/image_loss_mean": 3.1157682848648287, "train/image_loss_std": 8.148780110856178, "train/model_loss_mean": 6.238015396494261, "train/model_loss_std": 12.24727296157622, "train/model_opt_grad_norm": 32.87906246453944, "train/model_opt_grad_steps": 212261.28169014084, "train/model_opt_loss": 14525.427665602992, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2341.549295774648, "train/policy_entropy_mag": 2.5483796260726286, "train/policy_entropy_max": 2.5483796260726286, "train/policy_entropy_mean": 0.384174515663738, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5267764258552605, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38544172804120563, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.002441984666905, "train/policy_randomness_mag": 0.8994661720705704, "train/policy_randomness_max": 0.8994661720705704, "train/policy_randomness_mean": 0.135596745765545, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18592896218031224, "train/post_ent_mag": 54.89100775920169, "train/post_ent_max": 54.89100775920169, "train/post_ent_mean": 40.94920864911147, "train/post_ent_min": 18.94026106176242, "train/post_ent_std": 5.594487029062191, "train/prior_ent_mag": 76.17027680303009, "train/prior_ent_max": 76.17027680303009, "train/prior_ent_mean": 46.04472259736397, "train/prior_ent_min": 27.931628079481527, "train/prior_ent_std": 7.287147864489488, "train/rep_loss_mean": 5.120412141504422, "train/rep_loss_std": 8.70197369347156, "train/reward_avg": 0.03417831200214339, "train/reward_loss_mean": 0.04996703100771132, "train/reward_loss_std": 0.20112013187206967, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0160195693163805, "train/reward_neg_acc": 0.9946430904764525, "train/reward_neg_loss": 0.022857306669400612, "train/reward_pos_acc": 0.9905397497432332, "train/reward_pos_loss": 0.7164890740958738, "train/reward_pred": 0.03417673733242801, "train/reward_rate": 0.03913127200704225, "stats/sum_log_reward": 9.957143102373395, "stats/max_log_achievement_collect_coal": 2.4285714285714284, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.40411277966839926, "replay/size": 426604.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.872368332361133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2391713173332267e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0015685558319, "timer/env.step_count": 1418.0, "timer/env.step_total": 19.899510145187378, "timer/env.step_frac": 0.0663313536691858, "timer/env.step_avg": 0.014033505038919166, "timer/env.step_min": 0.0031938552856445312, "timer/env.step_max": 1.7198097705841064, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2863037586212158, "timer/replay.add_frac": 0.0009543408722809166, "timer/replay.add_avg": 0.00020190674091764163, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0009682178497314453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02433323860168457, "timer/logger.write_frac": 8.111037125179572e-05, "timer/logger.write_avg": 0.02433323860168457, "timer/logger.write_min": 0.02433323860168457, "timer/logger.write_max": 0.02433323860168457, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005037784576416016, "timer/checkpoint.save_frac": 1.6792527454663814e-06, "timer/checkpoint.save_avg": 0.0005037784576416016, "timer/checkpoint.save_min": 0.0005037784576416016, "timer/checkpoint.save_max": 0.0005037784576416016, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5540189743041992, "timer/agent.save_frac": 0.005180036163760883, "timer/agent.save_avg": 1.5540189743041992, "timer/agent.save_min": 1.5540189743041992, "timer/agent.save_max": 1.5540189743041992, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.867813110351562e-05, "timer/replay.save_frac": 2.6225906578509506e-07, "timer/replay.save_avg": 7.867813110351562e-05, "timer/replay.save_min": 7.867813110351562e-05, "timer/replay.save_max": 7.867813110351562e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 14.680647373199463, "timer/agent.policy_frac": 0.04893523538516871, "timer/agent.policy_avg": 0.010353065848518661, "timer/agent.policy_min": 0.0056459903717041016, "timer/agent.policy_max": 2.7950246334075928, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06730079650878906, "timer/dataset_frac": 0.00022433481542368677, "timer/dataset_avg": 9.492354937769966e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0002739429473876953, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.3413863182068, "timer/agent.train_frac": 0.881133347371187, "timer/agent.train_avg": 0.37283693415826064, "timer/agent.train_min": 0.362119197845459, "timer/agent.train_max": 0.4174182415008545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21956682205200195, "timer/agent.report_frac": 0.000731885580162023, "timer/agent.report_avg": 0.21956682205200195, "timer/agent.report_min": 0.21956682205200195, "timer/agent.report_max": 0.21956682205200195, "fps": 4.726566665444559}
+{"step": 426913, "episode/length": 346.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.0345821325648415}
+{"step": 427101, "episode/length": 187.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.06382978723404255}
+{"step": 427259, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 427320, "episode/length": 60.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.13114754098360656}
+{"step": 427495, "episode/length": 174.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.045714285714285714}
+{"step": 427747, "episode/length": 251.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.047619047619047616}
+{"step": 427944, "episode/length": 196.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06091370558375635}
+{"step": 428113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.654529147677952, "train/action_min": 0.0, "train/action_std": 3.449094888236788, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04565596834032072, "train/actor_opt_grad_steps": 213145.0, "train/actor_opt_loss": -11.201830284049114, "train/adv_mag": 0.44605162284440464, "train/adv_max": 0.4152221551371945, "train/adv_mean": 0.002582770595128952, "train/adv_min": -0.3684435048037105, "train/adv_std": 0.052183769177645445, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 4.1605019645550736e-05, "train/cont_loss_std": 0.001195742035867574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001105368607367849, "train/cont_pos_acc": 0.9999863306681315, "train/cont_pos_loss": 3.753053468910947e-05, "train/cont_pred": 0.9950953895847002, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.008698758151796, "train/dyn_loss_std": 8.716268711619907, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.045105488763915, "train/extr_critic_critic_opt_grad_steps": 213145.0, "train/extr_critic_critic_opt_loss": 16404.131008572047, "train/extr_critic_mag": 10.080574048890007, "train/extr_critic_max": 10.080574048890007, "train/extr_critic_mean": 2.6303054210212498, "train/extr_critic_min": -0.4687640716632207, "train/extr_critic_std": 2.442942197124163, "train/extr_return_normed_mag": 1.4395978450775146, "train/extr_return_normed_max": 1.4395978450775146, "train/extr_return_normed_mean": 0.36344184581604266, "train/extr_return_normed_min": -0.08162017872867484, "train/extr_return_normed_std": 0.3241495183772511, "train/extr_return_rate": 0.7441334277391434, "train/extr_return_raw_mag": 10.898898614777458, "train/extr_return_raw_max": 10.898898614777458, "train/extr_return_raw_mean": 2.650112696819835, "train/extr_return_raw_min": -0.7613961986369557, "train/extr_return_raw_std": 2.4845929361051984, "train/extr_reward_mag": 1.0341132515006595, "train/extr_reward_max": 1.0341132515006595, "train/extr_reward_mean": 0.050800138204875916, "train/extr_reward_min": -0.6397908065054152, "train/extr_reward_std": 0.21711453484992185, "train/image_loss_mean": 3.079352809323205, "train/image_loss_std": 7.884276303980085, "train/model_loss_mean": 6.134413692686293, "train/model_loss_std": 12.02317358387841, "train/model_opt_grad_norm": 30.426820662286545, "train/model_opt_grad_steps": 212975.0, "train/model_opt_loss": 7668.017144097223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.573782526784473, "train/policy_entropy_max": 2.573782526784473, "train/policy_entropy_mean": 0.4196226176702314, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5718647634817494, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4205061093800598, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0304120340281062, "train/policy_randomness_mag": 0.9084322816795773, "train/policy_randomness_max": 0.9084322816795773, "train/policy_randomness_mean": 0.1481083682220843, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20184316765516996, "train/post_ent_mag": 55.16816838582357, "train/post_ent_max": 55.16816838582357, "train/post_ent_mean": 41.132222175598145, "train/post_ent_min": 18.596633116404217, "train/post_ent_std": 5.651551511552599, "train/prior_ent_mag": 76.50621435377333, "train/prior_ent_max": 76.50621435377333, "train/prior_ent_mean": 46.14026721318563, "train/prior_ent_min": 28.377978483835857, "train/prior_ent_std": 7.255259540345934, "train/rep_loss_mean": 5.008698758151796, "train/rep_loss_std": 8.716268711619907, "train/reward_avg": 0.033687336965360574, "train/reward_loss_mean": 0.04980003269803193, "train/reward_loss_std": 0.20210158762832484, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0121983918878767, "train/reward_neg_acc": 0.9943256005644798, "train/reward_neg_loss": 0.02275061302093996, "train/reward_pos_acc": 0.9886224865913391, "train/reward_pos_loss": 0.7333080901039971, "train/reward_pred": 0.03330572790259288, "train/reward_rate": 0.0382080078125, "stats/sum_log_reward": 8.957142761775426, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 7.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.436724386044911, "replay/size": 428050.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.792108506747466e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2528723206262865e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1913161277771, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.29574155807495, "timer/env.step_frac": 0.06427814703960882, "timer/env.step_avg": 0.013344219611393466, "timer/env.step_min": 0.002798318862915039, "timer/env.step_max": 1.8003108501434326, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27541446685791016, "timer/replay.add_frac": 0.0009174631378766445, "timer/replay.add_avg": 0.00019046643627794617, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.010606527328491211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02933645248413086, "timer/logger.write_frac": 9.772585317439274e-05, "timer/logger.write_avg": 0.02933645248413086, "timer/logger.write_min": 0.02933645248413086, "timer/logger.write_max": 0.02933645248413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.51146149635315, "timer/agent.policy_frac": 0.03501587464934836, "timer/agent.policy_avg": 0.007269337134407434, "timer/agent.policy_min": 0.005638837814331055, "timer/agent.policy_max": 0.014326333999633789, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06575489044189453, "timer/dataset_frac": 0.00021904327976598036, "timer/dataset_avg": 9.094728968450143e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.314950466156, "timer/agent.train_frac": 0.8971443742613844, "timer/agent.train_avg": 0.37249647367379807, "timer/agent.train_min": 0.3661532402038574, "timer/agent.train_max": 0.3836040496826172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2217705249786377, "timer/agent.report_frac": 0.0007387639583959204, "timer/agent.report_avg": 0.2217705249786377, "timer/agent.report_min": 0.2217705249786377, "timer/agent.report_max": 0.2217705249786377, "fps": 4.816856893720842}
+{"step": 428146, "episode/length": 201.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.0594059405940594}
+{"step": 428450, "episode/length": 303.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04276315789473684}
+{"step": 428590, "episode/length": 139.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.07142857142857142}
+{"step": 428741, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.059602649006622516}
+{"step": 428919, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07303370786516854}
+{"step": 429087, "episode/length": 167.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06547619047619048}
+{"step": 429499, "episode/length": 411.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.500000052154064, "episode/reward_rate": 0.03155339805825243}
+{"step": 429561, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.628962268568065, "train/action_min": 0.0, "train/action_std": 3.406499882266946, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04538279682499905, "train/actor_opt_grad_steps": 213870.0, "train/actor_opt_loss": -13.394077694579346, "train/adv_mag": 0.45760292427180566, "train/adv_max": 0.4170677955836466, "train/adv_mean": 0.002469308950684822, "train/adv_min": -0.3862004337245471, "train/adv_std": 0.05221586842855362, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 8.461487232397901e-05, "train/cont_loss_std": 0.0026435142008625766, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.022831485053316475, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 1.7594078194836224e-05, "train/cont_pred": 0.9945403182343261, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.069223221034219, "train/dyn_loss_std": 8.769333414835472, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0674283871911976, "train/extr_critic_critic_opt_grad_steps": 213870.0, "train/extr_critic_critic_opt_loss": 16429.654163099316, "train/extr_critic_mag": 10.214790879863582, "train/extr_critic_max": 10.214790879863582, "train/extr_critic_mean": 2.6721924723011172, "train/extr_critic_min": -0.5645204112954336, "train/extr_critic_std": 2.490313954549293, "train/extr_return_normed_mag": 1.4499250601415765, "train/extr_return_normed_max": 1.4499250601415765, "train/extr_return_normed_mean": 0.3686463620564709, "train/extr_return_normed_min": -0.0942066089849766, "train/extr_return_normed_std": 0.3284806153953892, "train/extr_return_rate": 0.7457968061917448, "train/extr_return_raw_mag": 11.010146154116278, "train/extr_return_raw_max": 11.010146154116278, "train/extr_return_raw_mean": 2.6911927755564857, "train/extr_return_raw_min": -0.8698131099139175, "train/extr_return_raw_std": 2.527189790386043, "train/extr_reward_mag": 1.044934772465327, "train/extr_reward_max": 1.044934772465327, "train/extr_reward_mean": 0.05100044506053402, "train/extr_reward_min": -0.7063454111961469, "train/extr_reward_std": 0.21859314159987725, "train/image_loss_mean": 3.12059154902419, "train/image_loss_std": 8.030997537586787, "train/model_loss_mean": 6.212224359381689, "train/model_loss_std": 12.242591870974188, "train/model_opt_grad_norm": 29.00536709615629, "train/model_opt_grad_steps": 213700.0, "train/model_opt_loss": 14579.821616812927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2345.890410958904, "train/policy_entropy_mag": 2.578191156256689, "train/policy_entropy_max": 2.578191156256689, "train/policy_entropy_mean": 0.39547648005289576, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5442165716053688, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39588745856938296, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.010860842384704, "train/policy_randomness_mag": 0.9099883412661618, "train/policy_randomness_max": 0.9099883412661618, "train/policy_randomness_mean": 0.1395858425187738, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19208456728964635, "train/post_ent_mag": 55.212885503899564, "train/post_ent_max": 55.212885503899564, "train/post_ent_mean": 41.12656444392792, "train/post_ent_min": 18.848678353714618, "train/post_ent_std": 5.652590790840044, "train/prior_ent_mag": 76.50770506140304, "train/prior_ent_max": 76.50770506140304, "train/prior_ent_mean": 46.207730123441515, "train/prior_ent_min": 28.153534536492334, "train/prior_ent_std": 7.361315786022029, "train/rep_loss_mean": 5.069223221034219, "train/rep_loss_std": 8.769333414835472, "train/reward_avg": 0.03348940473100911, "train/reward_loss_mean": 0.05001430463505118, "train/reward_loss_std": 0.20426470245400521, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0225167339795256, "train/reward_neg_acc": 0.994989953628958, "train/reward_neg_loss": 0.022731404547413736, "train/reward_pos_acc": 0.9876545553338038, "train/reward_pos_loss": 0.7365263480029695, "train/reward_pred": 0.033261465138360244, "train/reward_rate": 0.03829997859589041, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.44697787931987215, "replay/size": 429498.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7848949432373047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.256575406585609e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06366515159607, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.934185028076172, "timer/env.step_frac": 0.06310055907139031, "timer/env.step_avg": 0.01307609463264929, "timer/env.step_min": 0.0030269622802734375, "timer/env.step_max": 1.7763009071350098, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2636597156524658, "timer/replay.add_frac": 0.0008786792480164551, "timer/replay.add_avg": 0.00018208543898650954, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0013802051544189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028465986251831055, "timer/logger.write_frac": 9.486648854152224e-05, "timer/logger.write_avg": 0.028465986251831055, "timer/logger.write_min": 0.028465986251831055, "timer/logger.write_max": 0.028465986251831055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.491955280303955, "timer/agent.policy_frac": 0.03496576393214181, "timer/agent.policy_avg": 0.007245825469823173, "timer/agent.policy_min": 0.005624532699584961, "timer/agent.policy_max": 0.017634868621826172, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06657886505126953, "timer/dataset_frac": 0.00022188246290210785, "timer/dataset_avg": 9.195975835810708e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00019478797912597656, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.5846834182739, "timer/agent.train_frac": 0.8984249501920741, "timer/agent.train_avg": 0.37235453510811317, "timer/agent.train_min": 0.3661813735961914, "timer/agent.train_max": 0.3850283622741699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21815705299377441, "timer/agent.report_frac": 0.0007270358871460116, "timer/agent.report_avg": 0.21815705299377441, "timer/agent.report_min": 0.21815705299377441, "timer/agent.report_max": 0.21815705299377441, "fps": 4.825573953957001}
+{"step": 429839, "episode/length": 339.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03529411764705882}
+{"step": 429969, "episode/length": 129.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 430173, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 430305, "episode/length": 131.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09090909090909091}
+{"step": 430346, "episode/length": 40.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.14634146341463414}
+{"step": 430688, "episode/length": 341.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.023391812865497075}
+{"step": 430993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551848935409331, "train/action_min": 0.0, "train/action_std": 3.360255973439821, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0459155308633623, "train/actor_opt_grad_steps": 214590.0, "train/actor_opt_loss": -13.685681822958966, "train/adv_mag": 0.45614088756937377, "train/adv_max": 0.42685404797674903, "train/adv_mean": 0.0021015114710418318, "train/adv_min": -0.36673023793059334, "train/adv_std": 0.05067423731088638, "train/cont_avg": 0.9945945202464789, "train/cont_loss_mean": 5.63811790655477e-05, "train/cont_loss_std": 0.0015923305499276927, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.005143764609425156, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.6916924573586547e-05, "train/cont_pred": 0.9945949240469597, "train/cont_rate": 0.9945945202464789, "train/dyn_loss_mean": 5.009455949487821, "train/dyn_loss_std": 8.760865251782914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0173840623506358, "train/extr_critic_critic_opt_grad_steps": 214590.0, "train/extr_critic_critic_opt_loss": 16262.464582416373, "train/extr_critic_mag": 10.111536482690086, "train/extr_critic_max": 10.111536482690086, "train/extr_critic_mean": 2.6145777970972195, "train/extr_critic_min": -0.5673097959706481, "train/extr_critic_std": 2.4622840192955984, "train/extr_return_normed_mag": 1.4508031405193704, "train/extr_return_normed_max": 1.4508031405193704, "train/extr_return_normed_mean": 0.36760136548062444, "train/extr_return_normed_min": -0.09687521051563008, "train/extr_return_normed_std": 0.32980833422969763, "train/extr_return_rate": 0.7407442432054332, "train/extr_return_raw_mag": 10.827651440257757, "train/extr_return_raw_max": 10.827651440257757, "train/extr_return_raw_mean": 2.630475704099091, "train/extr_return_raw_min": -0.8844538532512288, "train/extr_return_raw_std": 2.495927778767868, "train/extr_reward_mag": 1.0356942566347793, "train/extr_reward_max": 1.0356942566347793, "train/extr_reward_mean": 0.0495169342193805, "train/extr_reward_min": -0.6839715091275497, "train/extr_reward_std": 0.21632533174165539, "train/image_loss_mean": 3.230579114296067, "train/image_loss_std": 8.339598857181173, "train/model_loss_mean": 6.285312840636347, "train/model_loss_std": 12.473040379269023, "train/model_opt_grad_norm": 33.98610064009546, "train/model_opt_grad_steps": 214419.52112676058, "train/model_opt_loss": 15713.28213028169, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.583479985384874, "train/policy_entropy_max": 2.583479985384874, "train/policy_entropy_mean": 0.39751191647119927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5504376493709188, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39694186730284087, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.009486734027594, "train/policy_randomness_mag": 0.9118550621287923, "train/policy_randomness_max": 0.9118550621287923, "train/policy_randomness_mean": 0.14030426132007384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1942803367552623, "train/post_ent_mag": 54.76865768432617, "train/post_ent_max": 54.76865768432617, "train/post_ent_mean": 41.128788048112895, "train/post_ent_min": 18.840610544446488, "train/post_ent_std": 5.547905048853915, "train/prior_ent_mag": 76.52427651848592, "train/prior_ent_max": 76.52427651848592, "train/prior_ent_mean": 46.129276383091025, "train/prior_ent_min": 28.398277148394516, "train/prior_ent_std": 7.296139985742704, "train/rep_loss_mean": 5.009455949487821, "train/rep_loss_std": 8.760865251782914, "train/reward_avg": 0.03195009850175448, "train/reward_loss_mean": 0.04900373350566541, "train/reward_loss_std": 0.19742652270155894, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0158631969505632, "train/reward_neg_acc": 0.9946585557830165, "train/reward_neg_loss": 0.022979428178407778, "train/reward_pos_acc": 0.9889024109907554, "train/reward_pos_loss": 0.7291794872619737, "train/reward_pred": 0.031652283605555415, "train/reward_rate": 0.036875550176056336, "stats/sum_log_reward": 8.766666730244955, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4427158596614997, "replay/size": 430930.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7749053379676863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2537370846924168e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15803384780884, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.82270836830139, "timer/env.step_frac": 0.06604090556627325, "timer/env.step_avg": 0.013842673441551252, "timer/env.step_min": 0.003359556198120117, "timer/env.step_max": 2.494781494140625, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2647221088409424, "timer/replay.add_frac": 0.0008819424402785308, "timer/replay.add_avg": 0.0001848618078498201, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0011680126190185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03157806396484375, "timer/logger.write_frac": 0.00010520479348840281, "timer/logger.write_avg": 0.03157806396484375, "timer/logger.write_min": 0.03157806396484375, "timer/logger.write_max": 0.03157806396484375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004436969757080078, "timer/checkpoint.save_frac": 1.478211227666085e-06, "timer/checkpoint.save_avg": 0.0004436969757080078, "timer/checkpoint.save_min": 0.0004436969757080078, "timer/checkpoint.save_max": 0.0004436969757080078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3811047077178955, "timer/agent.save_frac": 0.004601258510435761, "timer/agent.save_avg": 1.3811047077178955, "timer/agent.save_min": 1.3811047077178955, "timer/agent.save_max": 1.3811047077178955, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.343215003554514e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.370211124420166, "timer/agent.policy_frac": 0.041212327272547096, "timer/agent.policy_avg": 0.008638415589678887, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 1.3747622966766357, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0656132698059082, "timer/dataset_frac": 0.0002185957475960032, "timer/dataset_avg": 9.163864498031873e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9073255062103, "timer/agent.train_frac": 0.8892226607585728, "timer/agent.train_avg": 0.37277559428241663, "timer/agent.train_min": 0.3650057315826416, "timer/agent.train_max": 0.5235166549682617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22252368927001953, "timer/agent.report_frac": 0.0007413551002364548, "timer/agent.report_avg": 0.22252368927001953, "timer/agent.report_min": 0.22252368927001953, "timer/agent.report_max": 0.22252368927001953, "fps": 4.770744881870896}
+{"step": 431130, "episode/length": 441.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027149321266968326}
+{"step": 431338, "episode/length": 207.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.057692307692307696}
+{"step": 431383, "episode/length": 44.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.15555555555555556}
+{"step": 431554, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05847953216374269}
+{"step": 431803, "episode/length": 248.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.040160642570281124}
+{"step": 432013, "episode/length": 209.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.047619047619047616}
+{"step": 432281, "episode/length": 267.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04477611940298507}
+{"step": 432336, "episode/length": 54.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.700000040233135, "episode/reward_rate": 0.14545454545454545}
+{"step": 432433, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557317945692274, "train/action_min": 0.0, "train/action_std": 3.351719558238983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04648996858547131, "train/actor_opt_grad_steps": 215305.0, "train/actor_opt_loss": -13.987510845065117, "train/adv_mag": 0.4489429257810116, "train/adv_max": 0.4064668483204312, "train/adv_mean": 0.0021418960309852585, "train/adv_min": -0.3884061012003157, "train/adv_std": 0.052544940107812486, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 6.347309186101786e-05, "train/cont_loss_std": 0.001979897988090013, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004310975638140412, "train/cont_pos_acc": 0.9999727192852232, "train/cont_pos_loss": 4.242282764790575e-05, "train/cont_pred": 0.9947372178236643, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 4.918756037950516, "train/dyn_loss_std": 8.679853399594625, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031243894663122, "train/extr_critic_critic_opt_grad_steps": 215305.0, "train/extr_critic_critic_opt_loss": 16474.766628689234, "train/extr_critic_mag": 10.033882843123543, "train/extr_critic_max": 10.033882843123543, "train/extr_critic_mean": 2.663088606463538, "train/extr_critic_min": -0.5778980437252257, "train/extr_critic_std": 2.42098539074262, "train/extr_return_normed_mag": 1.456902371512519, "train/extr_return_normed_max": 1.456902371512519, "train/extr_return_normed_mean": 0.37673460216157967, "train/extr_return_normed_min": -0.09572162996563646, "train/extr_return_normed_std": 0.323683738294575, "train/extr_return_rate": 0.7516403024395307, "train/extr_return_raw_mag": 10.879572961065504, "train/extr_return_raw_max": 10.879572961065504, "train/extr_return_raw_mean": 2.679311700993114, "train/extr_return_raw_min": -0.9073474415474467, "train/extr_return_raw_std": 2.45751264029079, "train/extr_reward_mag": 1.045514891544978, "train/extr_reward_max": 1.045514891544978, "train/extr_reward_mean": 0.05234626794440879, "train/extr_reward_min": -0.6787228220038943, "train/extr_reward_std": 0.22251303038663334, "train/image_loss_mean": 2.94256748424636, "train/image_loss_std": 7.977402309576671, "train/model_loss_mean": 5.943242371082306, "train/model_loss_std": 12.100957327418858, "train/model_opt_grad_norm": 32.451827896965874, "train/model_opt_grad_steps": 215133.94444444444, "train/model_opt_loss": 15333.163859049479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.5598472820387945, "train/policy_entropy_max": 2.5598472820387945, "train/policy_entropy_mean": 0.378903581864304, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5240355990827084, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3785521354940202, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9951397362682555, "train/policy_randomness_mag": 0.9035137519240379, "train/policy_randomness_max": 0.9035137519240379, "train/policy_randomness_mean": 0.13373633794900444, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18496156928853857, "train/post_ent_mag": 54.832411766052246, "train/post_ent_max": 54.832411766052246, "train/post_ent_mean": 41.1453988287184, "train/post_ent_min": 18.824000106917488, "train/post_ent_std": 5.572474963135189, "train/prior_ent_mag": 76.40632661183675, "train/prior_ent_max": 76.40632661183675, "train/prior_ent_mean": 46.05035252041287, "train/prior_ent_min": 28.38506597942776, "train/prior_ent_std": 7.239929801887936, "train/rep_loss_mean": 4.918756037950516, "train/rep_loss_std": 8.679853399594625, "train/reward_avg": 0.03281928131925977, "train/reward_loss_mean": 0.04935778286825451, "train/reward_loss_std": 0.20150691746837562, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0239567789766524, "train/reward_neg_acc": 0.9940855867332883, "train/reward_neg_loss": 0.022673121019680467, "train/reward_pos_acc": 0.9875096380710602, "train/reward_pos_loss": 0.7333962288167741, "train/reward_pred": 0.03248826349671516, "train/reward_rate": 0.037543402777777776, "stats/sum_log_reward": 8.975000381469727, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.5054542608559132, "replay/size": 432370.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.829432858361138e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.251759628454844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0253572463989, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.608186721801758, "timer/env.step_frac": 0.06868814993153086, "timer/env.step_avg": 0.014311240779028999, "timer/env.step_min": 0.0029532909393310547, "timer/env.step_max": 1.6951231956481934, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26635217666625977, "timer/replay.add_frac": 0.0008877655512547737, "timer/replay.add_avg": 0.00018496678935156927, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0018715858459472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028261899948120117, "timer/logger.write_frac": 9.41983711227106e-05, "timer/logger.write_avg": 0.028261899948120117, "timer/logger.write_min": 0.028261899948120117, "timer/logger.write_max": 0.028261899948120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.361533880233765, "timer/agent.policy_frac": 0.03453552718120505, "timer/agent.policy_avg": 0.007195509639051225, "timer/agent.policy_min": 0.0057299137115478516, "timer/agent.policy_max": 0.01636052131652832, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0663759708404541, "timer/dataset_frac": 0.00022123453647266938, "timer/dataset_avg": 9.218884838951959e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0068302154541, "timer/agent.train_frac": 0.8932805969308478, "timer/agent.train_avg": 0.37223170863257515, "timer/agent.train_min": 0.3627591133117676, "timer/agent.train_max": 0.38596415519714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830272674560547, "timer/agent.report_frac": 0.0007276142548388739, "timer/agent.report_avg": 0.21830272674560547, "timer/agent.report_min": 0.21830272674560547, "timer/agent.report_max": 0.21830272674560547, "fps": 4.799521776165797}
+{"step": 432610, "episode/length": 273.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.040145985401459854}
+{"step": 432813, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.054187192118226604}
+{"step": 432928, "episode/length": 114.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09565217391304348}
+{"step": 433442, "episode/length": 513.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.02529182879377432}
+{"step": 433653, "episode/length": 210.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04739336492890995}
+{"step": 433817, "episode/length": 163.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.054878048780487805}
+{"step": 433891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565981512200342, "train/action_min": 0.0, "train/action_std": 3.3693246808770585, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04522932121810848, "train/actor_opt_grad_steps": 216030.0, "train/actor_opt_loss": -11.518745656495225, "train/adv_mag": 0.4564721886425802, "train/adv_max": 0.41984603911230006, "train/adv_mean": 0.002831564204102942, "train/adv_min": -0.38475784496085286, "train/adv_std": 0.051091029882839284, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 0.0001220488156337829, "train/cont_loss_std": 0.0038028185681889524, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.02212984692956425, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 6.229706130024986e-06, "train/cont_pred": 0.9948976097041613, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 4.878065932286929, "train/dyn_loss_std": 8.677490332355237, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0849885181204912, "train/extr_critic_critic_opt_grad_steps": 216030.0, "train/extr_critic_critic_opt_loss": 16493.486528788526, "train/extr_critic_mag": 10.29425320559985, "train/extr_critic_max": 10.29425320559985, "train/extr_critic_mean": 2.6220496501008124, "train/extr_critic_min": -0.5899144770347908, "train/extr_critic_std": 2.4759298465023303, "train/extr_return_normed_mag": 1.468311713166433, "train/extr_return_normed_max": 1.468311713166433, "train/extr_return_normed_mean": 0.36666213180104346, "train/extr_return_normed_min": -0.0971976045570145, "train/extr_return_normed_std": 0.3266157816125922, "train/extr_return_rate": 0.7407623815209898, "train/extr_return_raw_mag": 11.133106323137675, "train/extr_return_raw_max": 11.133106323137675, "train/extr_return_raw_mean": 2.643839661389181, "train/extr_return_raw_min": -0.9314052135977027, "train/extr_return_raw_std": 2.5169292639379632, "train/extr_reward_mag": 1.0430332177305874, "train/extr_reward_max": 1.0430332177305874, "train/extr_reward_mean": 0.05146764563268995, "train/extr_reward_min": -0.6808697899726972, "train/extr_reward_std": 0.21906017175275985, "train/image_loss_mean": 2.988775751362108, "train/image_loss_std": 7.916722872485853, "train/model_loss_mean": 5.963232249429781, "train/model_loss_std": 12.068360145777872, "train/model_opt_grad_norm": 30.24449806997221, "train/model_opt_grad_steps": 215857.60273972602, "train/model_opt_loss": 11981.374337810359, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2003.4246575342465, "train/policy_entropy_mag": 2.585551229241776, "train/policy_entropy_max": 2.585551229241776, "train/policy_entropy_mean": 0.3893555092484984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5389450829323024, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38979533682130785, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.005764268032492, "train/policy_randomness_mag": 0.912586119893479, "train/policy_randomness_max": 0.912586119893479, "train/policy_randomness_mean": 0.13742540786935858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1902239639056872, "train/post_ent_mag": 55.16351213847121, "train/post_ent_max": 55.16351213847121, "train/post_ent_mean": 41.11577318792474, "train/post_ent_min": 18.754779332304654, "train/post_ent_std": 5.553744224652852, "train/prior_ent_mag": 76.37252410470623, "train/prior_ent_max": 76.37252410470623, "train/prior_ent_mean": 45.98104994264367, "train/prior_ent_min": 28.663084448200383, "train/prior_ent_std": 7.246755985364522, "train/rep_loss_mean": 4.878065932286929, "train/rep_loss_std": 8.677490332355237, "train/reward_avg": 0.03248742513664781, "train/reward_loss_mean": 0.0474949221139493, "train/reward_loss_std": 0.19586819655274693, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0212388397896126, "train/reward_neg_acc": 0.9949472464927255, "train/reward_neg_loss": 0.021009400168000018, "train/reward_pos_acc": 0.9883842002855588, "train/reward_pos_loss": 0.7331169002676663, "train/reward_pred": 0.03219246832424239, "train/reward_rate": 0.03722977311643835, "stats/sum_log_reward": 9.600000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 8.166666666666666, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4929914226134618, "replay/size": 433828.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.816659558457112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2587699706989388e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2060959339142, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.218523263931274, "timer/env.step_frac": 0.05735567497510667, "timer/env.step_avg": 0.01180968673795012, "timer/env.step_min": 0.002796649932861328, "timer/env.step_max": 1.695925235748291, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2693617343902588, "timer/replay.add_frac": 0.0008972560452255263, "timer/replay.add_avg": 0.0001847474172772694, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012907981872558594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024944067001342773, "timer/logger.write_frac": 8.308980843225059e-05, "timer/logger.write_avg": 0.024944067001342773, "timer/logger.write_min": 0.024944067001342773, "timer/logger.write_max": 0.024944067001342773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.528333187103271, "timer/agent.policy_frac": 0.035070351101134614, "timer/agent.policy_avg": 0.007221079003500186, "timer/agent.policy_min": 0.0056612491607666016, "timer/agent.policy_max": 0.019197702407836914, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06814908981323242, "timer/dataset_frac": 0.00022700768151035283, "timer/dataset_avg": 9.348297642418713e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.40278697013855, "timer/agent.train_frac": 0.9040548831156439, "timer/agent.train_avg": 0.37229463233215165, "timer/agent.train_min": 0.36449098587036133, "timer/agent.train_max": 0.4014933109283447, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201404571533203, "timer/agent.report_frac": 0.0007332977582233403, "timer/agent.report_avg": 0.2201404571533203, "timer/agent.report_min": 0.2201404571533203, "timer/agent.report_max": 0.2201404571533203, "fps": 4.856576921082154}
+{"step": 433984, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0658682634730539}
+{"step": 434148, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
+{"step": 434329, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
+{"step": 434504, "episode/length": 174.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.05142857142857143}
+{"step": 434790, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.038461538461538464}
+{"step": 435076, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.038461538461538464}
+{"step": 435318, "episode/length": 241.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05371900826446281}
+{"step": 435319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.600847880045573, "train/action_min": 0.0, "train/action_std": 3.4391161832544537, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04662832064140174, "train/actor_opt_grad_steps": 216755.0, "train/actor_opt_loss": -13.89210762249099, "train/adv_mag": 0.5247086911565728, "train/adv_max": 0.48587945393390125, "train/adv_mean": 0.002210593412706253, "train/adv_min": -0.4119249729232656, "train/adv_std": 0.053090700776212744, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 9.858394223509019e-05, "train/cont_loss_std": 0.0030605652708936126, "train/cont_neg_acc": 0.9941578499144978, "train/cont_neg_loss": 0.013184587502160462, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.299990610295228e-06, "train/cont_pred": 0.9946385042534934, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.0450667010413275, "train/dyn_loss_std": 8.75393521785736, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.064414247042603, "train/extr_critic_critic_opt_grad_steps": 216755.0, "train/extr_critic_critic_opt_loss": 16658.691379123266, "train/extr_critic_mag": 10.682205849223667, "train/extr_critic_max": 10.682205849223667, "train/extr_critic_mean": 2.778619017865923, "train/extr_critic_min": -0.5693019181489944, "train/extr_critic_std": 2.55600414176782, "train/extr_return_normed_mag": 1.5029368731710646, "train/extr_return_normed_max": 1.5029368731710646, "train/extr_return_normed_mean": 0.3799992052631246, "train/extr_return_normed_min": -0.0911816323382987, "train/extr_return_normed_std": 0.3313526271118058, "train/extr_return_rate": 0.757859554555681, "train/extr_return_raw_mag": 11.582459529240927, "train/extr_return_raw_max": 11.582459529240927, "train/extr_return_raw_mean": 2.7958973281913333, "train/extr_return_raw_min": -0.8893915249241723, "train/extr_return_raw_std": 2.592459743221601, "train/extr_reward_mag": 1.0456049243609111, "train/extr_reward_max": 1.0456049243609111, "train/extr_reward_mean": 0.054022304713726044, "train/extr_reward_min": -0.6834522502289878, "train/extr_reward_std": 0.22498248952130476, "train/image_loss_mean": 2.9825408111015954, "train/image_loss_std": 8.093678302235073, "train/model_loss_mean": 6.060285488764445, "train/model_loss_std": 12.30651448832618, "train/model_opt_grad_norm": 30.17854142189026, "train/model_opt_grad_steps": 216582.0, "train/model_opt_loss": 7692.528211805556, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.552031377951304, "train/policy_entropy_max": 2.552031377951304, "train/policy_entropy_mean": 0.3606472013311254, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4986310543285476, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3608495274351703, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9789374876353476, "train/policy_randomness_mag": 0.900755085878902, "train/policy_randomness_max": 0.900755085878902, "train/policy_randomness_mean": 0.1272926354366872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17599488091137674, "train/post_ent_mag": 54.70184771219889, "train/post_ent_max": 54.70184771219889, "train/post_ent_mean": 41.09018140368991, "train/post_ent_min": 19.076258540153503, "train/post_ent_std": 5.500587562719981, "train/prior_ent_mag": 76.31748400794135, "train/prior_ent_max": 76.31748400794135, "train/prior_ent_mean": 46.124019622802734, "train/prior_ent_min": 28.483246114518906, "train/prior_ent_std": 7.197801808516185, "train/rep_loss_mean": 5.0450667010413275, "train/rep_loss_std": 8.75393521785736, "train/reward_avg": 0.035967339425244264, "train/reward_loss_mean": 0.050606073501209416, "train/reward_loss_std": 0.2046086127973265, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0184868805938296, "train/reward_neg_acc": 0.9948957512776057, "train/reward_neg_loss": 0.02185848864933683, "train/reward_pos_acc": 0.9881062573856778, "train/reward_pos_loss": 0.7308237296011713, "train/reward_pred": 0.035705074538580246, "train/reward_rate": 0.04063585069444445, "stats/sum_log_reward": 9.81428609575544, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4997430145740509, "replay/size": 435256.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.88214902049687e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2504244718898912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1202528476715, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.7784104347229, "timer/env.step_frac": 0.07232462854546022, "timer/env.step_avg": 0.015250987699385784, "timer/env.step_min": 0.0030884742736816406, "timer/env.step_max": 2.7318124771118164, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2935807704925537, "timer/replay.add_frac": 0.0009749618888672632, "timer/replay.add_avg": 0.0002055887748547295, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0014195442199707031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02760601043701172, "timer/logger.write_frac": 9.167769413031426e-05, "timer/logger.write_avg": 0.02760601043701172, "timer/logger.write_min": 0.02760601043701172, "timer/logger.write_max": 0.02760601043701172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.798954012363936e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3538262844085693, "timer/agent.save_frac": 0.004495965553978971, "timer/agent.save_avg": 1.3538262844085693, "timer/agent.save_min": 1.3538262844085693, "timer/agent.save_max": 1.3538262844085693, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.8650970458984375e-05, "timer/replay.save_frac": 1.9477590731386073e-07, "timer/replay.save_avg": 5.8650970458984375e-05, "timer/replay.save_min": 5.8650970458984375e-05, "timer/replay.save_max": 5.8650970458984375e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.445955991744995, "timer/agent.policy_frac": 0.04133217833753967, "timer/agent.policy_avg": 0.008715655456404058, "timer/agent.policy_min": 0.005732059478759766, "timer/agent.policy_max": 1.346891164779663, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06668758392333984, "timer/dataset_frac": 0.00022146495724774536, "timer/dataset_avg": 9.339997748366925e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00016880035400390625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.81538105010986, "timer/agent.train_frac": 0.8827549078360352, "timer/agent.train_avg": 0.3722904496500138, "timer/agent.train_min": 0.3656330108642578, "timer/agent.train_max": 0.47371411323547363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965527534484863, "timer/agent.report_frac": 0.0007294603178218179, "timer/agent.report_avg": 0.21965527534484863, "timer/agent.report_min": 0.21965527534484863, "timer/agent.report_max": 0.21965527534484863, "fps": 4.742227196837065}
+{"step": 435628, "episode/length": 309.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.03225806451612903}
+{"step": 435749, "episode/length": 120.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09090909090909091}
+{"step": 436047, "episode/length": 297.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.040268456375838924}
+{"step": 436179, "episode/length": 131.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09090909090909091}
+{"step": 436351, "episode/length": 171.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.05813953488372093}
+{"step": 436549, "episode/length": 197.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.045454545454545456}
+{"step": 436754, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
+{"step": 436767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4654541015625, "train/action_min": 0.0, "train/action_std": 3.2913994524214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04510954995122221, "train/actor_opt_grad_steps": 217475.0, "train/actor_opt_loss": -14.1325337919924, "train/adv_mag": 0.46581118885013795, "train/adv_max": 0.4066615423394574, "train/adv_mean": 0.0013111246632383376, "train/adv_min": -0.4051141209072537, "train/adv_std": 0.050966229755431414, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 7.066724717377484e-05, "train/cont_loss_std": 0.0021661056257897826, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.01139065778765295, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 7.073763897993659e-06, "train/cont_pred": 0.9947313881582684, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.251674956745571, "train/dyn_loss_std": 8.871439152293735, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.043971182571517, "train/extr_critic_critic_opt_grad_steps": 217475.0, "train/extr_critic_critic_opt_loss": 16530.00836859809, "train/extr_critic_mag": 10.247264583905539, "train/extr_critic_max": 10.247264583905539, "train/extr_critic_mean": 2.6414874444405236, "train/extr_critic_min": -0.5568381564484702, "train/extr_critic_std": 2.4901726179652743, "train/extr_return_normed_mag": 1.439608547422621, "train/extr_return_normed_max": 1.439608547422621, "train/extr_return_normed_mean": 0.3655272391107347, "train/extr_return_normed_min": -0.0849108259814481, "train/extr_return_normed_std": 0.32441453552908367, "train/extr_return_rate": 0.7313892857895957, "train/extr_return_raw_mag": 10.999796244833204, "train/extr_return_raw_max": 10.999796244833204, "train/extr_return_raw_mean": 2.651659299929937, "train/extr_return_raw_min": -0.8493017314208878, "train/extr_return_raw_std": 2.521475146214167, "train/extr_reward_mag": 1.0472328530417547, "train/extr_reward_max": 1.0472328530417547, "train/extr_reward_mean": 0.05027643389378985, "train/extr_reward_min": -0.6377576755152808, "train/extr_reward_std": 0.21717532662053904, "train/image_loss_mean": 3.297847110364172, "train/image_loss_std": 8.514570865366194, "train/model_loss_mean": 6.500638524691264, "train/model_loss_std": 12.736973722775778, "train/model_opt_grad_norm": 31.394927197032505, "train/model_opt_grad_steps": 217302.0, "train/model_opt_loss": 16251.596340603299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.568461689684126, "train/policy_entropy_max": 2.568461689684126, "train/policy_entropy_mean": 0.37808026000857353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5258264119426409, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3774491221540504, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9955390832490392, "train/policy_randomness_mag": 0.906554263499048, "train/policy_randomness_max": 0.906554263499048, "train/policy_randomness_mean": 0.1334457393321726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18559365005542836, "train/post_ent_mag": 55.26758591334025, "train/post_ent_max": 55.26758591334025, "train/post_ent_mean": 41.01718669467502, "train/post_ent_min": 19.145591590139603, "train/post_ent_std": 5.632385651270549, "train/prior_ent_mag": 76.4127443101671, "train/prior_ent_max": 76.4127443101671, "train/prior_ent_mean": 46.22360282474094, "train/prior_ent_min": 28.4640502664778, "train/prior_ent_std": 7.327979452080196, "train/rep_loss_mean": 5.251674956745571, "train/rep_loss_std": 8.871439152293735, "train/reward_avg": 0.03431125184417599, "train/reward_loss_mean": 0.0517157630270554, "train/reward_loss_std": 0.2132271302656995, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0196491645442114, "train/reward_neg_acc": 0.9944836340016789, "train/reward_neg_loss": 0.023733810359974288, "train/reward_pos_acc": 0.9865682224432627, "train/reward_pos_loss": 0.7424439870648913, "train/reward_pred": 0.03388104975844423, "train/reward_rate": 0.03903537326388889, "stats/sum_log_reward": 9.385714667184013, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 7.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3306017816066742, "replay/size": 436704.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.83396175026235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.260033134597441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2176411151886, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.858961820602417, "timer/env.step_frac": 0.06281763373580883, "timer/env.step_avg": 0.01302414490373095, "timer/env.step_min": 0.0028226375579833984, "timer/env.step_max": 1.6545147895812988, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2636756896972656, "timer/replay.add_frac": 0.0008782817982241676, "timer/replay.add_avg": 0.00018209647078540445, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0019736289978027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028596162796020508, "timer/logger.write_frac": 9.525144055424987e-05, "timer/logger.write_avg": 0.028596162796020508, "timer/logger.write_min": 0.028596162796020508, "timer/logger.write_max": 0.028596162796020508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.606337070465088, "timer/agent.policy_frac": 0.03532882688394587, "timer/agent.policy_avg": 0.007324818418829481, "timer/agent.policy_min": 0.005684614181518555, "timer/agent.policy_max": 0.01596379280090332, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06737422943115234, "timer/dataset_frac": 0.00022441795618966293, "timer/dataset_avg": 9.305832794358059e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6939649581909, "timer/agent.train_frac": 0.8983281727095902, "timer/agent.train_avg": 0.37250547646158966, "timer/agent.train_min": 0.36592650413513184, "timer/agent.train_max": 0.3925638198852539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677541732788086, "timer/agent.report_frac": 0.0007220608906346968, "timer/agent.report_avg": 0.21677541732788086, "timer/agent.report_min": 0.21677541732788086, "timer/agent.report_max": 0.21677541732788086, "fps": 4.823101938954338}
+{"step": 436951, "episode/length": 196.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.04568527918781726}
+{"step": 437094, "episode/length": 142.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06993006993006994}
+{"step": 437344, "episode/length": 249.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.044}
+{"step": 437643, "episode/length": 298.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.030100334448160536}
+{"step": 437959, "episode/length": 315.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.700000032782555, "episode/reward_rate": 0.028481012658227847}
+{"step": 438141, "episode/length": 181.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06043956043956044}
+{"step": 438221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471548420109161, "train/action_min": 0.0, "train/action_std": 3.2700984184056114, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0453432669276244, "train/actor_opt_grad_steps": 218200.0, "train/actor_opt_loss": -13.950491733746986, "train/adv_mag": 0.4346717628714156, "train/adv_max": 0.39078248241176344, "train/adv_mean": 0.0021260746747529618, "train/adv_min": -0.3677410899776302, "train/adv_std": 0.0509413141910344, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 0.0001650770483887418, "train/cont_loss_std": 0.005048385699287543, "train/cont_neg_acc": 0.9931506857480088, "train/cont_neg_loss": 0.024987224177680654, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 3.113428283151659e-05, "train/cont_pred": 0.994770831441226, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.156841728785267, "train/dyn_loss_std": 8.713266516385014, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0359740616524056, "train/extr_critic_critic_opt_grad_steps": 218200.0, "train/extr_critic_critic_opt_loss": 16341.713265196919, "train/extr_critic_mag": 9.887149758534889, "train/extr_critic_max": 9.887149758534889, "train/extr_critic_mean": 2.5745615616236646, "train/extr_critic_min": -0.5313197537644269, "train/extr_critic_std": 2.412615037944219, "train/extr_return_normed_mag": 1.446130148352009, "train/extr_return_normed_max": 1.446130148352009, "train/extr_return_normed_mean": 0.37211807153812826, "train/extr_return_normed_min": -0.08840643094010549, "train/extr_return_normed_std": 0.3263744446512771, "train/extr_return_rate": 0.731696852265972, "train/extr_return_raw_mag": 10.617491343250013, "train/extr_return_raw_max": 10.617491343250013, "train/extr_return_raw_mean": 2.590342355101076, "train/extr_return_raw_min": -0.8532118164513209, "train/extr_return_raw_std": 2.4399330044445926, "train/extr_reward_mag": 1.0474680090603763, "train/extr_reward_max": 1.0474680090603763, "train/extr_reward_mean": 0.051940677559947315, "train/extr_reward_min": -0.6540286181724235, "train/extr_reward_std": 0.22074531243272025, "train/image_loss_mean": 3.0850659804801417, "train/image_loss_std": 8.036036230113409, "train/model_loss_mean": 6.229931165094245, "train/model_loss_std": 12.215478609686029, "train/model_opt_grad_norm": 32.496981477084226, "train/model_opt_grad_steps": 218026.34246575343, "train/model_opt_loss": 15579.498896350598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2517.123287671233, "train/policy_entropy_mag": 2.5684318313859915, "train/policy_entropy_max": 2.5684318313859915, "train/policy_entropy_mean": 0.3743778363074342, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5143309941847031, "train/policy_logprob_mag": 7.438384193263642, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37383378246059157, "train/policy_logprob_min": -7.438384193263642, "train/policy_logprob_std": 0.9887781739234924, "train/policy_randomness_mag": 0.9065437251574373, "train/policy_randomness_max": 0.9065437251574373, "train/policy_randomness_mean": 0.132138948122116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18153627043309278, "train/post_ent_mag": 55.17231896805437, "train/post_ent_max": 55.17231896805437, "train/post_ent_mean": 41.09151416935333, "train/post_ent_min": 19.028467700905995, "train/post_ent_std": 5.555319008761889, "train/prior_ent_mag": 76.3312976784902, "train/prior_ent_max": 76.3312976784902, "train/prior_ent_mean": 46.25749624591984, "train/prior_ent_min": 28.42375901627214, "train/prior_ent_std": 7.253151109773818, "train/rep_loss_mean": 5.156841728785267, "train/rep_loss_std": 8.713266516385014, "train/reward_avg": 0.03506929560066902, "train/reward_loss_mean": 0.05059505976124169, "train/reward_loss_std": 0.20493936436633542, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.014584774840368, "train/reward_neg_acc": 0.9947334846405134, "train/reward_neg_loss": 0.02245307075216958, "train/reward_pos_acc": 0.9886440969493291, "train/reward_pos_loss": 0.7293444422826375, "train/reward_pred": 0.03475942403996644, "train/reward_rate": 0.039718000856164386, "stats/sum_log_reward": 8.766666650772095, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4422703484694163, "replay/size": 438158.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.808466243612717e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2716409100790955e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2494168281555, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.68702745437622, "timer/env.step_frac": 0.05890778287339422, "timer/env.step_avg": 0.012164393022267002, "timer/env.step_min": 0.0030679702758789062, "timer/env.step_max": 1.7288894653320312, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26766324043273926, "timer/replay.add_frac": 0.000891469643006612, "timer/replay.add_avg": 0.0001840875106139885, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0010423660278320312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02789759635925293, "timer/logger.write_frac": 9.29147395320998e-05, "timer/logger.write_avg": 0.02789759635925293, "timer/logger.write_min": 0.02789759635925293, "timer/logger.write_max": 0.02789759635925293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.648243427276611, "timer/agent.policy_frac": 0.035464659814380316, "timer/agent.policy_avg": 0.007323413636366308, "timer/agent.policy_min": 0.0057125091552734375, "timer/agent.policy_max": 0.014686346054077148, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06797194480895996, "timer/dataset_frac": 0.0002263849353214996, "timer/dataset_avg": 9.349648529430531e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016832351684570312, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.8430595397949, "timer/agent.train_frac": 0.9020602351238171, "timer/agent.train_avg": 0.3725489127094841, "timer/agent.train_min": 0.3662230968475342, "timer/agent.train_max": 0.38672327995300293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22136473655700684, "timer/agent.report_frac": 0.0007372694971251269, "timer/agent.report_avg": 0.22136473655700684, "timer/agent.report_min": 0.22136473655700684, "timer/agent.report_max": 0.22136473655700684, "fps": 4.84255712226305}
+{"step": 438462, "episode/length": 320.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.04361370716510903}
+{"step": 438607, "episode/length": 144.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06896551724137931}
+{"step": 438768, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.031055900621118012}
+{"step": 438979, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04265402843601896}
+{"step": 439128, "episode/length": 148.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.500000059604645, "episode/reward_rate": 0.06711409395973154}
+{"step": 439357, "episode/length": 228.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.056768558951965066}
+{"step": 439657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508281868948063, "train/action_min": 0.0, "train/action_std": 3.328548404532419, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04475915542160961, "train/actor_opt_grad_steps": 218920.0, "train/actor_opt_loss": -10.874796924036993, "train/adv_mag": 0.4907893269834384, "train/adv_max": 0.4416772412582183, "train/adv_mean": 0.003018403081895626, "train/adv_min": -0.39996087844942657, "train/adv_std": 0.05255091809470889, "train/cont_avg": 0.9945257482394366, "train/cont_loss_mean": 0.00015075873875903327, "train/cont_loss_std": 0.004748176664534954, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.02100382807117365, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.2686381010771072e-05, "train/cont_pred": 0.9945430805985357, "train/cont_rate": 0.9945257482394366, "train/dyn_loss_mean": 5.051952979934048, "train/dyn_loss_std": 8.67509978925678, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544184446334839, "train/extr_critic_critic_opt_grad_steps": 218920.0, "train/extr_critic_critic_opt_loss": 16369.311358384683, "train/extr_critic_mag": 9.81465229517977, "train/extr_critic_max": 9.81465229517977, "train/extr_critic_mean": 2.5115439253793634, "train/extr_critic_min": -0.5433086610176194, "train/extr_critic_std": 2.3844347285552763, "train/extr_return_normed_mag": 1.4637318513762783, "train/extr_return_normed_max": 1.4637318513762783, "train/extr_return_normed_mean": 0.37148554182388416, "train/extr_return_normed_min": -0.09644803425795595, "train/extr_return_normed_std": 0.3316219541388498, "train/extr_return_rate": 0.7363492527478178, "train/extr_return_raw_mag": 10.503726153306559, "train/extr_return_raw_max": 10.503726153306559, "train/extr_return_raw_mean": 2.5335716882222137, "train/extr_return_raw_min": -0.8809029653038777, "train/extr_return_raw_std": 2.4197209082858664, "train/extr_reward_mag": 1.0513337934520883, "train/extr_reward_max": 1.0513337934520883, "train/extr_reward_mean": 0.051834894344210625, "train/extr_reward_min": -0.6622625723691054, "train/extr_reward_std": 0.22011709318194592, "train/image_loss_mean": 3.151588570903724, "train/image_loss_std": 8.583426146440104, "train/model_loss_mean": 6.234055639992298, "train/model_loss_std": 12.643705529226384, "train/model_opt_grad_norm": 29.912726147074096, "train/model_opt_grad_steps": 218745.0, "train/model_opt_loss": 7792.569583516725, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.580494826948139, "train/policy_entropy_max": 2.580494826948139, "train/policy_entropy_mean": 0.3822299275599735, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5222598796998951, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38275402952247944, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 0.9995833123233956, "train/policy_randomness_mag": 0.9108014316625999, "train/policy_randomness_max": 0.9108014316625999, "train/policy_randomness_mean": 0.13491039020074924, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18433481958550466, "train/post_ent_mag": 55.04823201139208, "train/post_ent_max": 55.04823201139208, "train/post_ent_mean": 41.1635141507001, "train/post_ent_min": 19.155981735444406, "train/post_ent_std": 5.635514527979032, "train/prior_ent_mag": 76.43169327856789, "train/prior_ent_max": 76.43169327856789, "train/prior_ent_mean": 46.22869631270288, "train/prior_ent_min": 28.310381741590902, "train/prior_ent_std": 7.329312693904823, "train/rep_loss_mean": 5.051952979934048, "train/rep_loss_std": 8.67509978925678, "train/reward_avg": 0.03501182840481191, "train/reward_loss_mean": 0.05114449371754284, "train/reward_loss_std": 0.20304014061538267, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0257310262868102, "train/reward_neg_acc": 0.9946666536196856, "train/reward_neg_loss": 0.022992589812673315, "train/reward_pos_acc": 0.9881121608572947, "train/reward_pos_loss": 0.7289746571594561, "train/reward_pred": 0.03488768592581783, "train/reward_rate": 0.0400115536971831, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 10.333333333333334, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3365667636195819, "replay/size": 439594.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.831964349348233e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2425244020552356e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15237832069397, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.473592281341553, "timer/env.step_frac": 0.06487902041720703, "timer/env.step_avg": 0.01356099741040498, "timer/env.step_min": 0.0030596256256103516, "timer/env.step_max": 3.8707668781280518, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.29530954360961914, "timer/replay.add_frac": 0.0009838654128340753, "timer/replay.add_avg": 0.00020564731449137824, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0032529830932617188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028378725051879883, "timer/logger.write_frac": 9.454772676016912e-05, "timer/logger.write_avg": 0.028378725051879883, "timer/logger.write_min": 0.028378725051879883, "timer/logger.write_max": 0.028378725051879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036716461181640625, "timer/checkpoint.save_frac": 1.223260711344802e-06, "timer/checkpoint.save_avg": 0.00036716461181640625, "timer/checkpoint.save_min": 0.00036716461181640625, "timer/checkpoint.save_max": 0.00036716461181640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.559572458267212, "timer/agent.save_frac": 0.005195935701035514, "timer/agent.save_avg": 1.559572458267212, "timer/agent.save_min": 1.559572458267212, "timer/agent.save_max": 1.559572458267212, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.414748417200129e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.963655710220337, "timer/agent.policy_frac": 0.03985860707536331, "timer/agent.policy_avg": 0.008331236567005806, "timer/agent.policy_min": 0.00571131706237793, "timer/agent.policy_max": 1.5547759532928467, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06700730323791504, "timer/dataset_frac": 0.00022324428549528913, "timer/dataset_avg": 9.332493487174797e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00015211105346679688, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.63636898994446, "timer/agent.train_frac": 0.8916683268922554, "timer/agent.train_avg": 0.3727526030500619, "timer/agent.train_min": 0.36643385887145996, "timer/agent.train_max": 0.5379741191864014, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200007438659668, "timer/agent.report_frac": 0.0007329635203853351, "timer/agent.report_avg": 0.2200007438659668, "timer/agent.report_min": 0.2200007438659668, "timer/agent.report_max": 0.2200007438659668, "fps": 4.784156645491896}
+{"step": 439796, "episode/length": 438.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.02733485193621868}
+{"step": 439977, "episode/length": 180.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06077348066298342}
+{"step": 440264, "episode/length": 286.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.041811846689895474}
+{"step": 440453, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
+{"step": 440673, "episode/length": 219.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06363636363636363}
+{"step": 440751, "episode/length": 77.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.1282051282051282}
+{"step": 440960, "episode/length": 208.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06220095693779904}
+{"step": 441099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494210857234589, "train/action_min": 0.0, "train/action_std": 3.324803891247266, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046507893614981276, "train/actor_opt_grad_steps": 219640.0, "train/actor_opt_loss": -12.107971679674437, "train/adv_mag": 0.49487452392708764, "train/adv_max": 0.444018108387516, "train/adv_mean": 0.003449435702151115, "train/adv_min": -0.40260029492312915, "train/adv_std": 0.052408038498195884, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 1.7604640555101182e-05, "train/cont_loss_std": 0.0004100212673894357, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007164681301966919, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.370372922960934e-05, "train/cont_pred": 0.9945994403264294, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 5.023971097110069, "train/dyn_loss_std": 8.728934333749013, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0274563595040205, "train/extr_critic_critic_opt_grad_steps": 219640.0, "train/extr_critic_critic_opt_loss": 16298.651607983733, "train/extr_critic_mag": 9.994274583581376, "train/extr_critic_max": 9.994274583581376, "train/extr_critic_mean": 2.6282528540859484, "train/extr_critic_min": -0.5596175259106779, "train/extr_critic_std": 2.4385061247708046, "train/extr_return_normed_mag": 1.4766425482214314, "train/extr_return_normed_max": 1.4766425482214314, "train/extr_return_normed_mean": 0.382160240656709, "train/extr_return_normed_min": -0.09186692382783106, "train/extr_return_normed_std": 0.33382111012119137, "train/extr_return_rate": 0.7469133889838441, "train/extr_return_raw_mag": 10.77022444058771, "train/extr_return_raw_max": 10.77022444058771, "train/extr_return_raw_mean": 2.6538009692544806, "train/extr_return_raw_min": -0.8606076901906157, "train/extr_return_raw_std": 2.475323250848953, "train/extr_reward_mag": 1.0449206208529538, "train/extr_reward_max": 1.0449206208529538, "train/extr_reward_mean": 0.05152607831644685, "train/extr_reward_min": -0.6409323378785016, "train/extr_reward_std": 0.22013877168910145, "train/image_loss_mean": 3.0915724349348515, "train/image_loss_std": 8.503617051529558, "train/model_loss_mean": 6.155408820060835, "train/model_loss_std": 12.624816985979471, "train/model_opt_grad_norm": 34.7787817079727, "train/model_opt_grad_steps": 219464.49315068492, "train/model_opt_loss": 9581.891782159675, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1541.0958904109589, "train/policy_entropy_mag": 2.5916588665687876, "train/policy_entropy_max": 2.5916588665687876, "train/policy_entropy_mean": 0.38589410095998683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5359211188473113, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3862313550629028, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.004824444039227, "train/policy_randomness_mag": 0.9147418476130864, "train/policy_randomness_max": 0.9147418476130864, "train/policy_randomness_mean": 0.13620368472925604, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18915663557509854, "train/post_ent_mag": 55.10475482679393, "train/post_ent_max": 55.10475482679393, "train/post_ent_mean": 41.29622190292567, "train/post_ent_min": 18.865788786378626, "train/post_ent_std": 5.630550874422674, "train/prior_ent_mag": 76.41169686513405, "train/prior_ent_max": 76.41169686513405, "train/prior_ent_mean": 46.31176454726964, "train/prior_ent_min": 28.675867603249745, "train/prior_ent_std": 7.28635990456359, "train/rep_loss_mean": 5.023971097110069, "train/rep_loss_std": 8.728934333749013, "train/reward_avg": 0.03464388870315192, "train/reward_loss_mean": 0.04943605752228058, "train/reward_loss_std": 0.19892990568729296, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.012450933456421, "train/reward_neg_acc": 0.9951263053776467, "train/reward_neg_loss": 0.022071223233966795, "train/reward_pos_acc": 0.9911826620363209, "train/reward_pos_loss": 0.7145351743044919, "train/reward_pred": 0.03454040733408438, "train/reward_rate": 0.03945044948630137, "stats/sum_log_reward": 10.100000313350133, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 6.857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.46000319506440845, "replay/size": 441036.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.898524047597602e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2882787543097085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1025891304016, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.270825624465942, "timer/env.step_frac": 0.06421412651022586, "timer/env.step_avg": 0.01336395674373505, "timer/env.step_min": 0.0027074813842773438, "timer/env.step_max": 1.8587629795074463, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.29241418838500977, "timer/replay.add_frac": 0.0009743807583677625, "timer/replay.add_avg": 0.00020278376448336322, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.007222175598144531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029273271560668945, "timer/logger.write_frac": 9.75442152814917e-05, "timer/logger.write_avg": 0.029273271560668945, "timer/logger.write_min": 0.029273271560668945, "timer/logger.write_max": 0.029273271560668945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.818001747131348, "timer/agent.policy_frac": 0.03604767882369276, "timer/agent.policy_avg": 0.007502081655430893, "timer/agent.policy_min": 0.005694150924682617, "timer/agent.policy_max": 0.015238761901855469, "timer/dataset_count": 721.0, "timer/dataset_total": 0.07159686088562012, "timer/dataset_frac": 0.00023857461907637726, "timer/dataset_avg": 9.930216488990307e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002205371856689453, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.8980474472046, "timer/agent.train_frac": 0.8960204183055618, "timer/agent.train_avg": 0.37295152211817556, "timer/agent.train_min": 0.3660578727722168, "timer/agent.train_max": 0.3906211853027344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2197275161743164, "timer/agent.report_frac": 0.0007321746767031045, "timer/agent.report_avg": 0.2197275161743164, "timer/agent.report_min": 0.2197275161743164, "timer/agent.report_max": 0.2197275161743164, "fps": 4.804933010425833}
+{"step": 441124, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06097560975609756}
+{"step": 441227, "episode/length": 102.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.07766990291262135}
+{"step": 441403, "episode/length": 175.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.056818181818181816}
+{"step": 441626, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05829596412556054}
+{"step": 441823, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05583756345177665}
+{"step": 442076, "episode/length": 252.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.039525691699604744}
+{"step": 442238, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06790123456790123}
+{"step": 442528, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44318486603213, "train/action_min": 0.0, "train/action_std": 3.3143664111553783, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04531918838620186, "train/actor_opt_grad_steps": 220360.0, "train/actor_opt_loss": -12.688430746256465, "train/adv_mag": 0.48670794510505566, "train/adv_max": 0.42660630504849933, "train/adv_mean": 0.002824908775206931, "train/adv_min": -0.4076585828418463, "train/adv_std": 0.05125289809116176, "train/cont_avg": 0.9943606954225352, "train/cont_loss_mean": 4.049175265173133e-05, "train/cont_loss_std": 0.001269261396930047, "train/cont_neg_acc": 0.9944668017642598, "train/cont_neg_loss": 0.005130951214016637, "train/cont_pos_acc": 0.9999861146362734, "train/cont_pos_loss": 1.553757018613201e-05, "train/cont_pred": 0.9943660346555038, "train/cont_rate": 0.9943606954225352, "train/dyn_loss_mean": 5.05704133275529, "train/dyn_loss_std": 8.74121725727135, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.062400759105951, "train/extr_critic_critic_opt_grad_steps": 220360.0, "train/extr_critic_critic_opt_loss": 16334.805526518487, "train/extr_critic_mag": 9.984725293978839, "train/extr_critic_max": 9.984725293978839, "train/extr_critic_mean": 2.6549746385762387, "train/extr_critic_min": -0.5327481518329029, "train/extr_critic_std": 2.4683926676360652, "train/extr_return_normed_mag": 1.4681893570322386, "train/extr_return_normed_max": 1.4681893570322386, "train/extr_return_normed_mean": 0.3802094814223303, "train/extr_return_normed_min": -0.08630319891995947, "train/extr_return_normed_std": 0.3334973500648015, "train/extr_return_rate": 0.7414823980398582, "train/extr_return_raw_mag": 10.85939991642052, "train/extr_return_raw_max": 10.85939991642052, "train/extr_return_raw_mean": 2.6762274033586744, "train/extr_return_raw_min": -0.833014533553325, "train/extr_return_raw_std": 2.5087051492341805, "train/extr_reward_mag": 1.0419084186285315, "train/extr_reward_max": 1.0419084186285315, "train/extr_reward_mean": 0.050808629440799565, "train/extr_reward_min": -0.6719629949247333, "train/extr_reward_std": 0.21840311376981333, "train/image_loss_mean": 3.0702699809007243, "train/image_loss_std": 8.142846147779007, "train/model_loss_mean": 6.155312242642255, "train/model_loss_std": 12.312586703770597, "train/model_opt_grad_norm": 27.572779655456543, "train/model_opt_grad_steps": 220183.0, "train/model_opt_loss": 3847.0701440085827, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.590360581035345, "train/policy_entropy_max": 2.590360581035345, "train/policy_entropy_mean": 0.38028339516948645, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.531558868330969, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37950338360289454, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 0.9979253142652377, "train/policy_randomness_mag": 0.9142836114050636, "train/policy_randomness_max": 0.9142836114050636, "train/policy_randomness_mean": 0.1342233517010447, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18761695249819418, "train/post_ent_mag": 55.08464265205491, "train/post_ent_max": 55.08464265205491, "train/post_ent_mean": 41.22769132802184, "train/post_ent_min": 18.71074922319869, "train/post_ent_std": 5.59020008839352, "train/prior_ent_mag": 76.28646549708407, "train/prior_ent_max": 76.28646549708407, "train/prior_ent_mean": 46.30123267375247, "train/prior_ent_min": 27.972746513259242, "train/prior_ent_std": 7.2441574083247655, "train/rep_loss_mean": 5.05704133275529, "train/rep_loss_std": 8.74121725727135, "train/reward_avg": 0.03356486553667297, "train/reward_loss_mean": 0.05077700080796027, "train/reward_loss_std": 0.21394933424365353, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.014887853407524, "train/reward_neg_acc": 0.9945915047551545, "train/reward_neg_loss": 0.023185117983482252, "train/reward_pos_acc": 0.989390705672788, "train/reward_pos_loss": 0.7401852842787622, "train/reward_pred": 0.03327739419756641, "train/reward_rate": 0.03849856954225352, "stats/sum_log_reward": 9.385714667184013, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 3.5714285714285716, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3237783227648054, "replay/size": 442465.0, "replay/inserts": 1429.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 4.088987079510912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2870512756646849e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0146448612213, "timer/env.step_count": 1429.0, "timer/env.step_total": 20.4816837310791, "timer/env.step_frac": 0.06826894647277428, "timer/env.step_avg": 0.014332878748130932, "timer/env.step_min": 0.0032129287719726562, "timer/env.step_max": 1.932283639907837, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.32138752937316895, "timer/replay.add_frac": 0.0010712394707326175, "timer/replay.add_avg": 0.00022490379942139183, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0016393661499023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028066396713256836, "timer/logger.write_frac": 9.355008895062304e-05, "timer/logger.write_avg": 0.028066396713256836, "timer/logger.write_min": 0.028066396713256836, "timer/logger.write_max": 0.028066396713256836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 11.202373027801514, "timer/agent.policy_frac": 0.03733942065722635, "timer/agent.policy_avg": 0.00783930932666306, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.018845796585083008, "timer/dataset_count": 714.0, "timer/dataset_total": 0.07842659950256348, "timer/dataset_frac": 0.0002614092373352024, "timer/dataset_avg": 0.00010984117577389843, "timer/dataset_min": 7.605552673339844e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 714.0, "timer/agent.train_total": 267.1527714729309, "timer/agent.train_frac": 0.8904657690844011, "timer/agent.train_avg": 0.3741635454802954, "timer/agent.train_min": 0.3670783042907715, "timer/agent.train_max": 0.4191434383392334, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167086601257324, "timer/agent.report_frac": 0.000738866818035207, "timer/agent.report_avg": 0.22167086601257324, "timer/agent.report_min": 0.22167086601257324, "timer/agent.report_max": 0.22167086601257324, "fps": 4.763033430089474}
+{"step": 442530, "episode/length": 291.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.03767123287671233}
+{"step": 442723, "episode/length": 192.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04145077720207254}
+{"step": 442908, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05405405405405406}
+{"step": 443074, "episode/length": 165.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05421686746987952}
+{"step": 443243, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
+{"step": 443395, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06578947368421052}
+{"step": 443525, "episode/length": 129.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.1}
+{"step": 443747, "episode/length": 221.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.06306306306306306}
+{"step": 443885, "episode/length": 137.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.050724637681159424}
+{"step": 443937, "stats/sum_log_reward": 8.766666889190674, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 8.555555555555555, "stats/max_log_achievement_collect_wood": 9.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.2222222222222223, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.302294597029686, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549585832868304, "train/action_min": 0.0, "train/action_std": 3.402978655270168, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04579819110887391, "train/actor_opt_grad_steps": 221065.0, "train/actor_opt_loss": -11.052844140359333, "train/adv_mag": 0.47612760961055756, "train/adv_max": 0.4210961020418576, "train/adv_mean": 0.0029410524297938017, "train/adv_min": -0.38268621734210423, "train/adv_std": 0.051381377769368033, "train/cont_avg": 0.9948521205357143, "train/cont_loss_mean": 0.00012026367420615104, "train/cont_loss_std": 0.0036820562605644875, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.0367813723607404, "train/cont_pos_acc": 0.9999999838215964, "train/cont_pos_loss": 9.165892003589906e-06, "train/cont_pred": 0.9948661088943481, "train/cont_rate": 0.9948521205357143, "train/dyn_loss_mean": 4.9993644714355465, "train/dyn_loss_std": 8.722769219534738, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.065392656837191, "train/extr_critic_critic_opt_grad_steps": 221065.0, "train/extr_critic_critic_opt_loss": 16463.163406808035, "train/extr_critic_mag": 10.273701477050782, "train/extr_critic_max": 10.273701477050782, "train/extr_critic_mean": 2.645360064506531, "train/extr_critic_min": -0.5548080733844212, "train/extr_critic_std": 2.5099433047430857, "train/extr_return_normed_mag": 1.466075817176274, "train/extr_return_normed_max": 1.466075817176274, "train/extr_return_normed_mean": 0.3730154233319419, "train/extr_return_normed_min": -0.08809447123536042, "train/extr_return_normed_std": 0.3330481265272413, "train/extr_return_rate": 0.728282220023019, "train/extr_return_raw_mag": 11.034154088156564, "train/extr_return_raw_max": 11.034154088156564, "train/extr_return_raw_mean": 2.667853566578456, "train/extr_return_raw_min": -0.8622462144919805, "train/extr_return_raw_std": 2.5485941767692566, "train/extr_reward_mag": 1.0543602160045078, "train/extr_reward_max": 1.0543602160045078, "train/extr_reward_mean": 0.052149548381567004, "train/extr_reward_min": -0.647909883090428, "train/extr_reward_std": 0.22139517217874527, "train/image_loss_mean": 3.0634577444621494, "train/image_loss_std": 7.743565654754638, "train/model_loss_mean": 6.1146121604102, "train/model_loss_std": 11.909097630637033, "train/model_opt_grad_norm": 32.72103373663766, "train/model_opt_grad_steps": 220888.0, "train/model_opt_loss": 6552.85145438058, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1080.357142857143, "train/policy_entropy_mag": 2.6004393475396292, "train/policy_entropy_max": 2.6004393475396292, "train/policy_entropy_mean": 0.40319184469325203, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5600380735737936, "train/policy_logprob_mag": 7.438384212766375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40385963384594237, "train/policy_logprob_min": -7.438384212766375, "train/policy_logprob_std": 1.0194539274488177, "train/policy_randomness_mag": 0.9178409695625305, "train/policy_randomness_max": 0.9178409695625305, "train/policy_randomness_mean": 0.14230902695230074, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19766886702605657, "train/post_ent_mag": 55.12707165309361, "train/post_ent_max": 55.12707165309361, "train/post_ent_mean": 41.20780301775251, "train/post_ent_min": 18.707553223201206, "train/post_ent_std": 5.644334513800485, "train/prior_ent_mag": 76.3925666809082, "train/prior_ent_max": 76.3925666809082, "train/prior_ent_mean": 46.18983132498605, "train/prior_ent_min": 28.450288663591657, "train/prior_ent_std": 7.261656066349574, "train/rep_loss_mean": 4.9993644714355465, "train/rep_loss_std": 8.722769219534738, "train/reward_avg": 0.033284039928444795, "train/reward_loss_mean": 0.051415484105902055, "train/reward_loss_std": 0.21777443843228475, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0190488849367414, "train/reward_neg_acc": 0.9946468719414302, "train/reward_neg_loss": 0.023459868964606098, "train/reward_pos_acc": 0.9812708164964403, "train/reward_pos_loss": 0.755594973053251, "train/reward_pred": 0.032751111633011275, "train/reward_rate": 0.03819754464285714, "replay/size": 443874.0, "replay/inserts": 1409.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.9016718218054136e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2695366609181074e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27993869781494, "timer/env.step_count": 1409.0, "timer/env.step_total": 24.101311206817627, "timer/env.step_frac": 0.08026280846910605, "timer/env.step_avg": 0.017105259905477378, "timer/env.step_min": 0.0031633377075195312, "timer/env.step_max": 3.8164222240448, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.2852017879486084, "timer/replay.add_frac": 0.0009497863533121993, "timer/replay.add_avg": 0.00020241432785564827, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.0025305747985839844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028503894805908203, "timer/logger.write_frac": 9.492440597103271e-05, "timer/logger.write_avg": 0.028503894805908203, "timer/logger.write_min": 0.028503894805908203, "timer/logger.write_max": 0.028503894805908203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000396728515625, "timer/checkpoint.save_frac": 1.3211955395536616e-06, "timer/checkpoint.save_avg": 0.000396728515625, "timer/checkpoint.save_min": 0.000396728515625, "timer/checkpoint.save_max": 0.000396728515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4398603439331055, "timer/agent.save_frac": 0.004795060070203694, "timer/agent.save_avg": 1.4398603439331055, "timer/agent.save_min": 1.4398603439331055, "timer/agent.save_max": 1.4398603439331055, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.199770447356524e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 11.927453517913818, "timer/agent.policy_frac": 0.03972111347044381, "timer/agent.policy_avg": 0.008465190573395186, "timer/agent.policy_min": 0.0056514739990234375, "timer/agent.policy_max": 1.4448070526123047, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06797504425048828, "timer/dataset_frac": 0.0002263722463287652, "timer/dataset_avg": 9.64185024829621e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019669532775878906, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.1247034072876, "timer/agent.train_frac": 0.8762646767158218, "timer/agent.train_avg": 0.3732265296557271, "timer/agent.train_min": 0.3658483028411865, "timer/agent.train_max": 0.44391846656799316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21773052215576172, "timer/agent.report_frac": 0.0007250918030021101, "timer/agent.report_avg": 0.21773052215576172, "timer/agent.report_min": 0.21773052215576172, "timer/agent.report_max": 0.21773052215576172, "fps": 4.692210772987487}
+{"step": 444121, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05508474576271186}
+{"step": 444357, "episode/length": 235.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.038135593220338986}
+{"step": 444729, "episode/length": 371.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.02956989247311828}
+{"step": 444876, "episode/length": 146.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.08163265306122448}
+{"step": 445045, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
+{"step": 445161, "episode/length": 115.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.10344827586206896}
+{"step": 445372, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
+{"step": 445383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.599830940978168, "train/action_min": 0.0, "train/action_std": 3.424312552360639, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04521461356788466, "train/actor_opt_grad_steps": 221780.0, "train/actor_opt_loss": -14.654465135646193, "train/adv_mag": 0.4661633956105742, "train/adv_max": 0.4010264008012536, "train/adv_mean": 0.0014184498637181081, "train/adv_min": -0.40124916091357193, "train/adv_std": 0.05034676245222353, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 9.124715353203237e-06, "train/cont_loss_std": 0.0002258187145116608, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003192942198943269, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 6.958918014763733e-06, "train/cont_pred": 0.9947379835664409, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.081977569893615, "train/dyn_loss_std": 8.65189612401675, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583867577657307, "train/extr_critic_critic_opt_grad_steps": 221780.0, "train/extr_critic_critic_opt_loss": 16482.317503210616, "train/extr_critic_mag": 10.170027314800105, "train/extr_critic_max": 10.170027314800105, "train/extr_critic_mean": 2.669190088363543, "train/extr_critic_min": -0.5475944590895143, "train/extr_critic_std": 2.4812895876087553, "train/extr_return_normed_mag": 1.4406659260188064, "train/extr_return_normed_max": 1.4406659260188064, "train/extr_return_normed_mean": 0.3714032389529764, "train/extr_return_normed_min": -0.09400524290865414, "train/extr_return_normed_std": 0.32567646160517655, "train/extr_return_rate": 0.7456264650984986, "train/extr_return_raw_mag": 10.915017010414438, "train/extr_return_raw_max": 10.915017010414438, "train/extr_return_raw_mean": 2.6800992766471756, "train/extr_return_raw_min": -0.904728406504409, "train/extr_return_raw_std": 2.5088353777584964, "train/extr_reward_mag": 1.0475589673813075, "train/extr_reward_max": 1.0475589673813075, "train/extr_reward_mean": 0.0514183128125047, "train/extr_reward_min": -0.6879311946973409, "train/extr_reward_std": 0.2195881282630032, "train/image_loss_mean": 2.9820300846883696, "train/image_loss_std": 7.438361958281635, "train/model_loss_mean": 6.079756664903196, "train/model_loss_std": 11.550575386987974, "train/model_opt_grad_norm": 34.63583478535691, "train/model_opt_grad_steps": 221603.0, "train/model_opt_loss": 10189.087429098887, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1660.958904109589, "train/policy_entropy_mag": 2.572555365627759, "train/policy_entropy_max": 2.572555365627759, "train/policy_entropy_mean": 0.3917563445355794, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5419708821055007, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39119823521947206, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0070797596892265, "train/policy_randomness_mag": 0.9079991513735628, "train/policy_randomness_max": 0.9079991513735628, "train/policy_randomness_mean": 0.1382727989391105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1912919382934701, "train/post_ent_mag": 54.936265396745235, "train/post_ent_max": 54.936265396745235, "train/post_ent_mean": 41.079638232923536, "train/post_ent_min": 18.739244944428744, "train/post_ent_std": 5.676280446248512, "train/prior_ent_mag": 76.42825265126686, "train/prior_ent_max": 76.42825265126686, "train/prior_ent_mean": 46.164718836954194, "train/prior_ent_min": 28.37794719330252, "train/prior_ent_std": 7.309309789579209, "train/rep_loss_mean": 5.081977569893615, "train/rep_loss_std": 8.65189612401675, "train/reward_avg": 0.032741598568040216, "train/reward_loss_mean": 0.048530923534337786, "train/reward_loss_std": 0.20003813668473125, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0121905019838515, "train/reward_neg_acc": 0.9953002562261608, "train/reward_neg_loss": 0.02207125796081677, "train/reward_pos_acc": 0.9899040019675477, "train/reward_pos_loss": 0.7281123538539834, "train/reward_pred": 0.032418229413052946, "train/reward_rate": 0.037590967465753425, "stats/sum_log_reward": 9.242857456207275, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.571428571428571, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4209192118474415, "replay/size": 445320.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.764078659965125e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2610957830278705e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13496565818787, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.059240579605103, "timer/env.step_frac": 0.06350223319635119, "timer/env.step_avg": 0.013180664301248342, "timer/env.step_min": 0.003246307373046875, "timer/env.step_max": 1.7124793529510498, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26616644859313965, "timer/replay.add_frac": 0.0008868225266904302, "timer/replay.add_avg": 0.00018407084964947417, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0012311935424804688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029593944549560547, "timer/logger.write_frac": 9.860212216414648e-05, "timer/logger.write_avg": 0.029593944549560547, "timer/logger.write_min": 0.029593944549560547, "timer/logger.write_max": 0.029593944549560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.481280326843262, "timer/agent.policy_frac": 0.03492189023647444, "timer/agent.policy_avg": 0.007248464956323141, "timer/agent.policy_min": 0.005624294281005859, "timer/agent.policy_max": 0.017351388931274414, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06788754463195801, "timer/dataset_frac": 0.00022619005580733475, "timer/dataset_avg": 9.38970188547137e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00023412704467773438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.53069043159485, "timer/agent.train_frac": 0.8980316233415901, "timer/agent.train_avg": 0.3727948691999929, "timer/agent.train_min": 0.36656951904296875, "timer/agent.train_max": 0.4033546447753906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21941637992858887, "timer/agent.report_frac": 0.0007310590402135075, "timer/agent.report_avg": 0.21941637992858887, "timer/agent.report_min": 0.21941637992858887, "timer/agent.report_max": 0.21941637992858887, "fps": 4.81776452707612}
+{"step": 445587, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04186046511627907}
+{"step": 445635, "episode/length": 47.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.08333333333333333}
+{"step": 445924, "episode/length": 288.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.031141868512110725}
+{"step": 446185, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04597701149425287}
+{"step": 446408, "episode/length": 222.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.053811659192825115}
+{"step": 446537, "episode/length": 128.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.08527131782945736}
+{"step": 446760, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.053811659192825115}
+{"step": 446802, "episode/length": 41.0, "episode/score": 3.099999964237213, "episode/sum_abs_reward": 4.699999988079071, "episode/reward_rate": 0.09523809523809523}
+{"step": 446823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.577504475911458, "train/action_min": 0.0, "train/action_std": 3.395536402861277, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045978951112677656, "train/actor_opt_grad_steps": 222505.0, "train/actor_opt_loss": -12.253524283361104, "train/adv_mag": 0.46041151094767785, "train/adv_max": 0.403450691451629, "train/adv_mean": 0.0024995936759700677, "train/adv_min": -0.38550081062648034, "train/adv_std": 0.05111350703777538, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 0.00015404472725105082, "train/cont_loss_std": 0.004748471141761949, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.231589222870248e-05, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 0.00015421831740145307, "train/cont_pred": 0.9948511703146828, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.02740083138148, "train/dyn_loss_std": 8.646706720193228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0338817470603519, "train/extr_critic_critic_opt_grad_steps": 222505.0, "train/extr_critic_critic_opt_loss": 16463.766913519965, "train/extr_critic_mag": 9.932421684265137, "train/extr_critic_max": 9.932421684265137, "train/extr_critic_mean": 2.572159343295627, "train/extr_critic_min": -0.5457746287186941, "train/extr_critic_std": 2.3897642162111072, "train/extr_return_normed_mag": 1.440772404273351, "train/extr_return_normed_max": 1.440772404273351, "train/extr_return_normed_mean": 0.36810952611267567, "train/extr_return_normed_min": -0.08879227387822336, "train/extr_return_normed_std": 0.32222903457780677, "train/extr_return_rate": 0.7414659667346213, "train/extr_return_raw_mag": 10.664894541104635, "train/extr_return_raw_max": 10.664894541104635, "train/extr_return_raw_mean": 2.5909657776355743, "train/extr_return_raw_min": -0.8474188024799029, "train/extr_return_raw_std": 2.4252110405100717, "train/extr_reward_mag": 1.0552583005693223, "train/extr_reward_max": 1.0552583005693223, "train/extr_reward_mean": 0.05134171045695742, "train/extr_reward_min": -0.671888733903567, "train/extr_reward_std": 0.21900101295775837, "train/image_loss_mean": 3.081961802310414, "train/image_loss_std": 7.881915695137447, "train/model_loss_mean": 6.148027943240272, "train/model_loss_std": 11.990149087376064, "train/model_opt_grad_norm": 29.964726368586224, "train/model_opt_grad_steps": 222327.04166666666, "train/model_opt_loss": 7997.197733561198, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.578290753894382, "train/policy_entropy_max": 2.578290753894382, "train/policy_entropy_mean": 0.38992851558658814, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5456500595642461, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3901950501733356, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0072184685203764, "train/policy_randomness_mag": 0.9100234922435548, "train/policy_randomness_max": 0.9100234922435548, "train/policy_randomness_mean": 0.1376276532601979, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19259052620165878, "train/post_ent_mag": 55.339815351698135, "train/post_ent_max": 55.339815351698135, "train/post_ent_mean": 40.952180756462944, "train/post_ent_min": 18.99128662215339, "train/post_ent_std": 5.668555438518524, "train/prior_ent_mag": 76.44240485297308, "train/prior_ent_max": 76.44240485297308, "train/prior_ent_mean": 45.989990870157875, "train/prior_ent_min": 28.144126574198406, "train/prior_ent_std": 7.360542641745673, "train/rep_loss_mean": 5.02740083138148, "train/rep_loss_std": 8.646706720193228, "train/reward_avg": 0.033672417177715235, "train/reward_loss_mean": 0.04947163759627276, "train/reward_loss_std": 0.20073075716694197, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.018882652123769, "train/reward_neg_acc": 0.9943614767657386, "train/reward_neg_loss": 0.02278427282969157, "train/reward_pos_acc": 0.9897186822361417, "train/reward_pos_loss": 0.7223916517363654, "train/reward_pred": 0.03354073463318249, "train/reward_rate": 0.03822157118055555, "stats/sum_log_reward": 7.974999785423279, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.31774439848959446, "replay/size": 446760.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.856420516967774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.25972761048211e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2765808105469, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.496597290039062, "timer/env.step_frac": 0.06825906047921518, "timer/env.step_avg": 0.014233748118082682, "timer/env.step_min": 0.0032656192779541016, "timer/env.step_max": 1.6572329998016357, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27556586265563965, "timer/replay.add_frac": 0.0009177068085422954, "timer/replay.add_avg": 0.00019136518239974975, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0014829635620117188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02873992919921875, "timer/logger.write_frac": 9.571152409435352e-05, "timer/logger.write_avg": 0.02873992919921875, "timer/logger.write_min": 0.02873992919921875, "timer/logger.write_max": 0.02873992919921875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.595496892929077, "timer/agent.policy_frac": 0.035285791733502124, "timer/agent.policy_avg": 0.00735798395342297, "timer/agent.policy_min": 0.005694150924682617, "timer/agent.policy_max": 0.01836395263671875, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0672159194946289, "timer/dataset_frac": 0.00022384669264979197, "timer/dataset_avg": 9.335544374254015e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1067886352539, "timer/agent.train_frac": 0.8928661299910371, "timer/agent.train_avg": 0.372370539771186, "timer/agent.train_min": 0.36599230766296387, "timer/agent.train_max": 0.3904430866241455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22112131118774414, "timer/agent.report_frac": 0.0007363921308510434, "timer/agent.report_avg": 0.22112131118774414, "timer/agent.report_min": 0.22112131118774414, "timer/agent.report_max": 0.22112131118774414, "fps": 4.795479374440084}
+{"step": 446986, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.059782608695652176}
+{"step": 447140, "episode/length": 153.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07142857142857142}
+{"step": 447401, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04597701149425287}
+{"step": 447602, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04975124378109453}
+{"step": 447792, "episode/length": 189.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05789473684210526}
+{"step": 447971, "episode/length": 178.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05027932960893855}
+{"step": 448253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.622347979478433, "train/action_min": 0.0, "train/action_std": 3.4399486662636343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04429598981645745, "train/actor_opt_grad_steps": 223220.0, "train/actor_opt_loss": -13.06938293513278, "train/adv_mag": 0.4632893893080698, "train/adv_max": 0.4065540315399707, "train/adv_mean": 0.0021838318672552574, "train/adv_min": -0.4019090934118754, "train/adv_std": 0.049980477652919124, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 7.620263274497709e-06, "train/cont_loss_std": 0.00015762605855830053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004611640773438127, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 5.425229055033373e-06, "train/cont_pred": 0.9947565155969539, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 4.960299431438178, "train/dyn_loss_std": 8.691757242444535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.027050943441794, "train/extr_critic_critic_opt_grad_steps": 223220.0, "train/extr_critic_critic_opt_loss": 16121.711253851232, "train/extr_critic_mag": 9.964228052488515, "train/extr_critic_max": 9.964228052488515, "train/extr_critic_mean": 2.555904144972143, "train/extr_critic_min": -0.5274316273944478, "train/extr_critic_std": 2.4220021492998365, "train/extr_return_normed_mag": 1.4455391773035828, "train/extr_return_normed_max": 1.4455391773035828, "train/extr_return_normed_mean": 0.36646970267027196, "train/extr_return_normed_min": -0.08718468206869044, "train/extr_return_normed_std": 0.32729763946902585, "train/extr_return_rate": 0.7366912797303267, "train/extr_return_raw_mag": 10.666646460412254, "train/extr_return_raw_max": 10.666646460412254, "train/extr_return_raw_mean": 2.5722832075307065, "train/extr_return_raw_min": -0.8313065565807719, "train/extr_return_raw_std": 2.4554555332156975, "train/extr_reward_mag": 1.0553590949152556, "train/extr_reward_max": 1.0553590949152556, "train/extr_reward_mean": 0.04898386494532018, "train/extr_reward_min": -0.657508974343958, "train/extr_reward_std": 0.21490760357447072, "train/image_loss_mean": 3.0924759851375097, "train/image_loss_std": 7.815013428808937, "train/model_loss_mean": 6.119307544869437, "train/model_loss_std": 11.982453252228213, "train/model_opt_grad_norm": 30.384628121282013, "train/model_opt_grad_steps": 223042.0, "train/model_opt_loss": 11942.3447334397, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1954.225352112676, "train/policy_entropy_mag": 2.593988704009795, "train/policy_entropy_max": 2.593988704009795, "train/policy_entropy_mean": 0.39914339738832394, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5521696894101693, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3983202232441432, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.01313763521087, "train/policy_randomness_mag": 0.9155641743834589, "train/policy_randomness_max": 0.9155641743834589, "train/policy_randomness_mean": 0.1408801017932489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19489166906601946, "train/post_ent_mag": 55.82306961274483, "train/post_ent_max": 55.82306961274483, "train/post_ent_mean": 41.24630393444652, "train/post_ent_min": 18.968602220777054, "train/post_ent_std": 5.652472757957351, "train/prior_ent_mag": 76.40914841772805, "train/prior_ent_max": 76.40914841772805, "train/prior_ent_mean": 46.18221906205298, "train/prior_ent_min": 28.165815971267055, "train/prior_ent_std": 7.322049825963839, "train/rep_loss_mean": 4.960299431438178, "train/rep_loss_std": 8.691757242444535, "train/reward_avg": 0.03374504820037056, "train/reward_loss_mean": 0.05064432616804687, "train/reward_loss_std": 0.20490761164208532, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0222684296084121, "train/reward_neg_acc": 0.9945442491853741, "train/reward_neg_loss": 0.023301470788641716, "train/reward_pos_acc": 0.9878594027438634, "train/reward_pos_loss": 0.7340332236088497, "train/reward_pred": 0.0334253871787182, "train/reward_rate": 0.038539832746478875, "stats/sum_log_reward": 9.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.32346177597840625, "replay/size": 448190.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.8303695358596486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2683076458377438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16387915611267, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.52821969985962, "timer/env.step_frac": 0.06505852654477176, "timer/env.step_avg": 0.013656097692209523, "timer/env.step_min": 0.0030808448791503906, "timer/env.step_max": 2.11677622795105, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2669713497161865, "timer/replay.add_frac": 0.0008894186417991253, "timer/replay.add_avg": 0.0001866932515497808, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0012040138244628906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03505063056945801, "timer/logger.write_frac": 0.00011677164710157705, "timer/logger.write_avg": 0.03505063056945801, "timer/logger.write_min": 0.03505063056945801, "timer/logger.write_max": 0.03505063056945801, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003757476806640625, "timer/checkpoint.save_frac": 1.251808451171566e-06, "timer/checkpoint.save_avg": 0.0003757476806640625, "timer/checkpoint.save_min": 0.0003757476806640625, "timer/checkpoint.save_max": 0.0003757476806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4310059547424316, "timer/agent.save_frac": 0.004767415582333201, "timer/agent.save_avg": 1.4310059547424316, "timer/agent.save_min": 1.4310059547424316, "timer/agent.save_max": 1.4310059547424316, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.487701416015625e-05, "timer/replay.save_frac": 2.827689140971304e-07, "timer/replay.save_avg": 8.487701416015625e-05, "timer/replay.save_min": 8.487701416015625e-05, "timer/replay.save_max": 8.487701416015625e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.597145318984985, "timer/agent.policy_frac": 0.04196755903608681, "timer/agent.policy_avg": 0.00880919253075873, "timer/agent.policy_min": 0.005685567855834961, "timer/agent.policy_max": 1.4314570426940918, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06723403930664062, "timer/dataset_frac": 0.00022399110611064823, "timer/dataset_avg": 9.403362140788898e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00021600723266601562, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.975745677948, "timer/agent.train_frac": 0.8894332870048504, "timer/agent.train_avg": 0.3733926512978294, "timer/agent.train_min": 0.366283655166626, "timer/agent.train_max": 0.9536466598510742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198648452758789, "timer/agent.report_frac": 0.0007324826887699206, "timer/agent.report_avg": 0.2198648452758789, "timer/agent.report_min": 0.2198648452758789, "timer/agent.report_max": 0.2198648452758789, "fps": 4.763983975571312}
+{"step": 448321, "episode/length": 349.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.03428571428571429}
+{"step": 448525, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05392156862745098}
+{"step": 448686, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 448814, "episode/length": 127.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.0859375}
+{"step": 448996, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06043956043956044}
+{"step": 449157, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.049689440993788817}
+{"step": 449388, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06060606060606061}
+{"step": 449546, "episode/length": 157.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.06962025316455696}
+{"step": 449693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.744170294867621, "train/action_min": 0.0, "train/action_std": 3.5542791651354895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046532686334103346, "train/actor_opt_grad_steps": 223935.0, "train/actor_opt_loss": -12.731050697051817, "train/adv_mag": 0.48410527656475705, "train/adv_max": 0.42317431420087814, "train/adv_mean": 0.002753566919384159, "train/adv_min": -0.4263223759416077, "train/adv_std": 0.052841904987063676, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.00018806288978368002, "train/cont_loss_std": 0.005906086345438173, "train/cont_neg_acc": 0.99336419834031, "train/cont_neg_loss": 0.03194766358072027, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 7.609474607366767e-06, "train/cont_pred": 0.9946497778097788, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 5.008550501532024, "train/dyn_loss_std": 8.671154512299431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0483965881996684, "train/extr_critic_critic_opt_grad_steps": 223935.0, "train/extr_critic_critic_opt_loss": 16562.433715820312, "train/extr_critic_mag": 10.063377751244438, "train/extr_critic_max": 10.063377751244438, "train/extr_critic_mean": 2.641635831859377, "train/extr_critic_min": -0.5871761855151918, "train/extr_critic_std": 2.4767905440595417, "train/extr_return_normed_mag": 1.4516306204928293, "train/extr_return_normed_max": 1.4516306204928293, "train/extr_return_normed_mean": 0.3776194494631555, "train/extr_return_normed_min": -0.09675039909780025, "train/extr_return_normed_std": 0.33319904655218124, "train/extr_return_rate": 0.7448568104041947, "train/extr_return_raw_mag": 10.755920304192436, "train/extr_return_raw_max": 10.755920304192436, "train/extr_return_raw_mean": 2.6624157544639377, "train/extr_return_raw_min": -0.9128262032237318, "train/extr_return_raw_std": 2.5112402356333203, "train/extr_reward_mag": 1.0501089990139008, "train/extr_reward_max": 1.0501089990139008, "train/extr_reward_mean": 0.05400910088792443, "train/extr_reward_min": -0.7042188313272264, "train/extr_reward_std": 0.224954919061727, "train/image_loss_mean": 2.9984054813782373, "train/image_loss_std": 8.113327927059597, "train/model_loss_mean": 6.054456260469225, "train/model_loss_std": 12.218976351949904, "train/model_opt_grad_norm": 30.099840177430046, "train/model_opt_grad_steps": 223756.69444444444, "train/model_opt_loss": 14175.729349772135, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2343.75, "train/policy_entropy_mag": 2.583058797650867, "train/policy_entropy_max": 2.583058797650867, "train/policy_entropy_mean": 0.39984641555282807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5542421324385537, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40019264858629966, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.018098736802737, "train/policy_randomness_mag": 0.9117064045535194, "train/policy_randomness_max": 0.9117064045535194, "train/policy_randomness_mean": 0.14112823808358776, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19562315175102818, "train/post_ent_mag": 55.35221889283922, "train/post_ent_max": 55.35221889283922, "train/post_ent_mean": 41.196017530229355, "train/post_ent_min": 18.97759469350179, "train/post_ent_std": 5.641302333937751, "train/prior_ent_mag": 76.53781064351399, "train/prior_ent_max": 76.53781064351399, "train/prior_ent_mean": 46.22898477978177, "train/prior_ent_min": 28.13300042682224, "train/prior_ent_std": 7.297199626763661, "train/rep_loss_mean": 5.008550501532024, "train/rep_loss_std": 8.671154512299431, "train/reward_avg": 0.034650336381875806, "train/reward_loss_mean": 0.050732398146970406, "train/reward_loss_std": 0.20185916788048214, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.012734282347891, "train/reward_neg_acc": 0.9944788490732511, "train/reward_neg_loss": 0.022744227343031928, "train/reward_pos_acc": 0.9881319925189018, "train/reward_pos_loss": 0.7291625622246001, "train/reward_pred": 0.03445238770089216, "train/reward_rate": 0.039618598090277776, "stats/sum_log_reward": 9.725000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 15.875, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.375, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 8.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3626880068331957, "replay/size": 449630.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.756582736968994e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.253953410519494e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13261818885803, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.507851123809814, "timer/env.step_frac": 0.06832929805352006, "timer/env.step_avg": 0.014241563280423482, "timer/env.step_min": 0.003088712692260742, "timer/env.step_max": 1.7499918937683105, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2700653076171875, "timer/replay.add_frac": 0.0008998199170982784, "timer/replay.add_avg": 0.00018754535251193577, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0009930133819580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03425335884094238, "timer/logger.write_frac": 0.00011412741156773738, "timer/logger.write_avg": 0.03425335884094238, "timer/logger.write_min": 0.03425335884094238, "timer/logger.write_max": 0.03425335884094238, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.467017889022827, "timer/agent.policy_frac": 0.03487464292347082, "timer/agent.policy_avg": 0.007268762422932519, "timer/agent.policy_min": 0.005679130554199219, "timer/agent.policy_max": 0.018593549728393555, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06598472595214844, "timer/dataset_frac": 0.0002198518986384467, "timer/dataset_avg": 9.164545271131728e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001976490020751953, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.09032678604126, "timer/agent.train_frac": 0.8932395565794378, "timer/agent.train_avg": 0.372347676091724, "timer/agent.train_min": 0.3635697364807129, "timer/agent.train_max": 0.3837127685546875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2203981876373291, "timer/agent.report_frac": 0.000734336004421365, "timer/agent.report_avg": 0.2203981876373291, "timer/agent.report_min": 0.2203981876373291, "timer/agent.report_max": 0.2203981876373291, "fps": 4.797807021194806}
+{"step": 449783, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04219409282700422}
+{"step": 449951, "episode/length": 167.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.05357142857142857}
+{"step": 450341, "episode/length": 389.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.03076923076923077}
+{"step": 450539, "episode/length": 197.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06565656565656566}
+{"step": 450732, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
+{"step": 450909, "episode/length": 176.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.05084745762711865}
+{"step": 451147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5741033684717465, "train/action_min": 0.0, "train/action_std": 3.444157469762515, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044221168792206944, "train/actor_opt_grad_steps": 224660.0, "train/actor_opt_loss": -12.913328997076373, "train/adv_mag": 0.4596989734532082, "train/adv_max": 0.4084766245868108, "train/adv_mean": 0.0026205279197574157, "train/adv_min": -0.3964151227719163, "train/adv_std": 0.05032085678348803, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 1.1421604900706432e-05, "train/cont_loss_std": 0.00032605445256674465, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024246904814228325, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 1.000329786668457e-05, "train/cont_pred": 0.9944804686389558, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.060511455143968, "train/dyn_loss_std": 8.760892299756613, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0355833646369308, "train/extr_critic_critic_opt_grad_steps": 224660.0, "train/extr_critic_critic_opt_loss": 16234.286360231165, "train/extr_critic_mag": 9.781786239310486, "train/extr_critic_max": 9.781786239310486, "train/extr_critic_mean": 2.561733066219173, "train/extr_critic_min": -0.527939402893798, "train/extr_critic_std": 2.4242890077094508, "train/extr_return_normed_mag": 1.4275341540166777, "train/extr_return_normed_max": 1.4275341540166777, "train/extr_return_normed_mean": 0.3709098345612826, "train/extr_return_normed_min": -0.09304546569920566, "train/extr_return_normed_std": 0.33057826104229443, "train/extr_return_rate": 0.7257616691393395, "train/extr_return_raw_mag": 10.444101934563625, "train/extr_return_raw_max": 10.444101934563625, "train/extr_return_raw_mean": 2.5812401412284536, "train/extr_return_raw_min": -0.8714387776100472, "train/extr_return_raw_std": 2.4601588967728287, "train/extr_reward_mag": 1.0514674545967415, "train/extr_reward_max": 1.0514674545967415, "train/extr_reward_mean": 0.05150581332408402, "train/extr_reward_min": -0.6587619683513902, "train/extr_reward_std": 0.22010903713637836, "train/image_loss_mean": 3.206655045078225, "train/image_loss_std": 8.38612201769058, "train/model_loss_mean": 6.29332949364022, "train/model_loss_std": 12.528449829310587, "train/model_opt_grad_norm": 30.362601528429007, "train/model_opt_grad_steps": 224480.0, "train/model_opt_loss": 7866.66188864512, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5984102863155, "train/policy_entropy_max": 2.5984102863155, "train/policy_entropy_mean": 0.4110655266128174, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5659097098324397, "train/policy_logprob_mag": 7.43838418019961, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4102817884046737, "train/policy_logprob_min": -7.43838418019961, "train/policy_logprob_std": 1.0198707327450791, "train/policy_randomness_mag": 0.9171248021191114, "train/policy_randomness_max": 0.9171248021191114, "train/policy_randomness_mean": 0.14508809016583718, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19974129218352984, "train/post_ent_mag": 55.06829922819791, "train/post_ent_max": 55.06829922819791, "train/post_ent_mean": 41.188189624107046, "train/post_ent_min": 18.784975234776326, "train/post_ent_std": 5.6566214104221295, "train/prior_ent_mag": 76.43061797259605, "train/prior_ent_max": 76.43061797259605, "train/prior_ent_mean": 46.25755461601362, "train/prior_ent_min": 28.718479261006394, "train/prior_ent_std": 7.354102996930684, "train/rep_loss_mean": 5.060511455143968, "train/rep_loss_std": 8.760892299756613, "train/reward_avg": 0.03470007467963924, "train/reward_loss_mean": 0.05035621453433821, "train/reward_loss_std": 0.19784885991926063, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0262596933809045, "train/reward_neg_acc": 0.9946851901812096, "train/reward_neg_loss": 0.02295090987870138, "train/reward_pos_acc": 0.9930050773163365, "train/reward_pos_loss": 0.7149288115436083, "train/reward_pred": 0.03449325942217487, "train/reward_rate": 0.039544092465753425, "stats/sum_log_reward": 9.766666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 21.833333333333332, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 7.833333333333333, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5187536925077438, "replay/size": 451084.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.816009059732849e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2601422148524813e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1940870285034, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.755103826522827, "timer/env.step_frac": 0.05914541489565376, "timer/env.step_avg": 0.01221121308564156, "timer/env.step_min": 0.003045320510864258, "timer/env.step_max": 1.7174348831176758, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26920557022094727, "timer/replay.add_frac": 0.0008967717282032481, "timer/replay.add_avg": 0.0001851482601244479, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0011196136474609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025023698806762695, "timer/logger.write_frac": 8.335840007530426e-05, "timer/logger.write_avg": 0.025023698806762695, "timer/logger.write_min": 0.025023698806762695, "timer/logger.write_max": 0.025023698806762695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.601343631744385, "timer/agent.policy_frac": 0.035314964850516155, "timer/agent.policy_avg": 0.007291157931048408, "timer/agent.policy_min": 0.005612850189208984, "timer/agent.policy_max": 0.014288663864135742, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06740832328796387, "timer/dataset_frac": 0.00022454913737712445, "timer/dataset_avg": 9.272121497656653e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.7756769657135, "timer/agent.train_frac": 0.9020020335710455, "timer/agent.train_avg": 0.37245622691294844, "timer/agent.train_min": 0.36611485481262207, "timer/agent.train_max": 0.42845654487609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218458890914917, "timer/agent.report_frac": 0.0007277254961193634, "timer/agent.report_avg": 0.218458890914917, "timer/agent.report_min": 0.218458890914917, "timer/agent.report_max": 0.218458890914917, "fps": 4.843431987457437}
+{"step": 451318, "episode/length": 408.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.02689486552567237}
+{"step": 451535, "episode/length": 216.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04608294930875576}
+{"step": 451773, "episode/length": 237.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05042016806722689}
+{"step": 451869, "episode/length": 95.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.10416666666666667}
+{"step": 452302, "episode/length": 432.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.02771362586605081}
+{"step": 452480, "episode/length": 177.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06741573033707865}
+{"step": 452579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.550956726074219, "train/action_min": 0.0, "train/action_std": 3.3806994921631284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044240293041285544, "train/actor_opt_grad_steps": 225385.0, "train/actor_opt_loss": -13.217801322539648, "train/adv_mag": 0.4633005348344644, "train/adv_max": 0.42843641009595657, "train/adv_mean": 0.0025000506381426626, "train/adv_min": -0.36406025580233997, "train/adv_std": 0.051015681638899774, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 4.977502297699566e-05, "train/cont_loss_std": 0.0015406369286223606, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.006948490051564072, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1306020208539596e-05, "train/cont_pred": 0.9947571158409119, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.152179532580906, "train/dyn_loss_std": 8.674168858263227, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0845475734935865, "train/extr_critic_critic_opt_grad_steps": 225385.0, "train/extr_critic_critic_opt_loss": 16390.50523546007, "train/extr_critic_mag": 9.966758052508036, "train/extr_critic_max": 9.966758052508036, "train/extr_critic_mean": 2.6028840442498526, "train/extr_critic_min": -0.5373091598351797, "train/extr_critic_std": 2.4567007058196597, "train/extr_return_normed_mag": 1.425396516919136, "train/extr_return_normed_max": 1.425396516919136, "train/extr_return_normed_mean": 0.37108857267432743, "train/extr_return_normed_min": -0.08711607198023961, "train/extr_return_normed_std": 0.3296950153178639, "train/extr_return_rate": 0.7348479487829738, "train/extr_return_raw_mag": 10.57934714688195, "train/extr_return_raw_max": 10.57934714688195, "train/extr_return_raw_mean": 2.621735456917021, "train/extr_return_raw_min": -0.8370771511561341, "train/extr_return_raw_std": 2.488500401377678, "train/extr_reward_mag": 1.0529233415921528, "train/extr_reward_max": 1.0529233415921528, "train/extr_reward_mean": 0.05237877105052272, "train/extr_reward_min": -0.6873922811614143, "train/extr_reward_std": 0.22226640871829456, "train/image_loss_mean": 3.1420472181505628, "train/image_loss_std": 7.98912247021993, "train/model_loss_mean": 6.28422451350424, "train/model_loss_std": 12.113050666120317, "train/model_opt_grad_norm": 31.401927550633747, "train/model_opt_grad_steps": 225205.0, "train/model_opt_loss": 13854.800103081598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.6037177642186484, "train/policy_entropy_max": 2.6037177642186484, "train/policy_entropy_mean": 0.39635289336244267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5435119585858451, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3954218116899331, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0089891312850847, "train/policy_randomness_mag": 0.9189981114533212, "train/policy_randomness_max": 0.9189981114533212, "train/policy_randomness_mean": 0.13989517599758175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19183586993151241, "train/post_ent_mag": 54.87567133373685, "train/post_ent_max": 54.87567133373685, "train/post_ent_mean": 41.074857234954834, "train/post_ent_min": 19.063442203733658, "train/post_ent_std": 5.6169790559344825, "train/prior_ent_mag": 76.38849131266277, "train/prior_ent_max": 76.38849131266277, "train/prior_ent_mean": 46.22557698355781, "train/prior_ent_min": 28.58461750878228, "train/prior_ent_std": 7.392199178536733, "train/rep_loss_mean": 5.152179532580906, "train/rep_loss_std": 8.674168858263227, "train/reward_avg": 0.035168456870855555, "train/reward_loss_mean": 0.05081978409240643, "train/reward_loss_std": 0.20294273561901516, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0182062652375963, "train/reward_neg_acc": 0.9948285553190443, "train/reward_neg_loss": 0.02268265330025719, "train/reward_pos_acc": 0.9885374332467715, "train/reward_pos_loss": 0.7290169008904033, "train/reward_pred": 0.03476276278444049, "train/reward_rate": 0.039835611979166664, "stats/sum_log_reward": 9.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 9.166666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5357510646184286, "replay/size": 452516.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7855609169219457e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582115953861002e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2149829864502, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.71869921684265, "timer/env.step_frac": 0.06568192906525465, "timer/env.step_avg": 0.013770041352543751, "timer/env.step_min": 0.0030357837677001953, "timer/env.step_max": 2.838411808013916, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.29326844215393066, "timer/replay.add_frac": 0.0009768614452103043, "timer/replay.add_avg": 0.00020479639815218622, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0010380744934082031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025197744369506836, "timer/logger.write_frac": 8.393233448526485e-05, "timer/logger.write_avg": 0.025197744369506836, "timer/logger.write_min": 0.025197744369506836, "timer/logger.write_max": 0.025197744369506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006616115570068359, "timer/checkpoint.save_frac": 2.2037925969760706e-06, "timer/checkpoint.save_avg": 0.0006616115570068359, "timer/checkpoint.save_min": 0.0006616115570068359, "timer/checkpoint.save_max": 0.0006616115570068359, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4916718006134033, "timer/agent.save_frac": 0.004968678730737193, "timer/agent.save_avg": 1.4916718006134033, "timer/agent.save_min": 1.4916718006134033, "timer/agent.save_max": 1.4916718006134033, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.0171651157907098e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.884916067123413, "timer/agent.policy_frac": 0.03958801772281906, "timer/agent.policy_avg": 0.008299522393242607, "timer/agent.policy_min": 0.005705833435058594, "timer/agent.policy_max": 1.4809658527374268, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06671142578125, "timer/dataset_frac": 0.00022221217981069564, "timer/dataset_avg": 9.317238237604749e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.52881622314453, "timer/agent.train_frac": 0.8911241323196021, "timer/agent.train_avg": 0.3736435980770175, "timer/agent.train_min": 0.365128755569458, "timer/agent.train_max": 0.9537861347198486, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22251033782958984, "timer/agent.report_frac": 0.0007411699963010592, "timer/agent.report_avg": 0.22251033782958984, "timer/agent.report_min": 0.22251033782958984, "timer/agent.report_max": 0.22251033782958984, "fps": 4.769825983697622}
+{"step": 452680, "episode/length": 199.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.055}
+{"step": 452866, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05913978494623656}
+{"step": 453053, "episode/length": 186.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06417112299465241}
+{"step": 453254, "episode/length": 200.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05970149253731343}
+{"step": 453379, "episode/length": 124.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.104}
+{"step": 453534, "episode/length": 154.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05806451612903226}
+{"step": 453714, "episode/length": 179.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05}
+{"step": 453893, "episode/length": 178.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.061452513966480445}
+{"step": 454019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447686937120226, "train/action_min": 0.0, "train/action_std": 3.2894534965356192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045700459016693964, "train/actor_opt_grad_steps": 226105.0, "train/actor_opt_loss": -14.471720342834791, "train/adv_mag": 0.4667566211687194, "train/adv_max": 0.43466416870554286, "train/adv_mean": 0.002137295128199589, "train/adv_min": -0.3725529718730185, "train/adv_std": 0.05235891980636451, "train/cont_avg": 0.9942491319444444, "train/cont_loss_mean": 3.788301427536883e-05, "train/cont_loss_std": 0.0011329468936693843, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0053369951168381, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 4.955577335547585e-06, "train/cont_pred": 0.9942640744977527, "train/cont_rate": 0.9942491319444444, "train/dyn_loss_mean": 5.11199935277303, "train/dyn_loss_std": 8.755885832839542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0602443599038653, "train/extr_critic_critic_opt_grad_steps": 226105.0, "train/extr_critic_critic_opt_loss": 16383.836235894098, "train/extr_critic_mag": 9.892053074306911, "train/extr_critic_max": 9.892053074306911, "train/extr_critic_mean": 2.6325074318382473, "train/extr_critic_min": -0.5235680275493197, "train/extr_critic_std": 2.441433545615938, "train/extr_return_normed_mag": 1.461572140455246, "train/extr_return_normed_max": 1.461572140455246, "train/extr_return_normed_mean": 0.3805832184023327, "train/extr_return_normed_min": -0.09525237744674087, "train/extr_return_normed_std": 0.33286893119414646, "train/extr_return_rate": 0.7415690513120757, "train/extr_return_raw_mag": 10.679921216434902, "train/extr_return_raw_max": 10.679921216434902, "train/extr_return_raw_mean": 2.6483667211400137, "train/extr_return_raw_min": -0.886839374072022, "train/extr_return_raw_std": 2.4732544322808585, "train/extr_reward_mag": 1.0523232983218298, "train/extr_reward_max": 1.0523232983218298, "train/extr_reward_mean": 0.05055616961585151, "train/extr_reward_min": -0.6601996603939269, "train/extr_reward_std": 0.21871217443711227, "train/image_loss_mean": 3.1353090835942163, "train/image_loss_std": 8.443094419108498, "train/model_loss_mean": 6.254808300071293, "train/model_loss_std": 12.56256530019972, "train/model_opt_grad_norm": 32.41509951485528, "train/model_opt_grad_steps": 225924.30555555556, "train/model_opt_loss": 10364.683098687066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1631.9444444444443, "train/policy_entropy_mag": 2.5584878259234958, "train/policy_entropy_max": 2.5584878259234958, "train/policy_entropy_mean": 0.366253466034929, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5078652703927623, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36730955479045707, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9879975815614065, "train/policy_randomness_mag": 0.9030339295665423, "train/policy_randomness_max": 0.9030339295665423, "train/policy_randomness_mean": 0.12927140036804807, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1792541534329454, "train/post_ent_mag": 55.04717630810208, "train/post_ent_max": 55.04717630810208, "train/post_ent_mean": 41.13961108525594, "train/post_ent_min": 19.323480473624336, "train/post_ent_std": 5.607035729620192, "train/prior_ent_mag": 76.36472935146756, "train/prior_ent_max": 76.36472935146756, "train/prior_ent_mean": 46.25368573930528, "train/prior_ent_min": 28.435974889331394, "train/prior_ent_std": 7.322216822041406, "train/rep_loss_mean": 5.11199935277303, "train/rep_loss_std": 8.755885832839542, "train/reward_avg": 0.03413764082102312, "train/reward_loss_mean": 0.05226175580173731, "train/reward_loss_std": 0.2071230351510975, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.019263807270262, "train/reward_neg_acc": 0.99411258349816, "train/reward_neg_loss": 0.024364234814937744, "train/reward_pos_acc": 0.9874964902798334, "train/reward_pos_loss": 0.7360628959205415, "train/reward_pred": 0.03370129407590462, "train/reward_rate": 0.03927951388888889, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33220484107732773, "replay/size": 453956.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.80327304204305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2602243158552382e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2405879497528, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.58039617538452, "timer/env.step_frac": 0.06854634916591884, "timer/env.step_avg": 0.014291941788461474, "timer/env.step_min": 0.003081083297729492, "timer/env.step_max": 1.7368273735046387, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27254652976989746, "timer/replay.add_frac": 0.0009077604451517723, "timer/replay.add_avg": 0.0001892684234513177, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0013582706451416016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029829025268554688, "timer/logger.write_frac": 9.935040919100107e-05, "timer/logger.write_avg": 0.029829025268554688, "timer/logger.write_min": 0.029829025268554688, "timer/logger.write_max": 0.029829025268554688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.406155824661255, "timer/agent.policy_frac": 0.03465939064308918, "timer/agent.policy_avg": 0.0072264971004592045, "timer/agent.policy_min": 0.005657672882080078, "timer/agent.policy_max": 0.016956806182861328, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06681036949157715, "timer/dataset_frac": 0.00022252277730936995, "timer/dataset_avg": 9.279217984941271e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020837783813476562, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.19082283973694, "timer/agent.train_frac": 0.8932530563942953, "timer/agent.train_avg": 0.37248725394407906, "timer/agent.train_min": 0.36580848693847656, "timer/agent.train_max": 0.4157373905181885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21904826164245605, "timer/agent.report_frac": 0.0007295757816698494, "timer/agent.report_avg": 0.21904826164245605, "timer/agent.report_min": 0.21904826164245605, "timer/agent.report_max": 0.21904826164245605, "fps": 4.796078980763388}
+{"step": 454150, "episode/length": 256.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.038910505836575876}
+{"step": 454358, "episode/length": 207.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04807692307692308}
+{"step": 454524, "episode/length": 165.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.0783132530120482}
+{"step": 454666, "episode/length": 141.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07042253521126761}
+{"step": 454867, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05472636815920398}
+{"step": 455037, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
+{"step": 455225, "episode/length": 187.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06382978723404255}
+{"step": 455467, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4742236667209205, "train/action_min": 0.0, "train/action_std": 3.3538683354854584, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045429852687650256, "train/actor_opt_grad_steps": 226825.0, "train/actor_opt_loss": -13.72596073564556, "train/adv_mag": 0.43596577934092945, "train/adv_max": 0.40185754125316936, "train/adv_mean": 0.0023012332566799566, "train/adv_min": -0.35938972731431323, "train/adv_std": 0.05121591811378797, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 5.111213412482366e-05, "train/cont_loss_std": 0.0015045433521478913, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004313081454288042, "train/cont_pos_acc": 0.9999863472249773, "train/cont_pos_loss": 2.177384210552999e-05, "train/cont_pred": 0.9946504483620325, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.051896578735775, "train/dyn_loss_std": 8.740874389807383, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0235499093929927, "train/extr_critic_critic_opt_grad_steps": 226825.0, "train/extr_critic_critic_opt_loss": 16236.504177517361, "train/extr_critic_mag": 9.921250767178005, "train/extr_critic_max": 9.921250767178005, "train/extr_critic_mean": 2.6001985950602426, "train/extr_critic_min": -0.5517383035686281, "train/extr_critic_std": 2.429690266648928, "train/extr_return_normed_mag": 1.4504043178425894, "train/extr_return_normed_max": 1.4504043178425894, "train/extr_return_normed_mean": 0.3730441669209136, "train/extr_return_normed_min": -0.08667716052797106, "train/extr_return_normed_std": 0.3291156180202961, "train/extr_return_rate": 0.7374738156795502, "train/extr_return_raw_mag": 10.694902658462524, "train/extr_return_raw_max": 10.694902658462524, "train/extr_return_raw_mean": 2.6174634446700416, "train/extr_return_raw_min": -0.8293284939395057, "train/extr_return_raw_std": 2.467739327086343, "train/extr_reward_mag": 1.0458302232954237, "train/extr_reward_max": 1.0458302232954237, "train/extr_reward_mean": 0.05100196713788642, "train/extr_reward_min": -0.6563274926609464, "train/extr_reward_std": 0.21873879142933422, "train/image_loss_mean": 3.0720750060346393, "train/image_loss_std": 8.289695507950253, "train/model_loss_mean": 6.154017408688863, "train/model_loss_std": 12.435516940222847, "train/model_opt_grad_norm": 29.30152572525872, "train/model_opt_grad_steps": 226644.0, "train/model_opt_loss": 9997.285725911459, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1631.9444444444443, "train/policy_entropy_mag": 2.5946682658460407, "train/policy_entropy_max": 2.5946682658460407, "train/policy_entropy_mean": 0.3869817683266269, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5373446519176165, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38798869484000736, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0073868582646053, "train/policy_randomness_mag": 0.9158040334781011, "train/policy_randomness_max": 0.9158040334781011, "train/policy_randomness_mean": 0.13658758056246573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18965908160640133, "train/post_ent_mag": 54.951745139227974, "train/post_ent_max": 54.951745139227974, "train/post_ent_mean": 41.048255655500625, "train/post_ent_min": 18.686774876382614, "train/post_ent_std": 5.576080183188121, "train/prior_ent_mag": 76.4476990169949, "train/prior_ent_max": 76.4476990169949, "train/prior_ent_mean": 46.11373986138238, "train/prior_ent_min": 28.298628727595013, "train/prior_ent_std": 7.33516487148073, "train/rep_loss_mean": 5.051896578735775, "train/rep_loss_std": 8.740874389807383, "train/reward_avg": 0.03403862819282545, "train/reward_loss_mean": 0.05075336449469129, "train/reward_loss_std": 0.20406963945262963, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0145912186967, "train/reward_neg_acc": 0.9943936806586053, "train/reward_neg_loss": 0.023372129504827574, "train/reward_pos_acc": 0.9875157392687268, "train/reward_pos_loss": 0.7270383677548833, "train/reward_pred": 0.033880085710229144, "train/reward_rate": 0.0389404296875, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3239376289503915, "replay/size": 455404.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.862282189216403e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259168702594483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0454738140106, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.01601767539978, "timer/env.step_frac": 0.06337711892027156, "timer/env.step_avg": 0.013132608891850677, "timer/env.step_min": 0.0030858516693115234, "timer/env.step_max": 1.6585991382598877, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27138781547546387, "timer/replay.add_frac": 0.0009044889497106335, "timer/replay.add_avg": 0.00018742252449962973, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0014088153839111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02982926368713379, "timer/logger.write_frac": 9.941580957033224e-05, "timer/logger.write_avg": 0.02982926368713379, "timer/logger.write_min": 0.02982926368713379, "timer/logger.write_max": 0.02982926368713379, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.47598910331726, "timer/agent.policy_frac": 0.034914671333489335, "timer/agent.policy_avg": 0.007234799104500871, "timer/agent.policy_min": 0.005664348602294922, "timer/agent.policy_max": 0.013300418853759766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06771302223205566, "timer/dataset_frac": 0.00022567586629894967, "timer/dataset_avg": 9.352627380118185e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.4763460159302, "timer/agent.train_frac": 0.8981183504970005, "timer/agent.train_avg": 0.37220489781205823, "timer/agent.train_min": 0.36638832092285156, "timer/agent.train_max": 0.3850839138031006, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2242724895477295, "timer/agent.report_frac": 0.0007474616653832593, "timer/agent.report_avg": 0.2242724895477295, "timer/agent.report_min": 0.2242724895477295, "timer/agent.report_max": 0.2242724895477295, "fps": 4.825858027768129}
+{"step": 455467, "episode/length": 241.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.0371900826446281}
+{"step": 455697, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05217391304347826}
+{"step": 455904, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.057971014492753624}
+{"step": 456083, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055865921787709494}
+{"step": 456250, "episode/length": 166.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0658682634730539}
+{"step": 456438, "episode/length": 187.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06382978723404255}
+{"step": 456614, "episode/length": 175.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.0625}
+{"step": 456677, "episode/length": 62.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09523809523809523}
+{"step": 456883, "stats/sum_log_reward": 8.975000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3692325670272112, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.555814501265405, "train/action_min": 0.0, "train/action_std": 3.411187877117748, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043455102756409576, "train/actor_opt_grad_steps": 227540.0, "train/actor_opt_loss": -14.932866413828354, "train/adv_mag": 0.43552805210503054, "train/adv_max": 0.38274199232249195, "train/adv_mean": 0.0011097093866596942, "train/adv_min": -0.38431828290643827, "train/adv_std": 0.049492555499916345, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 0.00012739768990614644, "train/cont_loss_std": 0.004053808889207784, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.020131255927116027, "train/cont_pos_acc": 0.9999861146362734, "train/cont_pos_loss": 1.1054218644921587e-05, "train/cont_pred": 0.9948780419121326, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 4.959200422528764, "train/dyn_loss_std": 8.661415791847336, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0433659696243178, "train/extr_critic_critic_opt_grad_steps": 227540.0, "train/extr_critic_critic_opt_loss": 16254.839334837148, "train/extr_critic_mag": 9.869360641694405, "train/extr_critic_max": 9.869360641694405, "train/extr_critic_mean": 2.537903948568962, "train/extr_critic_min": -0.5205215669014085, "train/extr_critic_std": 2.399186997346475, "train/extr_return_normed_mag": 1.418770645705747, "train/extr_return_normed_max": 1.418770645705747, "train/extr_return_normed_mean": 0.36018515619593605, "train/extr_return_normed_min": -0.08899230389317996, "train/extr_return_normed_std": 0.3208433272133411, "train/extr_return_rate": 0.7355909280374017, "train/extr_return_raw_mag": 10.540426093088069, "train/extr_return_raw_max": 10.540426093088069, "train/extr_return_raw_mean": 2.5463138365409743, "train/extr_return_raw_min": -0.845693482479579, "train/extr_return_raw_std": 2.4232142827880216, "train/extr_reward_mag": 1.0450406410324742, "train/extr_reward_max": 1.0450406410324742, "train/extr_reward_mean": 0.051156407510730584, "train/extr_reward_min": -0.6462918654294081, "train/extr_reward_std": 0.21832075778027654, "train/image_loss_mean": 2.899465411481723, "train/image_loss_std": 7.721010517066633, "train/model_loss_mean": 5.924374331890697, "train/model_loss_std": 11.885086287914866, "train/model_opt_grad_norm": 30.628312433269663, "train/model_opt_grad_steps": 227358.1971830986, "train/model_opt_loss": 8937.268004511443, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1496.4788732394366, "train/policy_entropy_mag": 2.591893175957908, "train/policy_entropy_max": 2.591893175957908, "train/policy_entropy_mean": 0.3941359922919475, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5523835601101459, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39396530305835564, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 1.0125359321983767, "train/policy_randomness_mag": 0.9148245487414616, "train/policy_randomness_max": 0.9148245487414616, "train/policy_randomness_mean": 0.13911270958856797, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19496715824368974, "train/post_ent_mag": 54.88927223313023, "train/post_ent_max": 54.88927223313023, "train/post_ent_mean": 41.117231073513835, "train/post_ent_min": 18.799336997556015, "train/post_ent_std": 5.5618683318017235, "train/prior_ent_mag": 76.37327006165411, "train/prior_ent_max": 76.37327006165411, "train/prior_ent_mean": 46.071839829565775, "train/prior_ent_min": 28.67807458152234, "train/prior_ent_std": 7.278876324774513, "train/rep_loss_mean": 4.959200422528764, "train/rep_loss_std": 8.661415791847336, "train/reward_avg": 0.03383720249042545, "train/reward_loss_mean": 0.04926135467076805, "train/reward_loss_std": 0.20224509986353592, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0160243662310318, "train/reward_neg_acc": 0.9948408444162825, "train/reward_neg_loss": 0.022041992612288033, "train/reward_pos_acc": 0.9855996370315552, "train/reward_pos_loss": 0.7325810689321706, "train/reward_pred": 0.03358200210815584, "train/reward_rate": 0.03840228873239437, "replay/size": 456820.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.775634334585761e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2527498821754241e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1854681968689, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.011035680770874, "timer/env.step_frac": 0.07665606139761462, "timer/env.step_avg": 0.01625073141297378, "timer/env.step_min": 0.0031020641326904297, "timer/env.step_max": 2.668846845626831, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2815515995025635, "timer/replay.add_frac": 0.0009379254805163157, "timer/replay.add_avg": 0.00019883587535491772, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0018703937530517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028306007385253906, "timer/logger.write_frac": 9.42950621670005e-05, "timer/logger.write_avg": 0.028306007385253906, "timer/logger.write_min": 0.028306007385253906, "timer/logger.write_max": 0.028306007385253906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000385284423828125, "timer/checkpoint.save_frac": 1.283487925456292e-06, "timer/checkpoint.save_avg": 0.000385284423828125, "timer/checkpoint.save_min": 0.000385284423828125, "timer/checkpoint.save_max": 0.000385284423828125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4457168579101562, "timer/agent.save_frac": 0.00481607876155424, "timer/agent.save_avg": 1.4457168579101562, "timer/agent.save_min": 1.4457168579101562, "timer/agent.save_max": 1.4457168579101562, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4462517391122396e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.395634889602661, "timer/agent.policy_frac": 0.04129325434725342, "timer/agent.policy_avg": 0.008753979441809789, "timer/agent.policy_min": 0.00566411018371582, "timer/agent.policy_max": 1.4364817142486572, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0650930404663086, "timer/dataset_frac": 0.0002168427434455921, "timer/dataset_avg": 9.193932269252627e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00026917457580566406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.6905643939972, "timer/agent.train_frac": 0.8784254813462941, "timer/agent.train_avg": 0.37244429999152145, "timer/agent.train_min": 0.36566948890686035, "timer/agent.train_max": 0.47445082664489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22130203247070312, "timer/agent.report_frac": 0.0007372176734603552, "timer/agent.report_avg": 0.22130203247070312, "timer/agent.report_min": 0.22130203247070312, "timer/agent.report_max": 0.22130203247070312, "fps": 4.717018829248867}
+{"step": 456889, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06132075471698113}
+{"step": 457056, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.0658682634730539}
+{"step": 457231, "episode/length": 174.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06857142857142857}
+{"step": 457424, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
+{"step": 457690, "episode/length": 265.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03383458646616541}
+{"step": 457891, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.04975124378109453}
+{"step": 458064, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04046242774566474}
+{"step": 458321, "episode/length": 256.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.054474708171206226}
+{"step": 458325, "stats/sum_log_reward": 9.475000321865082, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.35282026790082455, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605892605251736, "train/action_min": 0.0, "train/action_std": 3.4567157328128815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0449342781988283, "train/actor_opt_grad_steps": 228255.0, "train/actor_opt_loss": -13.06145308415095, "train/adv_mag": 0.45990019539992016, "train/adv_max": 0.41749778389930725, "train/adv_mean": 0.0025813276473248456, "train/adv_min": -0.37796567918525803, "train/adv_std": 0.051170703075412244, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 2.145157161967701e-05, "train/cont_loss_std": 0.0005812832716256051, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006238998845920681, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.735698217113995e-05, "train/cont_pred": 0.9944549798965454, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 5.0085765851868524, "train/dyn_loss_std": 8.632044004069435, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0007576164272096, "train/extr_critic_critic_opt_grad_steps": 228255.0, "train/extr_critic_critic_opt_loss": 16247.959147135416, "train/extr_critic_mag": 9.797253754403856, "train/extr_critic_max": 9.797253754403856, "train/extr_critic_mean": 2.463072912560569, "train/extr_critic_min": -0.5256297224097781, "train/extr_critic_std": 2.385724122325579, "train/extr_return_normed_mag": 1.4601166248321533, "train/extr_return_normed_max": 1.4601166248321533, "train/extr_return_normed_mean": 0.3632502102603515, "train/extr_return_normed_min": -0.0900243159590496, "train/extr_return_normed_std": 0.33050692081451416, "train/extr_return_rate": 0.7206335390607516, "train/extr_return_raw_mag": 10.507826964060465, "train/extr_return_raw_max": 10.507826964060465, "train/extr_return_raw_mean": 2.4819729957315655, "train/extr_return_raw_min": -0.8343793509735001, "train/extr_return_raw_std": 2.418296209639973, "train/extr_reward_mag": 1.0497790045208402, "train/extr_reward_max": 1.0497790045208402, "train/extr_reward_mean": 0.05078452473713292, "train/extr_reward_min": -0.6380079868766997, "train/extr_reward_std": 0.2189292253719436, "train/image_loss_mean": 3.101084124710825, "train/image_loss_std": 8.014869524372948, "train/model_loss_mean": 6.15655720896191, "train/model_loss_std": 12.112562470965916, "train/model_opt_grad_norm": 30.349197334713406, "train/model_opt_grad_steps": 228073.0, "train/model_opt_loss": 10874.733242458768, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1753.4722222222222, "train/policy_entropy_mag": 2.59449146522416, "train/policy_entropy_max": 2.59449146522416, "train/policy_entropy_mean": 0.4079018843670686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5644891295168135, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40798701387312675, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.022543364100986, "train/policy_randomness_mag": 0.9157416307263904, "train/policy_randomness_max": 0.9157416307263904, "train/policy_randomness_mean": 0.14397146490712961, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19923989267812836, "train/post_ent_mag": 54.95720026228163, "train/post_ent_max": 54.95720026228163, "train/post_ent_mean": 41.10480880737305, "train/post_ent_min": 19.001255061891342, "train/post_ent_std": 5.554118719365862, "train/prior_ent_mag": 76.39503235287137, "train/prior_ent_max": 76.39503235287137, "train/prior_ent_mean": 46.136592388153076, "train/prior_ent_min": 28.68824126985338, "train/prior_ent_std": 7.326499846246508, "train/rep_loss_mean": 5.0085765851868524, "train/rep_loss_std": 8.632044004069435, "train/reward_avg": 0.03314344595289893, "train/reward_loss_mean": 0.050305746547463864, "train/reward_loss_std": 0.1992034881065289, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0226296666595671, "train/reward_neg_acc": 0.9943777223428091, "train/reward_neg_loss": 0.023721523220754333, "train/reward_pos_acc": 0.9923043747742971, "train/reward_pos_loss": 0.7193837496969435, "train/reward_pred": 0.03296170309962084, "train/reward_rate": 0.0382080078125, "replay/size": 458262.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7894004260948064e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2457246753941298e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0720372200012, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.374369382858276, "timer/env.step_frac": 0.0678982606030717, "timer/env.step_avg": 0.014129243677432924, "timer/env.step_min": 0.00299835205078125, "timer/env.step_max": 1.6530461311340332, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25908780097961426, "timer/replay.add_frac": 0.0008634186756617415, "timer/replay.add_avg": 0.00017967253882081433, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0011227130889892578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02884221076965332, "timer/logger.write_frac": 9.611762241113899e-05, "timer/logger.write_avg": 0.02884221076965332, "timer/logger.write_min": 0.02884221076965332, "timer/logger.write_max": 0.02884221076965332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.376999855041504, "timer/agent.policy_frac": 0.03458169561942051, "timer/agent.policy_avg": 0.007196255100583567, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.015275955200195312, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06622767448425293, "timer/dataset_frac": 0.0002207059181449065, "timer/dataset_avg": 9.185530441643957e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00019788742065429688, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.2709650993347, "timer/agent.train_frac": 0.8940218741629992, "timer/agent.train_avg": 0.3720817823846529, "timer/agent.train_min": 0.36637139320373535, "timer/agent.train_max": 0.383512020111084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200336456298828, "timer/agent.report_frac": 0.0007332694098002962, "timer/agent.report_avg": 0.2200336456298828, "timer/agent.report_min": 0.2200336456298828, "timer/agent.report_max": 0.2200336456298828, "fps": 4.805410823742}
+{"step": 458506, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05945945945945946}
+{"step": 458670, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
+{"step": 458819, "episode/length": 148.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.08053691275167785}
+{"step": 459238, "episode/length": 418.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.021479713603818614}
+{"step": 459558, "episode/length": 319.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.040625}
+{"step": 459789, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.567937145494435, "train/action_min": 0.0, "train/action_std": 3.4122119995012676, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04555864479035547, "train/actor_opt_grad_steps": 228980.0, "train/actor_opt_loss": -12.315362547766673, "train/adv_mag": 0.46437264223621316, "train/adv_max": 0.4033005727480536, "train/adv_mean": 0.002454071929530808, "train/adv_min": -0.40622723837421365, "train/adv_std": 0.051149360835552216, "train/cont_avg": 0.9941540025684932, "train/cont_loss_mean": 7.489035063396424e-05, "train/cont_loss_std": 0.002286212699473627, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.014828656112027378, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.5000803801072298e-05, "train/cont_pred": 0.9941581046744569, "train/cont_rate": 0.9941540025684932, "train/dyn_loss_mean": 5.161208629608154, "train/dyn_loss_std": 8.742625216915183, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0284243373021686, "train/extr_critic_critic_opt_grad_steps": 228980.0, "train/extr_critic_critic_opt_loss": 16277.930142337329, "train/extr_critic_mag": 9.821071807652304, "train/extr_critic_max": 9.821071807652304, "train/extr_critic_mean": 2.511634307364895, "train/extr_critic_min": -0.5603041109973437, "train/extr_critic_std": 2.4324980582276434, "train/extr_return_normed_mag": 1.4431097997377997, "train/extr_return_normed_max": 1.4431097997377997, "train/extr_return_normed_mean": 0.3671271800994873, "train/extr_return_normed_min": -0.09665116907594955, "train/extr_return_normed_std": 0.3337582821307117, "train/extr_return_rate": 0.7166613520008244, "train/extr_return_raw_mag": 10.487761262344987, "train/extr_return_raw_max": 10.487761262344987, "train/extr_return_raw_mean": 2.5298066923063094, "train/extr_return_raw_min": -0.8998908914931832, "train/extr_return_raw_std": 2.467914288991118, "train/extr_reward_mag": 1.0514395726870185, "train/extr_reward_max": 1.0514395726870185, "train/extr_reward_mean": 0.05084284841503999, "train/extr_reward_min": -0.7016095298610322, "train/extr_reward_std": 0.2197626820982319, "train/image_loss_mean": 3.2277669155434388, "train/image_loss_std": 7.96974119421554, "train/model_loss_mean": 6.376327939229469, "train/model_loss_std": 12.12548232405153, "train/model_opt_grad_norm": 30.310070416698718, "train/model_opt_grad_steps": 228797.98630136985, "train/model_opt_loss": 16136.879481485445, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.592369687067319, "train/policy_entropy_max": 2.592369687067319, "train/policy_entropy_mean": 0.405269469504487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5592880200033319, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40530462971288866, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0202821827914617, "train/policy_randomness_mag": 0.9149927382599817, "train/policy_randomness_max": 0.9149927382599817, "train/policy_randomness_mean": 0.1430423354653463, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19740412578190844, "train/post_ent_mag": 54.7934312167233, "train/post_ent_max": 54.7934312167233, "train/post_ent_mean": 41.14807134131863, "train/post_ent_min": 19.01647043881351, "train/post_ent_std": 5.653412453115803, "train/prior_ent_mag": 76.39614742749357, "train/prior_ent_max": 76.39614742749357, "train/prior_ent_mean": 46.31828825441125, "train/prior_ent_min": 28.469489842245025, "train/prior_ent_std": 7.362053773174547, "train/rep_loss_mean": 5.161208629608154, "train/rep_loss_std": 8.742625216915183, "train/reward_avg": 0.03402183169167336, "train/reward_loss_mean": 0.05176091729982259, "train/reward_loss_std": 0.20355570377552346, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0186075968285129, "train/reward_neg_acc": 0.9948072564111997, "train/reward_neg_loss": 0.023691325295359306, "train/reward_pos_acc": 0.9872575263454489, "train/reward_pos_loss": 0.7360402566112884, "train/reward_pred": 0.0335319382329918, "train/reward_rate": 0.03931667380136986, "stats/sum_log_reward": 9.100000095367431, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 7.8, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 6.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 7.6, "stats/max_log_achievement_place_table": 1.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5517230331897736, "replay/size": 459726.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.7868491938856783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2588427692163186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2909321784973, "timer/env.step_count": 1464.0, "timer/env.step_total": 15.993937253952026, "timer/env.step_frac": 0.05326147259233588, "timer/env.step_avg": 0.010924820528655756, "timer/env.step_min": 0.003032684326171875, "timer/env.step_max": 1.6649138927459717, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26900267601013184, "timer/replay.add_frac": 0.0008958068565661275, "timer/replay.add_avg": 0.00018374499727468022, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0011649131774902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030583620071411133, "timer/logger.write_frac": 0.00010184663202960714, "timer/logger.write_avg": 0.030583620071411133, "timer/logger.write_min": 0.030583620071411133, "timer/logger.write_max": 0.030583620071411133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.678351163864136, "timer/agent.policy_frac": 0.035560018700520626, "timer/agent.policy_avg": 0.007293955713021951, "timer/agent.policy_min": 0.005751848220825195, "timer/agent.policy_max": 0.015997648239135742, "timer/dataset_count": 732.0, "timer/dataset_total": 0.0672607421875, "timer/dataset_frac": 0.000223985258893929, "timer/dataset_avg": 9.188625981898907e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00021457672119140625, "timer/agent.train_count": 732.0, "timer/agent.train_total": 272.5503523349762, "timer/agent.train_frac": 0.9076209872796568, "timer/agent.train_avg": 0.37233654690570517, "timer/agent.train_min": 0.3664419651031494, "timer/agent.train_max": 0.3832242488861084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22420692443847656, "timer/agent.report_frac": 0.000746632350207647, "timer/agent.report_avg": 0.22420692443847656, "timer/agent.report_min": 0.22420692443847656, "timer/agent.report_max": 0.22420692443847656, "fps": 4.8751826907005205}
+{"step": 459896, "episode/length": 337.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03550295857988166}
+{"step": 460048, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 460325, "episode/length": 276.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04693140794223827}
+{"step": 460562, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.029535864978902954}
+{"step": 460730, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
+{"step": 460906, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06818181818181818}
+{"step": 461221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549459669325087, "train/action_min": 0.0, "train/action_std": 3.4006690217389, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044881951012131244, "train/actor_opt_grad_steps": 229705.0, "train/actor_opt_loss": -13.986688976693484, "train/adv_mag": 0.4491858213312096, "train/adv_max": 0.4222758693827523, "train/adv_mean": 0.001721825196657139, "train/adv_min": -0.3694029152393341, "train/adv_std": 0.05070116169129809, "train/cont_avg": 0.9942898220486112, "train/cont_loss_mean": 2.0718480507911056e-05, "train/cont_loss_std": 0.0005881177754945258, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.005062947077463933, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 5.371429047132084e-06, "train/cont_pred": 0.9942943735255135, "train/cont_rate": 0.9942898220486112, "train/dyn_loss_mean": 4.877830968962775, "train/dyn_loss_std": 8.607435895336998, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0577393993735313, "train/extr_critic_critic_opt_grad_steps": 229705.0, "train/extr_critic_critic_opt_loss": 16260.850355360242, "train/extr_critic_mag": 9.967507031228807, "train/extr_critic_max": 9.967507031228807, "train/extr_critic_mean": 2.574987447924084, "train/extr_critic_min": -0.5456047207117081, "train/extr_critic_std": 2.460325413280063, "train/extr_return_normed_mag": 1.4556499769290288, "train/extr_return_normed_max": 1.4556499769290288, "train/extr_return_normed_mean": 0.37071001591781777, "train/extr_return_normed_min": -0.09349646636595328, "train/extr_return_normed_std": 0.3334930350797044, "train/extr_return_rate": 0.732961737861236, "train/extr_return_raw_mag": 10.700877745946249, "train/extr_return_raw_max": 10.700877745946249, "train/extr_return_raw_mean": 2.587858277890417, "train/extr_return_raw_min": -0.8847641083929274, "train/extr_return_raw_std": 2.4945506718423633, "train/extr_reward_mag": 1.0481764939096239, "train/extr_reward_max": 1.0481764939096239, "train/extr_reward_mean": 0.0497011573623038, "train/extr_reward_min": -0.6630986250109143, "train/extr_reward_std": 0.2172511476609442, "train/image_loss_mean": 2.915651351213455, "train/image_loss_std": 7.698798371685876, "train/model_loss_mean": 5.893580198287964, "train/model_loss_std": 11.791052222251892, "train/model_opt_grad_norm": 28.646232657962376, "train/model_opt_grad_steps": 229522.0, "train/model_opt_loss": 14733.950507269965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.57738435599539, "train/policy_entropy_max": 2.57738435599539, "train/policy_entropy_mean": 0.4002489931881428, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5457978972958194, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39991616519788903, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0130125797457166, "train/policy_randomness_mag": 0.9097035701076189, "train/policy_randomness_max": 0.9097035701076189, "train/policy_randomness_mean": 0.14127032986531654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19264270758463276, "train/post_ent_mag": 54.963901943630646, "train/post_ent_max": 54.963901943630646, "train/post_ent_mean": 41.23994731903076, "train/post_ent_min": 19.004847407341003, "train/post_ent_std": 5.611514978938633, "train/prior_ent_mag": 76.3936358557807, "train/prior_ent_max": 76.3936358557807, "train/prior_ent_mean": 46.15124008390639, "train/prior_ent_min": 28.748075485229492, "train/prior_ent_std": 7.242772897084554, "train/rep_loss_mean": 4.877830968962775, "train/rep_loss_std": 8.607435895336998, "train/reward_avg": 0.034159342396176524, "train/reward_loss_mean": 0.051209567269931235, "train/reward_loss_std": 0.20837989387412867, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0133409433894687, "train/reward_neg_acc": 0.9946805677480168, "train/reward_neg_loss": 0.023647070694197383, "train/reward_pos_acc": 0.9875538688566949, "train/reward_pos_loss": 0.7285806743635072, "train/reward_pred": 0.034023823475258216, "train/reward_rate": 0.039143880208333336, "stats/sum_log_reward": 9.43333331743876, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4893900652726491, "replay/size": 461158.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7822310484987397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2614582170987262e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03296089172363, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.818816423416138, "timer/env.step_frac": 0.059389529638534014, "timer/env.step_avg": 0.012443307558251493, "timer/env.step_min": 0.003116130828857422, "timer/env.step_max": 1.6573419570922852, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27582669258117676, "timer/replay.add_frac": 0.0009193213031041531, "timer/replay.add_avg": 0.00019261640543378266, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0017080307006835938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028068065643310547, "timer/logger.write_frac": 9.354994051283517e-05, "timer/logger.write_avg": 0.028068065643310547, "timer/logger.write_min": 0.028068065643310547, "timer/logger.write_max": 0.028068065643310547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003635883331298828, "timer/checkpoint.save_frac": 1.2118279673315464e-06, "timer/checkpoint.save_avg": 0.0003635883331298828, "timer/checkpoint.save_min": 0.0003635883331298828, "timer/checkpoint.save_max": 0.0003635883331298828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3406445980072021, "timer/agent.save_frac": 0.0044683243935022725, "timer/agent.save_avg": 1.3406445980072021, "timer/agent.save_min": 1.3406445980072021, "timer/agent.save_max": 1.3406445980072021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.799003601074219e-05, "timer/replay.save_frac": 3.265975702119774e-07, "timer/replay.save_avg": 9.799003601074219e-05, "timer/replay.save_min": 9.799003601074219e-05, "timer/replay.save_max": 9.799003601074219e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 14.441113710403442, "timer/agent.policy_frac": 0.04813175748252198, "timer/agent.policy_avg": 0.010084576613410225, "timer/agent.policy_min": 0.005677461624145508, "timer/agent.policy_max": 2.7487831115722656, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06691431999206543, "timer/dataset_frac": 0.00022302322982511769, "timer/dataset_avg": 9.345575417886234e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.70967507362366, "timer/agent.train_frac": 0.8889345833235778, "timer/agent.train_avg": 0.3724995461922118, "timer/agent.train_min": 0.3652951717376709, "timer/agent.train_max": 0.4144861698150635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21944212913513184, "timer/agent.report_frac": 0.000731393405854247, "timer/agent.report_avg": 0.21944212913513184, "timer/agent.report_min": 0.21944212913513184, "timer/agent.report_max": 0.21944212913513184, "fps": 4.772741183845269}
+{"step": 461329, "episode/length": 422.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.030732860520094562}
+{"step": 461562, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05150214592274678}
+{"step": 461726, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
+{"step": 461892, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0783132530120482}
+{"step": 462137, "episode/length": 244.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.044897959183673466}
+{"step": 462362, "episode/length": 224.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.057777777777777775}
+{"step": 462520, "episode/length": 157.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.700000062584877, "episode/reward_rate": 0.06329113924050633}
+{"step": 462669, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.555474175347222, "train/action_min": 0.0, "train/action_std": 3.42873376276758, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0453952910999457, "train/actor_opt_grad_steps": 230425.0, "train/actor_opt_loss": -12.74997459517585, "train/adv_mag": 0.4416543319821358, "train/adv_max": 0.3762409980926249, "train/adv_mean": 0.0030694613479782776, "train/adv_min": -0.38740369367102784, "train/adv_std": 0.051247685216367245, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 5.7564069916477616e-05, "train/cont_loss_std": 0.001734657524475362, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00038491173410509164, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 5.562350236153356e-05, "train/cont_pred": 0.9945369900928603, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 5.066532105207443, "train/dyn_loss_std": 8.740434421433342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.048877394033803, "train/extr_critic_critic_opt_grad_steps": 230425.0, "train/extr_critic_critic_opt_loss": 16552.971232096355, "train/extr_critic_mag": 9.89845093091329, "train/extr_critic_max": 9.89845093091329, "train/extr_critic_mean": 2.543723338180118, "train/extr_critic_min": -0.5705204606056213, "train/extr_critic_std": 2.435368612408638, "train/extr_return_normed_mag": 1.4483053998814688, "train/extr_return_normed_max": 1.4483053998814688, "train/extr_return_normed_mean": 0.3693831269111898, "train/extr_return_normed_min": -0.09654835601233774, "train/extr_return_normed_std": 0.3318808459573322, "train/extr_return_rate": 0.7344148258368174, "train/extr_return_raw_mag": 10.599940684106615, "train/extr_return_raw_max": 10.599940684106615, "train/extr_return_raw_mean": 2.566578358411789, "train/extr_return_raw_min": -0.9026089732845625, "train/extr_return_raw_std": 2.4712098009056516, "train/extr_reward_mag": 1.052831123272578, "train/extr_reward_max": 1.052831123272578, "train/extr_reward_mean": 0.05199391974343194, "train/extr_reward_min": -0.6888012770149443, "train/extr_reward_std": 0.2208059291458792, "train/image_loss_mean": 2.99722448653645, "train/image_loss_std": 8.038107388549381, "train/model_loss_mean": 6.088873240682814, "train/model_loss_std": 12.222257792949677, "train/model_opt_grad_norm": 29.798026716205435, "train/model_opt_grad_steps": 230241.54166666666, "train/model_opt_loss": 17719.324557834203, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.590871741374334, "train/policy_entropy_max": 2.590871741374334, "train/policy_entropy_mean": 0.395518031799131, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5535670005612903, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39528581044740146, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0120846993393369, "train/policy_randomness_mag": 0.9144640266895294, "train/policy_randomness_max": 0.9144640266895294, "train/policy_randomness_mean": 0.13960050770805943, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19538485817611217, "train/post_ent_mag": 55.1555495791965, "train/post_ent_max": 55.1555495791965, "train/post_ent_mean": 41.145969761742485, "train/post_ent_min": 18.584881014294094, "train/post_ent_std": 5.610639201270209, "train/prior_ent_mag": 76.4828085369534, "train/prior_ent_max": 76.4828085369534, "train/prior_ent_mean": 46.19243023130629, "train/prior_ent_min": 28.061463408999973, "train/prior_ent_std": 7.336052861478594, "train/rep_loss_mean": 5.066532105207443, "train/rep_loss_std": 8.740434421433342, "train/reward_avg": 0.03566080704331398, "train/reward_loss_mean": 0.051671867465807333, "train/reward_loss_std": 0.20759171268178356, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.022082183096144, "train/reward_neg_acc": 0.9945722197492918, "train/reward_neg_loss": 0.023048068293266825, "train/reward_pos_acc": 0.9892152059409354, "train/reward_pos_loss": 0.7282641372746892, "train/reward_pred": 0.035441579659365945, "train/reward_rate": 0.04050021701388889, "stats/sum_log_reward": 10.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.35087305094514576, "replay/size": 462606.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.717222266434306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516152134257785e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10168290138245, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.18785285949707, "timer/env.step_frac": 0.06393783824865275, "timer/env.step_avg": 0.013251279599100187, "timer/env.step_min": 0.002900838851928711, "timer/env.step_max": 1.7113397121429443, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26236653327941895, "timer/replay.add_frac": 0.0008742587870313151, "timer/replay.add_avg": 0.00018119235723716777, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012919902801513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0309598445892334, "timer/logger.write_frac": 0.0001031645150734034, "timer/logger.write_avg": 0.0309598445892334, "timer/logger.write_min": 0.0309598445892334, "timer/logger.write_max": 0.0309598445892334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.448134899139404, "timer/agent.policy_frac": 0.03481531592267947, "timer/agent.policy_avg": 0.00721556277564876, "timer/agent.policy_min": 0.0056400299072265625, "timer/agent.policy_max": 0.020771265029907227, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0665287971496582, "timer/dataset_frac": 0.0002216875177321831, "timer/dataset_avg": 9.189060379787044e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.4104690551758, "timer/agent.train_frac": 0.8977306173378167, "timer/agent.train_avg": 0.3721139075347732, "timer/agent.train_min": 0.3657515048980713, "timer/agent.train_max": 0.384415864944458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22115039825439453, "timer/agent.report_frac": 0.000736918220905371, "timer/agent.report_avg": 0.22115039825439453, "timer/agent.report_min": 0.22115039825439453, "timer/agent.report_max": 0.22115039825439453, "fps": 4.824952743885607}
+{"step": 462678, "episode/length": 157.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06962025316455696}
+{"step": 462857, "episode/length": 178.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.07262569832402235}
+{"step": 463018, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
+{"step": 463212, "episode/length": 193.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05670103092783505}
+{"step": 463445, "episode/length": 232.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05150214592274678}
+{"step": 463590, "episode/length": 144.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.07586206896551724}
+{"step": 463808, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05963302752293578}
+{"step": 464001, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06217616580310881}
+{"step": 464107, "stats/sum_log_reward": 10.850000381469727, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.625, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33012825064361095, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551947699652778, "train/action_min": 0.0, "train/action_std": 3.4098495774798923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0449063662543065, "train/actor_opt_grad_steps": 231145.0, "train/actor_opt_loss": -12.221849272648493, "train/adv_mag": 0.41417280460397404, "train/adv_max": 0.37579211178753114, "train/adv_mean": 0.003160314773089744, "train/adv_min": -0.36015240020222133, "train/adv_std": 0.0513673708256748, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 1.892948588870051e-05, "train/cont_loss_std": 0.0005582749068003699, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005105715149511525, "train/cont_pos_acc": 0.9999863555034002, "train/cont_pos_loss": 1.7471852493776572e-05, "train/cont_pred": 0.9948895110024346, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.101201395193736, "train/dyn_loss_std": 8.712401654985216, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0561341899964545, "train/extr_critic_critic_opt_grad_steps": 231145.0, "train/extr_critic_critic_opt_loss": 16594.717447916668, "train/extr_critic_mag": 10.060359530978733, "train/extr_critic_max": 10.060359530978733, "train/extr_critic_mean": 2.5589152210288577, "train/extr_critic_min": -0.5480989168087641, "train/extr_critic_std": 2.464521828624937, "train/extr_return_normed_mag": 1.453053245941798, "train/extr_return_normed_max": 1.453053245941798, "train/extr_return_normed_mean": 0.36407903726730084, "train/extr_return_normed_min": -0.08722710676698221, "train/extr_return_normed_std": 0.3298926332758533, "train/extr_return_rate": 0.7234330177307129, "train/extr_return_raw_mag": 10.847007234891256, "train/extr_return_raw_max": 10.847007234891256, "train/extr_return_raw_mean": 2.5828638209236994, "train/extr_return_raw_min": -0.8431068865789307, "train/extr_return_raw_std": 2.5039090149932437, "train/extr_reward_mag": 1.0464378462897406, "train/extr_reward_max": 1.0464378462897406, "train/extr_reward_mean": 0.052823012229055166, "train/extr_reward_min": -0.6664724515544044, "train/extr_reward_std": 0.2222474885897504, "train/image_loss_mean": 3.182063736849361, "train/image_loss_std": 8.240239779154459, "train/model_loss_mean": 6.292367392116123, "train/model_loss_std": 12.390423032972548, "train/model_opt_grad_norm": 32.5243603653378, "train/model_opt_grad_steps": 230960.83333333334, "train/model_opt_loss": 14354.224941677518, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.617945830027262, "train/policy_entropy_max": 2.617945830027262, "train/policy_entropy_mean": 0.4104432695441776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5670514677961668, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4108368667463462, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0255704041984346, "train/policy_randomness_mag": 0.9240199906958474, "train/policy_randomness_max": 0.9240199906958474, "train/policy_randomness_mean": 0.1448684606908096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20014428419785368, "train/post_ent_mag": 55.21400409274631, "train/post_ent_max": 55.21400409274631, "train/post_ent_mean": 41.1581769519382, "train/post_ent_min": 18.845624870724148, "train/post_ent_std": 5.61223167181015, "train/prior_ent_mag": 76.39365990956624, "train/prior_ent_max": 76.39365990956624, "train/prior_ent_mean": 46.23957120047675, "train/prior_ent_min": 28.380022366841633, "train/prior_ent_std": 7.324667069647047, "train/rep_loss_mean": 5.101201395193736, "train/rep_loss_std": 8.712401654985216, "train/reward_avg": 0.034841580031853586, "train/reward_loss_mean": 0.04956386714345879, "train/reward_loss_std": 0.20159053885274464, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0242505570252736, "train/reward_neg_acc": 0.994988782538308, "train/reward_neg_loss": 0.02161603463658442, "train/reward_pos_acc": 0.9873747643497255, "train/reward_pos_loss": 0.7330564922756619, "train/reward_pred": 0.03450692604140689, "train/reward_rate": 0.039374457465277776, "replay/size": 464044.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.849017603506796e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2729612278838814e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28322529792786, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.717838764190674, "timer/env.step_frac": 0.06899432608543266, "timer/env.step_avg": 0.014407398306113125, "timer/env.step_min": 0.003204345703125, "timer/env.step_max": 1.7348337173461914, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.27794575691223145, "timer/replay.add_frac": 0.0009256120005919939, "timer/replay.add_avg": 0.00019328633999459767, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0009512901306152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028400897979736328, "timer/logger.write_frac": 9.458036808935365e-05, "timer/logger.write_avg": 0.028400897979736328, "timer/logger.write_min": 0.028400897979736328, "timer/logger.write_max": 0.028400897979736328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.588629961013794, "timer/agent.policy_frac": 0.03526214276707671, "timer/agent.policy_avg": 0.007363442253834349, "timer/agent.policy_min": 0.005708217620849609, "timer/agent.policy_max": 0.01846623420715332, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06829071044921875, "timer/dataset_frac": 0.00022742099689872352, "timer/dataset_avg": 9.498012579863526e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00020456314086914062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.88581943511963, "timer/agent.train_frac": 0.8921105039062207, "timer/agent.train_avg": 0.37258111187082005, "timer/agent.train_min": 0.36560869216918945, "timer/agent.train_max": 0.3829782009124756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22240400314331055, "timer/agent.report_frac": 0.000740647443501551, "timer/agent.report_avg": 0.22240400314331055, "timer/agent.report_min": 0.22240400314331055, "timer/agent.report_max": 0.22240400314331055, "fps": 4.7887154920353}
+{"step": 464392, "episode/length": 390.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.030690537084398978}
+{"step": 464593, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
+{"step": 464795, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.039603960396039604}
+{"step": 464984, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05291005291005291}
+{"step": 465044, "episode/length": 59.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.11666666666666667}
+{"step": 465240, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07142857142857142}
+{"step": 465421, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06629834254143646}
+{"step": 465525, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.601314920774648, "train/action_min": 0.0, "train/action_std": 3.398034243516519, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04402919837706525, "train/actor_opt_grad_steps": 231860.0, "train/actor_opt_loss": -14.410160014327143, "train/adv_mag": 0.48177177721345926, "train/adv_max": 0.38665246795600566, "train/adv_mean": 0.001720463772715089, "train/adv_min": -0.43957318638412046, "train/adv_std": 0.04906031998320365, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 8.547448441786272e-05, "train/cont_loss_std": 0.0021812803346865045, "train/cont_neg_acc": 0.995171027284273, "train/cont_neg_loss": 0.009836693537293504, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 2.3709990210898493e-05, "train/cont_pred": 0.9946700452079236, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.093494885404345, "train/dyn_loss_std": 8.71649816674246, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0521732157384847, "train/extr_critic_critic_opt_grad_steps": 231860.0, "train/extr_critic_critic_opt_loss": 16366.537769586268, "train/extr_critic_mag": 10.019479241169675, "train/extr_critic_max": 10.019479241169675, "train/extr_critic_mean": 2.4543397611295674, "train/extr_critic_min": -0.5370085256200441, "train/extr_critic_std": 2.430846226047462, "train/extr_return_normed_mag": 1.4417757635385218, "train/extr_return_normed_max": 1.4417757635385218, "train/extr_return_normed_mean": 0.3513873435661826, "train/extr_return_normed_min": -0.091125507117577, "train/extr_return_normed_std": 0.3254398145306278, "train/extr_return_rate": 0.7222436540563342, "train/extr_return_raw_mag": 10.707473472810127, "train/extr_return_raw_max": 10.707473472810127, "train/extr_return_raw_mean": 2.46735267572, "train/extr_return_raw_min": -0.8764298440704883, "train/extr_return_raw_std": 2.4593736839966036, "train/extr_reward_mag": 1.0513506808751065, "train/extr_reward_max": 1.0513506808751065, "train/extr_reward_mean": 0.04934061932521806, "train/extr_reward_min": -0.7000719862924495, "train/extr_reward_std": 0.21519124843704868, "train/image_loss_mean": 3.265980208423776, "train/image_loss_std": 8.183301918943163, "train/model_loss_mean": 6.371299790664458, "train/model_loss_std": 12.341788439683512, "train/model_opt_grad_norm": 25.5874877311814, "train/model_opt_grad_steps": 231675.0, "train/model_opt_loss": 7964.124731789173, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5997935214512786, "train/policy_entropy_max": 2.5997935214512786, "train/policy_entropy_mean": 0.42571670635485315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853247436839091, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42512430964221415, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0336126819462843, "train/policy_randomness_mag": 0.917613020245458, "train/policy_randomness_max": 0.917613020245458, "train/policy_randomness_mean": 0.15025931502312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20659394866563904, "train/post_ent_mag": 54.99737876569721, "train/post_ent_max": 54.99737876569721, "train/post_ent_mean": 41.10431789344465, "train/post_ent_min": 18.79883770203926, "train/post_ent_std": 5.663855646697568, "train/prior_ent_mag": 76.51433058187995, "train/prior_ent_max": 76.51433058187995, "train/prior_ent_mean": 46.190274198290325, "train/prior_ent_min": 28.348963697191696, "train/prior_ent_std": 7.316242298609774, "train/rep_loss_mean": 5.093494885404345, "train/rep_loss_std": 8.71649816674246, "train/reward_avg": 0.03239849217655793, "train/reward_loss_mean": 0.04913715708633544, "train/reward_loss_std": 0.20039877526357142, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0157961744657704, "train/reward_neg_acc": 0.9949079390982507, "train/reward_neg_loss": 0.02270189684514009, "train/reward_pos_acc": 0.98924548609156, "train/reward_pos_loss": 0.7284873581268418, "train/reward_pred": 0.0321886923269067, "train/reward_rate": 0.03731569102112676, "stats/sum_log_reward": 9.67142881665911, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.32688879540988375, "replay/size": 465462.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.861103138567194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3257830032004287e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14614486694336, "timer/env.step_count": 1418.0, "timer/env.step_total": 21.237978219985962, "timer/env.step_frac": 0.07075879061981918, "timer/env.step_avg": 0.014977417644559917, "timer/env.step_min": 0.003297567367553711, "timer/env.step_max": 2.123913049697876, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.27808475494384766, "timer/replay.add_frac": 0.0009264978401342598, "timer/replay.add_avg": 0.0001961105465048291, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0036995410919189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027980804443359375, "timer/logger.write_frac": 9.322393414635873e-05, "timer/logger.write_avg": 0.027980804443359375, "timer/logger.write_min": 0.027980804443359375, "timer/logger.write_max": 0.027980804443359375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034499168395996094, "timer/checkpoint.save_frac": 1.1494123441528721e-06, "timer/checkpoint.save_avg": 0.00034499168395996094, "timer/checkpoint.save_min": 0.00034499168395996094, "timer/checkpoint.save_max": 0.00034499168395996094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4968955516815186, "timer/agent.save_frac": 0.004987222315799197, "timer/agent.save_avg": 1.4968955516815186, "timer/agent.save_min": 1.4968955516815186, "timer/agent.save_max": 1.4968955516815186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010395050048828125, "timer/replay.save_frac": 3.463329523501398e-07, "timer/replay.save_avg": 0.00010395050048828125, "timer/replay.save_min": 0.00010395050048828125, "timer/replay.save_max": 0.00010395050048828125, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.769015312194824, "timer/agent.policy_frac": 0.042542659736160886, "timer/agent.policy_avg": 0.00900494732876927, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 1.494396448135376, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06756925582885742, "timer/dataset_frac": 0.00022512118507739384, "timer/dataset_avg": 9.530219439895264e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0006511211395263672, "timer/agent.train_count": 709.0, "timer/agent.train_total": 265.0610988140106, "timer/agent.train_frac": 0.8831067909651608, "timer/agent.train_avg": 0.37385204346122797, "timer/agent.train_min": 0.3654048442840576, "timer/agent.train_max": 0.9178786277770996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21809887886047363, "timer/agent.report_frac": 0.0007266422794041156, "timer/agent.report_avg": 0.21809887886047363, "timer/agent.report_min": 0.21809887886047363, "timer/agent.report_max": 0.21809887886047363, "fps": 4.724294917367152}
+{"step": 465654, "episode/length": 232.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.05150214592274678}
+{"step": 465824, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07058823529411765}
+{"step": 466057, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05150214592274678}
+{"step": 466279, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02702702702702703}
+{"step": 466422, "episode/length": 142.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 466479, "episode/length": 56.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.12280701754385964}
+{"step": 466812, "episode/length": 332.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.03303303303303303}
+{"step": 466972, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.535165574815538, "train/action_min": 0.0, "train/action_std": 3.3975621263186135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04255341164146861, "train/actor_opt_grad_steps": 232575.0, "train/actor_opt_loss": -13.469806909561157, "train/adv_mag": 0.4311167403227753, "train/adv_max": 0.37549358647730613, "train/adv_mean": 0.0018584541510588476, "train/adv_min": -0.3869495919595162, "train/adv_std": 0.0486759092244837, "train/cont_avg": 0.9942491319444444, "train/cont_loss_mean": 1.0695267305226173e-05, "train/cont_loss_std": 0.00029065225011039157, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010218533613494982, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.273359770687632e-06, "train/cont_pred": 0.9942508008744981, "train/cont_rate": 0.9942491319444444, "train/dyn_loss_mean": 5.041578289535311, "train/dyn_loss_std": 8.731083975897896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9927498011125458, "train/extr_critic_critic_opt_grad_steps": 232575.0, "train/extr_critic_critic_opt_loss": 16178.872450086805, "train/extr_critic_mag": 9.836783554818895, "train/extr_critic_max": 9.836783554818895, "train/extr_critic_mean": 2.5777702497111425, "train/extr_critic_min": -0.5602275547054079, "train/extr_critic_std": 2.4790752828121185, "train/extr_return_normed_mag": 1.4239515993330214, "train/extr_return_normed_max": 1.4239515993330214, "train/extr_return_normed_mean": 0.3688676783608066, "train/extr_return_normed_min": -0.08817812019131249, "train/extr_return_normed_std": 0.33134813523954815, "train/extr_return_rate": 0.7194915041327477, "train/extr_return_raw_mag": 10.562357849544949, "train/extr_return_raw_max": 10.562357849544949, "train/extr_return_raw_mean": 2.5918022642532983, "train/extr_return_raw_min": -0.8615161739289761, "train/extr_return_raw_std": 2.5033556322256723, "train/extr_reward_mag": 1.0583097603585985, "train/extr_reward_max": 1.0583097603585985, "train/extr_reward_mean": 0.05233300027127067, "train/extr_reward_min": -0.6669607179032432, "train/extr_reward_std": 0.22260838064054647, "train/image_loss_mean": 3.121409676141209, "train/image_loss_std": 8.25081075562371, "train/model_loss_mean": 6.198906650145848, "train/model_loss_std": 12.387928247451782, "train/model_opt_grad_norm": 31.12262969546848, "train/model_opt_grad_steps": 232390.0, "train/model_opt_loss": 13610.501966688367, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2204.8611111111113, "train/policy_entropy_mag": 2.603342092699475, "train/policy_entropy_max": 2.603342092699475, "train/policy_entropy_mean": 0.3979857179025809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5608920922709836, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39803453389969135, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0156457043356366, "train/policy_randomness_mag": 0.9188655159539647, "train/policy_randomness_max": 0.9188655159539647, "train/policy_randomness_mean": 0.14047149506707987, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19797029356575674, "train/post_ent_mag": 55.039546224806045, "train/post_ent_max": 55.039546224806045, "train/post_ent_mean": 41.02691417270236, "train/post_ent_min": 18.999517268604702, "train/post_ent_std": 5.599111298720042, "train/prior_ent_mag": 76.44725174374051, "train/prior_ent_max": 76.44725174374051, "train/prior_ent_mean": 46.08240932888455, "train/prior_ent_min": 28.52422261238098, "train/prior_ent_std": 7.342802478207482, "train/rep_loss_mean": 5.041578289535311, "train/rep_loss_std": 8.731083975897896, "train/reward_avg": 0.034754774222771324, "train/reward_loss_mean": 0.052539325784891844, "train/reward_loss_std": 0.20674497385819754, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.016300721300973, "train/reward_neg_acc": 0.9943251543574863, "train/reward_neg_loss": 0.024199725180450413, "train/reward_pos_acc": 0.989597720404466, "train/reward_pos_loss": 0.7320376965734694, "train/reward_pred": 0.034443207602534026, "train/reward_rate": 0.039971245659722224, "stats/sum_log_reward": 8.814285959516253, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4434379062482289, "replay/size": 466909.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7644431767335164e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2627033771815637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.997421503067, "timer/env.step_count": 1447.0, "timer/env.step_total": 18.91112780570984, "timer/env.step_frac": 0.06303763449352348, "timer/env.step_avg": 0.013069196824954969, "timer/env.step_min": 0.0030455589294433594, "timer/env.step_max": 1.6652824878692627, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.27459120750427246, "timer/replay.add_frac": 0.0009153118921105967, "timer/replay.add_avg": 0.00018976586558691947, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0012927055358886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028777599334716797, "timer/logger.write_frac": 9.592615560004935e-05, "timer/logger.write_avg": 0.028777599334716797, "timer/logger.write_min": 0.028777599334716797, "timer/logger.write_max": 0.028777599334716797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.596103191375732, "timer/agent.policy_frac": 0.03532064755185705, "timer/agent.policy_avg": 0.007322808010625938, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 0.016060590744018555, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06791877746582031, "timer/dataset_frac": 0.00022639787077345246, "timer/dataset_avg": 9.394021779504884e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00024318695068359375, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.41405177116394, "timer/agent.train_frac": 0.898054558006958, "timer/agent.train_avg": 0.37263354325195563, "timer/agent.train_min": 0.3666214942932129, "timer/agent.train_max": 0.38403892517089844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22043871879577637, "timer/agent.report_frac": 0.0007348020449353186, "timer/agent.report_avg": 0.22043871879577637, "timer/agent.report_min": 0.22043871879577637, "timer/agent.report_max": 0.22043871879577637, "fps": 4.823308152905102}
+{"step": 467031, "episode/length": 218.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.045662100456621}
+{"step": 467198, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07784431137724551}
+{"step": 467358, "episode/length": 159.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05625}
+{"step": 467548, "episode/length": 189.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05789473684210526}
+{"step": 467682, "episode/length": 133.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08208955223880597}
+{"step": 467944, "episode/length": 261.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04961832061068702}
+{"step": 468003, "episode/length": 58.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13559322033898305}
+{"step": 468362, "episode/length": 358.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.033426183844011144}
+{"step": 468413, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49760267469618, "train/action_min": 0.0, "train/action_std": 3.383232725991143, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042797757830056876, "train/actor_opt_grad_steps": 233295.0, "train/actor_opt_loss": -13.7219087584979, "train/adv_mag": 0.45779847188128364, "train/adv_max": 0.3877328667375777, "train/adv_mean": 0.001979254304791943, "train/adv_min": -0.41095680163966286, "train/adv_std": 0.049339807954513364, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 2.6683841235916913e-05, "train/cont_loss_std": 0.0007484421827099494, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.004023108674687926, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.3757350753805673e-05, "train/cont_pred": 0.9945443818966547, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.123911771509382, "train/dyn_loss_std": 8.764035609033373, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.010858749349912, "train/extr_critic_critic_opt_grad_steps": 233295.0, "train/extr_critic_critic_opt_loss": 16181.535590277777, "train/extr_critic_mag": 9.848618083530003, "train/extr_critic_max": 9.848618083530003, "train/extr_critic_mean": 2.5541669527689614, "train/extr_critic_min": -0.5415299071205987, "train/extr_critic_std": 2.432413606180085, "train/extr_return_normed_mag": 1.4370213150978088, "train/extr_return_normed_max": 1.4370213150978088, "train/extr_return_normed_mean": 0.37181470232705277, "train/extr_return_normed_min": -0.08982487162575126, "train/extr_return_normed_std": 0.3322439202004009, "train/extr_return_rate": 0.7201570106877221, "train/extr_return_raw_mag": 10.462182667520311, "train/extr_return_raw_max": 10.462182667520311, "train/extr_return_raw_mean": 2.568837425774998, "train/extr_return_raw_min": -0.852291519443194, "train/extr_return_raw_std": 2.462004424797164, "train/extr_reward_mag": 1.0553719500700633, "train/extr_reward_max": 1.0553719500700633, "train/extr_reward_mean": 0.05123279968069659, "train/extr_reward_min": -0.6544124848312802, "train/extr_reward_std": 0.21943026553425524, "train/image_loss_mean": 3.2699972805049686, "train/image_loss_std": 8.328740133179558, "train/model_loss_mean": 6.397000888983409, "train/model_loss_std": 12.477623449431526, "train/model_opt_grad_norm": 32.976989931530426, "train/model_opt_grad_steps": 233109.15277777778, "train/model_opt_loss": 9177.00836859809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.6024217473136053, "train/policy_entropy_max": 2.6024217473136053, "train/policy_entropy_mean": 0.3991735780404674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5558173594375452, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988948876245154, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0155952870845795, "train/policy_randomness_mag": 0.9185406739513079, "train/policy_randomness_max": 0.9185406739513079, "train/policy_randomness_mean": 0.1408907544488708, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.196179137358235, "train/post_ent_mag": 55.39742644627889, "train/post_ent_max": 55.39742644627889, "train/post_ent_mean": 41.22578165266249, "train/post_ent_min": 18.60528478357527, "train/post_ent_std": 5.578017426861657, "train/prior_ent_mag": 76.49138259887695, "train/prior_ent_max": 76.49138259887695, "train/prior_ent_mean": 46.333472145928276, "train/prior_ent_min": 28.2730393409729, "train/prior_ent_std": 7.361990292867024, "train/rep_loss_mean": 5.123911771509382, "train/rep_loss_std": 8.764035609033373, "train/reward_avg": 0.034513345867809325, "train/reward_loss_mean": 0.052629956509917974, "train/reward_loss_std": 0.21711616176697943, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0262947744793363, "train/reward_neg_acc": 0.99461061341895, "train/reward_neg_loss": 0.024158919863920245, "train/reward_pos_acc": 0.984860027829806, "train/reward_pos_loss": 0.7457703534099791, "train/reward_pred": 0.03406812343746424, "train/reward_rate": 0.03945583767361111, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4031763169914484, "replay/size": 468350.0, "replay/inserts": 1441.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.814862719184405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690374490788177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35319113731384, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.588635683059692, "timer/env.step_frac": 0.06854808369140014, "timer/env.step_avg": 0.014287741625995623, "timer/env.step_min": 0.0029685497283935547, "timer/env.step_max": 1.765085220336914, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2631077766418457, "timer/replay.add_frac": 0.0008759946103637684, "timer/replay.add_avg": 0.000182586937294827, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.0012688636779785156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023924589157104492, "timer/logger.write_frac": 7.965485256378307e-05, "timer/logger.write_avg": 0.023924589157104492, "timer/logger.write_min": 0.023924589157104492, "timer/logger.write_max": 0.023924589157104492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.398980617523193, "timer/agent.policy_frac": 0.03462250751572352, "timer/agent.policy_avg": 0.007216502857406796, "timer/agent.policy_min": 0.0055539608001708984, "timer/agent.policy_max": 0.013442277908325195, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0671839714050293, "timer/dataset_frac": 0.0002236832282375002, "timer/dataset_avg": 9.318165243415991e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002033710479736328, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3136103153229, "timer/agent.train_frac": 0.8933269838063972, "timer/agent.train_avg": 0.3721409297022509, "timer/agent.train_min": 0.3642873764038086, "timer/agent.train_max": 0.3866441249847412, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21930146217346191, "timer/agent.report_frac": 0.0007301452711158406, "timer/agent.report_avg": 0.21930146217346191, "timer/agent.report_min": 0.21930146217346191, "timer/agent.report_max": 0.21930146217346191, "fps": 4.79761812648113}
+{"step": 468556, "episode/length": 193.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.061855670103092786}
+{"step": 468743, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06417112299465241}
+{"step": 468995, "episode/length": 251.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04365079365079365}
+{"step": 469194, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06030150753768844}
+{"step": 469313, "episode/length": 118.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09243697478991597}
+{"step": 469524, "episode/length": 210.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.061611374407582936}
+{"step": 469585, "episode/length": 60.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09836065573770492}
+{"step": 469761, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 469829, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.491205779599472, "train/action_min": 0.0, "train/action_std": 3.3728052327330684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042920987318519135, "train/actor_opt_grad_steps": 234010.0, "train/actor_opt_loss": -12.057334012548688, "train/adv_mag": 0.43014709672457735, "train/adv_max": 0.38352093226473094, "train/adv_mean": 0.0024568776122104166, "train/adv_min": -0.37763211550846904, "train/adv_std": 0.049419052164319535, "train/cont_avg": 0.9948008362676056, "train/cont_loss_mean": 5.6485805470214485e-05, "train/cont_loss_std": 0.001599938868238637, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.00662601591448454, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 2.3572638906984312e-05, "train/cont_pred": 0.9947993788920658, "train/cont_rate": 0.9948008362676056, "train/dyn_loss_mean": 5.079725796068218, "train/dyn_loss_std": 8.754459193055059, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9898315340700284, "train/extr_critic_critic_opt_grad_steps": 234010.0, "train/extr_critic_critic_opt_loss": 16247.372689260563, "train/extr_critic_mag": 9.808325646628797, "train/extr_critic_max": 9.808325646628797, "train/extr_critic_mean": 2.485905173798682, "train/extr_critic_min": -0.5295219052005822, "train/extr_critic_std": 2.4257632661873187, "train/extr_return_normed_mag": 1.429962136376072, "train/extr_return_normed_max": 1.429962136376072, "train/extr_return_normed_mean": 0.3599638565325401, "train/extr_return_normed_min": -0.08466246509006325, "train/extr_return_normed_std": 0.3285155304720704, "train/extr_return_rate": 0.7117105302676349, "train/extr_return_raw_mag": 10.517145022540026, "train/extr_return_raw_max": 10.517145022540026, "train/extr_return_raw_mean": 2.5042919978289535, "train/extr_return_raw_min": -0.8254069643960872, "train/extr_return_raw_std": 2.4600559372297477, "train/extr_reward_mag": 1.0417661868350607, "train/extr_reward_max": 1.0417661868350607, "train/extr_reward_mean": 0.05000524503559294, "train/extr_reward_min": -0.6673086730527206, "train/extr_reward_std": 0.21683971290017517, "train/image_loss_mean": 3.1244566709222927, "train/image_loss_std": 8.15125291448244, "train/model_loss_mean": 6.222023466943016, "train/model_loss_std": 12.363113349592181, "train/model_opt_grad_norm": 29.184854332829865, "train/model_opt_grad_steps": 233823.9014084507, "train/model_opt_loss": 10445.63485502861, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1690.1408450704225, "train/policy_entropy_mag": 2.6242869135359643, "train/policy_entropy_max": 2.6242869135359643, "train/policy_entropy_mean": 0.4127252603500662, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5800138124277894, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4126601214979736, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0261570164855098, "train/policy_randomness_mag": 0.9262581157012725, "train/policy_randomness_max": 0.9262581157012725, "train/policy_randomness_mean": 0.1456739034661105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20471942204404886, "train/post_ent_mag": 55.12589403609155, "train/post_ent_max": 55.12589403609155, "train/post_ent_mean": 41.203625316351236, "train/post_ent_min": 19.184037396605586, "train/post_ent_std": 5.626452848944865, "train/prior_ent_mag": 76.51157454369773, "train/prior_ent_max": 76.51157454369773, "train/prior_ent_mean": 46.26081101323517, "train/prior_ent_min": 28.530562226201447, "train/prior_ent_std": 7.315851238411917, "train/rep_loss_mean": 5.079725796068218, "train/rep_loss_std": 8.754459193055059, "train/reward_avg": 0.03336542679495375, "train/reward_loss_mean": 0.04967487918239244, "train/reward_loss_std": 0.2014467716217041, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0146993482616586, "train/reward_neg_acc": 0.9952958755090203, "train/reward_neg_loss": 0.02278378407116717, "train/reward_pos_acc": 0.9872663978119971, "train/reward_pos_loss": 0.7281268591612158, "train/reward_pred": 0.03312896652488222, "train/reward_rate": 0.0380859375, "stats/sum_log_reward": 9.725000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 15.875, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.317323649302125, "replay/size": 469766.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7971862965384445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2589376525016827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3603284358978, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.371679306030273, "timer/env.step_frac": 0.07781213793358266, "timer/env.step_avg": 0.016505423238721943, "timer/env.step_min": 0.0030584335327148438, "timer/env.step_max": 2.6445889472961426, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2786216735839844, "timer/replay.add_frac": 0.0009276247466996865, "timer/replay.add_avg": 0.00019676671863275733, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.002323150634765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02424335479736328, "timer/logger.write_frac": 8.071423720838432e-05, "timer/logger.write_avg": 0.02424335479736328, "timer/logger.write_min": 0.02424335479736328, "timer/logger.write_max": 0.02424335479736328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004482269287109375, "timer/checkpoint.save_frac": 1.4922973717769022e-06, "timer/checkpoint.save_avg": 0.0004482269287109375, "timer/checkpoint.save_min": 0.0004482269287109375, "timer/checkpoint.save_max": 0.0004482269287109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4134931564331055, "timer/agent.save_frac": 0.0047059915129063715, "timer/agent.save_avg": 1.4134931564331055, "timer/agent.save_min": 1.4134931564331055, "timer/agent.save_max": 1.4134931564331055, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6353336565421893e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.333896160125732, "timer/agent.policy_frac": 0.041063665845464684, "timer/agent.policy_avg": 0.00871037864415659, "timer/agent.policy_min": 0.00572514533996582, "timer/agent.policy_max": 1.4036917686462402, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06556153297424316, "timer/dataset_frac": 0.00021827627275429335, "timer/dataset_avg": 9.260103527435476e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.59588718414307, "timer/agent.train_frac": 0.8775988778438131, "timer/agent.train_avg": 0.37231057511884613, "timer/agent.train_min": 0.3661363124847412, "timer/agent.train_max": 0.3865199089050293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2199268341064453, "timer/agent.report_frac": 0.0007322099934158967, "timer/agent.report_avg": 0.2199268341064453, "timer/agent.report_min": 0.2199268341064453, "timer/agent.report_max": 0.2199268341064453, "fps": 4.714255398158421}
+{"step": 469915, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
+{"step": 469965, "episode/length": 49.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.08}
+{"step": 470142, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04519774011299435}
+{"step": 470409, "episode/length": 266.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 13.100000061094761, "episode/reward_rate": 0.04119850187265917}
+{"step": 470565, "episode/length": 155.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.08333333333333333}
+{"step": 470885, "episode/length": 319.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.034375}
+{"step": 471088, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.054187192118226604}
+{"step": 471275, "episode/length": 186.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0748663101604278}
+{"step": 471276, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4558563232421875, "train/action_min": 0.0, "train/action_std": 3.298066880967882, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0435932985920873, "train/actor_opt_grad_steps": 234725.0, "train/actor_opt_loss": -13.269487970405155, "train/adv_mag": 0.44375037401914597, "train/adv_max": 0.38621316726009053, "train/adv_mean": 0.0024236379449575907, "train/adv_min": -0.3875782883001698, "train/adv_std": 0.0503922489264773, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.0256771358002272e-05, "train/cont_loss_std": 0.0008460509611533477, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006573706693705125, "train/cont_pos_acc": 0.9999863257010778, "train/cont_pos_loss": 2.562933598109712e-05, "train/cont_pred": 0.9946284881896443, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.433206988705529, "train/dyn_loss_std": 8.777867992719015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0618262870444193, "train/extr_critic_critic_opt_grad_steps": 234725.0, "train/extr_critic_critic_opt_loss": 16456.673394097223, "train/extr_critic_mag": 9.888291584120857, "train/extr_critic_max": 9.888291584120857, "train/extr_critic_mean": 2.5384294622474246, "train/extr_critic_min": -0.5132276763518652, "train/extr_critic_std": 2.4151509222057133, "train/extr_return_normed_mag": 1.4534868382745318, "train/extr_return_normed_max": 1.4534868382745318, "train/extr_return_normed_mean": 0.3667712126755052, "train/extr_return_normed_min": -0.0926806379833983, "train/extr_return_normed_std": 0.3289333689543936, "train/extr_return_rate": 0.7297815792262554, "train/extr_return_raw_mag": 10.649002922905815, "train/extr_return_raw_max": 10.649002922905815, "train/extr_return_raw_mean": 2.556470900774002, "train/extr_return_raw_min": -0.8646940580672688, "train/extr_return_raw_std": 2.4494277122947903, "train/extr_reward_mag": 1.0402186380492315, "train/extr_reward_max": 1.0402186380492315, "train/extr_reward_mean": 0.051113118469301194, "train/extr_reward_min": -0.6890498830212487, "train/extr_reward_std": 0.21891807288759285, "train/image_loss_mean": 3.4364701675044165, "train/image_loss_std": 8.755947993861305, "train/model_loss_mean": 6.747222648726569, "train/model_loss_std": 12.874064750141567, "train/model_opt_grad_norm": 38.370112366146515, "train/model_opt_grad_steps": 234537.20833333334, "train/model_opt_loss": 5134.412268744574, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 755.2083333333334, "train/policy_entropy_mag": 2.6274415221479206, "train/policy_entropy_max": 2.6274415221479206, "train/policy_entropy_mean": 0.3898621242907312, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5561393780840768, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38964625054763424, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0088612768385146, "train/policy_randomness_mag": 0.9273715557323562, "train/policy_randomness_max": 0.9273715557323562, "train/policy_randomness_mean": 0.13760422118422058, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19629279586176077, "train/post_ent_mag": 54.82095797856649, "train/post_ent_max": 54.82095797856649, "train/post_ent_mean": 41.02644734912448, "train/post_ent_min": 18.94708518187205, "train/post_ent_std": 5.5558832089106245, "train/prior_ent_mag": 76.40824943118625, "train/prior_ent_max": 76.40824943118625, "train/prior_ent_mean": 46.45069005754259, "train/prior_ent_min": 28.291201485527885, "train/prior_ent_std": 7.305401424566905, "train/rep_loss_mean": 5.433206988705529, "train/rep_loss_std": 8.777867992719015, "train/reward_avg": 0.03364393420310484, "train/reward_loss_mean": 0.050797996007733874, "train/reward_loss_std": 0.20720392155150572, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0152005006869633, "train/reward_neg_acc": 0.9946238241261907, "train/reward_neg_loss": 0.022961423835820623, "train/reward_pos_acc": 0.9834224325087335, "train/reward_pos_loss": 0.748311945133739, "train/reward_pred": 0.03331476900105675, "train/reward_rate": 0.03854709201388889, "stats/sum_log_reward": 8.724999964237213, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.394962290301919, "replay/size": 471213.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.768891899356697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2603332063139392e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.37065029144287, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.507527112960815, "timer/env.step_frac": 0.06804752583945665, "timer/env.step_avg": 0.014172444445722748, "timer/env.step_min": 0.0030090808868408203, "timer/env.step_max": 1.6885147094726562, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.27539873123168945, "timer/replay.add_frac": 0.0009138206755215312, "timer/replay.add_avg": 0.00019032393312487178, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0010304450988769531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02437448501586914, "timer/logger.write_frac": 8.087876172513018e-05, "timer/logger.write_avg": 0.02437448501586914, "timer/logger.write_min": 0.02437448501586914, "timer/logger.write_max": 0.02437448501586914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.565787553787231, "timer/agent.policy_frac": 0.035059112569752575, "timer/agent.policy_avg": 0.007301857328118336, "timer/agent.policy_min": 0.00573420524597168, "timer/agent.policy_max": 0.01596689224243164, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06709575653076172, "timer/dataset_frac": 0.0002226353378004004, "timer/dataset_avg": 9.280187625278246e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.22330474853516, "timer/agent.train_frac": 0.8933295411752293, "timer/agent.train_avg": 0.37236971611139025, "timer/agent.train_min": 0.3629450798034668, "timer/agent.train_max": 0.3854813575744629, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21536827087402344, "timer/agent.report_frac": 0.0007146292137796094, "timer/agent.report_avg": 0.21536827087402344, "timer/agent.report_min": 0.21536827087402344, "timer/agent.report_max": 0.21536827087402344, "fps": 4.801329559497344}
+{"step": 471404, "episode/length": 128.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.08527131782945736}
+{"step": 471581, "episode/length": 176.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.07344632768361582}
+{"step": 471745, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
+{"step": 471810, "episode/length": 64.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.046153846153846156}
+{"step": 472050, "episode/length": 239.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05}
+{"step": 472262, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06132075471698113}
+{"step": 472434, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
+{"step": 472617, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06557377049180328}
+{"step": 472715, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.516190422905816, "train/action_min": 0.0, "train/action_std": 3.361364765299691, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0426897549122158, "train/actor_opt_grad_steps": 235445.0, "train/actor_opt_loss": -14.324468444204992, "train/adv_mag": 0.4529867035647233, "train/adv_max": 0.40478236600756645, "train/adv_mean": 0.0014125804862790876, "train/adv_min": -0.36747882349623573, "train/adv_std": 0.049003577480713524, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 9.208448127079944e-06, "train/cont_loss_std": 0.0002659322211877837, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010004292024285001, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 4.808516824766289e-06, "train/cont_pred": 0.9947098270058632, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 4.97101327445772, "train/dyn_loss_std": 8.563618236117893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9947089635663562, "train/extr_critic_critic_opt_grad_steps": 235445.0, "train/extr_critic_critic_opt_loss": 16082.444973415799, "train/extr_critic_mag": 10.192030747731527, "train/extr_critic_max": 10.192030747731527, "train/extr_critic_mean": 2.527382077442275, "train/extr_critic_min": -0.5488110118442111, "train/extr_critic_std": 2.4671660645140543, "train/extr_return_normed_mag": 1.4715879062811534, "train/extr_return_normed_max": 1.4715879062811534, "train/extr_return_normed_mean": 0.3580628912895918, "train/extr_return_normed_min": -0.09522328794830376, "train/extr_return_normed_std": 0.33069995707935756, "train/extr_return_rate": 0.7182264915770955, "train/extr_return_raw_mag": 10.953133278422886, "train/extr_return_raw_max": 10.953133278422886, "train/extr_return_raw_mean": 2.538055979543262, "train/extr_return_raw_min": -0.8874223373002477, "train/extr_return_raw_std": 2.498969617817137, "train/extr_reward_mag": 1.0411578449938033, "train/extr_reward_max": 1.0411578449938033, "train/extr_reward_mean": 0.051641313100440636, "train/extr_reward_min": -0.7092859761582481, "train/extr_reward_std": 0.2201387724942631, "train/image_loss_mean": 2.989194537202517, "train/image_loss_std": 7.530995587507884, "train/model_loss_mean": 6.022625585397084, "train/model_loss_std": 11.58464495340983, "train/model_opt_grad_norm": 28.3898206949234, "train/model_opt_grad_steps": 235257.0, "train/model_opt_loss": 5307.868143717448, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 876.7361111111111, "train/policy_entropy_mag": 2.633845802810457, "train/policy_entropy_max": 2.633845802810457, "train/policy_entropy_mean": 0.4141863071256214, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864865514967177, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41284440499213004, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.027191526359982, "train/policy_randomness_mag": 0.9296319840682877, "train/policy_randomness_max": 0.9296319840682877, "train/policy_randomness_mean": 0.146189591433439, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2070040168861548, "train/post_ent_mag": 55.036507023705376, "train/post_ent_max": 55.036507023705376, "train/post_ent_mean": 40.999713526831734, "train/post_ent_min": 18.95442255338033, "train/post_ent_std": 5.601190633243984, "train/prior_ent_mag": 76.33645089467366, "train/prior_ent_max": 76.33645089467366, "train/prior_ent_mean": 46.02835983700223, "train/prior_ent_min": 28.397493918736775, "train/prior_ent_std": 7.390097896258037, "train/rep_loss_mean": 4.97101327445772, "train/rep_loss_std": 8.563618236117893, "train/reward_avg": 0.035293239867314696, "train/reward_loss_mean": 0.05081385376656221, "train/reward_loss_std": 0.20615985968874562, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0174716777271695, "train/reward_neg_acc": 0.9945289625061883, "train/reward_neg_loss": 0.0224222530830755, "train/reward_pos_acc": 0.9877990550465054, "train/reward_pos_loss": 0.7321928673320346, "train/reward_pred": 0.03498649871390727, "train/reward_rate": 0.039957682291666664, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.625, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3053167350590229, "replay/size": 472652.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7603530724732886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2618179122606912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3674404621124, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.853567123413086, "timer/env.step_frac": 0.06942685629084855, "timer/env.step_avg": 0.01449170752148234, "timer/env.step_min": 0.0030410289764404297, "timer/env.step_max": 1.7413620948791504, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2664175033569336, "timer/replay.add_frac": 0.0008869719798758908, "timer/replay.add_avg": 0.00018514072505693786, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.001294851303100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02787923812866211, "timer/logger.write_frac": 9.281711122140992e-05, "timer/logger.write_avg": 0.02787923812866211, "timer/logger.write_min": 0.02787923812866211, "timer/logger.write_max": 0.02787923812866211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.453512191772461, "timer/agent.policy_frac": 0.034802414588245095, "timer/agent.policy_avg": 0.007264428208319987, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 0.014570236206054688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06671833992004395, "timer/dataset_frac": 0.0002221224105295781, "timer/dataset_avg": 9.266436100006104e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.00405168533325, "timer/agent.train_frac": 0.8922540048715386, "timer/agent.train_avg": 0.37222784956296284, "timer/agent.train_min": 0.3658907413482666, "timer/agent.train_max": 0.3838987350463867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21922993659973145, "timer/agent.report_frac": 0.0007298725063623684, "timer/agent.report_avg": 0.21922993659973145, "timer/agent.report_min": 0.21922993659973145, "timer/agent.report_max": 0.21922993659973145, "fps": 4.790718565146163}
+{"step": 472954, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03560830860534125}
+{"step": 473132, "episode/length": 177.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.06741573033707865}
+{"step": 473419, "episode/length": 286.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.027874564459930314}
+{"step": 473632, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.056338028169014086}
+{"step": 473691, "episode/length": 58.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0847457627118644}
+{"step": 473932, "episode/length": 240.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.04979253112033195}
+{"step": 474110, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06179775280898876}
+{"step": 474139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461521572536892, "train/action_min": 0.0, "train/action_std": 3.3153801129923925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045096243266016245, "train/actor_opt_grad_steps": 236165.0, "train/actor_opt_loss": -10.59322603005502, "train/adv_mag": 0.43609556721316445, "train/adv_max": 0.3812143980628914, "train/adv_mean": 0.0028820768043765887, "train/adv_min": -0.37852424072722596, "train/adv_std": 0.05088145058188173, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 3.723106968954603e-05, "train/cont_loss_std": 0.0011197563887313953, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004868218184401801, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.3001953821540408e-05, "train/cont_pred": 0.9945355943507619, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 5.061522761980693, "train/dyn_loss_std": 8.63262128829956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0286518534024556, "train/extr_critic_critic_opt_grad_steps": 236165.0, "train/extr_critic_critic_opt_loss": 16387.03424750434, "train/extr_critic_mag": 9.931168172094557, "train/extr_critic_max": 9.931168172094557, "train/extr_critic_mean": 2.580850922399097, "train/extr_critic_min": -0.4999071806669235, "train/extr_critic_std": 2.4134920239448547, "train/extr_return_normed_mag": 1.4516573382748499, "train/extr_return_normed_max": 1.4516573382748499, "train/extr_return_normed_mean": 0.37213353046940434, "train/extr_return_normed_min": -0.08783329262708624, "train/extr_return_normed_std": 0.32861266078220475, "train/extr_return_rate": 0.736355291472541, "train/extr_return_raw_mag": 10.63319550620185, "train/extr_return_raw_max": 10.63319550620185, "train/extr_return_raw_mean": 2.6022749228609934, "train/extr_return_raw_min": -0.8187951321403185, "train/extr_return_raw_std": 2.4443104796939426, "train/extr_reward_mag": 1.0418760776519775, "train/extr_reward_max": 1.0418760776519775, "train/extr_reward_mean": 0.052531197822342314, "train/extr_reward_min": -0.6376988391081492, "train/extr_reward_std": 0.22226468846201897, "train/image_loss_mean": 3.1055127812756433, "train/image_loss_std": 8.074473036660088, "train/model_loss_mean": 6.194367302788629, "train/model_loss_std": 12.134537392192417, "train/model_opt_grad_norm": 28.54080042574141, "train/model_opt_grad_steps": 235977.0, "train/model_opt_loss": 7831.829806857639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.6215614014201694, "train/policy_entropy_max": 2.6215614014201694, "train/policy_entropy_mean": 0.39246072930594283, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5494357525474496, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3926253318786621, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.010348471502463, "train/policy_randomness_mag": 0.9252961286240153, "train/policy_randomness_max": 0.9252961286240153, "train/policy_randomness_mean": 0.13852141425013542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1939267103249828, "train/post_ent_mag": 54.89021820492215, "train/post_ent_max": 54.89021820492215, "train/post_ent_mean": 41.1756706767612, "train/post_ent_min": 19.15933350721995, "train/post_ent_std": 5.523964703083038, "train/prior_ent_mag": 76.35741922590468, "train/prior_ent_max": 76.35741922590468, "train/prior_ent_mean": 46.27946472167969, "train/prior_ent_min": 28.634827587339615, "train/prior_ent_std": 7.217522733741337, "train/rep_loss_mean": 5.061522761980693, "train/rep_loss_std": 8.63262128829956, "train/reward_avg": 0.03491210906455914, "train/reward_loss_mean": 0.05190364866414004, "train/reward_loss_std": 0.20934109741614926, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0134217606650457, "train/reward_neg_acc": 0.9950592294335365, "train/reward_neg_loss": 0.02395788087354352, "train/reward_pos_acc": 0.9888241870535744, "train/reward_pos_loss": 0.7243827374445068, "train/reward_pred": 0.03467560626773371, "train/reward_rate": 0.03990342881944445, "stats/sum_log_reward": 9.242857319968087, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 6.428571428571429, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.49592051974364687, "replay/size": 474076.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7709983547082107e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2374242370048265e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1527066230774, "timer/env.step_count": 1424.0, "timer/env.step_total": 19.61569595336914, "timer/env.step_frac": 0.0653523873699461, "timer/env.step_avg": 0.013775067382983947, "timer/env.step_min": 0.0031578540802001953, "timer/env.step_max": 1.805751085281372, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2765998840332031, "timer/replay.add_frac": 0.0009215305340576149, "timer/replay.add_avg": 0.0001942414915963505, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0011610984802246094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029102325439453125, "timer/logger.write_frac": 9.695839749997303e-05, "timer/logger.write_avg": 0.029102325439453125, "timer/logger.write_min": 0.029102325439453125, "timer/logger.write_max": 0.029102325439453125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004162788391113281, "timer/checkpoint.save_frac": 1.3868901726549425e-06, "timer/checkpoint.save_avg": 0.0004162788391113281, "timer/checkpoint.save_min": 0.0004162788391113281, "timer/checkpoint.save_max": 0.0004162788391113281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3763530254364014, "timer/agent.save_frac": 0.004585509292657432, "timer/agent.save_avg": 1.3763530254364014, "timer/agent.save_min": 1.3763530254364014, "timer/agent.save_max": 1.3763530254364014, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010585784912109375, "timer/replay.save_frac": 3.526799751768582e-07, "timer/replay.save_avg": 0.00010585784912109375, "timer/replay.save_min": 0.00010585784912109375, "timer/replay.save_max": 0.00010585784912109375, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 14.396782875061035, "timer/agent.policy_frac": 0.047964861076998634, "timer/agent.policy_avg": 0.010110100333610277, "timer/agent.policy_min": 0.005685091018676758, "timer/agent.policy_max": 2.8072621822357178, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0650780200958252, "timer/dataset_frac": 0.00021681636933412092, "timer/dataset_avg": 9.140171361773202e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0002269744873046875, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.082403421402, "timer/agent.train_frac": 0.8831584642489477, "timer/agent.train_avg": 0.3723067463783736, "timer/agent.train_min": 0.36561059951782227, "timer/agent.train_max": 0.44263768196105957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22222542762756348, "timer/agent.report_frac": 0.0007403745584297775, "timer/agent.report_avg": 0.22222542762756348, "timer/agent.report_min": 0.22222542762756348, "timer/agent.report_max": 0.22222542762756348, "fps": 4.7441807558739235}
+{"step": 474325, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04186046511627907}
+{"step": 474391, "episode/length": 65.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.13636363636363635}
+{"step": 474460, "episode/length": 68.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.10144927536231885}
+{"step": 474682, "episode/length": 221.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04504504504504504}
+{"step": 474901, "episode/length": 218.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.0502283105022831}
+{"step": 475180, "episode/length": 278.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.03942652329749104}
+{"step": 475344, "episode/length": 163.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.06707317073170732}
+{"step": 475508, "episode/length": 163.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04878048780487805}
+{"step": 475579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542484707302517, "train/action_min": 0.0, "train/action_std": 3.401901271608141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044383607546074524, "train/actor_opt_grad_steps": 236885.0, "train/actor_opt_loss": -11.042608700692654, "train/adv_mag": 0.44940924189156956, "train/adv_max": 0.40596846780843204, "train/adv_mean": 0.0026059728832276757, "train/adv_min": -0.37545580437613857, "train/adv_std": 0.050926252423475184, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 4.5392609864691735e-05, "train/cont_loss_std": 0.0013823515065200336, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0031449760650446024, "train/cont_pos_acc": 0.999986340602239, "train/cont_pos_loss": 2.842976523590816e-05, "train/cont_pred": 0.9946455558141073, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.11771943171819, "train/dyn_loss_std": 8.742900715933906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0638644645611446, "train/extr_critic_critic_opt_grad_steps": 236885.0, "train/extr_critic_critic_opt_loss": 16419.90513780382, "train/extr_critic_mag": 10.053610139422947, "train/extr_critic_max": 10.053610139422947, "train/extr_critic_mean": 2.6020719905694327, "train/extr_critic_min": -0.5062590191761652, "train/extr_critic_std": 2.4614908579323025, "train/extr_return_normed_mag": 1.4500420921378665, "train/extr_return_normed_max": 1.4500420921378665, "train/extr_return_normed_mean": 0.36577378896375495, "train/extr_return_normed_min": -0.08245673139269154, "train/extr_return_normed_std": 0.32804819341335034, "train/extr_return_rate": 0.7359963109095892, "train/extr_return_raw_mag": 10.88391477531857, "train/extr_return_raw_max": 10.88391477531857, "train/extr_return_raw_mean": 2.6219004657533436, "train/extr_return_raw_min": -0.7937461166746087, "train/extr_return_raw_std": 2.4998509337504706, "train/extr_reward_mag": 1.0494915511873033, "train/extr_reward_max": 1.0494915511873033, "train/extr_reward_mean": 0.05205158485720555, "train/extr_reward_min": -0.6462061206499735, "train/extr_reward_std": 0.22126713850431973, "train/image_loss_mean": 3.2186273336410522, "train/image_loss_std": 8.331373916731941, "train/model_loss_mean": 6.341942608356476, "train/model_loss_std": 12.464343892203438, "train/model_opt_grad_norm": 28.750184880362617, "train/model_opt_grad_steps": 236697.0, "train/model_opt_loss": 15854.856431749133, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5957269370555878, "train/policy_entropy_max": 2.5957269370555878, "train/policy_entropy_mean": 0.40309537967873943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5656855110492971, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4030509473135074, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.018533652027448, "train/policy_randomness_mag": 0.9161776999632517, "train/policy_randomness_max": 0.9161776999632517, "train/policy_randomness_mean": 0.14227498032980496, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19966216137011847, "train/post_ent_mag": 55.255290826161705, "train/post_ent_max": 55.255290826161705, "train/post_ent_mean": 41.23322359720866, "train/post_ent_min": 18.593300647205776, "train/post_ent_std": 5.670348438951704, "train/prior_ent_mag": 76.50137519836426, "train/prior_ent_max": 76.50137519836426, "train/prior_ent_mean": 46.38190741009183, "train/prior_ent_min": 28.47783062193129, "train/prior_ent_std": 7.323191940784454, "train/rep_loss_mean": 5.11771943171819, "train/rep_loss_std": 8.742900715933906, "train/reward_avg": 0.03515624984477957, "train/reward_loss_mean": 0.05263821573721038, "train/reward_loss_std": 0.21422975158525837, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0141308042738173, "train/reward_neg_acc": 0.9946072176098824, "train/reward_neg_loss": 0.02421075167755286, "train/reward_pos_acc": 0.9876820494731268, "train/reward_pos_loss": 0.7327778496676021, "train/reward_pred": 0.03479741454227931, "train/reward_rate": 0.0400390625, "stats/sum_log_reward": 8.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 9.125, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3899356797337532, "replay/size": 475516.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.784563806321886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2707793050342135e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14798188209534, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.53200054168701, "timer/env.step_frac": 0.06840625884918469, "timer/env.step_avg": 0.01425833370950487, "timer/env.step_min": 0.0031092166900634766, "timer/env.step_max": 1.6992676258087158, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2757575511932373, "timer/replay.add_frac": 0.000918738648396313, "timer/replay.add_avg": 0.00019149829943974813, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0014774799346923828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02913689613342285, "timer/logger.write_frac": 9.707510259012322e-05, "timer/logger.write_avg": 0.02913689613342285, "timer/logger.write_min": 0.02913689613342285, "timer/logger.write_max": 0.02913689613342285, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.478614091873169, "timer/agent.policy_frac": 0.03491149274490007, "timer/agent.policy_avg": 0.00727681534157859, "timer/agent.policy_min": 0.005686283111572266, "timer/agent.policy_max": 0.019023895263671875, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0670619010925293, "timer/dataset_frac": 0.00022342945860243256, "timer/dataset_avg": 9.314152929517958e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002002716064453125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0684452056885, "timer/agent.train_frac": 0.8931209316309566, "timer/agent.train_avg": 0.3723172850079007, "timer/agent.train_min": 0.3658897876739502, "timer/agent.train_max": 0.38655567169189453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174968719482422, "timer/agent.report_frac": 0.0007246321317385359, "timer/agent.report_avg": 0.2174968719482422, "timer/agent.report_min": 0.2174968719482422, "timer/agent.report_max": 0.2174968719482422, "fps": 4.797514014023559}
+{"step": 475716, "episode/length": 207.0, "episode/score": 10.1000000461936, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.057692307692307696}
+{"step": 475771, "episode/length": 54.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07272727272727272}
+{"step": 476054, "episode/length": 282.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03180212014134275}
+{"step": 476262, "episode/length": 207.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0625}
+{"step": 476424, "episode/length": 161.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.06790123456790123}
+{"step": 476491, "episode/length": 66.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.499999977648258, "episode/reward_rate": 0.08955223880597014}
+{"step": 476781, "episode/length": 289.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04827586206896552}
+{"step": 477019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.514614529079861, "train/action_min": 0.0, "train/action_std": 3.412750393152237, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04300714863671197, "train/actor_opt_grad_steps": 237605.0, "train/actor_opt_loss": -12.519871486557854, "train/adv_mag": 0.4560607141918606, "train/adv_max": 0.4242900585134824, "train/adv_mean": 0.002130290585733342, "train/adv_min": -0.35957471157113713, "train/adv_std": 0.04943693812108702, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 3.209916241549612e-05, "train/cont_loss_std": 0.0009871988308868633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.699581991632032e-05, "train/cont_pos_acc": 0.999986357986927, "train/cont_pos_loss": 3.1880169144373996e-05, "train/cont_pred": 0.9945994549327426, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.950771341721217, "train/dyn_loss_std": 8.625064121352302, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9987432128853269, "train/extr_critic_critic_opt_grad_steps": 237605.0, "train/extr_critic_critic_opt_loss": 16103.815972222223, "train/extr_critic_mag": 10.365824010637072, "train/extr_critic_max": 10.365824010637072, "train/extr_critic_mean": 2.6555154025554657, "train/extr_critic_min": -0.5122825735145144, "train/extr_critic_std": 2.497962329122755, "train/extr_return_normed_mag": 1.4742277810970943, "train/extr_return_normed_max": 1.4742277810970943, "train/extr_return_normed_mean": 0.36976654330889386, "train/extr_return_normed_min": -0.08614202780235145, "train/extr_return_normed_std": 0.32815264268881744, "train/extr_return_rate": 0.736363425023026, "train/extr_return_raw_mag": 11.191819734043545, "train/extr_return_raw_max": 11.191819734043545, "train/extr_return_raw_mean": 2.671922410527865, "train/extr_return_raw_min": -0.8459233219424883, "train/extr_return_raw_std": 2.5318753023942313, "train/extr_reward_mag": 1.0500540667110019, "train/extr_reward_max": 1.0500540667110019, "train/extr_reward_mean": 0.05129818331139783, "train/extr_reward_min": -0.6580625904930962, "train/extr_reward_std": 0.22031553172402912, "train/image_loss_mean": 2.8788642585277557, "train/image_loss_std": 7.655892994668749, "train/model_loss_mean": 5.898304823372099, "train/model_loss_std": 11.772331025865343, "train/model_opt_grad_norm": 31.70176378885905, "train/model_opt_grad_steps": 237416.05555555556, "train/model_opt_loss": 7796.622151692708, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.608689659171634, "train/policy_entropy_max": 2.608689659171634, "train/policy_entropy_mean": 0.40088381204340195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5645432335635027, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40099203938411343, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0175344124436378, "train/policy_randomness_mag": 0.9207529715365834, "train/policy_randomness_max": 0.9207529715365834, "train/policy_randomness_mean": 0.14149439252085155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19925898789531654, "train/post_ent_mag": 55.023236963484024, "train/post_ent_max": 55.023236963484024, "train/post_ent_mean": 41.14964723587036, "train/post_ent_min": 19.01863247818417, "train/post_ent_std": 5.602542996406555, "train/prior_ent_mag": 76.46743880377875, "train/prior_ent_max": 76.46743880377875, "train/prior_ent_mean": 46.140321254730225, "train/prior_ent_min": 28.093854268391926, "train/prior_ent_std": 7.312593069341448, "train/rep_loss_mean": 4.950771341721217, "train/rep_loss_std": 8.625064121352302, "train/reward_avg": 0.03343777107592258, "train/reward_loss_mean": 0.04894564161077142, "train/reward_loss_std": 0.19809432472619745, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0151676767402225, "train/reward_neg_acc": 0.9947290635771222, "train/reward_neg_loss": 0.02208699957312395, "train/reward_pos_acc": 0.9877573028206825, "train/reward_pos_loss": 0.7259007592995962, "train/reward_pred": 0.033187516344090305, "train/reward_rate": 0.03818088107638889, "stats/sum_log_reward": 8.528571503502983, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 8.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.41351228739534107, "replay/size": 476956.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.763702180650499e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2573682599597508e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13684725761414, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.930898189544678, "timer/env.step_frac": 0.06307422218404216, "timer/env.step_avg": 0.013146457076072694, "timer/env.step_min": 0.003145456314086914, "timer/env.step_max": 1.7379720211029053, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26357579231262207, "timer/replay.add_frac": 0.0008781853835040424, "timer/replay.add_avg": 0.0001830387446615431, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.001538991928100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 1.6824829578399658, "timer/logger.write_frac": 0.00560571943502776, "timer/logger.write_avg": 1.6824829578399658, "timer/logger.write_min": 1.6824829578399658, "timer/logger.write_max": 1.6824829578399658, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.474250316619873, "timer/agent.policy_frac": 0.03489824862333411, "timer/agent.policy_avg": 0.007273784942097134, "timer/agent.policy_min": 0.005608081817626953, "timer/agent.policy_max": 0.018129348754882812, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06678152084350586, "timer/dataset_frac": 0.00022250357279919648, "timer/dataset_avg": 9.275211228264703e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00018024444580078125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.02586483955383, "timer/agent.train_frac": 0.8930121952320678, "timer/agent.train_avg": 0.3722581456104914, "timer/agent.train_min": 0.3608226776123047, "timer/agent.train_max": 0.38324570655822754, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182633876800537, "timer/agent.report_frac": 0.0007272129019623952, "timer/agent.report_avg": 0.2182633876800537, "timer/agent.report_min": 0.2182633876800537, "timer/agent.report_max": 0.2182633876800537, "fps": 4.797745863448756}
+{"step": 477022, "episode/length": 240.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.500000052154064, "episode/reward_rate": 0.04564315352697095}
+{"step": 477081, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.1016949152542373}
+{"step": 477289, "episode/length": 207.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.052884615384615384}
+{"step": 477508, "episode/length": 218.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.045662100456621}
+{"step": 477822, "episode/length": 313.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03184713375796178}
+{"step": 478002, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
+{"step": 478164, "episode/length": 161.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06172839506172839}
+{"step": 478374, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05714285714285714}
+{"step": 478435, "stats/sum_log_reward": 8.475000262260437, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.75, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.125, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3867759872227907, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517658342633928, "train/action_min": 0.0, "train/action_std": 3.360632770402091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043252928022827423, "train/actor_opt_grad_steps": 238315.0, "train/actor_opt_loss": -13.490374039752142, "train/adv_mag": 0.4098631207432066, "train/adv_max": 0.37608394963400704, "train/adv_mean": 0.0021392716398362867, "train/adv_min": -0.36034955084323883, "train/adv_std": 0.04963997980313642, "train/cont_avg": 0.9945870535714286, "train/cont_loss_mean": 0.00023787257309533874, "train/cont_loss_std": 0.007479024453948569, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0036406942226968955, "train/cont_pos_acc": 0.9999719168458666, "train/cont_pos_loss": 0.0002245887334847144, "train/cont_pred": 0.9945644267967769, "train/cont_rate": 0.9945870535714286, "train/dyn_loss_mean": 4.940990100588118, "train/dyn_loss_std": 8.67181077003479, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.013420385973794, "train/extr_critic_critic_opt_grad_steps": 238315.0, "train/extr_critic_critic_opt_loss": 16309.344517299107, "train/extr_critic_mag": 10.126594420841762, "train/extr_critic_max": 10.126594420841762, "train/extr_critic_mean": 2.669796121120453, "train/extr_critic_min": -0.5148700186184474, "train/extr_critic_std": 2.4365969691957745, "train/extr_return_normed_mag": 1.4482874189104353, "train/extr_return_normed_max": 1.4482874189104353, "train/extr_return_normed_mean": 0.37565526025635854, "train/extr_return_normed_min": -0.08517199786646025, "train/extr_return_normed_std": 0.3242244633180755, "train/extr_return_rate": 0.7491183425698962, "train/extr_return_raw_mag": 10.844067600795201, "train/extr_return_raw_max": 10.844067600795201, "train/extr_return_raw_mean": 2.686087610040392, "train/extr_return_raw_min": -0.8187813128743853, "train/extr_return_raw_std": 2.4659769637244087, "train/extr_reward_mag": 1.046654656955174, "train/extr_reward_max": 1.046654656955174, "train/extr_reward_mean": 0.05480645581015519, "train/extr_reward_min": -0.6530647124562945, "train/extr_reward_std": 0.2270302836384092, "train/image_loss_mean": 2.857349765300751, "train/image_loss_std": 7.565028394971575, "train/model_loss_mean": 5.873947559084211, "train/model_loss_std": 11.706011881147113, "train/model_opt_grad_norm": 27.64147332055228, "train/model_opt_grad_steps": 238126.0, "train/model_opt_loss": 11357.256584821429, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1928.5714285714287, "train/policy_entropy_mag": 2.583491717066084, "train/policy_entropy_max": 2.583491717066084, "train/policy_entropy_mean": 0.3786384403705597, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5363921748740332, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3787600259695734, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 0.9989718905517033, "train/policy_randomness_mag": 0.9118592015334538, "train/policy_randomness_max": 0.9118592015334538, "train/policy_randomness_mean": 0.13364275257502284, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18932289917554174, "train/post_ent_mag": 55.51966236659459, "train/post_ent_max": 55.51966236659459, "train/post_ent_mean": 41.09766595023019, "train/post_ent_min": 19.303610965183804, "train/post_ent_std": 5.601417452948434, "train/prior_ent_mag": 76.33617390223912, "train/prior_ent_max": 76.33617390223912, "train/prior_ent_mean": 46.06506685529436, "train/prior_ent_min": 28.36088090624128, "train/prior_ent_std": 7.391246509552002, "train/rep_loss_mean": 4.940990100588118, "train/rep_loss_std": 8.67181077003479, "train/reward_avg": 0.03568498875413622, "train/reward_loss_mean": 0.05176587663590908, "train/reward_loss_std": 0.2067558529121535, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.017316494669233, "train/reward_neg_acc": 0.9944656721183232, "train/reward_neg_loss": 0.022843553125858305, "train/reward_pos_acc": 0.9858985560280936, "train/reward_pos_loss": 0.7367002470152718, "train/reward_pred": 0.035308033653668, "train/reward_rate": 0.04048549107142857, "replay/size": 478372.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.806446905189988e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2566435471766412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32007598876953, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.850385427474976, "timer/env.step_frac": 0.07608677292799255, "timer/env.step_avg": 0.01613727784426199, "timer/env.step_min": 0.0031998157501220703, "timer/env.step_max": 2.0685300827026367, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2724609375, "timer/replay.add_frac": 0.0009072351776781938, "timer/replay.add_avg": 0.00019241591631355932, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0011782646179199219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030386924743652344, "timer/logger.write_frac": 0.00010118179626722211, "timer/logger.write_avg": 0.030386924743652344, "timer/logger.write_min": 0.030386924743652344, "timer/logger.write_max": 0.030386924743652344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006361007690429688, "timer/checkpoint.save_frac": 2.1180760791588096e-06, "timer/checkpoint.save_avg": 0.0006361007690429688, "timer/checkpoint.save_min": 0.0006361007690429688, "timer/checkpoint.save_max": 0.0006361007690429688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4331343173980713, "timer/agent.save_frac": 0.004772023024700031, "timer/agent.save_avg": 1.4331343173980713, "timer/agent.save_min": 1.4331343173980713, "timer/agent.save_max": 1.4331343173980713, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.463859558105469e-05, "timer/replay.save_frac": 2.8182796405598856e-07, "timer/replay.save_avg": 8.463859558105469e-05, "timer/replay.save_min": 8.463859558105469e-05, "timer/replay.save_max": 8.463859558105469e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.373182773590088, "timer/agent.policy_frac": 0.04119998549165518, "timer/agent.policy_avg": 0.008738123427676615, "timer/agent.policy_min": 0.005611419677734375, "timer/agent.policy_max": 1.4211478233337402, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0650947093963623, "timer/dataset_frac": 0.00021675110856989968, "timer/dataset_avg": 9.194167993836484e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.0321617126465, "timer/agent.train_frac": 0.8791692025361634, "timer/agent.train_avg": 0.3729267820800092, "timer/agent.train_min": 0.3657855987548828, "timer/agent.train_max": 0.9473121166229248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21910715103149414, "timer/agent.report_frac": 0.0007295787679531875, "timer/agent.report_avg": 0.21910715103149414, "timer/agent.report_min": 0.21910715103149414, "timer/agent.report_max": 0.21910715103149414, "fps": 4.714906808360706}
+{"step": 478632, "episode/length": 257.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.03875968992248062}
+{"step": 478807, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
+{"step": 479040, "episode/length": 232.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.03862660944206009}
+{"step": 479205, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
+{"step": 479377, "episode/length": 171.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05813953488372093}
+{"step": 479453, "episode/length": 75.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.09210526315789473}
+{"step": 479664, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
+{"step": 479830, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.060240963855421686}
+{"step": 479873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522835625542535, "train/action_min": 0.0, "train/action_std": 3.3576103018389807, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04316826376857029, "train/actor_opt_grad_steps": 239025.0, "train/actor_opt_loss": -12.335911072997582, "train/adv_mag": 0.41889262985852027, "train/adv_max": 0.3854455722288953, "train/adv_mean": 0.002236995425442324, "train/adv_min": -0.3444082513451576, "train/adv_std": 0.04941952052629656, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 7.987157635290664e-05, "train/cont_loss_std": 0.002419882299019744, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.017615011915874373, "train/cont_pos_acc": 0.9999863132834435, "train/cont_pos_loss": 2.3197377376031152e-05, "train/cont_pred": 0.9950126699275441, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.061816533406575, "train/dyn_loss_std": 8.70624625020557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039190789891614, "train/extr_critic_critic_opt_grad_steps": 239025.0, "train/extr_critic_critic_opt_loss": 16335.150065104166, "train/extr_critic_mag": 9.949072374237907, "train/extr_critic_max": 9.949072374237907, "train/extr_critic_mean": 2.5607040425141654, "train/extr_critic_min": -0.4825991044441859, "train/extr_critic_std": 2.3695278763771057, "train/extr_return_normed_mag": 1.454371154308319, "train/extr_return_normed_max": 1.454371154308319, "train/extr_return_normed_mean": 0.36829339361025226, "train/extr_return_normed_min": -0.08782427607932025, "train/extr_return_normed_std": 0.3225169616440932, "train/extr_return_rate": 0.7354329799612364, "train/extr_return_raw_mag": 10.656989415486654, "train/extr_return_raw_max": 10.656989415486654, "train/extr_return_raw_mean": 2.577305262287458, "train/extr_return_raw_min": -0.8160391557547781, "train/extr_return_raw_std": 2.399354431364271, "train/extr_reward_mag": 1.0513305697176192, "train/extr_reward_max": 1.0513305697176192, "train/extr_reward_mean": 0.05274217935382492, "train/extr_reward_min": -0.661013224058681, "train/extr_reward_std": 0.22194064863853985, "train/image_loss_mean": 3.1447735412253275, "train/image_loss_std": 8.012304060988956, "train/model_loss_mean": 6.232185800870259, "train/model_loss_std": 12.180662678347694, "train/model_opt_grad_norm": 32.26144756211175, "train/model_opt_grad_steps": 238835.125, "train/model_opt_loss": 8700.735087076822, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1406.25, "train/policy_entropy_mag": 2.6001960833867392, "train/policy_entropy_max": 2.6001960833867392, "train/policy_entropy_mean": 0.4023965903454357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5652038632995553, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4019086750017272, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0160702276560996, "train/policy_randomness_mag": 0.9177551103962792, "train/policy_randomness_max": 0.9177551103962792, "train/policy_randomness_mean": 0.1420283392071724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19949215919607216, "train/post_ent_mag": 55.03076574537489, "train/post_ent_max": 55.03076574537489, "train/post_ent_mean": 41.15475797653198, "train/post_ent_min": 19.000327269236248, "train/post_ent_std": 5.566805965370602, "train/prior_ent_mag": 76.4292008082072, "train/prior_ent_max": 76.4292008082072, "train/prior_ent_mean": 46.237691720326744, "train/prior_ent_min": 28.40533497598436, "train/prior_ent_std": 7.305556734402974, "train/rep_loss_mean": 5.061816533406575, "train/rep_loss_std": 8.70624625020557, "train/reward_avg": 0.0351074215852552, "train/reward_loss_mean": 0.05024245303745071, "train/reward_loss_std": 0.20214642687804169, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.017092181576623, "train/reward_neg_acc": 0.9944001502460904, "train/reward_neg_loss": 0.022680840015204415, "train/reward_pos_acc": 0.9914634633395407, "train/reward_pos_loss": 0.7169171373049418, "train/reward_pred": 0.03492448476350142, "train/reward_rate": 0.03965928819444445, "stats/sum_log_reward": 8.350000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 6.375, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33866642974317074, "replay/size": 479810.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.841059264287829e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.269438004792151e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0540568828583, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.646336793899536, "timer/env.step_frac": 0.06880872402921687, "timer/env.step_avg": 0.014357675100069219, "timer/env.step_min": 0.0031371116638183594, "timer/env.step_max": 1.7253727912902832, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2683422565460205, "timer/replay.add_frac": 0.0008943130425687992, "timer/replay.add_avg": 0.00018660796700001425, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0014138221740722656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028841257095336914, "timer/logger.write_frac": 9.612020378913457e-05, "timer/logger.write_avg": 0.028841257095336914, "timer/logger.write_min": 0.028841257095336914, "timer/logger.write_max": 0.028841257095336914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.575794219970703, "timer/agent.policy_frac": 0.035246296383519705, "timer/agent.policy_avg": 0.007354516147406609, "timer/agent.policy_min": 0.005718708038330078, "timer/agent.policy_max": 0.01616954803466797, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06720519065856934, "timer/dataset_frac": 0.0002239769438771707, "timer/dataset_avg": 9.347036252930367e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.76134872436523, "timer/agent.train_frac": 0.8923770320122678, "timer/agent.train_avg": 0.37240799544417974, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.3882932662963867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22004413604736328, "timer/agent.report_frac": 0.0007333483117452699, "timer/agent.report_avg": 0.22004413604736328, "timer/agent.report_min": 0.22004413604736328, "timer/agent.report_max": 0.22004413604736328, "fps": 4.792393521747393}
+{"step": 480045, "episode/length": 214.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.06046511627906977}
+{"step": 480227, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 480394, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
+{"step": 480648, "episode/length": 253.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.03937007874015748}
+{"step": 480810, "episode/length": 161.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05555555555555555}
+{"step": 481018, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.057692307692307696}
+{"step": 481154, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.07352941176470588}
+{"step": 481323, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512142651701627, "train/action_min": 0.0, "train/action_std": 3.388691408993447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043373663029442094, "train/actor_opt_grad_steps": 239750.0, "train/actor_opt_loss": -12.48946383309691, "train/adv_mag": 0.4165395792216471, "train/adv_max": 0.3781679056278647, "train/adv_mean": 0.002551596280432957, "train/adv_min": -0.3481065083856452, "train/adv_std": 0.04953905368504459, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 9.63424245572254e-06, "train/cont_loss_std": 0.0002608081198113972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007567135314098374, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 5.693313404233229e-06, "train/cont_pred": 0.9949682216121726, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 4.910209678623774, "train/dyn_loss_std": 8.679311915619733, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0688964634725493, "train/extr_critic_critic_opt_grad_steps": 239750.0, "train/extr_critic_critic_opt_loss": 16156.385956228596, "train/extr_critic_mag": 9.922331470332734, "train/extr_critic_max": 9.922331470332734, "train/extr_critic_mean": 2.67130545230761, "train/extr_critic_min": -0.5294406887603132, "train/extr_critic_std": 2.400715267821534, "train/extr_return_normed_mag": 1.4469122886657715, "train/extr_return_normed_max": 1.4469122886657715, "train/extr_return_normed_mean": 0.3801416564885884, "train/extr_return_normed_min": -0.0913299453278927, "train/extr_return_normed_std": 0.3249308221960721, "train/extr_return_rate": 0.7572836802430349, "train/extr_return_raw_mag": 10.688793404461586, "train/extr_return_raw_max": 10.688793404461586, "train/extr_return_raw_mean": 2.690463691541593, "train/extr_return_raw_min": -0.8448197719168989, "train/extr_return_raw_std": 2.436400486998362, "train/extr_reward_mag": 1.0519134998321533, "train/extr_reward_max": 1.0519134998321533, "train/extr_reward_mean": 0.052318829226575485, "train/extr_reward_min": -0.6672718426952623, "train/extr_reward_std": 0.2211174826099448, "train/image_loss_mean": 2.95167417069004, "train/image_loss_std": 7.938952935885077, "train/model_loss_mean": 5.947501744309517, "train/model_loss_std": 12.076005177955105, "train/model_opt_grad_norm": 29.427045364902444, "train/model_opt_grad_steps": 239560.0, "train/model_opt_loss": 11092.251270869006, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.6027187811185235, "train/policy_entropy_max": 2.6027187811185235, "train/policy_entropy_mean": 0.3836974362804465, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5480440218154699, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3827441293899327, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.00155401066558, "train/policy_randomness_mag": 0.9186455109348036, "train/policy_randomness_max": 0.9186455109348036, "train/policy_randomness_mean": 0.13542835516472385, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1934354893148762, "train/post_ent_mag": 55.19990696319162, "train/post_ent_max": 55.19990696319162, "train/post_ent_mean": 41.281050642875776, "train/post_ent_min": 18.801349783596926, "train/post_ent_std": 5.563057291997622, "train/prior_ent_mag": 76.49878922553911, "train/prior_ent_max": 76.49878922553911, "train/prior_ent_mean": 46.19926290642725, "train/prior_ent_min": 28.842183126162176, "train/prior_ent_std": 7.233609447740529, "train/rep_loss_mean": 4.910209678623774, "train/rep_loss_std": 8.679311915619733, "train/reward_avg": 0.035463934075342464, "train/reward_loss_mean": 0.049692061768002706, "train/reward_loss_std": 0.21106004470015224, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0168463138684833, "train/reward_neg_acc": 0.994944254829459, "train/reward_neg_loss": 0.021300004948287793, "train/reward_pos_acc": 0.9887089084272516, "train/reward_pos_loss": 0.7366847836807983, "train/reward_pred": 0.03512681768058914, "train/reward_rate": 0.03982502140410959, "stats/sum_log_reward": 9.528571741921562, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3691855754171099, "replay/size": 481260.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.739225453343885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2724769526514513e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2431950569153, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.77176022529602, "timer/env.step_frac": 0.06252185073416093, "timer/env.step_avg": 0.012946041534686911, "timer/env.step_min": 0.002992391586303711, "timer/env.step_max": 1.6446034908294678, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2712132930755615, "timer/replay.add_frac": 0.0009033120401751296, "timer/replay.add_avg": 0.000187043650396939, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0012652873992919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02799224853515625, "timer/logger.write_frac": 9.323191664627046e-05, "timer/logger.write_avg": 0.02799224853515625, "timer/logger.write_min": 0.02799224853515625, "timer/logger.write_max": 0.02799224853515625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.484550952911377, "timer/agent.policy_frac": 0.03492019511357746, "timer/agent.policy_avg": 0.0072307247951112945, "timer/agent.policy_min": 0.00564885139465332, "timer/agent.policy_max": 0.015985488891601562, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0671088695526123, "timer/dataset_frac": 0.00022351503933300097, "timer/dataset_avg": 9.256395800360318e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019311904907226562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.92229986190796, "timer/agent.train_frac": 0.8990122151169502, "timer/agent.train_avg": 0.3723066204991834, "timer/agent.train_min": 0.3660438060760498, "timer/agent.train_max": 0.3868083953857422, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22075128555297852, "timer/agent.report_frac": 0.0007352415947716385, "timer/agent.report_avg": 0.22075128555297852, "timer/agent.report_min": 0.22075128555297852, "timer/agent.report_max": 0.22075128555297852, "fps": 4.8293557555430615}
+{"step": 481437, "episode/length": 282.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04240282685512368}
+{"step": 481642, "episode/length": 204.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06829268292682927}
+{"step": 481890, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05241935483870968}
+{"step": 482061, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05847953216374269}
+{"step": 482309, "episode/length": 247.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04838709677419355}
+{"step": 482441, "episode/length": 131.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.09848484848484848}
+{"step": 482674, "episode/length": 232.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03862660944206009}
+{"step": 482749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.54852724746919, "train/action_min": 0.0, "train/action_std": 3.367507800249986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04581933788640399, "train/actor_opt_grad_steps": 240470.0, "train/actor_opt_loss": -11.44148830552651, "train/adv_mag": 0.4437905260374848, "train/adv_max": 0.3937404965850669, "train/adv_mean": 0.003134452906649553, "train/adv_min": -0.38687160275351834, "train/adv_std": 0.051110350120235494, "train/cont_avg": 0.9947045554577465, "train/cont_loss_mean": 9.515252841852152e-06, "train/cont_loss_std": 0.0002668601909116545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001690782464336248, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 8.67436824592005e-06, "train/cont_pred": 0.9946976211709035, "train/cont_rate": 0.9947045554577465, "train/dyn_loss_mean": 5.070559048316848, "train/dyn_loss_std": 8.763826672459992, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0766555952354215, "train/extr_critic_critic_opt_grad_steps": 240470.0, "train/extr_critic_critic_opt_loss": 16367.588427046654, "train/extr_critic_mag": 10.149113708818463, "train/extr_critic_max": 10.149113708818463, "train/extr_critic_mean": 2.6733617900123057, "train/extr_critic_min": -0.5389546793951115, "train/extr_critic_std": 2.4633034484487184, "train/extr_return_normed_mag": 1.4488960907492838, "train/extr_return_normed_max": 1.4488960907492838, "train/extr_return_normed_mean": 0.37472078539955783, "train/extr_return_normed_min": -0.0922302240112298, "train/extr_return_normed_std": 0.32836866966435607, "train/extr_return_rate": 0.7500944884730057, "train/extr_return_raw_mag": 10.888865296269806, "train/extr_return_raw_max": 10.888865296269806, "train/extr_return_raw_mean": 2.697267621335849, "train/extr_return_raw_min": -0.8632492112441802, "train/extr_return_raw_std": 2.5037436031959426, "train/extr_reward_mag": 1.0503558944648421, "train/extr_reward_max": 1.0503558944648421, "train/extr_reward_mean": 0.05415310773631217, "train/extr_reward_min": -0.6642369132646373, "train/extr_reward_std": 0.22527357935905457, "train/image_loss_mean": 3.027367329933274, "train/image_loss_std": 8.106223220556554, "train/model_loss_mean": 6.119668879979093, "train/model_loss_std": 12.260597443916428, "train/model_opt_grad_norm": 28.929873923180807, "train/model_opt_grad_steps": 240279.8309859155, "train/model_opt_loss": 14109.16152481294, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2288.7323943661972, "train/policy_entropy_mag": 2.608970924162529, "train/policy_entropy_max": 2.608970924162529, "train/policy_entropy_mean": 0.40149505961109216, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5664088893944109, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4009740134360085, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.0172668216933667, "train/policy_randomness_mag": 0.9208522464188051, "train/policy_randomness_max": 0.9208522464188051, "train/policy_randomness_mean": 0.14171013708265734, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19991748328779785, "train/post_ent_mag": 55.176822716081645, "train/post_ent_max": 55.176822716081645, "train/post_ent_mean": 41.087831040503275, "train/post_ent_min": 18.859144076495102, "train/post_ent_std": 5.594709994087757, "train/prior_ent_mag": 76.4595512067768, "train/prior_ent_max": 76.4595512067768, "train/prior_ent_mean": 46.1607382331096, "train/prior_ent_min": 28.396841290970922, "train/prior_ent_std": 7.302446741453359, "train/rep_loss_mean": 5.070559048316848, "train/rep_loss_std": 8.763826672459992, "train/reward_avg": 0.035171379427045166, "train/reward_loss_mean": 0.049956622887665114, "train/reward_loss_std": 0.20288009962565462, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0192254630612656, "train/reward_neg_acc": 0.9945697230352483, "train/reward_neg_loss": 0.02207332854749451, "train/reward_pos_acc": 0.9907357524818098, "train/reward_pos_loss": 0.7211683031538842, "train/reward_pred": 0.03505470719135983, "train/reward_rate": 0.039805237676056336, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.46261116010802134, "replay/size": 482686.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.760192036461529e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2666404999656732e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03225469589233, "timer/env.step_count": 1426.0, "timer/env.step_total": 20.49662184715271, "timer/env.step_frac": 0.06831472792126214, "timer/env.step_avg": 0.014373507606698956, "timer/env.step_min": 0.0032236576080322266, "timer/env.step_max": 2.0430712699890137, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2595639228820801, "timer/replay.add_frac": 0.0008651200623251981, "timer/replay.add_avg": 0.00018202238631281914, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0014753341674804688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02963423728942871, "timer/logger.write_frac": 9.877017162526568e-05, "timer/logger.write_avg": 0.02963423728942871, "timer/logger.write_min": 0.02963423728942871, "timer/logger.write_max": 0.02963423728942871, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00040030479431152344, "timer/checkpoint.save_frac": 1.334205866356821e-06, "timer/checkpoint.save_avg": 0.00040030479431152344, "timer/checkpoint.save_min": 0.00040030479431152344, "timer/checkpoint.save_max": 0.00040030479431152344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3572025299072266, "timer/agent.save_frac": 0.0045235220835935265, "timer/agent.save_avg": 1.3572025299072266, "timer/agent.save_min": 1.3572025299072266, "timer/agent.save_max": 1.3572025299072266, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.894371032714844e-05, "timer/replay.save_frac": 3.2977691157717735e-07, "timer/replay.save_avg": 9.894371032714844e-05, "timer/replay.save_min": 9.894371032714844e-05, "timer/replay.save_max": 9.894371032714844e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.348227739334106, "timer/agent.policy_frac": 0.041156334180970186, "timer/agent.policy_avg": 0.008659346240767255, "timer/agent.policy_min": 0.0057032108306884766, "timer/agent.policy_max": 1.3504846096038818, "timer/dataset_count": 713.0, "timer/dataset_total": 0.0651242733001709, "timer/dataset_frac": 0.00021705757391377728, "timer/dataset_avg": 9.133839172534488e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 713.0, "timer/agent.train_total": 266.13123297691345, "timer/agent.train_frac": 0.8870087425988903, "timer/agent.train_avg": 0.37325558622288, "timer/agent.train_min": 0.3662087917327881, "timer/agent.train_max": 0.9558122158050537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137212753295898, "timer/agent.report_frac": 0.0007378277637427285, "timer/agent.report_avg": 0.22137212753295898, "timer/agent.report_min": 0.22137212753295898, "timer/agent.report_max": 0.22137212753295898, "fps": 4.752751762118685}
+{"step": 482832, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
+{"step": 482986, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07792207792207792}
+{"step": 483173, "episode/length": 186.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06417112299465241}
+{"step": 483338, "episode/length": 164.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07272727272727272}
+{"step": 483648, "episode/length": 309.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03870967741935484}
+{"step": 483710, "episode/length": 61.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.0967741935483871}
+{"step": 484124, "episode/length": 413.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.026570048309178744}
+{"step": 484195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528109232584636, "train/action_min": 0.0, "train/action_std": 3.406138473086887, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044180873367521495, "train/actor_opt_grad_steps": 241185.0, "train/actor_opt_loss": -15.08671516345607, "train/adv_mag": 0.4158165032664935, "train/adv_max": 0.36155453821023303, "train/adv_mean": 0.0015887715705199905, "train/adv_min": -0.37888319190177655, "train/adv_std": 0.049576758303576045, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 8.583800365514883e-05, "train/cont_loss_std": 0.0026342647733328148, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.03762963998030955, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.0551552558456399e-05, "train/cont_pred": 0.9944446782271067, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 5.111909677584966, "train/dyn_loss_std": 8.71829061375724, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0316750506560008, "train/extr_critic_critic_opt_grad_steps": 241185.0, "train/extr_critic_critic_opt_loss": 16175.044135199652, "train/extr_critic_mag": 10.243018560939365, "train/extr_critic_max": 10.243018560939365, "train/extr_critic_mean": 2.7463152938418918, "train/extr_critic_min": -0.549086782667372, "train/extr_critic_std": 2.532807730966144, "train/extr_return_normed_mag": 1.4316554135746427, "train/extr_return_normed_max": 1.4316554135746427, "train/extr_return_normed_mean": 0.3749982923683193, "train/extr_return_normed_min": -0.08962009091758066, "train/extr_return_normed_std": 0.3296542813380559, "train/extr_return_rate": 0.7432599514722824, "train/extr_return_raw_mag": 10.980983005629646, "train/extr_return_raw_max": 10.980983005629646, "train/extr_return_raw_mean": 2.758667947517501, "train/extr_return_raw_min": -0.8564015560679965, "train/extr_return_raw_std": 2.5650894112057157, "train/extr_reward_mag": 1.050097366174062, "train/extr_reward_max": 1.050097366174062, "train/extr_reward_mean": 0.053625236394711666, "train/extr_reward_min": -0.6852045042647256, "train/extr_reward_std": 0.22455166321661738, "train/image_loss_mean": 3.063575095600552, "train/image_loss_std": 8.144386801454756, "train/model_loss_mean": 6.18171794546975, "train/model_loss_std": 12.281387037701077, "train/model_opt_grad_norm": 29.86372170183394, "train/model_opt_grad_steps": 240994.0, "train/model_opt_loss": 7727.14739312066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6038733886347876, "train/policy_entropy_max": 2.6038733886347876, "train/policy_entropy_mean": 0.3944324155648549, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5534256493879689, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39495774048070115, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.012840073969629, "train/policy_randomness_mag": 0.9190530396170087, "train/policy_randomness_max": 0.9190530396170087, "train/policy_randomness_mean": 0.13921733397162622, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19533496712230974, "train/post_ent_mag": 54.68981271319919, "train/post_ent_max": 54.68981271319919, "train/post_ent_mean": 41.059862772623696, "train/post_ent_min": 19.13151348961724, "train/post_ent_std": 5.547082278463575, "train/prior_ent_mag": 76.32438564300537, "train/prior_ent_max": 76.32438564300537, "train/prior_ent_mean": 46.14501020643446, "train/prior_ent_min": 28.51693884531657, "train/prior_ent_std": 7.275942020946079, "train/rep_loss_mean": 5.111909677584966, "train/rep_loss_std": 8.71829061375724, "train/reward_avg": 0.035456000180501074, "train/reward_loss_mean": 0.05091125311123, "train/reward_loss_std": 0.1986769868267907, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.016859256558948, "train/reward_neg_acc": 0.9947563757499059, "train/reward_neg_loss": 0.02278707754643013, "train/reward_pos_acc": 0.9915311427579986, "train/reward_pos_loss": 0.7174199860956934, "train/reward_pred": 0.035207100238444075, "train/reward_rate": 0.04039171006944445, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 17.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43603687839848654, "replay/size": 484132.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7896352849725537e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2914133599520058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2596504688263, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.289791584014893, "timer/env.step_frac": 0.06424370225535052, "timer/env.step_avg": 0.013340104829885818, "timer/env.step_min": 0.003077983856201172, "timer/env.step_max": 1.7763662338256836, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27927088737487793, "timer/replay.add_frac": 0.0009300979566812375, "timer/replay.add_avg": 0.0001931333937585601, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0019488334655761719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031178712844848633, "timer/logger.write_frac": 0.00010383916985237977, "timer/logger.write_avg": 0.031178712844848633, "timer/logger.write_min": 0.031178712844848633, "timer/logger.write_max": 0.031178712844848633, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.648325443267822, "timer/agent.policy_frac": 0.03546372423547918, "timer/agent.policy_avg": 0.007363987166851883, "timer/agent.policy_min": 0.005689859390258789, "timer/agent.policy_max": 0.018636226654052734, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06807279586791992, "timer/dataset_frac": 0.0002267130990182359, "timer/dataset_avg": 9.415324463059464e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.2351076602936, "timer/agent.train_frac": 0.8966742858719415, "timer/agent.train_avg": 0.3723860410239192, "timer/agent.train_min": 0.3652684688568115, "timer/agent.train_max": 0.42178964614868164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22144579887390137, "timer/agent.report_frac": 0.0007375143430965008, "timer/agent.report_avg": 0.22144579887390137, "timer/agent.report_min": 0.22144579887390137, "timer/agent.report_max": 0.22144579887390137, "fps": 4.815727111660066}
+{"step": 484294, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
+{"step": 484477, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06557377049180328}
+{"step": 484631, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06493506493506493}
+{"step": 484807, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
+{"step": 485017, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05714285714285714}
+{"step": 485430, "episode/length": 412.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.500000059604645, "episode/reward_rate": 0.024213075060532687}
+{"step": 485607, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.062146892655367235}
+{"step": 485651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.541845034246576, "train/action_min": 0.0, "train/action_std": 3.3835378346377856, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04450822636893351, "train/actor_opt_grad_steps": 241910.0, "train/actor_opt_loss": -12.593912772936363, "train/adv_mag": 0.42047165191336855, "train/adv_max": 0.37152699452556975, "train/adv_mean": 0.002470777010423935, "train/adv_min": -0.37249591497525775, "train/adv_std": 0.05039120271597823, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00031833987308134166, "train/cont_loss_std": 0.01006050623302817, "train/cont_neg_acc": 0.9902968039251354, "train/cont_neg_loss": 0.026730127298708807, "train/cont_pos_acc": 0.9999596239769295, "train/cont_pos_loss": 0.0002076552466950775, "train/cont_pred": 0.9948817467036313, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.1244059784771645, "train/dyn_loss_std": 8.730467855113826, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9993844693654204, "train/extr_critic_critic_opt_grad_steps": 241910.0, "train/extr_critic_critic_opt_loss": 16479.987090646406, "train/extr_critic_mag": 10.174098341432336, "train/extr_critic_max": 10.174098341432336, "train/extr_critic_mean": 2.6637572311375237, "train/extr_critic_min": -0.570296483497097, "train/extr_critic_std": 2.4724860746566564, "train/extr_return_normed_mag": 1.4429413913047477, "train/extr_return_normed_max": 1.4429413913047477, "train/extr_return_normed_mean": 0.36873591089085356, "train/extr_return_normed_min": -0.0915586992281757, "train/extr_return_normed_std": 0.32414584045540795, "train/extr_return_rate": 0.7446659558439908, "train/extr_return_raw_mag": 10.99183358231636, "train/extr_return_raw_max": 10.99183358231636, "train/extr_return_raw_mean": 2.682887314117118, "train/extr_return_raw_min": -0.8781026961052254, "train/extr_return_raw_std": 2.507693104547997, "train/extr_reward_mag": 1.040186251679512, "train/extr_reward_max": 1.040186251679512, "train/extr_reward_mean": 0.054592196178967003, "train/extr_reward_min": -0.6929296712352805, "train/extr_reward_std": 0.22627590086362134, "train/image_loss_mean": 3.124060147429166, "train/image_loss_std": 8.163839634150674, "train/model_loss_mean": 6.248899583947169, "train/model_loss_std": 12.32046852373097, "train/model_opt_grad_norm": 31.650117090303603, "train/model_opt_grad_steps": 241718.698630137, "train/model_opt_loss": 11476.562319402825, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1849.3150684931506, "train/policy_entropy_mag": 2.5979075725764442, "train/policy_entropy_max": 2.5979075725764442, "train/policy_entropy_mean": 0.37504180918817653, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5356808806935401, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37531019094055645, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 0.9972142634326464, "train/policy_randomness_mag": 0.9169473680731368, "train/policy_randomness_max": 0.9169473680731368, "train/policy_randomness_mean": 0.13237329888833713, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1890718455183996, "train/post_ent_mag": 54.89283611349864, "train/post_ent_max": 54.89283611349864, "train/post_ent_mean": 41.065904643437634, "train/post_ent_min": 19.10766110354907, "train/post_ent_std": 5.627740696684955, "train/prior_ent_mag": 76.41654571115154, "train/prior_ent_max": 76.41654571115154, "train/prior_ent_mean": 46.17789067307564, "train/prior_ent_min": 28.680042501998273, "train/prior_ent_std": 7.276252975202587, "train/rep_loss_mean": 5.1244059784771645, "train/rep_loss_std": 8.730467855113826, "train/reward_avg": 0.033763645140275564, "train/reward_loss_mean": 0.04987753356156284, "train/reward_loss_std": 0.2022299497094873, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0121291206307608, "train/reward_neg_acc": 0.9951182971261952, "train/reward_neg_loss": 0.02290711070933979, "train/reward_pos_acc": 0.9908481395407899, "train/reward_pos_loss": 0.7220521936677906, "train/reward_pred": 0.03368322153205741, "train/reward_rate": 0.038567529965753425, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3483502630676542, "replay/size": 485588.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.335403872060252e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3744069652242976e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2140245437622, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.524423122406006, "timer/env.step_frac": 0.0617040564662418, "timer/env.step_avg": 0.012722818078575553, "timer/env.step_min": 0.002821683883666992, "timer/env.step_max": 1.523122787475586, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29221320152282715, "timer/replay.add_frac": 0.0009733496027272744, "timer/replay.add_avg": 0.0002006958801667769, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0009849071502685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031133651733398438, "timer/logger.write_frac": 0.000103704854497429, "timer/logger.write_avg": 0.031133651733398438, "timer/logger.write_min": 0.031133651733398438, "timer/logger.write_max": 0.031133651733398438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.089540719985962, "timer/agent.policy_frac": 0.03693878304599137, "timer/agent.policy_avg": 0.007616442802188161, "timer/agent.policy_min": 0.0059719085693359375, "timer/agent.policy_max": 0.01659083366394043, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06484794616699219, "timer/dataset_frac": 0.00021600571880524955, "timer/dataset_avg": 8.907684913048378e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021314620971679688, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.5573687553406, "timer/agent.train_frac": 0.8978839984740526, "timer/agent.train_avg": 0.3702711109276656, "timer/agent.train_min": 0.3622126579284668, "timer/agent.train_max": 0.3891470432281494, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2191028594970703, "timer/agent.report_frac": 0.0007298221987798298, "timer/agent.report_avg": 0.2191028594970703, "timer/agent.report_min": 0.2191028594970703, "timer/agent.report_max": 0.2191028594970703, "fps": 4.849769739386399}
+{"step": 485812, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
+{"step": 485968, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
+{"step": 486130, "episode/length": 161.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.07407407407407407}
+{"step": 486171, "episode/length": 40.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.17073170731707318}
+{"step": 486470, "episode/length": 298.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.046822742474916385}
+{"step": 486688, "episode/length": 217.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03669724770642202}
+{"step": 486898, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.06190476190476191}
+{"step": 487063, "episode/length": 164.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.07272727272727272}
+{"step": 487071, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501249931227993, "train/action_min": 0.0, "train/action_std": 3.3677648490583394, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043506959322052945, "train/actor_opt_grad_steps": 242630.0, "train/actor_opt_loss": -12.2344426840124, "train/adv_mag": 0.46326052974647197, "train/adv_max": 0.41853781695097264, "train/adv_mean": 0.002353351721441714, "train/adv_min": -0.37445966794457236, "train/adv_std": 0.04993387909842209, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 5.5843902579210766e-05, "train/cont_loss_std": 0.001714099360139993, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010588003501024885, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 3.828100989427236e-06, "train/cont_pred": 0.9946620103339074, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 5.010112218453851, "train/dyn_loss_std": 8.681564566115258, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0983302425330794, "train/extr_critic_critic_opt_grad_steps": 242630.0, "train/extr_critic_critic_opt_loss": 16291.413814920774, "train/extr_critic_mag": 10.521642187951317, "train/extr_critic_max": 10.521642187951317, "train/extr_critic_mean": 2.6639167372609527, "train/extr_critic_min": -0.5284524517999568, "train/extr_critic_std": 2.509170456671379, "train/extr_return_normed_mag": 1.4635902156292553, "train/extr_return_normed_max": 1.4635902156292553, "train/extr_return_normed_mean": 0.37162349026807595, "train/extr_return_normed_min": -0.08673071562194488, "train/extr_return_normed_std": 0.3302652984857559, "train/extr_return_rate": 0.7498285686466056, "train/extr_return_raw_mag": 11.074911856315506, "train/extr_return_raw_max": 11.074911856315506, "train/extr_return_raw_mean": 2.6819948646384226, "train/extr_return_raw_min": -0.8417234958057672, "train/extr_return_raw_std": 2.5385686410984523, "train/extr_reward_mag": 1.0432415881627042, "train/extr_reward_max": 1.0432415881627042, "train/extr_reward_mean": 0.051896450175365934, "train/extr_reward_min": -0.6561196135803008, "train/extr_reward_std": 0.22082682646496196, "train/image_loss_mean": 2.9369782813837833, "train/image_loss_std": 7.8751129835424285, "train/model_loss_mean": 5.993480541336704, "train/model_loss_std": 11.999381495193697, "train/model_opt_grad_norm": 28.425825253338882, "train/model_opt_grad_steps": 242438.0, "train/model_opt_loss": 7491.850668463909, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5951493458009103, "train/policy_entropy_max": 2.5951493458009103, "train/policy_entropy_mean": 0.38579730479650093, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5453987830961254, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3859795739113445, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0064421136614303, "train/policy_randomness_mag": 0.91597383290949, "train/policy_randomness_max": 0.91597383290949, "train/policy_randomness_mean": 0.1361695180686427, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19250183730897769, "train/post_ent_mag": 54.93998820345167, "train/post_ent_max": 54.93998820345167, "train/post_ent_mean": 41.155447409186564, "train/post_ent_min": 19.16468580004195, "train/post_ent_std": 5.605356337318958, "train/prior_ent_mag": 76.44715333320725, "train/prior_ent_max": 76.44715333320725, "train/prior_ent_mean": 46.18727552387077, "train/prior_ent_min": 28.809100674911285, "train/prior_ent_std": 7.262596204247274, "train/rep_loss_mean": 5.010112218453851, "train/rep_loss_std": 8.681564566115258, "train/reward_avg": 0.03468859998483054, "train/reward_loss_mean": 0.05037905275821686, "train/reward_loss_std": 0.20069150626659393, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0210086090463988, "train/reward_neg_acc": 0.995244775859403, "train/reward_neg_loss": 0.022546644434070503, "train/reward_pos_acc": 0.9899255507428881, "train/reward_pos_loss": 0.7258885418865043, "train/reward_pred": 0.03439750252160388, "train/reward_rate": 0.03953014964788732, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.875, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32861505448818207, "replay/size": 487008.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.306630631567727e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3767203814546826e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03847217559814, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.52139687538147, "timer/env.step_frac": 0.06839588512292943, "timer/env.step_avg": 0.014451687940409486, "timer/env.step_min": 0.0031027793884277344, "timer/env.step_max": 1.575103521347046, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.30333757400512695, "timer/replay.add_frac": 0.0010109955960167602, "timer/replay.add_avg": 0.00021361800986276547, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0009624958038330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02488851547241211, "timer/logger.write_frac": 8.295108054625093e-05, "timer/logger.write_avg": 0.02488851547241211, "timer/logger.write_min": 0.02488851547241211, "timer/logger.write_max": 0.02488851547241211, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002913475036621094, "timer/checkpoint.save_frac": 9.710338195949672e-07, "timer/checkpoint.save_avg": 0.0002913475036621094, "timer/checkpoint.save_min": 0.0002913475036621094, "timer/checkpoint.save_max": 0.0002913475036621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3466522693634033, "timer/agent.save_frac": 0.0044882653201062574, "timer/agent.save_avg": 1.3466522693634033, "timer/agent.save_min": 1.3466522693634033, "timer/agent.save_max": 1.3466522693634033, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.503074084880644e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 15.380822896957397, "timer/agent.policy_frac": 0.051262835680471464, "timer/agent.policy_avg": 0.010831565420392533, "timer/agent.policy_min": 0.006029367446899414, "timer/agent.policy_max": 3.1884994506835938, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06347322463989258, "timer/dataset_frac": 0.00021155028613378867, "timer/dataset_avg": 8.939890794351067e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 710.0, "timer/agent.train_total": 263.105028629303, "timer/agent.train_frac": 0.8769043073760228, "timer/agent.train_avg": 0.3705704628581732, "timer/agent.train_min": 0.36275267601013184, "timer/agent.train_max": 0.5160043239593506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20258641242980957, "timer/agent.report_frac": 0.000675201453203126, "timer/agent.report_avg": 0.20258641242980957, "timer/agent.report_min": 0.20258641242980957, "timer/agent.report_max": 0.20258641242980957, "fps": 4.732619324535266}
+{"step": 487340, "episode/length": 276.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04693140794223827}
+{"step": 487636, "episode/length": 295.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.030405405405405407}
+{"step": 487800, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04878048780487805}
+{"step": 487969, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 488188, "episode/length": 218.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0547945205479452}
+{"step": 488394, "episode/length": 205.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.05825242718446602}
+{"step": 488533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5942926276220035, "train/action_min": 0.0, "train/action_std": 3.421445372986467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044697719179604155, "train/actor_opt_grad_steps": 243350.0, "train/actor_opt_loss": -14.281451959316044, "train/adv_mag": 0.46986342497067907, "train/adv_max": 0.4322386290112587, "train/adv_mean": 0.0022074381684430203, "train/adv_min": -0.3833120832704518, "train/adv_std": 0.05141394473101995, "train/cont_avg": 0.994314533390411, "train/cont_loss_mean": 0.000137045867614059, "train/cont_loss_std": 0.004304565988430312, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.019605390907624858, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 3.635074525758782e-06, "train/cont_pred": 0.9943273385910139, "train/cont_rate": 0.994314533390411, "train/dyn_loss_mean": 5.1599731249352025, "train/dyn_loss_std": 8.78879255791233, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0488603392692462, "train/extr_critic_critic_opt_grad_steps": 243350.0, "train/extr_critic_critic_opt_loss": 16310.45917166096, "train/extr_critic_mag": 10.318408064646263, "train/extr_critic_max": 10.318408064646263, "train/extr_critic_mean": 2.745856131592842, "train/extr_critic_min": -0.5303194669828023, "train/extr_critic_std": 2.5528017658076876, "train/extr_return_normed_mag": 1.4742637742055607, "train/extr_return_normed_max": 1.4742637742055607, "train/extr_return_normed_mean": 0.3831800397944777, "train/extr_return_normed_min": -0.08924032303772561, "train/extr_return_normed_std": 0.3380211946898944, "train/extr_return_rate": 0.734091432127234, "train/extr_return_raw_mag": 11.116077762760527, "train/extr_return_raw_max": 11.116077762760527, "train/extr_return_raw_mean": 2.762766852770766, "train/extr_return_raw_min": -0.8541581532726549, "train/extr_return_raw_std": 2.5879116646231037, "train/extr_reward_mag": 1.0495736435668108, "train/extr_reward_max": 1.0495736435668108, "train/extr_reward_mean": 0.053985197785986615, "train/extr_reward_min": -0.6675597837526505, "train/extr_reward_std": 0.2247559171016902, "train/image_loss_mean": 3.093805430686637, "train/image_loss_std": 8.199339246096676, "train/model_loss_mean": 6.243403506605593, "train/model_loss_std": 12.387797420972014, "train/model_opt_grad_norm": 30.895391425041304, "train/model_opt_grad_steps": 243157.65753424657, "train/model_opt_loss": 12156.949051530393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1952.054794520548, "train/policy_entropy_mag": 2.6015420188642526, "train/policy_entropy_max": 2.6015420188642526, "train/policy_entropy_mean": 0.3988933846966861, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5639865210611527, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3990072391621054, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0179529141073358, "train/policy_randomness_mag": 0.9182301686234671, "train/policy_randomness_max": 0.9182301686234671, "train/policy_randomness_mean": 0.14079185993704077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19906249325977612, "train/post_ent_mag": 55.19040099888632, "train/post_ent_max": 55.19040099888632, "train/post_ent_mean": 40.94264137581603, "train/post_ent_min": 19.14555782161347, "train/post_ent_std": 5.59298098577212, "train/prior_ent_mag": 76.30832682570366, "train/prior_ent_max": 76.30832682570366, "train/prior_ent_mean": 46.13533532129575, "train/prior_ent_min": 28.215654085760246, "train/prior_ent_std": 7.3667050649042, "train/rep_loss_mean": 5.1599731249352025, "train/rep_loss_std": 8.78879255791233, "train/reward_avg": 0.03738896566608997, "train/reward_loss_mean": 0.05347713231019778, "train/reward_loss_std": 0.21474008792883728, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.024648277726892, "train/reward_neg_acc": 0.9943992928282855, "train/reward_neg_loss": 0.02341131305908912, "train/reward_pos_acc": 0.987588350086996, "train/reward_pos_loss": 0.7396419293259922, "train/reward_pred": 0.037014576568178935, "train/reward_rate": 0.04216609589041096, "stats/sum_log_reward": 10.100000143051147, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.833333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5140680000185966, "replay/size": 488470.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3694970460988265e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3750856780484013e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1191828250885, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.56357741355896, "timer/env.step_frac": 0.05852200865079368, "timer/env.step_avg": 0.01201339084374758, "timer/env.step_min": 0.0025534629821777344, "timer/env.step_max": 1.6584126949310303, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2886061668395996, "timer/replay.add_frac": 0.0009616385201468486, "timer/replay.add_avg": 0.0001974050388779751, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0012767314910888672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024674654006958008, "timer/logger.write_frac": 8.221618416620361e-05, "timer/logger.write_avg": 0.024674654006958008, "timer/logger.write_min": 0.024674654006958008, "timer/logger.write_max": 0.024674654006958008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 11.109773397445679, "timer/agent.policy_frac": 0.03701787167640174, "timer/agent.policy_avg": 0.007599024211659151, "timer/agent.policy_min": 0.0057828426361083984, "timer/agent.policy_max": 0.016202211380004883, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06594371795654297, "timer/dataset_frac": 0.000219725101660614, "timer/dataset_avg": 9.021028448227493e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0010919570922851562, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.42376375198364, "timer/agent.train_frac": 0.901054578405901, "timer/agent.train_avg": 0.36993674931871906, "timer/agent.train_min": 0.3619728088378906, "timer/agent.train_max": 0.4072999954223633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2042984962463379, "timer/agent.report_frac": 0.0006807245519037829, "timer/agent.report_avg": 0.2042984962463379, "timer/agent.report_min": 0.2042984962463379, "timer/agent.report_max": 0.2042984962463379, "fps": 4.87129086108189}
+{"step": 488582, "episode/length": 187.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06382978723404255}
+{"step": 489002, "episode/length": 419.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02857142857142857}
+{"step": 489050, "episode/length": 47.0, "episode/score": 3.1000000163912773, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.08333333333333333}
+{"step": 489271, "episode/length": 220.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.027149321266968326}
+{"step": 489427, "episode/length": 155.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07051282051282051}
+{"step": 489867, "episode/length": 439.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02727272727272727}
+{"step": 489991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421410129494863, "train/action_min": 0.0, "train/action_std": 3.2974374033000373, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044084414533556326, "train/actor_opt_grad_steps": 244080.0, "train/actor_opt_loss": -13.976695625749352, "train/adv_mag": 0.43440888311764964, "train/adv_max": 0.3953483998775482, "train/adv_mean": 0.0026042262331043586, "train/adv_min": -0.38036802533554703, "train/adv_std": 0.05035825584032764, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 7.179585633030126e-06, "train/cont_loss_std": 0.0001664851518847309, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000373298024435963, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 4.9587349777751e-06, "train/cont_pred": 0.9945928454399109, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 5.088406941662096, "train/dyn_loss_std": 8.706353050388701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.032565805193496, "train/extr_critic_critic_opt_grad_steps": 244080.0, "train/extr_critic_critic_opt_loss": 16456.144116545376, "train/extr_critic_mag": 10.104036017639997, "train/extr_critic_max": 10.104036017639997, "train/extr_critic_mean": 2.639040426032184, "train/extr_critic_min": -0.5270619751655892, "train/extr_critic_std": 2.4765561917056775, "train/extr_return_normed_mag": 1.4476858034525832, "train/extr_return_normed_max": 1.4476858034525832, "train/extr_return_normed_mean": 0.36971627134982854, "train/extr_return_normed_min": -0.08408577275806911, "train/extr_return_normed_std": 0.32747473414630107, "train/extr_return_rate": 0.7394388979428435, "train/extr_return_raw_mag": 10.931156223767424, "train/extr_return_raw_max": 10.931156223767424, "train/extr_return_raw_mean": 2.659040243658301, "train/extr_return_raw_min": -0.8244376533652005, "train/extr_return_raw_std": 2.5137423766802436, "train/extr_reward_mag": 1.0470207652000532, "train/extr_reward_max": 1.0470207652000532, "train/extr_reward_mean": 0.05107887992507791, "train/extr_reward_min": -0.6537070307013106, "train/extr_reward_std": 0.21927557191620134, "train/image_loss_mean": 3.0939755227467787, "train/image_loss_std": 8.262864805247686, "train/model_loss_mean": 6.1980693307641435, "train/model_loss_std": 12.383782360651722, "train/model_opt_grad_norm": 30.95617093125435, "train/model_opt_grad_steps": 243887.0, "train/model_opt_loss": 7747.58674015411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.611027077452777, "train/policy_entropy_max": 2.611027077452777, "train/policy_entropy_mean": 0.3856564172326702, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5496753413383275, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3865442653633144, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0075682368997025, "train/policy_randomness_mag": 0.9215779761745505, "train/policy_randomness_max": 0.9215779761745505, "train/policy_randomness_mean": 0.1361197899669817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1940112740617909, "train/post_ent_mag": 55.485726343442316, "train/post_ent_max": 55.485726343442316, "train/post_ent_mean": 41.09429100768207, "train/post_ent_min": 19.01476486415079, "train/post_ent_std": 5.673855801151223, "train/prior_ent_mag": 76.45436211154886, "train/prior_ent_max": 76.45436211154886, "train/prior_ent_mean": 46.18778944668705, "train/prior_ent_min": 28.25444712704175, "train/prior_ent_std": 7.357451765504602, "train/rep_loss_mean": 5.088406941662096, "train/rep_loss_std": 8.706353050388701, "train/reward_avg": 0.03585857234589041, "train/reward_loss_mean": 0.051042399841220415, "train/reward_loss_std": 0.2065023947251986, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.018759603369726, "train/reward_neg_acc": 0.9941397154167907, "train/reward_neg_loss": 0.021989793822883744, "train/reward_pos_acc": 0.9869301662053147, "train/reward_pos_loss": 0.7390438432562841, "train/reward_pred": 0.03542290104884807, "train/reward_rate": 0.040520654965753425, "stats/sum_log_reward": 8.43333355585734, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4665163904428482, "replay/size": 489928.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3053187512893573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4028554100068019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11470794677734, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.258880376815796, "timer/env.step_frac": 0.057507612655480066, "timer/env.step_avg": 0.011837366513591081, "timer/env.step_min": 0.0029282569885253906, "timer/env.step_max": 1.6336579322814941, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2672133445739746, "timer/replay.add_frac": 0.0008903707065945016, "timer/replay.add_avg": 0.00018327389888475625, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008959770202636719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030663013458251953, "timer/logger.write_frac": 0.00010217097878351822, "timer/logger.write_avg": 0.030663013458251953, "timer/logger.write_min": 0.030663013458251953, "timer/logger.write_max": 0.030663013458251953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.04606032371521, "timer/agent.policy_frac": 0.03680612789451868, "timer/agent.policy_avg": 0.007576173061533065, "timer/agent.policy_min": 0.0061304569244384766, "timer/agent.policy_max": 0.017553329467773438, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06313490867614746, "timer/dataset_frac": 0.00021036925883467154, "timer/dataset_avg": 8.660481299883054e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.80505204200745, "timer/agent.train_frac": 0.9023384888221883, "timer/agent.train_avg": 0.3714746941591323, "timer/agent.train_min": 0.36278557777404785, "timer/agent.train_max": 0.3943498134613037, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20799469947814941, "timer/agent.report_frac": 0.000693050670195862, "timer/agent.report_avg": 0.20799469947814941, "timer/agent.report_min": 0.20799469947814941, "timer/agent.report_max": 0.20799469947814941, "fps": 4.858033129509584}
+{"step": 490077, "episode/length": 209.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.06190476190476191}
+{"step": 490230, "episode/length": 152.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0718954248366013}
+{"step": 490641, "episode/length": 410.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.031630170316301706}
+{"step": 490770, "episode/length": 128.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.06976744186046512}
+{"step": 490969, "episode/length": 198.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06030150753768844}
+{"step": 491028, "episode/length": 58.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1016949152542373}
+{"step": 491281, "episode/length": 252.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.043478260869565216}
+{"step": 491436, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533278571234809, "train/action_min": 0.0, "train/action_std": 3.354392257001665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045368128197474614, "train/actor_opt_grad_steps": 244805.0, "train/actor_opt_loss": -13.136184242036608, "train/adv_mag": 0.43221299888359177, "train/adv_max": 0.38442381140258575, "train/adv_mean": 0.002108115241400002, "train/adv_min": -0.38511908054351807, "train/adv_std": 0.05122018693428901, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 8.68847912924606e-06, "train/cont_loss_std": 0.000254128020732954, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027601201208603417, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 7.16266554551876e-06, "train/cont_pred": 0.9945700988173485, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.180182940430111, "train/dyn_loss_std": 8.685905867152744, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.046298795276218, "train/extr_critic_critic_opt_grad_steps": 244805.0, "train/extr_critic_critic_opt_loss": 16618.392428927953, "train/extr_critic_mag": 10.200514303313362, "train/extr_critic_max": 10.200514303313362, "train/extr_critic_mean": 2.6564859565761356, "train/extr_critic_min": -0.5314433011743758, "train/extr_critic_std": 2.506333058079084, "train/extr_return_normed_mag": 1.4319193147950702, "train/extr_return_normed_max": 1.4319193147950702, "train/extr_return_normed_mean": 0.37028134655621314, "train/extr_return_normed_min": -0.08283905778080225, "train/extr_return_normed_std": 0.32869573185841244, "train/extr_return_rate": 0.7314806133508682, "train/extr_return_raw_mag": 10.8566269742118, "train/extr_return_raw_max": 10.8566269742118, "train/extr_return_raw_mean": 2.6727376828591027, "train/extr_return_raw_min": -0.8199103097948763, "train/extr_return_raw_std": 2.5340240548054376, "train/extr_reward_mag": 1.0538042386372883, "train/extr_reward_max": 1.0538042386372883, "train/extr_reward_mean": 0.053011197545048266, "train/extr_reward_min": -0.6480946789185206, "train/extr_reward_std": 0.2230646260496643, "train/image_loss_mean": 3.0555311259296207, "train/image_loss_std": 7.856231702698602, "train/model_loss_mean": 6.215556866592831, "train/model_loss_std": 12.028138491842482, "train/model_opt_grad_norm": 31.28894431061215, "train/model_opt_grad_steps": 244612.0, "train/model_opt_loss": 15297.25348578559, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.5846752325693765, "train/policy_entropy_max": 2.5846752325693765, "train/policy_entropy_mean": 0.38810431357059216, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452285818755627, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38945363296402824, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0104500088426802, "train/policy_randomness_mag": 0.912276930279202, "train/policy_randomness_max": 0.912276930279202, "train/policy_randomness_mean": 0.13698379198710123, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19244176439113087, "train/post_ent_mag": 55.31660869386461, "train/post_ent_max": 55.31660869386461, "train/post_ent_mean": 41.134029123518204, "train/post_ent_min": 18.615417904324, "train/post_ent_std": 5.611408836311764, "train/prior_ent_mag": 76.38298310173883, "train/prior_ent_max": 76.38298310173883, "train/prior_ent_mean": 46.32855722639296, "train/prior_ent_min": 28.980390548706055, "train/prior_ent_std": 7.2704652018017235, "train/rep_loss_mean": 5.180182940430111, "train/rep_loss_std": 8.685905867152744, "train/reward_avg": 0.03574354338666631, "train/reward_loss_mean": 0.051907291998051934, "train/reward_loss_std": 0.21114537285433876, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0273197376065784, "train/reward_neg_acc": 0.9948654977811707, "train/reward_neg_loss": 0.023085342241554625, "train/reward_pos_acc": 0.9885183622439703, "train/reward_pos_loss": 0.7314587061603864, "train/reward_pred": 0.035456604958097965, "train/reward_rate": 0.0406494140625, "stats/sum_log_reward": 9.242857388087682, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4017987868615559, "replay/size": 491373.0, "replay/inserts": 1445.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.13376060406642e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5364294237047021e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.98428988456726, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.528342247009277, "timer/env.step_frac": 0.06509788314089282, "timer/env.step_avg": 0.01351442370035244, "timer/env.step_min": 0.002583742141723633, "timer/env.step_max": 1.804335117340088, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.24950814247131348, "timer/replay.add_frac": 0.0008317373638710321, "timer/replay.add_avg": 0.0001726699947898363, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0008499622344970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021978378295898438, "timer/logger.write_frac": 7.326509766346641e-05, "timer/logger.write_avg": 0.021978378295898438, "timer/logger.write_min": 0.021978378295898438, "timer/logger.write_max": 0.021978378295898438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005090236663818359, "timer/checkpoint.save_frac": 1.6968344128211054e-06, "timer/checkpoint.save_avg": 0.0005090236663818359, "timer/checkpoint.save_min": 0.0005090236663818359, "timer/checkpoint.save_max": 0.0005090236663818359, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4338414669036865, "timer/agent.save_frac": 0.004779721856285951, "timer/agent.save_avg": 1.4338414669036865, "timer/agent.save_min": 1.4338414669036865, "timer/agent.save_max": 1.4338414669036865, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001227855682373047, "timer/replay.save_frac": 4.0930666164068817e-07, "timer/replay.save_avg": 0.0001227855682373047, "timer/replay.save_min": 0.0001227855682373047, "timer/replay.save_max": 0.0001227855682373047, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 12.525453567504883, "timer/agent.policy_frac": 0.04175369840975548, "timer/agent.policy_avg": 0.008668133956750784, "timer/agent.policy_min": 0.005986928939819336, "timer/agent.policy_max": 1.173779010772705, "timer/dataset_count": 722.0, "timer/dataset_total": 0.060253143310546875, "timer/dataset_frac": 0.00020085432918414507, "timer/dataset_avg": 8.345310707831978e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.9836232662201, "timer/agent.train_frac": 0.8899920171451455, "timer/agent.train_avg": 0.3697834117260666, "timer/agent.train_min": 0.36182546615600586, "timer/agent.train_max": 0.9022555351257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1997983455657959, "timer/agent.report_frac": 0.0006660293632132452, "timer/agent.report_avg": 0.1997983455657959, "timer/agent.report_min": 0.1997983455657959, "timer/agent.report_max": 0.1997983455657959, "fps": 4.816832181114368}
+{"step": 491538, "episode/length": 256.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.042801556420233464}
+{"step": 491667, "episode/length": 128.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.06976744186046512}
+{"step": 491863, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
+{"step": 492091, "episode/length": 227.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05263157894736842}
+{"step": 492260, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 492473, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.056338028169014086}
+{"step": 492833, "episode/length": 359.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.03888888888888889}
+{"step": 492905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521017538534628, "train/action_min": 0.0, "train/action_std": 3.4130199116629525, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044136429356562125, "train/actor_opt_grad_steps": 245535.0, "train/actor_opt_loss": -11.643611329028735, "train/adv_mag": 0.4272621322322536, "train/adv_max": 0.394035765045398, "train/adv_mean": 0.0027068533224362023, "train/adv_min": -0.3585840834153665, "train/adv_std": 0.0500978871777251, "train/cont_avg": 0.9945233319256757, "train/cont_loss_mean": 9.950724732655581e-05, "train/cont_loss_std": 0.003089525770193988, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.022675027852098562, "train/cont_pos_acc": 0.999999976641423, "train/cont_pos_loss": 6.8769196219606684e-06, "train/cont_pred": 0.9945442781255052, "train/cont_rate": 0.9945233319256757, "train/dyn_loss_mean": 5.117283376487526, "train/dyn_loss_std": 8.740251856881219, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.021699621065243, "train/extr_critic_critic_opt_grad_steps": 245535.0, "train/extr_critic_critic_opt_loss": 16363.494167018582, "train/extr_critic_mag": 10.347251441027668, "train/extr_critic_max": 10.347251441027668, "train/extr_critic_mean": 2.7024896692585303, "train/extr_critic_min": -0.5474944791278323, "train/extr_critic_std": 2.526695684806721, "train/extr_return_normed_mag": 1.451838031008437, "train/extr_return_normed_max": 1.451838031008437, "train/extr_return_normed_mean": 0.37444301090530446, "train/extr_return_normed_min": -0.0859138638888662, "train/extr_return_normed_std": 0.3309152261228175, "train/extr_return_rate": 0.7330008116928307, "train/extr_return_raw_mag": 11.074596031292065, "train/extr_return_raw_max": 11.074596031292065, "train/extr_return_raw_mean": 2.723407908065899, "train/extr_return_raw_min": -0.845510487620895, "train/extr_return_raw_std": 2.565686261331713, "train/extr_reward_mag": 1.0540977168727566, "train/extr_reward_max": 1.0540977168727566, "train/extr_reward_mean": 0.05278322745013882, "train/extr_reward_min": -0.6677373921548998, "train/extr_reward_std": 0.2227556739707251, "train/image_loss_mean": 3.049928320420755, "train/image_loss_std": 8.128957413338327, "train/model_loss_mean": 6.171994605579892, "train/model_loss_std": 12.283421935261908, "train/model_opt_grad_norm": 29.881231591508197, "train/model_opt_grad_steps": 245341.43243243243, "train/model_opt_loss": 15875.211795291385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2567.5675675675675, "train/policy_entropy_mag": 2.6225330958495268, "train/policy_entropy_max": 2.6225330958495268, "train/policy_entropy_mean": 0.4178491422050708, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915648663366163, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41818963857115926, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0336754104575596, "train/policy_randomness_mag": 0.9256390969495516, "train/policy_randomness_max": 0.9256390969495516, "train/policy_randomness_mean": 0.14748240997259682, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20879643541332837, "train/post_ent_mag": 55.407142742260085, "train/post_ent_max": 55.407142742260085, "train/post_ent_mean": 41.14699389483478, "train/post_ent_min": 19.484732357231348, "train/post_ent_std": 5.62845574842917, "train/prior_ent_mag": 76.44698096610405, "train/prior_ent_max": 76.44698096610405, "train/prior_ent_mean": 46.244999292734505, "train/prior_ent_min": 28.525023975887812, "train/prior_ent_std": 7.320635015900071, "train/rep_loss_mean": 5.117283376487526, "train/rep_loss_std": 8.740251856881219, "train/reward_avg": 0.035871515855998605, "train/reward_loss_mean": 0.05159670889780328, "train/reward_loss_std": 0.20376368692597827, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0247658652228278, "train/reward_neg_acc": 0.9950483344696663, "train/reward_neg_loss": 0.022783004433369718, "train/reward_pos_acc": 0.9910921462484308, "train/reward_pos_loss": 0.7287745073034957, "train/reward_pred": 0.03556918659927072, "train/reward_rate": 0.04080447635135135, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3512856513261795, "replay/size": 492842.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1593301979516785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3695079453137456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12444162368774, "timer/env.step_count": 1469.0, "timer/env.step_total": 17.315723657608032, "timer/env.step_frac": 0.05769514659962091, "timer/env.step_avg": 0.011787422503477217, "timer/env.step_min": 0.0025603771209716797, "timer/env.step_max": 1.5428524017333984, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2547128200531006, "timer/replay.add_frac": 0.000848690692017924, "timer/replay.add_avg": 0.000173391980975562, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0007421970367431641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03327345848083496, "timer/logger.write_frac": 0.00011086554064315435, "timer/logger.write_avg": 0.03327345848083496, "timer/logger.write_min": 0.03327345848083496, "timer/logger.write_max": 0.03327345848083496, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.709563255310059, "timer/agent.policy_frac": 0.0356837423748989, "timer/agent.policy_avg": 0.00729037662036083, "timer/agent.policy_min": 0.005810260772705078, "timer/agent.policy_max": 0.01670360565185547, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059049367904663086, "timer/dataset_frac": 0.00019674961354431233, "timer/dataset_avg": 8.03392760607661e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.0002079010009765625, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.12623405456543, "timer/agent.train_frac": 0.9033793868561967, "timer/agent.train_avg": 0.3688792300062115, "timer/agent.train_min": 0.3604559898376465, "timer/agent.train_max": 0.4054577350616455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20564937591552734, "timer/agent.report_frac": 0.0006852136893714962, "timer/agent.report_avg": 0.20564937591552734, "timer/agent.report_min": 0.20564937591552734, "timer/agent.report_max": 0.20564937591552734, "fps": 4.894527657934371}
+{"step": 493009, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 493166, "episode/length": 156.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.07006369426751592}
+{"step": 493334, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05952380952380952}
+{"step": 493466, "episode/length": 131.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07575757575757576}
+{"step": 493674, "episode/length": 207.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 12.500000029802322, "episode/reward_rate": 0.052884615384615384}
+{"step": 493932, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.046511627906976744}
+{"step": 494214, "episode/length": 281.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04609929078014184}
+{"step": 494353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.59865485297309, "train/action_min": 0.0, "train/action_std": 3.4530358943674297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04394468701341086, "train/actor_opt_grad_steps": 246265.0, "train/actor_opt_loss": -11.409325901005003, "train/adv_mag": 0.4071559819082419, "train/adv_max": 0.3639167870084445, "train/adv_mean": 0.002749318940510016, "train/adv_min": -0.3599683778981368, "train/adv_std": 0.049707851890060634, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 3.4865952263392806e-05, "train/cont_loss_std": 0.001076766597381133, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.005983031600957626, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 6.390198659013259e-06, "train/cont_pred": 0.9946929381953346, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.084582322173649, "train/dyn_loss_std": 8.706657926241556, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031645184589757, "train/extr_critic_critic_opt_grad_steps": 246265.0, "train/extr_critic_critic_opt_loss": 16480.161159939234, "train/extr_critic_mag": 10.216361867056953, "train/extr_critic_max": 10.216361867056953, "train/extr_critic_mean": 2.606988600558705, "train/extr_critic_min": -0.5183549175659815, "train/extr_critic_std": 2.5156937340895333, "train/extr_return_normed_mag": 1.4393027325471242, "train/extr_return_normed_max": 1.4393027325471242, "train/extr_return_normed_mean": 0.36108661546475357, "train/extr_return_normed_min": -0.08291807905253437, "train/extr_return_normed_std": 0.3282136283814907, "train/extr_return_rate": 0.7292752108640141, "train/extr_return_raw_mag": 11.007392247517904, "train/extr_return_raw_max": 11.007392247517904, "train/extr_return_raw_mean": 2.628348228004244, "train/extr_return_raw_min": -0.8221197004119555, "train/extr_return_raw_std": 2.550640109512541, "train/extr_reward_mag": 1.0536010894510481, "train/extr_reward_max": 1.0536010894510481, "train/extr_reward_mean": 0.05259960998470584, "train/extr_reward_min": -0.6482120851675669, "train/extr_reward_std": 0.222843739307589, "train/image_loss_mean": 3.148816041648388, "train/image_loss_std": 8.420430832439, "train/model_loss_mean": 6.249863528543049, "train/model_loss_std": 12.515675259961021, "train/model_opt_grad_norm": 29.662973112530178, "train/model_opt_grad_steps": 246070.83333333334, "train/model_opt_loss": 16046.889397515191, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6269814173380532, "train/policy_entropy_max": 2.6269814173380532, "train/policy_entropy_mean": 0.4298432024402751, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6065287366509438, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4289889025191466, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0399415401948824, "train/policy_randomness_mag": 0.9272091570827696, "train/policy_randomness_max": 0.9272091570827696, "train/policy_randomness_mean": 0.15171578609281117, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21407802765154177, "train/post_ent_mag": 55.400902112325035, "train/post_ent_max": 55.400902112325035, "train/post_ent_mean": 41.182086838616264, "train/post_ent_min": 19.142481909857857, "train/post_ent_std": 5.624343792597453, "train/prior_ent_mag": 76.51120906405978, "train/prior_ent_max": 76.51120906405978, "train/prior_ent_mean": 46.29756206936307, "train/prior_ent_min": 28.86057890786065, "train/prior_ent_std": 7.322422802448273, "train/rep_loss_mean": 5.084582322173649, "train/rep_loss_std": 8.706657926241556, "train/reward_avg": 0.03362901431197921, "train/reward_loss_mean": 0.05026324621091286, "train/reward_loss_std": 0.20128230584992302, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0172067830959957, "train/reward_neg_acc": 0.9941664247049226, "train/reward_neg_loss": 0.023182789523464937, "train/reward_pos_acc": 0.9873294664753808, "train/reward_pos_loss": 0.7319444575243526, "train/reward_pred": 0.03332525256296827, "train/reward_rate": 0.038370768229166664, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 6.142857142857143, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3870494897876467, "replay/size": 494290.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2393971859420863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3996594847895163e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1700699329376, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.21720242500305, "timer/env.step_frac": 0.06402104789893429, "timer/env.step_avg": 0.013271548636051832, "timer/env.step_min": 0.002855062484741211, "timer/env.step_max": 1.6342198848724365, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2707192897796631, "timer/replay.add_frac": 0.0009018863534267282, "timer/replay.add_avg": 0.00018696083548319273, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.002152681350708008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0223848819732666, "timer/logger.write_frac": 7.457399726184463e-05, "timer/logger.write_avg": 0.0223848819732666, "timer/logger.write_min": 0.0223848819732666, "timer/logger.write_max": 0.0223848819732666, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.81853461265564, "timer/agent.policy_frac": 0.03604135020880882, "timer/agent.policy_avg": 0.007471363682773232, "timer/agent.policy_min": 0.00604248046875, "timer/agent.policy_max": 0.017291545867919922, "timer/dataset_count": 724.0, "timer/dataset_total": 0.059513092041015625, "timer/dataset_frac": 0.00019826457732548657, "timer/dataset_avg": 8.220040337156855e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00023174285888671875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.1528992652893, "timer/agent.train_frac": 0.8966680099898767, "timer/agent.train_avg": 0.37175814815647695, "timer/agent.train_min": 0.36435365676879883, "timer/agent.train_max": 0.38449668884277344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20484185218811035, "timer/agent.report_frac": 0.0006824193106057344, "timer/agent.report_avg": 0.20484185218811035, "timer/agent.report_min": 0.20484185218811035, "timer/agent.report_max": 0.20484185218811035, "fps": 4.823846048353819}
+{"step": 494416, "episode/length": 201.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06435643564356436}
+{"step": 494510, "episode/length": 93.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11702127659574468}
+{"step": 494713, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.054187192118226604}
+{"step": 494933, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05}
+{"step": 495032, "episode/length": 98.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.09090909090909091}
+{"step": 495533, "episode/length": 500.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.023952095808383235}
+{"step": 495701, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
+{"step": 495780, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.550721910264757, "train/action_min": 0.0, "train/action_std": 3.4260841740502253, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04389623226597905, "train/actor_opt_grad_steps": 246985.0, "train/actor_opt_loss": -11.176697756681177, "train/adv_mag": 0.4530189339485433, "train/adv_max": 0.3943592728012138, "train/adv_mean": 0.0024459423426984963, "train/adv_min": -0.39559141856928665, "train/adv_std": 0.05046379204011626, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 6.018439557288326e-06, "train/cont_loss_std": 0.00016389944456562944, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012704018757778588, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 5.375985878488778e-06, "train/cont_pred": 0.9945975103312068, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.060697389973535, "train/dyn_loss_std": 8.680352866649628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.06551124735011, "train/extr_critic_critic_opt_grad_steps": 246985.0, "train/extr_critic_critic_opt_loss": 16566.745022243922, "train/extr_critic_mag": 10.289590570661757, "train/extr_critic_max": 10.289590570661757, "train/extr_critic_mean": 2.665259422527419, "train/extr_critic_min": -0.5227646132310232, "train/extr_critic_std": 2.4551137122843, "train/extr_return_normed_mag": 1.4509595185518265, "train/extr_return_normed_max": 1.4509595185518265, "train/extr_return_normed_mean": 0.370112095028162, "train/extr_return_normed_min": -0.08511828977821602, "train/extr_return_normed_std": 0.3224644971390565, "train/extr_return_rate": 0.7536531074179543, "train/extr_return_raw_mag": 11.00627244843377, "train/extr_return_raw_max": 11.00627244843377, "train/extr_return_raw_mean": 2.684029393725925, "train/extr_return_raw_min": -0.8219808927840657, "train/extr_return_raw_std": 2.4828877548376718, "train/extr_reward_mag": 1.0467998882134755, "train/extr_reward_max": 1.0467998882134755, "train/extr_reward_mean": 0.05410981905232701, "train/extr_reward_min": -0.6497130261527168, "train/extr_reward_std": 0.22520170050362745, "train/image_loss_mean": 2.96856879360146, "train/image_loss_std": 7.950667003790538, "train/model_loss_mean": 6.054850551817152, "train/model_loss_std": 12.058396736780802, "train/model_opt_grad_norm": 29.458885550498962, "train/model_opt_grad_steps": 246790.0, "train/model_opt_loss": 15137.126315646701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5851638317108154, "train/policy_entropy_max": 2.5851638317108154, "train/policy_entropy_mean": 0.39953278232779765, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.561625264171097, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988076959633165, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0144488215446472, "train/policy_randomness_mag": 0.912449388868279, "train/policy_randomness_max": 0.912449388868279, "train/policy_randomness_mean": 0.14101754046148723, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1982290731329057, "train/post_ent_mag": 55.59841971927219, "train/post_ent_max": 55.59841971927219, "train/post_ent_mean": 41.15343395868937, "train/post_ent_min": 18.805177185270523, "train/post_ent_std": 5.691433959537083, "train/prior_ent_mag": 76.36337100134955, "train/prior_ent_max": 76.36337100134955, "train/prior_ent_mean": 46.21350124147203, "train/prior_ent_min": 28.721394697825115, "train/prior_ent_std": 7.324684302012126, "train/rep_loss_mean": 5.060697389973535, "train/rep_loss_std": 8.680352866649628, "train/reward_avg": 0.03530273395073083, "train/reward_loss_mean": 0.04985733705365823, "train/reward_loss_std": 0.20041790935728285, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0215556588437822, "train/reward_neg_acc": 0.994717495308982, "train/reward_neg_loss": 0.02178330142568383, "train/reward_pos_acc": 0.9908821334441503, "train/reward_pos_loss": 0.7225561671786838, "train/reward_pred": 0.03516838614208003, "train/reward_rate": 0.039957682291666664, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3433803490230015, "replay/size": 495717.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.340032105689794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4011271371079026e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9974100589752, "timer/env.step_count": 1427.0, "timer/env.step_total": 20.95281195640564, "timer/env.step_frac": 0.06984330948819396, "timer/env.step_avg": 0.01468311980126534, "timer/env.step_min": 0.002923727035522461, "timer/env.step_max": 1.8284192085266113, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2488994598388672, "timer/replay.add_frac": 0.000829672028801639, "timer/replay.add_avg": 0.00017442148552128045, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008528232574462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02136373519897461, "timer/logger.write_frac": 7.12130654553811e-05, "timer/logger.write_avg": 0.02136373519897461, "timer/logger.write_min": 0.02136373519897461, "timer/logger.write_max": 0.02136373519897461, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002880096435546875, "timer/checkpoint.save_frac": 9.600404333426375e-07, "timer/checkpoint.save_avg": 0.0002880096435546875, "timer/checkpoint.save_min": 0.0002880096435546875, "timer/checkpoint.save_max": 0.0002880096435546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1302552223205566, "timer/agent.save_frac": 0.0037675499335089744, "timer/agent.save_avg": 1.1302552223205566, "timer/agent.save_min": 1.1302552223205566, "timer/agent.save_max": 1.1302552223205566, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.198883056640625e-05, "timer/replay.save_frac": 2.066312190969253e-07, "timer/replay.save_avg": 6.198883056640625e-05, "timer/replay.save_min": 6.198883056640625e-05, "timer/replay.save_max": 6.198883056640625e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 12.339752435684204, "timer/agent.policy_frac": 0.04113286322458046, "timer/agent.policy_avg": 0.00864733877763434, "timer/agent.policy_min": 0.006165504455566406, "timer/agent.policy_max": 1.124011516571045, "timer/dataset_count": 713.0, "timer/dataset_total": 0.060362815856933594, "timer/dataset_frac": 0.00020121112327292133, "timer/dataset_avg": 8.466033079513828e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0011644363403320312, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.74946880340576, "timer/agent.train_frac": 0.8858392102490591, "timer/agent.train_avg": 0.3727201525994471, "timer/agent.train_min": 0.36421990394592285, "timer/agent.train_max": 0.892071008682251, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2009875774383545, "timer/agent.report_frac": 0.0006699643753552512, "timer/agent.report_avg": 0.2009875774383545, "timer/agent.report_min": 0.2009875774383545, "timer/agent.report_max": 0.2009875774383545, "fps": 4.7566050038808}
+{"step": 495865, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04878048780487805}
+{"step": 496088, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04932735426008968}
+{"step": 496398, "episode/length": 309.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04516129032258064}
+{"step": 496542, "episode/length": 143.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06944444444444445}
+{"step": 496819, "episode/length": 276.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04693140794223827}
+{"step": 497030, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
+{"step": 497191, "episode/length": 160.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06832298136645963}
+{"step": 497256, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.640380859375, "train/action_min": 0.0, "train/action_std": 3.5196170512944054, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04402949196630961, "train/actor_opt_grad_steps": 247710.0, "train/actor_opt_loss": -12.73230651197062, "train/adv_mag": 0.4260033013885968, "train/adv_max": 0.3812262769023033, "train/adv_mean": 0.0022423968508918147, "train/adv_min": -0.3692528715688888, "train/adv_std": 0.04958433270046156, "train/cont_avg": 0.9945687071917808, "train/cont_loss_mean": 0.00012155405530390846, "train/cont_loss_std": 0.003831343033185945, "train/cont_neg_acc": 0.9984779300755018, "train/cont_neg_loss": 0.012878630903729846, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 8.61349138109237e-06, "train/cont_pred": 0.9945750448801746, "train/cont_rate": 0.9945687071917808, "train/dyn_loss_mean": 4.990920426094369, "train/dyn_loss_std": 8.6563436625755, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023748226361732, "train/extr_critic_critic_opt_grad_steps": 247710.0, "train/extr_critic_critic_opt_loss": 16250.29367776113, "train/extr_critic_mag": 10.105275376202309, "train/extr_critic_max": 10.105275376202309, "train/extr_critic_mean": 2.675963819843449, "train/extr_critic_min": -0.5155597125014214, "train/extr_critic_std": 2.4857124939356763, "train/extr_return_normed_mag": 1.4409644718039525, "train/extr_return_normed_max": 1.4409644718039525, "train/extr_return_normed_mean": 0.37419345729971587, "train/extr_return_normed_min": -0.08834059250681367, "train/extr_return_normed_std": 0.32894219703053773, "train/extr_return_rate": 0.7354434597982119, "train/extr_return_raw_mag": 10.870419737410872, "train/extr_return_raw_max": 10.870419737410872, "train/extr_return_raw_mean": 2.6931747312415135, "train/extr_return_raw_min": -0.8520899455841273, "train/extr_return_raw_std": 2.5212899185206794, "train/extr_reward_mag": 1.0586535506052515, "train/extr_reward_max": 1.0586535506052515, "train/extr_reward_mean": 0.0526268344933856, "train/extr_reward_min": -0.6743662618610957, "train/extr_reward_std": 0.22297079126312308, "train/image_loss_mean": 3.0043986415209836, "train/image_loss_std": 8.622869354404815, "train/model_loss_mean": 6.050565072934922, "train/model_loss_std": 12.695054616013618, "train/model_opt_grad_norm": 29.647618633427033, "train/model_opt_grad_steps": 247514.16438356164, "train/model_opt_loss": 8832.757926209331, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.591421463718153, "train/policy_entropy_max": 2.591421463718153, "train/policy_entropy_mean": 0.42898194063199707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6020146216431709, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42776008950520866, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.034373162543937, "train/policy_randomness_mag": 0.91465805491356, "train/policy_randomness_max": 0.91465805491356, "train/policy_randomness_mean": 0.1514117975961672, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21248474308889206, "train/post_ent_mag": 55.026404916423644, "train/post_ent_max": 55.026404916423644, "train/post_ent_mean": 41.09572705830613, "train/post_ent_min": 19.131681520644932, "train/post_ent_std": 5.59793720506642, "train/prior_ent_mag": 76.37255639899267, "train/prior_ent_max": 76.37255639899267, "train/prior_ent_mean": 46.092529923948526, "train/prior_ent_min": 28.440433397685013, "train/prior_ent_std": 7.269106564456469, "train/rep_loss_mean": 4.990920426094369, "train/rep_loss_std": 8.6563436625755, "train/reward_avg": 0.03525658161060451, "train/reward_loss_mean": 0.05149258392518514, "train/reward_loss_std": 0.20546995348309818, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0283864491606411, "train/reward_neg_acc": 0.9944523940347645, "train/reward_neg_loss": 0.023316775946176215, "train/reward_pos_acc": 0.9875538104201016, "train/reward_pos_loss": 0.7266937886198906, "train/reward_pred": 0.03500279730619633, "train/reward_rate": 0.04013270547945205, "stats/sum_log_reward": 9.81428589139666, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.41082084817545755, "replay/size": 497193.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.0315988432101117e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.448239414349481e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9977285861969, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.276665449142456, "timer/env.step_frac": 0.057589320861069236, "timer/env.step_avg": 0.011705057892372937, "timer/env.step_min": 0.0025870800018310547, "timer/env.step_max": 1.4618003368377686, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.24583959579467773, "timer/replay.add_frac": 0.0008194715238453609, "timer/replay.add_avg": 0.00016655799173081147, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0005576610565185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023603200912475586, "timer/logger.write_frac": 7.867793207538834e-05, "timer/logger.write_avg": 0.023603200912475586, "timer/logger.write_min": 0.023603200912475586, "timer/logger.write_max": 0.023603200912475586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.649175882339478, "timer/agent.policy_frac": 0.03549752170633419, "timer/agent.policy_avg": 0.007214888809173088, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.01593923568725586, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05669450759887695, "timer/dataset_frac": 0.00018898312285916923, "timer/dataset_avg": 7.682182601473842e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001227855682373047, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.1426131725311, "timer/agent.train_frac": 0.9038155537055176, "timer/agent.train_avg": 0.36740191486792834, "timer/agent.train_min": 0.3599245548248291, "timer/agent.train_max": 0.381488561630249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20077013969421387, "timer/agent.report_frac": 0.0006692388660420392, "timer/agent.report_avg": 0.20077013969421387, "timer/agent.report_min": 0.20077013969421387, "timer/agent.report_max": 0.20077013969421387, "fps": 4.919928313918346}
+{"step": 497382, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
+{"step": 497569, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.053475935828877004}
+{"step": 497724, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03225806451612903}
+{"step": 497898, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.034482758620689655}
+{"step": 498104, "episode/length": 205.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.06310679611650485}
+{"step": 498324, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.05909090909090909}
+{"step": 498387, "episode/length": 62.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.1111111111111111}
+{"step": 498569, "episode/length": 181.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.054945054945054944}
+{"step": 498725, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.624802048141892, "train/action_min": 0.0, "train/action_std": 3.5482383450946293, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042520672787685655, "train/actor_opt_grad_steps": 248445.0, "train/actor_opt_loss": -12.861147328003034, "train/adv_mag": 0.4383540519991437, "train/adv_max": 0.38715891902511185, "train/adv_mean": 0.001681172795493645, "train/adv_min": -0.3704904130584485, "train/adv_std": 0.04779821896069759, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 1.7740267168740906e-05, "train/cont_loss_std": 0.0004885229708368361, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009191865675943887, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 1.2411970357644546e-05, "train/cont_pred": 0.9947801747837582, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.090260570113723, "train/dyn_loss_std": 8.735461241490132, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.049288739223738, "train/extr_critic_critic_opt_grad_steps": 248445.0, "train/extr_critic_critic_opt_loss": 16264.706648543075, "train/extr_critic_mag": 10.126636298927101, "train/extr_critic_max": 10.126636298927101, "train/extr_critic_mean": 2.5545431504378446, "train/extr_critic_min": -0.4947897727425034, "train/extr_critic_std": 2.445863743086119, "train/extr_return_normed_mag": 1.4397175891979321, "train/extr_return_normed_max": 1.4397175891979321, "train/extr_return_normed_mean": 0.3583205032187539, "train/extr_return_normed_min": -0.08494935796369572, "train/extr_return_normed_std": 0.323692364869891, "train/extr_return_rate": 0.7298406233658662, "train/extr_return_raw_mag": 10.824557948756862, "train/extr_return_raw_max": 10.824557948756862, "train/extr_return_raw_mean": 2.567344660694535, "train/extr_return_raw_min": -0.817134183403608, "train/extr_return_raw_std": 2.4716541960432723, "train/extr_reward_mag": 1.0470177160727012, "train/extr_reward_max": 1.0470177160727012, "train/extr_reward_mean": 0.0496060302531397, "train/extr_reward_min": -0.6405460480097178, "train/extr_reward_std": 0.21593259174276042, "train/image_loss_mean": 3.0855117875176505, "train/image_loss_std": 7.940791948421581, "train/model_loss_mean": 6.19064889727412, "train/model_loss_std": 12.108190368961644, "train/model_opt_grad_norm": 28.945548044668662, "train/model_opt_grad_steps": 248249.0, "train/model_opt_loss": 11461.304133234797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1841.2162162162163, "train/policy_entropy_mag": 2.5797673141634143, "train/policy_entropy_max": 2.5797673141634143, "train/policy_entropy_mean": 0.42980559693800435, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941367374884116, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42978438694734833, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0379735851610028, "train/policy_randomness_mag": 0.9105446540020607, "train/policy_randomness_max": 0.9105446540020607, "train/policy_randomness_mean": 0.15170251195495194, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2097041927076675, "train/post_ent_mag": 55.40749555020719, "train/post_ent_max": 55.40749555020719, "train/post_ent_mean": 41.18724003353634, "train/post_ent_min": 19.046429247469515, "train/post_ent_std": 5.722069849839082, "train/prior_ent_mag": 76.38707578504408, "train/prior_ent_max": 76.38707578504408, "train/prior_ent_mean": 46.267836905814505, "train/prior_ent_min": 28.297011555852116, "train/prior_ent_std": 7.3706258438728955, "train/rep_loss_mean": 5.090260570113723, "train/rep_loss_std": 8.735461241490132, "train/reward_avg": 0.034117662297511425, "train/reward_loss_mean": 0.050963068481635405, "train/reward_loss_std": 0.20384025231406494, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.020511965493898, "train/reward_neg_acc": 0.9947402195350544, "train/reward_neg_loss": 0.02331049392956334, "train/reward_pos_acc": 0.9882542402357668, "train/reward_pos_loss": 0.7346835080030802, "train/reward_pred": 0.03358780849422958, "train/reward_rate": 0.03886454814189189, "stats/sum_log_reward": 8.225000023841858, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 3.875, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33562081307172775, "replay/size": 498662.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.093598731283106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4520624056965316e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.123078584671, "timer/env.step_count": 1469.0, "timer/env.step_total": 18.144158363342285, "timer/env.step_frac": 0.06045572519416709, "timer/env.step_avg": 0.012351367163609453, "timer/env.step_min": 0.0023729801177978516, "timer/env.step_max": 1.4138617515563965, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2597815990447998, "timer/replay.add_frac": 0.0008655835474895342, "timer/replay.add_avg": 0.00017684247722586782, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0013871192932128906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021376848220825195, "timer/logger.write_frac": 7.122693903326178e-05, "timer/logger.write_avg": 0.021376848220825195, "timer/logger.write_min": 0.021376848220825195, "timer/logger.write_max": 0.021376848220825195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.598586320877075, "timer/agent.policy_frac": 0.03531413302455176, "timer/agent.policy_avg": 0.00721483071536901, "timer/agent.policy_min": 0.0057866573333740234, "timer/agent.policy_max": 0.014644622802734375, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05879926681518555, "timer/dataset_frac": 0.00019591717868706668, "timer/dataset_avg": 7.99990024696402e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.42555952072144, "timer/agent.train_frac": 0.9010488656720503, "timer/agent.train_avg": 0.36792593132070944, "timer/agent.train_min": 0.36118102073669434, "timer/agent.train_max": 0.38210368156433105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20660710334777832, "timer/agent.report_frac": 0.0006884079169189587, "timer/agent.report_avg": 0.20660710334777832, "timer/agent.report_min": 0.20660710334777832, "timer/agent.report_max": 0.20660710334777832, "fps": 4.8945561191522495}
+{"step": 498820, "episode/length": 250.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.043824701195219126}
+{"step": 498998, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
+{"step": 499316, "episode/length": 317.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.040880503144654086}
+{"step": 499639, "episode/length": 322.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04024767801857585}
+{"step": 499874, "episode/length": 234.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05531914893617021}
+{"step": 500173, "episode/length": 298.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.04013377926421405}
+{"step": 500179, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566515778842038, "train/action_min": 0.0, "train/action_std": 3.4418924606009704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046307763110284936, "train/actor_opt_grad_steps": 249180.0, "train/actor_opt_loss": -11.339170251705058, "train/adv_mag": 0.46650656241260163, "train/adv_max": 0.41106820759707935, "train/adv_mean": 0.0031119987505331815, "train/adv_min": -0.3886008209561648, "train/adv_std": 0.0523508466678123, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 6.645706318467284e-05, "train/cont_loss_std": 0.0020561557271683447, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0035860574621343253, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 4.598227371931278e-05, "train/cont_pred": 0.9949324343302478, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.2175796358552695, "train/dyn_loss_std": 8.736978981592884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0940127658517393, "train/extr_critic_critic_opt_grad_steps": 249180.0, "train/extr_critic_critic_opt_loss": 16741.962261879282, "train/extr_critic_mag": 10.129695369772715, "train/extr_critic_max": 10.129695369772715, "train/extr_critic_mean": 2.6309553923672193, "train/extr_critic_min": -0.48886006335689597, "train/extr_critic_std": 2.411432298895431, "train/extr_return_normed_mag": 1.4839416660674631, "train/extr_return_normed_max": 1.4839416660674631, "train/extr_return_normed_mean": 0.3762295707447888, "train/extr_return_normed_min": -0.08640531501541399, "train/extr_return_normed_std": 0.32677699176416003, "train/extr_return_rate": 0.7537002775767078, "train/extr_return_raw_mag": 10.956141576375046, "train/extr_return_raw_max": 10.956141576375046, "train/extr_return_raw_mean": 2.6543139284604216, "train/extr_return_raw_min": -0.8129747840639663, "train/extr_return_raw_std": 2.4492380521068835, "train/extr_reward_mag": 1.0554679452556452, "train/extr_reward_max": 1.0554679452556452, "train/extr_reward_mean": 0.054407502129061584, "train/extr_reward_min": -0.6311609826675834, "train/extr_reward_std": 0.2252190113067627, "train/image_loss_mean": 3.06285657294809, "train/image_loss_std": 8.374283352943316, "train/model_loss_mean": 6.246752288243542, "train/model_loss_std": 12.507649944253163, "train/model_opt_grad_norm": 29.894374089698267, "train/model_opt_grad_steps": 248983.65753424657, "train/model_opt_loss": 13007.898103060788, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2071.917808219178, "train/policy_entropy_mag": 2.5800403274901926, "train/policy_entropy_max": 2.5800403274901926, "train/policy_entropy_mean": 0.3847646076385289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452998276442698, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38433629315193385, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.0045829260185972, "train/policy_randomness_mag": 0.9106410121264523, "train/policy_randomness_max": 0.9106410121264523, "train/policy_randomness_mean": 0.13580502069567982, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19246690750938572, "train/post_ent_mag": 54.885416475060865, "train/post_ent_max": 54.885416475060865, "train/post_ent_mean": 41.13158359266307, "train/post_ent_min": 19.31099579432239, "train/post_ent_std": 5.621193846611128, "train/prior_ent_mag": 76.50058986716074, "train/prior_ent_max": 76.50058986716074, "train/prior_ent_mean": 46.38067673983639, "train/prior_ent_min": 28.43833855406879, "train/prior_ent_std": 7.196958933791069, "train/rep_loss_mean": 5.2175796358552695, "train/rep_loss_std": 8.736978981592884, "train/reward_avg": 0.03797222791265135, "train/reward_loss_mean": 0.05328147623636951, "train/reward_loss_std": 0.21050598788751315, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0265092768081248, "train/reward_neg_acc": 0.994325483498508, "train/reward_neg_loss": 0.023186018562888447, "train/reward_pos_acc": 0.989001603159186, "train/reward_pos_loss": 0.7326877949989006, "train/reward_pred": 0.03762670455832187, "train/reward_rate": 0.042527290239726026, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 7.666666666666667, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.522891491651535, "replay/size": 500116.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.1069843444404445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5168234275492547e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17498445510864, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.59538507461548, "timer/env.step_frac": 0.055285703119932465, "timer/env.step_avg": 0.011413607341551224, "timer/env.step_min": 0.002772808074951172, "timer/env.step_max": 1.657761812210083, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26270389556884766, "timer/replay.add_frac": 0.0008751691818880903, "timer/replay.add_avg": 0.0001806766819593175, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.00160980224609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030469417572021484, "timer/logger.write_frac": 0.00010150551894699342, "timer/logger.write_avg": 0.030469417572021484, "timer/logger.write_min": 0.030469417572021484, "timer/logger.write_max": 0.030469417572021484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025391578674316406, "timer/checkpoint.save_frac": 8.458925623135572e-07, "timer/checkpoint.save_avg": 0.00025391578674316406, "timer/checkpoint.save_min": 0.00025391578674316406, "timer/checkpoint.save_max": 0.00025391578674316406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.388012170791626, "timer/agent.save_frac": 0.004624010136325014, "timer/agent.save_avg": 1.388012170791626, "timer/agent.save_min": 1.388012170791626, "timer/agent.save_max": 1.388012170791626, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.507469177246094e-05, "timer/replay.save_frac": 1.8347528816378566e-07, "timer/replay.save_avg": 5.507469177246094e-05, "timer/replay.save_min": 5.507469177246094e-05, "timer/replay.save_max": 5.507469177246094e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.976263284683228, "timer/agent.policy_frac": 0.04989177666443067, "timer/agent.policy_avg": 0.010300043524541422, "timer/agent.policy_min": 0.006011486053466797, "timer/agent.policy_max": 3.0305488109588623, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05958223342895508, "timer/dataset_frac": 0.00019849166824181393, "timer/dataset_avg": 8.195630457903037e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.6079316139221, "timer/agent.train_frac": 0.8915064394846102, "timer/agent.train_avg": 0.3680989430727952, "timer/agent.train_min": 0.358626127243042, "timer/agent.train_max": 0.3832740783691406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23413419723510742, "timer/agent.report_frac": 0.0007799923689847724, "timer/agent.report_avg": 0.23413419723510742, "timer/agent.report_min": 0.23413419723510742, "timer/agent.report_max": 0.23413419723510742, "fps": 4.843731009474395}
+{"step": 500383, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000005960464, "episode/reward_rate": 0.04285714285714286}
+{"step": 500596, "episode/length": 212.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.056338028169014086}
+{"step": 500743, "episode/length": 146.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.08163265306122448}
+{"step": 500920, "episode/length": 176.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.062146892655367235}
+{"step": 501094, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05747126436781609}
+{"step": 501283, "episode/length": 188.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.07407407407407407}
+{"step": 501370, "episode/length": 86.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.10344827586206896}
+{"step": 501411, "episode/length": 40.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0975609756097561}
+{"step": 501627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.504163106282552, "train/action_min": 0.0, "train/action_std": 3.3961651424566903, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04471876249752111, "train/actor_opt_grad_steps": 249905.0, "train/actor_opt_loss": -13.218591746356752, "train/adv_mag": 0.4272251572046015, "train/adv_max": 0.38515884677569073, "train/adv_mean": 0.0027023780171980937, "train/adv_min": -0.36838800232443547, "train/adv_std": 0.050585806731962495, "train/cont_avg": 0.9944932725694444, "train/cont_loss_mean": 1.456491675513563e-05, "train/cont_loss_std": 0.0004170173700378162, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005620359456620526, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.1569194862559584e-05, "train/cont_pred": 0.9944860935211182, "train/cont_rate": 0.9944932725694444, "train/dyn_loss_mean": 5.044907708962758, "train/dyn_loss_std": 8.654783997270796, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0543464637464948, "train/extr_critic_critic_opt_grad_steps": 249905.0, "train/extr_critic_critic_opt_loss": 16515.398898654516, "train/extr_critic_mag": 10.326660023795235, "train/extr_critic_max": 10.326660023795235, "train/extr_critic_mean": 2.7362450096342297, "train/extr_critic_min": -0.5114091038703918, "train/extr_critic_std": 2.5031496816211276, "train/extr_return_normed_mag": 1.457213294174936, "train/extr_return_normed_max": 1.457213294174936, "train/extr_return_normed_mean": 0.3757076474527518, "train/extr_return_normed_min": -0.09128870985781153, "train/extr_return_normed_std": 0.3272130737702052, "train/extr_return_rate": 0.7553277338544527, "train/extr_return_raw_mag": 11.154409382078383, "train/extr_return_raw_max": 11.154409382078383, "train/extr_return_raw_mean": 2.7572261508968143, "train/extr_return_raw_min": -0.8696850707961453, "train/extr_return_raw_std": 2.541234294573466, "train/extr_reward_mag": 1.04742717411783, "train/extr_reward_max": 1.04742717411783, "train/extr_reward_mean": 0.053774260346674256, "train/extr_reward_min": -0.6569672425587972, "train/extr_reward_std": 0.22413012550936806, "train/image_loss_mean": 3.0150088138050504, "train/image_loss_std": 7.954713404178619, "train/model_loss_mean": 6.094071871704525, "train/model_loss_std": 12.082715405358208, "train/model_opt_grad_norm": 30.08132146464454, "train/model_opt_grad_steps": 249708.0, "train/model_opt_loss": 7617.589789496527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.598314937618044, "train/policy_entropy_max": 2.598314937618044, "train/policy_entropy_mean": 0.37847598890463513, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5476766692267524, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37691098679271007, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9964829277661111, "train/policy_randomness_mag": 0.9170911452836461, "train/policy_randomness_max": 0.9170911452836461, "train/policy_randomness_mean": 0.1335854148492217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19330583005729648, "train/post_ent_mag": 54.91456010606554, "train/post_ent_max": 54.91456010606554, "train/post_ent_mean": 41.03373474544949, "train/post_ent_min": 19.117135696940952, "train/post_ent_std": 5.5887818402714196, "train/prior_ent_mag": 76.33946895599365, "train/prior_ent_max": 76.33946895599365, "train/prior_ent_mean": 46.09216774834527, "train/prior_ent_min": 28.117785268359714, "train/prior_ent_std": 7.352139419979519, "train/rep_loss_mean": 5.044907708962758, "train/rep_loss_std": 8.654783997270796, "train/reward_avg": 0.03681911854073405, "train/reward_loss_mean": 0.052103944381492004, "train/reward_loss_std": 0.2067205258127716, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0198142925898235, "train/reward_neg_acc": 0.995000941058, "train/reward_neg_loss": 0.02310529591826101, "train/reward_pos_acc": 0.9915460704101456, "train/reward_pos_loss": 0.7207931139402919, "train/reward_pred": 0.03656731331203547, "train/reward_rate": 0.04150390625, "stats/sum_log_reward": 8.850000143051147, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.25, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2625485546886921, "replay/size": 501564.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.0757313933820355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4546949889778433e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0059745311737, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.120659112930298, "timer/env.step_frac": 0.06706752805297735, "timer/env.step_avg": 0.013895482812797167, "timer/env.step_min": 0.0029501914978027344, "timer/env.step_max": 1.6463654041290283, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2469334602355957, "timer/replay.add_frac": 0.0008230951420933678, "timer/replay.add_avg": 0.00017053415762126775, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0010352134704589844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022258520126342773, "timer/logger.write_frac": 7.419358951476442e-05, "timer/logger.write_avg": 0.022258520126342773, "timer/logger.write_min": 0.022258520126342773, "timer/logger.write_max": 0.022258520126342773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.764592409133911, "timer/agent.policy_frac": 0.03588126011808928, "timer/agent.policy_avg": 0.007434110779788613, "timer/agent.policy_min": 0.006021261215209961, "timer/agent.policy_max": 0.01871347427368164, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05860447883605957, "timer/dataset_frac": 0.00019534437248338853, "timer/dataset_avg": 8.094541275698836e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.16883969306946, "timer/agent.train_frac": 0.893878330630392, "timer/agent.train_avg": 0.37039894985230587, "timer/agent.train_min": 0.36339521408081055, "timer/agent.train_max": 0.3841209411621094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21277904510498047, "timer/agent.report_frac": 0.0007092493589085858, "timer/agent.report_avg": 0.21277904510498047, "timer/agent.report_min": 0.21277904510498047, "timer/agent.report_max": 0.21277904510498047, "fps": 4.826476233748137}
+{"step": 501641, "episode/length": 229.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05652173913043478}
+{"step": 501882, "episode/length": 240.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04564315352697095}
+{"step": 502092, "episode/length": 209.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.047619047619047616}
+{"step": 502410, "episode/length": 317.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03459119496855346}
+{"step": 502572, "episode/length": 161.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.06790123456790123}
+{"step": 502753, "episode/length": 180.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06077348066298342}
+{"step": 503079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6522935841181505, "train/action_min": 0.0, "train/action_std": 3.520919202125236, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04346271369555225, "train/actor_opt_grad_steps": 250630.0, "train/actor_opt_loss": -12.28122880564977, "train/adv_mag": 0.4393056137104557, "train/adv_max": 0.40154158660810285, "train/adv_mean": 0.002389354813452858, "train/adv_min": -0.3601723264341485, "train/adv_std": 0.04915591293614205, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 5.259037759211511e-06, "train/cont_loss_std": 0.00014632806348122482, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008183691930622594, "train/cont_pos_acc": 0.9999999763214424, "train/cont_pos_loss": 1.2039402983960727e-06, "train/cont_pred": 0.994839026503367, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.25189220088802, "train/dyn_loss_std": 8.777953709641547, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0976489333257282, "train/extr_critic_critic_opt_grad_steps": 250630.0, "train/extr_critic_critic_opt_loss": 16330.616906571062, "train/extr_critic_mag": 10.264316088532748, "train/extr_critic_max": 10.264316088532748, "train/extr_critic_mean": 2.5960781704889584, "train/extr_critic_min": -0.488338343084675, "train/extr_critic_std": 2.4758685876245368, "train/extr_return_normed_mag": 1.4416725521218288, "train/extr_return_normed_max": 1.4416725521218288, "train/extr_return_normed_mean": 0.356200926924405, "train/extr_return_normed_min": -0.08857517694569614, "train/extr_return_normed_std": 0.3234728860528502, "train/extr_return_rate": 0.727512343289101, "train/extr_return_raw_mag": 11.032905748445694, "train/extr_return_raw_max": 11.032905748445694, "train/extr_return_raw_mean": 2.614589273113094, "train/extr_return_raw_min": -0.8339116614158839, "train/extr_return_raw_std": 2.5084743712046373, "train/extr_reward_mag": 1.0423163191912925, "train/extr_reward_max": 1.0423163191912925, "train/extr_reward_mean": 0.05153913354526644, "train/extr_reward_min": -0.667578785386804, "train/extr_reward_std": 0.21890572427886806, "train/image_loss_mean": 3.1933788175452245, "train/image_loss_std": 8.342215093847823, "train/model_loss_mean": 6.3954270571878515, "train/model_loss_std": 12.53079447027755, "train/model_opt_grad_norm": 30.328224783074365, "train/model_opt_grad_steps": 250433.0, "train/model_opt_loss": 15653.211405714897, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2448.6301369863013, "train/policy_entropy_mag": 2.592488651406275, "train/policy_entropy_max": 2.592488651406275, "train/policy_entropy_mean": 0.416375508863632, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5847494300097635, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4167068365910282, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.028548431723085, "train/policy_randomness_mag": 0.9150347244249631, "train/policy_randomness_max": 0.9150347244249631, "train/policy_randomness_mean": 0.14696228157167565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20639088606997713, "train/post_ent_mag": 55.1121337054527, "train/post_ent_max": 55.1121337054527, "train/post_ent_mean": 41.19883033020856, "train/post_ent_min": 19.241871324304032, "train/post_ent_std": 5.625972610630401, "train/prior_ent_mag": 76.50285558831202, "train/prior_ent_max": 76.50285558831202, "train/prior_ent_mean": 46.43494148776956, "train/prior_ent_min": 28.450698591258426, "train/prior_ent_std": 7.407091356303594, "train/rep_loss_mean": 5.25189220088802, "train/rep_loss_std": 8.777953709641547, "train/reward_avg": 0.03531142996547565, "train/reward_loss_mean": 0.05090766920618815, "train/reward_loss_std": 0.2004902575114002, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0191424840117154, "train/reward_neg_acc": 0.9947599752308571, "train/reward_neg_loss": 0.022887197961035655, "train/reward_pos_acc": 0.9916031540256657, "train/reward_pos_loss": 0.7236690096659203, "train/reward_pred": 0.035024240727804294, "train/reward_rate": 0.03991866438356165, "stats/sum_log_reward": 9.93333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5100381771723429, "replay/size": 503016.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2882716701707236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3819903381599867e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11337542533875, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.963125467300415, "timer/env.step_frac": 0.059854464806315254, "timer/env.step_avg": 0.012371298531198633, "timer/env.step_min": 0.0028090476989746094, "timer/env.step_max": 1.6337828636169434, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2445693016052246, "timer/replay.add_frac": 0.0008149230311998133, "timer/replay.add_avg": 0.00016843615813031998, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0005917549133300781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022274017333984375, "timer/logger.write_frac": 7.421867586679966e-05, "timer/logger.write_avg": 0.022274017333984375, "timer/logger.write_min": 0.022274017333984375, "timer/logger.write_max": 0.022274017333984375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.813034534454346, "timer/agent.policy_frac": 0.036029832123041707, "timer/agent.policy_avg": 0.007446993481029163, "timer/agent.policy_min": 0.006128549575805664, "timer/agent.policy_max": 0.017280101776123047, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05843329429626465, "timer/dataset_frac": 0.00019470406546675723, "timer/dataset_avg": 8.048663126207252e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.3735010623932, "timer/agent.train_frac": 0.9009045354249993, "timer/agent.train_avg": 0.3724152907195499, "timer/agent.train_min": 0.36490464210510254, "timer/agent.train_max": 0.3850584030151367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21036171913146973, "timer/agent.report_frac": 0.0007009408322215977, "timer/agent.report_avg": 0.21036171913146973, "timer/agent.report_min": 0.21036171913146973, "timer/agent.report_max": 0.21036171913146973, "fps": 4.838090765220457}
+{"step": 503090, "episode/length": 336.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.032640949554896145}
+{"step": 503278, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05851063829787234}
+{"step": 503565, "episode/length": 286.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 10.500000029802322, "episode/reward_rate": 0.03484320557491289}
+{"step": 503839, "episode/length": 273.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0364963503649635}
+{"step": 504132, "episode/length": 292.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.034129692832764506}
+{"step": 504381, "episode/length": 248.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03614457831325301}
+{"step": 504511, "stats/sum_log_reward": 9.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5761659716566404, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.513960717429577, "train/action_min": 0.0, "train/action_std": 3.418932998684091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04464161054978908, "train/actor_opt_grad_steps": 251350.0, "train/actor_opt_loss": -12.022155899397085, "train/adv_mag": 0.4183346322724517, "train/adv_max": 0.3917319040063401, "train/adv_mean": 0.0026780673274067377, "train/adv_min": -0.3544207970860978, "train/adv_std": 0.05057209037559133, "train/cont_avg": 0.9949796434859155, "train/cont_loss_mean": 5.722784594527712e-06, "train/cont_loss_std": 0.00016308936488920148, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001614695403224661, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 4.961126582549334e-06, "train/cont_pred": 0.9949759278498905, "train/cont_rate": 0.9949796434859155, "train/dyn_loss_mean": 5.0869885162568425, "train/dyn_loss_std": 8.775507060574814, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0503981449234654, "train/extr_critic_critic_opt_grad_steps": 251350.0, "train/extr_critic_critic_opt_loss": 16365.413787411971, "train/extr_critic_mag": 10.330231585972745, "train/extr_critic_max": 10.330231585972745, "train/extr_critic_mean": 2.753833100829326, "train/extr_critic_min": -0.45950054114973043, "train/extr_critic_std": 2.48973089372608, "train/extr_return_normed_mag": 1.4580521415656722, "train/extr_return_normed_max": 1.4580521415656722, "train/extr_return_normed_mean": 0.3759357880958369, "train/extr_return_normed_min": -0.09104638620161674, "train/extr_return_normed_std": 0.326715994888628, "train/extr_return_rate": 0.7623028956668477, "train/extr_return_raw_mag": 11.14454092106349, "train/extr_return_raw_max": 11.14454092106349, "train/extr_return_raw_mean": 2.77456211540061, "train/extr_return_raw_min": -0.8378726579773594, "train/extr_return_raw_std": 2.527164309797153, "train/extr_reward_mag": 1.0536610207087558, "train/extr_reward_max": 1.0536610207087558, "train/extr_reward_mean": 0.05471906648345397, "train/extr_reward_min": -0.6319863863394294, "train/extr_reward_std": 0.22568292475082505, "train/image_loss_mean": 2.895645450538313, "train/image_loss_std": 8.148774973103698, "train/model_loss_mean": 5.999399171748632, "train/model_loss_std": 12.396359819761464, "train/model_opt_grad_norm": 28.70074834957929, "train/model_opt_grad_steps": 251152.4366197183, "train/model_opt_loss": 15141.982972051057, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.587921125788084, "train/policy_entropy_max": 2.587921125788084, "train/policy_entropy_mean": 0.39778312893820483, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5631585377202907, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39717822868219566, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0138559307850583, "train/policy_randomness_mag": 0.9134225904102057, "train/policy_randomness_max": 0.9134225904102057, "train/policy_randomness_mean": 0.14039998721908514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19877025044300187, "train/post_ent_mag": 55.28271812116596, "train/post_ent_max": 55.28271812116596, "train/post_ent_mean": 40.97798591936138, "train/post_ent_min": 18.70506031412474, "train/post_ent_std": 5.622012454019466, "train/prior_ent_mag": 76.5497002400143, "train/prior_ent_max": 76.5497002400143, "train/prior_ent_mean": 46.06562987851425, "train/prior_ent_min": 28.460220148865606, "train/prior_ent_std": 7.3353456510624415, "train/rep_loss_mean": 5.0869885162568425, "train/rep_loss_std": 8.775507060574814, "train/reward_avg": 0.03588798411295448, "train/reward_loss_mean": 0.05155495648652735, "train/reward_loss_std": 0.20504737005267346, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0166448035710294, "train/reward_neg_acc": 0.9943088872331969, "train/reward_neg_loss": 0.022863867469656636, "train/reward_pos_acc": 0.9888812194407826, "train/reward_pos_loss": 0.7311832552224817, "train/reward_pred": 0.0356245247096243, "train/reward_rate": 0.040492957746478875, "replay/size": 504448.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.330700890311982e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3737372179937097e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06259512901306, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.421508073806763, "timer/env.step_frac": 0.0647248553771136, "timer/env.step_avg": 0.013562505638133214, "timer/env.step_min": 0.0028333663940429688, "timer/env.step_max": 1.7897584438323975, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.24006986618041992, "timer/replay.add_frac": 0.0008000659531628758, "timer/replay.add_avg": 0.0001676465545952653, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.003475666046142578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021192312240600586, "timer/logger.write_frac": 7.06263045931762e-05, "timer/logger.write_avg": 0.021192312240600586, "timer/logger.write_min": 0.021192312240600586, "timer/logger.write_max": 0.021192312240600586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037670135498046875, "timer/checkpoint.save_frac": 1.2554092415900908e-06, "timer/checkpoint.save_avg": 0.00037670135498046875, "timer/checkpoint.save_min": 0.00037670135498046875, "timer/checkpoint.save_max": 0.00037670135498046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4574024677276611, "timer/agent.save_frac": 0.004856994811702689, "timer/agent.save_avg": 1.4574024677276611, "timer/agent.save_min": 1.4574024677276611, "timer/agent.save_max": 1.4574024677276611, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.1552734375e-05, "timer/replay.save_frac": 3.0511211947506004e-07, "timer/replay.save_avg": 9.1552734375e-05, "timer/replay.save_min": 9.1552734375e-05, "timer/replay.save_max": 9.1552734375e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.54492998123169, "timer/agent.policy_frac": 0.04180771007408621, "timer/agent.policy_avg": 0.008760425964547269, "timer/agent.policy_min": 0.00606846809387207, "timer/agent.policy_max": 1.4454939365386963, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0570836067199707, "timer/dataset_frac": 0.0001902389956183222, "timer/dataset_avg": 7.972570770945629e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.1509311199188, "timer/agent.train_frac": 0.8903173386374809, "timer/agent.train_avg": 0.3731158255864788, "timer/agent.train_min": 0.3632161617279053, "timer/agent.train_max": 0.8835346698760986, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1996619701385498, "timer/agent.report_frac": 0.0006654010642436268, "timer/agent.report_avg": 0.1996619701385498, "timer/agent.report_min": 0.1996619701385498, "timer/agent.report_max": 0.1996619701385498, "fps": 4.7722385325145815}
+{"step": 504578, "episode/length": 196.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.050761421319796954}
+{"step": 504737, "episode/length": 158.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06289308176100629}
+{"step": 504906, "episode/length": 168.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07100591715976332}
+{"step": 505251, "episode/length": 344.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.03768115942028986}
+{"step": 505456, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
+{"step": 505662, "episode/length": 205.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06310679611650485}
+{"step": 505939, "episode/length": 276.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.039711191335740074}
+{"step": 505959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.573609234535531, "train/action_min": 0.0, "train/action_std": 3.42912202012049, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04510987386719821, "train/actor_opt_grad_steps": 252070.0, "train/actor_opt_loss": -13.23688395872508, "train/adv_mag": 0.46329328907679207, "train/adv_max": 0.4081536188517531, "train/adv_mean": 0.0020513793668165093, "train/adv_min": -0.3911344919302692, "train/adv_std": 0.050643407114564554, "train/cont_avg": 0.9940068493150684, "train/cont_loss_mean": 1.9804197142185354e-05, "train/cont_loss_std": 0.0006160054151242136, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015528217180006273, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 9.114946657883306e-06, "train/cont_pred": 0.9940068435995546, "train/cont_rate": 0.9940068493150684, "train/dyn_loss_mean": 5.181585390273839, "train/dyn_loss_std": 8.798533139163501, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0416495669377994, "train/extr_critic_critic_opt_grad_steps": 252070.0, "train/extr_critic_critic_opt_loss": 16405.082981057363, "train/extr_critic_mag": 10.64092126611161, "train/extr_critic_max": 10.64092126611161, "train/extr_critic_mean": 2.6908222959466177, "train/extr_critic_min": -0.5169539255638645, "train/extr_critic_std": 2.5693145386160237, "train/extr_return_normed_mag": 1.492801400080119, "train/extr_return_normed_max": 1.492801400080119, "train/extr_return_normed_mean": 0.36655045147628, "train/extr_return_normed_min": -0.08955547351339092, "train/extr_return_normed_std": 0.3345412575218776, "train/extr_return_rate": 0.7334234436897382, "train/extr_return_raw_mag": 11.469420354660244, "train/extr_return_raw_max": 11.469420354660244, "train/extr_return_raw_mean": 2.7067772933881575, "train/extr_return_raw_min": -0.8412959632808215, "train/extr_return_raw_std": 2.6025091589313663, "train/extr_reward_mag": 1.05308374313459, "train/extr_reward_max": 1.05308374313459, "train/extr_reward_mean": 0.05344946095592355, "train/extr_reward_min": -0.6683145859470107, "train/extr_reward_std": 0.22431903648866366, "train/image_loss_mean": 3.112671249533353, "train/image_loss_std": 8.210823855987966, "train/model_loss_mean": 6.274357560562761, "train/model_loss_std": 12.381657717979117, "train/model_opt_grad_norm": 29.85518417619679, "train/model_opt_grad_steps": 251871.84931506848, "train/model_opt_loss": 16142.876096960616, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.5984260317397445, "train/policy_entropy_max": 2.5984260317397445, "train/policy_entropy_mean": 0.4049786888573268, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5675057523871121, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4045513023252357, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.01914537606174, "train/policy_randomness_mag": 0.9171303600481112, "train/policy_randomness_max": 0.9171303600481112, "train/policy_randomness_mean": 0.1429397069836316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20030462588757686, "train/post_ent_mag": 55.23026834775324, "train/post_ent_max": 55.23026834775324, "train/post_ent_mean": 41.222806799901676, "train/post_ent_min": 18.99940209845974, "train/post_ent_std": 5.630337917641418, "train/prior_ent_mag": 76.43818580940979, "train/prior_ent_max": 76.43818580940979, "train/prior_ent_mean": 46.40069418084131, "train/prior_ent_min": 28.608142774399013, "train/prior_ent_std": 7.358773362146665, "train/rep_loss_mean": 5.181585390273839, "train/rep_loss_std": 8.798533139163501, "train/reward_avg": 0.03579971079446682, "train/reward_loss_mean": 0.052715284111973355, "train/reward_loss_std": 0.20475636830885116, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0228092703100753, "train/reward_neg_acc": 0.9945617979519987, "train/reward_neg_loss": 0.024622636936502913, "train/reward_pos_acc": 0.9912543925520492, "train/reward_pos_loss": 0.7086257338523865, "train/reward_pred": 0.03578143053981539, "train/reward_rate": 0.04100224743150685, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.37625443935394287, "replay/size": 505896.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3344023794100428e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.408941837964137e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13507080078125, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.244879245758057, "timer/env.step_frac": 0.06412072802558988, "timer/env.step_avg": 0.013290662462540095, "timer/env.step_min": 0.0029218196868896484, "timer/env.step_max": 1.5744469165802002, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2451610565185547, "timer/replay.add_frac": 0.0008168357528643618, "timer/replay.add_avg": 0.0001693101219050792, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0011973381042480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021523475646972656, "timer/logger.write_frac": 7.17126312148278e-05, "timer/logger.write_avg": 0.021523475646972656, "timer/logger.write_min": 0.021523475646972656, "timer/logger.write_max": 0.021523475646972656, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.818207502365112, "timer/agent.policy_frac": 0.03604446315954141, "timer/agent.policy_avg": 0.007471137777876459, "timer/agent.policy_min": 0.0060083866119384766, "timer/agent.policy_max": 0.016278743743896484, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05827903747558594, "timer/dataset_frac": 0.0001941760332109587, "timer/dataset_avg": 8.04959081154502e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.09383964538574, "timer/agent.train_frac": 0.8965757947827445, "timer/agent.train_avg": 0.37167657409583665, "timer/agent.train_min": 0.3635239601135254, "timer/agent.train_max": 0.3872838020324707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22714710235595703, "timer/agent.report_frac": 0.0007568162619247153, "timer/agent.report_avg": 0.22714710235595703, "timer/agent.report_min": 0.22714710235595703, "timer/agent.report_max": 0.22714710235595703, "fps": 4.824420755231672}
+{"step": 506135, "episode/length": 195.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.061224489795918366}
+{"step": 506317, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 506620, "episode/length": 302.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0429042904290429}
+{"step": 506700, "episode/length": 79.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.125}
+{"step": 506765, "episode/length": 64.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.13846153846153847}
+{"step": 506987, "episode/length": 221.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000001490116, "episode/reward_rate": 0.04504504504504504}
+{"step": 507112, "episode/length": 124.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.08}
+{"step": 507417, "episode/length": 304.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.03934426229508197}
+{"step": 507418, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.638028462727864, "train/action_min": 0.0, "train/action_std": 3.4984611901972027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04615677044623428, "train/actor_opt_grad_steps": 252795.0, "train/actor_opt_loss": -9.840694165064228, "train/adv_mag": 0.44566689224706757, "train/adv_max": 0.41451913490891457, "train/adv_mean": 0.003329549705793195, "train/adv_min": -0.35970193872021305, "train/adv_std": 0.052451314559827246, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 5.338779013985828e-06, "train/cont_loss_std": 0.00012424938594533962, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001852663265016948, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 4.3699923206001285e-06, "train/cont_pred": 0.9943950499097506, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.223739710119036, "train/dyn_loss_std": 8.700579722722372, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1177343817220793, "train/extr_critic_critic_opt_grad_steps": 252795.0, "train/extr_critic_critic_opt_loss": 16697.49833170573, "train/extr_critic_mag": 10.312823070420158, "train/extr_critic_max": 10.312823070420158, "train/extr_critic_mean": 2.7194616430335574, "train/extr_critic_min": -0.49761389858192867, "train/extr_critic_std": 2.506799593567848, "train/extr_return_normed_mag": 1.4633019649320178, "train/extr_return_normed_max": 1.4633019649320178, "train/extr_return_normed_mean": 0.372696607063214, "train/extr_return_normed_min": -0.08724077990175122, "train/extr_return_normed_std": 0.32876695361402297, "train/extr_return_rate": 0.7520056085454093, "train/extr_return_raw_mag": 11.196442974938286, "train/extr_return_raw_max": 11.196442974938286, "train/extr_return_raw_mean": 2.7452951023976007, "train/extr_return_raw_min": -0.8186612692144182, "train/extr_return_raw_std": 2.5476507014698453, "train/extr_reward_mag": 1.056110358900494, "train/extr_reward_max": 1.056110358900494, "train/extr_reward_mean": 0.055184213185889855, "train/extr_reward_min": -0.6437869187858369, "train/extr_reward_std": 0.22728647477924824, "train/image_loss_mean": 3.0991610255506306, "train/image_loss_std": 8.175020615259806, "train/model_loss_mean": 6.285235676500532, "train/model_loss_std": 12.284969409306845, "train/model_opt_grad_norm": 31.864010122087265, "train/model_opt_grad_steps": 252596.0, "train/model_opt_loss": 15713.089165581598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.611227528916465, "train/policy_entropy_max": 2.611227528916465, "train/policy_entropy_mean": 0.3997746432820956, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5590270169907146, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40055455163949066, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0182834615310032, "train/policy_randomness_mag": 0.9216487300064828, "train/policy_randomness_max": 0.9216487300064828, "train/policy_randomness_mean": 0.14110290507475534, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19731200331201157, "train/post_ent_mag": 55.24451149834527, "train/post_ent_max": 55.24451149834527, "train/post_ent_mean": 41.22741497887505, "train/post_ent_min": 18.99077139960395, "train/post_ent_std": 5.629285322295295, "train/prior_ent_mag": 76.54473633236356, "train/prior_ent_max": 76.54473633236356, "train/prior_ent_mean": 46.44189961751302, "train/prior_ent_min": 28.800335592693752, "train/prior_ent_std": 7.280021978749169, "train/rep_loss_mean": 5.223739710119036, "train/rep_loss_std": 8.700579722722372, "train/reward_avg": 0.03528238913147814, "train/reward_loss_mean": 0.05182546299571792, "train/reward_loss_std": 0.20607608370482922, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0119118458694882, "train/reward_neg_acc": 0.9942112424307399, "train/reward_neg_loss": 0.024078192952502932, "train/reward_pos_acc": 0.9909361054499944, "train/reward_pos_loss": 0.7148919006188711, "train/reward_pred": 0.035340708292399846, "train/reward_rate": 0.04018825954861111, "stats/sum_log_reward": 9.725000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 0.875, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3914909139275551, "replay/size": 507355.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.0713346087826367e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5197753579201195e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.39052057266235, "timer/env.step_count": 1459.0, "timer/env.step_total": 19.487120389938354, "timer/env.step_frac": 0.06487262098946481, "timer/env.step_avg": 0.013356491014351168, "timer/env.step_min": 0.002660036087036133, "timer/env.step_max": 1.500739336013794, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.24011945724487305, "timer/replay.add_frac": 0.0007993576388066808, "timer/replay.add_avg": 0.00016457810640498494, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0006611347198486328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028358936309814453, "timer/logger.write_frac": 9.440689491716043e-05, "timer/logger.write_avg": 0.028358936309814453, "timer/logger.write_min": 0.028358936309814453, "timer/logger.write_max": 0.028358936309814453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.797374963760376, "timer/agent.policy_frac": 0.03594445970923562, "timer/agent.policy_avg": 0.007400531160904987, "timer/agent.policy_min": 0.006021261215209961, "timer/agent.policy_max": 0.01898503303527832, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05724692344665527, "timer/dataset_frac": 0.00019057499996178356, "timer/dataset_avg": 7.852801570185909e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0001246929168701172, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.1667983531952, "timer/agent.train_frac": 0.8960562331995614, "timer/agent.train_avg": 0.36922743258325813, "timer/agent.train_min": 0.362837553024292, "timer/agent.train_max": 0.3821115493774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20685887336730957, "timer/agent.report_frac": 0.000688633159837918, "timer/agent.report_avg": 0.20685887336730957, "timer/agent.report_min": 0.20685887336730957, "timer/agent.report_max": 0.20685887336730957, "fps": 4.856906943934867}
+{"step": 507505, "episode/length": 87.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11363636363636363}
+{"step": 507830, "episode/length": 324.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.036923076923076927}
+{"step": 508067, "episode/length": 236.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.04219409282700422}
+{"step": 508247, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
+{"step": 508435, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
+{"step": 508617, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07142857142857142}
+{"step": 508812, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06153846153846154}
+{"step": 508869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565921313142123, "train/action_min": 0.0, "train/action_std": 3.415637346163188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04628724171078368, "train/actor_opt_grad_steps": 253520.0, "train/actor_opt_loss": -12.847171724659123, "train/adv_mag": 0.4773294019372496, "train/adv_max": 0.3909134080965225, "train/adv_mean": 0.0023556921430959122, "train/adv_min": -0.42373411439053, "train/adv_std": 0.05186260874344878, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 5.917314001947003e-05, "train/cont_loss_std": 0.0017452964038242287, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.00978558976090918, "train/cont_pos_acc": 0.9999999722389326, "train/cont_pos_loss": 2.107678683301694e-05, "train/cont_pred": 0.9945228287618454, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.043338684186543, "train/dyn_loss_std": 8.621627983981616, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.086713234855704, "train/extr_critic_critic_opt_grad_steps": 253520.0, "train/extr_critic_critic_opt_loss": 16519.96318493151, "train/extr_critic_mag": 10.490577175192637, "train/extr_critic_max": 10.490577175192637, "train/extr_critic_mean": 2.6513144496369034, "train/extr_critic_min": -0.5185905711291587, "train/extr_critic_std": 2.5428164397200494, "train/extr_return_normed_mag": 1.463943894595316, "train/extr_return_normed_max": 1.463943894595316, "train/extr_return_normed_mean": 0.3570443277489649, "train/extr_return_normed_min": -0.09032275859419614, "train/extr_return_normed_std": 0.32777668739834875, "train/extr_return_rate": 0.7333797461366001, "train/extr_return_raw_mag": 11.394733115418317, "train/extr_return_raw_max": 11.394733115418317, "train/extr_return_raw_mean": 2.6698774066689897, "train/extr_return_raw_min": -0.8564036088447048, "train/extr_return_raw_std": 2.5836168168342275, "train/extr_reward_mag": 1.0441865790380191, "train/extr_reward_max": 1.0441865790380191, "train/extr_reward_mean": 0.05199982991365537, "train/extr_reward_min": -0.65693521173033, "train/extr_reward_std": 0.22154719433555864, "train/image_loss_mean": 3.0017712900083358, "train/image_loss_std": 7.779924510276481, "train/model_loss_mean": 6.078264745947433, "train/model_loss_std": 11.818398959016147, "train/model_opt_grad_norm": 30.43275174829695, "train/model_opt_grad_steps": 253320.27397260274, "train/model_opt_loss": 16013.497458261987, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.623412249839469, "train/policy_entropy_max": 2.623412249839469, "train/policy_entropy_mean": 0.40198227395750075, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.568827164907978, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40164204248010293, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.0188946381007156, "train/policy_randomness_mag": 0.9259493996019232, "train/policy_randomness_max": 0.9259493996019232, "train/policy_randomness_mean": 0.1418820997215297, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20077102774218336, "train/post_ent_mag": 55.28025739486903, "train/post_ent_max": 55.28025739486903, "train/post_ent_mean": 41.196243390645066, "train/post_ent_min": 18.654775593378773, "train/post_ent_std": 5.697969776310333, "train/prior_ent_mag": 76.56533384976322, "train/prior_ent_max": 76.56533384976322, "train/prior_ent_mean": 46.28170520312165, "train/prior_ent_min": 28.896694784295068, "train/prior_ent_std": 7.334184953611191, "train/rep_loss_mean": 5.043338684186543, "train/rep_loss_std": 8.621627983981616, "train/reward_avg": 0.0330934288133293, "train/reward_loss_mean": 0.050431097411129576, "train/reward_loss_std": 0.20531761054306813, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0218065634165725, "train/reward_neg_acc": 0.9944641671768607, "train/reward_neg_loss": 0.023604405814245957, "train/reward_pos_acc": 0.9889992295879207, "train/reward_pos_loss": 0.7260643186634534, "train/reward_pred": 0.03300683399381703, "train/reward_rate": 0.03821971318493151, "stats/sum_log_reward": 9.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3732673568384988, "replay/size": 508806.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.098291335312931e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5014048778649531e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32893347740173, "timer/env.step_count": 1451.0, "timer/env.step_total": 17.46043348312378, "timer/env.step_frac": 0.05813770015747614, "timer/env.step_avg": 0.012033379381890957, "timer/env.step_min": 0.002457857131958008, "timer/env.step_max": 1.48140287399292, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2534942626953125, "timer/replay.add_frac": 0.0008440554153747118, "timer/replay.add_avg": 0.00017470314451778946, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0007483959197998047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019505739212036133, "timer/logger.write_frac": 6.49479188907513e-05, "timer/logger.write_avg": 0.019505739212036133, "timer/logger.write_min": 0.019505739212036133, "timer/logger.write_max": 0.019505739212036133, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004858970642089844, "timer/checkpoint.save_frac": 1.617882961135164e-06, "timer/checkpoint.save_avg": 0.0004858970642089844, "timer/checkpoint.save_min": 0.0004858970642089844, "timer/checkpoint.save_max": 0.0004858970642089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.293461561203003, "timer/agent.save_frac": 0.004306816350414435, "timer/agent.save_avg": 1.293461561203003, "timer/agent.save_min": 1.293461561203003, "timer/agent.save_max": 1.293461561203003, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.34600830078125e-05, "timer/replay.save_frac": 3.111924046933191e-07, "timer/replay.save_avg": 9.34600830078125e-05, "timer/replay.save_min": 9.34600830078125e-05, "timer/replay.save_max": 9.34600830078125e-05, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 14.752078533172607, "timer/agent.policy_frac": 0.04911973802311867, "timer/agent.policy_avg": 0.01016683565346148, "timer/agent.policy_min": 0.0059239864349365234, "timer/agent.policy_max": 2.8430721759796143, "timer/dataset_count": 726.0, "timer/dataset_total": 0.058327436447143555, "timer/dataset_frac": 0.00019421184556476443, "timer/dataset_avg": 8.034082155253933e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00024700164794921875, "timer/agent.train_count": 726.0, "timer/agent.train_total": 267.1841003894806, "timer/agent.train_frac": 0.8896382286443436, "timer/agent.train_avg": 0.3680221768450146, "timer/agent.train_min": 0.3613595962524414, "timer/agent.train_max": 0.4156486988067627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2007887363433838, "timer/agent.report_frac": 0.0006685627455820608, "timer/agent.report_avg": 0.2007887363433838, "timer/agent.report_min": 0.2007887363433838, "timer/agent.report_max": 0.2007887363433838, "fps": 4.8312582343278345}
+{"step": 509079, "episode/length": 266.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.04119850187265917}
+{"step": 509270, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06282722513089005}
+{"step": 509480, "episode/length": 209.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05714285714285714}
+{"step": 509785, "episode/length": 304.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04590163934426229}
+{"step": 510040, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.047058823529411764}
+{"step": 510245, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05853658536585366}
+{"step": 510355, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4883315627639355, "train/action_min": 0.0, "train/action_std": 3.3525310593682365, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044233040431061306, "train/actor_opt_grad_steps": 254255.0, "train/actor_opt_loss": -12.83432476907163, "train/adv_mag": 0.4471055357842832, "train/adv_max": 0.4042616377811174, "train/adv_mean": 0.0023345357225406514, "train/adv_min": -0.37573532780279983, "train/adv_std": 0.04965190488744427, "train/cont_avg": 0.9943517736486487, "train/cont_loss_mean": 5.136879313431257e-05, "train/cont_loss_std": 0.0015530173480753603, "train/cont_neg_acc": 0.9951201202096166, "train/cont_neg_loss": 0.0036162821799037475, "train/cont_pos_acc": 0.9999866944712561, "train/cont_pos_loss": 3.182235462479316e-05, "train/cont_pred": 0.99434575196859, "train/cont_rate": 0.9943517736486487, "train/dyn_loss_mean": 5.055635117195748, "train/dyn_loss_std": 8.766606421084017, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300355038127385, "train/extr_critic_critic_opt_grad_steps": 254255.0, "train/extr_critic_critic_opt_loss": 16430.686365076013, "train/extr_critic_mag": 10.382431545773068, "train/extr_critic_max": 10.382431545773068, "train/extr_critic_mean": 2.6977905437753007, "train/extr_critic_min": -0.5664425556724136, "train/extr_critic_std": 2.525210565811879, "train/extr_return_normed_mag": 1.4416445928650934, "train/extr_return_normed_max": 1.4416445928650934, "train/extr_return_normed_mean": 0.36551745799747676, "train/extr_return_normed_min": -0.09429054903621609, "train/extr_return_normed_std": 0.3245436009523031, "train/extr_return_rate": 0.747958056024603, "train/extr_return_raw_mag": 11.197959203977842, "train/extr_return_raw_max": 11.197959203977842, "train/extr_return_raw_mean": 2.71621158638516, "train/extr_return_raw_min": -0.9083721057788746, "train/extr_return_raw_std": 2.5581152551882975, "train/extr_reward_mag": 1.0573530293799736, "train/extr_reward_max": 1.0573530293799736, "train/extr_reward_mean": 0.05443046830997274, "train/extr_reward_min": -0.6696093823458698, "train/extr_reward_std": 0.2260270142877424, "train/image_loss_mean": 3.0375727382866113, "train/image_loss_std": 8.322266082505923, "train/model_loss_mean": 6.123881887745213, "train/model_loss_std": 12.462060000445392, "train/model_opt_grad_norm": 27.98173595119167, "train/model_opt_grad_steps": 254054.7972972973, "train/model_opt_loss": 17473.064070418073, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2871.6216216216217, "train/policy_entropy_mag": 2.6069852822535746, "train/policy_entropy_max": 2.6069852822535746, "train/policy_entropy_mean": 0.38477342797292247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5439269925291473, "train/policy_logprob_mag": 7.438384268734906, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3842858948014878, "train/policy_logprob_min": -7.438384268734906, "train/policy_logprob_std": 1.0022592077384125, "train/policy_randomness_mag": 0.9201513963776666, "train/policy_randomness_max": 0.9201513963776666, "train/policy_randomness_mean": 0.13580813369638212, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19198235738519076, "train/post_ent_mag": 55.378546173508106, "train/post_ent_max": 55.378546173508106, "train/post_ent_mean": 41.14438201285697, "train/post_ent_min": 18.880313332016403, "train/post_ent_std": 5.662541660102638, "train/prior_ent_mag": 76.39930580757759, "train/prior_ent_max": 76.39930580757759, "train/prior_ent_mean": 46.218246923910606, "train/prior_ent_min": 29.136683592925202, "train/prior_ent_std": 7.365357205674455, "train/rep_loss_mean": 5.055635117195748, "train/rep_loss_std": 8.766606421084017, "train/reward_avg": 0.03616316508300401, "train/reward_loss_mean": 0.052876724383315525, "train/reward_loss_std": 0.20995877481795647, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0232709968412244, "train/reward_neg_acc": 0.9945514242391329, "train/reward_neg_loss": 0.02398665974269042, "train/reward_pos_acc": 0.9894096343903929, "train/reward_pos_loss": 0.7257954397717038, "train/reward_pred": 0.03611431162602998, "train/reward_rate": 0.04125316722972973, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5329680393139521, "replay/size": 510292.0, "replay/inserts": 1486.0, "replay/samples": 11888.0, "replay/insert_wait_avg": 3.0184177177911813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3939103720807452e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03460597991943, "timer/env.step_count": 1486.0, "timer/env.step_total": 15.648290157318115, "timer/env.step_frac": 0.0521549509471098, "timer/env.step_avg": 0.010530477898599, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 1.3033430576324463, "timer/replay.add_count": 1486.0, "timer/replay.add_total": 0.24656343460083008, "timer/replay.add_frac": 0.000821783319945873, "timer/replay.add_avg": 0.00016592424939490584, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0007352828979492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022577524185180664, "timer/logger.write_frac": 7.524973364803033e-05, "timer/logger.write_avg": 0.022577524185180664, "timer/logger.write_min": 0.022577524185180664, "timer/logger.write_max": 0.022577524185180664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1486.0, "timer/agent.policy_total": 10.626030445098877, "timer/agent.policy_frac": 0.03541601613051946, "timer/agent.policy_avg": 0.0071507607302145875, "timer/agent.policy_min": 0.005856990814208984, "timer/agent.policy_max": 0.016461849212646484, "timer/dataset_count": 743.0, "timer/dataset_total": 0.05649447441101074, "timer/dataset_frac": 0.0001882931944683467, "timer/dataset_avg": 7.603563177794178e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 743.0, "timer/agent.train_total": 272.8260109424591, "timer/agent.train_frac": 0.9093151440028177, "timer/agent.train_avg": 0.36719516950532854, "timer/agent.train_min": 0.36125659942626953, "timer/agent.train_max": 0.37992358207702637, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2021491527557373, "timer/agent.report_frac": 0.0006737527896007657, "timer/agent.report_avg": 0.2021491527557373, "timer/agent.report_min": 0.2021491527557373, "timer/agent.report_max": 0.2021491527557373, "fps": 4.952644437440222}
+{"step": 510503, "episode/length": 257.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.046511627906976744}
+{"step": 510692, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06878306878306878}
+{"step": 510863, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06432748538011696}
+{"step": 511152, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04152249134948097}
+{"step": 511418, "episode/length": 265.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.04887218045112782}
+{"step": 511596, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07303370786516854}
+{"step": 511783, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06951871657754011}
+{"step": 511831, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570644069362331, "train/action_min": 0.0, "train/action_std": 3.4100681768881307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04418842232710606, "train/actor_opt_grad_steps": 254995.0, "train/actor_opt_loss": -13.729272299118945, "train/adv_mag": 0.41893619057294484, "train/adv_max": 0.3761509439429721, "train/adv_mean": 0.0025567865016676698, "train/adv_min": -0.37097249925136566, "train/adv_std": 0.05019333414934777, "train/cont_avg": 0.9942725929054054, "train/cont_loss_mean": 2.1640452416128533e-05, "train/cont_loss_std": 0.0005892102426867963, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002177423823299422, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 7.1838076286673416e-06, "train/cont_pred": 0.994276967403051, "train/cont_rate": 0.9942725929054054, "train/dyn_loss_mean": 5.030409522958704, "train/dyn_loss_std": 8.722395400743228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0271448066105713, "train/extr_critic_critic_opt_grad_steps": 254995.0, "train/extr_critic_critic_opt_loss": 16331.450248099662, "train/extr_critic_mag": 10.615467264845565, "train/extr_critic_max": 10.615467264845565, "train/extr_critic_mean": 2.7017883545643575, "train/extr_critic_min": -0.5440255081331408, "train/extr_critic_std": 2.5922322563222937, "train/extr_return_normed_mag": 1.451112537770658, "train/extr_return_normed_max": 1.451112537770658, "train/extr_return_normed_mean": 0.3633875730069908, "train/extr_return_normed_min": -0.09051787888480199, "train/extr_return_normed_std": 0.33138621699165655, "train/extr_return_rate": 0.7376355230808258, "train/extr_return_raw_mag": 11.35777352307294, "train/extr_return_raw_max": 11.35777352307294, "train/extr_return_raw_mean": 2.722108199789717, "train/extr_return_raw_min": -0.8820176817275382, "train/extr_return_raw_std": 2.6312911671561166, "train/extr_reward_mag": 1.044263836499807, "train/extr_reward_max": 1.044263836499807, "train/extr_reward_mean": 0.05332918832632336, "train/extr_reward_min": -0.6964531621417483, "train/extr_reward_std": 0.2240779846906662, "train/image_loss_mean": 3.07468763235453, "train/image_loss_std": 7.9547516719715015, "train/model_loss_mean": 6.14546681094814, "train/model_loss_std": 12.112035944655135, "train/model_opt_grad_norm": 29.966373417828535, "train/model_opt_grad_steps": 254794.0, "train/model_opt_loss": 15363.667044974662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.613329784290211, "train/policy_entropy_max": 2.613329784290211, "train/policy_entropy_mean": 0.41310162802000305, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5797299158734244, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41329205438897415, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0279327453793705, "train/policy_randomness_mag": 0.9223907340217281, "train/policy_randomness_max": 0.9223907340217281, "train/policy_randomness_mean": 0.14580674429197568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20461921746263634, "train/post_ent_mag": 54.890445503028666, "train/post_ent_max": 54.890445503028666, "train/post_ent_mean": 41.1289096007476, "train/post_ent_min": 19.375257131215687, "train/post_ent_std": 5.567816895407599, "train/prior_ent_mag": 76.36014402234876, "train/prior_ent_max": 76.36014402234876, "train/prior_ent_mean": 46.191083804981126, "train/prior_ent_min": 28.762657010877454, "train/prior_ent_std": 7.3706823361886515, "train/rep_loss_mean": 5.030409522958704, "train/rep_loss_std": 8.722395400743228, "train/reward_avg": 0.03521299596271805, "train/reward_loss_mean": 0.05251183036110691, "train/reward_loss_std": 0.20696204719511238, "train/reward_max_data": 1.0135135167353861, "train/reward_max_pred": 1.0148718937023267, "train/reward_neg_acc": 0.9937645527156623, "train/reward_neg_loss": 0.02440791015790121, "train/reward_pos_acc": 0.9899651593453175, "train/reward_pos_loss": 0.72213852002814, "train/reward_pred": 0.03514819733194403, "train/reward_rate": 0.040408572635135136, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4748396383864539, "replay/size": 511768.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.1230249379062394e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4128037261445993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3508551120758, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.583102703094482, "timer/env.step_frac": 0.05854187662137121, "timer/env.step_avg": 0.011912671208058593, "timer/env.step_min": 0.0024089813232421875, "timer/env.step_max": 1.3930487632751465, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.24538540840148926, "timer/replay.add_frac": 0.0008169958707456444, "timer/replay.add_avg": 0.00016625027669477593, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0010752677917480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020841360092163086, "timer/logger.write_frac": 6.939004746427688e-05, "timer/logger.write_avg": 0.020841360092163086, "timer/logger.write_min": 0.020841360092163086, "timer/logger.write_max": 0.020841360092163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.71875, "timer/agent.policy_frac": 0.035687429609615406, "timer/agent.policy_avg": 0.007262025745257452, "timer/agent.policy_min": 0.005825996398925781, "timer/agent.policy_max": 0.016560792922973633, "timer/dataset_count": 738.0, "timer/dataset_total": 0.056081295013427734, "timer/dataset_frac": 0.0001867192786666148, "timer/dataset_avg": 7.59909146523411e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.00012803077697753906, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.1216962337494, "timer/agent.train_frac": 0.902683283963285, "timer/agent.train_avg": 0.36737357213245175, "timer/agent.train_min": 0.36082029342651367, "timer/agent.train_max": 0.38329172134399414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014627456665039, "timer/agent.report_frac": 0.0006707580226176755, "timer/agent.report_avg": 0.2014627456665039, "timer/agent.report_min": 0.2014627456665039, "timer/agent.report_max": 0.2014627456665039, "fps": 4.914139963296297}
+{"step": 512034, "episode/length": 250.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.043824701195219126}
+{"step": 512216, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06593406593406594}
+{"step": 512338, "episode/length": 121.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.08196721311475409}
+{"step": 512507, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07100591715976332}
+{"step": 512692, "episode/length": 184.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.06486486486486487}
+{"step": 512832, "episode/length": 139.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07857142857142857}
+{"step": 512990, "episode/length": 157.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.06962025316455696}
+{"step": 513160, "episode/length": 169.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.06470588235294118}
+{"step": 513210, "episode/length": 49.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.08}
+{"step": 513265, "episode/length": 54.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.07272727272727272}
+{"step": 513269, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5491587320963545, "train/action_min": 0.0, "train/action_std": 3.4171174930201635, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04490991899122795, "train/actor_opt_grad_steps": 255725.0, "train/actor_opt_loss": -13.531585548073053, "train/adv_mag": 0.4201150718662474, "train/adv_max": 0.3813246405786938, "train/adv_mean": 0.0020384595256675514, "train/adv_min": -0.35414703128238517, "train/adv_std": 0.04995089950453904, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.638232468160873e-05, "train/cont_loss_std": 0.0003340585119610119, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001414129071209105, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.557886597562212e-05, "train/cont_pred": 0.9945878841810756, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.036565985944536, "train/dyn_loss_std": 8.694867571194967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0877683071626558, "train/extr_critic_critic_opt_grad_steps": 255725.0, "train/extr_critic_critic_opt_loss": 16421.712565104168, "train/extr_critic_mag": 10.510080920325386, "train/extr_critic_max": 10.510080920325386, "train/extr_critic_mean": 2.6986316988865533, "train/extr_critic_min": -0.5118636969063017, "train/extr_critic_std": 2.548672146267361, "train/extr_return_normed_mag": 1.4535860584841833, "train/extr_return_normed_max": 1.4535860584841833, "train/extr_return_normed_mean": 0.36286824610498214, "train/extr_return_normed_min": -0.08696019892684287, "train/extr_return_normed_std": 0.3260034066107538, "train/extr_return_rate": 0.7416956399877866, "train/extr_return_raw_mag": 11.337181435690987, "train/extr_return_raw_max": 11.337181435690987, "train/extr_return_raw_mean": 2.714735554324256, "train/extr_return_raw_min": -0.840426082826323, "train/extr_return_raw_std": 2.576656765407986, "train/extr_reward_mag": 1.054015103313658, "train/extr_reward_max": 1.054015103313658, "train/extr_reward_mean": 0.0533121886352698, "train/extr_reward_min": -0.6605743418137232, "train/extr_reward_std": 0.22324031653503576, "train/image_loss_mean": 2.978918651739756, "train/image_loss_std": 8.119291596942478, "train/model_loss_mean": 6.051334619522095, "train/model_loss_std": 12.247242040104336, "train/model_opt_grad_norm": 30.052378058433533, "train/model_opt_grad_steps": 255523.20833333334, "train/model_opt_loss": 16061.890448676215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.596374428934521, "train/policy_entropy_max": 2.596374428934521, "train/policy_entropy_mean": 0.4044182834525903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5693691099683443, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4046140102048715, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.020743667251534, "train/policy_randomness_mag": 0.9164062357611127, "train/policy_randomness_max": 0.9164062357611127, "train/policy_randomness_mean": 0.1427419081123339, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20096230869077975, "train/post_ent_mag": 55.19385846455892, "train/post_ent_max": 55.19385846455892, "train/post_ent_mean": 41.193154176076256, "train/post_ent_min": 19.093304461903042, "train/post_ent_std": 5.601886802249485, "train/prior_ent_mag": 76.46954822540283, "train/prior_ent_max": 76.46954822540283, "train/prior_ent_mean": 46.25592825147841, "train/prior_ent_min": 28.610700686772663, "train/prior_ent_std": 7.328887859980266, "train/rep_loss_mean": 5.036565985944536, "train/rep_loss_std": 8.694867571194967, "train/reward_avg": 0.036264376999396414, "train/reward_loss_mean": 0.050460058419654764, "train/reward_loss_std": 0.20078002226849398, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0240017738607194, "train/reward_neg_acc": 0.9956322742833031, "train/reward_neg_loss": 0.021474390601118405, "train/reward_pos_acc": 0.9894625892241796, "train/reward_pos_loss": 0.7288656897015042, "train/reward_pred": 0.03587781433533463, "train/reward_rate": 0.040961371527777776, "stats/sum_log_reward": 8.800000286102295, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.1, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 8.9, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.3, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.1, "stats/max_log_achievement_place_stone": 4.1, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 0.8, "stats/mean_log_entropy": 0.27927460968494416, "replay/size": 513206.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.092146384036259e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.430470024925943e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2575981616974, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.447647094726562, "timer/env.step_frac": 0.06810034856708244, "timer/env.step_avg": 0.01421950423833558, "timer/env.step_min": 0.0024116039276123047, "timer/env.step_max": 1.3189499378204346, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.24374747276306152, "timer/replay.add_frac": 0.0008117945199568155, "timer/replay.add_avg": 0.00016950450122605112, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0010607242584228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026816368103027344, "timer/logger.write_frac": 8.931120566876031e-05, "timer/logger.write_avg": 0.026816368103027344, "timer/logger.write_min": 0.026816368103027344, "timer/logger.write_max": 0.026816368103027344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020933151245117188, "timer/checkpoint.save_frac": 6.971730731637999e-07, "timer/checkpoint.save_avg": 0.00020933151245117188, "timer/checkpoint.save_min": 0.00020933151245117188, "timer/checkpoint.save_max": 0.00020933151245117188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.316401720046997, "timer/agent.save_frac": 0.004384241158613667, "timer/agent.save_avg": 1.316401720046997, "timer/agent.save_min": 1.316401720046997, "timer/agent.save_max": 1.316401720046997, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.198883056640625e-05, "timer/replay.save_frac": 2.0645216289588606e-07, "timer/replay.save_avg": 6.198883056640625e-05, "timer/replay.save_min": 6.198883056640625e-05, "timer/replay.save_max": 6.198883056640625e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.43783450126648, "timer/agent.policy_frac": 0.04808482646121511, "timer/agent.policy_avg": 0.01004021870741758, "timer/agent.policy_min": 0.0058400630950927734, "timer/agent.policy_max": 2.814836025238037, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05675816535949707, "timer/dataset_frac": 0.00018903157058137513, "timer/dataset_avg": 7.89404247002741e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00022268295288085938, "timer/agent.train_count": 719.0, "timer/agent.train_total": 264.44018030166626, "timer/agent.train_frac": 0.8807110358594742, "timer/agent.train_avg": 0.3677888460384788, "timer/agent.train_min": 0.3609158992767334, "timer/agent.train_max": 0.382265567779541, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2029411792755127, "timer/agent.report_frac": 0.0006758902373095752, "timer/agent.report_avg": 0.2029411792755127, "timer/agent.report_min": 0.2029411792755127, "timer/agent.report_max": 0.2029411792755127, "fps": 4.789111882281652}
+{"step": 513455, "episode/length": 189.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.05789473684210526}
+{"step": 513826, "episode/length": 370.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03234501347708895}
+{"step": 514186, "episode/length": 359.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.030555555555555555}
+{"step": 514296, "episode/length": 109.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.10909090909090909}
+{"step": 514697, "episode/length": 400.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02743142144638404}
+{"step": 514765, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6213370768229165, "train/action_min": 0.0, "train/action_std": 3.449007765452067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045928774575392406, "train/actor_opt_grad_steps": 256460.0, "train/actor_opt_loss": -10.646429296533267, "train/adv_mag": 0.4540415116151174, "train/adv_max": 0.4102725434303284, "train/adv_mean": 0.003147382079041563, "train/adv_min": -0.38680923283100127, "train/adv_std": 0.05171564852197965, "train/cont_avg": 0.9945963541666667, "train/cont_loss_mean": 3.735297981772116e-05, "train/cont_loss_std": 0.0011649144241338643, "train/cont_neg_acc": 0.997333333492279, "train/cont_neg_loss": 0.004588056925546577, "train/cont_pos_acc": 0.999999984105428, "train/cont_pos_loss": 1.2712721446253757e-05, "train/cont_pred": 0.9946023813883463, "train/cont_rate": 0.9945963541666667, "train/dyn_loss_mean": 5.126869497299194, "train/dyn_loss_std": 8.785312283833822, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0362352856000265, "train/extr_critic_critic_opt_grad_steps": 256460.0, "train/extr_critic_critic_opt_loss": 16502.307096354165, "train/extr_critic_mag": 10.532675043741863, "train/extr_critic_max": 10.532675043741863, "train/extr_critic_mean": 2.686444435119629, "train/extr_critic_min": -0.5211869271596273, "train/extr_critic_std": 2.5491400877634685, "train/extr_return_normed_mag": 1.4620188665390015, "train/extr_return_normed_max": 1.4620188665390015, "train/extr_return_normed_mean": 0.36333311835924786, "train/extr_return_normed_min": -0.09031723206241926, "train/extr_return_normed_std": 0.3309102245171865, "train/extr_return_rate": 0.7376423978805542, "train/extr_return_raw_mag": 11.309073778788248, "train/extr_return_raw_max": 11.309073778788248, "train/extr_return_raw_mean": 2.711068450609843, "train/extr_return_raw_min": -0.8391754031181335, "train/extr_return_raw_std": 2.5895906702677407, "train/extr_reward_mag": 1.0516619555155435, "train/extr_reward_max": 1.0516619555155435, "train/extr_reward_mean": 0.053665241499741875, "train/extr_reward_min": -0.6859588241577148, "train/extr_reward_std": 0.22380590697129568, "train/image_loss_mean": 3.1332251326243084, "train/image_loss_std": 8.170637454986572, "train/model_loss_mean": 6.2612046559651695, "train/model_loss_std": 12.376061878204347, "train/model_opt_grad_norm": 27.31980458577474, "train/model_opt_grad_steps": 256257.68, "train/model_opt_loss": 17090.709700520834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2766.6666666666665, "train/policy_entropy_mag": 2.5946526527404785, "train/policy_entropy_max": 2.5946526527404785, "train/policy_entropy_mean": 0.41231011907259624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5746087630589803, "train/policy_logprob_mag": 7.438384272257487, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4118952202796936, "train/policy_logprob_min": -7.438384272257487, "train/policy_logprob_std": 1.0237448676427205, "train/policy_randomness_mag": 0.9157985226313273, "train/policy_randomness_max": 0.9157985226313273, "train/policy_randomness_mean": 0.14552737891674042, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2028116770585378, "train/post_ent_mag": 55.52874979654948, "train/post_ent_max": 55.52874979654948, "train/post_ent_mean": 41.088643595377604, "train/post_ent_min": 18.701275151570638, "train/post_ent_std": 5.722312297821045, "train/prior_ent_mag": 76.46115152994791, "train/prior_ent_max": 76.46115152994791, "train/prior_ent_mean": 46.22515167236328, "train/prior_ent_min": 28.05319989522298, "train/prior_ent_std": 7.423297157287598, "train/rep_loss_mean": 5.126869497299194, "train/rep_loss_std": 8.785312283833822, "train/reward_avg": 0.035622395550211274, "train/reward_loss_mean": 0.051820573210716245, "train/reward_loss_std": 0.20893748263518017, "train/reward_max_data": 1.024000005722046, "train/reward_max_pred": 1.0226499780019125, "train/reward_neg_acc": 0.9943549068768819, "train/reward_neg_loss": 0.022874717315038044, "train/reward_pos_acc": 0.9849864904085796, "train/reward_pos_loss": 0.7411059681574503, "train/reward_pred": 0.035325852756698924, "train/reward_rate": 0.040377604166666664, "stats/sum_log_reward": 10.3, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 6.6, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 16.2, "stats/max_log_achievement_collect_wood": 10.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 2.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6104335635900497, "replay/size": 514702.0, "replay/inserts": 1496.0, "replay/samples": 11968.0, "replay/insert_wait_avg": 2.9996754651401133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3690939880309895e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23305916786194, "timer/env.step_count": 1496.0, "timer/env.step_total": 14.175639629364014, "timer/env.step_frac": 0.04721545211794394, "timer/env.step_avg": 0.009475694939414447, "timer/env.step_min": 0.0023822784423828125, "timer/env.step_max": 1.2484114170074463, "timer/replay.add_count": 1496.0, "timer/replay.add_total": 0.2428913116455078, "timer/replay.add_frac": 0.0008090092154365518, "timer/replay.add_avg": 0.00016236050243683678, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0004353523254394531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02048325538635254, "timer/logger.write_frac": 6.822451679080498e-05, "timer/logger.write_avg": 0.02048325538635254, "timer/logger.write_min": 0.02048325538635254, "timer/logger.write_max": 0.02048325538635254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1496.0, "timer/agent.policy_total": 10.542895793914795, "timer/agent.policy_frac": 0.03511570585576389, "timer/agent.policy_avg": 0.00704739023657406, "timer/agent.policy_min": 0.00584864616394043, "timer/agent.policy_max": 0.01908731460571289, "timer/dataset_count": 748.0, "timer/dataset_total": 0.05724167823791504, "timer/dataset_frac": 0.00019065747921487522, "timer/dataset_avg": 7.652630780469926e-05, "timer/dataset_min": 5.269050598144531e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 748.0, "timer/agent.train_total": 274.5991139411926, "timer/agent.train_frac": 0.9146198446709454, "timer/agent.train_avg": 0.36711111489464254, "timer/agent.train_min": 0.3608846664428711, "timer/agent.train_max": 0.3820981979370117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19989991188049316, "timer/agent.report_frac": 0.0006658157913540362, "timer/agent.report_avg": 0.19989991188049316, "timer/agent.report_min": 0.19989991188049316, "timer/agent.report_max": 0.19989991188049316, "fps": 4.982683188916811}
+{"step": 514912, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05581395348837209}
+{"step": 515092, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06111111111111111}
+{"step": 515272, "episode/length": 179.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05555555555555555}
+{"step": 515511, "episode/length": 238.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03765690376569038}
+{"step": 515571, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1}
+{"step": 515752, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
+{"step": 515936, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.059782608695652176}
+{"step": 516141, "episode/length": 204.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06341463414634146}
+{"step": 516223, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.668349174604024, "train/action_min": 0.0, "train/action_std": 3.5019332350116885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044983738446480605, "train/actor_opt_grad_steps": 257200.0, "train/actor_opt_loss": -13.865432706597733, "train/adv_mag": 0.45170568725834154, "train/adv_max": 0.39390889708309956, "train/adv_mean": 0.0021488313568251254, "train/adv_min": -0.3840854576189224, "train/adv_std": 0.05093244805115543, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 2.3438271023360203e-05, "train/cont_loss_std": 0.0007270765509510405, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0016890715809252358, "train/cont_pos_acc": 0.9999865081212292, "train/cont_pos_loss": 1.213303600658677e-05, "train/cont_pred": 0.9946206987720646, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.0997923955525435, "train/dyn_loss_std": 8.77666327724718, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583885606021097, "train/extr_critic_critic_opt_grad_steps": 257200.0, "train/extr_critic_critic_opt_loss": 16372.512481271404, "train/extr_critic_mag": 10.380915236799684, "train/extr_critic_max": 10.380915236799684, "train/extr_critic_mean": 2.742659189929701, "train/extr_critic_min": -0.5068975523726581, "train/extr_critic_std": 2.5306201030130255, "train/extr_return_normed_mag": 1.4439822549689305, "train/extr_return_normed_max": 1.4439822549689305, "train/extr_return_normed_mean": 0.37091046367606073, "train/extr_return_normed_min": -0.09097478273388458, "train/extr_return_normed_std": 0.32959171496842005, "train/extr_return_rate": 0.7476821500961095, "train/extr_return_raw_mag": 11.09748287723489, "train/extr_return_raw_max": 11.09748287723489, "train/extr_return_raw_mean": 2.759361061331344, "train/extr_return_raw_min": -0.8293637796624066, "train/extr_return_raw_std": 2.5610826766654236, "train/extr_reward_mag": 1.0472439151920685, "train/extr_reward_max": 1.0472439151920685, "train/extr_reward_mean": 0.053610404978876244, "train/extr_reward_min": -0.6637548992078598, "train/extr_reward_std": 0.22422419447604924, "train/image_loss_mean": 3.2493437022379, "train/image_loss_std": 8.394898473399959, "train/model_loss_mean": 6.361215748199045, "train/model_loss_std": 12.540040852272348, "train/model_opt_grad_norm": 29.747813577521338, "train/model_opt_grad_steps": 256997.0, "train/model_opt_loss": 15903.039437071919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5977480640150095, "train/policy_entropy_max": 2.5977480640150095, "train/policy_entropy_mean": 0.4154957685976812, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5816112985349682, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41608822304908544, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.031278574303405, "train/policy_randomness_mag": 0.9168910686283895, "train/policy_randomness_max": 0.9168910686283895, "train/policy_randomness_mean": 0.1466517736242242, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20528326540777128, "train/post_ent_mag": 55.29977333382384, "train/post_ent_max": 55.29977333382384, "train/post_ent_mean": 41.11438871409795, "train/post_ent_min": 18.998637173273792, "train/post_ent_std": 5.639832202702353, "train/prior_ent_mag": 76.62445799945152, "train/prior_ent_max": 76.62445799945152, "train/prior_ent_mean": 46.218229163182926, "train/prior_ent_min": 28.204846499717398, "train/prior_ent_std": 7.442334887099593, "train/rep_loss_mean": 5.0997923955525435, "train/rep_loss_std": 8.77666327724718, "train/reward_avg": 0.034437873936577205, "train/reward_loss_mean": 0.05197320531492364, "train/reward_loss_std": 0.2090900087193267, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.014948361540494, "train/reward_neg_acc": 0.9946104631032029, "train/reward_neg_loss": 0.024133976204448366, "train/reward_pos_acc": 0.9893372328314063, "train/reward_pos_loss": 0.7341457956457791, "train/reward_pred": 0.0341468282197028, "train/reward_rate": 0.03926316352739726, "stats/sum_log_reward": 9.225000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_stone": 15.75, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33259084075689316, "replay/size": 516160.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.0878312957303186e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5214514830475482e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3582692146301, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.72370719909668, "timer/env.step_frac": 0.06566726879426285, "timer/env.step_avg": 0.01352791988964107, "timer/env.step_min": 0.0027990341186523438, "timer/env.step_max": 1.6087331771850586, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.24010729789733887, "timer/replay.add_frac": 0.0007994029880554509, "timer/replay.add_avg": 0.00016468264602012268, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0007026195526123047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021193742752075195, "timer/logger.write_frac": 7.056154241230682e-05, "timer/logger.write_avg": 0.021193742752075195, "timer/logger.write_min": 0.021193742752075195, "timer/logger.write_max": 0.021193742752075195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.765442609786987, "timer/agent.policy_frac": 0.035842005075925554, "timer/agent.policy_avg": 0.007383705493681061, "timer/agent.policy_min": 0.006112575531005859, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05827140808105469, "timer/dataset_frac": 0.00019400633860829409, "timer/dataset_avg": 7.993334441845636e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014853477478027344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.92853569984436, "timer/agent.train_frac": 0.8953591868904841, "timer/agent.train_avg": 0.3689005976678249, "timer/agent.train_min": 0.3621811866760254, "timer/agent.train_max": 0.381786584854126, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2134101390838623, "timer/agent.report_frac": 0.0007105186071350132, "timer/agent.report_avg": 0.2134101390838623, "timer/agent.report_min": 0.2134101390838623, "timer/agent.report_max": 0.2134101390838623, "fps": 4.854121796006145}
+{"step": 516346, "episode/length": 204.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06341463414634146}
+{"step": 516733, "episode/length": 386.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.031007751937984496}
+{"step": 516942, "episode/length": 208.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.0430622009569378}
+{"step": 517196, "episode/length": 253.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04330708661417323}
+{"step": 517379, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06557377049180328}
+{"step": 517595, "episode/length": 215.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.046296296296296294}
+{"step": 517681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6134534861943495, "train/action_min": 0.0, "train/action_std": 3.465781169394924, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04477753092164863, "train/actor_opt_grad_steps": 257930.0, "train/actor_opt_loss": -12.051173437539845, "train/adv_mag": 0.45405620254882395, "train/adv_max": 0.40572318312239974, "train/adv_mean": 0.002830484162773682, "train/adv_min": -0.37522813575725034, "train/adv_std": 0.05079943640795473, "train/cont_avg": 0.994849636130137, "train/cont_loss_mean": 6.364964579900988e-05, "train/cont_loss_std": 0.0020014268121440492, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.006254701045111549, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 6.663595983069952e-06, "train/cont_pred": 0.9948584665990856, "train/cont_rate": 0.994849636130137, "train/dyn_loss_mean": 5.012539961566664, "train/dyn_loss_std": 8.63269295757764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0194037352522758, "train/extr_critic_critic_opt_grad_steps": 257930.0, "train/extr_critic_critic_opt_loss": 16262.718348672945, "train/extr_critic_mag": 10.559763725489786, "train/extr_critic_max": 10.559763725489786, "train/extr_critic_mean": 2.7281337323254102, "train/extr_critic_min": -0.5133236809952618, "train/extr_critic_std": 2.504877900424069, "train/extr_return_normed_mag": 1.4798302568801462, "train/extr_return_normed_max": 1.4798302568801462, "train/extr_return_normed_mean": 0.3728740121403786, "train/extr_return_normed_min": -0.09487383215598864, "train/extr_return_normed_std": 0.3277911458113422, "train/extr_return_rate": 0.7493124310284445, "train/extr_return_raw_mag": 11.332578789697935, "train/extr_return_raw_max": 11.332578789697935, "train/extr_return_raw_mean": 2.7500852150459814, "train/extr_return_raw_min": -0.877202616570747, "train/extr_return_raw_std": 2.5418842181767505, "train/extr_reward_mag": 1.053398125792203, "train/extr_reward_max": 1.053398125792203, "train/extr_reward_mean": 0.05492692951061954, "train/extr_reward_min": -0.6570854366642155, "train/extr_reward_std": 0.22604597329276882, "train/image_loss_mean": 2.957648087854255, "train/image_loss_std": 7.9998190566285015, "train/model_loss_mean": 6.015843770275377, "train/model_loss_std": 12.077037471614473, "train/model_opt_grad_norm": 30.69003497084526, "train/model_opt_grad_steps": 257725.7808219178, "train/model_opt_loss": 13409.961439158818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2226.027397260274, "train/policy_entropy_mag": 2.6323955842893416, "train/policy_entropy_max": 2.6323955842893416, "train/policy_entropy_mean": 0.4167891887769307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5899689903814499, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4165409566604928, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0309272367660314, "train/policy_randomness_mag": 0.9291201217533791, "train/policy_randomness_max": 0.9291201217533791, "train/policy_randomness_mean": 0.14710829345739052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20823316316898555, "train/post_ent_mag": 55.57747111908377, "train/post_ent_max": 55.57747111908377, "train/post_ent_mean": 40.96958390327349, "train/post_ent_min": 18.687063831172576, "train/post_ent_std": 5.680174318078446, "train/prior_ent_mag": 76.51781505427948, "train/prior_ent_max": 76.51781505427948, "train/prior_ent_mean": 46.01044997123823, "train/prior_ent_min": 28.108385504108586, "train/prior_ent_std": 7.386036585455072, "train/rep_loss_mean": 5.012539961566664, "train/rep_loss_std": 8.63269295757764, "train/reward_avg": 0.036558218785140616, "train/reward_loss_mean": 0.05060807513455822, "train/reward_loss_std": 0.20364233994320646, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0181368899671999, "train/reward_neg_acc": 0.9947814843426012, "train/reward_neg_loss": 0.021764970677968575, "train/reward_pos_acc": 0.989301956679723, "train/reward_pos_loss": 0.7261732171659601, "train/reward_pred": 0.03629474847079956, "train/reward_rate": 0.0409888698630137, "stats/sum_log_reward": 10.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.46840239067872363, "replay/size": 517618.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.088158344535671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4860075687675319e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13794016838074, "timer/env.step_count": 1458.0, "timer/env.step_total": 16.213308811187744, "timer/env.step_frac": 0.05401952449627627, "timer/env.step_avg": 0.011120239239497768, "timer/env.step_min": 0.002635478973388672, "timer/env.step_max": 1.3992218971252441, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2470405101776123, "timer/replay.add_frac": 0.0008230899100560889, "timer/replay.add_avg": 0.00016943793564993986, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0010564327239990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021132946014404297, "timer/logger.write_frac": 7.041077846588965e-05, "timer/logger.write_avg": 0.021132946014404297, "timer/logger.write_min": 0.021132946014404297, "timer/logger.write_max": 0.021132946014404297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004086494445800781, "timer/checkpoint.save_frac": 1.361538778972166e-06, "timer/checkpoint.save_avg": 0.0004086494445800781, "timer/checkpoint.save_min": 0.0004086494445800781, "timer/checkpoint.save_max": 0.0004086494445800781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4927692413330078, "timer/agent.save_frac": 0.004973610602163617, "timer/agent.save_avg": 1.4927692413330078, "timer/agent.save_min": 1.4927692413330078, "timer/agent.save_max": 1.4927692413330078, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.4386954792558633e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 14.879279613494873, "timer/agent.policy_frac": 0.049574804188858734, "timer/agent.policy_avg": 0.010205267224619254, "timer/agent.policy_min": 0.0059092044830322266, "timer/agent.policy_max": 2.801241397857666, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0583651065826416, "timer/dataset_frac": 0.0001944609420251839, "timer/dataset_avg": 8.006187459895968e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.1186501979828, "timer/agent.train_frac": 0.8933180858360167, "timer/agent.train_avg": 0.3677896436186321, "timer/agent.train_min": 0.3585062026977539, "timer/agent.train_max": 0.38155245780944824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20158076286315918, "timer/agent.report_frac": 0.0006716270617105925, "timer/agent.report_avg": 0.20158076286315918, "timer/agent.report_min": 0.20158076286315918, "timer/agent.report_max": 0.20158076286315918, "fps": 4.857710007833158}
+{"step": 517755, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
+{"step": 517992, "episode/length": 236.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.05907172995780591}
+{"step": 518150, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
+{"step": 518289, "episode/length": 138.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000001490116, "episode/reward_rate": 0.07913669064748201}
+{"step": 518454, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.030303030303030304}
+{"step": 518647, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06735751295336788}
+{"step": 518848, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06467661691542288}
+{"step": 519159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538720208245355, "train/action_min": 0.0, "train/action_std": 3.3966819144584037, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04488104848644218, "train/actor_opt_grad_steps": 258665.0, "train/actor_opt_loss": -12.752026191232977, "train/adv_mag": 0.424388517399092, "train/adv_max": 0.3865288910833565, "train/adv_mean": 0.002815097928317767, "train/adv_min": -0.36826448142528534, "train/adv_std": 0.0508044346965648, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 8.121109863418035e-05, "train/cont_loss_std": 0.0025633018773344, "train/cont_neg_acc": 0.9980694989900332, "train/cont_neg_loss": 0.010779620309090727, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 8.376843893521758e-06, "train/cont_pred": 0.9946382206839484, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 4.979083312524332, "train/dyn_loss_std": 8.693522524189305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0919203653528884, "train/extr_critic_critic_opt_grad_steps": 258665.0, "train/extr_critic_critic_opt_loss": 16403.50955447635, "train/extr_critic_mag": 10.440014078810409, "train/extr_critic_max": 10.440014078810409, "train/extr_critic_mean": 2.7279218016444027, "train/extr_critic_min": -0.5105273143665211, "train/extr_critic_std": 2.5465492332303845, "train/extr_return_normed_mag": 1.443452831861135, "train/extr_return_normed_max": 1.443452831861135, "train/extr_return_normed_mean": 0.37011757734659556, "train/extr_return_normed_min": -0.08913913905318524, "train/extr_return_normed_std": 0.3302671119973466, "train/extr_return_rate": 0.7481093809411332, "train/extr_return_raw_mag": 11.148059033058786, "train/extr_return_raw_max": 11.148059033058786, "train/extr_return_raw_mean": 2.749956101984591, "train/extr_return_raw_min": -0.8423195912225826, "train/extr_return_raw_std": 2.5839361339002043, "train/extr_reward_mag": 1.0514490829931724, "train/extr_reward_max": 1.0514490829931724, "train/extr_reward_mean": 0.055009475581952044, "train/extr_reward_min": -0.6568213169639175, "train/extr_reward_std": 0.2270721547506951, "train/image_loss_mean": 3.0049688155586654, "train/image_loss_std": 8.269457143706244, "train/model_loss_mean": 6.043509431787439, "train/model_loss_std": 12.362414418040094, "train/model_opt_grad_norm": 29.031225758629876, "train/model_opt_grad_steps": 258460.0, "train/model_opt_loss": 7554.386837521115, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6218013666771554, "train/policy_entropy_max": 2.6218013666771554, "train/policy_entropy_mean": 0.40247424430138357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5665546643572885, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4027766051727372, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0197198036554698, "train/policy_randomness_mag": 0.9253808284128034, "train/policy_randomness_max": 0.9253808284128034, "train/policy_randomness_mean": 0.14205574878566973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19996893446187716, "train/post_ent_mag": 55.16497514054582, "train/post_ent_max": 55.16497514054582, "train/post_ent_mean": 41.187236115739154, "train/post_ent_min": 18.917666564116608, "train/post_ent_std": 5.635140870068525, "train/prior_ent_mag": 76.45600715843406, "train/prior_ent_max": 76.45600715843406, "train/prior_ent_mean": 46.17719052288983, "train/prior_ent_min": 28.530290887162494, "train/prior_ent_std": 7.326056235545391, "train/rep_loss_mean": 4.979083312524332, "train/rep_loss_std": 8.693522524189305, "train/reward_avg": 0.03483952662429294, "train/reward_loss_mean": 0.05100941562370674, "train/reward_loss_std": 0.20268825461735596, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0176396998199257, "train/reward_neg_acc": 0.9944754790615391, "train/reward_neg_loss": 0.023252639749615982, "train/reward_pos_acc": 0.9902265796790252, "train/reward_pos_loss": 0.7216774772953343, "train/reward_pred": 0.03466972638223622, "train/reward_rate": 0.039735536317567564, "stats/sum_log_reward": 8.814285959516253, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 5.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.42857142857142855, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.2893441489764622, "replay/size": 519096.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 2.9618427137238087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3969989848878934e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28374123573303, "timer/env.step_count": 1478.0, "timer/env.step_total": 17.13321876525879, "timer/env.step_frac": 0.05705676469445818, "timer/env.step_avg": 0.011592164252543159, "timer/env.step_min": 0.0024242401123046875, "timer/env.step_max": 1.573538064956665, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2417759895324707, "timer/replay.add_frac": 0.0008051584429363701, "timer/replay.add_avg": 0.00016358321348611008, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0005166530609130859, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02012920379638672, "timer/logger.write_frac": 6.703394500664824e-05, "timer/logger.write_avg": 0.02012920379638672, "timer/logger.write_min": 0.02012920379638672, "timer/logger.write_max": 0.02012920379638672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.582689046859741, "timer/agent.policy_frac": 0.03524229784572974, "timer/agent.policy_avg": 0.007160141439012004, "timer/agent.policy_min": 0.005789279937744141, "timer/agent.policy_max": 0.015657663345336914, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05710005760192871, "timer/dataset_frac": 0.00019015367720859455, "timer/dataset_avg": 7.72666544004448e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.65135860443115, "timer/agent.train_frac": 0.9046489080178854, "timer/agent.train_avg": 0.3675931780844806, "timer/agent.train_min": 0.36035871505737305, "timer/agent.train_max": 0.38255810737609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20165562629699707, "timer/agent.report_frac": 0.0006715502659822348, "timer/agent.report_avg": 0.20165562629699707, "timer/agent.report_min": 0.20165562629699707, "timer/agent.report_max": 0.20165562629699707, "fps": 4.921923159873016}
+{"step": 519211, "episode/length": 362.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03305785123966942}
+{"step": 519549, "episode/length": 337.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.03550295857988166}
+{"step": 519812, "episode/length": 262.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.045627376425855515}
+{"step": 519871, "episode/length": 58.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13559322033898305}
+{"step": 520026, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.499999977648258, "episode/reward_rate": 0.07741935483870968}
+{"step": 520249, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.05829596412556054}
+{"step": 520415, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07228915662650602}
+{"step": 520585, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06470588235294118}
+{"step": 520611, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.622734917534722, "train/action_min": 0.0, "train/action_std": 3.4477552506658764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0465671888863047, "train/actor_opt_grad_steps": 259395.0, "train/actor_opt_loss": -13.237048061357605, "train/adv_mag": 0.4697940866980288, "train/adv_max": 0.40865245337287587, "train/adv_mean": 0.002692756012745829, "train/adv_min": -0.4148176010284159, "train/adv_std": 0.051674715553720794, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 1.8627098604500565e-05, "train/cont_loss_std": 0.0005194794203491585, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00030944183559908665, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 1.6622082741532848e-05, "train/cont_pred": 0.9945364428891076, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.163704037666321, "train/dyn_loss_std": 8.765485723813375, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0518137854006555, "train/extr_critic_critic_opt_grad_steps": 259395.0, "train/extr_critic_critic_opt_loss": 16410.307156032984, "train/extr_critic_mag": 10.769518719779121, "train/extr_critic_max": 10.769518719779121, "train/extr_critic_mean": 2.77961266040802, "train/extr_critic_min": -0.4917618797885047, "train/extr_critic_std": 2.589525305562549, "train/extr_return_normed_mag": 1.4717760135730107, "train/extr_return_normed_max": 1.4717760135730107, "train/extr_return_normed_mean": 0.37096009424163234, "train/extr_return_normed_min": -0.08302665388004647, "train/extr_return_normed_std": 0.3310934284494983, "train/extr_return_rate": 0.7406132850382063, "train/extr_return_raw_mag": 11.532371017667982, "train/extr_return_raw_max": 11.532371017667982, "train/extr_return_raw_mean": 2.800940112935172, "train/extr_return_raw_min": -0.8003373568256696, "train/extr_return_raw_std": 2.6265322069327035, "train/extr_reward_mag": 1.0579648580816057, "train/extr_reward_max": 1.0579648580816057, "train/extr_reward_mean": 0.05430444893944594, "train/extr_reward_min": -0.6587865319516923, "train/extr_reward_std": 0.2249784210903777, "train/image_loss_mean": 3.169830853740374, "train/image_loss_std": 8.229284332858192, "train/model_loss_mean": 6.319963898923662, "train/model_loss_std": 12.38537183072832, "train/model_opt_grad_norm": 31.76170735889011, "train/model_opt_grad_steps": 259189.77777777778, "train/model_opt_loss": 13679.156887478299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.644081516398324, "train/policy_entropy_max": 2.644081516398324, "train/policy_entropy_mean": 0.4129316202468342, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5870169732305739, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41229001474049354, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0293258585863643, "train/policy_randomness_mag": 0.9332447399695715, "train/policy_randomness_max": 0.9332447399695715, "train/policy_randomness_mean": 0.1457467441343599, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20719123052226174, "train/post_ent_mag": 55.29775778452555, "train/post_ent_max": 55.29775778452555, "train/post_ent_mean": 41.034795655144585, "train/post_ent_min": 19.303151210149128, "train/post_ent_std": 5.60139740175671, "train/prior_ent_mag": 76.41072252061632, "train/prior_ent_max": 76.41072252061632, "train/prior_ent_mean": 46.18616766399808, "train/prior_ent_min": 28.821590688493515, "train/prior_ent_std": 7.377752284208934, "train/rep_loss_mean": 5.163704037666321, "train/rep_loss_std": 8.765485723813375, "train/reward_avg": 0.03549940309797724, "train/reward_loss_mean": 0.05189210479147732, "train/reward_loss_std": 0.20484950952231884, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0195546232991748, "train/reward_neg_acc": 0.994146010114087, "train/reward_neg_loss": 0.023728548044649262, "train/reward_pos_acc": 0.9906208796633614, "train/reward_pos_loss": 0.7225178653995196, "train/reward_pred": 0.03537111377550496, "train/reward_rate": 0.04026963975694445, "stats/sum_log_reward": 10.225000202655792, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 13.625, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4987256210297346, "replay/size": 520548.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.067750904514113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4997628766314714e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0876545906067, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.89659881591797, "timer/env.step_frac": 0.0663026236219608, "timer/env.step_avg": 0.013702891746499978, "timer/env.step_min": 0.0026044845581054688, "timer/env.step_max": 1.5701079368591309, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2458963394165039, "timer/replay.add_frac": 0.0008194150464202433, "timer/replay.add_avg": 0.00016935009601687598, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0025568008422851562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021129131317138672, "timer/logger.write_frac": 7.040986523075733e-05, "timer/logger.write_avg": 0.021129131317138672, "timer/logger.write_min": 0.021129131317138672, "timer/logger.write_max": 0.021129131317138672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.810216903686523, "timer/agent.policy_frac": 0.03602353091943858, "timer/agent.policy_avg": 0.0074450529639714345, "timer/agent.policy_min": 0.0058329105377197266, "timer/agent.policy_max": 0.01772618293762207, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05877566337585449, "timer/dataset_frac": 0.00019586165067682956, "timer/dataset_avg": 8.09582140163285e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0002033710479736328, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.43927574157715, "timer/agent.train_frac": 0.8945362184518864, "timer/agent.train_avg": 0.36975106851456907, "timer/agent.train_min": 0.3631598949432373, "timer/agent.train_max": 0.3839457035064697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2033395767211914, "timer/agent.report_frac": 0.0006776006063914777, "timer/agent.report_avg": 0.2033395767211914, "timer/agent.report_min": 0.2033395767211914, "timer/agent.report_max": 0.2033395767211914, "fps": 4.838477977912183}
+{"step": 520777, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
+{"step": 521150, "episode/length": 372.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.03753351206434316}
+{"step": 521342, "episode/length": 191.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.052083333333333336}
+{"step": 521543, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05970149253731343}
+{"step": 521733, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05263157894736842}
+{"step": 521991, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.046511627906976744}
+{"step": 522041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610237121582031, "train/action_min": 0.0, "train/action_std": 3.447379344039493, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045171135312153235, "train/actor_opt_grad_steps": 260115.0, "train/actor_opt_loss": -11.129798498418596, "train/adv_mag": 0.4380059238109324, "train/adv_max": 0.41338634656535256, "train/adv_mean": 0.002952648353440187, "train/adv_min": -0.35562213303314316, "train/adv_std": 0.05024883523583412, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 3.023274515238465e-05, "train/cont_loss_std": 0.0009194944297029729, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004413023079915017, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.60146906046645e-06, "train/cont_pred": 0.9950256869196892, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.253583570321401, "train/dyn_loss_std": 8.804802417755127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1096914551324315, "train/extr_critic_critic_opt_grad_steps": 260115.0, "train/extr_critic_critic_opt_loss": 16578.154527452258, "train/extr_critic_mag": 10.762641350428263, "train/extr_critic_max": 10.762641350428263, "train/extr_critic_mean": 2.7005367990997104, "train/extr_critic_min": -0.5041075630320443, "train/extr_critic_std": 2.5524902476204767, "train/extr_return_normed_mag": 1.478771870334943, "train/extr_return_normed_max": 1.478771870334943, "train/extr_return_normed_mean": 0.35982922692265773, "train/extr_return_normed_min": -0.08314311250837313, "train/extr_return_normed_std": 0.32446078459421795, "train/extr_return_rate": 0.7377559319138527, "train/extr_return_raw_mag": 11.664321038458082, "train/extr_return_raw_max": 11.664321038458082, "train/extr_return_raw_mean": 2.7241159511937036, "train/extr_return_raw_min": -0.814408558110396, "train/extr_return_raw_std": 2.591826520032353, "train/extr_reward_mag": 1.050550060139762, "train/extr_reward_max": 1.050550060139762, "train/extr_reward_mean": 0.05480596793091132, "train/extr_reward_min": -0.625717442896631, "train/extr_reward_std": 0.22518683618141544, "train/image_loss_mean": 3.1992486715316772, "train/image_loss_std": 8.30580504073037, "train/model_loss_mean": 6.402098192109002, "train/model_loss_std": 12.499846789571974, "train/model_opt_grad_norm": 28.229968004756504, "train/model_opt_grad_steps": 259909.0, "train/model_opt_loss": 8002.622782389323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6192271643214755, "train/policy_entropy_max": 2.6192271643214755, "train/policy_entropy_mean": 0.40868971269163823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.570600212448173, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4102580003026459, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0276815129650965, "train/policy_randomness_mag": 0.9244722517000304, "train/policy_randomness_max": 0.9244722517000304, "train/policy_randomness_mean": 0.14424953237175941, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2013968342087335, "train/post_ent_mag": 54.806302547454834, "train/post_ent_max": 54.806302547454834, "train/post_ent_mean": 41.15501689910889, "train/post_ent_min": 19.088790191544426, "train/post_ent_std": 5.579115205340916, "train/prior_ent_mag": 76.51235347323947, "train/prior_ent_max": 76.51235347323947, "train/prior_ent_mean": 46.371907552083336, "train/prior_ent_min": 28.47612868414985, "train/prior_ent_std": 7.2993510365486145, "train/rep_loss_mean": 5.253583570321401, "train/rep_loss_std": 8.804802417755127, "train/reward_avg": 0.03496500622067186, "train/reward_loss_mean": 0.05066918038452665, "train/reward_loss_std": 0.20284085327552426, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.020959387222926, "train/reward_neg_acc": 0.9947154571612676, "train/reward_neg_loss": 0.023022044320694275, "train/reward_pos_acc": 0.9910621527168486, "train/reward_pos_loss": 0.725985600716538, "train/reward_pred": 0.03479205700568855, "train/reward_rate": 0.039469401041666664, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 7.833333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43639762202898663, "replay/size": 521978.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.316852596256283e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4114421564382273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08361315727234, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.9524142742157, "timer/env.step_frac": 0.06648951625278764, "timer/env.step_avg": 0.013952737254696292, "timer/env.step_min": 0.0028374195098876953, "timer/env.step_max": 1.7531731128692627, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.24564051628112793, "timer/replay.add_frac": 0.0008185735758666334, "timer/replay.add_avg": 0.00017177658481197757, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008046627044677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019605398178100586, "timer/logger.write_frac": 6.533311823270235e-05, "timer/logger.write_avg": 0.019605398178100586, "timer/logger.write_min": 0.019605398178100586, "timer/logger.write_max": 0.019605398178100586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002918243408203125, "timer/checkpoint.save_frac": 9.72476763225884e-07, "timer/checkpoint.save_avg": 0.0002918243408203125, "timer/checkpoint.save_min": 0.0002918243408203125, "timer/checkpoint.save_max": 0.0002918243408203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3552532196044922, "timer/agent.save_frac": 0.004516252005051041, "timer/agent.save_avg": 1.3552532196044922, "timer/agent.save_min": 1.3552532196044922, "timer/agent.save_max": 1.3552532196044922, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.629818697939278e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 13.550026893615723, "timer/agent.policy_frac": 0.045154171369278406, "timer/agent.policy_avg": 0.009475543282248757, "timer/agent.policy_min": 0.006185770034790039, "timer/agent.policy_max": 1.3533926010131836, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05969405174255371, "timer/dataset_frac": 0.00019892473005937966, "timer/dataset_avg": 8.348818425531988e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014400482177734375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.6331977844238, "timer/agent.train_frac": 0.8851972788171102, "timer/agent.train_avg": 0.3715149619362571, "timer/agent.train_min": 0.36211585998535156, "timer/agent.train_max": 0.3852965831756592, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20253753662109375, "timer/agent.report_frac": 0.0006749370100224194, "timer/agent.report_avg": 0.20253753662109375, "timer/agent.report_min": 0.20253753662109375, "timer/agent.report_max": 0.20253753662109375, "fps": 4.765234590613678}
+{"step": 522162, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.04678362573099415}
+{"step": 522384, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
+{"step": 522540, "episode/length": 155.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.07051282051282051}
+{"step": 522876, "episode/length": 335.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.03273809523809524}
+{"step": 523057, "episode/length": 180.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06629834254143646}
+{"step": 523238, "episode/length": 180.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04419889502762431}
+{"step": 523509, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.583968489137415, "train/action_min": 0.0, "train/action_std": 3.4581488975106853, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042776176272189784, "train/actor_opt_grad_steps": 260840.0, "train/actor_opt_loss": -14.054538268749027, "train/adv_mag": 0.42243460718899556, "train/adv_max": 0.37736114777930796, "train/adv_mean": 0.0013295845785674604, "train/adv_min": -0.3578722844385121, "train/adv_std": 0.048072859389732964, "train/cont_avg": 0.994755993150685, "train/cont_loss_mean": 3.1711026969553396e-05, "train/cont_loss_std": 0.000989823736703117, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016052456324372269, "train/cont_pos_acc": 0.9999865383318026, "train/cont_pos_loss": 2.5523863048042367e-05, "train/cont_pred": 0.9947474827505138, "train/cont_rate": 0.994755993150685, "train/dyn_loss_mean": 5.141144647990187, "train/dyn_loss_std": 8.775485541722546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1016913693245143, "train/extr_critic_critic_opt_grad_steps": 260840.0, "train/extr_critic_critic_opt_loss": 16300.240742722603, "train/extr_critic_mag": 10.616867770887401, "train/extr_critic_max": 10.616867770887401, "train/extr_critic_mean": 2.7108955154680228, "train/extr_critic_min": -0.5013469000385232, "train/extr_critic_std": 2.571260195888885, "train/extr_return_normed_mag": 1.4199932405393418, "train/extr_return_normed_max": 1.4199932405393418, "train/extr_return_normed_mean": 0.3603828920893473, "train/extr_return_normed_min": -0.08876049181778137, "train/extr_return_normed_std": 0.32501548814446957, "train/extr_return_rate": 0.7296313545475267, "train/extr_return_raw_mag": 11.17985665308286, "train/extr_return_raw_max": 11.17985665308286, "train/extr_return_raw_mean": 2.7215065874465525, "train/extr_return_raw_min": -0.8622824182249096, "train/extr_return_raw_std": 2.5945971697977144, "train/extr_reward_mag": 1.0545725626488254, "train/extr_reward_max": 1.0545725626488254, "train/extr_reward_mean": 0.053417756005305135, "train/extr_reward_min": -0.6728341579437256, "train/extr_reward_std": 0.22375769035456933, "train/image_loss_mean": 3.1155512741167253, "train/image_loss_std": 8.03908531633142, "train/model_loss_mean": 6.252589271493154, "train/model_loss_std": 12.222551972898719, "train/model_opt_grad_norm": 30.124218653326164, "train/model_opt_grad_steps": 260634.0, "train/model_opt_loss": 14271.858726187927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2294.5205479452056, "train/policy_entropy_mag": 2.619755562037638, "train/policy_entropy_max": 2.619755562037638, "train/policy_entropy_mean": 0.4206342676731005, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864807302004671, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41998075173325733, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0310310500941864, "train/policy_randomness_mag": 0.9246587508345303, "train/policy_randomness_max": 0.9246587508345303, "train/policy_randomness_mean": 0.14846544028961495, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20700196207386173, "train/post_ent_mag": 54.969825065299254, "train/post_ent_max": 54.969825065299254, "train/post_ent_mean": 41.02401153355429, "train/post_ent_min": 18.963623242835475, "train/post_ent_std": 5.602975544864184, "train/prior_ent_mag": 76.55415438299309, "train/prior_ent_max": 76.55415438299309, "train/prior_ent_mean": 46.20049212730094, "train/prior_ent_min": 28.866048551585575, "train/prior_ent_std": 7.419502682881813, "train/rep_loss_mean": 5.141144647990187, "train/rep_loss_std": 8.775485541722546, "train/reward_avg": 0.03548533785833071, "train/reward_loss_mean": 0.05231951733362185, "train/reward_loss_std": 0.20475665061441187, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.024574918289707, "train/reward_neg_acc": 0.9938980969664168, "train/reward_neg_loss": 0.024185805658057127, "train/reward_pos_acc": 0.990849545557205, "train/reward_pos_loss": 0.7199519546064612, "train/reward_pred": 0.03532950544398125, "train/reward_rate": 0.04041363441780822, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 7.833333333333333, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.32809453705946606, "replay/size": 523446.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.135496654042756e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5199793457010462e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22739243507385, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.113598346710205, "timer/env.step_frac": 0.057002121651544946, "timer/env.step_avg": 0.011657764541355725, "timer/env.step_min": 0.0026133060455322266, "timer/env.step_max": 1.5405921936035156, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.24971866607666016, "timer/replay.add_frac": 0.0008317650966197678, "timer/replay.add_avg": 0.00017010808315848783, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0006227493286132812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02215576171875, "timer/logger.write_frac": 7.379660309823771e-05, "timer/logger.write_avg": 0.02215576171875, "timer/logger.write_min": 0.02215576171875, "timer/logger.write_max": 0.02215576171875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.954108476638794, "timer/agent.policy_frac": 0.03648603942429301, "timer/agent.policy_avg": 0.007461926755203538, "timer/agent.policy_min": 0.0062406063079833984, "timer/agent.policy_max": 0.015411138534545898, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06035971641540527, "timer/dataset_frac": 0.00020104666641455264, "timer/dataset_avg": 8.223394607003443e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00025534629821777344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.1913323402405, "timer/agent.train_frac": 0.9032864394573437, "timer/agent.train_avg": 0.3694704800275756, "timer/agent.train_min": 0.3625020980834961, "timer/agent.train_max": 0.38300466537475586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22136497497558594, "timer/agent.report_frac": 0.0007373243766338129, "timer/agent.report_avg": 0.22136497497558594, "timer/agent.report_min": 0.22136497497558594, "timer/agent.report_max": 0.22136497497558594, "fps": 4.88951861948119}
+{"step": 523592, "episode/length": 353.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.031073446327683617}
+{"step": 523778, "episode/length": 185.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04838709677419355}
+{"step": 524017, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0502092050209205}
+{"step": 524243, "episode/length": 225.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05309734513274336}
+{"step": 524950, "episode/length": 706.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.016973125884016973}
+{"step": 524991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.54270398938978, "train/action_min": 0.0, "train/action_std": 3.431674451441378, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04322607311848048, "train/actor_opt_grad_steps": 261575.0, "train/actor_opt_loss": -11.58301131024554, "train/adv_mag": 0.39448182848659724, "train/adv_max": 0.3660599158422367, "train/adv_mean": 0.002983080978034146, "train/adv_min": -0.34861033107783346, "train/adv_std": 0.049325706537913634, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 1.787484059780188e-05, "train/cont_loss_std": 0.0004535640201888905, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.38119071735442e-05, "train/cont_pos_acc": 0.999999986307041, "train/cont_pos_loss": 1.7759114785733545e-05, "train/cont_pred": 0.9947706622046393, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.26664774804502, "train/dyn_loss_std": 8.790703805717262, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1081678005489144, "train/extr_critic_critic_opt_grad_steps": 261575.0, "train/extr_critic_critic_opt_loss": 16469.585277660473, "train/extr_critic_mag": 10.418756884497565, "train/extr_critic_max": 10.418756884497565, "train/extr_critic_mean": 2.5945665111412874, "train/extr_critic_min": -0.47316762724438227, "train/extr_critic_std": 2.499866596750311, "train/extr_return_normed_mag": 1.4389462487117664, "train/extr_return_normed_max": 1.4389462487117664, "train/extr_return_normed_mean": 0.3553321945506173, "train/extr_return_normed_min": -0.08421309191632916, "train/extr_return_normed_std": 0.32605867752352274, "train/extr_return_rate": 0.7272470118226232, "train/extr_return_raw_mag": 11.034006930686331, "train/extr_return_raw_max": 11.034006930686331, "train/extr_return_raw_mean": 2.6177252096098824, "train/extr_return_raw_min": -0.7964539604412543, "train/extr_return_raw_std": 2.5330064957206315, "train/extr_reward_mag": 1.039417070311469, "train/extr_reward_max": 1.039417070311469, "train/extr_reward_mean": 0.05260216087304257, "train/extr_reward_min": -0.6245284386583276, "train/extr_reward_std": 0.2221981359494699, "train/image_loss_mean": 3.1873272721831865, "train/image_loss_std": 8.242098705188647, "train/model_loss_mean": 6.398694051278604, "train/model_loss_std": 12.431663719383446, "train/model_opt_grad_norm": 28.626540249341154, "train/model_opt_grad_steps": 261368.2027027027, "train/model_opt_loss": 9654.301526868665, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 1503.3783783783783, "train/policy_entropy_mag": 2.6151905671970264, "train/policy_entropy_max": 2.6151905671970264, "train/policy_entropy_mean": 0.4112255490712217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5781368391739355, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4110032903987008, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0270036088453758, "train/policy_randomness_mag": 0.9230475047150174, "train/policy_randomness_max": 0.9230475047150174, "train/policy_randomness_mean": 0.1451445730352724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20405693543521133, "train/post_ent_mag": 55.606737858540306, "train/post_ent_max": 55.606737858540306, "train/post_ent_mean": 41.05565839200406, "train/post_ent_min": 18.991656561155576, "train/post_ent_std": 5.6577251021926465, "train/prior_ent_mag": 76.4991178770323, "train/prior_ent_max": 76.4991178770323, "train/prior_ent_mean": 46.381333016060495, "train/prior_ent_min": 28.85389485230317, "train/prior_ent_std": 7.406188726425171, "train/rep_loss_mean": 5.26664774804502, "train/rep_loss_std": 8.790703805717262, "train/reward_avg": 0.03521431544543924, "train/reward_loss_mean": 0.05136026235649715, "train/reward_loss_std": 0.20352309579784805, "train/reward_max_data": 1.0148648684089248, "train/reward_max_pred": 1.014912131670359, "train/reward_neg_acc": 0.9945300277825948, "train/reward_neg_loss": 0.023338768014533294, "train/reward_pos_acc": 0.989181437202402, "train/reward_pos_loss": 0.7255484928955903, "train/reward_pred": 0.035085328653253416, "train/reward_rate": 0.039986275337837836, "stats/sum_log_reward": 10.1, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 11.2, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.522342997789383, "replay/size": 524928.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.1055548252203525e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5226533377540578e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3739995956421, "timer/env.step_count": 1482.0, "timer/env.step_total": 15.438246250152588, "timer/env.step_frac": 0.051396746292739284, "timer/env.step_avg": 0.01041717020927975, "timer/env.step_min": 0.002698183059692383, "timer/env.step_max": 1.4320707321166992, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.24456381797790527, "timer/replay.add_frac": 0.0008141976945645514, "timer/replay.add_avg": 0.00016502281914838413, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0006968975067138672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023946523666381836, "timer/logger.write_frac": 7.972235845518655e-05, "timer/logger.write_avg": 0.023946523666381836, "timer/logger.write_min": 0.023946523666381836, "timer/logger.write_max": 0.023946523666381836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 11.000001192092896, "timer/agent.policy_frac": 0.036621016489113214, "timer/agent.policy_avg": 0.007422402963625435, "timer/agent.policy_min": 0.006090879440307617, "timer/agent.policy_max": 0.014827251434326172, "timer/dataset_count": 741.0, "timer/dataset_total": 0.059340476989746094, "timer/dataset_frac": 0.00019755530461900545, "timer/dataset_avg": 8.008161537077745e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 741.0, "timer/agent.train_total": 272.97231936454773, "timer/agent.train_frac": 0.9087747931978734, "timer/agent.train_avg": 0.36838369684824257, "timer/agent.train_min": 0.36177778244018555, "timer/agent.train_max": 0.38231730461120605, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22664332389831543, "timer/agent.report_frac": 0.0007545370911044846, "timer/agent.report_avg": 0.22664332389831543, "timer/agent.report_min": 0.22664332389831543, "timer/agent.report_max": 0.22664332389831543, "fps": 4.933738014199823}
+{"step": 525250, "episode/length": 299.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.03666666666666667}
+{"step": 525485, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05106382978723404}
+{"step": 525627, "episode/length": 141.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.07042253521126761}
+{"step": 525763, "episode/length": 135.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0661764705882353}
+{"step": 525816, "episode/length": 52.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.1509433962264151}
+{"step": 526050, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04700854700854701}
+{"step": 526264, "episode/length": 213.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0514018691588785}
+{"step": 526443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57069961338827, "train/action_min": 0.0, "train/action_std": 3.4667216033151704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04451376036421893, "train/actor_opt_grad_steps": 262310.0, "train/actor_opt_loss": -11.201965132396515, "train/adv_mag": 0.431653913161526, "train/adv_max": 0.40011216842964903, "train/adv_mean": 0.0026555615411481296, "train/adv_min": -0.34313698786578767, "train/adv_std": 0.04930516505894596, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 1.5465746302180528e-05, "train/cont_loss_std": 0.0004192855763041161, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009747688420920646, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 8.716950865043414e-06, "train/cont_pred": 0.9949407193758716, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.1032100181057025, "train/dyn_loss_std": 8.685062042654376, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0470597931783494, "train/extr_critic_critic_opt_grad_steps": 262310.0, "train/extr_critic_critic_opt_loss": 16219.42852365154, "train/extr_critic_mag": 10.35562537467643, "train/extr_critic_max": 10.35562537467643, "train/extr_critic_mean": 2.731956264744066, "train/extr_critic_min": -0.4578866615687331, "train/extr_critic_std": 2.522955221672581, "train/extr_return_normed_mag": 1.4386260983062118, "train/extr_return_normed_max": 1.4386260983062118, "train/extr_return_normed_mean": 0.3690646178510091, "train/extr_return_normed_min": -0.08845516916823713, "train/extr_return_normed_std": 0.32810580158886843, "train/extr_return_rate": 0.7415801960311524, "train/extr_return_raw_mag": 11.102304484746227, "train/extr_return_raw_max": 11.102304484746227, "train/extr_return_raw_mean": 2.752650451986757, "train/extr_return_raw_min": -0.8178526828550312, "train/extr_return_raw_std": 2.560878330714082, "train/extr_reward_mag": 1.0541780876786742, "train/extr_reward_max": 1.0541780876786742, "train/extr_reward_mean": 0.054055923902212755, "train/extr_reward_min": -0.6543255113575557, "train/extr_reward_std": 0.22499898504720975, "train/image_loss_mean": 3.0333306217846805, "train/image_loss_std": 7.949811745996344, "train/model_loss_mean": 6.1456686241986, "train/model_loss_std": 12.067512316246555, "train/model_opt_grad_norm": 29.315615928336367, "train/model_opt_grad_steps": 262103.0, "train/model_opt_loss": 11027.31268728596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.6256995527711635, "train/policy_entropy_max": 2.6256995527711635, "train/policy_entropy_mean": 0.41868626724367275, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5813373972291815, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4190189475066041, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0328740436736852, "train/policy_randomness_mag": 0.9267567167543385, "train/policy_randomness_max": 0.9267567167543385, "train/policy_randomness_mean": 0.14777787968720477, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2051865886131378, "train/post_ent_mag": 54.88114025168223, "train/post_ent_max": 54.88114025168223, "train/post_ent_mean": 41.081157057252646, "train/post_ent_min": 18.855492395897436, "train/post_ent_std": 5.635768348223542, "train/prior_ent_mag": 76.61350521976, "train/prior_ent_max": 76.61350521976, "train/prior_ent_mean": 46.223162089308644, "train/prior_ent_min": 28.456645077222014, "train/prior_ent_std": 7.330151185597459, "train/rep_loss_mean": 5.1032100181057025, "train/rep_loss_std": 8.685062042654376, "train/reward_avg": 0.03513217005521467, "train/reward_loss_mean": 0.05039650559017103, "train/reward_loss_std": 0.19874007816184058, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0208539440207285, "train/reward_neg_acc": 0.9946352129113184, "train/reward_neg_loss": 0.0224019747661197, "train/reward_pos_acc": 0.9894310252307212, "train/reward_pos_loss": 0.7294737084271157, "train/reward_pred": 0.034839976783076376, "train/reward_rate": 0.03966449058219178, "stats/sum_log_reward": 9.099999904632568, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4609834445374353, "replay/size": 526380.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.0639743016771047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5212115177438278e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2639055252075, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.997896671295166, "timer/env.step_frac": 0.05994026035135355, "timer/env.step_avg": 0.012395245641387855, "timer/env.step_min": 0.002680540084838867, "timer/env.step_max": 1.428318977355957, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24548935890197754, "timer/replay.add_frac": 0.0008175786512620593, "timer/replay.add_avg": 0.00016906980640632062, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0006132125854492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021365880966186523, "timer/logger.write_frac": 7.11570074625331e-05, "timer/logger.write_avg": 0.021365880966186523, "timer/logger.write_min": 0.021365880966186523, "timer/logger.write_max": 0.021365880966186523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033593177795410156, "timer/checkpoint.save_frac": 1.1187884117023838e-06, "timer/checkpoint.save_avg": 0.00033593177795410156, "timer/checkpoint.save_min": 0.00033593177795410156, "timer/checkpoint.save_max": 0.00033593177795410156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.385493278503418, "timer/agent.save_frac": 0.004614251839827295, "timer/agent.save_avg": 1.385493278503418, "timer/agent.save_min": 1.385493278503418, "timer/agent.save_max": 1.385493278503418, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010347366333007812, "timer/replay.save_frac": 3.4460906364715017e-07, "timer/replay.save_avg": 0.00010347366333007812, "timer/replay.save_min": 0.00010347366333007812, "timer/replay.save_max": 0.00010347366333007812, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 14.186786890029907, "timer/agent.policy_frac": 0.0472477265131653, "timer/agent.policy_avg": 0.009770514387072939, "timer/agent.policy_min": 0.005790233612060547, "timer/agent.policy_max": 2.318678140640259, "timer/dataset_count": 726.0, "timer/dataset_total": 0.0582728385925293, "timer/dataset_frac": 0.00019407207300058655, "timer/dataset_avg": 8.026561789604586e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001857280731201172, "timer/agent.train_count": 726.0, "timer/agent.train_total": 267.13968205451965, "timer/agent.train_frac": 0.8896829660136855, "timer/agent.train_avg": 0.36796099456545406, "timer/agent.train_min": 0.36104869842529297, "timer/agent.train_max": 0.4412388801574707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22206497192382812, "timer/agent.report_frac": 0.0007395659879112093, "timer/agent.report_avg": 0.22206497192382812, "timer/agent.report_min": 0.22206497192382812, "timer/agent.report_max": 0.22206497192382812, "fps": 4.835634029489685}
+{"step": 526470, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
+{"step": 526635, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.100000038743019, "episode/reward_rate": 0.05454545454545454}
+{"step": 526881, "episode/length": 245.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04878048780487805}
+{"step": 527087, "episode/length": 205.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.06310679611650485}
+{"step": 527247, "episode/length": 159.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 527425, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07303370786516854}
+{"step": 527618, "episode/length": 192.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06735751295336788}
+{"step": 527665, "episode/length": 46.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.700000047683716, "episode/reward_rate": 0.1276595744680851}
+{"step": 527919, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.651641020903716, "train/action_min": 0.0, "train/action_std": 3.5445680489411227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043372116076785164, "train/actor_opt_grad_steps": 263045.0, "train/actor_opt_loss": -14.607148947345244, "train/adv_mag": 0.43029114080441966, "train/adv_max": 0.3750758666444469, "train/adv_mean": 0.0019695517113865898, "train/adv_min": -0.3719510774354677, "train/adv_std": 0.04870260758577166, "train/cont_avg": 0.9945233319256757, "train/cont_loss_mean": 6.301486664489637e-05, "train/cont_loss_std": 0.0019114809703591458, "train/cont_neg_acc": 0.9943693699063482, "train/cont_neg_loss": 0.00878262624796416, "train/cont_pos_acc": 0.999986707358747, "train/cont_pos_loss": 1.9850682333695487e-05, "train/cont_pred": 0.9945350418219695, "train/cont_rate": 0.9945233319256757, "train/dyn_loss_mean": 5.0249144257725895, "train/dyn_loss_std": 8.659020101701891, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.017961728411752, "train/extr_critic_critic_opt_grad_steps": 263045.0, "train/extr_critic_critic_opt_loss": 16110.813120249155, "train/extr_critic_mag": 10.591371897104624, "train/extr_critic_max": 10.591371897104624, "train/extr_critic_mean": 2.8036650113157324, "train/extr_critic_min": -0.4989840726594667, "train/extr_critic_std": 2.6014595949971997, "train/extr_return_normed_mag": 1.424955819104169, "train/extr_return_normed_max": 1.424955819104169, "train/extr_return_normed_mean": 0.3709367070649121, "train/extr_return_normed_min": -0.08759512684333164, "train/extr_return_normed_std": 0.3306960856189599, "train/extr_return_rate": 0.7415954446470415, "train/extr_return_raw_mag": 11.204477787017822, "train/extr_return_raw_max": 11.204477787017822, "train/extr_return_raw_mean": 2.8193391174883455, "train/extr_return_raw_min": -0.8290816622005927, "train/extr_return_raw_std": 2.6311064749150663, "train/extr_reward_mag": 1.0494771487004049, "train/extr_reward_max": 1.0494771487004049, "train/extr_reward_mean": 0.055594940896372534, "train/extr_reward_min": -0.6715691798442119, "train/extr_reward_std": 0.22724527785101453, "train/image_loss_mean": 3.0245039011981034, "train/image_loss_std": 7.77404878590558, "train/model_loss_mean": 6.091828036952663, "train/model_loss_std": 11.896653845503524, "train/model_opt_grad_norm": 30.610025483208734, "train/model_opt_grad_steps": 262837.9324324324, "train/model_opt_loss": 15229.570127744932, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6226761469969877, "train/policy_entropy_max": 2.6226761469969877, "train/policy_entropy_mean": 0.42099730851682454, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.590751028544194, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4209557598507082, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0359899699687958, "train/policy_randomness_mag": 0.925689585305549, "train/policy_randomness_max": 0.925689585305549, "train/policy_randomness_mean": 0.1485935744602938, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2085091896556519, "train/post_ent_mag": 55.097501033061256, "train/post_ent_max": 55.097501033061256, "train/post_ent_mean": 41.15263655379012, "train/post_ent_min": 18.935183769947773, "train/post_ent_std": 5.660374712299657, "train/prior_ent_mag": 76.39356582229202, "train/prior_ent_max": 76.39356582229202, "train/prior_ent_mean": 46.2346756393845, "train/prior_ent_min": 28.620852547722894, "train/prior_ent_std": 7.3727179346857845, "train/rep_loss_mean": 5.0249144257725895, "train/rep_loss_std": 8.659020101701891, "train/reward_avg": 0.03707374340376338, "train/reward_loss_mean": 0.052312497653671214, "train/reward_loss_std": 0.2118167075756434, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.020409783801517, "train/reward_neg_acc": 0.9948472565895802, "train/reward_neg_loss": 0.022868766852125928, "train/reward_pos_acc": 0.9914117181623304, "train/reward_pos_loss": 0.7283527706120465, "train/reward_pred": 0.03658529287959273, "train/reward_rate": 0.04175464527027027, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.875, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28348024003207684, "replay/size": 527856.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 2.9799091783642446e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3880088400388474e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00669836997986, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.936471223831177, "timer/env.step_frac": 0.059786902496794345, "timer/env.step_avg": 0.012152080774953371, "timer/env.step_min": 0.0023338794708251953, "timer/env.step_max": 1.262833833694458, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.2481529712677002, "timer/replay.add_frac": 0.0008271581021889997, "timer/replay.add_avg": 0.00016812531928705974, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.000934600830078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021561145782470703, "timer/logger.write_frac": 7.186888126037995e-05, "timer/logger.write_avg": 0.021561145782470703, "timer/logger.write_min": 0.021561145782470703, "timer/logger.write_max": 0.021561145782470703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.494266986846924, "timer/agent.policy_frac": 0.034980108923784725, "timer/agent.policy_avg": 0.007109936982958621, "timer/agent.policy_min": 0.005819797515869141, "timer/agent.policy_max": 0.015348434448242188, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05696988105773926, "timer/dataset_frac": 0.00018989536356112222, "timer/dataset_avg": 7.719496078284453e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 738.0, "timer/agent.train_total": 270.63298988342285, "timer/agent.train_frac": 0.9020898245067441, "timer/agent.train_avg": 0.366711368405722, "timer/agent.train_min": 0.3603694438934326, "timer/agent.train_max": 0.3791360855102539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22526884078979492, "timer/agent.report_frac": 0.000750879370406539, "timer/agent.report_avg": 0.22526884078979492, "timer/agent.report_min": 0.22526884078979492, "timer/agent.report_max": 0.22526884078979492, "fps": 4.919776209806664}
+{"step": 527982, "episode/length": 316.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.0473186119873817}
+{"step": 528168, "episode/length": 185.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05913978494623656}
+{"step": 528332, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.054878048780487805}
+{"step": 528659, "episode/length": 326.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.03363914373088685}
+{"step": 528866, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05314009661835749}
+{"step": 529035, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07100591715976332}
+{"step": 529217, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 529399, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.567153518264358, "train/action_min": 0.0, "train/action_std": 3.4706229454762227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042625811706120904, "train/actor_opt_grad_steps": 263785.0, "train/actor_opt_loss": -12.249453725847038, "train/adv_mag": 0.4269273901307905, "train/adv_max": 0.37727828686301773, "train/adv_mean": 0.0017897665899442006, "train/adv_min": -0.36482547143021143, "train/adv_std": 0.04866994927461083, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 9.828988369596991e-05, "train/cont_loss_std": 0.0030003429660640708, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.007826612456670299, "train/cont_pos_acc": 0.9999867138024923, "train/cont_pos_loss": 5.34222306656049e-05, "train/cont_pred": 0.9947707596662883, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.186442980895171, "train/dyn_loss_std": 8.773931065121213, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0535299093336672, "train/extr_critic_critic_opt_grad_steps": 263785.0, "train/extr_critic_critic_opt_loss": 16309.663732580237, "train/extr_critic_mag": 10.508663486790013, "train/extr_critic_max": 10.508663486790013, "train/extr_critic_mean": 2.6845540645960213, "train/extr_critic_min": -0.45896540461359797, "train/extr_critic_std": 2.5264134664793274, "train/extr_return_normed_mag": 1.443240276865057, "train/extr_return_normed_max": 1.443240276865057, "train/extr_return_normed_mean": 0.3589456882831213, "train/extr_return_normed_min": -0.08860000809402885, "train/extr_return_normed_std": 0.3256674060547674, "train/extr_return_rate": 0.7399071285853515, "train/extr_return_raw_mag": 11.210131477665257, "train/extr_return_raw_max": 11.210131477665257, "train/extr_return_raw_mean": 2.6985884743767814, "train/extr_return_raw_min": -0.8158004444998663, "train/extr_return_raw_std": 2.556777167964626, "train/extr_reward_mag": 1.0419730366887272, "train/extr_reward_max": 1.0419730366887272, "train/extr_reward_mean": 0.05335180290244721, "train/extr_reward_min": -0.6537014133221394, "train/extr_reward_std": 0.2233264591242816, "train/image_loss_mean": 3.0820181933609216, "train/image_loss_std": 8.026269435882568, "train/model_loss_mean": 6.2453065885079875, "train/model_loss_std": 12.193597368291906, "train/model_opt_grad_norm": 27.77057850038683, "train/model_opt_grad_steps": 263577.0, "train/model_opt_loss": 15613.266482791385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6377382761723287, "train/policy_entropy_max": 2.6377382761723287, "train/policy_entropy_mean": 0.41537651782100266, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5869903717492078, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41554161785422145, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.0320694196868587, "train/policy_randomness_mag": 0.931005858891719, "train/policy_randomness_max": 0.931005858891719, "train/policy_randomness_mean": 0.14660968309318698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2071818401281898, "train/post_ent_mag": 54.95802430848818, "train/post_ent_max": 54.95802430848818, "train/post_ent_mean": 40.98414091161779, "train/post_ent_min": 18.898814794179554, "train/post_ent_std": 5.582819700241089, "train/prior_ent_mag": 76.54785424309807, "train/prior_ent_max": 76.54785424309807, "train/prior_ent_mean": 46.167118072509766, "train/prior_ent_min": 28.80666297190898, "train/prior_ent_std": 7.393375312959826, "train/rep_loss_mean": 5.186442980895171, "train/rep_loss_std": 8.773931065121213, "train/reward_avg": 0.03597577034520942, "train/reward_loss_mean": 0.051324301525144965, "train/reward_loss_std": 0.2035562500760362, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0156356031830247, "train/reward_neg_acc": 0.9947227384593036, "train/reward_neg_loss": 0.02272856029732203, "train/reward_pos_acc": 0.9899338153568474, "train/reward_pos_loss": 0.7268760445955638, "train/reward_pred": 0.03589479252696037, "train/reward_rate": 0.040896853885135136, "stats/sum_log_reward": 10.814285823277064, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 9.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4474943684680121, "replay/size": 529336.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.07189451681601e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3845595153602393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0668442249298, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.682037115097046, "timer/env.step_frac": 0.05559440316768956, "timer/env.step_avg": 0.011271646699389896, "timer/env.step_min": 0.002269744873046875, "timer/env.step_max": 1.25325345993042, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.26697802543640137, "timer/replay.add_frac": 0.0008897285074130846, "timer/replay.add_avg": 0.0001803905577272982, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0013685226440429688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02326345443725586, "timer/logger.write_frac": 7.752757388889523e-05, "timer/logger.write_avg": 0.02326345443725586, "timer/logger.write_min": 0.02326345443725586, "timer/logger.write_max": 0.02326345443725586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.556435823440552, "timer/agent.policy_frac": 0.03518028074947013, "timer/agent.policy_avg": 0.007132726907730103, "timer/agent.policy_min": 0.005881547927856445, "timer/agent.policy_max": 0.015612602233886719, "timer/dataset_count": 740.0, "timer/dataset_total": 0.058592796325683594, "timer/dataset_frac": 0.00019526581311250267, "timer/dataset_avg": 7.917945449416701e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.0009372234344482422, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.8510904312134, "timer/agent.train_frac": 0.9059684389103452, "timer/agent.train_avg": 0.3673663384205586, "timer/agent.train_min": 0.36144018173217773, "timer/agent.train_max": 0.38097310066223145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230205535888672, "timer/agent.report_frac": 0.0007432362417944823, "timer/agent.report_avg": 0.2230205535888672, "timer/agent.report_min": 0.2230205535888672, "timer/agent.report_max": 0.2230205535888672, "fps": 4.932120669129488}
+{"step": 529429, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05660377358490566}
+{"step": 529607, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06179775280898876}
+{"step": 529808, "episode/length": 200.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.05472636815920398}
+{"step": 529982, "episode/length": 173.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.06896551724137931}
+{"step": 530162, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03888888888888889}
+{"step": 530322, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.075}
+{"step": 530552, "episode/length": 229.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.06086956521739131}
+{"step": 530819, "episode/length": 266.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.100000068545341, "episode/reward_rate": 0.0449438202247191}
+{"step": 530853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572320726182726, "train/action_min": 0.0, "train/action_std": 3.478833691941367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0435319347307086, "train/actor_opt_grad_steps": 264515.0, "train/actor_opt_loss": -11.829533481142587, "train/adv_mag": 0.44617974509795505, "train/adv_max": 0.40578752259413403, "train/adv_mean": 0.0028402286223404693, "train/adv_min": -0.36572165083554053, "train/adv_std": 0.04941891237265534, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 5.817312866874937e-06, "train/cont_loss_std": 0.00016965902073411913, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00044031378277825043, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 3.3509086522837747e-06, "train/cont_pred": 0.9948859893613391, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.016432907846239, "train/dyn_loss_std": 8.64177550209893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.073090170820554, "train/extr_critic_critic_opt_grad_steps": 264515.0, "train/extr_critic_critic_opt_loss": 16364.388522677951, "train/extr_critic_mag": 10.554016391436258, "train/extr_critic_max": 10.554016391436258, "train/extr_critic_mean": 2.6145220862494574, "train/extr_critic_min": -0.5034745931625366, "train/extr_critic_std": 2.5179528329107494, "train/extr_return_normed_mag": 1.455114836494128, "train/extr_return_normed_max": 1.455114836494128, "train/extr_return_normed_mean": 0.35085558477375245, "train/extr_return_normed_min": -0.08808202172319095, "train/extr_return_normed_std": 0.3250306650168366, "train/extr_return_rate": 0.7340513252549701, "train/extr_return_raw_mag": 11.308028870158726, "train/extr_return_raw_max": 11.308028870158726, "train/extr_return_raw_mean": 2.636811407075988, "train/extr_return_raw_min": -0.8108113793035349, "train/extr_return_raw_std": 2.5527735302845636, "train/extr_reward_mag": 1.0413050055503845, "train/extr_reward_max": 1.0413050055503845, "train/extr_reward_mean": 0.05360421853967839, "train/extr_reward_min": -0.6713791903522279, "train/extr_reward_std": 0.22409271303978232, "train/image_loss_mean": 3.0691556533177695, "train/image_loss_std": 7.6903807984458075, "train/model_loss_mean": 6.129977822303772, "train/model_loss_std": 11.795282443364462, "train/model_opt_grad_norm": 28.35842676565681, "train/model_opt_grad_steps": 264306.31944444444, "train/model_opt_loss": 15992.062025282117, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6344573265976376, "train/policy_entropy_max": 2.6344573265976376, "train/policy_entropy_mean": 0.4382810898953014, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6092732619080279, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4388912241492007, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.050900712609291, "train/policy_randomness_mag": 0.9298478265603384, "train/policy_randomness_max": 0.9298478265603384, "train/policy_randomness_mean": 0.1546939904284146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21504672544283998, "train/post_ent_mag": 55.34160730573866, "train/post_ent_max": 55.34160730573866, "train/post_ent_mean": 41.07892640431722, "train/post_ent_min": 19.303066359625923, "train/post_ent_std": 5.664323634571499, "train/prior_ent_mag": 76.62460549672444, "train/prior_ent_max": 76.62460549672444, "train/prior_ent_mean": 46.138427363501656, "train/prior_ent_min": 28.327372127109104, "train/prior_ent_std": 7.4304668174849615, "train/rep_loss_mean": 5.016432907846239, "train/rep_loss_std": 8.64177550209893, "train/reward_avg": 0.03534613702342742, "train/reward_loss_mean": 0.05095669966087573, "train/reward_loss_std": 0.2046564473874039, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0211622913678486, "train/reward_neg_acc": 0.9941833449734582, "train/reward_neg_loss": 0.02301478729997244, "train/reward_pos_acc": 0.9900592226121161, "train/reward_pos_loss": 0.7228197447127767, "train/reward_pred": 0.035236943849465914, "train/reward_rate": 0.0401611328125, "stats/sum_log_reward": 10.100000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 6.25, "stats/max_log_achievement_defeat_skeleton": 0.375, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3551271688193083, "replay/size": 530790.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.0577920653961057e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4167991268257656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1164095401764, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.84100079536438, "timer/env.step_frac": 0.05944693534985136, "timer/env.step_avg": 0.012270289405340013, "timer/env.step_min": 0.002332448959350586, "timer/env.step_max": 1.3672516345977783, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.257826566696167, "timer/replay.add_frac": 0.0008590885353160001, "timer/replay.add_avg": 0.00017732226045128404, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0043487548828125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028878450393676758, "timer/logger.write_frac": 9.622416327691944e-05, "timer/logger.write_avg": 0.028878450393676758, "timer/logger.write_min": 0.028878450393676758, "timer/logger.write_max": 0.028878450393676758, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002715587615966797, "timer/checkpoint.save_frac": 9.048447634461197e-07, "timer/checkpoint.save_avg": 0.0002715587615966797, "timer/checkpoint.save_min": 0.0002715587615966797, "timer/checkpoint.save_max": 0.0002715587615966797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3956468105316162, "timer/agent.save_frac": 0.004650351550819756, "timer/agent.save_avg": 1.3956468105316162, "timer/agent.save_min": 1.3956468105316162, "timer/agent.save_max": 1.3956468105316162, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2720421628234437e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.447959661483765, "timer/agent.policy_frac": 0.04814118522749295, "timer/agent.policy_avg": 0.009936698529218545, "timer/agent.policy_min": 0.005745410919189453, "timer/agent.policy_max": 2.78558611869812, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05608344078063965, "timer/dataset_frac": 0.00018687229021088165, "timer/dataset_avg": 7.714365994585921e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.00014829635620117188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 266.8712885379791, "timer/agent.train_frac": 0.8892259138607789, "timer/agent.train_avg": 0.36708567886929727, "timer/agent.train_min": 0.36078310012817383, "timer/agent.train_max": 0.3809342384338379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915578842163086, "timer/agent.report_frac": 0.0007302359399721281, "timer/agent.report_avg": 0.21915578842163086, "timer/agent.report_min": 0.21915578842163086, "timer/agent.report_max": 0.21915578842163086, "fps": 4.844729627567942}
+{"step": 530986, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07784431137724551}
+{"step": 531283, "episode/length": 296.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04377104377104377}
+{"step": 531487, "episode/length": 203.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.049019607843137254}
+{"step": 531747, "episode/length": 259.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05384615384615385}
+{"step": 531900, "episode/length": 152.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.0784313725490196}
+{"step": 532184, "episode/length": 283.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.045774647887323945}
+{"step": 532335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495683824693835, "train/action_min": 0.0, "train/action_std": 3.394333098385785, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043724494961065216, "train/actor_opt_grad_steps": 265245.0, "train/actor_opt_loss": -12.40693353677823, "train/adv_mag": 0.4289133907169909, "train/adv_max": 0.3824088158639702, "train/adv_mean": 0.00223994252446819, "train/adv_min": -0.37584221040880356, "train/adv_std": 0.049364954887612444, "train/cont_avg": 0.9943385768581081, "train/cont_loss_mean": 4.304006745967768e-05, "train/cont_loss_std": 0.0013493098128436346, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.007738649588983773, "train/cont_pos_acc": 0.9999999895289138, "train/cont_pos_loss": 3.6344348675114773e-06, "train/cont_pred": 0.9943602866417652, "train/cont_rate": 0.9943385768581081, "train/dyn_loss_mean": 5.150311395928666, "train/dyn_loss_std": 8.768294766142562, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0627720831213772, "train/extr_critic_critic_opt_grad_steps": 265245.0, "train/extr_critic_critic_opt_loss": 16389.625923775337, "train/extr_critic_mag": 10.557336149988947, "train/extr_critic_max": 10.557336149988947, "train/extr_critic_mean": 2.7732935563938037, "train/extr_critic_min": -0.465031035848566, "train/extr_critic_std": 2.6026737238909745, "train/extr_return_normed_mag": 1.4350509724101506, "train/extr_return_normed_max": 1.4350509724101506, "train/extr_return_normed_mean": 0.36636231718836604, "train/extr_return_normed_min": -0.09010905696934945, "train/extr_return_normed_std": 0.33281913439969757, "train/extr_return_rate": 0.7438591332048983, "train/extr_return_raw_mag": 11.251029053249875, "train/extr_return_raw_max": 11.251029053249875, "train/extr_return_raw_mean": 2.7910289377779574, "train/extr_return_raw_min": -0.822644013005334, "train/extr_return_raw_std": 2.635026160124186, "train/extr_reward_mag": 1.0537534823288788, "train/extr_reward_max": 1.0537534823288788, "train/extr_reward_mean": 0.05535453527763083, "train/extr_reward_min": -0.6368774385065645, "train/extr_reward_std": 0.22802689651379715, "train/image_loss_mean": 3.082572102546692, "train/image_loss_std": 8.042122009638193, "train/model_loss_mean": 6.226989868524912, "train/model_loss_std": 12.233229237633783, "train/model_opt_grad_norm": 30.12842693067577, "train/model_opt_grad_steps": 265035.74324324325, "train/model_opt_loss": 16305.714632601352, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2601.3513513513512, "train/policy_entropy_mag": 2.6375108731759562, "train/policy_entropy_max": 2.6375108731759562, "train/policy_entropy_mean": 0.3957075444427696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5636644484223546, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39628353352482254, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0150239403183396, "train/policy_randomness_mag": 0.9309255923773792, "train/policy_randomness_max": 0.9309255923773792, "train/policy_randomness_mean": 0.13966739681121465, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19894881395472064, "train/post_ent_mag": 55.38755159120302, "train/post_ent_max": 55.38755159120302, "train/post_ent_mean": 41.06357450742979, "train/post_ent_min": 18.849815909926956, "train/post_ent_std": 5.646687385198232, "train/prior_ent_mag": 76.55098971805057, "train/prior_ent_max": 76.55098971805057, "train/prior_ent_mean": 46.2171450950004, "train/prior_ent_min": 28.404460649232607, "train/prior_ent_std": 7.388456479923145, "train/rep_loss_mean": 5.150311395928666, "train/rep_loss_std": 8.768294766142562, "train/reward_avg": 0.036508920854209245, "train/reward_loss_mean": 0.0541879285026241, "train/reward_loss_std": 0.2076849242722666, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0268170350306742, "train/reward_neg_acc": 0.9940375508488836, "train/reward_neg_loss": 0.02500604683331944, "train/reward_pos_acc": 0.9903152939435598, "train/reward_pos_loss": 0.7273337204714079, "train/reward_pred": 0.03614611604024429, "train/reward_rate": 0.04150390625, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.48838092883427936, "replay/size": 532272.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.0844800385386355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3949980459071687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1823420524597, "timer/env.step_count": 1482.0, "timer/env.step_total": 15.783991575241089, "timer/env.step_frac": 0.052581345948998846, "timer/env.step_avg": 0.01065046664996025, "timer/env.step_min": 0.002191305160522461, "timer/env.step_max": 1.4552967548370361, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.2864346504211426, "timer/replay.add_frac": 0.0009542021974466619, "timer/replay.add_avg": 0.0001932757425243877, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.003164529800415039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02241969108581543, "timer/logger.write_frac": 7.4686908405483e-05, "timer/logger.write_avg": 0.02241969108581543, "timer/logger.write_min": 0.02241969108581543, "timer/logger.write_max": 0.02241969108581543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 10.618077993392944, "timer/agent.policy_frac": 0.035372093910631605, "timer/agent.policy_avg": 0.0071646950022894364, "timer/agent.policy_min": 0.0058438777923583984, "timer/agent.policy_max": 0.015836238861083984, "timer/dataset_count": 741.0, "timer/dataset_total": 0.05966329574584961, "timer/dataset_frac": 0.00019875684671493064, "timer/dataset_avg": 8.051726821302242e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0017096996307373047, "timer/agent.train_count": 741.0, "timer/agent.train_total": 272.789986371994, "timer/agent.train_frac": 0.9087476115577824, "timer/agent.train_avg": 0.3681376334304913, "timer/agent.train_min": 0.36075901985168457, "timer/agent.train_max": 0.38298916816711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22306132316589355, "timer/agent.report_frac": 0.0007430860910763081, "timer/agent.report_avg": 0.22306132316589355, "timer/agent.report_min": 0.22306132316589355, "timer/agent.report_max": 0.22306132316589355, "fps": 4.936888157544002}
+{"step": 532391, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05314009661835749}
+{"step": 532558, "episode/length": 166.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05389221556886228}
+{"step": 532719, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07453416149068323}
+{"step": 533040, "episode/length": 320.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.040498442367601244}
+{"step": 533235, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
+{"step": 533434, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06030150753768844}
+{"step": 533489, "episode/length": 54.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05454545454545454}
+{"step": 533697, "episode/length": 207.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.0625}
+{"step": 533791, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.581501999946489, "train/action_min": 0.0, "train/action_std": 3.4507807836140674, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045902201676205415, "train/actor_opt_grad_steps": 265980.0, "train/actor_opt_loss": -11.211576451993968, "train/adv_mag": 0.4654642592554223, "train/adv_max": 0.41809645866694517, "train/adv_mean": 0.0031427307063769485, "train/adv_min": -0.3921755844191329, "train/adv_std": 0.051590579268458774, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 5.382082672910573e-05, "train/cont_loss_std": 0.001615760925706625, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.0074073659259906825, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 8.594554841912418e-06, "train/cont_pred": 0.9948255199275605, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.317231949061563, "train/dyn_loss_std": 8.754799692598107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0501634862324962, "train/extr_critic_critic_opt_grad_steps": 265980.0, "train/extr_critic_critic_opt_loss": 16420.363027076197, "train/extr_critic_mag": 10.546637169302326, "train/extr_critic_max": 10.546637169302326, "train/extr_critic_mean": 2.7847801430584633, "train/extr_critic_min": -0.48158153932388514, "train/extr_critic_std": 2.5587580612261003, "train/extr_return_normed_mag": 1.450730075574901, "train/extr_return_normed_max": 1.450730075574901, "train/extr_return_normed_mean": 0.3692937901575271, "train/extr_return_normed_min": -0.08864678110774249, "train/extr_return_normed_std": 0.3294790760703283, "train/extr_return_rate": 0.7464300116447553, "train/extr_return_raw_mag": 11.341511647995205, "train/extr_return_raw_max": 11.341511647995205, "train/extr_return_raw_mean": 2.809602350404818, "train/extr_return_raw_min": -0.8036923596303757, "train/extr_return_raw_std": 2.5997540950775146, "train/extr_reward_mag": 1.0597605411320516, "train/extr_reward_max": 1.0597605411320516, "train/extr_reward_mean": 0.05620765206340241, "train/extr_reward_min": -0.651845247778174, "train/extr_reward_std": 0.22848154196183976, "train/image_loss_mean": 3.0937534162442977, "train/image_loss_std": 8.202231452889638, "train/model_loss_mean": 6.337265951992714, "train/model_loss_std": 12.372331527814474, "train/model_opt_grad_norm": 28.103713296864132, "train/model_opt_grad_steps": 265769.397260274, "train/model_opt_loss": 11143.550012039812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.625638618861159, "train/policy_entropy_max": 2.625638618861159, "train/policy_entropy_mean": 0.40849789732123076, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5754076152631681, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4091959238460619, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0255049777357546, "train/policy_randomness_mag": 0.9267352092755984, "train/policy_randomness_max": 0.9267352092755984, "train/policy_randomness_mean": 0.1441818318546635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2030936359134439, "train/post_ent_mag": 54.95350406594472, "train/post_ent_max": 54.95350406594472, "train/post_ent_mean": 40.66599498382986, "train/post_ent_min": 18.955509355623427, "train/post_ent_std": 5.640794140018829, "train/prior_ent_mag": 76.54349465566139, "train/prior_ent_max": 76.54349465566139, "train/prior_ent_mean": 45.98981026427386, "train/prior_ent_min": 28.240315790045752, "train/prior_ent_std": 7.4606744034649575, "train/rep_loss_mean": 5.317231949061563, "train/rep_loss_std": 8.754799692598107, "train/reward_avg": 0.03724047505896386, "train/reward_loss_mean": 0.05311952980413829, "train/reward_loss_std": 0.2124967152533466, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.025078293395369, "train/reward_neg_acc": 0.994427158407969, "train/reward_neg_loss": 0.02330396744129184, "train/reward_pos_acc": 0.9875587902656974, "train/reward_pos_loss": 0.7401013954045021, "train/reward_pred": 0.03686041198670864, "train/reward_rate": 0.04183165667808219, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.381391366943717, "replay/size": 533728.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.0727504373906733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5098274081617922e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05567502975464, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.527827978134155, "timer/env.step_frac": 0.06508068203075214, "timer/env.step_avg": 0.01341196976520203, "timer/env.step_min": 0.0025780200958251953, "timer/env.step_max": 1.5138611793518066, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2693357467651367, "timer/replay.add_frac": 0.0008976192392909362, "timer/replay.add_avg": 0.00018498334255847302, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0009217262268066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02880406379699707, "timer/logger.write_frac": 9.599573077276659e-05, "timer/logger.write_avg": 0.02880406379699707, "timer/logger.write_min": 0.02880406379699707, "timer/logger.write_max": 0.02880406379699707, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.879570960998535, "timer/agent.policy_frac": 0.03625850755837121, "timer/agent.policy_avg": 0.007472232802883609, "timer/agent.policy_min": 0.006059169769287109, "timer/agent.policy_max": 0.0168459415435791, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05945110321044922, "timer/dataset_frac": 0.00019813357372612208, "timer/dataset_avg": 8.166360331105662e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 728.0, "timer/agent.train_total": 268.66015553474426, "timer/agent.train_frac": 0.8953676863738802, "timer/agent.train_avg": 0.36903867518508826, "timer/agent.train_min": 0.36196279525756836, "timer/agent.train_max": 0.384127140045166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223827838897705, "timer/agent.report_frac": 0.0007411384032903834, "timer/agent.report_avg": 0.2223827838897705, "timer/agent.report_min": 0.2223827838897705, "timer/agent.report_max": 0.2223827838897705, "fps": 4.85232426032289}
+{"step": 533933, "episode/length": 235.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0423728813559322}
+{"step": 534087, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.05194805194805195}
+{"step": 534286, "episode/length": 198.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05527638190954774}
+{"step": 534469, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.060109289617486336}
+{"step": 534586, "episode/length": 116.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.10256410256410256}
+{"step": 534712, "episode/length": 125.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.09523809523809523}
+{"step": 534932, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05909090909090909}
+{"step": 534983, "episode/length": 50.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.13725490196078433}
+{"step": 535163, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
+{"step": 535212, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542879346390845, "train/action_min": 0.0, "train/action_std": 3.4228826475815035, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043809757318714976, "train/actor_opt_grad_steps": 266700.0, "train/actor_opt_loss": -13.228937995265907, "train/adv_mag": 0.4211830652095902, "train/adv_max": 0.3881604100616885, "train/adv_mean": 0.0024965612079335775, "train/adv_min": -0.360002070875235, "train/adv_std": 0.05003095003710666, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 0.0001445409366112726, "train/cont_loss_std": 0.004561720011344771, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.02602173350528798, "train/cont_pos_acc": 0.9999999899259755, "train/cont_pos_loss": 1.71166139792799e-05, "train/cont_pred": 0.994693098773419, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 5.033989402609811, "train/dyn_loss_std": 8.7217922882295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0431067800857652, "train/extr_critic_critic_opt_grad_steps": 266700.0, "train/extr_critic_critic_opt_loss": 16280.657873019367, "train/extr_critic_mag": 10.823613838410713, "train/extr_critic_max": 10.823613838410713, "train/extr_critic_mean": 2.8284194956363087, "train/extr_critic_min": -0.5077316173365418, "train/extr_critic_std": 2.589353121502299, "train/extr_return_normed_mag": 1.4559791994766451, "train/extr_return_normed_max": 1.4559791994766451, "train/extr_return_normed_mean": 0.3662013520657177, "train/extr_return_normed_min": -0.09222312701839797, "train/extr_return_normed_std": 0.3266069154504319, "train/extr_return_rate": 0.7536000256807032, "train/extr_return_raw_mag": 11.607254928266498, "train/extr_return_raw_max": 11.607254928266498, "train/extr_return_raw_mean": 2.8484855134722213, "train/extr_return_raw_min": -0.836289300045497, "train/extr_return_raw_std": 2.625228982576182, "train/extr_reward_mag": 1.0461658256154664, "train/extr_reward_max": 1.0461658256154664, "train/extr_reward_mean": 0.053907857814305266, "train/extr_reward_min": -0.6759936725589591, "train/extr_reward_std": 0.22482375338883467, "train/image_loss_mean": 2.992060701612016, "train/image_loss_std": 8.1930570602417, "train/model_loss_mean": 6.0651017108433685, "train/model_loss_std": 12.329319537525446, "train/model_opt_grad_norm": 29.340427976259043, "train/model_opt_grad_steps": 266489.0, "train/model_opt_loss": 9133.59990509463, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.6411469721458327, "train/policy_entropy_max": 2.6411469721458327, "train/policy_entropy_mean": 0.3883018980563526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5589705218731518, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3887928852313001, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0118147588111985, "train/policy_randomness_mag": 0.9322089804729945, "train/policy_randomness_max": 0.9322089804729945, "train/policy_randomness_mean": 0.137053530610783, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19729206627103643, "train/post_ent_mag": 55.59755217861122, "train/post_ent_max": 55.59755217861122, "train/post_ent_mean": 41.05315630200883, "train/post_ent_min": 19.047032127917653, "train/post_ent_std": 5.644348298999625, "train/prior_ent_mag": 76.49635282704529, "train/prior_ent_max": 76.49635282704529, "train/prior_ent_mean": 46.11844978869801, "train/prior_ent_min": 28.410852781483825, "train/prior_ent_std": 7.409022378249907, "train/rep_loss_mean": 5.033989402609811, "train/rep_loss_std": 8.7217922882295, "train/reward_avg": 0.03499944972425279, "train/reward_loss_mean": 0.052502874232513805, "train/reward_loss_std": 0.21807663877245406, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.013590802609081, "train/reward_neg_acc": 0.9952291602819738, "train/reward_neg_loss": 0.023351344673461477, "train/reward_pos_acc": 0.9824431211176053, "train/reward_pos_loss": 0.7526320538050691, "train/reward_pred": 0.034464815264226685, "train/reward_rate": 0.03992902728873239, "stats/sum_log_reward": 9.433333396911621, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 7.555555555555555, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.2222222222222223, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2838451365629832, "replay/size": 535149.0, "replay/inserts": 1421.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.2006142258560214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4914593226473096e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99938106536865, "timer/env.step_count": 1421.0, "timer/env.step_total": 21.391850233078003, "timer/env.step_frac": 0.07130631455675172, "timer/env.step_avg": 0.01505408179667699, "timer/env.step_min": 0.002829313278198242, "timer/env.step_max": 1.511777639389038, "timer/replay.add_count": 1421.0, "timer/replay.add_total": 0.2490851879119873, "timer/replay.add_frac": 0.0008302856726818135, "timer/replay.add_avg": 0.00017528866144404456, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008628368377685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020033597946166992, "timer/logger.write_frac": 6.677879759292487e-05, "timer/logger.write_avg": 0.020033597946166992, "timer/logger.write_min": 0.020033597946166992, "timer/logger.write_max": 0.020033597946166992, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034928321838378906, "timer/checkpoint.save_frac": 1.1642797966562525e-06, "timer/checkpoint.save_avg": 0.00034928321838378906, "timer/checkpoint.save_min": 0.00034928321838378906, "timer/checkpoint.save_max": 0.00034928321838378906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3805742263793945, "timer/agent.save_frac": 0.0046019235822309015, "timer/agent.save_avg": 1.3805742263793945, "timer/agent.save_min": 1.3805742263793945, "timer/agent.save_max": 1.3805742263793945, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.209350057818691e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1421.0, "timer/agent.policy_total": 14.949123620986938, "timer/agent.policy_frac": 0.04983051487606098, "timer/agent.policy_avg": 0.010520143294149851, "timer/agent.policy_min": 0.006162166595458984, "timer/agent.policy_max": 2.947211503982544, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05786752700805664, "timer/dataset_frac": 0.00019289215465230424, "timer/dataset_avg": 8.150355916627696e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001456737518310547, "timer/agent.train_count": 710.0, "timer/agent.train_total": 262.69771575927734, "timer/agent.train_frac": 0.8756608591203612, "timer/agent.train_avg": 0.36999678275954556, "timer/agent.train_min": 0.3620748519897461, "timer/agent.train_max": 0.4054083824157715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.226151704788208, "timer/agent.report_frac": 0.0007538405712208135, "timer/agent.report_avg": 0.226151704788208, "timer/agent.report_min": 0.226151704788208, "timer/agent.report_max": 0.226151704788208, "fps": 4.7365651702827725}
+{"step": 535424, "episode/length": 260.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04597701149425287}
+{"step": 535604, "episode/length": 179.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.044444444444444446}
+{"step": 535785, "episode/length": 180.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.0718232044198895}
+{"step": 535945, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 536250, "episode/length": 304.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.100000023841858, "episode/reward_rate": 0.036065573770491806}
+{"step": 536334, "episode/length": 83.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10714285714285714}
+{"step": 536543, "episode/length": 208.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.05263157894736842}
+{"step": 536677, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.635101736408391, "train/action_min": 0.0, "train/action_std": 3.4977629968564803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04380236168022025, "train/actor_opt_grad_steps": 267420.0, "train/actor_opt_loss": -12.13874709728646, "train/adv_mag": 0.4182951429935351, "train/adv_max": 0.3884929943166367, "train/adv_mean": 0.002968642490474214, "train/adv_min": -0.35073472253263815, "train/adv_std": 0.050205734188426034, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 4.5615792914011836e-05, "train/cont_loss_std": 0.001342605053678946, "train/cont_neg_acc": 0.9957382042114049, "train/cont_neg_loss": 0.005469381561291413, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 1.2492698420386385e-05, "train/cont_pred": 0.9946592409316808, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 5.205507213122224, "train/dyn_loss_std": 8.763848089192011, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0586069046634516, "train/extr_critic_critic_opt_grad_steps": 267420.0, "train/extr_critic_critic_opt_loss": 16305.20578713613, "train/extr_critic_mag": 10.71753042038173, "train/extr_critic_max": 10.71753042038173, "train/extr_critic_mean": 2.7713461363152283, "train/extr_critic_min": -0.5251611552826346, "train/extr_critic_std": 2.624030877466071, "train/extr_return_normed_mag": 1.461434545582288, "train/extr_return_normed_max": 1.461434545582288, "train/extr_return_normed_mean": 0.36324250289838605, "train/extr_return_normed_min": -0.08984637030795829, "train/extr_return_normed_std": 0.33352198502788805, "train/extr_return_rate": 0.7281232525224555, "train/extr_return_raw_mag": 11.569922630101034, "train/extr_return_raw_max": 11.569922630101034, "train/extr_return_raw_mean": 2.795084933712058, "train/extr_return_raw_min": -0.82574044188408, "train/extr_return_raw_std": 2.6654814694025744, "train/extr_reward_mag": 1.0525339237631184, "train/extr_reward_max": 1.0525339237631184, "train/extr_reward_mean": 0.05450856295248417, "train/extr_reward_min": -0.6574645042419434, "train/extr_reward_std": 0.22559353178494598, "train/image_loss_mean": 3.269302836836201, "train/image_loss_std": 8.167539407129157, "train/model_loss_mean": 6.445610111706878, "train/model_loss_std": 12.336165506545811, "train/model_opt_grad_norm": 29.569354749705692, "train/model_opt_grad_steps": 267209.0, "train/model_opt_loss": 16114.025256849314, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6379337408771253, "train/policy_entropy_max": 2.6379337408771253, "train/policy_entropy_mean": 0.43909359345697374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6110973047883543, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43807267836511954, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.044439142697478, "train/policy_randomness_mag": 0.9310748470972662, "train/policy_randomness_max": 0.9310748470972662, "train/policy_randomness_mean": 0.15498076920231726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21569052950976647, "train/post_ent_mag": 55.349245254307576, "train/post_ent_max": 55.349245254307576, "train/post_ent_mean": 41.186912223084335, "train/post_ent_min": 19.346949067834306, "train/post_ent_std": 5.658848063586509, "train/prior_ent_mag": 76.5834265931012, "train/prior_ent_max": 76.5834265931012, "train/prior_ent_mean": 46.383060612090645, "train/prior_ent_min": 28.28387524330453, "train/prior_ent_std": 7.4384821081814705, "train/rep_loss_mean": 5.205507213122224, "train/rep_loss_std": 8.763848089192011, "train/reward_avg": 0.03707860650060928, "train/reward_loss_mean": 0.05295733081763738, "train/reward_loss_std": 0.2072509478216302, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.021330221058571, "train/reward_neg_acc": 0.9943873008636579, "train/reward_neg_loss": 0.023472854472084404, "train/reward_pos_acc": 0.9892456327399163, "train/reward_pos_loss": 0.7276565824469475, "train/reward_pred": 0.036746279655458174, "train/reward_rate": 0.0418851669520548, "stats/sum_log_reward": 9.385714530944824, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4195211636168616, "replay/size": 536614.0, "replay/inserts": 1465.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.102859132525864e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.527399515877967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457021713257, "timer/env.step_count": 1465.0, "timer/env.step_total": 18.191657781600952, "timer/env.step_frac": 0.06056906308325969, "timer/env.step_avg": 0.012417513844096213, "timer/env.step_min": 0.002626180648803711, "timer/env.step_max": 1.5608773231506348, "timer/replay.add_count": 1465.0, "timer/replay.add_total": 0.28558921813964844, "timer/replay.add_frac": 0.0009508683363038112, "timer/replay.add_avg": 0.00019494144582911157, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008103847503662109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024198532104492188, "timer/logger.write_frac": 8.056893083387177e-05, "timer/logger.write_avg": 0.024198532104492188, "timer/logger.write_min": 0.024198532104492188, "timer/logger.write_max": 0.024198532104492188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 10.835883617401123, "timer/agent.policy_frac": 0.03607803787123955, "timer/agent.policy_avg": 0.0073965075886697085, "timer/agent.policy_min": 0.005997657775878906, "timer/agent.policy_max": 0.015442132949829102, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05991220474243164, "timer/dataset_frac": 0.00019947748314459325, "timer/dataset_avg": 8.173561356402679e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.318238735199, "timer/agent.train_frac": 0.9000236620033331, "timer/agent.train_avg": 0.36878340891568756, "timer/agent.train_min": 0.3617591857910156, "timer/agent.train_max": 0.41983628273010254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22178125381469727, "timer/agent.report_frac": 0.0007384199347996229, "timer/agent.report_avg": 0.22178125381469727, "timer/agent.report_min": 0.22178125381469727, "timer/agent.report_max": 0.22178125381469727, "fps": 4.877606313636244}
+{"step": 536768, "episode/length": 224.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.057777777777777775}
+{"step": 537025, "episode/length": 256.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05058365758754864}
+{"step": 537299, "episode/length": 273.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.040145985401459854}
+{"step": 537484, "episode/length": 184.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.50000000745058, "episode/reward_rate": 0.05945945945945946}
+{"step": 537663, "episode/length": 178.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.055865921787709494}
+{"step": 537875, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06132075471698113}
+{"step": 538134, "episode/length": 258.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04633204633204633}
+{"step": 538139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.617916622677365, "train/action_min": 0.0, "train/action_std": 3.4836560036685014, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042855146617905515, "train/actor_opt_grad_steps": 268155.0, "train/actor_opt_loss": -12.290815077117971, "train/adv_mag": 0.44990753765041763, "train/adv_max": 0.39200962435554815, "train/adv_mean": 0.0027080600925113983, "train/adv_min": -0.3868965889151032, "train/adv_std": 0.048828556881965815, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 1.2964299406880363e-05, "train/cont_loss_std": 0.00033996366680816444, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006106411544598777, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 9.847411875719482e-06, "train/cont_pred": 0.9946231407088202, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.140081122114852, "train/dyn_loss_std": 8.658116276199753, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.057048257138278, "train/extr_critic_critic_opt_grad_steps": 268155.0, "train/extr_critic_critic_opt_loss": 16133.74806007179, "train/extr_critic_mag": 10.710402411383551, "train/extr_critic_max": 10.710402411383551, "train/extr_critic_mean": 2.822345935009621, "train/extr_critic_min": -0.4501553918864276, "train/extr_critic_std": 2.6069430209494926, "train/extr_return_normed_mag": 1.4469192930170007, "train/extr_return_normed_max": 1.4469192930170007, "train/extr_return_normed_mean": 0.3680811508281811, "train/extr_return_normed_min": -0.08339159784687532, "train/extr_return_normed_std": 0.33017497852041916, "train/extr_return_rate": 0.7433013448844085, "train/extr_return_raw_mag": 11.478372328990215, "train/extr_return_raw_max": 11.478372328990215, "train/extr_return_raw_mean": 2.844034837709891, "train/extr_return_raw_min": -0.7685825534769006, "train/extr_return_raw_std": 2.6424688036377364, "train/extr_reward_mag": 1.045498522552284, "train/extr_reward_max": 1.045498522552284, "train/extr_reward_mean": 0.054672712460160255, "train/extr_reward_min": -0.6876636292483356, "train/extr_reward_std": 0.22530938564120112, "train/image_loss_mean": 3.075594966476028, "train/image_loss_std": 8.117957076510868, "train/model_loss_mean": 6.2104983974147485, "train/model_loss_std": 12.190034995207915, "train/model_opt_grad_norm": 29.09651468895577, "train/model_opt_grad_steps": 267943.2702702703, "train/model_opt_loss": 17156.430096600507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2770.2702702702704, "train/policy_entropy_mag": 2.6201589429700696, "train/policy_entropy_max": 2.6201589429700696, "train/policy_entropy_mean": 0.42628374011129944, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6098237396092028, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42741426583882924, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0441180999214585, "train/policy_randomness_mag": 0.9248011241088042, "train/policy_randomness_max": 0.9248011241088042, "train/policy_randomness_mean": 0.15045945296013677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2152410201929711, "train/post_ent_mag": 55.63792342108649, "train/post_ent_max": 55.63792342108649, "train/post_ent_mean": 41.08168957684491, "train/post_ent_min": 19.170072233354723, "train/post_ent_std": 5.734191946081213, "train/prior_ent_mag": 76.53369068455052, "train/prior_ent_max": 76.53369068455052, "train/prior_ent_mean": 46.270455850137246, "train/prior_ent_min": 28.42190711562698, "train/prior_ent_std": 7.479403972625732, "train/rep_loss_mean": 5.140081122114852, "train/rep_loss_std": 8.658116276199753, "train/reward_avg": 0.03591242606273374, "train/reward_loss_mean": 0.05084174649940955, "train/reward_loss_std": 0.1989487997583441, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0208672639485952, "train/reward_neg_acc": 0.9944642186164856, "train/reward_neg_loss": 0.02231213138312907, "train/reward_pos_acc": 0.9883510720085453, "train/reward_pos_loss": 0.7242181687741667, "train/reward_pred": 0.03554637531271657, "train/reward_rate": 0.040712098817567564, "stats/sum_log_reward": 10.67142881665911, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.571428571428571, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.44884363242558073, "replay/size": 538076.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.1465707823287608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4867934254386683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07546401023865, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.352593660354614, "timer/env.step_frac": 0.06115992762316755, "timer/env.step_avg": 0.012553073639093443, "timer/env.step_min": 0.002663135528564453, "timer/env.step_max": 1.6322457790374756, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.26477646827697754, "timer/replay.add_frac": 0.0008823662712654951, "timer/replay.add_avg": 0.00018110565545620898, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0008807182312011719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021719694137573242, "timer/logger.write_frac": 7.238077331384935e-05, "timer/logger.write_avg": 0.021719694137573242, "timer/logger.write_min": 0.021719694137573242, "timer/logger.write_max": 0.021719694137573242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.885313272476196, "timer/agent.policy_frac": 0.036275252654794816, "timer/agent.policy_avg": 0.007445494714416003, "timer/agent.policy_min": 0.006117820739746094, "timer/agent.policy_max": 0.016304969787597656, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059540748596191406, "timer/dataset_frac": 0.00019841925027952256, "timer/dataset_avg": 8.145109247085007e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.8543345928192, "timer/agent.train_frac": 0.8992882356539877, "timer/agent.train_avg": 0.369157776460765, "timer/agent.train_min": 0.36043310165405273, "timer/agent.train_max": 0.3848533630371094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22236156463623047, "timer/agent.report_frac": 0.0007410188146160575, "timer/agent.report_avg": 0.22236156463623047, "timer/agent.report_min": 0.22236156463623047, "timer/agent.report_max": 0.22236156463623047, "fps": 4.872002322261889}
+{"step": 538323, "episode/length": 188.0, "episode/score": 10.099999949336052, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.06349206349206349}
+{"step": 538498, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07428571428571429}
+{"step": 538890, "episode/length": 391.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03316326530612245}
+{"step": 539113, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04932735426008968}
+{"step": 539309, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
+{"step": 539603, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.574779771778681, "train/action_min": 0.0, "train/action_std": 3.477378443495868, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043486690531446506, "train/actor_opt_grad_steps": 268890.0, "train/actor_opt_loss": -11.690562894899552, "train/adv_mag": 0.42825070431787676, "train/adv_max": 0.38832781331179894, "train/adv_mean": 0.0022256885394485895, "train/adv_min": -0.36623463299992964, "train/adv_std": 0.04894255509931747, "train/cont_avg": 0.9947961258561644, "train/cont_loss_mean": 2.327154326299522e-05, "train/cont_loss_std": 0.0006291165498838655, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023771408130639, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.3435944795445073e-05, "train/cont_pred": 0.9947933081078203, "train/cont_rate": 0.9947961258561644, "train/dyn_loss_mean": 5.0894795607214105, "train/dyn_loss_std": 8.711313535089362, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0525187743853217, "train/extr_critic_critic_opt_grad_steps": 268890.0, "train/extr_critic_critic_opt_loss": 16203.02370505137, "train/extr_critic_mag": 10.734740779824453, "train/extr_critic_max": 10.734740779824453, "train/extr_critic_mean": 2.8546644563544286, "train/extr_critic_min": -0.4550328173049509, "train/extr_critic_std": 2.6174895469456505, "train/extr_return_normed_mag": 1.4313080735402564, "train/extr_return_normed_max": 1.4313080735402564, "train/extr_return_normed_mean": 0.36891749766591475, "train/extr_return_normed_min": -0.07810686753220754, "train/extr_return_normed_std": 0.3267372128081648, "train/extr_return_rate": 0.7540329262001874, "train/extr_return_raw_mag": 11.479151438360345, "train/extr_return_raw_max": 11.479151438360345, "train/extr_return_raw_mean": 2.872683629597703, "train/extr_return_raw_min": -0.7483852505683899, "train/extr_return_raw_std": 2.6470259346374094, "train/extr_reward_mag": 1.0468401484293481, "train/extr_reward_max": 1.0468401484293481, "train/extr_reward_mean": 0.05433980370425198, "train/extr_reward_min": -0.6393060112652713, "train/extr_reward_std": 0.2250272417313432, "train/image_loss_mean": 3.117052042320983, "train/image_loss_std": 7.989446026005157, "train/model_loss_mean": 6.22316584521777, "train/model_loss_std": 12.118942254210172, "train/model_opt_grad_norm": 27.8083645546273, "train/model_opt_grad_steps": 268677.6438356164, "train/model_opt_loss": 15801.163821703767, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.612824554312719, "train/policy_entropy_max": 2.612824554312719, "train/policy_entropy_mean": 0.4087542811893437, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5838005016111347, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.408897437461435, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0278689608181992, "train/policy_randomness_mag": 0.9222124080135398, "train/policy_randomness_max": 0.9222124080135398, "train/policy_randomness_mean": 0.1442723233405858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060559577729604, "train/post_ent_mag": 55.64294313404658, "train/post_ent_max": 55.64294313404658, "train/post_ent_mean": 41.15844470507478, "train/post_ent_min": 18.980395473846016, "train/post_ent_std": 5.718743866437102, "train/prior_ent_mag": 76.54837015230362, "train/prior_ent_max": 76.54837015230362, "train/prior_ent_mean": 46.257475500237454, "train/prior_ent_min": 29.123287828001256, "train/prior_ent_std": 7.3888998358217, "train/rep_loss_mean": 5.0894795607214105, "train/rep_loss_std": 8.711313535089362, "train/reward_avg": 0.03582646621212567, "train/reward_loss_mean": 0.05240280916021295, "train/reward_loss_std": 0.20630676799441036, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.013042054764212, "train/reward_neg_acc": 0.9936453332639721, "train/reward_neg_loss": 0.023830220001201108, "train/reward_pos_acc": 0.9891003517255391, "train/reward_pos_loss": 0.7274579209824131, "train/reward_pred": 0.03556130476908324, "train/reward_rate": 0.040587542808219176, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 11.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4002449601888657, "replay/size": 539540.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.1886856412627005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4537996281691587e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0927846431732, "timer/env.step_count": 1464.0, "timer/env.step_total": 15.883315324783325, "timer/env.step_frac": 0.052928014726077, "timer/env.step_avg": 0.010849259101627954, "timer/env.step_min": 0.0028429031372070312, "timer/env.step_max": 1.5922791957855225, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26530027389526367, "timer/replay.add_frac": 0.0008840608220911418, "timer/replay.add_avg": 0.00018121603408146426, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0010159015655517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023094892501831055, "timer/logger.write_frac": 7.69591729081129e-05, "timer/logger.write_avg": 0.023094892501831055, "timer/logger.write_min": 0.023094892501831055, "timer/logger.write_max": 0.023094892501831055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020003318786621094, "timer/checkpoint.save_frac": 6.665711343378728e-07, "timer/checkpoint.save_avg": 0.00020003318786621094, "timer/checkpoint.save_min": 0.00020003318786621094, "timer/checkpoint.save_max": 0.00020003318786621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.392723798751831, "timer/agent.save_frac": 0.004640977291099671, "timer/agent.save_avg": 1.392723798751831, "timer/agent.save_min": 1.392723798751831, "timer/agent.save_max": 1.392723798751831, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.487701416015625e-05, "timer/replay.save_frac": 2.8283590443895437e-07, "timer/replay.save_avg": 8.487701416015625e-05, "timer/replay.save_min": 8.487701416015625e-05, "timer/replay.save_max": 8.487701416015625e-05, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 12.386317729949951, "timer/agent.policy_frac": 0.041274960158332236, "timer/agent.policy_avg": 0.00846059954231554, "timer/agent.policy_min": 0.005963563919067383, "timer/agent.policy_max": 1.3856241703033447, "timer/dataset_count": 732.0, "timer/dataset_total": 0.06047987937927246, "timer/dataset_frac": 0.00020153726605318537, "timer/dataset_avg": 8.262278603725746e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00013327598571777344, "timer/agent.train_count": 732.0, "timer/agent.train_total": 270.84063243865967, "timer/agent.train_frac": 0.9025229738885726, "timer/agent.train_avg": 0.37000086398723997, "timer/agent.train_min": 0.36202073097229004, "timer/agent.train_max": 0.3849210739135742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2239840030670166, "timer/agent.report_frac": 0.0007463825007767044, "timer/agent.report_avg": 0.2239840030670166, "timer/agent.report_min": 0.2239840030670166, "timer/agent.report_max": 0.2239840030670166, "fps": 4.878380302829843}
+{"step": 539625, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.100000061094761, "episode/reward_rate": 0.04113924050632911}
+{"step": 539774, "episode/length": 148.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.087248322147651}
+{"step": 539873, "episode/length": 98.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.09090909090909091}
+{"step": 540098, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04888888888888889}
+{"step": 540263, "episode/length": 164.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07272727272727272}
+{"step": 540656, "episode/length": 392.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03307888040712468}
+{"step": 540815, "episode/length": 158.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06289308176100629}
+{"step": 541045, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.634629991319445, "train/action_min": 0.0, "train/action_std": 3.578094631433487, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0434978136068417, "train/actor_opt_grad_steps": 269615.0, "train/actor_opt_loss": -13.388304509429467, "train/adv_mag": 0.44980017882254386, "train/adv_max": 0.3986942072709401, "train/adv_mean": 0.002226459026537163, "train/adv_min": -0.3825523182749748, "train/adv_std": 0.04898675293144253, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.2040915574434368e-05, "train/cont_loss_std": 0.00029015509593458927, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019729249566719572, "train/cont_pos_acc": 0.9999999701976776, "train/cont_pos_loss": 1.0866795030040066e-05, "train/cont_pred": 0.9945934249295129, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.167569008138445, "train/dyn_loss_std": 8.77698134051429, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0458880820208125, "train/extr_critic_critic_opt_grad_steps": 269615.0, "train/extr_critic_critic_opt_loss": 16275.991794162326, "train/extr_critic_mag": 10.740573048591614, "train/extr_critic_max": 10.740573048591614, "train/extr_critic_mean": 2.7743808461560144, "train/extr_critic_min": -0.49069999655087787, "train/extr_critic_std": 2.6048667861355677, "train/extr_return_normed_mag": 1.4361156423886616, "train/extr_return_normed_max": 1.4361156423886616, "train/extr_return_normed_mean": 0.35622802149090504, "train/extr_return_normed_min": -0.09031077877928813, "train/extr_return_normed_std": 0.3244461777309577, "train/extr_return_rate": 0.7413981498943435, "train/extr_return_raw_mag": 11.5762380361557, "train/extr_return_raw_max": 11.5762380361557, "train/extr_return_raw_mean": 2.7924811094999313, "train/extr_return_raw_min": -0.8394519376258055, "train/extr_return_raw_std": 2.6389975994825363, "train/extr_reward_mag": 1.047179596291648, "train/extr_reward_max": 1.047179596291648, "train/extr_reward_mean": 0.05384608492669132, "train/extr_reward_min": -0.6717090739144219, "train/extr_reward_std": 0.2242102918939458, "train/image_loss_mean": 3.1948531683948307, "train/image_loss_std": 8.357184787591299, "train/model_loss_mean": 6.346899840566847, "train/model_loss_std": 12.469975524478489, "train/model_opt_grad_norm": 28.68567707803514, "train/model_opt_grad_steps": 269402.0, "train/model_opt_loss": 15867.249606662326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.618877020147112, "train/policy_entropy_max": 2.618877020147112, "train/policy_entropy_mean": 0.41795819501082104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5823215146859487, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4184675912062327, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0327961428297892, "train/policy_randomness_mag": 0.9243486598134041, "train/policy_randomness_max": 0.9243486598134041, "train/policy_randomness_mean": 0.14752090204921034, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2055339403450489, "train/post_ent_mag": 55.58235470453898, "train/post_ent_max": 55.58235470453898, "train/post_ent_mean": 41.12248108122084, "train/post_ent_min": 19.155804872512817, "train/post_ent_std": 5.777666601869795, "train/prior_ent_mag": 76.66166644626193, "train/prior_ent_max": 76.66166644626193, "train/prior_ent_mean": 46.31489483515421, "train/prior_ent_min": 28.511253065533108, "train/prior_ent_std": 7.517254339324103, "train/rep_loss_mean": 5.167569008138445, "train/rep_loss_std": 8.77698134051429, "train/reward_avg": 0.03495008651063674, "train/reward_loss_mean": 0.05149314449065261, "train/reward_loss_std": 0.2051127197013961, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0163050062126584, "train/reward_neg_acc": 0.9938902308543524, "train/reward_neg_loss": 0.02353867509454075, "train/reward_pos_acc": 0.9917100974255137, "train/reward_pos_loss": 0.725238550040457, "train/reward_pred": 0.03481457346222467, "train/reward_rate": 0.03993055555555555, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.714285714285715, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.47287956731660025, "stats/max_log_achievement_collect_iron": 1.5, "replay/size": 540982.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.2189814955120114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4272667002578713e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3600287437439, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.817854166030884, "timer/env.step_frac": 0.06930966897659978, "timer/env.step_avg": 0.014436792070756507, "timer/env.step_min": 0.0025229454040527344, "timer/env.step_max": 2.321256399154663, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26918792724609375, "timer/replay.add_frac": 0.0008962175438988087, "timer/replay.add_avg": 0.00018667678727190968, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0012154579162597656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021016359329223633, "timer/logger.write_frac": 6.997055972169325e-05, "timer/logger.write_avg": 0.021016359329223633, "timer/logger.write_min": 0.021016359329223633, "timer/logger.write_max": 0.021016359329223633, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.904468536376953, "timer/agent.policy_frac": 0.03630465938488854, "timer/agent.policy_avg": 0.0075620447547690385, "timer/agent.policy_min": 0.006208181381225586, "timer/agent.policy_max": 0.023961782455444336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.060094594955444336, "timer/dataset_frac": 0.00020007520709992615, "timer/dataset_avg": 8.33489527814762e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00022029876708984375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.6385669708252, "timer/agent.train_frac": 0.8910592001546402, "timer/agent.train_avg": 0.37120466986244827, "timer/agent.train_min": 0.36168861389160156, "timer/agent.train_max": 0.7741339206695557, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22373557090759277, "timer/agent.report_frac": 0.0007448912954342394, "timer/agent.report_avg": 0.22373557090759277, "timer/agent.report_min": 0.22373557090759277, "timer/agent.report_max": 0.22373557090759277, "fps": 4.800848251995758}
+{"step": 541046, "episode/length": 230.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.04329004329004329}
+{"step": 541222, "episode/length": 175.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.300000056624413, "episode/reward_rate": 0.045454545454545456}
+{"step": 541460, "episode/length": 237.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.0546218487394958}
+{"step": 541714, "episode/length": 253.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.047244094488188976}
+{"step": 541887, "episode/length": 172.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06936416184971098}
+{"step": 542175, "episode/length": 287.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 10.699999988079071, "episode/reward_rate": 0.034722222222222224}
+{"step": 542360, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06486486486486487}
+{"step": 542505, "stats/sum_log_reward": 9.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.47402081532137735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.623056072078339, "train/action_min": 0.0, "train/action_std": 3.4996770832636583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04350876450946886, "train/actor_opt_grad_steps": 270340.0, "train/actor_opt_loss": -12.301852814138751, "train/adv_mag": 0.43606022490213997, "train/adv_max": 0.3805888209440937, "train/adv_mean": 0.0024756805276205315, "train/adv_min": -0.3809556060866134, "train/adv_std": 0.048406569874041704, "train/cont_avg": 0.9943947988013698, "train/cont_loss_mean": 9.805866525218571e-05, "train/cont_loss_std": 0.003001741777673998, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.015647659476290716, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 6.322387687211867e-06, "train/cont_pred": 0.9944027417326626, "train/cont_rate": 0.9943947988013698, "train/dyn_loss_mean": 5.224362944903439, "train/dyn_loss_std": 8.768555210061269, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.022753938420178, "train/extr_critic_critic_opt_grad_steps": 270340.0, "train/extr_critic_critic_opt_loss": 16247.773812071919, "train/extr_critic_mag": 10.854291014475365, "train/extr_critic_max": 10.854291014475365, "train/extr_critic_mean": 2.783704645013156, "train/extr_critic_min": -0.48957174771452605, "train/extr_critic_std": 2.619793601232032, "train/extr_return_normed_mag": 1.4450182963724005, "train/extr_return_normed_max": 1.4450182963724005, "train/extr_return_normed_mean": 0.3621463669489508, "train/extr_return_normed_min": -0.08721993480847307, "train/extr_return_normed_std": 0.32884333394978144, "train/extr_return_rate": 0.739183828438798, "train/extr_return_raw_mag": 11.538864292510569, "train/extr_return_raw_max": 11.538864292510569, "train/extr_return_raw_mean": 2.803699112918279, "train/extr_return_raw_min": -0.8214713963743758, "train/extr_return_raw_std": 2.6528296829902964, "train/extr_reward_mag": 1.059924595976529, "train/extr_reward_max": 1.059924595976529, "train/extr_reward_mean": 0.05588512270622058, "train/extr_reward_min": -0.6636133945151551, "train/extr_reward_std": 0.2284042771956692, "train/image_loss_mean": 3.218938014278673, "train/image_loss_std": 8.158478658493252, "train/model_loss_mean": 6.40691244438903, "train/model_loss_std": 12.3319491556246, "train/model_opt_grad_norm": 31.842283666950383, "train/model_opt_grad_steps": 270125.20547945204, "train/model_opt_loss": 9474.136464576199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.6208754859558523, "train/policy_entropy_max": 2.6208754859558523, "train/policy_entropy_mean": 0.40006655005559527, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5638457091703807, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40062530604127333, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.020325965260806, "train/policy_randomness_mag": 0.925054034141645, "train/policy_randomness_max": 0.925054034141645, "train/policy_randomness_mean": 0.14120593524142488, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1990127934984965, "train/post_ent_mag": 55.30740811073617, "train/post_ent_max": 55.30740811073617, "train/post_ent_mean": 41.02058771211807, "train/post_ent_min": 19.293313026428223, "train/post_ent_std": 5.650154427306293, "train/prior_ent_mag": 76.48639438576895, "train/prior_ent_max": 76.48639438576895, "train/prior_ent_mean": 46.262422849054204, "train/prior_ent_min": 28.4364823903123, "train/prior_ent_std": 7.444153766109519, "train/rep_loss_mean": 5.224362944903439, "train/rep_loss_std": 8.768555210061269, "train/reward_avg": 0.0361073950229034, "train/reward_loss_mean": 0.0532585995348349, "train/reward_loss_std": 0.21054139651664316, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0264861747010114, "train/reward_neg_acc": 0.9945364651614672, "train/reward_neg_loss": 0.02424234543506005, "train/reward_pos_acc": 0.9895590780532524, "train/reward_pos_loss": 0.7304033963647607, "train/reward_pred": 0.03589861477686934, "train/reward_rate": 0.0410423801369863, "replay/size": 542442.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.0883371013484587e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4626204150996797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32942724227905, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.475931644439697, "timer/env.step_frac": 0.061518885492146465, "timer/env.step_avg": 0.012654747701671026, "timer/env.step_min": 0.0028405189514160156, "timer/env.step_max": 1.5653777122497559, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.26218557357788086, "timer/replay.add_frac": 0.000872993286023793, "timer/replay.add_avg": 0.0001795791599848499, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008356571197509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020459413528442383, "timer/logger.write_frac": 6.812323959162865e-05, "timer/logger.write_avg": 0.020459413528442383, "timer/logger.write_min": 0.020459413528442383, "timer/logger.write_max": 0.020459413528442383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.87903094291687, "timer/agent.policy_frac": 0.036223659608755676, "timer/agent.policy_avg": 0.007451391056792377, "timer/agent.policy_min": 0.006011962890625, "timer/agent.policy_max": 0.014965057373046875, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05970501899719238, "timer/dataset_frac": 0.00019879843126070922, "timer/dataset_avg": 8.178769725642792e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.92935013771057, "timer/agent.train_frac": 0.8987775610811377, "timer/agent.train_avg": 0.36976623306535694, "timer/agent.train_min": 0.3621635437011719, "timer/agent.train_max": 0.38483524322509766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22196006774902344, "timer/agent.report_frac": 0.0007390553426187098, "timer/agent.report_avg": 0.22196006774902344, "timer/agent.report_min": 0.22196006774902344, "timer/agent.report_max": 0.22196006774902344, "fps": 4.861220211407711}
+{"step": 542699, "episode/length": 338.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.04129793510324484}
+{"step": 542940, "episode/length": 240.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.04564315352697095}
+{"step": 543147, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06763285024154589}
+{"step": 543415, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.048507462686567165}
+{"step": 543715, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.043333333333333335}
+{"step": 543901, "episode/length": 185.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06989247311827956}
+{"step": 543971, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532100311697346, "train/action_min": 0.0, "train/action_std": 3.436816016288653, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043315038161530886, "train/actor_opt_grad_steps": 271070.0, "train/actor_opt_loss": -12.780635890895374, "train/adv_mag": 0.4269330215780702, "train/adv_max": 0.3810985729302446, "train/adv_mean": 0.0021041205477745715, "train/adv_min": -0.3728249818086624, "train/adv_std": 0.048626958813569314, "train/cont_avg": 0.9949834118150684, "train/cont_loss_mean": 1.198093404616585e-05, "train/cont_loss_std": 0.00030884289863367223, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018546990952161228, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.0837638624968959e-05, "train/cont_pred": 0.9949747119864373, "train/cont_rate": 0.9949834118150684, "train/dyn_loss_mean": 5.092406308814271, "train/dyn_loss_std": 8.70432141709001, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0493633853246087, "train/extr_critic_critic_opt_grad_steps": 271070.0, "train/extr_critic_critic_opt_loss": 16258.997030179795, "train/extr_critic_mag": 10.584132103070822, "train/extr_critic_max": 10.584132103070822, "train/extr_critic_mean": 2.8032644840135967, "train/extr_critic_min": -0.4668309280317124, "train/extr_critic_std": 2.5679290359967375, "train/extr_return_normed_mag": 1.4033500756302926, "train/extr_return_normed_max": 1.4033500756302926, "train/extr_return_normed_mean": 0.36320533450335674, "train/extr_return_normed_min": -0.08102287454147862, "train/extr_return_normed_std": 0.32150580397207446, "train/extr_return_rate": 0.7516963138972244, "train/extr_return_raw_mag": 11.234448929355569, "train/extr_return_raw_max": 11.234448929355569, "train/extr_return_raw_mean": 2.820299857283292, "train/extr_return_raw_min": -0.7718414411152879, "train/extr_return_raw_std": 2.6001023021462846, "train/extr_reward_mag": 1.056686479751378, "train/extr_reward_max": 1.056686479751378, "train/extr_reward_mean": 0.056959624772202476, "train/extr_reward_min": -0.6371669573326634, "train/extr_reward_std": 0.2298458010366518, "train/image_loss_mean": 3.0922009275384146, "train/image_loss_std": 8.386962381127763, "train/model_loss_mean": 6.19852292047788, "train/model_loss_std": 12.506056877031718, "train/model_opt_grad_norm": 28.6481134075008, "train/model_opt_grad_steps": 270855.0, "train/model_opt_loss": 11283.110772955908, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.623022383206511, "train/policy_entropy_max": 2.623022383206511, "train/policy_entropy_mean": 0.392239292802876, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5625520487354226, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3929530443394021, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.014720667714942, "train/policy_randomness_mag": 0.9258117961556944, "train/policy_randomness_max": 0.9258117961556944, "train/policy_randomness_mean": 0.13844325658801485, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19855618864706118, "train/post_ent_mag": 55.495191547968616, "train/post_ent_max": 55.495191547968616, "train/post_ent_mean": 41.14090524960871, "train/post_ent_min": 19.105817716415615, "train/post_ent_std": 5.610214141950215, "train/prior_ent_mag": 76.62844984498743, "train/prior_ent_max": 76.62844984498743, "train/prior_ent_mean": 46.247599928346396, "train/prior_ent_min": 28.64982584078018, "train/prior_ent_std": 7.380676583068012, "train/rep_loss_mean": 5.092406308814271, "train/rep_loss_std": 8.70432141709001, "train/reward_avg": 0.03591877114895272, "train/reward_loss_mean": 0.05086621295099389, "train/reward_loss_std": 0.19712780048585918, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0177838508396932, "train/reward_neg_acc": 0.9944397537675622, "train/reward_neg_loss": 0.022718376046276256, "train/reward_pos_acc": 0.9914936170186082, "train/reward_pos_loss": 0.7191494956408462, "train/reward_pred": 0.035814363943183256, "train/reward_rate": 0.040493899828767124, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4364361415306727, "replay/size": 543908.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.0983031039999092e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5018459556860619e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1282286643982, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.371625423431396, "timer/env.step_frac": 0.05788067820456921, "timer/env.step_avg": 0.011849676277920461, "timer/env.step_min": 0.0027701854705810547, "timer/env.step_max": 1.4685075283050537, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27910351753234863, "timer/replay.add_frac": 0.0009299475719907731, "timer/replay.add_avg": 0.0001903843912226116, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.010684013366699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028246402740478516, "timer/logger.write_frac": 9.411444856812684e-05, "timer/logger.write_avg": 0.028246402740478516, "timer/logger.write_min": 0.028246402740478516, "timer/logger.write_max": 0.028246402740478516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.029438734054565, "timer/agent.policy_frac": 0.03674908815854048, "timer/agent.policy_avg": 0.007523491633052227, "timer/agent.policy_min": 0.006188154220581055, "timer/agent.policy_max": 0.01666855812072754, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06000018119812012, "timer/dataset_frac": 0.00019991515448289273, "timer/dataset_avg": 8.185563601380644e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.72347593307495, "timer/agent.train_frac": 0.9020260344647438, "timer/agent.train_avg": 0.3693362563889154, "timer/agent.train_min": 0.36185503005981445, "timer/agent.train_max": 0.38500118255615234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206716537475586, "timer/agent.report_frac": 0.0007352579086931289, "timer/agent.report_avg": 0.2206716537475586, "timer/agent.report_min": 0.2206716537475586, "timer/agent.report_max": 0.2206716537475586, "fps": 4.884517549315431}
+{"step": 544002, "episode/length": 100.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09900990099009901}
+{"step": 544197, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05641025641025641}
+{"step": 544416, "episode/length": 218.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.0593607305936073}
+{"step": 544548, "episode/length": 131.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.1000000461936, "episode/reward_rate": 0.08333333333333333}
+{"step": 544871, "episode/length": 322.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03715170278637771}
+{"step": 545086, "episode/length": 214.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.06046511627906977}
+{"step": 545270, "episode/length": 183.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.07608695652173914}
+{"step": 545413, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539460076226129, "train/action_min": 0.0, "train/action_std": 3.463177604807748, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04287992717905177, "train/actor_opt_grad_steps": 271795.0, "train/actor_opt_loss": -12.150524754491117, "train/adv_mag": 0.446526145355569, "train/adv_max": 0.395593302945296, "train/adv_mean": 0.0025218921408243964, "train/adv_min": -0.3692992108149661, "train/adv_std": 0.04876216811438402, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 2.5536491433639538e-05, "train/cont_loss_std": 0.0007351497739149534, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004315617111515935, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 2.275907139666818e-05, "train/cont_pred": 0.9948732290003035, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.135395255353716, "train/dyn_loss_std": 8.807070189052158, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0811725763811006, "train/extr_critic_critic_opt_grad_steps": 271795.0, "train/extr_critic_critic_opt_loss": 16165.053833007812, "train/extr_critic_mag": 10.693117062250773, "train/extr_critic_max": 10.693117062250773, "train/extr_critic_mean": 2.779144356648127, "train/extr_critic_min": -0.4520147608386146, "train/extr_critic_std": 2.5604393978913627, "train/extr_return_normed_mag": 1.4345727976825502, "train/extr_return_normed_max": 1.4345727976825502, "train/extr_return_normed_mean": 0.36247756766776246, "train/extr_return_normed_min": -0.08774315193295479, "train/extr_return_normed_std": 0.3227557297796011, "train/extr_return_rate": 0.7597593325707648, "train/extr_return_raw_mag": 11.413777510325113, "train/extr_return_raw_max": 11.413777510325113, "train/extr_return_raw_mean": 2.7993908756309085, "train/extr_return_raw_min": -0.8182934025923411, "train/extr_return_raw_std": 2.5933000495036445, "train/extr_reward_mag": 1.0590994225607977, "train/extr_reward_max": 1.0590994225607977, "train/extr_reward_mean": 0.055374793967025146, "train/extr_reward_min": -0.6473797145817015, "train/extr_reward_std": 0.22632309504681164, "train/image_loss_mean": 3.054891508486536, "train/image_loss_std": 8.458162718349033, "train/model_loss_mean": 6.187098801136017, "train/model_loss_std": 12.653620110617744, "train/model_opt_grad_norm": 29.038614723417496, "train/model_opt_grad_steps": 271579.97222222225, "train/model_opt_loss": 16342.088365342883, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6045243210262723, "train/policy_entropy_max": 2.6045243210262723, "train/policy_entropy_mean": 0.39826331184142166, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5700394051770369, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.398376509340273, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0192249458697107, "train/policy_randomness_mag": 0.9192827898595068, "train/policy_randomness_max": 0.9192827898595068, "train/policy_randomness_mean": 0.14056947061585057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2011988962896996, "train/post_ent_mag": 55.17579258812798, "train/post_ent_max": 55.17579258812798, "train/post_ent_mean": 40.985476122962105, "train/post_ent_min": 18.795708073510063, "train/post_ent_std": 5.595285177230835, "train/prior_ent_mag": 76.66630257500543, "train/prior_ent_max": 76.66630257500543, "train/prior_ent_mean": 46.11865493986342, "train/prior_ent_min": 28.362008068296646, "train/prior_ent_std": 7.390679279963176, "train/rep_loss_mean": 5.135395255353716, "train/rep_loss_std": 8.807070189052158, "train/reward_avg": 0.03574625619997581, "train/reward_loss_mean": 0.050944593683299094, "train/reward_loss_std": 0.20825393249591193, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0291017525725894, "train/reward_neg_acc": 0.9944321124090089, "train/reward_neg_loss": 0.022385186088892322, "train/reward_pos_acc": 0.9866549546519915, "train/reward_pos_loss": 0.7329820816715559, "train/reward_pred": 0.0354455796122137, "train/reward_rate": 0.040215386284722224, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 17.285714285714285, "stats/max_log_achievement_collect_wood": 9.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 2.857142857142857, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.35394770758492605, "replay/size": 545350.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.139288184050879e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5337242332807691e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0235254764557, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.392540454864502, "timer/env.step_frac": 0.061303660856781225, "timer/env.step_avg": 0.012754882423623094, "timer/env.step_min": 0.002733469009399414, "timer/env.step_max": 1.9386882781982422, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.30997657775878906, "timer/replay.add_frac": 0.0010331742394751456, "timer/replay.add_avg": 0.00021496295267599795, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0008509159088134766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020443439483642578, "timer/logger.write_frac": 6.813945490166861e-05, "timer/logger.write_avg": 0.020443439483642578, "timer/logger.write_min": 0.020443439483642578, "timer/logger.write_max": 0.020443439483642578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00015974044799804688, "timer/checkpoint.save_frac": 5.324264080437335e-07, "timer/checkpoint.save_avg": 0.00015974044799804688, "timer/checkpoint.save_min": 0.00015974044799804688, "timer/checkpoint.save_max": 0.00015974044799804688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.490584373474121, "timer/agent.save_frac": 0.004968224978714526, "timer/agent.save_avg": 1.490584373474121, "timer/agent.save_min": 1.490584373474121, "timer/agent.save_max": 1.490584373474121, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0502390041087051e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 14.631290197372437, "timer/agent.policy_frac": 0.048767143090319515, "timer/agent.policy_avg": 0.010146525795681302, "timer/agent.policy_min": 0.006146430969238281, "timer/agent.policy_max": 2.3878395557403564, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05892610549926758, "timer/dataset_frac": 0.00019640494993080734, "timer/dataset_avg": 8.172830166333922e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020241737365722656, "timer/agent.train_count": 721.0, "timer/agent.train_total": 265.97976565361023, "timer/agent.train_frac": 0.8865296987335181, "timer/agent.train_avg": 0.3689039745542444, "timer/agent.train_min": 0.3616814613342285, "timer/agent.train_max": 0.41262364387512207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2238633632659912, "timer/agent.report_frac": 0.0007461526988941367, "timer/agent.report_avg": 0.2238633632659912, "timer/agent.report_min": 0.2238633632659912, "timer/agent.report_max": 0.2238633632659912, "fps": 4.806185926304761}
+{"step": 545465, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 545691, "episode/length": 225.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.05752212389380531}
+{"step": 545898, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05314009661835749}
+{"step": 545942, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.11363636363636363}
+{"step": 546081, "episode/length": 138.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.05755395683453238}
+{"step": 546279, "episode/length": 197.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0707070707070707}
+{"step": 546481, "episode/length": 201.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0594059405940594}
+{"step": 546666, "episode/length": 184.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.05945945945945946}
+{"step": 546746, "episode/length": 79.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.125}
+{"step": 546861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.593442315924658, "train/action_min": 0.0, "train/action_std": 3.5265794322915274, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042722960602339, "train/actor_opt_grad_steps": 272520.0, "train/actor_opt_loss": -12.19617766795093, "train/adv_mag": 0.46100403348060504, "train/adv_max": 0.38252816706487575, "train/adv_mean": 0.0023861736893332534, "train/adv_min": -0.40286936539493196, "train/adv_std": 0.04868285924400369, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 2.6491741804909607e-05, "train/cont_loss_std": 0.0007181122638639427, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018082508889489112, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 1.2596848567644797e-05, "train/cont_pred": 0.9947292396467026, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.039088912206154, "train/dyn_loss_std": 8.661311717882548, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343816329355109, "train/extr_critic_critic_opt_grad_steps": 272520.0, "train/extr_critic_critic_opt_loss": 16103.581027932363, "train/extr_critic_mag": 10.621467041642699, "train/extr_critic_max": 10.621467041642699, "train/extr_critic_mean": 2.8399090815896857, "train/extr_critic_min": -0.41753671593862035, "train/extr_critic_std": 2.5662608473268276, "train/extr_return_normed_mag": 1.411745014255994, "train/extr_return_normed_max": 1.411745014255994, "train/extr_return_normed_mean": 0.36932075472727216, "train/extr_return_normed_min": -0.08001586667274775, "train/extr_return_normed_std": 0.323797928960356, "train/extr_return_rate": 0.7568422212992629, "train/extr_return_raw_mag": 11.220536336506882, "train/extr_return_raw_max": 11.220536336506882, "train/extr_return_raw_mean": 2.8590279588960623, "train/extr_return_raw_min": -0.7453663765567623, "train/extr_return_raw_std": 2.5970993041992188, "train/extr_reward_mag": 1.0592067927530366, "train/extr_reward_max": 1.0592067927530366, "train/extr_reward_mean": 0.057376592432799405, "train/extr_reward_min": -0.6317120235260218, "train/extr_reward_std": 0.23078113202362843, "train/image_loss_mean": 2.9963888942378842, "train/image_loss_std": 8.267834741775303, "train/model_loss_mean": 6.072740796494157, "train/model_loss_std": 12.346018072676985, "train/model_opt_grad_norm": 26.696556927406625, "train/model_opt_grad_steps": 272304.0, "train/model_opt_loss": 15181.851937071919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6352545627175945, "train/policy_entropy_max": 2.6352545627175945, "train/policy_entropy_mean": 0.40982518212436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5865345601349661, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4085174945935811, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0247538840934023, "train/policy_randomness_mag": 0.9301292153253947, "train/policy_randomness_max": 0.9301292153253947, "train/policy_randomness_mean": 0.1446503044603622, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20702095921725444, "train/post_ent_mag": 55.31833633004803, "train/post_ent_max": 55.31833633004803, "train/post_ent_mean": 41.098416733415156, "train/post_ent_min": 19.49751693255281, "train/post_ent_std": 5.57679225973887, "train/prior_ent_mag": 76.58151088348806, "train/prior_ent_max": 76.58151088348806, "train/prior_ent_mean": 46.14103395644933, "train/prior_ent_min": 28.63569458216837, "train/prior_ent_std": 7.331801747622555, "train/rep_loss_mean": 5.039088912206154, "train/rep_loss_std": 8.661311717882548, "train/reward_avg": 0.03799229429090676, "train/reward_loss_mean": 0.05287208836780836, "train/reward_loss_std": 0.20689825427858796, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0269112652295256, "train/reward_neg_acc": 0.9945813711375406, "train/reward_neg_loss": 0.022901115760411303, "train/reward_pos_acc": 0.9897835989520974, "train/reward_pos_loss": 0.7276888799993959, "train/reward_pred": 0.037685709609969024, "train/reward_rate": 0.04270119863013699, "stats/sum_log_reward": 9.322222497728136, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 1.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 10.88888888888889, "stats/max_log_achievement_collect_wood": 7.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 4.777777777777778, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3339410920937856, "replay/size": 546798.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.058936714467423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5115005206007984e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0060045719147, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.985372066497803, "timer/env.step_frac": 0.0699498401588405, "timer/env.step_avg": 0.014492660266918372, "timer/env.step_min": 0.0027484893798828125, "timer/env.step_max": 1.4895861148834229, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26068544387817383, "timer/replay.add_frac": 0.000868934087669851, "timer/replay.add_avg": 0.00018003138389376645, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0007987022399902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022567272186279297, "timer/logger.write_frac": 7.522273501985751e-05, "timer/logger.write_avg": 0.022567272186279297, "timer/logger.write_min": 0.022567272186279297, "timer/logger.write_max": 0.022567272186279297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.658506155014038, "timer/agent.policy_frac": 0.03552764275576051, "timer/agent.policy_avg": 0.007360846792136767, "timer/agent.policy_min": 0.0059661865234375, "timer/agent.policy_max": 0.014974355697631836, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06016850471496582, "timer/dataset_frac": 0.0002005576681734141, "timer/dataset_avg": 8.310566949580914e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001399517059326172, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.3862257003784, "timer/agent.train_frac": 0.891269580026966, "timer/agent.train_avg": 0.3693179912988652, "timer/agent.train_min": 0.3632848262786865, "timer/agent.train_max": 0.384324312210083, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22150731086730957, "timer/agent.report_frac": 0.0007383429247804002, "timer/agent.report_avg": 0.22150731086730957, "timer/agent.report_min": 0.22150731086730957, "timer/agent.report_max": 0.22150731086730957, "fps": 4.8264610908967915}
+{"step": 546920, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04597701149425287}
+{"step": 547300, "episode/length": 379.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.031578947368421054}
+{"step": 547460, "episode/length": 159.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.075}
+{"step": 547721, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03065134099616858}
+{"step": 547893, "episode/length": 171.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.06976744186046512}
+{"step": 548060, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
+{"step": 548333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531653835348887, "train/action_min": 0.0, "train/action_std": 3.4180259737249923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0442417332877035, "train/actor_opt_grad_steps": 273250.0, "train/actor_opt_loss": -11.93832426528408, "train/adv_mag": 0.43045577651833833, "train/adv_max": 0.3770049508303812, "train/adv_mean": 0.002409245318880469, "train/adv_min": -0.37086665099614285, "train/adv_std": 0.04917297859306205, "train/cont_avg": 0.9944483090753424, "train/cont_loss_mean": 2.8161776964958795e-05, "train/cont_loss_std": 0.0008544984939635158, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.001486479566219963, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.6957646508136313e-05, "train/cont_pred": 0.9944428132004934, "train/cont_rate": 0.9944483090753424, "train/dyn_loss_mean": 5.018643402073481, "train/dyn_loss_std": 8.668819009441219, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0679966358289326, "train/extr_critic_critic_opt_grad_steps": 273250.0, "train/extr_critic_critic_opt_loss": 16226.32387093322, "train/extr_critic_mag": 10.506120551122377, "train/extr_critic_max": 10.506120551122377, "train/extr_critic_mean": 2.9498144273888576, "train/extr_critic_min": -0.49572289316621543, "train/extr_critic_std": 2.5685832974028915, "train/extr_return_normed_mag": 1.4211744315003696, "train/extr_return_normed_max": 1.4211744315003696, "train/extr_return_normed_mean": 0.38663327857239604, "train/extr_return_normed_min": -0.09623406322239196, "train/extr_return_normed_std": 0.32621290320402957, "train/extr_return_rate": 0.7739048624691898, "train/extr_return_raw_mag": 11.227750961094687, "train/extr_return_raw_max": 11.227750961094687, "train/extr_return_raw_mean": 2.9690098860492444, "train/extr_return_raw_min": -0.8843257643588601, "train/extr_return_raw_std": 2.6036356654885697, "train/extr_reward_mag": 1.060732175226081, "train/extr_reward_max": 1.060732175226081, "train/extr_reward_mean": 0.057745816390195936, "train/extr_reward_min": -0.6782014876195829, "train/extr_reward_std": 0.23156435175301276, "train/image_loss_mean": 2.935663927091311, "train/image_loss_std": 8.057214978623064, "train/model_loss_mean": 5.999786677425855, "train/model_loss_std": 12.155040558070352, "train/model_opt_grad_norm": 29.411664427143254, "train/model_opt_grad_steps": 273033.38356164383, "train/model_opt_loss": 15628.483023865581, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.6214968962212133, "train/policy_entropy_max": 2.6214968962212133, "train/policy_entropy_mean": 0.39227310619125627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.562227386317841, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39245919434175097, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0117141196172532, "train/policy_randomness_mag": 0.9252733629043788, "train/policy_randomness_max": 0.9252733629043788, "train/policy_randomness_mean": 0.13845519394907232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19844159351228036, "train/post_ent_mag": 55.056702287229776, "train/post_ent_max": 55.056702287229776, "train/post_ent_mean": 40.96590277266829, "train/post_ent_min": 19.147573026892257, "train/post_ent_std": 5.582368837643976, "train/prior_ent_mag": 76.59206223161253, "train/prior_ent_max": 76.59206223161253, "train/prior_ent_mean": 46.02665062473245, "train/prior_ent_min": 28.32812614963479, "train/prior_ent_std": 7.344212708407885, "train/rep_loss_mean": 5.018643402073481, "train/rep_loss_std": 8.668819009441219, "train/reward_avg": 0.03680704173006832, "train/reward_loss_mean": 0.05290854706952017, "train/reward_loss_std": 0.21371419339963835, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0267246292062002, "train/reward_neg_acc": 0.9946648584653254, "train/reward_neg_loss": 0.022868378891622368, "train/reward_pos_acc": 0.9856173518585832, "train/reward_pos_loss": 0.7425195484945218, "train/reward_pred": 0.036340901934324876, "train/reward_rate": 0.04183165667808219, "stats/sum_log_reward": 9.266666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5127547259132067, "replay/size": 548270.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.048097309858903e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5180153043373772e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.221164226532, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.860254526138306, "timer/env.step_frac": 0.05615944688501839, "timer/env.step_avg": 0.011453977259604828, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.481914758682251, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2674570083618164, "timer/replay.add_frac": 0.0008908666017962898, "timer/replay.add_avg": 0.00018169633720232093, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008690357208251953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026345491409301758, "timer/logger.write_frac": 8.7753611498964e-05, "timer/logger.write_avg": 0.026345491409301758, "timer/logger.write_min": 0.026345491409301758, "timer/logger.write_max": 0.026345491409301758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.872997522354126, "timer/agent.policy_frac": 0.03621662566783567, "timer/agent.policy_avg": 0.00738654722986014, "timer/agent.policy_min": 0.00616145133972168, "timer/agent.policy_max": 0.017197132110595703, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06107473373413086, "timer/dataset_frac": 0.0002034324724956662, "timer/dataset_avg": 8.298197518224302e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015473365783691406, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.50032925605774, "timer/agent.train_frac": 0.9043344094528828, "timer/agent.train_avg": 0.3688863169239915, "timer/agent.train_min": 0.3628058433532715, "timer/agent.train_max": 0.38315415382385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22271728515625, "timer/agent.report_frac": 0.0007418440526338064, "timer/agent.report_avg": 0.22271728515625, "timer/agent.report_min": 0.22271728515625, "timer/agent.report_max": 0.22271728515625, "fps": 4.902938914669979}
+{"step": 548455, "episode/length": 394.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03291139240506329}
+{"step": 548635, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06111111111111111}
+{"step": 548759, "episode/length": 123.0, "episode/score": 10.1000000461936, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0967741935483871}
+{"step": 549174, "episode/length": 414.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02650602409638554}
+{"step": 549377, "episode/length": 202.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.054187192118226604}
+{"step": 549618, "episode/length": 240.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 11.100000023841858, "episode/reward_rate": 0.04149377593360996}
+{"step": 549765, "episode/length": 146.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.04081632653061224}
+{"step": 549773, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580202738444011, "train/action_min": 0.0, "train/action_std": 3.4602199527952404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04317151718876428, "train/actor_opt_grad_steps": 273975.0, "train/actor_opt_loss": -12.618052403985834, "train/adv_mag": 0.4342777952551842, "train/adv_max": 0.3782331728272968, "train/adv_mean": 0.002420796626867943, "train/adv_min": -0.38813178054988384, "train/adv_std": 0.048701935809933476, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 8.84926134009984e-06, "train/cont_loss_std": 0.00022071304348969534, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00033545624069120095, "train/cont_pos_acc": 0.999999974336889, "train/cont_pos_loss": 6.635476534702336e-06, "train/cont_pred": 0.9948553765813509, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.118864913781484, "train/dyn_loss_std": 8.695357349183825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735623778568373, "train/extr_critic_critic_opt_grad_steps": 273975.0, "train/extr_critic_critic_opt_loss": 16122.848470052084, "train/extr_critic_mag": 10.705555412504408, "train/extr_critic_max": 10.705555412504408, "train/extr_critic_mean": 2.86300960679849, "train/extr_critic_min": -0.4371342890792423, "train/extr_critic_std": 2.6201618479357824, "train/extr_return_normed_mag": 1.4209482537375555, "train/extr_return_normed_max": 1.4209482537375555, "train/extr_return_normed_mean": 0.37177936856945354, "train/extr_return_normed_min": -0.08764549784569277, "train/extr_return_normed_std": 0.3280375579165088, "train/extr_return_rate": 0.7482955762081676, "train/extr_return_raw_mag": 11.361212849617004, "train/extr_return_raw_max": 11.361212849617004, "train/extr_return_raw_mean": 2.882581614785724, "train/extr_return_raw_min": -0.8297498143381543, "train/extr_return_raw_std": 2.6508644885487027, "train/extr_reward_mag": 1.0504925847053528, "train/extr_reward_max": 1.0504925847053528, "train/extr_reward_mean": 0.05435557415088018, "train/extr_reward_min": -0.6363929278320737, "train/extr_reward_std": 0.22461925157242352, "train/image_loss_mean": 2.9739459405342736, "train/image_loss_std": 7.85699862241745, "train/model_loss_mean": 6.098046037885878, "train/model_loss_std": 12.01559336980184, "train/model_opt_grad_norm": 26.954918066660564, "train/model_opt_grad_steps": 273757.77777777775, "train/model_opt_loss": 15536.508599175348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6230748759375677, "train/policy_entropy_max": 2.6230748759375677, "train/policy_entropy_mean": 0.4248690323697196, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930645387205813, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4251671503815386, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.035680087076293, "train/policy_randomness_mag": 0.9258303236630228, "train/policy_randomness_max": 0.9258303236630228, "train/policy_randomness_mean": 0.14996012517561516, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2093257570846213, "train/post_ent_mag": 54.943356884850395, "train/post_ent_max": 54.943356884850395, "train/post_ent_mean": 40.95976416269938, "train/post_ent_min": 19.37413231531779, "train/post_ent_std": 5.622398886415693, "train/prior_ent_mag": 76.55807823605008, "train/prior_ent_max": 76.55807823605008, "train/prior_ent_mean": 46.09988048341539, "train/prior_ent_min": 28.484484805001152, "train/prior_ent_std": 7.441257801320818, "train/rep_loss_mean": 5.118864913781484, "train/rep_loss_std": 8.695357349183825, "train/reward_avg": 0.037771267221412726, "train/reward_loss_mean": 0.052772257632265486, "train/reward_loss_std": 0.20234296781321368, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0169241196579404, "train/reward_neg_acc": 0.9948503052194914, "train/reward_neg_loss": 0.023228809328025415, "train/reward_pos_acc": 0.9908496083484756, "train/reward_pos_loss": 0.7173209761579832, "train/reward_pred": 0.03749033262849682, "train/reward_rate": 0.042561848958333336, "stats/sum_log_reward": 9.242857319968087, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5177246332168579, "replay/size": 549710.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.0686457951863607e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.493882801797655e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26315808296204, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.387349605560303, "timer/env.step_frac": 0.06123744825357468, "timer/env.step_avg": 0.012768992781639099, "timer/env.step_min": 0.0025675296783447266, "timer/env.step_max": 1.5060205459594727, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28417229652404785, "timer/replay.add_frac": 0.0009464108029048695, "timer/replay.add_avg": 0.00019734187258614434, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0008335113525390625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028755903244018555, "timer/logger.write_frac": 9.576900285606589e-05, "timer/logger.write_avg": 0.028755903244018555, "timer/logger.write_min": 0.028755903244018555, "timer/logger.write_max": 0.028755903244018555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003821849822998047, "timer/checkpoint.save_frac": 1.2728334196571922e-06, "timer/checkpoint.save_avg": 0.0003821849822998047, "timer/checkpoint.save_min": 0.0003821849822998047, "timer/checkpoint.save_max": 0.0003821849822998047, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.241389513015747, "timer/agent.save_frac": 0.004134338428135609, "timer/agent.save_avg": 1.241389513015747, "timer/agent.save_min": 1.241389513015747, "timer/agent.save_max": 1.241389513015747, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.249282836914062e-05, "timer/replay.save_frac": 2.7473509869082254e-07, "timer/replay.save_avg": 8.249282836914062e-05, "timer/replay.save_min": 8.249282836914062e-05, "timer/replay.save_max": 8.249282836914062e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.80156660079956, "timer/agent.policy_frac": 0.04929531380173495, "timer/agent.policy_avg": 0.010278865694999695, "timer/agent.policy_min": 0.006054878234863281, "timer/agent.policy_max": 2.937546491622925, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0609431266784668, "timer/dataset_frac": 0.00020296571536634658, "timer/dataset_avg": 8.464323149787055e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0004239082336425781, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.06754970550537, "timer/agent.train_frac": 0.8861145383410358, "timer/agent.train_avg": 0.36953826347986857, "timer/agent.train_min": 0.3625361919403076, "timer/agent.train_max": 0.40117573738098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083592414855957, "timer/agent.report_frac": 0.0007354745935481805, "timer/agent.report_avg": 0.22083592414855957, "timer/agent.report_min": 0.22083592414855957, "timer/agent.report_max": 0.22083592414855957, "fps": 4.795689840277838}
+{"step": 549982, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05069124423963134}
+{"step": 550130, "episode/length": 147.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07432432432432433}
+{"step": 550168, "episode/length": 37.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.13157894736842105}
+{"step": 550484, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04113924050632911}
+{"step": 551045, "episode/length": 560.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.016042780748663103}
+{"step": 551255, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.62386095201647, "train/action_min": 0.0, "train/action_std": 3.4830276482814067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043385908435526734, "train/actor_opt_grad_steps": 274705.0, "train/actor_opt_loss": -12.761327495446077, "train/adv_mag": 0.4611481520775202, "train/adv_max": 0.40658907753390233, "train/adv_mean": 0.0025665409860242084, "train/adv_min": -0.41746609154585246, "train/adv_std": 0.04912811049537079, "train/cont_avg": 0.9948400548986487, "train/cont_loss_mean": 0.00010343150170213546, "train/cont_loss_std": 0.0032345572978811476, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.021506267522062677, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 8.246365159782334e-06, "train/cont_pred": 0.9948577373414427, "train/cont_rate": 0.9948400548986487, "train/dyn_loss_mean": 5.079606765025371, "train/dyn_loss_std": 8.72377449757344, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0473714213113527, "train/extr_critic_critic_opt_grad_steps": 274705.0, "train/extr_critic_critic_opt_loss": 16062.882984058277, "train/extr_critic_mag": 11.03705629142555, "train/extr_critic_max": 11.03705629142555, "train/extr_critic_mean": 2.866461591140644, "train/extr_critic_min": -0.4437676909807566, "train/extr_critic_std": 2.651678172317711, "train/extr_return_normed_mag": 1.4630057972830695, "train/extr_return_normed_max": 1.4630057972830695, "train/extr_return_normed_mean": 0.37003755327817556, "train/extr_return_normed_min": -0.08984913656840453, "train/extr_return_normed_std": 0.33284418727900533, "train/extr_return_rate": 0.7498751073270231, "train/extr_return_raw_mag": 11.716860229904587, "train/extr_return_raw_max": 11.716860229904587, "train/extr_return_raw_mean": 2.8872349342784367, "train/extr_return_raw_min": -0.8270712229045661, "train/extr_return_raw_std": 2.688777198662629, "train/extr_reward_mag": 1.0506324639191498, "train/extr_reward_max": 1.0506324639191498, "train/extr_reward_mean": 0.05457794016881569, "train/extr_reward_min": -0.6605237722396851, "train/extr_reward_std": 0.2260358448366861, "train/image_loss_mean": 3.1424046513196586, "train/image_loss_std": 8.366173009614688, "train/model_loss_mean": 6.242092796274133, "train/model_loss_std": 12.473069087879077, "train/model_opt_grad_norm": 28.839079289822966, "train/model_opt_grad_steps": 274486.6756756757, "train/model_opt_loss": 13114.454431482263, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2094.5945945945946, "train/policy_entropy_mag": 2.6156947387231364, "train/policy_entropy_max": 2.6156947387231364, "train/policy_entropy_mean": 0.4356000548278963, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6081976052877065, "train/policy_logprob_mag": 7.438384210741198, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4345867339823697, "train/policy_logprob_min": -7.438384210741198, "train/policy_logprob_std": 1.0430918223149068, "train/policy_randomness_mag": 0.9232254551874625, "train/policy_randomness_max": 0.9232254551874625, "train/policy_randomness_mean": 0.15374770599442558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2146670657235223, "train/post_ent_mag": 55.37710669233992, "train/post_ent_max": 55.37710669233992, "train/post_ent_mean": 41.11257754145442, "train/post_ent_min": 19.479088370864456, "train/post_ent_std": 5.646196623106261, "train/prior_ent_mag": 76.62237600378089, "train/prior_ent_max": 76.62237600378089, "train/prior_ent_mean": 46.18350410461426, "train/prior_ent_min": 28.52239180899955, "train/prior_ent_std": 7.420377563785863, "train/rep_loss_mean": 5.079606765025371, "train/rep_loss_std": 8.72377449757344, "train/reward_avg": 0.03660525731440332, "train/reward_loss_mean": 0.051820637406529604, "train/reward_loss_std": 0.20152350494990479, "train/reward_max_data": 1.0148648684089248, "train/reward_max_pred": 1.0145865259943783, "train/reward_neg_acc": 0.9944506706418218, "train/reward_neg_loss": 0.02254953164909337, "train/reward_pos_acc": 0.9854948343457403, "train/reward_pos_loss": 0.7290729646747177, "train/reward_pred": 0.03635473275003401, "train/reward_rate": 0.04154349662162162, "stats/sum_log_reward": 8.700000286102295, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 12.4, "stats/max_log_achievement_collect_wood": 7.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.69071164727211, "replay/size": 551192.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.0572919549568785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5351011363761788e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12179374694824, "timer/env.step_count": 1482.0, "timer/env.step_total": 14.996474742889404, "timer/env.step_frac": 0.0499679631914165, "timer/env.step_avg": 0.01011907877387949, "timer/env.step_min": 0.0023393630981445312, "timer/env.step_max": 1.4448914527893066, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.2763392925262451, "timer/replay.add_frac": 0.0009207571668695421, "timer/replay.add_avg": 0.00018646376013916675, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0013103485107421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02247905731201172, "timer/logger.write_frac": 7.489978328919772e-05, "timer/logger.write_avg": 0.02247905731201172, "timer/logger.write_min": 0.02247905731201172, "timer/logger.write_max": 0.02247905731201172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 10.920970916748047, "timer/agent.policy_frac": 0.03638846343147013, "timer/agent.policy_avg": 0.007369076192137684, "timer/agent.policy_min": 0.005968332290649414, "timer/agent.policy_max": 0.01868748664855957, "timer/dataset_count": 741.0, "timer/dataset_total": 0.06217837333679199, "timer/dataset_frac": 0.000207177134857519, "timer/dataset_avg": 8.391143500241834e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0002772808074951172, "timer/agent.train_count": 741.0, "timer/agent.train_total": 273.2046580314636, "timer/agent.train_frac": 0.9103126254863712, "timer/agent.train_avg": 0.36869724430696843, "timer/agent.train_min": 0.36186695098876953, "timer/agent.train_max": 0.38622164726257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.224531888961792, "timer/agent.report_frac": 0.0007481359022900852, "timer/agent.report_avg": 0.224531888961792, "timer/agent.report_min": 0.224531888961792, "timer/agent.report_max": 0.224531888961792, "fps": 4.937882311395997}
+{"step": 551408, "episode/length": 362.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.03305785123966942}
+{"step": 551607, "episode/length": 198.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.07035175879396985}
+{"step": 551845, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.0546218487394958}
+{"step": 552000, "episode/length": 154.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06451612903225806}
+{"step": 552193, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03626943005181347}
+{"step": 552481, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04513888888888889}
+{"step": 552731, "episode/length": 249.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.100000008940697, "episode/reward_rate": 0.04}
+{"step": 552735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476712613492398, "train/action_min": 0.0, "train/action_std": 3.3917954515766455, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043626355510708446, "train/actor_opt_grad_steps": 275445.0, "train/actor_opt_loss": -13.203210314484062, "train/adv_mag": 0.43228384208034826, "train/adv_max": 0.38722044511421305, "train/adv_mean": 0.0025889879094098136, "train/adv_min": -0.3620740314190452, "train/adv_std": 0.04911132952248728, "train/cont_avg": 0.994457347972973, "train/cont_loss_mean": 3.06234169870949e-05, "train/cont_loss_std": 0.0008520809653689228, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003803171716523704, "train/cont_pos_acc": 0.9999867629360508, "train/cont_pos_loss": 2.8586402451234614e-05, "train/cont_pred": 0.9944372233506795, "train/cont_rate": 0.994457347972973, "train/dyn_loss_mean": 5.10816925280803, "train/dyn_loss_std": 8.72367134609738, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.080697401149853, "train/extr_critic_critic_opt_grad_steps": 275445.0, "train/extr_critic_critic_opt_loss": 16145.044552364865, "train/extr_critic_mag": 10.886381922541437, "train/extr_critic_max": 10.886381922541437, "train/extr_critic_mean": 2.936003034179275, "train/extr_critic_min": -0.45563779489414113, "train/extr_critic_std": 2.6429452122868717, "train/extr_return_normed_mag": 1.4324455051808744, "train/extr_return_normed_max": 1.4324455051808744, "train/extr_return_normed_mean": 0.3747780367329314, "train/extr_return_normed_min": -0.08568631817360182, "train/extr_return_normed_std": 0.3299641903187778, "train/extr_return_rate": 0.7704814591923276, "train/extr_return_raw_mag": 11.55131803976523, "train/extr_return_raw_max": 11.55131803976523, "train/extr_return_raw_mean": 2.9570238622459204, "train/extr_return_raw_min": -0.7844644901720254, "train/extr_return_raw_std": 2.6810646894815804, "train/extr_reward_mag": 1.0518581996092926, "train/extr_reward_max": 1.0518581996092926, "train/extr_reward_mean": 0.056103403201779804, "train/extr_reward_min": -0.6337803054500271, "train/extr_reward_std": 0.22832010706534256, "train/image_loss_mean": 3.0713330233419263, "train/image_loss_std": 8.182344887707684, "train/model_loss_mean": 6.187492203068089, "train/model_loss_std": 12.284121835553968, "train/model_opt_grad_norm": 30.943531448776657, "train/model_opt_grad_steps": 275226.0, "train/model_opt_loss": 7734.365240973395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.620752424807162, "train/policy_entropy_max": 2.620752424807162, "train/policy_entropy_mean": 0.41145128857445074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5881659557690492, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41123967980210846, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.027116446881681, "train/policy_randomness_mag": 0.9250105957727175, "train/policy_randomness_max": 0.9250105957727175, "train/policy_randomness_mean": 0.14522425045032758, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.207596774640921, "train/post_ent_mag": 55.223999951336836, "train/post_ent_max": 55.223999951336836, "train/post_ent_mean": 40.96642226141852, "train/post_ent_min": 19.353805889954437, "train/post_ent_std": 5.650383807517387, "train/prior_ent_mag": 76.66368185507285, "train/prior_ent_max": 76.66368185507285, "train/prior_ent_mean": 46.073938730600716, "train/prior_ent_min": 28.50012562725995, "train/prior_ent_std": 7.465371937365146, "train/rep_loss_mean": 5.10816925280803, "train/rep_loss_std": 8.72367134609738, "train/reward_avg": 0.03579365454513479, "train/reward_loss_mean": 0.051226971217909374, "train/reward_loss_std": 0.20217609163877126, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0161205626822807, "train/reward_neg_acc": 0.9947702707471074, "train/reward_neg_loss": 0.022717467836431554, "train/reward_pos_acc": 0.9876286169967136, "train/reward_pos_loss": 0.7277216677730148, "train/reward_pred": 0.035500938752414404, "train/reward_rate": 0.04052734375, "stats/sum_log_reward": 9.957143170492989, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5279116140944617, "replay/size": 552672.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.005040658486856e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4708050199457117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12394618988037, "timer/env.step_count": 1480.0, "timer/env.step_total": 17.009629487991333, "timer/env.step_frac": 0.056675349314612156, "timer/env.step_avg": 0.011492992897291441, "timer/env.step_min": 0.0024237632751464844, "timer/env.step_max": 1.287771224975586, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.2624225616455078, "timer/replay.add_frac": 0.0008743806183312014, "timer/replay.add_avg": 0.00017731254165237015, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008449554443359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02089095115661621, "timer/logger.write_frac": 6.960774513940007e-05, "timer/logger.write_avg": 0.02089095115661621, "timer/logger.write_min": 0.02089095115661621, "timer/logger.write_max": 0.02089095115661621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.722254037857056, "timer/agent.policy_frac": 0.0357260864185538, "timer/agent.policy_avg": 0.007244766241795308, "timer/agent.policy_min": 0.0058438777923583984, "timer/agent.policy_max": 0.01626753807067871, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05793404579162598, "timer/dataset_frac": 0.00019303373331954211, "timer/dataset_avg": 7.828925106976483e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.4270465373993, "timer/agent.train_frac": 0.9043831722966706, "timer/agent.train_avg": 0.36679330613162064, "timer/agent.train_min": 0.3606090545654297, "timer/agent.train_max": 0.3851664066314697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2243187427520752, "timer/agent.report_frac": 0.0007474203428278087, "timer/agent.report_avg": 0.2243187427520752, "timer/agent.report_min": 0.2243187427520752, "timer/agent.report_max": 0.2243187427520752, "fps": 4.93118682360414}
+{"step": 552951, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06363636363636363}
+{"step": 553119, "episode/length": 167.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06547619047619048}
+{"step": 553357, "episode/length": 237.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.0546218487394958}
+{"step": 553415, "episode/length": 57.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08620689655172414}
+{"step": 553575, "episode/length": 159.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 553761, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
+{"step": 553924, "episode/length": 162.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08588957055214724}
+{"step": 554053, "episode/length": 128.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07751937984496124}
+{"step": 554146, "episode/length": 92.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.11827956989247312}
+{"step": 554181, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.569655326947774, "train/action_min": 0.0, "train/action_std": 3.4627536910853975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043618793816190875, "train/actor_opt_grad_steps": 276180.0, "train/actor_opt_loss": -13.746110816524453, "train/adv_mag": 0.4534497236552304, "train/adv_max": 0.4108704512249933, "train/adv_mean": 0.0019603419416242803, "train/adv_min": -0.3893077361257109, "train/adv_std": 0.04982498778055792, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 0.00016419343167754425, "train/cont_loss_std": 0.005146283684291419, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.02870577738564053, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 6.085890359992396e-06, "train/cont_pred": 0.9942431000814046, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 5.136070747898049, "train/dyn_loss_std": 8.693534949054456, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0942248620399058, "train/extr_critic_critic_opt_grad_steps": 276180.0, "train/extr_critic_critic_opt_loss": 16099.036386986301, "train/extr_critic_mag": 10.91624512084543, "train/extr_critic_max": 10.91624512084543, "train/extr_critic_mean": 2.8851813110586715, "train/extr_critic_min": -0.4508765674617192, "train/extr_critic_std": 2.652717890804761, "train/extr_return_normed_mag": 1.4580196174856734, "train/extr_return_normed_max": 1.4580196174856734, "train/extr_return_normed_mean": 0.3693021511378354, "train/extr_return_normed_min": -0.089382275428674, "train/extr_return_normed_std": 0.3320613293206855, "train/extr_return_rate": 0.7567414429089795, "train/extr_return_raw_mag": 11.697078939986556, "train/extr_return_raw_max": 11.697078939986556, "train/extr_return_raw_mean": 2.901018312532608, "train/extr_return_raw_min": -0.8052457566947153, "train/extr_return_raw_std": 2.683056222249384, "train/extr_reward_mag": 1.0514919398582145, "train/extr_reward_max": 1.0514919398582145, "train/extr_reward_mean": 0.05477261997453154, "train/extr_reward_min": -0.6792321515409914, "train/extr_reward_std": 0.22627058421095755, "train/image_loss_mean": 3.061314968213643, "train/image_loss_std": 7.879689281933929, "train/model_loss_mean": 6.194904320860562, "train/model_loss_std": 12.016189503343139, "train/model_opt_grad_norm": 28.261191080694328, "train/model_opt_grad_steps": 275960.8219178082, "train/model_opt_loss": 13863.101896939212, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2243.150684931507, "train/policy_entropy_mag": 2.616331015547661, "train/policy_entropy_max": 2.616331015547661, "train/policy_entropy_mean": 0.42053469280674033, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5947415861364913, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.421956648361193, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.037372458471011, "train/policy_randomness_mag": 0.9234500331421421, "train/policy_randomness_max": 0.9234500331421421, "train/policy_randomness_mean": 0.14843029212461759, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.209917679939368, "train/post_ent_mag": 55.1684711926604, "train/post_ent_max": 55.1684711926604, "train/post_ent_mean": 41.01207733154297, "train/post_ent_min": 19.375271052530366, "train/post_ent_std": 5.6708414652576185, "train/prior_ent_mag": 76.56908552613977, "train/prior_ent_max": 76.56908552613977, "train/prior_ent_mean": 46.18220880586807, "train/prior_ent_min": 28.21623668931935, "train/prior_ent_std": 7.493465743652762, "train/rep_loss_mean": 5.136070747898049, "train/rep_loss_std": 8.693534949054456, "train/reward_avg": 0.035504066551180734, "train/reward_loss_mean": 0.05178275086904225, "train/reward_loss_std": 0.2042669657975027, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0175786410292533, "train/reward_neg_acc": 0.9944603786076585, "train/reward_neg_loss": 0.023390515209877328, "train/reward_pos_acc": 0.9863080137396512, "train/reward_pos_loss": 0.7250396666461474, "train/reward_pred": 0.03539950210499029, "train/reward_rate": 0.040534032534246575, "stats/sum_log_reward": 9.766666677263048, "stats/max_log_achievement_collect_coal": 1.1111111111111112, "stats/max_log_achievement_collect_drink": 2.111111111111111, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 8.333333333333334, "stats/max_log_achievement_collect_wood": 8.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 0.5555555555555556, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.2835428085592058, "replay/size": 554118.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 2.997050146838936e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4716493967987526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19405794143677, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.610522508621216, "timer/env.step_frac": 0.0653261515004635, "timer/env.step_avg": 0.01356191044856239, "timer/env.step_min": 0.0023949146270751953, "timer/env.step_max": 1.297135829925537, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26985907554626465, "timer/replay.add_frac": 0.0008989487580027649, "timer/replay.add_avg": 0.00018662453357279712, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008244514465332031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019589662551879883, "timer/logger.write_frac": 6.525666326047508e-05, "timer/logger.write_avg": 0.019589662551879883, "timer/logger.write_min": 0.019589662551879883, "timer/logger.write_max": 0.019589662551879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042819976806640625, "timer/checkpoint.save_frac": 1.42640987300935e-06, "timer/checkpoint.save_avg": 0.00042819976806640625, "timer/checkpoint.save_min": 0.00042819976806640625, "timer/checkpoint.save_max": 0.00042819976806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.689483404159546, "timer/agent.save_frac": 0.00562797083908016, "timer/agent.save_avg": 1.689483404159546, "timer/agent.save_min": 1.689483404159546, "timer/agent.save_max": 1.689483404159546, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010228157043457031, "timer/replay.save_frac": 3.407181712255073e-07, "timer/replay.save_avg": 0.00010228157043457031, "timer/replay.save_min": 0.00010228157043457031, "timer/replay.save_max": 0.00010228157043457031, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 14.40203070640564, "timer/agent.policy_frac": 0.047975735446486596, "timer/agent.policy_avg": 0.009959910585342766, "timer/agent.policy_min": 0.005906581878662109, "timer/agent.policy_max": 2.361146926879883, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05669903755187988, "timer/dataset_frac": 0.00018887461644207824, "timer/dataset_avg": 7.842190532763469e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 723.0, "timer/agent.train_total": 265.22076869010925, "timer/agent.train_frac": 0.883497729798002, "timer/agent.train_avg": 0.36683370496557294, "timer/agent.train_min": 0.3572394847869873, "timer/agent.train_max": 0.40775465965270996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22199296951293945, "timer/agent.report_frac": 0.000739498213373187, "timer/agent.report_avg": 0.22199296951293945, "timer/agent.report_min": 0.22199296951293945, "timer/agent.report_max": 0.22199296951293945, "fps": 4.816774859002325}
+{"step": 554349, "episode/length": 202.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06403940886699508}
+{"step": 554519, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07058823529411765}
+{"step": 554704, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05945945945945946}
+{"step": 554866, "episode/length": 161.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06790123456790123}
+{"step": 555014, "episode/length": 147.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08108108108108109}
+{"step": 555255, "episode/length": 240.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.04979253112033195}
+{"step": 555420, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.06060606060606061}
+{"step": 555651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500213204997859, "train/action_min": 0.0, "train/action_std": 3.4149283121709955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04361557291999255, "train/actor_opt_grad_steps": 276910.0, "train/actor_opt_loss": -13.471194219303458, "train/adv_mag": 0.46363733810921237, "train/adv_max": 0.4097184110177706, "train/adv_mean": 0.0021821490563898767, "train/adv_min": -0.41770845365850895, "train/adv_std": 0.050189581788974265, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 2.1017457961168115e-05, "train/cont_loss_std": 0.0006357227093618249, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00045586531376862346, "train/cont_pos_acc": 0.9999865383318026, "train/cont_pos_loss": 1.8116089000023772e-05, "train/cont_pred": 0.994731993707892, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.236966387866294, "train/dyn_loss_std": 8.80830483240624, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0838295172338617, "train/extr_critic_critic_opt_grad_steps": 276910.0, "train/extr_critic_critic_opt_loss": 16192.796018835616, "train/extr_critic_mag": 11.11507239407056, "train/extr_critic_max": 11.11507239407056, "train/extr_critic_mean": 2.86473060960639, "train/extr_critic_min": -0.4008388764237704, "train/extr_critic_std": 2.6553223818948823, "train/extr_return_normed_mag": 1.4768781302726433, "train/extr_return_normed_max": 1.4768781302726433, "train/extr_return_normed_mean": 0.36538432069020726, "train/extr_return_normed_min": -0.08414815876581898, "train/extr_return_normed_std": 0.3328077207281165, "train/extr_return_rate": 0.750163246507514, "train/extr_return_raw_mag": 11.879692600197988, "train/extr_return_raw_max": 11.879692600197988, "train/extr_return_raw_mean": 2.8823944313885415, "train/extr_return_raw_min": -0.7559656582466544, "train/extr_return_raw_std": 2.6935592873455727, "train/extr_reward_mag": 1.0580781975837603, "train/extr_reward_max": 1.0580781975837603, "train/extr_reward_mean": 0.0550931077195357, "train/extr_reward_min": -0.6393278102352195, "train/extr_reward_std": 0.2261774917579677, "train/image_loss_mean": 3.198131182422377, "train/image_loss_std": 8.411588028685687, "train/model_loss_mean": 6.392266671951503, "train/model_loss_std": 12.59196768721489, "train/model_opt_grad_norm": 34.8739728796972, "train/model_opt_grad_steps": 276689.6438356164, "train/model_opt_loss": 6549.718903842037, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1027.3972602739725, "train/policy_entropy_mag": 2.6194013863393706, "train/policy_entropy_max": 2.6194013863393706, "train/policy_entropy_mean": 0.4188792287078622, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.596487579688634, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4190140133851195, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0352889536178276, "train/policy_randomness_mag": 0.9245337435643967, "train/policy_randomness_max": 0.9245337435643967, "train/policy_randomness_mean": 0.14784598513825298, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2105339381792774, "train/post_ent_mag": 54.964045171868314, "train/post_ent_max": 54.964045171868314, "train/post_ent_mean": 40.90126513128411, "train/post_ent_min": 19.34500064588573, "train/post_ent_std": 5.627519862292564, "train/prior_ent_mag": 76.52775291547384, "train/prior_ent_max": 76.52775291547384, "train/prior_ent_mean": 46.15823510574968, "train/prior_ent_min": 28.616054848448872, "train/prior_ent_std": 7.426433543636374, "train/rep_loss_mean": 5.236966387866294, "train/rep_loss_std": 8.80830483240624, "train/reward_avg": 0.03672276299497853, "train/reward_loss_mean": 0.05193466050167606, "train/reward_loss_std": 0.20177490947997734, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0266309796947322, "train/reward_neg_acc": 0.9940975928959781, "train/reward_neg_loss": 0.023004980158213884, "train/reward_pos_acc": 0.9908432789044838, "train/reward_pos_loss": 0.7207467343709241, "train/reward_pred": 0.03666920901263413, "train/reward_rate": 0.04139019691780822, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3029392787388393, "replay/size": 555588.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.130906293181335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4571511015600088e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1724543571472, "timer/env.step_count": 1470.0, "timer/env.step_total": 17.67770528793335, "timer/env.step_frac": 0.05889183045057258, "timer/env.step_avg": 0.012025649855736972, "timer/env.step_min": 0.002478361129760742, "timer/env.step_max": 1.6187739372253418, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2658073902130127, "timer/replay.add_frac": 0.0008855155972997884, "timer/replay.add_avg": 0.00018082135388640318, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.003936767578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021785259246826172, "timer/logger.write_frac": 7.257581077344933e-05, "timer/logger.write_avg": 0.021785259246826172, "timer/logger.write_min": 0.021785259246826172, "timer/logger.write_max": 0.021785259246826172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.717875957489014, "timer/agent.policy_frac": 0.03570572783049844, "timer/agent.policy_avg": 0.007291072079924499, "timer/agent.policy_min": 0.005910396575927734, "timer/agent.policy_max": 0.016324281692504883, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059885263442993164, "timer/dataset_frac": 0.00019950286101782434, "timer/dataset_avg": 8.147654890203151e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0002760887145996094, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.7985517978668, "timer/agent.train_frac": 0.9021432442154365, "timer/agent.train_avg": 0.36843340380662154, "timer/agent.train_min": 0.36028313636779785, "timer/agent.train_max": 0.3852269649505615, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22082757949829102, "timer/agent.report_frac": 0.0007356690338932595, "timer/agent.report_avg": 0.22082757949829102, "timer/agent.report_min": 0.22082757949829102, "timer/agent.report_max": 0.22082757949829102, "fps": 4.897077004856301}
+{"step": 555722, "episode/length": 301.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.04304635761589404}
+{"step": 555905, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
+{"step": 556197, "episode/length": 291.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04452054794520548}
+{"step": 556389, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0625}
+{"step": 556534, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07586206896551724}
+{"step": 556645, "episode/length": 110.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0990990990990991}
+{"step": 556830, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04864864864864865}
+{"step": 557087, "episode/length": 256.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03501945525291829}
+{"step": 557099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586689152129709, "train/action_min": 0.0, "train/action_std": 3.496434499139655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043643513617858495, "train/actor_opt_grad_steps": 277640.0, "train/actor_opt_loss": -8.589363434135098, "train/adv_mag": 0.44748260917728894, "train/adv_max": 0.3994483633400643, "train/adv_mean": 0.0031712867115458398, "train/adv_min": -0.3726539093337647, "train/adv_std": 0.04938507416885193, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 0.0001216039036707309, "train/cont_loss_std": 0.0038029198868066673, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.018491045311759068, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.3417476505120335e-05, "train/cont_pred": 0.9949441854267904, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.204247794739188, "train/dyn_loss_std": 8.728289016305585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.072292590794498, "train/extr_critic_critic_opt_grad_steps": 277640.0, "train/extr_critic_critic_opt_loss": 16291.57075395976, "train/extr_critic_mag": 10.849778684851241, "train/extr_critic_max": 10.849778684851241, "train/extr_critic_mean": 2.8865331982913083, "train/extr_critic_min": -0.4391090151381819, "train/extr_critic_std": 2.6476542933346474, "train/extr_return_normed_mag": 1.4200479314751822, "train/extr_return_normed_max": 1.4200479314751822, "train/extr_return_normed_mean": 0.3639587976344644, "train/extr_return_normed_min": -0.08564536329613973, "train/extr_return_normed_std": 0.3281568962417237, "train/extr_return_rate": 0.7582798641021937, "train/extr_return_raw_mag": 11.559250531131275, "train/extr_return_raw_max": 11.559250531131275, "train/extr_return_raw_mean": 2.912444818509768, "train/extr_return_raw_min": -0.7703163117578585, "train/extr_return_raw_std": 2.6867736790278185, "train/extr_reward_mag": 1.0607710276564506, "train/extr_reward_max": 1.0607710276564506, "train/extr_reward_mean": 0.05633229591360647, "train/extr_reward_min": -0.6329962047812057, "train/extr_reward_std": 0.22854577964299347, "train/image_loss_mean": 3.130825457507617, "train/image_loss_std": 8.094767021806273, "train/model_loss_mean": 6.304940289014007, "train/model_loss_std": 12.181445474493993, "train/model_opt_grad_norm": 28.840761563549304, "train/model_opt_grad_steps": 277419.0, "train/model_opt_loss": 3940.5876832726885, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.6469765264694005, "train/policy_entropy_max": 2.6469765264694005, "train/policy_entropy_mean": 0.4100136256789508, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5841156750509183, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.410525964139259, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0306176453420561, "train/policy_randomness_mag": 0.9342665517166869, "train/policy_randomness_max": 0.9342665517166869, "train/policy_randomness_mean": 0.14471681885523338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20616720065678637, "train/post_ent_mag": 55.25111519800473, "train/post_ent_max": 55.25111519800473, "train/post_ent_mean": 40.931844423895015, "train/post_ent_min": 19.235384470795932, "train/post_ent_std": 5.67266706571187, "train/prior_ent_mag": 76.70392796764635, "train/prior_ent_max": 76.70392796764635, "train/prior_ent_mean": 46.18038511929447, "train/prior_ent_min": 28.755986592541003, "train/prior_ent_std": 7.477689814894167, "train/rep_loss_mean": 5.204247794739188, "train/rep_loss_std": 8.728289016305585, "train/reward_avg": 0.03563650455070685, "train/reward_loss_mean": 0.05144454036163141, "train/reward_loss_std": 0.20173758247943774, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.016391636574105, "train/reward_neg_acc": 0.9943935397553118, "train/reward_neg_loss": 0.022815359424646586, "train/reward_pos_acc": 0.9868438178545809, "train/reward_pos_loss": 0.732112418298852, "train/reward_pred": 0.03535242391469544, "train/reward_rate": 0.040373501712328765, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 11.875, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4074584413319826, "replay/size": 557036.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.0867631922769282e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.473074459897879e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1424412727356, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.66135048866272, "timer/env.step_frac": 0.06883848349153665, "timer/env.step_avg": 0.014268888459021216, "timer/env.step_min": 0.002905607223510742, "timer/env.step_max": 1.6968603134155273, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2694385051727295, "timer/replay.add_frac": 0.0008977021178017745, "timer/replay.add_avg": 0.00018607631572702314, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.004398822784423828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027921676635742188, "timer/logger.write_frac": 9.302808532289547e-05, "timer/logger.write_avg": 0.027921676635742188, "timer/logger.write_min": 0.027921676635742188, "timer/logger.write_max": 0.027921676635742188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.84826135635376, "timer/agent.policy_frac": 0.03614371000099944, "timer/agent.policy_avg": 0.007491893201901768, "timer/agent.policy_min": 0.006099700927734375, "timer/agent.policy_max": 0.017154455184936523, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06007671356201172, "timer/dataset_frac": 0.00020016067473583576, "timer/dataset_avg": 8.29788861353753e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0002071857452392578, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.6391348838806, "timer/agent.train_frac": 0.8917070633162484, "timer/agent.train_avg": 0.3696673133755257, "timer/agent.train_min": 0.362246036529541, "timer/agent.train_max": 0.3833606243133545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22143125534057617, "timer/agent.report_frac": 0.0007377538957889811, "timer/agent.report_avg": 0.22143125534057617, "timer/agent.report_min": 0.22143125534057617, "timer/agent.report_max": 0.22143125534057617, "fps": 4.824268977098179}
+{"step": 557271, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.059782608695652176}
+{"step": 557438, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0718562874251497}
+{"step": 557583, "episode/length": 144.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.06206896551724138}
+{"step": 557761, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06741573033707865}
+{"step": 557945, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
+{"step": 558102, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07006369426751592}
+{"step": 558311, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05741626794258373}
+{"step": 558475, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
+{"step": 558537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529247015294894, "train/action_min": 0.0, "train/action_std": 3.4140449644814077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04248799239350876, "train/actor_opt_grad_steps": 278360.0, "train/actor_opt_loss": -13.064551998087218, "train/adv_mag": 0.4370554761147835, "train/adv_max": 0.3770981187551794, "train/adv_mean": 0.002021533757317844, "train/adv_min": -0.388541772751741, "train/adv_std": 0.04865798181001569, "train/cont_avg": 0.9946220290492958, "train/cont_loss_mean": 1.795161479558886e-05, "train/cont_loss_std": 0.00046437305456547494, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.874322272256469e-05, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 1.7545915470187012e-05, "train/cont_pred": 0.994606336237679, "train/cont_rate": 0.9946220290492958, "train/dyn_loss_mean": 5.073317030785789, "train/dyn_loss_std": 8.754534895990936, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0389838646835006, "train/extr_critic_critic_opt_grad_steps": 278360.0, "train/extr_critic_critic_opt_loss": 16222.874449823943, "train/extr_critic_mag": 10.982888570973572, "train/extr_critic_max": 10.982888570973572, "train/extr_critic_mean": 2.9390099753796215, "train/extr_critic_min": -0.45481210359385316, "train/extr_critic_std": 2.684444397268161, "train/extr_return_normed_mag": 1.4291935168521506, "train/extr_return_normed_max": 1.4291935168521506, "train/extr_return_normed_mean": 0.36712444668084804, "train/extr_return_normed_min": -0.08777224303970874, "train/extr_return_normed_std": 0.32825811396182425, "train/extr_return_rate": 0.7556888620618364, "train/extr_return_raw_mag": 11.749937903713173, "train/extr_return_raw_max": 11.749937903713173, "train/extr_return_raw_mean": 2.955743470662077, "train/extr_return_raw_min": -0.8124105300701839, "train/extr_return_raw_std": 2.7183906964852778, "train/extr_reward_mag": 1.0532438788615481, "train/extr_reward_max": 1.0532438788615481, "train/extr_reward_mean": 0.05509198651137486, "train/extr_reward_min": -0.6800935436302508, "train/extr_reward_std": 0.2268040247366462, "train/image_loss_mean": 2.9688773390272973, "train/image_loss_std": 8.243232344237851, "train/model_loss_mean": 6.0670707796660945, "train/model_loss_std": 12.395843438699211, "train/model_opt_grad_norm": 27.72499727867019, "train/model_opt_grad_steps": 278139.0, "train/model_opt_loss": 7529.963096941021, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1241.1971830985915, "train/policy_entropy_mag": 2.6208224934591375, "train/policy_entropy_max": 2.6208224934591375, "train/policy_entropy_mean": 0.39561716561586086, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5696135830711311, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39655602104227305, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0190226015910295, "train/policy_randomness_mag": 0.9250353272532074, "train/policy_randomness_max": 0.9250353272532074, "train/policy_randomness_mean": 0.13963550087851537, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2010485955946882, "train/post_ent_mag": 54.977433916548605, "train/post_ent_max": 54.977433916548605, "train/post_ent_mean": 40.890376399940166, "train/post_ent_min": 19.477692845841528, "train/post_ent_std": 5.611037019272925, "train/prior_ent_mag": 76.5648686583613, "train/prior_ent_max": 76.5648686583613, "train/prior_ent_mean": 46.005371953400086, "train/prior_ent_min": 28.910043206013423, "train/prior_ent_std": 7.428715940932153, "train/rep_loss_mean": 5.073317030785789, "train/rep_loss_std": 8.754534895990936, "train/reward_avg": 0.036614216260716946, "train/reward_loss_mean": 0.0541853418862316, "train/reward_loss_std": 0.2145328313951761, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0216830330835263, "train/reward_neg_acc": 0.9942046739685704, "train/reward_neg_loss": 0.02454301215131098, "train/reward_pos_acc": 0.9860918840891878, "train/reward_pos_loss": 0.7390015561815718, "train/reward_pred": 0.03635192979914202, "train/reward_rate": 0.04156580105633803, "stats/sum_log_reward": 9.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.75, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.24384840950369835, "replay/size": 558474.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.1551499028530838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4618474352840588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.98993253707886, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.05486249923706, "timer/env.step_frac": 0.06351833989256248, "timer/env.step_avg": 0.013250947495992392, "timer/env.step_min": 0.0025033950805664062, "timer/env.step_max": 1.5459892749786377, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3034975528717041, "timer/replay.add_frac": 0.0010116924601601145, "timer/replay.add_avg": 0.00021105532188574693, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008058547973632812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03092479705810547, "timer/logger.write_frac": 0.00010308611624586152, "timer/logger.write_avg": 0.03092479705810547, "timer/logger.write_min": 0.03092479705810547, "timer/logger.write_max": 0.03092479705810547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004189014434814453, "timer/checkpoint.save_frac": 1.3963850051190266e-06, "timer/checkpoint.save_avg": 0.0004189014434814453, "timer/checkpoint.save_min": 0.0004189014434814453, "timer/checkpoint.save_max": 0.0004189014434814453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3525111675262451, "timer/agent.save_frac": 0.0045085218563428765, "timer/agent.save_avg": 1.3525111675262451, "timer/agent.save_min": 1.3525111675262451, "timer/agent.save_max": 1.3525111675262451, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.3882598876953125e-05, "timer/replay.save_frac": 1.7961469047063178e-07, "timer/replay.save_avg": 5.3882598876953125e-05, "timer/replay.save_min": 5.3882598876953125e-05, "timer/replay.save_max": 5.3882598876953125e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.942872047424316, "timer/agent.policy_frac": 0.03981090947426435, "timer/agent.policy_avg": 0.008305196138681721, "timer/agent.policy_min": 0.0058841705322265625, "timer/agent.policy_max": 1.353039264678955, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058365583419799805, "timer/dataset_frac": 0.00019455847376673483, "timer/dataset_avg": 8.1176054825869e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.973073720932, "timer/agent.train_frac": 0.8932735557311092, "timer/agent.train_avg": 0.37270246692758274, "timer/agent.train_min": 0.3610570430755615, "timer/agent.train_max": 3.14137864112854, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22237205505371094, "timer/agent.report_frac": 0.0007412650590406919, "timer/agent.report_avg": 0.22237205505371094, "timer/agent.report_min": 0.22237205505371094, "timer/agent.report_max": 0.22237205505371094, "fps": 4.793386962653526}
+{"step": 558665, "episode/length": 189.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 12.69999998062849, "episode/reward_rate": 0.06842105263157895}
+{"step": 559089, "episode/length": 423.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.025943396226415096}
+{"step": 559284, "episode/length": 194.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06153846153846154}
+{"step": 559465, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0718232044198895}
+{"step": 559654, "episode/length": 188.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.0582010582010582}
+{"step": 559877, "episode/length": 222.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05829596412556054}
+{"step": 560015, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598669928473395, "train/action_min": 0.0, "train/action_std": 3.4749108875120007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042743226035019836, "train/actor_opt_grad_steps": 279085.0, "train/actor_opt_loss": -11.854885732805407, "train/adv_mag": 0.414486829896231, "train/adv_max": 0.36280955454787694, "train/adv_mean": 0.0019611475607333078, "train/adv_min": -0.37201340516676773, "train/adv_std": 0.04789963394806192, "train/cont_avg": 0.9947608741554054, "train/cont_loss_mean": 5.084008413758523e-05, "train/cont_loss_std": 0.0015634837794977644, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015529100517679777, "train/cont_pos_acc": 0.999986651781443, "train/cont_pos_loss": 5.045726923290849e-05, "train/cont_pred": 0.9947447374060348, "train/cont_rate": 0.9947608741554054, "train/dyn_loss_mean": 5.204377963736251, "train/dyn_loss_std": 8.825196343499261, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0280258244759328, "train/extr_critic_critic_opt_grad_steps": 279085.0, "train/extr_critic_critic_opt_loss": 15946.758393158783, "train/extr_critic_mag": 10.73785263783223, "train/extr_critic_max": 10.73785263783223, "train/extr_critic_mean": 2.8577076583295256, "train/extr_critic_min": -0.43094444435995977, "train/extr_critic_std": 2.642628830832404, "train/extr_return_normed_mag": 1.4224945628965222, "train/extr_return_normed_max": 1.4224945628965222, "train/extr_return_normed_mean": 0.3661514307196076, "train/extr_return_normed_min": -0.0826910620907674, "train/extr_return_normed_std": 0.32845350858327504, "train/extr_return_rate": 0.7364865267598951, "train/extr_return_raw_mag": 11.455720837051803, "train/extr_return_raw_max": 11.455720837051803, "train/extr_return_raw_mean": 2.873619472658312, "train/extr_return_raw_min": -0.7738833745589128, "train/extr_return_raw_std": 2.6687913134291366, "train/extr_reward_mag": 1.0491374312220394, "train/extr_reward_max": 1.0491374312220394, "train/extr_reward_mean": 0.05515346394197361, "train/extr_reward_min": -0.6514862421396617, "train/extr_reward_std": 0.22602129546371666, "train/image_loss_mean": 3.2362040458498775, "train/image_loss_std": 8.377001150234326, "train/model_loss_mean": 6.412495110486005, "train/model_loss_std": 12.55586658941733, "train/model_opt_grad_norm": 28.444567409721582, "train/model_opt_grad_steps": 278864.0, "train/model_opt_loss": 12901.70680690456, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1993.2432432432433, "train/policy_entropy_mag": 2.641559968123565, "train/policy_entropy_max": 2.641559968123565, "train/policy_entropy_mean": 0.4427273537258844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6148495142524307, "train/policy_logprob_mag": 7.438384191409962, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44129305997410334, "train/policy_logprob_min": -7.438384191409962, "train/policy_logprob_std": 1.0509396904223673, "train/policy_randomness_mag": 0.9323547490545221, "train/policy_randomness_max": 0.9323547490545221, "train/policy_randomness_mean": 0.15626332506134705, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21701489660788226, "train/post_ent_mag": 54.878402813060866, "train/post_ent_max": 54.878402813060866, "train/post_ent_mean": 40.97214317321777, "train/post_ent_min": 19.51511185878032, "train/post_ent_std": 5.584050996883495, "train/prior_ent_mag": 76.55024791408229, "train/prior_ent_max": 76.55024791408229, "train/prior_ent_mean": 46.17605812485154, "train/prior_ent_min": 28.77700357179384, "train/prior_ent_std": 7.419063664771415, "train/rep_loss_mean": 5.204377963736251, "train/rep_loss_std": 8.825196343499261, "train/reward_avg": 0.03706846476809399, "train/reward_loss_mean": 0.053613498706269906, "train/reward_loss_std": 0.21863737017721743, "train/reward_max_data": 1.0121621650618475, "train/reward_max_pred": 1.0143896921260938, "train/reward_neg_acc": 0.9942207086730648, "train/reward_neg_loss": 0.0237278313048788, "train/reward_pos_acc": 0.9875868663594529, "train/reward_pos_loss": 0.7439186170294478, "train/reward_pred": 0.03667199085592418, "train/reward_rate": 0.04170185810810811, "stats/sum_log_reward": 10.600000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.38682276010513306, "replay/size": 559952.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.1028290724076826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4653951131281253e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1481509208679, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.42315411567688, "timer/env.step_frac": 0.054716825891780146, "timer/env.step_avg": 0.011111741620890988, "timer/env.step_min": 0.0024216175079345703, "timer/env.step_max": 1.3761694431304932, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.27036333084106445, "timer/replay.add_frac": 0.00090076627162812, "timer/replay.add_avg": 0.00018292512235525336, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0010409355163574219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02240157127380371, "timer/logger.write_frac": 7.463504674299904e-05, "timer/logger.write_avg": 0.02240157127380371, "timer/logger.write_min": 0.02240157127380371, "timer/logger.write_max": 0.02240157127380371, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.732401132583618, "timer/agent.policy_frac": 0.03575701232759933, "timer/agent.policy_avg": 0.007261435137066048, "timer/agent.policy_min": 0.005815029144287109, "timer/agent.policy_max": 0.01545572280883789, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05771660804748535, "timer/dataset_frac": 0.00019229373184678373, "timer/dataset_avg": 7.810095811567706e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.00014448165893554688, "timer/agent.train_count": 739.0, "timer/agent.train_total": 272.0076584815979, "timer/agent.train_frac": 0.9062446583364457, "timer/agent.train_avg": 0.3680753159426223, "timer/agent.train_min": 0.3613758087158203, "timer/agent.train_max": 0.3833012580871582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22475934028625488, "timer/agent.report_frac": 0.0007488280024270787, "timer/agent.report_avg": 0.22475934028625488, "timer/agent.report_min": 0.22475934028625488, "timer/agent.report_max": 0.22475934028625488, "fps": 4.92412115646311}
+{"step": 560044, "episode/length": 166.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.059880239520958084}
+{"step": 560214, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07058823529411765}
+{"step": 560448, "episode/length": 233.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05128205128205128}
+{"step": 560635, "episode/length": 186.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.06417112299465241}
+{"step": 560674, "episode/length": 38.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10256410256410256}
+{"step": 561023, "episode/length": 348.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.034383954154727794}
+{"step": 561186, "episode/length": 162.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07975460122699386}
+{"step": 561332, "episode/length": 145.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0821917808219178}
+{"step": 561390, "episode/length": 57.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 8.900000035762787, "episode/reward_rate": 0.13793103448275862}
+{"step": 561485, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545407681851773, "train/action_min": 0.0, "train/action_std": 3.426019288398124, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04166854817319561, "train/actor_opt_grad_steps": 279825.0, "train/actor_opt_loss": -11.795548877603299, "train/adv_mag": 0.4274209713613665, "train/adv_max": 0.37104417665584666, "train/adv_mean": 0.0024731415765816907, "train/adv_min": -0.37803177958404693, "train/adv_std": 0.04779862526904892, "train/cont_avg": 0.9949060388513513, "train/cont_loss_mean": 9.520565493563186e-05, "train/cont_loss_std": 0.002838068283934361, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.020047415837545848, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 1.631989797057965e-05, "train/cont_pred": 0.9949050207395811, "train/cont_rate": 0.9949060388513513, "train/dyn_loss_mean": 5.167408736976418, "train/dyn_loss_std": 8.689061673911842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.011627202098434, "train/extr_critic_critic_opt_grad_steps": 279825.0, "train/extr_critic_critic_opt_loss": 15943.828468116553, "train/extr_critic_mag": 10.78643677685712, "train/extr_critic_max": 10.78643677685712, "train/extr_critic_mean": 2.827520509023924, "train/extr_critic_min": -0.44051812951629227, "train/extr_critic_std": 2.606708893904815, "train/extr_return_normed_mag": 1.4418774102185223, "train/extr_return_normed_max": 1.4418774102185223, "train/extr_return_normed_mean": 0.36614072826263067, "train/extr_return_normed_min": -0.0827701955127555, "train/extr_return_normed_std": 0.3282745093912692, "train/extr_return_rate": 0.7393906966254518, "train/extr_return_raw_mag": 11.492794410602466, "train/extr_return_raw_max": 11.492794410602466, "train/extr_return_raw_mean": 2.84741671987482, "train/extr_return_raw_min": -0.7606976922299411, "train/extr_return_raw_std": 2.638296897346909, "train/extr_reward_mag": 1.0530265086405985, "train/extr_reward_max": 1.0530265086405985, "train/extr_reward_mean": 0.055266439360944, "train/extr_reward_min": -0.6430422180407757, "train/extr_reward_std": 0.22630910092108958, "train/image_loss_mean": 3.1327321223310522, "train/image_loss_std": 8.24809421075357, "train/model_loss_mean": 6.285495513194316, "train/model_loss_std": 12.313318884050524, "train/model_opt_grad_norm": 28.495136518736143, "train/model_opt_grad_steps": 279603.3243243243, "train/model_opt_loss": 10491.36011402027, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1655.4054054054054, "train/policy_entropy_mag": 2.6521137243992574, "train/policy_entropy_max": 2.6521137243992574, "train/policy_entropy_mean": 0.44229588919394724, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139241690571243, "train/policy_logprob_mag": 7.438384197853707, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44148276867093267, "train/policy_logprob_min": -7.438384197853707, "train/policy_logprob_std": 1.0483819818174518, "train/policy_randomness_mag": 0.936079763882869, "train/policy_randomness_max": 0.936079763882869, "train/policy_randomness_mean": 0.15611103821445155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2166882892315452, "train/post_ent_mag": 55.13780150542388, "train/post_ent_max": 55.13780150542388, "train/post_ent_mean": 40.96188653481973, "train/post_ent_min": 18.868078115824108, "train/post_ent_std": 5.583812326998324, "train/prior_ent_mag": 76.43352642574825, "train/prior_ent_max": 76.43352642574825, "train/prior_ent_mean": 46.146047540613125, "train/prior_ent_min": 28.818295839670544, "train/prior_ent_std": 7.316709866394868, "train/rep_loss_mean": 5.167408736976418, "train/rep_loss_std": 8.689061673911842, "train/reward_avg": 0.03629249360764752, "train/reward_loss_mean": 0.05222295259905828, "train/reward_loss_std": 0.2076549660917875, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0242053818058323, "train/reward_neg_acc": 0.9946869813107155, "train/reward_neg_loss": 0.022777853747578087, "train/reward_pos_acc": 0.9861749797253996, "train/reward_pos_loss": 0.7443012450192426, "train/reward_pred": 0.03579347486280509, "train/reward_rate": 0.04098923141891892, "stats/sum_log_reward": 9.433333502875435, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.88888888888889, "stats/max_log_achievement_collect_wood": 8.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 1.2222222222222223, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5555555555555554, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3922034402688344, "replay/size": 561422.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0267806280226933e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4452098989162316e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3641538619995, "timer/env.step_count": 1470.0, "timer/env.step_total": 19.291626930236816, "timer/env.step_frac": 0.06422746084108372, "timer/env.step_avg": 0.013123555734854978, "timer/env.step_min": 0.002332448959350586, "timer/env.step_max": 1.3332042694091797, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.26584458351135254, "timer/replay.add_frac": 0.00088507426766209, "timer/replay.add_avg": 0.00018084665544989967, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008983612060546875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020854949951171875, "timer/logger.write_frac": 6.943221980061427e-05, "timer/logger.write_avg": 0.020854949951171875, "timer/logger.write_min": 0.020854949951171875, "timer/logger.write_max": 0.020854949951171875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.428965091705322, "timer/agent.policy_frac": 0.034721070932108786, "timer/agent.policy_avg": 0.007094534075990015, "timer/agent.policy_min": 0.005834102630615234, "timer/agent.policy_max": 0.01575183868408203, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05675840377807617, "timer/dataset_frac": 0.00018896530444226535, "timer/dataset_avg": 7.722231806540976e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.0001227855682373047, "timer/agent.train_count": 735.0, "timer/agent.train_total": 269.6810054779053, "timer/agent.train_frac": 0.897846836949154, "timer/agent.train_avg": 0.3669129326230004, "timer/agent.train_min": 0.3588714599609375, "timer/agent.train_max": 0.382068395614624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22313165664672852, "timer/agent.report_frac": 0.0007428704583345354, "timer/agent.report_avg": 0.22313165664672852, "timer/agent.report_min": 0.22313165664672852, "timer/agent.report_max": 0.22313165664672852, "fps": 4.893947401378679}
+{"step": 561609, "episode/length": 218.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0319634703196347}
+{"step": 561803, "episode/length": 193.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06701030927835051}
+{"step": 561892, "episode/length": 88.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.1348314606741573}
+{"step": 562163, "episode/length": 270.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.04428044280442804}
+{"step": 562318, "episode/length": 154.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.05806451612903226}
+{"step": 562518, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.065}
+{"step": 562814, "episode/length": 295.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.300000071525574, "episode/reward_rate": 0.04054054054054054}
+{"step": 562939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6125162203017975, "train/action_min": 0.0, "train/action_std": 3.5144177854877627, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04341024083838071, "train/actor_opt_grad_steps": 280560.0, "train/actor_opt_loss": -12.842659225202587, "train/adv_mag": 0.44414220280843236, "train/adv_max": 0.3909424908765375, "train/adv_mean": 0.002050320564630467, "train/adv_min": -0.3828681413441488, "train/adv_std": 0.04888595518184035, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 9.77907203186816e-05, "train/cont_loss_std": 0.0030424430730338465, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.012647853917050183, "train/cont_pos_acc": 0.9999865530288383, "train/cont_pos_loss": 2.206327467639337e-05, "train/cont_pred": 0.9945427260986747, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.191433044329082, "train/dyn_loss_std": 8.825871611294682, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0571157499535444, "train/extr_critic_critic_opt_grad_steps": 280560.0, "train/extr_critic_critic_opt_loss": 16180.141614940068, "train/extr_critic_mag": 10.673353600175414, "train/extr_critic_max": 10.673353600175414, "train/extr_critic_mean": 2.838346734438857, "train/extr_critic_min": -0.43801022719030513, "train/extr_critic_std": 2.591552971160575, "train/extr_return_normed_mag": 1.444343290916861, "train/extr_return_normed_max": 1.444343290916861, "train/extr_return_normed_mean": 0.36936262004996, "train/extr_return_normed_min": -0.07964138553975379, "train/extr_return_normed_std": 0.3282638233001918, "train/extr_return_rate": 0.7556587531142038, "train/extr_return_raw_mag": 11.44541270112338, "train/extr_return_raw_max": 11.44541270112338, "train/extr_return_raw_mean": 2.8547278169083268, "train/extr_return_raw_min": -0.7335340041820317, "train/extr_return_raw_std": 2.6232577448021877, "train/extr_reward_mag": 1.0519024803213877, "train/extr_reward_max": 1.0519024803213877, "train/extr_reward_mean": 0.05430340404583983, "train/extr_reward_min": -0.6297954500538029, "train/extr_reward_std": 0.2247063444085317, "train/image_loss_mean": 3.144533441491323, "train/image_loss_std": 8.362107499005043, "train/model_loss_mean": 6.312222010468783, "train/model_loss_std": 12.540513299915888, "train/model_opt_grad_norm": 28.1075537433363, "train/model_opt_grad_steps": 280338.0, "train/model_opt_loss": 10340.917714576199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1643.835616438356, "train/policy_entropy_mag": 2.6450757588425726, "train/policy_entropy_max": 2.6450757588425726, "train/policy_entropy_mean": 0.42151126877902306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6050806212915133, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4224575549772341, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.04228324187945, "train/policy_randomness_mag": 0.9335956646971506, "train/policy_randomness_max": 0.9335956646971506, "train/policy_randomness_mean": 0.1487749796615888, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2135669088935199, "train/post_ent_mag": 55.48527903099583, "train/post_ent_max": 55.48527903099583, "train/post_ent_mean": 40.87526624496669, "train/post_ent_min": 19.04020066457252, "train/post_ent_std": 5.656102487485703, "train/prior_ent_mag": 76.5526027940724, "train/prior_ent_max": 76.5526027940724, "train/prior_ent_mean": 46.08711430797838, "train/prior_ent_min": 28.551434138049817, "train/prior_ent_std": 7.438178304123552, "train/rep_loss_mean": 5.191433044329082, "train/rep_loss_std": 8.825871611294682, "train/reward_avg": 0.03663982195805197, "train/reward_loss_mean": 0.052730927065218966, "train/reward_loss_std": 0.20382465932467211, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0222235738414607, "train/reward_neg_acc": 0.9940857977083285, "train/reward_neg_loss": 0.0236726989331719, "train/reward_pos_acc": 0.9892168412469837, "train/reward_pos_loss": 0.7276509959403783, "train/reward_pred": 0.036474677223763234, "train/reward_rate": 0.041483839897260275, "stats/sum_log_reward": 9.814285823277064, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 9.428571428571429, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.43687877484730314, "replay/size": 562876.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.1678187961919436e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4372959097609067e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.127712726593, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.096602201461792, "timer/env.step_frac": 0.05696442373196061, "timer/env.step_avg": 0.011758323384774273, "timer/env.step_min": 0.0026290416717529297, "timer/env.step_max": 1.3344273567199707, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29911303520202637, "timer/replay.add_frac": 0.0009966191808302254, "timer/replay.add_avg": 0.0002057173557097843, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0007789134979248047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0203859806060791, "timer/logger.write_frac": 6.792435267265736e-05, "timer/logger.write_avg": 0.0203859806060791, "timer/logger.write_min": 0.0203859806060791, "timer/logger.write_max": 0.0203859806060791, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023221969604492188, "timer/checkpoint.save_frac": 7.737362669220312e-07, "timer/checkpoint.save_avg": 0.00023221969604492188, "timer/checkpoint.save_min": 0.00023221969604492188, "timer/checkpoint.save_max": 0.00023221969604492188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5509154796600342, "timer/agent.save_frac": 0.005167518405982289, "timer/agent.save_avg": 1.5509154796600342, "timer/agent.save_min": 1.5509154796600342, "timer/agent.save_max": 1.5509154796600342, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.542049336910164e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.874773979187012, "timer/agent.policy_frac": 0.049561481157647934, "timer/agent.policy_avg": 0.010230243451985565, "timer/agent.policy_min": 0.00577998161315918, "timer/agent.policy_max": 2.839195728302002, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0588076114654541, "timer/dataset_frac": 0.00019594195727945323, "timer/dataset_avg": 8.089079981492999e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00095367431640625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.156152009964, "timer/agent.train_frac": 0.8901415653453332, "timer/agent.train_avg": 0.3674775130811059, "timer/agent.train_min": 0.3604929447174072, "timer/agent.train_max": 0.3865973949432373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223043441772461, "timer/agent.report_frac": 0.0007406991582272125, "timer/agent.report_avg": 0.2223043441772461, "timer/agent.report_min": 0.2223043441772461, "timer/agent.report_max": 0.2223043441772461, "fps": 4.844496422582513}
+{"step": 562963, "episode/length": 148.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06040268456375839}
+{"step": 563106, "episode/length": 142.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08391608391608392}
+{"step": 563320, "episode/length": 213.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0514018691588785}
+{"step": 563516, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.061224489795918366}
+{"step": 563746, "episode/length": 229.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.04782608695652174}
+{"step": 563999, "episode/length": 252.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.043478260869565216}
+{"step": 564223, "episode/length": 223.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000086426735, "episode/reward_rate": 0.0625}
+{"step": 564419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44932020032728, "train/action_min": 0.0, "train/action_std": 3.342574432089522, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043094725926985614, "train/actor_opt_grad_steps": 281295.0, "train/actor_opt_loss": -13.50876770631687, "train/adv_mag": 0.42577441519982107, "train/adv_max": 0.36981227228770386, "train/adv_mean": 0.001894971057715117, "train/adv_min": -0.37847454241804174, "train/adv_std": 0.048979749450007, "train/cont_avg": 0.9947476773648649, "train/cont_loss_mean": 0.00019566692921634476, "train/cont_loss_std": 0.006134218550070384, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.03680110959844323, "train/cont_pos_acc": 0.9999867323282603, "train/cont_pos_loss": 2.166755479345591e-05, "train/cont_pred": 0.994755198826661, "train/cont_rate": 0.9947476773648649, "train/dyn_loss_mean": 5.061491482966655, "train/dyn_loss_std": 8.674263670637801, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039013534784317, "train/extr_critic_critic_opt_grad_steps": 281295.0, "train/extr_critic_critic_opt_loss": 15994.815495671453, "train/extr_critic_mag": 10.84479606473768, "train/extr_critic_max": 10.84479606473768, "train/extr_critic_mean": 2.8401677834021077, "train/extr_critic_min": -0.46739153926436966, "train/extr_critic_std": 2.57691378690101, "train/extr_return_normed_mag": 1.463360705891171, "train/extr_return_normed_max": 1.463360705891171, "train/extr_return_normed_mean": 0.37362128214256185, "train/extr_return_normed_min": -0.08291184373602674, "train/extr_return_normed_std": 0.3279657903555277, "train/extr_return_rate": 0.7510109157175631, "train/extr_return_raw_mag": 11.51738452911377, "train/extr_return_raw_max": 11.51738452911377, "train/extr_return_raw_mean": 2.8552160536920703, "train/extr_return_raw_min": -0.7742655112131221, "train/extr_return_raw_std": 2.607661714424958, "train/extr_reward_mag": 1.0524251461029053, "train/extr_reward_max": 1.0524251461029053, "train/extr_reward_mean": 0.054561718442552795, "train/extr_reward_min": -0.6376466944410994, "train/extr_reward_std": 0.2254102749598993, "train/image_loss_mean": 3.075696639112524, "train/image_loss_std": 8.223540222322619, "train/model_loss_mean": 6.165441287530435, "train/model_loss_std": 12.311249964946025, "train/model_opt_grad_norm": 27.38935014363882, "train/model_opt_grad_steps": 281073.0, "train/model_opt_loss": 15413.603212098818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.653227132719916, "train/policy_entropy_max": 2.653227132719916, "train/policy_entropy_mean": 0.4048462091265498, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.578818020788399, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.405537691470739, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0280481633302327, "train/policy_randomness_mag": 0.936472746166023, "train/policy_randomness_max": 0.936472746166023, "train/policy_randomness_mean": 0.14289294475236455, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20429735952937925, "train/post_ent_mag": 55.13275899113835, "train/post_ent_max": 55.13275899113835, "train/post_ent_mean": 41.047478856267155, "train/post_ent_min": 19.407187964465166, "train/post_ent_std": 5.584370993279122, "train/prior_ent_mag": 76.51602265641496, "train/prior_ent_max": 76.51602265641496, "train/prior_ent_mean": 46.13035856710898, "train/prior_ent_min": 28.386826901822477, "train/prior_ent_std": 7.378366006387247, "train/rep_loss_mean": 5.061491482966655, "train/rep_loss_std": 8.674263670637801, "train/reward_avg": 0.036692355935638014, "train/reward_loss_mean": 0.05265413999960229, "train/reward_loss_std": 0.21212942274035634, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0199622721285433, "train/reward_neg_acc": 0.9946465210334675, "train/reward_neg_loss": 0.02316011980528364, "train/reward_pos_acc": 0.9871789861369777, "train/reward_pos_loss": 0.7365857362747192, "train/reward_pred": 0.03622426777272611, "train/reward_rate": 0.04137193834459459, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.39522385810102734, "replay/size": 564356.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1050798055287955e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3869557831738446e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32038474082947, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.962332010269165, "timer/env.step_frac": 0.056480788092048165, "timer/env.step_avg": 0.01146103514207376, "timer/env.step_min": 0.0024976730346679688, "timer/env.step_max": 1.2734549045562744, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.26505088806152344, "timer/replay.add_frac": 0.0008825604305557116, "timer/replay.add_avg": 0.00017908843787940772, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0011017322540283203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032044410705566406, "timer/logger.write_frac": 0.00010670075137663431, "timer/logger.write_avg": 0.032044410705566406, "timer/logger.write_min": 0.032044410705566406, "timer/logger.write_max": 0.032044410705566406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.645256519317627, "timer/agent.policy_frac": 0.03544633351646866, "timer/agent.policy_avg": 0.007192740891430829, "timer/agent.policy_min": 0.005873680114746094, "timer/agent.policy_max": 0.017081022262573242, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05736994743347168, "timer/dataset_frac": 0.00019102914869725146, "timer/dataset_avg": 7.752695599117795e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00013303756713867188, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.72970628738403, "timer/agent.train_frac": 0.9047994078786272, "timer/agent.train_avg": 0.36720230579376223, "timer/agent.train_min": 0.36095452308654785, "timer/agent.train_max": 0.3795442581176758, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2237720489501953, "timer/agent.report_frac": 0.0007451110890900934, "timer/agent.report_avg": 0.2237720489501953, "timer/agent.report_min": 0.2237720489501953, "timer/agent.report_max": 0.2237720489501953, "fps": 4.927957208903955}
+{"step": 564503, "episode/length": 279.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05}
+{"step": 564687, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06521739130434782}
+{"step": 564838, "episode/length": 150.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.06622516556291391}
+{"step": 565028, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 565233, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
+{"step": 565289, "episode/length": 55.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.16071428571428573}
+{"step": 565443, "episode/length": 153.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06493506493506493}
+{"step": 565605, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06790123456790123}
+{"step": 565683, "episode/length": 77.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.1282051282051282}
+{"step": 565887, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.601847609428511, "train/action_min": 0.0, "train/action_std": 3.441026220582936, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04341775316694011, "train/actor_opt_grad_steps": 282030.0, "train/actor_opt_loss": -11.931401374405377, "train/adv_mag": 0.44358834338514774, "train/adv_max": 0.39088294318277544, "train/adv_mean": 0.002812627061471113, "train/adv_min": -0.3848965839572149, "train/adv_std": 0.049528837867387356, "train/cont_avg": 0.994501819349315, "train/cont_loss_mean": 8.84570146523987e-06, "train/cont_loss_std": 0.0002210985028559413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019359013585366084, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 8.107417043709275e-06, "train/cont_pred": 0.994494818661311, "train/cont_rate": 0.994501819349315, "train/dyn_loss_mean": 5.100310168854178, "train/dyn_loss_std": 8.690433449941139, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0863341566634506, "train/extr_critic_critic_opt_grad_steps": 282030.0, "train/extr_critic_critic_opt_loss": 16396.526420697774, "train/extr_critic_mag": 10.85178401372204, "train/extr_critic_max": 10.85178401372204, "train/extr_critic_mean": 2.8268470780490196, "train/extr_critic_min": -0.45056403663060435, "train/extr_critic_std": 2.6397419580041546, "train/extr_return_normed_mag": 1.4285068642603207, "train/extr_return_normed_max": 1.4285068642603207, "train/extr_return_normed_mean": 0.3625619374725917, "train/extr_return_normed_min": -0.08512171526273636, "train/extr_return_normed_std": 0.32752091468197025, "train/extr_return_rate": 0.7484544866705594, "train/extr_return_raw_mag": 11.554626112114894, "train/extr_return_raw_max": 11.554626112114894, "train/extr_return_raw_mean": 2.8498234569209897, "train/extr_return_raw_min": -0.8056987830220836, "train/extr_return_raw_std": 2.6744026811155552, "train/extr_reward_mag": 1.062223924349432, "train/extr_reward_max": 1.062223924349432, "train/extr_reward_mean": 0.05707036617071661, "train/extr_reward_min": -0.654084515898195, "train/extr_reward_std": 0.23046149619638104, "train/image_loss_mean": 3.0311156348006367, "train/image_loss_std": 7.872108498664751, "train/model_loss_mean": 6.1450298126429725, "train/model_loss_std": 12.020941943338473, "train/model_opt_grad_norm": 27.64240936383809, "train/model_opt_grad_steps": 281807.0684931507, "train/model_opt_loss": 15823.33425192637, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6388086684762615, "train/policy_entropy_max": 2.6388086684762615, "train/policy_entropy_mean": 0.4143575129851903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836118186173374, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41479992825691014, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0342774595299813, "train/policy_randomness_mag": 0.9313836612113534, "train/policy_randomness_max": 0.9313836612113534, "train/policy_randomness_mean": 0.14625002096777093, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2059893585639457, "train/post_ent_mag": 55.11115797905073, "train/post_ent_max": 55.11115797905073, "train/post_ent_mean": 41.050379766176825, "train/post_ent_min": 19.469331101195454, "train/post_ent_std": 5.676852572454165, "train/prior_ent_mag": 76.58900190379522, "train/prior_ent_max": 76.58900190379522, "train/prior_ent_mean": 46.19034252428029, "train/prior_ent_min": 28.44098151220034, "train/prior_ent_std": 7.40269864748602, "train/rep_loss_mean": 5.100310168854178, "train/rep_loss_std": 8.690433449941139, "train/reward_avg": 0.03726455428930994, "train/reward_loss_mean": 0.05371927352596636, "train/reward_loss_std": 0.20557426253001984, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0209842740672908, "train/reward_neg_acc": 0.9946682208204922, "train/reward_neg_loss": 0.02409266399806493, "train/reward_pos_acc": 0.9886408015473248, "train/reward_pos_loss": 0.7241886788851595, "train/reward_pred": 0.036822110337957945, "train/reward_rate": 0.042326626712328765, "stats/sum_log_reward": 9.655555937025282, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 11.222222222222221, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.35381848282284206, "replay/size": 565824.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.0148256702059295e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3737896157870175e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1134421825409, "timer/env.step_count": 1468.0, "timer/env.step_total": 19.12151527404785, "timer/env.step_frac": 0.06371429128595109, "timer/env.step_avg": 0.013025555363792815, "timer/env.step_min": 0.0022552013397216797, "timer/env.step_max": 1.257418155670166, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.25370311737060547, "timer/replay.add_frac": 0.0008453573939426984, "timer/replay.add_avg": 0.0001728222870371972, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0010111331939697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018399477005004883, "timer/logger.write_frac": 6.130840681842432e-05, "timer/logger.write_avg": 0.018399477005004883, "timer/logger.write_min": 0.018399477005004883, "timer/logger.write_max": 0.018399477005004883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.430259466171265, "timer/agent.policy_frac": 0.034754389507908705, "timer/agent.policy_avg": 0.0071050813802256575, "timer/agent.policy_min": 0.005843162536621094, "timer/agent.policy_max": 0.018074750900268555, "timer/dataset_count": 734.0, "timer/dataset_total": 0.055999755859375, "timer/dataset_frac": 0.0001865952936067213, "timer/dataset_avg": 7.62939453125e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00012421607971191406, "timer/agent.train_count": 734.0, "timer/agent.train_total": 269.6129205226898, "timer/agent.train_frac": 0.8983700248877907, "timer/agent.train_avg": 0.3673200552080243, "timer/agent.train_min": 0.3602325916290283, "timer/agent.train_max": 0.38416266441345215, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22117090225219727, "timer/agent.report_frac": 0.0007369576672199586, "timer/agent.report_avg": 0.22117090225219727, "timer/agent.report_min": 0.22117090225219727, "timer/agent.report_max": 0.22117090225219727, "fps": 4.891372288662133}
+{"step": 566008, "episode/length": 324.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.024615384615384615}
+{"step": 566141, "episode/length": 132.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.08270676691729323}
+{"step": 566532, "episode/length": 390.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03324808184143223}
+{"step": 566830, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04697986577181208}
+{"step": 566949, "episode/length": 118.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09243697478991597}
+{"step": 567162, "episode/length": 212.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06103286384976526}
+{"step": 567347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.663552480201199, "train/action_min": 0.0, "train/action_std": 3.546471997483136, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044123773552375296, "train/actor_opt_grad_steps": 282760.0, "train/actor_opt_loss": -11.229995458501659, "train/adv_mag": 0.4566119999101717, "train/adv_max": 0.41321496604240104, "train/adv_mean": 0.0023502124415045564, "train/adv_min": -0.3883271870547778, "train/adv_std": 0.04985158456719085, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 7.922109704759973e-05, "train/cont_loss_std": 0.002434857302871821, "train/cont_neg_acc": 0.996086107541437, "train/cont_neg_loss": 0.007987963299639937, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 2.4509070402194533e-05, "train/cont_pred": 0.9944972787817864, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.336947519485265, "train/dyn_loss_std": 8.850580822931578, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.068838651049627, "train/extr_critic_critic_opt_grad_steps": 282760.0, "train/extr_critic_critic_opt_loss": 16045.820366010274, "train/extr_critic_mag": 10.744993053070486, "train/extr_critic_max": 10.744993053070486, "train/extr_critic_mean": 2.9027843246721243, "train/extr_critic_min": -0.47037599184741713, "train/extr_critic_std": 2.6040347324658746, "train/extr_return_normed_mag": 1.4282941409986314, "train/extr_return_normed_max": 1.4282941409986314, "train/extr_return_normed_mean": 0.37524710350657164, "train/extr_return_normed_min": -0.08366629665028559, "train/extr_return_normed_std": 0.32695701146778994, "train/extr_return_rate": 0.7572658388581994, "train/extr_return_raw_mag": 11.40371911819667, "train/extr_return_raw_max": 11.40371911819667, "train/extr_return_raw_mean": 2.9217178511292965, "train/extr_return_raw_min": -0.777205475797392, "train/extr_return_raw_std": 2.6347621809946347, "train/extr_reward_mag": 1.0580637814247444, "train/extr_reward_max": 1.0580637814247444, "train/extr_reward_mean": 0.05598249577292024, "train/extr_reward_min": -0.6541328577146138, "train/extr_reward_std": 0.22822228808925576, "train/image_loss_mean": 3.238492003858906, "train/image_loss_std": 8.50689169478743, "train/model_loss_mean": 6.494261166820787, "train/model_loss_std": 12.669330544667702, "train/model_opt_grad_norm": 30.4436233598892, "train/model_opt_grad_steps": 282536.41095890413, "train/model_opt_loss": 16102.798915079195, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.876712328767, "train/policy_entropy_mag": 2.6322180375660937, "train/policy_entropy_max": 2.6322180375660937, "train/policy_entropy_mean": 0.43243615676278935, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6060828427745871, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4341101785228677, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0510569966002687, "train/policy_randomness_mag": 0.9290574584921746, "train/policy_randomness_max": 0.9290574584921746, "train/policy_randomness_mean": 0.15263098723267857, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21392064857972812, "train/post_ent_mag": 55.33806129351054, "train/post_ent_max": 55.33806129351054, "train/post_ent_mean": 40.861226904882145, "train/post_ent_min": 19.204374234970302, "train/post_ent_std": 5.777618930764394, "train/prior_ent_mag": 76.39811800603997, "train/prior_ent_max": 76.39811800603997, "train/prior_ent_mean": 46.192222856495476, "train/prior_ent_min": 28.676962316852727, "train/prior_ent_std": 7.471160568603097, "train/rep_loss_mean": 5.336947519485265, "train/rep_loss_std": 8.850580822931578, "train/reward_avg": 0.0375615366517681, "train/reward_loss_mean": 0.0535214545894159, "train/reward_loss_std": 0.2053845475797784, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0156348012898067, "train/reward_neg_acc": 0.9942057598127078, "train/reward_neg_loss": 0.02380804899977903, "train/reward_pos_acc": 0.9899828883066569, "train/reward_pos_loss": 0.7262293345307651, "train/reward_pred": 0.03728125088733353, "train/reward_rate": 0.04238013698630137, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5487510412931442, "replay/size": 567284.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1177311727445418e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.444494071072095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2678291797638, "timer/env.step_count": 1460.0, "timer/env.step_total": 16.54847741127014, "timer/env.step_frac": 0.05511238901774898, "timer/env.step_avg": 0.011334573569363111, "timer/env.step_min": 0.002694845199584961, "timer/env.step_max": 1.299264907836914, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2713589668273926, "timer/replay.add_frac": 0.0009037230780555445, "timer/replay.add_avg": 0.0001858623060461593, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0007977485656738281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01846146583557129, "timer/logger.write_frac": 6.14833293530051e-05, "timer/logger.write_avg": 0.01846146583557129, "timer/logger.write_min": 0.01846146583557129, "timer/logger.write_max": 0.01846146583557129, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005142688751220703, "timer/checkpoint.save_frac": 1.7127005464650986e-06, "timer/checkpoint.save_avg": 0.0005142688751220703, "timer/checkpoint.save_min": 0.0005142688751220703, "timer/checkpoint.save_max": 0.0005142688751220703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3638677597045898, "timer/agent.save_frac": 0.004542170779434623, "timer/agent.save_avg": 1.3638677597045898, "timer/agent.save_min": 1.3638677597045898, "timer/agent.save_max": 1.3638677597045898, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6440856836943804e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 14.216370105743408, "timer/agent.policy_frac": 0.04734563187997199, "timer/agent.policy_avg": 0.00973723979845439, "timer/agent.policy_min": 0.005731344223022461, "timer/agent.policy_max": 2.308309555053711, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05792355537414551, "timer/dataset_frac": 0.00019290629812848827, "timer/dataset_avg": 7.934733612896646e-05, "timer/dataset_min": 5.364418029785156e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 730.0, "timer/agent.train_total": 268.5282847881317, "timer/agent.train_frac": 0.8942958875137093, "timer/agent.train_avg": 0.3678469654631941, "timer/agent.train_min": 0.35843324661254883, "timer/agent.train_max": 0.40790319442749023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22169971466064453, "timer/agent.report_frac": 0.0007383398856489476, "timer/agent.report_avg": 0.22169971466064453, "timer/agent.report_min": 0.22169971466064453, "timer/agent.report_max": 0.22169971466064453, "fps": 4.8622132647224054}
+{"step": 567399, "episode/length": 236.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05907172995780591}
+{"step": 567618, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0502283105022831}
+{"step": 567816, "episode/length": 197.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.050505050505050504}
+{"step": 568153, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.03560830860534125}
+{"step": 568370, "episode/length": 216.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.500000059604645, "episode/reward_rate": 0.05069124423963134}
+{"step": 568432, "episode/length": 61.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.12903225806451613}
+{"step": 568603, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04093567251461988}
+{"step": 568807, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.584169152664812, "train/action_min": 0.0, "train/action_std": 3.4967854872141797, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04282640160558975, "train/actor_opt_grad_steps": 283490.0, "train/actor_opt_loss": -11.809509484735253, "train/adv_mag": 0.42182765023349084, "train/adv_max": 0.3894535005092621, "train/adv_mean": 0.002748178549378804, "train/adv_min": -0.3547582981521136, "train/adv_std": 0.04893833383509558, "train/cont_avg": 0.9950770547945206, "train/cont_loss_mean": 1.3862386272205952e-05, "train/cont_loss_std": 0.0004292652489658972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.7037949580293544e-05, "train/cont_pos_acc": 0.9999864868921776, "train/cont_pos_loss": 1.376390473507678e-05, "train/cont_pred": 0.9950674429331741, "train/cont_rate": 0.9950770547945206, "train/dyn_loss_mean": 5.178578461686226, "train/dyn_loss_std": 8.790970750051002, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0680548720163843, "train/extr_critic_critic_opt_grad_steps": 283490.0, "train/extr_critic_critic_opt_loss": 16180.637922731165, "train/extr_critic_mag": 10.741857162893634, "train/extr_critic_max": 10.741857162893634, "train/extr_critic_mean": 2.8037714631590123, "train/extr_critic_min": -0.46288689031992875, "train/extr_critic_std": 2.547610188183719, "train/extr_return_normed_mag": 1.4378533787923315, "train/extr_return_normed_max": 1.4378533787923315, "train/extr_return_normed_mean": 0.3628649413585663, "train/extr_return_normed_min": -0.08582002215393603, "train/extr_return_normed_std": 0.32119027555805363, "train/extr_return_rate": 0.7518657609207989, "train/extr_return_raw_mag": 11.471443319973881, "train/extr_return_raw_max": 11.471443319973881, "train/extr_return_raw_mean": 2.8258689201041443, "train/extr_return_raw_min": -0.7822474669920255, "train/extr_return_raw_std": 2.583218176070958, "train/extr_reward_mag": 1.0499153463807824, "train/extr_reward_max": 1.0499153463807824, "train/extr_reward_mean": 0.05281507040131582, "train/extr_reward_min": -0.6520904220946847, "train/extr_reward_std": 0.22159085371722914, "train/image_loss_mean": 3.10814328389625, "train/image_loss_std": 8.179652658227372, "train/model_loss_mean": 6.265213652832867, "train/model_loss_std": 12.346316546609957, "train/model_opt_grad_norm": 28.06335186631712, "train/model_opt_grad_steps": 283265.0, "train/model_opt_loss": 7831.517049711045, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.644473882570659, "train/policy_entropy_max": 2.644473882570659, "train/policy_entropy_mean": 0.42897549414471403, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6007468402385712, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42956244026961393, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0446237350163394, "train/policy_randomness_mag": 0.9333832337431711, "train/policy_randomness_max": 0.9333832337431711, "train/policy_randomness_mean": 0.15140952169895172, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21203727213895485, "train/post_ent_mag": 55.40432352562473, "train/post_ent_max": 55.40432352562473, "train/post_ent_mean": 41.1713750656337, "train/post_ent_min": 19.242778346963124, "train/post_ent_std": 5.70058294844954, "train/prior_ent_mag": 76.58448770601456, "train/prior_ent_max": 76.58448770601456, "train/prior_ent_mean": 46.36517098831804, "train/prior_ent_min": 28.676804189812646, "train/prior_ent_std": 7.373005938856569, "train/rep_loss_mean": 5.178578461686226, "train/rep_loss_std": 8.790970750051002, "train/reward_avg": 0.03535557522961538, "train/reward_loss_mean": 0.04990946672448557, "train/reward_loss_std": 0.2034499655439429, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0157023194718033, "train/reward_neg_acc": 0.9950558445225023, "train/reward_neg_loss": 0.021560667529191873, "train/reward_pos_acc": 0.9891086873942858, "train/reward_pos_loss": 0.7354096010939716, "train/reward_pred": 0.03493976914515234, "train/reward_rate": 0.03975813356164384, "stats/sum_log_reward": 9.242856979370117, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4170234820672444, "replay/size": 568744.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1446757381909513e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3932177465255946e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13271474838257, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.675186157226562, "timer/env.step_frac": 0.0588912347394206, "timer/env.step_avg": 0.012106291888511344, "timer/env.step_min": 0.0023877620697021484, "timer/env.step_max": 1.6208906173706055, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.257190465927124, "timer/replay.add_frac": 0.0008569224655923985, "timer/replay.add_avg": 0.00017615785337474248, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0012722015380859375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030213594436645508, "timer/logger.write_frac": 0.00010066744793874, "timer/logger.write_avg": 0.030213594436645508, "timer/logger.write_min": 0.030213594436645508, "timer/logger.write_max": 0.030213594436645508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.560652732849121, "timer/agent.policy_frac": 0.0351866098359277, "timer/agent.policy_avg": 0.007233323789622686, "timer/agent.policy_min": 0.0059356689453125, "timer/agent.policy_max": 0.016394615173339844, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05783843994140625, "timer/dataset_frac": 0.00019270954847389873, "timer/dataset_avg": 7.923073964576198e-05, "timer/dataset_min": 5.364418029785156e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.92081785202026, "timer/agent.train_frac": 0.9026700674038409, "timer/agent.train_avg": 0.3711244080164661, "timer/agent.train_min": 0.3612034320831299, "timer/agent.train_max": 2.099597215652466, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22174525260925293, "timer/agent.report_frac": 0.0007388239992269884, "timer/agent.report_avg": 0.22174525260925293, "timer/agent.report_min": 0.22174525260925293, "timer/agent.report_max": 0.22174525260925293, "fps": 4.864408754156938}
+{"step": 568819, "episode/length": 215.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06018518518518518}
+{"step": 569036, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.059907834101382486}
+{"step": 569205, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04142011834319527}
+{"step": 569394, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.0582010582010582}
+{"step": 569678, "episode/length": 283.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04225352112676056}
+{"step": 569949, "episode/length": 270.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04797047970479705}
+{"step": 570123, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06321839080459771}
+{"step": 570270, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564805122270976, "train/action_min": 0.0, "train/action_std": 3.4751111742568344, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04429528653009297, "train/actor_opt_grad_steps": 284220.0, "train/actor_opt_loss": -12.48581507924485, "train/adv_mag": 0.4268404727112757, "train/adv_max": 0.3768198747340947, "train/adv_mean": 0.002829176785170391, "train/adv_min": -0.37221102845178894, "train/adv_std": 0.04969894156268198, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 4.1537891390168844e-05, "train/cont_loss_std": 0.0012119930867820444, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005417889178762716, "train/cont_pos_acc": 0.9999730415540199, "train/cont_pos_loss": 4.0184887634791576e-05, "train/cont_pred": 0.9945156647734446, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.348176786344346, "train/dyn_loss_std": 8.80048199875714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.028964534197768, "train/extr_critic_critic_opt_grad_steps": 284220.0, "train/extr_critic_critic_opt_loss": 16199.486649186643, "train/extr_critic_mag": 10.942773792841663, "train/extr_critic_max": 10.942773792841663, "train/extr_critic_mean": 2.9699943457564264, "train/extr_critic_min": -0.491641348355437, "train/extr_critic_std": 2.6832955651087302, "train/extr_return_normed_mag": 1.4407505270552963, "train/extr_return_normed_max": 1.4407505270552963, "train/extr_return_normed_mean": 0.37879977569188156, "train/extr_return_normed_min": -0.08744150292995857, "train/extr_return_normed_std": 0.33180977057104244, "train/extr_return_rate": 0.7597986590372373, "train/extr_return_raw_mag": 11.714177471317656, "train/extr_return_raw_max": 11.714177471317656, "train/extr_return_raw_mean": 2.993216957131477, "train/extr_return_raw_min": -0.8355960421366234, "train/extr_return_raw_std": 2.7249623896324473, "train/extr_reward_mag": 1.0554207710370624, "train/extr_reward_max": 1.0554207710370624, "train/extr_reward_mean": 0.056290732594589665, "train/extr_reward_min": -0.6925503260468784, "train/extr_reward_std": 0.2289664969868856, "train/image_loss_mean": 3.134951070563434, "train/image_loss_std": 8.072690415055785, "train/model_loss_mean": 6.398759632894437, "train/model_loss_std": 12.241771070924523, "train/model_opt_grad_norm": 30.185583597993197, "train/model_opt_grad_steps": 283995.0, "train/model_opt_loss": 13237.972856913528, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2089.041095890411, "train/policy_entropy_mag": 2.640691985822704, "train/policy_entropy_max": 2.640691985822704, "train/policy_entropy_mean": 0.4072267366190479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5693391406372802, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4074996540399447, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.022508924138056, "train/policy_randomness_mag": 0.9320483893564303, "train/policy_randomness_max": 0.9320483893564303, "train/policy_randomness_mean": 0.14373316799532876, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20095173157241247, "train/post_ent_mag": 54.899475881498155, "train/post_ent_max": 54.899475881498155, "train/post_ent_mean": 40.57050140589884, "train/post_ent_min": 19.12577220185162, "train/post_ent_std": 5.559881458543751, "train/prior_ent_mag": 76.64356325750481, "train/prior_ent_max": 76.64356325750481, "train/prior_ent_mean": 45.91849988127408, "train/prior_ent_min": 28.702974554610577, "train/prior_ent_std": 7.478691564847345, "train/rep_loss_mean": 5.348176786344346, "train/rep_loss_std": 8.80048199875714, "train/reward_avg": 0.03677894861424622, "train/reward_loss_mean": 0.05486099871054088, "train/reward_loss_std": 0.22309067804519445, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0242982825187787, "train/reward_neg_acc": 0.9945134046959551, "train/reward_neg_loss": 0.02514845344607961, "train/reward_pos_acc": 0.9866548931761964, "train/reward_pos_loss": 0.7358577749500536, "train/reward_pred": 0.03643714304860324, "train/reward_rate": 0.04187178938356165, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36382114461490084, "replay/size": 570207.0, "replay/inserts": 1463.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.1025378735034497e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5003899706046004e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0072491168976, "timer/env.step_count": 1463.0, "timer/env.step_total": 18.296154022216797, "timer/env.step_frac": 0.06098570643233929, "timer/env.step_avg": 0.012505915257837865, "timer/env.step_min": 0.0027701854705810547, "timer/env.step_max": 1.5211353302001953, "timer/replay.add_count": 1463.0, "timer/replay.add_total": 0.2585484981536865, "timer/replay.add_frac": 0.0008618075027011875, "timer/replay.add_avg": 0.00017672487912077, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008571147918701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021140575408935547, "timer/logger.write_frac": 7.046688195423618e-05, "timer/logger.write_avg": 0.021140575408935547, "timer/logger.write_min": 0.021140575408935547, "timer/logger.write_max": 0.021140575408935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1463.0, "timer/agent.policy_total": 10.88665223121643, "timer/agent.policy_frac": 0.03628796391841337, "timer/agent.policy_avg": 0.007441320732205352, "timer/agent.policy_min": 0.0059337615966796875, "timer/agent.policy_max": 0.016147851943969727, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059043169021606445, "timer/dataset_frac": 0.00019680580784433086, "timer/dataset_avg": 8.077040905828516e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.857302904129, "timer/agent.train_frac": 0.8995026076819209, "timer/agent.train_avg": 0.36916183707815187, "timer/agent.train_min": 0.36241936683654785, "timer/agent.train_max": 0.3832569122314453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22038960456848145, "timer/agent.report_frac": 0.0007346142642126851, "timer/agent.report_avg": 0.22038960456848145, "timer/agent.report_min": 0.22038960456848145, "timer/agent.report_max": 0.22038960456848145, "fps": 4.87643757364692}
+{"step": 570310, "episode/length": 186.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.058823529411764705}
+{"step": 570578, "episode/length": 267.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.048507462686567165}
+{"step": 570894, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04113924050632911}
+{"step": 571191, "episode/length": 296.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04040404040404041}
+{"step": 571365, "episode/length": 173.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06896551724137931}
+{"step": 571692, "episode/length": 326.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03363914373088685}
+{"step": 571729, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503471479023973, "train/action_min": 0.0, "train/action_std": 3.3916952218094916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04351721637665409, "train/actor_opt_grad_steps": 284950.0, "train/actor_opt_loss": -13.176477137902012, "train/adv_mag": 0.41971738901856825, "train/adv_max": 0.3903723371355501, "train/adv_mean": 0.0021513677379828063, "train/adv_min": -0.35405345199859306, "train/adv_std": 0.049041474059428256, "train/cont_avg": 0.9942610231164384, "train/cont_loss_mean": 6.038293695196008e-05, "train/cont_loss_std": 0.0018300312404550187, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.011687676834121516, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3881530655721254e-05, "train/cont_pred": 0.9942628839244582, "train/cont_rate": 0.9942610231164384, "train/dyn_loss_mean": 5.208723629990669, "train/dyn_loss_std": 8.79235844416161, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0793143968059593, "train/extr_critic_critic_opt_grad_steps": 284950.0, "train/extr_critic_critic_opt_loss": 16228.118659032534, "train/extr_critic_mag": 10.9794543932562, "train/extr_critic_max": 10.9794543932562, "train/extr_critic_mean": 3.004725111673956, "train/extr_critic_min": -0.4861830472946167, "train/extr_critic_std": 2.744660973548889, "train/extr_return_normed_mag": 1.4271204389937937, "train/extr_return_normed_max": 1.4271204389937937, "train/extr_return_normed_mean": 0.3780146596366412, "train/extr_return_normed_min": -0.08694703749393763, "train/extr_return_normed_std": 0.33365923533700914, "train/extr_return_rate": 0.7541345986601424, "train/extr_return_raw_mag": 11.764861773138177, "train/extr_return_raw_max": 11.764861773138177, "train/extr_return_raw_mean": 3.022624510608307, "train/extr_return_raw_min": -0.8533348457454002, "train/extr_return_raw_std": 2.7807757691161274, "train/extr_reward_mag": 1.0520421903427333, "train/extr_reward_max": 1.0520421903427333, "train/extr_reward_mean": 0.057652974960534537, "train/extr_reward_min": -0.6737936980103794, "train/extr_reward_std": 0.23100188844007988, "train/image_loss_mean": 3.098083360554421, "train/image_loss_std": 8.294685122084944, "train/model_loss_mean": 6.277158332197634, "train/model_loss_std": 12.433690391174734, "train/model_opt_grad_norm": 28.827256568490643, "train/model_opt_grad_steps": 284724.72602739726, "train/model_opt_loss": 16101.426022046233, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.639771102225944, "train/policy_entropy_max": 2.639771102225944, "train/policy_entropy_mean": 0.4071139280926691, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.575189034008, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40687489101331525, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0239717143855682, "train/policy_randomness_mag": 0.9317233570634502, "train/policy_randomness_max": 0.9317233570634502, "train/policy_randomness_mean": 0.14369335025548935, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20301648596786473, "train/post_ent_mag": 55.014519521634874, "train/post_ent_max": 55.014519521634874, "train/post_ent_mean": 40.763728363873206, "train/post_ent_min": 19.02351225238957, "train/post_ent_std": 5.601630713841686, "train/prior_ent_mag": 76.49312152601269, "train/prior_ent_max": 76.49312152601269, "train/prior_ent_mean": 46.03862454140023, "train/prior_ent_min": 28.587322627028374, "train/prior_ent_std": 7.504352680624348, "train/rep_loss_mean": 5.208723629990669, "train/rep_loss_std": 8.79235844416161, "train/reward_avg": 0.038939426257593994, "train/reward_loss_mean": 0.053780442078227866, "train/reward_loss_std": 0.20422478836693175, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0183405418918556, "train/reward_neg_acc": 0.9945172414387742, "train/reward_neg_loss": 0.022974087882225644, "train/reward_pos_acc": 0.9918295014394473, "train/reward_pos_loss": 0.7256443827119592, "train/reward_pred": 0.03865099147166291, "train/reward_rate": 0.0439185573630137, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5956429143746694, "replay/size": 571666.0, "replay/inserts": 1459.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1726502489765837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4673969517015432e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00514554977417, "timer/env.step_count": 1459.0, "timer/env.step_total": 16.226501941680908, "timer/env.step_frac": 0.05408741210736585, "timer/env.step_avg": 0.011121660001152096, "timer/env.step_min": 0.002324819564819336, "timer/env.step_max": 1.3679325580596924, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3284168243408203, "timer/replay.add_frac": 0.0010947039716234879, "timer/replay.add_avg": 0.00022509720653928739, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0009100437164306641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021181344985961914, "timer/logger.write_frac": 7.06032723110334e-05, "timer/logger.write_avg": 0.021181344985961914, "timer/logger.write_min": 0.021181344985961914, "timer/logger.write_max": 0.021181344985961914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030803680419921875, "timer/checkpoint.save_frac": 1.0267717363138094e-06, "timer/checkpoint.save_avg": 0.00030803680419921875, "timer/checkpoint.save_min": 0.00030803680419921875, "timer/checkpoint.save_max": 0.00030803680419921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.258347749710083, "timer/agent.save_frac": 0.004194420557034444, "timer/agent.save_avg": 1.258347749710083, "timer/agent.save_min": 1.258347749710083, "timer/agent.save_max": 1.258347749710083, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.653236389160156e-05, "timer/replay.save_frac": 2.5510350414607804e-07, "timer/replay.save_avg": 7.653236389160156e-05, "timer/replay.save_min": 7.653236389160156e-05, "timer/replay.save_max": 7.653236389160156e-05, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 14.784221410751343, "timer/agent.policy_frac": 0.04927989279536699, "timer/agent.policy_avg": 0.010133119541296328, "timer/agent.policy_min": 0.0058481693267822266, "timer/agent.policy_max": 2.809828996658325, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05698084831237793, "timer/dataset_frac": 0.00018993290334390006, "timer/dataset_avg": 7.805595659229853e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 730.0, "timer/agent.train_total": 267.96969413757324, "timer/agent.train_frac": 0.8932169934835804, "timer/agent.train_avg": 0.36708177279119625, "timer/agent.train_min": 0.3573496341705322, "timer/agent.train_max": 0.4490232467651367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198987007141113, "timer/agent.report_frac": 0.0007399535420121005, "timer/agent.report_avg": 0.22198987007141113, "timer/agent.report_min": 0.22198987007141113, "timer/agent.report_max": 0.22198987007141113, "fps": 4.863139652794663}
+{"step": 571744, "episode/length": 51.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 3.9000000208616257, "episode/reward_rate": 0.057692307692307696}
+{"step": 571924, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06111111111111111}
+{"step": 572158, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04700854700854701}
+{"step": 572464, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.042483660130718956}
+{"step": 572630, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07228915662650602}
+{"step": 572992, "episode/length": 361.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.03038674033149171}
+{"step": 573183, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
+{"step": 573209, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510166477512669, "train/action_min": 0.0, "train/action_std": 3.4111297130584717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041894051825275294, "train/actor_opt_grad_steps": 285685.0, "train/actor_opt_loss": -14.063873709859076, "train/adv_mag": 0.4340096035519162, "train/adv_max": 0.382404088772632, "train/adv_mean": 0.0019043951141491783, "train/adv_min": -0.3685796454146102, "train/adv_std": 0.04737522387625398, "train/cont_avg": 0.9945365287162162, "train/cont_loss_mean": 1.7077915657445238e-05, "train/cont_loss_std": 0.0004489171237399949, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005176253180621103, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 1.3699690550128241e-05, "train/cont_pred": 0.994527373764966, "train/cont_rate": 0.9945365287162162, "train/dyn_loss_mean": 4.984326575253461, "train/dyn_loss_std": 8.656312478555215, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0150449412900049, "train/extr_critic_critic_opt_grad_steps": 285685.0, "train/extr_critic_critic_opt_loss": 16043.644386085303, "train/extr_critic_mag": 11.280390391478667, "train/extr_critic_max": 11.280390391478667, "train/extr_critic_mean": 2.986740062365661, "train/extr_critic_min": -0.516059435702659, "train/extr_critic_std": 2.7717202934058935, "train/extr_return_normed_mag": 1.4361889458991386, "train/extr_return_normed_max": 1.4361889458991386, "train/extr_return_normed_mean": 0.372237961034517, "train/extr_return_normed_min": -0.08744477002403221, "train/extr_return_normed_std": 0.33129091701797536, "train/extr_return_rate": 0.7492513382757032, "train/extr_return_raw_mag": 12.007689128050933, "train/extr_return_raw_max": 12.007689128050933, "train/extr_return_raw_mean": 3.002876755353567, "train/extr_return_raw_min": -0.8883471605745522, "train/extr_return_raw_std": 2.8041702251176575, "train/extr_reward_mag": 1.052700004062137, "train/extr_reward_max": 1.052700004062137, "train/extr_reward_mean": 0.05537083055320624, "train/extr_reward_min": -0.6806233025885917, "train/extr_reward_std": 0.22785556336512436, "train/image_loss_mean": 2.9821996608295955, "train/image_loss_std": 7.99784534041946, "train/model_loss_mean": 6.026602364875175, "train/model_loss_std": 12.112067222595215, "train/model_opt_grad_norm": 28.12923780647484, "train/model_opt_grad_steps": 285459.0, "train/model_opt_loss": 15066.505832981418, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.632314350153949, "train/policy_entropy_max": 2.632314350153949, "train/policy_entropy_mean": 0.41532662349778254, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5890334357280989, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41517322611164403, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0309425439383533, "train/policy_randomness_mag": 0.929091448719437, "train/policy_randomness_max": 0.929091448719437, "train/policy_randomness_mean": 0.14659207002133937, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20790295232389425, "train/post_ent_mag": 55.470914118998756, "train/post_ent_max": 55.470914118998756, "train/post_ent_mean": 40.94001007080078, "train/post_ent_min": 19.13760515161463, "train/post_ent_std": 5.626287028596208, "train/prior_ent_mag": 76.57924765509529, "train/prior_ent_max": 76.57924765509529, "train/prior_ent_mean": 45.94443455257931, "train/prior_ent_min": 28.484657906197214, "train/prior_ent_std": 7.443906378101659, "train/rep_loss_mean": 4.984326575253461, "train/rep_loss_std": 8.656312478555215, "train/reward_avg": 0.03715820316023923, "train/reward_loss_mean": 0.05378969874535058, "train/reward_loss_std": 0.2151680943128225, "train/reward_max_data": 1.0162162200824634, "train/reward_max_pred": 1.0135311178258948, "train/reward_neg_acc": 0.9941044409532804, "train/reward_neg_loss": 0.023917242179851275, "train/reward_pos_acc": 0.9881567624775139, "train/reward_pos_loss": 0.7366369052513225, "train/reward_pred": 0.036826589874721864, "train/reward_rate": 0.04201858108108108, "stats/sum_log_reward": 9.528571605682373, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4901052585669926, "replay/size": 573146.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1126512063516153e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4060252421611064e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11659717559814, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.801777124404907, "timer/env.step_frac": 0.05598416509625488, "timer/env.step_avg": 0.011352552111084397, "timer/env.step_min": 0.002362966537475586, "timer/env.step_max": 1.368269681930542, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.263535737991333, "timer/replay.add_frac": 0.0008781111756946195, "timer/replay.add_avg": 0.00017806468783198177, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0009219646453857422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021797657012939453, "timer/logger.write_frac": 7.263062828939664e-05, "timer/logger.write_avg": 0.021797657012939453, "timer/logger.write_min": 0.021797657012939453, "timer/logger.write_max": 0.021797657012939453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.514592170715332, "timer/agent.policy_frac": 0.03503502395291803, "timer/agent.policy_avg": 0.007104454169402251, "timer/agent.policy_min": 0.005610227584838867, "timer/agent.policy_max": 0.016126155853271484, "timer/dataset_count": 740.0, "timer/dataset_total": 0.057608842849731445, "timer/dataset_frac": 0.00019195487151290247, "timer/dataset_avg": 7.784978763477223e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.00016069412231445312, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.8352930545807, "timer/agent.train_frac": 0.905765611141892, "timer/agent.train_avg": 0.3673449906142982, "timer/agent.train_min": 0.3609025478363037, "timer/agent.train_max": 0.3816368579864502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.222015380859375, "timer/agent.report_frac": 0.0007397637549831136, "timer/agent.report_avg": 0.222015380859375, "timer/agent.report_min": 0.222015380859375, "timer/agent.report_max": 0.222015380859375, "fps": 4.931304500603362}
+{"step": 573459, "episode/length": 275.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03985507246376811}
+{"step": 573649, "episode/length": 189.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.042105263157894736}
+{"step": 573935, "episode/length": 285.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04895104895104895}
+{"step": 574204, "episode/length": 268.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03717472118959108}
+{"step": 574423, "episode/length": 218.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0639269406392694}
+{"step": 574485, "episode/length": 61.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.12903225806451613}
+{"step": 574668, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.060109289617486336}
+{"step": 574679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.53581443992821, "train/action_min": 0.0, "train/action_std": 3.4312718881143107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04250423439048432, "train/actor_opt_grad_steps": 286425.0, "train/actor_opt_loss": -13.607031011500874, "train/adv_mag": 0.3972382227311263, "train/adv_max": 0.3638457518977088, "train/adv_mean": 0.0015527052197358972, "train/adv_min": -0.3358494077582617, "train/adv_std": 0.047241665573941695, "train/cont_avg": 0.9949984163851351, "train/cont_loss_mean": 8.012631995960553e-05, "train/cont_loss_std": 0.002488989697513406, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.014650729253028695, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 8.631920474640137e-06, "train/cont_pred": 0.9950034586158959, "train/cont_rate": 0.9949984163851351, "train/dyn_loss_mean": 5.125564581639058, "train/dyn_loss_std": 8.698549032211304, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0447132378011137, "train/extr_critic_critic_opt_grad_steps": 286425.0, "train/extr_critic_critic_opt_loss": 16079.347959776182, "train/extr_critic_mag": 11.02632541914244, "train/extr_critic_max": 11.02632541914244, "train/extr_critic_mean": 2.9167989266885295, "train/extr_critic_min": -0.4936850811984088, "train/extr_critic_std": 2.6980258323050834, "train/extr_return_normed_mag": 1.4211145993825551, "train/extr_return_normed_max": 1.4211145993825551, "train/extr_return_normed_mean": 0.3666256714511562, "train/extr_return_normed_min": -0.0758078347488835, "train/extr_return_normed_std": 0.32485597701491536, "train/extr_return_rate": 0.7502323034647349, "train/extr_return_raw_mag": 11.783407920115703, "train/extr_return_raw_max": 11.783407920115703, "train/extr_return_raw_mean": 2.9298289289345614, "train/extr_return_raw_min": -0.7839703229633538, "train/extr_return_raw_std": 2.727377749778129, "train/extr_reward_mag": 1.0500565541757119, "train/extr_reward_max": 1.0500565541757119, "train/extr_reward_mean": 0.054820367160278397, "train/extr_reward_min": -0.6285214714101843, "train/extr_reward_std": 0.2261778394112716, "train/image_loss_mean": 3.0801293221679895, "train/image_loss_std": 8.095799626530829, "train/model_loss_mean": 6.20858240771938, "train/model_loss_std": 12.264909718487713, "train/model_opt_grad_norm": 28.7190763112661, "train/model_opt_grad_steps": 286198.0540540541, "train/model_opt_loss": 8148.494668496622, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1317.5675675675675, "train/policy_entropy_mag": 2.6439134398022213, "train/policy_entropy_max": 2.6439134398022213, "train/policy_entropy_mean": 0.41124797672838775, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5842229941406766, "train/policy_logprob_mag": 7.4383842622911605, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41103878858927134, "train/policy_logprob_min": -7.4383842622911605, "train/policy_logprob_std": 1.0288417049356409, "train/policy_randomness_mag": 0.9331854211317526, "train/policy_randomness_max": 0.9331854211317526, "train/policy_randomness_mean": 0.14515248998194127, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2062050788789182, "train/post_ent_mag": 55.316360370532884, "train/post_ent_max": 55.316360370532884, "train/post_ent_mean": 40.922728151888464, "train/post_ent_min": 19.049926216537887, "train/post_ent_std": 5.667556872238984, "train/prior_ent_mag": 76.527167964626, "train/prior_ent_max": 76.527167964626, "train/prior_ent_mean": 46.05986208529086, "train/prior_ent_min": 28.397307602134912, "train/prior_ent_std": 7.433985252638121, "train/rep_loss_mean": 5.125564581639058, "train/rep_loss_std": 8.698549032211304, "train/reward_avg": 0.03703283329771177, "train/reward_loss_mean": 0.053034279268939756, "train/reward_loss_std": 0.21551002259995486, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.0205063819885254, "train/reward_neg_acc": 0.9950144298978754, "train/reward_neg_loss": 0.02352726853427452, "train/reward_pos_acc": 0.9874346328748239, "train/reward_pos_loss": 0.7313823708005853, "train/reward_pred": 0.03685422171209309, "train/reward_rate": 0.041662267736486486, "stats/sum_log_reward": 9.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5001010320016316, "replay/size": 574616.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0634354571906887e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5135119561435413e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.269583940506, "timer/env.step_count": 1470.0, "timer/env.step_total": 17.973934650421143, "timer/env.step_frac": 0.05985932512559252, "timer/env.step_avg": 0.01222716642885792, "timer/env.step_min": 0.002678394317626953, "timer/env.step_max": 1.4204676151275635, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2658674716949463, "timer/replay.add_frac": 0.0008854292472980681, "timer/replay.add_avg": 0.0001808622256428206, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0007772445678710938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021631479263305664, "timer/logger.write_frac": 7.20401946125573e-05, "timer/logger.write_avg": 0.021631479263305664, "timer/logger.write_min": 0.021631479263305664, "timer/logger.write_max": 0.021631479263305664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.867214679718018, "timer/agent.policy_frac": 0.036191526751078444, "timer/agent.policy_avg": 0.007392663047427223, "timer/agent.policy_min": 0.0058612823486328125, "timer/agent.policy_max": 0.01578998565673828, "timer/dataset_count": 735.0, "timer/dataset_total": 0.058454275131225586, "timer/dataset_frac": 0.00019467264837189584, "timer/dataset_avg": 7.952962602887834e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.45732831954956, "timer/agent.train_frac": 0.9007150333719339, "timer/agent.train_avg": 0.3679691541762579, "timer/agent.train_min": 0.3588571548461914, "timer/agent.train_max": 0.38131189346313477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204139232635498, "timer/agent.report_frac": 0.0007340534474754579, "timer/agent.report_avg": 0.2204139232635498, "timer/agent.report_min": 0.2204139232635498, "timer/agent.report_max": 0.2204139232635498, "fps": 4.8954922017450215}
+{"step": 574885, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05069124423963134}
+{"step": 575213, "episode/length": 327.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.024390243902439025}
+{"step": 575540, "episode/length": 326.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.039755351681957186}
+{"step": 575822, "episode/length": 281.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.03546099290780142}
+{"step": 576157, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570690416309931, "train/action_min": 0.0, "train/action_std": 3.416550051676084, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04601868150168902, "train/actor_opt_grad_steps": 287160.0, "train/actor_opt_loss": -11.583847776667712, "train/adv_mag": 0.4775872704100935, "train/adv_max": 0.44740580900074683, "train/adv_mean": 0.0027778295158011495, "train/adv_min": -0.35920528291839443, "train/adv_std": 0.05068143196914294, "train/cont_avg": 0.9944349315068494, "train/cont_loss_mean": 3.0178658981096665e-05, "train/cont_loss_std": 0.0009043177194902368, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002714997233576394, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 2.8980833387084217e-05, "train/cont_pred": 0.9944127920555742, "train/cont_rate": 0.9944349315068494, "train/dyn_loss_mean": 5.123933746390147, "train/dyn_loss_std": 8.744050248028481, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0928442274054435, "train/extr_critic_critic_opt_grad_steps": 287160.0, "train/extr_critic_critic_opt_loss": 16157.391695205479, "train/extr_critic_mag": 11.28084440100683, "train/extr_critic_max": 11.28084440100683, "train/extr_critic_mean": 2.967622894130341, "train/extr_critic_min": -0.5123008489608765, "train/extr_critic_std": 2.746408919765525, "train/extr_return_normed_mag": 1.4685253999004626, "train/extr_return_normed_max": 1.4685253999004626, "train/extr_return_normed_mean": 0.3754585613943126, "train/extr_return_normed_min": -0.08689571136277016, "train/extr_return_normed_std": 0.33455861104677803, "train/extr_return_rate": 0.7516463701039144, "train/extr_return_raw_mag": 12.108877351839249, "train/extr_return_raw_max": 12.108877351839249, "train/extr_return_raw_mean": 2.990781890202875, "train/extr_return_raw_min": -0.8648591988707242, "train/extr_return_raw_std": 2.7907925011360484, "train/extr_reward_mag": 1.0623957718888375, "train/extr_reward_max": 1.0623957718888375, "train/extr_reward_mean": 0.05454881208604329, "train/extr_reward_min": -0.6787552425306137, "train/extr_reward_std": 0.22668801329723776, "train/image_loss_mean": 3.052532924364691, "train/image_loss_std": 8.146672588505156, "train/model_loss_mean": 6.17982737658775, "train/model_loss_std": 12.300154960318787, "train/model_opt_grad_norm": 29.008299239694256, "train/model_opt_grad_steps": 286933.0, "train/model_opt_loss": 12194.45619515197, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1986.3013698630136, "train/policy_entropy_mag": 2.61291756695264, "train/policy_entropy_max": 2.61291756695264, "train/policy_entropy_mean": 0.40689468220488667, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5824679466959548, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4072772999332376, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0247844710741958, "train/policy_randomness_mag": 0.9222452362922773, "train/policy_randomness_max": 0.9222452362922773, "train/policy_randomness_mean": 0.1436159687295352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20558562527780663, "train/post_ent_mag": 55.17511148322119, "train/post_ent_max": 55.17511148322119, "train/post_ent_mean": 40.81928467423948, "train/post_ent_min": 19.159601080907535, "train/post_ent_std": 5.597606136374278, "train/prior_ent_mag": 76.57123053563784, "train/prior_ent_max": 76.57123053563784, "train/prior_ent_mean": 45.96067083698429, "train/prior_ent_min": 28.128562587581268, "train/prior_ent_std": 7.472647536290835, "train/rep_loss_mean": 5.123933746390147, "train/rep_loss_std": 8.744050248028481, "train/reward_avg": 0.0368712540869027, "train/reward_loss_mean": 0.05290404053991788, "train/reward_loss_std": 0.20460802214602902, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0248994533329794, "train/reward_neg_acc": 0.9943620154302414, "train/reward_neg_loss": 0.02394394031789613, "train/reward_pos_acc": 0.9915424830293003, "train/reward_pos_loss": 0.7174795621061978, "train/reward_pred": 0.036685226204460616, "train/reward_rate": 0.04177814640410959, "stats/sum_log_reward": 9.600000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5130036249756813, "replay/size": 576094.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.138317629513463e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.445977226484451e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1635422706604, "timer/env.step_count": 1478.0, "timer/env.step_total": 13.909988403320312, "timer/env.step_frac": 0.04634136543730397, "timer/env.step_avg": 0.009411358865575313, "timer/env.step_min": 0.0024802684783935547, "timer/env.step_max": 1.2811298370361328, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2995269298553467, "timer/replay.add_frac": 0.0009978791147968941, "timer/replay.add_avg": 0.00020265692141769058, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0040585994720458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019628047943115234, "timer/logger.write_frac": 6.539117907069618e-05, "timer/logger.write_avg": 0.019628047943115234, "timer/logger.write_min": 0.019628047943115234, "timer/logger.write_max": 0.019628047943115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036597251892089844, "timer/checkpoint.save_frac": 1.2192437367723273e-06, "timer/checkpoint.save_avg": 0.00036597251892089844, "timer/checkpoint.save_min": 0.00036597251892089844, "timer/checkpoint.save_max": 0.00036597251892089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2008450031280518, "timer/agent.save_frac": 0.004000635766902158, "timer/agent.save_avg": 1.2008450031280518, "timer/agent.save_min": 1.2008450031280518, "timer/agent.save_max": 1.2008450031280518, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.058547973632812e-05, "timer/replay.save_frac": 2.6847191076810855e-07, "timer/replay.save_avg": 8.058547973632812e-05, "timer/replay.save_min": 8.058547973632812e-05, "timer/replay.save_max": 8.058547973632812e-05, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 14.205962181091309, "timer/agent.policy_frac": 0.04732740716486366, "timer/agent.policy_avg": 0.009611611759872333, "timer/agent.policy_min": 0.005855560302734375, "timer/agent.policy_max": 2.280519962310791, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05915427207946777, "timer/dataset_frac": 0.00019707347412007748, "timer/dataset_avg": 8.004637629156667e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00025010108947753906, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.0541396141052, "timer/agent.train_frac": 0.9030215247449774, "timer/agent.train_avg": 0.36678503330731427, "timer/agent.train_min": 0.3605632781982422, "timer/agent.train_max": 0.3929581642150879, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2227165699005127, "timer/agent.report_frac": 0.0007419840804639992, "timer/agent.report_avg": 0.2227165699005127, "timer/agent.report_min": 0.2227165699005127, "timer/agent.report_max": 0.2227165699005127, "fps": 4.923886781890852}
+{"step": 576177, "episode/length": 354.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.030985915492957747}
+{"step": 576492, "episode/length": 314.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.02857142857142857}
+{"step": 576795, "episode/length": 302.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.052805280528052806}
+{"step": 577055, "episode/length": 259.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.038461538461538464}
+{"step": 577234, "episode/length": 178.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.0670391061452514}
+{"step": 577508, "episode/length": 273.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04744525547445255}
+{"step": 577621, "episode/length": 112.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09734513274336283}
+{"step": 577635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4967329695418075, "train/action_min": 0.0, "train/action_std": 3.36548823923678, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04367500216372915, "train/actor_opt_grad_steps": 287895.0, "train/actor_opt_loss": -11.74175686650985, "train/adv_mag": 0.4340088258723955, "train/adv_max": 0.3944825497833458, "train/adv_mean": 0.0024913934862156196, "train/adv_min": -0.3715308095152314, "train/adv_std": 0.04885384364909417, "train/cont_avg": 0.995090793918919, "train/cont_loss_mean": 0.00026031507917125706, "train/cont_loss_std": 0.008161478814840648, "train/cont_neg_acc": 0.992664093906815, "train/cont_neg_loss": 0.022341079081265612, "train/cont_pos_acc": 0.9999866759454882, "train/cont_pos_loss": 0.0001488154286643581, "train/cont_pred": 0.9950960866502814, "train/cont_rate": 0.995090793918919, "train/dyn_loss_mean": 5.085464445320335, "train/dyn_loss_std": 8.70231955760234, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0987120415713336, "train/extr_critic_critic_opt_grad_steps": 287895.0, "train/extr_critic_critic_opt_loss": 16468.18458350929, "train/extr_critic_mag": 10.937204902236527, "train/extr_critic_max": 10.937204902236527, "train/extr_critic_mean": 2.8722941134427047, "train/extr_critic_min": -0.4744887641958288, "train/extr_critic_std": 2.6675534892726587, "train/extr_return_normed_mag": 1.423896792772654, "train/extr_return_normed_max": 1.423896792772654, "train/extr_return_normed_mean": 0.36354453015971827, "train/extr_return_normed_min": -0.08183455759206333, "train/extr_return_normed_std": 0.3250027343228057, "train/extr_return_rate": 0.7577078431039244, "train/extr_return_raw_mag": 11.702859079515612, "train/extr_return_raw_max": 11.702859079515612, "train/extr_return_raw_mean": 2.893001358251314, "train/extr_return_raw_min": -0.8077155967821946, "train/extr_return_raw_std": 2.700505424190212, "train/extr_reward_mag": 1.06153772328351, "train/extr_reward_max": 1.06153772328351, "train/extr_reward_mean": 0.053157831013605404, "train/extr_reward_min": -0.651116529026547, "train/extr_reward_std": 0.22338860300747124, "train/image_loss_mean": 3.0994093047605977, "train/image_loss_std": 8.247036405511805, "train/model_loss_mean": 6.2007841677279085, "train/model_loss_std": 12.371674112371496, "train/model_opt_grad_norm": 26.757913808564883, "train/model_opt_grad_steps": 287667.86486486485, "train/model_opt_loss": 16884.30518897804, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.636797080168853, "train/policy_entropy_max": 2.636797080168853, "train/policy_entropy_mean": 0.3967974361132931, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5744294141595429, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39689983326841044, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0194454926091272, "train/policy_randomness_mag": 0.9306736580423407, "train/policy_randomness_max": 0.9306736580423407, "train/policy_randomness_mean": 0.14005208297355756, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2027483749631289, "train/post_ent_mag": 54.915000967077304, "train/post_ent_max": 54.915000967077304, "train/post_ent_mean": 41.1003911817396, "train/post_ent_min": 19.273787923761315, "train/post_ent_std": 5.6038376511754215, "train/prior_ent_mag": 76.49571506397145, "train/prior_ent_max": 76.49571506397145, "train/prior_ent_mean": 46.169419675259974, "train/prior_ent_min": 28.677131137332402, "train/prior_ent_std": 7.338340901039742, "train/rep_loss_mean": 5.085464445320335, "train/rep_loss_std": 8.70231955760234, "train/reward_avg": 0.03495961756168588, "train/reward_loss_mean": 0.0498359403698831, "train/reward_loss_std": 0.19498045098137212, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.0236225611454732, "train/reward_neg_acc": 0.994396713939873, "train/reward_neg_loss": 0.02195077358015083, "train/reward_pos_acc": 0.9888026464629818, "train/reward_pos_loss": 0.72851115545711, "train/reward_pred": 0.03460079031316815, "train/reward_rate": 0.03937922297297297, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5619121555771146, "replay/size": 577572.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.17074126577829e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4466426369301844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0074269771576, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.78739905357361, "timer/env.step_frac": 0.055956611550326024, "timer/env.step_avg": 0.011358186098493647, "timer/env.step_min": 0.0024559497833251953, "timer/env.step_max": 1.2653076648712158, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2717876434326172, "timer/replay.add_frac": 0.0009059363835459679, "timer/replay.add_avg": 0.00018388879799229851, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008091926574707031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02297806739807129, "timer/logger.write_frac": 7.6591661845161e-05, "timer/logger.write_avg": 0.02297806739807129, "timer/logger.write_min": 0.02297806739807129, "timer/logger.write_max": 0.02297806739807129, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.653214693069458, "timer/agent.policy_frac": 0.035509836541081995, "timer/agent.policy_avg": 0.007207858385026697, "timer/agent.policy_min": 0.0058405399322509766, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05857563018798828, "timer/dataset_frac": 0.00019524726696998804, "timer/dataset_avg": 7.92633696725146e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.5783226490021, "timer/agent.train_frac": 0.9052386648737196, "timer/agent.train_avg": 0.3674943472922897, "timer/agent.train_min": 0.3585696220397949, "timer/agent.train_max": 0.3815469741821289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22416973114013672, "timer/agent.report_frac": 0.0007472139386642747, "timer/agent.report_avg": 0.22416973114013672, "timer/agent.report_min": 0.22416973114013672, "timer/agent.report_max": 0.22416973114013672, "fps": 4.926431983164203}
+{"step": 577803, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04945054945054945}
+{"step": 578104, "episode/length": 300.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.026578073089700997}
+{"step": 578401, "episode/length": 296.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.037037037037037035}
+{"step": 578570, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 578759, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06349206349206349}
+{"step": 578932, "episode/length": 172.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.057803468208092484}
+{"step": 579111, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392399143528294, "train/action_min": 0.0, "train/action_std": 3.2669493990975456, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04425862612756523, "train/actor_opt_grad_steps": 288635.0, "train/actor_opt_loss": -11.102201086443824, "train/adv_mag": 0.4389431106077658, "train/adv_max": 0.40512561677275477, "train/adv_mean": 0.0029263736198756945, "train/adv_min": -0.3707051377844166, "train/adv_std": 0.04930704142394904, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 3.3833389001512317e-05, "train/cont_loss_std": 0.0010616741318523974, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0060795697382992646, "train/cont_pos_acc": 0.9999999790578276, "train/cont_pos_loss": 2.2519575433970865e-06, "train/cont_pred": 0.9948446557328507, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.040417332906981, "train/dyn_loss_std": 8.721208340412861, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0809477962352134, "train/extr_critic_critic_opt_grad_steps": 288635.0, "train/extr_critic_critic_opt_loss": 16235.448822846283, "train/extr_critic_mag": 11.17345178449476, "train/extr_critic_max": 11.17345178449476, "train/extr_critic_mean": 3.0428529671720557, "train/extr_critic_min": -0.46711990801063746, "train/extr_critic_std": 2.7044819915616833, "train/extr_return_normed_mag": 1.4184874280078992, "train/extr_return_normed_max": 1.4184874280078992, "train/extr_return_normed_mean": 0.3773900348995183, "train/extr_return_normed_min": -0.08072419517447015, "train/extr_return_normed_std": 0.32580972845489914, "train/extr_return_rate": 0.7698673694520384, "train/extr_return_raw_mag": 11.81905376588976, "train/extr_return_raw_max": 11.81905376588976, "train/extr_return_raw_mean": 3.0674415295188493, "train/extr_return_raw_min": -0.7833186142347954, "train/extr_return_raw_std": 2.7386740574965605, "train/extr_reward_mag": 1.0521754026412964, "train/extr_reward_max": 1.0521754026412964, "train/extr_reward_mean": 0.053746858259310595, "train/extr_reward_min": -0.6404512266854983, "train/extr_reward_std": 0.22409432804262316, "train/image_loss_mean": 2.992922641135551, "train/image_loss_std": 7.998919764080563, "train/model_loss_mean": 6.069527522937672, "train/model_loss_std": 12.15827227927543, "train/model_opt_grad_norm": 29.734526067166716, "train/model_opt_grad_steps": 288407.0, "train/model_opt_loss": 15173.818768475507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6336845997217537, "train/policy_entropy_max": 2.6336845997217537, "train/policy_entropy_mean": 0.3950871070091789, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.566312700510025, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3953508370228716, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0194303409473315, "train/policy_randomness_mag": 0.9295750864454217, "train/policy_randomness_max": 0.9295750864454217, "train/policy_randomness_mean": 0.13944841206476494, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19988353248383547, "train/post_ent_mag": 54.680049226090716, "train/post_ent_max": 54.680049226090716, "train/post_ent_mean": 40.97165819116541, "train/post_ent_min": 18.887500608289564, "train/post_ent_std": 5.587506790418883, "train/prior_ent_mag": 76.53902012593038, "train/prior_ent_max": 76.53902012593038, "train/prior_ent_mean": 46.02328537605904, "train/prior_ent_min": 28.261814864906103, "train/prior_ent_std": 7.376139331508327, "train/rep_loss_mean": 5.040417332906981, "train/rep_loss_std": 8.721208340412861, "train/reward_avg": 0.036279297031059456, "train/reward_loss_mean": 0.052320622209761594, "train/reward_loss_std": 0.2114084709335018, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.020984340358425, "train/reward_neg_acc": 0.9941306589422999, "train/reward_neg_loss": 0.02325339403909606, "train/reward_pos_acc": 0.989747236709337, "train/reward_pos_loss": 0.7324583619027525, "train/reward_pred": 0.03624433112909665, "train/reward_rate": 0.041068412162162164, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4754299074411392, "replay/size": 579048.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.1611460657300664e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4382043505102638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3394274711609, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.679502964019775, "timer/env.step_frac": 0.055535508955517905, "timer/env.step_avg": 0.011300476262886027, "timer/env.step_min": 0.002509593963623047, "timer/env.step_max": 1.5302536487579346, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.267958402633667, "timer/replay.add_frac": 0.0008921852348519803, "timer/replay.add_avg": 0.0001815436332206416, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008196830749511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020663738250732422, "timer/logger.write_frac": 6.880128401628717e-05, "timer/logger.write_avg": 0.020663738250732422, "timer/logger.write_min": 0.020663738250732422, "timer/logger.write_max": 0.020663738250732422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.811437845230103, "timer/agent.policy_frac": 0.03599739779842337, "timer/agent.policy_avg": 0.007324822388367278, "timer/agent.policy_min": 0.005831003189086914, "timer/agent.policy_max": 0.018822908401489258, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05937838554382324, "timer/dataset_frac": 0.0001977042642845314, "timer/dataset_avg": 8.045851699705046e-05, "timer/dataset_min": 5.14984130859375e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.86877632141113, "timer/agent.train_frac": 0.9052050828308795, "timer/agent.train_avg": 0.36838587577426984, "timer/agent.train_min": 0.3607609272003174, "timer/agent.train_max": 0.38339948654174805, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22143340110778809, "timer/agent.report_frac": 0.0007372771632823683, "timer/agent.report_avg": 0.22143340110778809, "timer/agent.report_min": 0.22143340110778809, "timer/agent.report_max": 0.22143340110778809, "fps": 4.9143268478200905}
+{"step": 579134, "episode/length": 201.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0594059405940594}
+{"step": 579319, "episode/length": 184.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06486486486486487}
+{"step": 579522, "episode/length": 202.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06403940886699508}
+{"step": 579771, "episode/length": 248.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04819277108433735}
+{"step": 580081, "episode/length": 309.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.02903225806451613}
+{"step": 580240, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06918238993710692}
+{"step": 580531, "episode/length": 290.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.041237113402061855}
+{"step": 580567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473937152183219, "train/action_min": 0.0, "train/action_std": 3.3912541147780746, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04235509185962481, "train/actor_opt_grad_steps": 289370.0, "train/actor_opt_loss": -12.135833043349932, "train/adv_mag": 0.4352730357483642, "train/adv_max": 0.38731634249425917, "train/adv_mean": 0.0017555836152683222, "train/adv_min": -0.36529744855345114, "train/adv_std": 0.04777031846038283, "train/cont_avg": 0.9951840753424658, "train/cont_loss_mean": 7.297991640089546e-05, "train/cont_loss_std": 0.002274780158092828, "train/cont_neg_acc": 0.9915525121231602, "train/cont_neg_loss": 0.013949579954314312, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.5023578268550786e-06, "train/cont_pred": 0.9952099796843855, "train/cont_rate": 0.9951840753424658, "train/dyn_loss_mean": 5.149248181957088, "train/dyn_loss_std": 8.765618245895595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0654705591397742, "train/extr_critic_critic_opt_grad_steps": 289370.0, "train/extr_critic_critic_opt_loss": 16402.209198416094, "train/extr_critic_mag": 11.03199479351305, "train/extr_critic_max": 11.03199479351305, "train/extr_critic_mean": 2.833481112571612, "train/extr_critic_min": -0.4809858880630911, "train/extr_critic_std": 2.6333039525437028, "train/extr_return_normed_mag": 1.4032979419786635, "train/extr_return_normed_max": 1.4032979419786635, "train/extr_return_normed_mean": 0.3509309802153339, "train/extr_return_normed_min": -0.0803876391879908, "train/extr_return_normed_std": 0.3155061492364701, "train/extr_return_rate": 0.7686002123845767, "train/extr_return_raw_mag": 11.735340954506235, "train/extr_return_raw_max": 11.735340954506235, "train/extr_return_raw_mean": 2.8482927181949353, "train/extr_return_raw_min": -0.7939973702169445, "train/extr_return_raw_std": 2.664343876381443, "train/extr_reward_mag": 1.059680167942831, "train/extr_reward_max": 1.059680167942831, "train/extr_reward_mean": 0.05277396447650374, "train/extr_reward_min": -0.6550476208125076, "train/extr_reward_std": 0.22194354379013792, "train/image_loss_mean": 3.1050783722368007, "train/image_loss_std": 8.150662703056858, "train/model_loss_mean": 6.2457016330875765, "train/model_loss_std": 12.371764392068942, "train/model_opt_grad_norm": 29.732887176618185, "train/model_opt_grad_steps": 289141.2191780822, "train/model_opt_loss": 15614.25409353596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6366362767676783, "train/policy_entropy_max": 2.6366362767676783, "train/policy_entropy_mean": 0.40482253999742746, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756796941365281, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.403549947559017, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0180937892770114, "train/policy_randomness_mag": 0.9306169021619509, "train/policy_randomness_max": 0.9306169021619509, "train/policy_randomness_mean": 0.14288459371214043, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2031896695086401, "train/post_ent_mag": 54.88514239167514, "train/post_ent_max": 54.88514239167514, "train/post_ent_mean": 40.84243220499117, "train/post_ent_min": 18.92293528987937, "train/post_ent_std": 5.632770721226523, "train/prior_ent_mag": 76.65449335803724, "train/prior_ent_max": 76.65449335803724, "train/prior_ent_mean": 46.009208731455345, "train/prior_ent_min": 28.056156550368218, "train/prior_ent_std": 7.442121460013194, "train/rep_loss_mean": 5.149248181957088, "train/rep_loss_std": 8.765618245895595, "train/reward_avg": 0.035752889228193724, "train/reward_loss_mean": 0.051001417463364666, "train/reward_loss_std": 0.2018190957095525, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0264364856563202, "train/reward_neg_acc": 0.9940515332026024, "train/reward_neg_loss": 0.022453995632033232, "train/reward_pos_acc": 0.9901834481383023, "train/reward_pos_loss": 0.7288483658882037, "train/reward_pred": 0.03542069802443459, "train/reward_rate": 0.040333369006849314, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.34382981274809155, "replay/size": 580504.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.1374313019134185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.430511474609375e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2633216381073, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.08996343612671, "timer/env.step_frac": 0.05691658689077052, "timer/env.step_avg": 0.011737612250087025, "timer/env.step_min": 0.002498626708984375, "timer/env.step_max": 1.2880444526672363, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26521992683410645, "timer/replay.add_frac": 0.0008832911238947894, "timer/replay.add_avg": 0.0001821565431552929, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008144378662109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030457496643066406, "timer/logger.write_frac": 0.0001014359545378484, "timer/logger.write_avg": 0.030457496643066406, "timer/logger.write_min": 0.030457496643066406, "timer/logger.write_max": 0.030457496643066406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001881122589111328, "timer/checkpoint.save_frac": 6.264909676109402e-07, "timer/checkpoint.save_avg": 0.0001881122589111328, "timer/checkpoint.save_min": 0.0001881122589111328, "timer/checkpoint.save_max": 0.0001881122589111328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.505666732788086, "timer/agent.save_frac": 0.0050144876989098005, "timer/agent.save_avg": 1.505666732788086, "timer/agent.save_min": 1.505666732788086, "timer/agent.save_max": 1.505666732788086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8823348699971013e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 14.886173486709595, "timer/agent.policy_frac": 0.049577062577930084, "timer/agent.policy_avg": 0.010224020251860986, "timer/agent.policy_min": 0.005878925323486328, "timer/agent.policy_max": 2.8001272678375244, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0573267936706543, "timer/dataset_frac": 0.00019092173282405595, "timer/dataset_avg": 7.87455957014482e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 728.0, "timer/agent.train_total": 267.3122007846832, "timer/agent.train_frac": 0.890259254198425, "timer/agent.train_avg": 0.3671870889899495, "timer/agent.train_min": 0.3575291633605957, "timer/agent.train_max": 0.45362186431884766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22273612022399902, "timer/agent.report_frac": 0.0007418026251386508, "timer/agent.report_avg": 0.22273612022399902, "timer/agent.report_min": 0.22273612022399902, "timer/agent.report_max": 0.22273612022399902, "fps": 4.848965923229212}
+{"step": 580608, "episode/length": 76.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.11688311688311688}
+{"step": 580823, "episode/length": 214.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06511627906976744}
+{"step": 580923, "episode/length": 99.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.08}
+{"step": 581143, "episode/length": 219.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.100000075995922, "episode/reward_rate": 0.05454545454545454}
+{"step": 581298, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07096774193548387}
+{"step": 581552, "episode/length": 253.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.047244094488188976}
+{"step": 581768, "episode/length": 215.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05555555555555555}
+{"step": 581847, "episode/length": 78.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.08860759493670886}
+{"step": 581905, "episode/length": 57.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.10344827586206896}
+{"step": 582031, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522391541363442, "train/action_min": 0.0, "train/action_std": 3.4050622410970193, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043485727467357294, "train/actor_opt_grad_steps": 290100.0, "train/actor_opt_loss": -10.763599800328686, "train/adv_mag": 0.4260792924116736, "train/adv_max": 0.3816222123903771, "train/adv_mean": 0.0024337237956350605, "train/adv_min": -0.3624845853407089, "train/adv_std": 0.04914083734971203, "train/cont_avg": 0.9946355950342466, "train/cont_loss_mean": 8.360833060559755e-05, "train/cont_loss_std": 0.0026476695839941795, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.007936284371344424, "train/cont_pos_acc": 0.9999730513520437, "train/cont_pos_loss": 5.1533636057143895e-05, "train/cont_pred": 0.9946251878999683, "train/cont_rate": 0.9946355950342466, "train/dyn_loss_mean": 5.192508854278146, "train/dyn_loss_std": 8.67734993320622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1044359027522883, "train/extr_critic_critic_opt_grad_steps": 290100.0, "train/extr_critic_critic_opt_loss": 16460.558045269692, "train/extr_critic_mag": 11.09616334470984, "train/extr_critic_max": 11.09616334470984, "train/extr_critic_mean": 2.881550034431562, "train/extr_critic_min": -0.4946690765145707, "train/extr_critic_std": 2.679095054325992, "train/extr_return_normed_mag": 1.428396224975586, "train/extr_return_normed_max": 1.428396224975586, "train/extr_return_normed_mean": 0.3643777754208813, "train/extr_return_normed_min": -0.0793922803785703, "train/extr_return_normed_std": 0.32663881656241744, "train/extr_return_rate": 0.7552262103720887, "train/extr_return_raw_mag": 11.733259958763645, "train/extr_return_raw_max": 11.733259958763645, "train/extr_return_raw_mean": 2.9017025607905977, "train/extr_return_raw_min": -0.7831913559404138, "train/extr_return_raw_std": 2.711835532972257, "train/extr_reward_mag": 1.0536785027752185, "train/extr_reward_max": 1.0536785027752185, "train/extr_reward_mean": 0.055929637475781245, "train/extr_reward_min": -0.6308601882359753, "train/extr_reward_std": 0.22769456999759152, "train/image_loss_mean": 2.985765764158066, "train/image_loss_std": 7.647725340438216, "train/model_loss_mean": 6.153471541731325, "train/model_loss_std": 11.811263411012414, "train/model_opt_grad_norm": 28.591660225228086, "train/model_opt_grad_steps": 289870.1369863014, "train/model_opt_loss": 8713.118538634419, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.65017986950809, "train/policy_entropy_max": 2.65017986950809, "train/policy_entropy_mean": 0.40613845358156175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5804794018399225, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40666867772193804, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0260416808193678, "train/policy_randomness_mag": 0.9353971914069293, "train/policy_randomness_max": 0.9353971914069293, "train/policy_randomness_mean": 0.14334905270027787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20488375547814042, "train/post_ent_mag": 55.03258697300741, "train/post_ent_max": 55.03258697300741, "train/post_ent_mean": 40.95327278032695, "train/post_ent_min": 19.09446264293096, "train/post_ent_std": 5.637523357182333, "train/prior_ent_mag": 76.52714360903387, "train/prior_ent_max": 76.52714360903387, "train/prior_ent_mean": 46.19123829880806, "train/prior_ent_min": 28.456181095071035, "train/prior_ent_std": 7.41031031412621, "train/rep_loss_mean": 5.192508854278146, "train/rep_loss_std": 8.67734993320622, "train/reward_avg": 0.03662376886565391, "train/reward_loss_mean": 0.05211682821789833, "train/reward_loss_std": 0.20391367682038922, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0224576584280354, "train/reward_neg_acc": 0.9943076053710833, "train/reward_neg_loss": 0.023470057633845774, "train/reward_pos_acc": 0.9908169140554455, "train/reward_pos_loss": 0.7179133116382442, "train/reward_pred": 0.036454523364975025, "train/reward_rate": 0.041323309075342464, "stats/sum_log_reward": 8.877778000301785, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 9.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.34511368804507786, "replay/size": 581968.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.076641937422622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.49697635343166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0401396751404, "timer/env.step_count": 1464.0, "timer/env.step_total": 19.469134092330933, "timer/env.step_frac": 0.06488843163921522, "timer/env.step_avg": 0.013298588860881784, "timer/env.step_min": 0.002641916275024414, "timer/env.step_max": 1.3718454837799072, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2569448947906494, "timer/replay.add_frac": 0.0008563684014707129, "timer/replay.add_avg": 0.00017550880791711025, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0008656978607177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02100205421447754, "timer/logger.write_frac": 6.999748179432557e-05, "timer/logger.write_avg": 0.02100205421447754, "timer/logger.write_min": 0.02100205421447754, "timer/logger.write_max": 0.02100205421447754, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.571529150009155, "timer/agent.policy_frac": 0.03523371626694737, "timer/agent.policy_avg": 0.0072209898565636305, "timer/agent.policy_min": 0.005971670150756836, "timer/agent.policy_max": 0.015036344528198242, "timer/dataset_count": 732.0, "timer/dataset_total": 0.0580291748046875, "timer/dataset_frac": 0.00019340470534214815, "timer/dataset_avg": 7.927482896815233e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00015115737915039062, "timer/agent.train_count": 732.0, "timer/agent.train_total": 269.024286031723, "timer/agent.train_frac": 0.8966276522967932, "timer/agent.train_avg": 0.3675195164367801, "timer/agent.train_min": 0.3606593608856201, "timer/agent.train_max": 0.38137078285217285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2221217155456543, "timer/agent.report_frac": 0.0007403066662552218, "timer/agent.report_avg": 0.2221217155456543, "timer/agent.report_min": 0.2221217155456543, "timer/agent.report_max": 0.2221217155456543, "fps": 4.879242616662467}
+{"step": 582125, "episode/length": 219.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05454545454545454}
+{"step": 582412, "episode/length": 286.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.041811846689895474}
+{"step": 582701, "episode/length": 288.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04498269896193772}
+{"step": 582861, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.075}
+{"step": 582956, "episode/length": 94.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.299999982118607, "episode/reward_rate": 0.10526315789473684}
+{"step": 583177, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
+{"step": 583393, "episode/length": 215.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.5, "episode/reward_rate": 0.046296296296296294}
+{"step": 583505, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472058270428632, "train/action_min": 0.0, "train/action_std": 3.319793588406331, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043715635213900254, "train/actor_opt_grad_steps": 290835.0, "train/actor_opt_loss": -12.432365551993653, "train/adv_mag": 0.460722122643445, "train/adv_max": 0.42551716437210907, "train/adv_mean": 0.0021650323457121172, "train/adv_min": -0.3632235754583333, "train/adv_std": 0.04877521097660065, "train/cont_avg": 0.9944969383445946, "train/cont_loss_mean": 0.00010322090347820663, "train/cont_loss_std": 0.003226405018641633, "train/cont_neg_acc": 0.9958172472747596, "train/cont_neg_loss": 0.014455343776641922, "train/cont_pos_acc": 0.999999976641423, "train/cont_pos_loss": 1.2106735590069053e-05, "train/cont_pred": 0.9945142977946514, "train/cont_rate": 0.9944969383445946, "train/dyn_loss_mean": 5.317223748645267, "train/dyn_loss_std": 8.881722695118672, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047598659992218, "train/extr_critic_critic_opt_grad_steps": 290835.0, "train/extr_critic_critic_opt_loss": 16110.748561549832, "train/extr_critic_mag": 11.472994611069963, "train/extr_critic_max": 11.472994611069963, "train/extr_critic_mean": 3.013830658551809, "train/extr_critic_min": -0.4501828293542604, "train/extr_critic_std": 2.821000458420934, "train/extr_return_normed_mag": 1.47382438988299, "train/extr_return_normed_max": 1.47382438988299, "train/extr_return_normed_mean": 0.37651454113625193, "train/extr_return_normed_min": -0.07927994530748676, "train/extr_return_normed_std": 0.34071239164552175, "train/extr_return_rate": 0.7381713132600527, "train/extr_return_raw_mag": 12.24263521142908, "train/extr_return_raw_max": 12.24263521142908, "train/extr_return_raw_mean": 3.0320080293191447, "train/extr_return_raw_min": -0.7931214297139967, "train/extr_return_raw_std": 2.859724418537037, "train/extr_reward_mag": 1.0529361061147742, "train/extr_reward_max": 1.0529361061147742, "train/extr_reward_mean": 0.05460957236386634, "train/extr_reward_min": -0.6307922182856379, "train/extr_reward_std": 0.22604597400169116, "train/image_loss_mean": 3.136455983728976, "train/image_loss_std": 8.09213782001186, "train/model_loss_mean": 6.380794228734197, "train/model_loss_std": 12.27855919502877, "train/model_opt_grad_norm": 27.584074742085225, "train/model_opt_grad_steps": 290605.0, "train/model_opt_loss": 11812.10584485853, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.6522525871122204, "train/policy_entropy_max": 2.6522525871122204, "train/policy_entropy_mean": 0.4044038621154991, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.577123561018222, "train/policy_logprob_mag": 7.438384210741198, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40448184935627757, "train/policy_logprob_min": -7.438384210741198, "train/policy_logprob_std": 1.0249900648722778, "train/policy_randomness_mag": 0.9361287733993015, "train/policy_randomness_max": 0.9361287733993015, "train/policy_randomness_mean": 0.1427368173325384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20369928974557566, "train/post_ent_mag": 55.55195076401169, "train/post_ent_max": 55.55195076401169, "train/post_ent_mean": 41.032766342163086, "train/post_ent_min": 19.259676340464, "train/post_ent_std": 5.660827146994101, "train/prior_ent_mag": 76.57630652350349, "train/prior_ent_max": 76.57630652350349, "train/prior_ent_mean": 46.365405417777396, "train/prior_ent_min": 28.239995698671084, "train/prior_ent_std": 7.435694700962788, "train/rep_loss_mean": 5.317223748645267, "train/rep_loss_std": 8.881722695118672, "train/reward_avg": 0.03796716593205929, "train/reward_loss_mean": 0.053900820228296356, "train/reward_loss_std": 0.204301650661069, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0187477936615814, "train/reward_neg_acc": 0.9940283483750111, "train/reward_neg_loss": 0.02382107326962255, "train/reward_pos_acc": 0.9908735123840539, "train/reward_pos_loss": 0.7241143141243909, "train/reward_pred": 0.03757283859256957, "train/reward_rate": 0.042876372466216214, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3102052105324609, "replay/size": 583442.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.1567008071547447e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4865171957857087e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2565050125122, "timer/env.step_count": 1474.0, "timer/env.step_total": 17.47355890274048, "timer/env.step_frac": 0.05819543827039592, "timer/env.step_avg": 0.011854517573093947, "timer/env.step_min": 0.002270221710205078, "timer/env.step_max": 1.3649652004241943, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.2619946002960205, "timer/replay.add_frac": 0.000872569273012429, "timer/replay.add_avg": 0.00017774396220896914, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0008046627044677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033002614974975586, "timer/logger.write_frac": 0.00010991473764606801, "timer/logger.write_avg": 0.033002614974975586, "timer/logger.write_min": 0.033002614974975586, "timer/logger.write_max": 0.033002614974975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.767171621322632, "timer/agent.policy_frac": 0.03585991124779776, "timer/agent.policy_avg": 0.007304729729526887, "timer/agent.policy_min": 0.0058710575103759766, "timer/agent.policy_max": 0.017485618591308594, "timer/dataset_count": 737.0, "timer/dataset_total": 0.06089663505554199, "timer/dataset_frac": 0.0002028153729858553, "timer/dataset_avg": 8.262772734808955e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0002536773681640625, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.02473998069763, "timer/agent.train_frac": 0.9026440242132425, "timer/agent.train_avg": 0.36774048844056667, "timer/agent.train_min": 0.36102819442749023, "timer/agent.train_max": 0.38513803482055664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22448015213012695, "timer/agent.report_frac": 0.0007476279393872665, "timer/agent.report_avg": 0.22448015213012695, "timer/agent.report_min": 0.22448015213012695, "timer/agent.report_max": 0.22448015213012695, "fps": 4.909020987869151}
+{"step": 583666, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04395604395604396}
+{"step": 583885, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.0547945205479452}
+{"step": 584135, "episode/length": 249.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.044}
+{"step": 584292, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07006369426751592}
+{"step": 584455, "episode/length": 162.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06748466257668712}
+{"step": 584681, "episode/length": 225.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.048672566371681415}
+{"step": 584846, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
+{"step": 584927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382015604368398, "train/action_min": 0.0, "train/action_std": 3.2667408023082034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04469891831698552, "train/actor_opt_grad_steps": 291560.0, "train/actor_opt_loss": -10.463492319197721, "train/adv_mag": 0.4375267876705653, "train/adv_max": 0.4038506972957665, "train/adv_mean": 0.003144303881514057, "train/adv_min": -0.365582942752771, "train/adv_std": 0.04976678587181468, "train/cont_avg": 0.9951309419014085, "train/cont_loss_mean": 0.00023985336928078628, "train/cont_loss_std": 0.00747534584762197, "train/cont_neg_acc": 0.9857142865657806, "train/cont_neg_loss": 0.054146772418633714, "train/cont_pos_acc": 0.9999861717224121, "train/cont_pos_loss": 5.442800786856334e-05, "train/cont_pred": 0.9951562226658136, "train/cont_rate": 0.9951309419014085, "train/dyn_loss_mean": 5.1262895355761895, "train/dyn_loss_std": 8.726117651227494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0936308016239757, "train/extr_critic_critic_opt_grad_steps": 291560.0, "train/extr_critic_critic_opt_loss": 16478.240481954224, "train/extr_critic_mag": 11.295876650743082, "train/extr_critic_max": 11.295876650743082, "train/extr_critic_mean": 2.997370892847088, "train/extr_critic_min": -0.4496841867205123, "train/extr_critic_std": 2.67809633302017, "train/extr_return_normed_mag": 1.4352085086661326, "train/extr_return_normed_max": 1.4352085086661326, "train/extr_return_normed_mean": 0.36900158604265937, "train/extr_return_normed_min": -0.07585571774504554, "train/extr_return_normed_std": 0.3196233546649906, "train/extr_return_rate": 0.7706747390854527, "train/extr_return_raw_mag": 12.093468746668856, "train/extr_return_raw_max": 12.093468746668856, "train/extr_return_raw_mean": 3.024132187937347, "train/extr_return_raw_min": -0.7599595596253033, "train/extr_return_raw_std": 2.7187091699788266, "train/extr_reward_mag": 1.0605353771800725, "train/extr_reward_max": 1.0605353771800725, "train/extr_reward_mean": 0.05625785714094068, "train/extr_reward_min": -0.6247233034859241, "train/extr_reward_std": 0.22869415455301043, "train/image_loss_mean": 3.081947430758409, "train/image_loss_std": 8.073316056963424, "train/model_loss_mean": 6.210081174340047, "train/model_loss_std": 12.19491620130942, "train/model_opt_grad_norm": 27.221524077402034, "train/model_opt_grad_steps": 291329.9014084507, "train/model_opt_loss": 15782.756299515846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.6458104697751326, "train/policy_entropy_max": 2.6458104697751326, "train/policy_entropy_mean": 0.3816292558757352, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5462875156335427, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3809779811073357, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.0005230668564917, "train/policy_randomness_mag": 0.933854985405022, "train/policy_randomness_max": 0.933854985405022, "train/policy_randomness_mean": 0.13469837973235357, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19281552060389182, "train/post_ent_mag": 55.15173861006616, "train/post_ent_max": 55.15173861006616, "train/post_ent_mean": 41.04884424343915, "train/post_ent_min": 19.380139095682495, "train/post_ent_std": 5.665866019020618, "train/prior_ent_mag": 76.66024328957141, "train/prior_ent_max": 76.66024328957141, "train/prior_ent_mean": 46.17323061446069, "train/prior_ent_min": 28.55039897435148, "train/prior_ent_std": 7.386079573295485, "train/rep_loss_mean": 5.1262895355761895, "train/rep_loss_std": 8.726117651227494, "train/reward_avg": 0.03821660415597365, "train/reward_loss_mean": 0.052120147194241136, "train/reward_loss_std": 0.20849106870066952, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0233541172994693, "train/reward_neg_acc": 0.9945548017260054, "train/reward_neg_loss": 0.021945314494971658, "train/reward_pos_acc": 0.9857308797433343, "train/reward_pos_loss": 0.7298669806668456, "train/reward_pred": 0.037953762153924354, "train/reward_rate": 0.04259738116197183, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3707394472190312, "replay/size": 584864.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.341045728380335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3539517814432352e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25978660583496, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.58782458305359, "timer/env.step_frac": 0.07189715555014677, "timer/env.step_avg": 0.01518131123984078, "timer/env.step_min": 0.002642393112182617, "timer/env.step_max": 1.7822864055633545, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.29804158210754395, "timer/replay.add_frac": 0.0009926123823527425, "timer/replay.add_avg": 0.00020959323636254848, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008196830749511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0312650203704834, "timer/logger.write_frac": 0.00010412656561141985, "timer/logger.write_avg": 0.0312650203704834, "timer/logger.write_min": 0.0312650203704834, "timer/logger.write_max": 0.0312650203704834, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00031304359436035156, "timer/checkpoint.save_frac": 1.0425758237525776e-06, "timer/checkpoint.save_avg": 0.00031304359436035156, "timer/checkpoint.save_min": 0.00031304359436035156, "timer/checkpoint.save_max": 0.00031304359436035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1139280796051025, "timer/agent.save_frac": 0.0037098810073671567, "timer/agent.save_avg": 1.1139280796051025, "timer/agent.save_min": 1.1139280796051025, "timer/agent.save_max": 1.1139280796051025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.841255187988281e-05, "timer/replay.save_frac": 1.9454004327447183e-07, "timer/replay.save_avg": 5.841255187988281e-05, "timer/replay.save_min": 5.841255187988281e-05, "timer/replay.save_max": 5.841255187988281e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.37863039970398, "timer/agent.policy_frac": 0.041226401109629725, "timer/agent.policy_avg": 0.008705084669271433, "timer/agent.policy_min": 0.006004810333251953, "timer/agent.policy_max": 1.1050059795379639, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05885910987854004, "timer/dataset_frac": 0.00019602728205428036, "timer/dataset_avg": 8.278355819766532e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.2526876926422, "timer/agent.train_frac": 0.8834106314771075, "timer/agent.train_avg": 0.3730698842371902, "timer/agent.train_min": 0.3658578395843506, "timer/agent.train_max": 0.8344855308532715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153949737548828, "timer/agent.report_frac": 0.0007378260668196422, "timer/agent.report_avg": 0.22153949737548828, "timer/agent.report_min": 0.22153949737548828, "timer/agent.report_max": 0.22153949737548828, "fps": 4.735803994871652}
+{"step": 584962, "episode/length": 115.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.10344827586206896}
+{"step": 585138, "episode/length": 175.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07386363636363637}
+{"step": 585444, "episode/length": 305.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0392156862745098}
+{"step": 585641, "episode/length": 196.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.06598984771573604}
+{"step": 585794, "episode/length": 152.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.08496732026143791}
+{"step": 585920, "episode/length": 125.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07142857142857142}
+{"step": 586135, "episode/length": 214.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05116279069767442}
+{"step": 586279, "episode/length": 143.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.06944444444444445}
+{"step": 586365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508099873860677, "train/action_min": 0.0, "train/action_std": 3.411137445105447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042298576406513654, "train/actor_opt_grad_steps": 292275.0, "train/actor_opt_loss": -13.853292684588167, "train/adv_mag": 0.4533109838763873, "train/adv_max": 0.40441607187191647, "train/adv_mean": 0.0017981157200337191, "train/adv_min": -0.37304219272401595, "train/adv_std": 0.0476201020905541, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 2.5595398702726868e-05, "train/cont_loss_std": 0.000777928304234226, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.003405503138421769, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 5.461896445840213e-06, "train/cont_pred": 0.9948435748616854, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.204145024220149, "train/dyn_loss_std": 8.631745013925764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0941746748156018, "train/extr_critic_critic_opt_grad_steps": 292275.0, "train/extr_critic_critic_opt_loss": 16234.583129882812, "train/extr_critic_mag": 11.623972442415026, "train/extr_critic_max": 11.623972442415026, "train/extr_critic_mean": 3.0388375487592487, "train/extr_critic_min": -0.46003949642181396, "train/extr_critic_std": 2.860725373029709, "train/extr_return_normed_mag": 1.440393191244867, "train/extr_return_normed_max": 1.440393191244867, "train/extr_return_normed_mean": 0.36367736508448917, "train/extr_return_normed_min": -0.07157675808088647, "train/extr_return_normed_std": 0.33121474356287056, "train/extr_return_rate": 0.7540048485000929, "train/extr_return_raw_mag": 12.473625659942627, "train/extr_return_raw_max": 12.473625659942627, "train/extr_return_raw_mean": 3.054545526703199, "train/extr_return_raw_min": -0.7519183655579885, "train/extr_return_raw_std": 2.8973925742838116, "train/extr_reward_mag": 1.0542132059733074, "train/extr_reward_max": 1.0542132059733074, "train/extr_reward_mean": 0.05360421279652251, "train/extr_reward_min": -0.6602720899714364, "train/extr_reward_std": 0.22366924749480355, "train/image_loss_mean": 3.16612716515859, "train/image_loss_std": 7.979111194610596, "train/model_loss_mean": 6.339972727828556, "train/model_loss_std": 12.065936697853935, "train/model_opt_grad_norm": 30.066062834527756, "train/model_opt_grad_steps": 292044.0, "train/model_opt_loss": 15849.931789822049, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.666399598121643, "train/policy_entropy_max": 2.666399598121643, "train/policy_entropy_mean": 0.41952528514795834, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6001552397178279, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41974767338898444, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0378684393233724, "train/policy_randomness_mag": 0.9411220459474458, "train/policy_randomness_max": 0.9411220459474458, "train/policy_randomness_mean": 0.1480740150436759, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21182846277952194, "train/post_ent_mag": 55.62695132361518, "train/post_ent_max": 55.62695132361518, "train/post_ent_mean": 41.08915959464179, "train/post_ent_min": 19.33597825633155, "train/post_ent_std": 5.7407023774253, "train/prior_ent_mag": 76.6014289855957, "train/prior_ent_max": 76.6014289855957, "train/prior_ent_mean": 46.28332185745239, "train/prior_ent_min": 28.271114852693344, "train/prior_ent_std": 7.532116015752156, "train/rep_loss_mean": 5.204145024220149, "train/rep_loss_std": 8.631745013925764, "train/reward_avg": 0.03592122382380896, "train/reward_loss_mean": 0.05133298714645207, "train/reward_loss_std": 0.20466014618674913, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.016941421561771, "train/reward_neg_acc": 0.994528697596656, "train/reward_neg_loss": 0.02269155219093793, "train/reward_pos_acc": 0.9892108746700816, "train/reward_pos_loss": 0.7295219906502299, "train/reward_pred": 0.03557543094373412, "train/reward_rate": 0.04041883680555555, "stats/sum_log_reward": 10.349999964237213, "stats/max_log_achievement_collect_coal": 1.125, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 17.625, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.36957690492272377, "replay/size": 586302.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.395889664226845e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4048126708814596e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22033286094666, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.811288833618164, "timer/env.step_frac": 0.069320051161416, "timer/env.step_avg": 0.014472384446187874, "timer/env.step_min": 0.0028727054595947266, "timer/env.step_max": 1.646756649017334, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2699246406555176, "timer/replay.add_frac": 0.0008990884730666755, "timer/replay.add_avg": 0.0001877083731957702, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0011529922485351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025763750076293945, "timer/logger.write_frac": 8.581613986893742e-05, "timer/logger.write_avg": 0.025763750076293945, "timer/logger.write_min": 0.025763750076293945, "timer/logger.write_max": 0.025763750076293945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.82365369796753, "timer/agent.policy_frac": 0.03605236725582052, "timer/agent.policy_avg": 0.007526880179393275, "timer/agent.policy_min": 0.006190776824951172, "timer/agent.policy_max": 0.016311168670654297, "timer/dataset_count": 719.0, "timer/dataset_total": 0.059426069259643555, "timer/dataset_frac": 0.0001979415207935566, "timer/dataset_avg": 8.26510003611176e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.5719771385193, "timer/agent.train_frac": 0.8912520167727975, "timer/agent.train_avg": 0.3721446135445331, "timer/agent.train_min": 0.36429524421691895, "timer/agent.train_max": 0.38581395149230957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21886968612670898, "timer/agent.report_frac": 0.0007290301893978749, "timer/agent.report_avg": 0.21886968612670898, "timer/agent.report_min": 0.21886968612670898, "timer/agent.report_max": 0.21886968612670898, "fps": 4.789719990959408}
+{"step": 586532, "episode/length": 252.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.05138339920948617}
+{"step": 586723, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06806282722513089}
+{"step": 586888, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06060606060606061}
+{"step": 587172, "episode/length": 283.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04929577464788732}
+{"step": 587393, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.049773755656108594}
+{"step": 587684, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.044673539518900345}
+{"step": 587829, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463069549978596, "train/action_min": 0.0, "train/action_std": 3.3707034163279075, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0444186889655786, "train/actor_opt_grad_steps": 293000.0, "train/actor_opt_loss": -13.324044281489229, "train/adv_mag": 0.44616397684567594, "train/adv_max": 0.4011187459508034, "train/adv_mean": 0.0022889274833899323, "train/adv_min": -0.386563606662293, "train/adv_std": 0.049781557223568224, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 5.2220725293329286e-05, "train/cont_loss_std": 0.0016408394992071616, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.005845621710247935, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.247051081440558e-05, "train/cont_pred": 0.9946796347017157, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 5.2264193639363326, "train/dyn_loss_std": 8.760286683905614, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0837549109981484, "train/extr_critic_critic_opt_grad_steps": 293000.0, "train/extr_critic_critic_opt_loss": 16245.964602953767, "train/extr_critic_mag": 11.33950198186587, "train/extr_critic_max": 11.33950198186587, "train/extr_critic_mean": 3.097778465649853, "train/extr_critic_min": -0.4338116596822869, "train/extr_critic_std": 2.7591548619205004, "train/extr_return_normed_mag": 1.4366832008100536, "train/extr_return_normed_max": 1.4366832008100536, "train/extr_return_normed_mean": 0.38152268957601837, "train/extr_return_normed_min": -0.0726184841398507, "train/extr_return_normed_std": 0.3288697155371104, "train/extr_return_rate": 0.7646645307540894, "train/extr_return_raw_mag": 12.07572720148792, "train/extr_return_raw_max": 12.07572720148792, "train/extr_return_raw_mean": 3.117185301976661, "train/extr_return_raw_min": -0.737779242943411, "train/extr_return_raw_std": 2.7916012594144637, "train/extr_reward_mag": 1.0581293824600846, "train/extr_reward_max": 1.0581293824600846, "train/extr_reward_mean": 0.05515951612224317, "train/extr_reward_min": -0.6422506178895088, "train/extr_reward_std": 0.22665118946604532, "train/image_loss_mean": 3.023426504984294, "train/image_loss_std": 8.047652930429537, "train/model_loss_mean": 6.213037575760933, "train/model_loss_std": 12.226362568058379, "train/model_opt_grad_norm": 27.397836149555364, "train/model_opt_grad_steps": 292768.3561643836, "train/model_opt_loss": 16674.518233625855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.661865227842984, "train/policy_entropy_max": 2.661865227842984, "train/policy_entropy_mean": 0.3961262159968076, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5683780720789139, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39612962448433653, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0162094790641576, "train/policy_randomness_mag": 0.9395216115533489, "train/policy_randomness_max": 0.9395216115533489, "train/policy_randomness_mean": 0.1398151730225511, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20061251725236032, "train/post_ent_mag": 55.495079301807976, "train/post_ent_max": 55.495079301807976, "train/post_ent_mean": 40.93575966194884, "train/post_ent_min": 18.96455901942841, "train/post_ent_std": 5.717225336048701, "train/prior_ent_mag": 76.65462985104078, "train/prior_ent_max": 76.65462985104078, "train/prior_ent_mean": 46.18892413622712, "train/prior_ent_min": 28.475849360635834, "train/prior_ent_std": 7.47297444408887, "train/rep_loss_mean": 5.2264193639363326, "train/rep_loss_std": 8.760286683905614, "train/reward_avg": 0.038045804131112686, "train/reward_loss_mean": 0.053707271967440434, "train/reward_loss_std": 0.21117681816016157, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0209156421765888, "train/reward_neg_acc": 0.994381014614889, "train/reward_neg_loss": 0.023727955207330724, "train/reward_pos_acc": 0.9875341588503694, "train/reward_pos_loss": 0.7304962620343247, "train/reward_pred": 0.03786964927583116, "train/reward_rate": 0.04268782106164384, "stats/sum_log_reward": 11.266666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.47161538153886795, "replay/size": 587766.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.3087092019169708e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.427885450300623e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1434597969055, "timer/env.step_count": 1464.0, "timer/env.step_total": 17.15369153022766, "timer/env.step_frac": 0.05715164189096389, "timer/env.step_avg": 0.011717002411357692, "timer/env.step_min": 0.002817392349243164, "timer/env.step_max": 1.6748020648956299, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2782719135284424, "timer/replay.add_frac": 0.0009271296923035981, "timer/replay.add_avg": 0.00019007644366696885, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008597373962402344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021637678146362305, "timer/logger.write_frac": 7.209111989647755e-05, "timer/logger.write_avg": 0.021637678146362305, "timer/logger.write_min": 0.021637678146362305, "timer/logger.write_max": 0.021637678146362305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.906925201416016, "timer/agent.policy_frac": 0.03633904003371013, "timer/agent.policy_avg": 0.007450085520092907, "timer/agent.policy_min": 0.005991220474243164, "timer/agent.policy_max": 0.015172243118286133, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05969047546386719, "timer/dataset_frac": 0.00019887315054026907, "timer/dataset_avg": 8.154436538779671e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00016832351684570312, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.0731933116913, "timer/agent.train_frac": 0.9031454275069499, "timer/agent.train_avg": 0.3703185700979389, "timer/agent.train_min": 0.3622584342956543, "timer/agent.train_max": 0.3859107494354248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22241687774658203, "timer/agent.report_frac": 0.0007410352299433151, "timer/agent.report_avg": 0.22241687774658203, "timer/agent.report_min": 0.22241687774658203, "timer/agent.report_max": 0.22241687774658203, "fps": 4.877560032274377}
+{"step": 587884, "episode/length": 199.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04}
+{"step": 588084, "episode/length": 199.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.065}
+{"step": 588271, "episode/length": 186.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 588584, "episode/length": 312.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04153354632587859}
+{"step": 588775, "episode/length": 190.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05235602094240838}
+{"step": 588968, "episode/length": 192.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05181347150259067}
+{"step": 589257, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470700546049736, "train/action_min": 0.0, "train/action_std": 3.3516601005070648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04496998759642453, "train/actor_opt_grad_steps": 293720.0, "train/actor_opt_loss": -12.790365032956634, "train/adv_mag": 0.4674377764614535, "train/adv_max": 0.41463288958643524, "train/adv_mean": 0.00247670446215509, "train/adv_min": -0.396696923904016, "train/adv_std": 0.05065908403673642, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 0.00011604454564517126, "train/cont_loss_std": 0.003528080030946512, "train/cont_neg_acc": 0.9951984638899145, "train/cont_neg_loss": 0.01585470511645326, "train/cont_pos_acc": 0.9999861440188448, "train/cont_pos_loss": 2.7340016269420977e-05, "train/cont_pred": 0.9942947265128015, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 5.094215668423075, "train/dyn_loss_std": 8.696103854918144, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0224950338753176, "train/extr_critic_critic_opt_grad_steps": 293720.0, "train/extr_critic_critic_opt_loss": 16332.599691901409, "train/extr_critic_mag": 11.378543128430003, "train/extr_critic_max": 11.378543128430003, "train/extr_critic_mean": 3.0071336249230614, "train/extr_critic_min": -0.4758293998073524, "train/extr_critic_std": 2.801682253958474, "train/extr_return_normed_mag": 1.4540360410448532, "train/extr_return_normed_max": 1.4540360410448532, "train/extr_return_normed_mean": 0.37155207278023306, "train/extr_return_normed_min": -0.0795380305236494, "train/extr_return_normed_std": 0.33454242852372185, "train/extr_return_rate": 0.7415007327643919, "train/extr_return_raw_mag": 12.24666025940801, "train/extr_return_raw_max": 12.24666025940801, "train/extr_return_raw_mean": 3.028267917498736, "train/extr_return_raw_min": -0.8100537871810752, "train/extr_return_raw_std": 2.847314246943299, "train/extr_reward_mag": 1.048250762509628, "train/extr_reward_max": 1.048250762509628, "train/extr_reward_mean": 0.054303592097171595, "train/extr_reward_min": -0.6408586434915032, "train/extr_reward_std": 0.22628778995762408, "train/image_loss_mean": 3.0143909236075173, "train/image_loss_std": 8.006321423490283, "train/model_loss_mean": 6.123521509304853, "train/model_loss_std": 12.094403092290314, "train/model_opt_grad_norm": 27.176008237919337, "train/model_opt_grad_steps": 293487.74647887325, "train/model_opt_loss": 15308.803779709508, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6581530570983887, "train/policy_entropy_max": 2.6581530570983887, "train/policy_entropy_mean": 0.4159535606142501, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5940088839598106, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41609614394919975, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 1.0328922926540105, "train/policy_randomness_mag": 0.9382113780773861, "train/policy_randomness_max": 0.9382113780773861, "train/policy_randomness_mean": 0.14681335360231534, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20965906746790441, "train/post_ent_mag": 55.73459952985737, "train/post_ent_max": 55.73459952985737, "train/post_ent_mean": 41.153293931987925, "train/post_ent_min": 19.46448409389442, "train/post_ent_std": 5.758941341453875, "train/prior_ent_mag": 76.57759223185795, "train/prior_ent_max": 76.57759223185795, "train/prior_ent_mean": 46.26092572279379, "train/prior_ent_min": 28.11572888871314, "train/prior_ent_std": 7.516481446548247, "train/rep_loss_mean": 5.094215668423075, "train/rep_loss_std": 8.696103854918144, "train/reward_avg": 0.036623844325962204, "train/reward_loss_mean": 0.05248510769345391, "train/reward_loss_std": 0.1976279356110264, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.014550528056185, "train/reward_neg_acc": 0.9943891662946889, "train/reward_neg_loss": 0.024096053119906237, "train/reward_pos_acc": 0.9932588657862703, "train/reward_pos_loss": 0.7043614756893104, "train/reward_pred": 0.03651842304413587, "train/reward_rate": 0.041717099471830985, "stats/sum_log_reward": 9.766666968663534, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3968784883618355, "replay/size": 589194.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.3241694047003568e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.373348616752304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1789846420288, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.804466009140015, "timer/env.step_frac": 0.06597552467824272, "timer/env.step_avg": 0.013868673675868358, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 1.8247694969177246, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.28740668296813965, "timer/replay.add_frac": 0.0009574510464511017, "timer/replay.add_avg": 0.00020126518415135828, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009083747863769531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028595447540283203, "timer/logger.write_frac": 9.526132408764062e-05, "timer/logger.write_avg": 0.028595447540283203, "timer/logger.write_min": 0.028595447540283203, "timer/logger.write_max": 0.028595447540283203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003490447998046875, "timer/checkpoint.save_frac": 1.162788928148759e-06, "timer/checkpoint.save_avg": 0.0003490447998046875, "timer/checkpoint.save_min": 0.0003490447998046875, "timer/checkpoint.save_max": 0.0003490447998046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4776387214660645, "timer/agent.save_frac": 0.004922525549975415, "timer/agent.save_avg": 1.4776387214660645, "timer/agent.save_min": 1.4776387214660645, "timer/agent.save_max": 1.4776387214660645, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.054473876953125e-05, "timer/replay.save_frac": 1.683820032565143e-07, "timer/replay.save_avg": 5.054473876953125e-05, "timer/replay.save_min": 5.054473876953125e-05, "timer/replay.save_max": 5.054473876953125e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.830474615097046, "timer/agent.policy_frac": 0.042742747732316164, "timer/agent.policy_avg": 0.008984926201048352, "timer/agent.policy_min": 0.0063018798828125, "timer/agent.policy_max": 1.475944995880127, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05895042419433594, "timer/dataset_frac": 0.00019638424809996556, "timer/dataset_avg": 8.256361931979823e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0002319812774658203, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.5211908817291, "timer/agent.train_frac": 0.8878742500897008, "timer/agent.train_avg": 0.3732789788259512, "timer/agent.train_min": 0.3645622730255127, "timer/agent.train_max": 0.8774340152740479, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051048278808594, "timer/agent.report_frac": 0.0007345966708863726, "timer/agent.report_avg": 0.22051048278808594, "timer/agent.report_min": 0.22051048278808594, "timer/agent.report_max": 0.22051048278808594, "fps": 4.757056275335499}
+{"step": 589295, "episode/length": 326.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.039755351681957186}
+{"step": 589480, "episode/length": 184.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05945945945945946}
+{"step": 589807, "episode/length": 326.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.039755351681957186}
+{"step": 589972, "episode/length": 164.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07272727272727272}
+{"step": 590154, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 590654, "episode/length": 499.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.024}
+{"step": 590711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5038519036279965, "train/action_min": 0.0, "train/action_std": 3.3912015941045057, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043211893931235354, "train/actor_opt_grad_steps": 294440.0, "train/actor_opt_loss": -13.491037094429748, "train/adv_mag": 0.41742239137218423, "train/adv_max": 0.3828000944771179, "train/adv_mean": 0.0016164083446137613, "train/adv_min": -0.3544607801388388, "train/adv_std": 0.04842336287033068, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 5.7996348950276625e-05, "train/cont_loss_std": 0.0017779960486901997, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.008367703341832566, "train/cont_pos_acc": 0.9999999910184781, "train/cont_pos_loss": 9.027702613176275e-06, "train/cont_pred": 0.9948140693037477, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.025980034919634, "train/dyn_loss_std": 8.689171281579423, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0499774372740969, "train/extr_critic_critic_opt_grad_steps": 294440.0, "train/extr_critic_critic_opt_loss": 16161.306520226884, "train/extr_critic_mag": 11.412721411822593, "train/extr_critic_max": 11.412721411822593, "train/extr_critic_mean": 3.1671314598762828, "train/extr_critic_min": -0.470170940438362, "train/extr_critic_std": 2.802003720035292, "train/extr_return_normed_mag": 1.423363251228855, "train/extr_return_normed_max": 1.423363251228855, "train/extr_return_normed_mean": 0.38466688174090974, "train/extr_return_normed_min": -0.07585017281035854, "train/extr_return_normed_std": 0.3273729626854805, "train/extr_return_rate": 0.7615698486158292, "train/extr_return_raw_mag": 12.174049194544962, "train/extr_return_raw_max": 12.174049194544962, "train/extr_return_raw_mean": 3.1811012535879057, "train/extr_return_raw_min": -0.8063979789818803, "train/extr_return_raw_std": 2.834741376850703, "train/extr_reward_mag": 1.0590011648935815, "train/extr_reward_max": 1.0590011648935815, "train/extr_reward_mean": 0.056075995609368365, "train/extr_reward_min": -0.6538932535746326, "train/extr_reward_std": 0.2288462662533538, "train/image_loss_mean": 2.8737854973910606, "train/image_loss_std": 7.86884799395522, "train/model_loss_mean": 5.941992518020003, "train/model_loss_std": 12.015385510170297, "train/model_opt_grad_norm": 27.560875944895287, "train/model_opt_grad_steps": 294206.1095890411, "train/model_opt_loss": 8232.19170724529, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.6343477980731285, "train/policy_entropy_max": 2.6343477980731285, "train/policy_entropy_mean": 0.3957725820476062, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5650206747120374, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.394848178714922, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 1.0135358139260175, "train/policy_randomness_mag": 0.9298091677770223, "train/policy_randomness_max": 0.9298091677770223, "train/policy_randomness_mean": 0.1396903540581873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19942750179604307, "train/post_ent_mag": 54.93177638641775, "train/post_ent_max": 54.93177638641775, "train/post_ent_mean": 40.95707984819804, "train/post_ent_min": 19.05183536059236, "train/post_ent_std": 5.614848992595934, "train/prior_ent_mag": 76.53094388360847, "train/prior_ent_max": 76.53094388360847, "train/prior_ent_mean": 46.00951819223901, "train/prior_ent_min": 28.38193901271036, "train/prior_ent_std": 7.362053433509722, "train/rep_loss_mean": 5.025980034919634, "train/rep_loss_std": 8.689171281579423, "train/reward_avg": 0.03826519658100115, "train/reward_loss_mean": 0.052561000295697824, "train/reward_loss_std": 0.20584457520752736, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.025758096616562, "train/reward_neg_acc": 0.9946896711440936, "train/reward_neg_loss": 0.022556791273392225, "train/reward_pos_acc": 0.9893326008156554, "train/reward_pos_loss": 0.7248687744140625, "train/reward_pred": 0.03803134278381524, "train/reward_rate": 0.0428884845890411, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 21.666666666666668, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5865513210495313, "replay/size": 590648.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.211271976014443e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3776502714196458e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0729236602783, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.089760303497314, "timer/env.step_frac": 0.06028454711221224, "timer/env.step_avg": 0.012441375724551111, "timer/env.step_min": 0.002916097640991211, "timer/env.step_max": 1.6193327903747559, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25794553756713867, "timer/replay.add_frac": 0.0008596095056519217, "timer/replay.add_avg": 0.00017740408360876112, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008044242858886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022721529006958008, "timer/logger.write_frac": 7.572002408548443e-05, "timer/logger.write_avg": 0.022721529006958008, "timer/logger.write_min": 0.022721529006958008, "timer/logger.write_max": 0.022721529006958008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.875577688217163, "timer/agent.policy_frac": 0.03624311569187007, "timer/agent.policy_avg": 0.0074797645723639365, "timer/agent.policy_min": 0.006128072738647461, "timer/agent.policy_max": 0.014952421188354492, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05872368812561035, "timer/dataset_frac": 0.0001956980570232762, "timer/dataset_avg": 8.077536193343927e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00018143653869628906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.11932277679443, "timer/agent.train_frac": 0.9001789281148362, "timer/agent.train_avg": 0.3715534013435962, "timer/agent.train_min": 0.3646860122680664, "timer/agent.train_max": 0.38631367683410645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198152542114258, "timer/agent.report_frac": 0.0007397585983880859, "timer/agent.report_avg": 0.22198152542114258, "timer/agent.report_min": 0.22198152542114258, "timer/agent.report_max": 0.22198152542114258, "fps": 4.845385008507449}
+{"step": 590904, "episode/length": 249.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04}
+{"step": 591099, "episode/length": 194.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.06153846153846154}
+{"step": 591286, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.053475935828877004}
+{"step": 591467, "episode/length": 180.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.049723756906077346}
+{"step": 591857, "episode/length": 389.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.03076923076923077}
+{"step": 592066, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06220095693779904}
+{"step": 592099, "episode/length": 32.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.18181818181818182}
+{"step": 592155, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.654822455512153, "train/action_min": 0.0, "train/action_std": 3.5124774509006076, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04201273019942972, "train/actor_opt_grad_steps": 295165.0, "train/actor_opt_loss": -12.656725181680587, "train/adv_mag": 0.4188820661769973, "train/adv_max": 0.37188226191533935, "train/adv_mean": 0.002225123894618264, "train/adv_min": -0.36402303559912574, "train/adv_std": 0.047862444849063955, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 2.2916842029374607e-05, "train/cont_loss_std": 0.0006808754584860645, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008090738087361561, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 1.7739115107594393e-05, "train/cont_pred": 0.9946882633699311, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 5.165811008877224, "train/dyn_loss_std": 8.80226900180181, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.077053339117103, "train/extr_critic_critic_opt_grad_steps": 295165.0, "train/extr_critic_critic_opt_loss": 16300.706882052951, "train/extr_critic_mag": 11.534578800201416, "train/extr_critic_max": 11.534578800201416, "train/extr_critic_mean": 2.89537752005789, "train/extr_critic_min": -0.47587084935771096, "train/extr_critic_std": 2.7978574170006647, "train/extr_return_normed_mag": 1.4540045294496748, "train/extr_return_normed_max": 1.4540045294496748, "train/extr_return_normed_mean": 0.3562032785266638, "train/extr_return_normed_min": -0.07351975106737679, "train/extr_return_normed_std": 0.329895974861251, "train/extr_return_rate": 0.7207040646009975, "train/extr_return_raw_mag": 12.3552891280916, "train/extr_return_raw_max": 12.3552891280916, "train/extr_return_raw_mean": 2.9145033723778195, "train/extr_return_raw_min": -0.7804314655562242, "train/extr_return_raw_std": 2.8368235561582775, "train/extr_reward_mag": 1.058663739098443, "train/extr_reward_max": 1.058663739098443, "train/extr_reward_mean": 0.05460723743049635, "train/extr_reward_min": -0.6040742314524121, "train/extr_reward_std": 0.2258831039071083, "train/image_loss_mean": 3.2040951450665793, "train/image_loss_std": 8.194149222638872, "train/model_loss_mean": 6.357467280493842, "train/model_loss_std": 12.348731226391262, "train/model_opt_grad_norm": 28.16306283738878, "train/model_opt_grad_steps": 294931.0, "train/model_opt_loss": 11997.885531955295, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1892.361111111111, "train/policy_entropy_mag": 2.6572621862093606, "train/policy_entropy_max": 2.6572621862093606, "train/policy_entropy_mean": 0.43512957522438633, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6154654237131277, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43524672297967804, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.049497448735767, "train/policy_randomness_mag": 0.937896937959724, "train/policy_randomness_max": 0.937896937959724, "train/policy_randomness_mean": 0.15358164709889227, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21723228486047852, "train/post_ent_mag": 55.37374448776245, "train/post_ent_max": 55.37374448776245, "train/post_ent_mean": 40.98046016693115, "train/post_ent_min": 18.965376999643112, "train/post_ent_std": 5.715649525324504, "train/prior_ent_mag": 76.60814910464816, "train/prior_ent_max": 76.60814910464816, "train/prior_ent_mean": 46.162942780388725, "train/prior_ent_min": 28.12027793460422, "train/prior_ent_std": 7.533005754152934, "train/rep_loss_mean": 5.165811008877224, "train/rep_loss_std": 8.80226900180181, "train/reward_avg": 0.036669921673213444, "train/reward_loss_mean": 0.053862646894736424, "train/reward_loss_std": 0.21095434928105938, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017658104499181, "train/reward_neg_acc": 0.994311419626077, "train/reward_neg_loss": 0.024690318464611966, "train/reward_pos_acc": 0.9885193937354617, "train/reward_pos_loss": 0.7310511378778352, "train/reward_pred": 0.036352821004887424, "train/reward_rate": 0.0413818359375, "stats/sum_log_reward": 9.100000177110944, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.40693128321852, "replay/size": 592092.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.1001019675976023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359245948844339e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0572142601013, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.958802700042725, "timer/env.step_frac": 0.06651665666249122, "timer/env.step_avg": 0.013821885526345378, "timer/env.step_min": 0.0029785633087158203, "timer/env.step_max": 1.631284475326538, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26748013496398926, "timer/replay.add_frac": 0.000891430441436169, "timer/replay.add_avg": 0.00018523555052907844, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0007882118225097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026789426803588867, "timer/logger.write_frac": 8.928106217891747e-05, "timer/logger.write_avg": 0.026789426803588867, "timer/logger.write_min": 0.026789426803588867, "timer/logger.write_max": 0.026789426803588867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.818575382232666, "timer/agent.policy_frac": 0.03605504173232343, "timer/agent.policy_avg": 0.0074920882148425665, "timer/agent.policy_min": 0.0061931610107421875, "timer/agent.policy_max": 0.014892339706420898, "timer/dataset_count": 722.0, "timer/dataset_total": 0.0590822696685791, "timer/dataset_frac": 0.00019690334663096713, "timer/dataset_avg": 8.183139843293504e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.28187823295593, "timer/agent.train_frac": 0.8941024094171545, "timer/agent.train_avg": 0.37158154879910793, "timer/agent.train_min": 0.364856481552124, "timer/agent.train_max": 0.38585901260375977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22186708450317383, "timer/agent.report_frac": 0.000739415931225872, "timer/agent.report_avg": 0.22186708450317383, "timer/agent.report_min": 0.22186708450317383, "timer/agent.report_max": 0.22186708450317383, "fps": 4.812311030387896}
+{"step": 592220, "episode/length": 120.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09917355371900827}
+{"step": 592405, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
+{"step": 592609, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.058823529411764705}
+{"step": 592660, "episode/length": 50.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.09803921568627451}
+{"step": 592875, "episode/length": 214.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05116279069767442}
+{"step": 593088, "episode/length": 212.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04225352112676056}
+{"step": 593262, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07471264367816093}
+{"step": 593396, "episode/length": 133.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06716417910447761}
+{"step": 593534, "episode/length": 137.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.057971014492753624}
+{"step": 593573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481533856459067, "train/action_min": 0.0, "train/action_std": 3.368493248039568, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04226144009702642, "train/actor_opt_grad_steps": 295880.0, "train/actor_opt_loss": -12.72695712073588, "train/adv_mag": 0.3961342157612384, "train/adv_max": 0.35195305901513974, "train/adv_mean": 0.002207696781957745, "train/adv_min": -0.3526147641766239, "train/adv_std": 0.0473802678391967, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 0.0002846087640227699, "train/cont_loss_std": 0.008949319423985682, "train/cont_neg_acc": 0.9968701097327219, "train/cont_neg_loss": 0.02290956660301241, "train/cont_pos_acc": 0.999986149895359, "train/cont_pos_loss": 8.54517781590803e-05, "train/cont_pred": 0.9947660422660936, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 5.2950310707092285, "train/dyn_loss_std": 8.826072430946457, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0467519248035593, "train/extr_critic_critic_opt_grad_steps": 295880.0, "train/extr_critic_critic_opt_loss": 16341.732958296654, "train/extr_critic_mag": 11.082625805492132, "train/extr_critic_max": 11.082625805492132, "train/extr_critic_mean": 2.9032594015900517, "train/extr_critic_min": -0.4849432908313375, "train/extr_critic_std": 2.7392411366314957, "train/extr_return_normed_mag": 1.4071367022017358, "train/extr_return_normed_max": 1.4071367022017358, "train/extr_return_normed_mean": 0.36375701217584205, "train/extr_return_normed_min": -0.08090079108804045, "train/extr_return_normed_std": 0.3270249585030784, "train/extr_return_rate": 0.7362722292752333, "train/extr_return_raw_mag": 11.761643973874374, "train/extr_return_raw_max": 11.761643973874374, "train/extr_return_raw_mean": 2.921958970351958, "train/extr_return_raw_min": -0.8454332926743467, "train/extr_return_raw_std": 2.7706093586666483, "train/extr_reward_mag": 1.0596179122656164, "train/extr_reward_max": 1.0596179122656164, "train/extr_reward_mean": 0.05546248121790483, "train/extr_reward_min": -0.6455746502943442, "train/extr_reward_std": 0.22741451502685817, "train/image_loss_mean": 3.239811039306748, "train/image_loss_std": 8.585963652167521, "train/model_loss_mean": 6.470971698492345, "train/model_loss_std": 12.783939415300397, "train/model_opt_grad_norm": 29.95823909866978, "train/model_opt_grad_steps": 295645.94366197183, "train/model_opt_loss": 16990.947114326584, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.6388366994723467, "train/policy_entropy_max": 2.6388366994723467, "train/policy_entropy_mean": 0.4184447489154171, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5879058241844177, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41863289244577917, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0308619359849205, "train/policy_randomness_mag": 0.9313935536733815, "train/policy_randomness_max": 0.9313935536733815, "train/policy_randomness_mean": 0.14769263439615007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2075049565501616, "train/post_ent_mag": 54.91924022620832, "train/post_ent_max": 54.91924022620832, "train/post_ent_mean": 40.806046015779735, "train/post_ent_min": 19.216823900249643, "train/post_ent_std": 5.652339102516712, "train/prior_ent_mag": 76.68367960755255, "train/prior_ent_max": 76.68367960755255, "train/prior_ent_mean": 46.10194515174543, "train/prior_ent_min": 28.433409999793685, "train/prior_ent_std": 7.493456289801799, "train/rep_loss_mean": 5.2950310707092285, "train/rep_loss_std": 8.826072430946457, "train/reward_avg": 0.03734732602893467, "train/reward_loss_mean": 0.05385743913201379, "train/reward_loss_std": 0.21089539750361105, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0295553375297868, "train/reward_neg_acc": 0.9943583456563277, "train/reward_neg_loss": 0.02441146908144296, "train/reward_pos_acc": 0.9893356771536277, "train/reward_pos_loss": 0.7263970232345689, "train/reward_pred": 0.0371147706632463, "train/reward_rate": 0.0420747139084507, "stats/sum_log_reward": 8.988889164394802, "stats/max_log_achievement_collect_coal": 0.7777777777777778, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1111111111111112, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.111111111111111, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_stone": 4.555555555555555, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3027869843774372, "replay/size": 593510.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.0429474221298154e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4287250166383214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1930465698242, "timer/env.step_count": 1418.0, "timer/env.step_total": 21.51976251602173, "timer/env.step_frac": 0.07168641233339254, "timer/env.step_avg": 0.015176137176319977, "timer/env.step_min": 0.0028421878814697266, "timer/env.step_max": 1.5969111919403076, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.3564455509185791, "timer/replay.add_frac": 0.0011873877659443744, "timer/replay.add_avg": 0.00025137203872960446, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.09334206581115723, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022857666015625, "timer/logger.write_frac": 7.614322275885347e-05, "timer/logger.write_avg": 0.022857666015625, "timer/logger.write_min": 0.022857666015625, "timer/logger.write_max": 0.022857666015625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002853870391845703, "timer/checkpoint.save_frac": 9.506783799477178e-07, "timer/checkpoint.save_avg": 0.0002853870391845703, "timer/checkpoint.save_min": 0.0002853870391845703, "timer/checkpoint.save_max": 0.0002853870391845703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4780879020690918, "timer/agent.save_frac": 0.004923791270179511, "timer/agent.save_avg": 1.4780879020690918, "timer/agent.save_min": 1.4780879020690918, "timer/agent.save_max": 1.4780879020690918, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.771819169605293e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 14.81853175163269, "timer/agent.policy_frac": 0.04936334109319862, "timer/agent.policy_avg": 0.010450304479289626, "timer/agent.policy_min": 0.006134033203125, "timer/agent.policy_max": 2.829460620880127, "timer/dataset_count": 709.0, "timer/dataset_total": 0.05721902847290039, "timer/dataset_frac": 0.00019060744120064544, "timer/dataset_avg": 8.070384833977488e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 709.0, "timer/agent.train_total": 262.7783246040344, "timer/agent.train_frac": 0.8753644616578845, "timer/agent.train_avg": 0.3706323337151402, "timer/agent.train_min": 0.363314151763916, "timer/agent.train_max": 0.3835752010345459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165393829345703, "timer/agent.report_frac": 0.0007383713274714404, "timer/agent.report_avg": 0.22165393829345703, "timer/agent.report_min": 0.22165393829345703, "timer/agent.report_max": 0.22165393829345703, "fps": 4.723546510196262}
+{"step": 593732, "episode/length": 197.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05555555555555555}
+{"step": 593937, "episode/length": 204.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06341463414634146}
+{"step": 594206, "episode/length": 268.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03345724907063197}
+{"step": 594513, "episode/length": 306.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04234527687296417}
+{"step": 594678, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.05454545454545454}
+{"step": 594906, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03508771929824561}
+{"step": 595041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.50400770032728, "train/action_min": 0.0, "train/action_std": 3.377523412575593, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04215436778660562, "train/actor_opt_grad_steps": 296605.0, "train/actor_opt_loss": -12.671380705124623, "train/adv_mag": 0.408753262581052, "train/adv_max": 0.36459547120171626, "train/adv_mean": 0.002183598699638104, "train/adv_min": -0.342158345757304, "train/adv_std": 0.047728111262659766, "train/cont_avg": 0.9945101351351351, "train/cont_loss_mean": 3.397221203419724e-05, "train/cont_loss_std": 0.0009204935054247078, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.0037021179929719915, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 8.408554104771366e-06, "train/cont_pred": 0.994520501510517, "train/cont_rate": 0.9945101351351351, "train/dyn_loss_mean": 5.361606855650206, "train/dyn_loss_std": 8.816102156767974, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.066395402760119, "train/extr_critic_critic_opt_grad_steps": 296605.0, "train/extr_critic_critic_opt_loss": 16196.396326013513, "train/extr_critic_mag": 11.094264210881414, "train/extr_critic_max": 11.094264210881414, "train/extr_critic_mean": 2.9453242936649837, "train/extr_critic_min": -0.504684329032898, "train/extr_critic_std": 2.80475964739516, "train/extr_return_normed_mag": 1.4272458714407843, "train/extr_return_normed_max": 1.4272458714407843, "train/extr_return_normed_mean": 0.37071294256964243, "train/extr_return_normed_min": -0.08302190084312414, "train/extr_return_normed_std": 0.3371215108278635, "train/extr_return_rate": 0.7242302242163066, "train/extr_return_raw_mag": 11.858271263741159, "train/extr_return_raw_max": 11.858271263741159, "train/extr_return_raw_mean": 2.9637036307438, "train/extr_return_raw_min": -0.8559296541922802, "train/extr_return_raw_std": 2.8381746685182727, "train/extr_reward_mag": 1.056339499112722, "train/extr_reward_max": 1.056339499112722, "train/extr_reward_mean": 0.056154549021173165, "train/extr_reward_min": -0.6682044767044686, "train/extr_reward_std": 0.22878030969484434, "train/image_loss_mean": 3.293693054366756, "train/image_loss_std": 8.638749863650348, "train/model_loss_mean": 6.565105837744635, "train/model_loss_std": 12.768450917424383, "train/model_opt_grad_norm": 24.557464599609375, "train/model_opt_grad_steps": 296369.24324324325, "train/model_opt_loss": 10245.806970544763, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1554.054054054054, "train/policy_entropy_mag": 2.6613881298013635, "train/policy_entropy_max": 2.6613881298013635, "train/policy_entropy_mean": 0.4292830955740568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6052672858979251, "train/policy_logprob_mag": 7.438384242959924, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4292126533550185, "train/policy_logprob_min": -7.438384242959924, "train/policy_logprob_std": 1.0400724378792015, "train/policy_randomness_mag": 0.9393532179497384, "train/policy_randomness_max": 0.9393532179497384, "train/policy_randomness_mean": 0.151518095788118, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21363278971733274, "train/post_ent_mag": 55.16203715350177, "train/post_ent_max": 55.16203715350177, "train/post_ent_mean": 40.82411817602209, "train/post_ent_min": 19.337037692198884, "train/post_ent_std": 5.688397259325595, "train/prior_ent_mag": 76.57143628919447, "train/prior_ent_max": 76.57143628919447, "train/prior_ent_mean": 46.17813553681245, "train/prior_ent_min": 28.259876972920186, "train/prior_ent_std": 7.535533724604426, "train/rep_loss_mean": 5.361606855650206, "train/rep_loss_std": 8.816102156767974, "train/reward_avg": 0.03791041999451212, "train/reward_loss_mean": 0.054414666987754205, "train/reward_loss_std": 0.21491482149104815, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0215081169798568, "train/reward_neg_acc": 0.9938732232596423, "train/reward_neg_loss": 0.024410614202654845, "train/reward_pos_acc": 0.9897323460192293, "train/reward_pos_loss": 0.7267129904515034, "train/reward_pred": 0.037539119404312725, "train/reward_rate": 0.042638830236486486, "stats/sum_log_reward": 9.599999984105429, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4604768753051758, "replay/size": 594978.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.002644884488888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4769202681913037e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00761914253235, "timer/env.step_count": 1468.0, "timer/env.step_total": 16.944589376449585, "timer/env.step_frac": 0.05648053014413371, "timer/env.step_avg": 0.011542635815020153, "timer/env.step_min": 0.002635478973388672, "timer/env.step_max": 1.5600013732910156, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.26719212532043457, "timer/replay.add_frac": 0.0008906177985882843, "timer/replay.add_avg": 0.00018201098455070474, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0007722377777099609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023543357849121094, "timer/logger.write_frac": 7.84758664343646e-05, "timer/logger.write_avg": 0.023543357849121094, "timer/logger.write_min": 0.023543357849121094, "timer/logger.write_max": 0.023543357849121094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.861713171005249, "timer/agent.policy_frac": 0.03620479107180573, "timer/agent.policy_avg": 0.007398987173709298, "timer/agent.policy_min": 0.006063222885131836, "timer/agent.policy_max": 0.01539921760559082, "timer/dataset_count": 734.0, "timer/dataset_total": 0.058919668197631836, "timer/dataset_frac": 0.00019639390614822801, "timer/dataset_avg": 8.027202751720959e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.0001354217529296875, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.2209310531616, "timer/agent.train_frac": 0.9040468099722018, "timer/agent.train_avg": 0.369510805249539, "timer/agent.train_min": 0.36168384552001953, "timer/agent.train_max": 0.3835299015045166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22126126289367676, "timer/agent.report_frac": 0.00073751881210909, "timer/agent.report_avg": 0.22126126289367676, "timer/agent.report_min": 0.22126126289367676, "timer/agent.report_max": 0.22126126289367676, "fps": 4.893098818373331}
+{"step": 595146, "episode/length": 239.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.05}
+{"step": 595418, "episode/length": 271.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03676470588235294}
+{"step": 595584, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06626506024096386}
+{"step": 595875, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.044673539518900345}
+{"step": 596080, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05853658536585366}
+{"step": 596253, "episode/length": 172.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06936416184971098}
+{"step": 596409, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.0641025641025641}
+{"step": 596497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.543796963161892, "train/action_min": 0.0, "train/action_std": 3.422546101941003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04168040230352846, "train/actor_opt_grad_steps": 297335.0, "train/actor_opt_loss": -13.594586464679903, "train/adv_mag": 0.43630587350991035, "train/adv_max": 0.39051081488529843, "train/adv_mean": 0.001329341907295303, "train/adv_min": -0.3853060650742716, "train/adv_std": 0.047560840689887605, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 1.7955736387224402e-05, "train/cont_loss_std": 0.0005248506574828424, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.872458851366521e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.772927536287167e-05, "train/cont_pred": 0.9946540196736654, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 5.2806320819589825, "train/dyn_loss_std": 8.806716117593977, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0581583637330267, "train/extr_critic_critic_opt_grad_steps": 297335.0, "train/extr_critic_critic_opt_loss": 16162.617933485242, "train/extr_critic_mag": 11.236073546939426, "train/extr_critic_max": 11.236073546939426, "train/extr_critic_mean": 2.8949752185079785, "train/extr_critic_min": -0.46431615120834774, "train/extr_critic_std": 2.756527543067932, "train/extr_return_normed_mag": 1.4517675952778921, "train/extr_return_normed_max": 1.4517675952778921, "train/extr_return_normed_mean": 0.3629632426632775, "train/extr_return_normed_min": -0.08164313469185597, "train/extr_return_normed_std": 0.3305426645610068, "train/extr_return_rate": 0.7312473249104288, "train/extr_return_raw_mag": 12.072329865561592, "train/extr_return_raw_max": 12.072329865561592, "train/extr_return_raw_mean": 2.9061830970976086, "train/extr_return_raw_min": -0.8359494478338294, "train/extr_return_raw_std": 2.782455258899265, "train/extr_reward_mag": 1.0529253515932295, "train/extr_reward_max": 1.0529253515932295, "train/extr_reward_mean": 0.05366324198742708, "train/extr_reward_min": -0.6671114630169339, "train/extr_reward_std": 0.2236618763870663, "train/image_loss_mean": 3.1456868714756436, "train/image_loss_std": 7.89773432413737, "train/model_loss_mean": 6.366792367564307, "train/model_loss_std": 12.056640889909533, "train/model_opt_grad_norm": 29.665128469467163, "train/model_opt_grad_steps": 297099.0, "train/model_opt_loss": 11037.946451822916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1736.111111111111, "train/policy_entropy_mag": 2.6797992951340146, "train/policy_entropy_max": 2.6797992951340146, "train/policy_entropy_mean": 0.44018192278842133, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6257593793173631, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4404189323799478, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0557346882091627, "train/policy_randomness_mag": 0.9458515528175566, "train/policy_randomness_max": 0.9458515528175566, "train/policy_randomness_mean": 0.15536490134480926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22086559939715597, "train/post_ent_mag": 55.094874699910484, "train/post_ent_max": 55.094874699910484, "train/post_ent_mean": 40.717967404259575, "train/post_ent_min": 19.333907498253716, "train/post_ent_std": 5.686599069171482, "train/prior_ent_mag": 76.61428324381511, "train/prior_ent_max": 76.61428324381511, "train/prior_ent_mean": 46.02155065536499, "train/prior_ent_min": 28.490142345428467, "train/prior_ent_std": 7.544072098202175, "train/rep_loss_mean": 5.2806320819589825, "train/rep_loss_std": 8.806716117593977, "train/reward_avg": 0.03716634074226022, "train/reward_loss_mean": 0.052708318612227835, "train/reward_loss_std": 0.20408600651555592, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0218634688191943, "train/reward_neg_acc": 0.9942660025424428, "train/reward_neg_loss": 0.022603959595370624, "train/reward_pos_acc": 0.985954724252224, "train/reward_pos_loss": 0.7406923613614507, "train/reward_pred": 0.0365135554327733, "train/reward_rate": 0.04197862413194445, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 8.428571428571429, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3572358936071396, "replay/size": 596434.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.1410337804437993e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4424037474852341e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1344232559204, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.874101638793945, "timer/env.step_frac": 0.0628854945528866, "timer/env.step_avg": 0.01296298189477606, "timer/env.step_min": 0.0027184486389160156, "timer/env.step_max": 1.725961446762085, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2643435001373291, "timer/replay.add_frac": 0.0008807503560227315, "timer/replay.add_avg": 0.00018155460174267108, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0009541511535644531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0283203125, "timer/logger.write_frac": 9.43587616267917e-05, "timer/logger.write_avg": 0.0283203125, "timer/logger.write_min": 0.0283203125, "timer/logger.write_max": 0.0283203125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.809114933013916, "timer/agent.policy_frac": 0.03601424593605224, "timer/agent.policy_avg": 0.007423842673773294, "timer/agent.policy_min": 0.005952119827270508, "timer/agent.policy_max": 0.016977548599243164, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05945897102355957, "timer/dataset_frac": 0.00019810780242578087, "timer/dataset_avg": 8.167441074664776e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00024390220642089844, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.4586193561554, "timer/agent.train_frac": 0.8977931169407776, "timer/agent.train_avg": 0.37013546614856513, "timer/agent.train_min": 0.36237239837646484, "timer/agent.train_max": 0.3854224681854248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22041559219360352, "timer/agent.report_frac": 0.000734389577185081, "timer/agent.report_avg": 0.22041559219360352, "timer/agent.report_min": 0.22041559219360352, "timer/agent.report_max": 0.22041559219360352, "fps": 4.851051268433309}
+{"step": 596588, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.061452513966480445}
+{"step": 596863, "episode/length": 274.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04727272727272727}
+{"step": 597091, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.043859649122807015}
+{"step": 597235, "episode/length": 143.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.08333333333333333}
+{"step": 597369, "episode/length": 133.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.08208955223880597}
+{"step": 597526, "episode/length": 156.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.08280254777070063}
+{"step": 597702, "episode/length": 175.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.06818181818181818}
+{"step": 597880, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.056179775280898875}
+{"step": 597943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.578020487746147, "train/action_min": 0.0, "train/action_std": 3.425276406823772, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04293054204485188, "train/actor_opt_grad_steps": 298060.0, "train/actor_opt_loss": -13.073743723843195, "train/adv_mag": 0.43658216297626495, "train/adv_max": 0.3952096367943777, "train/adv_mean": 0.0023872466938895465, "train/adv_min": -0.3618304078301338, "train/adv_std": 0.04780037318394609, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 0.0001361882700197803, "train/cont_loss_std": 0.004289982035479407, "train/cont_neg_acc": 0.9961948255970053, "train/cont_neg_loss": 0.01570918705635982, "train/cont_pos_acc": 0.999986568542376, "train/cont_pos_loss": 1.9802481339841924e-05, "train/cont_pred": 0.995022714138031, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.107712399469663, "train/dyn_loss_std": 8.778931944337609, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583376525199577, "train/extr_critic_critic_opt_grad_steps": 298060.0, "train/extr_critic_critic_opt_loss": 16290.334666630994, "train/extr_critic_mag": 11.031806161958878, "train/extr_critic_max": 11.031806161958878, "train/extr_critic_mean": 2.7919313727992856, "train/extr_critic_min": -0.49412718047834425, "train/extr_critic_std": 2.629070657573334, "train/extr_return_normed_mag": 1.4444773507444826, "train/extr_return_normed_max": 1.4444773507444826, "train/extr_return_normed_mean": 0.3561803980232918, "train/extr_return_normed_min": -0.07788180554770444, "train/extr_return_normed_std": 0.3201117658451812, "train/extr_return_rate": 0.7380503024140449, "train/extr_return_raw_mag": 11.86133386010993, "train/extr_return_raw_max": 11.86133386010993, "train/extr_return_raw_mean": 2.811794396949141, "train/extr_return_raw_min": -0.7973252481793704, "train/extr_return_raw_std": 2.662093936580501, "train/extr_reward_mag": 1.0562434719033438, "train/extr_reward_max": 1.0562434719033438, "train/extr_reward_mean": 0.054527767053613924, "train/extr_reward_min": -0.6636813993323339, "train/extr_reward_std": 0.2260744234878723, "train/image_loss_mean": 3.055118061091802, "train/image_loss_std": 8.098940463915262, "train/model_loss_mean": 6.171580909049674, "train/model_loss_std": 12.256313911856036, "train/model_opt_grad_norm": 27.393753169334097, "train/model_opt_grad_steps": 297823.98630136985, "train/model_opt_loss": 15428.95222870291, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6722156805534887, "train/policy_entropy_max": 2.6722156805534887, "train/policy_entropy_mean": 0.4267349514650972, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6094812591598459, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42804315012611754, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.047182708570402, "train/policy_randomness_mag": 0.9431748684138468, "train/policy_randomness_max": 0.9431748684138468, "train/policy_randomness_mean": 0.1506187110526921, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21512013755432546, "train/post_ent_mag": 55.06069836551196, "train/post_ent_max": 55.06069836551196, "train/post_ent_mean": 40.8182277940724, "train/post_ent_min": 18.965144954315605, "train/post_ent_std": 5.69700277668156, "train/prior_ent_mag": 76.74216210352232, "train/prior_ent_max": 76.74216210352232, "train/prior_ent_mean": 45.931301900785265, "train/prior_ent_min": 28.598645510738844, "train/prior_ent_std": 7.483046185480405, "train/rep_loss_mean": 5.107712399469663, "train/rep_loss_std": 8.778931944337609, "train/reward_avg": 0.035738173974295184, "train/reward_loss_mean": 0.051699248333908106, "train/reward_loss_std": 0.20719340933512334, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0213934852652353, "train/reward_neg_acc": 0.994460452092837, "train/reward_neg_loss": 0.023181908623608825, "train/reward_pos_acc": 0.987120559770767, "train/reward_pos_loss": 0.7343652591313401, "train/reward_pred": 0.03528821302501306, "train/reward_rate": 0.04026648116438356, "stats/sum_log_reward": 10.475000381469727, "stats/max_log_achievement_collect_coal": 2.125, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.125, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.298098161816597, "replay/size": 597880.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.090373048478967e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5261221063911997e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16698837280273, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.058969259262085, "timer/env.step_frac": 0.06349455468964209, "timer/env.step_avg": 0.013180476666156352, "timer/env.step_min": 0.002666950225830078, "timer/env.step_max": 1.4208929538726807, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.3162722587585449, "timer/replay.add_frac": 0.0010536543690998414, "timer/replay.add_avg": 0.00021872217064906288, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008802413940429688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020459651947021484, "timer/logger.write_frac": 6.816089956438152e-05, "timer/logger.write_avg": 0.020459651947021484, "timer/logger.write_min": 0.020459651947021484, "timer/logger.write_max": 0.020459651947021484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020170211791992188, "timer/checkpoint.save_frac": 6.719663578374947e-07, "timer/checkpoint.save_avg": 0.00020170211791992188, "timer/checkpoint.save_min": 0.00020170211791992188, "timer/checkpoint.save_max": 0.00020170211791992188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2809982299804688, "timer/agent.save_frac": 0.004267618624302179, "timer/agent.save_avg": 1.2809982299804688, "timer/agent.save_min": 1.2809982299804688, "timer/agent.save_max": 1.2809982299804688, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.7085168796995945e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 14.200974702835083, "timer/agent.policy_frac": 0.04731024813827193, "timer/agent.policy_avg": 0.009820867705971703, "timer/agent.policy_min": 0.005933284759521484, "timer/agent.policy_max": 2.312936305999756, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0584869384765625, "timer/dataset_frac": 0.00019484800375157388, "timer/dataset_avg": 8.089479733964384e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 265.88667154312134, "timer/agent.train_frac": 0.8857958464536221, "timer/agent.train_avg": 0.36775473242478746, "timer/agent.train_min": 0.3607478141784668, "timer/agent.train_max": 0.5137660503387451, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22367477416992188, "timer/agent.report_frac": 0.0007451677993721324, "timer/agent.report_avg": 0.22367477416992188, "timer/agent.report_min": 0.22367477416992188, "timer/agent.report_max": 0.22367477416992188, "fps": 4.8172085300673455}
+{"step": 598152, "episode/length": 271.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04779411764705882}
+{"step": 598292, "episode/length": 139.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.06428571428571428}
+{"step": 598452, "episode/length": 159.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06875}
+{"step": 598657, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05853658536585366}
+{"step": 598886, "episode/length": 228.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.034934497816593885}
+{"step": 599121, "episode/length": 234.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.05106382978723404}
+{"step": 599251, "episode/length": 129.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07692307692307693}
+{"step": 599411, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.597830994488442, "train/action_min": 0.0, "train/action_std": 3.5011477241777396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04296114760106557, "train/actor_opt_grad_steps": 298790.0, "train/actor_opt_loss": -13.375414170630991, "train/adv_mag": 0.4283375609410952, "train/adv_max": 0.3819847592752274, "train/adv_mean": 0.0020163737895827955, "train/adv_min": -0.3768776242863642, "train/adv_std": 0.04858757708578894, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 2.259210015499705e-05, "train/cont_loss_std": 0.0007125768436796692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.316708372464309e-06, "train/cont_pos_acc": 0.9999865130202411, "train/cont_pos_loss": 2.2702838268300298e-05, "train/cont_pred": 0.9948069240948926, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.098858421795989, "train/dyn_loss_std": 8.786753752460218, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0415939108966148, "train/extr_critic_critic_opt_grad_steps": 298790.0, "train/extr_critic_critic_opt_loss": 16152.888377568494, "train/extr_critic_mag": 10.986358093888793, "train/extr_critic_max": 10.986358093888793, "train/extr_critic_mean": 2.8750883144875097, "train/extr_critic_min": -0.49743645158532546, "train/extr_critic_std": 2.6540218281419308, "train/extr_return_normed_mag": 1.4267529853402752, "train/extr_return_normed_max": 1.4267529853402752, "train/extr_return_normed_mean": 0.3670819148625413, "train/extr_return_normed_min": -0.08108585720805273, "train/extr_return_normed_std": 0.3241412774340747, "train/extr_return_rate": 0.7478310939383833, "train/extr_return_raw_mag": 11.676563132299135, "train/extr_return_raw_max": 11.676563132299135, "train/extr_return_raw_mean": 2.891793290229693, "train/extr_return_raw_min": -0.824162242347247, "train/extr_return_raw_std": 2.6873266860230327, "train/extr_reward_mag": 1.060815638058806, "train/extr_reward_max": 1.060815638058806, "train/extr_reward_mean": 0.05621085841565916, "train/extr_reward_min": -0.6213889530260269, "train/extr_reward_std": 0.22874605165768977, "train/image_loss_mean": 3.1805625272123783, "train/image_loss_std": 8.248532843916383, "train/model_loss_mean": 6.293426343839463, "train/model_loss_std": 12.399518470241599, "train/model_opt_grad_norm": 27.610950208690067, "train/model_opt_grad_steps": 298553.0, "train/model_opt_loss": 15733.56587114726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.674930209982885, "train/policy_entropy_max": 2.674930209982885, "train/policy_entropy_mean": 0.425595444155066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6152109969152163, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42536053510561384, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0438121230634925, "train/policy_randomness_mag": 0.9441329755195199, "train/policy_randomness_max": 0.9441329755195199, "train/policy_randomness_mean": 0.15021651360678345, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2171424850821495, "train/post_ent_mag": 55.22664705041337, "train/post_ent_max": 55.22664705041337, "train/post_ent_mean": 40.923438189780875, "train/post_ent_min": 18.79518753208526, "train/post_ent_std": 5.710314064809721, "train/prior_ent_mag": 76.57933723763244, "train/prior_ent_max": 76.57933723763244, "train/prior_ent_mean": 45.98336326912658, "train/prior_ent_min": 28.498638074691982, "train/prior_ent_std": 7.46839129434873, "train/rep_loss_mean": 5.098858421795989, "train/rep_loss_std": 8.786753752460218, "train/reward_avg": 0.037792968372367834, "train/reward_loss_mean": 0.05352616896980429, "train/reward_loss_std": 0.2118165125585582, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.025939115106243, "train/reward_neg_acc": 0.9943513315017909, "train/reward_neg_loss": 0.023538220967229916, "train/reward_pos_acc": 0.9908247998315994, "train/reward_pos_loss": 0.7322448663515587, "train/reward_pred": 0.03736421014246059, "train/reward_rate": 0.042447024828767124, "stats/sum_log_reward": 9.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 10.571428571428571, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.47851893518652233, "replay/size": 599348.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.06858353783714e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4720073512854303e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15922355651855, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.722979068756104, "timer/env.step_frac": 0.05904525890879029, "timer/env.step_avg": 0.012072874025038217, "timer/env.step_min": 0.00255584716796875, "timer/env.step_max": 1.5810997486114502, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2713799476623535, "timer/replay.add_frac": 0.0009041199682183145, "timer/replay.add_avg": 0.0001848637245656359, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008389949798583984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022265911102294922, "timer/logger.write_frac": 7.418033281959885e-05, "timer/logger.write_avg": 0.022265911102294922, "timer/logger.write_min": 0.022265911102294922, "timer/logger.write_max": 0.022265911102294922, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.682671308517456, "timer/agent.policy_frac": 0.0355900151324384, "timer/agent.policy_avg": 0.0072770240521236075, "timer/agent.policy_min": 0.0059206485748291016, "timer/agent.policy_max": 0.01744699478149414, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06053733825683594, "timer/dataset_frac": 0.00020168408466527448, "timer/dataset_avg": 8.247593767961299e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020623207092285156, "timer/agent.train_count": 734.0, "timer/agent.train_total": 270.76433277130127, "timer/agent.train_frac": 0.9020690071192087, "timer/agent.train_avg": 0.36888873674564204, "timer/agent.train_min": 0.36119747161865234, "timer/agent.train_max": 0.3838839530944824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22187399864196777, "timer/agent.report_frac": 0.0007391876751713077, "timer/agent.report_avg": 0.22187399864196777, "timer/agent.report_min": 0.22187399864196777, "timer/agent.report_max": 0.22187399864196777, "fps": 4.8906716979217135}
+{"step": 599427, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
+{"step": 599598, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07602339181286549}
+{"step": 599759, "episode/length": 160.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06832298136645963}
+{"step": 599871, "episode/length": 111.0, "episode/score": 8.100000038743019, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.08928571428571429}
+{"step": 600069, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05555555555555555}
+{"step": 600271, "episode/length": 201.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000001490116, "episode/reward_rate": 0.0594059405940594}
+{"step": 600426, "episode/length": 154.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03870967741935484}
+{"step": 600612, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05913978494623656}
+{"step": 600722, "episode/length": 109.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.1}
+{"step": 600866, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545639247110445, "train/action_min": 0.0, "train/action_std": 3.4739829873385495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04108329193845187, "train/actor_opt_grad_steps": 299520.0, "train/actor_opt_loss": -13.801488476256802, "train/adv_mag": 0.4293032190571093, "train/adv_max": 0.37688349779338054, "train/adv_mean": 0.0017004607286988374, "train/adv_min": -0.37071370956015914, "train/adv_std": 0.04653321589304976, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 3.1500125169687535e-05, "train/cont_loss_std": 0.0009298638107563034, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002979411271273275, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.689475289078414e-05, "train/cont_pred": 0.9951664233860904, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.201982635341278, "train/dyn_loss_std": 8.775929947421975, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039405791726831, "train/extr_critic_critic_opt_grad_steps": 299520.0, "train/extr_critic_critic_opt_loss": 16217.228515625, "train/extr_critic_mag": 11.03372823375545, "train/extr_critic_max": 11.03372823375545, "train/extr_critic_mean": 2.7309610484397573, "train/extr_critic_min": -0.5182576489775148, "train/extr_critic_std": 2.649316271690473, "train/extr_return_normed_mag": 1.432289422374882, "train/extr_return_normed_max": 1.432289422374882, "train/extr_return_normed_mean": 0.3500031541063361, "train/extr_return_normed_min": -0.08556843482672352, "train/extr_return_normed_std": 0.32238415455164976, "train/extr_return_rate": 0.7269843775932103, "train/extr_return_raw_mag": 11.736847903630505, "train/extr_return_raw_max": 11.736847903630505, "train/extr_return_raw_mean": 2.74504564559623, "train/extr_return_raw_min": -0.8721559937686136, "train/extr_return_raw_std": 2.6779809161408306, "train/extr_reward_mag": 1.0547501648942086, "train/extr_reward_max": 1.0547501648942086, "train/extr_reward_mean": 0.05278850897942504, "train/extr_reward_min": -0.653039914287933, "train/extr_reward_std": 0.22288210159295227, "train/image_loss_mean": 3.13718219325967, "train/image_loss_std": 8.212818544204922, "train/model_loss_mean": 6.311112514913899, "train/model_loss_std": 12.349942364104807, "train/model_opt_grad_norm": 26.87273730970409, "train/model_opt_grad_steps": 299282.4520547945, "train/model_opt_loss": 17411.661065924658, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.683543956443055, "train/policy_entropy_max": 2.683543956443055, "train/policy_entropy_mean": 0.4478326782788316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6383024601087178, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4468564468703858, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0584856271743774, "train/policy_randomness_mag": 0.9471732524976338, "train/policy_randomness_max": 0.9471732524976338, "train/policy_randomness_mean": 0.158065283543443, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22529275797001302, "train/post_ent_mag": 54.73984532813503, "train/post_ent_max": 54.73984532813503, "train/post_ent_mean": 40.95402971032548, "train/post_ent_min": 19.30721755876933, "train/post_ent_std": 5.6752470160183845, "train/prior_ent_mag": 76.59980146852259, "train/prior_ent_max": 76.59980146852259, "train/prior_ent_mean": 46.147649164069186, "train/prior_ent_min": 28.425785195337582, "train/prior_ent_std": 7.417770392274203, "train/rep_loss_mean": 5.201982635341278, "train/rep_loss_std": 8.775929947421975, "train/reward_avg": 0.037241812820916306, "train/reward_loss_mean": 0.052709253479356635, "train/reward_loss_std": 0.20388690596573975, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0274600362124509, "train/reward_neg_acc": 0.9939542690368548, "train/reward_neg_loss": 0.023380913860993842, "train/reward_pos_acc": 0.9892593810003097, "train/reward_pos_loss": 0.727747235396137, "train/reward_pred": 0.036969069417004716, "train/reward_rate": 0.04159086044520548, "stats/sum_log_reward": 9.10000032848782, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_stone": 9.555555555555555, "stats/max_log_achievement_collect_wood": 8.11111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 3.111111111111111, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.29107031060589683, "replay/size": 600803.0, "replay/inserts": 1455.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.0235736230804337e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.507148946003868e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0018720626831, "timer/env.step_count": 1455.0, "timer/env.step_total": 20.234238386154175, "timer/env.step_frac": 0.06744704040355583, "timer/env.step_avg": 0.013906693048903213, "timer/env.step_min": 0.002724170684814453, "timer/env.step_max": 1.463895559310913, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.25688624382019043, "timer/replay.add_frac": 0.0008562821360211913, "timer/replay.add_avg": 0.0001765541194640484, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008933544158935547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021170377731323242, "timer/logger.write_frac": 7.056748541522385e-05, "timer/logger.write_avg": 0.021170377731323242, "timer/logger.write_min": 0.021170377731323242, "timer/logger.write_max": 0.021170377731323242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.644135236740112, "timer/agent.policy_frac": 0.03548022938508898, "timer/agent.policy_avg": 0.0073155568637389085, "timer/agent.policy_min": 0.0060482025146484375, "timer/agent.policy_max": 0.016805648803710938, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059671640396118164, "timer/dataset_frac": 0.00019890422678312564, "timer/dataset_avg": 8.207928527664122e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00019168853759765625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.15052604675293, "timer/agent.train_frac": 0.8938295091396127, "timer/agent.train_avg": 0.3688452902981471, "timer/agent.train_min": 0.36089134216308594, "timer/agent.train_max": 0.38248777389526367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22292494773864746, "timer/agent.report_frac": 0.000743078522163585, "timer/agent.report_avg": 0.22292494773864746, "timer/agent.report_min": 0.22292494773864746, "timer/agent.report_max": 0.22292494773864746, "fps": 4.849860165177351}
+{"step": 600896, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06321839080459771}
+{"step": 601141, "episode/length": 244.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.053061224489795916}
+{"step": 601358, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.059907834101382486}
+{"step": 601602, "episode/length": 243.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.036885245901639344}
+{"step": 601791, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0582010582010582}
+{"step": 601993, "episode/length": 201.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06435643564356436}
+{"step": 602176, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06557377049180328}
+{"step": 602315, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586252848307292, "train/action_min": 0.0, "train/action_std": 3.4821063545015125, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04078734955853886, "train/actor_opt_grad_steps": 300245.0, "train/actor_opt_loss": -12.832430079993275, "train/adv_mag": 0.4227021522819996, "train/adv_max": 0.38512316677305436, "train/adv_mean": 0.0016532306851028504, "train/adv_min": -0.3523824554350641, "train/adv_std": 0.04703387204143736, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 1.6962123584127494e-05, "train/cont_loss_std": 0.0005145621744778358, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006790818998057249, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.4080340069395132e-05, "train/cont_pred": 0.9949174672365189, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.240210930506389, "train/dyn_loss_std": 8.815637217627632, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0214098484979734, "train/extr_critic_critic_opt_grad_steps": 300245.0, "train/extr_critic_critic_opt_loss": 15999.722412109375, "train/extr_critic_mag": 10.846389611562094, "train/extr_critic_max": 10.846389611562094, "train/extr_critic_mean": 2.773884971936544, "train/extr_critic_min": -0.4723648279905319, "train/extr_critic_std": 2.6703455083900027, "train/extr_return_normed_mag": 1.4222952160570357, "train/extr_return_normed_max": 1.4222952160570357, "train/extr_return_normed_mean": 0.35963137778970933, "train/extr_return_normed_min": -0.07505462300549778, "train/extr_return_normed_std": 0.327641730921136, "train/extr_return_rate": 0.7275201140178574, "train/extr_return_raw_mag": 11.542125092612373, "train/extr_return_raw_max": 11.542125092612373, "train/extr_return_raw_mean": 2.7874838329023786, "train/extr_return_raw_min": -0.7918357861538728, "train/extr_return_raw_std": 2.698584351274702, "train/extr_reward_mag": 1.0520314938492246, "train/extr_reward_max": 1.0520314938492246, "train/extr_reward_mean": 0.05239739574285017, "train/extr_reward_min": -0.6362435155444675, "train/extr_reward_std": 0.22157520324819618, "train/image_loss_mean": 3.2272724161545434, "train/image_loss_std": 8.420271495978037, "train/model_loss_mean": 6.423386030726963, "train/model_loss_std": 12.596235103077358, "train/model_opt_grad_norm": 28.274439069959854, "train/model_opt_grad_steps": 300006.02777777775, "train/model_opt_loss": 8246.81236436632, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.6770656605561576, "train/policy_entropy_max": 2.6770656605561576, "train/policy_entropy_mean": 0.4470845289114449, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6335491653945711, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4462646920647886, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0574676195780437, "train/policy_randomness_mag": 0.9448866976632012, "train/policy_randomness_max": 0.9448866976632012, "train/policy_randomness_mean": 0.15780122040046585, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2236150527993838, "train/post_ent_mag": 54.962013191647, "train/post_ent_max": 54.962013191647, "train/post_ent_mean": 40.829933643341064, "train/post_ent_min": 18.899768617418076, "train/post_ent_std": 5.5982988940344915, "train/prior_ent_mag": 76.60345511966281, "train/prior_ent_max": 76.60345511966281, "train/prior_ent_mean": 46.062226719326446, "train/prior_ent_min": 28.910943004820084, "train/prior_ent_std": 7.504454943868849, "train/rep_loss_mean": 5.240210930506389, "train/rep_loss_std": 8.815637217627632, "train/reward_avg": 0.036764865482432976, "train/reward_loss_mean": 0.05197016398111979, "train/reward_loss_std": 0.21402733503944343, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0189914173550076, "train/reward_neg_acc": 0.9943599568472968, "train/reward_neg_loss": 0.0221485324178098, "train/reward_pos_acc": 0.9864498335454199, "train/reward_pos_loss": 0.7436446530951394, "train/reward_pred": 0.03649247652437124, "train/reward_rate": 0.04135470920138889, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.571428571428571, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34092616396290915, "replay/size": 602252.0, "replay/inserts": 1449.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.128894203033342e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.494925597618366e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2601697444916, "timer/env.step_count": 1449.0, "timer/env.step_total": 19.892333030700684, "timer/env.step_frac": 0.06625032233755213, "timer/env.step_avg": 0.013728318171636082, "timer/env.step_min": 0.002623319625854492, "timer/env.step_max": 2.3320202827453613, "timer/replay.add_count": 1449.0, "timer/replay.add_total": 0.3052685260772705, "timer/replay.add_frac": 0.0010166800556232311, "timer/replay.add_avg": 0.00021067531130246412, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0009734630584716797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024216651916503906, "timer/logger.write_frac": 8.065222882246163e-05, "timer/logger.write_avg": 0.024216651916503906, "timer/logger.write_min": 0.024216651916503906, "timer/logger.write_max": 0.024216651916503906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003237724304199219, "timer/checkpoint.save_frac": 1.0783062924910693e-06, "timer/checkpoint.save_avg": 0.0003237724304199219, "timer/checkpoint.save_min": 0.0003237724304199219, "timer/checkpoint.save_max": 0.0003237724304199219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2323963642120361, "timer/agent.save_frac": 0.004104428387090942, "timer/agent.save_avg": 1.2323963642120361, "timer/agent.save_min": 1.2323963642120361, "timer/agent.save_max": 1.2323963642120361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.462501525878906e-05, "timer/replay.save_frac": 2.485345136595764e-07, "timer/replay.save_avg": 7.462501525878906e-05, "timer/replay.save_min": 7.462501525878906e-05, "timer/replay.save_max": 7.462501525878906e-05, "timer/agent.policy_count": 1449.0, "timer/agent.policy_total": 11.922090768814087, "timer/agent.policy_frac": 0.03970586834397406, "timer/agent.policy_avg": 0.008227805913605305, "timer/agent.policy_min": 0.005888223648071289, "timer/agent.policy_max": 1.2309200763702393, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06073331832885742, "timer/dataset_frac": 0.0002022689801998675, "timer/dataset_avg": 8.377009424669989e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.000286102294921875, "timer/agent.train_count": 725.0, "timer/agent.train_total": 267.4301402568817, "timer/agent.train_frac": 0.8906613903684035, "timer/agent.train_avg": 0.36886915897500927, "timer/agent.train_min": 0.3609166145324707, "timer/agent.train_max": 0.7475719451904297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22125744819641113, "timer/agent.report_frac": 0.0007368857760411301, "timer/agent.report_avg": 0.22125744819641113, "timer/agent.report_min": 0.22125744819641113, "timer/agent.report_max": 0.22125744819641113, "fps": 4.825705437285459}
+{"step": 602389, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.051643192488262914}
+{"step": 602620, "episode/length": 230.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.047619047619047616}
+{"step": 602742, "episode/length": 121.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.06557377049180328}
+{"step": 602884, "episode/length": 141.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07042253521126761}
+{"step": 603051, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0718562874251497}
+{"step": 603213, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05555555555555555}
+{"step": 603337, "episode/length": 123.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.10483870967741936}
+{"step": 603733, "episode/length": 395.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.03282828282828283}
+{"step": 603785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5896466229413, "train/action_min": 0.0, "train/action_std": 3.4457030779606588, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04387877740570017, "train/actor_opt_grad_steps": 300975.0, "train/actor_opt_loss": -10.478071475753913, "train/adv_mag": 0.43847301280176315, "train/adv_max": 0.4007163277348956, "train/adv_mean": 0.00309737125688706, "train/adv_min": -0.3800639598756223, "train/adv_std": 0.04955407463618227, "train/cont_avg": 0.9945629222972973, "train/cont_loss_mean": 3.096738717823578e-05, "train/cont_loss_std": 0.0009502178884532684, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001945097956713745, "train/cont_pos_acc": 0.9999867186353013, "train/cont_pos_loss": 2.977009250594088e-05, "train/cont_pred": 0.9945454404160783, "train/cont_rate": 0.9945629222972973, "train/dyn_loss_mean": 5.26153726191134, "train/dyn_loss_std": 8.817959682361499, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0542014933921195, "train/extr_critic_critic_opt_grad_steps": 300975.0, "train/extr_critic_critic_opt_loss": 16379.275562183277, "train/extr_critic_mag": 10.917821136680809, "train/extr_critic_max": 10.917821136680809, "train/extr_critic_mean": 2.780225492812492, "train/extr_critic_min": -0.4822913939888413, "train/extr_critic_std": 2.642825395674319, "train/extr_return_normed_mag": 1.4494045795621098, "train/extr_return_normed_max": 1.4494045795621098, "train/extr_return_normed_mean": 0.3645494608460246, "train/extr_return_normed_min": -0.07735928374569158, "train/extr_return_normed_std": 0.3296470376285347, "train/extr_return_rate": 0.7381889103232203, "train/extr_return_raw_mag": 11.601121180766338, "train/extr_return_raw_max": 11.601121180766338, "train/extr_return_raw_mean": 2.8053458026937537, "train/extr_return_raw_min": -0.7779393429691727, "train/extr_return_raw_std": 2.6728364519170813, "train/extr_reward_mag": 1.058163807198808, "train/extr_reward_max": 1.058163807198808, "train/extr_reward_mean": 0.05558505709710959, "train/extr_reward_min": -0.6364075734808639, "train/extr_reward_std": 0.22751191177883665, "train/image_loss_mean": 3.1490632859436243, "train/image_loss_std": 8.395504593849182, "train/model_loss_mean": 6.359446970192161, "train/model_loss_std": 12.584486980695981, "train/model_opt_grad_norm": 26.068460851102262, "train/model_opt_grad_steps": 300736.0, "train/model_opt_loss": 12676.505443676098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1993.2432432432433, "train/policy_entropy_mag": 2.6681020485388265, "train/policy_entropy_max": 2.6681020485388265, "train/policy_entropy_mean": 0.42441166816531, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6027611341025378, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4247136069713412, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.041554965682932, "train/policy_randomness_mag": 0.9417229407542461, "train/policy_randomness_max": 0.9417229407542461, "train/policy_randomness_mean": 0.14979869338708954, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21274823040978327, "train/post_ent_mag": 54.89423323966361, "train/post_ent_max": 54.89423323966361, "train/post_ent_mean": 40.85686209395125, "train/post_ent_min": 18.774727447612864, "train/post_ent_std": 5.703140110582919, "train/prior_ent_mag": 76.64589979841902, "train/prior_ent_max": 76.64589979841902, "train/prior_ent_mean": 46.144158389117266, "train/prior_ent_min": 28.750667778221338, "train/prior_ent_std": 7.484830592129682, "train/rep_loss_mean": 5.26153726191134, "train/rep_loss_std": 8.817959682361499, "train/reward_avg": 0.036795291281934525, "train/reward_loss_mean": 0.053430326736053906, "train/reward_loss_std": 0.2092461898117452, "train/reward_max_data": 1.0135135167353861, "train/reward_max_pred": 1.0119959985887683, "train/reward_neg_acc": 0.9947623175543707, "train/reward_neg_loss": 0.02402646536309574, "train/reward_pos_acc": 0.9889639382426804, "train/reward_pos_loss": 0.7294939981924521, "train/reward_pred": 0.03632624273666659, "train/reward_rate": 0.04163587415540541, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.2745410669595003, "replay/size": 603722.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0314841238008877e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5033142907278878e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33509850502014, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.54615330696106, "timer/env.step_frac": 0.06175153486648201, "timer/env.step_avg": 0.012616430821061946, "timer/env.step_min": 0.002707958221435547, "timer/env.step_max": 1.3492951393127441, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2680392265319824, "timer/replay.add_frac": 0.0008924672070171049, "timer/replay.add_avg": 0.00018233960988570233, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0009205341339111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021891355514526367, "timer/logger.write_frac": 7.28897675413067e-05, "timer/logger.write_avg": 0.021891355514526367, "timer/logger.write_min": 0.021891355514526367, "timer/logger.write_max": 0.021891355514526367, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.748438596725464, "timer/agent.policy_frac": 0.03578815346667117, "timer/agent.policy_avg": 0.007311862990969704, "timer/agent.policy_min": 0.0059125423431396484, "timer/agent.policy_max": 0.015544891357421875, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05845928192138672, "timer/dataset_frac": 0.00019464685350590005, "timer/dataset_avg": 7.953643798828126e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.0615828037262, "timer/agent.train_frac": 0.899200873118105, "timer/agent.train_avg": 0.36743072490302886, "timer/agent.train_min": 0.3609304428100586, "timer/agent.train_max": 0.3831217288970947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22212600708007812, "timer/agent.report_frac": 0.0007395939008985501, "timer/agent.report_avg": 0.22212600708007812, "timer/agent.report_min": 0.22212600708007812, "timer/agent.report_max": 0.22212600708007812, "fps": 4.8944232435635495}
+{"step": 603955, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.90000007301569, "episode/reward_rate": 0.06306306306306306}
+{"step": 604110, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06451612903225806}
+{"step": 604313, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.054187192118226604}
+{"step": 604506, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
+{"step": 604641, "episode/length": 134.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07407407407407407}
+{"step": 604707, "episode/length": 65.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.07575757575757576}
+{"step": 604899, "episode/length": 191.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.052083333333333336}
+{"step": 605074, "episode/length": 174.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06285714285714286}
+{"step": 605259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580963959565034, "train/action_min": 0.0, "train/action_std": 3.449638386030455, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042340392196500626, "train/actor_opt_grad_steps": 301715.0, "train/actor_opt_loss": -11.775464002345059, "train/adv_mag": 0.40474556668384654, "train/adv_max": 0.3793620088615933, "train/adv_mean": 0.002472644637876058, "train/adv_min": -0.3431471638582848, "train/adv_std": 0.048237601295113564, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 4.7692298506729924e-05, "train/cont_loss_std": 0.0014194377944188484, "train/cont_neg_acc": 0.9954954957639849, "train/cont_neg_loss": 0.004925143628629539, "train/cont_pos_acc": 0.9999867162188968, "train/cont_pos_loss": 2.8705635159361782e-05, "train/cont_pred": 0.994819989881, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.3996631454777075, "train/dyn_loss_std": 8.813705521660882, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0682128651722058, "train/extr_critic_critic_opt_grad_steps": 301715.0, "train/extr_critic_critic_opt_loss": 16366.264740815033, "train/extr_critic_mag": 10.847253296826336, "train/extr_critic_max": 10.847253296826336, "train/extr_critic_mean": 2.824719277588097, "train/extr_critic_min": -0.4814946442037015, "train/extr_critic_std": 2.6651754782006547, "train/extr_return_normed_mag": 1.429962158203125, "train/extr_return_normed_max": 1.429962158203125, "train/extr_return_normed_mean": 0.36219068294441376, "train/extr_return_normed_min": -0.07976360714717491, "train/extr_return_normed_std": 0.32769962178694234, "train/extr_return_rate": 0.7301274336673118, "train/extr_return_raw_mag": 11.660916341317666, "train/extr_return_raw_max": 11.660916341317666, "train/extr_return_raw_mean": 2.8451082593685872, "train/extr_return_raw_min": -0.8034620889135309, "train/extr_return_raw_std": 2.7054000529083044, "train/extr_reward_mag": 1.057457405167657, "train/extr_reward_max": 1.057457405167657, "train/extr_reward_mean": 0.055513238886723645, "train/extr_reward_min": -0.6392855692554165, "train/extr_reward_std": 0.22755517770309705, "train/image_loss_mean": 3.2499450831799894, "train/image_loss_std": 8.128475053890332, "train/model_loss_mean": 6.544370393495302, "train/model_loss_std": 12.303735243307578, "train/model_opt_grad_norm": 27.825641696517533, "train/model_opt_grad_steps": 301475.8783783784, "train/model_opt_loss": 18539.86187579181, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2854.7297297297296, "train/policy_entropy_mag": 2.6747220335779964, "train/policy_entropy_max": 2.6747220335779964, "train/policy_entropy_mean": 0.4332393436013041, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6189062176523982, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4321509974228369, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0476939001598873, "train/policy_randomness_mag": 0.9440595008231498, "train/policy_randomness_max": 0.9440595008231498, "train/policy_randomness_mean": 0.15291447504549413, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21844673398378733, "train/post_ent_mag": 54.84143380861025, "train/post_ent_max": 54.84143380861025, "train/post_ent_mean": 40.73779647414749, "train/post_ent_min": 19.2631732708699, "train/post_ent_std": 5.672603304321702, "train/prior_ent_mag": 76.55879623825486, "train/prior_ent_max": 76.55879623825486, "train/prior_ent_mean": 46.139750764176654, "train/prior_ent_min": 28.13754824045542, "train/prior_ent_std": 7.524632112399952, "train/rep_loss_mean": 5.3996631454777075, "train/rep_loss_std": 8.813705521660882, "train/reward_avg": 0.0382865282983796, "train/reward_loss_mean": 0.05457977210549084, "train/reward_loss_std": 0.2173944721753533, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0279884853878536, "train/reward_neg_acc": 0.9937979127909686, "train/reward_neg_loss": 0.0237552951266234, "train/reward_pos_acc": 0.9870312173624296, "train/reward_pos_loss": 0.7387203920531917, "train/reward_pred": 0.03796618618071079, "train/reward_rate": 0.043127111486486486, "stats/sum_log_reward": 9.100000083446503, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28815113939344883, "replay/size": 605196.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.0889278189298093e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4311786907822338e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2416183948517, "timer/env.step_count": 1474.0, "timer/env.step_total": 18.016054153442383, "timer/env.step_frac": 0.06000518598906976, "timer/env.step_avg": 0.012222560484017899, "timer/env.step_min": 0.002405405044555664, "timer/env.step_max": 1.30788254737854, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27147459983825684, "timer/replay.add_frac": 0.0009041871053373987, "timer/replay.add_avg": 0.00018417544086720273, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0008351802825927734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020737648010253906, "timer/logger.write_frac": 6.906986486790634e-05, "timer/logger.write_avg": 0.020737648010253906, "timer/logger.write_min": 0.020737648010253906, "timer/logger.write_max": 0.020737648010253906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.6229088306427, "timer/agent.policy_frac": 0.035381200272749574, "timer/agent.policy_avg": 0.00720685809405882, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 0.014505624771118164, "timer/dataset_count": 737.0, "timer/dataset_total": 0.05796551704406738, "timer/dataset_frac": 0.00019306289832156503, "timer/dataset_avg": 7.865063370972508e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 737.0, "timer/agent.train_total": 270.62479543685913, "timer/agent.train_frac": 0.9013567035898299, "timer/agent.train_avg": 0.3671978228451277, "timer/agent.train_min": 0.3585519790649414, "timer/agent.train_max": 0.38440418243408203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22112345695495605, "timer/agent.report_frac": 0.0007364850287482587, "timer/agent.report_avg": 0.22112345695495605, "timer/agent.report_min": 0.22112345695495605, "timer/agent.report_max": 0.22112345695495605, "fps": 4.909266233559094}
+{"step": 605454, "episode/length": 379.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.031578947368421054}
+{"step": 605647, "episode/length": 192.0, "episode/score": 6.099999964237213, "episode/sum_abs_reward": 7.699999988079071, "episode/reward_rate": 0.03626943005181347}
+{"step": 605803, "episode/length": 155.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07692307692307693}
+{"step": 606044, "episode/length": 240.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.05394190871369295}
+{"step": 606220, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
+{"step": 606627, "episode/length": 406.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.02702702702702703}
+{"step": 606721, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580047189372859, "train/action_min": 0.0, "train/action_std": 3.414144996094377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043980968197527, "train/actor_opt_grad_steps": 302450.0, "train/actor_opt_loss": -13.525461008287456, "train/adv_mag": 0.4124700080042016, "train/adv_max": 0.3797160954508063, "train/adv_mean": 0.002538072129750181, "train/adv_min": -0.3522250813572374, "train/adv_std": 0.049166196982746255, "train/cont_avg": 0.9949165239726028, "train/cont_loss_mean": 0.0002300549063907928, "train/cont_loss_std": 0.007200303113758346, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.03197672724664474, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 4.279301299564781e-05, "train/cont_pred": 0.9949193898945639, "train/cont_rate": 0.9949165239726028, "train/dyn_loss_mean": 5.3352707967366255, "train/dyn_loss_std": 8.728742867299955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0723343736504856, "train/extr_critic_critic_opt_grad_steps": 302450.0, "train/extr_critic_critic_opt_loss": 16435.04295537243, "train/extr_critic_mag": 11.063649282063523, "train/extr_critic_max": 11.063649282063523, "train/extr_critic_mean": 2.885007572500673, "train/extr_critic_min": -0.4558600317941953, "train/extr_critic_std": 2.707737814890195, "train/extr_return_normed_mag": 1.4334474704036975, "train/extr_return_normed_max": 1.4334474704036975, "train/extr_return_normed_mean": 0.3664558672741668, "train/extr_return_normed_min": -0.07536667120987423, "train/extr_return_normed_std": 0.32859874016618074, "train/extr_return_rate": 0.7373314801960775, "train/extr_return_raw_mag": 11.813576476214683, "train/extr_return_raw_max": 11.813576476214683, "train/extr_return_raw_mean": 2.906218058442416, "train/extr_return_raw_min": -0.7819399229467732, "train/extr_return_raw_std": 2.7430784147079676, "train/extr_reward_mag": 1.0577472791279832, "train/extr_reward_max": 1.0577472791279832, "train/extr_reward_mean": 0.05676401365701467, "train/extr_reward_min": -0.6354576202288066, "train/extr_reward_std": 0.22987484686995205, "train/image_loss_mean": 3.079863286998174, "train/image_loss_std": 8.144875186763398, "train/model_loss_mean": 6.33462264439831, "train/model_loss_std": 12.257379962973399, "train/model_opt_grad_norm": 27.728907297735343, "train/model_opt_grad_steps": 302209.0, "train/model_opt_loss": 7918.278293557363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.700514989356472, "train/policy_entropy_max": 2.700514989356472, "train/policy_entropy_mean": 0.42664740734720885, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6122589086833066, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42526346485908717, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0402328176041171, "train/policy_randomness_mag": 0.9531632816954835, "train/policy_randomness_max": 0.9531632816954835, "train/policy_randomness_mean": 0.15058781471970964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21610052761149734, "train/post_ent_mag": 55.15676796273009, "train/post_ent_max": 55.15676796273009, "train/post_ent_mean": 40.74234588832071, "train/post_ent_min": 19.233242975522394, "train/post_ent_std": 5.700272364159153, "train/prior_ent_mag": 76.61270810479988, "train/prior_ent_max": 76.61270810479988, "train/prior_ent_mean": 46.11451877959787, "train/prior_ent_min": 28.703333136153546, "train/prior_ent_std": 7.484822397362696, "train/rep_loss_mean": 5.3352707967366255, "train/rep_loss_std": 8.728742867299955, "train/reward_avg": 0.03822238847919523, "train/reward_loss_mean": 0.053366800770163536, "train/reward_loss_std": 0.20961317032167356, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0264191986763314, "train/reward_neg_acc": 0.9948957195020702, "train/reward_neg_loss": 0.023155934330433198, "train/reward_pos_acc": 0.9883930462680451, "train/reward_pos_loss": 0.7292608847356823, "train/reward_pred": 0.03781002139902278, "train/reward_rate": 0.0429152397260274, "stats/sum_log_reward": 9.600000301996866, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5087102750937144, "replay/size": 606658.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.067804589643361e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.391026455139494e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1829471588135, "timer/env.step_count": 1462.0, "timer/env.step_total": 15.681914806365967, "timer/env.step_frac": 0.05224119142940309, "timer/env.step_avg": 0.010726343916802987, "timer/env.step_min": 0.0023887157440185547, "timer/env.step_max": 1.332819938659668, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.27420949935913086, "timer/replay.add_frac": 0.0009134746059177664, "timer/replay.add_avg": 0.0001875577970992687, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0009272098541259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029398441314697266, "timer/logger.write_frac": 9.793508123279186e-05, "timer/logger.write_avg": 0.029398441314697266, "timer/logger.write_min": 0.029398441314697266, "timer/logger.write_max": 0.029398441314697266, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026035308837890625, "timer/checkpoint.save_frac": 8.673147187177325e-07, "timer/checkpoint.save_avg": 0.00026035308837890625, "timer/checkpoint.save_min": 0.00026035308837890625, "timer/checkpoint.save_max": 0.00026035308837890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4734351634979248, "timer/agent.save_frac": 0.0049084572506325475, "timer/agent.save_avg": 1.4734351634979248, "timer/agent.save_min": 1.4734351634979248, "timer/agent.save_max": 1.4734351634979248, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.3430205313345336e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 14.77927827835083, "timer/agent.policy_frac": 0.049234236715424644, "timer/agent.policy_avg": 0.0101089454708282, "timer/agent.policy_min": 0.0057795047760009766, "timer/agent.policy_max": 2.8243041038513184, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05906558036804199, "timer/dataset_frac": 0.0001967652757329783, "timer/dataset_avg": 8.080106753494117e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.0009522438049316406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 268.722056388855, "timer/agent.train_frac": 0.8951942771308926, "timer/agent.train_avg": 0.36760883226929547, "timer/agent.train_min": 0.3610503673553467, "timer/agent.train_max": 0.44634485244750977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2261030673980713, "timer/agent.report_frac": 0.0007532175612842198, "timer/agent.report_avg": 0.2261030673980713, "timer/agent.report_min": 0.2261030673980713, "timer/agent.report_max": 0.2261030673980713, "fps": 4.8702744753476805}
+{"step": 606820, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
+{"step": 606945, "episode/length": 124.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.096}
+{"step": 607133, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
+{"step": 607326, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
+{"step": 607486, "episode/length": 159.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05625}
+{"step": 607703, "episode/length": 216.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.05069124423963134}
+{"step": 608049, "episode/length": 345.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.03757225433526012}
+{"step": 608199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5309126570418075, "train/action_min": 0.0, "train/action_std": 3.374204036351797, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04290429470003457, "train/actor_opt_grad_steps": 303185.0, "train/actor_opt_loss": -11.61512639635318, "train/adv_mag": 0.38367088622338064, "train/adv_max": 0.35814847414558, "train/adv_mean": 0.0021835639026657853, "train/adv_min": -0.32690321271483963, "train/adv_std": 0.048599704999375985, "train/cont_avg": 0.9942857896959459, "train/cont_loss_mean": 1.430421747964042e-05, "train/cont_loss_std": 0.0004128714649573032, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013446599589299793, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 7.542981973612055e-06, "train/cont_pred": 0.9942844953085925, "train/cont_rate": 0.9942857896959459, "train/dyn_loss_mean": 5.169308127583684, "train/dyn_loss_std": 8.82033987303038, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0216216630226858, "train/extr_critic_critic_opt_grad_steps": 303185.0, "train/extr_critic_critic_opt_loss": 16295.1328125, "train/extr_critic_mag": 11.035699728372935, "train/extr_critic_max": 11.035699728372935, "train/extr_critic_mean": 2.9361324052552917, "train/extr_critic_min": -0.460427649923273, "train/extr_critic_std": 2.709738963359111, "train/extr_return_normed_mag": 1.4228076757611454, "train/extr_return_normed_max": 1.4228076757611454, "train/extr_return_normed_mean": 0.37110674622896556, "train/extr_return_normed_min": -0.0767735179916427, "train/extr_return_normed_std": 0.32794944378169805, "train/extr_return_rate": 0.7479114258611524, "train/extr_return_raw_mag": 11.746047793207941, "train/extr_return_raw_max": 11.746047793207941, "train/extr_return_raw_mean": 2.9543886845176286, "train/extr_return_raw_min": -0.7892005274424682, "train/extr_return_raw_std": 2.741187282510706, "train/extr_reward_mag": 1.0487470755705963, "train/extr_reward_max": 1.0487470755705963, "train/extr_reward_mean": 0.05555103366842141, "train/extr_reward_min": -0.6636586302035564, "train/extr_reward_std": 0.22769790424688444, "train/image_loss_mean": 3.0932671653257833, "train/image_loss_std": 8.460402346946097, "train/model_loss_mean": 6.248105493751732, "train/model_loss_std": 12.631044568242254, "train/model_opt_grad_norm": 27.919749208398766, "train/model_opt_grad_steps": 302944.0, "train/model_opt_loss": 13122.377533783783, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2094.5945945945946, "train/policy_entropy_mag": 2.700820491120622, "train/policy_entropy_max": 2.700820491120622, "train/policy_entropy_mean": 0.42386228409973353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6064813890167184, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42287292170363505, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.040196190009246, "train/policy_randomness_mag": 0.9532711127319852, "train/policy_randomness_max": 0.9532711127319852, "train/policy_randomness_mean": 0.14960478568399274, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21406131630411018, "train/post_ent_mag": 55.233938732662715, "train/post_ent_max": 55.233938732662715, "train/post_ent_mean": 40.87889372335898, "train/post_ent_min": 19.458441553889095, "train/post_ent_std": 5.658422457205282, "train/prior_ent_mag": 76.64564246100349, "train/prior_ent_max": 76.64564246100349, "train/prior_ent_mean": 46.024871619972025, "train/prior_ent_min": 28.881210275598473, "train/prior_ent_std": 7.547527094145079, "train/rep_loss_mean": 5.169308127583684, "train/rep_loss_std": 8.82033987303038, "train/reward_avg": 0.03788006743667899, "train/reward_loss_mean": 0.05323916288545808, "train/reward_loss_std": 0.20124457494632617, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0165763819539868, "train/reward_neg_acc": 0.9946025851610545, "train/reward_neg_loss": 0.02367491403443588, "train/reward_pos_acc": 0.9928646804513158, "train/reward_pos_loss": 0.7119219254803013, "train/reward_pred": 0.03779967114127971, "train/reward_rate": 0.04296875, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.36567784207207815, "replay/size": 608136.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.091698570406324e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.480276110369072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0099594593048, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.976280212402344, "timer/env.step_frac": 0.056585722164017395, "timer/env.step_avg": 0.011485981199189678, "timer/env.step_min": 0.002759218215942383, "timer/env.step_max": 1.2428958415985107, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2697019577026367, "timer/replay.add_frac": 0.0008989766812698788, "timer/replay.add_avg": 0.0001824776439124741, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0008962154388427734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030209064483642578, "timer/logger.write_frac": 0.00010069353876813653, "timer/logger.write_avg": 0.030209064483642578, "timer/logger.write_min": 0.030209064483642578, "timer/logger.write_max": 0.030209064483642578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.76350212097168, "timer/agent.policy_frac": 0.03587714934654263, "timer/agent.policy_avg": 0.007282477754378674, "timer/agent.policy_min": 0.005918741226196289, "timer/agent.policy_max": 0.015492916107177734, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05839061737060547, "timer/dataset_frac": 0.00019462892990566177, "timer/dataset_avg": 7.901301403329563e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.2848856449127, "timer/agent.train_frac": 0.904252932582098, "timer/agent.train_avg": 0.3670972742150375, "timer/agent.train_min": 0.3610553741455078, "timer/agent.train_max": 0.380176305770874, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22238922119140625, "timer/agent.report_frac": 0.0007412727950505672, "timer/agent.report_avg": 0.22238922119140625, "timer/agent.report_min": 0.22238922119140625, "timer/agent.report_max": 0.22238922119140625, "fps": 4.926392692639156}
+{"step": 608260, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06635071090047394}
+{"step": 608424, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
+{"step": 608589, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06060606060606061}
+{"step": 608754, "episode/length": 164.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.048484848484848485}
+{"step": 608963, "episode/length": 208.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0430622009569378}
+{"step": 609084, "episode/length": 120.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.08264462809917356}
+{"step": 609353, "episode/length": 268.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.040892193308550186}
+{"step": 609471, "episode/length": 117.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09322033898305085}
+{"step": 609673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686826104987158, "train/action_min": 0.0, "train/action_std": 3.5799919546466983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04349620573937076, "train/actor_opt_grad_steps": 303920.0, "train/actor_opt_loss": -12.435284879926133, "train/adv_mag": 0.42387919842380367, "train/adv_max": 0.3768705313336359, "train/adv_mean": 0.0020567493769180745, "train/adv_min": -0.36848294775779933, "train/adv_std": 0.047911106927754125, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 2.475907276504262e-05, "train/cont_loss_std": 0.0006026444239162392, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006656081346366977, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 2.0596018884265354e-05, "train/cont_pred": 0.9948222196265443, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.077016853306391, "train/dyn_loss_std": 8.750078834899485, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0490734764974412, "train/extr_critic_critic_opt_grad_steps": 303920.0, "train/extr_critic_critic_opt_loss": 16108.502688891267, "train/extr_critic_mag": 11.146502285787504, "train/extr_critic_max": 11.146502285787504, "train/extr_critic_mean": 2.9105568911931288, "train/extr_critic_min": -0.5022092224800423, "train/extr_critic_std": 2.7040277049966055, "train/extr_return_normed_mag": 1.4551936992227215, "train/extr_return_normed_max": 1.4551936992227215, "train/extr_return_normed_mean": 0.370932159358508, "train/extr_return_normed_min": -0.08752073393496748, "train/extr_return_normed_std": 0.3284409238051062, "train/extr_return_rate": 0.7379477424164341, "train/extr_return_raw_mag": 11.95839145085583, "train/extr_return_raw_max": 11.95839145085583, "train/extr_return_raw_mean": 2.92767004607475, "train/extr_return_raw_min": -0.8926665905403764, "train/extr_return_raw_std": 2.7367052215419405, "train/extr_reward_mag": 1.0562496903824479, "train/extr_reward_max": 1.0562496903824479, "train/extr_reward_mean": 0.055220412600734466, "train/extr_reward_min": -0.6550288706609647, "train/extr_reward_std": 0.22686339526960295, "train/image_loss_mean": 3.0869354107608533, "train/image_loss_std": 8.149267751876621, "train/model_loss_mean": 6.187323988300481, "train/model_loss_std": 12.25915331383274, "train/model_opt_grad_norm": 25.676184445211334, "train/model_opt_grad_steps": 303678.7123287671, "train/model_opt_loss": 15861.7578125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.695288315211257, "train/policy_entropy_max": 2.695288315211257, "train/policy_entropy_mean": 0.46729772548152976, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6552890069680671, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46680083952537954, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0722718312315744, "train/policy_randomness_mag": 0.9513184991601396, "train/policy_randomness_max": 0.9513184991601396, "train/policy_randomness_mean": 0.16493559097998764, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23128826426316615, "train/post_ent_mag": 55.05806408189748, "train/post_ent_max": 55.05806408189748, "train/post_ent_mean": 40.94160780188155, "train/post_ent_min": 19.041051407382913, "train/post_ent_std": 5.661830497114626, "train/prior_ent_mag": 76.81156430179125, "train/prior_ent_max": 76.81156430179125, "train/prior_ent_mean": 46.038841770119866, "train/prior_ent_min": 28.804284526877208, "train/prior_ent_std": 7.464232849748167, "train/rep_loss_mean": 5.077016853306391, "train/rep_loss_std": 8.750078834899485, "train/reward_avg": 0.03808192388243871, "train/reward_loss_mean": 0.05415375734845253, "train/reward_loss_std": 0.2166445461446292, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0217809513823626, "train/reward_neg_acc": 0.9936854847489971, "train/reward_neg_loss": 0.02368293250974727, "train/reward_pos_acc": 0.9873151428078952, "train/reward_pos_loss": 0.7384296606664789, "train/reward_pred": 0.03769773789617705, "train/reward_rate": 0.04275470890410959, "stats/sum_log_reward": 9.100000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 6.625, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3682054150849581, "replay/size": 609610.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.019860835702966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.43595029735177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2508327960968, "timer/env.step_count": 1474.0, "timer/env.step_total": 18.12225890159607, "timer/env.step_frac": 0.060357064567754484, "timer/env.step_avg": 0.012294612551964769, "timer/env.step_min": 0.002267122268676758, "timer/env.step_max": 1.3188462257385254, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27083301544189453, "timer/replay.add_frac": 0.0009020225286962644, "timer/replay.add_avg": 0.0001837401732984359, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.00092315673828125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0207369327545166, "timer/logger.write_frac": 6.906536298801626e-05, "timer/logger.write_avg": 0.0207369327545166, "timer/logger.write_min": 0.0207369327545166, "timer/logger.write_max": 0.0207369327545166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.658754587173462, "timer/agent.policy_frac": 0.03549950049401503, "timer/agent.policy_avg": 0.007231176789127179, "timer/agent.policy_min": 0.005805253982543945, "timer/agent.policy_max": 0.01581859588623047, "timer/dataset_count": 737.0, "timer/dataset_total": 0.057909488677978516, "timer/dataset_frac": 0.00019287036821411717, "timer/dataset_avg": 7.857461150336298e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00023102760314941406, "timer/agent.train_count": 737.0, "timer/agent.train_total": 270.49825716018677, "timer/agent.train_frac": 0.9009075999595468, "timer/agent.train_avg": 0.36702612911829957, "timer/agent.train_min": 0.3608407974243164, "timer/agent.train_max": 0.3816242218017578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289490699768066, "timer/agent.report_frac": 0.0007423623272647198, "timer/agent.report_avg": 0.22289490699768066, "timer/agent.report_min": 0.22289490699768066, "timer/agent.report_max": 0.22289490699768066, "fps": 4.909121817313259}
+{"step": 609675, "episode/length": 203.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.06372549019607843}
+{"step": 609928, "episode/length": 252.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.039525691699604744}
+{"step": 609986, "episode/length": 57.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05172413793103448}
+{"step": 610136, "episode/length": 149.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07333333333333333}
+{"step": 610202, "episode/length": 65.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.10606060606060606}
+{"step": 610409, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.05314009661835749}
+{"step": 610595, "episode/length": 185.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06451612903225806}
+{"step": 610777, "episode/length": 181.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06593406593406594}
+{"step": 611065, "episode/length": 287.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.04513888888888889}
+{"step": 611117, "stats/sum_log_reward": 8.98888897895813, "stats/max_log_achievement_collect_coal": 1.2222222222222223, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 12.444444444444445, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.4201134377055698, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.611889309353298, "train/action_min": 0.0, "train/action_std": 3.435819837782118, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042431468764940895, "train/actor_opt_grad_steps": 304645.0, "train/actor_opt_loss": -13.217202689912584, "train/adv_mag": 0.396127628783385, "train/adv_max": 0.35918394807312226, "train/adv_mean": 0.0022938935421987277, "train/adv_min": -0.35445963342984516, "train/adv_std": 0.048269003370983735, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 7.383017597817343e-05, "train/cont_loss_std": 0.0021137778498459487, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.00461446799053691, "train/cont_pos_acc": 0.9999726671311591, "train/cont_pos_loss": 4.2195857304644984e-05, "train/cont_pred": 0.9945844064156214, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 5.147170186042786, "train/dyn_loss_std": 8.868776308165657, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0635074194934633, "train/extr_critic_critic_opt_grad_steps": 304645.0, "train/extr_critic_critic_opt_loss": 16350.414265950521, "train/extr_critic_mag": 11.12163237730662, "train/extr_critic_max": 11.12163237730662, "train/extr_critic_mean": 2.8810107310613, "train/extr_critic_min": -0.5376292119423548, "train/extr_critic_std": 2.7659347686502667, "train/extr_return_normed_mag": 1.4310094250573053, "train/extr_return_normed_max": 1.4310094250573053, "train/extr_return_normed_mean": 0.362298800299565, "train/extr_return_normed_min": -0.08173883406238423, "train/extr_return_normed_std": 0.33103082453211147, "train/extr_return_rate": 0.726259622308943, "train/extr_return_raw_mag": 11.952572107315063, "train/extr_return_raw_max": 11.952572107315063, "train/extr_return_raw_mean": 2.9004248016410403, "train/extr_return_raw_min": -0.8607861490713226, "train/extr_return_raw_std": 2.8036813967757754, "train/extr_reward_mag": 1.050858951277203, "train/extr_reward_max": 1.050858951277203, "train/extr_reward_mean": 0.056731652158002056, "train/extr_reward_min": -0.6734553111924065, "train/extr_reward_std": 0.23069782182574272, "train/image_loss_mean": 3.015478084484736, "train/image_loss_std": 8.209735870361328, "train/model_loss_mean": 6.156447324487898, "train/model_loss_std": 12.383419884575737, "train/model_opt_grad_norm": 27.11234480804867, "train/model_opt_grad_steps": 304403.0, "train/model_opt_loss": 15391.118286132812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686082902881834, "train/policy_entropy_max": 2.686082902881834, "train/policy_entropy_mean": 0.43460527021023965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6184943699174457, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4356709567623006, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0525466865963407, "train/policy_randomness_mag": 0.9480693886677424, "train/policy_randomness_max": 0.9480693886677424, "train/policy_randomness_mean": 0.15339658895714414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21830137136081854, "train/post_ent_mag": 55.15176513459947, "train/post_ent_max": 55.15176513459947, "train/post_ent_mean": 40.898269971211754, "train/post_ent_min": 18.97351512644026, "train/post_ent_std": 5.726663728555043, "train/prior_ent_mag": 76.6454758114285, "train/prior_ent_max": 76.6454758114285, "train/prior_ent_mean": 46.01808940039741, "train/prior_ent_min": 28.695607715182835, "train/prior_ent_std": 7.459883431593577, "train/rep_loss_mean": 5.147170186042786, "train/rep_loss_std": 8.868776308165657, "train/reward_avg": 0.03735351549564964, "train/reward_loss_mean": 0.0525932974802951, "train/reward_loss_std": 0.207094583246443, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0178033610184987, "train/reward_neg_acc": 0.9947736751702096, "train/reward_neg_loss": 0.02292144453773896, "train/reward_pos_acc": 0.9904969268374972, "train/reward_pos_loss": 0.7245453347762426, "train/reward_pred": 0.037092194349194564, "train/reward_rate": 0.04224989149305555, "replay/size": 611054.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.030755843482189e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4205016918129537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384798526764, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.13308310508728, "timer/env.step_frac": 0.06705697122822615, "timer/env.step_avg": 0.01394257832762277, "timer/env.step_min": 0.0025415420532226562, "timer/env.step_max": 1.3510348796844482, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2558131217956543, "timer/replay.add_frac": 0.0008520330968941052, "timer/replay.add_avg": 0.00017715590152053622, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0009036064147949219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02775740623474121, "timer/logger.write_frac": 9.24511949579596e-05, "timer/logger.write_avg": 0.02775740623474121, "timer/logger.write_min": 0.02775740623474121, "timer/logger.write_max": 0.02775740623474121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00032639503479003906, "timer/checkpoint.save_frac": 1.0871192624949253e-06, "timer/checkpoint.save_avg": 0.00032639503479003906, "timer/checkpoint.save_min": 0.00032639503479003906, "timer/checkpoint.save_max": 0.00032639503479003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2644710540771484, "timer/agent.save_frac": 0.004211555609719347, "timer/agent.save_avg": 1.2644710540771484, "timer/agent.save_min": 1.2644710540771484, "timer/agent.save_max": 1.2644710540771484, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.626678466796875e-05, "timer/replay.save_frac": 1.8740697293557516e-07, "timer/replay.save_avg": 5.626678466796875e-05, "timer/replay.save_min": 5.626678466796875e-05, "timer/replay.save_max": 5.626678466796875e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 13.95205020904541, "timer/agent.policy_frac": 0.04646989358556412, "timer/agent.policy_avg": 0.009662084632302916, "timer/agent.policy_min": 0.005712032318115234, "timer/agent.policy_max": 2.2998557090759277, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05772829055786133, "timer/dataset_frac": 0.00019227478964784243, "timer/dataset_avg": 7.99560811050711e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 722.0, "timer/agent.train_total": 265.1830966472626, "timer/agent.train_frac": 0.8832415377848466, "timer/agent.train_avg": 0.367289607544685, "timer/agent.train_min": 0.36095690727233887, "timer/agent.train_max": 0.46123528480529785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22214770317077637, "timer/agent.report_frac": 0.0007399041697779103, "timer/agent.report_avg": 0.22214770317077637, "timer/agent.report_min": 0.22214770317077637, "timer/agent.report_max": 0.22214770317077637, "fps": 4.809400765500695}
+{"step": 611274, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06220095693779904}
+{"step": 611503, "episode/length": 228.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.0611353711790393}
+{"step": 611696, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05181347150259067}
+{"step": 611842, "episode/length": 145.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0684931506849315}
+{"step": 612009, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07784431137724551}
+{"step": 612209, "episode/length": 199.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.055}
+{"step": 612372, "episode/length": 162.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.049079754601226995}
+{"step": 612532, "episode/length": 159.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05625}
+{"step": 612587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.672891152871622, "train/action_min": 0.0, "train/action_std": 3.53965759599531, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04344090461932324, "train/actor_opt_grad_steps": 305375.0, "train/actor_opt_loss": -12.29936763885859, "train/adv_mag": 0.42586358455387324, "train/adv_max": 0.3800512516015285, "train/adv_mean": 0.002643944646331727, "train/adv_min": -0.37225403938744517, "train/adv_std": 0.04889819529410955, "train/cont_avg": 0.9947740709459459, "train/cont_loss_mean": 0.0001001806247183604, "train/cont_loss_std": 0.002990170666198399, "train/cont_neg_acc": 0.9950450457431175, "train/cont_neg_loss": 0.014974319773139962, "train/cont_pos_acc": 0.9999999846961047, "train/cont_pos_loss": 2.1061259988296053e-05, "train/cont_pred": 0.9947844534306913, "train/cont_rate": 0.9947740709459459, "train/dyn_loss_mean": 5.327510653315364, "train/dyn_loss_std": 8.780342198706961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1160635666267291, "train/extr_critic_critic_opt_grad_steps": 305375.0, "train/extr_critic_critic_opt_loss": 16418.447925464527, "train/extr_critic_mag": 11.17427448324255, "train/extr_critic_max": 11.17427448324255, "train/extr_critic_mean": 2.87380283909875, "train/extr_critic_min": -0.49974504999212316, "train/extr_critic_std": 2.7488865755699776, "train/extr_return_normed_mag": 1.4367099146585207, "train/extr_return_normed_max": 1.4367099146585207, "train/extr_return_normed_mean": 0.36335235310567393, "train/extr_return_normed_min": -0.08362027026108794, "train/extr_return_normed_std": 0.3318941915357435, "train/extr_return_rate": 0.7311435825115925, "train/extr_return_raw_mag": 11.89595433827993, "train/extr_return_raw_max": 11.89595433827993, "train/extr_return_raw_mean": 2.8959484196997978, "train/extr_return_raw_min": -0.8515675978080647, "train/extr_return_raw_std": 2.782677579570461, "train/extr_reward_mag": 1.0509697005555436, "train/extr_reward_max": 1.0509697005555436, "train/extr_reward_mean": 0.05847854675674761, "train/extr_reward_min": -0.6449185883676684, "train/extr_reward_std": 0.23265582403621157, "train/image_loss_mean": 3.190241678341015, "train/image_loss_std": 8.120067686647982, "train/model_loss_mean": 6.440545520266971, "train/model_loss_std": 12.299571630117056, "train/model_opt_grad_norm": 26.390256675514014, "train/model_opt_grad_steps": 305131.64864864864, "train/model_opt_loss": 13514.770725559543, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2060.810810810811, "train/policy_entropy_mag": 2.6728483728460364, "train/policy_entropy_max": 2.6728483728460364, "train/policy_entropy_mean": 0.4304476815301019, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6095333981352884, "train/policy_logprob_mag": 7.4383842622911605, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43018169016451446, "train/policy_logprob_min": -7.4383842622911605, "train/policy_logprob_std": 1.0438378928480923, "train/policy_randomness_mag": 0.9433981816510897, "train/policy_randomness_max": 0.9433981816510897, "train/policy_randomness_mean": 0.1519291443196503, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21513854319582115, "train/post_ent_mag": 55.14663299354347, "train/post_ent_max": 55.14663299354347, "train/post_ent_mean": 40.859673319636165, "train/post_ent_min": 19.266675382047087, "train/post_ent_std": 5.705909535691545, "train/prior_ent_mag": 76.65220755499763, "train/prior_ent_max": 76.65220755499763, "train/prior_ent_mean": 46.17511986397408, "train/prior_ent_min": 28.40973289592846, "train/prior_ent_std": 7.474754559027182, "train/rep_loss_mean": 5.327510653315364, "train/rep_loss_std": 8.780342198706961, "train/reward_avg": 0.038897540093072364, "train/reward_loss_mean": 0.053697239607572556, "train/reward_loss_std": 0.20736990707951622, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0191650970562085, "train/reward_neg_acc": 0.9941249135378245, "train/reward_neg_loss": 0.023461693331498553, "train/reward_pos_acc": 0.991540099317963, "train/reward_pos_loss": 0.7174931369923256, "train/reward_pred": 0.03884247755883513, "train/reward_rate": 0.04365498310810811, "stats/sum_log_reward": 9.600000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_stone": 14.375, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3308533038944006, "replay/size": 612524.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1237699547592474e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4161577030104033e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09305334091187, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.29071831703186, "timer/env.step_frac": 0.060950155671391795, "timer/env.step_avg": 0.012442665521790382, "timer/env.step_min": 0.0025458335876464844, "timer/env.step_max": 1.3879473209381104, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.26940393447875977, "timer/replay.add_frac": 0.0008977346575654031, "timer/replay.add_avg": 0.0001832679826386121, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0016477108001708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022363662719726562, "timer/logger.write_frac": 7.452242719634361e-05, "timer/logger.write_avg": 0.022363662719726562, "timer/logger.write_min": 0.022363662719726562, "timer/logger.write_max": 0.022363662719726562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.629583358764648, "timer/agent.policy_frac": 0.03542095773436389, "timer/agent.policy_avg": 0.007231009087594999, "timer/agent.policy_min": 0.005808591842651367, "timer/agent.policy_max": 0.016956090927124023, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05813741683959961, "timer/dataset_frac": 0.0001937312983168401, "timer/dataset_avg": 7.909852631238042e-05, "timer/dataset_min": 5.435943603515625e-05, "timer/dataset_max": 0.001018524169921875, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.1951689720154, "timer/agent.train_frac": 0.9003712880520034, "timer/agent.train_avg": 0.36761247479185766, "timer/agent.train_min": 0.3579442501068115, "timer/agent.train_max": 0.3816955089569092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351336479187012, "timer/agent.report_frac": 0.0007448135246834733, "timer/agent.report_avg": 0.22351336479187012, "timer/agent.report_min": 0.22351336479187012, "timer/agent.report_max": 0.22351336479187012, "fps": 4.898371594404042}
+{"step": 612787, "episode/length": 254.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.0392156862745098}
+{"step": 613054, "episode/length": 266.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.033707865168539325}
+{"step": 613270, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06018518518518518}
+{"step": 613515, "episode/length": 244.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.04897959183673469}
+{"step": 613712, "episode/length": 196.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06091370558375635}
+{"step": 613776, "episode/length": 63.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.109375}
+{"step": 614048, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04411764705882353}
+{"step": 614065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.581700505437078, "train/action_min": 0.0, "train/action_std": 3.471202341285912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042278155785154654, "train/actor_opt_grad_steps": 306115.0, "train/actor_opt_loss": -12.50710841610625, "train/adv_mag": 0.40917670646229304, "train/adv_max": 0.36725361202214213, "train/adv_mean": 0.0021742291038282092, "train/adv_min": -0.35600711969104976, "train/adv_std": 0.04783790266594371, "train/cont_avg": 0.9948136613175675, "train/cont_loss_mean": 9.850272864637928e-05, "train/cont_loss_std": 0.00301049561644074, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.019535673630240107, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 1.2893097685700678e-05, "train/cont_pred": 0.9948268025308042, "train/cont_rate": 0.9948136613175675, "train/dyn_loss_mean": 5.165360792263134, "train/dyn_loss_std": 8.784066973505793, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0555033869034536, "train/extr_critic_critic_opt_grad_steps": 306115.0, "train/extr_critic_critic_opt_loss": 16165.026076858108, "train/extr_critic_mag": 11.08091942039696, "train/extr_critic_max": 11.08091942039696, "train/extr_critic_mean": 2.868968040556521, "train/extr_critic_min": -0.5180480464084728, "train/extr_critic_std": 2.721059692872537, "train/extr_return_normed_mag": 1.4319851559561652, "train/extr_return_normed_max": 1.4319851559561652, "train/extr_return_normed_mean": 0.3612217280913044, "train/extr_return_normed_min": -0.079655107689669, "train/extr_return_normed_std": 0.3285514869399973, "train/extr_return_rate": 0.7354738917705175, "train/extr_return_raw_mag": 11.863120311015361, "train/extr_return_raw_max": 11.863120311015361, "train/extr_return_raw_mean": 2.8871801125036702, "train/extr_return_raw_min": -0.8092068631101299, "train/extr_return_raw_std": 2.7547506029541426, "train/extr_reward_mag": 1.0560801834673494, "train/extr_reward_max": 1.0560801834673494, "train/extr_reward_mean": 0.05439935513847583, "train/extr_reward_min": -0.650141575851956, "train/extr_reward_std": 0.22537626889911858, "train/image_loss_mean": 3.0815254288750724, "train/image_loss_std": 8.363854015195692, "train/model_loss_mean": 6.23394843694326, "train/model_loss_std": 12.507580473616317, "train/model_opt_grad_norm": 27.963371547492773, "train/model_opt_grad_steps": 305871.0, "train/model_opt_loss": 9242.309662690033, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1486.4864864864865, "train/policy_entropy_mag": 2.695909232706637, "train/policy_entropy_max": 2.695909232706637, "train/policy_entropy_mean": 0.43861726973507853, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6251465782925889, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4379649681819452, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.0516186501528766, "train/policy_randomness_mag": 0.9515376534010913, "train/policy_randomness_max": 0.9515376534010913, "train/policy_randomness_mean": 0.15481264828830152, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2206493084495132, "train/post_ent_mag": 54.911404429255306, "train/post_ent_max": 54.911404429255306, "train/post_ent_mean": 40.91658293234335, "train/post_ent_min": 19.315658749760807, "train/post_ent_std": 5.647776932329745, "train/prior_ent_mag": 76.58524611189559, "train/prior_ent_max": 76.58524611189559, "train/prior_ent_mean": 46.11245923428922, "train/prior_ent_min": 28.815495387927907, "train/prior_ent_std": 7.461149409010604, "train/rep_loss_mean": 5.165360792263134, "train/rep_loss_std": 8.784066973505793, "train/reward_avg": 0.038299725466483345, "train/reward_loss_mean": 0.053108029319225133, "train/reward_loss_std": 0.20815808930107066, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0261479197321712, "train/reward_neg_acc": 0.9947350790371766, "train/reward_neg_loss": 0.022699753275594196, "train/reward_pos_acc": 0.9883412831538433, "train/reward_pos_loss": 0.7334446923152821, "train/reward_pred": 0.03792693403020904, "train/reward_rate": 0.04298194679054054, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.42966983148029875, "replay/size": 614002.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.0554034551845028e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.408149650842153e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0960657596588, "timer/env.step_count": 1478.0, "timer/env.step_total": 17.19559144973755, "timer/env.step_frac": 0.05730028951298938, "timer/env.step_avg": 0.011634364986290628, "timer/env.step_min": 0.002411365509033203, "timer/env.step_max": 1.2893431186676025, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2763187885284424, "timer/replay.add_frac": 0.0009207677809070006, "timer/replay.add_avg": 0.00018695452539136832, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0008044242858886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029523611068725586, "timer/logger.write_frac": 9.838053356011165e-05, "timer/logger.write_avg": 0.029523611068725586, "timer/logger.write_min": 0.029523611068725586, "timer/logger.write_max": 0.029523611068725586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.677252531051636, "timer/agent.policy_frac": 0.03557944854766221, "timer/agent.policy_avg": 0.007224122145501784, "timer/agent.policy_min": 0.005625486373901367, "timer/agent.policy_max": 0.019620656967163086, "timer/dataset_count": 739.0, "timer/dataset_total": 0.057764291763305664, "timer/dataset_frac": 0.00019248600149782697, "timer/dataset_avg": 7.81654827649603e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.23522877693176, "timer/agent.train_frac": 0.9038280061763917, "timer/agent.train_avg": 0.36703007953576694, "timer/agent.train_min": 0.3606741428375244, "timer/agent.train_max": 0.3811988830566406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22368597984313965, "timer/agent.report_frac": 0.000745381247424568, "timer/agent.report_avg": 0.22368597984313965, "timer/agent.report_min": 0.22368597984313965, "timer/agent.report_max": 0.22368597984313965, "fps": 4.925035479437466}
+{"step": 614232, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06521739130434782}
+{"step": 614350, "episode/length": 117.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.07627118644067797}
+{"step": 614560, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05714285714285714}
+{"step": 614718, "episode/length": 157.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06962025316455696}
+{"step": 614878, "episode/length": 159.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0625}
+{"step": 615037, "episode/length": 158.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.06289308176100629}
+{"step": 615250, "episode/length": 212.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06103286384976526}
+{"step": 615301, "episode/length": 50.0, "episode/score": 5.100000038743019, "episode/sum_abs_reward": 6.500000014901161, "episode/reward_rate": 0.13725490196078433}
+{"step": 615517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5254321628146705, "train/action_min": 0.0, "train/action_std": 3.4635827839374542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04280468529193766, "train/actor_opt_grad_steps": 306845.0, "train/actor_opt_loss": -12.412589146031273, "train/adv_mag": 0.41856707632541656, "train/adv_max": 0.3836191375222471, "train/adv_mean": 0.0017808262534041812, "train/adv_min": -0.35064500715169644, "train/adv_std": 0.04750722822629743, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 9.553850468040853e-05, "train/cont_loss_std": 0.002931660772746783, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006570553761607003, "train/cont_pos_acc": 0.9999726944499545, "train/cont_pos_loss": 6.962448408150597e-05, "train/cont_pred": 0.9949371086226569, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.1907382938596935, "train/dyn_loss_std": 8.772661937607658, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0513846551378567, "train/extr_critic_critic_opt_grad_steps": 306845.0, "train/extr_critic_critic_opt_loss": 16284.305677625867, "train/extr_critic_mag": 11.095174670219421, "train/extr_critic_max": 11.095174670219421, "train/extr_critic_mean": 2.7948841187689037, "train/extr_critic_min": -0.46602505445480347, "train/extr_critic_std": 2.6360811524920993, "train/extr_return_normed_mag": 1.434248846438196, "train/extr_return_normed_max": 1.434248846438196, "train/extr_return_normed_mean": 0.3550788588407967, "train/extr_return_normed_min": -0.07334168627858162, "train/extr_return_normed_std": 0.32118156138393616, "train/extr_return_rate": 0.7430546879768372, "train/extr_return_raw_mag": 11.762851304478115, "train/extr_return_raw_max": 11.762851304478115, "train/extr_return_raw_mean": 2.8096970518430076, "train/extr_return_raw_min": -0.7441795985731814, "train/extr_return_raw_std": 2.664286093579398, "train/extr_reward_mag": 1.0529908736546834, "train/extr_reward_max": 1.0529908736546834, "train/extr_reward_mean": 0.05377653122155203, "train/extr_reward_min": -0.6085155010223389, "train/extr_reward_std": 0.22381708998647, "train/image_loss_mean": 3.120811050136884, "train/image_loss_std": 8.1852438516087, "train/model_loss_mean": 6.288193457656437, "train/model_loss_std": 12.318400449222988, "train/model_opt_grad_norm": 26.51267409324646, "train/model_opt_grad_steps": 306600.2638888889, "train/model_opt_loss": 9932.360900878906, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.6962547633383007, "train/policy_entropy_max": 2.6962547633383007, "train/policy_entropy_mean": 0.4252838390982813, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6159048531618383, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4246072237276369, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0418143272399902, "train/policy_randomness_mag": 0.9516596115297742, "train/policy_randomness_max": 0.9516596115297742, "train/policy_randomness_mean": 0.15010653053306872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2173873842176464, "train/post_ent_mag": 55.18388790554471, "train/post_ent_max": 55.18388790554471, "train/post_ent_mean": 40.84063386917114, "train/post_ent_min": 19.189867734909058, "train/post_ent_std": 5.64270900355445, "train/prior_ent_mag": 76.63772805531819, "train/prior_ent_max": 76.63772805531819, "train/prior_ent_mean": 46.02053949568007, "train/prior_ent_min": 28.66032494439019, "train/prior_ent_std": 7.500843054718441, "train/rep_loss_mean": 5.1907382938596935, "train/rep_loss_std": 8.772661937607658, "train/reward_avg": 0.03704833914525807, "train/reward_loss_mean": 0.05284388125356701, "train/reward_loss_std": 0.20905556550456417, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.017837428384357, "train/reward_neg_acc": 0.9943303888042768, "train/reward_neg_loss": 0.023497642056706052, "train/reward_pos_acc": 0.9867528047826555, "train/reward_pos_loss": 0.7293931717673937, "train/reward_pred": 0.03676592519817253, "train/reward_rate": 0.041666666666666664, "stats/sum_log_reward": 9.225000143051147, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.2562485933303833, "replay/size": 615454.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.0996057284436606e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4011812275763058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0668725967407, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.217225074768066, "timer/env.step_frac": 0.06071055067531616, "timer/env.step_avg": 0.01254629826085955, "timer/env.step_min": 0.0024318695068359375, "timer/env.step_max": 1.3708672523498535, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2894134521484375, "timer/replay.add_frac": 0.0009644965125403218, "timer/replay.add_avg": 0.00019932055933087983, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.004309177398681641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019436359405517578, "timer/logger.write_frac": 6.477342612770875e-05, "timer/logger.write_avg": 0.019436359405517578, "timer/logger.write_min": 0.019436359405517578, "timer/logger.write_max": 0.019436359405517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00048065185546875, "timer/checkpoint.save_frac": 1.6018157929572488e-06, "timer/checkpoint.save_avg": 0.00048065185546875, "timer/checkpoint.save_min": 0.00048065185546875, "timer/checkpoint.save_max": 0.00048065185546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2372112274169922, "timer/agent.save_frac": 0.0041231183459550964, "timer/agent.save_avg": 1.2372112274169922, "timer/agent.save_min": 1.2372112274169922, "timer/agent.save_max": 1.2372112274169922, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.177757263183594e-05, "timer/replay.save_frac": 2.7253115921842083e-07, "timer/replay.save_avg": 8.177757263183594e-05, "timer/replay.save_min": 8.177757263183594e-05, "timer/replay.save_max": 8.177757263183594e-05, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 14.370031595230103, "timer/agent.policy_frac": 0.047889430348887464, "timer/agent.policy_avg": 0.00989671597467638, "timer/agent.policy_min": 0.005877017974853516, "timer/agent.policy_max": 2.8033480644226074, "timer/dataset_count": 726.0, "timer/dataset_total": 0.056583404541015625, "timer/dataset_frac": 0.00018856931473757834, "timer/dataset_avg": 7.793857374795541e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 726.0, "timer/agent.train_total": 266.4988751411438, "timer/agent.train_frac": 0.8881316115800997, "timer/agent.train_avg": 0.36707834041479864, "timer/agent.train_min": 0.36067986488342285, "timer/agent.train_max": 0.38187098503112793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22426414489746094, "timer/agent.report_frac": 0.0007473805520639697, "timer/agent.report_avg": 0.22426414489746094, "timer/agent.report_min": 0.22426414489746094, "timer/agent.report_max": 0.22426414489746094, "fps": 4.838861192607553}
+{"step": 615524, "episode/length": 222.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05829596412556054}
+{"step": 615810, "episode/length": 285.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03496503496503497}
+{"step": 616056, "episode/length": 245.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04878048780487805}
+{"step": 616242, "episode/length": 185.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06451612903225806}
+{"step": 616668, "episode/length": 425.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.028169014084507043}
+{"step": 616874, "episode/length": 205.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.04854368932038835}
+{"step": 617005, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507195638020833, "train/action_min": 0.0, "train/action_std": 3.385212475458781, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042761474549770355, "train/actor_opt_grad_steps": 307580.0, "train/actor_opt_loss": -14.141707589626312, "train/adv_mag": 0.465068709452947, "train/adv_max": 0.42350758632024127, "train/adv_mean": 0.0023646031897624196, "train/adv_min": -0.3791697766383489, "train/adv_std": 0.04823959981401761, "train/cont_avg": 0.9944270833333333, "train/cont_loss_mean": 0.0001811110801493972, "train/cont_loss_std": 0.005662211438620186, "train/cont_neg_acc": 0.9887619058291117, "train/cont_neg_loss": 0.0309434639798684, "train/cont_pos_acc": 0.9999868694941203, "train/cont_pos_loss": 4.389058633535114e-05, "train/cont_pred": 0.9944477454821269, "train/cont_rate": 0.9944270833333333, "train/dyn_loss_mean": 5.188393465677897, "train/dyn_loss_std": 8.797658971150716, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.038680652777354, "train/extr_critic_critic_opt_grad_steps": 307580.0, "train/extr_critic_critic_opt_loss": 16086.8533984375, "train/extr_critic_mag": 11.105926500956217, "train/extr_critic_max": 11.105926500956217, "train/extr_critic_mean": 2.8645973126093547, "train/extr_critic_min": -0.46649038791656494, "train/extr_critic_std": 2.7049248758951823, "train/extr_return_normed_mag": 1.4648148250579833, "train/extr_return_normed_max": 1.4648148250579833, "train/extr_return_normed_mean": 0.3690592801570892, "train/extr_return_normed_min": -0.07820040432115395, "train/extr_return_normed_std": 0.3336588009198507, "train/extr_return_rate": 0.7390434447924296, "train/extr_return_raw_mag": 11.863474820454915, "train/extr_return_raw_max": 11.863474820454915, "train/extr_return_raw_mean": 2.8840021514892578, "train/extr_return_raw_min": -0.7793170948823293, "train/extr_return_raw_std": 2.73427191734314, "train/extr_reward_mag": 1.0539464696248373, "train/extr_reward_max": 1.0539464696248373, "train/extr_reward_mean": 0.056402300794919334, "train/extr_reward_min": -0.641435645421346, "train/extr_reward_std": 0.22917490740617116, "train/image_loss_mean": 3.1390924294789633, "train/image_loss_std": 8.412016359965007, "train/model_loss_mean": 6.306738739013672, "train/model_loss_std": 12.535052223205566, "train/model_opt_grad_norm": 28.280963757832843, "train/model_opt_grad_steps": 307335.0, "train/model_opt_loss": 10711.948828125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1716.6666666666667, "train/policy_entropy_mag": 2.6779056771596275, "train/policy_entropy_max": 2.6779056771596275, "train/policy_entropy_mean": 0.4215467095375061, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6068563989798228, "train/policy_logprob_mag": 7.438384259541829, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42214137574036914, "train/policy_logprob_min": -7.438384259541829, "train/policy_logprob_std": 1.0411816970507304, "train/policy_randomness_mag": 0.9451831833521525, "train/policy_randomness_max": 0.9451831833521525, "train/policy_randomness_mean": 0.14878748973210654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2141936767101288, "train/post_ent_mag": 55.23898640950521, "train/post_ent_max": 55.23898640950521, "train/post_ent_mean": 40.85836898803711, "train/post_ent_min": 19.37740606943766, "train/post_ent_std": 5.695212376912435, "train/prior_ent_mag": 76.6130132039388, "train/prior_ent_max": 76.6130132039388, "train/prior_ent_mean": 46.04476938883464, "train/prior_ent_min": 28.495006484985353, "train/prior_ent_std": 7.542783641815186, "train/rep_loss_mean": 5.188393465677897, "train/rep_loss_std": 8.797658971150716, "train/reward_avg": 0.03846614564458529, "train/reward_loss_mean": 0.05442908013860385, "train/reward_loss_std": 0.21520495176315307, "train/reward_max_data": 1.0213333384195964, "train/reward_max_pred": 1.0190976746877034, "train/reward_neg_acc": 0.9943485633532206, "train/reward_neg_loss": 0.023765670650949082, "train/reward_pos_acc": 0.9866610964139303, "train/reward_pos_loss": 0.7355677127838135, "train/reward_pred": 0.038049864868323006, "train/reward_rate": 0.04321614583333333, "stats/sum_log_reward": 10.43333355585734, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5195208787918091, "replay/size": 616942.0, "replay/inserts": 1488.0, "replay/samples": 11904.0, "replay/insert_wait_avg": 3.062108511565834e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3714475977805352e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.148197889328, "timer/env.step_count": 1488.0, "timer/env.step_total": 15.564080715179443, "timer/env.step_frac": 0.05185465321673629, "timer/env.step_avg": 0.010459731663427046, "timer/env.step_min": 0.002327442169189453, "timer/env.step_max": 1.306901454925537, "timer/replay.add_count": 1488.0, "timer/replay.add_total": 0.2641313076019287, "timer/replay.add_frac": 0.0008800029767272512, "timer/replay.add_avg": 0.00017750759919484457, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0008039474487304688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02084827423095703, "timer/logger.write_frac": 6.945993471746348e-05, "timer/logger.write_avg": 0.02084827423095703, "timer/logger.write_min": 0.02084827423095703, "timer/logger.write_max": 0.02084827423095703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1488.0, "timer/agent.policy_total": 10.515380382537842, "timer/agent.policy_frac": 0.03503396141133961, "timer/agent.policy_avg": 0.007066787891490485, "timer/agent.policy_min": 0.005774021148681641, "timer/agent.policy_max": 0.017212867736816406, "timer/dataset_count": 744.0, "timer/dataset_total": 0.058307647705078125, "timer/dataset_frac": 0.00019426286119691308, "timer/dataset_avg": 7.837049422725554e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 744.0, "timer/agent.train_total": 273.1029043197632, "timer/agent.train_frac": 0.909893533395336, "timer/agent.train_avg": 0.36707379612871394, "timer/agent.train_min": 0.36079859733581543, "timer/agent.train_max": 0.3812265396118164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973967552185059, "timer/agent.report_frac": 0.0007321039308817506, "timer/agent.report_avg": 0.21973967552185059, "timer/agent.report_min": 0.21973967552185059, "timer/agent.report_max": 0.21973967552185059, "fps": 4.957437775103173}
+{"step": 617080, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05825242718446602}
+{"step": 617287, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06280193236714976}
+{"step": 617564, "episode/length": 276.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.04332129963898917}
+{"step": 617774, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.05714285714285714}
+{"step": 618022, "episode/length": 247.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.04032258064516129}
+{"step": 618235, "episode/length": 212.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06103286384976526}
+{"step": 618456, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539280361599392, "train/action_min": 0.0, "train/action_std": 3.463570925924513, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04274130053818226, "train/actor_opt_grad_steps": 308315.0, "train/actor_opt_loss": -13.315954827600056, "train/adv_mag": 0.42822790518403053, "train/adv_max": 0.3776032386554612, "train/adv_mean": 0.0021783871130891283, "train/adv_min": -0.37241874386866886, "train/adv_std": 0.048216754777563944, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 1.2085748745091803e-05, "train/cont_loss_std": 0.0003409986074590026, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000582800649766667, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.481951124868678e-06, "train/cont_pred": 0.9949364314476649, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.288700719674428, "train/dyn_loss_std": 8.7371476954884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0273149361213048, "train/extr_critic_critic_opt_grad_steps": 308315.0, "train/extr_critic_critic_opt_loss": 16246.958808051215, "train/extr_critic_mag": 11.033238622877333, "train/extr_critic_max": 11.033238622877333, "train/extr_critic_mean": 2.7768914418088064, "train/extr_critic_min": -0.4970260262489319, "train/extr_critic_std": 2.6610510498285294, "train/extr_return_normed_mag": 1.4543660398986604, "train/extr_return_normed_max": 1.4543660398986604, "train/extr_return_normed_mean": 0.3556794902930657, "train/extr_return_normed_min": -0.081501345615834, "train/extr_return_normed_std": 0.32673231822748977, "train/extr_return_rate": 0.7338759063018693, "train/extr_return_raw_mag": 11.865857707129585, "train/extr_return_raw_max": 11.865857707129585, "train/extr_return_raw_mean": 2.794843912124634, "train/extr_return_raw_min": -0.8148869934181372, "train/extr_return_raw_std": 2.6979774600929685, "train/extr_reward_mag": 1.050662683116065, "train/extr_reward_max": 1.050662683116065, "train/extr_reward_mean": 0.053735513938590884, "train/extr_reward_min": -0.6433193302816815, "train/extr_reward_std": 0.22426191034416357, "train/image_loss_mean": 3.153831824660301, "train/image_loss_std": 8.06476785739263, "train/model_loss_mean": 6.37794389989641, "train/model_loss_std": 12.193252152866787, "train/model_opt_grad_norm": 33.64786460664537, "train/model_opt_grad_steps": 308070.0, "train/model_opt_loss": 15944.859768337674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.684821297725042, "train/policy_entropy_max": 2.684821297725042, "train/policy_entropy_mean": 0.43988630010022056, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6279422516624132, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4395100048018826, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0540238693356514, "train/policy_randomness_mag": 0.947624103890525, "train/policy_randomness_max": 0.947624103890525, "train/policy_randomness_mean": 0.15526055958535936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2216360570035047, "train/post_ent_mag": 55.24660857518514, "train/post_ent_max": 55.24660857518514, "train/post_ent_mean": 40.67283291286893, "train/post_ent_min": 19.03348186280992, "train/post_ent_std": 5.678527812163035, "train/prior_ent_mag": 76.54930157131619, "train/prior_ent_max": 76.54930157131619, "train/prior_ent_mean": 45.93102275000678, "train/prior_ent_min": 28.327785306506687, "train/prior_ent_std": 7.525741550657484, "train/rep_loss_mean": 5.288700719674428, "train/rep_loss_std": 8.7371476954884, "train/reward_avg": 0.03548583954883119, "train/reward_loss_mean": 0.050879590316779084, "train/reward_loss_std": 0.19789344424174893, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.016063888867696, "train/reward_neg_acc": 0.9943659090333514, "train/reward_neg_loss": 0.023062801066165168, "train/reward_pos_acc": 0.9904265685213937, "train/reward_pos_loss": 0.7156829759478569, "train/reward_pred": 0.03535656540447639, "train/reward_rate": 0.04018825954861111, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4215106318394343, "replay/size": 618393.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3746662836580915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3697147369384766e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0115077495575, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.381195783615112, "timer/env.step_frac": 0.06126830241111717, "timer/env.step_avg": 0.012667950229920821, "timer/env.step_min": 0.0027773380279541016, "timer/env.step_max": 1.6196796894073486, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.27437591552734375, "timer/replay.add_frac": 0.0009145513036666122, "timer/replay.add_avg": 0.00018909435942615006, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.009160757064819336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02876448631286621, "timer/logger.write_frac": 9.587794324502419e-05, "timer/logger.write_avg": 0.02876448631286621, "timer/logger.write_min": 0.02876448631286621, "timer/logger.write_max": 0.02876448631286621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.913967847824097, "timer/agent.policy_frac": 0.03637849737729, "timer/agent.policy_avg": 0.00752168700745975, "timer/agent.policy_min": 0.006027698516845703, "timer/agent.policy_max": 0.020318269729614258, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05921316146850586, "timer/dataset_frac": 0.00019736963396062662, "timer/dataset_avg": 8.167332616345635e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.70991611480713, "timer/agent.train_frac": 0.8989985688814129, "timer/agent.train_avg": 0.37201367739973396, "timer/agent.train_min": 0.3621647357940674, "timer/agent.train_max": 0.38587284088134766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184162139892578, "timer/agent.report_frac": 0.0007280261201566524, "timer/agent.report_avg": 0.2184162139892578, "timer/agent.report_min": 0.2184162139892578, "timer/agent.report_max": 0.2184162139892578, "fps": 4.836374986975482}
+{"step": 618496, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04597701149425287}
+{"step": 618695, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06532663316582915}
+{"step": 619172, "episode/length": 476.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.027253668763102725}
+{"step": 619305, "episode/length": 132.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.09022556390977443}
+{"step": 619492, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.053475935828877004}
+{"step": 619668, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 619911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630790814961473, "train/action_min": 0.0, "train/action_std": 3.490910376587959, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042447113317169556, "train/actor_opt_grad_steps": 309040.0, "train/actor_opt_loss": -13.406259396304822, "train/adv_mag": 0.40132509355675683, "train/adv_max": 0.3771353686509067, "train/adv_mean": 0.0021560736605937413, "train/adv_min": -0.331977807495692, "train/adv_std": 0.04780638605764467, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.5713695019162205e-05, "train/cont_loss_std": 0.001358458721248497, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.008027884570156968, "train/cont_pos_acc": 0.9999865146532451, "train/cont_pos_loss": 2.1161833267155562e-05, "train/cont_pred": 0.994486050246513, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.164444720908387, "train/dyn_loss_std": 8.719055188845282, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0482394458496407, "train/extr_critic_critic_opt_grad_steps": 309040.0, "train/extr_critic_critic_opt_loss": 16209.71750588613, "train/extr_critic_mag": 10.95946737838118, "train/extr_critic_max": 10.95946737838118, "train/extr_critic_mean": 2.7584701253943247, "train/extr_critic_min": -0.49260611566778734, "train/extr_critic_std": 2.6849576316467703, "train/extr_return_normed_mag": 1.4459480047225952, "train/extr_return_normed_max": 1.4459480047225952, "train/extr_return_normed_mean": 0.3583678637873636, "train/extr_return_normed_min": -0.0865372189716117, "train/extr_return_normed_std": 0.3342961464842705, "train/extr_return_rate": 0.7155233670587409, "train/extr_return_raw_mag": 11.621480954836493, "train/extr_return_raw_max": 11.621480954836493, "train/extr_return_raw_mean": 2.776026136254611, "train/extr_return_raw_min": -0.8427973369213, "train/extr_return_raw_std": 2.7192459400386024, "train/extr_reward_mag": 1.0549713977395672, "train/extr_reward_max": 1.0549713977395672, "train/extr_reward_mean": 0.056219883263111115, "train/extr_reward_min": -0.6620121655398852, "train/extr_reward_std": 0.22912972144884605, "train/image_loss_mean": 3.0934180331556766, "train/image_loss_std": 8.166483663532832, "train/model_loss_mean": 6.24620880492746, "train/model_loss_std": 12.253357482283082, "train/model_opt_grad_norm": 26.197826725162873, "train/model_opt_grad_steps": 308794.01369863015, "train/model_opt_loss": 15615.522046232876, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.670752665767931, "train/policy_entropy_max": 2.670752665767931, "train/policy_entropy_mean": 0.4470215166268283, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6331168621370237, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44700481120037705, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0590768603429401, "train/policy_randomness_mag": 0.9426584872480941, "train/policy_randomness_max": 0.9426584872480941, "train/policy_randomness_mean": 0.15777897957253129, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22346246722218108, "train/post_ent_mag": 55.19275665283203, "train/post_ent_max": 55.19275665283203, "train/post_ent_mean": 40.81006381936269, "train/post_ent_min": 18.85338154884234, "train/post_ent_std": 5.647438277936962, "train/prior_ent_mag": 76.67627235308085, "train/prior_ent_max": 76.67627235308085, "train/prior_ent_mean": 46.004608311065255, "train/prior_ent_min": 28.577713587512708, "train/prior_ent_std": 7.541230658962302, "train/rep_loss_mean": 5.164444720908387, "train/rep_loss_std": 8.719055188845282, "train/reward_avg": 0.03732207823187521, "train/reward_loss_mean": 0.05407826306476985, "train/reward_loss_std": 0.20712140059634432, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0169334215660617, "train/reward_neg_acc": 0.9942119676772863, "train/reward_neg_loss": 0.0245243544524459, "train/reward_pos_acc": 0.9889918892350915, "train/reward_pos_loss": 0.7233294591511765, "train/reward_pred": 0.03698119684441449, "train/reward_rate": 0.042313249143835614, "stats/sum_log_reward": 10.600000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 10.333333333333334, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.43078822642564774, "replay/size": 619848.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2505218925344984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4661882932369526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08278465270996, "timer/env.step_count": 1455.0, "timer/env.step_total": 16.052247285842896, "timer/env.step_frac": 0.05349272969597502, "timer/env.step_avg": 0.011032472361404052, "timer/env.step_min": 0.0023660659790039062, "timer/env.step_max": 1.4091317653656006, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.27343249320983887, "timer/replay.add_frac": 0.0009111902021513369, "timer/replay.add_avg": 0.00018792611217171055, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0032737255096435547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021709918975830078, "timer/logger.write_frac": 7.234643267175514e-05, "timer/logger.write_avg": 0.021709918975830078, "timer/logger.write_min": 0.021709918975830078, "timer/logger.write_max": 0.021709918975830078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005004405975341797, "timer/checkpoint.save_frac": 1.667675132091788e-06, "timer/checkpoint.save_avg": 0.0005004405975341797, "timer/checkpoint.save_min": 0.0005004405975341797, "timer/checkpoint.save_max": 0.0005004405975341797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3975074291229248, "timer/agent.save_frac": 0.0046570729831778915, "timer/agent.save_avg": 1.3975074291229248, "timer/agent.save_min": 1.3975074291229248, "timer/agent.save_max": 1.3975074291229248, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.764892548680049e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 11.692151308059692, "timer/agent.policy_frac": 0.03896308587509005, "timer/agent.policy_avg": 0.008035842823408723, "timer/agent.policy_min": 0.005853176116943359, "timer/agent.policy_max": 1.0042259693145752, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059967994689941406, "timer/dataset_frac": 0.000199838170521322, "timer/dataset_avg": 8.237361907958984e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.0010180473327636719, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.33620166778564, "timer/agent.train_frac": 0.9042044913766275, "timer/agent.train_avg": 0.37271456273047476, "timer/agent.train_min": 0.3609497547149658, "timer/agent.train_max": 3.088204860687256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22574281692504883, "timer/agent.report_frac": 0.0007522684688037142, "timer/agent.report_avg": 0.22574281692504883, "timer/agent.report_min": 0.22574281692504883, "timer/agent.report_max": 0.22574281692504883, "fps": 4.848547995566262}
+{"step": 620092, "episode/length": 423.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.030660377358490566}
+{"step": 620244, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06578947368421052}
+{"step": 620437, "episode/length": 192.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06217616580310881}
+{"step": 620600, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0736196319018405}
+{"step": 620706, "episode/length": 105.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.09433962264150944}
+{"step": 620944, "episode/length": 237.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.046218487394957986}
+{"step": 621059, "episode/length": 114.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.08695652173913043}
+{"step": 621244, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07027027027027027}
+{"step": 621381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570305076805321, "train/action_min": 0.0, "train/action_std": 3.4662808276511528, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043289889531159725, "train/actor_opt_grad_steps": 309775.0, "train/actor_opt_loss": -12.793689152678928, "train/adv_mag": 0.4053951691131334, "train/adv_max": 0.37726522015558706, "train/adv_mean": 0.001979001442491977, "train/adv_min": -0.3419969114097389, "train/adv_std": 0.04807228897068951, "train/cont_avg": 0.9945365287162162, "train/cont_loss_mean": 1.0277795713453063e-05, "train/cont_loss_std": 0.00030588400293857384, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010892505217287708, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 3.649684842560002e-06, "train/cont_pred": 0.99453939215557, "train/cont_rate": 0.9945365287162162, "train/dyn_loss_mean": 5.200082411637178, "train/dyn_loss_std": 8.753613413991156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9953103532662263, "train/extr_critic_critic_opt_grad_steps": 309775.0, "train/extr_critic_critic_opt_loss": 16206.957347972973, "train/extr_critic_mag": 10.769368017042005, "train/extr_critic_max": 10.769368017042005, "train/extr_critic_mean": 2.7271032671670654, "train/extr_critic_min": -0.5155945855218012, "train/extr_critic_std": 2.6169793992429167, "train/extr_return_normed_mag": 1.4406685104241241, "train/extr_return_normed_max": 1.4406685104241241, "train/extr_return_normed_mean": 0.3582342220722018, "train/extr_return_normed_min": -0.08907643197154677, "train/extr_return_normed_std": 0.32831515110022313, "train/extr_return_rate": 0.7218090513268033, "train/extr_return_raw_mag": 11.465677171140104, "train/extr_return_raw_max": 11.465677171140104, "train/extr_return_raw_mean": 2.7430520267099947, "train/extr_return_raw_min": -0.8611514379043836, "train/extr_return_raw_std": 2.645504775884989, "train/extr_reward_mag": 1.0583169782483899, "train/extr_reward_max": 1.0583169782483899, "train/extr_reward_mean": 0.05262176226824522, "train/extr_reward_min": -0.6597931497805828, "train/extr_reward_std": 0.22197833033026876, "train/image_loss_mean": 3.156584913666184, "train/image_loss_std": 8.298448923471812, "train/model_loss_mean": 6.328854084014893, "train/model_loss_std": 12.422876448244661, "train/model_opt_grad_norm": 28.195213652945853, "train/model_opt_grad_steps": 309528.4864864865, "train/model_opt_loss": 17539.730666701857, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2770.2702702702704, "train/policy_entropy_mag": 2.6929982997275688, "train/policy_entropy_max": 2.6929982997275688, "train/policy_entropy_mean": 0.4521232750770208, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6448060560065347, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45083084501124715, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0613865852355957, "train/policy_randomness_mag": 0.9505102247805208, "train/policy_randomness_max": 0.9505102247805208, "train/policy_randomness_mean": 0.15957967665147138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22758824176884987, "train/post_ent_mag": 55.400379077808275, "train/post_ent_max": 55.400379077808275, "train/post_ent_mean": 40.8811463536443, "train/post_ent_min": 19.280302473016686, "train/post_ent_std": 5.657691562497938, "train/prior_ent_mag": 76.62827084515546, "train/prior_ent_max": 76.62827084515546, "train/prior_ent_mean": 46.121238708496094, "train/prior_ent_min": 28.61576912854169, "train/prior_ent_std": 7.523040075559874, "train/rep_loss_mean": 5.200082411637178, "train/rep_loss_std": 8.753613413991156, "train/reward_avg": 0.03611829569814978, "train/reward_loss_mean": 0.052209496900842, "train/reward_loss_std": 0.19933227852389618, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.0220000131710156, "train/reward_neg_acc": 0.9947558713925851, "train/reward_neg_loss": 0.023758467551119423, "train/reward_pos_acc": 0.9909697908001978, "train/reward_pos_loss": 0.7144993277820381, "train/reward_pred": 0.03593760862241726, "train/reward_rate": 0.041068412162162164, "stats/sum_log_reward": 10.474999904632568, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.25, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4214642606675625, "replay/size": 621318.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1654526587246227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4409524242894179e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0424792766571, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.33397078514099, "timer/env.step_frac": 0.06110458368875153, "timer/env.step_avg": 0.012472088969483668, "timer/env.step_min": 0.0023088455200195312, "timer/env.step_max": 1.5159249305725098, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2613205909729004, "timer/replay.add_frac": 0.000870945312820013, "timer/replay.add_avg": 0.00017776910950537443, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008089542388916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02338719367980957, "timer/logger.write_frac": 7.79462752613945e-05, "timer/logger.write_avg": 0.02338719367980957, "timer/logger.write_min": 0.02338719367980957, "timer/logger.write_max": 0.02338719367980957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.548731327056885, "timer/agent.policy_frac": 0.03515745954535432, "timer/agent.policy_avg": 0.007176007705480874, "timer/agent.policy_min": 0.005812406539916992, "timer/agent.policy_max": 0.014769554138183594, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05762767791748047, "timer/dataset_frac": 0.0001920650637750007, "timer/dataset_avg": 7.840500396936118e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.1837854385376, "timer/agent.train_frac": 0.9004851116078534, "timer/agent.train_avg": 0.36759698699120763, "timer/agent.train_min": 0.3601112365722656, "timer/agent.train_max": 0.3830392360687256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.224259614944458, "timer/agent.report_frac": 0.0007474262160648167, "timer/agent.report_avg": 0.224259614944458, "timer/agent.report_min": 0.224259614944458, "timer/agent.report_max": 0.224259614944458, "fps": 4.899196316712924}
+{"step": 621651, "episode/length": 406.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03194103194103194}
+{"step": 621886, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05106382978723404}
+{"step": 622085, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06030150753768844}
+{"step": 622343, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.046511627906976744}
+{"step": 622553, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06190476190476191}
+{"step": 622817, "episode/length": 263.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03409090909090909}
+{"step": 622869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510436186919341, "train/action_min": 0.0, "train/action_std": 3.4145314596794747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042790390047672634, "train/actor_opt_grad_steps": 310515.0, "train/actor_opt_loss": -11.882825441457129, "train/adv_mag": 0.4435088658655012, "train/adv_max": 0.38306645082460866, "train/adv_mean": 0.002486983505543715, "train/adv_min": -0.38416597529037577, "train/adv_std": 0.048184040380088056, "train/cont_avg": 0.9944969383445946, "train/cont_loss_mean": 6.317289866220644e-05, "train/cont_loss_std": 0.001976325245474807, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.007119821809843535, "train/cont_pos_acc": 0.9999866421158249, "train/cont_pos_loss": 2.7528258185596412e-05, "train/cont_pred": 0.9944974610934386, "train/cont_rate": 0.9944969383445946, "train/dyn_loss_mean": 5.185295034099269, "train/dyn_loss_std": 8.823265674951914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0715372369096086, "train/extr_critic_critic_opt_grad_steps": 310515.0, "train/extr_critic_critic_opt_loss": 16190.879486908783, "train/extr_critic_mag": 10.825712745254105, "train/extr_critic_max": 10.825712745254105, "train/extr_critic_mean": 2.741363180650247, "train/extr_critic_min": -0.4918128058717057, "train/extr_critic_std": 2.63558609743376, "train/extr_return_normed_mag": 1.449971933622618, "train/extr_return_normed_max": 1.449971933622618, "train/extr_return_normed_mean": 0.3606659099459648, "train/extr_return_normed_min": -0.07842512418692177, "train/extr_return_normed_std": 0.3308221725998698, "train/extr_return_rate": 0.7233055693072241, "train/extr_return_raw_mag": 11.557686509312811, "train/extr_return_raw_max": 11.557686509312811, "train/extr_return_raw_mean": 2.7614577928104915, "train/extr_return_raw_min": -0.7844331812214207, "train/extr_return_raw_std": 2.6715053158837394, "train/extr_reward_mag": 1.0552341938018799, "train/extr_reward_max": 1.0552341938018799, "train/extr_reward_mean": 0.05311385970059279, "train/extr_reward_min": -0.6769124446688471, "train/extr_reward_std": 0.22345443130344958, "train/image_loss_mean": 3.223613265398386, "train/image_loss_std": 8.595746336756525, "train/model_loss_mean": 6.388465127429447, "train/model_loss_std": 12.768653805191452, "train/model_opt_grad_norm": 26.184549666739798, "train/model_opt_grad_steps": 310267.8378378378, "train/model_opt_loss": 15971.16284839527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6849800928218945, "train/policy_entropy_max": 2.6849800928218945, "train/policy_entropy_mean": 0.43899091635201426, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6253116606055079, "train/policy_logprob_mag": 7.438384204297452, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43989169476805506, "train/policy_logprob_min": -7.438384204297452, "train/policy_logprob_std": 1.055945159615697, "train/policy_randomness_mag": 0.9476801455020905, "train/policy_randomness_max": 0.9476801455020905, "train/policy_randomness_mean": 0.1549445298072454, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2207075773260078, "train/post_ent_mag": 55.16863451777278, "train/post_ent_max": 55.16863451777278, "train/post_ent_mean": 40.801061681798984, "train/post_ent_min": 19.20144594037855, "train/post_ent_std": 5.699121178807439, "train/prior_ent_mag": 76.65103829873574, "train/prior_ent_max": 76.65103829873574, "train/prior_ent_mean": 45.96398487606564, "train/prior_ent_min": 28.288990922876305, "train/prior_ent_std": 7.563621559658566, "train/rep_loss_mean": 5.185295034099269, "train/rep_loss_std": 8.823265674951914, "train/reward_avg": 0.036597339335728334, "train/reward_loss_mean": 0.053611701505409705, "train/reward_loss_std": 0.20949120839705337, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0259897386705554, "train/reward_neg_acc": 0.9945992336079881, "train/reward_neg_loss": 0.023980217759270925, "train/reward_pos_acc": 0.9875565106804306, "train/reward_pos_loss": 0.7359567413458953, "train/reward_pred": 0.03608653129304986, "train/reward_rate": 0.0415698902027027, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4586871365706126, "replay/size": 622806.0, "replay/inserts": 1488.0, "replay/samples": 11904.0, "replay/insert_wait_avg": 3.031985734098701e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3555049575785155e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06053853034973, "timer/env.step_count": 1488.0, "timer/env.step_total": 15.801002502441406, "timer/env.step_frac": 0.05265938193616622, "timer/env.step_avg": 0.010618953294651482, "timer/env.step_min": 0.002380847930908203, "timer/env.step_max": 1.2886128425598145, "timer/replay.add_count": 1488.0, "timer/replay.add_total": 0.261002779006958, "timer/replay.add_frac": 0.0008698337351699406, "timer/replay.add_avg": 0.00017540509341865457, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0007951259613037109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018634796142578125, "timer/logger.write_frac": 6.210345496894888e-05, "timer/logger.write_avg": 0.018634796142578125, "timer/logger.write_min": 0.018634796142578125, "timer/logger.write_max": 0.018634796142578125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1488.0, "timer/agent.policy_total": 10.704762697219849, "timer/agent.policy_frac": 0.03567534321457305, "timer/agent.policy_avg": 0.007194060952432694, "timer/agent.policy_min": 0.005701303482055664, "timer/agent.policy_max": 0.01483297348022461, "timer/dataset_count": 744.0, "timer/dataset_total": 0.05696868896484375, "timer/dataset_frac": 0.0001898573176061991, "timer/dataset_avg": 7.657081850113408e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0002346038818359375, "timer/agent.train_count": 744.0, "timer/agent.train_total": 272.5986087322235, "timer/agent.train_frac": 0.9084787025557225, "timer/agent.train_avg": 0.36639597947879504, "timer/agent.train_min": 0.36063671112060547, "timer/agent.train_max": 0.38208794593811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22095608711242676, "timer/agent.report_frac": 0.0007363716941742344, "timer/agent.report_avg": 0.22095608711242676, "timer/agent.report_min": 0.22095608711242676, "timer/agent.report_max": 0.22095608711242676, "fps": 4.958886904768025}
+{"step": 623047, "episode/length": 229.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.06086956521739131}
+{"step": 623299, "episode/length": 251.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.051587301587301584}
+{"step": 623491, "episode/length": 191.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.0625}
+{"step": 623710, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0502283105022831}
+{"step": 623939, "episode/length": 228.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048034934497816595}
+{"step": 623981, "episode/length": 41.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.14285714285714285}
+{"step": 624167, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
+{"step": 624319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457919186108733, "train/action_min": 0.0, "train/action_std": 3.333191695278638, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04325020593935496, "train/actor_opt_grad_steps": 311250.0, "train/actor_opt_loss": -13.667371932774374, "train/adv_mag": 0.42065622096192345, "train/adv_max": 0.3769505787385653, "train/adv_mean": 0.002288884725377812, "train/adv_min": -0.36758166531177416, "train/adv_std": 0.04830410556025701, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 8.625012875577169e-05, "train/cont_loss_std": 0.0027468825018255195, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.017259093407950142, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 5.14078801073442e-06, "train/cont_pred": 0.9946198251149426, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 5.146817814813901, "train/dyn_loss_std": 8.737283131847644, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544653698189619, "train/extr_critic_critic_opt_grad_steps": 311250.0, "train/extr_critic_critic_opt_loss": 16189.431694135274, "train/extr_critic_mag": 10.750155370529384, "train/extr_critic_max": 10.750155370529384, "train/extr_critic_mean": 2.783002304704222, "train/extr_critic_min": -0.48983457806992203, "train/extr_critic_std": 2.6399067623974526, "train/extr_return_normed_mag": 1.4316671825435063, "train/extr_return_normed_max": 1.4316671825435063, "train/extr_return_normed_mean": 0.36343418020908147, "train/extr_return_normed_min": -0.08315524586463628, "train/extr_return_normed_std": 0.32929205955707863, "train/extr_return_rate": 0.729051657735485, "train/extr_return_raw_mag": 11.482260220671353, "train/extr_return_raw_max": 11.482260220671353, "train/extr_return_raw_mean": 2.8016002749743527, "train/extr_return_raw_min": -0.8271041169558486, "train/extr_return_raw_std": 2.6758065876895434, "train/extr_reward_mag": 1.0641181305663225, "train/extr_reward_max": 1.0641181305663225, "train/extr_reward_mean": 0.055335187034247675, "train/extr_reward_min": -0.654359370061796, "train/extr_reward_std": 0.22696991162757352, "train/image_loss_mean": 2.9601718138342035, "train/image_loss_std": 8.106403795007157, "train/model_loss_mean": 6.102753070935811, "train/model_loss_std": 12.236048685361261, "train/model_opt_grad_norm": 25.588970105941982, "train/model_opt_grad_steps": 311002.0, "train/model_opt_loss": 15256.882692101884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6906794881167477, "train/policy_entropy_max": 2.6906794881167477, "train/policy_entropy_mean": 0.4282349552193733, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6202807912271316, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42920977754952155, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0491626344314993, "train/policy_randomness_mag": 0.9496917830754633, "train/policy_randomness_max": 0.9496917830754633, "train/policy_randomness_mean": 0.1511481459418388, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21893190092419926, "train/post_ent_mag": 55.07219852813303, "train/post_ent_max": 55.07219852813303, "train/post_ent_mean": 40.830679436252545, "train/post_ent_min": 19.680704443422083, "train/post_ent_std": 5.6474920952156795, "train/prior_ent_mag": 76.69844650895628, "train/prior_ent_max": 76.69844650895628, "train/prior_ent_mean": 45.99652778939025, "train/prior_ent_min": 28.62230178101422, "train/prior_ent_std": 7.551877968931851, "train/rep_loss_mean": 5.146817814813901, "train/rep_loss_std": 8.737283131847644, "train/reward_avg": 0.03761638433047353, "train/reward_loss_mean": 0.05440433813284521, "train/reward_loss_std": 0.217703178933222, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0224235384431604, "train/reward_neg_acc": 0.9941633008930781, "train/reward_neg_loss": 0.02428454340575901, "train/reward_pos_acc": 0.9874776087395133, "train/reward_pos_loss": 0.7355454858035257, "train/reward_pred": 0.03722713862175811, "train/reward_rate": 0.042447024828767124, "stats/sum_log_reward": 9.95714282989502, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3454347274133137, "replay/size": 624256.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.105525312752559e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4913493189318427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26002979278564, "timer/env.step_count": 1450.0, "timer/env.step_total": 17.861879110336304, "timer/env.step_frac": 0.05948803482988754, "timer/env.step_avg": 0.012318537317473312, "timer/env.step_min": 0.0028803348541259766, "timer/env.step_max": 1.4207746982574463, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.29540467262268066, "timer/replay.add_frac": 0.000983829492145672, "timer/replay.add_avg": 0.00020372736042943495, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0009233951568603516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01884627342224121, "timer/logger.write_frac": 6.276650753431061e-05, "timer/logger.write_avg": 0.01884627342224121, "timer/logger.write_min": 0.01884627342224121, "timer/logger.write_max": 0.01884627342224121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002636909484863281, "timer/checkpoint.save_frac": 8.782086269301497e-07, "timer/checkpoint.save_avg": 0.0002636909484863281, "timer/checkpoint.save_min": 0.0002636909484863281, "timer/checkpoint.save_max": 0.0002636909484863281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2015447616577148, "timer/agent.save_frac": 0.004001680684861454, "timer/agent.save_avg": 1.2015447616577148, "timer/agent.save_min": 1.2015447616577148, "timer/agent.save_max": 1.2015447616577148, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.724761962890625e-05, "timer/replay.save_frac": 2.572690733502428e-07, "timer/replay.save_avg": 7.724761962890625e-05, "timer/replay.save_min": 7.724761962890625e-05, "timer/replay.save_max": 7.724761962890625e-05, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 14.864990234375, "timer/agent.policy_frac": 0.049507056415845865, "timer/agent.policy_avg": 0.010251717403017242, "timer/agent.policy_min": 0.0059092044830322266, "timer/agent.policy_max": 2.898407220840454, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059345245361328125, "timer/dataset_frac": 0.00019764617156097417, "timer/dataset_avg": 8.18555108432112e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 725.0, "timer/agent.train_total": 266.5257613658905, "timer/agent.train_frac": 0.8876498198905272, "timer/agent.train_avg": 0.3676217398150214, "timer/agent.train_min": 0.3607497215270996, "timer/agent.train_max": 0.3804507255554199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165632247924805, "timer/agent.report_frac": 0.0007382145490101253, "timer/agent.report_avg": 0.22165632247924805, "timer/agent.report_min": 0.22165632247924805, "timer/agent.report_max": 0.22165632247924805, "fps": 4.829032992388412}
+{"step": 624403, "episode/length": 235.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05084745762711865}
+{"step": 624828, "episode/length": 424.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.02823529411764706}
+{"step": 624994, "episode/length": 165.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06626506024096386}
+{"step": 625045, "episode/length": 50.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.13725490196078433}
+{"step": 625247, "episode/length": 201.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06435643564356436}
+{"step": 625329, "episode/length": 81.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.12195121951219512}
+{"step": 625514, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
+{"step": 625682, "episode/length": 167.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.07142857142857142}
+{"step": 625781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45958469338613, "train/action_min": 0.0, "train/action_std": 3.34940640893701, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04360819914161342, "train/actor_opt_grad_steps": 311980.0, "train/actor_opt_loss": -15.643893313530373, "train/adv_mag": 0.4105753767980288, "train/adv_max": 0.35761870729596645, "train/adv_mean": 0.001351877791035206, "train/adv_min": -0.371236311246271, "train/adv_std": 0.048302955108962646, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 8.965743246009992e-05, "train/cont_loss_std": 0.0028128178072116556, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.02173389520843676, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 4.808916903724921e-06, "train/cont_pred": 0.9946042723851661, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 5.247392576034755, "train/dyn_loss_std": 8.719269523881886, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0673248384096852, "train/extr_critic_critic_opt_grad_steps": 311980.0, "train/extr_critic_critic_opt_loss": 16358.101468857021, "train/extr_critic_mag": 10.78762113231502, "train/extr_critic_max": 10.78762113231502, "train/extr_critic_mean": 2.831659331713637, "train/extr_critic_min": -0.4824818242086123, "train/extr_critic_std": 2.6638653180370593, "train/extr_return_normed_mag": 1.4345822807860702, "train/extr_return_normed_max": 1.4345822807860702, "train/extr_return_normed_mean": 0.36634686140164935, "train/extr_return_normed_min": -0.08166232118255472, "train/extr_return_normed_std": 0.3288948454268991, "train/extr_return_rate": 0.7344401405282217, "train/extr_return_raw_mag": 11.594648700870879, "train/extr_return_raw_max": 11.594648700870879, "train/extr_return_raw_mean": 2.8427159737234247, "train/extr_return_raw_min": -0.8280747732887529, "train/extr_return_raw_std": 2.6947244487396658, "train/extr_reward_mag": 1.058169567421691, "train/extr_reward_max": 1.058169567421691, "train/extr_reward_mean": 0.05657062898964098, "train/extr_reward_min": -0.6792438781424744, "train/extr_reward_std": 0.22992023641932502, "train/image_loss_mean": 3.0938072710821074, "train/image_loss_std": 8.118194194689188, "train/model_loss_mean": 6.29765393635998, "train/model_loss_std": 12.210458063099482, "train/model_opt_grad_norm": 27.854125480129294, "train/model_opt_grad_steps": 311731.20547945204, "train/model_opt_loss": 15744.13495291096, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7022870501426803, "train/policy_entropy_max": 2.7022870501426803, "train/policy_entropy_mean": 0.42570444859870493, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6171805793291902, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42725089131152794, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.048710189453543, "train/policy_randomness_mag": 0.953788745076689, "train/policy_randomness_max": 0.953788745076689, "train/policy_randomness_mean": 0.15025499075242918, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21783766027999252, "train/post_ent_mag": 55.54109474077617, "train/post_ent_max": 55.54109474077617, "train/post_ent_mean": 40.735493333372354, "train/post_ent_min": 19.41835608547681, "train/post_ent_std": 5.701986691723131, "train/prior_ent_mag": 76.61082834740208, "train/prior_ent_max": 76.61082834740208, "train/prior_ent_mean": 45.997700782671366, "train/prior_ent_min": 28.647365021379027, "train/prior_ent_std": 7.594565169451988, "train/rep_loss_mean": 5.247392576034755, "train/rep_loss_std": 8.719269523881886, "train/reward_avg": 0.039465164714684225, "train/reward_loss_mean": 0.05532147143393347, "train/reward_loss_std": 0.20832887067370218, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0254255876149216, "train/reward_neg_acc": 0.9937452469786553, "train/reward_neg_loss": 0.02457223754784424, "train/reward_pos_acc": 0.9905410751904526, "train/reward_pos_loss": 0.7200420286557446, "train/reward_pred": 0.03912406769415287, "train/reward_rate": 0.044306506849315065, "stats/sum_log_reward": 9.850000262260437, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.375, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 2.375, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 5.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3739646002650261, "replay/size": 625718.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.138416932154289e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4572153339307709e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0806384086609, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.948318243026733, "timer/env.step_frac": 0.06314408801417642, "timer/env.step_avg": 0.012960545993862335, "timer/env.step_min": 0.0024216175079345703, "timer/env.step_max": 1.6034228801727295, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.29228639602661133, "timer/replay.add_frac": 0.0009740261736865707, "timer/replay.add_avg": 0.00019992229550383812, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0008015632629394531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030900001525878906, "timer/logger.write_frac": 0.00010297232667106681, "timer/logger.write_avg": 0.030900001525878906, "timer/logger.write_min": 0.030900001525878906, "timer/logger.write_max": 0.030900001525878906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.821650743484497, "timer/agent.policy_frac": 0.036062475742760766, "timer/agent.policy_avg": 0.007401949892944252, "timer/agent.policy_min": 0.005632162094116211, "timer/agent.policy_max": 0.01881575584411621, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059322357177734375, "timer/dataset_frac": 0.00019768805309240578, "timer/dataset_avg": 8.115233540045742e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00020837783813476562, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.28860688209534, "timer/agent.train_frac": 0.8973874766134301, "timer/agent.train_avg": 0.36838386714376925, "timer/agent.train_min": 0.36077046394348145, "timer/agent.train_max": 0.38507652282714844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2211451530456543, "timer/agent.report_frac": 0.0007369524212504862, "timer/agent.report_avg": 0.2211451530456543, "timer/agent.report_min": 0.2211451530456543, "timer/agent.report_max": 0.2211451530456543, "fps": 4.871967105413372}
+{"step": 625912, "episode/length": 229.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.05652173913043478}
+{"step": 626123, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05687203791469194}
+{"step": 626445, "episode/length": 321.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 17.300000064074993, "episode/reward_rate": 0.043478260869565216}
+{"step": 626681, "episode/length": 235.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.038135593220338986}
+{"step": 626849, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06547619047619048}
+{"step": 627160, "episode/length": 310.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.04501607717041801}
+{"step": 627259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.589530326224662, "train/action_min": 0.0, "train/action_std": 3.4137913053100175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04444707829404522, "train/actor_opt_grad_steps": 312715.0, "train/actor_opt_loss": -10.98824739033306, "train/adv_mag": 0.4081041092002714, "train/adv_max": 0.37086136115563884, "train/adv_mean": 0.002408450884300888, "train/adv_min": -0.36138655366124334, "train/adv_std": 0.04870765359216445, "train/cont_avg": 0.9947212837837838, "train/cont_loss_mean": 2.4733965891973515e-05, "train/cont_loss_std": 0.0007702278323334111, "train/cont_neg_acc": 0.9980694989900332, "train/cont_neg_loss": 0.002780218931530723, "train/cont_pos_acc": 0.9999999887234455, "train/cont_pos_loss": 5.779687318915046e-06, "train/cont_pred": 0.9947259997999346, "train/cont_rate": 0.9947212837837838, "train/dyn_loss_mean": 5.447390092385782, "train/dyn_loss_std": 8.77939306723105, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0289772040135152, "train/extr_critic_critic_opt_grad_steps": 312715.0, "train/extr_critic_critic_opt_loss": 16284.481854413007, "train/extr_critic_mag": 10.860560107875514, "train/extr_critic_max": 10.860560107875514, "train/extr_critic_mean": 2.734198902104352, "train/extr_critic_min": -0.5081218754923021, "train/extr_critic_std": 2.636781428311322, "train/extr_return_normed_mag": 1.4562602848620028, "train/extr_return_normed_max": 1.4562602848620028, "train/extr_return_normed_mean": 0.36008691546079274, "train/extr_return_normed_min": -0.07988588240098309, "train/extr_return_normed_std": 0.3298562326141306, "train/extr_return_rate": 0.7236733162725294, "train/extr_return_raw_mag": 11.639770211400213, "train/extr_return_raw_max": 11.639770211400213, "train/extr_return_raw_mean": 2.7537278371888236, "train/extr_return_raw_min": -0.8129251470436921, "train/extr_return_raw_std": 2.6745958263809615, "train/extr_reward_mag": 1.0519178525821582, "train/extr_reward_max": 1.0519178525821582, "train/extr_reward_mean": 0.0551510891197501, "train/extr_reward_min": -0.6576990050238531, "train/extr_reward_std": 0.22656711734629967, "train/image_loss_mean": 3.171895323572932, "train/image_loss_std": 8.439405138428146, "train/model_loss_mean": 6.4944888514441415, "train/model_loss_std": 12.569509312913224, "train/model_opt_grad_norm": 28.94286012649536, "train/model_opt_grad_steps": 312465.0945945946, "train/model_opt_loss": 8862.3865801837, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1368.2432432432433, "train/policy_entropy_mag": 2.7080065398602873, "train/policy_entropy_max": 2.7080065398602873, "train/policy_entropy_mean": 0.4408193826675415, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6345393569082827, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4416318829800632, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.0578753311891813, "train/policy_randomness_mag": 0.955807472402985, "train/policy_randomness_max": 0.955807472402985, "train/policy_randomness_mean": 0.1555898974876146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22396455020517916, "train/post_ent_mag": 55.25671541368639, "train/post_ent_max": 55.25671541368639, "train/post_ent_mean": 40.91998337410592, "train/post_ent_min": 19.62831499769881, "train/post_ent_std": 5.6617735076594995, "train/prior_ent_mag": 76.58988457757073, "train/prior_ent_max": 76.58988457757073, "train/prior_ent_mean": 46.34806256680875, "train/prior_ent_min": 28.688964379800332, "train/prior_ent_std": 7.4579382136061385, "train/rep_loss_mean": 5.447390092385782, "train/rep_loss_std": 8.77939306723105, "train/reward_avg": 0.03771774684758605, "train/reward_loss_mean": 0.05413475310480272, "train/reward_loss_std": 0.21411815466913017, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0194332889608435, "train/reward_neg_acc": 0.9929763602243887, "train/reward_neg_loss": 0.023939648278158258, "train/reward_pos_acc": 0.9873539120764345, "train/reward_pos_loss": 0.738328297395964, "train/reward_pred": 0.037439371861920166, "train/reward_rate": 0.0424144847972973, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6095925072828928, "replay/size": 627196.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.0755674080855145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5007021946577967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3112778663635, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.679017305374146, "timer/env.step_frac": 0.05553909737880772, "timer/env.step_avg": 0.011284856092945971, "timer/env.step_min": 0.0026743412017822266, "timer/env.step_max": 1.3977735042572021, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.26879119873046875, "timer/replay.add_frac": 0.0008950419732490999, "timer/replay.add_avg": 0.00018186143351181917, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0009436607360839844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020848512649536133, "timer/logger.write_frac": 6.942300934436961e-05, "timer/logger.write_avg": 0.020848512649536133, "timer/logger.write_min": 0.020848512649536133, "timer/logger.write_max": 0.020848512649536133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.882397174835205, "timer/agent.policy_frac": 0.036237057935858796, "timer/agent.policy_avg": 0.007362920957263332, "timer/agent.policy_min": 0.005974531173706055, "timer/agent.policy_max": 0.013590812683105469, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05987358093261719, "timer/dataset_frac": 0.00019937173641297788, "timer/dataset_avg": 8.101973062600431e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.77540349960327, "timer/agent.train_frac": 0.9049790118789394, "timer/agent.train_avg": 0.3677610331523725, "timer/agent.train_min": 0.36159491539001465, "timer/agent.train_max": 0.38347482681274414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22156953811645508, "timer/agent.report_frac": 0.0007377995914460861, "timer/agent.report_avg": 0.22156953811645508, "timer/agent.report_min": 0.22156953811645508, "timer/agent.report_max": 0.22156953811645508, "fps": 4.9214480139933725}
+{"step": 627356, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05612244897959184}
+{"step": 627604, "episode/length": 247.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.04838709677419355}
+{"step": 627795, "episode/length": 190.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.05759162303664921}
+{"step": 627950, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07741935483870968}
+{"step": 628139, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0582010582010582}
+{"step": 628259, "episode/length": 119.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.1}
+{"step": 628440, "episode/length": 180.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0718232044198895}
+{"step": 628715, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.592231750488281, "train/action_min": 0.0, "train/action_std": 3.5293887323803372, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041820464034875236, "train/actor_opt_grad_steps": 313445.0, "train/actor_opt_loss": -13.248112611472607, "train/adv_mag": 0.4251391871107949, "train/adv_max": 0.37112899786896175, "train/adv_mean": 0.0015168616431158928, "train/adv_min": -0.3732159522672494, "train/adv_std": 0.04723577294498682, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 7.681922981747944e-05, "train/cont_loss_std": 0.0024133458916091558, "train/cont_neg_acc": 0.9921193844835523, "train/cont_neg_loss": 0.013728458394292346, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 2.6861719774926328e-06, "train/cont_pred": 0.9949174523353577, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.201664808723661, "train/dyn_loss_std": 8.72869571712282, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0298441300789516, "train/extr_critic_critic_opt_grad_steps": 313445.0, "train/extr_critic_critic_opt_loss": 16195.919935438367, "train/extr_critic_mag": 10.843980802430046, "train/extr_critic_max": 10.843980802430046, "train/extr_critic_mean": 2.6744936721192465, "train/extr_critic_min": -0.5017656104432212, "train/extr_critic_std": 2.6432141628530292, "train/extr_return_normed_mag": 1.4325125366449356, "train/extr_return_normed_max": 1.4325125366449356, "train/extr_return_normed_mean": 0.350498891952965, "train/extr_return_normed_min": -0.07818935733909409, "train/extr_return_normed_std": 0.3282302545590533, "train/extr_return_rate": 0.7037200203372372, "train/extr_return_raw_mag": 11.492974387274849, "train/extr_return_raw_max": 11.492974387274849, "train/extr_return_raw_mean": 2.6868687089946537, "train/extr_return_raw_min": -0.8016731300287776, "train/extr_return_raw_std": 2.6712003582053714, "train/extr_reward_mag": 1.0542166497972276, "train/extr_reward_max": 1.0542166497972276, "train/extr_reward_mean": 0.05147765726885862, "train/extr_reward_min": -0.6496502823299832, "train/extr_reward_std": 0.21983663158284295, "train/image_loss_mean": 3.070414384206136, "train/image_loss_std": 8.232591251532236, "train/model_loss_mean": 6.243270244863298, "train/model_loss_std": 12.35057106282976, "train/model_opt_grad_norm": 24.978686928749084, "train/model_opt_grad_steps": 313195.0, "train/model_opt_loss": 12021.346015082465, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1927.0833333333333, "train/policy_entropy_mag": 2.6882814831203885, "train/policy_entropy_max": 2.6882814831203885, "train/policy_entropy_mean": 0.4667819492104981, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6589468427830272, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4650821172528797, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0705873279107943, "train/policy_randomness_mag": 0.9488453889886538, "train/policy_randomness_max": 0.9488453889886538, "train/policy_randomness_mean": 0.16475354486869442, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23257931735780504, "train/post_ent_mag": 55.24172364340888, "train/post_ent_max": 55.24172364340888, "train/post_ent_mean": 40.84988816579183, "train/post_ent_min": 19.189299053615994, "train/post_ent_std": 5.679493539863163, "train/prior_ent_mag": 76.58862082163493, "train/prior_ent_max": 76.58862082163493, "train/prior_ent_mean": 46.06557109620836, "train/prior_ent_min": 28.154575533337063, "train/prior_ent_std": 7.503529237376319, "train/rep_loss_mean": 5.201664808723661, "train/rep_loss_std": 8.72869571712282, "train/reward_avg": 0.03561876070064803, "train/reward_loss_mean": 0.051780217016736664, "train/reward_loss_std": 0.20261391955945227, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0270569225152333, "train/reward_neg_acc": 0.9942267098360591, "train/reward_neg_loss": 0.023308510180666216, "train/reward_pos_acc": 0.988245723148187, "train/reward_pos_loss": 0.7289686310622427, "train/reward_pred": 0.03530089420059489, "train/reward_rate": 0.04031032986111111, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3265122153929302, "replay/size": 628652.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2070246371594106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.419949662554395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3308935165405, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.401265144348145, "timer/env.step_frac": 0.05794031023781369, "timer/env.step_avg": 0.011951418368370978, "timer/env.step_min": 0.002443075180053711, "timer/env.step_max": 1.3362126350402832, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2990591526031494, "timer/replay.add_frac": 0.0009957655341463528, "timer/replay.add_avg": 0.0002053977696450202, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008041858673095703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02773571014404297, "timer/logger.write_frac": 9.235050653393885e-05, "timer/logger.write_avg": 0.02773571014404297, "timer/logger.write_min": 0.02773571014404297, "timer/logger.write_max": 0.02773571014404297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003592967987060547, "timer/checkpoint.save_frac": 1.196336462423459e-06, "timer/checkpoint.save_avg": 0.0003592967987060547, "timer/checkpoint.save_min": 0.0003592967987060547, "timer/checkpoint.save_max": 0.0003592967987060547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.184607982635498, "timer/agent.save_frac": 0.003944342750640991, "timer/agent.save_avg": 1.184607982635498, "timer/agent.save_min": 1.184607982635498, "timer/agent.save_max": 1.184607982635498, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010824203491210938, "timer/replay.save_frac": 3.6040925941622457e-07, "timer/replay.save_avg": 0.00010824203491210938, "timer/replay.save_min": 0.00010824203491210938, "timer/replay.save_max": 0.00010824203491210938, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 14.575003623962402, "timer/agent.policy_frac": 0.04852981807267754, "timer/agent.policy_avg": 0.010010304686787364, "timer/agent.policy_min": 0.005831241607666016, "timer/agent.policy_max": 2.7928545475006104, "timer/dataset_count": 728.0, "timer/dataset_total": 0.058714866638183594, "timer/dataset_frac": 0.0001955005892024555, "timer/dataset_avg": 8.065228933816428e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 728.0, "timer/agent.train_total": 267.3483633995056, "timer/agent.train_frac": 0.8901793627327306, "timer/agent.train_avg": 0.36723676291140883, "timer/agent.train_min": 0.36042189598083496, "timer/agent.train_max": 0.4012584686279297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196500301361084, "timer/agent.report_frac": 0.0007313600927438766, "timer/agent.report_avg": 0.2196500301361084, "timer/agent.report_min": 0.2196500301361084, "timer/agent.report_max": 0.2196500301361084, "fps": 4.8478739410680705}
+{"step": 628976, "episode/length": 535.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.018656716417910446}
+{"step": 629138, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07407407407407407}
+{"step": 629342, "episode/length": 203.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.05392156862745098}
+{"step": 629487, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07586206896551724}
+{"step": 629665, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0449438202247191}
+{"step": 629961, "episode/length": 295.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.04391891891891892}
+{"step": 630178, "episode/length": 216.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.055299539170506916}
+{"step": 630189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49977647936022, "train/action_min": 0.0, "train/action_std": 3.421676200789374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04257075090867442, "train/actor_opt_grad_steps": 314175.0, "train/actor_opt_loss": -12.276119950655344, "train/adv_mag": 0.4140313501293595, "train/adv_max": 0.3721701671948304, "train/adv_mean": 0.0025692814867422408, "train/adv_min": -0.34316810160069855, "train/adv_std": 0.04765486395036852, "train/cont_avg": 0.9949720228040541, "train/cont_loss_mean": 0.00018422084378423088, "train/cont_loss_std": 0.005796329816882072, "train/cont_neg_acc": 0.9949771696574068, "train/cont_neg_loss": 0.035609939737285795, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 9.647618358829621e-06, "train/cont_pred": 0.9949872123228537, "train/cont_rate": 0.9949720228040541, "train/dyn_loss_mean": 5.122816710858731, "train/dyn_loss_std": 8.734704913319769, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0482993077587437, "train/extr_critic_critic_opt_grad_steps": 314175.0, "train/extr_critic_critic_opt_loss": 16296.736182960303, "train/extr_critic_mag": 10.788169139140361, "train/extr_critic_max": 10.788169139140361, "train/extr_critic_mean": 2.6522750194008284, "train/extr_critic_min": -0.5211555329529015, "train/extr_critic_std": 2.5923602194399447, "train/extr_return_normed_mag": 1.4454269554163959, "train/extr_return_normed_max": 1.4454269554163959, "train/extr_return_normed_mean": 0.3525168748723494, "train/extr_return_normed_min": -0.08064686582499259, "train/extr_return_normed_std": 0.32643688973542806, "train/extr_return_rate": 0.7207348354764886, "train/extr_return_raw_mag": 11.474191150149784, "train/extr_return_raw_max": 11.474191150149784, "train/extr_return_raw_mean": 2.6729308189572514, "train/extr_return_raw_min": -0.8150794353034045, "train/extr_return_raw_std": 2.6288394654119336, "train/extr_reward_mag": 1.0484491490029, "train/extr_reward_max": 1.0484491490029, "train/extr_reward_mean": 0.05237802178473086, "train/extr_reward_min": -0.6431442128645407, "train/extr_reward_std": 0.22123177389840823, "train/image_loss_mean": 3.102867322999078, "train/image_loss_std": 7.9418414927817675, "train/model_loss_mean": 6.229076900997677, "train/model_loss_std": 12.065284844991323, "train/model_opt_grad_norm": 26.233588592426198, "train/model_opt_grad_steps": 313924.8783783784, "train/model_opt_loss": 16432.59666649071, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2635.135135135135, "train/policy_entropy_mag": 2.6670443077345154, "train/policy_entropy_max": 2.6670443077345154, "train/policy_entropy_mean": 0.4495171906577574, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6284811194684055, "train/policy_logprob_mag": 7.438384255847415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4488633742203584, "train/policy_logprob_min": -7.438384255847415, "train/policy_logprob_std": 1.0574365620677535, "train/policy_randomness_mag": 0.9413495982015455, "train/policy_randomness_max": 0.9413495982015455, "train/policy_randomness_mean": 0.158659843576921, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2218262576372237, "train/post_ent_mag": 55.11459427910882, "train/post_ent_max": 55.11459427910882, "train/post_ent_mean": 40.98929307267473, "train/post_ent_min": 19.131664134360648, "train/post_ent_std": 5.587855003975533, "train/prior_ent_mag": 76.69733666084907, "train/prior_ent_max": 76.69733666084907, "train/prior_ent_mean": 46.09188528318663, "train/prior_ent_min": 28.506646646035684, "train/prior_ent_std": 7.359895738395485, "train/rep_loss_mean": 5.122816710858731, "train/rep_loss_std": 8.734704913319769, "train/reward_avg": 0.03576726103956635, "train/reward_loss_mean": 0.05233540974960134, "train/reward_loss_std": 0.21239089059668617, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0191730003099184, "train/reward_neg_acc": 0.994926192470499, "train/reward_neg_loss": 0.0238716319153035, "train/reward_pos_acc": 0.9889303614964357, "train/reward_pos_loss": 0.7269173127573889, "train/reward_pred": 0.03550489473383169, "train/reward_rate": 0.04052734375, "stats/sum_log_reward": 9.81428575515747, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 9.142857142857142, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.47164187261036467, "replay/size": 630126.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.172713995303357e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3962206070588112e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1279048919678, "timer/env.step_count": 1474.0, "timer/env.step_total": 17.415989637374878, "timer/env.step_frac": 0.05802855833629943, "timer/env.step_avg": 0.011815461083700731, "timer/env.step_min": 0.0023179054260253906, "timer/env.step_max": 1.4809532165527344, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27544736862182617, "timer/replay.add_frac": 0.0009177666059441375, "timer/replay.add_avg": 0.000186870670706802, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0029647350311279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020581483840942383, "timer/logger.write_frac": 6.857570890767644e-05, "timer/logger.write_avg": 0.020581483840942383, "timer/logger.write_min": 0.020581483840942383, "timer/logger.write_max": 0.020581483840942383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.696170091629028, "timer/agent.policy_frac": 0.03563870575606476, "timer/agent.policy_avg": 0.007256560442082108, "timer/agent.policy_min": 0.0057642459869384766, "timer/agent.policy_max": 0.016837596893310547, "timer/dataset_count": 737.0, "timer/dataset_total": 0.05897045135498047, "timer/dataset_frac": 0.00019648440013002828, "timer/dataset_avg": 8.001418094298572e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.02391266822815, "timer/agent.train_frac": 0.9030280365492315, "timer/agent.train_avg": 0.3677393658999025, "timer/agent.train_min": 0.36009693145751953, "timer/agent.train_max": 0.38457226753234863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22019624710083008, "timer/agent.report_frac": 0.000733674688396904, "timer/agent.report_avg": 0.22019624710083008, "timer/agent.report_min": 0.22019624710083008, "timer/agent.report_max": 0.22019624710083008, "fps": 4.911129944528552}
+{"step": 630602, "episode/length": 423.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.02830188679245283}
+{"step": 630769, "episode/length": 166.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.059880239520958084}
+{"step": 631026, "episode/length": 256.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.054474708171206226}
+{"step": 631307, "episode/length": 280.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.0498220640569395}
+{"step": 631372, "episode/length": 64.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12307692307692308}
+{"step": 631533, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
+{"step": 631665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5447099015519425, "train/action_min": 0.0, "train/action_std": 3.4571029237798743, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04262500170718979, "train/actor_opt_grad_steps": 314915.0, "train/actor_opt_loss": -13.427846767058647, "train/adv_mag": 0.42447859894584966, "train/adv_max": 0.36971503294803, "train/adv_mean": 0.0017623761255718647, "train/adv_min": -0.37175829527345866, "train/adv_std": 0.04804045948627833, "train/cont_avg": 0.9943913640202703, "train/cont_loss_mean": 5.948427768679402e-05, "train/cont_loss_std": 0.0018850131931243152, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.011106586356980202, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 4.563240227293984e-06, "train/cont_pred": 0.9944021387680156, "train/cont_rate": 0.9943913640202703, "train/dyn_loss_mean": 5.201464240615432, "train/dyn_loss_std": 8.787898179647085, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0319222252111178, "train/extr_critic_critic_opt_grad_steps": 314915.0, "train/extr_critic_critic_opt_loss": 16227.10765941723, "train/extr_critic_mag": 10.81674928922911, "train/extr_critic_max": 10.81674928922911, "train/extr_critic_mean": 2.7875494860314034, "train/extr_critic_min": -0.5140595452205555, "train/extr_critic_std": 2.6735967188268095, "train/extr_return_normed_mag": 1.4557638925475043, "train/extr_return_normed_max": 1.4557638925475043, "train/extr_return_normed_mean": 0.36678403817318583, "train/extr_return_normed_min": -0.0798431303654168, "train/extr_return_normed_std": 0.3343122331677256, "train/extr_return_rate": 0.7281927836907877, "train/extr_return_raw_mag": 11.610807934322873, "train/extr_return_raw_max": 11.610807934322873, "train/extr_return_raw_mean": 2.8018511904252543, "train/extr_return_raw_min": -0.811813669430243, "train/extr_return_raw_std": 2.7045665786073014, "train/extr_reward_mag": 1.060050191106023, "train/extr_reward_max": 1.060050191106023, "train/extr_reward_mean": 0.0552692368525911, "train/extr_reward_min": -0.6320613139384502, "train/extr_reward_std": 0.22718725172249046, "train/image_loss_mean": 3.080119877248197, "train/image_loss_std": 8.290475368499756, "train/model_loss_mean": 6.255742659439912, "train/model_loss_std": 12.4410910993009, "train/model_opt_grad_norm": 26.468211122461266, "train/model_opt_grad_steps": 314664.0, "train/model_opt_loss": 15639.35670924831, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.667970950539048, "train/policy_entropy_max": 2.667970950539048, "train/policy_entropy_mean": 0.43568667527791616, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.619953957361144, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4341007934228794, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0464793371187675, "train/policy_randomness_mag": 0.9416766649967915, "train/policy_randomness_max": 0.9416766649967915, "train/policy_randomness_mean": 0.15377827663276647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2188165409339441, "train/post_ent_mag": 55.25087387497361, "train/post_ent_max": 55.25087387497361, "train/post_ent_mean": 40.90623443191116, "train/post_ent_min": 19.657500898515856, "train/post_ent_std": 5.683407197127471, "train/prior_ent_mag": 76.69536064766548, "train/prior_ent_max": 76.69536064766548, "train/prior_ent_mean": 46.12305001954775, "train/prior_ent_min": 28.24175909403208, "train/prior_ent_std": 7.510176007812087, "train/rep_loss_mean": 5.201464240615432, "train/rep_loss_std": 8.787898179647085, "train/reward_avg": 0.0381651179160218, "train/reward_loss_mean": 0.05468476890913538, "train/reward_loss_std": 0.21231008341183533, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0172466007438865, "train/reward_neg_acc": 0.9941381304650694, "train/reward_neg_loss": 0.02454005741841487, "train/reward_pos_acc": 0.9894640792060543, "train/reward_pos_loss": 0.7253336197621113, "train/reward_pred": 0.0379006106255425, "train/reward_rate": 0.0430347339527027, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 20.833333333333332, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 3.1666666666666665, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5263861293594042, "replay/size": 631602.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.0879728839326357e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5014838073957903e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0330002307892, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.443068981170654, "timer/env.step_frac": 0.05480420143291717, "timer/env.step_avg": 0.011140290637649495, "timer/env.step_min": 0.002566814422607422, "timer/env.step_max": 1.408177375793457, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.2572472095489502, "timer/replay.add_frac": 0.0008573963842346421, "timer/replay.add_avg": 0.0001742867273366871, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008223056793212891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022634029388427734, "timer/logger.write_frac": 7.543846633876058e-05, "timer/logger.write_avg": 0.022634029388427734, "timer/logger.write_min": 0.022634029388427734, "timer/logger.write_max": 0.022634029388427734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.894611358642578, "timer/agent.policy_frac": 0.036311376916080246, "timer/agent.policy_avg": 0.0073811730072104184, "timer/agent.policy_min": 0.006076335906982422, "timer/agent.policy_max": 0.016290903091430664, "timer/dataset_count": 738.0, "timer/dataset_total": 0.058754682540893555, "timer/dataset_frac": 0.00019582740063825882, "timer/dataset_avg": 7.961339097682054e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.7304949760437, "timer/agent.train_frac": 0.9056686923339271, "timer/agent.train_avg": 0.368198502677566, "timer/agent.train_min": 0.36165642738342285, "timer/agent.train_max": 0.38162660598754883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067618370056152, "timer/agent.report_frac": 0.0007355063727350478, "timer/agent.report_avg": 0.22067618370056152, "timer/agent.report_min": 0.22067618370056152, "timer/agent.report_max": 0.22067618370056152, "fps": 4.919347930652296}
+{"step": 631708, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05714285714285714}
+{"step": 631885, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
+{"step": 632118, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05150214592274678}
+{"step": 632179, "episode/length": 60.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.04918032786885246}
+{"step": 632425, "episode/length": 245.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.052845528455284556}
+{"step": 632648, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04932735426008968}
+{"step": 632860, "episode/length": 211.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06132075471698113}
+{"step": 633017, "episode/length": 156.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08280254777070063}
+{"step": 633107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565082126193577, "train/action_min": 0.0, "train/action_std": 3.4902828766240015, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042482520919293165, "train/actor_opt_grad_steps": 315645.0, "train/actor_opt_loss": -11.806780878247487, "train/adv_mag": 0.3911335840821266, "train/adv_max": 0.35713155878086883, "train/adv_mean": 0.0020949637268030427, "train/adv_min": -0.3362785283890035, "train/adv_std": 0.04713684837851259, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 5.055734398353964e-05, "train/cont_loss_std": 0.0016070929425918085, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.006734333537018837, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.588967447174655e-06, "train/cont_pred": 0.9950174772077136, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.274440040191014, "train/dyn_loss_std": 8.823228021462759, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0412733231981595, "train/extr_critic_critic_opt_grad_steps": 315645.0, "train/extr_critic_critic_opt_loss": 16090.871771918402, "train/extr_critic_mag": 10.775269892480638, "train/extr_critic_max": 10.775269892480638, "train/extr_critic_mean": 2.693692824906773, "train/extr_critic_min": -0.5065251605378257, "train/extr_critic_std": 2.6399048136340246, "train/extr_return_normed_mag": 1.4320362541410658, "train/extr_return_normed_max": 1.4320362541410658, "train/extr_return_normed_mean": 0.3531038980517123, "train/extr_return_normed_min": -0.07635955854008596, "train/extr_return_normed_std": 0.32721661983264816, "train/extr_return_rate": 0.7043186161253188, "train/extr_return_raw_mag": 11.514331844117907, "train/extr_return_raw_max": 11.514331844117907, "train/extr_return_raw_mean": 2.710786642299758, "train/extr_return_raw_min": -0.7935301102697849, "train/extr_return_raw_std": 2.670022812154558, "train/extr_reward_mag": 1.0554690923955705, "train/extr_reward_max": 1.0554690923955705, "train/extr_reward_mean": 0.05317400207018687, "train/extr_reward_min": -0.6340055796835158, "train/extr_reward_std": 0.22274405798978275, "train/image_loss_mean": 3.2500772459639444, "train/image_loss_std": 8.261093934377035, "train/model_loss_mean": 6.469507945908441, "train/model_loss_std": 12.435719397332933, "train/model_opt_grad_norm": 25.843196868896484, "train/model_opt_grad_steps": 315393.25, "train/model_opt_loss": 16384.846069335938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.656465712520811, "train/policy_entropy_max": 2.656465712520811, "train/policy_entropy_mean": 0.4620897780276007, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6407334908015199, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4620784984694587, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.067266695201397, "train/policy_randomness_mag": 0.937615821758906, "train/policy_randomness_max": 0.937615821758906, "train/policy_randomness_mean": 0.1630974140846067, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22615080440623891, "train/post_ent_mag": 55.33469157748752, "train/post_ent_max": 55.33469157748752, "train/post_ent_mean": 40.86655590269301, "train/post_ent_min": 18.994451774491203, "train/post_ent_std": 5.711476763089498, "train/prior_ent_mag": 76.69188457065158, "train/prior_ent_max": 76.69188457065158, "train/prior_ent_mean": 46.14862224790785, "train/prior_ent_min": 28.606510480244953, "train/prior_ent_std": 7.527418090237512, "train/rep_loss_mean": 5.274440040191014, "train/rep_loss_std": 8.823228021462759, "train/reward_avg": 0.03845350452077886, "train/reward_loss_mean": 0.05471615307033062, "train/reward_loss_std": 0.21495630405843258, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.028904891676373, "train/reward_neg_acc": 0.9942049301332898, "train/reward_neg_loss": 0.024187074456777837, "train/reward_pos_acc": 0.9893034820755323, "train/reward_pos_loss": 0.7338642246193356, "train/reward_pred": 0.03807592327292594, "train/reward_rate": 0.04310438368055555, "stats/sum_log_reward": 9.350000157952309, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.29645627923309803, "replay/size": 633044.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.140776233435008e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4739955843900344e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02109813690186, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.488667726516724, "timer/env.step_frac": 0.06829075639596384, "timer/env.step_avg": 0.014208507438638504, "timer/env.step_min": 0.0024154186248779297, "timer/env.step_max": 1.769200086593628, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28337764739990234, "timer/replay.add_frac": 0.0009445257322223219, "timer/replay.add_avg": 0.0001965170925103345, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0007987022399902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020657062530517578, "timer/logger.write_frac": 6.885203293633572e-05, "timer/logger.write_avg": 0.020657062530517578, "timer/logger.write_min": 0.020657062530517578, "timer/logger.write_max": 0.020657062530517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000591278076171875, "timer/checkpoint.save_frac": 1.9707883207002678e-06, "timer/checkpoint.save_avg": 0.000591278076171875, "timer/checkpoint.save_min": 0.000591278076171875, "timer/checkpoint.save_max": 0.000591278076171875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4104502201080322, "timer/agent.save_frac": 0.004701170113924566, "timer/agent.save_avg": 1.4104502201080322, "timer/agent.save_min": 1.4104502201080322, "timer/agent.save_max": 1.4104502201080322, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.781354484859249e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.575067520141602, "timer/agent.policy_frac": 0.04191394404670669, "timer/agent.policy_avg": 0.008720573869723719, "timer/agent.policy_min": 0.005898475646972656, "timer/agent.policy_max": 1.3919074535369873, "timer/dataset_count": 721.0, "timer/dataset_total": 0.059546709060668945, "timer/dataset_frac": 0.0001984750720214261, "timer/dataset_avg": 8.258905556264764e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0010104179382324219, "timer/agent.train_count": 721.0, "timer/agent.train_total": 265.9612765312195, "timer/agent.train_frac": 0.8864752451837883, "timer/agent.train_avg": 0.3688783308338689, "timer/agent.train_min": 0.36098241806030273, "timer/agent.train_max": 0.8191978931427002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22157859802246094, "timer/agent.report_frac": 0.0007385433871099058, "timer/agent.report_avg": 0.22157859802246094, "timer/agent.report_min": 0.22157859802246094, "timer/agent.report_max": 0.22157859802246094, "fps": 4.806219512860209}
+{"step": 633190, "episode/length": 172.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06936416184971098}
+{"step": 633432, "episode/length": 241.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05371900826446281}
+{"step": 633612, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
+{"step": 633781, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
+{"step": 634032, "episode/length": 250.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03187250996015936}
+{"step": 634238, "episode/length": 205.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.06310679611650485}
+{"step": 634447, "episode/length": 208.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05263157894736842}
+{"step": 634579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533641918285473, "train/action_min": 0.0, "train/action_std": 3.4733670402217554, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041293939676236464, "train/actor_opt_grad_steps": 316375.0, "train/actor_opt_loss": -12.867593330305976, "train/adv_mag": 0.37631579428105744, "train/adv_max": 0.3479207935365471, "train/adv_mean": 0.0017615974435545001, "train/adv_min": -0.32777101546525955, "train/adv_std": 0.04665483640053788, "train/cont_avg": 0.9948796452702703, "train/cont_loss_mean": 1.300387802836565e-05, "train/cont_loss_std": 0.00040113560352658147, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006889397792786892, "train/cont_pos_acc": 0.9999999790578276, "train/cont_pos_loss": 9.658076577817138e-06, "train/cont_pred": 0.9948744153654253, "train/cont_rate": 0.9948796452702703, "train/dyn_loss_mean": 5.153830051422119, "train/dyn_loss_std": 8.709559047544325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0325027003481582, "train/extr_critic_critic_opt_grad_steps": 316375.0, "train/extr_critic_critic_opt_loss": 15905.528769003378, "train/extr_critic_mag": 10.90071625322909, "train/extr_critic_max": 10.90071625322909, "train/extr_critic_mean": 2.804276406764984, "train/extr_critic_min": -0.5071210635674966, "train/extr_critic_std": 2.654858147775805, "train/extr_return_normed_mag": 1.4266287426690798, "train/extr_return_normed_max": 1.4266287426690798, "train/extr_return_normed_mean": 0.36396788986953527, "train/extr_return_normed_min": -0.08028599811164108, "train/extr_return_normed_std": 0.3270307686683294, "train/extr_return_rate": 0.7321438990734719, "train/extr_return_raw_mag": 11.540126993849471, "train/extr_return_raw_max": 11.540126993849471, "train/extr_return_raw_mean": 2.818711053680729, "train/extr_return_raw_min": -0.8271501970452231, "train/extr_return_raw_std": 2.6838588424631067, "train/extr_reward_mag": 1.0487783889512758, "train/extr_reward_max": 1.0487783889512758, "train/extr_reward_mean": 0.05525573212149981, "train/extr_reward_min": -0.643479996436351, "train/extr_reward_std": 0.22647620737552643, "train/image_loss_mean": 3.036003731392525, "train/image_loss_std": 8.038350633672765, "train/model_loss_mean": 6.180761994542302, "train/model_loss_std": 12.12638979989129, "train/model_opt_grad_norm": 26.9615503646232, "train/model_opt_grad_steps": 316122.6081081081, "train/model_opt_loss": 12421.303743929477, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2010.1351351351352, "train/policy_entropy_mag": 2.6817997049640967, "train/policy_entropy_max": 2.6817997049640967, "train/policy_entropy_mean": 0.46766539119385386, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6568630361879194, "train/policy_logprob_mag": 7.438384242959924, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4676496132805541, "train/policy_logprob_min": -7.438384242959924, "train/policy_logprob_std": 1.0758778243451506, "train/policy_randomness_mag": 0.946557608810631, "train/policy_randomness_max": 0.946557608810631, "train/policy_randomness_mean": 0.16506536153925433, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23184382532899445, "train/post_ent_mag": 55.231517740198086, "train/post_ent_max": 55.231517740198086, "train/post_ent_mean": 40.8580142356254, "train/post_ent_min": 19.093633986808157, "train/post_ent_std": 5.634460494324967, "train/prior_ent_mag": 76.684102960535, "train/prior_ent_max": 76.684102960535, "train/prior_ent_mean": 46.03922132543615, "train/prior_ent_min": 28.4680097683056, "train/prior_ent_std": 7.448970846227698, "train/rep_loss_mean": 5.153830051422119, "train/rep_loss_std": 8.709559047544325, "train/reward_avg": 0.038531988909518394, "train/reward_loss_mean": 0.052447207926495654, "train/reward_loss_std": 0.20452170134396166, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.020992912150718, "train/reward_neg_acc": 0.9946744345329903, "train/reward_neg_loss": 0.022272098715089866, "train/reward_pos_acc": 0.9895781769945815, "train/reward_pos_loss": 0.7254326569067465, "train/reward_pred": 0.038236876244883276, "train/reward_rate": 0.042915962837837836, "stats/sum_log_reward": 9.957143170492989, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 7.857142857142857, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3997532980782645, "replay/size": 634516.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.153539222219716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5041062041469242e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30771017074585, "timer/env.step_count": 1472.0, "timer/env.step_total": 17.695829391479492, "timer/env.step_frac": 0.05892565789076205, "timer/env.step_avg": 0.012021623227907263, "timer/env.step_min": 0.0025892257690429688, "timer/env.step_max": 1.4572911262512207, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2676575183868408, "timer/replay.add_frac": 0.0008912775440719084, "timer/replay.add_avg": 0.0001818325532519299, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008623600006103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022526264190673828, "timer/logger.write_frac": 7.50106088780274e-05, "timer/logger.write_avg": 0.022526264190673828, "timer/logger.write_min": 0.022526264190673828, "timer/logger.write_max": 0.022526264190673828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.882488489151001, "timer/agent.policy_frac": 0.03623779250610498, "timer/agent.policy_avg": 0.00739299489752106, "timer/agent.policy_min": 0.006098747253417969, "timer/agent.policy_max": 0.019742965698242188, "timer/dataset_count": 736.0, "timer/dataset_total": 0.05986166000366211, "timer/dataset_frac": 0.0001993344092618421, "timer/dataset_avg": 8.133377717888874e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 736.0, "timer/agent.train_total": 270.75164008140564, "timer/agent.train_frac": 0.9015807150854185, "timer/agent.train_avg": 0.367869076197562, "timer/agent.train_min": 0.35924744606018066, "timer/agent.train_max": 0.3810582160949707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21868276596069336, "timer/agent.report_frac": 0.0007281956425173265, "timer/agent.report_avg": 0.21868276596069336, "timer/agent.report_min": 0.21868276596069336, "timer/agent.report_max": 0.21868276596069336, "fps": 4.901580280364179}
+{"step": 634738, "episode/length": 290.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.041237113402061855}
+{"step": 634908, "episode/length": 169.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07647058823529412}
+{"step": 635063, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07741935483870968}
+{"step": 635148, "episode/length": 84.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10588235294117647}
+{"step": 635451, "episode/length": 302.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0429042904290429}
+{"step": 635525, "episode/length": 73.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.12162162162162163}
+{"step": 635687, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 635842, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07096774193548387}
+{"step": 636025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57790289984809, "train/action_min": 0.0, "train/action_std": 3.444715542925729, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04185377488223215, "train/actor_opt_grad_steps": 317105.0, "train/actor_opt_loss": -12.993283142646154, "train/adv_mag": 0.406988756524192, "train/adv_max": 0.3527611763113075, "train/adv_mean": 0.0020282256124978127, "train/adv_min": -0.3488708624823226, "train/adv_std": 0.04718201576421658, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 1.4647154428596801e-05, "train/cont_loss_std": 0.000329697774099142, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.441197945841439e-05, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.4236682376002187e-05, "train/cont_pred": 0.9943444050020642, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 5.272887620660994, "train/dyn_loss_std": 8.815513994958666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0198216545912955, "train/extr_critic_critic_opt_grad_steps": 317105.0, "train/extr_critic_critic_opt_loss": 16110.473876953125, "train/extr_critic_mag": 10.965813451343113, "train/extr_critic_max": 10.965813451343113, "train/extr_critic_mean": 2.717210175262557, "train/extr_critic_min": -0.4975507805744807, "train/extr_critic_std": 2.71456785996755, "train/extr_return_normed_mag": 1.4605324152443144, "train/extr_return_normed_max": 1.4605324152443144, "train/extr_return_normed_mean": 0.35553017631173134, "train/extr_return_normed_min": -0.07716431779166062, "train/extr_return_normed_std": 0.33572447217173046, "train/extr_return_rate": 0.7049425285723474, "train/extr_return_raw_mag": 11.765588204065958, "train/extr_return_raw_max": 11.765588204065958, "train/extr_return_raw_mean": 2.7338108867406845, "train/extr_return_raw_min": -0.8024468955894312, "train/extr_return_raw_std": 2.743990570306778, "train/extr_reward_mag": 1.0374889704916213, "train/extr_reward_max": 1.0374889704916213, "train/extr_reward_mean": 0.05463340733614233, "train/extr_reward_min": -0.6311046679814657, "train/extr_reward_std": 0.22633090739448866, "train/image_loss_mean": 3.2512084444363913, "train/image_loss_std": 8.211425231562721, "train/model_loss_mean": 6.469019949436188, "train/model_loss_std": 12.387189984321594, "train/model_opt_grad_norm": 26.2139849530326, "train/model_opt_grad_steps": 316852.0, "train/model_opt_loss": 8192.927924262152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.6942968832121954, "train/policy_entropy_max": 2.6942968832121954, "train/policy_entropy_mean": 0.4815472534133328, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6716780335538917, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4818802653915352, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0865713333090146, "train/policy_randomness_mag": 0.9509685610731443, "train/policy_randomness_max": 0.9509685610731443, "train/policy_randomness_mean": 0.16996504863103232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23707286682393816, "train/post_ent_mag": 55.64137988620334, "train/post_ent_max": 55.64137988620334, "train/post_ent_mean": 40.997934606340195, "train/post_ent_min": 19.33589510122935, "train/post_ent_std": 5.801867716842228, "train/prior_ent_mag": 76.67151398128934, "train/prior_ent_max": 76.67151398128934, "train/prior_ent_mean": 46.26535622278849, "train/prior_ent_min": 28.493635416030884, "train/prior_ent_std": 7.6448617577552795, "train/rep_loss_mean": 5.272887620660994, "train/rep_loss_std": 8.815513994958666, "train/reward_avg": 0.037723795873009495, "train/reward_loss_mean": 0.054064334732376866, "train/reward_loss_std": 0.2133661446472009, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.018681741423077, "train/reward_neg_acc": 0.9943041751782099, "train/reward_neg_loss": 0.02399716483584295, "train/reward_pos_acc": 0.9893897664215829, "train/reward_pos_loss": 0.7304161811868349, "train/reward_pred": 0.03747777873650193, "train/reward_rate": 0.042643229166666664, "stats/sum_log_reward": 10.350000321865082, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41376485489308834, "replay/size": 635962.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.2414044582002884e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3965665057487014e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2925524711609, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.45776128768921, "timer/env.step_frac": 0.06812610275992077, "timer/env.step_avg": 0.014147829382910933, "timer/env.step_min": 0.002848386764526367, "timer/env.step_max": 1.5924673080444336, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.270524263381958, "timer/replay.add_frac": 0.0009008690397273115, "timer/replay.add_avg": 0.00018708455282293084, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008709430694580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021634817123413086, "timer/logger.write_frac": 7.204579982212786e-05, "timer/logger.write_avg": 0.021634817123413086, "timer/logger.write_min": 0.021634817123413086, "timer/logger.write_max": 0.021634817123413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.752978324890137, "timer/agent.policy_frac": 0.03580834168680496, "timer/agent.policy_avg": 0.007436361220532598, "timer/agent.policy_min": 0.006018877029418945, "timer/agent.policy_max": 0.01818084716796875, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06001162528991699, "timer/dataset_frac": 0.00019984386824138876, "timer/dataset_avg": 8.300363110638588e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.0849826335907, "timer/agent.train_frac": 0.8927460252592735, "timer/agent.train_avg": 0.37079527335213097, "timer/agent.train_min": 0.36183762550354004, "timer/agent.train_max": 0.38596391677856445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22269678115844727, "timer/agent.report_frac": 0.0007415994147235281, "timer/agent.report_avg": 0.22269678115844727, "timer/agent.report_min": 0.22269678115844727, "timer/agent.report_max": 0.22269678115844727, "fps": 4.815216256030776}
+{"step": 636056, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
+{"step": 636192, "episode/length": 135.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.0661764705882353}
+{"step": 636440, "episode/length": 247.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.056451612903225805}
+{"step": 636765, "episode/length": 324.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.033846153846153845}
+{"step": 636971, "episode/length": 205.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.043689320388349516}
+{"step": 637015, "episode/length": 43.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.1590909090909091}
+{"step": 637204, "episode/length": 188.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0582010582010582}
+{"step": 637445, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.578553105743838, "train/action_min": 0.0, "train/action_std": 3.4537023121202495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04270908677242172, "train/actor_opt_grad_steps": 317820.0, "train/actor_opt_loss": -11.834430591321327, "train/adv_mag": 0.4443865242138715, "train/adv_max": 0.3924228700113968, "train/adv_mean": 0.0022727483354904343, "train/adv_min": -0.39290950122013896, "train/adv_std": 0.048760733449123274, "train/cont_avg": 0.9945945202464789, "train/cont_loss_mean": 1.2738707974015495e-05, "train/cont_loss_std": 0.00037711177149401306, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.111398711336111e-05, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.2442670020552956e-05, "train/cont_pred": 0.9945840869151371, "train/cont_rate": 0.9945945202464789, "train/dyn_loss_mean": 5.392825314696406, "train/dyn_loss_std": 8.849066358217051, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343548084648562, "train/extr_critic_critic_opt_grad_steps": 317820.0, "train/extr_critic_critic_opt_loss": 16251.725517165492, "train/extr_critic_mag": 10.912550308334996, "train/extr_critic_max": 10.912550308334996, "train/extr_critic_mean": 2.7687941856787237, "train/extr_critic_min": -0.50202519792906, "train/extr_critic_std": 2.697825532563975, "train/extr_return_normed_mag": 1.4467235602123636, "train/extr_return_normed_max": 1.4467235602123636, "train/extr_return_normed_mean": 0.360777863314454, "train/extr_return_normed_min": -0.0811290175352298, "train/extr_return_normed_std": 0.3324153423309326, "train/extr_return_rate": 0.7158781155733995, "train/extr_return_raw_mag": 11.715581665576345, "train/extr_return_raw_max": 11.715581665576345, "train/extr_return_raw_mean": 2.7874842093024457, "train/extr_return_raw_min": -0.8460274338722229, "train/extr_return_raw_std": 2.73336029724336, "train/extr_reward_mag": 1.0520636598828812, "train/extr_reward_max": 1.0520636598828812, "train/extr_reward_mean": 0.05741707820602706, "train/extr_reward_min": -0.6704493559582133, "train/extr_reward_std": 0.23112239174439875, "train/image_loss_mean": 3.21416505961351, "train/image_loss_std": 8.460711136670179, "train/model_loss_mean": 6.5041686581893705, "train/model_loss_std": 12.636848463139064, "train/model_opt_grad_norm": 26.340596776613047, "train/model_opt_grad_steps": 317567.0, "train/model_opt_loss": 16260.421613666373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6970799540130184, "train/policy_entropy_max": 2.6970799540130184, "train/policy_entropy_mean": 0.46153335000427675, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6668061962429906, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45977932718438164, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.0684001680830835, "train/policy_randomness_mag": 0.9519508632136063, "train/policy_randomness_max": 0.9519508632136063, "train/policy_randomness_mean": 0.1629010179722813, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23535332503453107, "train/post_ent_mag": 55.16018585419991, "train/post_ent_max": 55.16018585419991, "train/post_ent_mean": 40.799810866235006, "train/post_ent_min": 19.30380239621015, "train/post_ent_std": 5.7274618686085015, "train/prior_ent_mag": 76.53563314088633, "train/prior_ent_max": 76.53563314088633, "train/prior_ent_mean": 46.18368621611259, "train/prior_ent_min": 28.641262752909057, "train/prior_ent_std": 7.567041806771722, "train/rep_loss_mean": 5.392825314696406, "train/rep_loss_std": 8.849066358217051, "train/reward_avg": 0.038041923562405815, "train/reward_loss_mean": 0.054295661426346065, "train/reward_loss_std": 0.21523425591663575, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0208757158736108, "train/reward_neg_acc": 0.9942677507937794, "train/reward_neg_loss": 0.02424344639490608, "train/reward_pos_acc": 0.9887416068936737, "train/reward_pos_loss": 0.729486990142876, "train/reward_pred": 0.03780003663309863, "train/reward_rate": 0.04276243397887324, "stats/sum_log_reward": 9.528571741921562, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.41534845743860516, "replay/size": 637382.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.431212734168684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359216763939656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3252532482147, "timer/env.step_count": 1420.0, "timer/env.step_total": 21.377098560333252, "timer/env.step_frac": 0.07117982363829183, "timer/env.step_avg": 0.015054294760798064, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.7925081253051758, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.26253390312194824, "timer/replay.add_frac": 0.0008741652601054083, "timer/replay.add_avg": 0.0001848830303675692, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0009369850158691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022996902465820312, "timer/logger.write_frac": 7.657332247985715e-05, "timer/logger.write_avg": 0.022996902465820312, "timer/logger.write_min": 0.022996902465820312, "timer/logger.write_max": 0.022996902465820312, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004818439483642578, "timer/checkpoint.save_frac": 1.6044070325515395e-06, "timer/checkpoint.save_avg": 0.0004818439483642578, "timer/checkpoint.save_min": 0.0004818439483642578, "timer/checkpoint.save_max": 0.0004818439483642578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.6114463806152344, "timer/agent.save_frac": 0.00536567059608336, "timer/agent.save_avg": 1.6114463806152344, "timer/agent.save_min": 1.6114463806152344, "timer/agent.save_max": 1.6114463806152344, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.8579244518483635e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.895975112915039, "timer/agent.policy_frac": 0.042940029096576474, "timer/agent.policy_avg": 0.0090816726147289, "timer/agent.policy_min": 0.005797863006591797, "timer/agent.policy_max": 1.6000142097473145, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06029248237609863, "timer/dataset_frac": 0.00020075728472379817, "timer/dataset_avg": 8.491898926211075e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 710.0, "timer/agent.train_total": 265.0541663169861, "timer/agent.train_frac": 0.8825570392441239, "timer/agent.train_avg": 0.37331572720702266, "timer/agent.train_min": 0.36583542823791504, "timer/agent.train_max": 0.8194575309753418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046184539794922, "timer/agent.report_frac": 0.0007340769482869311, "timer/agent.report_avg": 0.22046184539794922, "timer/agent.report_min": 0.22046184539794922, "timer/agent.report_max": 0.22046184539794922, "fps": 4.728110791636773}
+{"step": 637596, "episode/length": 391.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.030612244897959183}
+{"step": 637953, "episode/length": 356.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.025210084033613446}
+{"step": 638144, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06282722513089005}
+{"step": 638315, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04093567251461988}
+{"step": 638459, "episode/length": 143.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.0763888888888889}
+{"step": 638657, "episode/length": 197.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06565656565656566}
+{"step": 638865, "episode/length": 207.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03365384615384615}
+{"step": 638893, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.635787116156684, "train/action_min": 0.0, "train/action_std": 3.4685260785950556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04357286087340779, "train/actor_opt_grad_steps": 318535.0, "train/actor_opt_loss": -12.97330773373445, "train/adv_mag": 0.4218406147427029, "train/adv_max": 0.38210839074518943, "train/adv_mean": 0.0018958556880129941, "train/adv_min": -0.35662805040677387, "train/adv_std": 0.048900650762435466, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.00011675042766354536, "train/cont_loss_std": 0.0036594321545572305, "train/cont_neg_acc": 0.9962273651445416, "train/cont_neg_loss": 0.015693810667372278, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 6.846322802308198e-06, "train/cont_pred": 0.994882319536474, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.19190388917923, "train/dyn_loss_std": 8.706598281860352, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0392082929611206, "train/extr_critic_critic_opt_grad_steps": 318535.0, "train/extr_critic_critic_opt_loss": 16330.89662000868, "train/extr_critic_mag": 10.91190332836575, "train/extr_critic_max": 10.91190332836575, "train/extr_critic_mean": 2.73068186475171, "train/extr_critic_min": -0.5151880184809366, "train/extr_critic_std": 2.6762748459974923, "train/extr_return_normed_mag": 1.4455005990134344, "train/extr_return_normed_max": 1.4455005990134344, "train/extr_return_normed_mean": 0.3559106070962217, "train/extr_return_normed_min": -0.08314500723241104, "train/extr_return_normed_std": 0.3306071845193704, "train/extr_return_rate": 0.7142750273148218, "train/extr_return_raw_mag": 11.671743326716953, "train/extr_return_raw_max": 11.671743326716953, "train/extr_return_raw_mean": 2.7462062438329062, "train/extr_return_raw_min": -0.8504076153039932, "train/extr_return_raw_std": 2.708454022804896, "train/extr_reward_mag": 1.0572426451577082, "train/extr_reward_max": 1.0572426451577082, "train/extr_reward_mean": 0.05663580623351865, "train/extr_reward_min": -0.6603962977727255, "train/extr_reward_std": 0.22986469438506496, "train/image_loss_mean": 3.142283409833908, "train/image_loss_std": 8.193286604351467, "train/model_loss_mean": 6.3122073080804615, "train/model_loss_std": 12.296392440795898, "train/model_opt_grad_norm": 27.748732311624877, "train/model_opt_grad_steps": 318281.5138888889, "train/model_opt_loss": 18150.062622070312, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.698370936844084, "train/policy_entropy_max": 2.698370936844084, "train/policy_entropy_mean": 0.46832378291421467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6636584959924221, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46792589252193767, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0746146490176518, "train/policy_randomness_mag": 0.9524065256118774, "train/policy_randomness_max": 0.9524065256118774, "train/policy_randomness_mean": 0.16529774251911375, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23424232440690199, "train/post_ent_mag": 55.221155961354576, "train/post_ent_max": 55.221155961354576, "train/post_ent_mean": 40.789410008324516, "train/post_ent_min": 19.20724109808604, "train/post_ent_std": 5.678567336665259, "train/prior_ent_mag": 76.63781536950006, "train/prior_ent_max": 76.63781536950006, "train/prior_ent_mean": 46.03566397560967, "train/prior_ent_min": 28.123789495891995, "train/prior_ent_std": 7.525110761324565, "train/rep_loss_mean": 5.19190388917923, "train/rep_loss_std": 8.706598281860352, "train/reward_avg": 0.039264593868412904, "train/reward_loss_mean": 0.05466484806189934, "train/reward_loss_std": 0.20964576759272152, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0265969634056091, "train/reward_neg_acc": 0.9947340819570754, "train/reward_neg_loss": 0.023892085869900055, "train/reward_pos_acc": 0.9905460841125913, "train/reward_pos_loss": 0.7187618066867193, "train/reward_pred": 0.03912982352388402, "train/reward_rate": 0.044135199652777776, "stats/sum_log_reward": 8.814285823277064, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 7.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.7142857142857142, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4863142264740808, "replay/size": 638830.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.379517497278709e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3438830388843683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08058643341064, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.18611478805542, "timer/env.step_frac": 0.06393654123410916, "timer/env.step_avg": 0.013250079273518936, "timer/env.step_min": 0.0028638839721679688, "timer/env.step_max": 1.6240859031677246, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.25290942192077637, "timer/replay.add_frac": 0.0008428050109029569, "timer/replay.add_avg": 0.0001746612029839616, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009770393371582031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02279376983642578, "timer/logger.write_frac": 7.595882861780474e-05, "timer/logger.write_avg": 0.02279376983642578, "timer/logger.write_min": 0.02279376983642578, "timer/logger.write_max": 0.02279376983642578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.598285913467407, "timer/agent.policy_frac": 0.03531813250378068, "timer/agent.policy_avg": 0.0073192582275327395, "timer/agent.policy_min": 0.005991220474243164, "timer/agent.policy_max": 0.017795801162719727, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05881977081298828, "timer/dataset_frac": 0.00019601324934774038, "timer/dataset_avg": 8.124277736600591e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.3080720901489, "timer/agent.train_frac": 0.8974524986470916, "timer/agent.train_avg": 0.37197247526263666, "timer/agent.train_min": 0.3658576011657715, "timer/agent.train_max": 0.38481640815734863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21909594535827637, "timer/agent.report_frac": 0.0007301236909802388, "timer/agent.report_avg": 0.21909594535827637, "timer/agent.report_min": 0.21909594535827637, "timer/agent.report_max": 0.21909594535827637, "fps": 4.825274908524711}
+{"step": 639019, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 639206, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053475935828877004}
+{"step": 639391, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 639573, "episode/length": 181.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.07142857142857142}
+{"step": 639763, "episode/length": 189.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06315789473684211}
+{"step": 639913, "episode/length": 149.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.08}
+{"step": 640116, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06403940886699508}
+{"step": 640337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.559822082519531, "train/action_min": 0.0, "train/action_std": 3.4259258144431644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042961200802690454, "train/actor_opt_grad_steps": 319255.0, "train/actor_opt_loss": -12.64909970180856, "train/adv_mag": 0.4228170191248258, "train/adv_max": 0.3866058753596412, "train/adv_mean": 0.0020490019570489596, "train/adv_min": -0.3539862972166803, "train/adv_std": 0.048856765342255436, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 7.577919277173489e-05, "train/cont_loss_std": 0.002377836352280443, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.005890879199502648, "train/cont_pos_acc": 0.9999863555034002, "train/cont_pos_loss": 3.627164416318706e-05, "train/cont_pred": 0.9948348758949174, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.294406380918291, "train/dyn_loss_std": 8.825288613637289, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1204514495200582, "train/extr_critic_critic_opt_grad_steps": 319255.0, "train/extr_critic_critic_opt_loss": 16435.734049479168, "train/extr_critic_mag": 10.766036126348707, "train/extr_critic_max": 10.766036126348707, "train/extr_critic_mean": 2.6382477117909326, "train/extr_critic_min": -0.49215926726659137, "train/extr_critic_std": 2.601754605770111, "train/extr_return_normed_mag": 1.4502144389682345, "train/extr_return_normed_max": 1.4502144389682345, "train/extr_return_normed_mean": 0.3492232755654388, "train/extr_return_normed_min": -0.08209861044047607, "train/extr_return_normed_std": 0.32619631062779164, "train/extr_return_rate": 0.7202528582678901, "train/extr_return_raw_mag": 11.541102170944214, "train/extr_return_raw_max": 11.541102170944214, "train/extr_return_raw_mean": 2.6548002047671213, "train/extr_return_raw_min": -0.826300231118997, "train/extr_return_raw_std": 2.6326761262284384, "train/extr_reward_mag": 1.0539261102676392, "train/extr_reward_max": 1.0539261102676392, "train/extr_reward_mean": 0.05414209602814582, "train/extr_reward_min": -0.6450934956471125, "train/extr_reward_std": 0.22491780813369486, "train/image_loss_mean": 3.1717070755031376, "train/image_loss_std": 8.4061232275433, "train/model_loss_mean": 6.402654800150129, "train/model_loss_std": 12.590804325209724, "train/model_opt_grad_norm": 27.94970871025408, "train/model_opt_grad_steps": 319000.9861111111, "train/model_opt_loss": 17342.12569173177, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.680308391650518, "train/policy_entropy_max": 2.680308391650518, "train/policy_entropy_mean": 0.44458336010575294, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6371320014198621, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4444238270322482, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0587513662046857, "train/policy_randomness_mag": 0.9460312384698126, "train/policy_randomness_max": 0.9460312384698126, "train/policy_randomness_mean": 0.1569184169380201, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22487963549792767, "train/post_ent_mag": 55.25525903701782, "train/post_ent_max": 55.25525903701782, "train/post_ent_mean": 40.739121437072754, "train/post_ent_min": 19.283083505100674, "train/post_ent_std": 5.678915235731337, "train/prior_ent_mag": 76.74644067552354, "train/prior_ent_max": 76.74644067552354, "train/prior_ent_mean": 46.026561896006264, "train/prior_ent_min": 28.064302444458008, "train/prior_ent_std": 7.563151723808712, "train/rep_loss_mean": 5.294406380918291, "train/rep_loss_std": 8.825288613637289, "train/reward_avg": 0.03837483715162509, "train/reward_loss_mean": 0.054228063051899277, "train/reward_loss_std": 0.21203810576763418, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0196654697259266, "train/reward_neg_acc": 0.9948945376608107, "train/reward_neg_loss": 0.023551528924144804, "train/reward_pos_acc": 0.990244657629066, "train/reward_pos_loss": 0.7344011921021674, "train/reward_pred": 0.037803642813944154, "train/reward_rate": 0.04306369357638889, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2670327425003052, "replay/size": 640274.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3776515738785763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3455624725679941e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06366991996765, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.816582679748535, "timer/env.step_frac": 0.06604125946014715, "timer/env.step_avg": 0.013723395207582088, "timer/env.step_min": 0.002927064895629883, "timer/env.step_max": 1.6900112628936768, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2653334140777588, "timer/replay.add_frac": 0.0008842570450082409, "timer/replay.add_avg": 0.00018374890171589945, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0009005069732666016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020289897918701172, "timer/logger.write_frac": 6.761864215055708e-05, "timer/logger.write_avg": 0.020289897918701172, "timer/logger.write_min": 0.020289897918701172, "timer/logger.write_max": 0.020289897918701172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.66274881362915, "timer/agent.policy_frac": 0.035534954353098114, "timer/agent.policy_avg": 0.007384175078690548, "timer/agent.policy_min": 0.005889892578125, "timer/agent.policy_max": 0.015250682830810547, "timer/dataset_count": 722.0, "timer/dataset_total": 0.058513641357421875, "timer/dataset_frac": 0.00019500408487648142, "timer/dataset_avg": 8.104382459476715e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5871911048889, "timer/agent.train_frac": 0.8951006670568481, "timer/agent.train_avg": 0.3720044198128655, "timer/agent.train_min": 0.3658008575439453, "timer/agent.train_max": 0.38417816162109375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2203845977783203, "timer/agent.report_frac": 0.0007344594493465365, "timer/agent.report_avg": 0.2203845977783203, "timer/agent.report_min": 0.2203845977783203, "timer/agent.report_max": 0.2203845977783203, "fps": 4.812237230885986}
+{"step": 640470, "episode/length": 353.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.03954802259887006}
+{"step": 640791, "episode/length": 320.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04361370716510903}
+{"step": 641013, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
+{"step": 641237, "episode/length": 223.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.05803571428571429}
+{"step": 641506, "episode/length": 268.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.04460966542750929}
+{"step": 641693, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.0374331550802139}
+{"step": 641769, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5760142008463545, "train/action_min": 0.0, "train/action_std": 3.4569521182113223, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0432979593363901, "train/actor_opt_grad_steps": 319975.0, "train/actor_opt_loss": -11.132209025116431, "train/adv_mag": 0.4282824227379428, "train/adv_max": 0.3883611270123058, "train/adv_mean": 0.0024356677632668936, "train/adv_min": -0.3531058780435059, "train/adv_std": 0.04844320472329855, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 7.768591066417387e-05, "train/cont_loss_std": 0.0024373344403794623, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.004182470128287245, "train/cont_pos_acc": 0.9999727432926496, "train/cont_pos_loss": 5.196651315841905e-05, "train/cont_pred": 0.9945445160071055, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 5.20329933696323, "train/dyn_loss_std": 8.736660381158194, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023275679184331, "train/extr_critic_critic_opt_grad_steps": 319975.0, "train/extr_critic_critic_opt_loss": 16238.234768337674, "train/extr_critic_mag": 10.859204239315456, "train/extr_critic_max": 10.859204239315456, "train/extr_critic_mean": 2.682030341691441, "train/extr_critic_min": -0.509416659673055, "train/extr_critic_std": 2.62386996878518, "train/extr_return_normed_mag": 1.4439551333586376, "train/extr_return_normed_max": 1.4439551333586376, "train/extr_return_normed_mean": 0.35420009969837135, "train/extr_return_normed_min": -0.08060646139913136, "train/extr_return_normed_std": 0.32783716999822193, "train/extr_return_rate": 0.7224257091681162, "train/extr_return_raw_mag": 11.52930900785658, "train/extr_return_raw_max": 11.52930900785658, "train/extr_return_raw_mean": 2.70174221528901, "train/extr_return_raw_min": -0.820936094969511, "train/extr_return_raw_std": 2.655908508433236, "train/extr_reward_mag": 1.0563846396075354, "train/extr_reward_max": 1.0563846396075354, "train/extr_reward_mean": 0.054265357398738466, "train/extr_reward_min": -0.651943153805203, "train/extr_reward_std": 0.2248692305551635, "train/image_loss_mean": 3.086579336060418, "train/image_loss_std": 8.282988376087612, "train/model_loss_mean": 6.262606183687846, "train/model_loss_std": 12.408160779211256, "train/model_opt_grad_norm": 25.93621195687188, "train/model_opt_grad_steps": 319720.0, "train/model_opt_loss": 15656.515421549479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6918492780791388, "train/policy_entropy_max": 2.6918492780791388, "train/policy_entropy_mean": 0.45451453804141945, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6491630483004782, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4554502986785438, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0692523974511359, "train/policy_randomness_mag": 0.9501046645972464, "train/policy_randomness_max": 0.9501046645972464, "train/policy_randomness_mean": 0.16042368455479541, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2291260701086786, "train/post_ent_mag": 55.072932455274795, "train/post_ent_max": 55.072932455274795, "train/post_ent_mean": 40.93911753760444, "train/post_ent_min": 19.684210618336994, "train/post_ent_std": 5.6911311282051935, "train/prior_ent_mag": 76.5484733581543, "train/prior_ent_max": 76.5484733581543, "train/prior_ent_mean": 46.16335577434964, "train/prior_ent_min": 28.3654551770952, "train/prior_ent_std": 7.517407225237952, "train/rep_loss_mean": 5.20329933696323, "train/rep_loss_std": 8.736660381158194, "train/reward_avg": 0.03691270582688352, "train/reward_loss_mean": 0.0539695310095946, "train/reward_loss_std": 0.21081400704052713, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.018120793832673, "train/reward_neg_acc": 0.9942927435040474, "train/reward_neg_loss": 0.02417714529049893, "train/reward_pos_acc": 0.9875318250722356, "train/reward_pos_loss": 0.7336418305834135, "train/reward_pred": 0.036529109347611666, "train/reward_rate": 0.0419921875, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.554064599176248, "replay/size": 641706.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.42660110090032e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3484302179773427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14093685150146, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.76483130455017, "timer/env.step_frac": 0.06585183451442704, "timer/env.step_avg": 0.013802256497590901, "timer/env.step_min": 0.0029866695404052734, "timer/env.step_max": 1.7986361980438232, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2618286609649658, "timer/replay.add_frac": 0.0008723523812231881, "timer/replay.add_avg": 0.0001828412436906186, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022887706756591797, "timer/logger.write_frac": 7.62565313371957e-05, "timer/logger.write_avg": 0.022887706756591797, "timer/logger.write_min": 0.022887706756591797, "timer/logger.write_max": 0.022887706756591797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003216266632080078, "timer/checkpoint.save_frac": 1.0715854577582553e-06, "timer/checkpoint.save_avg": 0.0003216266632080078, "timer/checkpoint.save_min": 0.0003216266632080078, "timer/checkpoint.save_max": 0.0003216266632080078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2454962730407715, "timer/agent.save_frac": 0.004149704755726129, "timer/agent.save_avg": 1.2454962730407715, "timer/agent.save_min": 1.2454962730407715, "timer/agent.save_max": 1.2454962730407715, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5895986599643534e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.38538408279419, "timer/agent.policy_frac": 0.04126522763844778, "timer/agent.policy_avg": 0.008649011231001529, "timer/agent.policy_min": 0.006068706512451172, "timer/agent.policy_max": 1.2407279014587402, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058106184005737305, "timer/dataset_frac": 0.0001935963304948504, "timer/dataset_avg": 8.115388827616942e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.99218678474426, "timer/agent.train_frac": 0.8895560518518739, "timer/agent.train_avg": 0.3728941156211512, "timer/agent.train_min": 0.3658030033111572, "timer/agent.train_max": 0.8988795280456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21875739097595215, "timer/agent.report_frac": 0.0007288488976903045, "timer/agent.report_avg": 0.21875739097595215, "timer/agent.report_min": 0.21875739097595215, "timer/agent.report_max": 0.21875739097595215, "fps": 4.7709877222207115}
+{"step": 641868, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
+{"step": 642060, "episode/length": 191.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07291666666666667}
+{"step": 642417, "episode/length": 356.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03361344537815126}
+{"step": 642770, "episode/length": 352.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.0339943342776204}
+{"step": 643060, "episode/length": 289.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.05172413793103448}
+{"step": 643104, "episode/length": 43.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.500000014901161, "episode/reward_rate": 0.18181818181818182}
+{"step": 643219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489174202696918, "train/action_min": 0.0, "train/action_std": 3.349033584333446, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044455673851787225, "train/actor_opt_grad_steps": 320700.0, "train/actor_opt_loss": -11.598842119313266, "train/adv_mag": 0.4182204947079698, "train/adv_max": 0.3734328906013541, "train/adv_mean": 0.002860554895636447, "train/adv_min": -0.36547813962583675, "train/adv_std": 0.049393549510469176, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 2.42272323775441e-05, "train/cont_loss_std": 0.0007542024425551918, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0026841808491868406, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 6.080484142247993e-06, "train/cont_pred": 0.9946270519739961, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.223582548637912, "train/dyn_loss_std": 8.764881016456918, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0635471931875569, "train/extr_critic_critic_opt_grad_steps": 320700.0, "train/extr_critic_critic_opt_loss": 16444.14184235873, "train/extr_critic_mag": 10.85408832602305, "train/extr_critic_max": 10.85408832602305, "train/extr_critic_mean": 2.803428979769145, "train/extr_critic_min": -0.5418353864591415, "train/extr_critic_std": 2.6761257321867222, "train/extr_return_normed_mag": 1.4420883181976945, "train/extr_return_normed_max": 1.4420883181976945, "train/extr_return_normed_mean": 0.36808540069893614, "train/extr_return_normed_min": -0.08562271470484668, "train/extr_return_normed_std": 0.33177859080980904, "train/extr_return_rate": 0.7352980906016207, "train/extr_return_raw_mag": 11.612082938625388, "train/extr_return_raw_max": 11.612082938625388, "train/extr_return_raw_mean": 2.826820574394644, "train/extr_return_raw_min": -0.8857009917089383, "train/extr_return_raw_std": 2.7146570682525635, "train/extr_reward_mag": 1.0674760798885399, "train/extr_reward_max": 1.0674760798885399, "train/extr_reward_mean": 0.05675623354132045, "train/extr_reward_min": -0.6724105289537613, "train/extr_reward_std": 0.23007742305324502, "train/image_loss_mean": 3.109505058967904, "train/image_loss_std": 8.30243032272548, "train/model_loss_mean": 6.2995627742924105, "train/model_loss_std": 12.466054145603964, "train/model_opt_grad_norm": 27.019924973788328, "train/model_opt_grad_steps": 320444.4794520548, "train/model_opt_loss": 17227.70283069349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.683015032990338, "train/policy_entropy_max": 2.683015032990338, "train/policy_entropy_mean": 0.4153948773259986, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5995844324974164, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4150909675310736, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0345338942253426, "train/policy_randomness_mag": 0.9469865683006914, "train/policy_randomness_max": 0.9469865683006914, "train/policy_randomness_mean": 0.1466161636252926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21162699326260448, "train/post_ent_mag": 54.91680056428256, "train/post_ent_max": 54.91680056428256, "train/post_ent_mean": 40.70373273875615, "train/post_ent_min": 19.515911807752634, "train/post_ent_std": 5.6200474255705535, "train/prior_ent_mag": 76.62532733237907, "train/prior_ent_max": 76.62532733237907, "train/prior_ent_mean": 45.92825228547397, "train/prior_ent_min": 28.187632155744996, "train/prior_ent_std": 7.487400270488164, "train/rep_loss_mean": 5.223582548637912, "train/rep_loss_std": 8.764881016456918, "train/reward_avg": 0.03877889535912912, "train/reward_loss_mean": 0.05588398817671488, "train/reward_loss_std": 0.21466989243683748, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0245903158841068, "train/reward_neg_acc": 0.9937886628386092, "train/reward_neg_loss": 0.024878891886607427, "train/reward_pos_acc": 0.9879504172769311, "train/reward_pos_loss": 0.7332650912951116, "train/reward_pred": 0.03834642921510625, "train/reward_rate": 0.04379815924657534, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.608732134103775, "replay/size": 643156.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.49340767695986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3459550923314589e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17052841186523, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.531394481658936, "timer/env.step_frac": 0.06173622233902967, "timer/env.step_avg": 0.012780272056316508, "timer/env.step_min": 0.003187894821166992, "timer/env.step_max": 1.6767773628234863, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2846825122833252, "timer/replay.add_frac": 0.0009484026089753593, "timer/replay.add_avg": 0.0001963327670919484, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.0008709430694580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02217388153076172, "timer/logger.write_frac": 7.387094811765413e-05, "timer/logger.write_avg": 0.02217388153076172, "timer/logger.write_min": 0.02217388153076172, "timer/logger.write_max": 0.02217388153076172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.810410976409912, "timer/agent.policy_frac": 0.03601423175554697, "timer/agent.policy_avg": 0.007455455845799939, "timer/agent.policy_min": 0.0061228275299072266, "timer/agent.policy_max": 0.01609969139099121, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06013822555541992, "timer/dataset_frac": 0.00020034686907338222, "timer/dataset_avg": 8.294927662816541e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.7984154224396, "timer/agent.train_frac": 0.8988171385441546, "timer/agent.train_avg": 0.3721357454102615, "timer/agent.train_min": 0.36594653129577637, "timer/agent.train_max": 0.3858797550201416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22092294692993164, "timer/agent.report_frac": 0.0007359914649142449, "timer/agent.report_avg": 0.22092294692993164, "timer/agent.report_min": 0.22092294692993164, "timer/agent.report_max": 0.22092294692993164, "fps": 4.830523805335869}
+{"step": 643272, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 643500, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.043859649122807015}
+{"step": 643768, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.05223880597014925}
+{"step": 644145, "episode/length": 376.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.03183023872679045}
+{"step": 644184, "episode/length": 38.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.23076923076923078}
+{"step": 644405, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
+{"step": 644644, "episode/length": 238.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.05439330543933055}
+{"step": 644663, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.509009467230903, "train/action_min": 0.0, "train/action_std": 3.3830012712213726, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043854209697908826, "train/actor_opt_grad_steps": 321425.0, "train/actor_opt_loss": -13.273532341751787, "train/adv_mag": 0.45257287555270725, "train/adv_max": 0.3848409259484874, "train/adv_mean": 0.0019199240870067216, "train/adv_min": -0.3981461367673344, "train/adv_std": 0.04952119057998061, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 3.322989837196822e-05, "train/cont_loss_std": 0.001052053894591312, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0029167956201834816, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.0642147241828819e-05, "train/cont_pred": 0.994427224000295, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 5.297804216543834, "train/dyn_loss_std": 8.86226342784034, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0189540750450559, "train/extr_critic_critic_opt_grad_steps": 321425.0, "train/extr_critic_critic_opt_loss": 16282.911960177951, "train/extr_critic_mag": 11.093601187070211, "train/extr_critic_max": 11.093601187070211, "train/extr_critic_mean": 2.9697852532068887, "train/extr_critic_min": -0.5263021836678187, "train/extr_critic_std": 2.755921777751711, "train/extr_return_normed_mag": 1.4417377611001332, "train/extr_return_normed_max": 1.4417377611001332, "train/extr_return_normed_mean": 0.38062971002525753, "train/extr_return_normed_min": -0.07546763135016793, "train/extr_return_normed_std": 0.3356860259340869, "train/extr_return_rate": 0.7421287645896276, "train/extr_return_raw_mag": 11.813839713732401, "train/extr_return_raw_max": 11.813839713732401, "train/extr_return_raw_mean": 2.985752605729633, "train/extr_return_raw_min": -0.8091817928685082, "train/extr_return_raw_std": 2.7929564151499005, "train/extr_reward_mag": 1.0639325545893774, "train/extr_reward_max": 1.0639325545893774, "train/extr_reward_mean": 0.057064395760082536, "train/extr_reward_min": -0.6416829642322328, "train/extr_reward_std": 0.23094980397986042, "train/image_loss_mean": 2.997767569290267, "train/image_loss_std": 8.098385605547163, "train/model_loss_mean": 6.232240716616313, "train/model_loss_std": 12.32483622762892, "train/model_opt_grad_norm": 27.463427901268005, "train/model_opt_grad_steps": 321168.8611111111, "train/model_opt_loss": 15580.601820203992, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6981623470783234, "train/policy_entropy_max": 2.6981623470783234, "train/policy_entropy_mean": 0.4157999677376615, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6034295236070951, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41449649901025826, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 1.0339055069618754, "train/policy_randomness_mag": 0.9523329022857878, "train/policy_randomness_max": 0.9523329022857878, "train/policy_randomness_mean": 0.14675914175394508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21298413972059885, "train/post_ent_mag": 55.09390931659274, "train/post_ent_max": 55.09390931659274, "train/post_ent_mean": 40.73381996154785, "train/post_ent_min": 19.59664331542121, "train/post_ent_std": 5.681681838300493, "train/prior_ent_mag": 76.58566538492839, "train/prior_ent_max": 76.58566538492839, "train/prior_ent_mean": 46.04251050949097, "train/prior_ent_min": 28.352354976865982, "train/prior_ent_std": 7.570055385430654, "train/rep_loss_mean": 5.297804216543834, "train/rep_loss_std": 8.86226342784034, "train/reward_avg": 0.038848198743330106, "train/reward_loss_mean": 0.05575744445539183, "train/reward_loss_std": 0.22295648956464398, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0284761190414429, "train/reward_neg_acc": 0.9943563648396068, "train/reward_neg_loss": 0.024302268866449594, "train/reward_pos_acc": 0.9851219405730566, "train/reward_pos_loss": 0.7446990170412593, "train/reward_pred": 0.038427282564548984, "train/reward_rate": 0.04372829861111111, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.142857142857142, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5758864837033408, "replay/size": 644600.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4407235248597373e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3450465043826117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37319827079773, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.286994218826294, "timer/env.step_frac": 0.06753929556836429, "timer/env.step_avg": 0.014049164971486353, "timer/env.step_min": 0.0028848648071289062, "timer/env.step_max": 1.7742786407470703, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25180530548095703, "timer/replay.add_frac": 0.0008383081677412013, "timer/replay.add_avg": 0.00017438040545772647, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008749961853027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022631168365478516, "timer/logger.write_frac": 7.534350100395997e-05, "timer/logger.write_avg": 0.022631168365478516, "timer/logger.write_min": 0.022631168365478516, "timer/logger.write_max": 0.022631168365478516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.560953617095947, "timer/agent.policy_frac": 0.03515944058222815, "timer/agent.policy_avg": 0.00731367979023265, "timer/agent.policy_min": 0.005938529968261719, "timer/agent.policy_max": 0.015128374099731445, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05750703811645508, "timer/dataset_frac": 0.00019145196191775512, "timer/dataset_avg": 7.96496372804087e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5312957763672, "timer/agent.train_frac": 0.8939921981130824, "timer/agent.train_avg": 0.3719270024603424, "timer/agent.train_min": 0.3658716678619385, "timer/agent.train_max": 0.38460278511047363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2227921485900879, "timer/agent.report_frac": 0.0007417178026290894, "timer/agent.report_avg": 0.2227921485900879, "timer/agent.report_min": 0.2227921485900879, "timer/agent.report_max": 0.2227921485900879, "fps": 4.807249550863675}
+{"step": 644822, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07303370786516854}
+{"step": 644991, "episode/length": 168.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0650887573964497}
+{"step": 645229, "episode/length": 237.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.04201680672268908}
+{"step": 645390, "episode/length": 160.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.049689440993788817}
+{"step": 645663, "episode/length": 272.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.047619047619047616}
+{"step": 645832, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 646093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549815003301056, "train/action_min": 0.0, "train/action_std": 3.4583197815317503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04215989230384289, "train/actor_opt_grad_steps": 322140.0, "train/actor_opt_loss": -12.389944710362126, "train/adv_mag": 0.39889515285760585, "train/adv_max": 0.37328941175635433, "train/adv_mean": 0.002394065601524936, "train/adv_min": -0.35382606340965755, "train/adv_std": 0.047821180711329826, "train/cont_avg": 0.9949246258802817, "train/cont_loss_mean": 3.540119479599609e-05, "train/cont_loss_std": 0.001072456891222373, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0020397842413939554, "train/cont_pos_acc": 0.999986148216355, "train/cont_pos_loss": 1.9992372251619958e-05, "train/cont_pred": 0.994919478053778, "train/cont_rate": 0.9949246258802817, "train/dyn_loss_mean": 5.2572428474963555, "train/dyn_loss_std": 8.855868534303047, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0365971419173228, "train/extr_critic_critic_opt_grad_steps": 322140.0, "train/extr_critic_critic_opt_loss": 16235.59405259683, "train/extr_critic_mag": 11.074390545697279, "train/extr_critic_max": 11.074390545697279, "train/extr_critic_mean": 2.7876380111130192, "train/extr_critic_min": -0.483473925523355, "train/extr_critic_std": 2.6758983706084774, "train/extr_return_normed_mag": 1.4346511347193114, "train/extr_return_normed_max": 1.4346511347193114, "train/extr_return_normed_mean": 0.35795367645545745, "train/extr_return_normed_min": -0.07865282085160134, "train/extr_return_normed_std": 0.32590889217148367, "train/extr_return_rate": 0.7229047841589216, "train/extr_return_raw_mag": 11.76351609028561, "train/extr_return_raw_max": 11.76351609028561, "train/extr_return_raw_mean": 2.8075538873672485, "train/extr_return_raw_min": -0.8241502911272184, "train/extr_return_raw_std": 2.7109127027887694, "train/extr_reward_mag": 1.0494910361061633, "train/extr_reward_max": 1.0494910361061633, "train/extr_reward_mean": 0.054935007133114507, "train/extr_reward_min": -0.6375600922275597, "train/extr_reward_std": 0.22642537007029628, "train/image_loss_mean": 3.176204155868208, "train/image_loss_std": 8.50849829257374, "train/model_loss_mean": 6.3840563532332295, "train/model_loss_std": 12.67425418907488, "train/model_opt_grad_norm": 25.042567400865153, "train/model_opt_grad_steps": 321883.0, "train/model_opt_loss": 15960.140886333627, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6979126325795346, "train/policy_entropy_max": 2.6979126325795346, "train/policy_entropy_mean": 0.4562082481636128, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6519968648191908, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4572911927817573, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0715040421821702, "train/policy_randomness_mag": 0.9522447653219733, "train/policy_randomness_max": 0.9522447653219733, "train/policy_randomness_mean": 0.16102148959754217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23012628070485425, "train/post_ent_mag": 54.79839738657777, "train/post_ent_max": 54.79839738657777, "train/post_ent_mean": 40.825617508149485, "train/post_ent_min": 19.415009726940745, "train/post_ent_std": 5.687551041723976, "train/prior_ent_mag": 76.70930663632674, "train/prior_ent_max": 76.70930663632674, "train/prior_ent_mean": 46.01900514414613, "train/prior_ent_min": 28.560422010824713, "train/prior_ent_std": 7.506792249813886, "train/rep_loss_mean": 5.2572428474963555, "train/rep_loss_std": 8.855868534303047, "train/reward_avg": 0.03729093276803762, "train/reward_loss_mean": 0.05347108400203812, "train/reward_loss_std": 0.2080521136522293, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0142951750419509, "train/reward_neg_acc": 0.9943271908961552, "train/reward_neg_loss": 0.023781345973552113, "train/reward_pos_acc": 0.9879557582694041, "train/reward_pos_loss": 0.7315984460669505, "train/reward_pred": 0.03692416350921275, "train/reward_rate": 0.042047205105633804, "stats/sum_log_reward": 10.266666889190674, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3617972781260808, "replay/size": 646030.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.431893728829764e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3645503904436018e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0215382575989, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.471863746643066, "timer/env.step_frac": 0.06823464697079813, "timer/env.step_avg": 0.01431598863401613, "timer/env.step_min": 0.0029845237731933594, "timer/env.step_max": 2.3482210636138916, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26674342155456543, "timer/replay.add_frac": 0.0008890809076698326, "timer/replay.add_avg": 0.00018653386122696882, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0009653568267822266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021439313888549805, "timer/logger.write_frac": 7.145924926943739e-05, "timer/logger.write_avg": 0.021439313888549805, "timer/logger.write_min": 0.021439313888549805, "timer/logger.write_max": 0.021439313888549805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030803680419921875, "timer/checkpoint.save_frac": 1.0267156351112964e-06, "timer/checkpoint.save_avg": 0.00030803680419921875, "timer/checkpoint.save_min": 0.00030803680419921875, "timer/checkpoint.save_max": 0.00030803680419921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4887444972991943, "timer/agent.save_frac": 0.004962125405879882, "timer/agent.save_avg": 1.4887444972991943, "timer/agent.save_min": 1.4887444972991943, "timer/agent.save_max": 1.4887444972991943, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.264813900980801e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.605239391326904, "timer/agent.policy_frac": 0.042014448244392474, "timer/agent.policy_avg": 0.008814852721207625, "timer/agent.policy_min": 0.0059702396392822266, "timer/agent.policy_max": 1.487398386001587, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05728435516357422, "timer/dataset_frac": 0.00019093414258275617, "timer/dataset_avg": 8.011797924975415e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.9473521709442, "timer/agent.train_frac": 0.8864275335546126, "timer/agent.train_avg": 0.3719543387006213, "timer/agent.train_min": 0.36536335945129395, "timer/agent.train_max": 0.42815542221069336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22069931030273438, "timer/agent.report_frac": 0.0007356115550385641, "timer/agent.report_avg": 0.22069931030273438, "timer/agent.report_min": 0.22069931030273438, "timer/agent.report_max": 0.22069931030273438, "fps": 4.766220844061451}
+{"step": 646174, "episode/length": 341.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04093567251461988}
+{"step": 646370, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
+{"step": 646563, "episode/length": 192.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05699481865284974}
+{"step": 646717, "episode/length": 153.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05844155844155844}
+{"step": 646907, "episode/length": 189.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.500000081956387, "episode/reward_rate": 0.06315789473684211}
+{"step": 647182, "episode/length": 274.0, "episode/score": 12.1000000461936, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.05090909090909091}
+{"step": 647429, "episode/length": 246.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.024291497975708502}
+{"step": 647539, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.584103100920377, "train/action_min": 0.0, "train/action_std": 3.465607042181982, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04101381609088754, "train/actor_opt_grad_steps": 322860.0, "train/actor_opt_loss": -12.35995354799375, "train/adv_mag": 0.4166217197294105, "train/adv_max": 0.37323563964399575, "train/adv_mean": 0.00231249223839793, "train/adv_min": -0.34898940994314953, "train/adv_std": 0.046234018794477805, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 0.0001364913906617674, "train/cont_loss_std": 0.004037021022264402, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0022182988862159336, "train/cont_pos_acc": 0.9999730407375179, "train/cont_pos_loss": 0.000122614543328026, "train/cont_pred": 0.9950213211856477, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.1925735734913445, "train/dyn_loss_std": 8.76958757557281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1121645365675834, "train/extr_critic_critic_opt_grad_steps": 322860.0, "train/extr_critic_critic_opt_loss": 16263.375040132705, "train/extr_critic_mag": 11.068998676456816, "train/extr_critic_max": 11.068998676456816, "train/extr_critic_mean": 2.7266555306029647, "train/extr_critic_min": -0.5362272883114749, "train/extr_critic_std": 2.687655757551324, "train/extr_return_normed_mag": 1.4238935284418603, "train/extr_return_normed_max": 1.4238935284418603, "train/extr_return_normed_mean": 0.3477420649708134, "train/extr_return_normed_min": -0.08331405779678527, "train/extr_return_normed_std": 0.32363101248055287, "train/extr_return_rate": 0.7249527736885907, "train/extr_return_raw_mag": 11.799623136651027, "train/extr_return_raw_max": 11.799623136651027, "train/extr_return_raw_mean": 2.7460953699399346, "train/extr_return_raw_min": -0.8813122257794419, "train/extr_return_raw_std": 2.7230551112188053, "train/extr_reward_mag": 1.0594073354381404, "train/extr_reward_max": 1.0594073354381404, "train/extr_reward_mean": 0.053946849596622874, "train/extr_reward_min": -0.6543225866474517, "train/extr_reward_std": 0.22441923965329993, "train/image_loss_mean": 3.2445682009605514, "train/image_loss_std": 8.372928449552353, "train/model_loss_mean": 6.412301174581867, "train/model_loss_std": 12.478185562238302, "train/model_opt_grad_norm": 25.97271940152939, "train/model_opt_grad_steps": 322602.27397260274, "train/model_opt_loss": 16030.752943065068, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.694828663786797, "train/policy_entropy_max": 2.694828663786797, "train/policy_entropy_mean": 0.4695855856758274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.658042358209009, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4698236596910921, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.078735931278908, "train/policy_randomness_mag": 0.9511562585830688, "train/policy_randomness_max": 0.9511562585830688, "train/policy_randomness_mean": 0.1657431031743141, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23226007125149034, "train/post_ent_mag": 55.09345997849556, "train/post_ent_max": 55.09345997849556, "train/post_ent_mean": 40.879778300246144, "train/post_ent_min": 19.139384335034514, "train/post_ent_std": 5.706174732887582, "train/prior_ent_mag": 76.66283918406866, "train/prior_ent_max": 76.66283918406866, "train/prior_ent_mean": 46.0760519471887, "train/prior_ent_min": 28.432703540749745, "train/prior_ent_std": 7.48015003334986, "train/rep_loss_mean": 5.1925735734913445, "train/rep_loss_std": 8.76958757557281, "train/reward_avg": 0.03625187280345453, "train/reward_loss_mean": 0.05205233349171404, "train/reward_loss_std": 0.20492775881127134, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0223091383502907, "train/reward_neg_acc": 0.9940981399523069, "train/reward_neg_loss": 0.0231379354500199, "train/reward_pos_acc": 0.9874910320321174, "train/reward_pos_loss": 0.7296246094246434, "train/reward_pred": 0.03593855006747866, "train/reward_rate": 0.0409086044520548, "stats/sum_log_reward": 10.100000040871757, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5714285714285714, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 0.5714285714285714, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5080802972827639, "replay/size": 647476.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4264014469637417e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3461952222663173e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1184620857239, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.618285417556763, "timer/env.step_frac": 0.06536847243990317, "timer/env.step_avg": 0.013567278988628466, "timer/env.step_min": 0.0028460025787353516, "timer/env.step_max": 1.6586670875549316, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.259401798248291, "timer/replay.add_frac": 0.000864331359175755, "timer/replay.add_avg": 0.00017939266822150139, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0009212493896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02138972282409668, "timer/logger.write_frac": 7.127093306904611e-05, "timer/logger.write_avg": 0.02138972282409668, "timer/logger.write_min": 0.02138972282409668, "timer/logger.write_max": 0.02138972282409668, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.608018159866333, "timer/agent.policy_frac": 0.03534610328916162, "timer/agent.policy_avg": 0.007336112143752651, "timer/agent.policy_min": 0.00610041618347168, "timer/agent.policy_max": 0.01616501808166504, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05784869194030762, "timer/dataset_frac": 0.00019275286011489722, "timer/dataset_avg": 8.001202204745175e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8947825431824, "timer/agent.train_frac": 0.8959621499938815, "timer/agent.train_avg": 0.37191532855211945, "timer/agent.train_min": 0.3659038543701172, "timer/agent.train_max": 0.3827195167541504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206575870513916, "timer/agent.report_frac": 0.0007352349652796914, "timer/agent.report_avg": 0.2206575870513916, "timer/agent.report_min": 0.2206575870513916, "timer/agent.report_max": 0.2206575870513916, "fps": 4.818020672964704}
+{"step": 647728, "episode/length": 298.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.04013377926421405}
+{"step": 647927, "episode/length": 198.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05527638190954774}
+{"step": 647984, "episode/length": 56.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.017543859649122806}
+{"step": 648133, "episode/length": 148.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.040268456375838924}
+{"step": 648309, "episode/length": 175.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05113636363636364}
+{"step": 648707, "episode/length": 397.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.032663316582914576}
+{"step": 648991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580570644802517, "train/action_min": 0.0, "train/action_std": 3.4388884670204587, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04129395649457971, "train/actor_opt_grad_steps": 323585.0, "train/actor_opt_loss": -14.642078073488342, "train/adv_mag": 0.42085212510493064, "train/adv_max": 0.377585309661097, "train/adv_mean": 0.0011308452308311542, "train/adv_min": -0.3608558451135953, "train/adv_std": 0.04723363643926051, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 5.038240116858914e-06, "train/cont_loss_std": 9.743418684296203e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015483233593806113, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 3.92968920771687e-06, "train/cont_pred": 0.9946261586414443, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.380920900238885, "train/dyn_loss_std": 8.856108731693691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9911376809080442, "train/extr_critic_critic_opt_grad_steps": 323585.0, "train/extr_critic_critic_opt_loss": 16117.731228298611, "train/extr_critic_mag": 10.939803189701504, "train/extr_critic_max": 10.939803189701504, "train/extr_critic_mean": 2.7633516126208835, "train/extr_critic_min": -0.48662445114718544, "train/extr_critic_std": 2.6757330927583904, "train/extr_return_normed_mag": 1.433776040871938, "train/extr_return_normed_max": 1.433776040871938, "train/extr_return_normed_mean": 0.35664912727144027, "train/extr_return_normed_min": -0.08049841952096257, "train/extr_return_normed_std": 0.32720547459191746, "train/extr_return_rate": 0.7272533666756418, "train/extr_return_raw_mag": 11.657769163449606, "train/extr_return_raw_max": 11.657769163449606, "train/extr_return_raw_mean": 2.772670621673266, "train/extr_return_raw_min": -0.8336025476455688, "train/extr_return_raw_std": 2.7001220881938934, "train/extr_reward_mag": 1.0501546065012615, "train/extr_reward_max": 1.0501546065012615, "train/extr_reward_mean": 0.054243149132364325, "train/extr_reward_min": -0.6410912109745873, "train/extr_reward_std": 0.22489917112721336, "train/image_loss_mean": 3.0887358801232443, "train/image_loss_std": 8.116875880294376, "train/model_loss_mean": 6.3713815742068824, "train/model_loss_std": 12.310741464296976, "train/model_opt_grad_norm": 28.963389966222977, "train/model_opt_grad_steps": 323326.4583333333, "train/model_opt_loss": 14632.033569335938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.705939074357351, "train/policy_entropy_max": 2.705939074357351, "train/policy_entropy_mean": 0.4536639830718438, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6466878913342953, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4553669107457002, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0725711360573769, "train/policy_randomness_mag": 0.9550777417090204, "train/policy_randomness_max": 0.9550777417090204, "train/policy_randomness_mean": 0.16012347686207956, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22825244472672543, "train/post_ent_mag": 54.71538729137845, "train/post_ent_max": 54.71538729137845, "train/post_ent_mean": 40.673149320814346, "train/post_ent_min": 19.14780655172136, "train/post_ent_std": 5.6574577821625605, "train/prior_ent_mag": 76.69985919528537, "train/prior_ent_max": 76.69985919528537, "train/prior_ent_mean": 46.05614619784885, "train/prior_ent_min": 28.12138342857361, "train/prior_ent_std": 7.5217123826344805, "train/rep_loss_mean": 5.380920900238885, "train/rep_loss_std": 8.856108731693691, "train/reward_avg": 0.03788926830101344, "train/reward_loss_mean": 0.054088168415344424, "train/reward_loss_std": 0.20696793475912678, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0165125959449344, "train/reward_neg_acc": 0.9946002711852392, "train/reward_neg_loss": 0.024090947311682005, "train/reward_pos_acc": 0.9870086229509778, "train/reward_pos_loss": 0.7271455046203401, "train/reward_pred": 0.037591569461963244, "train/reward_rate": 0.04273817274305555, "stats/sum_log_reward": 7.766666745146115, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 18.5, "stats/max_log_achievement_collect_wood": 7.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5045952027042707, "replay/size": 648928.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4459037885849797e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3406940071379187e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2484288215637, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.62144112586975, "timer/env.step_frac": 0.062020111808599634, "timer/env.step_avg": 0.012824683970984676, "timer/env.step_min": 0.0029921531677246094, "timer/env.step_max": 1.6967146396636963, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24828076362609863, "timer/replay.add_frac": 0.0008269177780565531, "timer/replay.add_avg": 0.00017099226145048116, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008594989776611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02643442153930664, "timer/logger.write_frac": 8.804183136963723e-05, "timer/logger.write_avg": 0.02643442153930664, "timer/logger.write_min": 0.02643442153930664, "timer/logger.write_max": 0.02643442153930664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.670017004013062, "timer/agent.policy_frac": 0.03553729505227221, "timer/agent.policy_avg": 0.007348496559237645, "timer/agent.policy_min": 0.005980014801025391, "timer/agent.policy_max": 0.014461278915405273, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05726814270019531, "timer/dataset_frac": 0.00019073586138307325, "timer/dataset_avg": 7.888173925646737e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00012922286987304688, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.97058033943176, "timer/agent.train_frac": 0.8991573457987154, "timer/agent.train_avg": 0.3718603034978399, "timer/agent.train_min": 0.3619983196258545, "timer/agent.train_max": 0.3853294849395752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052216529846191, "timer/agent.report_frac": 0.000734465676186826, "timer/agent.report_avg": 0.22052216529846191, "timer/agent.report_min": 0.22052216529846191, "timer/agent.report_max": 0.22052216529846191, "fps": 4.835891965019721}
+{"step": 649031, "episode/length": 323.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.040123456790123455}
+{"step": 649209, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
+{"step": 649422, "episode/length": 212.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.056338028169014086}
+{"step": 649610, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
+{"step": 649848, "episode/length": 237.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.50000000745058, "episode/reward_rate": 0.0546218487394958}
+{"step": 650065, "episode/length": 216.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.055299539170506916}
+{"step": 650423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551156785753038, "train/action_min": 0.0, "train/action_std": 3.39105024933815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04199852297703425, "train/actor_opt_grad_steps": 324305.0, "train/actor_opt_loss": -12.534260611981153, "train/adv_mag": 0.4320309033824338, "train/adv_max": 0.391055178311136, "train/adv_mean": 0.0023581499068667552, "train/adv_min": -0.3640295130511125, "train/adv_std": 0.0485207068009509, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 2.110778914291937e-05, "train/cont_loss_std": 0.000617197986788535, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0019315864515841873, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.866858626493328e-06, "train/cont_pred": 0.9944664496514533, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 5.397948145866394, "train/dyn_loss_std": 8.807114508416918, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0240735560655594, "train/extr_critic_critic_opt_grad_steps": 324305.0, "train/extr_critic_critic_opt_loss": 16335.164605034723, "train/extr_critic_mag": 10.882330391142103, "train/extr_critic_max": 10.882330391142103, "train/extr_critic_mean": 2.7509283555878534, "train/extr_critic_min": -0.4753361576133304, "train/extr_critic_std": 2.6493016382058463, "train/extr_return_normed_mag": 1.4439296192593045, "train/extr_return_normed_max": 1.4439296192593045, "train/extr_return_normed_mean": 0.36207466800179744, "train/extr_return_normed_min": -0.07956696513833271, "train/extr_return_normed_std": 0.3306199432247215, "train/extr_return_rate": 0.7303295392129157, "train/extr_return_raw_mag": 11.546981281704372, "train/extr_return_raw_max": 11.546981281704372, "train/extr_return_raw_mean": 2.770071271393034, "train/extr_return_raw_min": -0.8128141239285469, "train/extr_return_raw_std": 2.6822230319182077, "train/extr_reward_mag": 1.0524737338225048, "train/extr_reward_max": 1.0524737338225048, "train/extr_reward_mean": 0.0564971475655006, "train/extr_reward_min": -0.6200807127687666, "train/extr_reward_std": 0.2292982041835785, "train/image_loss_mean": 3.187495779660013, "train/image_loss_std": 8.24371486902237, "train/model_loss_mean": 6.480559137132433, "train/model_loss_std": 12.407784435484144, "train/model_opt_grad_norm": 25.62785605589549, "train/model_opt_grad_steps": 324045.0, "train/model_opt_loss": 8100.698947482639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6892016563150616, "train/policy_entropy_max": 2.6892016563150616, "train/policy_entropy_mean": 0.4231223286026054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6147300944560103, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4223439436819818, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0430477460225422, "train/policy_randomness_mag": 0.9491701689031389, "train/policy_randomness_max": 0.9491701689031389, "train/policy_randomness_mean": 0.1493436134316855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2169727459549904, "train/post_ent_mag": 54.87536965476142, "train/post_ent_max": 54.87536965476142, "train/post_ent_mean": 40.75348006354438, "train/post_ent_min": 19.367753360006546, "train/post_ent_std": 5.682589557435778, "train/prior_ent_mag": 76.72920693291559, "train/prior_ent_max": 76.72920693291559, "train/prior_ent_mean": 46.133054150475395, "train/prior_ent_min": 28.21904993057251, "train/prior_ent_std": 7.570688691404131, "train/rep_loss_mean": 5.397948145866394, "train/rep_loss_std": 8.807114508416918, "train/reward_avg": 0.03898518868825502, "train/reward_loss_mean": 0.05427344733228286, "train/reward_loss_std": 0.21329420328968102, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.014090034696791, "train/reward_neg_acc": 0.9945501486460367, "train/reward_neg_loss": 0.023436292837787833, "train/reward_pos_acc": 0.9883230825265249, "train/reward_pos_loss": 0.7285448064406713, "train/reward_pred": 0.03873878725183507, "train/reward_rate": 0.043782552083333336, "stats/sum_log_reward": 9.933333476384481, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.41364698608716327, "replay/size": 650360.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4285990219542434e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3590649852539574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05663418769836, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.82066059112549, "timer/env.step_frac": 0.06605639846885308, "timer/env.step_avg": 0.013841243429556905, "timer/env.step_min": 0.0030553340911865234, "timer/env.step_max": 1.8636276721954346, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25450754165649414, "timer/replay.add_frac": 0.0008481983487733475, "timer/replay.add_avg": 0.00017772873020704898, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.001379251480102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022620677947998047, "timer/logger.write_frac": 7.538802802756175e-05, "timer/logger.write_avg": 0.022620677947998047, "timer/logger.write_min": 0.022620677947998047, "timer/logger.write_max": 0.022620677947998047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000186920166015625, "timer/checkpoint.save_frac": 6.22949619233209e-07, "timer/checkpoint.save_avg": 0.000186920166015625, "timer/checkpoint.save_min": 0.000186920166015625, "timer/checkpoint.save_max": 0.000186920166015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.220529317855835, "timer/agent.save_frac": 0.004067663163522461, "timer/agent.save_avg": 1.220529317855835, "timer/agent.save_min": 1.220529317855835, "timer/agent.save_max": 1.220529317855835, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.455247861518643e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.34470248222351, "timer/agent.policy_frac": 0.04114124160474775, "timer/agent.policy_avg": 0.008620602292055524, "timer/agent.policy_min": 0.0061151981353759766, "timer/agent.policy_max": 1.2168922424316406, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05717802047729492, "timer/dataset_frac": 0.00019055742804049319, "timer/dataset_avg": 7.985757049901525e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9029018878937, "timer/agent.train_frac": 0.8895084176706934, "timer/agent.train_avg": 0.3727694160445442, "timer/agent.train_min": 0.3661210536956787, "timer/agent.train_max": 0.875870943069458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21766996383666992, "timer/agent.report_frac": 0.0007254295990686478, "timer/agent.report_avg": 0.21766996383666992, "timer/agent.report_min": 0.21766996383666992, "timer/agent.report_max": 0.21766996383666992, "fps": 4.772375248502474}
+{"step": 650451, "episode/length": 385.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.03626943005181347}
+{"step": 650652, "episode/length": 200.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06467661691542288}
+{"step": 650822, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07647058823529412}
+{"step": 650975, "episode/length": 152.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08496732026143791}
+{"step": 651161, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
+{"step": 651217, "episode/length": 55.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.08928571428571429}
+{"step": 651425, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 651658, "episode/length": 232.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.055793991416309016}
+{"step": 651861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566920810275608, "train/action_min": 0.0, "train/action_std": 3.421540038453208, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042554608597937554, "train/actor_opt_grad_steps": 325025.0, "train/actor_opt_loss": -13.960632293588585, "train/adv_mag": 0.4189346018764708, "train/adv_max": 0.37951784953475, "train/adv_mean": 0.0018701484118032062, "train/adv_min": -0.3561813812702894, "train/adv_std": 0.048628610817508564, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 1.0550645028059887e-05, "train/cont_loss_std": 0.0002586274561432826, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014830897695697034, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 9.86396984240893e-06, "train/cont_pred": 0.9948648744159274, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.319078213638729, "train/dyn_loss_std": 8.764887697166866, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.022368400461144, "train/extr_critic_critic_opt_grad_steps": 325025.0, "train/extr_critic_critic_opt_loss": 16146.333808051215, "train/extr_critic_mag": 10.6806687646442, "train/extr_critic_max": 10.6806687646442, "train/extr_critic_mean": 2.727906294994884, "train/extr_critic_min": -0.4972626765569051, "train/extr_critic_std": 2.599712563885583, "train/extr_return_normed_mag": 1.4453300999270544, "train/extr_return_normed_max": 1.4453300999270544, "train/extr_return_normed_mean": 0.3628523504982392, "train/extr_return_normed_min": -0.07634242272211446, "train/extr_return_normed_std": 0.3281698359383477, "train/extr_return_rate": 0.7234474826190207, "train/extr_return_raw_mag": 11.423610779974195, "train/extr_return_raw_max": 11.423610779974195, "train/extr_return_raw_mean": 2.742943081590864, "train/extr_return_raw_min": -0.7790807605617576, "train/extr_return_raw_std": 2.631565590699514, "train/extr_reward_mag": 1.0629491077529059, "train/extr_reward_max": 1.0629491077529059, "train/extr_reward_mean": 0.05553851033457451, "train/extr_reward_min": -0.6466254161463844, "train/extr_reward_std": 0.22726769145164225, "train/image_loss_mean": 3.209327765636974, "train/image_loss_std": 8.369989540841845, "train/model_loss_mean": 6.456332445144653, "train/model_loss_std": 12.500627676645914, "train/model_opt_grad_norm": 25.60077608956231, "train/model_opt_grad_steps": 324764.7083333333, "train/model_opt_loss": 12304.193596733941, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1927.0833333333333, "train/policy_entropy_mag": 2.6898378597365484, "train/policy_entropy_max": 2.6898378597365484, "train/policy_entropy_mean": 0.44676393187708324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6353848021891382, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44659110427730614, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0615957313113742, "train/policy_randomness_mag": 0.949394726090961, "train/policy_randomness_max": 0.949394726090961, "train/policy_randomness_mean": 0.1576880624310838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2242629529080457, "train/post_ent_mag": 54.848702324761284, "train/post_ent_max": 54.848702324761284, "train/post_ent_mean": 40.572954972585045, "train/post_ent_min": 19.301833828290302, "train/post_ent_std": 5.623487121529049, "train/prior_ent_mag": 76.69434197743733, "train/prior_ent_max": 76.69434197743733, "train/prior_ent_mean": 45.94744194878472, "train/prior_ent_min": 28.22106173303392, "train/prior_ent_std": 7.54335535897149, "train/rep_loss_mean": 5.319078213638729, "train/rep_loss_std": 8.764887697166866, "train/reward_avg": 0.039916991954669356, "train/reward_loss_mean": 0.05554714372071127, "train/reward_loss_std": 0.21408141694135135, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0166990988784366, "train/reward_neg_acc": 0.9942699215478368, "train/reward_neg_loss": 0.023783352251888976, "train/reward_pos_acc": 0.9878543226255311, "train/reward_pos_loss": 0.7349645305011008, "train/reward_pred": 0.03950431849807501, "train/reward_rate": 0.044623480902777776, "stats/sum_log_reward": 10.600000351667404, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3174546640366316, "replay/size": 651798.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.438499938795066e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689172450292425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17562460899353, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.22104024887085, "timer/env.step_frac": 0.07069541464771903, "timer/env.step_avg": 0.014757329797545793, "timer/env.step_min": 0.0031120777130126953, "timer/env.step_max": 1.6935694217681885, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2628345489501953, "timer/replay.add_frac": 0.0008756025719695315, "timer/replay.add_avg": 0.0001827778504521525, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008940696716308594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01958441734313965, "timer/logger.write_frac": 6.524319677405572e-05, "timer/logger.write_avg": 0.01958441734313965, "timer/logger.write_min": 0.01958441734313965, "timer/logger.write_max": 0.01958441734313965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.645660161972046, "timer/agent.policy_frac": 0.03546477225070824, "timer/agent.policy_avg": 0.00740310164253967, "timer/agent.policy_min": 0.005982398986816406, "timer/agent.policy_max": 0.016556978225708008, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0578160285949707, "timer/dataset_frac": 0.0001926073400206343, "timer/dataset_avg": 8.041172266338067e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.30638122558594, "timer/agent.train_frac": 0.8904999583952801, "timer/agent.train_avg": 0.3717752172817607, "timer/agent.train_min": 0.3651282787322998, "timer/agent.train_max": 0.38332176208496094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113299369812012, "timer/agent.report_frac": 0.0007366787159555885, "timer/agent.report_avg": 0.22113299369812012, "timer/agent.report_min": 0.22113299369812012, "timer/agent.report_max": 0.22113299369812012, "fps": 4.790438682045047}
+{"step": 651867, "episode/length": 208.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06220095693779904}
+{"step": 652173, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.042483660130718956}
+{"step": 652409, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05508474576271186}
+{"step": 652578, "episode/length": 168.0, "episode/score": 11.100000038743019, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07692307692307693}
+{"step": 652840, "episode/length": 261.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.05343511450381679}
+{"step": 652972, "episode/length": 131.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.08333333333333333}
+{"step": 653219, "episode/length": 246.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.032388663967611336}
+{"step": 653270, "episode/length": 50.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0784313725490196}
+{"step": 653301, "stats/sum_log_reward": 9.850000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 10.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4097640346735716, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5387115478515625, "train/action_min": 0.0, "train/action_std": 3.3808455732133655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044253630460136466, "train/actor_opt_grad_steps": 325745.0, "train/actor_opt_loss": -12.377780604693625, "train/adv_mag": 0.44735370948910713, "train/adv_max": 0.388943365878529, "train/adv_mean": 0.0022706151590278344, "train/adv_min": -0.3895097488744391, "train/adv_std": 0.04962989977664418, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.317784042226416e-05, "train/cont_loss_std": 0.0010183207425475712, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.00549115657427832, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 6.392561883690935e-06, "train/cont_pred": 0.9943498745560646, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 5.229615562491947, "train/dyn_loss_std": 8.760352114836374, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0074177384376526, "train/extr_critic_critic_opt_grad_steps": 325745.0, "train/extr_critic_critic_opt_loss": 16182.554429796008, "train/extr_critic_mag": 10.740765160984463, "train/extr_critic_max": 10.740765160984463, "train/extr_critic_mean": 2.7346138159434, "train/extr_critic_min": -0.4662305778927273, "train/extr_critic_std": 2.6128996544414096, "train/extr_return_normed_mag": 1.4741392036279042, "train/extr_return_normed_max": 1.4741392036279042, "train/extr_return_normed_mean": 0.36633512419131065, "train/extr_return_normed_min": -0.08118114987802175, "train/extr_return_normed_std": 0.33308450919058585, "train/extr_return_rate": 0.7349085319373343, "train/extr_return_raw_mag": 11.545690920617846, "train/extr_return_raw_max": 11.545690920617846, "train/extr_return_raw_mean": 2.752615792883767, "train/extr_return_raw_min": -0.7994918376207352, "train/extr_return_raw_std": 2.6435803638564215, "train/extr_reward_mag": 1.0611398816108704, "train/extr_reward_max": 1.0611398816108704, "train/extr_reward_mean": 0.0547357559359322, "train/extr_reward_min": -0.6634027080403434, "train/extr_reward_std": 0.2261875050349368, "train/image_loss_mean": 3.119036293692059, "train/image_loss_std": 7.984412478076087, "train/model_loss_mean": 6.31115143166648, "train/model_loss_std": 12.116970790757073, "train/model_opt_grad_norm": 27.573908024364048, "train/model_opt_grad_steps": 325484.0, "train/model_opt_loss": 7888.939256456163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6762093471156225, "train/policy_entropy_max": 2.6762093471156225, "train/policy_entropy_mean": 0.43090978388984996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6143309999671247, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4315459562672509, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0505444688929453, "train/policy_randomness_mag": 0.9445844582385488, "train/policy_randomness_max": 0.9445844582385488, "train/policy_randomness_mean": 0.15209224540740252, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2168318855886658, "train/post_ent_mag": 55.05697017245822, "train/post_ent_max": 55.05697017245822, "train/post_ent_mean": 40.74305878745185, "train/post_ent_min": 19.454865005281235, "train/post_ent_std": 5.662915050983429, "train/prior_ent_mag": 76.64503224690755, "train/prior_ent_max": 76.64503224690755, "train/prior_ent_mean": 46.01827626758151, "train/prior_ent_min": 28.303938150405884, "train/prior_ent_std": 7.573063373565674, "train/rep_loss_mean": 5.229615562491947, "train/rep_loss_std": 8.760352114836374, "train/reward_avg": 0.03819715674035251, "train/reward_loss_mean": 0.05431270175096062, "train/reward_loss_std": 0.20775464156435597, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0238807764318254, "train/reward_neg_acc": 0.9944353178143501, "train/reward_neg_loss": 0.023915283588899508, "train/reward_pos_acc": 0.9879807208975157, "train/reward_pos_loss": 0.7270829611354404, "train/reward_pred": 0.03790906832243005, "train/reward_rate": 0.04332139756944445, "replay/size": 653238.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3375289705064563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3599586155679492e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20127511024475, "timer/env.step_count": 1440.0, "timer/env.step_total": 21.047481536865234, "timer/env.step_frac": 0.07011123296906663, "timer/env.step_avg": 0.014616306622823079, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6368980407714844, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25113868713378906, "timer/replay.add_frac": 0.0008365676895994591, "timer/replay.add_avg": 0.00017440186606513129, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0008895397186279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027619361877441406, "timer/logger.write_frac": 9.200281333681404e-05, "timer/logger.write_avg": 0.027619361877441406, "timer/logger.write_min": 0.027619361877441406, "timer/logger.write_max": 0.027619361877441406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.565621852874756, "timer/agent.policy_frac": 0.03519512649969484, "timer/agent.policy_avg": 0.007337237397829692, "timer/agent.policy_min": 0.0060422420501708984, "timer/agent.policy_max": 0.018039703369140625, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05816984176635742, "timer/dataset_frac": 0.000193769469316862, "timer/dataset_avg": 8.079144689771864e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.58721375465393, "timer/agent.train_frac": 0.8913593510100389, "timer/agent.train_avg": 0.3716489079925749, "timer/agent.train_min": 0.36582422256469727, "timer/agent.train_max": 0.3845670223236084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22245121002197266, "timer/agent.report_frac": 0.0007410068792688523, "timer/agent.report_avg": 0.22245121002197266, "timer/agent.report_min": 0.22245121002197266, "timer/agent.report_max": 0.22245121002197266, "fps": 4.796686862556697}
+{"step": 653308, "episode/length": 37.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.13157894736842105}
+{"step": 653491, "episode/length": 182.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06557377049180328}
+{"step": 653757, "episode/length": 265.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03383458646616541}
+{"step": 653944, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0481283422459893}
+{"step": 654124, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06111111111111111}
+{"step": 654279, "episode/length": 154.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.07096774193548387}
+{"step": 654339, "episode/length": 59.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.08333333333333333}
+{"step": 654723, "episode/length": 383.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.036458333333333336}
+{"step": 654724, "stats/sum_log_reward": 8.475000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.875, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.37349382787942886, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528537803972271, "train/action_min": 0.0, "train/action_std": 3.398371505065703, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044161630033607215, "train/actor_opt_grad_steps": 326460.0, "train/actor_opt_loss": -12.2972468104161, "train/adv_mag": 0.4429632152470065, "train/adv_max": 0.3988375080303407, "train/adv_mean": 0.003132980110486117, "train/adv_min": -0.38450070166252026, "train/adv_std": 0.04998744231924205, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 0.0001364186415750103, "train/cont_loss_std": 0.00430588060702044, "train/cont_neg_acc": 0.9976190481867109, "train/cont_neg_loss": 0.008528148174934, "train/cont_pos_acc": 0.9999861255497999, "train/cont_pos_loss": 8.781711060849753e-05, "train/cont_pred": 0.9947181881313593, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.226630869046064, "train/dyn_loss_std": 8.778420703511843, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0706526032635864, "train/extr_critic_critic_opt_grad_steps": 326460.0, "train/extr_critic_critic_opt_loss": 16332.25331481074, "train/extr_critic_mag": 10.983486645658251, "train/extr_critic_max": 10.983486645658251, "train/extr_critic_mean": 2.7550638175346482, "train/extr_critic_min": -0.4786222384009563, "train/extr_critic_std": 2.639295196869004, "train/extr_return_normed_mag": 1.4817566569422331, "train/extr_return_normed_max": 1.4817566569422331, "train/extr_return_normed_mean": 0.36128330524538604, "train/extr_return_normed_min": -0.08504003010900088, "train/extr_return_normed_std": 0.33054270857656504, "train/extr_return_rate": 0.7359604650819805, "train/extr_return_raw_mag": 11.85960502355871, "train/extr_return_raw_max": 11.85960502355871, "train/extr_return_raw_mean": 2.7804624648161336, "train/extr_return_raw_min": -0.837235517485041, "train/extr_return_raw_std": 2.6789482378623855, "train/extr_reward_mag": 1.0566973820538588, "train/extr_reward_max": 1.0566973820538588, "train/extr_reward_mean": 0.0557383474119952, "train/extr_reward_min": -0.6869745539947295, "train/extr_reward_std": 0.2280353460933121, "train/image_loss_mean": 3.1426148145971164, "train/image_loss_std": 8.479318115073191, "train/model_loss_mean": 6.333044555825247, "train/model_loss_std": 12.603397611161354, "train/model_opt_grad_norm": 25.17937280090762, "train/model_opt_grad_steps": 326199.0, "train/model_opt_loss": 15046.24345978213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2376.760563380282, "train/policy_entropy_mag": 2.695628156124706, "train/policy_entropy_max": 2.695628156124706, "train/policy_entropy_mean": 0.450724806584103, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6439875670721833, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44941024503237764, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0612539002593135, "train/policy_randomness_mag": 0.9514384429219743, "train/policy_randomness_max": 0.9514384429219743, "train/policy_randomness_mean": 0.15908607903500677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22729935486551742, "train/post_ent_mag": 55.21165702712368, "train/post_ent_max": 55.21165702712368, "train/post_ent_mean": 40.76069238152302, "train/post_ent_min": 19.509626187069316, "train/post_ent_std": 5.702214314904012, "train/prior_ent_mag": 76.66337445756079, "train/prior_ent_max": 76.66337445756079, "train/prior_ent_mean": 45.99193100190499, "train/prior_ent_min": 28.909440161476674, "train/prior_ent_std": 7.569526235822221, "train/rep_loss_mean": 5.226630869046064, "train/rep_loss_std": 8.778420703511843, "train/reward_avg": 0.03851782559404071, "train/reward_loss_mean": 0.054314817131405145, "train/reward_loss_std": 0.2083896537062148, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0199215395349852, "train/reward_neg_acc": 0.9938392454469708, "train/reward_neg_loss": 0.024406952980223676, "train/reward_pos_acc": 0.9924879275577169, "train/reward_pos_loss": 0.7162830300734077, "train/reward_pred": 0.038309916670263656, "train/reward_rate": 0.043133802816901406, "replay/size": 654661.0, "replay/inserts": 1423.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.454639973643793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363889501064638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.2096300125122, "timer/env.step_count": 1423.0, "timer/env.step_total": 21.648510456085205, "timer/env.step_frac": 0.07187190680187061, "timer/env.step_avg": 0.015213289146932681, "timer/env.step_min": 0.0032258033752441406, "timer/env.step_max": 1.7095832824707031, "timer/replay.add_count": 1423.0, "timer/replay.add_total": 0.2530629634857178, "timer/replay.add_frac": 0.0008401556201081804, "timer/replay.add_avg": 0.00017783764124084173, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008692741394042969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021641254425048828, "timer/logger.write_frac": 7.184781716358091e-05, "timer/logger.write_avg": 0.021641254425048828, "timer/logger.write_min": 0.021641254425048828, "timer/logger.write_max": 0.021641254425048828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021767616271972656, "timer/checkpoint.save_frac": 7.22673317950307e-07, "timer/checkpoint.save_avg": 0.00021767616271972656, "timer/checkpoint.save_min": 0.00021767616271972656, "timer/checkpoint.save_max": 0.00021767616271972656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.240452527999878, "timer/agent.save_frac": 0.004118236617960553, "timer/agent.save_avg": 1.240452527999878, "timer/agent.save_min": 1.240452527999878, "timer/agent.save_max": 1.240452527999878, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.985664367675781e-05, "timer/replay.save_frac": 2.3192035285809415e-07, "timer/replay.save_avg": 6.985664367675781e-05, "timer/replay.save_min": 6.985664367675781e-05, "timer/replay.save_max": 6.985664367675781e-05, "timer/agent.policy_count": 1423.0, "timer/agent.policy_total": 14.088301420211792, "timer/agent.policy_frac": 0.04677241368287782, "timer/agent.policy_avg": 0.009900422642453824, "timer/agent.policy_min": 0.005940914154052734, "timer/agent.policy_max": 2.460679769515991, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05578804016113281, "timer/dataset_frac": 0.000185213335173963, "timer/dataset_avg": 7.846419150651591e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4940137863159, "timer/agent.train_frac": 0.8781061009746896, "timer/agent.train_avg": 0.3720028323295583, "timer/agent.train_min": 0.36589980125427246, "timer/agent.train_max": 0.5068180561065674, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2176365852355957, "timer/agent.report_frac": 0.0007225419228015888, "timer/agent.report_avg": 0.2176365852355957, "timer/agent.report_min": 0.2176365852355957, "timer/agent.report_max": 0.2176365852355957, "fps": 4.724182580402297}
+{"step": 654869, "episode/length": 145.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07534246575342465}
+{"step": 655029, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
+{"step": 655253, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05803571428571429}
+{"step": 655478, "episode/length": 224.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.044444444444444446}
+{"step": 655533, "episode/length": 54.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.12727272727272726}
+{"step": 655730, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05583756345177665}
+{"step": 655945, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05581395348837209}
+{"step": 656133, "episode/length": 187.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.05851063829787234}
+{"step": 656161, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.525267706976996, "train/action_min": 0.0, "train/action_std": 3.4238763882054224, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043149248179462224, "train/actor_opt_grad_steps": 327175.0, "train/actor_opt_loss": -12.114155105418629, "train/adv_mag": 0.42638944793078637, "train/adv_max": 0.37713417121105725, "train/adv_mean": 0.0025848626992228674, "train/adv_min": -0.37216193394528496, "train/adv_std": 0.048464274396085076, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 6.777651483425018e-05, "train/cont_loss_std": 0.0021232642691712852, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.010567431193244067, "train/cont_pos_acc": 0.9999862867924902, "train/cont_pos_loss": 2.609062794611816e-05, "train/cont_pred": 0.9944254549013244, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 5.220788664287991, "train/dyn_loss_std": 8.832621627383762, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0710442902313337, "train/extr_critic_critic_opt_grad_steps": 327175.0, "train/extr_critic_critic_opt_loss": 16198.92884657118, "train/extr_critic_mag": 11.14958667755127, "train/extr_critic_max": 11.14958667755127, "train/extr_critic_mean": 2.822069216105673, "train/extr_critic_min": -0.4581782900624805, "train/extr_critic_std": 2.6639167070388794, "train/extr_return_normed_mag": 1.4705576913224325, "train/extr_return_normed_max": 1.4705576913224325, "train/extr_return_normed_mean": 0.3664788136051761, "train/extr_return_normed_min": -0.08133388905682498, "train/extr_return_normed_std": 0.3306219354271889, "train/extr_return_rate": 0.7466200457678901, "train/extr_return_raw_mag": 11.85628855228424, "train/extr_return_raw_max": 11.85628855228424, "train/extr_return_raw_mean": 2.843149264653524, "train/extr_return_raw_min": -0.8129152398970392, "train/extr_return_raw_std": 2.6992218130164676, "train/extr_reward_mag": 1.056519713666704, "train/extr_reward_max": 1.056519713666704, "train/extr_reward_mean": 0.05789233594098025, "train/extr_reward_min": -0.6430734131071303, "train/extr_reward_std": 0.23193115575446022, "train/image_loss_mean": 3.2354482445451946, "train/image_loss_std": 8.567636695173052, "train/model_loss_mean": 6.423388560612996, "train/model_loss_std": 12.703181054857042, "train/model_opt_grad_norm": 26.861417214075725, "train/model_opt_grad_steps": 326913.3611111111, "train/model_opt_loss": 10976.721374511719, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.69941583275795, "train/policy_entropy_max": 2.69941583275795, "train/policy_entropy_mean": 0.4420826238476568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.634221751242876, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44334485485321945, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.061899767981635, "train/policy_randomness_mag": 0.9527753310071098, "train/policy_randomness_max": 0.9527753310071098, "train/policy_randomness_mean": 0.15603576652291748, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.223852446095811, "train/post_ent_mag": 55.172045389811196, "train/post_ent_max": 55.172045389811196, "train/post_ent_mean": 40.71254014968872, "train/post_ent_min": 19.31458740764194, "train/post_ent_std": 5.654344075255924, "train/prior_ent_mag": 76.70783276028104, "train/prior_ent_max": 76.70783276028104, "train/prior_ent_mean": 45.9022224744161, "train/prior_ent_min": 28.171618700027466, "train/prior_ent_std": 7.634004109435612, "train/rep_loss_mean": 5.220788664287991, "train/rep_loss_std": 8.832621627383762, "train/reward_avg": 0.03859727630495197, "train/reward_loss_mean": 0.05539944224680463, "train/reward_loss_std": 0.2179576119201051, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0175197786755033, "train/reward_neg_acc": 0.9934744445814027, "train/reward_neg_loss": 0.02477246715635475, "train/reward_pos_acc": 0.989913603497876, "train/reward_pos_loss": 0.7297947348819839, "train/reward_pred": 0.038351318488518395, "train/reward_rate": 0.04336208767361111, "stats/sum_log_reward": 9.350000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3150973953306675, "replay/size": 656098.0, "replay/inserts": 1437.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.401737040584089e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3522337474478137e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1695501804352, "timer/env.step_count": 1437.0, "timer/env.step_total": 21.38101100921631, "timer/env.step_frac": 0.07122977995724067, "timer/env.step_avg": 0.014878922066260479, "timer/env.step_min": 0.0027561187744140625, "timer/env.step_max": 1.692979335784912, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.2775912284851074, "timer/replay.add_frac": 0.0009247814387510136, "timer/replay.add_avg": 0.00019317413255748602, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0008299350738525391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0300443172454834, "timer/logger.write_frac": 0.00010009115590646497, "timer/logger.write_avg": 0.0300443172454834, "timer/logger.write_min": 0.0300443172454834, "timer/logger.write_max": 0.0300443172454834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 10.507583856582642, "timer/agent.policy_frac": 0.03500549556164647, "timer/agent.policy_avg": 0.007312166914810467, "timer/agent.policy_min": 0.006002902984619141, "timer/agent.policy_max": 0.01717853546142578, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05716109275817871, "timer/dataset_frac": 0.0001904293514242819, "timer/dataset_avg": 7.950082442027637e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.26223397254944, "timer/agent.train_frac": 0.8903709047499828, "timer/agent.train_avg": 0.3717138163735041, "timer/agent.train_min": 0.3650047779083252, "timer/agent.train_max": 0.3834555149078369, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208399772644043, "timer/agent.report_frac": 0.0007357174541243607, "timer/agent.report_avg": 0.2208399772644043, "timer/agent.report_min": 0.2208399772644043, "timer/agent.report_max": 0.2208399772644043, "fps": 4.787192158814601}
+{"step": 656408, "episode/length": 274.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000056624413, "episode/reward_rate": 0.04727272727272727}
+{"step": 656597, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06349206349206349}
+{"step": 656728, "episode/length": 130.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0916030534351145}
+{"step": 657008, "episode/length": 279.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.03214285714285714}
+{"step": 657258, "episode/length": 249.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.052}
+{"step": 657489, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05194805194805195}
+{"step": 657615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56842041015625, "train/action_min": 0.0, "train/action_std": 3.425236956940757, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042913091058532395, "train/actor_opt_grad_steps": 327895.0, "train/actor_opt_loss": -14.715059823563529, "train/adv_mag": 0.41881976276636124, "train/adv_max": 0.386892252912124, "train/adv_mean": 0.0011268918947785601, "train/adv_min": -0.36250775017672116, "train/adv_std": 0.04753874842491415, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 2.095642533599889e-05, "train/cont_loss_std": 0.0006117582784526121, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0021203931208493287, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 6.693780732665762e-06, "train/cont_pred": 0.9946727024184333, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 5.206332213348812, "train/dyn_loss_std": 8.835421966181862, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0337936472561624, "train/extr_critic_critic_opt_grad_steps": 327895.0, "train/extr_critic_critic_opt_loss": 16092.045437282986, "train/extr_critic_mag": 10.871050755182901, "train/extr_critic_max": 10.871050755182901, "train/extr_critic_mean": 2.7890804923242993, "train/extr_critic_min": -0.4555123332473967, "train/extr_critic_std": 2.657582390639517, "train/extr_return_normed_mag": 1.4288595037327871, "train/extr_return_normed_max": 1.4288595037327871, "train/extr_return_normed_mean": 0.36049686765505207, "train/extr_return_normed_min": -0.07488849878104197, "train/extr_return_normed_std": 0.3280566835569011, "train/extr_return_rate": 0.7407416825493177, "train/extr_return_raw_mag": 11.53831058078342, "train/extr_return_raw_max": 11.53831058078342, "train/extr_return_raw_mean": 2.7983096407519445, "train/extr_return_raw_min": -0.7638736942576038, "train/extr_return_raw_std": 2.6840112888150744, "train/extr_reward_mag": 1.0599296854601965, "train/extr_reward_max": 1.0599296854601965, "train/extr_reward_mean": 0.054791664239019156, "train/extr_reward_min": -0.6420860870016946, "train/extr_reward_std": 0.22560674655768606, "train/image_loss_mean": 3.196211940712399, "train/image_loss_std": 8.097157365745968, "train/model_loss_mean": 6.373131983810001, "train/model_loss_std": 12.268309473991394, "train/model_opt_grad_norm": 24.759386976559956, "train/model_opt_grad_steps": 327633.0, "train/model_opt_loss": 9956.18809000651, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.6855735315216913, "train/policy_entropy_max": 2.6855735315216913, "train/policy_entropy_mean": 0.45257480152779156, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6460586289564768, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4534076853758759, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.068451840016577, "train/policy_randomness_mag": 0.9478896003630426, "train/policy_randomness_max": 0.9478896003630426, "train/policy_randomness_mean": 0.15973904501232836, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22803034405741426, "train/post_ent_mag": 55.06358528137207, "train/post_ent_max": 55.06358528137207, "train/post_ent_mean": 40.85742817984687, "train/post_ent_min": 19.362455050150555, "train/post_ent_std": 5.685549120108287, "train/prior_ent_mag": 76.70641326904297, "train/prior_ent_max": 76.70641326904297, "train/prior_ent_mean": 46.02368603812324, "train/prior_ent_min": 28.420496781667072, "train/prior_ent_std": 7.534775793552399, "train/rep_loss_mean": 5.206332213348812, "train/rep_loss_std": 8.835421966181862, "train/reward_avg": 0.0377671982989543, "train/reward_loss_mean": 0.05309978251655897, "train/reward_loss_std": 0.2082750621355242, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0260904994275835, "train/reward_neg_acc": 0.9946142410238584, "train/reward_neg_loss": 0.023245421445204154, "train/reward_pos_acc": 0.9881646972563531, "train/reward_pos_loss": 0.7292617327637143, "train/reward_pred": 0.03748427962677346, "train/reward_rate": 0.042412651909722224, "stats/sum_log_reward": 10.766666730244955, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4712526922424634, "replay/size": 657552.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3839368754600722e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3765639419240833e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23456478118896, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.514227867126465, "timer/env.step_frac": 0.061665877413613714, "timer/env.step_avg": 0.012733306648642686, "timer/env.step_min": 0.0029468536376953125, "timer/env.step_max": 1.7534234523773193, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2625892162322998, "timer/replay.add_frac": 0.0008746135423270631, "timer/replay.add_avg": 0.00018059781033858308, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0009407997131347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023839712142944336, "timer/logger.write_frac": 7.940362283176397e-05, "timer/logger.write_avg": 0.023839712142944336, "timer/logger.write_min": 0.023839712142944336, "timer/logger.write_max": 0.023839712142944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.72958517074585, "timer/agent.policy_frac": 0.03573734149685788, "timer/agent.policy_avg": 0.007379357063786692, "timer/agent.policy_min": 0.005947113037109375, "timer/agent.policy_max": 0.013854265213012695, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05847048759460449, "timer/dataset_frac": 0.0001947493541831794, "timer/dataset_avg": 8.042708059780535e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001361370086669922, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.98665404319763, "timer/agent.train_frac": 0.8992524036663266, "timer/agent.train_avg": 0.37137091340192246, "timer/agent.train_min": 0.3641667366027832, "timer/agent.train_max": 0.38399529457092285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22491145133972168, "timer/agent.report_frac": 0.000749119114595074, "timer/agent.report_avg": 0.22491145133972168, "timer/agent.report_min": 0.22491145133972168, "timer/agent.report_max": 0.22491145133972168, "fps": 4.842776607854497}
+{"step": 657656, "episode/length": 166.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0718562874251497}
+{"step": 657906, "episode/length": 249.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.056}
+{"step": 658132, "episode/length": 225.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04424778761061947}
+{"step": 658303, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06432748538011696}
+{"step": 658461, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0759493670886076}
+{"step": 658665, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05392156862745098}
+{"step": 658771, "episode/length": 105.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.10377358490566038}
+{"step": 659035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.552508287026849, "train/action_min": 0.0, "train/action_std": 3.46823015347333, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04254032031331264, "train/actor_opt_grad_steps": 328610.0, "train/actor_opt_loss": -14.332199313271214, "train/adv_mag": 0.44613242737004455, "train/adv_max": 0.386164943936845, "train/adv_mean": 0.0012130643140473797, "train/adv_min": -0.3677458939417987, "train/adv_std": 0.0474677932199458, "train/cont_avg": 0.9947183098591549, "train/cont_loss_mean": 0.00013115327468111944, "train/cont_loss_std": 0.004179481705851569, "train/cont_neg_acc": 0.9930583515637358, "train/cont_neg_loss": 0.017904846750199346, "train/cont_pos_acc": 0.9999861843149427, "train/cont_pos_loss": 1.3926788147174854e-05, "train/cont_pred": 0.9947420870754081, "train/cont_rate": 0.9947183098591549, "train/dyn_loss_mean": 5.285108525988082, "train/dyn_loss_std": 8.780912103787275, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0239938850134191, "train/extr_critic_critic_opt_grad_steps": 328610.0, "train/extr_critic_critic_opt_loss": 16118.304632482394, "train/extr_critic_mag": 10.727866522023376, "train/extr_critic_max": 10.727866522023376, "train/extr_critic_mean": 2.678812282186159, "train/extr_critic_min": -0.4916348306226059, "train/extr_critic_std": 2.6074929640326703, "train/extr_return_normed_mag": 1.4486532345624037, "train/extr_return_normed_max": 1.4486532345624037, "train/extr_return_normed_mean": 0.35520388794616914, "train/extr_return_normed_min": -0.08237305194349356, "train/extr_return_normed_std": 0.3278965968901003, "train/extr_return_rate": 0.7269797560194848, "train/extr_return_raw_mag": 11.470912758733185, "train/extr_return_raw_max": 11.470912758733185, "train/extr_return_raw_mean": 2.6885845543633047, "train/extr_return_raw_min": -0.8256676176064451, "train/extr_return_raw_std": 2.633327405217668, "train/extr_reward_mag": 1.0581357579835704, "train/extr_reward_max": 1.0581357579835704, "train/extr_reward_mean": 0.05387238428836137, "train/extr_reward_min": -0.6480649206000315, "train/extr_reward_std": 0.2252693195158327, "train/image_loss_mean": 3.1645868160355257, "train/image_loss_std": 8.221608860391965, "train/model_loss_mean": 6.3890134112935675, "train/model_loss_std": 12.38934408107274, "train/model_opt_grad_norm": 26.265797991148183, "train/model_opt_grad_steps": 328348.0, "train/model_opt_loss": 15972.533450704226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6829026383413397, "train/policy_entropy_max": 2.6829026383413397, "train/policy_entropy_mean": 0.4415562241010263, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6336073380121043, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4407955680934476, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.056028040362076, "train/policy_randomness_mag": 0.9469468954583289, "train/policy_randomness_max": 0.9469468954583289, "train/policy_randomness_mean": 0.15584997234629913, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22363558453573307, "train/post_ent_mag": 55.278978428370515, "train/post_ent_max": 55.278978428370515, "train/post_ent_mean": 40.81975501691792, "train/post_ent_min": 19.386621125986878, "train/post_ent_std": 5.711522794105638, "train/prior_ent_mag": 76.5761870263328, "train/prior_ent_max": 76.5761870263328, "train/prior_ent_mean": 46.082209949762046, "train/prior_ent_min": 28.63956924223564, "train/prior_ent_std": 7.550172443121252, "train/rep_loss_mean": 5.285108525988082, "train/rep_loss_std": 8.780912103787275, "train/reward_avg": 0.03652618801824643, "train/reward_loss_mean": 0.053230388273655525, "train/reward_loss_std": 0.20977707270165563, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0201167523021428, "train/reward_neg_acc": 0.9951569572300978, "train/reward_neg_loss": 0.0241608664813176, "train/reward_pos_acc": 0.9874004646086357, "train/reward_pos_loss": 0.7273458804882748, "train/reward_pred": 0.03619095174149728, "train/reward_rate": 0.041318221830985914, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3202051988669804, "replay/size": 658972.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.429365829682686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3523538347700952e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1423671245575, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.350526571273804, "timer/env.step_frac": 0.06780291221874865, "timer/env.step_avg": 0.014331356740333664, "timer/env.step_min": 0.0030820369720458984, "timer/env.step_max": 1.649022102355957, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2621302604675293, "timer/replay.add_frac": 0.0008733530790031606, "timer/replay.add_avg": 0.0001845987749771333, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.009119272232055664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021596193313598633, "timer/logger.write_frac": 7.195316516123939e-05, "timer/logger.write_avg": 0.021596193313598633, "timer/logger.write_min": 0.021596193313598633, "timer/logger.write_max": 0.021596193313598633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002491474151611328, "timer/checkpoint.save_frac": 8.300974552444239e-07, "timer/checkpoint.save_avg": 0.0002491474151611328, "timer/checkpoint.save_min": 0.0002491474151611328, "timer/checkpoint.save_max": 0.0002491474151611328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4919326305389404, "timer/agent.save_frac": 0.004970749863913069, "timer/agent.save_avg": 1.4919326305389404, "timer/agent.save_min": 1.4919326305389404, "timer/agent.save_max": 1.4919326305389404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.7007955481636757e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.615151405334473, "timer/agent.policy_frac": 0.04869406323856059, "timer/agent.policy_avg": 0.01029236014460174, "timer/agent.policy_min": 0.00603485107421875, "timer/agent.policy_max": 2.434140682220459, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05769705772399902, "timer/dataset_frac": 0.0001922323005470769, "timer/dataset_avg": 8.126346158309722e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.1773579120636, "timer/agent.train_frac": 0.8801735004722988, "timer/agent.train_avg": 0.3720807857916389, "timer/agent.train_min": 0.3654947280883789, "timer/agent.train_max": 0.44458913803100586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22142982482910156, "timer/agent.report_frac": 0.0007377493119363897, "timer/agent.report_avg": 0.22142982482910156, "timer/agent.report_min": 0.22142982482910156, "timer/agent.report_max": 0.22142982482910156, "fps": 4.730984672336353}
+{"step": 659098, "episode/length": 326.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04281345565749235}
+{"step": 659139, "episode/length": 40.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0975609756097561}
+{"step": 659358, "episode/length": 218.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.0547945205479452}
+{"step": 659515, "episode/length": 156.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07643312101910828}
+{"step": 659764, "episode/length": 248.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04417670682730924}
+{"step": 659922, "episode/length": 157.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.06962025316455696}
+{"step": 660104, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04945054945054945}
+{"step": 660273, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 660473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.576822916666667, "train/action_min": 0.0, "train/action_std": 3.4641203549173145, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041269391464690365, "train/actor_opt_grad_steps": 329325.0, "train/actor_opt_loss": -10.476800092056187, "train/adv_mag": 0.4023001434074508, "train/adv_max": 0.3707682175768746, "train/adv_mean": 0.0025505757565851025, "train/adv_min": -0.3386123122440444, "train/adv_std": 0.047212956524971456, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 6.196913143770762e-05, "train/cont_loss_std": 0.0019275565245617798, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.004061223462684794, "train/cont_pos_acc": 0.9999863679210345, "train/cont_pos_loss": 3.825565026928225e-05, "train/cont_pred": 0.9947965972953372, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.3484745091862145, "train/dyn_loss_std": 8.804514216052162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0469156362944179, "train/extr_critic_critic_opt_grad_steps": 329325.0, "train/extr_critic_critic_opt_loss": 16144.556627061633, "train/extr_critic_mag": 10.642007244957817, "train/extr_critic_max": 10.642007244957817, "train/extr_critic_mean": 2.6811401396989822, "train/extr_critic_min": -0.48202159504095715, "train/extr_critic_std": 2.587630225552453, "train/extr_return_normed_mag": 1.442652016878128, "train/extr_return_normed_max": 1.442652016878128, "train/extr_return_normed_mean": 0.3600203388681014, "train/extr_return_normed_min": -0.07905205520283845, "train/extr_return_normed_std": 0.32927435263991356, "train/extr_return_rate": 0.7273383662104607, "train/extr_return_raw_mag": 11.318174997965494, "train/extr_return_raw_max": 11.318174997965494, "train/extr_return_raw_mean": 2.7014529589149685, "train/extr_return_raw_min": -0.7927552250524362, "train/extr_return_raw_std": 2.6206715868579016, "train/extr_reward_mag": 1.0566224687629275, "train/extr_reward_max": 1.0566224687629275, "train/extr_reward_mean": 0.05391359789710906, "train/extr_reward_min": -0.6175910151667066, "train/extr_reward_std": 0.22415724852018887, "train/image_loss_mean": 3.197601858112547, "train/image_loss_std": 8.78126800722546, "train/model_loss_mean": 6.4600827892621355, "train/model_loss_std": 12.932494507895576, "train/model_opt_grad_norm": 25.585989289813572, "train/model_opt_grad_steps": 329062.2361111111, "train/model_opt_loss": 17640.464179144965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.6989397274123297, "train/policy_entropy_max": 2.6989397274123297, "train/policy_entropy_mean": 0.4569775304860539, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6495357635948393, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4568821539481481, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.067766059603956, "train/policy_randomness_mag": 0.9526072839895884, "train/policy_randomness_max": 0.9526072839895884, "train/policy_randomness_mean": 0.1612930145735542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2292576221128305, "train/post_ent_mag": 55.17509709464179, "train/post_ent_max": 55.17509709464179, "train/post_ent_mean": 40.62533028920492, "train/post_ent_min": 19.29454535908169, "train/post_ent_std": 5.732048571109772, "train/prior_ent_mag": 76.64499505360921, "train/prior_ent_max": 76.64499505360921, "train/prior_ent_mean": 45.94782829284668, "train/prior_ent_min": 27.92791019545661, "train/prior_ent_std": 7.631310356987847, "train/rep_loss_mean": 5.3484745091862145, "train/rep_loss_std": 8.804514216052162, "train/reward_avg": 0.037883842984835304, "train/reward_loss_mean": 0.053334269776112504, "train/reward_loss_std": 0.20926278001732296, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0240295661820307, "train/reward_neg_acc": 0.9944622094432513, "train/reward_neg_loss": 0.02353043045796868, "train/reward_pos_acc": 0.9884481761190627, "train/reward_pos_loss": 0.7269182238313887, "train/reward_pred": 0.037623966216213174, "train/reward_rate": 0.042439778645833336, "stats/sum_log_reward": 9.600000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.875, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.35205352678894997, "replay/size": 660410.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.472654477943134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.353373613742197e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23950600624084, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.182457447052002, "timer/env.step_frac": 0.07055186617117502, "timer/env.step_avg": 0.01473049892006398, "timer/env.step_min": 0.0029191970825195312, "timer/env.step_max": 1.6782803535461426, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2834439277648926, "timer/replay.add_frac": 0.0009440593995614983, "timer/replay.add_avg": 0.00019710982459311026, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.005166053771972656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023902177810668945, "timer/logger.write_frac": 7.961036883058324e-05, "timer/logger.write_avg": 0.023902177810668945, "timer/logger.write_min": 0.023902177810668945, "timer/logger.write_max": 0.023902177810668945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.533078670501709, "timer/agent.policy_frac": 0.03508225419969471, "timer/agent.policy_avg": 0.007324811314674345, "timer/agent.policy_min": 0.005861759185791016, "timer/agent.policy_max": 0.015433073043823242, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0574643611907959, "timer/dataset_frac": 0.0001913950697400942, "timer/dataset_avg": 7.992261639888164e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4985113143921, "timer/agent.train_frac": 0.8909504111322106, "timer/agent.train_avg": 0.37204243576410584, "timer/agent.train_min": 0.36530303955078125, "timer/agent.train_max": 0.3861250877380371, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22643518447875977, "timer/agent.report_frac": 0.0007541818446572219, "timer/agent.report_avg": 0.22643518447875977, "timer/agent.report_min": 0.22643518447875977, "timer/agent.report_max": 0.22643518447875977, "fps": 4.789436966082594}
+{"step": 660528, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.047058823529411764}
+{"step": 660775, "episode/length": 246.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.05668016194331984}
+{"step": 661003, "episode/length": 227.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.300000011920929, "episode/reward_rate": 0.043859649122807015}
+{"step": 661433, "episode/length": 429.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.018604651162790697}
+{"step": 661590, "episode/length": 156.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07643312101910828}
+{"step": 661870, "episode/length": 279.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04285714285714286}
+{"step": 661927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548968589469178, "train/action_min": 0.0, "train/action_std": 3.3896208266689354, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043364130215693825, "train/actor_opt_grad_steps": 330050.0, "train/actor_opt_loss": -10.946953731040432, "train/adv_mag": 0.44667016316766606, "train/adv_max": 0.36889899715985336, "train/adv_mean": 0.0027699823756797927, "train/adv_min": -0.397530637375296, "train/adv_std": 0.04870906145605322, "train/cont_avg": 0.9943680436643836, "train/cont_loss_mean": 5.3565974206848086e-05, "train/cont_loss_std": 0.0016039837384490567, "train/cont_neg_acc": 0.9946727556725071, "train/cont_neg_loss": 0.00615511295979889, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 9.604985709460977e-06, "train/cont_pred": 0.994385691538249, "train/cont_rate": 0.9943680436643836, "train/dyn_loss_mean": 5.2201536518253695, "train/dyn_loss_std": 8.745577021820905, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0574912420690876, "train/extr_critic_critic_opt_grad_steps": 330050.0, "train/extr_critic_critic_opt_loss": 16232.354278146404, "train/extr_critic_mag": 10.933053656800153, "train/extr_critic_max": 10.933053656800153, "train/extr_critic_mean": 2.8126012919700307, "train/extr_critic_min": -0.4940086505184435, "train/extr_critic_std": 2.6345221963647294, "train/extr_return_normed_mag": 1.4698289861417797, "train/extr_return_normed_max": 1.4698289861417797, "train/extr_return_normed_mean": 0.37400041132757106, "train/extr_return_normed_min": -0.0773643703289228, "train/extr_return_normed_std": 0.3331948077841981, "train/extr_return_rate": 0.7487247120844175, "train/extr_return_raw_mag": 11.606551405501692, "train/extr_return_raw_max": 11.606551405501692, "train/extr_return_raw_mean": 2.8347462007444197, "train/extr_return_raw_min": -0.7789335597867835, "train/extr_return_raw_std": 2.667393152027914, "train/extr_reward_mag": 1.0569945884077516, "train/extr_reward_max": 1.0569945884077516, "train/extr_reward_mean": 0.05668147811538553, "train/extr_reward_min": -0.6430022455241582, "train/extr_reward_std": 0.23029223860126652, "train/image_loss_mean": 3.0056903117323577, "train/image_loss_std": 8.16178522371266, "train/model_loss_mean": 6.191793716117127, "train/model_loss_std": 12.293580695374372, "train/model_opt_grad_norm": 27.250497857729595, "train/model_opt_grad_steps": 329786.16438356164, "train/model_opt_loss": 9211.706047998716, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.663334892220693, "train/policy_entropy_max": 2.663334892220693, "train/policy_entropy_mean": 0.41539575404500306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5998839282826202, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41419133993044294, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0305001245786065, "train/policy_randomness_mag": 0.9400403393458013, "train/policy_randomness_max": 0.9400403393458013, "train/policy_randomness_mean": 0.14661647297748148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21173270220217638, "train/post_ent_mag": 55.1967109784688, "train/post_ent_max": 55.1967109784688, "train/post_ent_mean": 40.633070697523145, "train/post_ent_min": 19.15321070527377, "train/post_ent_std": 5.68782848201386, "train/prior_ent_mag": 76.58790933269344, "train/prior_ent_max": 76.58790933269344, "train/prior_ent_mean": 45.886992258568334, "train/prior_ent_min": 28.608020886982956, "train/prior_ent_std": 7.507897331290049, "train/rep_loss_mean": 5.2201536518253695, "train/rep_loss_std": 8.745577021820905, "train/reward_avg": 0.03846586003185135, "train/reward_loss_mean": 0.05395768399107946, "train/reward_loss_std": 0.20661740127491623, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.020117406975733, "train/reward_neg_acc": 0.9942798255241081, "train/reward_neg_loss": 0.023615171048432998, "train/reward_pos_acc": 0.9902243826487293, "train/reward_pos_loss": 0.7206236401649371, "train/reward_pred": 0.03827195134881425, "train/reward_rate": 0.043503852739726026, "stats/sum_log_reward": 10.100000301996866, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6580387751261393, "replay/size": 661864.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3801654674000063e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351537369960276e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13464641571045, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.954733848571777, "timer/env.step_frac": 0.05982226331745465, "timer/env.step_avg": 0.01234851021222268, "timer/env.step_min": 0.0029261112213134766, "timer/env.step_max": 1.6620774269104004, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26001858711242676, "timer/replay.add_frac": 0.0008663397918822083, "timer/replay.add_avg": 0.00017882983982972956, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0012252330780029297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023012638092041016, "timer/logger.write_frac": 7.667438053841566e-05, "timer/logger.write_avg": 0.023012638092041016, "timer/logger.write_min": 0.023012638092041016, "timer/logger.write_max": 0.023012638092041016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.69848108291626, "timer/agent.policy_frac": 0.03564560509984578, "timer/agent.policy_avg": 0.007357964981372944, "timer/agent.policy_min": 0.006053447723388672, "timer/agent.policy_max": 0.015438079833984375, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05768585205078125, "timer/dataset_frac": 0.00019219991007263367, "timer/dataset_avg": 7.934780199557256e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001304149627685547, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.47998881340027, "timer/agent.train_frac": 0.901195486904114, "timer/agent.train_avg": 0.37204950318211866, "timer/agent.train_min": 0.3658602237701416, "timer/agent.train_max": 0.3839070796966553, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969246864318848, "timer/agent.report_frac": 0.0007319797006670695, "timer/agent.report_avg": 0.21969246864318848, "timer/agent.report_min": 0.21969246864318848, "timer/agent.report_max": 0.21969246864318848, "fps": 4.844386170269264}
+{"step": 662091, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05429864253393665}
+{"step": 662227, "episode/length": 135.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07352941176470588}
+{"step": 662386, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06918238993710692}
+{"step": 662624, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.06302521008403361}
+{"step": 662929, "episode/length": 304.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.029508196721311476}
+{"step": 663022, "episode/length": 92.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.10752688172043011}
+{"step": 663088, "episode/length": 65.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12121212121212122}
+{"step": 663319, "episode/length": 230.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.100000023841858, "episode/reward_rate": 0.05627705627705628}
+{"step": 663341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572834713358275, "train/action_min": 0.0, "train/action_std": 3.434040751255734, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04366135229946862, "train/actor_opt_grad_steps": 330770.0, "train/actor_opt_loss": -10.405688556567045, "train/adv_mag": 0.45252268457076916, "train/adv_max": 0.3958708685888371, "train/adv_mean": 0.0024830597023127936, "train/adv_min": -0.38627975990234964, "train/adv_std": 0.0484530503376269, "train/cont_avg": 0.9952134683098591, "train/cont_loss_mean": 6.516197345263208e-05, "train/cont_loss_std": 0.0020070173850463492, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.009107407531920396, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 2.911619531101345e-05, "train/cont_pred": 0.9952060445933275, "train/cont_rate": 0.9952134683098591, "train/dyn_loss_mean": 5.183644120122345, "train/dyn_loss_std": 8.747637527089724, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0815715437204065, "train/extr_critic_critic_opt_grad_steps": 330770.0, "train/extr_critic_critic_opt_loss": 16063.110901738557, "train/extr_critic_mag": 11.003998205695353, "train/extr_critic_max": 11.003998205695353, "train/extr_critic_mean": 2.717311577058174, "train/extr_critic_min": -0.4410718545107774, "train/extr_critic_std": 2.5731169740918656, "train/extr_return_normed_mag": 1.4836804933950936, "train/extr_return_normed_max": 1.4836804933950936, "train/extr_return_normed_mean": 0.3562453412254092, "train/extr_return_normed_min": -0.0724713110273153, "train/extr_return_normed_std": 0.3210428627863736, "train/extr_return_rate": 0.7516579048734315, "train/extr_return_raw_mag": 11.893306006847972, "train/extr_return_raw_max": 11.893306006847972, "train/extr_return_raw_mean": 2.737505489671734, "train/extr_return_raw_min": -0.7447917696455835, "train/extr_return_raw_std": 2.607632425469412, "train/extr_reward_mag": 1.0598774157779318, "train/extr_reward_max": 1.0598774157779318, "train/extr_reward_mean": 0.05452007238923664, "train/extr_reward_min": -0.6080451364248571, "train/extr_reward_std": 0.22494244512537837, "train/image_loss_mean": 3.099845908057522, "train/image_loss_std": 7.93027628643412, "train/model_loss_mean": 6.261112152690619, "train/model_loss_std": 12.03727437408877, "train/model_opt_grad_norm": 24.12395287903262, "train/model_opt_grad_steps": 330506.0, "train/model_opt_loss": 11201.121437610036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1795.774647887324, "train/policy_entropy_mag": 2.680799541339068, "train/policy_entropy_max": 2.680799541339068, "train/policy_entropy_mean": 0.48018494836041625, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6702489924262947, "train/policy_logprob_mag": 7.438384318015944, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48046183502170403, "train/policy_logprob_min": -7.438384318015944, "train/policy_logprob_std": 1.0851395860524244, "train/policy_randomness_mag": 0.946204596841839, "train/policy_randomness_max": 0.946204596841839, "train/policy_randomness_mean": 0.16948421404395306, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2365684834584384, "train/post_ent_mag": 55.048877125055014, "train/post_ent_max": 55.048877125055014, "train/post_ent_mean": 40.78633176776725, "train/post_ent_min": 19.233658817452444, "train/post_ent_std": 5.765323262819102, "train/prior_ent_mag": 76.64835765999807, "train/prior_ent_max": 76.64835765999807, "train/prior_ent_mean": 45.97795454213317, "train/prior_ent_min": 28.25812474103041, "train/prior_ent_std": 7.492167754912041, "train/rep_loss_mean": 5.183644120122345, "train/rep_loss_std": 8.747637527089724, "train/reward_avg": 0.036471170806129216, "train/reward_loss_mean": 0.05101467700491489, "train/reward_loss_std": 0.20153930657346483, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.025755334907854, "train/reward_neg_acc": 0.9941517089454222, "train/reward_neg_loss": 0.022653645704644666, "train/reward_pos_acc": 0.9912484414140943, "train/reward_pos_loss": 0.7186193214335912, "train/reward_pred": 0.036409927269732446, "train/reward_rate": 0.040781800176056336, "stats/sum_log_reward": 9.725000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5266999527812004, "replay/size": 663278.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4179512142629232e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.357185958635689e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02297163009644, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.293342113494873, "timer/env.step_frac": 0.07763852876643607, "timer/env.step_avg": 0.016473367831325934, "timer/env.step_min": 0.0031120777130126953, "timer/env.step_max": 1.8362939357757568, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2469336986541748, "timer/replay.add_frac": 0.0008230493062332029, "timer/replay.add_avg": 0.00017463486467763424, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0009005069732666016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02214217185974121, "timer/logger.write_frac": 7.380158838984063e-05, "timer/logger.write_avg": 0.02214217185974121, "timer/logger.write_min": 0.02214217185974121, "timer/logger.write_max": 0.02214217185974121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016069412231445312, "timer/checkpoint.save_frac": 5.356060619004058e-07, "timer/checkpoint.save_avg": 0.00016069412231445312, "timer/checkpoint.save_min": 0.00016069412231445312, "timer/checkpoint.save_max": 0.00016069412231445312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1612844467163086, "timer/agent.save_frac": 0.00387065177178525, "timer/agent.save_avg": 1.1612844467163086, "timer/agent.save_min": 1.1612844467163086, "timer/agent.save_max": 1.1612844467163086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.271766662597656e-05, "timer/replay.save_frac": 2.4237366302614803e-07, "timer/replay.save_avg": 7.271766662597656e-05, "timer/replay.save_min": 7.271766662597656e-05, "timer/replay.save_max": 7.271766662597656e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.28380012512207, "timer/agent.policy_frac": 0.04094286533588162, "timer/agent.policy_avg": 0.008687270244075014, "timer/agent.policy_min": 0.005911350250244141, "timer/agent.policy_max": 1.1610612869262695, "timer/dataset_count": 707.0, "timer/dataset_total": 0.056443214416503906, "timer/dataset_frac": 0.00018812964257314846, "timer/dataset_avg": 7.983481529915686e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.47061252593994, "timer/agent.train_frac": 0.8781681319081709, "timer/agent.train_avg": 0.3726599894284865, "timer/agent.train_min": 0.3656423091888428, "timer/agent.train_max": 0.881340503692627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137451171875, "timer/agent.report_frac": 0.0007378585396843763, "timer/agent.report_avg": 0.22137451171875, "timer/agent.report_min": 0.22137451171875, "timer/agent.report_max": 0.22137451171875, "fps": 4.712872574998195}
+{"step": 663468, "episode/length": 148.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.06040268456375839}
+{"step": 663675, "episode/length": 206.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.05314009661835749}
+{"step": 663899, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 664148, "episode/length": 248.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05220883534136546}
+{"step": 664366, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05963302752293578}
+{"step": 664419, "episode/length": 52.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.1320754716981132}
+{"step": 664720, "episode/length": 300.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.03986710963455149}
+{"step": 664787, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586977640787761, "train/action_min": 0.0, "train/action_std": 3.439744965897666, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042701855250116855, "train/actor_opt_grad_steps": 331485.0, "train/actor_opt_loss": -11.886448001696003, "train/adv_mag": 0.46252064365479684, "train/adv_max": 0.4082303694966767, "train/adv_mean": 0.002408175927586045, "train/adv_min": -0.40825024288561607, "train/adv_std": 0.04811753389529056, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 9.359417484786389e-06, "train/cont_loss_std": 0.0002662975134886854, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027406422271367446, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.208907353572196e-06, "train/cont_pred": 0.9951655268669128, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.226565725273556, "train/dyn_loss_std": 8.705925405025482, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9898358401325014, "train/extr_critic_critic_opt_grad_steps": 331485.0, "train/extr_critic_critic_opt_loss": 16048.648179796008, "train/extr_critic_mag": 11.031184328926933, "train/extr_critic_max": 11.031184328926933, "train/extr_critic_mean": 2.859481655889087, "train/extr_critic_min": -0.48632556034459007, "train/extr_critic_std": 2.609462880425983, "train/extr_return_normed_mag": 1.4602079457706876, "train/extr_return_normed_max": 1.4602079457706876, "train/extr_return_normed_mean": 0.3732316792011261, "train/extr_return_normed_min": -0.07444595395483905, "train/extr_return_normed_std": 0.3242454497764508, "train/extr_return_rate": 0.7544361659222178, "train/extr_return_raw_mag": 11.734751489427355, "train/extr_return_raw_max": 11.734751489427355, "train/extr_return_raw_mean": 2.879112175769276, "train/extr_return_raw_min": -0.7674374803900719, "train/extr_return_raw_std": 2.6412798547082477, "train/extr_reward_mag": 1.0628083811865912, "train/extr_reward_max": 1.0628083811865912, "train/extr_reward_mean": 0.05721222288492653, "train/extr_reward_min": -0.6307815329896079, "train/extr_reward_std": 0.23029208928346634, "train/image_loss_mean": 3.0891843918297024, "train/image_loss_std": 8.105399125152164, "train/model_loss_mean": 6.278984294997321, "train/model_loss_std": 12.210770123534733, "train/model_opt_grad_norm": 26.004027631547714, "train/model_opt_grad_steps": 331220.97222222225, "train/model_opt_loss": 15907.726603190104, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.691696779595481, "train/policy_entropy_max": 2.691696779595481, "train/policy_entropy_mean": 0.44830163816610974, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6437493045296934, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4469755140857564, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0577474981546402, "train/policy_randomness_mag": 0.9500508374638028, "train/policy_randomness_max": 0.9500508374638028, "train/policy_randomness_mean": 0.15823080566608244, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2272152536445194, "train/post_ent_mag": 55.730537202623154, "train/post_ent_max": 55.730537202623154, "train/post_ent_mean": 40.775653786129425, "train/post_ent_min": 19.27176919248369, "train/post_ent_std": 5.798576149675581, "train/prior_ent_mag": 76.71053049299452, "train/prior_ent_max": 76.71053049299452, "train/prior_ent_mean": 46.02317084206475, "train/prior_ent_min": 28.052966250313652, "train/prior_ent_std": 7.593314541710748, "train/rep_loss_mean": 5.226565725273556, "train/rep_loss_std": 8.705925405025482, "train/reward_avg": 0.039443629845562905, "train/reward_loss_mean": 0.05385111706952254, "train/reward_loss_std": 0.21005328165160286, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0228353374534183, "train/reward_neg_acc": 0.9943995873133341, "train/reward_neg_loss": 0.02272526200653778, "train/reward_pos_acc": 0.986911797689067, "train/reward_pos_loss": 0.7328597803910574, "train/reward_pred": 0.0391656888079726, "train/reward_rate": 0.043863932291666664, "stats/sum_log_reward": 10.242857456207275, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3675777954714639, "replay/size": 664724.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4501443760029013e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3483799015008232e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1785945892334, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.66132926940918, "timer/env.step_frac": 0.06549877181054128, "timer/env.step_avg": 0.013597046521029861, "timer/env.step_min": 0.0029120445251464844, "timer/env.step_max": 1.6909267902374268, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27120089530944824, "timer/replay.add_frac": 0.0009034651377476183, "timer/replay.add_avg": 0.00018755248638274428, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.003418445587158203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022675514221191406, "timer/logger.write_frac": 7.554007724041998e-05, "timer/logger.write_avg": 0.022675514221191406, "timer/logger.write_min": 0.022675514221191406, "timer/logger.write_max": 0.022675514221191406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.660741567611694, "timer/agent.policy_frac": 0.03551466280332191, "timer/agent.policy_avg": 0.007372573698210024, "timer/agent.policy_min": 0.005903482437133789, "timer/agent.policy_max": 0.01457834243774414, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05717206001281738, "timer/dataset_frac": 0.00019046014953548587, "timer/dataset_avg": 7.907615492782487e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.0001361370086669922, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8475081920624, "timer/agent.train_frac": 0.8956251812690218, "timer/agent.train_avg": 0.3718499421743601, "timer/agent.train_min": 0.365797758102417, "timer/agent.train_max": 0.38460707664489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22406315803527832, "timer/agent.report_frac": 0.0007464328305683755, "timer/agent.report_avg": 0.22406315803527832, "timer/agent.report_min": 0.22406315803527832, "timer/agent.report_max": 0.22406315803527832, "fps": 4.817028145035909}
+{"step": 664945, "episode/length": 224.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.07111111111111111}
+{"step": 665116, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06432748538011696}
+{"step": 665299, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.060109289617486336}
+{"step": 665502, "episode/length": 202.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.059113300492610835}
+{"step": 665884, "episode/length": 381.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.034031413612565446}
+{"step": 666179, "episode/length": 294.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04067796610169491}
+{"step": 666243, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5940050098994005, "train/action_min": 0.0, "train/action_std": 3.405921064011038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04293653945604416, "train/actor_opt_grad_steps": 332210.0, "train/actor_opt_loss": -12.799805577895413, "train/adv_mag": 0.450569797052096, "train/adv_max": 0.4064794472635609, "train/adv_mean": 0.0025827827548305137, "train/adv_min": -0.38646564581622816, "train/adv_std": 0.04859600527441665, "train/cont_avg": 0.9944215539383562, "train/cont_loss_mean": 4.557633286127658e-06, "train/cont_loss_std": 0.00013787436595737756, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002813076247895352, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 3.4474441307386843e-06, "train/cont_pred": 0.9944194049051364, "train/cont_rate": 0.9944215539383562, "train/dyn_loss_mean": 5.1783230402698255, "train/dyn_loss_std": 8.802616903226669, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0748094140666804, "train/extr_critic_critic_opt_grad_steps": 332210.0, "train/extr_critic_critic_opt_loss": 16155.469258347603, "train/extr_critic_mag": 11.29210368901083, "train/extr_critic_max": 11.29210368901083, "train/extr_critic_mean": 2.845591910897869, "train/extr_critic_min": -0.5093051015514217, "train/extr_critic_std": 2.7398116751892925, "train/extr_return_normed_mag": 1.491232991218567, "train/extr_return_normed_max": 1.491232991218567, "train/extr_return_normed_mean": 0.36974347392990164, "train/extr_return_normed_min": -0.08172096896355283, "train/extr_return_normed_std": 0.3386648256484776, "train/extr_return_rate": 0.7387753667896741, "train/extr_return_raw_mag": 12.049159272076333, "train/extr_return_raw_max": 12.049159272076333, "train/extr_return_raw_mean": 2.8667382312147587, "train/extr_return_raw_min": -0.829853988673589, "train/extr_return_raw_std": 2.77298311011432, "train/extr_reward_mag": 1.0559719327377945, "train/extr_reward_max": 1.0559719327377945, "train/extr_reward_mean": 0.057193017679534545, "train/extr_reward_min": -0.6221952128083739, "train/extr_reward_std": 0.231142667058396, "train/image_loss_mean": 3.0633735607748163, "train/image_loss_std": 8.148866424821827, "train/model_loss_mean": 6.2245397502428865, "train/model_loss_std": 12.311130484489546, "train/model_opt_grad_norm": 25.50348262264304, "train/model_opt_grad_steps": 331945.0, "train/model_opt_loss": 15561.349462221746, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6814224132119793, "train/policy_entropy_max": 2.6814224132119793, "train/policy_entropy_mean": 0.4343939605232787, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6191126977744168, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43441698669570766, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.0483216145267225, "train/policy_randomness_mag": 0.9464244385288186, "train/policy_randomness_max": 0.9464244385288186, "train/policy_randomness_mean": 0.1533220063333642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21851961426947214, "train/post_ent_mag": 55.41880861047196, "train/post_ent_max": 55.41880861047196, "train/post_ent_mean": 40.891571619739274, "train/post_ent_min": 19.383588882341776, "train/post_ent_std": 5.697291099861877, "train/prior_ent_mag": 76.68381552500267, "train/prior_ent_max": 76.68381552500267, "train/prior_ent_mean": 46.07407478437032, "train/prior_ent_min": 28.343666155044346, "train/prior_ent_std": 7.557078074102533, "train/rep_loss_mean": 5.1783230402698255, "train/rep_loss_std": 8.802616903226669, "train/reward_avg": 0.03811670579526522, "train/reward_loss_mean": 0.05416784011950231, "train/reward_loss_std": 0.20683398863224134, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0164702755131134, "train/reward_neg_acc": 0.9945315171594489, "train/reward_neg_loss": 0.02422743494150369, "train/reward_pos_acc": 0.9902680924493973, "train/reward_pos_loss": 0.719063254251872, "train/reward_pred": 0.03788525945417685, "train/reward_rate": 0.04303563784246575, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.49855878700812656, "replay/size": 666180.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3661886885925962e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3472450958503472e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19524478912354, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.764933347702026, "timer/env.step_frac": 0.059177930550436464, "timer/env.step_avg": 0.012201190486059084, "timer/env.step_min": 0.0029473304748535156, "timer/env.step_max": 1.5921931266784668, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.257155179977417, "timer/replay.add_frac": 0.0008566264271043312, "timer/replay.add_avg": 0.00017661756866580838, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0008594989776611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020288467407226562, "timer/logger.write_frac": 6.758423978860321e-05, "timer/logger.write_avg": 0.020288467407226562, "timer/logger.write_min": 0.020288467407226562, "timer/logger.write_max": 0.020288467407226562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.774821281433105, "timer/agent.policy_frac": 0.035892711388556583, "timer/agent.policy_avg": 0.007400289341643616, "timer/agent.policy_min": 0.006007194519042969, "timer/agent.policy_max": 0.014261484146118164, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05911397933959961, "timer/dataset_frac": 0.0001969184401342702, "timer/dataset_avg": 8.120052107087858e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001723766326904297, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.66154193878174, "timer/agent.train_frac": 0.9016183521791353, "timer/agent.train_avg": 0.3717878323334914, "timer/agent.train_min": 0.3654193878173828, "timer/agent.train_max": 0.38466501235961914, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21880769729614258, "timer/agent.report_frac": 0.0007288846212399107, "timer/agent.report_avg": 0.21880769729614258, "timer/agent.report_min": 0.21880769729614258, "timer/agent.report_max": 0.21880769729614258, "fps": 4.850097690776318}
+{"step": 666354, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06285714285714286}
+{"step": 666508, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07792207792207792}
+{"step": 666656, "episode/length": 147.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08108108108108109}
+{"step": 666849, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
+{"step": 667071, "episode/length": 221.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05855855855855856}
+{"step": 667531, "episode/length": 459.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.030434782608695653}
+{"step": 667695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598097907172309, "train/action_min": 0.0, "train/action_std": 3.4072817862033844, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042202417790475816, "train/actor_opt_grad_steps": 332935.0, "train/actor_opt_loss": -11.542193951602611, "train/adv_mag": 0.42525657307770515, "train/adv_max": 0.380986529091994, "train/adv_mean": 0.0026754219895034717, "train/adv_min": -0.35595013739334214, "train/adv_std": 0.04724310912812749, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 2.8789442493367307e-05, "train/cont_loss_std": 0.0008270455361720034, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0024684551827907817, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.1947425564345e-06, "train/cont_pred": 0.9947276206480132, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.220206793811586, "train/dyn_loss_std": 8.759296708636814, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.020195489956273, "train/extr_critic_critic_opt_grad_steps": 332935.0, "train/extr_critic_critic_opt_loss": 15996.951836480035, "train/extr_critic_mag": 11.198396497302586, "train/extr_critic_max": 11.198396497302586, "train/extr_critic_mean": 2.922515776422289, "train/extr_critic_min": -0.49488233029842377, "train/extr_critic_std": 2.7206540041499667, "train/extr_return_normed_mag": 1.4549839976761076, "train/extr_return_normed_max": 1.4549839976761076, "train/extr_return_normed_mean": 0.3729991668628322, "train/extr_return_normed_min": -0.07589132307718198, "train/extr_return_normed_std": 0.3307763739592499, "train/extr_return_rate": 0.7420292985108163, "train/extr_return_raw_mag": 11.96059348848131, "train/extr_return_raw_max": 11.96059348848131, "train/extr_return_raw_mean": 2.944784108135435, "train/extr_return_raw_min": -0.7970998560388883, "train/extr_return_raw_std": 2.7571383118629456, "train/extr_reward_mag": 1.0645269420411851, "train/extr_reward_max": 1.0645269420411851, "train/extr_reward_mean": 0.05656861839815974, "train/extr_reward_min": -0.643796925743421, "train/extr_reward_std": 0.23001873389714295, "train/image_loss_mean": 3.1037034855948553, "train/image_loss_std": 8.337037954065535, "train/model_loss_mean": 6.290247665511237, "train/model_loss_std": 12.476714796490139, "train/model_opt_grad_norm": 26.52224557929569, "train/model_opt_grad_steps": 332669.3611111111, "train/model_opt_loss": 16046.823052300348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6925002700752683, "train/policy_entropy_max": 2.6925002700752683, "train/policy_entropy_mean": 0.44370240676734185, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6409518909123209, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44476190209388733, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0622349116537306, "train/policy_randomness_mag": 0.9503344363636441, "train/policy_randomness_max": 0.9503344363636441, "train/policy_randomness_mean": 0.15660747647699383, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22622789287318787, "train/post_ent_mag": 55.803676181369354, "train/post_ent_max": 55.803676181369354, "train/post_ent_mean": 40.89355903201633, "train/post_ent_min": 19.411068783866035, "train/post_ent_std": 5.699836744202508, "train/prior_ent_mag": 76.76560062832303, "train/prior_ent_max": 76.76560062832303, "train/prior_ent_mean": 46.112545331319176, "train/prior_ent_min": 28.86287021636963, "train/prior_ent_std": 7.539954728550381, "train/rep_loss_mean": 5.220206793811586, "train/rep_loss_std": 8.759296708636814, "train/reward_avg": 0.03784315290653871, "train/reward_loss_mean": 0.054391296218252845, "train/reward_loss_std": 0.21433240382207763, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0244302153587341, "train/reward_neg_acc": 0.994020999305778, "train/reward_neg_loss": 0.024214160098280344, "train/reward_pos_acc": 0.9868492318524255, "train/reward_pos_loss": 0.7353680473234918, "train/reward_pred": 0.037478321257771716, "train/reward_rate": 0.04248046875, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3243704487880071, "replay/size": 667632.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4097797614483795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3469951868714051e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0447700023651, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.29582452774048, "timer/env.step_frac": 0.06097698196037965, "timer/env.step_avg": 0.012600430115523746, "timer/env.step_min": 0.0029697418212890625, "timer/env.step_max": 1.6721484661102295, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.27640843391418457, "timer/replay.add_frac": 0.0009212239690497047, "timer/replay.add_avg": 0.00019036393520260644, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0030448436737060547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022849559783935547, "timer/logger.write_frac": 7.615383458860301e-05, "timer/logger.write_avg": 0.022849559783935547, "timer/logger.write_min": 0.022849559783935547, "timer/logger.write_max": 0.022849559783935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.869230270385742, "timer/agent.policy_frac": 0.03622536153621363, "timer/agent.policy_avg": 0.007485695778502577, "timer/agent.policy_min": 0.0061321258544921875, "timer/agent.policy_max": 0.015530824661254883, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059168100357055664, "timer/dataset_frac": 0.00019719757273752603, "timer/dataset_avg": 8.149876082239072e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.8653612136841, "timer/agent.train_frac": 0.899416981044385, "timer/agent.train_avg": 0.3717153735725676, "timer/agent.train_min": 0.3652677536010742, "timer/agent.train_max": 0.38446784019470215, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204453945159912, "timer/agent.report_frac": 0.0007347083387397606, "timer/agent.report_avg": 0.2204453945159912, "timer/agent.report_min": 0.2204453945159912, "timer/agent.report_max": 0.2204453945159912, "fps": 4.839183940126254}
+{"step": 667716, "episode/length": 184.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07567567567567568}
+{"step": 667909, "episode/length": 192.0, "episode/score": 10.100000038743019, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.06217616580310881}
+{"step": 668091, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06043956043956044}
+{"step": 668237, "episode/length": 145.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.0821917808219178}
+{"step": 668470, "episode/length": 232.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.060085836909871244}
+{"step": 668698, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
+{"step": 668754, "episode/length": 55.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10714285714285714}
+{"step": 669119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.613827175564236, "train/action_min": 0.0, "train/action_std": 3.4664984345436096, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04183801506749458, "train/actor_opt_grad_steps": 333655.0, "train/actor_opt_loss": -13.128564993540445, "train/adv_mag": 0.432142961356375, "train/adv_max": 0.36950870644715095, "train/adv_mean": 0.0018942590699629767, "train/adv_min": -0.3942957783324851, "train/adv_std": 0.04704198479238483, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.00018943633888213185, "train/cont_loss_std": 0.005908169320717447, "train/cont_neg_acc": 0.9959490746259689, "train/cont_neg_loss": 0.02838643631713052, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.238337374450301e-05, "train/cont_pred": 0.9942777388625674, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 5.364740795559353, "train/dyn_loss_std": 8.892706513404846, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0270342760615878, "train/extr_critic_critic_opt_grad_steps": 333655.0, "train/extr_critic_critic_opt_loss": 16107.341145833334, "train/extr_critic_mag": 11.187013520134819, "train/extr_critic_max": 11.187013520134819, "train/extr_critic_mean": 2.894580682118734, "train/extr_critic_min": -0.5057343757814832, "train/extr_critic_std": 2.771955728530884, "train/extr_return_normed_mag": 1.440500357084804, "train/extr_return_normed_max": 1.440500357084804, "train/extr_return_normed_mean": 0.364842835192879, "train/extr_return_normed_min": -0.08114935261093909, "train/extr_return_normed_std": 0.3332021613087919, "train/extr_return_rate": 0.7346038056744469, "train/extr_return_raw_mag": 11.957812441719902, "train/extr_return_raw_max": 11.957812441719902, "train/extr_return_raw_mean": 2.9105083131127887, "train/extr_return_raw_min": -0.8413315680291917, "train/extr_return_raw_std": 2.8030300637086234, "train/extr_reward_mag": 1.0533423920472462, "train/extr_reward_max": 1.0533423920472462, "train/extr_reward_mean": 0.05604178525714411, "train/extr_reward_min": -0.6661010748810239, "train/extr_reward_std": 0.22909594078858694, "train/image_loss_mean": 3.214989102549023, "train/image_loss_std": 8.60710334777832, "train/model_loss_mean": 6.489333166016473, "train/model_loss_std": 12.797774977154202, "train/model_opt_grad_norm": 27.230948633617825, "train/model_opt_grad_steps": 333388.80555555556, "train/model_opt_loss": 17089.23346625434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.692820558945338, "train/policy_entropy_max": 2.692820558945338, "train/policy_entropy_mean": 0.4458918612864282, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6404710461695989, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4460979762176673, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0612913486030366, "train/policy_randomness_mag": 0.9504474873344103, "train/policy_randomness_max": 0.9504474873344103, "train/policy_randomness_mean": 0.15738025980277193, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22605817351076338, "train/post_ent_mag": 55.34146446651883, "train/post_ent_max": 55.34146446651883, "train/post_ent_mean": 40.8242834409078, "train/post_ent_min": 19.190012852350872, "train/post_ent_std": 5.763279312186771, "train/prior_ent_mag": 76.64694489373102, "train/prior_ent_max": 76.64694489373102, "train/prior_ent_mean": 46.17103338241577, "train/prior_ent_min": 28.575240241156685, "train/prior_ent_std": 7.591777735286289, "train/rep_loss_mean": 5.364740795559353, "train/rep_loss_std": 8.892706513404846, "train/reward_avg": 0.037586805358943015, "train/reward_loss_mean": 0.055310137673384614, "train/reward_loss_std": 0.2147008532451259, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0165257304906845, "train/reward_neg_acc": 0.9937955265243849, "train/reward_neg_loss": 0.02524379812853618, "train/reward_pos_acc": 0.9886278212070465, "train/reward_pos_loss": 0.7298598504728742, "train/reward_pred": 0.037304693988213934, "train/reward_rate": 0.04271104600694445, "stats/sum_log_reward": 10.671428612300328, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3061806985310146, "replay/size": 669056.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4676174099525707e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3704464006959723e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22613501548767, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.758688926696777, "timer/env.step_frac": 0.07247433314083172, "timer/env.step_avg": 0.015279978178860096, "timer/env.step_min": 0.0029296875, "timer/env.step_max": 1.8220641613006592, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.29664087295532227, "timer/replay.add_frac": 0.000988058128050776, "timer/replay.add_avg": 0.00020831521977199597, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0032296180725097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02201390266418457, "timer/logger.write_frac": 7.332440482920964e-05, "timer/logger.write_avg": 0.02201390266418457, "timer/logger.write_min": 0.02201390266418457, "timer/logger.write_max": 0.02201390266418457, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003008842468261719, "timer/checkpoint.save_frac": 1.0021920537019546e-06, "timer/checkpoint.save_avg": 0.0003008842468261719, "timer/checkpoint.save_min": 0.0003008842468261719, "timer/checkpoint.save_max": 0.0003008842468261719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1819875240325928, "timer/agent.save_frac": 0.003936990775208887, "timer/agent.save_avg": 1.1819875240325928, "timer/agent.save_min": 1.1819875240325928, "timer/agent.save_max": 1.1819875240325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.501509484279839e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.295979499816895, "timer/agent.policy_frac": 0.040955726586503156, "timer/agent.policy_avg": 0.008634817064478157, "timer/agent.policy_min": 0.006013393402099609, "timer/agent.policy_max": 1.1765131950378418, "timer/dataset_count": 712.0, "timer/dataset_total": 0.05821061134338379, "timer/dataset_frac": 0.00019388922067154778, "timer/dataset_avg": 8.175647660587611e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.14233565330505, "timer/agent.train_frac": 0.8831420876787667, "timer/agent.train_avg": 0.3723909208613835, "timer/agent.train_min": 0.3625609874725342, "timer/agent.train_max": 0.8093466758728027, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22082972526550293, "timer/agent.report_frac": 0.0007355446428876388, "timer/agent.report_avg": 0.22082972526550293, "timer/agent.report_min": 0.22082972526550293, "timer/agent.report_max": 0.22082972526550293, "fps": 4.743016576459621}
+{"step": 669122, "episode/length": 367.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03260869565217391}
+{"step": 669482, "episode/length": 359.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.022222222222222223}
+{"step": 669543, "episode/length": 60.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06557377049180328}
+{"step": 669742, "episode/length": 198.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07035175879396985}
+{"step": 670006, "episode/length": 263.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.05303030303030303}
+{"step": 670463, "episode/length": 456.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.03282275711159737}
+{"step": 670563, "stats/sum_log_reward": 10.100000063578287, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 6.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.608736976981163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528356764051649, "train/action_min": 0.0, "train/action_std": 3.410956131087409, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04050672908003131, "train/actor_opt_grad_steps": 334375.0, "train/actor_opt_loss": -12.122005676229795, "train/adv_mag": 0.4178550959461265, "train/adv_max": 0.3667258359491825, "train/adv_mean": 0.002380083435835129, "train/adv_min": -0.35821010048190755, "train/adv_std": 0.04682831124713024, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 2.8737451314400334e-05, "train/cont_loss_std": 0.0008107532792555913, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007332934049878324, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 2.410117635677346e-05, "train/cont_pred": 0.9946159687307146, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.136044883065754, "train/dyn_loss_std": 8.74070038398107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0636620041396883, "train/extr_critic_critic_opt_grad_steps": 334375.0, "train/extr_critic_critic_opt_loss": 16234.304158528646, "train/extr_critic_mag": 11.098543047904968, "train/extr_critic_max": 11.098543047904968, "train/extr_critic_mean": 2.7804433587524624, "train/extr_critic_min": -0.4818060083521737, "train/extr_critic_std": 2.701611489057541, "train/extr_return_normed_mag": 1.4392317550049887, "train/extr_return_normed_max": 1.4392317550049887, "train/extr_return_normed_mean": 0.3537291909257571, "train/extr_return_normed_min": -0.08088987328422566, "train/extr_return_normed_std": 0.32756373410423595, "train/extr_return_rate": 0.7398745351367526, "train/extr_return_raw_mag": 11.847470164299011, "train/extr_return_raw_max": 11.847470164299011, "train/extr_return_raw_mean": 2.8002590553628073, "train/extr_return_raw_min": -0.822198995285564, "train/extr_return_raw_std": 2.730535798602634, "train/extr_reward_mag": 1.061867379479938, "train/extr_reward_max": 1.061867379479938, "train/extr_reward_mean": 0.05430545171515809, "train/extr_reward_min": -0.6260248902771208, "train/extr_reward_std": 0.22576486774616772, "train/image_loss_mean": 3.1165408343076706, "train/image_loss_std": 8.205158743593428, "train/model_loss_mean": 6.252708613872528, "train/model_loss_std": 12.364118509822422, "train/model_opt_grad_norm": 26.309456811824315, "train/model_opt_grad_steps": 334107.75, "train/model_opt_loss": 13725.595933702258, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.7024466825856104, "train/policy_entropy_max": 2.7024466825856104, "train/policy_entropy_mean": 0.4448128876586755, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.64152484262983, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4441427066922188, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0571378759211965, "train/policy_randomness_mag": 0.9538450853692161, "train/policy_randomness_max": 0.9538450853692161, "train/policy_randomness_mean": 0.15699942948089707, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2264301162213087, "train/post_ent_mag": 55.171907371944855, "train/post_ent_max": 55.171907371944855, "train/post_ent_mean": 40.777568870120575, "train/post_ent_min": 19.726629071765476, "train/post_ent_std": 5.635203301906586, "train/prior_ent_mag": 76.71793736351862, "train/prior_ent_max": 76.71793736351862, "train/prior_ent_mean": 45.953179624345566, "train/prior_ent_min": 28.465483877393936, "train/prior_ent_std": 7.538475791613261, "train/rep_loss_mean": 5.136044883065754, "train/rep_loss_std": 8.74070038398107, "train/reward_avg": 0.037524413524402514, "train/reward_loss_mean": 0.05451213216616048, "train/reward_loss_std": 0.20902777732246453, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0245624399847455, "train/reward_neg_acc": 0.9935547841919793, "train/reward_neg_loss": 0.024638661765493453, "train/reward_pos_acc": 0.9876689728763368, "train/reward_pos_loss": 0.7261807181768947, "train/reward_pred": 0.03724592217865089, "train/reward_rate": 0.04257541232638889, "replay/size": 670500.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.452116102392984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.368615931090886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06349062919617, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.40615701675415, "timer/env.step_frac": 0.061340874820054604, "timer/env.step_avg": 0.012746646133486254, "timer/env.step_min": 0.003049135208129883, "timer/env.step_max": 1.6348669528961182, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25683164596557617, "timer/replay.add_frac": 0.0008559243426350599, "timer/replay.add_avg": 0.00017786125066868156, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0007789134979248047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0281674861907959, "timer/logger.write_frac": 9.387175404689237e-05, "timer/logger.write_avg": 0.0281674861907959, "timer/logger.write_min": 0.0281674861907959, "timer/logger.write_max": 0.0281674861907959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.678877115249634, "timer/agent.policy_frac": 0.03558872521564468, "timer/agent.policy_avg": 0.00739534426263825, "timer/agent.policy_min": 0.006005287170410156, "timer/agent.policy_max": 0.016739368438720703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.057969093322753906, "timer/dataset_frac": 0.00019318942534861491, "timer/dataset_avg": 8.028960294010236e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013971328735351562, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.9778220653534, "timer/agent.train_frac": 0.8997356576078055, "timer/agent.train_avg": 0.37393050147555873, "timer/agent.train_min": 0.36528444290161133, "timer/agent.train_max": 2.080327033996582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21933388710021973, "timer/agent.report_frac": 0.0007309582603345165, "timer/agent.report_avg": 0.21933388710021973, "timer/agent.report_min": 0.21933388710021973, "timer/agent.report_max": 0.21933388710021973, "fps": 4.812213054690442}
+{"step": 670677, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06074766355140187}
+{"step": 670816, "episode/length": 138.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07913669064748201}
+{"step": 670970, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06493506493506493}
+{"step": 671485, "episode/length": 514.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.02912621359223301}
+{"step": 671662, "episode/length": 176.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000032782555, "episode/reward_rate": 0.062146892655367235}
+{"step": 671832, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07647058823529412}
+{"step": 672019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564081897474315, "train/action_min": 0.0, "train/action_std": 3.40550113050905, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0426156965326773, "train/actor_opt_grad_steps": 335100.0, "train/actor_opt_loss": -10.377501474667902, "train/adv_mag": 0.4326457646611619, "train/adv_max": 0.3759655376819715, "train/adv_mean": 0.003084254967589378, "train/adv_min": -0.37731314889372214, "train/adv_std": 0.04776219758268905, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 3.11348229950591e-05, "train/cont_loss_std": 0.0009647323631841959, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013475502618241722, "train/cont_pos_acc": 0.999986522001763, "train/cont_pos_loss": 2.3109914352459654e-05, "train/cont_pred": 0.9947070667188461, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.353443491948794, "train/dyn_loss_std": 8.89096567728748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0246771557690346, "train/extr_critic_critic_opt_grad_steps": 335100.0, "train/extr_critic_critic_opt_loss": 16111.371147260274, "train/extr_critic_mag": 11.148947519798801, "train/extr_critic_max": 11.148947519798801, "train/extr_critic_mean": 2.973071333480208, "train/extr_critic_min": -0.48564633604598373, "train/extr_critic_std": 2.708557991132344, "train/extr_return_normed_mag": 1.4561764165146711, "train/extr_return_normed_max": 1.4561764165146711, "train/extr_return_normed_mean": 0.3789652700293554, "train/extr_return_normed_min": -0.07770653400723249, "train/extr_return_normed_std": 0.3306758558913453, "train/extr_return_rate": 0.765222820517135, "train/extr_return_raw_mag": 11.948348254373629, "train/extr_return_raw_max": 11.948348254373629, "train/extr_return_raw_mean": 2.998680137608149, "train/extr_return_raw_min": -0.7958790708894599, "train/extr_return_raw_std": 2.7476564923377884, "train/extr_reward_mag": 1.0573879790632692, "train/extr_reward_max": 1.0573879790632692, "train/extr_reward_mean": 0.058664478769857586, "train/extr_reward_min": -0.632279340534994, "train/extr_reward_std": 0.232850410554507, "train/image_loss_mean": 3.231573320414922, "train/image_loss_std": 8.551854963171971, "train/model_loss_mean": 6.497979742206939, "train/model_loss_std": 12.748186124514227, "train/model_opt_grad_norm": 27.70135415743475, "train/model_opt_grad_steps": 334832.0, "train/model_opt_loss": 8122.474649507705, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6910451177048356, "train/policy_entropy_max": 2.6910451177048356, "train/policy_entropy_mean": 0.41937636288061536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139771501495414, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41817623009420424, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0367206416717947, "train/policy_randomness_mag": 0.9498208328469159, "train/policy_randomness_max": 0.9498208328469159, "train/policy_randomness_mean": 0.14802144957731847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21670699037917673, "train/post_ent_mag": 55.24977305164076, "train/post_ent_max": 55.24977305164076, "train/post_ent_mean": 40.68133085067958, "train/post_ent_min": 19.64840084232696, "train/post_ent_std": 5.78644576138013, "train/prior_ent_mag": 76.6393485918437, "train/prior_ent_max": 76.6393485918437, "train/prior_ent_mean": 46.0090068137809, "train/prior_ent_min": 28.054723739624023, "train/prior_ent_std": 7.672001237738622, "train/rep_loss_mean": 5.353443491948794, "train/rep_loss_std": 8.89096567728748, "train/reward_avg": 0.03962970846523977, "train/reward_loss_mean": 0.05430919386140288, "train/reward_loss_std": 0.2057469617830564, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0250998392497024, "train/reward_neg_acc": 0.9947245602738367, "train/reward_neg_loss": 0.02347157153058542, "train/reward_pos_acc": 0.9912333088378383, "train/reward_pos_loss": 0.7217206260929369, "train/reward_pred": 0.03926413924726721, "train/reward_rate": 0.044252996575342464, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.39375877877076465, "replay/size": 671956.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.4107284231500312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3659738904827244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03913140296936, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.900652170181274, "timer/env.step_frac": 0.059661058497532095, "timer/env.step_avg": 0.01229440396303659, "timer/env.step_min": 0.003004312515258789, "timer/env.step_max": 1.617621898651123, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27600860595703125, "timer/replay.add_frac": 0.0009199086954639134, "timer/replay.add_avg": 0.00018956635024521378, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.00989079475402832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027811288833618164, "timer/logger.write_frac": 9.26922055252388e-05, "timer/logger.write_avg": 0.027811288833618164, "timer/logger.write_min": 0.027811288833618164, "timer/logger.write_max": 0.027811288833618164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.748457908630371, "timer/agent.policy_frac": 0.03582352028007504, "timer/agent.policy_avg": 0.007382182629553826, "timer/agent.policy_min": 0.006109476089477539, "timer/agent.policy_max": 0.015004158020019531, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05768227577209473, "timer/dataset_frac": 0.00019224917597373056, "timer/dataset_avg": 7.923389529133891e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.36645436286926, "timer/agent.train_frac": 0.9011039763335136, "timer/agent.train_avg": 0.37138249225668857, "timer/agent.train_min": 0.36496639251708984, "timer/agent.train_max": 0.38519787788391113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2244091033935547, "timer/agent.report_frac": 0.0007479327857810677, "timer/agent.report_avg": 0.2244091033935547, "timer/agent.report_min": 0.2244091033935547, "timer/agent.report_max": 0.2244091033935547, "fps": 4.852595643395069}
+{"step": 672021, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06349206349206349}
+{"step": 672223, "episode/length": 201.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.054455445544554455}
+{"step": 672556, "episode/length": 332.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.04504504504504504}
+{"step": 672786, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05652173913043478}
+{"step": 673096, "episode/length": 309.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.035483870967741936}
+{"step": 673312, "episode/length": 215.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05092592592592592}
+{"step": 673451, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46287623544534046, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56299257950044, "train/action_min": 0.0, "train/action_std": 3.4345513330379003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04223592841709164, "train/actor_opt_grad_steps": 335820.0, "train/actor_opt_loss": -13.674317020765493, "train/adv_mag": 0.4310753437834726, "train/adv_max": 0.3623833807421402, "train/adv_mean": 0.0015300019826048504, "train/adv_min": -0.3798342907512692, "train/adv_std": 0.04706709380720703, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 1.7292295829918203e-05, "train/cont_loss_std": 0.0005096843623253873, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.0017619588638180157, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 3.7298340754972917e-06, "train/cont_pred": 0.9945735923001464, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 5.431815221276082, "train/dyn_loss_std": 8.905002688018369, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9793412038977717, "train/extr_critic_critic_opt_grad_steps": 335820.0, "train/extr_critic_critic_opt_loss": 16017.421132262323, "train/extr_critic_mag": 11.134198806655238, "train/extr_critic_max": 11.134198806655238, "train/extr_critic_mean": 2.9510616937153777, "train/extr_critic_min": -0.4659439896194028, "train/extr_critic_std": 2.7326970553733934, "train/extr_return_normed_mag": 1.430904102997041, "train/extr_return_normed_max": 1.430904102997041, "train/extr_return_normed_mean": 0.37245756534623425, "train/extr_return_normed_min": -0.07865298082920867, "train/extr_return_normed_std": 0.329506537863906, "train/extr_return_rate": 0.7495232190884334, "train/extr_return_raw_mag": 11.831374571356974, "train/extr_return_raw_max": 11.831374571356974, "train/extr_return_raw_mean": 2.9638846844014988, "train/extr_return_raw_min": -0.8153066265750939, "train/extr_return_raw_std": 2.7606905262235184, "train/extr_reward_mag": 1.0592920343640824, "train/extr_reward_max": 1.0592920343640824, "train/extr_reward_mean": 0.05676670535139634, "train/extr_reward_min": -0.6299233654855003, "train/extr_reward_std": 0.2297351595381616, "train/image_loss_mean": 3.237484545774863, "train/image_loss_std": 8.506163395626444, "train/model_loss_mean": 6.550963952507772, "train/model_loss_std": 12.729052543640137, "train/model_opt_grad_norm": 28.229824616875447, "train/model_opt_grad_steps": 335551.4647887324, "train/model_opt_loss": 10861.617146236797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.678156439687165, "train/policy_entropy_max": 2.678156439687165, "train/policy_entropy_mean": 0.4293954462652475, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6226016190690054, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4299727057067441, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0513409040343593, "train/policy_randomness_mag": 0.9452716934848839, "train/policy_randomness_max": 0.9452716934848839, "train/policy_randomness_mean": 0.15155774774685712, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21975105129916903, "train/post_ent_mag": 55.05448005568813, "train/post_ent_max": 55.05448005568813, "train/post_ent_mean": 40.71675797583352, "train/post_ent_min": 19.118371762020487, "train/post_ent_std": 5.718582052580068, "train/prior_ent_mag": 76.69257924254511, "train/prior_ent_max": 76.69257924254511, "train/prior_ent_mean": 46.126309945549764, "train/prior_ent_min": 28.462462922217142, "train/prior_ent_std": 7.6225810050964355, "train/rep_loss_mean": 5.431815221276082, "train/rep_loss_std": 8.905002688018369, "train/reward_avg": 0.03810381805393058, "train/reward_loss_mean": 0.05437298360424982, "train/reward_loss_std": 0.21010761823452695, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0294088410659574, "train/reward_neg_acc": 0.9942356180137312, "train/reward_neg_loss": 0.023963694985378797, "train/reward_pos_acc": 0.9883435024342067, "train/reward_pos_loss": 0.7345230545796139, "train/reward_pred": 0.03772981417640834, "train/reward_rate": 0.04277618838028169, "replay/size": 673388.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.424103699582915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351364664525293e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053547859192, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.604739665985107, "timer/env.step_frac": 0.0653261907971292, "timer/env.step_avg": 0.013690460660604125, "timer/env.step_min": 0.002956867218017578, "timer/env.step_max": 1.8016321659088135, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.28261232376098633, "timer/replay.add_frac": 0.0009417103668896159, "timer/replay.add_avg": 0.0001973549746934262, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0024623870849609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176380157470703, "timer/logger.write_frac": 7.25205372967513e-05, "timer/logger.write_avg": 0.02176380157470703, "timer/logger.write_min": 0.02176380157470703, "timer/logger.write_max": 0.02176380157470703, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043511390686035156, "timer/checkpoint.save_frac": 1.4498705202069487e-06, "timer/checkpoint.save_avg": 0.00043511390686035156, "timer/checkpoint.save_min": 0.00043511390686035156, "timer/checkpoint.save_max": 0.00043511390686035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5157291889190674, "timer/agent.save_frac": 0.005050656926799311, "timer/agent.save_avg": 1.5157291889190674, "timer/agent.save_min": 1.5157291889190674, "timer/agent.save_max": 1.5157291889190674, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.26418136032318e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.714478015899658, "timer/agent.policy_frac": 0.04236671493239286, "timer/agent.policy_avg": 0.008878825430097527, "timer/agent.policy_min": 0.006080150604248047, "timer/agent.policy_max": 1.5108487606048584, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05772709846496582, "timer/dataset_frac": 0.00019235610942745614, "timer/dataset_avg": 8.062443919687964e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013947486877441406, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.75029706954956, "timer/agent.train_frac": 0.8888555062932365, "timer/agent.train_avg": 0.37255628082339326, "timer/agent.train_min": 0.36165404319763184, "timer/agent.train_max": 0.8725888729095459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2245924472808838, "timer/agent.report_frac": 0.0007483786733532206, "timer/agent.report_avg": 0.2245924472808838, "timer/agent.report_min": 0.2245924472808838, "timer/agent.report_max": 0.2245924472808838, "fps": 4.771551624330568}
+{"step": 673650, "episode/length": 337.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.038461538461538464}
+{"step": 673854, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05392156862745098}
+{"step": 673897, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13953488372093023}
+{"step": 674080, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.07103825136612021}
+{"step": 674167, "episode/length": 86.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.10344827586206896}
+{"step": 674439, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04411764705882353}
+{"step": 674690, "episode/length": 250.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.043824701195219126}
+{"step": 674897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5755199856228295, "train/action_min": 0.0, "train/action_std": 3.456694785091612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04242681088443431, "train/actor_opt_grad_steps": 336535.0, "train/actor_opt_loss": -12.533559261096848, "train/adv_mag": 0.40309957911570865, "train/adv_max": 0.3529575756854481, "train/adv_mean": 0.002082023486511591, "train/adv_min": -0.35475557918349904, "train/adv_std": 0.04683643098299702, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.0002017235782284151, "train/cont_loss_std": 0.006410448662637612, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.017490765459800883, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 8.263759712513597e-05, "train/cont_pred": 0.9948460434873899, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.2193483710289, "train/dyn_loss_std": 8.703049884902107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.014405808515019, "train/extr_critic_critic_opt_grad_steps": 336535.0, "train/extr_critic_critic_opt_loss": 15961.672417534723, "train/extr_critic_mag": 11.17737759484185, "train/extr_critic_max": 11.17737759484185, "train/extr_critic_mean": 2.948449535502328, "train/extr_critic_min": -0.46284760865900254, "train/extr_critic_std": 2.6860166821214886, "train/extr_return_normed_mag": 1.438927173614502, "train/extr_return_normed_max": 1.438927173614502, "train/extr_return_normed_mean": 0.373195819142792, "train/extr_return_normed_min": -0.07274690011723174, "train/extr_return_normed_std": 0.3247967300315698, "train/extr_return_rate": 0.7674542880720563, "train/extr_return_raw_mag": 11.875559224022759, "train/extr_return_raw_max": 11.875559224022759, "train/extr_return_raw_mean": 2.9658676286538443, "train/extr_return_raw_min": -0.7619761493470933, "train/extr_return_raw_std": 2.7153877086109586, "train/extr_reward_mag": 1.0561288363403745, "train/extr_reward_max": 1.0561288363403745, "train/extr_reward_mean": 0.056565130698598094, "train/extr_reward_min": -0.6265692959229151, "train/extr_reward_std": 0.22879845731788212, "train/image_loss_mean": 3.0657420638534756, "train/image_loss_std": 7.911216788821751, "train/model_loss_mean": 6.252386854754554, "train/model_loss_std": 12.03953382703993, "train/model_opt_grad_norm": 24.724979201952618, "train/model_opt_grad_steps": 336266.0, "train/model_opt_loss": 8896.511840820312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.6811025871170893, "train/policy_entropy_max": 2.6811025871170893, "train/policy_entropy_mean": 0.4401071154408985, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6337896179821756, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44129975450535613, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.059860282474094, "train/policy_randomness_mag": 0.9463115558028221, "train/policy_randomness_max": 0.9463115558028221, "train/policy_randomness_mean": 0.15533849824633864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22369992463952965, "train/post_ent_mag": 55.01778909895155, "train/post_ent_max": 55.01778909895155, "train/post_ent_mean": 40.60825877719455, "train/post_ent_min": 19.209497690200806, "train/post_ent_std": 5.708644184801313, "train/prior_ent_mag": 76.65500990549724, "train/prior_ent_max": 76.65500990549724, "train/prior_ent_mean": 45.858863512674965, "train/prior_ent_min": 27.975008249282837, "train/prior_ent_std": 7.570939057403141, "train/rep_loss_mean": 5.2193483710289, "train/rep_loss_std": 8.703049884902107, "train/reward_avg": 0.038519965226037636, "train/reward_loss_mean": 0.05483409658902221, "train/reward_loss_std": 0.22361784718102878, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0212201360199187, "train/reward_neg_acc": 0.9943757669793235, "train/reward_neg_loss": 0.023965552863147523, "train/reward_pos_acc": 0.9871233362290595, "train/reward_pos_loss": 0.7416232277949651, "train/reward_pred": 0.038095767635645136, "train/reward_rate": 0.043158637152777776, "stats/sum_log_reward": 9.671428952898298, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3986539606537138, "replay/size": 674834.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4374485042250174e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3484623422266536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3239281177521, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.88757085800171, "timer/env.step_frac": 0.0662204006941602, "timer/env.step_avg": 0.013753506817428568, "timer/env.step_min": 0.002976655960083008, "timer/env.step_max": 1.6623315811157227, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26585960388183594, "timer/replay.add_frac": 0.0008852428294611169, "timer/replay.add_avg": 0.00018385864722118668, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.00098419189453125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023526906967163086, "timer/logger.write_frac": 7.833843648295175e-05, "timer/logger.write_avg": 0.023526906967163086, "timer/logger.write_min": 0.023526906967163086, "timer/logger.write_max": 0.023526906967163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.779312372207642, "timer/agent.policy_frac": 0.035892286171687424, "timer/agent.policy_avg": 0.007454572871512892, "timer/agent.policy_min": 0.0061643123626708984, "timer/agent.policy_max": 0.014540910720825195, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0577235221862793, "timer/dataset_frac": 0.00019220420613187656, "timer/dataset_avg": 7.983889652320788e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0001480579376220703, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.65080165863037, "timer/agent.train_frac": 0.8945367868034039, "timer/agent.train_avg": 0.3715778722802633, "timer/agent.train_min": 0.3651587963104248, "timer/agent.train_max": 0.38475656509399414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22316408157348633, "timer/agent.report_frac": 0.0007430779257987974, "timer/agent.report_avg": 0.22316408157348633, "timer/agent.report_min": 0.22316408157348633, "timer/agent.report_max": 0.22316408157348633, "fps": 4.814706441386186}
+{"step": 674899, "episode/length": 208.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04784688995215311}
+{"step": 675074, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05142857142857143}
+{"step": 675256, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.054945054945054944}
+{"step": 675307, "episode/length": 50.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.13725490196078433}
+{"step": 675371, "episode/length": 63.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.109375}
+{"step": 675515, "episode/length": 143.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.0763888888888889}
+{"step": 675940, "episode/length": 424.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03058823529411765}
+{"step": 676133, "episode/length": 192.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06735751295336788}
+{"step": 676324, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06282722513089005}
+{"step": 676331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.606444464789496, "train/action_min": 0.0, "train/action_std": 3.454769876268175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04114839988243249, "train/actor_opt_grad_steps": 337255.0, "train/actor_opt_loss": -13.158754248999887, "train/adv_mag": 0.43436095325483215, "train/adv_max": 0.378733791410923, "train/adv_mean": 0.0015712385133813062, "train/adv_min": -0.38057982673247653, "train/adv_std": 0.04685992861373557, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 1.2695525440599277e-05, "train/cont_loss_std": 0.0003595927108802262, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006297893041353259, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 9.136903313352226e-06, "train/cont_pred": 0.9947051902612051, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.31591714753045, "train/dyn_loss_std": 8.788155734539032, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0081541041533153, "train/extr_critic_critic_opt_grad_steps": 337255.0, "train/extr_critic_critic_opt_loss": 15884.467366536459, "train/extr_critic_mag": 10.873174640867445, "train/extr_critic_max": 10.873174640867445, "train/extr_critic_mean": 2.837418263157209, "train/extr_critic_min": -0.44630014730824363, "train/extr_critic_std": 2.6300776071018643, "train/extr_return_normed_mag": 1.434928524825308, "train/extr_return_normed_max": 1.434928524825308, "train/extr_return_normed_mean": 0.36398661674724686, "train/extr_return_normed_min": -0.07508839586646193, "train/extr_return_normed_std": 0.32367805101805264, "train/extr_return_rate": 0.7523926140533553, "train/extr_return_raw_mag": 11.649755676587423, "train/extr_return_raw_max": 11.649755676587423, "train/extr_return_raw_mean": 2.85031441019641, "train/extr_return_raw_min": -0.7574809619949924, "train/extr_return_raw_std": 2.6593242635329566, "train/extr_reward_mag": 1.0589962138070002, "train/extr_reward_max": 1.0589962138070002, "train/extr_reward_mean": 0.05408243922930625, "train/extr_reward_min": -0.6478722757763333, "train/extr_reward_std": 0.2245450588977999, "train/image_loss_mean": 3.0778698407941394, "train/image_loss_std": 7.981523672739665, "train/model_loss_mean": 6.321639464961158, "train/model_loss_std": 12.090425742997063, "train/model_opt_grad_norm": 25.247431384192573, "train/model_opt_grad_steps": 336986.0, "train/model_opt_loss": 15804.098605685764, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6875625318951077, "train/policy_entropy_max": 2.6875625318951077, "train/policy_entropy_mean": 0.4552084029548698, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6513262482153045, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45651834375328487, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.0716865898834333, "train/policy_randomness_mag": 0.9485916304919455, "train/policy_randomness_max": 0.9485916304919455, "train/policy_randomness_mean": 0.16066859155479404, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.229889583773911, "train/post_ent_mag": 55.663979583316376, "train/post_ent_max": 55.663979583316376, "train/post_ent_mean": 40.80558040406969, "train/post_ent_min": 19.22896491156684, "train/post_ent_std": 5.779663238260481, "train/prior_ent_mag": 76.68343575795491, "train/prior_ent_max": 76.68343575795491, "train/prior_ent_mean": 46.0993570221795, "train/prior_ent_min": 28.0700782140096, "train/prior_ent_std": 7.6324472361140785, "train/rep_loss_mean": 5.31591714753045, "train/rep_loss_std": 8.788155734539032, "train/reward_avg": 0.03745252776166631, "train/reward_loss_mean": 0.05420667046888007, "train/reward_loss_std": 0.21120029812057814, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0227694014708202, "train/reward_neg_acc": 0.9941512842973074, "train/reward_neg_loss": 0.024412434173023537, "train/reward_pos_acc": 0.9866029578778479, "train/reward_pos_loss": 0.7300022898448838, "train/reward_pred": 0.037149585498910814, "train/reward_rate": 0.04222276475694445, "stats/sum_log_reward": 9.211111227671305, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 4.111111111111111, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 3.5555555555555554, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.3655780586931441, "replay/size": 676268.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.386408381548553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3512464414248074e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36869525909424, "timer/env.step_count": 1434.0, "timer/env.step_total": 22.258660316467285, "timer/env.step_frac": 0.07410446117651258, "timer/env.step_avg": 0.015522078323896293, "timer/env.step_min": 0.002763986587524414, "timer/env.step_max": 1.6948316097259521, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2502739429473877, "timer/replay.add_frac": 0.0008332224592562968, "timer/replay.add_avg": 0.00017452855156721597, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.00077056884765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02426457405090332, "timer/logger.write_frac": 8.078263292375727e-05, "timer/logger.write_avg": 0.02426457405090332, "timer/logger.write_min": 0.02426457405090332, "timer/logger.write_max": 0.02426457405090332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.448680400848389, "timer/agent.policy_frac": 0.03478618300031396, "timer/agent.policy_avg": 0.007286388006170425, "timer/agent.policy_min": 0.0059545040130615234, "timer/agent.policy_max": 0.017661094665527344, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05707693099975586, "timer/dataset_frac": 0.00019002290152281688, "timer/dataset_avg": 7.960520362587986e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.6612141132355, "timer/agent.train_frac": 0.8877796465547679, "timer/agent.train_avg": 0.37191243251497275, "timer/agent.train_min": 0.3658721446990967, "timer/agent.train_max": 0.3886699676513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22230076789855957, "timer/agent.report_frac": 0.0007400929970641772, "timer/agent.report_avg": 0.22230076789855957, "timer/agent.report_min": 0.22230076789855957, "timer/agent.report_max": 0.22230076789855957, "fps": 4.774030735284164}
+{"step": 676455, "episode/length": 130.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.09923664122137404}
+{"step": 676707, "episode/length": 251.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04365079365079365}
+{"step": 676807, "episode/length": 99.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.1}
+{"step": 677066, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05019305019305019}
+{"step": 677115, "episode/length": 48.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.10204081632653061}
+{"step": 677327, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05660377358490566}
+{"step": 677547, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05909090909090909}
+{"step": 677753, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478789853378081, "train/action_min": 0.0, "train/action_std": 3.334483845133177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04315052118519662, "train/actor_opt_grad_steps": 337970.0, "train/actor_opt_loss": -12.106932614890622, "train/adv_mag": 0.4007881292155091, "train/adv_max": 0.36963586698115714, "train/adv_mean": 0.00215684041264262, "train/adv_min": -0.355712009987361, "train/adv_std": 0.04811419808948544, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 4.85579843371743e-06, "train/cont_loss_std": 0.00010909957885299353, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.324105743051943e-06, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 4.830378667669476e-06, "train/cont_pred": 0.9949337554649568, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.138779499161411, "train/dyn_loss_std": 8.738499057125038, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0221768676395147, "train/extr_critic_critic_opt_grad_steps": 337970.0, "train/extr_critic_critic_opt_loss": 16174.328042473591, "train/extr_critic_mag": 10.92740980336364, "train/extr_critic_max": 10.92740980336364, "train/extr_critic_mean": 2.937370651204821, "train/extr_critic_min": -0.45603864797404114, "train/extr_critic_std": 2.6503004121108793, "train/extr_return_normed_mag": 1.4339020537658476, "train/extr_return_normed_max": 1.4339020537658476, "train/extr_return_normed_mean": 0.3746682237571394, "train/extr_return_normed_min": -0.07541669107658762, "train/extr_return_normed_std": 0.32470243665534004, "train/extr_return_rate": 0.7705206908810307, "train/extr_return_raw_mag": 11.710991671387578, "train/extr_return_raw_max": 11.710991671387578, "train/extr_return_raw_mean": 2.9551943658103403, "train/extr_return_raw_min": -0.7659133958144927, "train/extr_return_raw_std": 2.684443965764113, "train/extr_reward_mag": 1.0543357352135887, "train/extr_reward_max": 1.0543357352135887, "train/extr_reward_mean": 0.057449839746868105, "train/extr_reward_min": -0.6743257012165768, "train/extr_reward_std": 0.23066199728300874, "train/image_loss_mean": 2.970217832377259, "train/image_loss_std": 7.962508678436279, "train/model_loss_mean": 6.107979217045743, "train/model_loss_std": 12.123222028705436, "train/model_opt_grad_norm": 26.533582861994354, "train/model_opt_grad_steps": 337700.45070422534, "train/model_opt_loss": 18269.254538952464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2992.957746478873, "train/policy_entropy_mag": 2.665363741592622, "train/policy_entropy_max": 2.665363741592622, "train/policy_entropy_mean": 0.4059692978019446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5906201454115586, "train/policy_logprob_mag": 7.438384250855782, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4067538489758129, "train/policy_logprob_min": -7.438384250855782, "train/policy_logprob_std": 1.0284958893144633, "train/policy_randomness_mag": 0.9407564359651485, "train/policy_randomness_max": 0.9407564359651485, "train/policy_randomness_mean": 0.14328934734975787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20846299092534562, "train/post_ent_mag": 55.357184557847575, "train/post_ent_max": 55.357184557847575, "train/post_ent_mean": 40.812772885174816, "train/post_ent_min": 19.281565625902633, "train/post_ent_std": 5.703149976864667, "train/prior_ent_mag": 76.71337815405617, "train/prior_ent_max": 76.71337815405617, "train/prior_ent_mean": 45.93753959763218, "train/prior_ent_min": 28.115081061779613, "train/prior_ent_std": 7.506295110138369, "train/rep_loss_mean": 5.138779499161411, "train/rep_loss_std": 8.738499057125038, "train/reward_avg": 0.03957141277340936, "train/reward_loss_mean": 0.05448879857718105, "train/reward_loss_std": 0.21009537430716232, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0224325086029482, "train/reward_neg_acc": 0.9940710882066002, "train/reward_neg_loss": 0.023530673537350878, "train/reward_pos_acc": 0.9887950000628619, "train/reward_pos_loss": 0.7274352966899603, "train/reward_pred": 0.03919459336345464, "train/reward_rate": 0.044041593309859156, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3153934053012303, "replay/size": 677690.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.4128060320761635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3489008955814668e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0845034122467, "timer/env.step_count": 1422.0, "timer/env.step_total": 20.05129313468933, "timer/env.step_frac": 0.06681882238731765, "timer/env.step_avg": 0.014100768730442567, "timer/env.step_min": 0.0029129981994628906, "timer/env.step_max": 1.614297866821289, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26313281059265137, "timer/replay.add_frac": 0.0008768623757660946, "timer/replay.add_avg": 0.00018504417059961417, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0009057521820068359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02330636978149414, "timer/logger.write_frac": 7.766602245860253e-05, "timer/logger.write_avg": 0.02330636978149414, "timer/logger.write_min": 0.02330636978149414, "timer/logger.write_max": 0.02330636978149414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026726722717285156, "timer/checkpoint.save_frac": 8.906398835453633e-07, "timer/checkpoint.save_avg": 0.00026726722717285156, "timer/checkpoint.save_min": 0.00026726722717285156, "timer/checkpoint.save_max": 0.00026726722717285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4525108337402344, "timer/agent.save_frac": 0.00484033936182576, "timer/agent.save_avg": 1.4525108337402344, "timer/agent.save_min": 1.4525108337402344, "timer/agent.save_max": 1.4525108337402344, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.4788549836409754e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.622615337371826, "timer/agent.policy_frac": 0.04872832542533439, "timer/agent.policy_avg": 0.010283133148644041, "timer/agent.policy_min": 0.005928754806518555, "timer/agent.policy_max": 2.431727170944214, "timer/dataset_count": 711.0, "timer/dataset_total": 0.056850433349609375, "timer/dataset_frac": 0.00018944808113436644, "timer/dataset_avg": 7.995841540029448e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4154119491577, "timer/agent.train_frac": 0.8811365096914454, "timer/agent.train_avg": 0.37189228122244405, "timer/agent.train_min": 0.36521053314208984, "timer/agent.train_max": 0.383685827255249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22125744819641113, "timer/agent.report_frac": 0.0007373171412735518, "timer/agent.report_avg": 0.22125744819641113, "timer/agent.report_min": 0.22125744819641113, "timer/agent.report_max": 0.22125744819641113, "fps": 4.738562570735067}
+{"step": 677858, "episode/length": 310.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04501607717041801}
+{"step": 677922, "episode/length": 63.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09375}
+{"step": 678080, "episode/length": 157.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.06962025316455696}
+{"step": 678135, "episode/length": 54.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.14545454545454545}
+{"step": 678490, "episode/length": 354.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03380281690140845}
+{"step": 678749, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05019305019305019}
+{"step": 678914, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 679099, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07027027027027027}
+{"step": 679189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476843092176649, "train/action_min": 0.0, "train/action_std": 3.3129688964949713, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041044762978951134, "train/actor_opt_grad_steps": 338685.0, "train/actor_opt_loss": -11.737671927238503, "train/adv_mag": 0.43376151555114323, "train/adv_max": 0.35590482296215165, "train/adv_mean": 0.002888252106239343, "train/adv_min": -0.39549511339929366, "train/adv_std": 0.04716688668769267, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 3.3339427661063484e-05, "train/cont_loss_std": 0.0010190023511387697, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.007169358584986895, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.0219730056980501e-05, "train/cont_pred": 0.9948241222235892, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 5.241685635513729, "train/dyn_loss_std": 8.75671405924691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.06120465695858, "train/extr_critic_critic_opt_grad_steps": 338685.0, "train/extr_critic_critic_opt_loss": 16247.832112630209, "train/extr_critic_mag": 11.111840698454115, "train/extr_critic_max": 11.111840698454115, "train/extr_critic_mean": 2.8974208964241877, "train/extr_critic_min": -0.44365058177047306, "train/extr_critic_std": 2.701006097926034, "train/extr_return_normed_mag": 1.4293865892622206, "train/extr_return_normed_max": 1.4293865892622206, "train/extr_return_normed_mean": 0.36592431532012093, "train/extr_return_normed_min": -0.08392759764360057, "train/extr_return_normed_std": 0.328689220878813, "train/extr_return_rate": 0.757569300631682, "train/extr_return_raw_mag": 11.765925076272753, "train/extr_return_raw_max": 11.765925076272753, "train/extr_return_raw_mean": 2.921435448858473, "train/extr_return_raw_min": -0.820172808236546, "train/extr_return_raw_std": 2.733914746178521, "train/extr_reward_mag": 1.0564501020643446, "train/extr_reward_max": 1.0564501020643446, "train/extr_reward_mean": 0.056407112886922225, "train/extr_reward_min": -0.6644775917132696, "train/extr_reward_std": 0.2291669278509087, "train/image_loss_mean": 3.184232940276464, "train/image_loss_std": 8.636654158433279, "train/model_loss_mean": 6.382985538906521, "train/model_loss_std": 12.685964107513428, "train/model_opt_grad_norm": 27.17866285641988, "train/model_opt_grad_steps": 338414.8611111111, "train/model_opt_loss": 16213.552476671008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6908724870946674, "train/policy_entropy_max": 2.6908724870946674, "train/policy_entropy_mean": 0.41566648541225326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.609353505488899, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4151010397407744, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0349270916647382, "train/policy_randomness_mag": 0.9497599005699158, "train/policy_randomness_max": 0.9497599005699158, "train/policy_randomness_mean": 0.14671202811102071, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2150750458240509, "train/post_ent_mag": 55.61002344555325, "train/post_ent_max": 55.61002344555325, "train/post_ent_mean": 40.815091609954834, "train/post_ent_min": 19.263879895210266, "train/post_ent_std": 5.77599659230974, "train/prior_ent_mag": 76.64894697401259, "train/prior_ent_max": 76.64894697401259, "train/prior_ent_mean": 46.06811470455594, "train/prior_ent_min": 28.051460160149468, "train/prior_ent_std": 7.652485138840145, "train/rep_loss_mean": 5.241685635513729, "train/rep_loss_std": 8.75671405924691, "train/reward_avg": 0.037660047593009144, "train/reward_loss_mean": 0.05370793538168073, "train/reward_loss_std": 0.20679979543719026, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.026612530152003, "train/reward_neg_acc": 0.9933457920948664, "train/reward_neg_loss": 0.0241611399817177, "train/reward_pos_acc": 0.990942077504264, "train/reward_pos_loss": 0.7202971362405353, "train/reward_pred": 0.03742723873195549, "train/reward_rate": 0.042412651909722224, "stats/sum_log_reward": 9.975000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.375, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.43807574175298214, "replay/size": 679126.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3923178330105328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359948872855779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05297565460205, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.346909761428833, "timer/env.step_frac": 0.07114380290632998, "timer/env.step_avg": 0.014865536045563255, "timer/env.step_min": 0.00278472900390625, "timer/env.step_max": 1.683156967163086, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2667977809906006, "timer/replay.add_frac": 0.0008891689222829695, "timer/replay.add_avg": 0.00018579232659512575, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009429454803466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031548261642456055, "timer/logger.write_frac": 0.00010514230553331352, "timer/logger.write_avg": 0.031548261642456055, "timer/logger.write_min": 0.031548261642456055, "timer/logger.write_max": 0.031548261642456055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.62638545036316, "timer/agent.policy_frac": 0.035415031053034576, "timer/agent.policy_avg": 0.007399989867940919, "timer/agent.policy_min": 0.005988597869873047, "timer/agent.policy_max": 0.015424489974975586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.057659149169921875, "timer/dataset_frac": 0.00019216323065662466, "timer/dataset_avg": 8.030522168512796e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001399517059326172, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.058185338974, "timer/agent.train_frac": 0.8900367835258227, "timer/agent.train_avg": 0.3719473333411894, "timer/agent.train_min": 0.3654158115386963, "timer/agent.train_max": 0.3849360942840576, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225666046142578, "timer/agent.report_frac": 0.0007417576983820997, "timer/agent.report_avg": 0.2225666046142578, "timer/agent.report_min": 0.2225666046142578, "timer/agent.report_max": 0.2225666046142578, "fps": 4.785736159090784}
+{"step": 679267, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07142857142857142}
+{"step": 679587, "episode/length": 319.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.025}
+{"step": 679744, "episode/length": 156.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.08280254777070063}
+{"step": 679943, "episode/length": 198.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04522613065326633}
+{"step": 680188, "episode/length": 244.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.04081632653061224}
+{"step": 680411, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04932735426008968}
+{"step": 680643, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493382284086045, "train/action_min": 0.0, "train/action_std": 3.371571175039631, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04174579435015378, "train/actor_opt_grad_steps": 339410.0, "train/actor_opt_loss": -13.140915746558202, "train/adv_mag": 0.41558578977846117, "train/adv_max": 0.36238252790006875, "train/adv_mean": 0.00195365241243925, "train/adv_min": -0.3595795643656221, "train/adv_std": 0.04672557227823832, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 0.0001409637701269668, "train/cont_loss_std": 0.004418249906835122, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.019981126436945343, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 6.752787349058377e-06, "train/cont_pred": 0.9947402069013412, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.237280231632599, "train/dyn_loss_std": 8.804360357049394, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0288739710637969, "train/extr_critic_critic_opt_grad_steps": 339410.0, "train/extr_critic_critic_opt_loss": 15940.133093428938, "train/extr_critic_mag": 10.986967125984087, "train/extr_critic_max": 10.986967125984087, "train/extr_critic_mean": 3.024379653473423, "train/extr_critic_min": -0.44276014746051945, "train/extr_critic_std": 2.7014076775067473, "train/extr_return_normed_mag": 1.4298649944671213, "train/extr_return_normed_max": 1.4298649944671213, "train/extr_return_normed_mean": 0.38379617933541127, "train/extr_return_normed_min": -0.07993885583869398, "train/extr_return_normed_std": 0.33041797108846166, "train/extr_return_rate": 0.7718090463991034, "train/extr_return_raw_mag": 11.68912259193316, "train/extr_return_raw_max": 11.68912259193316, "train/extr_return_raw_mean": 3.0405230326195287, "train/extr_return_raw_min": -0.7932202468996179, "train/extr_return_raw_std": 2.7317651004007417, "train/extr_reward_mag": 1.0589016430998501, "train/extr_reward_max": 1.0589016430998501, "train/extr_reward_mean": 0.05709927666881313, "train/extr_reward_min": -0.6398499844825432, "train/extr_reward_std": 0.23086972575481624, "train/image_loss_mean": 3.062746096963752, "train/image_loss_std": 8.314228188501646, "train/model_loss_mean": 6.260246440155865, "train/model_loss_std": 12.472155570983887, "train/model_opt_grad_norm": 24.703143145940075, "train/model_opt_grad_steps": 339139.0, "train/model_opt_loss": 15650.616050406677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6848635542882633, "train/policy_entropy_max": 2.6848635542882633, "train/policy_entropy_mean": 0.42210660895256147, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6146244214822169, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42087694226878963, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0393161022499815, "train/policy_randomness_mag": 0.9476390129899326, "train/policy_randomness_max": 0.9476390129899326, "train/policy_randomness_mean": 0.14898510981504232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21693544661345548, "train/post_ent_mag": 55.16461155512562, "train/post_ent_max": 55.16461155512562, "train/post_ent_mean": 40.786382649042835, "train/post_ent_min": 19.69901692377378, "train/post_ent_std": 5.7186010243141485, "train/prior_ent_mag": 76.70532017537992, "train/prior_ent_max": 76.70532017537992, "train/prior_ent_mean": 45.993003270397445, "train/prior_ent_min": 28.349809960143208, "train/prior_ent_std": 7.627559465904758, "train/rep_loss_mean": 5.237280231632599, "train/rep_loss_std": 8.804360357049394, "train/reward_avg": 0.03911199693708387, "train/reward_loss_mean": 0.054991125703266225, "train/reward_loss_std": 0.21209699915696498, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0205002353615957, "train/reward_neg_acc": 0.9941067017921029, "train/reward_neg_loss": 0.024463063131456506, "train/reward_pos_acc": 0.9903021454811096, "train/reward_pos_loss": 0.7233165118792285, "train/reward_pred": 0.03881916232815344, "train/reward_rate": 0.04381153681506849, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3866327181458473, "replay/size": 680580.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.464448238829307e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3439535602742738e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37567591667175, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.2654972076416, "timer/env.step_frac": 0.06080884263314549, "timer/env.step_avg": 0.01256224017031747, "timer/env.step_min": 0.0031194686889648438, "timer/env.step_max": 1.6009929180145264, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26281261444091797, "timer/replay.add_frac": 0.0008749463938412434, "timer/replay.add_avg": 0.0001807514542234649, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0009250640869140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02118706703186035, "timer/logger.write_frac": 7.053522881705618e-05, "timer/logger.write_avg": 0.02118706703186035, "timer/logger.write_min": 0.02118706703186035, "timer/logger.write_max": 0.02118706703186035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.879506349563599, "timer/agent.policy_frac": 0.03621966497907014, "timer/agent.policy_avg": 0.007482466540277578, "timer/agent.policy_min": 0.005995035171508789, "timer/agent.policy_max": 0.01456141471862793, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05807995796203613, "timer/dataset_frac": 0.00019335772706891317, "timer/dataset_avg": 7.988990091064117e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001342296600341797, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.2293939590454, "timer/agent.train_frac": 0.899638072005573, "timer/agent.train_avg": 0.3717048059959359, "timer/agent.train_min": 0.3652307987213135, "timer/agent.train_max": 0.3847806453704834, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2215733528137207, "timer/agent.report_frac": 0.0007376541130953231, "timer/agent.report_avg": 0.2215733528137207, "timer/agent.report_min": 0.2215733528137207, "timer/agent.report_max": 0.2215733528137207, "fps": 4.840499278123239}
+{"step": 680679, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05223880597014925}
+{"step": 680742, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.8999999687075615, "episode/reward_rate": 0.09523809523809523}
+{"step": 680997, "episode/length": 254.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.054901960784313725}
+{"step": 681204, "episode/length": 206.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.057971014492753624}
+{"step": 681371, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.05389221556886228}
+{"step": 681595, "episode/length": 223.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0625}
+{"step": 682075, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442784269091109, "train/action_min": 0.0, "train/action_std": 3.3669055515611674, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04146659022695582, "train/actor_opt_grad_steps": 340130.0, "train/actor_opt_loss": -11.859499608127164, "train/adv_mag": 0.4051340961120498, "train/adv_max": 0.36368523391199786, "train/adv_mean": 0.002210349603892225, "train/adv_min": -0.35148150400376654, "train/adv_std": 0.046400924331285585, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 8.928741944863516e-06, "train/cont_loss_std": 0.00022843146128342224, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008796417399653893, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 3.7947632273551814e-06, "train/cont_pred": 0.9947601825418607, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 5.1767424395386605, "train/dyn_loss_std": 8.792562028052101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9957269203494972, "train/extr_critic_critic_opt_grad_steps": 340130.0, "train/extr_critic_critic_opt_loss": 16004.460786201584, "train/extr_critic_mag": 11.142718247964348, "train/extr_critic_max": 11.142718247964348, "train/extr_critic_mean": 2.983396117116364, "train/extr_critic_min": -0.43381834030151367, "train/extr_critic_std": 2.687498717240884, "train/extr_return_normed_mag": 1.4401263989193338, "train/extr_return_normed_max": 1.4401263989193338, "train/extr_return_normed_mean": 0.3736046181178429, "train/extr_return_normed_min": -0.07794155862549661, "train/extr_return_normed_std": 0.32581957377178566, "train/extr_return_rate": 0.7703813138142438, "train/extr_return_raw_mag": 11.909889758472712, "train/extr_return_raw_max": 11.909889758472712, "train/extr_return_raw_mean": 3.0018653332347602, "train/extr_return_raw_min": -0.7702669455132014, "train/extr_return_raw_std": 2.7215447425842285, "train/extr_reward_mag": 1.0659571096930704, "train/extr_reward_max": 1.0659571096930704, "train/extr_reward_mean": 0.056996315560290514, "train/extr_reward_min": -0.6594337392860735, "train/extr_reward_std": 0.23028226910342633, "train/image_loss_mean": 3.003826791132, "train/image_loss_std": 8.236812195307772, "train/model_loss_mean": 6.163219404892183, "train/model_loss_std": 12.422973108963228, "train/model_opt_grad_norm": 27.986139910561697, "train/model_opt_grad_steps": 339858.23943661974, "train/model_opt_loss": 15622.682300836268, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6436918084050567, "train/policy_entropy_max": 2.6436918084050567, "train/policy_entropy_mean": 0.4057223704499258, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885370487058666, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4061948088273196, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.029334909479383, "train/policy_randomness_mag": 0.9331071956056944, "train/policy_randomness_max": 0.9331071956056944, "train/policy_randomness_mean": 0.14320219234681467, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20772774632967694, "train/post_ent_mag": 54.875082150311535, "train/post_ent_max": 54.875082150311535, "train/post_ent_mean": 40.82527773145219, "train/post_ent_min": 19.428013506069988, "train/post_ent_std": 5.673402410157969, "train/prior_ent_mag": 76.6883652378136, "train/prior_ent_max": 76.6883652378136, "train/prior_ent_mean": 45.9702446091343, "train/prior_ent_min": 28.673450577426966, "train/prior_ent_std": 7.49126412163318, "train/rep_loss_mean": 5.1767424395386605, "train/rep_loss_std": 8.792562028052101, "train/reward_avg": 0.03835964989914021, "train/reward_loss_mean": 0.05333822944634397, "train/reward_loss_std": 0.20895800791995625, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.028417060072993, "train/reward_neg_acc": 0.9943070747482945, "train/reward_neg_loss": 0.023165856540517907, "train/reward_pos_acc": 0.9893672357142811, "train/reward_pos_loss": 0.7238400477758595, "train/reward_pred": 0.03804994135780234, "train/reward_rate": 0.043023767605633804, "stats/sum_log_reward": 10.099999984105429, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 17.166666666666668, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.3451105033357938, "replay/size": 682012.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3841452785044408e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3457455115611328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0859487056732, "timer/env.step_count": 1432.0, "timer/env.step_total": 18.62991738319397, "timer/env.step_frac": 0.06208193840314179, "timer/env.step_avg": 0.013009718843012549, "timer/env.step_min": 0.0029249191284179688, "timer/env.step_max": 1.637213945388794, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26361560821533203, "timer/replay.add_frac": 0.0008784670170408025, "timer/replay.add_avg": 0.0001840891118822151, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008413791656494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019833803176879883, "timer/logger.write_frac": 6.609374168443002e-05, "timer/logger.write_avg": 0.019833803176879883, "timer/logger.write_min": 0.019833803176879883, "timer/logger.write_max": 0.019833803176879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030303001403808594, "timer/checkpoint.save_frac": 1.0098107403732532e-06, "timer/checkpoint.save_avg": 0.00030303001403808594, "timer/checkpoint.save_min": 0.00030303001403808594, "timer/checkpoint.save_max": 0.00030303001403808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2339682579040527, "timer/agent.save_frac": 0.00411204944192285, "timer/agent.save_avg": 1.2339682579040527, "timer/agent.save_min": 1.2339682579040527, "timer/agent.save_max": 1.2339682579040527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.584426879882812e-05, "timer/replay.save_frac": 3.1938939231317685e-07, "timer/replay.save_avg": 9.584426879882812e-05, "timer/replay.save_min": 9.584426879882812e-05, "timer/replay.save_max": 9.584426879882812e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 14.184039115905762, "timer/agent.policy_frac": 0.04726658871261442, "timer/agent.policy_avg": 0.009905055248537542, "timer/agent.policy_min": 0.006018400192260742, "timer/agent.policy_max": 2.420560359954834, "timer/dataset_count": 716.0, "timer/dataset_total": 0.057401180267333984, "timer/dataset_frac": 0.0001912824659565568, "timer/dataset_avg": 8.016924618342735e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2764046192169, "timer/agent.train_frac": 0.8873337980925692, "timer/agent.train_avg": 0.3718944198592415, "timer/agent.train_min": 0.3657815456390381, "timer/agent.train_max": 0.38457489013671875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22147679328918457, "timer/agent.report_frac": 0.0007380445310567035, "timer/agent.report_avg": 0.22147679328918457, "timer/agent.report_min": 0.22147679328918457, "timer/agent.report_max": 0.22147679328918457, "fps": 4.771862593508441}
+{"step": 682151, "episode/length": 555.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.019784172661870502}
+{"step": 682336, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 682518, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06593406593406594}
+{"step": 682825, "episode/length": 306.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04234527687296417}
+{"step": 683051, "episode/length": 225.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05752212389380531}
+{"step": 683289, "episode/length": 237.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.046218487394957986}
+{"step": 683529, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521486883294092, "train/action_min": 0.0, "train/action_std": 3.3813317246633035, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041842083204282475, "train/actor_opt_grad_steps": 340850.0, "train/actor_opt_loss": -13.014505021784403, "train/adv_mag": 0.42894573162679805, "train/adv_max": 0.38390739813242875, "train/adv_mean": 0.0014815487061553055, "train/adv_min": -0.37055715346989565, "train/adv_std": 0.047356281786748805, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 3.703235210969225e-05, "train/cont_loss_std": 0.0011526157596354594, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.004179882384897292, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.1323052705796265e-05, "train/cont_pred": 0.9947335352636364, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.461698238163779, "train/dyn_loss_std": 8.866859599335553, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0320334295703941, "train/extr_critic_critic_opt_grad_steps": 340850.0, "train/extr_critic_critic_opt_loss": 16014.34686697346, "train/extr_critic_mag": 11.376149660920444, "train/extr_critic_max": 11.376149660920444, "train/extr_critic_mean": 3.0180485477186227, "train/extr_critic_min": -0.41112355826652214, "train/extr_critic_std": 2.7918656166285682, "train/extr_return_normed_mag": 1.4576196637872147, "train/extr_return_normed_max": 1.4576196637872147, "train/extr_return_normed_mean": 0.37250153699966326, "train/extr_return_normed_min": -0.07434130097701125, "train/extr_return_normed_std": 0.33377649114556507, "train/extr_return_rate": 0.7684102482991676, "train/extr_return_raw_mag": 12.19580463513936, "train/extr_return_raw_max": 12.19580463513936, "train/extr_return_raw_mean": 3.0305080511798597, "train/extr_return_raw_min": -0.7436727795698871, "train/extr_return_raw_std": 2.8195869008155716, "train/extr_reward_mag": 1.0580820906652164, "train/extr_reward_max": 1.0580820906652164, "train/extr_reward_mean": 0.05524349130996286, "train/extr_reward_min": -0.6244667245917124, "train/extr_reward_std": 0.22710578837623335, "train/image_loss_mean": 3.1913556775001632, "train/image_loss_std": 8.456955766024654, "train/model_loss_mean": 6.523129737540467, "train/model_loss_std": 12.602916221096091, "train/model_opt_grad_norm": 31.13134092827366, "train/model_opt_grad_steps": 340577.2602739726, "train/model_opt_loss": 10255.354365100598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1575.3424657534247, "train/policy_entropy_mag": 2.680151838145844, "train/policy_entropy_max": 2.680151838145844, "train/policy_entropy_mean": 0.4345905501140307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6308648974111636, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43508478182635896, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0535296699772143, "train/policy_randomness_mag": 0.9459759813465484, "train/policy_randomness_max": 0.9459759813465484, "train/policy_randomness_mean": 0.15339139593790654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2226676229540616, "train/post_ent_mag": 54.8506511531464, "train/post_ent_max": 54.8506511531464, "train/post_ent_mean": 40.585105739227714, "train/post_ent_min": 19.23589702501689, "train/post_ent_std": 5.703318674270421, "train/prior_ent_mag": 76.64472031266722, "train/prior_ent_max": 76.64472031266722, "train/prior_ent_mean": 46.062194615194244, "train/prior_ent_min": 28.281604714589577, "train/prior_ent_std": 7.538508990039564, "train/rep_loss_mean": 5.461698238163779, "train/rep_loss_std": 8.866859599335553, "train/reward_avg": 0.039042433570713214, "train/reward_loss_mean": 0.05471810642374705, "train/reward_loss_std": 0.21285372400937014, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0234624849606866, "train/reward_neg_acc": 0.9939503833039166, "train/reward_neg_loss": 0.023668834901325507, "train/reward_pos_acc": 0.9868314168224596, "train/reward_pos_loss": 0.7368532582505108, "train/reward_pred": 0.03856123455685295, "train/reward_rate": 0.043584118150684935, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.8333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5460754955808321, "replay/size": 683466.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3854126438314027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378429149171181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35186982154846, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.343918323516846, "timer/env.step_frac": 0.061074759862210046, "timer/env.step_avg": 0.01261617491301021, "timer/env.step_min": 0.0028772354125976562, "timer/env.step_max": 1.6431512832641602, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25989770889282227, "timer/replay.add_frac": 0.0008653107738175171, "timer/replay.add_avg": 0.00017874670487814462, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0009367465972900391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02135300636291504, "timer/logger.write_frac": 7.109330258407164e-05, "timer/logger.write_avg": 0.02135300636291504, "timer/logger.write_min": 0.02135300636291504, "timer/logger.write_max": 0.02135300636291504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.755369663238525, "timer/agent.policy_frac": 0.035809231584370486, "timer/agent.policy_avg": 0.007397090552433649, "timer/agent.policy_min": 0.0060689449310302734, "timer/agent.policy_max": 0.0186007022857666, "timer/dataset_count": 727.0, "timer/dataset_total": 0.057159423828125, "timer/dataset_frac": 0.00019030820038538727, "timer/dataset_avg": 7.862369164803989e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.25255823135376, "timer/agent.train_frac": 0.8997865017185411, "timer/agent.train_avg": 0.37173666881891854, "timer/agent.train_min": 0.3628525733947754, "timer/agent.train_max": 0.3847205638885498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052645683288574, "timer/agent.report_frac": 0.0007342270150137893, "timer/agent.report_avg": 0.22052645683288574, "timer/agent.report_min": 0.22052645683288574, "timer/agent.report_max": 0.22052645683288574, "fps": 4.840901114271969}
+{"step": 683596, "episode/length": 306.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.048859934853420196}
+{"step": 683807, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.061611374407582936}
+{"step": 683994, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06951871657754011}
+{"step": 684302, "episode/length": 307.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.048701298701298704}
+{"step": 684536, "episode/length": 233.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05982905982905983}
+{"step": 684730, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06701030927835051}
+{"step": 684975, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04897959183673469}
+{"step": 684976, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457543267144097, "train/action_min": 0.0, "train/action_std": 3.3704164028167725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04192892493059238, "train/actor_opt_grad_steps": 341575.0, "train/actor_opt_loss": -12.683931547734472, "train/adv_mag": 0.3800109666254785, "train/adv_max": 0.35887301506267655, "train/adv_mean": 0.002054152075894914, "train/adv_min": -0.32865615540908444, "train/adv_std": 0.04669453524467018, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 3.0346144193455553e-05, "train/cont_loss_std": 0.0009272927532841319, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.004657994733295447, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.176164560289032e-06, "train/cont_pred": 0.9949152254396014, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.251320117049747, "train/dyn_loss_std": 8.78394209014045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0085318030582533, "train/extr_critic_critic_opt_grad_steps": 341575.0, "train/extr_critic_critic_opt_loss": 16097.012288411459, "train/extr_critic_mag": 11.104650894800821, "train/extr_critic_max": 11.104650894800821, "train/extr_critic_mean": 2.9469852066702313, "train/extr_critic_min": -0.4526856376065148, "train/extr_critic_std": 2.671524158782429, "train/extr_return_normed_mag": 1.4154988593525357, "train/extr_return_normed_max": 1.4154988593525357, "train/extr_return_normed_mean": 0.36796150563491714, "train/extr_return_normed_min": -0.08075608644220564, "train/extr_return_normed_std": 0.3230320486343569, "train/extr_return_rate": 0.7894160921374956, "train/extr_return_raw_mag": 11.711126340760124, "train/extr_return_raw_max": 11.711126340760124, "train/extr_return_raw_mean": 2.964145988225937, "train/extr_return_raw_min": -0.7825454158915414, "train/extr_return_raw_std": 2.6975141217311225, "train/extr_reward_mag": 1.053202509880066, "train/extr_reward_max": 1.053202509880066, "train/extr_reward_mean": 0.05653302314587765, "train/extr_reward_min": -0.5997258010837767, "train/extr_reward_std": 0.22937996375064054, "train/image_loss_mean": 3.0652893533309302, "train/image_loss_std": 8.260415507687462, "train/model_loss_mean": 6.270265625582801, "train/model_loss_std": 12.438711298836601, "train/model_opt_grad_norm": 25.228166143099468, "train/model_opt_grad_steps": 341302.0, "train/model_opt_loss": 10573.377638075086, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.682202008035448, "train/policy_entropy_max": 2.682202008035448, "train/policy_entropy_mean": 0.4230853294332822, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6182779744267464, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42275343566305107, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.043618395096726, "train/policy_randomness_mag": 0.9466996060477363, "train/policy_randomness_max": 0.9466996060477363, "train/policy_randomness_mean": 0.14933055587526825, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21822499194078976, "train/post_ent_mag": 55.57421345180936, "train/post_ent_max": 55.57421345180936, "train/post_ent_mean": 40.85411638683743, "train/post_ent_min": 19.443294207255047, "train/post_ent_std": 5.736677851941851, "train/prior_ent_mag": 76.65399593777127, "train/prior_ent_max": 76.65399593777127, "train/prior_ent_mean": 46.09183496899075, "train/prior_ent_min": 28.507416513231064, "train/prior_ent_std": 7.55293157365587, "train/rep_loss_mean": 5.251320117049747, "train/rep_loss_std": 8.78394209014045, "train/reward_avg": 0.0393174910503957, "train/reward_loss_mean": 0.05415377765893936, "train/reward_loss_std": 0.21400720274282825, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0203325615988836, "train/reward_neg_acc": 0.9942688064442741, "train/reward_neg_loss": 0.02308928852693902, "train/reward_pos_acc": 0.9902418346868621, "train/reward_pos_loss": 0.7301768834392229, "train/reward_pred": 0.03896697062171168, "train/reward_rate": 0.043863932291666664, "stats/sum_log_reward": 12.671428680419922, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4211215249129704, "replay/size": 684913.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3970116415597194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3443609161165906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.46208238601685, "timer/env.step_count": 1447.0, "timer/env.step_total": 19.95098352432251, "timer/env.step_frac": 0.06640100263530292, "timer/env.step_avg": 0.01378782551784555, "timer/env.step_min": 0.002894878387451172, "timer/env.step_max": 1.6545145511627197, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2550983428955078, "timer/replay.add_frac": 0.0008490200855619836, "timer/replay.add_avg": 0.00017629463918141522, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0009143352508544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021131038665771484, "timer/logger.write_frac": 7.032847039455551e-05, "timer/logger.write_avg": 0.021131038665771484, "timer/logger.write_min": 0.021131038665771484, "timer/logger.write_max": 0.021131038665771484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.67771053314209, "timer/agent.policy_frac": 0.0355376307331318, "timer/agent.policy_avg": 0.007379205620692529, "timer/agent.policy_min": 0.006039619445800781, "timer/agent.policy_max": 0.016398906707763672, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05729055404663086, "timer/dataset_frac": 0.00019067482189991336, "timer/dataset_avg": 7.924004709077574e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8327884674072, "timer/agent.train_frac": 0.8947311631889242, "timer/agent.train_avg": 0.371829582942472, "timer/agent.train_min": 0.3658897876739502, "timer/agent.train_max": 0.38404417037963867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2231581211090088, "timer/agent.report_frac": 0.0007427164164505382, "timer/agent.report_avg": 0.2231581211090088, "timer/agent.report_min": 0.2231581211090088, "timer/agent.report_max": 0.2231581211090088, "fps": 4.8158264701934215}
+{"step": 685272, "episode/length": 296.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04040404040404041}
+{"step": 685460, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06914893617021277}
+{"step": 685618, "episode/length": 157.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.0759493670886076}
+{"step": 685837, "episode/length": 218.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0547945205479452}
+{"step": 686032, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06153846153846154}
+{"step": 686086, "episode/length": 53.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.12962962962962962}
+{"step": 686375, "episode/length": 288.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04844290657439446}
+{"step": 686397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512733137103873, "train/action_min": 0.0, "train/action_std": 3.39623804831169, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04245458590522618, "train/actor_opt_grad_steps": 342290.0, "train/actor_opt_loss": -11.56614764643387, "train/adv_mag": 0.4175548704577164, "train/adv_max": 0.3643396198749542, "train/adv_mean": 0.0025960123329894767, "train/adv_min": -0.36771355716275494, "train/adv_std": 0.04792078684123469, "train/cont_avg": 0.9948008362676056, "train/cont_loss_mean": 7.248988450262247e-05, "train/cont_loss_std": 0.0022929576658094154, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.01125895162945867, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 7.025143527037769e-06, "train/cont_pred": 0.9948110790319846, "train/cont_rate": 0.9948008362676056, "train/dyn_loss_mean": 5.223437208524892, "train/dyn_loss_std": 8.786913979221397, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0341216107489357, "train/extr_critic_critic_opt_grad_steps": 342290.0, "train/extr_critic_critic_opt_loss": 16113.427981954226, "train/extr_critic_mag": 11.129544137229383, "train/extr_critic_max": 11.129544137229383, "train/extr_critic_mean": 2.9911309295976665, "train/extr_critic_min": -0.49075002569547843, "train/extr_critic_std": 2.657452680695225, "train/extr_return_normed_mag": 1.429652769800643, "train/extr_return_normed_max": 1.429652769800643, "train/extr_return_normed_mean": 0.37681206410199825, "train/extr_return_normed_min": -0.08469977565634419, "train/extr_return_normed_std": 0.3231907820617649, "train/extr_return_rate": 0.7836671446410703, "train/extr_return_raw_mag": 11.77574512320505, "train/extr_return_raw_max": 11.77574512320505, "train/extr_return_raw_mean": 3.0127263388163605, "train/extr_return_raw_min": -0.8286138873704723, "train/extr_return_raw_std": 2.6902423710890218, "train/extr_reward_mag": 1.053447038355008, "train/extr_reward_max": 1.053447038355008, "train/extr_reward_mean": 0.0582731742359383, "train/extr_reward_min": -0.6492883101315565, "train/extr_reward_std": 0.2328751118670047, "train/image_loss_mean": 3.1178579951675847, "train/image_loss_std": 8.300559319240946, "train/model_loss_mean": 6.306430098036645, "train/model_loss_std": 12.453874977541641, "train/model_opt_grad_norm": 25.31947499933377, "train/model_opt_grad_steps": 342017.0, "train/model_opt_loss": 15766.075236575703, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.66921779471384, "train/policy_entropy_max": 2.66921779471384, "train/policy_entropy_mean": 0.4219970142757389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6155184847368321, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4219094619784557, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0452692609437755, "train/policy_randomness_mag": 0.942116744921241, "train/policy_randomness_max": 0.942116744921241, "train/policy_randomness_mean": 0.14894642785821163, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21725101475144776, "train/post_ent_mag": 55.37720892462932, "train/post_ent_max": 55.37720892462932, "train/post_ent_mean": 40.833943326708294, "train/post_ent_min": 19.471823813210072, "train/post_ent_std": 5.752955987419881, "train/prior_ent_mag": 76.63789410658286, "train/prior_ent_max": 76.63789410658286, "train/prior_ent_mean": 46.033833248514526, "train/prior_ent_min": 28.37788501255949, "train/prior_ent_std": 7.570097869550678, "train/rep_loss_mean": 5.223437208524892, "train/rep_loss_std": 8.786913979221397, "train/reward_avg": 0.039139524154679875, "train/reward_loss_mean": 0.05443725944824622, "train/reward_loss_std": 0.21008945812641736, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.017972341725524, "train/reward_neg_acc": 0.9941977170151723, "train/reward_neg_loss": 0.023441201469428102, "train/reward_pos_acc": 0.9896434419591662, "train/reward_pos_loss": 0.7307302884652581, "train/reward_pred": 0.03884025450638482, "train/reward_rate": 0.04383527728873239, "stats/sum_log_reward": 10.528571605682373, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.142857142857142, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.35243149527481626, "replay/size": 686334.0, "replay/inserts": 1421.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.4928909076258466e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.337332061574429e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1801209449768, "timer/env.step_count": 1421.0, "timer/env.step_total": 22.090524435043335, "timer/env.step_frac": 0.07359089724363374, "timer/env.step_avg": 0.015545759630572368, "timer/env.step_min": 0.002928018569946289, "timer/env.step_max": 2.3420844078063965, "timer/replay.add_count": 1421.0, "timer/replay.add_total": 0.28825926780700684, "timer/replay.add_frac": 0.0009602876662836875, "timer/replay.add_avg": 0.00020285662759113781, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0009512901306152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028311491012573242, "timer/logger.write_frac": 9.431500967968081e-05, "timer/logger.write_avg": 0.028311491012573242, "timer/logger.write_min": 0.028311491012573242, "timer/logger.write_max": 0.028311491012573242, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002598762512207031, "timer/checkpoint.save_frac": 8.657343810862765e-07, "timer/checkpoint.save_avg": 0.0002598762512207031, "timer/checkpoint.save_min": 0.0002598762512207031, "timer/checkpoint.save_max": 0.0002598762512207031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4781842231750488, "timer/agent.save_frac": 0.004924324164177417, "timer/agent.save_avg": 1.4781842231750488, "timer/agent.save_min": 1.4781842231750488, "timer/agent.save_max": 1.4781842231750488, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.390975952148438e-05, "timer/replay.save_frac": 2.462180349878401e-07, "timer/replay.save_avg": 7.390975952148438e-05, "timer/replay.save_min": 7.390975952148438e-05, "timer/replay.save_max": 7.390975952148438e-05, "timer/agent.policy_count": 1421.0, "timer/agent.policy_total": 12.56353235244751, "timer/agent.policy_frac": 0.041853312314276844, "timer/agent.policy_avg": 0.008841331704748424, "timer/agent.policy_min": 0.0058934688568115234, "timer/agent.policy_max": 1.4722063541412354, "timer/dataset_count": 711.0, "timer/dataset_total": 0.056943416595458984, "timer/dataset_frac": 0.00018969749367879276, "timer/dataset_avg": 8.00891935238523e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4986047744751, "timer/agent.train_frac": 0.8811329808976852, "timer/agent.train_avg": 0.3720092894155768, "timer/agent.train_min": 0.3656036853790283, "timer/agent.train_max": 0.38544487953186035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22257733345031738, "timer/agent.report_frac": 0.0007414792583520744, "timer/agent.report_avg": 0.22257733345031738, "timer/agent.report_min": 0.22257733345031738, "timer/agent.report_max": 0.22257733345031738, "fps": 4.7337258372631466}
+{"step": 686436, "episode/length": 60.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13114754098360656}
+{"step": 686636, "episode/length": 199.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.07}
+{"step": 686825, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06349206349206349}
+{"step": 687076, "episode/length": 250.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05179282868525897}
+{"step": 687265, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06878306878306878}
+{"step": 687437, "episode/length": 171.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06395348837209303}
+{"step": 687616, "episode/length": 178.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07262569832402235}
+{"step": 687803, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.053475935828877004}
+{"step": 687833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522128634982639, "train/action_min": 0.0, "train/action_std": 3.431783619854185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04202014228536023, "train/actor_opt_grad_steps": 343005.0, "train/actor_opt_loss": -13.140454044772518, "train/adv_mag": 0.42186509672966266, "train/adv_max": 0.3618069046901332, "train/adv_mean": 0.002211276723856928, "train/adv_min": -0.3844701672593753, "train/adv_std": 0.04682519623181886, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 0.0001334180080038531, "train/cont_loss_std": 0.004115635945233404, "train/cont_neg_acc": 0.9964726641774178, "train/cont_neg_loss": 0.008746856572642514, "train/cont_pos_acc": 0.9999726903107431, "train/cont_pos_loss": 7.757703511816298e-05, "train/cont_pred": 0.9948189299967554, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.204961127705044, "train/dyn_loss_std": 8.792852103710175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0219623951448336, "train/extr_critic_critic_opt_grad_steps": 343005.0, "train/extr_critic_critic_opt_loss": 15822.082261827258, "train/extr_critic_mag": 11.21437550915612, "train/extr_critic_max": 11.21437550915612, "train/extr_critic_mean": 3.020779248740938, "train/extr_critic_min": -0.49034475452370113, "train/extr_critic_std": 2.7127988967630596, "train/extr_return_normed_mag": 1.4401046468151941, "train/extr_return_normed_max": 1.4401046468151941, "train/extr_return_normed_mean": 0.3812859658565786, "train/extr_return_normed_min": -0.08044337776179115, "train/extr_return_normed_std": 0.3289845238129298, "train/extr_return_rate": 0.7691433777411779, "train/extr_return_raw_mag": 11.865579936239454, "train/extr_return_raw_max": 11.865579936239454, "train/extr_return_raw_mean": 3.039218344622188, "train/extr_return_raw_min": -0.8096729835702313, "train/extr_return_raw_std": 2.742524676852756, "train/extr_reward_mag": 1.0557459261682298, "train/extr_reward_max": 1.0557459261682298, "train/extr_reward_mean": 0.05594767495575878, "train/extr_reward_min": -0.6095147778590521, "train/extr_reward_std": 0.2279466481672393, "train/image_loss_mean": 3.20609421034654, "train/image_loss_std": 8.427810231844584, "train/model_loss_mean": 6.38405907816357, "train/model_loss_std": 12.536797867880928, "train/model_opt_grad_norm": 27.651296880510117, "train/model_opt_grad_steps": 342731.125, "train/model_opt_loss": 17017.459567599828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.6764944824907513, "train/policy_entropy_max": 2.6764944824907513, "train/policy_entropy_mean": 0.4498152302371131, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6468150528768698, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4507221658196714, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0691456952028804, "train/policy_randomness_mag": 0.9446850948863559, "train/policy_randomness_max": 0.9446850948863559, "train/policy_randomness_mean": 0.15876503816495338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22829732836948502, "train/post_ent_mag": 55.48868910471598, "train/post_ent_max": 55.48868910471598, "train/post_ent_mean": 40.72349574830797, "train/post_ent_min": 19.498776780234444, "train/post_ent_std": 5.732674578825633, "train/prior_ent_mag": 76.73004055023193, "train/prior_ent_max": 76.73004055023193, "train/prior_ent_mean": 45.929829915364586, "train/prior_ent_min": 28.179275618659126, "train/prior_ent_std": 7.655791037612492, "train/rep_loss_mean": 5.204961127705044, "train/rep_loss_std": 8.792852103710175, "train/reward_avg": 0.038926866164224014, "train/reward_loss_mean": 0.054854762740433216, "train/reward_loss_std": 0.21460182406008244, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.020817819568846, "train/reward_neg_acc": 0.9940347431434525, "train/reward_neg_loss": 0.024248302914202213, "train/reward_pos_acc": 0.9875850536757045, "train/reward_pos_loss": 0.7274271092481084, "train/reward_pred": 0.038617716998689704, "train/reward_rate": 0.04345703125, "stats/sum_log_reward": 10.725000083446503, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2477949559688568, "replay/size": 687770.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.5686413225689306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3899794860138534e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16318225860596, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.52756690979004, "timer/env.step_frac": 0.07171954517474077, "timer/env.step_avg": 0.014991341859185265, "timer/env.step_min": 0.0031185150146484375, "timer/env.step_max": 1.6463251113891602, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.25838375091552734, "timer/replay.add_frac": 0.0008608109394739709, "timer/replay.add_avg": 0.00017993297417515832, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008738040924072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030012130737304688, "timer/logger.write_frac": 9.998604929317314e-05, "timer/logger.write_avg": 0.030012130737304688, "timer/logger.write_min": 0.030012130737304688, "timer/logger.write_max": 0.030012130737304688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.68220591545105, "timer/agent.policy_frac": 0.03558799528666971, "timer/agent.policy_avg": 0.0074388620581135444, "timer/agent.policy_min": 0.005856037139892578, "timer/agent.policy_max": 0.017659425735473633, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05996537208557129, "timer/dataset_frac": 0.00019977590733932202, "timer/dataset_avg": 8.351723131695166e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014352798461914062, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.93618416786194, "timer/agent.train_frac": 0.8893035520188574, "timer/agent.train_avg": 0.37177741527557373, "timer/agent.train_min": 0.3636596202850342, "timer/agent.train_max": 0.38286447525024414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202446460723877, "timer/agent.report_frac": 0.0007337497037949033, "timer/agent.report_avg": 0.2202446460723877, "timer/agent.report_min": 0.2202446460723877, "timer/agent.report_max": 0.2202446460723877, "fps": 4.783962957806646}
+{"step": 687994, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06806282722513089}
+{"step": 688235, "episode/length": 240.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05394190871369295}
+{"step": 688433, "episode/length": 197.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06060606060606061}
+{"step": 688618, "episode/length": 184.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07027027027027027}
+{"step": 688717, "episode/length": 98.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.06060606060606061}
+{"step": 688874, "episode/length": 156.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07643312101910828}
+{"step": 689063, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
+{"step": 689277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.475669860839844, "train/action_min": 0.0, "train/action_std": 3.33829735716184, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04139032646910184, "train/actor_opt_grad_steps": 343725.0, "train/actor_opt_loss": -11.434595628745026, "train/adv_mag": 0.4108488998479313, "train/adv_max": 0.3673458585722579, "train/adv_mean": 0.0024920548781261053, "train/adv_min": -0.34777720976206994, "train/adv_std": 0.04654946907733878, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 6.630654984185469e-06, "train/cont_loss_std": 0.00017459048946832922, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00033972207964438894, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.919199414723765e-06, "train/cont_pred": 0.995276990864012, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.20024006234275, "train/dyn_loss_std": 8.687864581743876, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.995582597123252, "train/extr_critic_critic_opt_grad_steps": 343725.0, "train/extr_critic_critic_opt_loss": 15978.717759874133, "train/extr_critic_mag": 11.008083383242289, "train/extr_critic_max": 11.008083383242289, "train/extr_critic_mean": 2.988739639520645, "train/extr_critic_min": -0.4812502861022949, "train/extr_critic_std": 2.6585242499907813, "train/extr_return_normed_mag": 1.4177915039989684, "train/extr_return_normed_max": 1.4177915039989684, "train/extr_return_normed_mean": 0.37561066614256966, "train/extr_return_normed_min": -0.07405533150045408, "train/extr_return_normed_std": 0.32057094097965294, "train/extr_return_rate": 0.7866998008555837, "train/extr_return_raw_mag": 11.758602195315891, "train/extr_return_raw_max": 11.758602195315891, "train/extr_return_raw_mean": 3.009647011756897, "train/extr_return_raw_min": -0.7652000627583928, "train/extr_return_raw_std": 2.6913916286495, "train/extr_reward_mag": 1.0555340150992076, "train/extr_reward_max": 1.0555340150992076, "train/extr_reward_mean": 0.055689375640617475, "train/extr_reward_min": -0.592821392748091, "train/extr_reward_std": 0.22710034768614504, "train/image_loss_mean": 3.0088857809702554, "train/image_loss_std": 7.857812066872914, "train/model_loss_mean": 6.1822578178511725, "train/model_loss_std": 11.983364780743917, "train/model_opt_grad_norm": 24.082402017381455, "train/model_opt_grad_steps": 343450.5416666667, "train/model_opt_loss": 15877.848103841146, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6757145292229123, "train/policy_entropy_max": 2.6757145292229123, "train/policy_entropy_mean": 0.41362419351935387, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6088596702449851, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4142711791727278, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.040213635398282, "train/policy_randomness_mag": 0.9444098083509339, "train/policy_randomness_max": 0.9444098083509339, "train/policy_randomness_mean": 0.14599118806007835, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2149007444580396, "train/post_ent_mag": 54.91115829679701, "train/post_ent_max": 54.91115829679701, "train/post_ent_mean": 40.68145015504625, "train/post_ent_min": 19.533315896987915, "train/post_ent_std": 5.668773882918888, "train/prior_ent_mag": 76.70775847964816, "train/prior_ent_max": 76.70775847964816, "train/prior_ent_mean": 45.90831449296739, "train/prior_ent_min": 28.09221911430359, "train/prior_ent_std": 7.505696879492866, "train/rep_loss_mean": 5.20024006234275, "train/rep_loss_std": 8.687864581743876, "train/reward_avg": 0.03745795312958459, "train/reward_loss_mean": 0.05322141733227505, "train/reward_loss_std": 0.2134053527067105, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0254651771651373, "train/reward_neg_acc": 0.9935539902912246, "train/reward_neg_loss": 0.02312203234113339, "train/reward_pos_acc": 0.9859918852647146, "train/reward_pos_loss": 0.742570531864961, "train/reward_pred": 0.03707066778507498, "train/reward_rate": 0.041924370659722224, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 8.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2935563964503152, "replay/size": 689214.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.432137814254972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3580489026542515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2797989845276, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.075985431671143, "timer/env.step_frac": 0.06685759581418126, "timer/env.step_avg": 0.013903037002542343, "timer/env.step_min": 0.0028340816497802734, "timer/env.step_max": 1.740880012512207, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2684824466705322, "timer/replay.add_frac": 0.0008941075875848919, "timer/replay.add_avg": 0.00018592967220950986, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0010094642639160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022733688354492188, "timer/logger.write_frac": 7.570835078274306e-05, "timer/logger.write_avg": 0.022733688354492188, "timer/logger.write_min": 0.022733688354492188, "timer/logger.write_max": 0.022733688354492188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.742807626724243, "timer/agent.policy_frac": 0.03577599180182542, "timer/agent.policy_avg": 0.007439617470030639, "timer/agent.policy_min": 0.006096363067626953, "timer/agent.policy_max": 0.015044927597045898, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05703282356262207, "timer/dataset_frac": 0.00018993226902206891, "timer/dataset_avg": 7.899283041914414e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.4598846435547, "timer/agent.train_frac": 0.8940324509055221, "timer/agent.train_avg": 0.37182809507417547, "timer/agent.train_min": 0.36443233489990234, "timer/agent.train_max": 0.3845221996307373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22250580787658691, "timer/agent.report_frac": 0.0007409949274944463, "timer/agent.report_avg": 0.22250580787658691, "timer/agent.report_min": 0.22250580787658691, "timer/agent.report_max": 0.22250580787658691, "fps": 4.808768536888421}
+{"step": 689491, "episode/length": 427.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.035046728971962614}
+{"step": 689575, "episode/length": 83.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11904761904761904}
+{"step": 689735, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.075}
+{"step": 689961, "episode/length": 225.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03982300884955752}
+{"step": 690137, "episode/length": 175.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06818181818181818}
+{"step": 690324, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06417112299465241}
+{"step": 690528, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.058823529411764705}
+{"step": 690690, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05555555555555555}
+{"step": 690691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512514785981514, "train/action_min": 0.0, "train/action_std": 3.3582514675570208, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041185288886788865, "train/actor_opt_grad_steps": 344440.0, "train/actor_opt_loss": -12.175407698246795, "train/adv_mag": 0.3999727196256879, "train/adv_max": 0.33850301571295294, "train/adv_mean": 0.0018566717309100491, "train/adv_min": -0.3707522044719105, "train/adv_std": 0.04585513761135894, "train/cont_avg": 0.9948283450704225, "train/cont_loss_mean": 5.6213541874683415e-06, "train/cont_loss_std": 0.0001575692380703551, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006162587332648598, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.4613246975559505e-06, "train/cont_pred": 0.9948307712313155, "train/cont_rate": 0.9948283450704225, "train/dyn_loss_mean": 5.2249536850083045, "train/dyn_loss_std": 8.746310462414378, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0376498354992396, "train/extr_critic_critic_opt_grad_steps": 344440.0, "train/extr_critic_critic_opt_loss": 15891.607738226232, "train/extr_critic_mag": 11.023122720315422, "train/extr_critic_max": 11.023122720315422, "train/extr_critic_mean": 3.0655338159749204, "train/extr_critic_min": -0.4821607915448471, "train/extr_critic_std": 2.6794167186172917, "train/extr_return_normed_mag": 1.4145640235551646, "train/extr_return_normed_max": 1.4145640235551646, "train/extr_return_normed_mean": 0.3853536674254377, "train/extr_return_normed_min": -0.07727347109729135, "train/extr_return_normed_std": 0.32328233416651336, "train/extr_return_rate": 0.7786522935813581, "train/extr_return_raw_mag": 11.69856782026694, "train/extr_return_raw_max": 11.69856782026694, "train/extr_return_raw_mean": 3.0810331626677177, "train/extr_return_raw_min": -0.7929798855747975, "train/extr_return_raw_std": 2.7072613524719022, "train/extr_reward_mag": 1.0590402878506082, "train/extr_reward_max": 1.0590402878506082, "train/extr_reward_mean": 0.05689916318990815, "train/extr_reward_min": -0.6312736776513113, "train/extr_reward_std": 0.23020582887488353, "train/image_loss_mean": 2.976789565153525, "train/image_loss_std": 7.627084765635746, "train/model_loss_mean": 6.165557700143734, "train/model_loss_std": 11.753889567415479, "train/model_opt_grad_norm": 28.10495612990688, "train/model_opt_grad_steps": 344164.9718309859, "train/model_opt_loss": 15853.427981954226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.7071469535290356, "train/policy_entropy_max": 2.7071469535290356, "train/policy_entropy_mean": 0.41541085654581095, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6124384906929983, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.415480567955635, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0394111913694462, "train/policy_randomness_mag": 0.9555040765816057, "train/policy_randomness_max": 0.9555040765816057, "train/policy_randomness_mean": 0.14662180148379902, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21616391040069957, "train/post_ent_mag": 55.35706619477608, "train/post_ent_max": 55.35706619477608, "train/post_ent_mean": 40.50734425934268, "train/post_ent_min": 19.296420352559693, "train/post_ent_std": 5.690167521087217, "train/prior_ent_mag": 76.64308961680237, "train/prior_ent_max": 76.64308961680237, "train/prior_ent_mean": 45.73439230045802, "train/prior_ent_min": 28.1386901962925, "train/prior_ent_std": 7.621672059448672, "train/rep_loss_mean": 5.2249536850083045, "train/rep_loss_std": 8.746310462414378, "train/reward_avg": 0.039189040398513765, "train/reward_loss_mean": 0.05379031477889545, "train/reward_loss_std": 0.20365659724658644, "train/reward_max_data": 1.0323943739206018, "train/reward_max_pred": 1.0305160015401706, "train/reward_neg_acc": 0.994387944819222, "train/reward_neg_loss": 0.023040269042404606, "train/reward_pos_acc": 0.9908426781775246, "train/reward_pos_loss": 0.7205540848449922, "train/reward_pred": 0.038836470004958164, "train/reward_rate": 0.0439728213028169, "stats/sum_log_reward": 10.350000381469727, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 8.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36630059219896793, "replay/size": 690628.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4346438870571626e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351895730262767e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09678411483765, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.318453311920166, "timer/env.step_frac": 0.07770310961745236, "timer/env.step_avg": 0.016491126811824727, "timer/env.step_min": 0.002864837646484375, "timer/env.step_max": 1.8865950107574463, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2742347717285156, "timer/replay.add_frac": 0.0009138210945425345, "timer/replay.add_avg": 0.0001939425542634481, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0007998943328857422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029729366302490234, "timer/logger.write_frac": 9.906592764790753e-05, "timer/logger.write_avg": 0.029729366302490234, "timer/logger.write_min": 0.029729366302490234, "timer/logger.write_max": 0.029729366302490234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003120899200439453, "timer/checkpoint.save_frac": 1.0399642267559865e-06, "timer/checkpoint.save_avg": 0.0003120899200439453, "timer/checkpoint.save_min": 0.0003120899200439453, "timer/checkpoint.save_max": 0.0003120899200439453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2404537200927734, "timer/agent.save_frac": 0.00413351220590918, "timer/agent.save_avg": 1.2404537200927734, "timer/agent.save_min": 1.2404537200927734, "timer/agent.save_max": 1.2404537200927734, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.270408630371094e-05, "timer/replay.save_frac": 2.0894621209841437e-07, "timer/replay.save_avg": 6.270408630371094e-05, "timer/replay.save_min": 6.270408630371094e-05, "timer/replay.save_max": 6.270408630371094e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.309842824935913, "timer/agent.policy_frac": 0.04101957593862559, "timer/agent.policy_avg": 0.008705687995004182, "timer/agent.policy_min": 0.005840778350830078, "timer/agent.policy_max": 1.2338712215423584, "timer/dataset_count": 707.0, "timer/dataset_total": 0.05686187744140625, "timer/dataset_frac": 0.0001894784631202412, "timer/dataset_avg": 8.042698365121111e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.45380902290344, "timer/agent.train_frac": 0.8778961420729118, "timer/agent.train_avg": 0.3726362220974589, "timer/agent.train_min": 0.36278772354125977, "timer/agent.train_max": 0.8791577816009521, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970200538635254, "timer/agent.report_frac": 0.0007321038312169298, "timer/agent.report_avg": 0.21970200538635254, "timer/agent.report_min": 0.21970200538635254, "timer/agent.report_max": 0.21970200538635254, "fps": 4.7117344553696086}
+{"step": 690874, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06521739130434782}
+{"step": 690940, "episode/length": 65.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.13636363636363635}
+{"step": 691163, "episode/length": 222.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 14.300000049173832, "episode/reward_rate": 0.05829596412556054}
+{"step": 691332, "episode/length": 168.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.05917159763313609}
+{"step": 691381, "episode/length": 48.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.10204081632653061}
+{"step": 691549, "episode/length": 167.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06547619047619048}
+{"step": 691720, "episode/length": 170.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05263157894736842}
+{"step": 691926, "episode/length": 205.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06310679611650485}
+{"step": 692129, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540364583333333, "train/action_min": 0.0, "train/action_std": 3.415116161108017, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0398684644088563, "train/actor_opt_grad_steps": 345155.0, "train/actor_opt_loss": -13.960575309064653, "train/adv_mag": 0.4227825216948986, "train/adv_max": 0.37579256089197266, "train/adv_mean": 0.001535300668668545, "train/adv_min": -0.3681307178404596, "train/adv_std": 0.04576915792293019, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 1.6919579787592436e-05, "train/cont_loss_std": 0.0004752184006425371, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018621798404634404, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 5.497482946993494e-06, "train/cont_pred": 0.9947687031494247, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.252902044190301, "train/dyn_loss_std": 8.77755476368798, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0072746922572453, "train/extr_critic_critic_opt_grad_steps": 345155.0, "train/extr_critic_critic_opt_loss": 15929.164428710938, "train/extr_critic_mag": 11.213211880789864, "train/extr_critic_max": 11.213211880789864, "train/extr_critic_mean": 2.952617804209391, "train/extr_critic_min": -0.4701005568106969, "train/extr_critic_std": 2.727867133087582, "train/extr_return_normed_mag": 1.4336904618475173, "train/extr_return_normed_max": 1.4336904618475173, "train/extr_return_normed_mean": 0.3706849147048261, "train/extr_return_normed_min": -0.07800417083005111, "train/extr_return_normed_std": 0.32771355741553837, "train/extr_return_rate": 0.7618146356609132, "train/extr_return_raw_mag": 11.903989593187967, "train/extr_return_raw_max": 11.903989593187967, "train/extr_return_raw_mean": 2.965556596716245, "train/extr_return_raw_min": -0.808144983732038, "train/extr_return_raw_std": 2.7558620472749076, "train/extr_reward_mag": 1.0531564719147153, "train/extr_reward_max": 1.0531564719147153, "train/extr_reward_mean": 0.05426805487109555, "train/extr_reward_min": -0.6687419629759259, "train/extr_reward_std": 0.22499709079662958, "train/image_loss_mean": 3.0992629395590887, "train/image_loss_std": 8.241059680779776, "train/model_loss_mean": 6.305733780066173, "train/model_loss_std": 12.383441633648342, "train/model_opt_grad_norm": 24.328032029999626, "train/model_opt_grad_steps": 344879.0, "train/model_opt_loss": 15764.334350585938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6762457258171506, "train/policy_entropy_max": 2.6762457258171506, "train/policy_entropy_mean": 0.4471541816989581, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6413060811658701, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4469649977982044, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0618650457925267, "train/policy_randomness_mag": 0.9445972939332327, "train/policy_randomness_max": 0.9445972939332327, "train/policy_randomness_mean": 0.15782580545379055, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22635290461281934, "train/post_ent_mag": 55.02910481558906, "train/post_ent_max": 55.02910481558906, "train/post_ent_mean": 40.752674155765106, "train/post_ent_min": 19.303153024779427, "train/post_ent_std": 5.688020560476515, "train/prior_ent_mag": 76.61944919162326, "train/prior_ent_max": 76.61944919162326, "train/prior_ent_mean": 46.011538664499916, "train/prior_ent_min": 28.203710476557415, "train/prior_ent_std": 7.591214173369938, "train/rep_loss_mean": 5.252902044190301, "train/rep_loss_std": 8.77755476368798, "train/reward_avg": 0.037338595656264156, "train/reward_loss_mean": 0.05471264695127805, "train/reward_loss_std": 0.21391010926001602, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0133271896176868, "train/reward_neg_acc": 0.9937397597564591, "train/reward_neg_loss": 0.02514712407719344, "train/reward_pos_acc": 0.9882563799619675, "train/reward_pos_loss": 0.7279934651321835, "train/reward_pred": 0.037140357644400664, "train/reward_rate": 0.04212782118055555, "stats/sum_log_reward": 8.975000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2705341726541519, "replay/size": 692066.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3753306212445127e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.349601692549874e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24152755737305, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.273852825164795, "timer/env.step_frac": 0.0708557973250372, "timer/env.step_avg": 0.014794056206651456, "timer/env.step_min": 0.0028505325317382812, "timer/env.step_max": 1.7264204025268555, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2558279037475586, "timer/replay.add_frac": 0.0008520736815751529, "timer/replay.add_avg": 0.00017790535726533977, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008480548858642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03115701675415039, "timer/logger.write_frac": 0.00010377317557510964, "timer/logger.write_avg": 0.03115701675415039, "timer/logger.write_min": 0.03115701675415039, "timer/logger.write_max": 0.03115701675415039, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.499101877212524, "timer/agent.policy_frac": 0.03496885311844896, "timer/agent.policy_avg": 0.007301183502929433, "timer/agent.policy_min": 0.005820751190185547, "timer/agent.policy_max": 0.01517629623413086, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05613112449645996, "timer/dataset_frac": 0.00018695323379519472, "timer/dataset_avg": 7.806832336086226e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001201629638671875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.47459602355957, "timer/agent.train_frac": 0.8908647587814046, "timer/agent.train_avg": 0.37200917388534016, "timer/agent.train_min": 0.36518073081970215, "timer/agent.train_max": 0.3857302665710449, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22105813026428223, "timer/agent.report_frac": 0.0007362676711070233, "timer/agent.report_avg": 0.22105813026428223, "timer/agent.report_min": 0.22105813026428223, "timer/agent.report_max": 0.22105813026428223, "fps": 4.7893816604634765}
+{"step": 692192, "episode/length": 265.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05263157894736842}
+{"step": 692346, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07792207792207792}
+{"step": 692540, "episode/length": 193.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05670103092783505}
+{"step": 692685, "episode/length": 144.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06206896551724138}
+{"step": 692912, "episode/length": 226.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06607929515418502}
+{"step": 693147, "episode/length": 234.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.059574468085106386}
+{"step": 693335, "episode/length": 187.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06914893617021277}
+{"step": 693575, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472096761067708, "train/action_min": 0.0, "train/action_std": 3.3608724176883698, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04016379996513327, "train/actor_opt_grad_steps": 345875.0, "train/actor_opt_loss": -14.24334775045928, "train/adv_mag": 0.4107104709578885, "train/adv_max": 0.37388948496017194, "train/adv_mean": 0.0012988329744985094, "train/adv_min": -0.3494960880941815, "train/adv_std": 0.04573657953490814, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 2.790376764218018e-06, "train/cont_loss_std": 7.603346731214582e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.615596215824274e-05, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.5699029738824997e-06, "train/cont_pred": 0.9949929300281737, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.448170257939233, "train/dyn_loss_std": 8.878191166453892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0298826719323795, "train/extr_critic_critic_opt_grad_steps": 345875.0, "train/extr_critic_critic_opt_loss": 15987.260281032986, "train/extr_critic_mag": 11.019122057490879, "train/extr_critic_max": 11.019122057490879, "train/extr_critic_mean": 2.932306836048762, "train/extr_critic_min": -0.47430651386578876, "train/extr_critic_std": 2.6520811551147037, "train/extr_return_normed_mag": 1.4228815817170672, "train/extr_return_normed_max": 1.4228815817170672, "train/extr_return_normed_mean": 0.3693258660948939, "train/extr_return_normed_min": -0.07750636693607602, "train/extr_return_normed_std": 0.31935716420412064, "train/extr_return_rate": 0.7802825189299054, "train/extr_return_raw_mag": 11.791753239101833, "train/extr_return_raw_max": 11.791753239101833, "train/extr_return_raw_mean": 2.9432002289427652, "train/extr_return_raw_min": -0.8096439929472076, "train/extr_return_raw_std": 2.6822539369265237, "train/extr_reward_mag": 1.0556393199496799, "train/extr_reward_max": 1.0556393199496799, "train/extr_reward_mean": 0.055064154892332025, "train/extr_reward_min": -0.6443603800402747, "train/extr_reward_std": 0.22638825182285574, "train/image_loss_mean": 3.2112305180894003, "train/image_loss_std": 8.399594757292006, "train/model_loss_mean": 6.535217202372021, "train/model_loss_std": 12.620601481861538, "train/model_opt_grad_norm": 26.648579200108845, "train/model_opt_grad_steps": 345598.5138888889, "train/model_opt_loss": 19057.584391276043, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2881.9444444444443, "train/policy_entropy_mag": 2.657881442043516, "train/policy_entropy_max": 2.657881442043516, "train/policy_entropy_mean": 0.4300537461207973, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6215379006332822, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4309069835063484, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0511528162492647, "train/policy_randomness_mag": 0.9381155115034845, "train/policy_randomness_max": 0.9381155115034845, "train/policy_randomness_mean": 0.15179009849412572, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21937560269402134, "train/post_ent_mag": 55.25835503472222, "train/post_ent_max": 55.25835503472222, "train/post_ent_mean": 40.71717309951782, "train/post_ent_min": 19.39410126209259, "train/post_ent_std": 5.753279209136963, "train/prior_ent_mag": 76.66529729631212, "train/prior_ent_max": 76.66529729631212, "train/prior_ent_mean": 46.16275665495131, "train/prior_ent_min": 27.86996955341763, "train/prior_ent_std": 7.604091114468044, "train/rep_loss_mean": 5.448170257939233, "train/rep_loss_std": 8.878191166453892, "train/reward_avg": 0.03976779480257796, "train/reward_loss_mean": 0.05508181292356716, "train/reward_loss_std": 0.2161063382195102, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0226129293441772, "train/reward_neg_acc": 0.99385430994961, "train/reward_neg_loss": 0.023610522479025856, "train/reward_pos_acc": 0.9873137043582069, "train/reward_pos_loss": 0.7372470133834415, "train/reward_pred": 0.03944716537888679, "train/reward_rate": 0.04428439670138889, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3610406241246632, "replay/size": 693512.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4870778211749275e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3866736186490515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.309419631958, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.714783906936646, "timer/env.step_frac": 0.06564823684551072, "timer/env.step_avg": 0.013634013766899478, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6464953422546387, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2765953540802002, "timer/replay.add_frac": 0.0009210345596857388, "timer/replay.add_avg": 0.00019128309410802226, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.010868549346923828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02185535430908203, "timer/logger.write_frac": 7.277611982956345e-05, "timer/logger.write_avg": 0.02185535430908203, "timer/logger.write_min": 0.02185535430908203, "timer/logger.write_max": 0.02185535430908203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.662452459335327, "timer/agent.policy_frac": 0.035504888499343835, "timer/agent.policy_avg": 0.007373756887507142, "timer/agent.policy_min": 0.005854129791259766, "timer/agent.policy_max": 0.015269994735717773, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0575251579284668, "timer/dataset_frac": 0.00019155295894136896, "timer/dataset_avg": 7.956453378764425e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0002014636993408203, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.91428112983704, "timer/agent.train_frac": 0.8954573634733234, "timer/agent.train_avg": 0.3719422975516418, "timer/agent.train_min": 0.36383676528930664, "timer/agent.train_max": 0.3839139938354492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206716537475586, "timer/agent.report_frac": 0.0007348142925986175, "timer/agent.report_avg": 0.2206716537475586, "timer/agent.report_min": 0.2206716537475586, "timer/agent.report_max": 0.2206716537475586, "fps": 4.8149385125643285}
+{"step": 693614, "episode/length": 278.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.04659498207885305}
+{"step": 693827, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
+{"step": 694258, "episode/length": 430.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 17.10000006109476, "episode/reward_rate": 0.03480278422273782}
+{"step": 694450, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06770833333333333}
+{"step": 694611, "episode/length": 160.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08074534161490683}
+{"step": 694818, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06763285024154589}
+{"step": 695007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48142835828993, "train/action_min": 0.0, "train/action_std": 3.3738311496045856, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04167698504817155, "train/actor_opt_grad_steps": 346595.0, "train/actor_opt_loss": -10.949206670125326, "train/adv_mag": 0.3977534878585074, "train/adv_max": 0.35190195134944385, "train/adv_mean": 0.00244744330785175, "train/adv_min": -0.3502887479133076, "train/adv_std": 0.046866228648771845, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 7.1305611932557e-06, "train/cont_loss_std": 0.0001875952275400334, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.786966704477752e-05, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 7.0220059973122616e-06, "train/cont_pred": 0.9950157735082839, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.311031116379632, "train/dyn_loss_std": 8.730169905556572, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0242418100436528, "train/extr_critic_critic_opt_grad_steps": 346595.0, "train/extr_critic_critic_opt_loss": 16104.37164984809, "train/extr_critic_mag": 11.07762062549591, "train/extr_critic_max": 11.07762062549591, "train/extr_critic_mean": 2.941450231605106, "train/extr_critic_min": -0.4643643581204944, "train/extr_critic_std": 2.653571269578404, "train/extr_return_normed_mag": 1.4261299272378285, "train/extr_return_normed_max": 1.4261299272378285, "train/extr_return_normed_mean": 0.37171868835058475, "train/extr_return_normed_min": -0.0709010271045069, "train/extr_return_normed_std": 0.32182055960098904, "train/extr_return_rate": 0.7812952515151765, "train/extr_return_raw_mag": 11.746864411565992, "train/extr_return_raw_max": 11.746864411565992, "train/extr_return_raw_mean": 2.9618426064650216, "train/extr_return_raw_min": -0.7263993463582463, "train/extr_return_raw_std": 2.6818041569656796, "train/extr_reward_mag": 1.0551409092214372, "train/extr_reward_max": 1.0551409092214372, "train/extr_reward_mean": 0.05709621568934785, "train/extr_reward_min": -0.6270087824927436, "train/extr_reward_std": 0.22982863460977873, "train/image_loss_mean": 3.0870328313774533, "train/image_loss_std": 8.089220570193397, "train/model_loss_mean": 6.327675011422899, "train/model_loss_std": 12.200600266456604, "train/model_opt_grad_norm": 28.23840794298384, "train/model_opt_grad_steps": 346317.90277777775, "train/model_opt_loss": 15819.187554253473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.665246307849884, "train/policy_entropy_max": 2.665246307849884, "train/policy_entropy_mean": 0.4162698274271356, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6036476054125361, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4169229177965058, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.037874004079236, "train/policy_randomness_mag": 0.9407149876157442, "train/policy_randomness_max": 0.9407149876157442, "train/policy_randomness_mean": 0.1469249843309323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21306111260006824, "train/post_ent_mag": 54.9899410671658, "train/post_ent_max": 54.9899410671658, "train/post_ent_mean": 40.63541926278008, "train/post_ent_min": 19.16298113928901, "train/post_ent_std": 5.724100742075178, "train/prior_ent_mag": 76.74834304385715, "train/prior_ent_max": 76.74834304385715, "train/prior_ent_mean": 45.973273012373184, "train/prior_ent_min": 28.125193383958603, "train/prior_ent_std": 7.593085077073839, "train/rep_loss_mean": 5.311031116379632, "train/rep_loss_std": 8.730169905556572, "train/reward_avg": 0.03919406455113656, "train/reward_loss_mean": 0.05401642822350065, "train/reward_loss_std": 0.20901760769387087, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0153093834718068, "train/reward_neg_acc": 0.994305486480395, "train/reward_neg_loss": 0.023138209530669782, "train/reward_pos_acc": 0.9877505285872353, "train/reward_pos_loss": 0.7308697195516692, "train/reward_pred": 0.03878337752798365, "train/reward_rate": 0.043755425347222224, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 9.833333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.42947421471277875, "replay/size": 694944.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.469223416717359e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3479099260362166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3711647987366, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.006547451019287, "timer/env.step_frac": 0.06660608538913733, "timer/env.step_avg": 0.01397105268925928, "timer/env.step_min": 0.00286865234375, "timer/env.step_max": 1.7837498188018799, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26200413703918457, "timer/replay.add_frac": 0.0008722679396164415, "timer/replay.add_avg": 0.00018296378284859258, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.003765583038330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02347111701965332, "timer/logger.write_frac": 7.81403802038725e-05, "timer/logger.write_avg": 0.02347111701965332, "timer/logger.write_min": 0.02347111701965332, "timer/logger.write_max": 0.02347111701965332, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00048351287841796875, "timer/checkpoint.save_frac": 1.6097180258362886e-06, "timer/checkpoint.save_avg": 0.00048351287841796875, "timer/checkpoint.save_min": 0.00048351287841796875, "timer/checkpoint.save_max": 0.00048351287841796875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2499744892120361, "timer/agent.save_frac": 0.004161433039185304, "timer/agent.save_avg": 1.2499744892120361, "timer/agent.save_min": 1.2499744892120361, "timer/agent.save_max": 1.2499744892120361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6431760483406516e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.417994499206543, "timer/agent.policy_frac": 0.0413421658085163, "timer/agent.policy_avg": 0.008671783868160993, "timer/agent.policy_min": 0.005986690521240234, "timer/agent.policy_max": 1.2415533065795898, "timer/dataset_count": 716.0, "timer/dataset_total": 0.056856393814086914, "timer/dataset_frac": 0.0001892871236564385, "timer/dataset_avg": 7.940837124872474e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9453933238983, "timer/agent.train_frac": 0.8887184410752771, "timer/agent.train_avg": 0.3728287616255563, "timer/agent.train_min": 0.3657553195953369, "timer/agent.train_max": 0.8889753818511963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22280669212341309, "timer/agent.report_frac": 0.0007417712424982755, "timer/agent.report_avg": 0.22280669212341309, "timer/agent.report_min": 0.22280669212341309, "timer/agent.report_max": 0.22280669212341309, "fps": 4.767331303461667}
+{"step": 695013, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06153846153846154}
+{"step": 695191, "episode/length": 177.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.0449438202247191}
+{"step": 695496, "episode/length": 304.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.04262295081967213}
+{"step": 695724, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05701754385964912}
+{"step": 695890, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06626506024096386}
+{"step": 696077, "episode/length": 186.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.058823529411764705}
+{"step": 696250, "episode/length": 172.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06936416184971098}
+{"step": 696444, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.061855670103092786}
+{"step": 696445, "stats/sum_log_reward": 10.475000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 13.125, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3462960198521614, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562090555826823, "train/action_min": 0.0, "train/action_std": 3.4594596558147006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04275039485138324, "train/actor_opt_grad_steps": 347315.0, "train/actor_opt_loss": -11.400927895990511, "train/adv_mag": 0.4205034354494678, "train/adv_max": 0.36201442115836674, "train/adv_mean": 0.0028069110452532994, "train/adv_min": -0.3704119978679551, "train/adv_std": 0.047713587526232004, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.1912766204602576e-05, "train/cont_loss_std": 0.0003450659059431871, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.808517659499423e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.1762913829945395e-05, "train/cont_pred": 0.9945924505591393, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.26406510008706, "train/dyn_loss_std": 8.837530182467567, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0350852054026392, "train/extr_critic_critic_opt_grad_steps": 347315.0, "train/extr_critic_critic_opt_loss": 16140.573133680555, "train/extr_critic_mag": 11.250898321469625, "train/extr_critic_max": 11.250898321469625, "train/extr_critic_mean": 2.996464788913727, "train/extr_critic_min": -0.46314679582913715, "train/extr_critic_std": 2.708144403166241, "train/extr_return_normed_mag": 1.4370363222228155, "train/extr_return_normed_max": 1.4370363222228155, "train/extr_return_normed_mean": 0.3736526543895404, "train/extr_return_normed_min": -0.07358649600711134, "train/extr_return_normed_std": 0.3268469004995293, "train/extr_return_rate": 0.7771231631437937, "train/extr_return_raw_mag": 11.951402147610983, "train/extr_return_raw_max": 11.951402147610983, "train/extr_return_raw_mean": 3.0200389391846127, "train/extr_return_raw_min": -0.73651063359446, "train/extr_return_raw_std": 2.745555645889706, "train/extr_reward_mag": 1.0692464013894398, "train/extr_reward_max": 1.0692464013894398, "train/extr_reward_mean": 0.057530438993126154, "train/extr_reward_min": -0.6322445273399353, "train/extr_reward_std": 0.2315601162198517, "train/image_loss_mean": 3.175563802321752, "train/image_loss_std": 8.27797630098131, "train/model_loss_mean": 6.389371587170495, "train/model_loss_std": 12.423952526516384, "train/model_opt_grad_norm": 26.427805821100872, "train/model_opt_grad_steps": 347037.0, "train/model_opt_loss": 15973.428982204861, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696602053112454, "train/policy_entropy_max": 2.696602053112454, "train/policy_entropy_mean": 0.4214871364335219, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6108607057895925, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42024141425887745, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.0390156226025686, "train/policy_randomness_mag": 0.951782189309597, "train/policy_randomness_max": 0.951782189309597, "train/policy_randomness_mean": 0.14876645906931824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21560702203876442, "train/post_ent_mag": 55.195048809051514, "train/post_ent_max": 55.195048809051514, "train/post_ent_mean": 40.67153141233656, "train/post_ent_min": 19.495051781336468, "train/post_ent_std": 5.753360006544325, "train/prior_ent_mag": 76.56898922390408, "train/prior_ent_max": 76.56898922390408, "train/prior_ent_mean": 45.91487693786621, "train/prior_ent_min": 28.406690067715115, "train/prior_ent_std": 7.58783268266254, "train/rep_loss_mean": 5.26406510008706, "train/rep_loss_std": 8.837530182467567, "train/reward_avg": 0.03880208316776487, "train/reward_loss_mean": 0.055356801125324435, "train/reward_loss_std": 0.20677451685898834, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0263754543330934, "train/reward_neg_acc": 0.9931900766160753, "train/reward_neg_loss": 0.024925361904833052, "train/reward_pos_acc": 0.990471386247211, "train/reward_pos_loss": 0.720256802936395, "train/reward_pred": 0.0386342599004921, "train/reward_rate": 0.04368760850694445, "replay/size": 696382.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4066665819191965e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3380372308723121e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10164880752563, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.292452096939087, "timer/env.step_frac": 0.07095080010905004, "timer/env.step_avg": 0.01480699033166835, "timer/env.step_min": 0.0029299259185791016, "timer/env.step_max": 1.7099888324737549, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2521538734436035, "timer/replay.add_frac": 0.0008402282174908206, "timer/replay.add_avg": 0.0001753503987785838, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008900165557861328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023392438888549805, "timer/logger.write_frac": 7.794838509385488e-05, "timer/logger.write_avg": 0.023392438888549805, "timer/logger.write_min": 0.023392438888549805, "timer/logger.write_max": 0.023392438888549805, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.532804250717163, "timer/agent.policy_frac": 0.03509745545407691, "timer/agent.policy_avg": 0.007324620480331824, "timer/agent.policy_min": 0.005935192108154297, "timer/agent.policy_max": 0.017697572708129883, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05661940574645996, "timer/dataset_frac": 0.00018866742642514972, "timer/dataset_avg": 7.874743497421413e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.28268933296204, "timer/agent.train_frac": 0.8906405226196791, "timer/agent.train_avg": 0.37174226610982203, "timer/agent.train_min": 0.3658020496368408, "timer/agent.train_max": 0.38287806510925293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22530555725097656, "timer/agent.report_frac": 0.0007507641432369451, "timer/agent.report_avg": 0.22530555725097656, "timer/agent.report_min": 0.22530555725097656, "timer/agent.report_max": 0.22530555725097656, "fps": 4.791628791719091}
+{"step": 696628, "episode/length": 183.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000062584877, "episode/reward_rate": 0.059782608695652176}
+{"step": 696877, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05220883534136546}
+{"step": 697082, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
+{"step": 697286, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 697491, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05365853658536585}
+{"step": 697735, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06147540983606557}
+{"step": 697899, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471365314640411, "train/action_min": 0.0, "train/action_std": 3.2895395429167027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04092272031695059, "train/actor_opt_grad_steps": 348040.0, "train/actor_opt_loss": -11.626124610231347, "train/adv_mag": 0.3832084152796497, "train/adv_max": 0.3507229216294746, "train/adv_mean": 0.002510268605562973, "train/adv_min": -0.3361759883900211, "train/adv_std": 0.046249931295440624, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 2.235274432654278e-05, "train/cont_loss_std": 0.0006889800427244545, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0018383380778516705, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.0577452939369619e-05, "train/cont_pred": 0.9949421572358641, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.20145622671467, "train/dyn_loss_std": 8.751307820620601, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0016743695899233, "train/extr_critic_critic_opt_grad_steps": 348040.0, "train/extr_critic_critic_opt_loss": 15881.141400898972, "train/extr_critic_mag": 11.15410457245291, "train/extr_critic_max": 11.15410457245291, "train/extr_critic_mean": 3.1484575010325813, "train/extr_critic_min": -0.45873101770061336, "train/extr_critic_std": 2.71035568354881, "train/extr_return_normed_mag": 1.423312926945621, "train/extr_return_normed_max": 1.423312926945621, "train/extr_return_normed_mean": 0.38665171600367926, "train/extr_return_normed_min": -0.07664211737374736, "train/extr_return_normed_std": 0.3244463450288119, "train/extr_return_rate": 0.7953232428798936, "train/extr_return_raw_mag": 11.917583256551664, "train/extr_return_raw_max": 11.917583256551664, "train/extr_return_raw_mean": 3.169648399091747, "train/extr_return_raw_min": -0.7393112888891403, "train/extr_return_raw_std": 2.737924040180363, "train/extr_reward_mag": 1.0603022836659053, "train/extr_reward_max": 1.0603022836659053, "train/extr_reward_mean": 0.05802990093010746, "train/extr_reward_min": -0.6350400464175499, "train/extr_reward_std": 0.2315832351985043, "train/image_loss_mean": 3.093813040485121, "train/image_loss_std": 8.134103944856827, "train/model_loss_mean": 6.2684419318421245, "train/model_loss_std": 12.257587393669233, "train/model_opt_grad_norm": 24.30253952079349, "train/model_opt_grad_steps": 347761.30136986304, "train/model_opt_loss": 16201.078887521404, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.6931888501938075, "train/policy_entropy_max": 2.6931888501938075, "train/policy_entropy_mean": 0.4040860135669578, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5972456438084172, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4050130250111018, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.033872467197784, "train/policy_randomness_mag": 0.9505774770697503, "train/policy_randomness_max": 0.9505774770697503, "train/policy_randomness_mean": 0.14262463203439973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21080150108223092, "train/post_ent_mag": 55.83238335178323, "train/post_ent_max": 55.83238335178323, "train/post_ent_mean": 40.85568550841449, "train/post_ent_min": 19.358733072672806, "train/post_ent_std": 5.813657388295213, "train/prior_ent_mag": 76.65627236562233, "train/prior_ent_max": 76.65627236562233, "train/prior_ent_mean": 46.038436471599425, "train/prior_ent_min": 28.21389093790969, "train/prior_ent_std": 7.599187733375863, "train/rep_loss_mean": 5.20145622671467, "train/rep_loss_std": 8.751307820620601, "train/reward_avg": 0.040263805487384535, "train/reward_loss_mean": 0.05373280602571082, "train/reward_loss_std": 0.20470000007381178, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0278918187912196, "train/reward_neg_acc": 0.9943739396252044, "train/reward_neg_loss": 0.022579565848389715, "train/reward_pos_acc": 0.9910022820511909, "train/reward_pos_loss": 0.7179633828058635, "train/reward_pred": 0.04003079087562757, "train/reward_rate": 0.04470783390410959, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.2960509757200877, "replay/size": 697836.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.437392485354921e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.403373734003248e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2218871116638, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.24540400505066, "timer/env.step_frac": 0.06077306415126392, "timer/env.step_avg": 0.01254842091131407, "timer/env.step_min": 0.002871990203857422, "timer/env.step_max": 1.6161129474639893, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26197171211242676, "timer/replay.add_frac": 0.0008725936494263312, "timer/replay.add_avg": 0.00018017311699616696, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0030744075775146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02087092399597168, "timer/logger.write_frac": 6.951832924895645e-05, "timer/logger.write_avg": 0.02087092399597168, "timer/logger.write_min": 0.02087092399597168, "timer/logger.write_max": 0.02087092399597168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.841369152069092, "timer/agent.policy_frac": 0.03611118848252652, "timer/agent.policy_avg": 0.0074562373810654, "timer/agent.policy_min": 0.0060689449310302734, "timer/agent.policy_max": 0.017694473266601562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05879497528076172, "timer/dataset_frac": 0.0001958384042096626, "timer/dataset_avg": 8.0873418543001e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020599365234375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.1306405067444, "timer/agent.train_frac": 0.899769977151175, "timer/agent.train_avg": 0.3715689690601711, "timer/agent.train_min": 0.36435985565185547, "timer/agent.train_max": 0.38506603240966797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22397232055664062, "timer/agent.report_frac": 0.0007460226258365263, "timer/agent.report_avg": 0.22397232055664062, "timer/agent.report_min": 0.22397232055664062, "timer/agent.report_max": 0.22397232055664062, "fps": 4.842980568052315}
+{"step": 697961, "episode/length": 225.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 13.500000029802322, "episode/reward_rate": 0.05752212389380531}
+{"step": 698487, "episode/length": 525.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 17.500000067055225, "episode/reward_rate": 0.028517110266159697}
+{"step": 698744, "episode/length": 256.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05058365758754864}
+{"step": 698931, "episode/length": 186.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.058823529411764705}
+{"step": 699141, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06666666666666667}
+{"step": 699337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45703125, "train/action_min": 0.0, "train/action_std": 3.3242253451280193, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077773053251522, "train/actor_opt_grad_steps": 348760.0, "train/actor_opt_loss": -12.411089813205558, "train/adv_mag": 0.4091795091058167, "train/adv_max": 0.3595615881429592, "train/adv_mean": 0.00196034414765448, "train/adv_min": -0.35598826786162147, "train/adv_std": 0.04588759722004474, "train/cont_avg": 0.9948145906690141, "train/cont_loss_mean": 8.322371859302705e-06, "train/cont_loss_std": 0.00020824714671648973, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002695052242037151, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 6.821269990318412e-06, "train/cont_pred": 0.9948095729653265, "train/cont_rate": 0.9948145906690141, "train/dyn_loss_mean": 5.3163870421933455, "train/dyn_loss_std": 8.826634124970772, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9954637095961772, "train/extr_critic_critic_opt_grad_steps": 348760.0, "train/extr_critic_critic_opt_loss": 15812.703193772008, "train/extr_critic_mag": 11.159198680394132, "train/extr_critic_max": 11.159198680394132, "train/extr_critic_mean": 3.052480497830351, "train/extr_critic_min": -0.4610447413484815, "train/extr_critic_std": 2.662821848627547, "train/extr_return_normed_mag": 1.4180885150399007, "train/extr_return_normed_max": 1.4180885150399007, "train/extr_return_normed_mean": 0.3762221703646888, "train/extr_return_normed_min": -0.08051251997830162, "train/extr_return_normed_std": 0.3196953707177874, "train/extr_return_rate": 0.7826704131045812, "train/extr_return_raw_mag": 11.841121284055038, "train/extr_return_raw_max": 11.841121284055038, "train/extr_return_raw_mean": 3.068975715570047, "train/extr_return_raw_min": -0.7770705038393048, "train/extr_return_raw_std": 2.69202286760572, "train/extr_reward_mag": 1.0629355302998718, "train/extr_reward_max": 1.0629355302998718, "train/extr_reward_mean": 0.055319313904349236, "train/extr_reward_min": -0.6490869135923789, "train/extr_reward_std": 0.22665877220496325, "train/image_loss_mean": 3.165086034318091, "train/image_loss_std": 8.567020268507406, "train/model_loss_mean": 6.408379044331295, "train/model_loss_std": 12.698683416339714, "train/model_opt_grad_norm": 27.53102564475906, "train/model_opt_grad_steps": 348480.76056338026, "train/model_opt_loss": 16922.18320862676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.68814836421483, "train/policy_entropy_max": 2.68814836421483, "train/policy_entropy_mean": 0.43020053627625315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.63049030681731, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43027470775053533, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0529237431539615, "train/policy_randomness_mag": 0.9487984062920154, "train/policy_randomness_max": 0.9487984062920154, "train/policy_randomness_mean": 0.1518419121562595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22253541081724032, "train/post_ent_mag": 55.62010294954542, "train/post_ent_max": 55.62010294954542, "train/post_ent_mean": 40.76188933681434, "train/post_ent_min": 19.684738105451558, "train/post_ent_std": 5.787814341800313, "train/prior_ent_mag": 76.70630452330683, "train/prior_ent_max": 76.70630452330683, "train/prior_ent_mean": 46.086715322145274, "train/prior_ent_min": 28.70840236502634, "train/prior_ent_std": 7.606709151200845, "train/rep_loss_mean": 5.3163870421933455, "train/rep_loss_std": 8.826634124970772, "train/reward_avg": 0.03829500409708896, "train/reward_loss_mean": 0.05345250776326153, "train/reward_loss_std": 0.20471372214001668, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0219346469556783, "train/reward_neg_acc": 0.994111009047065, "train/reward_neg_loss": 0.023626020217550472, "train/reward_pos_acc": 0.9902906174391088, "train/reward_pos_loss": 0.7207526472252859, "train/reward_pred": 0.03803242252431285, "train/reward_rate": 0.042844960387323945, "stats/sum_log_reward": 11.900000381469727, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.2, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.3829145222902298, "replay/size": 699274.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4623749564519678e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3541818825691234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24369740486145, "timer/env.step_count": 1438.0, "timer/env.step_total": 18.365115880966187, "timer/env.step_frac": 0.06116736517603525, "timer/env.step_avg": 0.012771290598724748, "timer/env.step_min": 0.0027341842651367188, "timer/env.step_max": 1.8381242752075195, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3353111743927002, "timer/replay.add_frac": 0.0011167967131065278, "timer/replay.add_avg": 0.00023317884171954116, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.07344245910644531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020711898803710938, "timer/logger.write_frac": 6.898362557726608e-05, "timer/logger.write_avg": 0.020711898803710938, "timer/logger.write_min": 0.020711898803710938, "timer/logger.write_max": 0.020711898803710938, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002512931823730469, "timer/checkpoint.save_frac": 8.369640546831943e-07, "timer/checkpoint.save_avg": 0.0002512931823730469, "timer/checkpoint.save_min": 0.0002512931823730469, "timer/checkpoint.save_max": 0.0002512931823730469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5050938129425049, "timer/agent.save_frac": 0.0050129072681681375, "timer/agent.save_avg": 1.5050938129425049, "timer/agent.save_min": 1.5050938129425049, "timer/agent.save_max": 1.5050938129425049, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.821487426757812e-05, "timer/replay.save_frac": 2.9381091103679493e-07, "timer/replay.save_avg": 8.821487426757812e-05, "timer/replay.save_min": 8.821487426757812e-05, "timer/replay.save_max": 8.821487426757812e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.83337116241455, "timer/agent.policy_frac": 0.04274318253251952, "timer/agent.policy_avg": 0.008924458388327226, "timer/agent.policy_min": 0.006182432174682617, "timer/agent.policy_max": 1.5044550895690918, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058686017990112305, "timer/dataset_frac": 0.00019546128194317287, "timer/dataset_avg": 8.162172182213116e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00027179718017578125, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.9752893447876, "timer/agent.train_frac": 0.8925259436285127, "timer/agent.train_avg": 0.3727055484628478, "timer/agent.train_min": 0.36571407318115234, "timer/agent.train_max": 0.8739769458770752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22025752067565918, "timer/agent.report_frac": 0.0007335958175956463, "timer/agent.report_avg": 0.22025752067565918, "timer/agent.report_min": 0.22025752067565918, "timer/agent.report_max": 0.22025752067565918, "fps": 4.789384219965041}
+{"step": 699352, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05687203791469194}
+{"step": 699417, "episode/length": 64.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.13846153846153847}
+{"step": 699603, "episode/length": 185.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.053763440860215055}
+{"step": 699806, "episode/length": 202.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.054187192118226604}
+{"step": 699888, "episode/length": 81.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10975609756097561}
+{"step": 700103, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.027906976744186046}
+{"step": 700383, "episode/length": 279.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.04642857142857143}
+{"step": 700576, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05181347150259067}
+{"step": 700763, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.053475935828877004}
+{"step": 700767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540735032823351, "train/action_min": 0.0, "train/action_std": 3.441280427906248, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040058371067668, "train/actor_opt_grad_steps": 349475.0, "train/actor_opt_loss": -12.128137444456419, "train/adv_mag": 0.3972402873138587, "train/adv_max": 0.35382237243983483, "train/adv_mean": 0.0021367468739804784, "train/adv_min": -0.3445891570299864, "train/adv_std": 0.045261658262461424, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 3.5666592241807076e-05, "train/cont_loss_std": 0.0009953858811684313, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0020302816421510095, "train/cont_pos_acc": 0.9999863414300812, "train/cont_pos_loss": 2.3890554511080746e-05, "train/cont_pred": 0.9949827036923833, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.246490882502662, "train/dyn_loss_std": 8.813119365109337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023866071469254, "train/extr_critic_critic_opt_grad_steps": 349475.0, "train/extr_critic_critic_opt_loss": 15863.876776801215, "train/extr_critic_mag": 11.208682749006483, "train/extr_critic_max": 11.208682749006483, "train/extr_critic_mean": 3.035265564918518, "train/extr_critic_min": -0.4462517648935318, "train/extr_critic_std": 2.7132496568891735, "train/extr_return_normed_mag": 1.4160411804914474, "train/extr_return_normed_max": 1.4160411804914474, "train/extr_return_normed_mean": 0.3732852449433671, "train/extr_return_normed_min": -0.08404936879459354, "train/extr_return_normed_std": 0.32531776196426815, "train/extr_return_rate": 0.7848805040121078, "train/extr_return_raw_mag": 11.859270029597813, "train/extr_return_raw_max": 11.859270029597813, "train/extr_return_raw_mean": 3.0533202257421284, "train/extr_return_raw_min": -0.8087681370476881, "train/extr_return_raw_std": 2.7473454574743905, "train/extr_reward_mag": 1.05920633342531, "train/extr_reward_max": 1.05920633342531, "train/extr_reward_mean": 0.054653643578704864, "train/extr_reward_min": -0.6272397057877647, "train/extr_reward_std": 0.22597232274711132, "train/image_loss_mean": 3.132134815057119, "train/image_loss_std": 8.321951104534996, "train/model_loss_mean": 6.3323849770757885, "train/model_loss_std": 12.461583375930786, "train/model_opt_grad_norm": 25.671779195467632, "train/model_opt_grad_steps": 349194.5138888889, "train/model_opt_loss": 12082.374389648438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1892.361111111111, "train/policy_entropy_mag": 2.6896603306134543, "train/policy_entropy_max": 2.6896603306134543, "train/policy_entropy_mean": 0.44085249801476795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6343675057093302, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.440724881986777, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0589614883065224, "train/policy_randomness_mag": 0.9493320683638254, "train/policy_randomness_max": 0.9493320683638254, "train/policy_randomness_mean": 0.1556015880778432, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22390389069914818, "train/post_ent_mag": 55.484505123562286, "train/post_ent_max": 55.484505123562286, "train/post_ent_mean": 40.741575717926025, "train/post_ent_min": 19.471499416563248, "train/post_ent_std": 5.771918793519338, "train/prior_ent_mag": 76.8176343705919, "train/prior_ent_max": 76.8176343705919, "train/prior_ent_mean": 45.977254708607994, "train/prior_ent_min": 28.261566506491768, "train/prior_ent_std": 7.61357855796814, "train/rep_loss_mean": 5.246490882502662, "train/rep_loss_std": 8.813119365109337, "train/reward_avg": 0.037604437597716846, "train/reward_loss_mean": 0.052319960228891835, "train/reward_loss_std": 0.20022150170471933, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0256424678696527, "train/reward_neg_acc": 0.9944342805279626, "train/reward_neg_loss": 0.023451174195441935, "train/reward_pos_acc": 0.9934607139892049, "train/reward_pos_loss": 0.7100171272953352, "train/reward_pred": 0.03761075380154782, "train/reward_rate": 0.042073567708333336, "stats/sum_log_reward": 8.76666678322686, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 8.777777777777779, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3625389155414369, "replay/size": 700704.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4078851446405156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3521084418663611e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1656861305237, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.840537309646606, "timer/env.step_frac": 0.07609309912830828, "timer/env.step_avg": 0.015972403713039585, "timer/env.step_min": 0.0027403831481933594, "timer/env.step_max": 1.7152395248413086, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.23795151710510254, "timer/replay.add_frac": 0.0007927339069717383, "timer/replay.add_avg": 0.0001663996623112605, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0006368160247802734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02253556251525879, "timer/logger.write_frac": 7.507707761592527e-05, "timer/logger.write_avg": 0.02253556251525879, "timer/logger.write_min": 0.02253556251525879, "timer/logger.write_max": 0.02253556251525879, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.482050657272339, "timer/agent.policy_frac": 0.03492088250458561, "timer/agent.policy_avg": 0.007330105354735901, "timer/agent.policy_min": 0.006074666976928711, "timer/agent.policy_max": 0.014950752258300781, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05662727355957031, "timer/dataset_frac": 0.00018865338769917417, "timer/dataset_avg": 7.919898399939903e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.86943078041077, "timer/agent.train_frac": 0.8857422519134996, "timer/agent.train_avg": 0.37184535773484023, "timer/agent.train_min": 0.36541271209716797, "timer/agent.train_max": 0.383256196975708, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2226545810699463, "timer/agent.report_frac": 0.0007417722656450726, "timer/agent.report_avg": 0.2226545810699463, "timer/agent.report_min": 0.2226545810699463, "timer/agent.report_max": 0.2226545810699463, "fps": 4.763934062095703}
+{"step": 701044, "episode/length": 280.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03914590747330961}
+{"step": 701361, "episode/length": 316.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0473186119873817}
+{"step": 701580, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0593607305936073}
+{"step": 701795, "episode/length": 214.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05581395348837209}
+{"step": 702021, "episode/length": 225.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05752212389380531}
+{"step": 702188, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0718562874251497}
+{"step": 702219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490490220997431, "train/action_min": 0.0, "train/action_std": 3.362091658866569, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03941568517929887, "train/actor_opt_grad_steps": 350200.0, "train/actor_opt_loss": -11.590602273810399, "train/adv_mag": 0.42931941314919353, "train/adv_max": 0.36018752684331923, "train/adv_mean": 0.002065619949150945, "train/adv_min": -0.37936574935096584, "train/adv_std": 0.0451114258843742, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 1.9283796280445767e-05, "train/cont_loss_std": 0.0005275285908728371, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002606569871585329, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.7687193591215987e-05, "train/cont_pred": 0.9948894528493489, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.437012371951586, "train/dyn_loss_std": 8.755946819096396, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0050263413011211, "train/extr_critic_critic_opt_grad_steps": 350200.0, "train/extr_critic_critic_opt_loss": 15746.478997217466, "train/extr_critic_mag": 11.450619449354198, "train/extr_critic_max": 11.450619449354198, "train/extr_critic_mean": 3.131270660112982, "train/extr_critic_min": -0.4676367567010122, "train/extr_critic_std": 2.7928990141986167, "train/extr_return_normed_mag": 1.4170414193035805, "train/extr_return_normed_max": 1.4170414193035805, "train/extr_return_normed_mean": 0.3778480246458968, "train/extr_return_normed_min": -0.07067293757955505, "train/extr_return_normed_std": 0.326650665639198, "train/extr_return_rate": 0.7810850510858509, "train/extr_return_raw_mag": 12.123645233781371, "train/extr_return_raw_max": 12.123645233781371, "train/extr_return_raw_mean": 3.1491043861598182, "train/extr_return_raw_min": -0.7244085334751704, "train/extr_return_raw_std": 2.821216883724683, "train/extr_reward_mag": 1.0629776046700674, "train/extr_reward_max": 1.0629776046700674, "train/extr_reward_mean": 0.05466778739674451, "train/extr_reward_min": -0.6024026070555596, "train/extr_reward_std": 0.2259032034302411, "train/image_loss_mean": 3.106093618967762, "train/image_loss_std": 8.132852926646194, "train/model_loss_mean": 6.422091542857967, "train/model_loss_std": 12.240932216383007, "train/model_opt_grad_norm": 26.809176902248435, "train/model_opt_grad_steps": 349919.0, "train/model_opt_loss": 8872.955539651113, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.7077028588072896, "train/policy_entropy_max": 2.7077028588072896, "train/policy_entropy_mean": 0.4542051657830199, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6559582013789922, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45436610444767833, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0729424479889542, "train/policy_randomness_mag": 0.9557002823646754, "train/policy_randomness_max": 0.9557002823646754, "train/policy_randomness_mean": 0.16031448900291365, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23152446277337532, "train/post_ent_mag": 55.21503871760956, "train/post_ent_max": 55.21503871760956, "train/post_ent_mean": 40.752090558613816, "train/post_ent_min": 19.224162977035732, "train/post_ent_std": 5.772104491926219, "train/prior_ent_mag": 76.71600153674818, "train/prior_ent_max": 76.71600153674818, "train/prior_ent_mean": 46.17158555331295, "train/prior_ent_min": 28.2985649631448, "train/prior_ent_std": 7.47152657051609, "train/rep_loss_mean": 5.437012371951586, "train/rep_loss_std": 8.755946819096396, "train/reward_avg": 0.038139447263658866, "train/reward_loss_mean": 0.0537711892225971, "train/reward_loss_std": 0.2106209158489149, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0248672717238125, "train/reward_neg_acc": 0.9943107080786195, "train/reward_neg_loss": 0.02384891256383837, "train/reward_pos_acc": 0.989737286143107, "train/reward_pos_loss": 0.7251376991402613, "train/reward_pred": 0.03788657039914229, "train/reward_rate": 0.04275470890410959, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.48103444774945575, "replay/size": 702156.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4628164012898426e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.341453432708404e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09175300598145, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.261669158935547, "timer/env.step_frac": 0.060853618854935856, "timer/env.step_avg": 0.012576907134253131, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.61533784866333, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24091815948486328, "timer/replay.add_frac": 0.000802814995985782, "timer/replay.add_avg": 0.00016592159744136588, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0005288124084472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176666259765625, "timer/logger.write_frac": 7.253335814670787e-05, "timer/logger.write_avg": 0.02176666259765625, "timer/logger.write_min": 0.02176666259765625, "timer/logger.write_max": 0.02176666259765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.719748973846436, "timer/agent.policy_frac": 0.03572157137431487, "timer/agent.policy_avg": 0.007382747227166967, "timer/agent.policy_min": 0.0058553218841552734, "timer/agent.policy_max": 0.01679849624633789, "timer/dataset_count": 726.0, "timer/dataset_total": 0.057880401611328125, "timer/dataset_frac": 0.00019287568229232362, "timer/dataset_avg": 7.972507108998364e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.13309049606323, "timer/agent.train_frac": 0.9001683244880072, "timer/agent.train_avg": 0.3720841466887923, "timer/agent.train_min": 0.3658454418182373, "timer/agent.train_max": 0.3834850788116455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973919868469238, "timer/agent.report_frac": 0.0007322400448649202, "timer/agent.report_avg": 0.21973919868469238, "timer/agent.report_min": 0.21973919868469238, "timer/agent.report_max": 0.21973919868469238, "fps": 4.838425310915271}
+{"step": 702272, "episode/length": 83.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.09523809523809523}
+{"step": 702324, "episode/length": 51.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.30000002682209, "episode/reward_rate": 0.09615384615384616}
+{"step": 702625, "episode/length": 300.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04318936877076412}
+{"step": 702906, "episode/length": 280.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.042704626334519574}
+{"step": 703062, "episode/length": 155.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.0641025641025641}
+{"step": 703264, "episode/length": 201.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0594059405940594}
+{"step": 703617, "episode/length": 352.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.039660056657223795}
+{"step": 703645, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484089596170775, "train/action_min": 0.0, "train/action_std": 3.3183994629013704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04118984937667847, "train/actor_opt_grad_steps": 350920.0, "train/actor_opt_loss": -10.91345089673996, "train/adv_mag": 0.4293249727974475, "train/adv_max": 0.3798076791662565, "train/adv_mean": 0.002555550844987574, "train/adv_min": -0.3631800509674448, "train/adv_std": 0.04689960937264939, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 9.850951472786142e-05, "train/cont_loss_std": 0.0030910738282791885, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.018677717827770234, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 7.332383872303229e-06, "train/cont_pred": 0.994945464839398, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.3219498782090735, "train/dyn_loss_std": 8.784255685940595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0117652617709738, "train/extr_critic_critic_opt_grad_steps": 350920.0, "train/extr_critic_critic_opt_loss": 15980.679673745599, "train/extr_critic_mag": 11.313756499491946, "train/extr_critic_max": 11.313756499491946, "train/extr_critic_mean": 3.173367157788344, "train/extr_critic_min": -0.4238364595762441, "train/extr_critic_std": 2.760906760121735, "train/extr_return_normed_mag": 1.4023655401149266, "train/extr_return_normed_max": 1.4023655401149266, "train/extr_return_normed_mean": 0.38195073247795375, "train/extr_return_normed_min": -0.0731725126085147, "train/extr_return_normed_std": 0.3233962424204383, "train/extr_return_rate": 0.7937610434814238, "train/extr_return_raw_mag": 12.010564992125605, "train/extr_return_raw_max": 12.010564992125605, "train/extr_return_raw_mean": 3.195431799955771, "train/extr_return_raw_min": -0.7361339095612647, "train/extr_return_raw_std": 2.7938496898597394, "train/extr_reward_mag": 1.0586478340793664, "train/extr_reward_max": 1.0586478340793664, "train/extr_reward_mean": 0.05679942557299641, "train/extr_reward_min": -0.6047830615245121, "train/extr_reward_std": 0.22998939076779593, "train/image_loss_mean": 3.153801704796267, "train/image_loss_std": 8.23089668784343, "train/model_loss_mean": 6.402104384462598, "train/model_loss_std": 12.36978924442345, "train/model_opt_grad_norm": 24.76198799509398, "train/model_opt_grad_steps": 350639.0, "train/model_opt_loss": 16005.260893485916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686232697795814, "train/policy_entropy_max": 2.686232697795814, "train/policy_entropy_mean": 0.40703931073067895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.599358340804006, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051636881391767, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0261615447595085, "train/policy_randomness_mag": 0.9481222629547119, "train/policy_randomness_max": 0.9481222629547119, "train/policy_randomness_mean": 0.14366701381727004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21154719318302584, "train/post_ent_mag": 55.37279317076777, "train/post_ent_max": 55.37279317076777, "train/post_ent_mean": 40.72504237000371, "train/post_ent_min": 19.501548552177322, "train/post_ent_std": 5.6628372837120375, "train/prior_ent_mag": 76.77499486359072, "train/prior_ent_max": 76.77499486359072, "train/prior_ent_mean": 46.06411700181558, "train/prior_ent_min": 28.775390302631216, "train/prior_ent_std": 7.526195418666786, "train/rep_loss_mean": 5.3219498782090735, "train/rep_loss_std": 8.784255685940595, "train/reward_avg": 0.03958516706988006, "train/reward_loss_mean": 0.055034289320170036, "train/reward_loss_std": 0.2139019097240878, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.023265754672843, "train/reward_neg_acc": 0.9942402780895502, "train/reward_neg_loss": 0.023761024016519666, "train/reward_pos_acc": 0.9899666577997343, "train/reward_pos_loss": 0.7326934110950416, "train/reward_pred": 0.03925728763807827, "train/reward_rate": 0.044247909330985914, "stats/sum_log_reward": 9.528571673801967, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4340068740504129, "replay/size": 703582.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.396377991493086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.353644054032977e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3783931732178, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.16194200515747, "timer/env.step_frac": 0.07045094616027896, "timer/env.step_avg": 0.014840071532368493, "timer/env.step_min": 0.0031194686889648438, "timer/env.step_max": 1.8150815963745117, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2730064392089844, "timer/replay.add_frac": 0.000908875090265068, "timer/replay.add_avg": 0.00019144911585482774, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008723735809326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019240856170654297, "timer/logger.write_frac": 6.405539349016613e-05, "timer/logger.write_avg": 0.019240856170654297, "timer/logger.write_min": 0.019240856170654297, "timer/logger.write_max": 0.019240856170654297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002315044403076172, "timer/checkpoint.save_frac": 7.707093638193764e-07, "timer/checkpoint.save_avg": 0.0002315044403076172, "timer/checkpoint.save_min": 0.0002315044403076172, "timer/checkpoint.save_max": 0.0002315044403076172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3700273036956787, "timer/agent.save_frac": 0.004561004835343239, "timer/agent.save_avg": 1.3700273036956787, "timer/agent.save_min": 1.3700273036956787, "timer/agent.save_max": 1.3700273036956787, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.008130474215265e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.384706497192383, "timer/agent.policy_frac": 0.04123035071317714, "timer/agent.policy_avg": 0.008684927417385963, "timer/agent.policy_min": 0.006055116653442383, "timer/agent.policy_max": 1.369584321975708, "timer/dataset_count": 713.0, "timer/dataset_total": 0.05696511268615723, "timer/dataset_frac": 0.00018964450832955693, "timer/dataset_avg": 7.989496870428784e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.8287615776062, "timer/agent.train_frac": 0.884979637747486, "timer/agent.train_avg": 0.3728313626614393, "timer/agent.train_min": 0.3659641742706299, "timer/agent.train_max": 0.870976448059082, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220750093460083, "timer/agent.report_frac": 0.0007349066992737527, "timer/agent.report_avg": 0.220750093460083, "timer/agent.report_min": 0.220750093460083, "timer/agent.report_max": 0.220750093460083, "fps": 4.747240980528275}
+{"step": 703847, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05652173913043478}
+{"step": 704039, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 704329, "episode/length": 289.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.041379310344827586}
+{"step": 704511, "episode/length": 181.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.054945054945054944}
+{"step": 704724, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.051643192488262914}
+{"step": 704882, "episode/length": 157.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.0759493670886076}
+{"step": 705092, "episode/length": 209.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05238095238095238}
+{"step": 705093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520739237467448, "train/action_min": 0.0, "train/action_std": 3.4110211630662284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077172056875295, "train/actor_opt_grad_steps": 351635.0, "train/actor_opt_loss": -13.24726340919733, "train/adv_mag": 0.4353719916608598, "train/adv_max": 0.3737498525944021, "train/adv_mean": 0.0014836453551936302, "train/adv_min": -0.372185626377662, "train/adv_std": 0.045715232017553516, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 1.0112948176457496e-05, "train/cont_loss_std": 0.0002791533630488945, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016563450456510666, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 9.293425453194004e-06, "train/cont_pred": 0.9942960979210006, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 5.376810067229801, "train/dyn_loss_std": 8.930455724398294, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.00908902204699, "train/extr_critic_critic_opt_grad_steps": 351635.0, "train/extr_critic_critic_opt_loss": 15917.21009657118, "train/extr_critic_mag": 11.394241333007812, "train/extr_critic_max": 11.394241333007812, "train/extr_critic_mean": 3.1168952650494046, "train/extr_critic_min": -0.46401463945706684, "train/extr_critic_std": 2.820436269044876, "train/extr_return_normed_mag": 1.4229613012737699, "train/extr_return_normed_max": 1.4229613012737699, "train/extr_return_normed_mean": 0.3728832345869806, "train/extr_return_normed_min": -0.0782022476196289, "train/extr_return_normed_std": 0.3276527250806491, "train/extr_return_rate": 0.781658749613497, "train/extr_return_raw_mag": 12.25359426604377, "train/extr_return_raw_max": 12.25359426604377, "train/extr_return_raw_mean": 3.129774226082696, "train/extr_return_raw_min": -0.789293552438418, "train/extr_return_raw_std": 2.847217169072893, "train/extr_reward_mag": 1.0519183079401653, "train/extr_reward_max": 1.0519183079401653, "train/extr_reward_mean": 0.05455019997639789, "train/extr_reward_min": -0.6338377147912979, "train/extr_reward_std": 0.22572856230868232, "train/image_loss_mean": 3.285943047867881, "train/image_loss_std": 8.389576766226027, "train/model_loss_mean": 6.567952864699894, "train/model_loss_std": 12.576288792822096, "train/model_opt_grad_norm": 23.76884561114841, "train/model_opt_grad_steps": 351353.31944444444, "train/model_opt_loss": 16893.81955295139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6851615475283728, "train/policy_entropy_max": 2.6851615475283728, "train/policy_entropy_mean": 0.424021116975281, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6141067114141252, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4241213376323382, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0438045759995778, "train/policy_randomness_mag": 0.947744189037217, "train/policy_randomness_max": 0.947744189037217, "train/policy_randomness_mean": 0.14966084683934847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21675271768536833, "train/post_ent_mag": 55.44402127795749, "train/post_ent_max": 55.44402127795749, "train/post_ent_mean": 40.77826007207235, "train/post_ent_min": 19.410524368286133, "train/post_ent_std": 5.786348448859321, "train/prior_ent_mag": 76.73990069495306, "train/prior_ent_max": 76.73990069495306, "train/prior_ent_mean": 46.108123779296875, "train/prior_ent_min": 28.4268704785241, "train/prior_ent_std": 7.709851821263631, "train/rep_loss_mean": 5.376810067229801, "train/rep_loss_std": 8.930455724398294, "train/reward_avg": 0.03886311840162509, "train/reward_loss_mean": 0.0559137011360791, "train/reward_loss_std": 0.22115646944277817, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0207168741358652, "train/reward_neg_acc": 0.9942177815569772, "train/reward_neg_loss": 0.024493665744860966, "train/reward_pos_acc": 0.9845452929536501, "train/reward_pos_loss": 0.7455573330322901, "train/reward_pred": 0.03843396930541429, "train/reward_rate": 0.043741861979166664, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 7.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5714285714285714, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 0.2857142857142857, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32318652527672903, "replay/size": 705030.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.480450224481235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.347279021753132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.66307258605957, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.74735379219055, "timer/env.step_frac": 0.06567934539596051, "timer/env.step_avg": 0.013637675270849829, "timer/env.step_min": 0.0027616024017333984, "timer/env.step_max": 1.633981466293335, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2509915828704834, "timer/replay.add_frac": 0.0008347935139212728, "timer/replay.add_avg": 0.00017333672850171504, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0009016990661621094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023179054260253906, "timer/logger.write_frac": 7.709311975323909e-05, "timer/logger.write_avg": 0.023179054260253906, "timer/logger.write_min": 0.023179054260253906, "timer/logger.write_max": 0.023179054260253906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.674677848815918, "timer/agent.policy_frac": 0.03550378753533318, "timer/agent.policy_avg": 0.007372015088961269, "timer/agent.policy_min": 0.005979299545288086, "timer/agent.policy_max": 0.015246152877807617, "timer/dataset_count": 724.0, "timer/dataset_total": 0.056620121002197266, "timer/dataset_frac": 0.0001883175094140992, "timer/dataset_avg": 7.820458701960949e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.24898409843445, "timer/agent.train_frac": 0.8955173037465937, "timer/agent.train_avg": 0.37189086201441224, "timer/agent.train_min": 0.3650550842285156, "timer/agent.train_max": 0.3843855857849121, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22331833839416504, "timer/agent.report_frac": 0.00074275279791882, "timer/agent.report_avg": 0.22331833839416504, "timer/agent.report_min": 0.22331833839416504, "timer/agent.report_max": 0.22331833839416504, "fps": 4.815921372663501}
+{"step": 705314, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06306306306306306}
+{"step": 705532, "episode/length": 217.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.700000062584877, "episode/reward_rate": 0.05504587155963303}
+{"step": 705740, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.057692307692307696}
+{"step": 705945, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05853658536585366}
+{"step": 706196, "episode/length": 250.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.055776892430278883}
+{"step": 706533, "episode/length": 336.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.032640949554896145}
+{"step": 706545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47063205666738, "train/action_min": 0.0, "train/action_std": 3.2860167124500013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040198344660744276, "train/actor_opt_grad_steps": 352360.0, "train/actor_opt_loss": -14.84704992869129, "train/adv_mag": 0.40767169162018657, "train/adv_max": 0.34995836264466584, "train/adv_mean": 0.0017191346655947624, "train/adv_min": -0.37410889749657616, "train/adv_std": 0.046167639683778974, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 0.00012191293729839899, "train/cont_loss_std": 0.003831918042625484, "train/cont_neg_acc": 0.9918981484240956, "train/cont_neg_loss": 0.0317293935267195, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.419724658741453e-05, "train/cont_pred": 0.9948238118054116, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.5181326114968074, "train/dyn_loss_std": 8.932310626931386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9932777865292275, "train/extr_critic_critic_opt_grad_steps": 352360.0, "train/extr_critic_critic_opt_loss": 15989.98358572346, "train/extr_critic_mag": 11.367756791310768, "train/extr_critic_max": 11.367756791310768, "train/extr_critic_mean": 3.108228268688672, "train/extr_critic_min": -0.44026456793693647, "train/extr_critic_std": 2.761419573875323, "train/extr_return_normed_mag": 1.4080896573523953, "train/extr_return_normed_max": 1.4080896573523953, "train/extr_return_normed_mean": 0.3726718503318421, "train/extr_return_normed_min": -0.0721157478959593, "train/extr_return_normed_std": 0.3233032606235922, "train/extr_return_rate": 0.7921277913328719, "train/extr_return_raw_mag": 12.060248048338172, "train/extr_return_raw_max": 12.060248048338172, "train/extr_return_raw_mean": 3.123064266492243, "train/extr_return_raw_min": -0.7159459276558602, "train/extr_return_raw_std": 2.790516360165322, "train/extr_reward_mag": 1.056977144659382, "train/extr_reward_max": 1.056977144659382, "train/extr_reward_mean": 0.05669785000077666, "train/extr_reward_min": -0.6462825487737787, "train/extr_reward_std": 0.22947819245188203, "train/image_loss_mean": 3.2838157693000687, "train/image_loss_std": 8.729596493995352, "train/model_loss_mean": 6.650727673752667, "train/model_loss_std": 12.93677388152031, "train/model_opt_grad_norm": 28.599955480392666, "train/model_opt_grad_steps": 352077.1095890411, "train/model_opt_loss": 9273.379795858305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.6820292995400625, "train/policy_entropy_max": 2.6820292995400625, "train/policy_entropy_mean": 0.4040438667552112, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.587625801155012, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40488428918466174, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0327180272912326, "train/policy_randomness_mag": 0.9466386445581096, "train/policy_randomness_max": 0.9466386445581096, "train/policy_randomness_mean": 0.1426097566950811, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.207406123615291, "train/post_ent_mag": 55.5860331809684, "train/post_ent_max": 55.5860331809684, "train/post_ent_mean": 40.66583481880083, "train/post_ent_min": 19.34200553371482, "train/post_ent_std": 5.761966522425821, "train/prior_ent_mag": 76.66378209362291, "train/prior_ent_max": 76.66378209362291, "train/prior_ent_mean": 46.17957206621562, "train/prior_ent_min": 28.452764720132905, "train/prior_ent_std": 7.6743465841633, "train/rep_loss_mean": 5.5181326114968074, "train/rep_loss_std": 8.932310626931386, "train/reward_avg": 0.03976080890693893, "train/reward_loss_mean": 0.055910535105695464, "train/reward_loss_std": 0.22096289183995496, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0210022861010408, "train/reward_neg_acc": 0.9944159396707195, "train/reward_neg_loss": 0.024010997456944967, "train/reward_pos_acc": 0.9847016122243176, "train/reward_pos_loss": 0.7457516299535151, "train/reward_pred": 0.03919048668587045, "train/reward_rate": 0.044413527397260275, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39131411413351697, "replay/size": 706482.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4270207743999386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3443885099132526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08866333961487, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.31275463104248, "timer/env.step_frac": 0.06102447998949451, "timer/env.step_avg": 0.0126120899662827, "timer/env.step_min": 0.002915620803833008, "timer/env.step_max": 1.631589651107788, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2556593418121338, "timer/replay.add_frac": 0.0008519460181099886, "timer/replay.add_avg": 0.00017607392686786073, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0008733272552490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02781057357788086, "timer/logger.write_frac": 9.267452248406736e-05, "timer/logger.write_avg": 0.02781057357788086, "timer/logger.write_min": 0.02781057357788086, "timer/logger.write_max": 0.02781057357788086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.694828987121582, "timer/agent.policy_frac": 0.0356388970782881, "timer/agent.policy_avg": 0.007365584701874368, "timer/agent.policy_min": 0.006041288375854492, "timer/agent.policy_max": 0.01610851287841797, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05673933029174805, "timer/dataset_frac": 0.00018907522083743393, "timer/dataset_avg": 7.815334750929483e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.07797050476074, "timer/agent.train_frac": 0.8999939134625337, "timer/agent.train_avg": 0.3720082238357586, "timer/agent.train_min": 0.36159491539001465, "timer/agent.train_max": 0.38437366485595703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2228076457977295, "timer/agent.report_frac": 0.000742472718956313, "timer/agent.report_avg": 0.2228076457977295, "timer/agent.report_min": 0.2228076457977295, "timer/agent.report_max": 0.2228076457977295, "fps": 4.838467010812177}
+{"step": 706727, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06701030927835051}
+{"step": 706917, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06842105263157895}
+{"step": 707325, "episode/length": 407.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.03676470588235294}
+{"step": 707476, "episode/length": 150.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07947019867549669}
+{"step": 707644, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
+{"step": 707983, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48561774359809, "train/action_min": 0.0, "train/action_std": 3.3708799050913916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077310109924939, "train/actor_opt_grad_steps": 353085.0, "train/actor_opt_loss": -13.170705311440138, "train/adv_mag": 0.42813245124287075, "train/adv_max": 0.3708736610909303, "train/adv_mean": 0.0016886855846678372, "train/adv_min": -0.37391977984872127, "train/adv_std": 0.046370555025835834, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 5.6409356005025936e-05, "train/cont_loss_std": 0.0017804589186954563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00034434155289433634, "train/cont_pos_acc": 0.9999863000379668, "train/cont_pos_loss": 5.486481080464579e-05, "train/cont_pred": 0.9945888833867179, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.12558247976833, "train/dyn_loss_std": 8.690668304761251, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0083065041237407, "train/extr_critic_critic_opt_grad_steps": 353085.0, "train/extr_critic_critic_opt_loss": 15877.968899197049, "train/extr_critic_mag": 11.292610221438938, "train/extr_critic_max": 11.292610221438938, "train/extr_critic_mean": 3.0998085455762014, "train/extr_critic_min": -0.4867989122867584, "train/extr_critic_std": 2.7308266394668155, "train/extr_return_normed_mag": 1.428572921289338, "train/extr_return_normed_max": 1.428572921289338, "train/extr_return_normed_mean": 0.3785703018721607, "train/extr_return_normed_min": -0.08160836441028449, "train/extr_return_normed_std": 0.32574224202997154, "train/extr_return_rate": 0.7907037080989944, "train/extr_return_raw_mag": 12.011528889338175, "train/extr_return_raw_max": 12.011528889338175, "train/extr_return_raw_mean": 3.1141271177265377, "train/extr_return_raw_min": -0.7858089341057671, "train/extr_return_raw_std": 2.7604599164591894, "train/extr_reward_mag": 1.0603918102052476, "train/extr_reward_max": 1.0603918102052476, "train/extr_reward_mean": 0.05710367488467859, "train/extr_reward_min": -0.6591987328396903, "train/extr_reward_std": 0.23017362277540895, "train/image_loss_mean": 2.9878206666972904, "train/image_loss_std": 7.978287465042538, "train/model_loss_mean": 6.118281781673431, "train/model_loss_std": 12.090223418341743, "train/model_opt_grad_norm": 26.594872911771137, "train/model_opt_grad_steps": 352801.7638888889, "train/model_opt_loss": 9803.460394965277, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.698871440357632, "train/policy_entropy_max": 2.698871440357632, "train/policy_entropy_mean": 0.4186725231508414, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6116206107868088, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4195709704524941, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0429697326487966, "train/policy_randomness_mag": 0.9525831797056727, "train/policy_randomness_max": 0.9525831797056727, "train/policy_randomness_mean": 0.14777302804092565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21587523590359423, "train/post_ent_mag": 55.6273832321167, "train/post_ent_max": 55.6273832321167, "train/post_ent_mean": 40.70526801215278, "train/post_ent_min": 19.53892081313663, "train/post_ent_std": 5.700756496853298, "train/prior_ent_mag": 76.70441818237305, "train/prior_ent_max": 76.70441818237305, "train/prior_ent_mean": 45.86138688193427, "train/prior_ent_min": 28.079675992329914, "train/prior_ent_std": 7.640569554434882, "train/rep_loss_mean": 5.12558247976833, "train/rep_loss_std": 8.690668304761251, "train/reward_avg": 0.03977864571950502, "train/reward_loss_mean": 0.05505518853250477, "train/reward_loss_std": 0.2078235973086622, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0226962831285265, "train/reward_neg_acc": 0.9940368880828222, "train/reward_neg_loss": 0.023495122065974608, "train/reward_pos_acc": 0.9870996996760368, "train/reward_pos_loss": 0.7327870552738508, "train/reward_pred": 0.03932311846357253, "train/reward_rate": 0.04469129774305555, "stats/sum_log_reward": 11.900000190734863, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 17.8, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 0.8, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.2, "stats/max_log_achievement_make_stone_sword": 0.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3974000811576843, "replay/size": 707920.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4714938868070345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.33936362074214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13449907302856, "timer/env.step_count": 1438.0, "timer/env.step_total": 18.683321714401245, "timer/env.step_frac": 0.06224983056631297, "timer/env.step_avg": 0.012992574210292937, "timer/env.step_min": 0.0030558109283447266, "timer/env.step_max": 1.7614355087280273, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2676384449005127, "timer/replay.add_frac": 0.0008917283608752723, "timer/replay.add_avg": 0.00018611852913804776, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008587837219238281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027718067169189453, "timer/logger.write_frac": 9.235215296741048e-05, "timer/logger.write_avg": 0.027718067169189453, "timer/logger.write_min": 0.027718067169189453, "timer/logger.write_max": 0.027718067169189453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016641616821289062, "timer/checkpoint.save_frac": 5.544719741544885e-07, "timer/checkpoint.save_avg": 0.00016641616821289062, "timer/checkpoint.save_min": 0.00016641616821289062, "timer/checkpoint.save_max": 0.00016641616821289062, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2953004837036133, "timer/agent.save_frac": 0.004315733405203917, "timer/agent.save_avg": 1.2953004837036133, "timer/agent.save_min": 1.2953004837036133, "timer/agent.save_max": 1.2953004837036133, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478442062123215e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.61638069152832, "timer/agent.policy_frac": 0.042035756404193006, "timer/agent.policy_avg": 0.008773560981591322, "timer/agent.policy_min": 0.006022453308105469, "timer/agent.policy_max": 1.2948181629180908, "timer/dataset_count": 719.0, "timer/dataset_total": 0.057737112045288086, "timer/dataset_frac": 0.00019237079450583095, "timer/dataset_avg": 8.030196390165241e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00013756752014160156, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.82357573509216, "timer/agent.train_frac": 0.8923451871153455, "timer/agent.train_avg": 0.37249454205158855, "timer/agent.train_min": 0.3639969825744629, "timer/agent.train_max": 0.8349320888519287, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2229325771331787, "timer/agent.report_frac": 0.0007427755816865787, "timer/agent.report_avg": 0.2229325771331787, "timer/agent.report_min": 0.2229325771331787, "timer/agent.report_max": 0.2229325771331787, "fps": 4.791080192462087}
+{"step": 708162, "episode/length": 517.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.700000017881393, "episode/reward_rate": 0.032818532818532815}
+{"step": 708350, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06382978723404255}
+{"step": 708616, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05263157894736842}
+{"step": 708811, "episode/length": 194.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.06153846153846154}
+{"step": 709064, "episode/length": 252.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05138339920948617}
+{"step": 709210, "episode/length": 145.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.08904109589041095}
+{"step": 709376, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
+{"step": 709429, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4736438327365455, "train/action_min": 0.0, "train/action_std": 3.323586235443751, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041205556261249714, "train/actor_opt_grad_steps": 353805.0, "train/actor_opt_loss": -12.496118851006031, "train/adv_mag": 0.410834447791179, "train/adv_max": 0.33830493109093773, "train/adv_mean": 0.0023702510060401335, "train/adv_min": -0.3730182246201568, "train/adv_std": 0.046225785484744444, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 7.754560162299818e-05, "train/cont_loss_std": 0.0023890269974043855, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.016892810789667617, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.1041463788904101e-05, "train/cont_pred": 0.9947460037138727, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.33878739674886, "train/dyn_loss_std": 8.827102329995897, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.010840031835768, "train/extr_critic_critic_opt_grad_steps": 353805.0, "train/extr_critic_critic_opt_loss": 16115.296888563367, "train/extr_critic_mag": 11.243874549865723, "train/extr_critic_max": 11.243874549865723, "train/extr_critic_mean": 2.9765240814950733, "train/extr_critic_min": -0.45086581508318585, "train/extr_critic_std": 2.7060592903031244, "train/extr_return_normed_mag": 1.4137121902571783, "train/extr_return_normed_max": 1.4137121902571783, "train/extr_return_normed_mean": 0.3628324253691567, "train/extr_return_normed_min": -0.08148806319675511, "train/extr_return_normed_std": 0.3211553568641345, "train/extr_return_rate": 0.7902271846930186, "train/extr_return_raw_mag": 11.944966316223145, "train/extr_return_raw_max": 11.944966316223145, "train/extr_return_raw_mean": 2.9966967271433935, "train/extr_return_raw_min": -0.7862667226129108, "train/extr_return_raw_std": 2.7345322337415485, "train/extr_reward_mag": 1.0717297163274553, "train/extr_reward_max": 1.0717297163274553, "train/extr_reward_mean": 0.055475530266347856, "train/extr_reward_min": -0.6330752505196465, "train/extr_reward_std": 0.2273930994172891, "train/image_loss_mean": 3.271384153101179, "train/image_loss_std": 8.44639069504208, "train/model_loss_mean": 6.528450349966685, "train/model_loss_std": 12.59570156203376, "train/model_opt_grad_norm": 25.597291390101116, "train/model_opt_grad_steps": 353521.0, "train/model_opt_loss": 8160.562927246094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6941964758767023, "train/policy_entropy_max": 2.6941964758767023, "train/policy_entropy_mean": 0.4246249848769771, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187962591648102, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42473680650194484, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0472911505235567, "train/policy_randomness_mag": 0.9509331261118253, "train/policy_randomness_max": 0.9509331261118253, "train/policy_randomness_mean": 0.14987398570196497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21840792666706774, "train/post_ent_mag": 55.009418381585014, "train/post_ent_max": 55.009418381585014, "train/post_ent_mean": 40.713785330454506, "train/post_ent_min": 19.333785004085964, "train/post_ent_std": 5.73377138376236, "train/prior_ent_mag": 76.74421162075467, "train/prior_ent_max": 76.74421162075467, "train/prior_ent_mean": 46.05612277984619, "train/prior_ent_min": 28.195723056793213, "train/prior_ent_std": 7.643600953949822, "train/rep_loss_mean": 5.33878739674886, "train/rep_loss_std": 8.827102329995897, "train/reward_avg": 0.037497287072862186, "train/reward_loss_mean": 0.05371624050248, "train/reward_loss_std": 0.20370651429726017, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0257047282324896, "train/reward_neg_acc": 0.993497311241097, "train/reward_neg_loss": 0.024310812729203865, "train/reward_pos_acc": 0.9903659944732984, "train/reward_pos_loss": 0.7212422043085098, "train/reward_pred": 0.037377468672477536, "train/reward_rate": 0.042195638020833336, "stats/sum_log_reward": 11.957142966134208, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.42992841984544483, "replay/size": 709366.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4714140832671485e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345020441923234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11862540245056, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.695499658584595, "timer/env.step_frac": 0.06562571593873419, "timer/env.step_avg": 0.013620677495563343, "timer/env.step_min": 0.0028214454650878906, "timer/env.step_max": 1.6426849365234375, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.25246620178222656, "timer/replay.add_frac": 0.000841221371861465, "timer/replay.add_avg": 0.0001745962667926878, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008180141448974609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022158384323120117, "timer/logger.write_frac": 7.38320865404683e-05, "timer/logger.write_avg": 0.022158384323120117, "timer/logger.write_min": 0.022158384323120117, "timer/logger.write_max": 0.022158384323120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.680628776550293, "timer/agent.policy_frac": 0.03558802377635801, "timer/agent.policy_avg": 0.007386326954737408, "timer/agent.policy_min": 0.006064176559448242, "timer/agent.policy_max": 0.01653432846069336, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05730152130126953, "timer/dataset_frac": 0.00019092957401237534, "timer/dataset_avg": 7.925521618432854e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.74547696113586, "timer/agent.train_frac": 0.8954641738770988, "timer/agent.train_avg": 0.37170882013988366, "timer/agent.train_min": 0.3653833866119385, "timer/agent.train_max": 0.38373780250549316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22199082374572754, "timer/agent.report_frac": 0.000739676930907051, "timer/agent.report_avg": 0.22199082374572754, "timer/agent.report_min": 0.22199082374572754, "timer/agent.report_max": 0.22199082374572754, "fps": 4.8179912247718795}
+{"step": 709544, "episode/length": 167.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 709824, "episode/length": 279.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.04285714285714286}
+{"step": 710064, "episode/length": 239.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05416666666666667}
+{"step": 710409, "episode/length": 344.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03768115942028986}
+{"step": 710473, "episode/length": 63.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.300000049173832, "episode/reward_rate": 0.09375}
+{"step": 710720, "episode/length": 246.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05263157894736842}
+{"step": 710881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4630060065282535, "train/action_min": 0.0, "train/action_std": 3.3183775274720912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041794776763409786, "train/actor_opt_grad_steps": 354530.0, "train/actor_opt_loss": -11.855042544129777, "train/adv_mag": 0.3842365892782603, "train/adv_max": 0.34073809279154427, "train/adv_mean": 0.0027707396830633055, "train/adv_min": -0.33990729222558946, "train/adv_std": 0.045706069173469935, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 1.0285306772872234e-05, "train/cont_loss_std": 0.0002863577959738618, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003503924022287617, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 8.541045344294187e-06, "train/cont_pred": 0.9951645486975369, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.336756719301825, "train/dyn_loss_std": 8.81699795918922, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0100308027985978, "train/extr_critic_critic_opt_grad_steps": 354530.0, "train/extr_critic_critic_opt_loss": 16084.74200021404, "train/extr_critic_mag": 11.299535372485852, "train/extr_critic_max": 11.299535372485852, "train/extr_critic_mean": 3.0117824502187234, "train/extr_critic_min": -0.4221614615557945, "train/extr_critic_std": 2.66671876221487, "train/extr_return_normed_mag": 1.4124945238844988, "train/extr_return_normed_max": 1.4124945238844988, "train/extr_return_normed_mean": 0.36667046012127236, "train/extr_return_normed_min": -0.07786068590740634, "train/extr_return_normed_std": 0.3157785563436273, "train/extr_return_rate": 0.7969026900317571, "train/extr_return_raw_mag": 11.973244549476938, "train/extr_return_raw_max": 11.973244549476938, "train/extr_return_raw_mean": 3.0354932432305324, "train/extr_return_raw_min": -0.7643320597197911, "train/extr_return_raw_std": 2.6990193095925736, "train/extr_reward_mag": 1.0571327764694005, "train/extr_reward_max": 1.0571327764694005, "train/extr_reward_mean": 0.056574169036051995, "train/extr_reward_min": -0.6262790062656142, "train/extr_reward_std": 0.22847776849792428, "train/image_loss_mean": 3.162010712166355, "train/image_loss_std": 8.492068192730212, "train/model_loss_mean": 6.4178219494754325, "train/model_loss_std": 12.65798749009224, "train/model_opt_grad_norm": 26.377605216143884, "train/model_opt_grad_steps": 354246.0, "train/model_opt_loss": 14854.012541470462, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2311.6438356164385, "train/policy_entropy_mag": 2.7171368174356956, "train/policy_entropy_max": 2.7171368174356956, "train/policy_entropy_mean": 0.42703524762636996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6251126617601473, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4280761715075741, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0506021747850391, "train/policy_randomness_mag": 0.9590300648179773, "train/policy_randomness_max": 0.9590300648179773, "train/policy_randomness_mean": 0.15072470158338547, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22063733749601938, "train/post_ent_mag": 55.443149514394264, "train/post_ent_max": 55.443149514394264, "train/post_ent_mean": 40.733877678440045, "train/post_ent_min": 19.33023136609221, "train/post_ent_std": 5.7976412054610575, "train/prior_ent_mag": 76.82095190596907, "train/prior_ent_max": 76.82095190596907, "train/prior_ent_mean": 46.0714905098693, "train/prior_ent_min": 28.193756861229467, "train/prior_ent_std": 7.661513119527738, "train/rep_loss_mean": 5.336756719301825, "train/rep_loss_std": 8.81699795918922, "train/reward_avg": 0.03804179074319258, "train/reward_loss_mean": 0.05374693115280099, "train/reward_loss_std": 0.2079219403740478, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0192472575462028, "train/reward_neg_acc": 0.993306185284706, "train/reward_neg_loss": 0.02402739113273278, "train/reward_pos_acc": 0.990009365832969, "train/reward_pos_loss": 0.7254720950779849, "train/reward_pred": 0.03797443922966311, "train/reward_rate": 0.042487157534246575, "stats/sum_log_reward": 10.43333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4449763000011444, "replay/size": 710818.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.5575598724617445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.383139739023424e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21760416030884, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.48498845100403, "timer/env.step_frac": 0.061571967116003955, "timer/env.step_avg": 0.012730708299589551, "timer/env.step_min": 0.0029058456420898438, "timer/env.step_max": 1.6709537506103516, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2570223808288574, "timer/replay.add_frac": 0.000856120284977072, "timer/replay.add_avg": 0.0001770126589730423, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0007970333099365234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023864030838012695, "timer/logger.write_frac": 7.948911225495587e-05, "timer/logger.write_avg": 0.023864030838012695, "timer/logger.write_min": 0.023864030838012695, "timer/logger.write_max": 0.023864030838012695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.755567073822021, "timer/agent.policy_frac": 0.03582590402686317, "timer/agent.policy_avg": 0.007407415340097811, "timer/agent.policy_min": 0.0059964656829833984, "timer/agent.policy_max": 0.046750783920288086, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05782604217529297, "timer/dataset_frac": 0.00019261376206445002, "timer/dataset_avg": 7.965019583373687e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.97267413139343, "timer/agent.train_frac": 0.8992566404841291, "timer/agent.train_avg": 0.37186318750880637, "timer/agent.train_min": 0.3652620315551758, "timer/agent.train_max": 0.38591551780700684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22115778923034668, "timer/agent.report_frac": 0.0007366582977334461, "timer/agent.report_avg": 0.22115778923034668, "timer/agent.report_min": 0.22115778923034668, "timer/agent.report_max": 0.22115778923034668, "fps": 4.836386875102232}
+{"step": 710929, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06220095693779904}
+{"step": 711117, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06382978723404255}
+{"step": 711169, "episode/length": 51.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.1346153846153846}
+{"step": 711387, "episode/length": 217.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.05963302752293578}
+{"step": 711583, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.061224489795918366}
+{"step": 711766, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06557377049180328}
+{"step": 711936, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
+{"step": 712163, "episode/length": 226.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06607929515418502}
+{"step": 712297, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.575258091517857, "train/action_min": 0.0, "train/action_std": 3.417444596971784, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04226412525666612, "train/actor_opt_grad_steps": 355245.0, "train/actor_opt_loss": -12.379835548145431, "train/adv_mag": 0.4068656287022999, "train/adv_max": 0.35633886584213803, "train/adv_mean": 0.002134887758750535, "train/adv_min": -0.3560686249818121, "train/adv_std": 0.04697310780840261, "train/cont_avg": 0.9949358258928571, "train/cont_loss_mean": 1.0404628036399442e-05, "train/cont_loss_std": 0.0002906711315400149, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008811726246906103, "train/cont_pos_acc": 0.9999999795641218, "train/cont_pos_loss": 4.517341403241306e-06, "train/cont_pred": 0.9949363418987819, "train/cont_rate": 0.9949358258928571, "train/dyn_loss_mean": 5.293316650390625, "train/dyn_loss_std": 8.799535294941494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0365219107695989, "train/extr_critic_critic_opt_grad_steps": 355245.0, "train/extr_critic_critic_opt_loss": 16145.296023995536, "train/extr_critic_mag": 11.33067260469709, "train/extr_critic_max": 11.33067260469709, "train/extr_critic_mean": 3.1613090447017123, "train/extr_critic_min": -0.47816902909960063, "train/extr_critic_std": 2.780076626368931, "train/extr_return_normed_mag": 1.4165832315172469, "train/extr_return_normed_max": 1.4165832315172469, "train/extr_return_normed_mean": 0.3797559346471514, "train/extr_return_normed_min": -0.08095595059650285, "train/extr_return_normed_std": 0.3263755066054208, "train/extr_return_rate": 0.7943043572562082, "train/extr_return_raw_mag": 12.116260623931884, "train/extr_return_raw_max": 12.116260623931884, "train/extr_return_raw_mean": 3.1796956368855067, "train/extr_return_raw_min": -0.7923819537673678, "train/extr_return_raw_std": 2.813767712456839, "train/extr_reward_mag": 1.0609936237335205, "train/extr_reward_max": 1.0609936237335205, "train/extr_reward_mean": 0.05836244071168559, "train/extr_reward_min": -0.6485186866351537, "train/extr_reward_std": 0.23300873509475162, "train/image_loss_mean": 3.224260721887861, "train/image_loss_std": 8.018495171410697, "train/model_loss_mean": 6.4542946543012345, "train/model_loss_std": 12.166555540902275, "train/model_opt_grad_norm": 27.677876717703683, "train/model_opt_grad_steps": 354960.2, "train/model_opt_loss": 9749.104903738838, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1500.0, "train/policy_entropy_mag": 2.709144796643938, "train/policy_entropy_max": 2.709144796643938, "train/policy_entropy_mean": 0.4306047737598419, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6282504107270922, "train/policy_logprob_mag": 7.43838427407401, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42981321471078054, "train/policy_logprob_min": -7.43838427407401, "train/policy_logprob_std": 1.0516900275434766, "train/policy_randomness_mag": 0.9562092244625091, "train/policy_randomness_max": 0.9562092244625091, "train/policy_randomness_mean": 0.15198458795036587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22174482622316904, "train/post_ent_mag": 55.485393960135326, "train/post_ent_max": 55.485393960135326, "train/post_ent_mean": 40.66793959481375, "train/post_ent_min": 19.177542563847133, "train/post_ent_std": 5.779923711504255, "train/prior_ent_mag": 76.72412251063756, "train/prior_ent_max": 76.72412251063756, "train/prior_ent_mean": 45.9618713923863, "train/prior_ent_min": 28.027114268711635, "train/prior_ent_std": 7.672591522761754, "train/rep_loss_mean": 5.293316650390625, "train/rep_loss_std": 8.799535294941494, "train/reward_avg": 0.03862165127481733, "train/reward_loss_mean": 0.05403356600020613, "train/reward_loss_std": 0.20850859816585268, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0162986857550484, "train/reward_neg_acc": 0.9944269529410771, "train/reward_neg_loss": 0.023860583627330404, "train/reward_pos_acc": 0.9881215478692736, "train/reward_pos_loss": 0.7261601771627154, "train/reward_pred": 0.03839299910302673, "train/reward_rate": 0.0431640625, "stats/sum_log_reward": 10.850000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3094543404877186, "replay/size": 712234.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4281089480987375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3467661068264374e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.250608921051, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.96506643295288, "timer/env.step_frac": 0.07648632758973488, "timer/env.step_avg": 0.016218267254910226, "timer/env.step_min": 0.002653360366821289, "timer/env.step_max": 1.79437255859375, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2570774555206299, "timer/replay.add_frac": 0.0008562096058503806, "timer/replay.add_avg": 0.00018155187536767647, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.014837026596069336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023567676544189453, "timer/logger.write_frac": 7.849335136697898e-05, "timer/logger.write_avg": 0.023567676544189453, "timer/logger.write_min": 0.023567676544189453, "timer/logger.write_max": 0.023567676544189453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004687309265136719, "timer/checkpoint.save_frac": 1.5611323094332897e-06, "timer/checkpoint.save_avg": 0.0004687309265136719, "timer/checkpoint.save_min": 0.0004687309265136719, "timer/checkpoint.save_max": 0.0004687309265136719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.482407808303833, "timer/agent.save_frac": 0.004937234977244035, "timer/agent.save_avg": 1.482407808303833, "timer/agent.save_min": 1.482407808303833, "timer/agent.save_max": 1.482407808303833, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.6521779824553346e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.56917405128479, "timer/agent.policy_frac": 0.04186227663767961, "timer/agent.policy_avg": 0.008876535346952536, "timer/agent.policy_min": 0.006113767623901367, "timer/agent.policy_max": 1.4674086570739746, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05755758285522461, "timer/dataset_frac": 0.00019169847169355452, "timer/dataset_avg": 8.129602098195566e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.7232401371002, "timer/agent.train_frac": 0.878343731207701, "timer/agent.train_avg": 0.3724904521710455, "timer/agent.train_min": 0.36533522605895996, "timer/agent.train_max": 0.8701558113098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22141551971435547, "timer/agent.report_frac": 0.0007374357058259132, "timer/agent.report_avg": 0.22141551971435547, "timer/agent.report_min": 0.22141551971435547, "timer/agent.report_max": 0.22141551971435547, "fps": 4.715958863851673}
+{"step": 712517, "episode/length": 353.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0423728813559322}
+{"step": 712710, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
+{"step": 712966, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05859375}
+{"step": 713184, "episode/length": 217.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06422018348623854}
+{"step": 713378, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06701030927835051}
+{"step": 713565, "episode/length": 186.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06417112299465241}
+{"step": 713749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5029405567744005, "train/action_min": 0.0, "train/action_std": 3.335888738501562, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04089469345260973, "train/actor_opt_grad_steps": 355960.0, "train/actor_opt_loss": -10.645843736521185, "train/adv_mag": 0.43857073396036067, "train/adv_max": 0.37727962270991444, "train/adv_mean": 0.0027263398869888066, "train/adv_min": -0.38430587804480776, "train/adv_std": 0.046569456843888926, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 1.3130829744193151e-05, "train/cont_loss_std": 0.00034210505323509184, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001395756924607636, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.1852718306137724e-05, "train/cont_pred": 0.9945319637860337, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.2766032610854054, "train/dyn_loss_std": 8.765086147883167, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0227228590886888, "train/extr_critic_critic_opt_grad_steps": 355960.0, "train/extr_critic_critic_opt_loss": 16072.620933219177, "train/extr_critic_mag": 11.412043545344105, "train/extr_critic_max": 11.412043545344105, "train/extr_critic_mean": 3.139507855454536, "train/extr_critic_min": -0.44402848531122074, "train/extr_critic_std": 2.773265547948341, "train/extr_return_normed_mag": 1.427568149893251, "train/extr_return_normed_max": 1.427568149893251, "train/extr_return_normed_mean": 0.3774776381172546, "train/extr_return_normed_min": -0.07969619119412279, "train/extr_return_normed_std": 0.32819305176604285, "train/extr_return_rate": 0.8035789899630089, "train/extr_return_raw_mag": 12.133074721244917, "train/extr_return_raw_max": 12.133074721244917, "train/extr_return_raw_mean": 3.162808202717402, "train/extr_return_raw_min": -0.7427897490050694, "train/extr_return_raw_std": 2.8036670619494295, "train/extr_reward_mag": 1.055039742221571, "train/extr_reward_max": 1.055039742221571, "train/extr_reward_mean": 0.05684540390151821, "train/extr_reward_min": -0.6537062174653354, "train/extr_reward_std": 0.23024343219521928, "train/image_loss_mean": 3.152000846928113, "train/image_loss_std": 8.36207911086409, "train/model_loss_mean": 6.37285482720153, "train/model_loss_std": 12.482078277901428, "train/model_opt_grad_norm": 25.13337668327436, "train/model_opt_grad_steps": 355675.0, "train/model_opt_loss": 11158.966101241438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.712621724768861, "train/policy_entropy_max": 2.712621724768861, "train/policy_entropy_mean": 0.42297411393629364, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.613052681700824, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42358269613899596, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0464627554971877, "train/policy_randomness_mag": 0.9574364284946494, "train/policy_randomness_max": 0.9574364284946494, "train/policy_randomness_mean": 0.1492913020391987, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21638069220193445, "train/post_ent_mag": 54.89542059702416, "train/post_ent_max": 54.89542059702416, "train/post_ent_mean": 40.69653633849261, "train/post_ent_min": 19.53172034433443, "train/post_ent_std": 5.680420993125602, "train/prior_ent_mag": 76.73425418383455, "train/prior_ent_max": 76.73425418383455, "train/prior_ent_mean": 45.97908411940483, "train/prior_ent_min": 28.419649803475156, "train/prior_ent_std": 7.622680004328897, "train/rep_loss_mean": 5.2766032610854054, "train/rep_loss_std": 8.765086147883167, "train/reward_avg": 0.038532748103958285, "train/reward_loss_mean": 0.05487895108861466, "train/reward_loss_std": 0.21339727244148515, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0231539696863252, "train/reward_neg_acc": 0.9943235777828792, "train/reward_neg_loss": 0.024005079846063704, "train/reward_pos_acc": 0.986115571570723, "train/reward_pos_loss": 0.7394873001804091, "train/reward_pred": 0.03804650453672017, "train/reward_rate": 0.043303189212328765, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3509693642457326, "replay/size": 713686.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.448859390805247e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3414739577238225e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11885023117065, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.331613063812256, "timer/env.step_frac": 0.06108117850542237, "timer/env.step_avg": 0.012625077867639294, "timer/env.step_min": 0.0031168460845947266, "timer/env.step_max": 1.6584157943725586, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2638719081878662, "timer/replay.add_frac": 0.0008792247070939238, "timer/replay.add_avg": 0.00018172996431671228, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0010802745819091797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024078845977783203, "timer/logger.write_frac": 8.023103500242035e-05, "timer/logger.write_avg": 0.024078845977783203, "timer/logger.write_min": 0.024078845977783203, "timer/logger.write_max": 0.024078845977783203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.745359897613525, "timer/agent.policy_frac": 0.035803682072408194, "timer/agent.policy_avg": 0.007400385604417028, "timer/agent.policy_min": 0.005995035171508789, "timer/agent.policy_max": 0.01448678970336914, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05804729461669922, "timer/dataset_frac": 0.00019341435758529494, "timer/dataset_avg": 7.99549512626711e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016498565673828125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0381078720093, "timer/agent.train_frac": 0.8997705664406241, "timer/agent.train_avg": 0.37195331662811193, "timer/agent.train_min": 0.3657054901123047, "timer/agent.train_max": 0.3846282958984375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2210221290588379, "timer/agent.report_frac": 0.0007364486732126042, "timer/agent.report_avg": 0.2210221290588379, "timer/agent.report_min": 0.2210221290588379, "timer/agent.report_max": 0.2210221290588379, "fps": 4.838007275345608}
+{"step": 713749, "episode/length": 183.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.05434782608695652}
+{"step": 713959, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05714285714285714}
+{"step": 714172, "episode/length": 212.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06103286384976526}
+{"step": 714389, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.055299539170506916}
+{"step": 714613, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05803571428571429}
+{"step": 714855, "episode/length": 241.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05785123966942149}
+{"step": 715077, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
+{"step": 715193, "stats/sum_log_reward": 11.671428952898298, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.36818474744047436, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495669047037761, "train/action_min": 0.0, "train/action_std": 3.3765098452568054, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041214265705396734, "train/actor_opt_grad_steps": 356685.0, "train/actor_opt_loss": -11.203932106494904, "train/adv_mag": 0.4279114368061225, "train/adv_max": 0.37228839471936226, "train/adv_mean": 0.002387664818115809, "train/adv_min": -0.3764874968263838, "train/adv_std": 0.046066335454169244, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 9.44790724391156e-06, "train/cont_loss_std": 0.0002197282684801078, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007637747314174584, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 4.940876483061629e-06, "train/cont_pred": 0.9947229309214486, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.170108596483867, "train/dyn_loss_std": 8.731736818949381, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9750156319803662, "train/extr_critic_critic_opt_grad_steps": 356685.0, "train/extr_critic_critic_opt_loss": 15993.409369574652, "train/extr_critic_mag": 11.524489442507425, "train/extr_critic_max": 11.524489442507425, "train/extr_critic_mean": 3.17386061946551, "train/extr_critic_min": -0.4430999192926619, "train/extr_critic_std": 2.7561883363458843, "train/extr_return_normed_mag": 1.4307921214236154, "train/extr_return_normed_max": 1.4307921214236154, "train/extr_return_normed_mean": 0.37550041389962036, "train/extr_return_normed_min": -0.0794463833897478, "train/extr_return_normed_std": 0.32128312604294884, "train/extr_return_rate": 0.8147596998347176, "train/extr_return_raw_mag": 12.347041461202833, "train/extr_return_raw_max": 12.347041461202833, "train/extr_return_raw_mean": 3.194579071468777, "train/extr_return_raw_min": -0.7515437106291453, "train/extr_return_raw_std": 2.7867241700490317, "train/extr_reward_mag": 1.064675745036867, "train/extr_reward_max": 1.064675745036867, "train/extr_reward_mean": 0.05725814231360952, "train/extr_reward_min": -0.6438708636495802, "train/extr_reward_std": 0.23094066480795541, "train/image_loss_mean": 3.1122452004088297, "train/image_loss_std": 8.307824293772379, "train/model_loss_mean": 6.267707559797499, "train/model_loss_std": 12.400687403149075, "train/model_opt_grad_norm": 27.734888553619385, "train/model_opt_grad_steps": 356399.7361111111, "train/model_opt_loss": 13604.170233832465, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2170.1388888888887, "train/policy_entropy_mag": 2.68688541981909, "train/policy_entropy_max": 2.68688541981909, "train/policy_entropy_mean": 0.40552560798823833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5961787191530069, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051293238169617, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0302107681830723, "train/policy_randomness_mag": 0.9483526415295072, "train/policy_randomness_max": 0.9483526415295072, "train/policy_randomness_mean": 0.14313274321870673, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21042492406235802, "train/post_ent_mag": 55.169187492794464, "train/post_ent_max": 55.169187492794464, "train/post_ent_mean": 40.67157114876641, "train/post_ent_min": 19.736115376154583, "train/post_ent_std": 5.715537442101373, "train/prior_ent_mag": 76.69274202982585, "train/prior_ent_max": 76.69274202982585, "train/prior_ent_mean": 45.85298379262289, "train/prior_ent_min": 27.931656890445286, "train/prior_ent_std": 7.6769618193308515, "train/rep_loss_mean": 5.170108596483867, "train/rep_loss_std": 8.731736818949381, "train/reward_avg": 0.03820122589564158, "train/reward_loss_mean": 0.05338779909329282, "train/reward_loss_std": 0.20048268656763765, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.031136456463072, "train/reward_neg_acc": 0.9939318713214662, "train/reward_neg_loss": 0.0233702963968325, "train/reward_pos_acc": 0.9900745037529204, "train/reward_pos_loss": 0.7236519985728793, "train/reward_pred": 0.03789708848732213, "train/reward_rate": 0.04306369357638889, "replay/size": 715130.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4720943905309956e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3473167643982948e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32977175712585, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.175865650177002, "timer/env.step_frac": 0.06717903966741284, "timer/env.step_avg": 0.013972206128931441, "timer/env.step_min": 0.002917051315307617, "timer/env.step_max": 1.6801862716674805, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25984835624694824, "timer/replay.add_frac": 0.0008652101146238855, "timer/replay.add_avg": 0.00017995038521256804, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008230209350585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02219390869140625, "timer/logger.write_frac": 7.389846355077404e-05, "timer/logger.write_avg": 0.02219390869140625, "timer/logger.write_min": 0.02219390869140625, "timer/logger.write_max": 0.02219390869140625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.67027997970581, "timer/agent.policy_frac": 0.03552854556269158, "timer/agent.policy_avg": 0.0073893905676633035, "timer/agent.policy_min": 0.00582575798034668, "timer/agent.policy_max": 0.010318279266357422, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05801510810852051, "timer/dataset_frac": 0.00019317135217429205, "timer/dataset_avg": 8.035333533036082e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.45506858825684, "timer/agent.train_frac": 0.8938676542708999, "timer/agent.train_avg": 0.37182142463747486, "timer/agent.train_min": 0.36568307876586914, "timer/agent.train_max": 0.385944128036499, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22264671325683594, "timer/agent.report_frac": 0.000741340799995308, "timer/agent.report_avg": 0.22264671325683594, "timer/agent.report_min": 0.22264671325683594, "timer/agent.report_max": 0.22264671325683594, "fps": 4.807940290548844}
+{"step": 715243, "episode/length": 165.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000056624413, "episode/reward_rate": 0.07228915662650602}
+{"step": 715308, "episode/length": 64.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.15384615384615385}
+{"step": 715575, "episode/length": 266.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0449438202247191}
+{"step": 715783, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.057692307692307696}
+{"step": 715997, "episode/length": 213.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06074766355140187}
+{"step": 716189, "episode/length": 191.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.052083333333333336}
+{"step": 716374, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
+{"step": 716583, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05741626794258373}
+{"step": 716609, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467641051386444, "train/action_min": 0.0, "train/action_std": 3.3047369936822166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04137766712778051, "train/actor_opt_grad_steps": 357400.0, "train/actor_opt_loss": -10.951780499287054, "train/adv_mag": 0.40193564707124735, "train/adv_max": 0.3605611370482915, "train/adv_mean": 0.0023660320605390743, "train/adv_min": -0.3426391381612966, "train/adv_std": 0.04618026935298678, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 2.830248122000086e-05, "train/cont_loss_std": 0.000805447179262456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00029825784440507924, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 2.6603966116662263e-05, "train/cont_pred": 0.9949220351769891, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.390652461790703, "train/dyn_loss_std": 8.896527720169283, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0438519288116777, "train/extr_critic_critic_opt_grad_steps": 357400.0, "train/extr_critic_critic_opt_loss": 15904.240564480633, "train/extr_critic_mag": 11.300480856022364, "train/extr_critic_max": 11.300480856022364, "train/extr_critic_mean": 3.300446412932705, "train/extr_critic_min": -0.42718396388309104, "train/extr_critic_std": 2.754156938740905, "train/extr_return_normed_mag": 1.4040455247314882, "train/extr_return_normed_max": 1.4040455247314882, "train/extr_return_normed_mean": 0.391484302534184, "train/extr_return_normed_min": -0.07739900314891843, "train/extr_return_normed_std": 0.32140235099154457, "train/extr_return_rate": 0.8203198767044175, "train/extr_return_raw_mag": 12.094261518666443, "train/extr_return_raw_max": 12.094261518666443, "train/extr_return_raw_mean": 3.3209202020940647, "train/extr_return_raw_min": -0.7419324240214388, "train/extr_return_raw_std": 2.785023504579571, "train/extr_reward_mag": 1.054176045135713, "train/extr_reward_max": 1.054176045135713, "train/extr_reward_mean": 0.05831512092599567, "train/extr_reward_min": -0.6312633215541571, "train/extr_reward_std": 0.23237526815542034, "train/image_loss_mean": 3.2386777300230216, "train/image_loss_std": 8.600296752553591, "train/model_loss_mean": 6.528262776388249, "train/model_loss_std": 12.778953511949997, "train/model_opt_grad_norm": 25.27328258836773, "train/model_opt_grad_steps": 357114.0, "train/model_opt_loss": 8160.328503246039, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.708769271071528, "train/policy_entropy_max": 2.708769271071528, "train/policy_entropy_mean": 0.3970156060138219, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5911569158795854, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39682617699596245, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0244746317326183, "train/policy_randomness_mag": 0.956076679095416, "train/policy_randomness_max": 0.956076679095416, "train/policy_randomness_mean": 0.14012908610239835, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.208652450794905, "train/post_ent_mag": 55.60596713213853, "train/post_ent_max": 55.60596713213853, "train/post_ent_mean": 40.77457218438807, "train/post_ent_min": 19.33188008590483, "train/post_ent_std": 5.866669910054811, "train/prior_ent_mag": 76.62167218705298, "train/prior_ent_max": 76.62167218705298, "train/prior_ent_mean": 46.13687477649098, "train/prior_ent_min": 28.235903001167404, "train/prior_ent_std": 7.615705745320924, "train/rep_loss_mean": 5.390652461790703, "train/rep_loss_std": 8.896527720169283, "train/reward_avg": 0.040311399112704774, "train/reward_loss_mean": 0.055165295449780744, "train/reward_loss_std": 0.21311080329854723, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0221923807976951, "train/reward_neg_acc": 0.993581665233827, "train/reward_neg_loss": 0.023843531877222195, "train/reward_pos_acc": 0.9888718892151201, "train/reward_pos_loss": 0.7223112641925543, "train/reward_pred": 0.04009521314480775, "train/reward_rate": 0.04490812059859155, "stats/sum_log_reward": 10.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 14.375, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 3.875, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30035531520843506, "replay/size": 716546.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4489874112404e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3553953103426487e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0585913658142, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.9466655254364, "timer/env.step_frac": 0.07647394937431118, "timer/env.step_avg": 0.016205272263726273, "timer/env.step_min": 0.002821683883666992, "timer/env.step_max": 1.8323373794555664, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2808859348297119, "timer/replay.add_frac": 0.0009361036241327678, "timer/replay.add_avg": 0.0001983657731848248, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0008366107940673828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032491207122802734, "timer/logger.write_frac": 0.00010828287560408933, "timer/logger.write_avg": 0.032491207122802734, "timer/logger.write_min": 0.032491207122802734, "timer/logger.write_max": 0.032491207122802734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002884864807128906, "timer/checkpoint.save_frac": 9.614338299721753e-07, "timer/checkpoint.save_avg": 0.0002884864807128906, "timer/checkpoint.save_min": 0.0002884864807128906, "timer/checkpoint.save_max": 0.0002884864807128906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2061805725097656, "timer/agent.save_frac": 0.004019816819839895, "timer/agent.save_avg": 1.2061805725097656, "timer/agent.save_min": 1.2061805725097656, "timer/agent.save_max": 1.2061805725097656, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.866455078125e-05, "timer/replay.save_frac": 2.288371430016417e-07, "timer/replay.save_avg": 6.866455078125e-05, "timer/replay.save_min": 6.866455078125e-05, "timer/replay.save_max": 6.866455078125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.2451331615448, "timer/agent.policy_frac": 0.04080914032758434, "timer/agent.policy_avg": 0.00864769291069548, "timer/agent.policy_min": 0.006012916564941406, "timer/agent.policy_max": 1.2013523578643799, "timer/dataset_count": 708.0, "timer/dataset_total": 0.057004451751708984, "timer/dataset_frac": 0.00018997773565567543, "timer/dataset_avg": 8.051476236117088e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013947486877441406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.8435728549957, "timer/agent.train_frac": 0.8793068435535405, "timer/agent.train_avg": 0.3726604136369996, "timer/agent.train_min": 0.36621785163879395, "timer/agent.train_max": 0.8950896263122559, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22131085395812988, "timer/agent.report_frac": 0.0007375587979359684, "timer/agent.report_avg": 0.22131085395812988, "timer/agent.report_min": 0.22131085395812988, "timer/agent.report_max": 0.22131085395812988, "fps": 4.718977760185415}
+{"step": 716833, "episode/length": 249.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.056}
+{"step": 717051, "episode/length": 217.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.05963302752293578}
+{"step": 717258, "episode/length": 206.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.057971014492753624}
+{"step": 717476, "episode/length": 217.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03211009174311927}
+{"step": 717718, "episode/length": 241.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05371900826446281}
+{"step": 717971, "episode/length": 252.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.05138339920948617}
+{"step": 718059, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488499471586045, "train/action_min": 0.0, "train/action_std": 3.3105206652863384, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041071810491689266, "train/actor_opt_grad_steps": 358120.0, "train/actor_opt_loss": -12.447158513227095, "train/adv_mag": 0.41735464946864403, "train/adv_max": 0.35490543956625953, "train/adv_mean": 0.0023335340941741055, "train/adv_min": -0.3802974724198041, "train/adv_std": 0.04642317581870784, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 0.00012793310235157486, "train/cont_loss_std": 0.00400570112374101, "train/cont_neg_acc": 0.9929060674693486, "train/cont_neg_loss": 0.017216273852698947, "train/cont_pos_acc": 0.9999865742578898, "train/cont_pos_loss": 1.8744299516689752e-05, "train/cont_pred": 0.9945628267444976, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.346020006153681, "train/dyn_loss_std": 8.819702925747388, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0077388923462123, "train/extr_critic_critic_opt_grad_steps": 358120.0, "train/extr_critic_critic_opt_loss": 15860.543878424658, "train/extr_critic_mag": 11.602589907711499, "train/extr_critic_max": 11.602589907711499, "train/extr_critic_mean": 3.3676301028630506, "train/extr_critic_min": -0.4709903214075794, "train/extr_critic_std": 2.85835200139921, "train/extr_return_normed_mag": 1.4157676092565876, "train/extr_return_normed_max": 1.4157676092565876, "train/extr_return_normed_mean": 0.39457171992079854, "train/extr_return_normed_min": -0.08209306608936558, "train/extr_return_normed_std": 0.3289916298977316, "train/extr_return_rate": 0.8097736957955034, "train/extr_return_raw_mag": 12.368427446443741, "train/extr_return_raw_max": 12.368427446443741, "train/extr_return_raw_mean": 3.388165183263282, "train/extr_return_raw_min": -0.8032308914890028, "train/extr_return_raw_std": 2.8931199753121155, "train/extr_reward_mag": 1.0546592784254518, "train/extr_reward_max": 1.0546592784254518, "train/extr_reward_mean": 0.05963056825407564, "train/extr_reward_min": -0.6360426145057155, "train/extr_reward_std": 0.2355459161000709, "train/image_loss_mean": 3.181431295120553, "train/image_loss_std": 8.136472754282494, "train/model_loss_mean": 6.446215512001351, "train/model_loss_std": 12.288186595864492, "train/model_opt_grad_norm": 26.229668551928377, "train/model_opt_grad_steps": 357834.0, "train/model_opt_loss": 14938.381802493579, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2328.7671232876714, "train/policy_entropy_mag": 2.7091638192738574, "train/policy_entropy_max": 2.7091638192738574, "train/policy_entropy_mean": 0.3962123261330879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5832163601705472, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3970653218765781, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0255879718963414, "train/policy_randomness_mag": 0.956215938476667, "train/policy_randomness_max": 0.956215938476667, "train/policy_randomness_mean": 0.1398455638387432, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20584978346955285, "train/post_ent_mag": 55.618844594040965, "train/post_ent_max": 55.618844594040965, "train/post_ent_mean": 40.634212493896484, "train/post_ent_min": 19.2494717428129, "train/post_ent_std": 5.779015338584168, "train/prior_ent_mag": 76.53511193680437, "train/prior_ent_max": 76.53511193680437, "train/prior_ent_mean": 45.99582677344753, "train/prior_ent_min": 28.361634633312487, "train/prior_ent_std": 7.703091954531735, "train/rep_loss_mean": 5.346020006153681, "train/rep_loss_std": 8.819702925747388, "train/reward_avg": 0.04113736045738197, "train/reward_loss_mean": 0.0570443102656162, "train/reward_loss_std": 0.2151844713785877, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.022602822682629, "train/reward_neg_acc": 0.9938911452685317, "train/reward_neg_loss": 0.02496447807101354, "train/reward_pos_acc": 0.9906683613176215, "train/reward_pos_loss": 0.7257589918293365, "train/reward_pred": 0.04077576986220602, "train/reward_rate": 0.0458984375, "stats/sum_log_reward": 11.100000301996866, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 8.666666666666666, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.3004438728094101, "replay/size": 717996.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4749918970568426e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351751130202721e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07573437690735, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.528988361358643, "timer/env.step_frac": 0.06174770645761539, "timer/env.step_avg": 0.01277861266300596, "timer/env.step_min": 0.0031723976135253906, "timer/env.step_max": 1.6749014854431152, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2676093578338623, "timer/replay.add_frac": 0.0008918060581924096, "timer/replay.add_avg": 0.00018455817781645677, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0009472370147705078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029445409774780273, "timer/logger.write_frac": 9.812659406107006e-05, "timer/logger.write_avg": 0.029445409774780273, "timer/logger.write_min": 0.029445409774780273, "timer/logger.write_max": 0.029445409774780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.80939769744873, "timer/agent.policy_frac": 0.03602223192053139, "timer/agent.policy_avg": 0.007454757032723263, "timer/agent.policy_min": 0.006005764007568359, "timer/agent.policy_max": 0.018869638442993164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0579221248626709, "timer/dataset_frac": 0.00019302502077664951, "timer/dataset_avg": 7.98925860174771e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.7170236110687, "timer/agent.train_frac": 0.8988298376445633, "timer/agent.train_avg": 0.3720234808428534, "timer/agent.train_min": 0.365523099899292, "timer/agent.train_max": 0.3852837085723877, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060132026672363, "timer/agent.report_frac": 0.0007351521465898985, "timer/agent.report_avg": 0.22060132026672363, "timer/agent.report_min": 0.22060132026672363, "timer/agent.report_max": 0.22060132026672363, "fps": 4.832037633137924}
+{"step": 718190, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0639269406392694}
+{"step": 718388, "episode/length": 197.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0707070707070707}
+{"step": 718584, "episode/length": 195.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.0663265306122449}
+{"step": 718834, "episode/length": 249.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056}
+{"step": 719012, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06741573033707865}
+{"step": 719164, "episode/length": 151.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.05263157894736842}
+{"step": 719337, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
+{"step": 719503, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5694325764973955, "train/action_min": 0.0, "train/action_std": 3.3731317586368985, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03962590470392671, "train/actor_opt_grad_steps": 358845.0, "train/actor_opt_loss": -12.335951047639051, "train/adv_mag": 0.381170808027188, "train/adv_max": 0.34568978825377095, "train/adv_mean": 0.002103026791802323, "train/adv_min": -0.33671049401164055, "train/adv_std": 0.04398438008502126, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 1.3067337783291401e-05, "train/cont_loss_std": 0.00033670102768784064, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.725089990475966e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.2580742215106966e-05, "train/cont_pred": 0.9949976396229532, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.418070412344402, "train/dyn_loss_std": 8.90598099761539, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0277466277281444, "train/extr_critic_critic_opt_grad_steps": 358845.0, "train/extr_critic_critic_opt_loss": 15787.743760850695, "train/extr_critic_mag": 11.37082142300076, "train/extr_critic_max": 11.37082142300076, "train/extr_critic_mean": 3.129114788439539, "train/extr_critic_min": -0.45638784435060287, "train/extr_critic_std": 2.7727670007281833, "train/extr_return_normed_mag": 1.3809706072012584, "train/extr_return_normed_max": 1.3809706072012584, "train/extr_return_normed_mean": 0.3652306944131851, "train/extr_return_normed_min": -0.07738237367529008, "train/extr_return_normed_std": 0.3177476084480683, "train/extr_return_rate": 0.7987892818119791, "train/extr_return_raw_mag": 12.10047788090176, "train/extr_return_raw_max": 12.10047788090176, "train/extr_return_raw_mean": 3.14765146209134, "train/extr_return_raw_min": -0.7534333144625028, "train/extr_return_raw_std": 2.800968564218945, "train/extr_reward_mag": 1.0554623471366034, "train/extr_reward_max": 1.0554623471366034, "train/extr_reward_mean": 0.05676516476604673, "train/extr_reward_min": -0.6365618705749512, "train/extr_reward_std": 0.22920206044283178, "train/image_loss_mean": 3.4178388317426047, "train/image_loss_std": 8.752353290716806, "train/model_loss_mean": 6.723123318619198, "train/model_loss_std": 12.950863692495558, "train/model_opt_grad_norm": 23.408099240726894, "train/model_opt_grad_steps": 358558.5416666667, "train/model_opt_loss": 17411.956081814234, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.708828992313809, "train/policy_entropy_max": 2.708828992313809, "train/policy_entropy_mean": 0.42101194916499984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6062192598150836, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42241547629237175, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0482553102903895, "train/policy_randomness_mag": 0.956097754339377, "train/policy_randomness_max": 0.956097754339377, "train/policy_randomness_mean": 0.1485987432921926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21396879417200884, "train/post_ent_mag": 55.176678286658394, "train/post_ent_max": 55.176678286658394, "train/post_ent_mean": 40.69253804948595, "train/post_ent_min": 19.262528949313694, "train/post_ent_std": 5.717410908804999, "train/prior_ent_mag": 76.65055412716336, "train/prior_ent_max": 76.65055412716336, "train/prior_ent_mean": 46.08670573764377, "train/prior_ent_min": 27.905399746365017, "train/prior_ent_std": 7.7075314323107404, "train/rep_loss_mean": 5.418070412344402, "train/rep_loss_std": 8.90598099761539, "train/reward_avg": 0.038106281853591405, "train/reward_loss_mean": 0.05442918407627278, "train/reward_loss_std": 0.2127438560128212, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.020330645971828, "train/reward_neg_acc": 0.9939777014984025, "train/reward_neg_loss": 0.024235605572660763, "train/reward_pos_acc": 0.9880037431915601, "train/reward_pos_loss": 0.7315849413474401, "train/reward_pred": 0.037688602745119065, "train/reward_rate": 0.04269748263888889, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2983470857143402, "replay/size": 719440.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.442869952510929e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3434573223716335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08891677856445, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.92892050743103, "timer/env.step_frac": 0.06641005179853603, "timer/env.step_avg": 0.013801191487140603, "timer/env.step_min": 0.0029261112213134766, "timer/env.step_max": 1.7008476257324219, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.24426817893981934, "timer/replay.add_frac": 0.0008139860064211061, "timer/replay.add_avg": 0.00016916078873948707, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008122920989990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02357339859008789, "timer/logger.write_frac": 7.855471252702976e-05, "timer/logger.write_avg": 0.02357339859008789, "timer/logger.write_min": 0.02357339859008789, "timer/logger.write_max": 0.02357339859008789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.59549069404602, "timer/agent.policy_frac": 0.035307837449606416, "timer/agent.policy_avg": 0.007337597433549876, "timer/agent.policy_min": 0.0059583187103271484, "timer/agent.policy_max": 0.013248682022094727, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05722951889038086, "timer/dataset_frac": 0.00019070853900482606, "timer/dataset_avg": 7.926526162102612e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015997886657714844, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.581659078598, "timer/agent.train_frac": 0.89500692648634, "timer/agent.train_avg": 0.3719967577265901, "timer/agent.train_min": 0.3659195899963379, "timer/agent.train_max": 0.38500094413757324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22231435775756836, "timer/agent.report_frac": 0.0007408282856431318, "timer/agent.report_avg": 0.22231435775756836, "timer/agent.report_min": 0.22231435775756836, "timer/agent.report_max": 0.22231435775756836, "fps": 4.811817089833828}
+{"step": 719547, "episode/length": 209.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05238095238095238}
+{"step": 719794, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06072874493927125}
+{"step": 720035, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06224066390041494}
+{"step": 720214, "episode/length": 178.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0782122905027933}
+{"step": 720322, "episode/length": 107.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.08333333333333333}
+{"step": 720622, "episode/length": 299.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.04}
+{"step": 720823, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
+{"step": 720927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471348722216109, "train/action_min": 0.0, "train/action_std": 3.3280838005979296, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04051790570079441, "train/actor_opt_grad_steps": 359560.0, "train/actor_opt_loss": -12.391928749185213, "train/adv_mag": 0.4133470180168958, "train/adv_max": 0.3617825449352533, "train/adv_mean": 0.001804747571884651, "train/adv_min": -0.35710774865788475, "train/adv_std": 0.0451508175424287, "train/cont_avg": 0.9949521346830986, "train/cont_loss_mean": 2.3338664265207292e-05, "train/cont_loss_std": 0.0006694466834188192, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017184631099555973, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.3729703871665062e-05, "train/cont_pred": 0.9949475787055324, "train/cont_rate": 0.9949521346830986, "train/dyn_loss_mean": 5.314758576137919, "train/dyn_loss_std": 8.80251737379692, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0018161233042326, "train/extr_critic_critic_opt_grad_steps": 359560.0, "train/extr_critic_critic_opt_loss": 15849.617558868838, "train/extr_critic_mag": 11.331040637593874, "train/extr_critic_max": 11.331040637593874, "train/extr_critic_mean": 3.1803759521162007, "train/extr_critic_min": -0.4039429090392422, "train/extr_critic_std": 2.7346661628132134, "train/extr_return_normed_mag": 1.402575649006266, "train/extr_return_normed_max": 1.402575649006266, "train/extr_return_normed_mean": 0.3775989990419065, "train/extr_return_normed_min": -0.08060874312486448, "train/extr_return_normed_std": 0.3193137246957967, "train/extr_return_rate": 0.8161073604100187, "train/extr_return_raw_mag": 12.049376836964782, "train/extr_return_raw_max": 12.049376836964782, "train/extr_return_raw_mean": 3.195973940298591, "train/extr_return_raw_min": -0.7613257115155878, "train/extr_return_raw_std": 2.7580240242917773, "train/extr_reward_mag": 1.067209952314135, "train/extr_reward_max": 1.067209952314135, "train/extr_reward_mean": 0.05587704962408039, "train/extr_reward_min": -0.6135952758117461, "train/extr_reward_std": 0.2279952882041394, "train/image_loss_mean": 3.1634971541418158, "train/image_loss_std": 8.256250085965009, "train/model_loss_mean": 6.407470783717196, "train/model_loss_std": 12.402522181121396, "train/model_opt_grad_norm": 26.76597968625351, "train/model_opt_grad_steps": 359272.94366197183, "train/model_opt_loss": 16018.676991637323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7147398397956097, "train/policy_entropy_max": 2.7147398397956097, "train/policy_entropy_mean": 0.4086779712791174, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5991195410909788, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4083503640033829, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0326408760648378, "train/policy_randomness_mag": 0.9581840315335234, "train/policy_randomness_max": 0.9581840315335234, "train/policy_randomness_mean": 0.14424538906191436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21146290728323897, "train/post_ent_mag": 55.1630005097725, "train/post_ent_max": 55.1630005097725, "train/post_ent_mean": 40.671447431537466, "train/post_ent_min": 19.52664063682019, "train/post_ent_std": 5.6608105041611365, "train/prior_ent_mag": 76.7102202294578, "train/prior_ent_max": 76.7102202294578, "train/prior_ent_mean": 45.96884311085016, "train/prior_ent_min": 28.510493882944886, "train/prior_ent_std": 7.508634876197492, "train/rep_loss_mean": 5.314758576137919, "train/rep_loss_std": 8.80251737379692, "train/reward_avg": 0.03903361546321654, "train/reward_loss_mean": 0.05509512845269391, "train/reward_loss_std": 0.21121332741958995, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0214620140236867, "train/reward_neg_acc": 0.9937029077973164, "train/reward_neg_loss": 0.024314769255128543, "train/reward_pos_acc": 0.988798116294431, "train/reward_pos_loss": 0.7295081623843018, "train/reward_pred": 0.038720362386862994, "train/reward_rate": 0.043601452464788734, "stats/sum_log_reward": 11.671428884778704, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3676750830241612, "replay/size": 720864.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4701288416144554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.347655158364371e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10178112983704, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.412841320037842, "timer/env.step_frac": 0.07135193013324276, "timer/env.step_avg": 0.0150371076685659, "timer/env.step_min": 0.003031015396118164, "timer/env.step_max": 1.7789382934570312, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2827024459838867, "timer/replay.add_frac": 0.0009420218864398455, "timer/replay.add_avg": 0.0001985269985841901, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.002540111541748047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020784854888916016, "timer/logger.write_frac": 6.925935197939924e-05, "timer/logger.write_avg": 0.020784854888916016, "timer/logger.write_min": 0.020784854888916016, "timer/logger.write_max": 0.020784854888916016, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024318695068359375, "timer/checkpoint.save_frac": 8.103482417466244e-07, "timer/checkpoint.save_avg": 0.00024318695068359375, "timer/checkpoint.save_min": 0.00024318695068359375, "timer/checkpoint.save_max": 0.00024318695068359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2490630149841309, "timer/agent.save_frac": 0.004162131295194586, "timer/agent.save_avg": 1.2490630149841309, "timer/agent.save_min": 1.2490630149841309, "timer/agent.save_max": 1.2490630149841309, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3357096379755645e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.341713666915894, "timer/agent.policy_frac": 0.04112509302827608, "timer/agent.policy_avg": 0.008666933754856667, "timer/agent.policy_min": 0.005994558334350586, "timer/agent.policy_max": 1.2451035976409912, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0574498176574707, "timer/dataset_frac": 0.00019143444414485304, "timer/dataset_avg": 8.068794614813301e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002257823944091797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3332188129425, "timer/agent.train_frac": 0.8841440987587736, "timer/agent.train_avg": 0.372659015186717, "timer/agent.train_min": 0.3654019832611084, "timer/agent.train_max": 0.8681783676147461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196040153503418, "timer/agent.report_frac": 0.0007317651182327758, "timer/agent.report_avg": 0.2196040153503418, "timer/agent.report_min": 0.2196040153503418, "timer/agent.report_max": 0.2196040153503418, "fps": 4.7449588617093355}
+{"step": 721105, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.03900709219858156}
+{"step": 721303, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05555555555555555}
+{"step": 721421, "episode/length": 117.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07627118644067797}
+{"step": 721617, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0663265306122449}
+{"step": 722006, "episode/length": 388.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.030848329048843187}
+{"step": 722280, "episode/length": 273.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.043795620437956206}
+{"step": 722377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466551886664496, "train/action_min": 0.0, "train/action_std": 3.3390586409303875, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040727213542494506, "train/actor_opt_grad_steps": 360275.0, "train/actor_opt_loss": -13.896943282335997, "train/adv_mag": 0.4055865311788188, "train/adv_max": 0.3420991698900859, "train/adv_mean": 0.0017093051049717662, "train/adv_min": -0.3692639602555169, "train/adv_std": 0.04578951565134856, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 0.000206743979314873, "train/cont_loss_std": 0.006562394212952485, "train/cont_neg_acc": 0.9967206791043282, "train/cont_neg_loss": 0.025504798423728905, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.422144128690219e-06, "train/cont_pred": 0.9947939539949099, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.3321542673640785, "train/dyn_loss_std": 8.889008316728804, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9531716638141208, "train/extr_critic_critic_opt_grad_steps": 360275.0, "train/extr_critic_critic_opt_loss": 15545.049981011285, "train/extr_critic_mag": 11.293139325247871, "train/extr_critic_max": 11.293139325247871, "train/extr_critic_mean": 3.242681552966436, "train/extr_critic_min": -0.446884799334738, "train/extr_critic_std": 2.73969993657536, "train/extr_return_normed_mag": 1.4130453831619687, "train/extr_return_normed_max": 1.4130453831619687, "train/extr_return_normed_mean": 0.38801524105171364, "train/extr_return_normed_min": -0.07908929351510273, "train/extr_return_normed_std": 0.32383497183521587, "train/extr_return_rate": 0.8167842585179541, "train/extr_return_raw_mag": 12.026696854167515, "train/extr_return_raw_max": 12.026696854167515, "train/extr_return_raw_mean": 3.2573206987645893, "train/extr_return_raw_min": -0.7388293283681074, "train/extr_return_raw_std": 2.770471705330743, "train/extr_reward_mag": 1.0660726891623602, "train/extr_reward_max": 1.0660726891623602, "train/extr_reward_mean": 0.0575081138457689, "train/extr_reward_min": -0.645817917254236, "train/extr_reward_std": 0.23078343168728882, "train/image_loss_mean": 3.231304513083564, "train/image_loss_std": 8.710730526182386, "train/model_loss_mean": 6.485730350017548, "train/model_loss_std": 12.891753315925598, "train/model_opt_grad_norm": 24.694524857732986, "train/model_opt_grad_steps": 359987.0, "train/model_opt_loss": 16214.325900607639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7080538173516593, "train/policy_entropy_max": 2.7080538173516593, "train/policy_entropy_mean": 0.4241873208019469, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6211228163705932, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42424467102520996, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0463921626408894, "train/policy_randomness_mag": 0.9558241590857506, "train/policy_randomness_max": 0.9558241590857506, "train/policy_randomness_mean": 0.14971951105528408, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21922909665024942, "train/post_ent_mag": 54.91734822591146, "train/post_ent_max": 54.91734822591146, "train/post_ent_mean": 40.4917844136556, "train/post_ent_min": 19.52453312608931, "train/post_ent_std": 5.707530538241069, "train/prior_ent_mag": 76.72779411739774, "train/prior_ent_max": 76.72779411739774, "train/prior_ent_mean": 45.817593256632485, "train/prior_ent_min": 27.932905673980713, "train/prior_ent_std": 7.672490470939213, "train/rep_loss_mean": 5.3321542673640785, "train/rep_loss_std": 8.889008316728804, "train/reward_avg": 0.03951822927532097, "train/reward_loss_mean": 0.05492649253250824, "train/reward_loss_std": 0.21300313911504215, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0192565752400293, "train/reward_neg_acc": 0.9942370545532968, "train/reward_neg_loss": 0.023547456573901906, "train/reward_pos_acc": 0.9876431003212929, "train/reward_pos_loss": 0.7338607708613077, "train/reward_pred": 0.03904227252739171, "train/reward_rate": 0.04417588975694445, "stats/sum_log_reward": 10.266666809717814, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5026677747567495, "replay/size": 722314.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4989981815732757e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3456056857931202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16764664649963, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.792799472808838, "timer/env.step_frac": 0.06260767835162687, "timer/env.step_avg": 0.012960551360557819, "timer/env.step_min": 0.002958536148071289, "timer/env.step_max": 1.682673692703247, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.25557923316955566, "timer/replay.add_frac": 0.0008514549653332403, "timer/replay.add_avg": 0.00017626154011693494, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008473396301269531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023534536361694336, "timer/logger.write_frac": 7.840464028893295e-05, "timer/logger.write_avg": 0.023534536361694336, "timer/logger.write_min": 0.023534536361694336, "timer/logger.write_max": 0.023534536361694336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.816588163375854, "timer/agent.policy_frac": 0.03603515663403357, "timer/agent.policy_avg": 0.007459715974741969, "timer/agent.policy_min": 0.005957841873168945, "timer/agent.policy_max": 0.014801740646362305, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05835390090942383, "timer/dataset_frac": 0.0001944043655649066, "timer/dataset_avg": 8.048813918541217e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.000133514404296875, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.5577278137207, "timer/agent.train_frac": 0.8980239237147782, "timer/agent.train_avg": 0.37180376250168373, "timer/agent.train_min": 0.36576080322265625, "timer/agent.train_max": 0.38471269607543945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21882104873657227, "timer/agent.report_frac": 0.0007289961166077058, "timer/agent.report_avg": 0.21882104873657227, "timer/agent.report_min": 0.21882104873657227, "timer/agent.report_max": 0.21882104873657227, "fps": 4.83053226149013}
+{"step": 722508, "episode/length": 227.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.07017543859649122}
+{"step": 722715, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
+{"step": 722796, "episode/length": 80.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.12345679012345678}
+{"step": 723001, "episode/length": 204.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06829268292682927}
+{"step": 723191, "episode/length": 189.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.06842105263157895}
+{"step": 723444, "episode/length": 252.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03557312252964427}
+{"step": 723645, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06965174129353234}
+{"step": 723819, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490618143996147, "train/action_min": 0.0, "train/action_std": 3.3394014802697587, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04208470013451903, "train/actor_opt_grad_steps": 361000.0, "train/actor_opt_loss": -11.326910879513989, "train/adv_mag": 0.4337052541644606, "train/adv_max": 0.3745118059115867, "train/adv_mean": 0.00227356475059498, "train/adv_min": -0.38517498765906244, "train/adv_std": 0.0471071541207294, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 8.973630945489862e-05, "train/cont_loss_std": 0.002779592694672025, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.015302596304576132, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.5134026118560491e-05, "train/cont_pred": 0.9946754493125497, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 5.232619899592987, "train/dyn_loss_std": 8.734722921293075, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.026763188512358, "train/extr_critic_critic_opt_grad_steps": 361000.0, "train/extr_critic_critic_opt_loss": 15887.697479666096, "train/extr_critic_mag": 11.449668008987217, "train/extr_critic_max": 11.449668008987217, "train/extr_critic_mean": 3.239896676311754, "train/extr_critic_min": -0.41289090457027905, "train/extr_critic_std": 2.740868227122581, "train/extr_return_normed_mag": 1.4443156800857961, "train/extr_return_normed_max": 1.4443156800857961, "train/extr_return_normed_mean": 0.385756425049207, "train/extr_return_normed_min": -0.07690443389423907, "train/extr_return_normed_std": 0.32212165263417647, "train/extr_return_rate": 0.8236649624288899, "train/extr_return_raw_mag": 12.37115508562898, "train/extr_return_raw_max": 12.37115508562898, "train/extr_return_raw_mean": 3.259462937916795, "train/extr_return_raw_min": -0.7225250569108415, "train/extr_return_raw_std": 2.7727867560843897, "train/extr_reward_mag": 1.0701679007647789, "train/extr_reward_max": 1.0701679007647789, "train/extr_reward_mean": 0.05987120557525386, "train/extr_reward_min": -0.6138198881933133, "train/extr_reward_std": 0.23533542168467012, "train/image_loss_mean": 3.1670129642094653, "train/image_loss_std": 8.317881401271036, "train/model_loss_mean": 6.364631574447841, "train/model_loss_std": 12.418125361612399, "train/model_opt_grad_norm": 25.94138752924253, "train/model_opt_grad_steps": 360711.3698630137, "train/model_opt_loss": 16571.114926690923, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.7070429423083997, "train/policy_entropy_max": 2.7070429423083997, "train/policy_entropy_mean": 0.39873166300662577, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5895693212339322, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39876718982441783, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0273428151052293, "train/policy_randomness_mag": 0.9554673621099289, "train/policy_randomness_max": 0.9554673621099289, "train/policy_randomness_mean": 0.14073478042671125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20809209632546935, "train/post_ent_mag": 55.38851531564373, "train/post_ent_max": 55.38851531564373, "train/post_ent_mean": 40.70229888288942, "train/post_ent_min": 19.50330103260197, "train/post_ent_std": 5.738531942236913, "train/prior_ent_mag": 76.78135858823175, "train/prior_ent_max": 76.78135858823175, "train/prior_ent_mean": 45.94834842420604, "train/prior_ent_min": 28.07212113680905, "train/prior_ent_std": 7.624154051689253, "train/rep_loss_mean": 5.232619899592987, "train/rep_loss_std": 8.734722921293075, "train/reward_avg": 0.04252996532986426, "train/reward_loss_mean": 0.05795697617816598, "train/reward_loss_std": 0.2172935721400666, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0256798202044344, "train/reward_neg_acc": 0.9939488850227775, "train/reward_neg_loss": 0.02508085152159815, "train/reward_pos_acc": 0.989688468306032, "train/reward_pos_loss": 0.7214011484629488, "train/reward_pred": 0.042165711853806284, "train/reward_rate": 0.047222816780821915, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3084165283611843, "replay/size": 723756.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.488979789321201e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3604078147348518e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0308678150177, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.934260606765747, "timer/env.step_frac": 0.06644069909185511, "timer/env.step_avg": 0.013824036481807037, "timer/env.step_min": 0.003023386001586914, "timer/env.step_max": 1.5957047939300537, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2576892375946045, "timer/replay.add_frac": 0.000858875753255766, "timer/replay.add_avg": 0.0001787026613000031, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009310245513916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03237771987915039, "timer/logger.write_frac": 0.00010791462930111806, "timer/logger.write_avg": 0.03237771987915039, "timer/logger.write_min": 0.03237771987915039, "timer/logger.write_max": 0.03237771987915039, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.742933511734009, "timer/agent.policy_frac": 0.03580609418614055, "timer/agent.policy_avg": 0.007450023239760062, "timer/agent.policy_min": 0.006101369857788086, "timer/agent.policy_max": 0.01547384262084961, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05814790725708008, "timer/dataset_frac": 0.00019380641625491292, "timer/dataset_avg": 8.06489698433843e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0001499652862548828, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3426878452301, "timer/agent.train_frac": 0.8943836005923071, "timer/agent.train_avg": 0.3721812591473372, "timer/agent.train_min": 0.3627607822418213, "timer/agent.train_max": 0.3862287998199463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22098064422607422, "timer/agent.report_frac": 0.0007365263642216926, "timer/agent.report_avg": 0.22098064422607422, "timer/agent.report_min": 0.22098064422607422, "timer/agent.report_max": 0.22098064422607422, "fps": 4.806068357962026}
+{"step": 724031, "episode/length": 385.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03626943005181347}
+{"step": 724263, "episode/length": 231.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04310344827586207}
+{"step": 724442, "episode/length": 178.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.07262569832402235}
+{"step": 724480, "episode/length": 37.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.13157894736842105}
+{"step": 724655, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07428571428571429}
+{"step": 724904, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05220883534136546}
+{"step": 725099, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
+{"step": 725241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469323386608715, "train/action_min": 0.0, "train/action_std": 3.308707640204631, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04087874917706973, "train/actor_opt_grad_steps": 361720.0, "train/actor_opt_loss": -13.224666807013499, "train/adv_mag": 0.4251893624453477, "train/adv_max": 0.36317751042439905, "train/adv_mean": 0.002442503594965543, "train/adv_min": -0.3773698135161064, "train/adv_std": 0.04632431174248037, "train/cont_avg": 0.9950621698943662, "train/cont_loss_mean": 1.3856155971511022e-05, "train/cont_loss_std": 0.00034904083420563334, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008281403550361607, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.0169879541716858e-05, "train/cont_pred": 0.9950561002946235, "train/cont_rate": 0.9950621698943662, "train/dyn_loss_mean": 5.373490340273145, "train/dyn_loss_std": 8.737754875505475, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9707607954320773, "train/extr_critic_critic_opt_grad_steps": 361720.0, "train/extr_critic_critic_opt_loss": 15943.84844025088, "train/extr_critic_mag": 11.448571151411029, "train/extr_critic_max": 11.448571151411029, "train/extr_critic_mean": 3.1795688582138277, "train/extr_critic_min": -0.3965629607858792, "train/extr_critic_std": 2.715214148373671, "train/extr_return_normed_mag": 1.4370399998946928, "train/extr_return_normed_max": 1.4370399998946928, "train/extr_return_normed_mean": 0.3794035260945978, "train/extr_return_normed_min": -0.07765584942740454, "train/extr_return_normed_std": 0.3209833582522164, "train/extr_return_rate": 0.8319065881447053, "train/extr_return_raw_mag": 12.258144110021457, "train/extr_return_raw_max": 12.258144110021457, "train/extr_return_raw_mean": 3.200498513772454, "train/extr_return_raw_min": -0.7146607754935681, "train/extr_return_raw_std": 2.7493613807248396, "train/extr_reward_mag": 1.067263986023379, "train/extr_reward_max": 1.067263986023379, "train/extr_reward_mean": 0.05818434143570107, "train/extr_reward_min": -0.6021755094259558, "train/extr_reward_std": 0.23192585920783834, "train/image_loss_mean": 3.1085931566399587, "train/image_loss_std": 8.087735565615372, "train/model_loss_mean": 6.388875323282162, "train/model_loss_std": 12.190662343737106, "train/model_opt_grad_norm": 25.197680514199394, "train/model_opt_grad_steps": 361430.78873239434, "train/model_opt_loss": 16403.383692781692, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.693109411588857, "train/policy_entropy_max": 2.693109411588857, "train/policy_entropy_mean": 0.39358363982657313, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5895002030990493, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39299986333074705, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0184589767120253, "train/policy_randomness_mag": 0.9505494354476391, "train/policy_randomness_max": 0.9505494354476391, "train/policy_randomness_mean": 0.13891775360409642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20806770404459726, "train/post_ent_mag": 54.967937845579335, "train/post_ent_max": 54.967937845579335, "train/post_ent_mean": 40.672055580246614, "train/post_ent_min": 19.59627530272578, "train/post_ent_std": 5.757230469878291, "train/prior_ent_mag": 76.80965219417088, "train/prior_ent_max": 76.80965219417088, "train/prior_ent_mean": 46.07706558872277, "train/prior_ent_min": 28.12565113121355, "train/prior_ent_std": 7.585097111446757, "train/rep_loss_mean": 5.373490340273145, "train/rep_loss_std": 8.737754875505475, "train/reward_avg": 0.040100957122696956, "train/reward_loss_mean": 0.05617410206878689, "train/reward_loss_std": 0.21696829208185975, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0244132800840995, "train/reward_neg_acc": 0.993173490947401, "train/reward_neg_loss": 0.024055243063140924, "train/reward_pos_acc": 0.9871066716355337, "train/reward_pos_loss": 0.7430373379881953, "train/reward_pred": 0.039536305585167776, "train/reward_rate": 0.04481183978873239, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3919536939689091, "replay/size": 725178.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.447177205575334e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3425925277624118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03761196136475, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.413007497787476, "timer/env.step_frac": 0.07136774405651777, "timer/env.step_avg": 0.015058373767783035, "timer/env.step_min": 0.0029799938201904297, "timer/env.step_max": 1.8094348907470703, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.25832533836364746, "timer/replay.add_frac": 0.0008609765178270766, "timer/replay.add_avg": 0.0001816633884413836, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0008499622344970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023183345794677734, "timer/logger.write_frac": 7.726813196227881e-05, "timer/logger.write_avg": 0.023183345794677734, "timer/logger.write_min": 0.023183345794677734, "timer/logger.write_max": 0.023183345794677734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003094673156738281, "timer/checkpoint.save_frac": 1.0314284054283088e-06, "timer/checkpoint.save_avg": 0.0003094673156738281, "timer/checkpoint.save_min": 0.0003094673156738281, "timer/checkpoint.save_max": 0.0003094673156738281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.460481882095337, "timer/agent.save_frac": 0.004867662665850708, "timer/agent.save_avg": 1.460481882095337, "timer/agent.save_min": 1.460481882095337, "timer/agent.save_max": 1.460481882095337, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2646925697000619e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.595701694488525, "timer/agent.policy_frac": 0.04198040909654503, "timer/agent.policy_avg": 0.008857736775308387, "timer/agent.policy_min": 0.006039619445800781, "timer/agent.policy_max": 1.4589684009552002, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05715584754943848, "timer/dataset_frac": 0.00019049560878653548, "timer/dataset_avg": 8.038797123690362e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.03202199935913, "timer/agent.train_frac": 0.8833293275027359, "timer/agent.train_avg": 0.3727595246123194, "timer/agent.train_min": 0.3654751777648926, "timer/agent.train_max": 0.8724558353424072, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2220141887664795, "timer/agent.report_frac": 0.0007399545254181926, "timer/agent.report_avg": 0.2220141887664795, "timer/agent.report_min": 0.2220141887664795, "timer/agent.report_max": 0.2220141887664795, "fps": 4.739314129858229}
+{"step": 725332, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060085836909871244}
+{"step": 725636, "episode/length": 303.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.046052631578947366}
+{"step": 725818, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 725950, "episode/length": 131.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08333333333333333}
+{"step": 726137, "episode/length": 186.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06951871657754011}
+{"step": 726404, "episode/length": 266.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.033707865168539325}
+{"step": 726693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416863335503472, "train/action_min": 0.0, "train/action_std": 3.2775002320607505, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03952439455315471, "train/actor_opt_grad_steps": 362435.0, "train/actor_opt_loss": -12.12636366652118, "train/adv_mag": 0.4119652435183525, "train/adv_max": 0.3720244864622752, "train/adv_mean": 0.0020470848461021283, "train/adv_min": -0.34102682396769524, "train/adv_std": 0.04506129693860809, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 0.0001476495804348943, "train/cont_loss_std": 0.0046632500251632, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.04744786037237425, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.141885542376713e-06, "train/cont_pred": 0.9946554270055559, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.325392584005992, "train/dyn_loss_std": 8.772626095347935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.999071872068776, "train/extr_critic_critic_opt_grad_steps": 362435.0, "train/extr_critic_critic_opt_loss": 15740.276665581598, "train/extr_critic_mag": 11.44163147608439, "train/extr_critic_max": 11.44163147608439, "train/extr_critic_mean": 3.1734376152356467, "train/extr_critic_min": -0.4354432076215744, "train/extr_critic_std": 2.750246329440011, "train/extr_return_normed_mag": 1.4247633053196802, "train/extr_return_normed_max": 1.4247633053196802, "train/extr_return_normed_mean": 0.37634334299299455, "train/extr_return_normed_min": -0.08113628351646993, "train/extr_return_normed_std": 0.3214325530247556, "train/extr_return_rate": 0.8115478927890459, "train/extr_return_raw_mag": 12.253150092230904, "train/extr_return_raw_max": 12.253150092230904, "train/extr_return_raw_mean": 3.1911387311087713, "train/extr_return_raw_min": -0.7628017349375619, "train/extr_return_raw_std": 2.778315860364172, "train/extr_reward_mag": 1.0651001864009433, "train/extr_reward_max": 1.0651001864009433, "train/extr_reward_mean": 0.05607971781864762, "train/extr_reward_min": -0.6001088900698556, "train/extr_reward_std": 0.2289072929157151, "train/image_loss_mean": 3.1977813243865967, "train/image_loss_std": 8.037452744113075, "train/model_loss_mean": 6.44803567065133, "train/model_loss_std": 12.149664137098524, "train/model_opt_grad_norm": 26.357182171609665, "train/model_opt_grad_steps": 362145.0, "train/model_opt_loss": 16120.089111328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696624825398127, "train/policy_entropy_max": 2.696624825398127, "train/policy_entropy_mean": 0.40142077455917996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5944639320174853, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016516674309969, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0281299394037988, "train/policy_randomness_mag": 0.9517902251746919, "train/policy_randomness_max": 0.9517902251746919, "train/policy_randomness_mean": 0.1416839166647858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2098196783206529, "train/post_ent_mag": 55.04547198613485, "train/post_ent_max": 55.04547198613485, "train/post_ent_mean": 40.712516201867, "train/post_ent_min": 19.496313015619915, "train/post_ent_std": 5.716918031374614, "train/prior_ent_mag": 76.73876910739475, "train/prior_ent_max": 76.73876910739475, "train/prior_ent_mean": 46.05680327945285, "train/prior_ent_min": 28.531253708733452, "train/prior_ent_std": 7.593391716480255, "train/rep_loss_mean": 5.325392584005992, "train/rep_loss_std": 8.772626095347935, "train/reward_avg": 0.038468424463644624, "train/reward_loss_mean": 0.05487122303909726, "train/reward_loss_std": 0.2147365084124936, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0248743759261236, "train/reward_neg_acc": 0.9938755068514082, "train/reward_neg_loss": 0.024191318267387234, "train/reward_pos_acc": 0.988653241760201, "train/reward_pos_loss": 0.736223905450768, "train/reward_pred": 0.03818207117728889, "train/reward_rate": 0.043158637152777776, "stats/sum_log_reward": 11.100000301996866, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3951645642518997, "replay/size": 726630.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.457726197466049e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3429312338185377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1529803276062, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.385709524154663, "timer/env.step_frac": 0.06125446265463472, "timer/env.step_avg": 0.012662334383026627, "timer/env.step_min": 0.0031239986419677734, "timer/env.step_max": 1.6571037769317627, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2534346580505371, "timer/replay.add_frac": 0.0008443516295387848, "timer/replay.add_avg": 0.00017454177551689884, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0008423328399658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029202938079833984, "timer/logger.write_frac": 9.729351362082104e-05, "timer/logger.write_avg": 0.029202938079833984, "timer/logger.write_min": 0.029202938079833984, "timer/logger.write_max": 0.029202938079833984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.714962720870972, "timer/agent.policy_frac": 0.03569833859112768, "timer/agent.policy_avg": 0.007379450909690752, "timer/agent.policy_min": 0.005836963653564453, "timer/agent.policy_max": 0.015102148056030273, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05775141716003418, "timer/dataset_frac": 0.00019240660911312818, "timer/dataset_avg": 7.954740655652091e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.05593490600586, "timer/agent.train_frac": 0.8997276475857394, "timer/agent.train_avg": 0.37197787177135794, "timer/agent.train_min": 0.36577558517456055, "timer/agent.train_max": 0.38388943672180176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22139310836791992, "timer/agent.report_frac": 0.0007376008998020852, "timer/agent.report_avg": 0.22139310836791992, "timer/agent.report_min": 0.22139310836791992, "timer/agent.report_max": 0.22139310836791992, "fps": 4.837448786326887}
+{"step": 726770, "episode/length": 365.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03825136612021858}
+{"step": 726962, "episode/length": 191.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.046875}
+{"step": 727191, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0611353711790393}
+{"step": 727395, "episode/length": 203.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.058823529411764705}
+{"step": 727577, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 727893, "episode/length": 315.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.700000070035458, "episode/reward_rate": 0.05063291139240506}
+{"step": 728143, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481214549443493, "train/action_min": 0.0, "train/action_std": 3.355980285226482, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04035704044548616, "train/actor_opt_grad_steps": 363160.0, "train/actor_opt_loss": -12.868888115637922, "train/adv_mag": 0.43331888481362224, "train/adv_max": 0.37620194235893145, "train/adv_mean": 0.0017973286478131553, "train/adv_min": -0.3705315438851918, "train/adv_std": 0.04600041609716742, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 0.00026347331014340067, "train/cont_loss_std": 0.008296319168993848, "train/cont_neg_acc": 0.9963470329977062, "train/cont_neg_loss": 0.007271155970049217, "train/cont_pos_acc": 0.9999864983232054, "train/cont_pos_loss": 0.00021451941525399838, "train/cont_pred": 0.9948397458416142, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.4270180414800775, "train/dyn_loss_std": 8.861050893182624, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9765087790685157, "train/extr_critic_critic_opt_grad_steps": 363160.0, "train/extr_critic_critic_opt_loss": 15781.964121361301, "train/extr_critic_mag": 11.406000085072975, "train/extr_critic_max": 11.406000085072975, "train/extr_critic_mean": 3.2484072691773713, "train/extr_critic_min": -0.4336225186308769, "train/extr_critic_std": 2.7263199907459623, "train/extr_return_normed_mag": 1.4242706331488204, "train/extr_return_normed_max": 1.4242706331488204, "train/extr_return_normed_mean": 0.3867965873381863, "train/extr_return_normed_min": -0.08631420594780412, "train/extr_return_normed_std": 0.3201576779558234, "train/extr_return_rate": 0.8231994215756246, "train/extr_return_raw_mag": 12.197265220015016, "train/extr_return_raw_max": 12.197265220015016, "train/extr_return_raw_mean": 3.26388204587649, "train/extr_return_raw_min": -0.8095816745333475, "train/extr_return_raw_std": 2.7567850710594493, "train/extr_reward_mag": 1.0557175499119171, "train/extr_reward_max": 1.0557175499119171, "train/extr_reward_mean": 0.058105108187827346, "train/extr_reward_min": -0.6356487829391271, "train/extr_reward_std": 0.2321260195888885, "train/image_loss_mean": 3.4325329571554106, "train/image_loss_std": 8.686326856482518, "train/model_loss_mean": 6.744518025280678, "train/model_loss_std": 12.848730622905574, "train/model_opt_grad_norm": 23.368983386314078, "train/model_opt_grad_steps": 362869.2191780822, "train/model_opt_loss": 17291.169895119863, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.715702073214805, "train/policy_entropy_max": 2.715702073214805, "train/policy_entropy_mean": 0.40766303343315646, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6085080696295385, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40847215321782515, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.036314701380795, "train/policy_randomness_mag": 0.9585236564074477, "train/policy_randomness_max": 0.9585236564074477, "train/policy_randomness_mean": 0.14388716180030614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21477664272262625, "train/post_ent_mag": 55.385277316994866, "train/post_ent_max": 55.385277316994866, "train/post_ent_mean": 40.745622399735126, "train/post_ent_min": 19.678604517897515, "train/post_ent_std": 5.743483445415758, "train/prior_ent_mag": 76.71975164544092, "train/prior_ent_max": 76.71975164544092, "train/prior_ent_mean": 46.15113020596439, "train/prior_ent_min": 27.919642069568372, "train/prior_ent_std": 7.644576771618569, "train/rep_loss_mean": 5.4270180414800775, "train/rep_loss_std": 8.861050893182624, "train/reward_avg": 0.04065443016588688, "train/reward_loss_mean": 0.05551072337651906, "train/reward_loss_std": 0.212653127639261, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.019528434701162, "train/reward_neg_acc": 0.9939375715712978, "train/reward_neg_loss": 0.023358399112236826, "train/reward_pos_acc": 0.9867760637035109, "train/reward_pos_loss": 0.736633737609811, "train/reward_pred": 0.04010461176401132, "train/reward_rate": 0.045256314212328765, "stats/sum_log_reward": 11.933333079020182, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4687723567088445, "replay/size": 728080.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4837065071895204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3412894873783506e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29553484916687, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.789573192596436, "timer/env.step_frac": 0.06257027165600083, "timer/env.step_avg": 0.01295832633972168, "timer/env.step_min": 0.003268003463745117, "timer/env.step_max": 1.6637918949127197, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2620735168457031, "timer/replay.add_frac": 0.0008727186602269594, "timer/replay.add_avg": 0.0001807403564453125, "timer/replay.add_min": 6.794929504394531e-05, "timer/replay.add_max": 0.0008072853088378906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020590782165527344, "timer/logger.write_frac": 6.856839271975764e-05, "timer/logger.write_avg": 0.020590782165527344, "timer/logger.write_min": 0.020590782165527344, "timer/logger.write_max": 0.020590782165527344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.785403728485107, "timer/agent.policy_frac": 0.0359159643645798, "timer/agent.policy_avg": 0.007438209467920764, "timer/agent.policy_min": 0.006106853485107422, "timer/agent.policy_max": 0.01643085479736328, "timer/dataset_count": 725.0, "timer/dataset_total": 0.058034420013427734, "timer/dataset_frac": 0.00019325768544170126, "timer/dataset_avg": 8.004747588058998e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.71793699264526, "timer/agent.train_frac": 0.8981749832814524, "timer/agent.train_avg": 0.3720247406795107, "timer/agent.train_min": 0.36561131477355957, "timer/agent.train_max": 0.38439345359802246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978163719177246, "timer/agent.report_frac": 0.000731884466088265, "timer/agent.report_avg": 0.21978163719177246, "timer/agent.report_min": 0.21978163719177246, "timer/agent.report_max": 0.21978163719177246, "fps": 4.828477875961489}
+{"step": 728308, "episode/length": 414.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.02891566265060241}
+{"step": 728360, "episode/length": 51.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.1346153846153846}
+{"step": 728553, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
+{"step": 728729, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07386363636363637}
+{"step": 728899, "episode/length": 169.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07058823529411765}
+{"step": 729251, "episode/length": 351.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04261363636363636}
+{"step": 729539, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04861111111111111}
+{"step": 729567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526941433758803, "train/action_min": 0.0, "train/action_std": 3.4005154253731313, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04044700246041929, "train/actor_opt_grad_steps": 363880.0, "train/actor_opt_loss": -11.277497588538788, "train/adv_mag": 0.39221762099736174, "train/adv_max": 0.353363091467132, "train/adv_mean": 0.002230360685592734, "train/adv_min": -0.34792042471153634, "train/adv_std": 0.04601219658490638, "train/cont_avg": 0.9948971170774648, "train/cont_loss_mean": 9.788353379767165e-06, "train/cont_loss_std": 0.00026759782177260976, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00037425238641665436, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 7.93955017186331e-06, "train/cont_pred": 0.9948922110275483, "train/cont_rate": 0.9948971170774648, "train/dyn_loss_mean": 5.3066234118501905, "train/dyn_loss_std": 8.833133348276917, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.009358504288633, "train/extr_critic_critic_opt_grad_steps": 363880.0, "train/extr_critic_critic_opt_loss": 15761.561592209508, "train/extr_critic_mag": 11.39221601083245, "train/extr_critic_max": 11.39221601083245, "train/extr_critic_mean": 3.2488519138013814, "train/extr_critic_min": -0.40486343981514517, "train/extr_critic_std": 2.7446511261899706, "train/extr_return_normed_mag": 1.4284899150821524, "train/extr_return_normed_max": 1.4284899150821524, "train/extr_return_normed_mean": 0.38741129384913914, "train/extr_return_normed_min": -0.07634553811709646, "train/extr_return_normed_std": 0.32342001606880777, "train/extr_return_rate": 0.8261306537708766, "train/extr_return_raw_mag": 12.18628671135701, "train/extr_return_raw_max": 12.18628671135701, "train/extr_return_raw_mean": 3.267950612054744, "train/extr_return_raw_min": -0.7051862763686919, "train/extr_return_raw_std": 2.770901146069379, "train/extr_reward_mag": 1.0677779190976855, "train/extr_reward_max": 1.0677779190976855, "train/extr_reward_mean": 0.058925295379799854, "train/extr_reward_min": -0.6171770565946337, "train/extr_reward_std": 0.23381269397869917, "train/image_loss_mean": 3.107117602522944, "train/image_loss_std": 8.017052992968493, "train/model_loss_mean": 6.3452887938056195, "train/model_loss_std": 12.171139179820745, "train/model_opt_grad_norm": 26.70243386819329, "train/model_opt_grad_steps": 363588.6338028169, "train/model_opt_loss": 16302.158822073063, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.7171627131985945, "train/policy_entropy_max": 2.7171627131985945, "train/policy_entropy_mean": 0.41442106601218104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6163068837682966, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41424607684914494, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0384525438429604, "train/policy_randomness_mag": 0.9590391995201648, "train/policy_randomness_max": 0.9590391995201648, "train/policy_randomness_mean": 0.14627245058056335, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.217529285751598, "train/post_ent_mag": 55.074097593065716, "train/post_ent_max": 55.074097593065716, "train/post_ent_mean": 40.686302131330464, "train/post_ent_min": 19.3345795752297, "train/post_ent_std": 5.74040540507142, "train/prior_ent_mag": 76.63879093653719, "train/prior_ent_max": 76.63879093653719, "train/prior_ent_mean": 45.97884965278733, "train/prior_ent_min": 27.981824391324754, "train/prior_ent_std": 7.6395105576850995, "train/rep_loss_mean": 5.3066234118501905, "train/rep_loss_std": 8.833133348276917, "train/reward_avg": 0.039728212681874424, "train/reward_loss_mean": 0.054187369204952686, "train/reward_loss_std": 0.20591416325367673, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0254486631339705, "train/reward_neg_acc": 0.9940006800100837, "train/reward_neg_loss": 0.02315149874701886, "train/reward_pos_acc": 0.9887712984017922, "train/reward_pos_loss": 0.7233168675865925, "train/reward_pred": 0.03940909190601866, "train/reward_rate": 0.04445422535211268, "stats/sum_log_reward": 10.81428575515747, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.142857142857142, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4569473160164697, "replay/size": 729504.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4594133998570816e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3523640927304043e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1560733318329, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.506603717803955, "timer/env.step_frac": 0.07165140281545349, "timer/env.step_avg": 0.015102952049019631, "timer/env.step_min": 0.0029449462890625, "timer/env.step_max": 1.8143372535705566, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2651522159576416, "timer/replay.add_frac": 0.0008833811457298307, "timer/replay.add_avg": 0.00018620239884665842, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020198345184326172, "timer/logger.write_frac": 6.729280857161336e-05, "timer/logger.write_avg": 0.020198345184326172, "timer/logger.write_min": 0.020198345184326172, "timer/logger.write_max": 0.020198345184326172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00027251243591308594, "timer/checkpoint.save_frac": 9.079024551730927e-07, "timer/checkpoint.save_avg": 0.00027251243591308594, "timer/checkpoint.save_min": 0.00027251243591308594, "timer/checkpoint.save_max": 0.00027251243591308594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2476418018341064, "timer/agent.save_frac": 0.004156643535427635, "timer/agent.save_avg": 1.2476418018341064, "timer/agent.save_min": 1.2476418018341064, "timer/agent.save_max": 1.2476418018341064, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.351173462215533e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.291833639144897, "timer/agent.policy_frac": 0.040951474020503496, "timer/agent.policy_avg": 0.008631905645466922, "timer/agent.policy_min": 0.005915641784667969, "timer/agent.policy_max": 1.2460784912109375, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0572514533996582, "timer/dataset_frac": 0.00019073894712223513, "timer/dataset_avg": 8.04093446624413e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00015783309936523438, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3605492115021, "timer/agent.train_frac": 0.8840752288164992, "timer/agent.train_avg": 0.37269740057795236, "timer/agent.train_min": 0.3657243251800537, "timer/agent.train_max": 0.8654658794403076, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22133398056030273, "timer/agent.report_frac": 0.0007373963088716528, "timer/agent.report_avg": 0.22133398056030273, "timer/agent.report_min": 0.22133398056030273, "timer/agent.report_max": 0.22133398056030273, "fps": 4.744108879235153}
+{"step": 729696, "episode/length": 156.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06369426751592357}
+{"step": 729862, "episode/length": 165.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.060240963855421686}
+{"step": 730167, "episode/length": 304.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.04590163934426229}
+{"step": 730363, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
+{"step": 730550, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.053475935828877004}
+{"step": 730781, "episode/length": 230.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.047619047619047616}
+{"step": 730986, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04878048780487805}
+{"step": 731013, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.409143235948351, "train/action_min": 0.0, "train/action_std": 3.2887211508221097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04140298477270537, "train/actor_opt_grad_steps": 364595.0, "train/actor_opt_loss": -12.144656889554527, "train/adv_mag": 0.4335828862256474, "train/adv_max": 0.37198052265577847, "train/adv_mean": 0.002551496645385972, "train/adv_min": -0.3900568899181154, "train/adv_std": 0.04689356658814682, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 9.882229292262284e-06, "train/cont_loss_std": 0.0002734637758123881, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020462097726357974, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.691037084871153e-06, "train/cont_pred": 0.9948120936751366, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 5.339745495054457, "train/dyn_loss_std": 8.903708073827955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0060048227508862, "train/extr_critic_critic_opt_grad_steps": 364595.0, "train/extr_critic_critic_opt_loss": 15906.022013346354, "train/extr_critic_mag": 11.45149146185981, "train/extr_critic_max": 11.45149146185981, "train/extr_critic_mean": 3.2467862831221685, "train/extr_critic_min": -0.4149174309439129, "train/extr_critic_std": 2.706118017435074, "train/extr_return_normed_mag": 1.4266595111952887, "train/extr_return_normed_max": 1.4266595111952887, "train/extr_return_normed_mean": 0.38622796245747143, "train/extr_return_normed_min": -0.08510186445588867, "train/extr_return_normed_std": 0.319128124250306, "train/extr_return_rate": 0.8266574856307771, "train/extr_return_raw_mag": 12.194992714458042, "train/extr_return_raw_max": 12.194992714458042, "train/extr_return_raw_mean": 3.268681291076872, "train/extr_return_raw_min": -0.7741522644129064, "train/extr_return_raw_std": 2.7376467320654125, "train/extr_reward_mag": 1.0649365054236517, "train/extr_reward_max": 1.0649365054236517, "train/extr_reward_mean": 0.05830303238083919, "train/extr_reward_min": -0.6457408153348498, "train/extr_reward_std": 0.23305641176799932, "train/image_loss_mean": 3.3025226129425898, "train/image_loss_std": 8.831718570656246, "train/model_loss_mean": 6.560693654749128, "train/model_loss_std": 12.985344449679056, "train/model_opt_grad_norm": 26.820725003878277, "train/model_opt_grad_steps": 364303.0, "train/model_opt_loss": 16401.734144422742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7070280843310885, "train/policy_entropy_max": 2.7070280843310885, "train/policy_entropy_mean": 0.399927060223288, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6056530276934305, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4009041316393349, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0333050572209888, "train/policy_randomness_mag": 0.955462117989858, "train/policy_randomness_max": 0.955462117989858, "train/policy_randomness_mean": 0.141156701474554, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21376894279900524, "train/post_ent_mag": 55.35142834981283, "train/post_ent_max": 55.35142834981283, "train/post_ent_mean": 40.63065587149726, "train/post_ent_min": 19.608311653137207, "train/post_ent_std": 5.730048464404212, "train/prior_ent_mag": 76.81687090131972, "train/prior_ent_max": 76.81687090131972, "train/prior_ent_mean": 45.923846615685356, "train/prior_ent_min": 28.442714346779717, "train/prior_ent_std": 7.664888044198354, "train/rep_loss_mean": 5.339745495054457, "train/rep_loss_std": 8.903708073827955, "train/reward_avg": 0.039165581214345165, "train/reward_loss_mean": 0.054313798228071794, "train/reward_loss_std": 0.2130287858761019, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.030895084142685, "train/reward_neg_acc": 0.9938435273038017, "train/reward_neg_loss": 0.02326734585221857, "train/reward_pos_acc": 0.988971540497409, "train/reward_pos_loss": 0.731948090924157, "train/reward_pred": 0.038905635450242296, "train/reward_rate": 0.043782552083333336, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34267080255917143, "replay/size": 730950.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5116451574723913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3421762368820845e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3149938583374, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.771580934524536, "timer/env.step_frac": 0.06583614317922153, "timer/env.step_avg": 0.013673292485839927, "timer/env.step_min": 0.0028448104858398438, "timer/env.step_max": 1.67832350730896, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2822704315185547, "timer/replay.add_frac": 0.0009399145473625784, "timer/replay.add_avg": 0.00019520776730190504, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0009007453918457031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029129981994628906, "timer/logger.write_frac": 9.699809396919393e-05, "timer/logger.write_avg": 0.029129981994628906, "timer/logger.write_min": 0.029129981994628906, "timer/logger.write_max": 0.029129981994628906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.650503158569336, "timer/agent.policy_frac": 0.035464440258994596, "timer/agent.policy_avg": 0.0073654931940313525, "timer/agent.policy_min": 0.005972146987915039, "timer/agent.policy_max": 0.017357826232910156, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05781197547912598, "timer/dataset_frac": 0.00019250445918926265, "timer/dataset_avg": 7.996123856034021e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00014925003051757812, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.86414432525635, "timer/agent.train_frac": 0.8952737952607294, "timer/agent.train_avg": 0.3718729520404652, "timer/agent.train_min": 0.3660242557525635, "timer/agent.train_max": 0.3852231502532959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22263073921203613, "timer/agent.report_frac": 0.0007413240889232925, "timer/agent.report_avg": 0.22263073921203613, "timer/agent.report_min": 0.22263073921203613, "timer/agent.report_max": 0.22263073921203613, "fps": 4.814835298253616}
+{"step": 731119, "episode/length": 132.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.08270676691729323}
+{"step": 731299, "episode/length": 179.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07222222222222222}
+{"step": 731474, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05714285714285714}
+{"step": 731680, "episode/length": 205.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06796116504854369}
+{"step": 732009, "episode/length": 328.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03951367781155015}
+{"step": 732232, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04932735426008968}
+{"step": 732431, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06532663316582915}
+{"step": 732459, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435343703178511, "train/action_min": 0.0, "train/action_std": 3.3508921518717725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0403518440737708, "train/actor_opt_grad_steps": 365320.0, "train/actor_opt_loss": -13.314395582839234, "train/adv_mag": 0.4135642941683939, "train/adv_max": 0.3602403618701517, "train/adv_mean": 0.0019035088578127453, "train/adv_min": -0.3692355892837864, "train/adv_std": 0.04555044236452612, "train/cont_avg": 0.9946355950342466, "train/cont_loss_mean": 1.2655716335607956e-05, "train/cont_loss_std": 0.000319443239235413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.076687579505831e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.2619315706247917e-05, "train/cont_pred": 0.9946239084413607, "train/cont_rate": 0.9946355950342466, "train/dyn_loss_mean": 5.473601027710797, "train/dyn_loss_std": 8.933833879967258, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0062775391421905, "train/extr_critic_critic_opt_grad_steps": 365320.0, "train/extr_critic_critic_opt_loss": 15728.961405714897, "train/extr_critic_mag": 11.441713346193914, "train/extr_critic_max": 11.441713346193914, "train/extr_critic_mean": 3.2275923964095443, "train/extr_critic_min": -0.40439341329548456, "train/extr_critic_std": 2.731405207555588, "train/extr_return_normed_mag": 1.4359897326116693, "train/extr_return_normed_max": 1.4359897326116693, "train/extr_return_normed_mean": 0.38431790430251866, "train/extr_return_normed_min": -0.08165639036730545, "train/extr_return_normed_std": 0.32142026069229596, "train/extr_return_rate": 0.8224511693601739, "train/extr_return_raw_mag": 12.27421760559082, "train/extr_return_raw_max": 12.27421760559082, "train/extr_return_raw_mean": 3.243951225933963, "train/extr_return_raw_min": -0.7571664272922359, "train/extr_return_raw_std": 2.7600541457737964, "train/extr_reward_mag": 1.0705683002733204, "train/extr_reward_max": 1.0705683002733204, "train/extr_reward_mean": 0.05536927400182371, "train/extr_reward_min": -0.6476592576667054, "train/extr_reward_std": 0.22761084118934527, "train/image_loss_mean": 3.2795232256797897, "train/image_loss_std": 8.93103166475688, "train/model_loss_mean": 6.6200383460685, "train/model_loss_std": 13.11826598807557, "train/model_opt_grad_norm": 24.42439539138585, "train/model_opt_grad_steps": 365027.1780821918, "train/model_opt_loss": 19059.855615903252, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2876.7123287671234, "train/policy_entropy_mag": 2.6924647958311314, "train/policy_entropy_max": 2.6924647958311314, "train/policy_entropy_mean": 0.40103449478541336, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5960265144909898, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4014117364605812, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0272869916811382, "train/policy_randomness_mag": 0.9503219152150089, "train/policy_randomness_max": 0.9503219152150089, "train/policy_randomness_mean": 0.14154758049200658, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21037120555769906, "train/post_ent_mag": 55.58440080407548, "train/post_ent_max": 55.58440080407548, "train/post_ent_mean": 40.74736002046768, "train/post_ent_min": 19.428862192859388, "train/post_ent_std": 5.778457804901959, "train/prior_ent_mag": 76.78721629103569, "train/prior_ent_max": 76.78721629103569, "train/prior_ent_mean": 46.19754305277785, "train/prior_ent_min": 28.397022769875722, "train/prior_ent_std": 7.674464460921614, "train/rep_loss_mean": 5.473601027710797, "train/rep_loss_std": 8.933833879967258, "train/reward_avg": 0.03948656890592347, "train/reward_loss_mean": 0.05634188167240522, "train/reward_loss_std": 0.21497288938254527, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0267005162696317, "train/reward_neg_acc": 0.9935911224312979, "train/reward_neg_loss": 0.02475227737059332, "train/reward_pos_acc": 0.9860062411386673, "train/reward_pos_loss": 0.7385240719742971, "train/reward_pred": 0.039040805261633164, "train/reward_rate": 0.04434663955479452, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 6.285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.36576085005487713, "replay/size": 732396.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.396557904213131e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3356221991785663e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1388826370239, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.723458290100098, "timer/env.step_frac": 0.06571443898507767, "timer/env.step_avg": 0.013640012648755254, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.7813749313354492, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.25287795066833496, "timer/replay.add_frac": 0.0008425364566115065, "timer/replay.add_avg": 0.00017488101705970605, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0008244514465332031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0211331844329834, "timer/logger.write_frac": 7.041135172926273e-05, "timer/logger.write_avg": 0.0211331844329834, "timer/logger.write_min": 0.0211331844329834, "timer/logger.write_max": 0.0211331844329834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.636525630950928, "timer/agent.policy_frac": 0.03543867937902041, "timer/agent.policy_avg": 0.007355826854046284, "timer/agent.policy_min": 0.006124019622802734, "timer/agent.policy_max": 0.014467477798461914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05794525146484375, "timer/dataset_frac": 0.00019306146193300933, "timer/dataset_avg": 8.014557602329703e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.7850995063782, "timer/agent.train_frac": 0.8955357504660142, "timer/agent.train_avg": 0.37176362310702377, "timer/agent.train_min": 0.36567163467407227, "timer/agent.train_max": 0.38706016540527344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22079229354858398, "timer/agent.report_frac": 0.0007356337559755676, "timer/agent.report_avg": 0.22079229354858398, "timer/agent.report_min": 0.22079229354858398, "timer/agent.report_max": 0.22079229354858398, "fps": 4.817675381668167}
+{"step": 732636, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06829268292682927}
+{"step": 732920, "episode/length": 283.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.04225352112676056}
+{"step": 733137, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05069124423963134}
+{"step": 733323, "episode/length": 185.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07526881720430108}
+{"step": 733559, "episode/length": 235.0, "episode/score": 15.1000000461936, "episode/sum_abs_reward": 17.300000078976154, "episode/reward_rate": 0.06779661016949153}
+{"step": 733886, "episode/length": 326.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.027522935779816515}
+{"step": 733889, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466974822568222, "train/action_min": 0.0, "train/action_std": 3.3284357299267406, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03963120562404814, "train/actor_opt_grad_steps": 366040.0, "train/actor_opt_loss": -12.095130930484181, "train/adv_mag": 0.3987133112591757, "train/adv_max": 0.33932750997409017, "train/adv_mean": 0.0019051402674628828, "train/adv_min": -0.3511650474138663, "train/adv_std": 0.04427227467088632, "train/cont_avg": 0.9943056778169014, "train/cont_loss_mean": 1.583806138723061e-05, "train/cont_loss_std": 0.00041985901420605546, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014869281446206668, "train/cont_pos_acc": 0.9999999882469714, "train/cont_pos_loss": 6.918724059520993e-06, "train/cont_pred": 0.9943063066039287, "train/cont_rate": 0.9943056778169014, "train/dyn_loss_mean": 5.440083879820058, "train/dyn_loss_std": 8.918253697140116, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9945764096689896, "train/extr_critic_critic_opt_grad_steps": 366040.0, "train/extr_critic_critic_opt_loss": 15767.44023712588, "train/extr_critic_mag": 11.35464720658853, "train/extr_critic_max": 11.35464720658853, "train/extr_critic_mean": 3.112587655094308, "train/extr_critic_min": -0.39669698728641994, "train/extr_critic_std": 2.793081891368812, "train/extr_return_normed_mag": 1.4191116296069723, "train/extr_return_normed_max": 1.4191116296069723, "train/extr_return_normed_mean": 0.36951952501082086, "train/extr_return_normed_min": -0.07660222242415791, "train/extr_return_normed_std": 0.3272380377625076, "train/extr_return_rate": 0.7975004088710731, "train/extr_return_raw_mag": 12.18531741558666, "train/extr_return_raw_max": 12.18531741558666, "train/extr_return_raw_mean": 3.1290492004072163, "train/extr_return_raw_min": -0.7200821692674932, "train/extr_return_raw_std": 2.823545371982413, "train/extr_reward_mag": 1.0572696974579716, "train/extr_reward_max": 1.0572696974579716, "train/extr_reward_mean": 0.05483856172838681, "train/extr_reward_min": -0.6094965901173336, "train/extr_reward_std": 0.2264512145603207, "train/image_loss_mean": 3.415663279278178, "train/image_loss_std": 8.869909790200246, "train/model_loss_mean": 6.734557447299151, "train/model_loss_std": 13.067118698442487, "train/model_opt_grad_norm": 34.50957162615279, "train/model_opt_grad_steps": 365746.4647887324, "train/model_opt_loss": 16105.982580050617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2411.9718309859154, "train/policy_entropy_mag": 2.695275105221171, "train/policy_entropy_max": 2.695275105221171, "train/policy_entropy_mean": 0.43144291723278205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6284410642905974, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.430499597334526, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0493327966878112, "train/policy_randomness_mag": 0.9513138331158061, "train/policy_randomness_max": 0.9513138331158061, "train/policy_randomness_mean": 0.15228041492297617, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22181211684791136, "train/post_ent_mag": 55.36797316645233, "train/post_ent_max": 55.36797316645233, "train/post_ent_mean": 40.76810283392248, "train/post_ent_min": 19.355505956730372, "train/post_ent_std": 5.792000582520391, "train/prior_ent_mag": 76.76984932053257, "train/prior_ent_max": 76.76984932053257, "train/prior_ent_mean": 46.20915883023974, "train/prior_ent_min": 28.32824798369072, "train/prior_ent_std": 7.805020513668866, "train/rep_loss_mean": 5.440083879820058, "train/rep_loss_std": 8.918253697140116, "train/reward_avg": 0.036498679372836164, "train/reward_loss_mean": 0.05482796946881523, "train/reward_loss_std": 0.21377077572782274, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0197011316326303, "train/reward_neg_acc": 0.9935623247858504, "train/reward_neg_loss": 0.025613442902833645, "train/reward_pos_acc": 0.9893692908152728, "train/reward_pos_loss": 0.732492639145381, "train/reward_pred": 0.03632902267428351, "train/reward_rate": 0.041469520246478875, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.4660486926635106, "replay/size": 733826.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4837456016273765e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3551511964597902e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09846019744873, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.79273295402527, "timer/env.step_frac": 0.06262189063436266, "timer/env.step_avg": 0.013141771296521167, "timer/env.step_min": 0.002999544143676758, "timer/env.step_max": 1.6708109378814697, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.27321624755859375, "timer/replay.add_frac": 0.0009104220240878013, "timer/replay.add_avg": 0.0001910603129780376, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0009212493896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020645856857299805, "timer/logger.write_frac": 6.879694365547872e-05, "timer/logger.write_avg": 0.020645856857299805, "timer/logger.write_min": 0.020645856857299805, "timer/logger.write_max": 0.020645856857299805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003981590270996094, "timer/checkpoint.save_frac": 1.3267613130625264e-06, "timer/checkpoint.save_avg": 0.0003981590270996094, "timer/checkpoint.save_min": 0.0003981590270996094, "timer/checkpoint.save_max": 0.0003981590270996094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2459080219268799, "timer/agent.save_frac": 0.004151664160846207, "timer/agent.save_avg": 1.2459080219268799, "timer/agent.save_min": 1.2459080219268799, "timer/agent.save_max": 1.2459080219268799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.335735485271753e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.243604183197021, "timer/agent.policy_frac": 0.047463103188951694, "timer/agent.policy_avg": 0.009960562365872044, "timer/agent.policy_min": 0.006007671356201172, "timer/agent.policy_max": 2.495413064956665, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05715751647949219, "timer/dataset_frac": 0.00019046254499901667, "timer/dataset_avg": 7.994058248880026e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0555806159973, "timer/agent.train_frac": 0.8865609654942813, "timer/agent.train_avg": 0.372105707155241, "timer/agent.train_min": 0.3644568920135498, "timer/agent.train_max": 0.3843259811401367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2211604118347168, "timer/agent.report_frac": 0.0007369595021887319, "timer/agent.report_avg": 0.2211604118347168, "timer/agent.report_min": 0.2211604118347168, "timer/agent.report_max": 0.2211604118347168, "fps": 4.76503940360784}
+{"step": 734079, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06735751295336788}
+{"step": 734135, "episode/length": 55.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.125}
+{"step": 734324, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05291005291005291}
+{"step": 734633, "episode/length": 308.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.042071197411003236}
+{"step": 734933, "episode/length": 299.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.04}
+{"step": 735098, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 735275, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.062146892655367235}
+{"step": 735333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347416347927517, "train/action_min": 0.0, "train/action_std": 3.2087598178121777, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04086441205193599, "train/actor_opt_grad_steps": 366755.0, "train/actor_opt_loss": -11.499905820108122, "train/adv_mag": 0.3771932042307324, "train/adv_max": 0.34206822431749767, "train/adv_mean": 0.002324554944506316, "train/adv_min": -0.3237717112319337, "train/adv_std": 0.04528389508939452, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 0.00012225226111637098, "train/cont_loss_std": 0.0038081212804191487, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.017520948643465317, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.313726674270457e-05, "train/cont_pred": 0.9949472066428926, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.4222167531649275, "train/dyn_loss_std": 8.71061489979426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9972716040081449, "train/extr_critic_critic_opt_grad_steps": 366755.0, "train/extr_critic_critic_opt_loss": 16002.347154405383, "train/extr_critic_mag": 11.340568860371908, "train/extr_critic_max": 11.340568860371908, "train/extr_critic_mean": 3.237007293436262, "train/extr_critic_min": -0.4249062074555291, "train/extr_critic_std": 2.718064139286677, "train/extr_return_normed_mag": 1.4019085847669177, "train/extr_return_normed_max": 1.4019085847669177, "train/extr_return_normed_mean": 0.3843321098635594, "train/extr_return_normed_min": -0.08154543934182988, "train/extr_return_normed_std": 0.3186889410846763, "train/extr_return_rate": 0.8243878839744462, "train/extr_return_raw_mag": 12.027157968944973, "train/extr_return_raw_max": 12.027157968944973, "train/extr_return_raw_mean": 3.257044172949261, "train/extr_return_raw_min": -0.758427155100637, "train/extr_return_raw_std": 2.746818866994646, "train/extr_reward_mag": 1.057611409160826, "train/extr_reward_max": 1.057611409160826, "train/extr_reward_mean": 0.057713987357500524, "train/extr_reward_min": -0.6186335881551107, "train/extr_reward_std": 0.2315052609062857, "train/image_loss_mean": 3.0553231438001, "train/image_loss_std": 7.934536013338301, "train/model_loss_mean": 6.36345014307234, "train/model_loss_std": 12.031421105066935, "train/model_opt_grad_norm": 28.445618404282463, "train/model_opt_grad_steps": 366460.0, "train/model_opt_loss": 7954.312608506944, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.690508226553599, "train/policy_entropy_max": 2.690508226553599, "train/policy_entropy_mean": 0.37879524048831725, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5741921307312118, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3784591857757833, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0091178798013263, "train/policy_randomness_mag": 0.949631332523293, "train/policy_randomness_max": 0.949631332523293, "train/policy_randomness_mean": 0.13369809691276816, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20266462531354693, "train/post_ent_mag": 54.37923002243042, "train/post_ent_max": 54.37923002243042, "train/post_ent_mean": 40.38835774527656, "train/post_ent_min": 19.52087550693088, "train/post_ent_std": 5.5743124220106335, "train/prior_ent_mag": 76.64372942182753, "train/prior_ent_max": 76.64372942182753, "train/prior_ent_mean": 45.79358598921034, "train/prior_ent_min": 28.026494873894585, "train/prior_ent_std": 7.530032985740238, "train/rep_loss_mean": 5.4222167531649275, "train/rep_loss_std": 8.71061489979426, "train/reward_avg": 0.03972167896831201, "train/reward_loss_mean": 0.05467481285126673, "train/reward_loss_std": 0.20532235958509976, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.022588266266717, "train/reward_neg_acc": 0.9933492930399047, "train/reward_neg_loss": 0.02414210314034588, "train/reward_pos_acc": 0.991458061668608, "train/reward_pos_loss": 0.7154100802209642, "train/reward_pred": 0.039506043773144484, "train/reward_rate": 0.044243706597222224, "stats/sum_log_reward": 10.100000177110944, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.571428571428573, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.29770619315760477, "replay/size": 735270.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.430982045519715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3479772036755844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21205282211304, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.978006601333618, "timer/env.step_frac": 0.06654631755631524, "timer/env.step_avg": 0.01383518462696234, "timer/env.step_min": 0.0030317306518554688, "timer/env.step_max": 1.7160208225250244, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2683401107788086, "timer/replay.add_frac": 0.0008938352349824217, "timer/replay.add_avg": 0.00018583110164737437, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008132457733154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029882192611694336, "timer/logger.write_frac": 9.953695173391544e-05, "timer/logger.write_avg": 0.029882192611694336, "timer/logger.write_min": 0.029882192611694336, "timer/logger.write_max": 0.029882192611694336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.611776113510132, "timer/agent.policy_frac": 0.035347601849276884, "timer/agent.policy_avg": 0.007348875424868512, "timer/agent.policy_min": 0.005993366241455078, "timer/agent.policy_max": 0.016168832778930664, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05677151679992676, "timer/dataset_frac": 0.0001891047220331491, "timer/dataset_avg": 7.863090969518941e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6090979576111, "timer/agent.train_frac": 0.8947312255873088, "timer/agent.train_avg": 0.3720347617141428, "timer/agent.train_min": 0.3661017417907715, "timer/agent.train_max": 0.3863656520843506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063612937927246, "timer/agent.report_frac": 0.0007349342816359465, "timer/agent.report_avg": 0.22063612937927246, "timer/agent.report_min": 0.22063612937927246, "timer/agent.report_max": 0.22063612937927246, "fps": 4.809831600068526}
+{"step": 735458, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07103825136612021}
+{"step": 735649, "episode/length": 190.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04712041884816754}
+{"step": 735816, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05389221556886228}
+{"step": 736209, "episode/length": 392.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.022900763358778626}
+{"step": 736416, "episode/length": 206.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.900000087916851, "episode/reward_rate": 0.06763285024154589}
+{"step": 736630, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
+{"step": 736785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.30938720703125, "train/action_min": 0.0, "train/action_std": 3.2335096907942265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04105165519126474, "train/actor_opt_grad_steps": 367480.0, "train/actor_opt_loss": -12.817073898772671, "train/adv_mag": 0.42096362824309363, "train/adv_max": 0.36116903734533756, "train/adv_mean": 0.0021987859611116408, "train/adv_min": -0.3713461538291957, "train/adv_std": 0.046064093862086125, "train/cont_avg": 0.994408176369863, "train/cont_loss_mean": 0.00015206333743171635, "train/cont_loss_std": 0.004815220863029586, "train/cont_neg_acc": 0.9965209838462202, "train/cont_neg_loss": 0.012475580726809562, "train/cont_pos_acc": 0.999986515469747, "train/cont_pos_loss": 5.040562249333384e-05, "train/cont_pred": 0.9944189133709425, "train/cont_rate": 0.994408176369863, "train/dyn_loss_mean": 5.211491806866372, "train/dyn_loss_std": 8.798558169848299, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0241840138827285, "train/extr_critic_critic_opt_grad_steps": 367480.0, "train/extr_critic_critic_opt_loss": 15794.146778681506, "train/extr_critic_mag": 11.367979049682617, "train/extr_critic_max": 11.367979049682617, "train/extr_critic_mean": 3.2709876053953826, "train/extr_critic_min": -0.40247226251314766, "train/extr_critic_std": 2.7752448891940182, "train/extr_return_normed_mag": 1.4123665355656245, "train/extr_return_normed_max": 1.4123665355656245, "train/extr_return_normed_mean": 0.3842608532676958, "train/extr_return_normed_min": -0.08797342922181299, "train/extr_return_normed_std": 0.3276990439793835, "train/extr_return_rate": 0.8123359443390206, "train/extr_return_raw_mag": 12.092009061003385, "train/extr_return_raw_max": 12.092009061003385, "train/extr_return_raw_mean": 3.2898226306863028, "train/extr_return_raw_min": -0.7525960329460771, "train/extr_return_raw_std": 2.805684181108867, "train/extr_reward_mag": 1.0612504025028175, "train/extr_reward_max": 1.0612504025028175, "train/extr_reward_mean": 0.057726486037447025, "train/extr_reward_min": -0.630127194809587, "train/extr_reward_std": 0.23218934911571137, "train/image_loss_mean": 3.1063896760548633, "train/image_loss_std": 8.063934215127606, "train/model_loss_mean": 6.28860107839924, "train/model_loss_std": 12.2157316730447, "train/model_opt_grad_norm": 21.50512372630916, "train/model_opt_grad_steps": 367185.0, "train/model_opt_loss": 13758.091830318921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2174.6575342465753, "train/policy_entropy_mag": 2.670855355589357, "train/policy_entropy_max": 2.670855355589357, "train/policy_entropy_mean": 0.3962539887591584, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5852774618423149, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39821593647133813, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0274074347051856, "train/policy_randomness_mag": 0.9426947350371374, "train/policy_randomness_max": 0.9426947350371374, "train/policy_randomness_mean": 0.13986026791677084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2065772632621739, "train/post_ent_mag": 55.167299296757946, "train/post_ent_max": 55.167299296757946, "train/post_ent_mean": 40.73062839246776, "train/post_ent_min": 19.41990926820938, "train/post_ent_std": 5.701695657756231, "train/prior_ent_mag": 76.71826025557844, "train/prior_ent_max": 76.71826025557844, "train/prior_ent_mean": 45.97330119511852, "train/prior_ent_min": 28.580099602268167, "train/prior_ent_std": 7.601270688723211, "train/rep_loss_mean": 5.211491806866372, "train/rep_loss_std": 8.798558169848299, "train/reward_avg": 0.03874812691076977, "train/reward_loss_mean": 0.05516425586522442, "train/reward_loss_std": 0.21064407735654753, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0217081030754194, "train/reward_neg_acc": 0.9937665233873341, "train/reward_neg_loss": 0.024459209471736867, "train/reward_pos_acc": 0.9873986644287632, "train/reward_pos_loss": 0.7302298006946093, "train/reward_pred": 0.03833003495245764, "train/reward_rate": 0.04353060787671233, "stats/sum_log_reward": 10.266666889190674, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 5.333333333333333, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3923262432217598, "replay/size": 736722.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4690560059770736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3502176142921132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.028311252594, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.286521434783936, "timer/env.step_frac": 0.060949319610670016, "timer/env.step_avg": 0.012594023026710699, "timer/env.step_min": 0.0032584667205810547, "timer/env.step_max": 1.6957104206085205, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2539963722229004, "timer/replay.add_frac": 0.000846574682110785, "timer/replay.add_avg": 0.00017492863100750715, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0007848739624023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022081851959228516, "timer/logger.write_frac": 7.359922757635293e-05, "timer/logger.write_avg": 0.022081851959228516, "timer/logger.write_min": 0.022081851959228516, "timer/logger.write_max": 0.022081851959228516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.673595905303955, "timer/agent.policy_frac": 0.03557529574706651, "timer/agent.policy_avg": 0.0073509613672892255, "timer/agent.policy_min": 0.006029605865478516, "timer/agent.policy_max": 0.01474308967590332, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05745744705200195, "timer/dataset_frac": 0.00019150675085335029, "timer/dataset_avg": 7.914248905234428e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00012564659118652344, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.07327246665955, "timer/agent.train_frac": 0.9001592927651575, "timer/agent.train_avg": 0.37200175270889746, "timer/agent.train_min": 0.3655569553375244, "timer/agent.train_max": 0.38385868072509766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22246360778808594, "timer/agent.report_frac": 0.0007414753856371698, "timer/agent.report_avg": 0.22246360778808594, "timer/agent.report_min": 0.22246360778808594, "timer/agent.report_max": 0.22246360778808594, "fps": 4.8394513724486625}
+{"step": 736855, "episode/length": 224.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.057777777777777775}
+{"step": 737065, "episode/length": 209.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04285714285714286}
+{"step": 737434, "episode/length": 368.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.04336043360433604}
+{"step": 737631, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05583756345177665}
+{"step": 737861, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
+{"step": 738130, "episode/length": 268.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.899999991059303, "episode/reward_rate": 0.055762081784386616}
+{"step": 738215, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376227580325704, "train/action_min": 0.0, "train/action_std": 3.274483972871807, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040963868256395974, "train/actor_opt_grad_steps": 368200.0, "train/actor_opt_loss": -12.050274135361255, "train/adv_mag": 0.3951549462869134, "train/adv_max": 0.3601990195227341, "train/adv_mean": 0.00218159503322273, "train/adv_min": -0.3472747548785008, "train/adv_std": 0.04557964011607036, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 1.1857600463106561e-05, "train/cont_loss_std": 0.0002568132831343897, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00025912623029661277, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.0386126067679713e-05, "train/cont_pred": 0.9949848232134967, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 5.238236816836075, "train/dyn_loss_std": 8.752051709403455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9914206593808993, "train/extr_critic_critic_opt_grad_steps": 368200.0, "train/extr_critic_critic_opt_loss": 15745.32871643926, "train/extr_critic_mag": 11.424159426084707, "train/extr_critic_max": 11.424159426084707, "train/extr_critic_mean": 3.260431376981064, "train/extr_critic_min": -0.37059967786493436, "train/extr_critic_std": 2.717926025390625, "train/extr_return_normed_mag": 1.416818293047623, "train/extr_return_normed_max": 1.416818293047623, "train/extr_return_normed_mean": 0.37919117951057324, "train/extr_return_normed_min": -0.07883234715587656, "train/extr_return_normed_std": 0.3172055193236176, "train/extr_return_rate": 0.8323439771020916, "train/extr_return_raw_mag": 12.279141184309838, "train/extr_return_raw_max": 12.279141184309838, "train/extr_return_raw_mean": 3.2793530477604396, "train/extr_return_raw_min": -0.6934861427461597, "train/extr_return_raw_std": 2.7516499841716926, "train/extr_reward_mag": 1.0700123444409437, "train/extr_reward_max": 1.0700123444409437, "train/extr_reward_mean": 0.056458400431233395, "train/extr_reward_min": -0.6307615360743563, "train/extr_reward_std": 0.22957618618515177, "train/image_loss_mean": 3.094328457201031, "train/image_loss_std": 8.10066937728667, "train/model_loss_mean": 6.292013436975614, "train/model_loss_std": 12.20322823860276, "train/model_opt_grad_norm": 24.404077946300237, "train/model_opt_grad_steps": 367904.661971831, "train/model_opt_loss": 15983.906580105633, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.677508250088759, "train/policy_entropy_max": 2.677508250088759, "train/policy_entropy_mean": 0.3881547990399347, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756658521336568, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884369504283851, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0169633811628316, "train/policy_randomness_mag": 0.9450429149076972, "train/policy_randomness_max": 0.9450429149076972, "train/policy_randomness_mean": 0.13700161024298466, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20318478387846073, "train/post_ent_mag": 55.56476415714747, "train/post_ent_max": 55.56476415714747, "train/post_ent_mean": 40.80447296357491, "train/post_ent_min": 19.591148994338344, "train/post_ent_std": 5.701607677298532, "train/prior_ent_mag": 76.73064680502448, "train/prior_ent_max": 76.73064680502448, "train/prior_ent_mean": 46.064925072898326, "train/prior_ent_min": 28.385038698223276, "train/prior_ent_std": 7.592486462122958, "train/rep_loss_mean": 5.238236816836075, "train/rep_loss_std": 8.752051709403455, "train/reward_avg": 0.03897309625967288, "train/reward_loss_mean": 0.054731035841182926, "train/reward_loss_std": 0.21393918928126215, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0272831883229, "train/reward_neg_acc": 0.994038936118005, "train/reward_neg_loss": 0.023643150322244202, "train/reward_pos_acc": 0.9856303535716634, "train/reward_pos_loss": 0.74009288868434, "train/reward_pred": 0.03847015203094818, "train/reward_rate": 0.04354643485915493, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 5.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4479266752799352, "replay/size": 738152.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4619044590663244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.350607905354533e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15719389915466, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.555262804031372, "timer/env.step_frac": 0.06181848438477033, "timer/env.step_avg": 0.012975708254567392, "timer/env.step_min": 0.0028047561645507812, "timer/env.step_max": 1.7048308849334717, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26137351989746094, "timer/replay.add_frac": 0.0008707887907070318, "timer/replay.add_avg": 0.00018277868524297969, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0008807182312011719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028479337692260742, "timer/logger.write_frac": 9.48814097117029e-05, "timer/logger.write_avg": 0.028479337692260742, "timer/logger.write_min": 0.028479337692260742, "timer/logger.write_max": 0.028479337692260742, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003399848937988281, "timer/checkpoint.save_frac": 1.1326894730800774e-06, "timer/checkpoint.save_avg": 0.0003399848937988281, "timer/checkpoint.save_min": 0.0003399848937988281, "timer/checkpoint.save_max": 0.0003399848937988281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.44142746925354, "timer/agent.save_frac": 0.004802241953720502, "timer/agent.save_avg": 1.44142746925354, "timer/agent.save_min": 1.44142746925354, "timer/agent.save_max": 1.44142746925354, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2717334453078692e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.39779782295227, "timer/agent.policy_frac": 0.0479675254020051, "timer/agent.policy_avg": 0.010068390085980608, "timer/agent.policy_min": 0.006034374237060547, "timer/agent.policy_max": 2.450843095779419, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057890892028808594, "timer/dataset_frac": 0.00019286858088185118, "timer/dataset_avg": 8.096628255777425e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.19229340553284, "timer/agent.train_frac": 0.8868429570106083, "timer/agent.train_avg": 0.3722969138538921, "timer/agent.train_min": 0.36673808097839355, "timer/agent.train_max": 0.39017200469970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22267746925354004, "timer/agent.report_frac": 0.0007418695063105971, "timer/agent.report_avg": 0.22267746925354004, "timer/agent.report_min": 0.22267746925354004, "timer/agent.report_max": 0.22267746925354004, "fps": 4.7640855539161695}
+{"step": 738313, "episode/length": 182.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06557377049180328}
+{"step": 738614, "episode/length": 300.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.029900332225913623}
+{"step": 738806, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.057291666666666664}
+{"step": 738985, "episode/length": 178.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05027932960893855}
+{"step": 739149, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.054878048780487805}
+{"step": 739345, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0663265306122449}
+{"step": 739534, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06878306878306878}
+{"step": 739659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403541042380137, "train/action_min": 0.0, "train/action_std": 3.2902837550803405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03966158054360788, "train/actor_opt_grad_steps": 368920.0, "train/actor_opt_loss": -12.655628339885032, "train/adv_mag": 0.4226996996631361, "train/adv_max": 0.3617163247441592, "train/adv_mean": 0.001892330821821616, "train/adv_min": -0.3509413773474628, "train/adv_std": 0.04503651233772709, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 0.00018555834589907845, "train/cont_loss_std": 0.005841465195401044, "train/cont_neg_acc": 0.9940476205250989, "train/cont_neg_loss": 0.023637367633801653, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.361439914920501e-05, "train/cont_pred": 0.9948457463146889, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.431986867564998, "train/dyn_loss_std": 8.842690742179139, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9758932770115055, "train/extr_critic_critic_opt_grad_steps": 368920.0, "train/extr_critic_critic_opt_loss": 15784.248742508562, "train/extr_critic_mag": 11.639527151029403, "train/extr_critic_max": 11.639527151029403, "train/extr_critic_mean": 3.1725125606745888, "train/extr_critic_min": -0.44139265360897534, "train/extr_critic_std": 2.7721406009099256, "train/extr_return_normed_mag": 1.4300102322068933, "train/extr_return_normed_max": 1.4300102322068933, "train/extr_return_normed_mean": 0.37253383210260577, "train/extr_return_normed_min": -0.08564061283656996, "train/extr_return_normed_std": 0.3233919578464064, "train/extr_return_rate": 0.8117830034804671, "train/extr_return_raw_mag": 12.355137798884144, "train/extr_return_raw_max": 12.355137798884144, "train/extr_return_raw_mean": 3.188887648386498, "train/extr_return_raw_min": -0.7839407973910031, "train/extr_return_raw_std": 2.803669678021784, "train/extr_reward_mag": 1.063348064683888, "train/extr_reward_max": 1.063348064683888, "train/extr_reward_mean": 0.05611488825246079, "train/extr_reward_min": -0.6274372404568815, "train/extr_reward_std": 0.2291253878645701, "train/image_loss_mean": 3.341231151802899, "train/image_loss_std": 8.432115796494157, "train/model_loss_mean": 6.657884134005194, "train/model_loss_std": 12.600724716709085, "train/model_opt_grad_norm": 24.61571322401909, "train/model_opt_grad_steps": 368624.0, "train/model_opt_loss": 16644.710389019692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7061982546767145, "train/policy_entropy_max": 2.7061982546767145, "train/policy_entropy_mean": 0.4083636709272045, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6053926699782071, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40811679685769015, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0337393634939847, "train/policy_randomness_mag": 0.9551692253922763, "train/policy_randomness_max": 0.9551692253922763, "train/policy_randomness_mean": 0.14413445197964367, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2136770459274723, "train/post_ent_mag": 55.69073329559744, "train/post_ent_max": 55.69073329559744, "train/post_ent_mean": 40.87974914132732, "train/post_ent_min": 19.6426931146073, "train/post_ent_std": 5.798702527398932, "train/prior_ent_mag": 76.83578480759712, "train/prior_ent_max": 76.83578480759712, "train/prior_ent_mean": 46.29832495075382, "train/prior_ent_min": 28.28256787339302, "train/prior_ent_std": 7.671766078635438, "train/rep_loss_mean": 5.431986867564998, "train/rep_loss_std": 8.842690742179139, "train/reward_avg": 0.03997083666594061, "train/reward_loss_mean": 0.05727524014368449, "train/reward_loss_std": 0.22373555478167861, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0245007831756383, "train/reward_neg_acc": 0.9935017097486208, "train/reward_neg_loss": 0.025655470954330815, "train/reward_pos_acc": 0.9876037370668699, "train/reward_pos_loss": 0.7341090726525816, "train/reward_pred": 0.039732381714227265, "train/reward_rate": 0.04473458904109589, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3500907314675195, "replay/size": 739596.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.407701560995255e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3602366077602735e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1707503795624, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.92075204849243, "timer/env.step_frac": 0.06636473414982265, "timer/env.step_avg": 0.013795534659620797, "timer/env.step_min": 0.0028994083404541016, "timer/env.step_max": 1.710796594619751, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26679325103759766, "timer/replay.add_frac": 0.000888804957512485, "timer/replay.add_avg": 0.00018475986913961057, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0038776397705078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02223038673400879, "timer/logger.write_frac": 7.405913702750427e-05, "timer/logger.write_avg": 0.02223038673400879, "timer/logger.write_min": 0.02223038673400879, "timer/logger.write_max": 0.02223038673400879, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.618499279022217, "timer/agent.policy_frac": 0.03537486335892238, "timer/agent.policy_avg": 0.007353531356663585, "timer/agent.policy_min": 0.006036520004272461, "timer/agent.policy_max": 0.025942564010620117, "timer/dataset_count": 722.0, "timer/dataset_total": 0.057209014892578125, "timer/dataset_frac": 0.00019058823959442416, "timer/dataset_avg": 7.923686273210266e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6268095970154, "timer/agent.train_frac": 0.8949133426802577, "timer/agent.train_avg": 0.37205929307065844, "timer/agent.train_min": 0.3660697937011719, "timer/agent.train_max": 0.3845946788787842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22225594520568848, "timer/agent.report_frac": 0.0007404317206944663, "timer/agent.report_avg": 0.22225594520568848, "timer/agent.report_min": 0.22225594520568848, "timer/agent.report_max": 0.22225594520568848, "fps": 4.810522004547289}
+{"step": 739737, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06896551724137931}
+{"step": 739924, "episode/length": 186.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.058823529411764705}
+{"step": 740151, "episode/length": 226.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.06607929515418502}
+{"step": 740350, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05527638190954774}
+{"step": 740568, "episode/length": 217.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.05045871559633028}
+{"step": 740779, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06635071090047394}
+{"step": 741010, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05627705627705628}
+{"step": 741103, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.377140469021267, "train/action_min": 0.0, "train/action_std": 3.2310019698407917, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040726034332894616, "train/actor_opt_grad_steps": 369645.0, "train/actor_opt_loss": -10.677222048242887, "train/adv_mag": 0.43138781148526406, "train/adv_max": 0.36526923812925816, "train/adv_mean": 0.0025983092259656993, "train/adv_min": -0.37268068082630634, "train/adv_std": 0.046042170065144696, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 9.530263775382587e-06, "train/cont_loss_std": 0.00019500500495202763, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020465790914493532, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.90532483429259e-06, "train/cont_pred": 0.9950279369950294, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.318533102671306, "train/dyn_loss_std": 8.816525995731354, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9868247285485268, "train/extr_critic_critic_opt_grad_steps": 369645.0, "train/extr_critic_critic_opt_loss": 15794.603474934896, "train/extr_critic_mag": 11.394695387946236, "train/extr_critic_max": 11.394695387946236, "train/extr_critic_mean": 3.28056177828047, "train/extr_critic_min": -0.42447592318058014, "train/extr_critic_std": 2.749520363079177, "train/extr_return_normed_mag": 1.4074416243367724, "train/extr_return_normed_max": 1.4074416243367724, "train/extr_return_normed_mean": 0.3848526121841537, "train/extr_return_normed_min": -0.08423736029201084, "train/extr_return_normed_std": 0.321512084454298, "train/extr_return_rate": 0.8291178834107187, "train/extr_return_raw_mag": 12.155198322402107, "train/extr_return_raw_max": 12.155198322402107, "train/extr_return_raw_mean": 3.3030686246024237, "train/extr_return_raw_min": -0.7572889878518052, "train/extr_return_raw_std": 2.783073006404771, "train/extr_reward_mag": 1.0634270575311449, "train/extr_reward_max": 1.0634270575311449, "train/extr_reward_mean": 0.05882346102346977, "train/extr_reward_min": -0.636167844136556, "train/extr_reward_std": 0.2328607386185063, "train/image_loss_mean": 3.075588638583819, "train/image_loss_std": 8.227749082777235, "train/model_loss_mean": 6.324056526025136, "train/model_loss_std": 12.388235449790955, "train/model_opt_grad_norm": 25.086955308914185, "train/model_opt_grad_steps": 369347.8611111111, "train/model_opt_loss": 14528.669284396701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2343.75, "train/policy_entropy_mag": 2.6904045906331806, "train/policy_entropy_max": 2.6904045906331806, "train/policy_entropy_mean": 0.3933368921279907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.584478936261601, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39142100223236614, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0145778970585928, "train/policy_randomness_mag": 0.9495947559674581, "train/policy_randomness_max": 0.9495947559674581, "train/policy_randomness_mean": 0.13883066301544508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20629541627648804, "train/post_ent_mag": 55.30289861891005, "train/post_ent_max": 55.30289861891005, "train/post_ent_mean": 40.69522184795804, "train/post_ent_min": 19.705743948618572, "train/post_ent_std": 5.69696640306049, "train/prior_ent_mag": 76.77914513481988, "train/prior_ent_max": 76.77914513481988, "train/prior_ent_mean": 46.01453987757365, "train/prior_ent_min": 28.52790853712294, "train/prior_ent_std": 7.561257574293348, "train/rep_loss_mean": 5.318533102671306, "train/rep_loss_std": 8.816525995731354, "train/reward_avg": 0.04069688551438352, "train/reward_loss_mean": 0.057338474318385124, "train/reward_loss_std": 0.2212563475800885, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0278912319077387, "train/reward_neg_acc": 0.9938904138074981, "train/reward_neg_loss": 0.024861299368138943, "train/reward_pos_acc": 0.9887184823552767, "train/reward_pos_loss": 0.7391566708683968, "train/reward_pred": 0.04014142737206486, "train/reward_rate": 0.045491536458333336, "stats/sum_log_reward": 11.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.2805228573935373, "replay/size": 741040.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4390724266665132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.349256804775333e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27549171447754, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.765807151794434, "timer/env.step_frac": 0.06582557583683557, "timer/env.step_avg": 0.013688232099580633, "timer/env.step_min": 0.0031883716583251953, "timer/env.step_max": 1.6341228485107422, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2533431053161621, "timer/replay.add_frac": 0.0008437022411308147, "timer/replay.add_avg": 0.00017544536379235603, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008924007415771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022358417510986328, "timer/logger.write_frac": 7.445968161879239e-05, "timer/logger.write_avg": 0.022358417510986328, "timer/logger.write_min": 0.022358417510986328, "timer/logger.write_max": 0.022358417510986328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.827434301376343, "timer/agent.policy_frac": 0.036058335096065076, "timer/agent.policy_avg": 0.00749822320039913, "timer/agent.policy_min": 0.00600433349609375, "timer/agent.policy_max": 0.07616829872131348, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05823349952697754, "timer/dataset_frac": 0.0001939335747798889, "timer/dataset_avg": 8.065581651935947e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68581104278564, "timer/agent.train_frac": 0.8947976723264197, "timer/agent.train_avg": 0.37214101252463383, "timer/agent.train_min": 0.3623521327972412, "timer/agent.train_max": 0.38486528396606445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22131919860839844, "timer/agent.report_frac": 0.0007370538212916952, "timer/agent.report_avg": 0.22131919860839844, "timer/agent.report_min": 0.22131919860839844, "timer/agent.report_max": 0.22131919860839844, "fps": 4.808821463162744}
+{"step": 741196, "episode/length": 185.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.04838709677419355}
+{"step": 741402, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
+{"step": 741617, "episode/length": 214.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05116279069767442}
+{"step": 741767, "episode/length": 149.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04666666666666667}
+{"step": 741924, "episode/length": 156.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07643312101910828}
+{"step": 742157, "episode/length": 232.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.06866952789699571}
+{"step": 742378, "episode/length": 220.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06787330316742081}
+{"step": 742523, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368284413512324, "train/action_min": 0.0, "train/action_std": 3.227983985148685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040195501868573714, "train/actor_opt_grad_steps": 370360.0, "train/actor_opt_loss": -12.826064474146131, "train/adv_mag": 0.41412710597817326, "train/adv_max": 0.36893262997479503, "train/adv_mean": 0.0023940351266376215, "train/adv_min": -0.3595216773765188, "train/adv_std": 0.045921144613497694, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 0.00018200605785843537, "train/cont_loss_std": 0.005738745381475536, "train/cont_neg_acc": 0.993606082150634, "train/cont_neg_loss": 0.02765621929660416, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.759408411397115e-05, "train/cont_pred": 0.9948981891215687, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 5.350479199852742, "train/dyn_loss_std": 8.764145199681671, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.036993553940679, "train/extr_critic_critic_opt_grad_steps": 370360.0, "train/extr_critic_critic_opt_loss": 15830.774936729753, "train/extr_critic_mag": 11.574094960387324, "train/extr_critic_max": 11.574094960387324, "train/extr_critic_mean": 3.320876779690595, "train/extr_critic_min": -0.4256210075297826, "train/extr_critic_std": 2.811474262828558, "train/extr_return_normed_mag": 1.4099572779427112, "train/extr_return_normed_max": 1.4099572779427112, "train/extr_return_normed_mean": 0.3843052546742936, "train/extr_return_normed_min": -0.0793377068156088, "train/extr_return_normed_std": 0.32449015555247457, "train/extr_return_rate": 0.8225416708999956, "train/extr_return_raw_mag": 12.33616577739447, "train/extr_return_raw_max": 12.33616577739447, "train/extr_return_raw_mean": 3.3418662145104205, "train/extr_return_raw_min": -0.7247261438571232, "train/extr_return_raw_std": 2.845928457421316, "train/extr_reward_mag": 1.0582569014858192, "train/extr_reward_max": 1.0582569014858192, "train/extr_reward_mean": 0.057083167398059874, "train/extr_reward_min": -0.6028811931610107, "train/extr_reward_std": 0.23023531176674533, "train/image_loss_mean": 3.2175674236996072, "train/image_loss_std": 8.178072338372889, "train/model_loss_mean": 6.482428141043219, "train/model_loss_std": 12.269408709566358, "train/model_opt_grad_norm": 24.38121012566795, "train/model_opt_grad_steps": 370062.0, "train/model_opt_loss": 8103.035204390405, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7105958629661884, "train/policy_entropy_max": 2.7105958629661884, "train/policy_entropy_mean": 0.3987857869393389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5943008715837774, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39824292882227563, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.025133211847762, "train/policy_randomness_mag": 0.9567213872788658, "train/policy_randomness_max": 0.9567213872788658, "train/policy_randomness_mean": 0.14075388329129823, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20976212704685374, "train/post_ent_mag": 55.0426962409221, "train/post_ent_max": 55.0426962409221, "train/post_ent_mean": 40.546188999229756, "train/post_ent_min": 18.965367303767675, "train/post_ent_std": 5.739741023157684, "train/prior_ent_mag": 76.63257459183814, "train/prior_ent_max": 76.63257459183814, "train/prior_ent_mean": 45.90048798037247, "train/prior_ent_min": 28.071297229175837, "train/prior_ent_std": 7.599700148676483, "train/rep_loss_mean": 5.350479199852742, "train/rep_loss_std": 8.764145199681671, "train/reward_avg": 0.03876678000243617, "train/reward_loss_mean": 0.05439124707604798, "train/reward_loss_std": 0.21031584475241916, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0263429796192007, "train/reward_neg_acc": 0.9936889418413941, "train/reward_neg_loss": 0.02383246665663073, "train/reward_pos_acc": 0.9903398399621668, "train/reward_pos_loss": 0.7273358022662956, "train/reward_pred": 0.0384633130013523, "train/reward_rate": 0.04339513644366197, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.2978219134466989, "replay/size": 742460.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.4874593707877147e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.371032755139848e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01110911369324, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.284945487976074, "timer/env.step_frac": 0.07428040099518747, "timer/env.step_avg": 0.015693623583081743, "timer/env.step_min": 0.0029451847076416016, "timer/env.step_max": 2.3421406745910645, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.25701189041137695, "timer/replay.add_frac": 0.0008566745783869585, "timer/replay.add_avg": 0.00018099428902209645, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009210109710693359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0279996395111084, "timer/logger.write_frac": 9.332867570746375e-05, "timer/logger.write_avg": 0.0279996395111084, "timer/logger.write_min": 0.0279996395111084, "timer/logger.write_max": 0.0279996395111084, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004298686981201172, "timer/checkpoint.save_frac": 1.4328426016958347e-06, "timer/checkpoint.save_avg": 0.0004298686981201172, "timer/checkpoint.save_min": 0.0004298686981201172, "timer/checkpoint.save_max": 0.0004298686981201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2510864734649658, "timer/agent.save_frac": 0.004170133823247358, "timer/agent.save_avg": 1.2510864734649658, "timer/agent.save_min": 1.2510864734649658, "timer/agent.save_max": 1.2510864734649658, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.153915405273438e-05, "timer/replay.save_frac": 2.7178711579588215e-07, "timer/replay.save_avg": 8.153915405273438e-05, "timer/replay.save_min": 8.153915405273438e-05, "timer/replay.save_max": 8.153915405273438e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.555595874786377, "timer/agent.policy_frac": 0.04185043651176352, "timer/agent.policy_avg": 0.0088419689259059, "timer/agent.policy_min": 0.006044864654541016, "timer/agent.policy_max": 1.2505543231964111, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05751323699951172, "timer/dataset_frac": 0.00019170369113803818, "timer/dataset_avg": 8.100455915424186e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.16911339759827, "timer/agent.train_frac": 0.8805311049248108, "timer/agent.train_avg": 0.37206917379943416, "timer/agent.train_min": 0.3659036159515381, "timer/agent.train_max": 0.38455677032470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22134089469909668, "timer/agent.report_frac": 0.0007377756622179499, "timer/agent.report_avg": 0.22134089469909668, "timer/agent.report_min": 0.22134089469909668, "timer/agent.report_max": 0.22134089469909668, "fps": 4.733079653084371}
+{"step": 742578, "episode/length": 199.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.055}
+{"step": 742730, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07894736842105263}
+{"step": 742993, "episode/length": 262.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.053231939163498096}
+{"step": 743194, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
+{"step": 743415, "episode/length": 220.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05429864253393665}
+{"step": 743649, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.05982905982905983}
+{"step": 743813, "episode/length": 163.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07317073170731707}
+{"step": 743965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.35701158311632, "train/action_min": 0.0, "train/action_std": 3.245869288841883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041388771781283945, "train/actor_opt_grad_steps": 371075.0, "train/actor_opt_loss": -12.847107020931112, "train/adv_mag": 0.4088759418163035, "train/adv_max": 0.35317108573185074, "train/adv_mean": 0.001824716162900586, "train/adv_min": -0.355483862467938, "train/adv_std": 0.04579734243452549, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 3.0018667448277687e-05, "train/cont_loss_std": 0.0008568433331106462, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.819598649425744e-05, "train/cont_pos_acc": 0.9999863546755579, "train/cont_pos_loss": 2.9583352551851602e-05, "train/cont_pred": 0.9948893073532317, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.285629921489292, "train/dyn_loss_std": 8.802620106273228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9713914435770776, "train/extr_critic_critic_opt_grad_steps": 371075.0, "train/extr_critic_critic_opt_loss": 15774.806599934896, "train/extr_critic_mag": 11.684359471003214, "train/extr_critic_max": 11.684359471003214, "train/extr_critic_mean": 3.4137578474150763, "train/extr_critic_min": -0.3691064003441069, "train/extr_critic_std": 2.790831466515859, "train/extr_return_normed_mag": 1.414952768219842, "train/extr_return_normed_max": 1.414952768219842, "train/extr_return_normed_mean": 0.3899733006126351, "train/extr_return_normed_min": -0.07174147593064441, "train/extr_return_normed_std": 0.3185790698561404, "train/extr_return_rate": 0.8454536009165976, "train/extr_return_raw_mag": 12.509107642703587, "train/extr_return_raw_max": 12.509107642703587, "train/extr_return_raw_mean": 3.4299236867162914, "train/extr_return_raw_min": -0.6597532100147672, "train/extr_return_raw_std": 2.822154697444704, "train/extr_reward_mag": 1.066849536365933, "train/extr_reward_max": 1.066849536365933, "train/extr_reward_mean": 0.058040417834288545, "train/extr_reward_min": -0.5974695020251803, "train/extr_reward_std": 0.23178071363104713, "train/image_loss_mean": 3.009278063972791, "train/image_loss_std": 8.311112324396769, "train/model_loss_mean": 6.235847771167755, "train/model_loss_std": 12.46392493777805, "train/model_opt_grad_norm": 25.04651571644677, "train/model_opt_grad_steps": 370777.0, "train/model_opt_loss": 14341.446092393664, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.7125023073620267, "train/policy_entropy_max": 2.7125023073620267, "train/policy_entropy_mean": 0.37121743750241065, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5594253175788455, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37137555455168086, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0041755975948439, "train/policy_randomness_mag": 0.9573942836787965, "train/policy_randomness_max": 0.9573942836787965, "train/policy_randomness_mean": 0.13102346441398063, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19745258955905834, "train/post_ent_mag": 55.29701805114746, "train/post_ent_max": 55.29701805114746, "train/post_ent_mean": 40.65920554267036, "train/post_ent_min": 19.27575631936391, "train/post_ent_std": 5.700729098584917, "train/prior_ent_mag": 76.64825460645888, "train/prior_ent_max": 76.64825460645888, "train/prior_ent_mean": 45.9357025358412, "train/prior_ent_min": 27.84976421462165, "train/prior_ent_std": 7.571871651543511, "train/rep_loss_mean": 5.285629921489292, "train/rep_loss_std": 8.802620106273228, "train/reward_avg": 0.04020046631598638, "train/reward_loss_mean": 0.0551617001183331, "train/reward_loss_std": 0.2131999269541767, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0277702626254823, "train/reward_neg_acc": 0.9937835451629426, "train/reward_neg_loss": 0.023604078606391948, "train/reward_pos_acc": 0.9891263826025857, "train/reward_pos_loss": 0.7293416957060496, "train/reward_pred": 0.03990646591410041, "train/reward_rate": 0.04470486111111111, "stats/sum_log_reward": 11.528571673801967, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3286748549767903, "replay/size": 743902.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5423842283293875e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3547656274866959e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2940442562103, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.329586029052734, "timer/env.step_frac": 0.06769893182332837, "timer/env.step_avg": 0.014098187260092048, "timer/env.step_min": 0.0031461715698242188, "timer/env.step_max": 1.6894068717956543, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2503480911254883, "timer/replay.add_frac": 0.0008336765111195204, "timer/replay.add_avg": 0.00017361171367925678, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008327960968017578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03139996528625488, "timer/logger.write_frac": 0.00010456406274732671, "timer/logger.write_avg": 0.03139996528625488, "timer/logger.write_min": 0.03139996528625488, "timer/logger.write_max": 0.03139996528625488, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.695370435714722, "timer/agent.policy_frac": 0.03561632553254853, "timer/agent.policy_avg": 0.007417039137111458, "timer/agent.policy_min": 0.005937814712524414, "timer/agent.policy_max": 0.01919841766357422, "timer/dataset_count": 721.0, "timer/dataset_total": 0.058699607849121094, "timer/dataset_frac": 0.00019547376636960104, "timer/dataset_avg": 8.141415790446754e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.2633171081543, "timer/agent.train_frac": 0.8933354564943436, "timer/agent.train_avg": 0.3720711749072875, "timer/agent.train_min": 0.3654191493988037, "timer/agent.train_max": 0.3841392993927002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21907949447631836, "timer/agent.report_frac": 0.0007295499150472666, "timer/agent.report_avg": 0.21907949447631836, "timer/agent.report_min": 0.21907949447631836, "timer/agent.report_max": 0.21907949447631836, "fps": 4.801866228452924}
+{"step": 744037, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06696428571428571}
+{"step": 744188, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.046357615894039736}
+{"step": 744447, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05019305019305019}
+{"step": 744608, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
+{"step": 744662, "episode/length": 53.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.14814814814814814}
+{"step": 744827, "episode/length": 164.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06060606060606061}
+{"step": 745014, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
+{"step": 745298, "episode/length": 283.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04929577464788732}
+{"step": 745397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.427592532735475, "train/action_min": 0.0, "train/action_std": 3.2730392771707453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04076731871341316, "train/actor_opt_grad_steps": 371790.0, "train/actor_opt_loss": -13.370663849400803, "train/adv_mag": 0.4220444102522353, "train/adv_max": 0.36819478281786744, "train/adv_mean": 0.001548230715791722, "train/adv_min": -0.37735210275146325, "train/adv_std": 0.0459304069969016, "train/cont_avg": 0.9948558538732394, "train/cont_loss_mean": 0.000171456196904299, "train/cont_loss_std": 0.005351109700192135, "train/cont_neg_acc": 0.9908163283552442, "train/cont_neg_loss": 0.02963542251386408, "train/cont_pos_acc": 0.9999861876729509, "train/cont_pos_loss": 3.11657343919366e-05, "train/cont_pred": 0.9948723022366913, "train/cont_rate": 0.9948558538732394, "train/dyn_loss_mean": 5.461816854879889, "train/dyn_loss_std": 8.798336210385175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9986530987309737, "train/extr_critic_critic_opt_grad_steps": 371790.0, "train/extr_critic_critic_opt_loss": 15637.268637213909, "train/extr_critic_mag": 11.4701724791191, "train/extr_critic_max": 11.4701724791191, "train/extr_critic_mean": 3.3593461714999777, "train/extr_critic_min": -0.43086234784462085, "train/extr_critic_std": 2.7864339788195114, "train/extr_return_normed_mag": 1.4151176684339282, "train/extr_return_normed_max": 1.4151176684339282, "train/extr_return_normed_mean": 0.38977049396071634, "train/extr_return_normed_min": -0.08584008675435899, "train/extr_return_normed_std": 0.3229709720947373, "train/extr_return_rate": 0.8319652710162418, "train/extr_return_raw_mag": 12.302472181723152, "train/extr_return_raw_max": 12.302472181723152, "train/extr_return_raw_mean": 3.3728209599642685, "train/extr_return_raw_min": -0.7691950046680343, "train/extr_return_raw_std": 2.812636184020781, "train/extr_reward_mag": 1.0644521310295858, "train/extr_reward_max": 1.0644521310295858, "train/extr_reward_mean": 0.05874981258956479, "train/extr_reward_min": -0.6701354930098627, "train/extr_reward_std": 0.23282601233099548, "train/image_loss_mean": 3.25064157935935, "train/image_loss_std": 8.313998027586601, "train/model_loss_mean": 6.585205863898908, "train/model_loss_std": 12.434193732033313, "train/model_opt_grad_norm": 23.970064928833867, "train/model_opt_grad_steps": 371491.661971831, "train/model_opt_loss": 17805.917803697183, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2746.478873239437, "train/policy_entropy_mag": 2.721241789804378, "train/policy_entropy_max": 2.721241789804378, "train/policy_entropy_mean": 0.41265272863314184, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.613609813468557, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4128101690554283, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0393254815692632, "train/policy_randomness_mag": 0.9604789320851715, "train/policy_randomness_max": 0.9604789320851715, "train/policy_randomness_mean": 0.145648303900806, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2165773372415086, "train/post_ent_mag": 55.61494569375481, "train/post_ent_max": 55.61494569375481, "train/post_ent_mean": 40.625495104722575, "train/post_ent_min": 19.68341800528513, "train/post_ent_std": 5.761229857592515, "train/prior_ent_mag": 76.71088452406333, "train/prior_ent_max": 76.71088452406333, "train/prior_ent_mean": 46.08805137956646, "train/prior_ent_min": 28.275484568636184, "train/prior_ent_std": 7.6863788416687875, "train/rep_loss_mean": 5.461816854879889, "train/rep_loss_std": 8.798336210385175, "train/reward_avg": 0.0415314151839891, "train/reward_loss_mean": 0.05730273973354152, "train/reward_loss_std": 0.21263276124504252, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0249893900374292, "train/reward_neg_acc": 0.9933810922461497, "train/reward_neg_loss": 0.02516667616986473, "train/reward_pos_acc": 0.9915871015736755, "train/reward_pos_loss": 0.7216738638743548, "train/reward_pred": 0.04128439037103049, "train/reward_rate": 0.046201034330985914, "stats/sum_log_reward": 10.350000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3317031245678663, "replay/size": 745334.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4602327719747023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3520930732428694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08683228492737, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.812607526779175, "timer/env.step_frac": 0.07268765297261852, "timer/env.step_avg": 0.015232267825963111, "timer/env.step_min": 0.0031280517578125, "timer/env.step_max": 1.7397897243499756, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25617384910583496, "timer/replay.add_frac": 0.0008536657445289109, "timer/replay.add_avg": 0.0001788923527275384, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.007962465286254883, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032370567321777344, "timer/logger.write_frac": 0.00010787066888373842, "timer/logger.write_avg": 0.032370567321777344, "timer/logger.write_min": 0.032370567321777344, "timer/logger.write_max": 0.032370567321777344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.783583164215088, "timer/agent.policy_frac": 0.03593487618935661, "timer/agent.policy_avg": 0.007530435170541263, "timer/agent.policy_min": 0.005779743194580078, "timer/agent.policy_max": 0.07891273498535156, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058612823486328125, "timer/dataset_frac": 0.0001953195448132034, "timer/dataset_avg": 8.186148531610074e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45953273773193, "timer/agent.train_frac": 0.8879414358465856, "timer/agent.train_avg": 0.37215018538789374, "timer/agent.train_min": 0.36609625816345215, "timer/agent.train_max": 0.38466358184814453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22077131271362305, "timer/agent.report_frac": 0.0007356914364839721, "timer/agent.report_avg": 0.22077131271362305, "timer/agent.report_min": 0.22077131271362305, "timer/agent.report_max": 0.22077131271362305, "fps": 4.771850291202641}
+{"step": 745479, "episode/length": 180.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08287292817679558}
+{"step": 745693, "episode/length": 213.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06542056074766354}
+{"step": 745851, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
+{"step": 746021, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06470588235294118}
+{"step": 746202, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0718232044198895}
+{"step": 746570, "episode/length": 367.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.024456521739130436}
+{"step": 746635, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09230769230769231}
+{"step": 746684, "episode/length": 48.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.12244897959183673}
+{"step": 746809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412255515514965, "train/action_min": 0.0, "train/action_std": 3.2323595604426423, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040586539478579035, "train/actor_opt_grad_steps": 372500.0, "train/actor_opt_loss": -11.570064862429255, "train/adv_mag": 0.4300276038932129, "train/adv_max": 0.36126825717133537, "train/adv_mean": 0.0018609848289921041, "train/adv_min": -0.3746595015408288, "train/adv_std": 0.04521935674506174, "train/cont_avg": 0.9950209066901409, "train/cont_loss_mean": 7.040323901854105e-05, "train/cont_loss_std": 0.0021826258400906994, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.0023876520910164345, "train/cont_pos_acc": 0.9999723627533711, "train/cont_pos_loss": 5.077168757804724e-05, "train/cont_pred": 0.995004050328698, "train/cont_rate": 0.9950209066901409, "train/dyn_loss_mean": 5.456783670774648, "train/dyn_loss_std": 8.871090586756317, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9815678991062541, "train/extr_critic_critic_opt_grad_steps": 372500.0, "train/extr_critic_critic_opt_loss": 15673.908079335388, "train/extr_critic_mag": 11.338348388671875, "train/extr_critic_max": 11.338348388671875, "train/extr_critic_mean": 3.3579749372643484, "train/extr_critic_min": -0.3815890449873159, "train/extr_critic_std": 2.7151287676582876, "train/extr_return_normed_mag": 1.4088863554135176, "train/extr_return_normed_max": 1.4088863554135176, "train/extr_return_normed_mean": 0.39487636173275154, "train/extr_return_normed_min": -0.07578772274960935, "train/extr_return_normed_std": 0.3180643914031311, "train/extr_return_rate": 0.8384701878252164, "train/extr_return_raw_mag": 12.12299709588709, "train/extr_return_raw_max": 12.12299709588709, "train/extr_return_raw_mean": 3.374037500838159, "train/extr_return_raw_min": -0.6870951488823958, "train/extr_return_raw_std": 2.744625259453142, "train/extr_reward_mag": 1.0631097437630237, "train/extr_reward_max": 1.0631097437630237, "train/extr_reward_mean": 0.05757476982306427, "train/extr_reward_min": -0.596198105476272, "train/extr_reward_std": 0.23066785197022935, "train/image_loss_mean": 3.3313437465211035, "train/image_loss_std": 8.241533501047483, "train/model_loss_mean": 6.661448915239791, "train/model_loss_std": 12.478154813739616, "train/model_opt_grad_norm": 26.835584250973984, "train/model_opt_grad_steps": 372201.0, "train/model_opt_loss": 16653.622221610916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.688508302393094, "train/policy_entropy_max": 2.688508302393094, "train/policy_entropy_mean": 0.39066556809653696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5811460950005223, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3906218877560656, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0199862760557254, "train/policy_randomness_mag": 0.9489254481355909, "train/policy_randomness_max": 0.9489254481355909, "train/policy_randomness_mean": 0.13788780160772968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20511906772432192, "train/post_ent_mag": 55.36537256375165, "train/post_ent_max": 55.36537256375165, "train/post_ent_mean": 40.677428984306225, "train/post_ent_min": 19.320090146131918, "train/post_ent_std": 5.78201795631731, "train/prior_ent_mag": 76.7285249736947, "train/prior_ent_max": 76.7285249736947, "train/prior_ent_mean": 46.08813938624422, "train/prior_ent_min": 27.854052342159648, "train/prior_ent_std": 7.642851983997184, "train/rep_loss_mean": 5.456783670774648, "train/rep_loss_std": 8.871090586756317, "train/reward_avg": 0.04000605188939773, "train/reward_loss_mean": 0.05596461503858298, "train/reward_loss_std": 0.2212865910899471, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0190036229684318, "train/reward_neg_acc": 0.9937255046737026, "train/reward_neg_loss": 0.02377241361938732, "train/reward_pos_acc": 0.9859554935509051, "train/reward_pos_loss": 0.7472288407070536, "train/reward_pred": 0.03926501433614274, "train/reward_rate": 0.04450924295774648, "stats/sum_log_reward": 9.475000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30365537852048874, "replay/size": 746746.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.5136347114195565e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3671287733839862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08001732826233, "timer/env.step_count": 1412.0, "timer/env.step_total": 21.991055011749268, "timer/env.step_frac": 0.07328397008086314, "timer/env.step_avg": 0.015574401566394665, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 1.7119965553283691, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.2587854862213135, "timer/replay.add_frac": 0.0008623882673874411, "timer/replay.add_avg": 0.00018327584010008037, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0007801055908203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028561830520629883, "timer/logger.write_frac": 9.518071471378796e-05, "timer/logger.write_avg": 0.028561830520629883, "timer/logger.write_min": 0.028561830520629883, "timer/logger.write_max": 0.028561830520629883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004055500030517578, "timer/checkpoint.save_frac": 1.351472872677557e-06, "timer/checkpoint.save_avg": 0.0004055500030517578, "timer/checkpoint.save_min": 0.0004055500030517578, "timer/checkpoint.save_max": 0.0004055500030517578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2485735416412354, "timer/agent.save_frac": 0.004160802017934439, "timer/agent.save_avg": 1.2485735416412354, "timer/agent.save_min": 1.2485735416412354, "timer/agent.save_max": 1.2485735416412354, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.703636169433594e-05, "timer/replay.save_frac": 3.233682887594155e-07, "timer/replay.save_avg": 9.703636169433594e-05, "timer/replay.save_min": 9.703636169433594e-05, "timer/replay.save_max": 9.703636169433594e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 14.236665487289429, "timer/agent.policy_frac": 0.047442897444636284, "timer/agent.policy_avg": 0.010082624282782882, "timer/agent.policy_min": 0.005890846252441406, "timer/agent.policy_max": 2.516188144683838, "timer/dataset_count": 706.0, "timer/dataset_total": 0.057607412338256836, "timer/dataset_frac": 0.000191973503771293, "timer/dataset_avg": 8.159690132897568e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 706.0, "timer/agent.train_total": 262.8563165664673, "timer/agent.train_frac": 0.8759540835367406, "timer/agent.train_avg": 0.3723177288476874, "timer/agent.train_min": 0.36601901054382324, "timer/agent.train_max": 0.4099147319793701, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21778011322021484, "timer/agent.report_frac": 0.0007257401381111682, "timer/agent.report_avg": 0.21778011322021484, "timer/agent.report_min": 0.21778011322021484, "timer/agent.report_max": 0.21778011322021484, "fps": 4.705309678472938}
+{"step": 746930, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06097560975609756}
+{"step": 747103, "episode/length": 172.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.057803468208092484}
+{"step": 747266, "episode/length": 162.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06134969325153374}
+{"step": 747499, "episode/length": 232.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.055793991416309016}
+{"step": 747679, "episode/length": 179.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.06666666666666667}
+{"step": 747880, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06467661691542288}
+{"step": 748074, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06701030927835051}
+{"step": 748253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423133850097656, "train/action_min": 0.0, "train/action_std": 3.268342286348343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04088914073589775, "train/actor_opt_grad_steps": 373215.0, "train/actor_opt_loss": -14.68681264254782, "train/adv_mag": 0.42595411878493095, "train/adv_max": 0.3654108742872874, "train/adv_mean": 0.0019080885735497253, "train/adv_min": -0.38785198972456986, "train/adv_std": 0.046126172256966434, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.00011846801459864448, "train/cont_loss_std": 0.0037279218098926017, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0045253170910197265, "train/cont_pos_acc": 0.9999863199061818, "train/cont_pos_loss": 8.991538221191241e-05, "train/cont_pred": 0.9948540296819475, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.369867689079708, "train/dyn_loss_std": 8.844276361995274, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9890473178691335, "train/extr_critic_critic_opt_grad_steps": 373215.0, "train/extr_critic_critic_opt_loss": 15678.053073459201, "train/extr_critic_mag": 11.48779504828983, "train/extr_critic_max": 11.48779504828983, "train/extr_critic_mean": 3.372657166586982, "train/extr_critic_min": -0.39876504573557114, "train/extr_critic_std": 2.7459048363897534, "train/extr_return_normed_mag": 1.410763657755322, "train/extr_return_normed_max": 1.410763657755322, "train/extr_return_normed_mean": 0.3935716611643632, "train/extr_return_normed_min": -0.07878397110228737, "train/extr_return_normed_std": 0.31865498589144814, "train/extr_return_rate": 0.8389856856730249, "train/extr_return_raw_mag": 12.255866871939766, "train/extr_return_raw_max": 12.255866871939766, "train/extr_return_raw_mean": 3.389307137992647, "train/extr_return_raw_min": -0.7277465152243773, "train/extr_return_raw_std": 2.777476853794522, "train/extr_reward_mag": 1.076933678653505, "train/extr_reward_max": 1.076933678653505, "train/extr_reward_mean": 0.05903000870926513, "train/extr_reward_min": -0.6466868619124094, "train/extr_reward_std": 0.23392399648825327, "train/image_loss_mean": 3.122899199525515, "train/image_loss_std": 8.420837097697788, "train/model_loss_mean": 6.401792565981547, "train/model_loss_std": 12.597569386164347, "train/model_opt_grad_norm": 26.16705201731788, "train/model_opt_grad_steps": 372915.1111111111, "train/model_opt_loss": 16700.255398220484, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.686898645427492, "train/policy_entropy_max": 2.686898645427492, "train/policy_entropy_mean": 0.3838952109217644, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5730213841630353, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38456271092096966, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0166121704710855, "train/policy_randomness_mag": 0.9483573113878568, "train/policy_randomness_max": 0.9483573113878568, "train/policy_randomness_mean": 0.13549816329032183, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20225140100551975, "train/post_ent_mag": 55.25619305504693, "train/post_ent_max": 55.25619305504693, "train/post_ent_mean": 40.65461153454251, "train/post_ent_min": 19.257101164923775, "train/post_ent_std": 5.682562437322405, "train/prior_ent_mag": 76.71241325802274, "train/prior_ent_max": 76.71241325802274, "train/prior_ent_mean": 46.054858366648354, "train/prior_ent_min": 28.577100541856552, "train/prior_ent_std": 7.571429762575361, "train/rep_loss_mean": 5.369867689079708, "train/rep_loss_std": 8.844276361995274, "train/reward_avg": 0.04104275152915054, "train/reward_loss_mean": 0.05685436146126853, "train/reward_loss_std": 0.22820747995542157, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0283195674419403, "train/reward_neg_acc": 0.9942417252394888, "train/reward_neg_loss": 0.024338694535092346, "train/reward_pos_acc": 0.9866172025601069, "train/reward_pos_loss": 0.7358731917209096, "train/reward_pred": 0.04070012869002918, "train/reward_rate": 0.04566786024305555, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.428571428571427, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2626430519989559, "replay/size": 748190.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.530873486209774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3397217127094638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3609085083008, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.97573685646057, "timer/env.step_frac": 0.06650578118060434, "timer/env.step_avg": 0.01383361278148239, "timer/env.step_min": 0.0027322769165039062, "timer/env.step_max": 1.6462323665618896, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.28112149238586426, "timer/replay.add_frac": 0.0009359456720983223, "timer/replay.add_avg": 0.00019468247395142954, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0008411407470703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023432254791259766, "timer/logger.write_frac": 7.80136633213446e-05, "timer/logger.write_avg": 0.023432254791259766, "timer/logger.write_min": 0.023432254791259766, "timer/logger.write_max": 0.023432254791259766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.68319296836853, "timer/agent.policy_frac": 0.035567854090684005, "timer/agent.policy_avg": 0.007398333080587625, "timer/agent.policy_min": 0.005943775177001953, "timer/agent.policy_max": 0.014971733093261719, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05887746810913086, "timer/dataset_frac": 0.00019602240651600547, "timer/dataset_avg": 8.154773976333914e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00018739700317382812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6679644584656, "timer/agent.train_frac": 0.8944837921577956, "timer/agent.train_avg": 0.3721162942638027, "timer/agent.train_min": 0.3662247657775879, "timer/agent.train_max": 0.3854050636291504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22333049774169922, "timer/agent.report_frac": 0.0007435404921726931, "timer/agent.report_avg": 0.22333049774169922, "timer/agent.report_min": 0.22333049774169922, "timer/agent.report_max": 0.22333049774169922, "fps": 4.807475068982246}
+{"step": 748264, "episode/length": 189.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06315789473684211}
+{"step": 748462, "episode/length": 197.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06565656565656566}
+{"step": 748663, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
+{"step": 748862, "episode/length": 198.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07035175879396985}
+{"step": 749074, "episode/length": 211.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0660377358490566}
+{"step": 749340, "episode/length": 265.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05639097744360902}
+{"step": 749525, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05945945945945946}
+{"step": 749693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467105441623264, "train/action_min": 0.0, "train/action_std": 3.3395129011736975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039643095857981175, "train/actor_opt_grad_steps": 373935.0, "train/actor_opt_loss": -14.032409712672234, "train/adv_mag": 0.4170536173300611, "train/adv_max": 0.36028498307698303, "train/adv_mean": 0.0016390122169127608, "train/adv_min": -0.3544218931347132, "train/adv_std": 0.044433691487130195, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 3.231326536350881e-05, "train/cont_loss_std": 0.000991137753036892, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0030160393786870764, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.2040234651980145e-05, "train/cont_pred": 0.9949289759000143, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.322058571709527, "train/dyn_loss_std": 8.925913876957363, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0592215499944158, "train/extr_critic_critic_opt_grad_steps": 373935.0, "train/extr_critic_critic_opt_loss": 15690.716824001736, "train/extr_critic_mag": 11.499186608526442, "train/extr_critic_max": 11.499186608526442, "train/extr_critic_mean": 3.241240456700325, "train/extr_critic_min": -0.392184982697169, "train/extr_critic_std": 2.7363683150874243, "train/extr_return_normed_mag": 1.4155655950307846, "train/extr_return_normed_max": 1.4155655950307846, "train/extr_return_normed_mean": 0.3787874407652352, "train/extr_return_normed_min": -0.07867984727231993, "train/extr_return_normed_std": 0.317989529007011, "train/extr_return_rate": 0.8243182574709257, "train/extr_return_raw_mag": 12.259784354103935, "train/extr_return_raw_max": 12.259784354103935, "train/extr_return_raw_mean": 3.2554917451408176, "train/extr_return_raw_min": -0.7183738590942489, "train/extr_return_raw_std": 2.7620448205206127, "train/extr_reward_mag": 1.0696466399563684, "train/extr_reward_max": 1.0696466399563684, "train/extr_reward_mean": 0.05690720118582249, "train/extr_reward_min": -0.6366575161616007, "train/extr_reward_std": 0.22939679399132729, "train/image_loss_mean": 3.2059080170260534, "train/image_loss_std": 8.582069549295637, "train/model_loss_mean": 6.454803480042352, "train/model_loss_std": 12.753955761591593, "train/model_opt_grad_norm": 26.305000225702923, "train/model_opt_grad_steps": 373634.5, "train/model_opt_loss": 16137.0087890625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.702352676126692, "train/policy_entropy_max": 2.702352676126692, "train/policy_entropy_mean": 0.4110635278953446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6145180513461431, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41153334288133514, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0422507002949715, "train/policy_randomness_mag": 0.9538119046224488, "train/policy_randomness_max": 0.9538119046224488, "train/policy_randomness_mean": 0.1450873857571019, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.216897905493776, "train/post_ent_mag": 55.45406749513414, "train/post_ent_max": 55.45406749513414, "train/post_ent_mean": 40.71301375495063, "train/post_ent_min": 19.24493302239312, "train/post_ent_std": 5.8241888880729675, "train/prior_ent_mag": 76.77345646752252, "train/prior_ent_max": 76.77345646752252, "train/prior_ent_mean": 46.02425003051758, "train/prior_ent_min": 28.121677266226875, "train/prior_ent_std": 7.634271615081364, "train/rep_loss_mean": 5.322058571709527, "train/rep_loss_std": 8.925913876957363, "train/reward_avg": 0.03966064417424301, "train/reward_loss_mean": 0.05562799051403999, "train/reward_loss_std": 0.21723126392397615, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0235192957851622, "train/reward_neg_acc": 0.9940062347385619, "train/reward_neg_loss": 0.02414586944764273, "train/reward_pos_acc": 0.987802729010582, "train/reward_pos_loss": 0.7344511598348618, "train/reward_pred": 0.039154105328230396, "train/reward_rate": 0.04421657986111111, "stats/sum_log_reward": 11.957143238612584, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3020119326455252, "replay/size": 749630.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4928321838378907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490517934163411e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1336693763733, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.3364098072052, "timer/env.step_frac": 0.06775784219564836, "timer/env.step_avg": 0.014122506810559167, "timer/env.step_min": 0.003078460693359375, "timer/env.step_max": 1.7052767276763916, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2635183334350586, "timer/replay.add_frac": 0.0008780032376327683, "timer/replay.add_avg": 0.00018299884266323514, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0008466243743896484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021524906158447266, "timer/logger.write_frac": 7.171773231298028e-05, "timer/logger.write_avg": 0.021524906158447266, "timer/logger.write_min": 0.021524906158447266, "timer/logger.write_max": 0.021524906158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.703056812286377, "timer/agent.policy_frac": 0.035660966776988094, "timer/agent.policy_avg": 0.007432678341865539, "timer/agent.policy_min": 0.005941629409790039, "timer/agent.policy_max": 0.014843225479125977, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05939078330993652, "timer/dataset_frac": 0.00019788110888505268, "timer/dataset_avg": 8.24871990415785e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0836386680603, "timer/agent.train_frac": 0.8932141443014124, "timer/agent.train_avg": 0.37233838703897265, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.3842334747314453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21723079681396484, "timer/agent.report_frac": 0.0007237801652354882, "timer/agent.report_avg": 0.21723079681396484, "timer/agent.report_min": 0.21723079681396484, "timer/agent.report_max": 0.21723079681396484, "fps": 4.797758409672978}
+{"step": 749798, "episode/length": 272.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05128205128205128}
+{"step": 750063, "episode/length": 264.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.052830188679245285}
+{"step": 750325, "episode/length": 261.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.05725190839694656}
+{"step": 750495, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 750782, "episode/length": 286.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04529616724738676}
+{"step": 751013, "episode/length": 230.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06060606060606061}
+{"step": 751123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.414343939887153, "train/action_min": 0.0, "train/action_std": 3.253110799524519, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04112446530618601, "train/actor_opt_grad_steps": 374655.0, "train/actor_opt_loss": -13.500243753194809, "train/adv_mag": 0.4215135644707415, "train/adv_max": 0.36851958061258, "train/adv_mean": 0.0014710491295772954, "train/adv_min": -0.369101427288519, "train/adv_std": 0.045408626863112055, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 6.546300247143065e-05, "train/cont_loss_std": 0.00195975765848407, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004943042731056835, "train/cont_pos_acc": 0.9999863215618663, "train/cont_pos_loss": 3.351700093507443e-05, "train/cont_pred": 0.9948249219192399, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.463624344931708, "train/dyn_loss_std": 8.884197996722328, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9559721027811369, "train/extr_critic_critic_opt_grad_steps": 374655.0, "train/extr_critic_critic_opt_loss": 15704.596340603299, "train/extr_critic_mag": 11.266447212960985, "train/extr_critic_max": 11.266447212960985, "train/extr_critic_mean": 3.2510596646202936, "train/extr_critic_min": -0.4192042615678575, "train/extr_critic_std": 2.756873117552863, "train/extr_return_normed_mag": 1.4044381115171645, "train/extr_return_normed_max": 1.4044381115171645, "train/extr_return_normed_mean": 0.3838625910381476, "train/extr_return_normed_min": -0.07938509783707559, "train/extr_return_normed_std": 0.3225514412754112, "train/extr_return_rate": 0.8307011764910486, "train/extr_return_raw_mag": 12.084240251117283, "train/extr_return_raw_max": 12.084240251117283, "train/extr_return_raw_mean": 3.2637970513767667, "train/extr_return_raw_min": -0.7402808293700218, "train/extr_return_raw_std": 2.7879235479566784, "train/extr_reward_mag": 1.070713374349806, "train/extr_reward_max": 1.070713374349806, "train/extr_reward_mean": 0.058071290660235614, "train/extr_reward_min": -0.6400939987765418, "train/extr_reward_std": 0.23240257054567337, "train/image_loss_mean": 3.195455135570632, "train/image_loss_std": 8.55731052160263, "train/model_loss_mean": 6.528165393405491, "train/model_loss_std": 12.738796101676094, "train/model_opt_grad_norm": 25.73315915796492, "train/model_opt_grad_steps": 374353.93055555556, "train/model_opt_loss": 17052.355441623266, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.719371282392078, "train/policy_entropy_max": 2.719371282392078, "train/policy_entropy_mean": 0.3976967129856348, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5911141306989722, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3980889144457049, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0263585812515683, "train/policy_randomness_mag": 0.9598187274403043, "train/policy_randomness_max": 0.9598187274403043, "train/policy_randomness_mean": 0.1403694881333245, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20863734858317506, "train/post_ent_mag": 55.043235778808594, "train/post_ent_max": 55.043235778808594, "train/post_ent_mean": 40.55570443471273, "train/post_ent_min": 19.125788384013706, "train/post_ent_std": 5.714303983582391, "train/prior_ent_mag": 76.62246036529541, "train/prior_ent_max": 76.62246036529541, "train/prior_ent_mean": 45.991617891523575, "train/prior_ent_min": 28.417603413263958, "train/prior_ent_std": 7.644751873281267, "train/rep_loss_mean": 5.463624344931708, "train/rep_loss_std": 8.884197996722328, "train/reward_avg": 0.03801812060798208, "train/reward_loss_mean": 0.05447023517141739, "train/reward_loss_std": 0.21296713687479496, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0286720428201888, "train/reward_neg_acc": 0.9936103365487523, "train/reward_neg_loss": 0.024467945344642632, "train/reward_pos_acc": 0.9894950224293603, "train/reward_pos_loss": 0.7278582693801986, "train/reward_pred": 0.03783232899796632, "train/reward_rate": 0.04269748263888889, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.8333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5194269344210625, "replay/size": 751060.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4657391634854405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3399165827077586e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28036975860596, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.110819101333618, "timer/env.step_frac": 0.0669734725500059, "timer/env.step_avg": 0.01406350986107246, "timer/env.step_min": 0.0029125213623046875, "timer/env.step_max": 1.8119120597839355, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2537820339202881, "timer/replay.add_frac": 0.0008451502644821648, "timer/replay.add_avg": 0.00017746995379041124, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0009102821350097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030264854431152344, "timer/logger.write_frac": 0.00010078865446809635, "timer/logger.write_avg": 0.030264854431152344, "timer/logger.write_min": 0.030264854431152344, "timer/logger.write_max": 0.030264854431152344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002694129943847656, "timer/checkpoint.save_frac": 8.97204817622096e-07, "timer/checkpoint.save_avg": 0.0002694129943847656, "timer/checkpoint.save_min": 0.0002694129943847656, "timer/checkpoint.save_max": 0.0002694129943847656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.502634048461914, "timer/agent.save_frac": 0.005004103497241178, "timer/agent.save_avg": 1.502634048461914, "timer/agent.save_min": 1.502634048461914, "timer/agent.save_max": 1.502634048461914, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.414817810058594e-05, "timer/replay.save_frac": 2.4692982148714325e-07, "timer/replay.save_avg": 7.414817810058594e-05, "timer/replay.save_min": 7.414817810058594e-05, "timer/replay.save_max": 7.414817810058594e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.642317056655884, "timer/agent.policy_frac": 0.042101710034588624, "timer/agent.policy_avg": 0.008840781158500618, "timer/agent.policy_min": 0.006090879440307617, "timer/agent.policy_max": 1.4903473854064941, "timer/dataset_count": 715.0, "timer/dataset_total": 0.056725502014160156, "timer/dataset_frac": 0.00018890845931674298, "timer/dataset_avg": 7.933636645337085e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.52722811698914, "timer/agent.train_frac": 0.8875945781312617, "timer/agent.train_avg": 0.372765354009775, "timer/agent.train_min": 0.36347246170043945, "timer/agent.train_max": 0.8458981513977051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2235279083251953, "timer/agent.report_frac": 0.0007443973394094605, "timer/agent.report_avg": 0.2235279083251953, "timer/agent.report_min": 0.2235279083251953, "timer/agent.report_max": 0.2235279083251953, "fps": 4.762113281717577}
+{"step": 751221, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 751527, "episode/length": 305.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.032679738562091505}
+{"step": 751820, "episode/length": 292.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04436860068259386}
+{"step": 752012, "episode/length": 191.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.052083333333333336}
+{"step": 752205, "episode/length": 192.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.05699481865284974}
+{"step": 752395, "episode/length": 189.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.05789473684210526}
+{"step": 752577, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4372753567165795, "train/action_min": 0.0, "train/action_std": 3.2591571542951794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041293700950013265, "train/actor_opt_grad_steps": 375375.0, "train/actor_opt_loss": -12.898789413480294, "train/adv_mag": 0.4114873934951093, "train/adv_max": 0.36236242163512444, "train/adv_mean": 0.002038627681536632, "train/adv_min": -0.3563694945640034, "train/adv_std": 0.045800605633606516, "train/cont_avg": 0.9944797092013888, "train/cont_loss_mean": 5.992916986564801e-05, "train/cont_loss_std": 0.001874389203995482, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.0036659321924273533, "train/cont_pos_acc": 0.9999863124556012, "train/cont_pos_loss": 2.08201244128582e-05, "train/cont_pred": 0.9944784334964223, "train/cont_rate": 0.9944797092013888, "train/dyn_loss_mean": 5.352400786346859, "train/dyn_loss_std": 8.792040659321678, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9399789298574129, "train/extr_critic_critic_opt_grad_steps": 375375.0, "train/extr_critic_critic_opt_loss": 15765.10169813368, "train/extr_critic_mag": 11.4698117574056, "train/extr_critic_max": 11.4698117574056, "train/extr_critic_mean": 3.274660862154431, "train/extr_critic_min": -0.42689407368501026, "train/extr_critic_std": 2.7969360765483646, "train/extr_return_normed_mag": 1.4280236677991018, "train/extr_return_normed_max": 1.4280236677991018, "train/extr_return_normed_mean": 0.38873671657509273, "train/extr_return_normed_min": -0.0774322633838488, "train/extr_return_normed_std": 0.32678273051149315, "train/extr_return_rate": 0.8200846761465073, "train/extr_return_raw_mag": 12.275244739320543, "train/extr_return_raw_max": 12.275244739320543, "train/extr_return_raw_mean": 3.2922696570555368, "train/extr_return_raw_min": -0.7375368459357156, "train/extr_return_raw_std": 2.824787343541781, "train/extr_reward_mag": 1.079734183020062, "train/extr_reward_max": 1.079734183020062, "train/extr_reward_mean": 0.060316487681120634, "train/extr_reward_min": -0.635830357670784, "train/extr_reward_std": 0.23646469062401188, "train/image_loss_mean": 3.074544239375326, "train/image_loss_std": 8.1989130642679, "train/model_loss_mean": 6.343422902954949, "train/model_loss_std": 12.325266652637058, "train/model_opt_grad_norm": 24.30390899711185, "train/model_opt_grad_steps": 375073.0, "train/model_opt_loss": 15858.557223849826, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7160881890190973, "train/policy_entropy_max": 2.7160881890190973, "train/policy_entropy_mean": 0.403256728210383, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.611551519897249, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4024891416645712, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0319506625334423, "train/policy_randomness_mag": 0.9586599369843801, "train/policy_randomness_max": 0.9586599369843801, "train/policy_randomness_mean": 0.1423319269799524, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2158508495324188, "train/post_ent_mag": 55.65223730934991, "train/post_ent_max": 55.65223730934991, "train/post_ent_mean": 40.676859060923256, "train/post_ent_min": 19.09467139508989, "train/post_ent_std": 5.778127769629161, "train/prior_ent_mag": 76.7733227411906, "train/prior_ent_max": 76.7733227411906, "train/prior_ent_mean": 46.07579316033257, "train/prior_ent_min": 28.42618489265442, "train/prior_ent_std": 7.657218383418189, "train/rep_loss_mean": 5.352400786346859, "train/rep_loss_std": 8.792040659321678, "train/reward_avg": 0.041754828507287636, "train/reward_loss_mean": 0.057378276302996606, "train/reward_loss_std": 0.2100134471224414, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0297770235273573, "train/reward_neg_acc": 0.9937547246615092, "train/reward_neg_loss": 0.025095307319942448, "train/reward_pos_acc": 0.9909419409102864, "train/reward_pos_loss": 0.7179083559248183, "train/reward_pred": 0.041562120973442994, "train/reward_rate": 0.04660373263888889, "stats/sum_log_reward": 10.43333371480306, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3676308939854304, "replay/size": 752514.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.5279062787965043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3559236815083962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.239235162735, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.903550386428833, "timer/env.step_frac": 0.05963094855582347, "timer/env.step_avg": 0.012313308381312815, "timer/env.step_min": 0.002982616424560547, "timer/env.step_max": 1.6681036949157715, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27919650077819824, "timer/replay.add_frac": 0.0009299134426147495, "timer/replay.add_avg": 0.00019201960163562465, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008101463317871094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022780895233154297, "timer/logger.write_frac": 7.587581023781468e-05, "timer/logger.write_avg": 0.022780895233154297, "timer/logger.write_min": 0.022780895233154297, "timer/logger.write_max": 0.022780895233154297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.73587703704834, "timer/agent.policy_frac": 0.03575774175959816, "timer/agent.policy_avg": 0.0073836843445999585, "timer/agent.policy_min": 0.006050586700439453, "timer/agent.policy_max": 0.01547861099243164, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05821061134338379, "timer/dataset_frac": 0.00019388076082672075, "timer/dataset_avg": 8.006961670341649e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001404285430908203, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.5732271671295, "timer/agent.train_frac": 0.9011921010938961, "timer/agent.train_avg": 0.3721777540125578, "timer/agent.train_min": 0.3660414218902588, "timer/agent.train_max": 0.38596558570861816, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225503921508789, "timer/agent.report_frac": 0.0007412435354435027, "timer/agent.report_avg": 0.2225503921508789, "timer/agent.report_min": 0.2225503921508789, "timer/agent.report_max": 0.2225503921508789, "fps": 4.842698977890991}
+{"step": 752580, "episode/length": 184.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05945945945945946}
+{"step": 752749, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 753055, "episode/length": 305.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.700000032782555, "episode/reward_rate": 0.0457516339869281}
+{"step": 753270, "episode/length": 214.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06976744186046512}
+{"step": 753508, "episode/length": 237.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06722689075630252}
+{"step": 753709, "episode/length": 200.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06467661691542288}
+{"step": 753886, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06779661016949153}
+{"step": 754021, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412539129387842, "train/action_min": 0.0, "train/action_std": 3.2327533094850307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040355058769657184, "train/actor_opt_grad_steps": 376100.0, "train/actor_opt_loss": -11.369483028372674, "train/adv_mag": 0.42491753664735243, "train/adv_max": 0.36189406130411855, "train/adv_mean": 0.0024992787424309103, "train/adv_min": -0.3723923543544665, "train/adv_std": 0.04653735775245379, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 4.7228613789463316e-05, "train/cont_loss_std": 0.0014384343501789884, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.0047002028608610375, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3029413555528501e-05, "train/cont_pred": 0.9948130780703401, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.298828575709095, "train/dyn_loss_std": 8.786665622502158, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9973161130735319, "train/extr_critic_critic_opt_grad_steps": 376100.0, "train/extr_critic_critic_opt_loss": 15843.551276220034, "train/extr_critic_mag": 11.187796827864974, "train/extr_critic_max": 11.187796827864974, "train/extr_critic_mean": 3.2583202466572803, "train/extr_critic_min": -0.4209272681850277, "train/extr_critic_std": 2.720951413455075, "train/extr_return_normed_mag": 1.4065477635762462, "train/extr_return_normed_max": 1.4065477635762462, "train/extr_return_normed_mean": 0.38993437282026633, "train/extr_return_normed_min": -0.08493186666132653, "train/extr_return_normed_std": 0.32233412992464355, "train/extr_return_rate": 0.8310145997021297, "train/extr_return_raw_mag": 11.964906130751519, "train/extr_return_raw_max": 11.964906130751519, "train/extr_return_raw_mean": 3.279680947734885, "train/extr_return_raw_min": -0.7766119992896302, "train/extr_return_raw_std": 2.753711122356049, "train/extr_reward_mag": 1.073754124445458, "train/extr_reward_max": 1.073754124445458, "train/extr_reward_mean": 0.05829209130104274, "train/extr_reward_min": -0.6329274291861547, "train/extr_reward_std": 0.2328501188591735, "train/image_loss_mean": 3.23851623437176, "train/image_loss_std": 8.451221093739548, "train/model_loss_mean": 6.4728173229792345, "train/model_loss_std": 12.563520379262428, "train/model_opt_grad_norm": 24.01541255271598, "train/model_opt_grad_steps": 375797.397260274, "train/model_opt_loss": 17525.389594927226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7010759098889077, "train/policy_entropy_max": 2.7010759098889077, "train/policy_entropy_mean": 0.3939751064124173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915633329789932, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39435102474199585, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0228727206791917, "train/policy_randomness_mag": 0.9533612621973638, "train/policy_randomness_max": 0.9533612621973638, "train/policy_randomness_mean": 0.13905592272951178, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20879589490694542, "train/post_ent_mag": 55.47489323028147, "train/post_ent_max": 55.47489323028147, "train/post_ent_mean": 40.734962620147286, "train/post_ent_min": 19.46421469074406, "train/post_ent_std": 5.717120693154531, "train/prior_ent_mag": 76.65910861916738, "train/prior_ent_max": 76.65910861916738, "train/prior_ent_mean": 46.00770427756114, "train/prior_ent_min": 28.393333173777958, "train/prior_ent_std": 7.683408822098824, "train/rep_loss_mean": 5.298828575709095, "train/rep_loss_std": 8.786665622502158, "train/reward_avg": 0.038926048536006716, "train/reward_loss_mean": 0.05495675755281971, "train/reward_loss_std": 0.21253922397959724, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0335823999692315, "train/reward_neg_acc": 0.994185161100675, "train/reward_neg_loss": 0.024027644388683853, "train/reward_pos_acc": 0.9888912872092365, "train/reward_pos_loss": 0.7336490440042052, "train/reward_pred": 0.038481413807770974, "train/reward_rate": 0.04367776113013699, "stats/sum_log_reward": 12.385714394705635, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2946928186076028, "replay/size": 753958.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4861287251734006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34905041750118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09569454193115, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.718676805496216, "timer/env.step_frac": 0.0657079630402395, "timer/env.step_avg": 0.013655593355606798, "timer/env.step_min": 0.0029990673065185547, "timer/env.step_max": 1.6482818126678467, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26085638999938965, "timer/replay.add_frac": 0.0008692440269680085, "timer/replay.add_avg": 0.00018064846952866318, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008690357208251953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030550479888916016, "timer/logger.write_frac": 0.0001018024598305169, "timer/logger.write_avg": 0.030550479888916016, "timer/logger.write_min": 0.030550479888916016, "timer/logger.write_max": 0.030550479888916016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.660618305206299, "timer/agent.policy_frac": 0.03552406282095705, "timer/agent.policy_avg": 0.007382699657345082, "timer/agent.policy_min": 0.005920886993408203, "timer/agent.policy_max": 0.01963353157043457, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05800461769104004, "timer/dataset_frac": 0.00019328707057786625, "timer/dataset_avg": 8.033880566626045e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014925003051757812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68744564056396, "timer/agent.train_frac": 0.8953392218795106, "timer/agent.train_avg": 0.3721432765104764, "timer/agent.train_min": 0.365811824798584, "timer/agent.train_max": 0.38408493995666504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22180795669555664, "timer/agent.report_frac": 0.0007391240885149198, "timer/agent.report_avg": 0.22180795669555664, "timer/agent.report_min": 0.22180795669555664, "timer/agent.report_max": 0.22180795669555664, "fps": 4.811695980093431}
+{"step": 754023, "episode/length": 136.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.06569343065693431}
+{"step": 754186, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0736196319018405}
+{"step": 754226, "episode/length": 39.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.15}
+{"step": 754378, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07894736842105263}
+{"step": 754482, "episode/length": 103.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.10576923076923077}
+{"step": 754726, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.06557377049180328}
+{"step": 755040, "episode/length": 313.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.500000067055225, "episode/reward_rate": 0.044585987261146494}
+{"step": 755192, "episode/length": 151.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.08552631578947369}
+{"step": 755435, "stats/sum_log_reward": 10.225000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3718828707933426, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470866176060268, "train/action_min": 0.0, "train/action_std": 3.3524957248142786, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04122399977807488, "train/actor_opt_grad_steps": 376815.0, "train/actor_opt_loss": -10.267920452196684, "train/adv_mag": 0.4467741421290806, "train/adv_max": 0.4038954189845494, "train/adv_mean": 0.0031087219581422687, "train/adv_min": -0.377968596134867, "train/adv_std": 0.04660021763827119, "train/cont_avg": 0.9946149553571428, "train/cont_loss_mean": 0.000122172742575393, "train/cont_loss_std": 0.0037601845477183817, "train/cont_neg_acc": 0.9933163276740483, "train/cont_neg_loss": 0.015768118957244528, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.6481035466041152e-05, "train/cont_pred": 0.9946344026497432, "train/cont_rate": 0.9946149553571428, "train/dyn_loss_mean": 5.293617268971034, "train/dyn_loss_std": 8.813667563029698, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9624486003603254, "train/extr_critic_critic_opt_grad_steps": 376815.0, "train/extr_critic_critic_opt_loss": 15865.170535714286, "train/extr_critic_mag": 11.563197149549211, "train/extr_critic_max": 11.563197149549211, "train/extr_critic_mean": 3.3240889855793543, "train/extr_critic_min": -0.42605021340506416, "train/extr_critic_std": 2.7968677043914796, "train/extr_return_normed_mag": 1.422959133556911, "train/extr_return_normed_max": 1.422959133556911, "train/extr_return_normed_mean": 0.39050180869443074, "train/extr_return_normed_min": -0.07972002721258573, "train/extr_return_normed_std": 0.32559643323932375, "train/extr_return_rate": 0.8313095654760089, "train/extr_return_raw_mag": 12.324914973122732, "train/extr_return_raw_max": 12.324914973122732, "train/extr_return_raw_mean": 3.3511046069008965, "train/extr_return_raw_min": -0.7368658695902143, "train/extr_return_raw_std": 2.830419284956796, "train/extr_reward_mag": 1.0687980243137905, "train/extr_reward_max": 1.0687980243137905, "train/extr_reward_mean": 0.05910078968320574, "train/extr_reward_min": -0.6405065144811358, "train/extr_reward_std": 0.23441798218658993, "train/image_loss_mean": 3.1708990522793363, "train/image_loss_std": 8.364785405567714, "train/model_loss_mean": 6.403593512943813, "train/model_loss_std": 12.484003502982004, "train/model_opt_grad_norm": 23.759323368901793, "train/model_opt_grad_steps": 376511.85714285716, "train/model_opt_loss": 17191.912234933036, "train/model_opt_model_opt_grad_overflow": 0.014285714285714285, "train/model_opt_model_opt_grad_scale": 2642.8571428571427, "train/policy_entropy_mag": 2.7127900055476597, "train/policy_entropy_max": 2.7127900055476597, "train/policy_entropy_mean": 0.40428268973316467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.60919409096241, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4048579450164522, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 1.0361623057297298, "train/policy_randomness_mag": 0.9574958230767932, "train/policy_randomness_max": 0.9574958230767932, "train/policy_randomness_mean": 0.14269404783844947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21501878052949905, "train/post_ent_mag": 54.97446447099958, "train/post_ent_max": 54.97446447099958, "train/post_ent_mean": 40.690061405726844, "train/post_ent_min": 19.63044124330793, "train/post_ent_std": 5.683471250534057, "train/prior_ent_mag": 76.81279580252512, "train/prior_ent_max": 76.81279580252512, "train/prior_ent_mean": 45.98013747079032, "train/prior_ent_min": 28.216925430297852, "train/prior_ent_std": 7.637611784253802, "train/rep_loss_mean": 5.293617268971034, "train/rep_loss_std": 8.813667563029698, "train/reward_avg": 0.04021065863115447, "train/reward_loss_mean": 0.05640188737639359, "train/reward_loss_std": 0.21326227954455784, "train/reward_max_data": 1.0228571483067104, "train/reward_max_pred": 1.0218339000429426, "train/reward_neg_acc": 0.9939842147486551, "train/reward_neg_loss": 0.024781098802174842, "train/reward_pos_acc": 0.9876505017280579, "train/reward_pos_loss": 0.7294875570705959, "train/reward_pred": 0.03982088030981166, "train/reward_rate": 0.045103236607142855, "replay/size": 755372.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4356555641962077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3476171790288902e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32149839401245, "timer/env.step_count": 1414.0, "timer/env.step_total": 22.172083377838135, "timer/env.step_frac": 0.07382782616763936, "timer/env.step_avg": 0.015680398428456956, "timer/env.step_min": 0.002971649169921875, "timer/env.step_max": 1.743060827255249, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.25121402740478516, "timer/replay.add_frac": 0.0008364836641671259, "timer/replay.add_avg": 0.00017766197129051283, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0008208751678466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022411108016967773, "timer/logger.write_frac": 7.462372203392877e-05, "timer/logger.write_avg": 0.022411108016967773, "timer/logger.write_min": 0.022411108016967773, "timer/logger.write_max": 0.022411108016967773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024580955505371094, "timer/checkpoint.save_frac": 8.184880415427885e-07, "timer/checkpoint.save_avg": 0.00024580955505371094, "timer/checkpoint.save_min": 0.00024580955505371094, "timer/checkpoint.save_max": 0.00024580955505371094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1962034702301025, "timer/agent.save_frac": 0.0039830763918896036, "timer/agent.save_avg": 1.1962034702301025, "timer/agent.save_min": 1.1962034702301025, "timer/agent.save_max": 1.1962034702301025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.7626948443927293e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 13.791382789611816, "timer/agent.policy_frac": 0.04592206306695351, "timer/agent.policy_avg": 0.009753453175114439, "timer/agent.policy_min": 0.005931377410888672, "timer/agent.policy_max": 2.5597927570343018, "timer/dataset_count": 707.0, "timer/dataset_total": 0.05748891830444336, "timer/dataset_frac": 0.00019142458535891988, "timer/dataset_avg": 8.131388727644039e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00012946128845214844, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.36393189430237, "timer/agent.train_frac": 0.8769399903192314, "timer/agent.train_avg": 0.3725090974459722, "timer/agent.train_min": 0.36539220809936523, "timer/agent.train_max": 0.5889952182769775, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22155499458312988, "timer/agent.report_frac": 0.0007377260561362032, "timer/agent.report_avg": 0.22155499458312988, "timer/agent.report_min": 0.22155499458312988, "timer/agent.report_max": 0.22155499458312988, "fps": 4.7082084558049235}
+{"step": 755435, "episode/length": 242.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05761316872427984}
+{"step": 755610, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07428571428571429}
+{"step": 755831, "episode/length": 220.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06334841628959276}
+{"step": 756012, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
+{"step": 756277, "episode/length": 264.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.03773584905660377}
+{"step": 756530, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05928853754940711}
+{"step": 756757, "episode/length": 226.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.048458149779735685}
+{"step": 756879, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.37328608546938213, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383001458154966, "train/action_min": 0.0, "train/action_std": 3.234937099561299, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03916131368238632, "train/actor_opt_grad_steps": 377530.0, "train/actor_opt_loss": -13.759291873811042, "train/adv_mag": 0.3851048815740298, "train/adv_max": 0.32816833665926165, "train/adv_mean": 0.0019646960213758075, "train/adv_min": -0.3445237011533894, "train/adv_std": 0.045903748998494996, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 5.5399014155571805e-05, "train/cont_loss_std": 0.0017352489506293589, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.006095871447280232, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.8512005380690015e-05, "train/cont_pred": 0.9946216304008275, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.3191200151835405, "train/dyn_loss_std": 8.79858478781295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0190921972875726, "train/extr_critic_critic_opt_grad_steps": 377530.0, "train/extr_critic_critic_opt_loss": 15777.194108518835, "train/extr_critic_mag": 11.46935408082727, "train/extr_critic_max": 11.46935408082727, "train/extr_critic_mean": 3.3389777973906636, "train/extr_critic_min": -0.4122461782742853, "train/extr_critic_std": 2.783371435452814, "train/extr_return_normed_mag": 1.4110023959042275, "train/extr_return_normed_max": 1.4110023959042275, "train/extr_return_normed_mean": 0.39089998112965935, "train/extr_return_normed_min": -0.08201532479222506, "train/extr_return_normed_std": 0.32284337608781577, "train/extr_return_rate": 0.8306114877739997, "train/extr_return_raw_mag": 12.253664539284902, "train/extr_return_raw_max": 12.253664539284902, "train/extr_return_raw_mean": 3.356117555539902, "train/extr_return_raw_min": -0.7698473873203748, "train/extr_return_raw_std": 2.816459884382274, "train/extr_reward_mag": 1.0663705362032538, "train/extr_reward_max": 1.0663705362032538, "train/extr_reward_mean": 0.05762312280601018, "train/extr_reward_min": -0.6521980060289984, "train/extr_reward_std": 0.23169351481411554, "train/image_loss_mean": 3.180747923785693, "train/image_loss_std": 8.413247892301376, "train/model_loss_mean": 6.426877302666233, "train/model_loss_std": 12.536133139100793, "train/model_opt_grad_norm": 25.620926595713993, "train/model_opt_grad_steps": 377226.0, "train/model_opt_loss": 16067.19317208904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7205287169103753, "train/policy_entropy_max": 2.7205287169103753, "train/policy_entropy_mean": 0.3981658493819302, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6069980720951133, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3970381835960362, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0255668628705692, "train/policy_randomness_mag": 0.9602272477868485, "train/policy_randomness_max": 0.9602272477868485, "train/policy_randomness_mean": 0.14053507281901084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21424368166760221, "train/post_ent_mag": 55.07766300358185, "train/post_ent_max": 55.07766300358185, "train/post_ent_mean": 40.66998468686457, "train/post_ent_min": 19.36906020282066, "train/post_ent_std": 5.691139070955042, "train/prior_ent_mag": 76.78402406875401, "train/prior_ent_max": 76.78402406875401, "train/prior_ent_mean": 46.02318902211646, "train/prior_ent_min": 28.38367415127689, "train/prior_ent_std": 7.6704494006013215, "train/rep_loss_mean": 5.3191200151835405, "train/rep_loss_std": 8.79858478781295, "train/reward_avg": 0.038828392602401236, "train/reward_loss_mean": 0.05460201658002318, "train/reward_loss_std": 0.20849155093709085, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0243608918908524, "train/reward_neg_acc": 0.9938196098967774, "train/reward_neg_loss": 0.024083349305166774, "train/reward_pos_acc": 0.9914925474010102, "train/reward_pos_loss": 0.7247751126550648, "train/reward_pred": 0.03859831191191118, "train/reward_rate": 0.04369113869863014, "replay/size": 756816.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4795243324005043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3384008341548847e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0783140659332, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.818418979644775, "timer/env.step_frac": 0.06604415597753016, "timer/env.step_avg": 0.01372466688341051, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.6707191467285156, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.271481990814209, "timer/replay.add_frac": 0.0009047037992707429, "timer/replay.add_avg": 0.0001880069188464051, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008993148803710938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022418498992919922, "timer/logger.write_frac": 7.470882746959891e-05, "timer/logger.write_avg": 0.022418498992919922, "timer/logger.write_min": 0.022418498992919922, "timer/logger.write_max": 0.022418498992919922, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.588614463806152, "timer/agent.policy_frac": 0.03528617020115496, "timer/agent.policy_avg": 0.007332835501250798, "timer/agent.policy_min": 0.005942821502685547, "timer/agent.policy_max": 0.010350465774536133, "timer/dataset_count": 722.0, "timer/dataset_total": 0.058571815490722656, "timer/dataset_frac": 0.00019518843163672685, "timer/dataset_avg": 8.112439818659648e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.63260793685913, "timer/agent.train_frac": 0.8952083351075985, "timer/agent.train_avg": 0.3720673240122703, "timer/agent.train_min": 0.3651123046875, "timer/agent.train_max": 0.38457202911376953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2229626178741455, "timer/agent.report_frac": 0.0007430147645562823, "timer/agent.report_avg": 0.2229626178741455, "timer/agent.report_min": 0.2229626178741455, "timer/agent.report_max": 0.2229626178741455, "fps": 4.811990138902301}
+{"step": 756921, "episode/length": 163.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07926829268292683}
+{"step": 757112, "episode/length": 190.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04712041884816754}
+{"step": 757314, "episode/length": 201.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06435643564356436}
+{"step": 757552, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05042016806722689}
+{"step": 757729, "episode/length": 176.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.07909604519774012}
+{"step": 757978, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05220883534136546}
+{"step": 758287, "episode/length": 308.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.04854368932038835}
+{"step": 758323, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.378765530056423, "train/action_min": 0.0, "train/action_std": 3.228453665971756, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039212670280701585, "train/actor_opt_grad_steps": 378255.0, "train/actor_opt_loss": -12.812517083353466, "train/adv_mag": 0.3962658950024181, "train/adv_max": 0.3372182200352351, "train/adv_mean": 0.0017203140555466234, "train/adv_min": -0.3491222688721286, "train/adv_std": 0.04456819531818231, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 1.2095318985593116e-05, "train/cont_loss_std": 0.0003773044306135552, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7431324813025843e-05, "train/cont_pos_acc": 0.999999974336889, "train/cont_pos_loss": 1.2000563386374255e-05, "train/cont_pred": 0.9946191277768877, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.381978193918864, "train/dyn_loss_std": 8.83179337448544, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.973350428044796, "train/extr_critic_critic_opt_grad_steps": 378255.0, "train/extr_critic_critic_opt_loss": 15628.543294270834, "train/extr_critic_mag": 11.619284431139628, "train/extr_critic_max": 11.619284431139628, "train/extr_critic_mean": 3.3219832248157926, "train/extr_critic_min": -0.4258873727586534, "train/extr_critic_std": 2.824219995074802, "train/extr_return_normed_mag": 1.417177105943362, "train/extr_return_normed_max": 1.417177105943362, "train/extr_return_normed_mean": 0.3867539477845033, "train/extr_return_normed_min": -0.07746908053134878, "train/extr_return_normed_std": 0.3231268525123596, "train/extr_return_rate": 0.8230830853184065, "train/extr_return_raw_mag": 12.430788291825188, "train/extr_return_raw_max": 12.430788291825188, "train/extr_return_raw_mean": 3.3371544082959494, "train/extr_return_raw_min": -0.7594883980022537, "train/extr_return_raw_std": 2.8514950341648526, "train/extr_reward_mag": 1.0640746619966295, "train/extr_reward_max": 1.0640746619966295, "train/extr_reward_mean": 0.05806354686824812, "train/extr_reward_min": -0.6296258568763733, "train/extr_reward_std": 0.23206925474935108, "train/image_loss_mean": 3.283407380183538, "train/image_loss_std": 8.404882589975992, "train/model_loss_mean": 6.568881524933709, "train/model_loss_std": 12.574441817071703, "train/model_opt_grad_norm": 23.962818516625298, "train/model_opt_grad_steps": 377950.40277777775, "train/model_opt_loss": 18902.272650824652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2881.9444444444443, "train/policy_entropy_mag": 2.7081087827682495, "train/policy_entropy_max": 2.7081087827682495, "train/policy_entropy_mean": 0.40158519107434487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6099922561811076, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016701740523179, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0328170541259978, "train/policy_randomness_mag": 0.9558435570862558, "train/policy_randomness_max": 0.9558435570862558, "train/policy_randomness_mean": 0.1417419495474961, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2153004959432615, "train/post_ent_mag": 54.98453262117174, "train/post_ent_max": 54.98453262117174, "train/post_ent_mean": 40.78808577855428, "train/post_ent_min": 19.281852947341072, "train/post_ent_std": 5.782028959857093, "train/prior_ent_mag": 76.74252616034613, "train/prior_ent_max": 76.74252616034613, "train/prior_ent_mean": 46.18816317452325, "train/prior_ent_min": 28.3336251311832, "train/prior_ent_std": 7.690729598204295, "train/rep_loss_mean": 5.381978193918864, "train/rep_loss_std": 8.83179337448544, "train/reward_avg": 0.040730794012132615, "train/reward_loss_mean": 0.05627516367369228, "train/reward_loss_std": 0.20956244464549753, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0298343400160472, "train/reward_neg_acc": 0.9934655220972167, "train/reward_neg_loss": 0.024829720780770812, "train/reward_pos_acc": 0.9918356637159983, "train/reward_pos_loss": 0.7146677888102002, "train/reward_pred": 0.040673449583765536, "train/reward_rate": 0.04554578993055555, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2588089087179729, "replay/size": 758260.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4668108763126785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3594729748459073e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0523774623871, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.91848850250244, "timer/env.step_frac": 0.06638337169982703, "timer/env.step_avg": 0.01379396710699615, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.6983585357666016, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2472233772277832, "timer/replay.add_frac": 0.0008239340721730284, "timer/replay.add_avg": 0.00017120732494998837, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0010838508605957031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029290437698364258, "timer/logger.write_frac": 9.761774909460915e-05, "timer/logger.write_avg": 0.029290437698364258, "timer/logger.write_min": 0.029290437698364258, "timer/logger.write_max": 0.029290437698364258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.596946477890015, "timer/agent.policy_frac": 0.035316988878777975, "timer/agent.policy_avg": 0.007338605594106659, "timer/agent.policy_min": 0.0059278011322021484, "timer/agent.policy_max": 0.015630483627319336, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05840945243835449, "timer/dataset_frac": 0.00019466418807388512, "timer/dataset_avg": 8.089951861267936e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001373291015625, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.534636259079, "timer/agent.train_frac": 0.89495920189048, "timer/agent.train_avg": 0.3719316291676994, "timer/agent.train_min": 0.36580443382263184, "timer/agent.train_max": 0.38391637802124023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22288942337036133, "timer/agent.report_frac": 0.000742835051851244, "timer/agent.report_avg": 0.22288942337036133, "timer/agent.report_min": 0.22288942337036133, "timer/agent.report_max": 0.22288942337036133, "fps": 4.812396035873019}
+{"step": 758470, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07103825136612021}
+{"step": 758662, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.057291666666666664}
+{"step": 758876, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07009345794392523}
+{"step": 758964, "episode/length": 87.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.14772727272727273}
+{"step": 759130, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07228915662650602}
+{"step": 759362, "episode/length": 231.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06465517241379311}
+{"step": 759559, "episode/length": 196.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06598984771573604}
+{"step": 759767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347923278808594, "train/action_min": 0.0, "train/action_std": 3.2298193673292794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039983289109336004, "train/actor_opt_grad_steps": 378975.0, "train/actor_opt_loss": -12.652181075678932, "train/adv_mag": 0.387156473679675, "train/adv_max": 0.3361864143775569, "train/adv_mean": 0.0019427797545764254, "train/adv_min": -0.34753674310114646, "train/adv_std": 0.045220480714407235, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 5.9651143282163984e-06, "train/cont_loss_std": 0.0001513732871016613, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002000620668272606, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 4.745819883053868e-06, "train/cont_pred": 0.994734063744545, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.37570936150021, "train/dyn_loss_std": 8.821201297971937, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9609628733661439, "train/extr_critic_critic_opt_grad_steps": 378975.0, "train/extr_critic_critic_opt_loss": 15791.45709906684, "train/extr_critic_mag": 11.534427934222752, "train/extr_critic_max": 11.534427934222752, "train/extr_critic_mean": 3.321433597140842, "train/extr_critic_min": -0.4508167455593745, "train/extr_critic_std": 2.7683720091978707, "train/extr_return_normed_mag": 1.409929547044966, "train/extr_return_normed_max": 1.409929547044966, "train/extr_return_normed_mean": 0.3887816448178556, "train/extr_return_normed_min": -0.08281024876568052, "train/extr_return_normed_std": 0.31765470405419666, "train/extr_return_rate": 0.8399848548902406, "train/extr_return_raw_mag": 12.317912936210632, "train/extr_return_raw_max": 12.317912936210632, "train/extr_return_raw_mean": 3.3384670284059315, "train/extr_return_raw_min": -0.808163351068894, "train/extr_return_raw_std": 2.79303812318378, "train/extr_reward_mag": 1.0670409401257832, "train/extr_reward_max": 1.0670409401257832, "train/extr_reward_mean": 0.0574340029205713, "train/extr_reward_min": -0.6557054320971171, "train/extr_reward_std": 0.23110065505736405, "train/image_loss_mean": 3.2153745177719326, "train/image_loss_std": 8.322216815418667, "train/model_loss_mean": 6.496213475863139, "train/model_loss_std": 12.471091270446777, "train/model_opt_grad_norm": 24.756261587142944, "train/model_opt_grad_steps": 378669.80555555556, "train/model_opt_loss": 16445.962700737848, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6813167101807065, "train/policy_entropy_max": 2.6813167101807065, "train/policy_entropy_mean": 0.3890613404413064, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.588608173860444, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38922332641151214, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0191708157459896, "train/policy_randomness_mag": 0.9463871311810281, "train/policy_randomness_max": 0.9463871311810281, "train/policy_randomness_mean": 0.13732158144315085, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2077528563224607, "train/post_ent_mag": 55.3283740679423, "train/post_ent_max": 55.3283740679423, "train/post_ent_mean": 40.71803225411309, "train/post_ent_min": 19.375329388512505, "train/post_ent_std": 5.758855217032963, "train/prior_ent_mag": 76.81627485487196, "train/prior_ent_max": 76.81627485487196, "train/prior_ent_mean": 46.099399142795136, "train/prior_ent_min": 28.336063385009766, "train/prior_ent_std": 7.6034716500176325, "train/rep_loss_mean": 5.37570936150021, "train/rep_loss_std": 8.821201297971937, "train/reward_avg": 0.03938123842494355, "train/reward_loss_mean": 0.05540743972071343, "train/reward_loss_std": 0.21176559747093254, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.025683903031879, "train/reward_neg_acc": 0.9942844443851047, "train/reward_neg_loss": 0.024429106761494443, "train/reward_pos_acc": 0.9897212700711356, "train/reward_pos_loss": 0.7250143041213354, "train/reward_pred": 0.03910396416257653, "train/reward_rate": 0.04421657986111111, "stats/sum_log_reward": 11.957142966134208, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2635290324687958, "replay/size": 759704.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.448813906006536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3388755248854365e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19710636138916, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.884856700897217, "timer/env.step_frac": 0.06623933502196733, "timer/env.step_avg": 0.013770676385662893, "timer/env.step_min": 0.002982616424560547, "timer/env.step_max": 1.6749258041381836, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.254072904586792, "timer/replay.add_frac": 0.0008463536096877929, "timer/replay.add_avg": 0.00017595076494930192, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0010635852813720703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028493881225585938, "timer/logger.write_frac": 9.491724144497207e-05, "timer/logger.write_avg": 0.028493881225585938, "timer/logger.write_min": 0.028493881225585938, "timer/logger.write_max": 0.028493881225585938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.610445022583008, "timer/agent.policy_frac": 0.03534492770829621, "timer/agent.policy_avg": 0.007347953616747236, "timer/agent.policy_min": 0.0058135986328125, "timer/agent.policy_max": 0.01726555824279785, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05808258056640625, "timer/dataset_frac": 0.00019348148045266012, "timer/dataset_avg": 8.04467874880973e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.69924211502075, "timer/agent.train_frac": 0.8950760564345679, "timer/agent.train_avg": 0.37215961511775725, "timer/agent.train_min": 0.3642873764038086, "timer/agent.train_max": 0.38610219955444336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219014167785645, "timer/agent.report_frac": 0.000740147512982271, "timer/agent.report_avg": 0.22219014167785645, "timer/agent.report_min": 0.22219014167785645, "timer/agent.report_max": 0.22219014167785645, "fps": 4.810095687768806}
+{"step": 759789, "episode/length": 229.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06521739130434782}
+{"step": 759850, "episode/length": 60.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.11475409836065574}
+{"step": 760110, "episode/length": 259.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.046153846153846156}
+{"step": 760377, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04868913857677903}
+{"step": 760617, "episode/length": 239.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05416666666666667}
+{"step": 760833, "episode/length": 215.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07407407407407407}
+{"step": 760949, "episode/length": 115.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.08620689655172414}
+{"step": 761184, "episode/length": 234.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05531914893617021}
+{"step": 761185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.443675726232394, "train/action_min": 0.0, "train/action_std": 3.2684348771269893, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039846691683354515, "train/actor_opt_grad_steps": 379690.0, "train/actor_opt_loss": -10.87476465315886, "train/adv_mag": 0.3801764186838983, "train/adv_max": 0.33900544760932383, "train/adv_mean": 0.002263154171801098, "train/adv_min": -0.3347891883950838, "train/adv_std": 0.04510047271008223, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 4.7225860565507465e-06, "train/cont_loss_std": 0.0001445734707552149, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.269675605930388e-05, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 4.612249913999593e-06, "train/cont_pred": 0.9948655249367298, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 5.456684938618834, "train/dyn_loss_std": 8.785289858428525, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9652255899469617, "train/extr_critic_critic_opt_grad_steps": 379690.0, "train/extr_critic_critic_opt_loss": 15736.122482944542, "train/extr_critic_mag": 11.404003425383232, "train/extr_critic_max": 11.404003425383232, "train/extr_critic_mean": 3.335369778351045, "train/extr_critic_min": -0.4323036183773632, "train/extr_critic_std": 2.7435946397378412, "train/extr_return_normed_mag": 1.4035232117478276, "train/extr_return_normed_max": 1.4035232117478276, "train/extr_return_normed_mean": 0.3897133448594053, "train/extr_return_normed_min": -0.08358006449547452, "train/extr_return_normed_std": 0.31496990650472506, "train/extr_return_rate": 0.831562725590988, "train/extr_return_raw_mag": 12.283335645433883, "train/extr_return_raw_max": 12.283335645433883, "train/extr_return_raw_mean": 3.355294684289207, "train/extr_return_raw_min": -0.8120358309275667, "train/extr_return_raw_std": 2.773667741829241, "train/extr_reward_mag": 1.0623014208296655, "train/extr_reward_max": 1.0623014208296655, "train/extr_reward_mean": 0.0581035944042911, "train/extr_reward_min": -0.6281431141033978, "train/extr_reward_std": 0.23134450194701342, "train/image_loss_mean": 3.1226569632409324, "train/image_loss_std": 7.931947325316953, "train/model_loss_mean": 6.452704993771835, "train/model_loss_std": 12.08960534485293, "train/model_opt_grad_norm": 26.917164883143464, "train/model_opt_grad_steps": 379383.6056338028, "train/model_opt_loss": 12919.0165946853, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2007.0422535211267, "train/policy_entropy_mag": 2.6995759077475103, "train/policy_entropy_max": 2.6995759077475103, "train/policy_entropy_mean": 0.41034465566487377, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6106992267387014, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4106436627851406, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.036592532211626, "train/policy_randomness_mag": 0.9528318274189049, "train/policy_randomness_max": 0.9528318274189049, "train/policy_randomness_mean": 0.14483365636896078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21555002957162722, "train/post_ent_mag": 55.437887863374094, "train/post_ent_max": 55.437887863374094, "train/post_ent_mean": 40.61968462232133, "train/post_ent_min": 19.483090521584096, "train/post_ent_std": 5.69672321265852, "train/prior_ent_mag": 76.84428867823641, "train/prior_ent_max": 76.84428867823641, "train/prior_ent_mean": 46.10407488111039, "train/prior_ent_min": 28.437565655775472, "train/prior_ent_std": 7.6349333507913935, "train/rep_loss_mean": 5.456684938618834, "train/rep_loss_std": 8.785289858428525, "train/reward_avg": 0.039715833961963654, "train/reward_loss_mean": 0.05603242298247109, "train/reward_loss_std": 0.2155978952495145, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0206384927454129, "train/reward_neg_acc": 0.9935489322098208, "train/reward_neg_loss": 0.024654526552054246, "train/reward_pos_acc": 0.9884427231802068, "train/reward_pos_loss": 0.7299170771115263, "train/reward_pred": 0.0394907364175773, "train/reward_rate": 0.04449548855633803, "stats/sum_log_reward": 11.475000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3334836792200804, "replay/size": 761122.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4126811706801226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3515710494414035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.35421323776245, "timer/env.step_count": 1418.0, "timer/env.step_total": 23.378352880477905, "timer/env.step_frac": 0.07757765398167124, "timer/env.step_avg": 0.01648684970414521, "timer/env.step_min": 0.0031075477600097656, "timer/env.step_max": 1.787485122680664, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.24413776397705078, "timer/replay.add_frac": 0.0008101355589292225, "timer/replay.add_avg": 0.0001721704964577227, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009140968322753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02243804931640625, "timer/logger.write_frac": 7.445739376042198e-05, "timer/logger.write_avg": 0.02243804931640625, "timer/logger.write_min": 0.02243804931640625, "timer/logger.write_max": 0.02243804931640625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024962425231933594, "timer/checkpoint.save_frac": 8.283416702138071e-07, "timer/checkpoint.save_avg": 0.00024962425231933594, "timer/checkpoint.save_min": 0.00024962425231933594, "timer/checkpoint.save_max": 0.00024962425231933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4268653392791748, "timer/agent.save_frac": 0.004734844500592419, "timer/agent.save_avg": 1.4268653392791748, "timer/agent.save_min": 1.4268653392791748, "timer/agent.save_max": 1.4268653392791748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.492145426144692e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.501700639724731, "timer/agent.policy_frac": 0.04148507002907286, "timer/agent.policy_avg": 0.008816432044939867, "timer/agent.policy_min": 0.0059566497802734375, "timer/agent.policy_max": 1.4185447692871094, "timer/dataset_count": 709.0, "timer/dataset_total": 0.05708479881286621, "timer/dataset_frac": 0.00018942757826261896, "timer/dataset_avg": 8.05145258291484e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.4856722354889, "timer/agent.train_frac": 0.8776571244644089, "timer/agent.train_avg": 0.37304044038855977, "timer/agent.train_min": 0.3656880855560303, "timer/agent.train_max": 0.903005838394165, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216806411743164, "timer/agent.report_frac": 0.0007356148725865492, "timer/agent.report_avg": 0.2216806411743164, "timer/agent.report_min": 0.2216806411743164, "timer/agent.report_max": 0.2216806411743164, "fps": 4.705322120984907}
+{"step": 761412, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06140350877192982}
+{"step": 761671, "episode/length": 258.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05405405405405406}
+{"step": 761835, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
+{"step": 762026, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07329842931937172}
+{"step": 762271, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04897959183673469}
+{"step": 762484, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
+{"step": 762635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405515034993489, "train/action_min": 0.0, "train/action_std": 3.262102332380083, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040947923022839755, "train/actor_opt_grad_steps": 380405.0, "train/actor_opt_loss": -11.882061778671211, "train/adv_mag": 0.4189652092754841, "train/adv_max": 0.3617780626648002, "train/adv_mean": 0.0026493957780328653, "train/adv_min": -0.36139618750247693, "train/adv_std": 0.046048661331749625, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 7.40685247318456e-06, "train/cont_loss_std": 0.00017797555413463014, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.369560253465654e-05, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 6.732230153794205e-06, "train/cont_pred": 0.9948267307546403, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.462104903327094, "train/dyn_loss_std": 8.849677165349325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.000539530482557, "train/extr_critic_critic_opt_grad_steps": 380405.0, "train/extr_critic_critic_opt_loss": 15940.686930338541, "train/extr_critic_mag": 11.529366970062256, "train/extr_critic_max": 11.529366970062256, "train/extr_critic_mean": 3.325579242573844, "train/extr_critic_min": -0.45894521640406716, "train/extr_critic_std": 2.7529896332157984, "train/extr_return_normed_mag": 1.4211293194029067, "train/extr_return_normed_max": 1.4211293194029067, "train/extr_return_normed_mean": 0.39241286739706993, "train/extr_return_normed_min": -0.0823876157713433, "train/extr_return_normed_std": 0.3173713052852286, "train/extr_return_rate": 0.8307445819179217, "train/extr_return_raw_mag": 12.380496157540215, "train/extr_return_raw_max": 12.380496157540215, "train/extr_return_raw_mean": 3.348829252852334, "train/extr_return_raw_min": -0.8194193860722913, "train/extr_return_raw_std": 2.7864601214726767, "train/extr_reward_mag": 1.0658220847447712, "train/extr_reward_max": 1.0658220847447712, "train/extr_reward_mean": 0.058747289391855397, "train/extr_reward_min": -0.6203735404544406, "train/extr_reward_std": 0.23406956613891655, "train/image_loss_mean": 3.2620399246613183, "train/image_loss_std": 8.594904753896925, "train/model_loss_mean": 6.594937152332729, "train/model_loss_std": 12.759770764244927, "train/model_opt_grad_norm": 25.484768364164566, "train/model_opt_grad_steps": 380098.0, "train/model_opt_loss": 8243.671481662326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6956790354516773, "train/policy_entropy_max": 2.6956790354516773, "train/policy_entropy_mean": 0.385439892195993, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5870047840807173, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3851196676906612, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.015508397585816, "train/policy_randomness_mag": 0.9514564043945737, "train/policy_randomness_max": 0.9514564043945737, "train/policy_randomness_mean": 0.13604336914916834, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2071869287432896, "train/post_ent_mag": 55.715146488613556, "train/post_ent_max": 55.715146488613556, "train/post_ent_mean": 40.522540940178764, "train/post_ent_min": 19.884385294384426, "train/post_ent_std": 5.751903242535061, "train/prior_ent_mag": 76.7093915939331, "train/prior_ent_max": 76.7093915939331, "train/prior_ent_mean": 46.008608129289414, "train/prior_ent_min": 28.146073473824394, "train/prior_ent_std": 7.695494095484416, "train/rep_loss_mean": 5.462104903327094, "train/rep_loss_std": 8.849677165349325, "train/reward_avg": 0.04059787324836685, "train/reward_loss_mean": 0.055626887258970074, "train/reward_loss_std": 0.21421139935652414, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0187640090783436, "train/reward_neg_acc": 0.9943359187907643, "train/reward_neg_loss": 0.023949335975986388, "train/reward_pos_acc": 0.9899642103248172, "train/reward_pos_loss": 0.7227876592013571, "train/reward_pred": 0.04031526325787935, "train/reward_rate": 0.045369466145833336, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 3.3333333333333335, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3153633822997411, "replay/size": 762572.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.5236621725148167e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446807861328124e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00048899650574, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.37471842765808, "timer/env.step_frac": 0.06124896159043294, "timer/env.step_avg": 0.012672219605281435, "timer/env.step_min": 0.0030159950256347656, "timer/env.step_max": 1.6506612300872803, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26650094985961914, "timer/replay.add_frac": 0.0008883350515562767, "timer/replay.add_avg": 0.00018379375852387527, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00267791748046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02371978759765625, "timer/logger.write_frac": 7.906582978247254e-05, "timer/logger.write_avg": 0.02371978759765625, "timer/logger.write_min": 0.02371978759765625, "timer/logger.write_max": 0.02371978759765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.876252889633179, "timer/agent.policy_frac": 0.03625411720498849, "timer/agent.policy_avg": 0.007500864061815985, "timer/agent.policy_min": 0.0059773921966552734, "timer/agent.policy_max": 0.02752208709716797, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05895829200744629, "timer/dataset_frac": 0.00019652731968757892, "timer/dataset_avg": 8.132178207923625e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.73426508903503, "timer/agent.train_frac": 0.8991127514201378, "timer/agent.train_avg": 0.3720472621917725, "timer/agent.train_min": 0.36582517623901367, "timer/agent.train_max": 0.3834972381591797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060751914978027, "timer/agent.report_frac": 0.0007353571985422657, "timer/agent.report_avg": 0.22060751914978027, "timer/agent.report_min": 0.22060751914978027, "timer/agent.report_max": 0.22060751914978027, "fps": 4.833220358946167}
+{"step": 762669, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
+{"step": 762724, "episode/length": 54.0, "episode/score": 7.100000016391277, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.14545454545454545}
+{"step": 762975, "episode/length": 250.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.035856573705179286}
+{"step": 763156, "episode/length": 180.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.07734806629834254}
+{"step": 763326, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.058823529411764705}
+{"step": 763538, "episode/length": 211.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07075471698113207}
+{"step": 763599, "episode/length": 60.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.300000049173832, "episode/reward_rate": 0.13114754098360656}
+{"step": 763786, "episode/length": 186.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0748663101604278}
+{"step": 763991, "episode/length": 204.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.07804878048780488}
+{"step": 764065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474622938368055, "train/action_min": 0.0, "train/action_std": 3.3322233623928494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04037904607442518, "train/actor_opt_grad_steps": 381125.0, "train/actor_opt_loss": -12.63974411620034, "train/adv_mag": 0.4009996969252825, "train/adv_max": 0.3498064883881145, "train/adv_mean": 0.0015764617259416507, "train/adv_min": -0.3659659473018514, "train/adv_std": 0.04567069363676839, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 5.748631832089599e-05, "train/cont_loss_std": 0.0017871278080221487, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.016985703749744136, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 7.651759692035082e-06, "train/cont_pred": 0.9945536537302865, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.322570436530643, "train/dyn_loss_std": 8.802659981780582, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577345500389735, "train/extr_critic_critic_opt_grad_steps": 381125.0, "train/extr_critic_critic_opt_loss": 15759.848890516492, "train/extr_critic_mag": 11.642996788024902, "train/extr_critic_max": 11.642996788024902, "train/extr_critic_mean": 3.325447267956204, "train/extr_critic_min": -0.4730529404348797, "train/extr_critic_std": 2.8036094854275384, "train/extr_return_normed_mag": 1.4228269540601306, "train/extr_return_normed_max": 1.4228269540601306, "train/extr_return_normed_mean": 0.38781731244590545, "train/extr_return_normed_min": -0.08259597612130973, "train/extr_return_normed_std": 0.3206697814166546, "train/extr_return_rate": 0.8191361485256089, "train/extr_return_raw_mag": 12.475696696175469, "train/extr_return_raw_max": 12.475696696175469, "train/extr_return_raw_mean": 3.339345587624444, "train/extr_return_raw_min": -0.8119533227549659, "train/extr_return_raw_std": 2.830218416121271, "train/extr_reward_mag": 1.0659036835034688, "train/extr_reward_max": 1.0659036835034688, "train/extr_reward_mean": 0.05836328843401538, "train/extr_reward_min": -0.638718917965889, "train/extr_reward_std": 0.2339572064164612, "train/image_loss_mean": 3.1277301559845605, "train/image_loss_std": 8.194358792569902, "train/model_loss_mean": 6.377974947293599, "train/model_loss_std": 12.337354183197021, "train/model_opt_grad_norm": 25.42074375682407, "train/model_opt_grad_steps": 380818.0, "train/model_opt_loss": 15944.937377929688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.716092632876502, "train/policy_entropy_max": 2.716092632876502, "train/policy_entropy_mean": 0.4050659998837445, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6147617975042926, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40526407005058396, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.035675114227666, "train/policy_randomness_mag": 0.9586615107125707, "train/policy_randomness_max": 0.9586615107125707, "train/policy_randomness_mean": 0.14297052214129102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21698393817577097, "train/post_ent_mag": 55.548071967230904, "train/post_ent_max": 55.548071967230904, "train/post_ent_mean": 40.50638638602363, "train/post_ent_min": 19.47544370757209, "train/post_ent_std": 5.763274086846246, "train/prior_ent_mag": 76.73237980736627, "train/prior_ent_max": 76.73237980736627, "train/prior_ent_mean": 45.82502640618218, "train/prior_ent_min": 27.668739133410984, "train/prior_ent_std": 7.735113892290327, "train/rep_loss_mean": 5.322570436530643, "train/rep_loss_std": 8.802659981780582, "train/reward_avg": 0.040426974495251976, "train/reward_loss_mean": 0.05664502803443207, "train/reward_loss_std": 0.21571051039629513, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0227856073114607, "train/reward_neg_acc": 0.9946061993638674, "train/reward_neg_loss": 0.024900398967373703, "train/reward_pos_acc": 0.988775771525171, "train/reward_pos_loss": 0.7263226931293806, "train/reward_pred": 0.04013877152465284, "train/reward_rate": 0.045355902777777776, "stats/sum_log_reward": 10.766666730244955, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 10.555555555555555, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.28046344717343646, "replay/size": 764002.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.440396769063456e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345397709132908e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32001185417175, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.77482795715332, "timer/env.step_frac": 0.07583519931469714, "timer/env.step_avg": 0.015926453116890435, "timer/env.step_min": 0.002768993377685547, "timer/env.step_max": 1.698728084564209, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2546045780181885, "timer/replay.add_frac": 0.0008477775971246911, "timer/replay.add_avg": 0.00017804515945327865, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008525848388671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023435115814208984, "timer/logger.write_frac": 7.803381356280885e-05, "timer/logger.write_avg": 0.023435115814208984, "timer/logger.write_min": 0.023435115814208984, "timer/logger.write_max": 0.023435115814208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.513755798339844, "timer/agent.policy_frac": 0.035008508868350316, "timer/agent.policy_avg": 0.007352276782055835, "timer/agent.policy_min": 0.005957365036010742, "timer/agent.policy_max": 0.020958662033081055, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05780482292175293, "timer/dataset_frac": 0.00019247742621234835, "timer/dataset_avg": 8.084590618426984e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0283842086792, "timer/agent.train_frac": 0.885816374893646, "timer/agent.train_avg": 0.37206767022192894, "timer/agent.train_min": 0.3661017417907715, "timer/agent.train_max": 0.384458065032959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22458338737487793, "timer/agent.report_frac": 0.0007478135938670989, "timer/agent.report_avg": 0.22458338737487793, "timer/agent.report_min": 0.22458338737487793, "timer/agent.report_max": 0.22458338737487793, "fps": 4.761483628911865}
+{"step": 764267, "episode/length": 275.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.050724637681159424}
+{"step": 764449, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 764668, "episode/length": 218.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.0639269406392694}
+{"step": 764869, "episode/length": 200.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06965174129353234}
+{"step": 765068, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06532663316582915}
+{"step": 765425, "episode/length": 356.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.028011204481792718}
+{"step": 765495, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383158938985475, "train/action_min": 0.0, "train/action_std": 3.224060501850827, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039974910377616614, "train/actor_opt_grad_steps": 381840.0, "train/actor_opt_loss": -12.035283348929713, "train/adv_mag": 0.3934302481127457, "train/adv_max": 0.34179363704063526, "train/adv_mean": 0.002174193487853315, "train/adv_min": -0.3473429264317096, "train/adv_std": 0.04496504954049285, "train/cont_avg": 0.9948971170774648, "train/cont_loss_mean": 1.1857604529812845e-05, "train/cont_loss_std": 0.0003079048206694859, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009117672209640659, "train/cont_pos_acc": 0.9999999764939429, "train/cont_pos_loss": 6.671017966712972e-06, "train/cont_pred": 0.9948950107668487, "train/cont_rate": 0.9948971170774648, "train/dyn_loss_mean": 5.239329942515199, "train/dyn_loss_std": 8.79160891116505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9907625006957793, "train/extr_critic_critic_opt_grad_steps": 381840.0, "train/extr_critic_critic_opt_loss": 15812.775473151409, "train/extr_critic_mag": 11.548827466830401, "train/extr_critic_max": 11.548827466830401, "train/extr_critic_mean": 3.3399124917849687, "train/extr_critic_min": -0.4117347472150561, "train/extr_critic_std": 2.7792494666408487, "train/extr_return_normed_mag": 1.4197958372008632, "train/extr_return_normed_max": 1.4197958372008632, "train/extr_return_normed_mean": 0.389951969746133, "train/extr_return_normed_min": -0.0749826696766934, "train/extr_return_normed_std": 0.3181906436950388, "train/extr_return_rate": 0.8297012985592157, "train/extr_return_raw_mag": 12.4605067750098, "train/extr_return_raw_max": 12.4605067750098, "train/extr_return_raw_mean": 3.3591280554381893, "train/extr_return_raw_min": -0.7498070249255274, "train/extr_return_raw_std": 2.812223966692535, "train/extr_reward_mag": 1.0733595230209996, "train/extr_reward_max": 1.0733595230209996, "train/extr_reward_mean": 0.06013571722826488, "train/extr_reward_min": -0.6413809447221352, "train/extr_reward_std": 0.23600067408152028, "train/image_loss_mean": 3.0104721633481306, "train/image_loss_std": 8.187620948737775, "train/model_loss_mean": 6.2105753321043204, "train/model_loss_std": 12.333761282370125, "train/model_opt_grad_norm": 25.64102206431644, "train/model_opt_grad_steps": 381532.3943661972, "train/model_opt_loss": 15526.438339018487, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7024188948349215, "train/policy_entropy_max": 2.7024188948349215, "train/policy_entropy_mean": 0.38918660434199054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.593096373786389, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3894820679241503, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0207974658885473, "train/policy_randomness_mag": 0.9538352749717067, "train/policy_randomness_max": 0.9538352749717067, "train/policy_randomness_mean": 0.13736579189418066, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2093369926155453, "train/post_ent_mag": 55.62801629724637, "train/post_ent_max": 55.62801629724637, "train/post_ent_mean": 40.610906950185, "train/post_ent_min": 19.48083649218922, "train/post_ent_std": 5.787018514015306, "train/prior_ent_mag": 76.80597987645109, "train/prior_ent_max": 76.80597987645109, "train/prior_ent_mean": 45.848012682417746, "train/prior_ent_min": 27.899242401123047, "train/prior_ent_std": 7.705656629213145, "train/rep_loss_mean": 5.239329942515199, "train/rep_loss_std": 8.79160891116505, "train/reward_avg": 0.04146676944752394, "train/reward_loss_mean": 0.05649337728678341, "train/reward_loss_std": 0.21565924899678834, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0302279297734651, "train/reward_neg_acc": 0.9940346764846587, "train/reward_neg_loss": 0.024143010495938887, "train/reward_pos_acc": 0.9883553872645741, "train/reward_pos_loss": 0.7302954121374748, "train/reward_pred": 0.04105034837840309, "train/reward_rate": 0.0458709286971831, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4430710996190707, "replay/size": 765432.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.5994536393172258e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3717196204445578e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26467061042786, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.557573080062866, "timer/env.step_frac": 0.06180405121367077, "timer/env.step_avg": 0.012977323832211795, "timer/env.step_min": 0.002918720245361328, "timer/env.step_max": 1.616004467010498, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.29767608642578125, "timer/replay.add_frac": 0.0009913789918095123, "timer/replay.add_avg": 0.00020816509540264424, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.004055500030517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021287202835083008, "timer/logger.write_frac": 7.08947968863831e-05, "timer/logger.write_avg": 0.021287202835083008, "timer/logger.write_min": 0.021287202835083008, "timer/logger.write_max": 0.021287202835083008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004210472106933594, "timer/checkpoint.save_frac": 1.4022535846038255e-06, "timer/checkpoint.save_avg": 0.0004210472106933594, "timer/checkpoint.save_min": 0.0004210472106933594, "timer/checkpoint.save_max": 0.0004210472106933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1878857612609863, "timer/agent.save_frac": 0.003956128967307592, "timer/agent.save_avg": 1.1878857612609863, "timer/agent.save_min": 1.1878857612609863, "timer/agent.save_max": 1.1878857612609863, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2629800204535122e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.40364670753479, "timer/agent.policy_frac": 0.04796983500673811, "timer/agent.policy_avg": 0.010072480215059293, "timer/agent.policy_min": 0.005899667739868164, "timer/agent.policy_max": 2.5548853874206543, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05874896049499512, "timer/dataset_frac": 0.00019565725256841067, "timer/dataset_avg": 8.216637831467848e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.25581312179565, "timer/agent.train_frac": 0.8867370662705893, "timer/agent.train_avg": 0.372385752617896, "timer/agent.train_min": 0.36345791816711426, "timer/agent.train_max": 0.38613128662109375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22350144386291504, "timer/agent.report_frac": 0.00074434812263642, "timer/agent.report_avg": 0.22350144386291504, "timer/agent.report_min": 0.22350144386291504, "timer/agent.report_max": 0.22350144386291504, "fps": 4.76235752993488}
+{"step": 765673, "episode/length": 247.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04435483870967742}
+{"step": 765831, "episode/length": 157.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03164556962025317}
+{"step": 766026, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05641025641025641}
+{"step": 766241, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05581395348837209}
+{"step": 766535, "episode/length": 293.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.047619047619047616}
+{"step": 766709, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06321839080459771}
+{"step": 766935, "episode/length": 225.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07079646017699115}
+{"step": 766943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383522347228168, "train/action_min": 0.0, "train/action_std": 3.250398096972949, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040286929640051435, "train/actor_opt_grad_steps": 382560.0, "train/actor_opt_loss": -12.608996481111605, "train/adv_mag": 0.4137967596315358, "train/adv_max": 0.33899119741296113, "train/adv_mean": 0.002118532627096164, "train/adv_min": -0.3688964578386855, "train/adv_std": 0.0454533638509169, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 9.170354827995041e-05, "train/cont_loss_std": 0.00278487564852708, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.010880272642149153, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.3722993030927532e-05, "train/cont_pred": 0.9950300348948126, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.2951512402051115, "train/dyn_loss_std": 8.765245130617325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9709546206748649, "train/extr_critic_critic_opt_grad_steps": 382560.0, "train/extr_critic_critic_opt_loss": 15753.245157320205, "train/extr_critic_mag": 11.563451022317965, "train/extr_critic_max": 11.563451022317965, "train/extr_critic_mean": 3.3699219030876684, "train/extr_critic_min": -0.44459422483836136, "train/extr_critic_std": 2.7388941588467115, "train/extr_return_normed_mag": 1.4187451894969156, "train/extr_return_normed_max": 1.4187451894969156, "train/extr_return_normed_mean": 0.39681960213674256, "train/extr_return_normed_min": -0.085636011643769, "train/extr_return_normed_std": 0.31666464450424664, "train/extr_return_rate": 0.844657936324812, "train/extr_return_raw_mag": 12.320738465818641, "train/extr_return_raw_max": 12.320738465818641, "train/extr_return_raw_mean": 3.38843260072682, "train/extr_return_raw_min": -0.8292950726535222, "train/extr_return_raw_std": 2.7680470943450928, "train/extr_reward_mag": 1.0638318943650755, "train/extr_reward_max": 1.0638318943650755, "train/extr_reward_mean": 0.059281223389792116, "train/extr_reward_min": -0.6509255611733215, "train/extr_reward_std": 0.23475162337904107, "train/image_loss_mean": 3.0612904159990078, "train/image_loss_std": 7.960564502298015, "train/model_loss_mean": 6.293707534058453, "train/model_loss_std": 12.070166189376621, "train/model_opt_grad_norm": 25.697375297546387, "train/model_opt_grad_steps": 382251.79452054796, "train/model_opt_loss": 15933.375494970034, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7059485226461333, "train/policy_entropy_max": 2.7059485226461333, "train/policy_entropy_mean": 0.38005471107077926, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5803086231016132, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3801466567467337, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0127148669059962, "train/policy_randomness_mag": 0.9550810831866853, "train/policy_randomness_max": 0.9550810831866853, "train/policy_randomness_mean": 0.1341426374569331, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20482347905635834, "train/post_ent_mag": 55.322115231866704, "train/post_ent_max": 55.322115231866704, "train/post_ent_mean": 40.536115149929095, "train/post_ent_min": 19.695844807036934, "train/post_ent_std": 5.727156031621646, "train/prior_ent_mag": 76.76328497063624, "train/prior_ent_max": 76.76328497063624, "train/prior_ent_mean": 45.83679920353302, "train/prior_ent_min": 28.323083955947666, "train/prior_ent_std": 7.669511899556199, "train/rep_loss_mean": 5.2951512402051115, "train/rep_loss_std": 8.765245130617325, "train/reward_avg": 0.04088720000565869, "train/reward_loss_mean": 0.05523470957597641, "train/reward_loss_std": 0.21002900927034143, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0213527777423597, "train/reward_neg_acc": 0.9936654265612772, "train/reward_neg_loss": 0.023271667592431586, "train/reward_pos_acc": 0.9905099901434493, "train/reward_pos_loss": 0.7259613234702855, "train/reward_pred": 0.040520609088548244, "train/reward_rate": 0.04552386558219178, "stats/sum_log_reward": 10.385714599064418, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 6.142857142857143, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3683147813592638, "replay/size": 766880.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.5556969721672942e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3892245556109517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09956765174866, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.947999477386475, "timer/env.step_frac": 0.06313904290383628, "timer/env.step_avg": 0.01308563499819508, "timer/env.step_min": 0.002753734588623047, "timer/env.step_max": 1.672799825668335, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2724795341491699, "timer/replay.add_frac": 0.0009079637677631363, "timer/replay.add_avg": 0.00018817647385992398, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0036008358001708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022751808166503906, "timer/logger.write_frac": 7.581419841599472e-05, "timer/logger.write_avg": 0.022751808166503906, "timer/logger.write_min": 0.022751808166503906, "timer/logger.write_max": 0.022751808166503906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.873903274536133, "timer/agent.policy_frac": 0.03623431836181378, "timer/agent.policy_avg": 0.007509601708933793, "timer/agent.policy_min": 0.0058956146240234375, "timer/agent.policy_max": 0.019028902053833008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.060831308364868164, "timer/dataset_frac": 0.00020270375209423833, "timer/dataset_avg": 8.402114415037039e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.2398898601532, "timer/agent.train_frac": 0.8971685363192303, "timer/agent.train_avg": 0.3718783009118138, "timer/agent.train_min": 0.3631706237792969, "timer/agent.train_max": 0.3896176815032959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22382187843322754, "timer/agent.report_frac": 0.0007458253945002754, "timer/agent.report_avg": 0.22382187843322754, "timer/agent.report_min": 0.22382187843322754, "timer/agent.report_max": 0.22382187843322754, "fps": 4.824972580602789}
+{"step": 767125, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07368421052631578}
+{"step": 767326, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
+{"step": 767560, "episode/length": 233.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06837606837606838}
+{"step": 767943, "episode/length": 382.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0391644908616188}
+{"step": 768002, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.1016949152542373}
+{"step": 768222, "episode/length": 219.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05454545454545454}
+{"step": 768399, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354039858465326, "train/action_min": 0.0, "train/action_std": 3.2511949963765603, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04120609970533685, "train/actor_opt_grad_steps": 383290.0, "train/actor_opt_loss": -12.04126732480036, "train/adv_mag": 0.4109793795298224, "train/adv_max": 0.3444708144828065, "train/adv_mean": 0.002087206472200182, "train/adv_min": -0.37287633957928173, "train/adv_std": 0.04508441492711028, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 0.00023952827693270992, "train/cont_loss_std": 0.007591229986632841, "train/cont_neg_acc": 0.99041095906741, "train/cont_neg_loss": 0.05538900438693249, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.6909513183765912e-05, "train/cont_pred": 0.9946732896648042, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 5.341592814824352, "train/dyn_loss_std": 8.896223695310828, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.001558003360278, "train/extr_critic_critic_opt_grad_steps": 383290.0, "train/extr_critic_critic_opt_loss": 15819.596024186643, "train/extr_critic_mag": 11.494029789754789, "train/extr_critic_max": 11.494029789754789, "train/extr_critic_mean": 3.2937236420095783, "train/extr_critic_min": -0.4490178954111387, "train/extr_critic_std": 2.7246115926193863, "train/extr_return_normed_mag": 1.4240351507108506, "train/extr_return_normed_max": 1.4240351507108506, "train/extr_return_normed_mean": 0.3882015051498805, "train/extr_return_normed_min": -0.07961740888246935, "train/extr_return_normed_std": 0.3160295906948717, "train/extr_return_rate": 0.8305321090841946, "train/extr_return_raw_mag": 12.33292239986054, "train/extr_return_raw_max": 12.33292239986054, "train/extr_return_raw_mean": 3.3118742802371717, "train/extr_return_raw_min": -0.7628890578060934, "train/extr_return_raw_std": 2.7524675604415267, "train/extr_reward_mag": 1.0737802035188022, "train/extr_reward_max": 1.0737802035188022, "train/extr_reward_mean": 0.05692248947101913, "train/extr_reward_min": -0.603282240972127, "train/extr_reward_std": 0.2298462105123964, "train/image_loss_mean": 3.1870312184503633, "train/image_loss_std": 8.528410584959266, "train/model_loss_mean": 6.449964536379461, "train/model_loss_std": 12.686086288870197, "train/model_opt_grad_norm": 25.10913605885963, "train/model_opt_grad_steps": 382980.4931506849, "train/model_opt_loss": 11973.327255458047, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.6967745023230982, "train/policy_entropy_max": 2.6967745023230982, "train/policy_entropy_mean": 0.3862506326747267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5795461123120295, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38682738293523655, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0162376475660768, "train/policy_randomness_mag": 0.9518430543272463, "train/policy_randomness_max": 0.9518430543272463, "train/policy_randomness_mean": 0.13632952350459687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2045543452035891, "train/post_ent_mag": 55.11641175779578, "train/post_ent_max": 55.11641175779578, "train/post_ent_mean": 40.6670152847081, "train/post_ent_min": 19.56586831236539, "train/post_ent_std": 5.710127353668213, "train/prior_ent_mag": 76.72154664340084, "train/prior_ent_max": 76.72154664340084, "train/prior_ent_mean": 45.98324924625763, "train/prior_ent_min": 27.958525095900445, "train/prior_ent_std": 7.626043104145625, "train/rep_loss_mean": 5.341592814824352, "train/rep_loss_std": 8.896223695310828, "train/reward_avg": 0.03973806669859037, "train/reward_loss_mean": 0.05773811021896258, "train/reward_loss_std": 0.22458723064971298, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0308236389943999, "train/reward_neg_acc": 0.9935310940219931, "train/reward_neg_loss": 0.025737930841948073, "train/reward_pos_acc": 0.9845663088641755, "train/reward_pos_loss": 0.7444413002223185, "train/reward_pred": 0.0393002318499023, "train/reward_rate": 0.044426904965753425, "stats/sum_log_reward": 11.600000301996866, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.4057820240656535, "replay/size": 768336.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3920610344016944e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3251185089677244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01352429389954, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.461825847625732, "timer/env.step_frac": 0.05820346228965252, "timer/env.step_avg": 0.011993012257984706, "timer/env.step_min": 0.002808809280395508, "timer/env.step_max": 1.598060131072998, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2707796096801758, "timer/replay.add_frac": 0.0009025580107345908, "timer/replay.add_avg": 0.0001859750066484724, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0026268959045410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02804088592529297, "timer/logger.write_frac": 9.346540623889852e-05, "timer/logger.write_avg": 0.02804088592529297, "timer/logger.write_min": 0.02804088592529297, "timer/logger.write_max": 0.02804088592529297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.953856945037842, "timer/agent.policy_frac": 0.03651121052232037, "timer/agent.policy_avg": 0.007523253396317199, "timer/agent.policy_min": 0.005728006362915039, "timer/agent.policy_max": 0.02122640609741211, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06044721603393555, "timer/dataset_frac": 0.00020148163712353242, "timer/dataset_avg": 8.303189015650487e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.5675354003906, "timer/agent.train_frac": 0.9018511283355913, "timer/agent.train_avg": 0.37165870247306404, "timer/agent.train_min": 0.3635377883911133, "timer/agent.train_max": 0.38535547256469727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205798625946045, "timer/agent.report_frac": 0.0007352330636218914, "timer/agent.report_avg": 0.2205798625946045, "timer/agent.report_min": 0.2205798625946045, "timer/agent.report_max": 0.2205798625946045, "fps": 4.853036413980857}
+{"step": 768415, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
+{"step": 768612, "episode/length": 196.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07106598984771574}
+{"step": 768764, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06578947368421052}
+{"step": 769023, "episode/length": 258.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05791505791505792}
+{"step": 769126, "episode/length": 102.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.0970873786407767}
+{"step": 769434, "episode/length": 307.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03571428571428571}
+{"step": 769476, "episode/length": 41.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.11904761904761904}
+{"step": 769669, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07253886010362694}
+{"step": 769819, "stats/sum_log_reward": 10.350000321865082, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3228639354929328, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368323957416373, "train/action_min": 0.0, "train/action_std": 3.227274149236545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04030966087126396, "train/actor_opt_grad_steps": 384010.0, "train/actor_opt_loss": -12.99557603580851, "train/adv_mag": 0.41337618105848073, "train/adv_max": 0.362555829991757, "train/adv_mean": 0.0018752892406859835, "train/adv_min": -0.3557845259636221, "train/adv_std": 0.04522575138950012, "train/cont_avg": 0.9949108714788732, "train/cont_loss_mean": 7.002298347012751e-05, "train/cont_loss_std": 0.0021189551735710343, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001483340859483857, "train/cont_pos_acc": 0.9999861188337836, "train/cont_pos_loss": 6.607461215509547e-05, "train/cont_pred": 0.9948932503310728, "train/cont_rate": 0.9949108714788732, "train/dyn_loss_mean": 5.428162977729045, "train/dyn_loss_std": 8.951754751339765, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9737739252372527, "train/extr_critic_critic_opt_grad_steps": 384010.0, "train/extr_critic_critic_opt_loss": 15766.802555567781, "train/extr_critic_mag": 11.508143908540967, "train/extr_critic_max": 11.508143908540967, "train/extr_critic_mean": 3.352704729832394, "train/extr_critic_min": -0.4093158261876711, "train/extr_critic_std": 2.708742554758636, "train/extr_return_normed_mag": 1.4142860728250424, "train/extr_return_normed_max": 1.4142860728250424, "train/extr_return_normed_mean": 0.39288027563565214, "train/extr_return_normed_min": -0.0800095910442547, "train/extr_return_normed_std": 0.31408623616460346, "train/extr_return_rate": 0.8462909384512566, "train/extr_return_raw_mag": 12.268564519747882, "train/extr_return_raw_max": 12.268564519747882, "train/extr_return_raw_mean": 3.369060952898482, "train/extr_return_raw_min": -0.7509574159769945, "train/extr_return_raw_std": 2.7366449732176017, "train/extr_reward_mag": 1.0677636845011107, "train/extr_reward_max": 1.0677636845011107, "train/extr_reward_mean": 0.05725316488197152, "train/extr_reward_min": -0.6567061837290374, "train/extr_reward_std": 0.23055775043830065, "train/image_loss_mean": 3.1852255992486445, "train/image_loss_std": 8.697130505467804, "train/model_loss_mean": 6.498755743805791, "train/model_loss_std": 12.897445678710938, "train/model_opt_grad_norm": 24.557178551042583, "train/model_opt_grad_steps": 383700.0, "train/model_opt_loss": 8931.426427706867, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1390.8450704225352, "train/policy_entropy_mag": 2.7117232638345636, "train/policy_entropy_max": 2.7117232638345636, "train/policy_entropy_mean": 0.391669330672479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6026179496671112, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3920422893174937, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0246506946187623, "train/policy_randomness_mag": 0.9571193078873863, "train/policy_randomness_max": 0.9571193078873863, "train/policy_randomness_mean": 0.13824208647432462, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21269769064137634, "train/post_ent_mag": 55.3327085468131, "train/post_ent_max": 55.3327085468131, "train/post_ent_mean": 40.60520021680375, "train/post_ent_min": 19.443205403610015, "train/post_ent_std": 5.702920282390756, "train/prior_ent_mag": 76.76110431509959, "train/prior_ent_max": 76.76110431509959, "train/prior_ent_mean": 46.014294476576254, "train/prior_ent_min": 28.317819810249436, "train/prior_ent_std": 7.586616516113281, "train/rep_loss_mean": 5.428162977729045, "train/rep_loss_std": 8.951754751339765, "train/reward_avg": 0.04072265568333612, "train/reward_loss_mean": 0.05656234101510384, "train/reward_loss_std": 0.22471057613131026, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0236898778190076, "train/reward_neg_acc": 0.9936209253861871, "train/reward_neg_loss": 0.02439315335064287, "train/reward_pos_acc": 0.9867891820383744, "train/reward_pos_loss": 0.7373188700474483, "train/reward_pred": 0.040298202875214566, "train/reward_rate": 0.04512819102112676, "replay/size": 769756.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.443973165162852e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3470229968218737e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23080611228943, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.080303192138672, "timer/env.step_frac": 0.07354442896136518, "timer/env.step_avg": 0.015549509290238501, "timer/env.step_min": 0.0029315948486328125, "timer/env.step_max": 1.9751694202423096, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.27658557891845703, "timer/replay.add_frac": 0.0009212431678813505, "timer/replay.add_avg": 0.00019477857670313875, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.004690408706665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021845340728759766, "timer/logger.write_frac": 7.276182285101477e-05, "timer/logger.write_avg": 0.021845340728759766, "timer/logger.write_min": 0.021845340728759766, "timer/logger.write_max": 0.021845340728759766, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005052089691162109, "timer/checkpoint.save_frac": 1.6827352784286153e-06, "timer/checkpoint.save_avg": 0.0005052089691162109, "timer/checkpoint.save_min": 0.0005052089691162109, "timer/checkpoint.save_max": 0.0005052089691162109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2567164897918701, "timer/agent.save_frac": 0.004185834578620307, "timer/agent.save_avg": 1.2567164897918701, "timer/agent.save_min": 1.2567164897918701, "timer/agent.save_max": 1.2567164897918701, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.541176446895502e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.548531770706177, "timer/agent.policy_frac": 0.041796283110311125, "timer/agent.policy_avg": 0.00883699420472266, "timer/agent.policy_min": 0.005780696868896484, "timer/agent.policy_max": 1.254852533340454, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05959296226501465, "timer/dataset_frac": 0.000198490498149368, "timer/dataset_avg": 8.393374966903472e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001850128173828125, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.5765702724457, "timer/agent.train_frac": 0.8812439126366376, "timer/agent.train_avg": 0.37264305672175446, "timer/agent.train_min": 0.36508798599243164, "timer/agent.train_max": 0.9269907474517822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191071510314941, "timer/agent.report_frac": 0.0007391337284027826, "timer/agent.report_avg": 0.22191071510314941, "timer/agent.report_min": 0.22191071510314941, "timer/agent.report_max": 0.22191071510314941, "fps": 4.72963375132957}
+{"step": 769869, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07}
+{"step": 770079, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06190476190476191}
+{"step": 770241, "episode/length": 161.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06790123456790123}
+{"step": 770665, "episode/length": 423.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.0330188679245283}
+{"step": 770863, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05555555555555555}
+{"step": 771047, "episode/length": 183.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04891304347826087}
+{"step": 771269, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368694729275173, "train/action_min": 0.0, "train/action_std": 3.2386510769526162, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040558691757420696, "train/actor_opt_grad_steps": 384725.0, "train/actor_opt_loss": -10.992559658777383, "train/adv_mag": 0.41596679637829465, "train/adv_max": 0.3473985306918621, "train/adv_mean": 0.0028063350516984225, "train/adv_min": -0.385630505780379, "train/adv_std": 0.046039057015958756, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 0.00020323715215534813, "train/cont_loss_std": 0.00628475921506006, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.04212493470228335, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.9748921051387924e-05, "train/cont_pred": 0.9945487562153075, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 5.224348485469818, "train/dyn_loss_std": 8.746521042452919, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577822147144212, "train/extr_critic_critic_opt_grad_steps": 384725.0, "train/extr_critic_critic_opt_loss": 15580.280327690973, "train/extr_critic_mag": 11.563750240537855, "train/extr_critic_max": 11.563750240537855, "train/extr_critic_mean": 3.432050367196401, "train/extr_critic_min": -0.43334072166019016, "train/extr_critic_std": 2.8106220265229545, "train/extr_return_normed_mag": 1.4125919557280011, "train/extr_return_normed_max": 1.4125919557280011, "train/extr_return_normed_mean": 0.4008931931522157, "train/extr_return_normed_min": -0.081698351746632, "train/extr_return_normed_std": 0.3249533221953445, "train/extr_return_rate": 0.8345712605449889, "train/extr_return_raw_mag": 12.3015280034807, "train/extr_return_raw_max": 12.3015280034807, "train/extr_return_raw_mean": 3.456599725617303, "train/extr_return_raw_min": -0.7623016941878531, "train/extr_return_raw_std": 2.841087814834383, "train/extr_reward_mag": 1.0747994118266635, "train/extr_reward_max": 1.0747994118266635, "train/extr_reward_mean": 0.06030944765855869, "train/extr_reward_min": -0.6338948789570067, "train/extr_reward_std": 0.23672974358002344, "train/image_loss_mean": 3.0798692405223846, "train/image_loss_std": 8.303902566432953, "train/model_loss_mean": 6.270283877849579, "train/model_loss_std": 12.410819490750631, "train/model_opt_grad_norm": 23.16378076871236, "train/model_opt_grad_steps": 384415.0, "train/model_opt_loss": 15675.709716796875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7231691479682922, "train/policy_entropy_max": 2.7231691479682922, "train/policy_entropy_mean": 0.4074398631023036, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6121170185506344, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40796713448233074, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0360743121968374, "train/policy_randomness_mag": 0.9611592027876112, "train/policy_randomness_max": 0.9611592027876112, "train/policy_randomness_mean": 0.14380839177303845, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21605044344647062, "train/post_ent_mag": 55.253587351904976, "train/post_ent_max": 55.253587351904976, "train/post_ent_mean": 40.63638920254178, "train/post_ent_min": 19.504734847280716, "train/post_ent_std": 5.74283852842119, "train/prior_ent_mag": 76.65530014038086, "train/prior_ent_max": 76.65530014038086, "train/prior_ent_mean": 45.90320422914293, "train/prior_ent_min": 27.842164834340412, "train/prior_ent_std": 7.686475773652394, "train/rep_loss_mean": 5.224348485469818, "train/rep_loss_std": 8.746521042452919, "train/reward_avg": 0.04121907533974283, "train/reward_loss_mean": 0.05560232398824559, "train/reward_loss_std": 0.20623871704770458, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0309246016873255, "train/reward_neg_acc": 0.9937136578891013, "train/reward_neg_loss": 0.023690744975788727, "train/reward_pos_acc": 0.9917304921481345, "train/reward_pos_loss": 0.7181703141993947, "train/reward_pred": 0.04088840149860415, "train/reward_rate": 0.04599338107638889, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44916990647713345, "replay/size": 771206.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.5313902230098328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3462839455440127e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1377604007721, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.228086948394775, "timer/env.step_frac": 0.06073240142811395, "timer/env.step_avg": 0.01257109444716881, "timer/env.step_min": 0.0028290748596191406, "timer/env.step_max": 1.6700317859649658, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27068042755126953, "timer/replay.add_frac": 0.000901853959294664, "timer/replay.add_avg": 0.00018667615693191003, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0034830570220947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02078557014465332, "timer/logger.write_frac": 6.925343254676945e-05, "timer/logger.write_avg": 0.02078557014465332, "timer/logger.write_min": 0.02078557014465332, "timer/logger.write_max": 0.02078557014465332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.841926574707031, "timer/agent.policy_frac": 0.036123167442276755, "timer/agent.policy_avg": 0.007477190741177263, "timer/agent.policy_min": 0.00586700439453125, "timer/agent.policy_max": 0.02319788932800293, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059731483459472656, "timer/dataset_frac": 0.00019901355757340756, "timer/dataset_avg": 8.238825304754849e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0447292327881, "timer/agent.train_frac": 0.8997359374981643, "timer/agent.train_avg": 0.37247548859694907, "timer/agent.train_min": 0.36516308784484863, "timer/agent.train_max": 0.38838934898376465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22427916526794434, "timer/agent.report_frac": 0.0007472540774891695, "timer/agent.report_avg": 0.22427916526794434, "timer/agent.report_min": 0.22427916526794434, "timer/agent.report_max": 0.22427916526794434, "fps": 4.8310101590520445}
+{"step": 771282, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.059574468085106386}
+{"step": 771483, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05970149253731343}
+{"step": 771669, "episode/length": 185.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06989247311827956}
+{"step": 771822, "episode/length": 152.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06535947712418301}
+{"step": 772027, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
+{"step": 772307, "episode/length": 279.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04285714285714286}
+{"step": 772456, "episode/length": 148.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0738255033557047}
+{"step": 772651, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05641025641025641}
+{"step": 772705, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3246654934353295, "train/action_min": 0.0, "train/action_std": 3.212112973133723, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03944184175795979, "train/actor_opt_grad_steps": 385445.0, "train/actor_opt_loss": -12.789482581946585, "train/adv_mag": 0.4097480836013953, "train/adv_max": 0.37040597200393677, "train/adv_mean": 0.001907566153325509, "train/adv_min": -0.3501162942912843, "train/adv_std": 0.04476736387651828, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 1.0451799310670947e-05, "train/cont_loss_std": 0.00024707613647478865, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.637256147243534e-05, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0038625536563157e-05, "train/cont_pred": 0.9951082244515419, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.36435882250468, "train/dyn_loss_std": 8.848524431387583, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9594746819800801, "train/extr_critic_critic_opt_grad_steps": 385445.0, "train/extr_critic_critic_opt_loss": 15608.079074435764, "train/extr_critic_mag": 11.40432216061486, "train/extr_critic_max": 11.40432216061486, "train/extr_critic_mean": 3.394427571031782, "train/extr_critic_min": -0.44177379045221543, "train/extr_critic_std": 2.7220113939709134, "train/extr_return_normed_mag": 1.3949376857943006, "train/extr_return_normed_max": 1.3949376857943006, "train/extr_return_normed_mean": 0.39264507467548054, "train/extr_return_normed_min": -0.07996904948312375, "train/extr_return_normed_std": 0.3132838412291474, "train/extr_return_rate": 0.8436379184325536, "train/extr_return_raw_mag": 12.212729096412659, "train/extr_return_raw_max": 12.212729096412659, "train/extr_return_raw_mean": 3.4111790160338082, "train/extr_return_raw_min": -0.7400364528099695, "train/extr_return_raw_std": 2.7516369190480976, "train/extr_reward_mag": 1.0677061445183225, "train/extr_reward_max": 1.0677061445183225, "train/extr_reward_mean": 0.05790275050741103, "train/extr_reward_min": -0.59888466530376, "train/extr_reward_std": 0.23151276426182854, "train/image_loss_mean": 3.234777844614453, "train/image_loss_std": 8.350655105378893, "train/model_loss_mean": 6.506871680418651, "train/model_loss_std": 12.513390117221409, "train/model_opt_grad_norm": 25.380249089664883, "train/model_opt_grad_steps": 385134.2916666667, "train/model_opt_loss": 16267.179253472223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7300478418668113, "train/policy_entropy_max": 2.7300478418668113, "train/policy_entropy_mean": 0.3862781595024798, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864025780724155, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38512489861912197, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.014784752494759, "train/policy_randomness_mag": 0.9635870787832472, "train/policy_randomness_max": 0.9635870787832472, "train/policy_randomness_mean": 0.13633924091441763, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20697437578605282, "train/post_ent_mag": 55.450789822472466, "train/post_ent_max": 55.450789822472466, "train/post_ent_mean": 40.70433208677504, "train/post_ent_min": 19.25882091787126, "train/post_ent_std": 5.7529588672849865, "train/prior_ent_mag": 76.79453955756293, "train/prior_ent_max": 76.79453955756293, "train/prior_ent_mean": 46.03441990746392, "train/prior_ent_min": 28.168198320600723, "train/prior_ent_std": 7.697778065999349, "train/rep_loss_mean": 5.36435882250468, "train/rep_loss_std": 8.848524431387583, "train/reward_avg": 0.03826497376172079, "train/reward_loss_mean": 0.0534680989674396, "train/reward_loss_std": 0.2102814863125483, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0281164315011766, "train/reward_neg_acc": 0.9938441299729877, "train/reward_neg_loss": 0.023067976024726197, "train/reward_pos_acc": 0.9883343204855919, "train/reward_pos_loss": 0.7370684618751208, "train/reward_pred": 0.037911275789762534, "train/reward_rate": 0.04271104600694445, "stats/sum_log_reward": 10.725000023841858, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 14.75, "stats/max_log_achievement_collect_wood": 10.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3221157677471638, "replay/size": 772642.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.457899545228581e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3422667150045836e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19215726852417, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.989083528518677, "timer/env.step_frac": 0.06991882705897537, "timer/env.step_avg": 0.01461635343211607, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.645106315612793, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26303911209106445, "timer/replay.add_frac": 0.0008762357900502176, "timer/replay.add_avg": 0.0001831748691441953, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.00639653205871582, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023438215255737305, "timer/logger.write_frac": 7.807737373622204e-05, "timer/logger.write_avg": 0.023438215255737305, "timer/logger.write_min": 0.023438215255737305, "timer/logger.write_max": 0.023438215255737305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.726958274841309, "timer/agent.policy_frac": 0.03573363932104982, "timer/agent.policy_avg": 0.007470026653789212, "timer/agent.policy_min": 0.005664348602294922, "timer/agent.policy_max": 0.028859376907348633, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05832934379577637, "timer/dataset_frac": 0.0001943066878446139, "timer/dataset_avg": 8.123864038408965e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.4541997909546, "timer/agent.train_frac": 0.8909433285151243, "timer/agent.train_avg": 0.37249888550272225, "timer/agent.train_min": 0.3651115894317627, "timer/agent.train_max": 0.38532543182373047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22326397895812988, "timer/agent.report_frac": 0.0007437368817014714, "timer/agent.report_avg": 0.22326397895812988, "timer/agent.report_min": 0.22326397895812988, "timer/agent.report_max": 0.22326397895812988, "fps": 4.783507294437759}
+{"step": 772895, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.90000006556511, "episode/reward_rate": 0.06147540983606557}
+{"step": 773125, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05652173913043478}
+{"step": 773366, "episode/length": 240.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.06639004149377593}
+{"step": 773547, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0718232044198895}
+{"step": 773799, "episode/length": 251.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.051587301587301584}
+{"step": 774145, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444636874728733, "train/action_min": 0.0, "train/action_std": 3.331822236378988, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039461854819415346, "train/actor_opt_grad_steps": 386165.0, "train/actor_opt_loss": -11.80575100911988, "train/adv_mag": 0.3891361591716607, "train/adv_max": 0.3318444627026717, "train/adv_mean": 0.0019644977838248045, "train/adv_min": -0.34181397532423335, "train/adv_std": 0.04400119837373495, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 4.415149902333345e-05, "train/cont_loss_std": 0.001211580095214357, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.004877242518656639, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.9559633424235142e-05, "train/cont_pred": 0.9948308062222269, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.373066948519813, "train/dyn_loss_std": 8.821670525603825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.947597367895974, "train/extr_critic_critic_opt_grad_steps": 386165.0, "train/extr_critic_critic_opt_loss": 15545.413696289062, "train/extr_critic_mag": 11.457666516304016, "train/extr_critic_max": 11.457666516304016, "train/extr_critic_mean": 3.3563491470283933, "train/extr_critic_min": -0.418943175011211, "train/extr_critic_std": 2.8033710486359067, "train/extr_return_normed_mag": 1.395292924510108, "train/extr_return_normed_max": 1.395292924510108, "train/extr_return_normed_mean": 0.38907086186938816, "train/extr_return_normed_min": -0.0819871363023089, "train/extr_return_normed_std": 0.323523811582062, "train/extr_return_rate": 0.8273817698160807, "train/extr_return_raw_mag": 12.178034636709425, "train/extr_return_raw_max": 12.178034636709425, "train/extr_return_raw_mean": 3.37354506055514, "train/extr_return_raw_min": -0.7476470515959792, "train/extr_return_raw_std": 2.8306918342908225, "train/extr_reward_mag": 1.066435883442561, "train/extr_reward_max": 1.066435883442561, "train/extr_reward_mean": 0.0565811648654441, "train/extr_reward_min": -0.6316375152932273, "train/extr_reward_std": 0.23001786900891197, "train/image_loss_mean": 3.2440400570631027, "train/image_loss_std": 7.95259608162774, "train/model_loss_mean": 6.522071229086982, "train/model_loss_std": 12.091115262773302, "train/model_opt_grad_norm": 24.41558796251324, "train/model_opt_grad_steps": 385853.7083333333, "train/model_opt_loss": 16923.495646158855, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.7399653957949743, "train/policy_entropy_max": 2.7399653957949743, "train/policy_entropy_mean": 0.42110774252149796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6328735926912891, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4205234307381842, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0466408795780606, "train/policy_randomness_mag": 0.9670875469843546, "train/policy_randomness_max": 0.9670875469843546, "train/policy_randomness_mean": 0.1486325521642963, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22337660607364443, "train/post_ent_mag": 55.607835398779976, "train/post_ent_max": 55.607835398779976, "train/post_ent_mean": 40.71435568067763, "train/post_ent_min": 19.464526798990036, "train/post_ent_std": 5.779160850577885, "train/prior_ent_mag": 76.81361219618056, "train/prior_ent_max": 76.81361219618056, "train/prior_ent_mean": 46.05610471301608, "train/prior_ent_min": 28.256741762161255, "train/prior_ent_std": 7.752642479207781, "train/rep_loss_mean": 5.373066948519813, "train/rep_loss_std": 8.821670525603825, "train/reward_avg": 0.03895670584299498, "train/reward_loss_mean": 0.05414694299300512, "train/reward_loss_std": 0.20234199033843148, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0199318180481594, "train/reward_neg_acc": 0.994001203113132, "train/reward_neg_loss": 0.023873291741539206, "train/reward_pos_acc": 0.9914049564136399, "train/reward_pos_loss": 0.7155153743094869, "train/reward_pred": 0.03888086322695017, "train/reward_rate": 0.04368760850694445, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 2.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.4, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.37360828518867495, "replay/size": 774082.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.516011767917209e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.294993691974216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13844180107117, "timer/env.step_count": 1440.0, "timer/env.step_total": 16.061561822891235, "timer/env.step_frac": 0.05351384423304457, "timer/env.step_avg": 0.011153862377007802, "timer/env.step_min": 0.0027709007263183594, "timer/env.step_max": 1.6427087783813477, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27449607849121094, "timer/replay.add_frac": 0.0009145648816060166, "timer/replay.add_avg": 0.0001906222767300076, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0026345252990722656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023247480392456055, "timer/logger.write_frac": 7.745585754677923e-05, "timer/logger.write_avg": 0.023247480392456055, "timer/logger.write_min": 0.023247480392456055, "timer/logger.write_max": 0.023247480392456055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023436546325683594, "timer/checkpoint.save_frac": 7.808578662914865e-07, "timer/checkpoint.save_avg": 0.00023436546325683594, "timer/checkpoint.save_min": 0.00023436546325683594, "timer/checkpoint.save_max": 0.00023436546325683594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.514554500579834, "timer/agent.save_frac": 0.005046186324854935, "timer/agent.save_avg": 1.514554500579834, "timer/agent.save_min": 1.514554500579834, "timer/agent.save_max": 1.514554500579834, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.867646894519091e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 15.20442247390747, "timer/agent.policy_frac": 0.05065803094954699, "timer/agent.policy_avg": 0.0105586267179913, "timer/agent.policy_min": 0.005711555480957031, "timer/agent.policy_max": 2.505725860595703, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06161689758300781, "timer/dataset_frac": 0.00020529492061482378, "timer/dataset_avg": 8.557902442084419e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.8348379135132, "timer/agent.train_frac": 0.8923709882222668, "timer/agent.train_avg": 0.37199283043543496, "timer/agent.train_min": 0.3652231693267822, "timer/agent.train_max": 0.44454216957092285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21857309341430664, "timer/agent.report_frac": 0.0007282409147681747, "timer/agent.report_avg": 0.21857309341430664, "timer/agent.report_min": 0.21857309341430664, "timer/agent.report_max": 0.21857309341430664, "fps": 4.797709757214571}
+{"step": 774149, "episode/length": 349.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.037142857142857144}
+{"step": 774353, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05392156862745098}
+{"step": 774578, "episode/length": 224.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.057777777777777775}
+{"step": 774708, "episode/length": 129.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.08461538461538462}
+{"step": 774911, "episode/length": 202.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06403940886699508}
+{"step": 775136, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06666666666666667}
+{"step": 775369, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.060085836909871244}
+{"step": 775573, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07352941176470588}
+{"step": 775583, "stats/sum_log_reward": 12.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 12.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.75, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3721086122095585, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418719821506077, "train/action_min": 0.0, "train/action_std": 3.2497649821970196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03972142443267836, "train/actor_opt_grad_steps": 386885.0, "train/actor_opt_loss": -12.600421069603827, "train/adv_mag": 0.4091408389310042, "train/adv_max": 0.35878223677476245, "train/adv_mean": 0.0018316966049951589, "train/adv_min": -0.3621990368184116, "train/adv_std": 0.044846397203703724, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 5.0021274418949384e-05, "train/cont_loss_std": 0.0014764504937356075, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008323376914922341, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.102230115977312e-06, "train/cont_pred": 0.9947780817747116, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.2973981036080255, "train/dyn_loss_std": 8.796342604690128, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0126766338944435, "train/extr_critic_critic_opt_grad_steps": 386885.0, "train/extr_critic_critic_opt_loss": 15757.356689453125, "train/extr_critic_mag": 11.463559680514866, "train/extr_critic_max": 11.463559680514866, "train/extr_critic_mean": 3.341704318920771, "train/extr_critic_min": -0.3773075176609887, "train/extr_critic_std": 2.7401866945955486, "train/extr_return_normed_mag": 1.3953309307495754, "train/extr_return_normed_max": 1.3953309307495754, "train/extr_return_normed_mean": 0.38825840233928627, "train/extr_return_normed_min": -0.0741757749993768, "train/extr_return_normed_std": 0.31583781188560855, "train/extr_return_rate": 0.8339835148718622, "train/extr_return_raw_mag": 12.178560362921822, "train/extr_return_raw_max": 12.178560362921822, "train/extr_return_raw_mean": 3.3577611214584775, "train/extr_return_raw_min": -0.6925297247038947, "train/extr_return_raw_std": 2.7661429146925607, "train/extr_reward_mag": 1.0690133704079523, "train/extr_reward_max": 1.0690133704079523, "train/extr_reward_mean": 0.0587732565537509, "train/extr_reward_min": -0.610958993434906, "train/extr_reward_std": 0.2332357650415765, "train/image_loss_mean": 3.2353434794478946, "train/image_loss_std": 8.651147723197937, "train/model_loss_mean": 6.470077772935231, "train/model_loss_std": 12.735823101467556, "train/model_opt_grad_norm": 24.957594209247166, "train/model_opt_grad_steps": 386573.0, "train/model_opt_loss": 16175.19447157118, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696951859527164, "train/policy_entropy_max": 2.696951859527164, "train/policy_entropy_mean": 0.3888097759336233, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5943547793560557, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38961254950198865, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.022991467681196, "train/policy_randomness_mag": 0.9519056503971418, "train/policy_randomness_max": 0.9519056503971418, "train/policy_randomness_mean": 0.1372327914254533, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20978115354147223, "train/post_ent_mag": 55.28585073682997, "train/post_ent_max": 55.28585073682997, "train/post_ent_mean": 40.694546434614395, "train/post_ent_min": 20.008023103078205, "train/post_ent_std": 5.693164971139696, "train/prior_ent_mag": 76.77031093173557, "train/prior_ent_max": 76.77031093173557, "train/prior_ent_mean": 45.97420655356513, "train/prior_ent_min": 27.897300985124375, "train/prior_ent_std": 7.649420148796505, "train/rep_loss_mean": 5.2973981036080255, "train/rep_loss_std": 8.796342604690128, "train/reward_avg": 0.040222167593633965, "train/reward_loss_mean": 0.056245432494001255, "train/reward_loss_std": 0.2159747988399532, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0249529050456152, "train/reward_neg_acc": 0.9938919792572657, "train/reward_neg_loss": 0.024496577641305823, "train/reward_pos_acc": 0.9870697673824098, "train/reward_pos_loss": 0.7343115972148048, "train/reward_pred": 0.03991791528339187, "train/reward_rate": 0.04489474826388889, "replay/size": 775520.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.5033272436829036e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2495007070613006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08825731277466, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.52251648902893, "timer/env.step_frac": 0.06838826908058189, "timer/env.step_avg": 0.014271569185694666, "timer/env.step_min": 0.0027785301208496094, "timer/env.step_max": 1.684567928314209, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2771158218383789, "timer/replay.add_frac": 0.0009234477360756835, "timer/replay.add_avg": 0.0001927091946024888, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0047321319580078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029895782470703125, "timer/logger.write_frac": 9.962329995319838e-05, "timer/logger.write_avg": 0.029895782470703125, "timer/logger.write_min": 0.029895782470703125, "timer/logger.write_max": 0.029895782470703125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.087527513504028, "timer/agent.policy_frac": 0.03694755540516792, "timer/agent.policy_avg": 0.00771038074652575, "timer/agent.policy_min": 0.00570988655090332, "timer/agent.policy_max": 0.014246225357055664, "timer/dataset_count": 719.0, "timer/dataset_total": 0.061753273010253906, "timer/dataset_frac": 0.0002057837036451912, "timer/dataset_avg": 8.58877232409651e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001366138458251953, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4155435562134, "timer/agent.train_frac": 0.8911229847874144, "timer/agent.train_avg": 0.3719270424982105, "timer/agent.train_min": 0.36611127853393555, "timer/agent.train_max": 0.3865811824798584, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2209160327911377, "timer/agent.report_frac": 0.0007361702012914232, "timer/agent.report_avg": 0.2209160327911377, "timer/agent.report_min": 0.2209160327911377, "timer/agent.report_max": 0.2209160327911377, "fps": 4.791828419066142}
+{"step": 775761, "episode/length": 187.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.07446808510638298}
+{"step": 775947, "episode/length": 185.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08064516129032258}
+{"step": 776171, "episode/length": 223.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.05803571428571429}
+{"step": 776414, "episode/length": 242.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.69999998062849, "episode/reward_rate": 0.04938271604938271}
+{"step": 776656, "episode/length": 241.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05785123966942149}
+{"step": 776836, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
+{"step": 777006, "episode/length": 169.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047058823529411764}
+{"step": 777029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346911112467448, "train/action_min": 0.0, "train/action_std": 3.2633482350243463, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0406483660141627, "train/actor_opt_grad_steps": 387605.0, "train/actor_opt_loss": -10.583265090775159, "train/adv_mag": 0.39880337855882114, "train/adv_max": 0.3412580009963777, "train/adv_mean": 0.0028998836044896357, "train/adv_min": -0.35796889579958385, "train/adv_std": 0.04557873117220071, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 2.222320819574482e-05, "train/cont_loss_std": 0.000674406764323818, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00306893477511494, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.3840679283988115e-06, "train/cont_pred": 0.9944503580530485, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 5.485724111398061, "train/dyn_loss_std": 8.879930059115091, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9400732823544078, "train/extr_critic_critic_opt_grad_steps": 387605.0, "train/extr_critic_critic_opt_loss": 15773.624416775174, "train/extr_critic_mag": 11.541966252856785, "train/extr_critic_max": 11.541966252856785, "train/extr_critic_mean": 3.4555218087302313, "train/extr_critic_min": -0.3713136033879386, "train/extr_critic_std": 2.828825308216943, "train/extr_return_normed_mag": 1.4093644668658574, "train/extr_return_normed_max": 1.4093644668658574, "train/extr_return_normed_mean": 0.3998267654743459, "train/extr_return_normed_min": -0.07591312094074157, "train/extr_return_normed_std": 0.3248364244484239, "train/extr_return_rate": 0.8313784442014165, "train/extr_return_raw_mag": 12.358171568976509, "train/extr_return_raw_max": 12.358171568976509, "train/extr_return_raw_mean": 3.4810270733303494, "train/extr_return_raw_min": -0.7025128627816836, "train/extr_return_raw_std": 2.8564396500587463, "train/extr_reward_mag": 1.0725798242621951, "train/extr_reward_max": 1.0725798242621951, "train/extr_reward_mean": 0.06080154195013973, "train/extr_reward_min": -0.5885243763526281, "train/extr_reward_std": 0.23711681469447082, "train/image_loss_mean": 3.1793589707877903, "train/image_loss_std": 8.014508995744917, "train/model_loss_mean": 6.529318869113922, "train/model_loss_std": 12.197291625870598, "train/model_opt_grad_norm": 24.904248224364387, "train/model_opt_grad_steps": 387292.2361111111, "train/model_opt_loss": 18334.502143012152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.7132295535670385, "train/policy_entropy_max": 2.7132295535670385, "train/policy_entropy_mean": 0.3975914776739147, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6021715795828236, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39908799653251964, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.031005933880806, "train/policy_randomness_mag": 0.9576509628030989, "train/policy_randomness_max": 0.9576509628030989, "train/policy_randomness_mean": 0.14033234543684456, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2125401416172584, "train/post_ent_mag": 55.223265171051025, "train/post_ent_max": 55.223265171051025, "train/post_ent_mean": 40.3897434870402, "train/post_ent_min": 19.206693662537468, "train/post_ent_std": 5.762490550676982, "train/prior_ent_mag": 76.61398262447781, "train/prior_ent_max": 76.61398262447781, "train/prior_ent_mean": 45.8563699192471, "train/prior_ent_min": 27.79425687260098, "train/prior_ent_std": 7.717114037937588, "train/rep_loss_mean": 5.485724111398061, "train/rep_loss_std": 8.879930059115091, "train/reward_avg": 0.042720540090360574, "train/reward_loss_mean": 0.05850319269423684, "train/reward_loss_std": 0.2205617500262128, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0225637190871768, "train/reward_neg_acc": 0.9944555155105061, "train/reward_neg_loss": 0.024922930027565196, "train/reward_pos_acc": 0.9893476772639487, "train/reward_pos_loss": 0.7327253710892465, "train/reward_pred": 0.04204724493643476, "train/reward_rate": 0.047526041666666664, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2718532702752522, "replay/size": 776966.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5373666639314814e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.294587327896477e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2657060623169, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.159926652908325, "timer/env.step_frac": 0.06380990657964745, "timer/env.step_avg": 0.013250295057336324, "timer/env.step_min": 0.002856016159057617, "timer/env.step_max": 1.7946083545684814, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27746009826660156, "timer/replay.add_frac": 0.0009240485765264773, "timer/replay.add_avg": 0.0001918811191331961, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.004696369171142578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029363393783569336, "timer/logger.write_frac": 9.77913667486066e-05, "timer/logger.write_avg": 0.029363393783569336, "timer/logger.write_min": 0.029363393783569336, "timer/logger.write_max": 0.029363393783569336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.214720726013184, "timer/agent.policy_frac": 0.03734932261523628, "timer/agent.policy_avg": 0.0077556851493867105, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.017551660537719727, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06256628036499023, "timer/dataset_frac": 0.0002083697175594381, "timer/dataset_avg": 8.653704061547751e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8455328941345, "timer/agent.train_frac": 0.895358768804382, "timer/agent.train_avg": 0.37184721008870614, "timer/agent.train_min": 0.3654911518096924, "timer/agent.train_max": 0.38807177543640137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22224664688110352, "timer/agent.report_frac": 0.0007401666004274849, "timer/agent.report_avg": 0.22224664688110352, "timer/agent.report_min": 0.22224664688110352, "timer/agent.report_max": 0.22224664688110352, "fps": 4.81566064340517}
+{"step": 777171, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06666666666666667}
+{"step": 777447, "episode/length": 275.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05434782608695652}
+{"step": 777643, "episode/length": 195.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07653061224489796}
+{"step": 777846, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07389162561576355}
+{"step": 778085, "episode/length": 238.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.0502092050209205}
+{"step": 778338, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06324110671936758}
+{"step": 778463, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3862965901692705, "train/action_min": 0.0, "train/action_std": 3.252254499329461, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04029754727768401, "train/actor_opt_grad_steps": 388325.0, "train/actor_opt_loss": -11.40660554708706, "train/adv_mag": 0.4216153042183982, "train/adv_max": 0.35776590390337837, "train/adv_mean": 0.0023981262902958, "train/adv_min": -0.364217246365216, "train/adv_std": 0.04492696550571256, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 6.841589999595499e-05, "train/cont_loss_std": 0.002069867898924037, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.007549892677616299, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.2009637642683578e-05, "train/cont_pred": 0.9945812341239717, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.429168356789483, "train/dyn_loss_std": 8.87793270084593, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9853246808052063, "train/extr_critic_critic_opt_grad_steps": 388325.0, "train/extr_critic_critic_opt_loss": 15692.72174750434, "train/extr_critic_mag": 11.606784582138062, "train/extr_critic_max": 11.606784582138062, "train/extr_critic_mean": 3.534270270003213, "train/extr_critic_min": -0.3929603447516759, "train/extr_critic_std": 2.844872878657447, "train/extr_return_normed_mag": 1.3993284106254578, "train/extr_return_normed_max": 1.3993284106254578, "train/extr_return_normed_mean": 0.40144453570246696, "train/extr_return_normed_min": -0.07980324576298396, "train/extr_return_normed_std": 0.3225906230509281, "train/extr_return_rate": 0.8379214116268687, "train/extr_return_raw_mag": 12.461912327342564, "train/extr_return_raw_max": 12.461912327342564, "train/extr_return_raw_mean": 3.555661767721176, "train/extr_return_raw_min": -0.739675261080265, "train/extr_return_raw_std": 2.8792463176780276, "train/extr_reward_mag": 1.0761838787131839, "train/extr_reward_max": 1.0761838787131839, "train/extr_reward_mean": 0.060313350365807615, "train/extr_reward_min": -0.6293397297461828, "train/extr_reward_std": 0.23672953806817532, "train/image_loss_mean": 3.105354285902447, "train/image_loss_std": 8.25880699687534, "train/model_loss_mean": 6.420076794094509, "train/model_loss_std": 12.45361159907447, "train/model_opt_grad_norm": 25.29868977599674, "train/model_opt_grad_steps": 388011.6388888889, "train/model_opt_loss": 16050.19196234809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.697639544804891, "train/policy_entropy_max": 2.697639544804891, "train/policy_entropy_mean": 0.3772015641960833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5656912504798837, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37690387583441204, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0080351307988167, "train/policy_randomness_mag": 0.952148377067513, "train/policy_randomness_max": 0.952148377067513, "train/policy_randomness_mean": 0.1331355987737576, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19966418720367882, "train/post_ent_mag": 55.47185542848375, "train/post_ent_max": 55.47185542848375, "train/post_ent_mean": 40.48599815368652, "train/post_ent_min": 19.339206126001145, "train/post_ent_std": 5.797194672955407, "train/prior_ent_mag": 76.6668872833252, "train/prior_ent_max": 76.6668872833252, "train/prior_ent_mean": 45.93196545706855, "train/prior_ent_min": 27.789991246329414, "train/prior_ent_std": 7.754785438378652, "train/rep_loss_mean": 5.429168356789483, "train/rep_loss_std": 8.87793270084593, "train/reward_avg": 0.04102240652880735, "train/reward_loss_mean": 0.057153046493315034, "train/reward_loss_std": 0.21675346067382228, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0262389249271817, "train/reward_neg_acc": 0.9935269802808762, "train/reward_neg_loss": 0.02520310811491476, "train/reward_pos_acc": 0.9899185556504462, "train/reward_pos_loss": 0.723787976635827, "train/reward_pred": 0.04082129856881996, "train/reward_rate": 0.045694986979166664, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3542511910200119, "replay/size": 778400.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.477020742504168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2730413234716013e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1169981956482, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.82356071472168, "timer/env.step_frac": 0.06272074167038842, "timer/env.step_avg": 0.0131266113770723, "timer/env.step_min": 0.002854585647583008, "timer/env.step_max": 1.8916983604431152, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.33084607124328613, "timer/replay.add_frac": 0.001102390311886318, "timer/replay.add_avg": 0.00023071553085305866, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.004683017730712891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025269746780395508, "timer/logger.write_frac": 8.419965191015937e-05, "timer/logger.write_avg": 0.025269746780395508, "timer/logger.write_min": 0.025269746780395508, "timer/logger.write_max": 0.025269746780395508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022029876708984375, "timer/checkpoint.save_frac": 7.340429512967125e-07, "timer/checkpoint.save_avg": 0.00022029876708984375, "timer/checkpoint.save_min": 0.00022029876708984375, "timer/checkpoint.save_max": 0.00022029876708984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2604308128356934, "timer/agent.save_frac": 0.004199798146768116, "timer/agent.save_avg": 1.2604308128356934, "timer/agent.save_min": 1.2604308128356934, "timer/agent.save_max": 1.2604308128356934, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1528748896256396e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 13.058047533035278, "timer/agent.policy_frac": 0.04350985652776206, "timer/agent.policy_avg": 0.009106030357765187, "timer/agent.policy_min": 0.0057713985443115234, "timer/agent.policy_max": 1.2582581043243408, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06259608268737793, "timer/dataset_frac": 0.00020857226702824456, "timer/dataset_avg": 8.730276525436252e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.13119673728943, "timer/agent.train_frac": 0.8900901926359562, "timer/agent.train_avg": 0.3725679173462893, "timer/agent.train_min": 0.36493420600891113, "timer/agent.train_max": 0.8970108032226562, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22346878051757812, "timer/agent.report_frac": 0.000744605543375112, "timer/agent.report_avg": 0.22346878051757812, "timer/agent.report_min": 0.22346878051757812, "timer/agent.report_max": 0.22346878051757812, "fps": 4.778061767188895}
+{"step": 778504, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08433734939759036}
+{"step": 778788, "episode/length": 283.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0528169014084507}
+{"step": 778954, "episode/length": 165.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000050663948, "episode/reward_rate": 0.060240963855421686}
+{"step": 779015, "episode/length": 60.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.13114754098360656}
+{"step": 779277, "episode/length": 261.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05725190839694656}
+{"step": 779546, "episode/length": 268.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05204460966542751}
+{"step": 779633, "episode/length": 86.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11494252873563218}
+{"step": 779851, "episode/length": 217.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05963302752293578}
+{"step": 779905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.350201924641927, "train/action_min": 0.0, "train/action_std": 3.2771193087100983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040436175600108176, "train/actor_opt_grad_steps": 389045.0, "train/actor_opt_loss": -12.10159578257137, "train/adv_mag": 0.41883813548419213, "train/adv_max": 0.3497270411915249, "train/adv_mean": 0.002368350249349128, "train/adv_min": -0.3606712900929981, "train/adv_std": 0.044921094396462045, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 0.00017347721107322892, "train/cont_loss_std": 0.005501213758669287, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.044267719853566416, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.970270685565841e-06, "train/cont_pred": 0.9949008673429489, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.300146473778619, "train/dyn_loss_std": 8.86163588364919, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9538147035572264, "train/extr_critic_critic_opt_grad_steps": 389045.0, "train/extr_critic_critic_opt_loss": 15687.1337890625, "train/extr_critic_mag": 11.684713469611275, "train/extr_critic_max": 11.684713469611275, "train/extr_critic_mean": 3.5052126314904957, "train/extr_critic_min": -0.45966166920132107, "train/extr_critic_std": 2.8221203121874066, "train/extr_return_normed_mag": 1.410107844405704, "train/extr_return_normed_max": 1.410107844405704, "train/extr_return_normed_mean": 0.3985855504870415, "train/extr_return_normed_min": -0.08214704676841696, "train/extr_return_normed_std": 0.31992268603709006, "train/extr_return_rate": 0.8433467613326179, "train/extr_return_raw_mag": 12.53695813814799, "train/extr_return_raw_max": 12.53695813814799, "train/extr_return_raw_mean": 3.52629706925816, "train/extr_return_raw_min": -0.7566453545457787, "train/extr_return_raw_std": 2.8501187198691897, "train/extr_reward_mag": 1.0712549123499129, "train/extr_reward_max": 1.0712549123499129, "train/extr_reward_mean": 0.05923829931351873, "train/extr_reward_min": -0.6441930797364976, "train/extr_reward_std": 0.2348795806368192, "train/image_loss_mean": 3.1456337256564035, "train/image_loss_std": 8.707365572452545, "train/model_loss_mean": 6.380349642700619, "train/model_loss_std": 12.824289811982048, "train/model_opt_grad_norm": 25.591851433118183, "train/model_opt_grad_steps": 388730.02777777775, "train/model_opt_loss": 8203.386433919271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.7187450296348996, "train/policy_entropy_max": 2.7187450296348996, "train/policy_entropy_mean": 0.3855996018068658, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5875105613635646, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884625064416064, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0251537793212466, "train/policy_randomness_mag": 0.9595976894100507, "train/policy_randomness_max": 0.9595976894100507, "train/policy_randomness_mean": 0.13609973951760265, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20736544486135244, "train/post_ent_mag": 55.09847725762261, "train/post_ent_max": 55.09847725762261, "train/post_ent_mean": 40.60564115312364, "train/post_ent_min": 19.16085792912377, "train/post_ent_std": 5.759395115905338, "train/prior_ent_mag": 76.83823680877686, "train/prior_ent_max": 76.83823680877686, "train/prior_ent_mean": 45.94174125459459, "train/prior_ent_min": 28.018703010347153, "train/prior_ent_std": 7.630173173215654, "train/rep_loss_mean": 5.300146473778619, "train/rep_loss_std": 8.86163588364919, "train/reward_avg": 0.04017469579250448, "train/reward_loss_mean": 0.054454611252165504, "train/reward_loss_std": 0.21001992685099444, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.024252669678794, "train/reward_neg_acc": 0.9943558250864347, "train/reward_neg_loss": 0.023077402225074668, "train/reward_pos_acc": 0.9897567273841964, "train/reward_pos_loss": 0.7237661480903625, "train/reward_pred": 0.03979672413940231, "train/reward_rate": 0.04478624131944445, "stats/sum_log_reward": 11.100000381469727, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.25, "stats/max_log_achievement_collect_wood": 12.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.29631357640028, "replay/size": 779842.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4340873009288855e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2591377872038483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36984419822693, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.12862777709961, "timer/env.step_frac": 0.06701281159175175, "timer/env.step_avg": 0.013958826475103752, "timer/env.step_min": 0.002790212631225586, "timer/env.step_max": 1.6218774318695068, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2840089797973633, "timer/replay.add_frac": 0.0009455309355553468, "timer/replay.add_avg": 0.00019695490970690936, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.004377841949462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023639440536499023, "timer/logger.write_frac": 7.87011112903143e-05, "timer/logger.write_avg": 0.023639440536499023, "timer/logger.write_min": 0.023639440536499023, "timer/logger.write_max": 0.023639440536499023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.19343876838684, "timer/agent.policy_frac": 0.03726552110537372, "timer/agent.policy_avg": 0.007762440199990874, "timer/agent.policy_min": 0.005727052688598633, "timer/agent.policy_max": 0.018093585968017578, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06202387809753418, "timer/dataset_frac": 0.00020649169447450245, "timer/dataset_avg": 8.60247962517811e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.9904923439026, "timer/agent.train_frac": 0.8922017223774441, "timer/agent.train_avg": 0.3716927771760091, "timer/agent.train_min": 0.36492037773132324, "timer/agent.train_max": 0.38681983947753906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032523155212402, "timer/agent.report_frac": 0.000733513153226933, "timer/agent.report_avg": 0.22032523155212402, "timer/agent.report_min": 0.22032523155212402, "timer/agent.report_max": 0.22032523155212402, "fps": 4.800684021784144}
+{"step": 780078, "episode/length": 226.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06607929515418502}
+{"step": 780322, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06147540983606557}
+{"step": 780559, "episode/length": 236.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06751054852320675}
+{"step": 780795, "episode/length": 235.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.07203389830508475}
+{"step": 780980, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
+{"step": 781150, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06470588235294118}
+{"step": 781361, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.361838980896832, "train/action_min": 0.0, "train/action_std": 3.255749901680097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03973835313769236, "train/actor_opt_grad_steps": 389770.0, "train/actor_opt_loss": -10.479137228776331, "train/adv_mag": 0.3729717943766346, "train/adv_max": 0.32699151194258913, "train/adv_mean": 0.002766216740495372, "train/adv_min": -0.3317959820979262, "train/adv_std": 0.04435752648605059, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 4.5287259674969145e-05, "train/cont_loss_std": 0.0013420610399276633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022551136219727309, "train/cont_pos_acc": 0.9999730815626171, "train/cont_pos_loss": 4.427835292657719e-05, "train/cont_pred": 0.9947443726944597, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.423285902362981, "train/dyn_loss_std": 8.914915561676025, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9820986569744267, "train/extr_critic_critic_opt_grad_steps": 389770.0, "train/extr_critic_critic_opt_loss": 15895.246133882705, "train/extr_critic_mag": 11.705454094769204, "train/extr_critic_max": 11.705454094769204, "train/extr_critic_mean": 3.5487844650059532, "train/extr_critic_min": -0.3946984549091287, "train/extr_critic_std": 2.8801612592723274, "train/extr_return_normed_mag": 1.3843724270389504, "train/extr_return_normed_max": 1.3843724270389504, "train/extr_return_normed_mean": 0.39505492824397676, "train/extr_return_normed_min": -0.07673259201931627, "train/extr_return_normed_std": 0.31989062812230357, "train/extr_return_rate": 0.8425977883273608, "train/extr_return_raw_mag": 12.565958584824653, "train/extr_return_raw_max": 12.565958584824653, "train/extr_return_raw_mean": 3.5739294241552484, "train/extr_return_raw_min": -0.7160791738392556, "train/extr_return_raw_std": 2.908659660652892, "train/extr_reward_mag": 1.062295188642528, "train/extr_reward_max": 1.062295188642528, "train/extr_reward_mean": 0.05896914857503486, "train/extr_reward_min": -0.6191021008034275, "train/extr_reward_std": 0.23404115050622862, "train/image_loss_mean": 3.305662293956704, "train/image_loss_std": 8.400432932866762, "train/model_loss_mean": 6.614608549091914, "train/model_loss_std": 12.581542054267778, "train/model_opt_grad_norm": 24.865471526368022, "train/model_opt_grad_steps": 389455.0, "train/model_opt_loss": 13154.704482823203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1986.3013698630136, "train/policy_entropy_mag": 2.705676686273862, "train/policy_entropy_max": 2.705676686273862, "train/policy_entropy_mean": 0.3775889895958443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5726438899562784, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37669527571495265, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.005081059181527, "train/policy_randomness_mag": 0.9549851352221346, "train/policy_randomness_max": 0.9549851352221346, "train/policy_randomness_mean": 0.13327234575193223, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20211816507659547, "train/post_ent_mag": 55.301012587873906, "train/post_ent_max": 55.301012587873906, "train/post_ent_mean": 40.66153638656825, "train/post_ent_min": 19.416509210246883, "train/post_ent_std": 5.764898522259438, "train/prior_ent_mag": 76.75969257093456, "train/prior_ent_max": 76.75969257093456, "train/prior_ent_mean": 46.0685159866124, "train/prior_ent_min": 28.04235552435052, "train/prior_ent_std": 7.6787951809086215, "train/rep_loss_mean": 5.423285902362981, "train/rep_loss_std": 8.914915561676025, "train/reward_avg": 0.03957218482886275, "train/reward_loss_mean": 0.05492939595898537, "train/reward_loss_std": 0.20768737425542858, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0249672915837535, "train/reward_neg_acc": 0.9940370582554439, "train/reward_neg_loss": 0.02383641472520077, "train/reward_pos_acc": 0.9885414332559664, "train/reward_pos_loss": 0.724442480361625, "train/reward_pred": 0.03920999090251041, "train/reward_rate": 0.044386772260273974, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.31744472682476044, "replay/size": 781298.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.4824504957094297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2526186285438118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08863973617554, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.982586145401, "timer/env.step_frac": 0.056591899514527866, "timer/env.step_avg": 0.011663864110852335, "timer/env.step_min": 0.0028412342071533203, "timer/env.step_max": 1.6476538181304932, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2905099391937256, "timer/replay.add_frac": 0.0009680804293329094, "timer/replay.add_avg": 0.0001995260571385478, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.002950906753540039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028711557388305664, "timer/logger.write_frac": 9.567692203726064e-05, "timer/logger.write_avg": 0.028711557388305664, "timer/logger.write_min": 0.028711557388305664, "timer/logger.write_max": 0.028711557388305664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.302857398986816, "timer/agent.policy_frac": 0.03766506259258525, "timer/agent.policy_avg": 0.007762951510293143, "timer/agent.policy_min": 0.005858659744262695, "timer/agent.policy_max": 0.015302419662475586, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0629434585571289, "timer/dataset_frac": 0.00020974955470645597, "timer/dataset_avg": 8.646079472133092e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00014352798461914062, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.7255163192749, "timer/agent.train_frac": 0.9021518327294383, "timer/agent.train_avg": 0.3718757092297732, "timer/agent.train_min": 0.36616969108581543, "timer/agent.train_max": 0.38579845428466797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113513946533203, "timer/agent.report_frac": 0.0007368994029888772, "timer/agent.report_avg": 0.22113513946533203, "timer/agent.report_min": 0.22113513946533203, "timer/agent.report_max": 0.22113513946533203, "fps": 4.851772696501558}
+{"step": 781436, "episode/length": 285.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04195804195804196}
+{"step": 781630, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06701030927835051}
+{"step": 781800, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07647058823529412}
+{"step": 782018, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06422018348623854}
+{"step": 782307, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04498269896193772}
+{"step": 782520, "episode/length": 212.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.046948356807511735}
+{"step": 782553, "episode/length": 32.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.18181818181818182}
+{"step": 782784, "episode/length": 230.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06926406926406926}
+{"step": 782785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.345521738831426, "train/action_min": 0.0, "train/action_std": 3.2209317751333746, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03980993710353341, "train/actor_opt_grad_steps": 390490.0, "train/actor_opt_loss": -11.92476407742836, "train/adv_mag": 0.43441273838701383, "train/adv_max": 0.34992400105570404, "train/adv_mean": 0.0015893410665842273, "train/adv_min": -0.38523014792254273, "train/adv_std": 0.04409077212634221, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 0.00011534156123110427, "train/cont_loss_std": 0.003620760016323863, "train/cont_neg_acc": 0.9942320610435915, "train/cont_neg_loss": 0.014123694952728891, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 6.082683340700512e-06, "train/cont_pred": 0.9946952520961493, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.385936347531601, "train/dyn_loss_std": 8.875890946724045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9707039989216227, "train/extr_critic_critic_opt_grad_steps": 390490.0, "train/extr_critic_critic_opt_loss": 15585.336020026409, "train/extr_critic_mag": 11.732944246748803, "train/extr_critic_max": 11.732944246748803, "train/extr_critic_mean": 3.6088576350413577, "train/extr_critic_min": -0.41463630468073026, "train/extr_critic_std": 2.879870716954621, "train/extr_return_normed_mag": 1.3842456777330856, "train/extr_return_normed_max": 1.3842456777330856, "train/extr_return_normed_mean": 0.3999705650437046, "train/extr_return_normed_min": -0.08223762342207869, "train/extr_return_normed_std": 0.3198969760830973, "train/extr_return_rate": 0.8463367903736275, "train/extr_return_raw_mag": 12.575363508412536, "train/extr_return_raw_max": 12.575363508412536, "train/extr_return_raw_mean": 3.6233078661099287, "train/extr_return_raw_min": -0.7623257653813966, "train/extr_return_raw_std": 2.9093426784998933, "train/extr_reward_mag": 1.0698018510576706, "train/extr_reward_max": 1.0698018510576706, "train/extr_reward_mean": 0.05945402431026311, "train/extr_reward_min": -0.642806521603759, "train/extr_reward_std": 0.23529082746572896, "train/image_loss_mean": 3.1373416739450373, "train/image_loss_std": 8.32585285750913, "train/model_loss_mean": 6.424228258535895, "train/model_loss_std": 12.513831581867917, "train/model_opt_grad_norm": 26.447843256131023, "train/model_opt_grad_steps": 390174.8028169014, "train/model_opt_loss": 14488.442602882922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2253.521126760563, "train/policy_entropy_mag": 2.718496262187689, "train/policy_entropy_max": 2.718496262187689, "train/policy_entropy_mean": 0.37466972247815467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5670163929462433, "train/policy_logprob_mag": 7.438384331447978, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37461383787679, "train/policy_logprob_min": -7.438384331447978, "train/policy_logprob_std": 1.0033319046799565, "train/policy_randomness_mag": 0.9595098814494173, "train/policy_randomness_max": 0.9595098814494173, "train/policy_randomness_mean": 0.13224196906240893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2001319021826059, "train/post_ent_mag": 55.13370922249808, "train/post_ent_max": 55.13370922249808, "train/post_ent_mean": 40.51823403801716, "train/post_ent_min": 19.56908137361768, "train/post_ent_std": 5.711022914295465, "train/prior_ent_mag": 76.72077168209452, "train/prior_ent_max": 76.72077168209452, "train/prior_ent_mean": 45.88878808894628, "train/prior_ent_min": 28.12349754655865, "train/prior_ent_std": 7.648756860007702, "train/rep_loss_mean": 5.385936347531601, "train/rep_loss_std": 8.875890946724045, "train/reward_avg": 0.039012983992276054, "train/reward_loss_mean": 0.055209488201309255, "train/reward_loss_std": 0.21166600161035296, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0236625436326148, "train/reward_neg_acc": 0.9938036942146193, "train/reward_neg_loss": 0.02487333751165531, "train/reward_pos_acc": 0.9923572380777815, "train/reward_pos_loss": 0.7169362247829706, "train/reward_pred": 0.03893632179414722, "train/reward_rate": 0.043821522887323945, "stats/sum_log_reward": 10.975000321865082, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 1.75, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30684606172144413, "replay/size": 782722.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.561210096552131e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249207037218501e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.9375114440918, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.409335136413574, "timer/env.step_frac": 0.0744650775799905, "timer/env.step_avg": 0.015736892651975823, "timer/env.step_min": 0.002927541732788086, "timer/env.step_max": 2.5503904819488525, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.29510021209716797, "timer/replay.add_frac": 0.000980602952025114, "timer/replay.add_avg": 0.00020723329501205615, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.004263401031494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02827930450439453, "timer/logger.write_frac": 9.397068636838336e-05, "timer/logger.write_avg": 0.02827930450439453, "timer/logger.write_min": 0.02827930450439453, "timer/logger.write_max": 0.02827930450439453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017380714416503906, "timer/checkpoint.save_frac": 5.775522743276521e-07, "timer/checkpoint.save_avg": 0.00017380714416503906, "timer/checkpoint.save_min": 0.00017380714416503906, "timer/checkpoint.save_max": 0.00017380714416503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2486090660095215, "timer/agent.save_frac": 0.004149064236019936, "timer/agent.save_avg": 1.2486090660095215, "timer/agent.save_min": 1.2486090660095215, "timer/agent.save_max": 1.2486090660095215, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.604194641113281e-05, "timer/replay.save_frac": 2.194540191889707e-07, "timer/replay.save_avg": 6.604194641113281e-05, "timer/replay.save_min": 6.604194641113281e-05, "timer/replay.save_max": 6.604194641113281e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.138159275054932, "timer/agent.policy_frac": 0.04033448411535084, "timer/agent.policy_avg": 0.008523988254954306, "timer/agent.policy_min": 0.0058896541595458984, "timer/agent.policy_max": 1.2413532733917236, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06125330924987793, "timer/dataset_frac": 0.0002035416221658282, "timer/dataset_avg": 8.602992872173866e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.31822419166565, "timer/agent.train_frac": 0.8816389253652631, "timer/agent.train_avg": 0.3726379553253731, "timer/agent.train_min": 0.3643832206726074, "timer/agent.train_max": 0.8826146125793457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22277545928955078, "timer/agent.report_frac": 0.0007402714876604475, "timer/agent.report_avg": 0.22277545928955078, "timer/agent.report_min": 0.22277545928955078, "timer/agent.report_max": 0.22277545928955078, "fps": 4.731813575591336}
+{"step": 783054, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05555555555555555}
+{"step": 783279, "episode/length": 224.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.057777777777777775}
+{"step": 783481, "episode/length": 201.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06435643564356436}
+{"step": 783754, "episode/length": 272.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.047619047619047616}
+{"step": 784029, "episode/length": 274.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03272727272727273}
+{"step": 784214, "episode/length": 184.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.08648648648648649}
+{"step": 784233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459765964084202, "train/action_min": 0.0, "train/action_std": 3.308616280555725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03927942800025145, "train/actor_opt_grad_steps": 391205.0, "train/actor_opt_loss": -12.83608971701728, "train/adv_mag": 0.40061888719598454, "train/adv_max": 0.3474261470966869, "train/adv_mean": 0.001733400688458965, "train/adv_min": -0.32350386099682915, "train/adv_std": 0.04343444321097599, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 5.40011768623098e-05, "train/cont_loss_std": 0.0016146662783664094, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.008541799146936709, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.7006400210048708e-05, "train/cont_pred": 0.9950703001684613, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.314937200811174, "train/dyn_loss_std": 8.827122423383924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9717108988099628, "train/extr_critic_critic_opt_grad_steps": 391205.0, "train/extr_critic_critic_opt_loss": 15587.209716796875, "train/extr_critic_mag": 12.003925283749899, "train/extr_critic_max": 12.003925283749899, "train/extr_critic_mean": 3.506265017721388, "train/extr_critic_min": -0.4058069934447606, "train/extr_critic_std": 2.9082588851451874, "train/extr_return_normed_mag": 1.3976857976780996, "train/extr_return_normed_max": 1.3976857976780996, "train/extr_return_normed_mean": 0.38717712254987824, "train/extr_return_normed_min": -0.08161563224469622, "train/extr_return_normed_std": 0.320553504758411, "train/extr_return_rate": 0.8279288303520944, "train/extr_return_raw_mag": 12.777908219231499, "train/extr_return_raw_max": 12.777908219231499, "train/extr_return_raw_mean": 3.5221824612882404, "train/extr_return_raw_min": -0.7720128384729227, "train/extr_return_raw_std": 2.9361652731895447, "train/extr_reward_mag": 1.075424439377255, "train/extr_reward_max": 1.075424439377255, "train/extr_reward_mean": 0.05790714857478937, "train/extr_reward_min": -0.6311401493019528, "train/extr_reward_std": 0.23195782634947035, "train/image_loss_mean": 3.299039387040668, "train/image_loss_std": 8.478003011809456, "train/model_loss_mean": 6.54312789440155, "train/model_loss_std": 12.582302265697056, "train/model_opt_grad_norm": 24.53353140089247, "train/model_opt_grad_steps": 390889.0, "train/model_opt_loss": 8178.909864637587, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7172498603661857, "train/policy_entropy_max": 2.7172498603661857, "train/policy_entropy_mean": 0.4083238320632113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6097103067570262, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4089796021580696, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0337398457858298, "train/policy_randomness_mag": 0.9590699556801054, "train/policy_randomness_max": 0.9590699556801054, "train/policy_randomness_mean": 0.14412039352787864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21520098195307785, "train/post_ent_mag": 55.20075713263618, "train/post_ent_max": 55.20075713263618, "train/post_ent_mean": 40.719005054897735, "train/post_ent_min": 19.33257673846351, "train/post_ent_std": 5.754487706555261, "train/prior_ent_mag": 76.72091706593831, "train/prior_ent_max": 76.72091706593831, "train/prior_ent_mean": 46.02888139088949, "train/prior_ent_min": 28.365979433059692, "train/prior_ent_std": 7.638150042957729, "train/rep_loss_mean": 5.314937200811174, "train/rep_loss_std": 8.827122423383924, "train/reward_avg": 0.038418239888010755, "train/reward_loss_mean": 0.055072175028423466, "train/reward_loss_std": 0.21688070707023144, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0241514096657436, "train/reward_neg_acc": 0.993003802994887, "train/reward_neg_loss": 0.02501639047275401, "train/reward_pos_acc": 0.9902249996860822, "train/reward_pos_loss": 0.7245879421631495, "train/reward_pred": 0.03827016045235925, "train/reward_rate": 0.043036566840277776, "stats/sum_log_reward": 11.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4696791196862857, "replay/size": 784170.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4863777582158043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2211336944643304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1381483078003, "timer/env.step_count": 1448.0, "timer/env.step_total": 16.988882541656494, "timer/env.step_frac": 0.05660354285998295, "timer/env.step_avg": 0.011732653688989292, "timer/env.step_min": 0.0026421546936035156, "timer/env.step_max": 1.6162328720092773, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27701854705810547, "timer/replay.add_frac": 0.0009229701343196633, "timer/replay.add_avg": 0.000191311151283222, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.004909038543701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02517080307006836, "timer/logger.write_frac": 8.386405797457968e-05, "timer/logger.write_avg": 0.02517080307006836, "timer/logger.write_min": 0.02517080307006836, "timer/logger.write_max": 0.02517080307006836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.983392477035522, "timer/agent.policy_frac": 0.03659445671588451, "timer/agent.policy_avg": 0.007585215799057681, "timer/agent.policy_min": 0.005601167678833008, "timer/agent.policy_max": 0.016285181045532227, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06185150146484375, "timer/dataset_frac": 0.00020607677435729782, "timer/dataset_avg": 8.543025064204938e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 271.11034321784973, "timer/agent.train_frac": 0.9032851863263256, "timer/agent.train_avg": 0.37446180002465435, "timer/agent.train_min": 0.3661839962005615, "timer/agent.train_max": 2.2850160598754883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22669672966003418, "timer/agent.report_frac": 0.0007553079504826896, "timer/agent.report_avg": 0.22669672966003418, "timer/agent.report_min": 0.22669672966003418, "timer/agent.report_max": 0.22669672966003418, "fps": 4.82438178467342}
+{"step": 784653, "episode/length": 438.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 16.900000020861626, "episode/reward_rate": 0.03189066059225513}
+{"step": 785099, "episode/length": 445.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.026905829596412557}
+{"step": 785311, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06132075471698113}
+{"step": 785545, "episode/length": 233.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.05128205128205128}
+{"step": 785709, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435476767050253, "train/action_min": 0.0, "train/action_std": 3.3023544678816923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03846112218358227, "train/actor_opt_grad_steps": 391935.0, "train/actor_opt_loss": -13.490790614405194, "train/adv_mag": 0.38649380348018697, "train/adv_max": 0.33092094696051366, "train/adv_mean": 0.0011966973626250685, "train/adv_min": -0.34524473547935486, "train/adv_std": 0.0432204596094183, "train/cont_avg": 0.9953019425675675, "train/cont_loss_mean": 9.960562701701599e-05, "train/cont_loss_std": 0.0031202534183714884, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.012066680110345297, "train/cont_pos_acc": 0.9999734582127752, "train/cont_pos_loss": 2.9165031948848138e-05, "train/cont_pred": 0.9952953530324472, "train/cont_rate": 0.9953019425675675, "train/dyn_loss_mean": 5.327007957406946, "train/dyn_loss_std": 8.831653575639468, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9917774023236455, "train/extr_critic_critic_opt_grad_steps": 391935.0, "train/extr_critic_critic_opt_loss": 15566.219383445947, "train/extr_critic_mag": 11.673225286844614, "train/extr_critic_max": 11.673225286844614, "train/extr_critic_mean": 3.4435925161516345, "train/extr_critic_min": -0.41325035932901744, "train/extr_critic_std": 2.8176894735645606, "train/extr_return_normed_mag": 1.3791635117015324, "train/extr_return_normed_max": 1.3791635117015324, "train/extr_return_normed_mean": 0.38431337797963944, "train/extr_return_normed_min": -0.0780855396611465, "train/extr_return_normed_std": 0.3138484121174426, "train/extr_return_rate": 0.8399792829075375, "train/extr_return_raw_mag": 12.466475602742788, "train/extr_return_raw_max": 12.466475602742788, "train/extr_return_raw_mean": 3.454433067424877, "train/extr_return_raw_min": -0.73488602122745, "train/extr_return_raw_std": 2.8433286177145467, "train/extr_reward_mag": 1.0712056127754417, "train/extr_reward_max": 1.0712056127754417, "train/extr_reward_mean": 0.05847282002906542, "train/extr_reward_min": -0.6032011186754381, "train/extr_reward_std": 0.2326202247593854, "train/image_loss_mean": 3.2448514941576363, "train/image_loss_std": 8.42358197392644, "train/model_loss_mean": 6.4955288783924, "train/model_loss_std": 12.563881371472332, "train/model_opt_grad_norm": 24.677866510442787, "train/model_opt_grad_steps": 391619.0, "train/model_opt_loss": 14730.321005331503, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2263.5135135135133, "train/policy_entropy_mag": 2.7139617462415955, "train/policy_entropy_max": 2.7139617462415955, "train/policy_entropy_mean": 0.4014845311238959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6018692029489053, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4017700806662843, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0297421482769218, "train/policy_randomness_mag": 0.9579093979822623, "train/policy_randomness_max": 0.9579093979822623, "train/policy_randomness_mean": 0.14170642126653646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21243341478544311, "train/post_ent_mag": 55.15526555035565, "train/post_ent_max": 55.15526555035565, "train/post_ent_mean": 40.715806084710195, "train/post_ent_min": 19.07496603115185, "train/post_ent_std": 5.717601615029412, "train/prior_ent_mag": 76.7365442224451, "train/prior_ent_max": 76.7365442224451, "train/prior_ent_mean": 46.030502937935495, "train/prior_ent_min": 28.358348769110602, "train/prior_ent_std": 7.573211573265694, "train/rep_loss_mean": 5.327007957406946, "train/rep_loss_std": 8.831653575639468, "train/reward_avg": 0.040836148316393026, "train/reward_loss_mean": 0.05437299352441285, "train/reward_loss_std": 0.20844220329780835, "train/reward_max_data": 1.0337837918384656, "train/reward_max_pred": 1.0320866752315212, "train/reward_neg_acc": 0.9939286378589837, "train/reward_neg_loss": 0.022713705230302906, "train/reward_pos_acc": 0.991422358396891, "train/reward_pos_loss": 0.7279095077836836, "train/reward_pred": 0.04045374933126811, "train/reward_rate": 0.04505384290540541, "stats/sum_log_reward": 11.599999904632568, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 16.25, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.5875552296638489, "replay/size": 785646.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.500197961078427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2322937246906725e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34691619873047, "timer/env.step_count": 1476.0, "timer/env.step_total": 13.60318112373352, "timer/env.step_frac": 0.045291562490132935, "timer/env.step_avg": 0.009216247373803199, "timer/env.step_min": 0.0029921531677246094, "timer/env.step_max": 1.5627689361572266, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.29581737518310547, "timer/replay.add_frac": 0.0009849189694605422, "timer/replay.add_avg": 0.00020041827586931264, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.004611968994140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029355287551879883, "timer/logger.write_frac": 9.773793559597055e-05, "timer/logger.write_avg": 0.029355287551879883, "timer/logger.write_min": 0.029355287551879883, "timer/logger.write_max": 0.029355287551879883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 11.206896781921387, "timer/agent.policy_frac": 0.03731317412463833, "timer/agent.policy_avg": 0.007592748497236712, "timer/agent.policy_min": 0.005692720413208008, "timer/agent.policy_max": 0.018731355667114258, "timer/dataset_count": 738.0, "timer/dataset_total": 0.06258082389831543, "timer/dataset_frac": 0.00020836179938304276, "timer/dataset_avg": 8.479786436086101e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001914501190185547, "timer/agent.train_count": 738.0, "timer/agent.train_total": 274.4677233695984, "timer/agent.train_frac": 0.9138356632501311, "timer/agent.train_avg": 0.37190748424064823, "timer/agent.train_min": 0.3653898239135742, "timer/agent.train_max": 0.38552212715148926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228312492370605, "timer/agent.report_frac": 0.0007400879214508999, "timer/agent.report_avg": 0.22228312492370605, "timer/agent.report_min": 0.22228312492370605, "timer/agent.report_max": 0.22228312492370605, "fps": 4.914252689928027}
+{"step": 785711, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
+{"step": 785991, "episode/length": 279.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.05714285714285714}
+{"step": 786181, "episode/length": 189.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07368421052631578}
+{"step": 786337, "episode/length": 155.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08333333333333333}
+{"step": 786508, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07602339181286549}
+{"step": 786714, "episode/length": 205.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05825242718446602}
+{"step": 786987, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05128205128205128}
+{"step": 787136, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.33258269088608877, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.371663698008363, "train/action_min": 0.0, "train/action_std": 3.200069823735197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04005882763107058, "train/actor_opt_grad_steps": 392660.0, "train/actor_opt_loss": -12.403560722377938, "train/adv_mag": 0.42602524748990234, "train/adv_max": 0.3452357318199856, "train/adv_mean": 0.0025372954061284375, "train/adv_min": -0.3821274394720373, "train/adv_std": 0.04545382321090766, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 5.228073710999121e-05, "train/cont_loss_std": 0.0016367056699215976, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.00470721843514895, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 7.461482509460868e-06, "train/cont_pred": 0.9947405004165542, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.3617469492092935, "train/dyn_loss_std": 8.856490806794502, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0086946067675737, "train/extr_critic_critic_opt_grad_steps": 392660.0, "train/extr_critic_critic_opt_loss": 15836.5, "train/extr_critic_mag": 11.794506019269916, "train/extr_critic_max": 11.794506019269916, "train/extr_critic_mean": 3.618039910222443, "train/extr_critic_min": -0.42174271630569243, "train/extr_critic_std": 2.8639096978684546, "train/extr_return_normed_mag": 1.3972993988386342, "train/extr_return_normed_max": 1.3972993988386342, "train/extr_return_normed_mean": 0.40570406342895937, "train/extr_return_normed_min": -0.08398588085678262, "train/extr_return_normed_std": 0.3192697200976627, "train/extr_return_rate": 0.8443506553139485, "train/extr_return_raw_mag": 12.621489417385048, "train/extr_return_raw_max": 12.621489417385048, "train/extr_return_raw_mean": 3.6409906770142033, "train/extr_return_raw_min": -0.79329188021136, "train/extr_return_raw_std": 2.8913243958647823, "train/extr_reward_mag": 1.0728924946046212, "train/extr_reward_max": 1.0728924946046212, "train/extr_reward_mean": 0.06150869248618542, "train/extr_reward_min": -0.6584342214423167, "train/extr_reward_std": 0.2384615339023966, "train/image_loss_mean": 3.1466597755190353, "train/image_loss_std": 8.210198315096573, "train/model_loss_mean": 6.4199651865892005, "train/model_loss_std": 12.369234575352198, "train/model_opt_grad_norm": 24.61346624938535, "train/model_opt_grad_steps": 392343.61971830984, "train/model_opt_loss": 16982.601136113557, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.6990478777549636, "train/policy_entropy_max": 2.6990478777549636, "train/policy_entropy_mean": 0.38372509244462133, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5799659776016021, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.385088411435275, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0201783339742203, "train/policy_randomness_mag": 0.9526454554477208, "train/policy_randomness_max": 0.9526454554477208, "train/policy_randomness_mean": 0.13543811650343343, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2047025401827315, "train/post_ent_mag": 55.44114808633294, "train/post_ent_max": 55.44114808633294, "train/post_ent_mean": 40.63060024422659, "train/post_ent_min": 19.607218782666703, "train/post_ent_std": 5.717098363688295, "train/prior_ent_mag": 76.75542245784276, "train/prior_ent_max": 76.75542245784276, "train/prior_ent_mean": 45.96916494235187, "train/prior_ent_min": 28.29680112382056, "train/prior_ent_std": 7.683794014890429, "train/rep_loss_mean": 5.3617469492092935, "train/rep_loss_std": 8.856490806794502, "train/reward_avg": 0.0410912741552776, "train/reward_loss_mean": 0.056204950095902026, "train/reward_loss_std": 0.21684297667422764, "train/reward_max_data": 1.0225352166404187, "train/reward_max_pred": 1.0235962666256326, "train/reward_neg_acc": 0.9936524671567998, "train/reward_neg_loss": 0.024034541585600713, "train/reward_pos_acc": 0.9902190801123498, "train/reward_pos_loss": 0.7305764194945215, "train/reward_pred": 0.040759655082939376, "train/reward_rate": 0.045623349471830985, "replay/size": 787073.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.517133502920107e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2355006259420644e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0108389854431, "timer/env.step_count": 1427.0, "timer/env.step_total": 21.0229012966156, "timer/env.step_frac": 0.07007380589217864, "timer/env.step_avg": 0.014732236367635319, "timer/env.step_min": 0.002855539321899414, "timer/env.step_max": 2.5436434745788574, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.28127050399780273, "timer/replay.add_frac": 0.0009375344735843038, "timer/replay.add_avg": 0.00019710616958500541, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.004128694534301758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030697107315063477, "timer/logger.write_frac": 0.00010231999423378479, "timer/logger.write_avg": 0.030697107315063477, "timer/logger.write_min": 0.030697107315063477, "timer/logger.write_max": 0.030697107315063477, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016951560974121094, "timer/checkpoint.save_frac": 5.650316179057652e-07, "timer/checkpoint.save_avg": 0.00016951560974121094, "timer/checkpoint.save_min": 0.00016951560974121094, "timer/checkpoint.save_max": 0.00016951560974121094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4804894924163818, "timer/agent.save_frac": 0.004934786681117935, "timer/agent.save_avg": 1.4804894924163818, "timer/agent.save_min": 1.4804894924163818, "timer/agent.save_max": 1.4804894924163818, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.781449595879294e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 12.30311393737793, "timer/agent.policy_frac": 0.04100889814175978, "timer/agent.policy_avg": 0.00862166358610927, "timer/agent.policy_min": 0.0057756900787353516, "timer/agent.policy_max": 1.4742133617401123, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06052279472351074, "timer/dataset_frac": 0.00020173536038958705, "timer/dataset_avg": 8.488470508206276e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.60812616348267, "timer/agent.train_frac": 0.8853284336715924, "timer/agent.train_avg": 0.3725219160778158, "timer/agent.train_min": 0.3652982711791992, "timer/agent.train_max": 0.8667905330657959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22190451622009277, "timer/agent.report_frac": 0.00073965499703449, "timer/agent.report_avg": 0.22190451622009277, "timer/agent.report_min": 0.22190451622009277, "timer/agent.report_max": 0.22190451622009277, "fps": 4.756423139727629}
+{"step": 787255, "episode/length": 267.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04477611940298507}
+{"step": 787649, "episode/length": 393.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03807106598984772}
+{"step": 787916, "episode/length": 266.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.0599250936329588}
+{"step": 788089, "episode/length": 172.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05202312138728324}
+{"step": 788396, "episode/length": 306.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.035830618892508145}
+{"step": 788565, "episode/length": 168.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0650887573964497}
+{"step": 788591, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351499792647688, "train/action_min": 0.0, "train/action_std": 3.242307568249637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0397971146931387, "train/actor_opt_grad_steps": 393380.0, "train/actor_opt_loss": -11.03703751670171, "train/adv_mag": 0.39854575469069287, "train/adv_max": 0.34259484177582883, "train/adv_mean": 0.0025032520013516897, "train/adv_min": -0.3603466618550967, "train/adv_std": 0.04487491552143881, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 1.3823561273416199e-05, "train/cont_loss_std": 0.0004326829069857187, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006767652080866324, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.0361252520608512e-05, "train/cont_pred": 0.9948170585175083, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.371220046526765, "train/dyn_loss_std": 8.779729771287474, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9956759149081087, "train/extr_critic_critic_opt_grad_steps": 393380.0, "train/extr_critic_critic_opt_loss": 15792.860057255994, "train/extr_critic_mag": 11.857373812427259, "train/extr_critic_max": 11.857373812427259, "train/extr_critic_mean": 3.6040374138583875, "train/extr_critic_min": -0.3942774762846019, "train/extr_critic_std": 2.829879982830727, "train/extr_return_normed_mag": 1.4055657925671095, "train/extr_return_normed_max": 1.4055657925671095, "train/extr_return_normed_mean": 0.404695867063248, "train/extr_return_normed_min": -0.07800012908569753, "train/extr_return_normed_std": 0.3173669174517671, "train/extr_return_rate": 0.856167101696746, "train/extr_return_raw_mag": 12.642849177530367, "train/extr_return_raw_max": 12.642849177530367, "train/extr_return_raw_mean": 3.6265873255794996, "train/extr_return_raw_min": -0.7222816695089209, "train/extr_return_raw_std": 2.8593435254815507, "train/extr_reward_mag": 1.069227300278128, "train/extr_reward_max": 1.069227300278128, "train/extr_reward_mean": 0.06019034989382306, "train/extr_reward_min": -0.5974623928331348, "train/extr_reward_std": 0.236052858707023, "train/image_loss_mean": 3.1244659897399276, "train/image_loss_std": 8.057163623914327, "train/model_loss_mean": 6.404420787340974, "train/model_loss_std": 12.190892911937139, "train/model_opt_grad_norm": 24.655524332229405, "train/model_opt_grad_steps": 393063.0, "train/model_opt_loss": 16011.051958476028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.659879991452988, "train/policy_entropy_max": 2.659879991452988, "train/policy_entropy_mean": 0.36457765143211573, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5500012958702976, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36416766802742057, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9956541551302557, "train/policy_randomness_mag": 0.9388209115968992, "train/policy_randomness_max": 0.9388209115968992, "train/policy_randomness_mean": 0.12867991197599124, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1941263231716744, "train/post_ent_mag": 55.18437910733158, "train/post_ent_max": 55.18437910733158, "train/post_ent_mean": 40.68155048318105, "train/post_ent_min": 19.631202684689875, "train/post_ent_std": 5.735800782295122, "train/prior_ent_mag": 76.78299441402906, "train/prior_ent_max": 76.78299441402906, "train/prior_ent_mean": 46.05279901582901, "train/prior_ent_min": 28.061772150536108, "train/prior_ent_std": 7.668708487732769, "train/rep_loss_mean": 5.371220046526765, "train/rep_loss_std": 8.779729771287474, "train/reward_avg": 0.04229050711409686, "train/reward_loss_mean": 0.05720890910453992, "train/reward_loss_std": 0.21572047329112276, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0222908405408466, "train/reward_neg_acc": 0.9937786100661918, "train/reward_neg_loss": 0.0240972658670316, "train/reward_pos_acc": 0.9883634505206591, "train/reward_pos_loss": 0.7342551228118269, "train/reward_pred": 0.041778992325679894, "train/reward_rate": 0.046875, "stats/sum_log_reward": 11.266666730244955, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 10.666666666666666, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4480755279461543, "replay/size": 788528.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.475831546324635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.248975212757404e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09317421913147, "timer/env.step_count": 1455.0, "timer/env.step_total": 17.114474058151245, "timer/env.step_frac": 0.05703053427551158, "timer/env.step_avg": 0.011762525125877145, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 1.7001066207885742, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.28026914596557617, "timer/replay.add_frac": 0.0009339404226532672, "timer/replay.add_avg": 0.00019262484258802487, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0057220458984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03636312484741211, "timer/logger.write_frac": 0.00012117278222682712, "timer/logger.write_avg": 0.03636312484741211, "timer/logger.write_min": 0.03636312484741211, "timer/logger.write_max": 0.03636312484741211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 11.173065662384033, "timer/agent.policy_frac": 0.03723198866971007, "timer/agent.policy_avg": 0.007679082929473563, "timer/agent.policy_min": 0.005742073059082031, "timer/agent.policy_max": 0.015902042388916016, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06197786331176758, "timer/dataset_frac": 0.00020652873386087293, "timer/dataset_avg": 8.513442762605436e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.737943649292, "timer/agent.train_frac": 0.9021796125612509, "timer/agent.train_avg": 0.37189277973803847, "timer/agent.train_min": 0.36556172370910645, "timer/agent.train_max": 0.38606834411621094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22272276878356934, "timer/agent.report_frac": 0.0007421787228687001, "timer/agent.report_avg": 0.22272276878356934, "timer/agent.report_min": 0.22272276878356934, "timer/agent.report_max": 0.22272276878356934, "fps": 4.8484029095767465}
+{"step": 788770, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05853658536585366}
+{"step": 788974, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07352941176470588}
+{"step": 789025, "episode/length": 50.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.09803921568627451}
+{"step": 789072, "episode/length": 46.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.14893617021276595}
+{"step": 789287, "episode/length": 214.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07441860465116279}
+{"step": 789483, "episode/length": 195.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05102040816326531}
+{"step": 789668, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04864864864864865}
+{"step": 789902, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0641025641025641}
+{"step": 790031, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392005072699653, "train/action_min": 0.0, "train/action_std": 3.2502395543787213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040042293439101845, "train/actor_opt_grad_steps": 394105.0, "train/actor_opt_loss": -10.84685050530566, "train/adv_mag": 0.38929269938833183, "train/adv_max": 0.3576805146618022, "train/adv_mean": 0.0026586841008288, "train/adv_min": -0.3233065830750598, "train/adv_std": 0.04446178410823146, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 3.8791476307290886e-05, "train/cont_loss_std": 0.001150402898692862, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0036221414280690725, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.5050427094462667e-05, "train/cont_pred": 0.9947806605034404, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.556915203730266, "train/dyn_loss_std": 8.942703684171041, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9907190816269981, "train/extr_critic_critic_opt_grad_steps": 394105.0, "train/extr_critic_critic_opt_loss": 15691.677937825521, "train/extr_critic_mag": 11.924727095497978, "train/extr_critic_max": 11.924727095497978, "train/extr_critic_mean": 3.5958902140458426, "train/extr_critic_min": -0.3901885830693775, "train/extr_critic_std": 2.925203866428799, "train/extr_return_normed_mag": 1.3936844401889377, "train/extr_return_normed_max": 1.3936844401889377, "train/extr_return_normed_mean": 0.3983481033808655, "train/extr_return_normed_min": -0.0737528603317009, "train/extr_return_normed_std": 0.32432060316205025, "train/extr_return_rate": 0.8342312706841363, "train/extr_return_raw_mag": 12.709435409969753, "train/extr_return_raw_max": 12.709435409969753, "train/extr_return_raw_mean": 3.620172470808029, "train/extr_return_raw_min": -0.6902218204405572, "train/extr_return_raw_std": 2.961246086491479, "train/extr_reward_mag": 1.0717547535896301, "train/extr_reward_max": 1.0717547535896301, "train/extr_reward_mean": 0.06008582836430934, "train/extr_reward_min": -0.6201131244500478, "train/extr_reward_std": 0.23579122560719648, "train/image_loss_mean": 3.3163520892461142, "train/image_loss_std": 8.339513924386766, "train/model_loss_mean": 6.706909285651313, "train/model_loss_std": 12.538725998666552, "train/model_opt_grad_norm": 23.821286333931816, "train/model_opt_grad_steps": 393787.02777777775, "train/model_opt_loss": 17312.99001736111, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.705284317334493, "train/policy_entropy_max": 2.705284317334493, "train/policy_entropy_mean": 0.38198434623579186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5747836385336187, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38171374301115674, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0108131244778633, "train/policy_randomness_mag": 0.9548466462228034, "train/policy_randomness_max": 0.9548466462228034, "train/policy_randomness_mean": 0.13482371220986047, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20287339720461103, "train/post_ent_mag": 55.233352767096626, "train/post_ent_max": 55.233352767096626, "train/post_ent_mean": 40.502360343933105, "train/post_ent_min": 19.0776963101493, "train/post_ent_std": 5.760494881206089, "train/prior_ent_mag": 76.80258888668484, "train/prior_ent_max": 76.80258888668484, "train/prior_ent_mean": 46.062387731340195, "train/prior_ent_min": 28.091781987084282, "train/prior_ent_std": 7.704512006706661, "train/rep_loss_mean": 5.556915203730266, "train/rep_loss_std": 8.942703684171041, "train/reward_avg": 0.04009060292608208, "train/reward_loss_mean": 0.05636923491126961, "train/reward_loss_std": 0.2133744096176492, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0223968128363292, "train/reward_neg_acc": 0.9940489737523927, "train/reward_neg_loss": 0.025124488294952445, "train/reward_pos_acc": 0.990152163638009, "train/reward_pos_loss": 0.7235118539796935, "train/reward_pred": 0.03976598436323305, "train/reward_rate": 0.04477267795138889, "stats/sum_log_reward": 10.225000262260437, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 6.375, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.375, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2448090799152851, "replay/size": 789968.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4567382600572376e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.236113409201304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12216806411743, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.25808835029602, "timer/env.step_frac": 0.0674994735676044, "timer/env.step_avg": 0.014068116909927791, "timer/env.step_min": 0.002538919448852539, "timer/env.step_max": 1.7130789756774902, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26813220977783203, "timer/replay.add_frac": 0.0008934102119392556, "timer/replay.add_avg": 0.0001862029234568278, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004584312438964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0220181941986084, "timer/logger.write_frac": 7.336410482648679e-05, "timer/logger.write_avg": 0.0220181941986084, "timer/logger.write_min": 0.0220181941986084, "timer/logger.write_max": 0.0220181941986084, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.005272388458252, "timer/agent.policy_frac": 0.0366693085667271, "timer/agent.policy_avg": 0.0076425502697626746, "timer/agent.policy_min": 0.0057260990142822266, "timer/agent.policy_max": 0.014851570129394531, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0609736442565918, "timer/dataset_frac": 0.00020316274752342028, "timer/dataset_avg": 8.468561702304416e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001289844512939453, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.82856917381287, "timer/agent.train_frac": 0.8923984885934669, "timer/agent.train_avg": 0.3719841238525179, "timer/agent.train_min": 0.3659977912902832, "timer/agent.train_max": 0.3883359432220459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21903324127197266, "timer/agent.report_frac": 0.000729813604522472, "timer/agent.report_avg": 0.21903324127197266, "timer/agent.report_min": 0.21903324127197266, "timer/agent.report_max": 0.21903324127197266, "fps": 4.797975242575202}
+{"step": 790224, "episode/length": 321.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.049689440993788817}
+{"step": 790456, "episode/length": 231.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0603448275862069}
+{"step": 790645, "episode/length": 188.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.05291005291005291}
+{"step": 790828, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08196721311475409}
+{"step": 790916, "episode/length": 87.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.11363636363636363}
+{"step": 791151, "episode/length": 234.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0425531914893617}
+{"step": 791385, "episode/length": 233.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05982905982905983}
+{"step": 791459, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3707936604817705, "train/action_min": 0.0, "train/action_std": 3.2128529681099787, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039329178320864834, "train/actor_opt_grad_steps": 394825.0, "train/actor_opt_loss": -11.559891666803095, "train/adv_mag": 0.4076917680601279, "train/adv_max": 0.3454931245909797, "train/adv_mean": 0.002108670382502472, "train/adv_min": -0.34646198629505104, "train/adv_std": 0.04394745045445032, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 0.00014098210117512936, "train/cont_loss_std": 0.0043396204008353655, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.012193607637537221, "train/cont_pos_acc": 0.9999863422579236, "train/cont_pos_loss": 8.23945159124959e-05, "train/cont_pred": 0.9947203223903974, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.50325083732605, "train/dyn_loss_std": 8.863378081056807, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0111366973982916, "train/extr_critic_critic_opt_grad_steps": 394825.0, "train/extr_critic_critic_opt_loss": 15688.398735894098, "train/extr_critic_mag": 11.909039523866442, "train/extr_critic_max": 11.909039523866442, "train/extr_critic_mean": 3.595685452222824, "train/extr_critic_min": -0.4227345900403129, "train/extr_critic_std": 2.908867445256975, "train/extr_return_normed_mag": 1.3870954993698332, "train/extr_return_normed_max": 1.3870954993698332, "train/extr_return_normed_mean": 0.393068615347147, "train/extr_return_normed_min": -0.08024819924806555, "train/extr_return_normed_std": 0.3194996288253201, "train/extr_return_rate": 0.8469012694226371, "train/extr_return_raw_mag": 12.74269896083408, "train/extr_return_raw_max": 12.74269896083408, "train/extr_return_raw_mean": 3.6150504052639008, "train/extr_return_raw_min": -0.7317983147998651, "train/extr_return_raw_std": 2.934275166855918, "train/extr_reward_mag": 1.075570609834459, "train/extr_reward_max": 1.075570609834459, "train/extr_reward_mean": 0.05873955781054166, "train/extr_reward_min": -0.6144075261221992, "train/extr_reward_std": 0.23352845571935177, "train/image_loss_mean": 3.2738073435094623, "train/image_loss_std": 8.43665909104877, "train/model_loss_mean": 6.632908112472958, "train/model_loss_std": 12.570822397867838, "train/model_opt_grad_norm": 25.805480851067436, "train/model_opt_grad_steps": 394506.4861111111, "train/model_opt_loss": 17444.29694281684, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.720183846023348, "train/policy_entropy_max": 2.720183846023348, "train/policy_entropy_mean": 0.3923670477751229, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5939135294821527, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39239732548594475, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0221720337867737, "train/policy_randomness_mag": 0.9601055284341177, "train/policy_randomness_max": 0.9601055284341177, "train/policy_randomness_mean": 0.1384883507465323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20962541146824756, "train/post_ent_mag": 54.99154678980509, "train/post_ent_max": 54.99154678980509, "train/post_ent_mean": 40.479208893246124, "train/post_ent_min": 19.891725381215412, "train/post_ent_std": 5.744499835703108, "train/prior_ent_mag": 76.70525328318278, "train/prior_ent_max": 76.70525328318278, "train/prior_ent_mean": 45.97183598412408, "train/prior_ent_min": 28.011832025316025, "train/prior_ent_std": 7.743220501475864, "train/rep_loss_mean": 5.50325083732605, "train/rep_loss_std": 8.863378081056807, "train/reward_avg": 0.041010199373381004, "train/reward_loss_mean": 0.05700929695740342, "train/reward_loss_std": 0.20940599445667532, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.038313337498241, "train/reward_neg_acc": 0.9937590244743559, "train/reward_neg_loss": 0.02494584897067398, "train/reward_pos_acc": 0.9895393244094319, "train/reward_pos_loss": 0.7234175246622827, "train/reward_pred": 0.040732619249158435, "train/reward_rate": 0.04592556423611111, "stats/sum_log_reward": 11.67142881665911, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.142857142857142, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31527090285505566, "replay/size": 791396.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.49713974640149e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2462296071840602e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3222105503082, "timer/env.step_count": 1428.0, "timer/env.step_total": 20.389012813568115, "timer/env.step_frac": 0.06789045930438324, "timer/env.step_avg": 0.014278020177568709, "timer/env.step_min": 0.0029196739196777344, "timer/env.step_max": 1.9220833778381348, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.269406795501709, "timer/replay.add_frac": 0.0008970591785670795, "timer/replay.add_avg": 0.0001886602209395721, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0022776126861572266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027144432067871094, "timer/logger.write_frac": 9.038436424043308e-05, "timer/logger.write_avg": 0.027144432067871094, "timer/logger.write_min": 0.027144432067871094, "timer/logger.write_max": 0.027144432067871094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003752708435058594, "timer/checkpoint.save_frac": 1.2495607395077967e-06, "timer/checkpoint.save_avg": 0.0003752708435058594, "timer/checkpoint.save_min": 0.0003752708435058594, "timer/checkpoint.save_max": 0.0003752708435058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.266408920288086, "timer/agent.save_frac": 0.004216834039572123, "timer/agent.save_avg": 1.266408920288086, "timer/agent.save_min": 1.266408920288086, "timer/agent.save_max": 1.266408920288086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.7785658121202597e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.899919033050537, "timer/agent.policy_frac": 0.04295359643701616, "timer/agent.policy_avg": 0.009033556745833709, "timer/agent.policy_min": 0.005679130554199219, "timer/agent.policy_max": 1.2647171020507812, "timer/dataset_count": 714.0, "timer/dataset_total": 0.061211585998535156, "timer/dataset_frac": 0.00020381971045821583, "timer/dataset_avg": 8.573051260299042e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.99140667915344, "timer/agent.train_frac": 0.8856867635322501, "timer/agent.train_avg": 0.3725369841444726, "timer/agent.train_min": 0.3647780418395996, "timer/agent.train_max": 0.9107496738433838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113823890686035, "timer/agent.report_frac": 0.0007363366116067415, "timer/agent.report_avg": 0.22113823890686035, "timer/agent.report_min": 0.22113823890686035, "timer/agent.report_max": 0.22113823890686035, "fps": 4.754811501915598}
+{"step": 791614, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06550218340611354}
+{"step": 791852, "episode/length": 237.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06302521008403361}
+{"step": 792101, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05220883534136546}
+{"step": 792269, "episode/length": 167.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07738095238095238}
+{"step": 792518, "episode/length": 248.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.05622489959839357}
+{"step": 792695, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07909604519774012}
+{"step": 792913, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3676300048828125, "train/action_min": 0.0, "train/action_std": 3.2421702477667065, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03968509105551574, "train/actor_opt_grad_steps": 395545.0, "train/actor_opt_loss": -12.752549525764254, "train/adv_mag": 0.41333327318231267, "train/adv_max": 0.3707384334670173, "train/adv_mean": 0.0019240964837889704, "train/adv_min": -0.3531175483432081, "train/adv_std": 0.04419725533160898, "train/cont_avg": 0.9951578776041666, "train/cont_loss_mean": 0.00011967778498542557, "train/cont_loss_std": 0.0036778175326285614, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.009189802422164285, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 7.32682538434738e-05, "train/cont_pred": 0.9951527739564577, "train/cont_rate": 0.9951578776041666, "train/dyn_loss_mean": 5.343045016129811, "train/dyn_loss_std": 8.831406997309792, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9717023852798674, "train/extr_critic_critic_opt_grad_steps": 395545.0, "train/extr_critic_critic_opt_loss": 15649.796644422742, "train/extr_critic_mag": 11.92847196261088, "train/extr_critic_max": 11.92847196261088, "train/extr_critic_mean": 3.5725228720241122, "train/extr_critic_min": -0.4121432817644543, "train/extr_critic_std": 2.8456884258323245, "train/extr_return_normed_mag": 1.3902767449617386, "train/extr_return_normed_max": 1.3902767449617386, "train/extr_return_normed_mean": 0.39141306198305553, "train/extr_return_normed_min": -0.07925145917882521, "train/extr_return_normed_std": 0.3124444511615568, "train/extr_return_rate": 0.8498336689339744, "train/extr_return_raw_mag": 12.78544983598921, "train/extr_return_raw_max": 12.78544983598921, "train/extr_return_raw_mean": 3.5902324782477484, "train/extr_return_raw_min": -0.743006620142195, "train/extr_return_raw_std": 2.876533372534646, "train/extr_reward_mag": 1.0695322751998901, "train/extr_reward_max": 1.0695322751998901, "train/extr_reward_mean": 0.05873988480824563, "train/extr_reward_min": -0.6299975679980384, "train/extr_reward_std": 0.23231574955085912, "train/image_loss_mean": 3.2371389948659473, "train/image_loss_std": 8.662722282939487, "train/model_loss_mean": 6.498255862130059, "train/model_loss_std": 12.793115384048885, "train/model_opt_grad_norm": 23.325645379617182, "train/model_opt_grad_steps": 395225.875, "train/model_opt_loss": 16488.406995985242, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7119273808267383, "train/policy_entropy_max": 2.7119273808267383, "train/policy_entropy_mean": 0.39703881926834583, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6010593101382256, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3967913157410092, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0257605272862647, "train/policy_randomness_mag": 0.9571913596656587, "train/policy_randomness_max": 0.9571913596656587, "train/policy_randomness_mean": 0.1401372788887885, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2121475636959076, "train/post_ent_mag": 55.13107363382975, "train/post_ent_max": 55.13107363382975, "train/post_ent_mean": 40.643154091305206, "train/post_ent_min": 19.446240107218426, "train/post_ent_std": 5.710386488172743, "train/prior_ent_mag": 76.6705920961168, "train/prior_ent_max": 76.6705920961168, "train/prior_ent_mean": 45.97743723127577, "train/prior_ent_min": 28.039191908306545, "train/prior_ent_std": 7.642055610815684, "train/rep_loss_mean": 5.343045016129811, "train/rep_loss_std": 8.831406997309792, "train/reward_avg": 0.03955620599703656, "train/reward_loss_mean": 0.05517012310317821, "train/reward_loss_std": 0.21683250843650764, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.020638182759285, "train/reward_neg_acc": 0.9936025432414479, "train/reward_neg_loss": 0.024163133089637592, "train/reward_pos_acc": 0.9887163150641654, "train/reward_pos_loss": 0.7329482841822836, "train/reward_pred": 0.03929759073071182, "train/reward_rate": 0.04393174913194445, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 15.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3349771946668625, "replay/size": 792850.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.616124432549352e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2349516686251927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9893445968628, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.478909730911255, "timer/env.step_frac": 0.05826510189686932, "timer/env.step_avg": 0.012021258411905952, "timer/env.step_min": 0.003171682357788086, "timer/env.step_max": 1.666489601135254, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2919731140136719, "timer/replay.add_frac": 0.0009732782822871144, "timer/replay.add_avg": 0.0002008068184413149, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.005121707916259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02966451644897461, "timer/logger.write_frac": 9.888523370334678e-05, "timer/logger.write_avg": 0.02966451644897461, "timer/logger.write_min": 0.02966451644897461, "timer/logger.write_max": 0.02966451644897461, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.173907041549683, "timer/agent.policy_frac": 0.037247679768645146, "timer/agent.policy_avg": 0.007684942944669658, "timer/agent.policy_min": 0.0059299468994140625, "timer/agent.policy_max": 0.016439437866210938, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06244969367980957, "timer/dataset_frac": 0.00020817303949155884, "timer/dataset_avg": 8.590054151280546e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.2705166339874, "timer/agent.train_frac": 0.9009337214866325, "timer/agent.train_avg": 0.3717613708858149, "timer/agent.train_min": 0.3655257225036621, "timer/agent.train_max": 0.3854687213897705, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212977409362793, "timer/agent.report_frac": 0.0007376853375697984, "timer/agent.report_avg": 0.2212977409362793, "timer/agent.report_min": 0.2212977409362793, "timer/agent.report_max": 0.2212977409362793, "fps": 4.846757890198321}
+{"step": 793183, "episode/length": 487.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 18.700000047683716, "episode/reward_rate": 0.03278688524590164}
+{"step": 793369, "episode/length": 185.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06989247311827956}
+{"step": 793572, "episode/length": 202.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07881773399014778}
+{"step": 793720, "episode/length": 147.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07432432432432433}
+{"step": 793811, "episode/length": 90.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.07692307692307693}
+{"step": 794025, "episode/length": 213.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06074766355140187}
+{"step": 794244, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0639269406392694}
+{"step": 794361, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.361129969766695, "train/action_min": 0.0, "train/action_std": 3.1665657840362966, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038526373672975255, "train/actor_opt_grad_steps": 396270.0, "train/actor_opt_loss": -12.042654677613141, "train/adv_mag": 0.417032705798541, "train/adv_max": 0.3467174425517043, "train/adv_mean": 0.002296594681554356, "train/adv_min": -0.3621686182609976, "train/adv_std": 0.043702812839860786, "train/cont_avg": 0.9953713613013698, "train/cont_loss_mean": 3.475206334082816e-05, "train/cont_loss_std": 0.0010396878521816365, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005584289136933179, "train/cont_pos_acc": 0.9999865391483046, "train/cont_pos_loss": 3.1675706354347576e-05, "train/cont_pred": 0.9953495362033583, "train/cont_rate": 0.9953713613013698, "train/dyn_loss_mean": 5.375948716516364, "train/dyn_loss_std": 8.843765526601713, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9997932078087166, "train/extr_critic_critic_opt_grad_steps": 396270.0, "train/extr_critic_critic_opt_loss": 15556.817329302226, "train/extr_critic_mag": 11.902281996322005, "train/extr_critic_max": 11.902281996322005, "train/extr_critic_mean": 3.5950878384995133, "train/extr_critic_min": -0.3792659485176818, "train/extr_critic_std": 2.8611612695537203, "train/extr_return_normed_mag": 1.3839484796132127, "train/extr_return_normed_max": 1.3839484796132127, "train/extr_return_normed_mean": 0.39335180553671434, "train/extr_return_normed_min": -0.07893129662699895, "train/extr_return_normed_std": 0.3145105332544405, "train/extr_return_rate": 0.8428403694335729, "train/extr_return_raw_mag": 12.715000583700938, "train/extr_return_raw_max": 12.715000583700938, "train/extr_return_raw_mean": 3.6161796230159395, "train/extr_return_raw_min": -0.7215326440660921, "train/extr_return_raw_std": 2.888985565263931, "train/extr_reward_mag": 1.0694635404299384, "train/extr_reward_max": 1.0694635404299384, "train/extr_reward_mean": 0.06013945107386537, "train/extr_reward_min": -0.6354908306304723, "train/extr_reward_std": 0.2357875790498028, "train/image_loss_mean": 3.226282482277857, "train/image_loss_std": 8.47336478429298, "train/model_loss_mean": 6.506967394319299, "train/model_loss_std": 12.625152823043196, "train/model_opt_grad_norm": 25.946140938334995, "train/model_opt_grad_steps": 395949.0410958904, "train/model_opt_loss": 8599.512661868579, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1301.3698630136987, "train/policy_entropy_mag": 2.7113091292446607, "train/policy_entropy_max": 2.7113091292446607, "train/policy_entropy_mean": 0.38134210893552595, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5848524819498193, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3812044285339852, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0141598884373495, "train/policy_randomness_mag": 0.9569731420033598, "train/policy_randomness_max": 0.9569731420033598, "train/policy_randomness_mean": 0.1345970309148096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20642726072301604, "train/post_ent_mag": 55.27006039554126, "train/post_ent_max": 55.27006039554126, "train/post_ent_mean": 40.58361011661896, "train/post_ent_min": 19.529503469597802, "train/post_ent_std": 5.74954423512498, "train/prior_ent_mag": 76.74308567830961, "train/prior_ent_max": 76.74308567830961, "train/prior_ent_mean": 45.93544288530742, "train/prior_ent_min": 28.178260881606846, "train/prior_ent_std": 7.633542563817272, "train/rep_loss_mean": 5.375948716516364, "train/rep_loss_std": 8.843765526601713, "train/reward_avg": 0.040536707879541674, "train/reward_loss_mean": 0.05508097363253162, "train/reward_loss_std": 0.2077473367321981, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.029093379843725, "train/reward_neg_acc": 0.9937789391164911, "train/reward_neg_loss": 0.02375964135926676, "train/reward_pos_acc": 0.9906042406003769, "train/reward_pos_loss": 0.7200641909690753, "train/reward_pred": 0.040320096078188455, "train/reward_rate": 0.0449753852739726, "stats/sum_log_reward": 11.671428544180733, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3365476280450821, "replay/size": 794298.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.5799010682501185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2306630282112249e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3190083503723, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.964381217956543, "timer/env.step_frac": 0.06314745550781595, "timer/env.step_avg": 0.013096948354942364, "timer/env.step_min": 0.00299835205078125, "timer/env.step_max": 1.6774566173553467, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.28050899505615234, "timer/replay.add_frac": 0.0009340367650951076, "timer/replay.add_avg": 0.0001937216816686135, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0030956268310546875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02701592445373535, "timer/logger.write_frac": 8.995742428070607e-05, "timer/logger.write_avg": 0.02701592445373535, "timer/logger.write_min": 0.02701592445373535, "timer/logger.write_max": 0.02701592445373535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.076576948165894, "timer/agent.policy_frac": 0.03688270352585613, "timer/agent.policy_avg": 0.007649569715584181, "timer/agent.policy_min": 0.005542755126953125, "timer/agent.policy_max": 0.01765584945678711, "timer/dataset_count": 724.0, "timer/dataset_total": 0.061758995056152344, "timer/dataset_frac": 0.00020564464232680256, "timer/dataset_avg": 8.530247935932645e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.000133514404296875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.22198390960693, "timer/agent.train_frac": 0.8964533593408596, "timer/agent.train_avg": 0.3718535689359212, "timer/agent.train_min": 0.3654656410217285, "timer/agent.train_max": 0.38544249534606934, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051072120666504, "timer/agent.report_frac": 0.000734254959144652, "timer/agent.report_avg": 0.22051072120666504, "timer/agent.report_min": 0.22051072120666504, "timer/agent.report_max": 0.22051072120666504, "fps": 4.8214570579517515}
+{"step": 794400, "episode/length": 155.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.09615384615384616}
+{"step": 794598, "episode/length": 197.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07575757575757576}
+{"step": 794819, "episode/length": 220.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06787330316742081}
+{"step": 795023, "episode/length": 203.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.06862745098039216}
+{"step": 795224, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06467661691542288}
+{"step": 795372, "episode/length": 147.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08783783783783784}
+{"step": 795539, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0658682634730539}
+{"step": 795744, "episode/length": 204.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04390243902439024}
+{"step": 795777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351835414341518, "train/action_min": 0.0, "train/action_std": 3.2044790608542306, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038670367800763675, "train/actor_opt_grad_steps": 396985.0, "train/actor_opt_loss": -11.597770866325924, "train/adv_mag": 0.391351974436215, "train/adv_max": 0.3471109743629183, "train/adv_mean": 0.0017657023321329948, "train/adv_min": -0.3301233804651669, "train/adv_std": 0.04333372132054397, "train/cont_avg": 0.9949916294642858, "train/cont_loss_mean": 0.00031240134843934744, "train/cont_loss_std": 0.009896879657266515, "train/cont_neg_acc": 0.9890476209776742, "train/cont_neg_loss": 0.06148196409745554, "train/cont_pos_acc": 0.9999999727521623, "train/cont_pos_loss": 5.142892249360947e-06, "train/cont_pred": 0.9950387256486075, "train/cont_rate": 0.9949916294642858, "train/dyn_loss_mean": 5.332484156744821, "train/dyn_loss_std": 8.831620352608818, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9090330898761749, "train/extr_critic_critic_opt_grad_steps": 396985.0, "train/extr_critic_critic_opt_loss": 15526.388113839286, "train/extr_critic_mag": 11.774599347795759, "train/extr_critic_max": 11.774599347795759, "train/extr_critic_mean": 3.594253761427743, "train/extr_critic_min": -0.36398421696254185, "train/extr_critic_std": 2.8771734033312115, "train/extr_return_normed_mag": 1.3774306280272348, "train/extr_return_normed_max": 1.3774306280272348, "train/extr_return_normed_mean": 0.3940017619303295, "train/extr_return_normed_min": -0.07728989704379013, "train/extr_return_normed_std": 0.3171466158969062, "train/extr_return_rate": 0.8358994117804937, "train/extr_return_raw_mag": 12.622266251700266, "train/extr_return_raw_max": 12.622266251700266, "train/extr_return_raw_mean": 3.6104326145989556, "train/extr_return_raw_min": -0.7080884665250778, "train/extr_return_raw_std": 2.9062466859817504, "train/extr_reward_mag": 1.0728278534752982, "train/extr_reward_max": 1.0728278534752982, "train/extr_reward_mean": 0.0591213157666581, "train/extr_reward_min": -0.5730574880327497, "train/extr_reward_std": 0.2346833035349846, "train/image_loss_mean": 3.187032502038138, "train/image_loss_std": 8.283908775874547, "train/model_loss_mean": 6.442518281936645, "train/model_loss_std": 12.441305582863944, "train/model_opt_grad_norm": 22.397528839111327, "train/model_opt_grad_steps": 396664.0, "train/model_opt_loss": 12554.82019391741, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.711144610813686, "train/policy_entropy_max": 2.711144610813686, "train/policy_entropy_mean": 0.3839175364800862, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5880563914775848, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38283950580017906, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0115233216966901, "train/policy_randomness_mag": 0.9569150703293937, "train/policy_randomness_max": 0.9569150703293937, "train/policy_randomness_mean": 0.1355060428380966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20755810013839177, "train/post_ent_mag": 55.02553351266044, "train/post_ent_max": 55.02553351266044, "train/post_ent_mean": 40.693472562517435, "train/post_ent_min": 19.35656670161656, "train/post_ent_std": 5.744583674839565, "train/prior_ent_mag": 76.61338958740234, "train/prior_ent_max": 76.61338958740234, "train/prior_ent_mean": 45.99334286281041, "train/prior_ent_min": 28.28386699131557, "train/prior_ent_std": 7.659699440002441, "train/rep_loss_mean": 5.332484156744821, "train/rep_loss_std": 8.831620352608818, "train/reward_avg": 0.03983258892382894, "train/reward_loss_mean": 0.055682864785194394, "train/reward_loss_std": 0.21343611138207572, "train/reward_max_data": 1.0257142918450493, "train/reward_max_pred": 1.0259736231395176, "train/reward_neg_acc": 0.9936059585639408, "train/reward_neg_loss": 0.024560214432754687, "train/reward_pos_acc": 0.9908521098749978, "train/reward_pos_loss": 0.7239115417003632, "train/reward_pred": 0.03960178925522736, "train/reward_rate": 0.04439174107142857, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.375, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 12.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2660936564207077, "replay/size": 795714.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.504382688446907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.227746238816256e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01116847991943, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.758060932159424, "timer/env.step_frac": 0.07585737906848186, "timer/env.step_avg": 0.016072076929491117, "timer/env.step_min": 0.0028252601623535156, "timer/env.step_max": 2.5360629558563232, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.29574060440063477, "timer/replay.add_frac": 0.0009857653163349801, "timer/replay.add_avg": 0.0002088563590399963, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.004381895065307617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03293490409851074, "timer/logger.write_frac": 0.00010977892678257132, "timer/logger.write_avg": 0.03293490409851074, "timer/logger.write_min": 0.03293490409851074, "timer/logger.write_max": 0.03293490409851074, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018334388732910156, "timer/checkpoint.save_frac": 6.111235400270549e-07, "timer/checkpoint.save_avg": 0.00018334388732910156, "timer/checkpoint.save_min": 0.00018334388732910156, "timer/checkpoint.save_max": 0.00018334388732910156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2462265491485596, "timer/agent.save_frac": 0.004153933853405771, "timer/agent.save_avg": 1.2462265491485596, "timer/agent.save_min": 1.2462265491485596, "timer/agent.save_max": 1.2462265491485596, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5907187782681394e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.13182020187378, "timer/agent.policy_frac": 0.04043789524017602, "timer/agent.policy_avg": 0.008567669634091652, "timer/agent.policy_min": 0.005669593811035156, "timer/agent.policy_max": 1.2414512634277344, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06059908866882324, "timer/dataset_frac": 0.00020198944251263533, "timer/dataset_avg": 8.559193314805542e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.05040526390076, "timer/agent.train_frac": 0.8801352516367216, "timer/agent.train_avg": 0.37295254980776943, "timer/agent.train_min": 0.3656444549560547, "timer/agent.train_max": 0.8537187576293945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2219250202178955, "timer/agent.report_frac": 0.000739722528805622, "timer/agent.report_avg": 0.2219250202178955, "timer/agent.report_min": 0.2219250202178955, "timer/agent.report_max": 0.2219250202178955, "fps": 4.71974710560691}
+{"step": 795997, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05928853754940711}
+{"step": 796178, "episode/length": 180.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03867403314917127}
+{"step": 796410, "episode/length": 231.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03879310344827586}
+{"step": 796902, "episode/length": 491.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.90000005811453, "episode/reward_rate": 0.034552845528455285}
+{"step": 797118, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06018518518518518}
+{"step": 797243, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.311868203652872, "train/action_min": 0.0, "train/action_std": 3.1448389839481665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03892499747107158, "train/actor_opt_grad_steps": 397705.0, "train/actor_opt_loss": -12.393218917646319, "train/adv_mag": 0.4125081131587157, "train/adv_max": 0.34912854735110255, "train/adv_mean": 0.0019169734023799301, "train/adv_min": -0.35164358043992844, "train/adv_std": 0.044029859775626984, "train/cont_avg": 0.9949060388513513, "train/cont_loss_mean": 5.9281338958821586e-05, "train/cont_loss_std": 0.0013627693162643819, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.003448565384195951, "train/cont_pos_acc": 0.9999866783618927, "train/cont_pos_loss": 3.3234806958193064e-05, "train/cont_pred": 0.9949008476089787, "train/cont_rate": 0.9949060388513513, "train/dyn_loss_mean": 5.4061935592342065, "train/dyn_loss_std": 8.871362550838574, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9527368086415369, "train/extr_critic_critic_opt_grad_steps": 397705.0, "train/extr_critic_critic_opt_loss": 15576.09983372044, "train/extr_critic_mag": 11.8199846551225, "train/extr_critic_max": 11.8199846551225, "train/extr_critic_mean": 3.6674583215971253, "train/extr_critic_min": -0.3814792874697092, "train/extr_critic_std": 2.870770406078648, "train/extr_return_normed_mag": 1.3868706548536145, "train/extr_return_normed_max": 1.3868706548536145, "train/extr_return_normed_mean": 0.40480538679135813, "train/extr_return_normed_min": -0.07662436104304082, "train/extr_return_normed_std": 0.3175983936400027, "train/extr_return_rate": 0.8556333160078203, "train/extr_return_raw_mag": 12.635093005927834, "train/extr_return_raw_max": 12.635093005927834, "train/extr_return_raw_mean": 3.6849185550535046, "train/extr_return_raw_min": -0.7022606009567106, "train/extr_return_raw_std": 2.8946865797042847, "train/extr_reward_mag": 1.0665819032772168, "train/extr_reward_max": 1.0665819032772168, "train/extr_reward_mean": 0.061550510594168224, "train/extr_reward_min": -0.6257981754638053, "train/extr_reward_std": 0.23856978662110664, "train/image_loss_mean": 3.145589889706792, "train/image_loss_std": 8.489537245518452, "train/model_loss_mean": 6.4458614297815275, "train/model_loss_std": 12.66646688048904, "train/model_opt_grad_norm": 24.479981370874352, "train/model_opt_grad_steps": 397383.86486486485, "train/model_opt_loss": 16714.04686180321, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2601.3513513513512, "train/policy_entropy_mag": 2.6782417426238188, "train/policy_entropy_max": 2.6782417426238188, "train/policy_entropy_mean": 0.356434185158562, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5462452185315054, "train/policy_logprob_mag": 7.438384255847415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3569515393795194, "train/policy_logprob_min": -7.438384255847415, "train/policy_logprob_std": 0.9916287878075162, "train/policy_randomness_mag": 0.9453018057990719, "train/policy_randomness_max": 0.9453018057990719, "train/policy_randomness_mean": 0.1258056267491869, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19280059273178513, "train/post_ent_mag": 55.12583567645099, "train/post_ent_max": 55.12583567645099, "train/post_ent_mean": 40.600836418770456, "train/post_ent_min": 19.303975646560257, "train/post_ent_std": 5.716186091706559, "train/prior_ent_mag": 76.78400637652423, "train/prior_ent_max": 76.78400637652423, "train/prior_ent_mean": 45.98120756407042, "train/prior_ent_min": 28.413593189136403, "train/prior_ent_std": 7.604580834105208, "train/rep_loss_mean": 5.4061935592342065, "train/rep_loss_std": 8.871362550838574, "train/reward_avg": 0.04160156209223174, "train/reward_loss_mean": 0.05649615270463196, "train/reward_loss_std": 0.21591794229037053, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0221448653453105, "train/reward_neg_acc": 0.9938203442741085, "train/reward_neg_loss": 0.023922944000947313, "train/reward_pos_acc": 0.9898401104115151, "train/reward_pos_loss": 0.7278772624763282, "train/reward_pred": 0.04124891143795606, "train/reward_rate": 0.04625475084459459, "stats/sum_log_reward": 11.300000286102295, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 15.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.3784175515174866, "replay/size": 797180.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.4788620911060867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.248668518430702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32838463783264, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.363165855407715, "timer/env.step_frac": 0.051154558281043684, "timer/env.step_avg": 0.010479649287454103, "timer/env.step_min": 0.0029783248901367188, "timer/env.step_max": 1.5451009273529053, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.28807735443115234, "timer/replay.add_frac": 0.0009592078843248404, "timer/replay.add_avg": 0.00019650569879341907, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.00417637825012207, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02930283546447754, "timer/logger.write_frac": 9.756931733180652e-05, "timer/logger.write_avg": 0.02930283546447754, "timer/logger.write_min": 0.02930283546447754, "timer/logger.write_max": 0.02930283546447754, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.292646408081055, "timer/agent.policy_frac": 0.0376009960620236, "timer/agent.policy_avg": 0.0077030330205191365, "timer/agent.policy_min": 0.0058977603912353516, "timer/agent.policy_max": 0.019999980926513672, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06217217445373535, "timer/dataset_frac": 0.00020701398080873727, "timer/dataset_avg": 8.481879188776992e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00014519691467285156, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.6059818267822, "timer/agent.train_frac": 0.9076930312648237, "timer/agent.train_avg": 0.3719044772534546, "timer/agent.train_min": 0.3659231662750244, "timer/agent.train_max": 0.38382458686828613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2244865894317627, "timer/agent.report_frac": 0.0007474704387414866, "timer/agent.report_avg": 0.2244865894317627, "timer/agent.report_min": 0.2244865894317627, "timer/agent.report_max": 0.2244865894317627, "fps": 4.8812400575891814}
+{"step": 797319, "episode/length": 200.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.90000006556511, "episode/reward_rate": 0.06965174129353234}
+{"step": 797499, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06666666666666667}
+{"step": 797754, "episode/length": 254.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06274509803921569}
+{"step": 798042, "episode/length": 287.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.05555555555555555}
+{"step": 798234, "episode/length": 191.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07291666666666667}
+{"step": 798427, "episode/length": 192.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.07253886010362694}
+{"step": 798618, "episode/length": 190.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08376963350785341}
+{"step": 798663, "episode/length": 44.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 3.700000025331974, "episode/reward_rate": 0.06666666666666667}
+{"step": 798683, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.322893778483073, "train/action_min": 0.0, "train/action_std": 3.1073412133587732, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03937593834578163, "train/actor_opt_grad_steps": 398435.0, "train/actor_opt_loss": -13.755871494611105, "train/adv_mag": 0.3994230185117986, "train/adv_max": 0.31974730226728654, "train/adv_mean": 0.0017790857363656363, "train/adv_min": -0.363436752723323, "train/adv_std": 0.044015689132114254, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 6.931546034502943e-05, "train/cont_loss_std": 0.0021360870465415693, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.006486018427123794, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.8363331705018027e-05, "train/cont_pred": 0.9949560248189502, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.487810406419966, "train/dyn_loss_std": 8.883933080567253, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9803546369075775, "train/extr_critic_critic_opt_grad_steps": 398435.0, "train/extr_critic_critic_opt_loss": 15633.500461154514, "train/extr_critic_mag": 11.665142933527628, "train/extr_critic_max": 11.665142933527628, "train/extr_critic_mean": 3.501699783735805, "train/extr_critic_min": -0.39233098096317714, "train/extr_critic_std": 2.79574823876222, "train/extr_return_normed_mag": 1.39899476369222, "train/extr_return_normed_max": 1.39899476369222, "train/extr_return_normed_mean": 0.39272575245963204, "train/extr_return_normed_min": -0.08203143455709021, "train/extr_return_normed_std": 0.3146549326678117, "train/extr_return_rate": 0.8484827561510934, "train/extr_return_raw_mag": 12.543905602561104, "train/extr_return_raw_max": 12.543905602561104, "train/extr_return_raw_mean": 3.517636093828413, "train/extr_return_raw_min": -0.7401944920420647, "train/extr_return_raw_std": 2.8223232660028668, "train/extr_reward_mag": 1.0629671547147963, "train/extr_reward_max": 1.0629671547147963, "train/extr_reward_mean": 0.05996552709903982, "train/extr_reward_min": -0.6317479362090429, "train/extr_reward_std": 0.2350751000146071, "train/image_loss_mean": 3.320940011077457, "train/image_loss_std": 8.462685161166721, "train/model_loss_mean": 6.6700301501486035, "train/model_loss_std": 12.618764082590738, "train/model_opt_grad_norm": 24.015177369117737, "train/model_opt_grad_steps": 398113.0, "train/model_opt_loss": 16675.075439453125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7046043607923718, "train/policy_entropy_max": 2.7046043607923718, "train/policy_entropy_mean": 0.36132385085026425, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5643240205115743, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3603302840557363, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9944992305503951, "train/policy_randomness_mag": 0.9546066522598267, "train/policy_randomness_max": 0.9546066522598267, "train/policy_randomness_mean": 0.1275314645220836, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19918161402973864, "train/post_ent_mag": 55.81566339068942, "train/post_ent_max": 55.81566339068942, "train/post_ent_mean": 40.773939821455215, "train/post_ent_min": 19.422803203264873, "train/post_ent_std": 5.790336688359578, "train/prior_ent_mag": 76.81318961249457, "train/prior_ent_max": 76.81318961249457, "train/prior_ent_mean": 46.29651874966092, "train/prior_ent_min": 28.34352241622077, "train/prior_ent_std": 7.638754102918837, "train/rep_loss_mean": 5.487810406419966, "train/rep_loss_std": 8.883933080567253, "train/reward_avg": 0.04030083536377384, "train/reward_loss_mean": 0.056334571085042424, "train/reward_loss_std": 0.21462977594799465, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0242403083377414, "train/reward_neg_acc": 0.9932643473148346, "train/reward_neg_loss": 0.024855091818608344, "train/reward_pos_acc": 0.9891302949852414, "train/reward_pos_loss": 0.7252494311994977, "train/reward_pred": 0.040137778553697795, "train/reward_rate": 0.044989691840277776, "stats/sum_log_reward": 12.225000202655792, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 13.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.27663572132587433, "replay/size": 798620.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.487865130106608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2271727124849956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3568825721741, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.510777235031128, "timer/env.step_frac": 0.06828802143430991, "timer/env.step_avg": 0.01424359530210495, "timer/env.step_min": 0.0030024051666259766, "timer/env.step_max": 1.6898534297943115, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26908111572265625, "timer/replay.add_frac": 0.0008958713162099675, "timer/replay.add_avg": 0.0001868618859185113, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.004212141036987305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028949499130249023, "timer/logger.write_frac": 9.638367159205224e-05, "timer/logger.write_avg": 0.028949499130249023, "timer/logger.write_min": 0.028949499130249023, "timer/logger.write_max": 0.028949499130249023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.082189798355103, "timer/agent.policy_frac": 0.0368967399829505, "timer/agent.policy_avg": 0.007695965137746599, "timer/agent.policy_min": 0.005677461624145508, "timer/agent.policy_max": 0.017180442810058594, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06143903732299805, "timer/dataset_frac": 0.00020455345253570005, "timer/dataset_avg": 8.533199628194174e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002353191375732422, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.72778272628784, "timer/agent.train_frac": 0.8913655663007967, "timer/agent.train_avg": 0.3718441426753998, "timer/agent.train_min": 0.36510753631591797, "timer/agent.train_max": 0.3867158889770508, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184007167816162, "timer/agent.report_frac": 0.0007271373804099054, "timer/agent.report_avg": 0.2184007167816162, "timer/agent.report_min": 0.2184007167816162, "timer/agent.report_max": 0.2184007167816162, "fps": 4.794194613781712}
+{"step": 798888, "episode/length": 224.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.057777777777777775}
+{"step": 799072, "episode/length": 183.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.043478260869565216}
+{"step": 799285, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07042253521126761}
+{"step": 799539, "episode/length": 253.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.051181102362204724}
+{"step": 799778, "episode/length": 238.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.058577405857740586}
+{"step": 799949, "episode/length": 170.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08771929824561403}
+{"step": 800117, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.29101992325044, "train/action_min": 0.0, "train/action_std": 3.0824350404067777, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04014255080214688, "train/actor_opt_grad_steps": 399150.0, "train/actor_opt_loss": -11.02549362287555, "train/adv_mag": 0.41297473286239195, "train/adv_max": 0.3499301040256527, "train/adv_mean": 0.0025189966884835496, "train/adv_min": -0.36291186112753104, "train/adv_std": 0.044767913316756905, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 3.9945159585185986e-05, "train/cont_loss_std": 0.0011312410377259721, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016019459810569943, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 3.073007896748742e-05, "train/cont_pred": 0.9944978767717388, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 5.364660551850225, "train/dyn_loss_std": 8.870331455284441, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9544960218416133, "train/extr_critic_critic_opt_grad_steps": 399150.0, "train/extr_critic_critic_opt_loss": 15771.42049955986, "train/extr_critic_mag": 11.794686209987587, "train/extr_critic_max": 11.794686209987587, "train/extr_critic_mean": 3.63008495115898, "train/extr_critic_min": -0.43597924373519253, "train/extr_critic_std": 2.8912887136701126, "train/extr_return_normed_mag": 1.3885203532769645, "train/extr_return_normed_max": 1.3885203532769645, "train/extr_return_normed_mean": 0.4014084670745151, "train/extr_return_normed_min": -0.08456716529080566, "train/extr_return_normed_std": 0.32007177321004193, "train/extr_return_rate": 0.853799925723546, "train/extr_return_raw_mag": 12.665645599365234, "train/extr_return_raw_max": 12.665645599365234, "train/extr_return_raw_mean": 3.6530667291560643, "train/extr_return_raw_min": -0.7852943090485854, "train/extr_return_raw_std": 2.922856132749101, "train/extr_reward_mag": 1.0712601937038797, "train/extr_reward_max": 1.0712601937038797, "train/extr_reward_mean": 0.06195192233147755, "train/extr_reward_min": -0.6363628179254667, "train/extr_reward_std": 0.23956799423190908, "train/image_loss_mean": 3.138576887023281, "train/image_loss_std": 8.473484408687538, "train/model_loss_mean": 6.415567391355273, "train/model_loss_std": 12.65226828884071, "train/model_opt_grad_norm": 24.86914619929354, "train/model_opt_grad_steps": 398827.28169014084, "train/model_opt_loss": 16513.15625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.6853504886089916, "train/policy_entropy_max": 2.6853504886089916, "train/policy_entropy_mean": 0.3523861052284778, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5461964686991463, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3515499018027749, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 0.9840512326065923, "train/policy_randomness_mag": 0.9478108790558828, "train/policy_randomness_max": 0.9478108790558828, "train/policy_randomness_mean": 0.1243768303956784, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19278338887322116, "train/post_ent_mag": 55.12719318228708, "train/post_ent_max": 55.12719318228708, "train/post_ent_mean": 40.5486003714548, "train/post_ent_min": 19.90733855878803, "train/post_ent_std": 5.765119304119701, "train/prior_ent_mag": 76.73018184178312, "train/prior_ent_max": 76.73018184178312, "train/prior_ent_mean": 45.9116311409104, "train/prior_ent_min": 28.420036450238296, "train/prior_ent_std": 7.717492855770487, "train/rep_loss_mean": 5.364660551850225, "train/rep_loss_std": 8.870331455284441, "train/reward_avg": 0.0425822510790657, "train/reward_loss_mean": 0.058154264176395576, "train/reward_loss_std": 0.21757777119186564, "train/reward_max_data": 1.033802824960628, "train/reward_max_pred": 1.0345750963184195, "train/reward_neg_acc": 0.9938223210858627, "train/reward_neg_loss": 0.02442538995348232, "train/reward_pos_acc": 0.9870627908639504, "train/reward_pos_loss": 0.7367269900483144, "train/reward_pred": 0.0419732916732909, "train/reward_rate": 0.04742517605633803, "stats/sum_log_reward": 11.933333158493042, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2895578021804492, "replay/size": 800054.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.475191869163779e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.229335407166634e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9988648891449, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.40062928199768, "timer/env.step_frac": 0.06466900896163914, "timer/env.step_avg": 0.013529030182704101, "timer/env.step_min": 0.002910137176513672, "timer/env.step_max": 2.469299793243408, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28414297103881836, "timer/replay.add_frac": 0.0009471468205181857, "timer/replay.add_avg": 0.00019814712066863204, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.004958629608154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030480384826660156, "timer/logger.write_frac": 0.00010160166718605158, "timer/logger.write_avg": 0.030480384826660156, "timer/logger.write_min": 0.030480384826660156, "timer/logger.write_max": 0.030480384826660156, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041222572326660156, "timer/checkpoint.save_frac": 1.3740909433738242e-06, "timer/checkpoint.save_avg": 0.00041222572326660156, "timer/checkpoint.save_min": 0.00041222572326660156, "timer/checkpoint.save_max": 0.00041222572326660156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4629747867584229, "timer/agent.save_frac": 0.00487660107413746, "timer/agent.save_avg": 1.4629747867584229, "timer/agent.save_min": 1.4629747867584229, "timer/agent.save_max": 1.4629747867584229, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.775161743164062e-05, "timer/replay.save_frac": 3.2583995765371193e-07, "timer/replay.save_avg": 9.775161743164062e-05, "timer/replay.save_min": 9.775161743164062e-05, "timer/replay.save_max": 9.775161743164062e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.389600276947021, "timer/agent.policy_frac": 0.04129882385230093, "timer/agent.policy_avg": 0.008639888617117867, "timer/agent.policy_min": 0.005820751190185547, "timer/agent.policy_max": 1.4502618312835693, "timer/dataset_count": 717.0, "timer/dataset_total": 0.060556650161743164, "timer/dataset_frac": 0.0002018562643032665, "timer/dataset_avg": 8.445836842642004e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.15687346458435, "timer/agent.train_frac": 0.8905262810354424, "timer/agent.train_avg": 0.37260372868142866, "timer/agent.train_min": 0.36488890647888184, "timer/agent.train_max": 0.9047791957855225, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22141671180725098, "timer/agent.report_frac": 0.0007380584986182148, "timer/agent.report_avg": 0.22141671180725098, "timer/agent.report_min": 0.22141671180725098, "timer/agent.report_max": 0.22141671180725098, "fps": 4.779920792477573}
+{"step": 800244, "episode/length": 294.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.700000040233135, "episode/reward_rate": 0.030508474576271188}
+{"step": 800580, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.044642857142857144}
+{"step": 800745, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06060606060606061}
+{"step": 800939, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06701030927835051}
+{"step": 801297, "episode/length": 357.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.030726256983240222}
+{"step": 801583, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324547020164696, "train/action_min": 0.0, "train/action_std": 3.180184051797197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03950530524692825, "train/actor_opt_grad_steps": 399875.0, "train/actor_opt_loss": -11.891306651605142, "train/adv_mag": 0.4291884468213932, "train/adv_max": 0.3610985901307415, "train/adv_mean": 0.002185874241862424, "train/adv_min": -0.3788311121028823, "train/adv_std": 0.044974430288011964, "train/cont_avg": 0.9946684966216216, "train/cont_loss_mean": 1.6585905420064642e-05, "train/cont_loss_std": 0.000499816087892822, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0022784647878748925, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 2.8180885243385375e-06, "train/cont_pred": 0.9946754397572698, "train/cont_rate": 0.9946684966216216, "train/dyn_loss_mean": 5.411680102348328, "train/dyn_loss_std": 8.858875757939106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9796382253234451, "train/extr_critic_critic_opt_grad_steps": 399875.0, "train/extr_critic_critic_opt_loss": 15721.376741976352, "train/extr_critic_mag": 11.7736618325517, "train/extr_critic_max": 11.7736618325517, "train/extr_critic_mean": 3.6642027545619653, "train/extr_critic_min": -0.446197873837239, "train/extr_critic_std": 2.9076010826471688, "train/extr_return_normed_mag": 1.3821768970102877, "train/extr_return_normed_max": 1.3821768970102877, "train/extr_return_normed_mean": 0.4039922090801033, "train/extr_return_normed_min": -0.08448426410354473, "train/extr_return_normed_std": 0.32191255910171046, "train/extr_return_rate": 0.843494027047544, "train/extr_return_raw_mag": 12.601266152149922, "train/extr_return_raw_max": 12.601266152149922, "train/extr_return_raw_mean": 3.684137640772639, "train/extr_return_raw_min": -0.7690699346162178, "train/extr_return_raw_std": 2.9349516855703817, "train/extr_reward_mag": 1.0658685999947626, "train/extr_reward_max": 1.0658685999947626, "train/extr_reward_mean": 0.06014552460731687, "train/extr_reward_min": -0.6316785554628115, "train/extr_reward_std": 0.2361893243080861, "train/image_loss_mean": 3.193007986287813, "train/image_loss_std": 8.364772674199697, "train/model_loss_mean": 6.497225703419866, "train/model_loss_std": 12.492720359080547, "train/model_opt_grad_norm": 24.67882929621516, "train/model_opt_grad_steps": 399551.97297297296, "train/model_opt_loss": 21368.626095333613, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3277.027027027027, "train/policy_entropy_mag": 2.697721761626166, "train/policy_entropy_max": 2.697721761626166, "train/policy_entropy_mean": 0.37222882863637563, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5695542270267332, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37171892056594025, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0038484914882764, "train/policy_randomness_mag": 0.9521773948862746, "train/policy_randomness_max": 0.9521773948862746, "train/policy_randomness_mean": 0.1313804408182969, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2010276491778928, "train/post_ent_mag": 54.94842482901908, "train/post_ent_max": 54.94842482901908, "train/post_ent_mean": 40.633087158203125, "train/post_ent_min": 19.42227417713887, "train/post_ent_std": 5.7462234819257585, "train/prior_ent_mag": 76.70752179944837, "train/prior_ent_max": 76.70752179944837, "train/prior_ent_mean": 46.01455224526895, "train/prior_ent_min": 27.787413416682064, "train/prior_ent_std": 7.710462731284064, "train/rep_loss_mean": 5.411680102348328, "train/rep_loss_std": 8.858875757939106, "train/reward_avg": 0.04075432865804917, "train/reward_loss_mean": 0.057193139819680036, "train/reward_loss_std": 0.21958348738986092, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0202205020028192, "train/reward_neg_acc": 0.9939219548895553, "train/reward_neg_loss": 0.025121930646835954, "train/reward_pos_acc": 0.9862788343751753, "train/reward_pos_loss": 0.7320147382246481, "train/reward_pred": 0.0404856237457008, "train/reward_rate": 0.04558171452702703, "stats/sum_log_reward": 10.700000190734864, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.6, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 3.4, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6073211252689361, "replay/size": 801520.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.4868310613489087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2256357549482609e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3691852092743, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.509840965270996, "timer/env.step_frac": 0.051635925817306874, "timer/env.step_avg": 0.010579700522012958, "timer/env.step_min": 0.002798318862915039, "timer/env.step_max": 1.6435203552246094, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2844998836517334, "timer/replay.add_frac": 0.0009471673449242659, "timer/replay.add_avg": 0.00019406540494661215, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.004679203033447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03347015380859375, "timer/logger.write_frac": 0.00011143005160557434, "timer/logger.write_avg": 0.03347015380859375, "timer/logger.write_min": 0.03347015380859375, "timer/logger.write_max": 0.03347015380859375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.195006847381592, "timer/agent.policy_frac": 0.037270823368854455, "timer/agent.policy_avg": 0.007636430318814183, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.01781630516052246, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06195640563964844, "timer/dataset_frac": 0.0002062675157456047, "timer/dataset_avg": 8.452442788492284e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.5962312221527, "timer/agent.train_frac": 0.9075372729470518, "timer/agent.train_avg": 0.37189117492790275, "timer/agent.train_min": 0.36420512199401855, "timer/agent.train_max": 0.3848695755004883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951031684875488, "timer/agent.report_frac": 0.0007308017188774437, "timer/agent.report_avg": 0.21951031684875488, "timer/agent.report_min": 0.21951031684875488, "timer/agent.report_max": 0.21951031684875488, "fps": 4.880594955404047}
+{"step": 801665, "episode/length": 367.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.043478260869565216}
+{"step": 801827, "episode/length": 161.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.08024691358024691}
+{"step": 802035, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0673076923076923}
+{"step": 802244, "episode/length": 208.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07177033492822966}
+{"step": 802432, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0797872340425532}
+{"step": 802721, "episode/length": 288.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.05536332179930796}
+{"step": 802899, "episode/length": 177.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.06179775280898876}
+{"step": 803033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.319161309136285, "train/action_min": 0.0, "train/action_std": 3.2128826048639088, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0399210880148328, "train/actor_opt_grad_steps": 400605.0, "train/actor_opt_loss": -11.966741267177794, "train/adv_mag": 0.43508773172895115, "train/adv_max": 0.3692017023762067, "train/adv_mean": 0.0019240358875928603, "train/adv_min": -0.37895601449741256, "train/adv_std": 0.044645347735948034, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 8.318929167611739e-05, "train/cont_loss_std": 0.0025242955927724767, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.014038966436554605, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1561764261832272e-05, "train/cont_pred": 0.9951000958681107, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.255072322156694, "train/dyn_loss_std": 8.731252286169264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9530034702685144, "train/extr_critic_critic_opt_grad_steps": 400605.0, "train/extr_critic_critic_opt_loss": 15686.067097981771, "train/extr_critic_mag": 11.689196745554606, "train/extr_critic_max": 11.689196745554606, "train/extr_critic_mean": 3.6041024128595986, "train/extr_critic_min": -0.4134068472517861, "train/extr_critic_std": 2.8422236343224845, "train/extr_return_normed_mag": 1.3653888983858957, "train/extr_return_normed_max": 1.3653888983858957, "train/extr_return_normed_mean": 0.398369319529997, "train/extr_return_normed_min": -0.08195900311693549, "train/extr_return_normed_std": 0.3155397145698468, "train/extr_return_rate": 0.843378409743309, "train/extr_return_raw_mag": 12.429693155818516, "train/extr_return_raw_max": 12.429693155818516, "train/extr_return_raw_mean": 3.6216180755032434, "train/extr_return_raw_min": -0.7532531345884005, "train/extr_return_raw_std": 2.874024967352549, "train/extr_reward_mag": 1.0674107670783997, "train/extr_reward_max": 1.0674107670783997, "train/extr_reward_mean": 0.059725714226563774, "train/extr_reward_min": -0.6175056133005354, "train/extr_reward_std": 0.23504556756880549, "train/image_loss_mean": 3.1081716352038913, "train/image_loss_std": 8.14342016643948, "train/model_loss_mean": 6.316414303249783, "train/model_loss_std": 12.238050010469225, "train/model_opt_grad_norm": 24.5672760936949, "train/model_opt_grad_steps": 400281.0, "train/model_opt_loss": 15791.035793728299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6840167144934335, "train/policy_entropy_max": 2.6840167144934335, "train/policy_entropy_mean": 0.3941545635461807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941318625377284, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39425682462751865, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0237226105398602, "train/policy_randomness_mag": 0.9473401150769658, "train/policy_randomness_max": 0.9473401150769658, "train/policy_randomness_mean": 0.13911926342795292, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20970247209899956, "train/post_ent_mag": 55.27147886488173, "train/post_ent_max": 55.27147886488173, "train/post_ent_mean": 40.46863471137153, "train/post_ent_min": 19.0386596388287, "train/post_ent_std": 5.768346501721276, "train/prior_ent_mag": 76.75996134016249, "train/prior_ent_max": 76.75996134016249, "train/prior_ent_mean": 45.76716242896186, "train/prior_ent_min": 27.871339056226944, "train/prior_ent_std": 7.6552690797381935, "train/rep_loss_mean": 5.255072322156694, "train/rep_loss_std": 8.731252286169264, "train/reward_avg": 0.04049479107682904, "train/reward_loss_mean": 0.05511609138920903, "train/reward_loss_std": 0.20877055637538433, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0197548435793982, "train/reward_neg_acc": 0.9940430339839723, "train/reward_neg_loss": 0.024002154383601412, "train/reward_pos_acc": 0.9904298111796379, "train/reward_pos_loss": 0.7192870792415407, "train/reward_pred": 0.04028085991740227, "train/reward_rate": 0.044867621527777776, "stats/sum_log_reward": 13.385714530944824, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 2.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3108072876930237, "replay/size": 802970.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.466112860317888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395299714187095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3763678073883, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.568004608154297, "timer/env.step_frac": 0.061815797107117106, "timer/env.step_avg": 0.012805520419416757, "timer/env.step_min": 0.0027511119842529297, "timer/env.step_max": 1.6849937438964844, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.28773975372314453, "timer/replay.add_frac": 0.0009579307314470664, "timer/replay.add_avg": 0.00019844120946423761, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0046923160552978516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030394554138183594, "timer/logger.write_frac": 0.00010118823381496387, "timer/logger.write_avg": 0.030394554138183594, "timer/logger.write_min": 0.030394554138183594, "timer/logger.write_max": 0.030394554138183594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.183083295822144, "timer/agent.policy_frac": 0.03723023677745888, "timer/agent.policy_avg": 0.00771247123849803, "timer/agent.policy_min": 0.005736827850341797, "timer/agent.policy_max": 0.013198375701904297, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0610501766204834, "timer/dataset_frac": 0.00020324560505915326, "timer/dataset_avg": 8.4207140166184e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00017786026000976562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.56588649749756, "timer/agent.train_frac": 0.8974270794510456, "timer/agent.train_avg": 0.3718150158586173, "timer/agent.train_min": 0.36560964584350586, "timer/agent.train_max": 0.38804101943969727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017669677734375, "timer/agent.report_frac": 0.0007330027271603758, "timer/agent.report_avg": 0.22017669677734375, "timer/agent.report_min": 0.22017669677734375, "timer/agent.report_max": 0.22017669677734375, "fps": 4.82721173157373}
+{"step": 803110, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07109004739336493}
+{"step": 803374, "episode/length": 263.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.04924242424242424}
+{"step": 803582, "episode/length": 207.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04807692307692308}
+{"step": 803807, "episode/length": 224.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06222222222222222}
+{"step": 804209, "episode/length": 401.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.03731343283582089}
+{"step": 804454, "episode/length": 244.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.061224489795918366}
+{"step": 804467, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.345523410373264, "train/action_min": 0.0, "train/action_std": 3.150300923320982, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03992757964361873, "train/actor_opt_grad_steps": 401325.0, "train/actor_opt_loss": -13.309140886697504, "train/adv_mag": 0.4412247919374042, "train/adv_max": 0.34604405611753464, "train/adv_mean": 0.0018379429543023838, "train/adv_min": -0.4045669473707676, "train/adv_std": 0.04558077433870898, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 9.288187380304988e-06, "train/cont_loss_std": 0.0002421794574366408, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000169321160984263, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 8.439180004889598e-06, "train/cont_pred": 0.9951374845372306, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.378105772866143, "train/dyn_loss_std": 8.879611909389496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0116152962048848, "train/extr_critic_critic_opt_grad_steps": 401325.0, "train/extr_critic_critic_opt_loss": 15768.152248806424, "train/extr_critic_mag": 12.015627278221977, "train/extr_critic_max": 12.015627278221977, "train/extr_critic_mean": 3.6716194450855255, "train/extr_critic_min": -0.37656087179978687, "train/extr_critic_std": 2.914234201113383, "train/extr_return_normed_mag": 1.388549170560307, "train/extr_return_normed_max": 1.388549170560307, "train/extr_return_normed_mean": 0.4000999985469712, "train/extr_return_normed_min": -0.0777071306688918, "train/extr_return_normed_std": 0.3210118040442467, "train/extr_return_rate": 0.8431134704086516, "train/extr_return_raw_mag": 12.740886661741468, "train/extr_return_raw_max": 12.740886661741468, "train/extr_return_raw_mean": 3.688462280564838, "train/extr_return_raw_min": -0.6881100109053983, "train/extr_return_raw_std": 2.9403250184324055, "train/extr_reward_mag": 1.0654537247286902, "train/extr_reward_max": 1.0654537247286902, "train/extr_reward_mean": 0.06013276495246424, "train/extr_reward_min": -0.6097718560033374, "train/extr_reward_std": 0.235889268004232, "train/image_loss_mean": 3.2116292085912495, "train/image_loss_std": 8.439016607072618, "train/model_loss_mean": 6.494629111554888, "train/model_loss_std": 12.602579500940111, "train/model_opt_grad_norm": 26.427737434705097, "train/model_opt_grad_steps": 401000.4166666667, "train/model_opt_loss": 17140.142144097223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6898406545321145, "train/policy_entropy_max": 2.6898406545321145, "train/policy_entropy_mean": 0.36940078540808624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5569948318103949, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37045317826171714, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0060217546092138, "train/policy_randomness_mag": 0.9493957103954421, "train/policy_randomness_max": 0.9493957103954421, "train/policy_randomness_mean": 0.13038226455036137, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19659473322745827, "train/post_ent_mag": 54.85023260116577, "train/post_ent_max": 54.85023260116577, "train/post_ent_mean": 40.44123331705729, "train/post_ent_min": 19.829314841164482, "train/post_ent_std": 5.65265593263838, "train/prior_ent_mag": 76.57461272345648, "train/prior_ent_max": 76.57461272345648, "train/prior_ent_mean": 45.78169435924954, "train/prior_ent_min": 28.055826637479996, "train/prior_ent_std": 7.589686559306251, "train/rep_loss_mean": 5.378105772866143, "train/rep_loss_std": 8.879611909389496, "train/reward_avg": 0.03972303562073244, "train/reward_loss_mean": 0.05612716751380099, "train/reward_loss_std": 0.21784908179607657, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.03043246600363, "train/reward_neg_acc": 0.9938954959313074, "train/reward_neg_loss": 0.025209243254115183, "train/reward_pos_acc": 0.9910551433761915, "train/reward_pos_loss": 0.7268550536698766, "train/reward_pred": 0.0395928333616919, "train/reward_rate": 0.044230143229166664, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 16.833333333333332, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 2.1666666666666665, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4409724523623784, "replay/size": 804404.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4289712520157777e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2427817827488089e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0970952510834, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.541285276412964, "timer/env.step_frac": 0.06511654256454326, "timer/env.step_avg": 0.013627116650218245, "timer/env.step_min": 0.0028574466705322266, "timer/env.step_max": 2.576179027557373, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2810513973236084, "timer/replay.add_frac": 0.0009365348807807022, "timer/replay.add_avg": 0.00019599121152273947, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.004760026931762695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02779364585876465, "timer/logger.write_frac": 9.261551110819794e-05, "timer/logger.write_avg": 0.02779364585876465, "timer/logger.write_min": 0.02779364585876465, "timer/logger.write_max": 0.02779364585876465, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001690387725830078, "timer/checkpoint.save_frac": 5.632802691461492e-07, "timer/checkpoint.save_avg": 0.0001690387725830078, "timer/checkpoint.save_min": 0.0001690387725830078, "timer/checkpoint.save_max": 0.0001690387725830078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2309107780456543, "timer/agent.save_frac": 0.0041017084054605175, "timer/agent.save_avg": 1.2309107780456543, "timer/agent.save_min": 1.2309107780456543, "timer/agent.save_max": 1.2309107780456543, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.127357482910156e-05, "timer/replay.save_frac": 2.0417916667215845e-07, "timer/replay.save_avg": 6.127357482910156e-05, "timer/replay.save_min": 6.127357482910156e-05, "timer/replay.save_max": 6.127357482910156e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.279852867126465, "timer/agent.policy_frac": 0.04091959922788401, "timer/agent.policy_avg": 0.008563356253226266, "timer/agent.policy_min": 0.0056498050689697266, "timer/agent.policy_max": 1.2299573421478271, "timer/dataset_count": 717.0, "timer/dataset_total": 0.061919450759887695, "timer/dataset_frac": 0.00020633138987260545, "timer/dataset_avg": 8.635906661072203e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017189979553222656, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.21645426750183, "timer/agent.train_frac": 0.8904333247342126, "timer/agent.train_avg": 0.3726868260355674, "timer/agent.train_min": 0.3653998374938965, "timer/agent.train_max": 0.8384568691253662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22273993492126465, "timer/agent.report_frac": 0.0007422262275977846, "timer/agent.report_avg": 0.22273993492126465, "timer/agent.report_min": 0.22273993492126465, "timer/agent.report_max": 0.22273993492126465, "fps": 4.778362323816213}
+{"step": 804662, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0673076923076923}
+{"step": 804896, "episode/length": 233.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05555555555555555}
+{"step": 805063, "episode/length": 166.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07784431137724551}
+{"step": 805259, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0663265306122449}
+{"step": 805305, "episode/length": 45.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06521739130434782}
+{"step": 805516, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
+{"step": 805736, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05}
+{"step": 805887, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.059602649006622516}
+{"step": 805907, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.297153896755642, "train/action_min": 0.0, "train/action_std": 3.140990432765749, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03921708304228054, "train/actor_opt_grad_steps": 402045.0, "train/actor_opt_loss": -11.915297872490353, "train/adv_mag": 0.39471238230665523, "train/adv_max": 0.338010936561558, "train/adv_mean": 0.0019910896263076617, "train/adv_min": -0.3475582367844052, "train/adv_std": 0.04430818511173129, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 4.7984764778321834e-05, "train/cont_loss_std": 0.0014251623818747955, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008303870649571523, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 7.529830265282398e-06, "train/cont_pred": 0.9949744757678773, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.318474590778351, "train/dyn_loss_std": 8.820048815674252, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9614287490646044, "train/extr_critic_critic_opt_grad_steps": 402045.0, "train/extr_critic_critic_opt_loss": 15627.82191297743, "train/extr_critic_mag": 12.06925536526574, "train/extr_critic_max": 12.06925536526574, "train/extr_critic_mean": 3.656229750977622, "train/extr_critic_min": -0.3646992842356364, "train/extr_critic_std": 2.8942041827572718, "train/extr_return_normed_mag": 1.3963762025038402, "train/extr_return_normed_max": 1.3963762025038402, "train/extr_return_normed_mean": 0.3920791993538539, "train/extr_return_normed_min": -0.07803040057317251, "train/extr_return_normed_std": 0.3159034171452125, "train/extr_return_rate": 0.8559290435579088, "train/extr_return_raw_mag": 12.962778025203281, "train/extr_return_raw_max": 12.962778025203281, "train/extr_return_raw_mean": 3.674631824096044, "train/extr_return_raw_min": -0.6733205020427704, "train/extr_return_raw_std": 2.921820981634988, "train/extr_reward_mag": 1.0653312702973683, "train/extr_reward_max": 1.0653312702973683, "train/extr_reward_mean": 0.06155024541334973, "train/extr_reward_min": -0.6373553954892688, "train/extr_reward_std": 0.23833145366774666, "train/image_loss_mean": 3.022855391105016, "train/image_loss_std": 7.881133304701911, "train/model_loss_mean": 6.269554482565986, "train/model_loss_std": 12.039240466223823, "train/model_opt_grad_norm": 23.84107832113902, "train/model_opt_grad_steps": 401720.0, "train/model_opt_loss": 18713.533542209203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2986.1111111111113, "train/policy_entropy_mag": 2.6959228151374393, "train/policy_entropy_max": 2.6959228151374393, "train/policy_entropy_mean": 0.37963504696057904, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5821922061343988, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3799936330566804, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0112411479155223, "train/policy_randomness_mag": 0.9515424486663606, "train/policy_randomness_max": 0.9515424486663606, "train/policy_randomness_mean": 0.13399451122515732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2054882982952727, "train/post_ent_mag": 55.31217357847426, "train/post_ent_max": 55.31217357847426, "train/post_ent_mean": 40.577693939208984, "train/post_ent_min": 19.369955619176228, "train/post_ent_std": 5.738439699014028, "train/prior_ent_mag": 76.66897688971625, "train/prior_ent_max": 76.66897688971625, "train/prior_ent_mean": 45.88329601287842, "train/prior_ent_min": 27.6748153368632, "train/prior_ent_std": 7.698448790444268, "train/rep_loss_mean": 5.318474590778351, "train/rep_loss_std": 8.820048815674252, "train/reward_avg": 0.041731770486674376, "train/reward_loss_mean": 0.05556640913709998, "train/reward_loss_std": 0.21060869118405712, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0284971826606326, "train/reward_neg_acc": 0.9942646755112542, "train/reward_neg_loss": 0.023104015504941344, "train/reward_pos_acc": 0.9891426157620218, "train/reward_pos_loss": 0.7257041037082672, "train/reward_pred": 0.04148176762585839, "train/reward_rate": 0.046223958333333336, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.25896077789366245, "replay/size": 805844.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4701493051317e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2335264020495944e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3078291416168, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.445473194122314, "timer/env.step_frac": 0.06808171885682274, "timer/env.step_avg": 0.014198245273696052, "timer/env.step_min": 0.0028998851776123047, "timer/env.step_max": 1.6832051277160645, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27193617820739746, "timer/replay.add_frac": 0.0009055247709814449, "timer/replay.add_avg": 0.00018884456819958157, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0046155452728271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028811216354370117, "timer/logger.write_frac": 9.593894517076858e-05, "timer/logger.write_avg": 0.028811216354370117, "timer/logger.write_min": 0.028811216354370117, "timer/logger.write_max": 0.028811216354370117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.086459398269653, "timer/agent.policy_frac": 0.03691698424899068, "timer/agent.policy_avg": 0.007698930137687259, "timer/agent.policy_min": 0.005723714828491211, "timer/agent.policy_max": 0.015546798706054688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.061105966567993164, "timer/dataset_frac": 0.00020347776727185253, "timer/dataset_avg": 8.486939801110162e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00021886825561523438, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.73103284835815, "timer/agent.train_frac": 0.8915219880001984, "timer/agent.train_avg": 0.3718486567338308, "timer/agent.train_min": 0.3656957149505615, "timer/agent.train_max": 0.3895847797393799, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951675415039062, "timer/agent.report_frac": 0.000730972465079732, "timer/agent.report_avg": 0.21951675415039062, "timer/agent.report_min": 0.21951675415039062, "timer/agent.report_max": 0.21951675415039062, "fps": 4.795014639896144}
+{"step": 806040, "episode/length": 152.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.0784313725490196}
+{"step": 806276, "episode/length": 235.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.0635593220338983}
+{"step": 806472, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07142857142857142}
+{"step": 806695, "episode/length": 222.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07174887892376682}
+{"step": 806876, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06629834254143646}
+{"step": 807060, "episode/length": 183.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.06521739130434782}
+{"step": 807246, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07526881720430108}
+{"step": 807357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.349119398328993, "train/action_min": 0.0, "train/action_std": 3.2077493800057306, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03952123517067068, "train/actor_opt_grad_steps": 402765.0, "train/actor_opt_loss": -12.630689189044965, "train/adv_mag": 0.390597165044811, "train/adv_max": 0.31093020861347515, "train/adv_mean": 0.0014556400766170758, "train/adv_min": -0.3572699415187041, "train/adv_std": 0.04380586086254981, "train/cont_avg": 0.9954969618055556, "train/cont_loss_mean": 4.7275041286493684e-05, "train/cont_loss_std": 0.00144752365270209, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007174519093310276, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 5.268071195274615e-06, "train/cont_pred": 0.9955048552817769, "train/cont_rate": 0.9954969618055556, "train/dyn_loss_mean": 5.573784742090437, "train/dyn_loss_std": 8.838809695508745, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9526571780443192, "train/extr_critic_critic_opt_grad_steps": 402765.0, "train/extr_critic_critic_opt_loss": 15679.536661783854, "train/extr_critic_mag": 11.984341025352478, "train/extr_critic_max": 11.984341025352478, "train/extr_critic_mean": 3.642520937654707, "train/extr_critic_min": -0.3535942981640498, "train/extr_critic_std": 2.8099242283238306, "train/extr_return_normed_mag": 1.3809100223912134, "train/extr_return_normed_max": 1.3809100223912134, "train/extr_return_normed_mean": 0.3917408672471841, "train/extr_return_normed_min": -0.07769832760095596, "train/extr_return_normed_std": 0.3064638413488865, "train/extr_return_rate": 0.8611464202404022, "train/extr_return_raw_mag": 12.797047932942709, "train/extr_return_raw_max": 12.797047932942709, "train/extr_return_raw_mean": 3.6559547748830585, "train/extr_return_raw_min": -0.6824436858296394, "train/extr_return_raw_std": 2.8318293458885617, "train/extr_reward_mag": 1.0688793228732214, "train/extr_reward_max": 1.0688793228732214, "train/extr_reward_mean": 0.060301161733352475, "train/extr_reward_min": -0.634803326593505, "train/extr_reward_std": 0.23548480599290794, "train/image_loss_mean": 3.2465039127402835, "train/image_loss_std": 8.531623933050367, "train/model_loss_mean": 6.645710964997609, "train/model_loss_std": 12.679073439704048, "train/model_opt_grad_norm": 25.38031240304311, "train/model_opt_grad_steps": 402439.0833333333, "train/model_opt_loss": 17928.504489474828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.688529153664907, "train/policy_entropy_max": 2.688529153664907, "train/policy_entropy_mean": 0.3812345028337505, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5700896489951346, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38048811112013126, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0093696721725993, "train/policy_randomness_mag": 0.9489328099621667, "train/policy_randomness_max": 0.9489328099621667, "train/policy_randomness_mean": 0.13455904958148798, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20121662877500057, "train/post_ent_mag": 55.49032190110948, "train/post_ent_max": 55.49032190110948, "train/post_ent_mean": 40.53922181659274, "train/post_ent_min": 19.535534964667427, "train/post_ent_std": 5.815251727898915, "train/prior_ent_mag": 76.64144865671794, "train/prior_ent_max": 76.64144865671794, "train/prior_ent_mean": 46.13189379374186, "train/prior_ent_min": 27.898534509870743, "train/prior_ent_std": 7.630615260865953, "train/rep_loss_mean": 5.573784742090437, "train/rep_loss_std": 8.838809695508745, "train/reward_avg": 0.041781954674257174, "train/reward_loss_mean": 0.05488895619702008, "train/reward_loss_std": 0.21268495006693733, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0218163463804457, "train/reward_neg_acc": 0.9934586418999566, "train/reward_neg_loss": 0.022405112550283473, "train/reward_pos_acc": 0.9891964677307341, "train/reward_pos_loss": 0.729910309943888, "train/reward_pred": 0.04147961259716087, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 12.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.27626589792115347, "replay/size": 807294.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.464961874073949e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.252088053473111e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37304401397705, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.625064373016357, "timer/env.step_frac": 0.06200644413401387, "timer/env.step_avg": 0.012844871981390591, "timer/env.step_min": 0.0027654170989990234, "timer/env.step_max": 1.6624178886413574, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2764449119567871, "timer/replay.add_frac": 0.0009203386171494254, "timer/replay.add_avg": 0.00019065166341847387, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.004801511764526367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027922630310058594, "timer/logger.write_frac": 9.295984065986723e-05, "timer/logger.write_avg": 0.027922630310058594, "timer/logger.write_min": 0.027922630310058594, "timer/logger.write_max": 0.027922630310058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.146238803863525, "timer/agent.policy_frac": 0.037107986305671505, "timer/agent.policy_avg": 0.007687061244043811, "timer/agent.policy_min": 0.005740642547607422, "timer/agent.policy_max": 0.019211530685424805, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06196856498718262, "timer/dataset_frac": 0.00020630534670847188, "timer/dataset_avg": 8.547388274094154e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.5478024482727, "timer/agent.train_frac": 0.8973768046766873, "timer/agent.train_avg": 0.3717900723424451, "timer/agent.train_min": 0.3658106327056885, "timer/agent.train_max": 0.3872644901275635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22320270538330078, "timer/agent.report_frac": 0.0007430850065657511, "timer/agent.report_avg": 0.22320270538330078, "timer/agent.report_min": 0.22320270538330078, "timer/agent.report_max": 0.22320270538330078, "fps": 4.827253502559596}
+{"step": 807412, "episode/length": 165.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04216867469879518}
+{"step": 807666, "episode/length": 253.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.047244094488188976}
+{"step": 807842, "episode/length": 175.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07954545454545454}
+{"step": 807982, "episode/length": 139.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.07142857142857142}
+{"step": 808191, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05741626794258373}
+{"step": 808341, "episode/length": 149.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07333333333333333}
+{"step": 808553, "episode/length": 211.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07075471698113207}
+{"step": 808764, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05687203791469194}
+{"step": 808777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359296771841989, "train/action_min": 0.0, "train/action_std": 3.2054310919533315, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04002899235822785, "train/actor_opt_grad_steps": 403480.0, "train/actor_opt_loss": -12.030616731710836, "train/adv_mag": 0.41341276068083, "train/adv_max": 0.35774382780975017, "train/adv_mean": 0.002094465309428543, "train/adv_min": -0.35710098604920887, "train/adv_std": 0.044815872704059304, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 6.42862649434571e-05, "train/cont_loss_std": 0.0019245660953594113, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.0014261348439290455, "train/cont_pos_acc": 0.9999861297473102, "train/cont_pos_loss": 5.1876323588728576e-05, "train/cont_pred": 0.9949233523556884, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.511692174723451, "train/dyn_loss_std": 8.90664061694078, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9583622939150098, "train/extr_critic_critic_opt_grad_steps": 403480.0, "train/extr_critic_critic_opt_loss": 15524.310560629401, "train/extr_critic_mag": 11.68494189625055, "train/extr_critic_max": 11.68494189625055, "train/extr_critic_mean": 3.770414527033416, "train/extr_critic_min": -0.3813448103380875, "train/extr_critic_std": 2.856829666755569, "train/extr_return_normed_mag": 1.3660696593808457, "train/extr_return_normed_max": 1.3660696593808457, "train/extr_return_normed_mean": 0.41143051944148373, "train/extr_return_normed_min": -0.08336696978396094, "train/extr_return_normed_std": 0.31683502251833257, "train/extr_return_rate": 0.8584709243035652, "train/extr_return_raw_mag": 12.494223473777234, "train/extr_return_raw_max": 12.494223473777234, "train/extr_return_raw_mean": 3.7895069760336004, "train/extr_return_raw_min": -0.7217695901931171, "train/extr_return_raw_std": 2.888959589138837, "train/extr_reward_mag": 1.0714446893880065, "train/extr_reward_max": 1.0714446893880065, "train/extr_reward_mean": 0.061871409101385465, "train/extr_reward_min": -0.6151533059670892, "train/extr_reward_std": 0.23858850564755185, "train/image_loss_mean": 3.2140852716607107, "train/image_loss_std": 8.435640328366992, "train/model_loss_mean": 6.579151153564453, "train/model_loss_std": 12.638393321507413, "train/model_opt_grad_norm": 24.30285287239182, "train/model_opt_grad_steps": 403153.4788732394, "train/model_opt_loss": 16447.8779159331, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7084720907076982, "train/policy_entropy_max": 2.7084720907076982, "train/policy_entropy_mean": 0.3817989076946823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836488117634411, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38147258989407984, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0116969666010898, "train/policy_randomness_mag": 0.955971790031648, "train/policy_randomness_max": 0.955971790031648, "train/policy_randomness_mean": 0.13475825899923352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20600241737466463, "train/post_ent_mag": 55.46589612289214, "train/post_ent_max": 55.46589612289214, "train/post_ent_mean": 40.50679564140212, "train/post_ent_min": 19.435674600198237, "train/post_ent_std": 5.757776670052972, "train/prior_ent_mag": 76.62709453743948, "train/prior_ent_max": 76.62709453743948, "train/prior_ent_mean": 46.00419557598275, "train/prior_ent_min": 28.22958943541621, "train/prior_ent_std": 7.76356617833527, "train/rep_loss_mean": 5.511692174723451, "train/rep_loss_std": 8.90664061694078, "train/reward_avg": 0.042865591884498865, "train/reward_loss_mean": 0.05798623784327171, "train/reward_loss_std": 0.21520046532993586, "train/reward_max_data": 1.0309859228805758, "train/reward_max_pred": 1.0289177424471143, "train/reward_neg_acc": 0.9932042461046031, "train/reward_neg_loss": 0.024648170918226242, "train/reward_pos_acc": 0.9893958585363039, "train/reward_pos_loss": 0.7298197376895958, "train/reward_pred": 0.0423633419239605, "train/reward_rate": 0.047328895246478875, "stats/sum_log_reward": 10.475000202655792, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.293147386983037, "replay/size": 808714.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.530106074373487e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2361667525600379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2792217731476, "timer/env.step_count": 1420.0, "timer/env.step_total": 21.92934799194336, "timer/env.step_frac": 0.07302985488789616, "timer/env.step_avg": 0.015443202811227718, "timer/env.step_min": 0.0026922225952148438, "timer/env.step_max": 1.9306364059448242, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.30519700050354004, "timer/replay.add_frac": 0.0010163773527230855, "timer/replay.add_avg": 0.00021492746514333806, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0050852298736572266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027719497680664062, "timer/logger.write_frac": 9.231240682249188e-05, "timer/logger.write_avg": 0.027719497680664062, "timer/logger.write_min": 0.027719497680664062, "timer/logger.write_max": 0.027719497680664062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003123283386230469, "timer/checkpoint.save_frac": 1.0401263756404766e-06, "timer/checkpoint.save_avg": 0.0003123283386230469, "timer/checkpoint.save_min": 0.0003123283386230469, "timer/checkpoint.save_max": 0.0003123283386230469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.22764253616333, "timer/agent.save_frac": 0.004088336611884452, "timer/agent.save_avg": 1.22764253616333, "timer/agent.save_min": 1.22764253616333, "timer/agent.save_max": 1.22764253616333, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2628703592178306e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.729319095611572, "timer/agent.policy_frac": 0.04239160811875359, "timer/agent.policy_avg": 0.008964309222261671, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 1.2124359607696533, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06109786033630371, "timer/dataset_frac": 0.0002034701567944698, "timer/dataset_avg": 8.605332441732917e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.5485370159149, "timer/agent.train_frac": 0.8810084675648114, "timer/agent.train_avg": 0.372603573261852, "timer/agent.train_min": 0.36520814895629883, "timer/agent.train_max": 0.8789618015289307, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198045253753662, "timer/agent.report_frac": 0.0007320004497061814, "timer/agent.report_avg": 0.2198045253753662, "timer/agent.report_min": 0.2198045253753662, "timer/agent.report_max": 0.2198045253753662, "fps": 4.72883386323365}
+{"step": 808937, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
+{"step": 808979, "episode/length": 41.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.11904761904761904}
+{"step": 809236, "episode/length": 256.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.058365758754863814}
+{"step": 809297, "episode/length": 60.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.13114754098360656}
+{"step": 809475, "episode/length": 177.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06741573033707865}
+{"step": 809698, "episode/length": 222.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.03587443946188341}
+{"step": 809875, "episode/length": 176.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07344632768361582}
+{"step": 810075, "episode/length": 199.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.055}
+{"step": 810219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.343219913848459, "train/action_min": 0.0, "train/action_std": 3.182250826326135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03932777151771604, "train/actor_opt_grad_steps": 404200.0, "train/actor_opt_loss": -13.03708416223526, "train/adv_mag": 0.4341594850363797, "train/adv_max": 0.35401592168905965, "train/adv_mean": 0.002387192463162411, "train/adv_min": -0.3871199264101786, "train/adv_std": 0.04522461321664183, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 0.00018239773924623733, "train/cont_loss_std": 0.005769709960906598, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.057540904053341085, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.3852179390144943e-05, "train/cont_pred": 0.9947441751009798, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.301018166215452, "train/dyn_loss_std": 8.713749839834971, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9372053048382066, "train/extr_critic_critic_opt_grad_steps": 404200.0, "train/extr_critic_critic_opt_loss": 15642.908617829624, "train/extr_critic_mag": 12.048239707946777, "train/extr_critic_max": 12.048239707946777, "train/extr_critic_mean": 3.6917366556925315, "train/extr_critic_min": -0.37722544474144504, "train/extr_critic_std": 2.968431982275558, "train/extr_return_normed_mag": 1.3894070403216636, "train/extr_return_normed_max": 1.3894070403216636, "train/extr_return_normed_mean": 0.40008566232576764, "train/extr_return_normed_min": -0.08130001286937766, "train/extr_return_normed_std": 0.3262258449645892, "train/extr_return_rate": 0.8433986575636145, "train/extr_return_raw_mag": 12.82771124905103, "train/extr_return_raw_max": 12.82771124905103, "train/extr_return_raw_mean": 3.7137587593026358, "train/extr_return_raw_min": -0.7215038521649086, "train/extr_return_raw_std": 3.005685727890224, "train/extr_reward_mag": 1.0714621837824991, "train/extr_reward_max": 1.0714621837824991, "train/extr_reward_mean": 0.06156745894926868, "train/extr_reward_min": -0.6373430849754647, "train/extr_reward_std": 0.2383581132513203, "train/image_loss_mean": 3.052616993041888, "train/image_loss_std": 8.093202035721035, "train/model_loss_mean": 6.28997753744256, "train/model_loss_std": 12.154211305592158, "train/model_opt_grad_norm": 23.811276226827545, "train/model_opt_grad_steps": 403873.0, "train/model_opt_loss": 17761.94123234161, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2842.4657534246576, "train/policy_entropy_mag": 2.7140884693354774, "train/policy_entropy_max": 2.7140884693354774, "train/policy_entropy_mean": 0.3798512502075875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5837422674649382, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3788218690107947, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0111706338516653, "train/policy_randomness_mag": 0.957954125045097, "train/policy_randomness_max": 0.957954125045097, "train/policy_randomness_mean": 0.1340708216167476, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060354035602857, "train/post_ent_mag": 55.026754248632145, "train/post_ent_max": 55.026754248632145, "train/post_ent_mean": 40.618704338596295, "train/post_ent_min": 19.736523575978737, "train/post_ent_std": 5.682369055813306, "train/prior_ent_mag": 76.74521960950878, "train/prior_ent_max": 76.74521960950878, "train/prior_ent_mean": 45.937481449074944, "train/prior_ent_min": 28.019761176958475, "train/prior_ent_std": 7.60462176309873, "train/rep_loss_mean": 5.301018166215452, "train/rep_loss_std": 8.713749839834971, "train/reward_avg": 0.04125240802356642, "train/reward_loss_mean": 0.056567247038426464, "train/reward_loss_std": 0.2115292149047329, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0245196133443755, "train/reward_neg_acc": 0.993890595762697, "train/reward_neg_loss": 0.024434206280091852, "train/reward_pos_acc": 0.9886219730115917, "train/reward_pos_loss": 0.7253474331881902, "train/reward_pred": 0.04081797079272466, "train/reward_rate": 0.0459251926369863, "stats/sum_log_reward": 8.975000262260437, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34637443721294403, "replay/size": 810156.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4884837728598246e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516355382255312e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3626871109009, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.06855297088623, "timer/env.step_frac": 0.06681440082960922, "timer/env.step_avg": 0.013917165721835111, "timer/env.step_min": 0.0028395652770996094, "timer/env.step_max": 1.724672794342041, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28270864486694336, "timer/replay.add_frac": 0.0009412242498768189, "timer/replay.add_avg": 0.00019605315178012716, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.004533290863037109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02981710433959961, "timer/logger.write_frac": 9.927033422959904e-05, "timer/logger.write_avg": 0.02981710433959961, "timer/logger.write_min": 0.02981710433959961, "timer/logger.write_max": 0.02981710433959961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.071804523468018, "timer/agent.policy_frac": 0.03686145116746825, "timer/agent.policy_avg": 0.0076780891286185975, "timer/agent.policy_min": 0.005781650543212891, "timer/agent.policy_max": 0.018243789672851562, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06146955490112305, "timer/dataset_frac": 0.00020465110194738356, "timer/dataset_avg": 8.525597073664777e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1521489620209, "timer/agent.train_frac": 0.8927611866217353, "timer/agent.train_avg": 0.37191698885162394, "timer/agent.train_min": 0.36609339714050293, "timer/agent.train_max": 0.38413405418395996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22528791427612305, "timer/agent.report_frac": 0.0007500529324833931, "timer/agent.report_avg": 0.22528791427612305, "timer/agent.report_min": 0.22528791427612305, "timer/agent.report_max": 0.22528791427612305, "fps": 4.80080182604174}
+{"step": 810271, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 810447, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06818181818181818}
+{"step": 810861, "episode/length": 413.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.04106280193236715}
+{"step": 811145, "episode/length": 283.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.04929577464788732}
+{"step": 811258, "episode/length": 112.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05309734513274336}
+{"step": 811440, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06593406593406594}
+{"step": 811654, "episode/length": 213.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07009345794392523}
+{"step": 811665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3760732014973955, "train/action_min": 0.0, "train/action_std": 3.238434510098563, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03917061366761724, "train/actor_opt_grad_steps": 404925.0, "train/actor_opt_loss": -13.2588131899635, "train/adv_mag": 0.4017208947075738, "train/adv_max": 0.34228839145766365, "train/adv_mean": 0.0016693264927501634, "train/adv_min": -0.35617646016180515, "train/adv_std": 0.04400828630766935, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 6.772667906160577e-05, "train/cont_loss_std": 0.0021082361749667675, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00868760492489409, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 8.396227572167922e-06, "train/cont_pred": 0.9947894952363439, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.396852923764123, "train/dyn_loss_std": 8.810502350330353, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9646772402856085, "train/extr_critic_critic_opt_grad_steps": 404925.0, "train/extr_critic_critic_opt_loss": 15554.567206488715, "train/extr_critic_mag": 11.89551187886132, "train/extr_critic_max": 11.89551187886132, "train/extr_critic_mean": 3.685748474465476, "train/extr_critic_min": -0.3759792612658607, "train/extr_critic_std": 2.922632631328371, "train/extr_return_normed_mag": 1.3922812872462802, "train/extr_return_normed_max": 1.3922812872462802, "train/extr_return_normed_mean": 0.3989287701745828, "train/extr_return_normed_min": -0.07852169581585461, "train/extr_return_normed_std": 0.32060719943708843, "train/extr_return_rate": 0.8458351857132382, "train/extr_return_raw_mag": 12.844279792573717, "train/extr_return_raw_max": 12.844279792573717, "train/extr_return_raw_mean": 3.701092825995551, "train/extr_return_raw_min": -0.6938545741140842, "train/extr_return_raw_std": 2.951298952102661, "train/extr_reward_mag": 1.0771178536944919, "train/extr_reward_max": 1.0771178536944919, "train/extr_reward_mean": 0.06191307839213146, "train/extr_reward_min": -0.6174684779511558, "train/extr_reward_std": 0.23890021733111805, "train/image_loss_mean": 3.0933129919899836, "train/image_loss_std": 8.253838837146759, "train/model_loss_mean": 6.387986679871877, "train/model_loss_std": 12.397537019517687, "train/model_opt_grad_norm": 24.654585229025948, "train/model_opt_grad_steps": 404597.1388888889, "train/model_opt_loss": 18239.084391276043, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.711724234951867, "train/policy_entropy_max": 2.711724234951867, "train/policy_entropy_mean": 0.3919854060643249, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915973136822382, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39290968432194656, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0220841219027836, "train/policy_randomness_mag": 0.9571196552779939, "train/policy_randomness_max": 0.9571196552779939, "train/policy_randomness_mean": 0.13835364662938648, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2088078913382358, "train/post_ent_mag": 55.29626316494412, "train/post_ent_max": 55.29626316494412, "train/post_ent_mean": 40.55924023522271, "train/post_ent_min": 19.426169607374405, "train/post_ent_std": 5.709885001182556, "train/prior_ent_mag": 76.86235671573215, "train/prior_ent_max": 76.86235671573215, "train/prior_ent_mean": 45.98386960559421, "train/prior_ent_min": 28.10029016600715, "train/prior_ent_std": 7.7002201146549645, "train/rep_loss_mean": 5.396852923764123, "train/rep_loss_std": 8.810502350330353, "train/reward_avg": 0.04157986088345448, "train/reward_loss_mean": 0.05649419387595521, "train/reward_loss_std": 0.21594632727404436, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0273855825265248, "train/reward_neg_acc": 0.9935203765829405, "train/reward_neg_loss": 0.024218706478778686, "train/reward_pos_acc": 0.9912049844861031, "train/reward_pos_loss": 0.7246376391914156, "train/reward_pred": 0.04130358197208908, "train/reward_rate": 0.04615614149305555, "stats/sum_log_reward": 11.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.39596949943474363, "replay/size": 811602.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5393452413514114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2490182166937145e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05074429512024, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.821210622787476, "timer/env.step_frac": 0.06272675865878052, "timer/env.step_avg": 0.013016051606353718, "timer/env.step_min": 0.0027124881744384766, "timer/env.step_max": 1.7344770431518555, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2776186466217041, "timer/replay.add_frac": 0.0009252389867383477, "timer/replay.add_avg": 0.00019199076529855056, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.004425764083862305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02924036979675293, "timer/logger.write_frac": 9.745141564452527e-05, "timer/logger.write_avg": 0.02924036979675293, "timer/logger.write_min": 0.02924036979675293, "timer/logger.write_max": 0.02924036979675293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.152851581573486, "timer/agent.policy_frac": 0.037169884739908864, "timer/agent.policy_avg": 0.007712898742443628, "timer/agent.policy_min": 0.0056667327880859375, "timer/agent.policy_max": 0.01815938949584961, "timer/dataset_count": 723.0, "timer/dataset_total": 0.062462568283081055, "timer/dataset_frac": 0.0002081733489107592, "timer/dataset_avg": 8.639359375253258e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.0054533481598, "timer/agent.train_frac": 0.8965331980099163, "timer/agent.train_avg": 0.37206840020492365, "timer/agent.train_min": 0.36185646057128906, "timer/agent.train_max": 0.38668107986450195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22393178939819336, "timer/agent.report_frac": 0.0007463130608932644, "timer/agent.report_avg": 0.22393178939819336, "timer/agent.report_min": 0.22393178939819336, "timer/agent.report_max": 0.22393178939819336, "fps": 4.819098148668725}
+{"step": 811926, "episode/length": 271.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.051470588235294115}
+{"step": 812103, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.062146892655367235}
+{"step": 812190, "episode/length": 86.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.08045977011494253}
+{"step": 812397, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06763285024154589}
+{"step": 812650, "episode/length": 252.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.05928853754940711}
+{"step": 812821, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05263157894736842}
+{"step": 812867, "episode/length": 45.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.10869565217391304}
+{"step": 813020, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0718954248366013}
+{"step": 813083, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.360179632482394, "train/action_min": 0.0, "train/action_std": 3.2401456900045904, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03933798335492611, "train/actor_opt_grad_steps": 405640.0, "train/actor_opt_loss": -12.028283948629674, "train/adv_mag": 0.4033341185307839, "train/adv_max": 0.3488699218756716, "train/adv_mean": 0.0018193566149779477, "train/adv_min": -0.35337496349509334, "train/adv_std": 0.04430158357595054, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 0.00012422466159924003, "train/cont_loss_std": 0.003960863990712137, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.024994612859956477, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 2.0976460048636526e-06, "train/cont_pred": 0.9946656294271979, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 5.457027294266392, "train/dyn_loss_std": 8.923528657832616, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9622277567084406, "train/extr_critic_critic_opt_grad_steps": 405640.0, "train/extr_critic_critic_opt_loss": 15614.075525418133, "train/extr_critic_mag": 11.91417735731098, "train/extr_critic_max": 11.91417735731098, "train/extr_critic_mean": 3.6952539598438103, "train/extr_critic_min": -0.38757283251050495, "train/extr_critic_std": 2.876850924021761, "train/extr_return_normed_mag": 1.3830778481255115, "train/extr_return_normed_max": 1.3830778481255115, "train/extr_return_normed_mean": 0.401551129952283, "train/extr_return_normed_min": -0.08022231246593972, "train/extr_return_normed_std": 0.31794278050812197, "train/extr_return_rate": 0.8563408221997005, "train/extr_return_raw_mag": 12.679286500098, "train/extr_return_raw_max": 12.679286500098, "train/extr_return_raw_mean": 3.7118455859976756, "train/extr_return_raw_min": -0.6882267434832076, "train/extr_return_raw_std": 2.9047703877301285, "train/extr_reward_mag": 1.0762806543162171, "train/extr_reward_max": 1.0762806543162171, "train/extr_reward_mean": 0.059027781211574315, "train/extr_reward_min": -0.6079948871908053, "train/extr_reward_std": 0.23414362967014313, "train/image_loss_mean": 3.2039947224334933, "train/image_loss_std": 8.330837075139435, "train/model_loss_mean": 6.535171636393373, "train/model_loss_std": 12.547140363236549, "train/model_opt_grad_norm": 24.599903173849615, "train/model_opt_grad_steps": 405311.338028169, "train/model_opt_loss": 10930.430051991638, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.6996683671440875, "train/policy_entropy_max": 2.6996683671440875, "train/policy_entropy_mean": 0.3805333801978071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5785428688559734, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3792934262416732, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0091327009066728, "train/policy_randomness_mag": 0.9528644622211725, "train/policy_randomness_max": 0.9528644622211725, "train/policy_randomness_mean": 0.1343115842048551, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20420024386593993, "train/post_ent_mag": 55.42954184303821, "train/post_ent_max": 55.42954184303821, "train/post_ent_mean": 40.581461516904156, "train/post_ent_min": 19.654690943973165, "train/post_ent_std": 5.81617495039819, "train/prior_ent_mag": 76.774689902722, "train/prior_ent_max": 76.774689902722, "train/prior_ent_mean": 46.022992738535706, "train/prior_ent_min": 27.738544464111328, "train/prior_ent_std": 7.775049223026759, "train/rep_loss_mean": 5.457027294266392, "train/rep_loss_std": 8.923528657832616, "train/reward_avg": 0.04129759012393548, "train/reward_loss_mean": 0.05683633176163888, "train/reward_loss_std": 0.21937736512069972, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0258791345945546, "train/reward_neg_acc": 0.9940086645139775, "train/reward_neg_loss": 0.024223867475881542, "train/reward_pos_acc": 0.9880700195339364, "train/reward_pos_loss": 0.7321183597537834, "train/reward_pred": 0.040840655250448575, "train/reward_rate": 0.0459259463028169, "stats/sum_log_reward": 9.850000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 8.75, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.31824208050966263, "replay/size": 813020.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4690071396498148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.227864089234087e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35288763046265, "timer/env.step_count": 1418.0, "timer/env.step_total": 20.611701250076294, "timer/env.step_frac": 0.06862494784946357, "timer/env.step_avg": 0.014535755465498092, "timer/env.step_min": 0.0030028820037841797, "timer/env.step_max": 1.6606547832489014, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2931334972381592, "timer/replay.add_frac": 0.0009759636391404174, "timer/replay.add_avg": 0.0002067231997448231, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0041692256927490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028217792510986328, "timer/logger.write_frac": 9.394879714192699e-05, "timer/logger.write_avg": 0.028217792510986328, "timer/logger.write_min": 0.028217792510986328, "timer/logger.write_max": 0.028217792510986328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018095970153808594, "timer/checkpoint.save_frac": 6.024903005451661e-07, "timer/checkpoint.save_avg": 0.00018095970153808594, "timer/checkpoint.save_min": 0.00018095970153808594, "timer/checkpoint.save_max": 0.00018095970153808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5237843990325928, "timer/agent.save_frac": 0.005073313631355433, "timer/agent.save_avg": 1.5237843990325928, "timer/agent.save_min": 1.5237843990325928, "timer/agent.save_max": 1.5237843990325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0956184366788386e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 15.019327878952026, "timer/agent.policy_frac": 0.05000560506490274, "timer/agent.policy_avg": 0.01059190964665164, "timer/agent.policy_min": 0.005740165710449219, "timer/agent.policy_max": 2.6721789836883545, "timer/dataset_count": 709.0, "timer/dataset_total": 0.061379194259643555, "timer/dataset_frac": 0.00020435693075526902, "timer/dataset_avg": 8.657150107142956e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 709.0, "timer/agent.train_total": 263.6519281864166, "timer/agent.train_frac": 0.8778072029418914, "timer/agent.train_avg": 0.37186449673683586, "timer/agent.train_min": 0.364285945892334, "timer/agent.train_max": 0.3874022960662842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21932458877563477, "timer/agent.report_frac": 0.0007302230070299156, "timer/agent.report_avg": 0.21932458877563477, "timer/agent.report_min": 0.21932458877563477, "timer/agent.report_max": 0.21932458877563477, "fps": 4.721029767227813}
+{"step": 813202, "episode/length": 181.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.08241758241758242}
+{"step": 813525, "episode/length": 322.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.043343653250773995}
+{"step": 813745, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06818181818181818}
+{"step": 814015, "episode/length": 269.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05555555555555555}
+{"step": 814241, "episode/length": 225.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.061946902654867256}
+{"step": 814387, "episode/length": 145.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0684931506849315}
+{"step": 814537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.310381571451823, "train/action_min": 0.0, "train/action_std": 3.175572438372506, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040069041980637446, "train/actor_opt_grad_steps": 406355.0, "train/actor_opt_loss": -12.253775218087766, "train/adv_mag": 0.42594897126158077, "train/adv_max": 0.3726147760947545, "train/adv_mean": 0.0018812287174417481, "train/adv_min": -0.3601843625721004, "train/adv_std": 0.044905701807389654, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 2.5227218508740002e-06, "train/cont_loss_std": 5.3252673102595814e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.76598900920078e-05, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 2.2554221625152118e-06, "train/cont_pred": 0.9948033384150929, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.446640835867988, "train/dyn_loss_std": 8.869942585627237, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9415020619829496, "train/extr_critic_critic_opt_grad_steps": 406355.0, "train/extr_critic_critic_opt_loss": 15722.859578450521, "train/extr_critic_mag": 11.702395717302958, "train/extr_critic_max": 11.702395717302958, "train/extr_critic_mean": 3.6313139498233795, "train/extr_critic_min": -0.38040444254875183, "train/extr_critic_std": 2.867714567316903, "train/extr_return_normed_mag": 1.3879615879721112, "train/extr_return_normed_max": 1.3879615879721112, "train/extr_return_normed_mean": 0.397227443754673, "train/extr_return_normed_min": -0.08836925712724526, "train/extr_return_normed_std": 0.3191021875374847, "train/extr_return_rate": 0.8560936152935028, "train/extr_return_raw_mag": 12.64907201131185, "train/extr_return_raw_max": 12.64907201131185, "train/extr_return_raw_mean": 3.648395197259055, "train/extr_return_raw_min": -0.7637091999252638, "train/extr_return_raw_std": 2.8994306226571402, "train/extr_reward_mag": 1.0713981191317241, "train/extr_reward_max": 1.0713981191317241, "train/extr_reward_mean": 0.060350448100103274, "train/extr_reward_min": -0.6177865581379997, "train/extr_reward_std": 0.23690180770224994, "train/image_loss_mean": 3.1198146127992206, "train/image_loss_std": 8.381020923455557, "train/model_loss_mean": 6.443690935770671, "train/model_loss_std": 12.550598171022203, "train/model_opt_grad_norm": 25.40263975991143, "train/model_opt_grad_steps": 406026.0, "train/model_opt_loss": 10105.222018771701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.701795389254888, "train/policy_entropy_max": 2.701795389254888, "train/policy_entropy_mean": 0.37889027202294934, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5768430709011025, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37967701649500263, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0120396721694205, "train/policy_randomness_mag": 0.9536152076390054, "train/policy_randomness_max": 0.9536152076390054, "train/policy_randomness_mean": 0.1337316387022535, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2036002894035644, "train/post_ent_mag": 54.60915602578057, "train/post_ent_max": 54.60915602578057, "train/post_ent_mean": 40.539556450313995, "train/post_ent_min": 19.514920314153034, "train/post_ent_std": 5.675067285696666, "train/prior_ent_mag": 76.81222523583307, "train/prior_ent_max": 76.81222523583307, "train/prior_ent_mean": 45.957612143622505, "train/prior_ent_min": 28.077347066667343, "train/prior_ent_std": 7.68887996673584, "train/rep_loss_mean": 5.446640835867988, "train/rep_loss_std": 8.869942585627237, "train/reward_avg": 0.040173339631615415, "train/reward_loss_mean": 0.05588930571037862, "train/reward_loss_std": 0.21443778773148855, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0329856839444902, "train/reward_neg_acc": 0.9938469198015001, "train/reward_neg_loss": 0.023670923999614187, "train/reward_pos_acc": 0.986180219385359, "train/reward_pos_loss": 0.7402142112453779, "train/reward_pred": 0.03958407763598694, "train/reward_rate": 0.04481336805555555, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.40406084060668945, "replay/size": 814474.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4372285110914394e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2325945385876515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3397936820984, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.686603307724, "timer/env.step_frac": 0.05888864439470447, "timer/env.step_avg": 0.01216410131205227, "timer/env.step_min": 0.002616405487060547, "timer/env.step_max": 1.7120380401611328, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2804684638977051, "timer/replay.add_frac": 0.0009338371730872714, "timer/replay.add_avg": 0.00019289440433129649, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.006398439407348633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027238130569458008, "timer/logger.write_frac": 9.069104774803448e-05, "timer/logger.write_avg": 0.027238130569458008, "timer/logger.write_min": 0.027238130569458008, "timer/logger.write_max": 0.027238130569458008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.19298505783081, "timer/agent.policy_frac": 0.03726773905184967, "timer/agent.policy_avg": 0.007698064001259154, "timer/agent.policy_min": 0.005707502365112305, "timer/agent.policy_max": 0.016049861907958984, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06182742118835449, "timer/dataset_frac": 0.00020585823953051376, "timer/dataset_avg": 8.504459585743396e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.40473103523254, "timer/agent.train_frac": 0.9003293493683647, "timer/agent.train_avg": 0.3719459849177889, "timer/agent.train_min": 0.3658311367034912, "timer/agent.train_max": 0.3872239589691162, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976041793823242, "timer/agent.report_frac": 0.0007317059629162658, "timer/agent.report_avg": 0.21976041793823242, "timer/agent.report_min": 0.21976041793823242, "timer/agent.report_max": 0.21976041793823242, "fps": 4.841108060053809}
+{"step": 814626, "episode/length": 238.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06276150627615062}
+{"step": 814833, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06763285024154589}
+{"step": 814980, "episode/length": 146.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06802721088435375}
+{"step": 815139, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07547169811320754}
+{"step": 815331, "episode/length": 191.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.057291666666666664}
+{"step": 815471, "episode/length": 139.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07857142857142857}
+{"step": 815676, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07317073170731707}
+{"step": 815903, "episode/length": 226.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05286343612334802}
+{"step": 815977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.329047309027778, "train/action_min": 0.0, "train/action_std": 3.202437241872152, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03899804810579452, "train/actor_opt_grad_steps": 407075.0, "train/actor_opt_loss": -11.917721190386349, "train/adv_mag": 0.4219262550274531, "train/adv_max": 0.34345416021015907, "train/adv_mean": 0.0021362917048008967, "train/adv_min": -0.3793696210616165, "train/adv_std": 0.04394534913202127, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 6.238920304942515e-05, "train/cont_loss_std": 0.0019005640250383414, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006320807721501293, "train/cont_pos_acc": 0.9999863141112857, "train/cont_pos_loss": 3.8113308163229614e-05, "train/cont_pred": 0.9948223945167329, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.2934828533066645, "train/dyn_loss_std": 8.79423850774765, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9993037134408951, "train/extr_critic_critic_opt_grad_steps": 407075.0, "train/extr_critic_critic_opt_loss": 15525.333930121527, "train/extr_critic_mag": 12.068762713008457, "train/extr_critic_max": 12.068762713008457, "train/extr_critic_mean": 3.6889063782162137, "train/extr_critic_min": -0.36323755317264134, "train/extr_critic_std": 2.900926685995526, "train/extr_return_normed_mag": 1.38863325284587, "train/extr_return_normed_max": 1.38863325284587, "train/extr_return_normed_mean": 0.39826971996161675, "train/extr_return_normed_min": -0.079643364271356, "train/extr_return_normed_std": 0.3188347388058901, "train/extr_return_rate": 0.8634313949280314, "train/extr_return_raw_mag": 12.807629280620151, "train/extr_return_raw_max": 12.807629280620151, "train/extr_return_raw_mean": 3.7085313730769687, "train/extr_return_raw_min": -0.6831901839209927, "train/extr_return_raw_std": 2.92967708574401, "train/extr_reward_mag": 1.0674038661850824, "train/extr_reward_max": 1.0674038661850824, "train/extr_reward_mean": 0.05946038862586849, "train/extr_reward_min": -0.5771872252225876, "train/extr_reward_std": 0.23456432463394272, "train/image_loss_mean": 3.15128060678641, "train/image_loss_std": 8.19058620929718, "train/model_loss_mean": 6.383719480699963, "train/model_loss_std": 12.298361950450474, "train/model_opt_grad_norm": 24.74232006072998, "train/model_opt_grad_steps": 406746.0, "train/model_opt_loss": 15959.298678927951, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6810797850290933, "train/policy_entropy_max": 2.6810797850290933, "train/policy_entropy_mean": 0.37788660017152625, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5774798687133524, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3787869103252888, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0115597562657461, "train/policy_randomness_mag": 0.9463035083479352, "train/policy_randomness_max": 0.9463035083479352, "train/policy_randomness_mean": 0.13337738760229614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2038250517927938, "train/post_ent_mag": 55.636712392171226, "train/post_ent_max": 55.636712392171226, "train/post_ent_mean": 40.4836860232883, "train/post_ent_min": 19.330874019198948, "train/post_ent_std": 5.711512280835046, "train/prior_ent_mag": 76.67226473490398, "train/prior_ent_max": 76.67226473490398, "train/prior_ent_mean": 45.76059887144301, "train/prior_ent_min": 28.45196506712172, "train/prior_ent_std": 7.714026934570736, "train/rep_loss_mean": 5.2934828533066645, "train/rep_loss_std": 8.79423850774765, "train/reward_avg": 0.04175347208769785, "train/reward_loss_mean": 0.05628689445762171, "train/reward_loss_std": 0.20823916937741968, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0197002059883542, "train/reward_neg_acc": 0.9939267958203951, "train/reward_neg_loss": 0.023915237132718578, "train/reward_pos_acc": 0.9898168047269186, "train/reward_pos_loss": 0.7245918917987082, "train/reward_pred": 0.04134495470983287, "train/reward_rate": 0.04625108506944445, "stats/sum_log_reward": 11.600000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 12.125, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.27398800663650036, "replay/size": 815914.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.432896402147081e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2302564250098335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20684480667114, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.33433747291565, "timer/env.step_frac": 0.06773442319748128, "timer/env.step_avg": 0.014121067689524756, "timer/env.step_min": 0.002833127975463867, "timer/env.step_max": 1.6901044845581055, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2692592144012451, "timer/replay.add_frac": 0.0008969123091601864, "timer/replay.add_avg": 0.00018698556555642022, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0043070316314697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028594017028808594, "timer/logger.write_frac": 9.524771844300461e-05, "timer/logger.write_avg": 0.028594017028808594, "timer/logger.write_min": 0.028594017028808594, "timer/logger.write_max": 0.028594017028808594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.050254821777344, "timer/agent.policy_frac": 0.03680880370630306, "timer/agent.policy_avg": 0.007673788070678711, "timer/agent.policy_min": 0.0058248043060302734, "timer/agent.policy_max": 0.020000219345092773, "timer/dataset_count": 720.0, "timer/dataset_total": 0.060997724533081055, "timer/dataset_frac": 0.0002031856554515361, "timer/dataset_avg": 8.471906185150146e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.7844319343567, "timer/agent.train_frac": 0.8919997547251328, "timer/agent.train_avg": 0.37192282213105093, "timer/agent.train_min": 0.3654055595397949, "timer/agent.train_max": 0.3857688903808594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067022323608398, "timer/agent.report_frac": 0.0007350605992284833, "timer/agent.report_avg": 0.22067022323608398, "timer/agent.report_min": 0.22067022323608398, "timer/agent.report_max": 0.22067022323608398, "fps": 4.796626148582152}
+{"step": 816038, "episode/length": 134.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.08148148148148149}
+{"step": 816369, "episode/length": 330.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04229607250755287}
+{"step": 816584, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.027906976744186046}
+{"step": 816731, "episode/length": 146.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.09523809523809523}
+{"step": 816954, "episode/length": 222.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.05829596412556054}
+{"step": 817186, "episode/length": 231.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05172413793103448}
+{"step": 817385, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06532663316582915}
+{"step": 817403, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3113598293728295, "train/action_min": 0.0, "train/action_std": 3.1674296855926514, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03998549799952242, "train/actor_opt_grad_steps": 407795.0, "train/actor_opt_loss": -11.822529479499078, "train/adv_mag": 0.3671911996271875, "train/adv_max": 0.3324768118974235, "train/adv_mean": 0.0021325595956164355, "train/adv_min": -0.32972652051183915, "train/adv_std": 0.044572365263270006, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 3.751718631889784e-05, "train/cont_loss_std": 0.0011778737433461276, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.01166676829880902, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.71834091163466e-06, "train/cont_pred": 0.9950766621364487, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.573540740542942, "train/dyn_loss_std": 8.906788527965546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.926782087319427, "train/extr_critic_critic_opt_grad_steps": 407795.0, "train/extr_critic_critic_opt_loss": 15791.364963107639, "train/extr_critic_mag": 11.868651178148058, "train/extr_critic_max": 11.868651178148058, "train/extr_critic_mean": 3.67091304063797, "train/extr_critic_min": -0.37892286976178485, "train/extr_critic_std": 2.830165296792984, "train/extr_return_normed_mag": 1.3878955592711766, "train/extr_return_normed_max": 1.3878955592711766, "train/extr_return_normed_mean": 0.3974086398051845, "train/extr_return_normed_min": -0.08422633379490839, "train/extr_return_normed_std": 0.31301416870620513, "train/extr_return_rate": 0.8687337703175015, "train/extr_return_raw_mag": 12.732707646158007, "train/extr_return_raw_max": 12.732707646158007, "train/extr_return_raw_mean": 3.6903708510928683, "train/extr_return_raw_min": -0.7068121950659487, "train/extr_return_raw_std": 2.857694298028946, "train/extr_reward_mag": 1.0664496786064572, "train/extr_reward_max": 1.0664496786064572, "train/extr_reward_mean": 0.06119239325117734, "train/extr_reward_min": -0.5900669578048918, "train/extr_reward_std": 0.2377290017902851, "train/image_loss_mean": 3.3005044443739786, "train/image_loss_std": 8.43188288476732, "train/model_loss_mean": 6.702996618217892, "train/model_loss_std": 12.630726337432861, "train/model_opt_grad_norm": 23.225032448768616, "train/model_opt_grad_steps": 407465.1388888889, "train/model_opt_loss": 16978.708753797742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6917562219831677, "train/policy_entropy_max": 2.6917562219831677, "train/policy_entropy_mean": 0.35184638926552403, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5397068758805593, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.351939654805594, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9861271166139178, "train/policy_randomness_mag": 0.9500718216101328, "train/policy_randomness_max": 0.9500718216101328, "train/policy_randomness_mean": 0.12418633658025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1904928438986341, "train/post_ent_mag": 54.86540534761217, "train/post_ent_max": 54.86540534761217, "train/post_ent_mean": 40.438421885172524, "train/post_ent_min": 19.95492160320282, "train/post_ent_std": 5.75504653983646, "train/prior_ent_mag": 76.68718253241644, "train/prior_ent_max": 76.68718253241644, "train/prior_ent_mean": 46.004288302527534, "train/prior_ent_min": 28.19325105349223, "train/prior_ent_std": 7.687078058719635, "train/rep_loss_mean": 5.573540740542942, "train/rep_loss_std": 8.906788527965546, "train/reward_avg": 0.042416720288909145, "train/reward_loss_mean": 0.05833023812414871, "train/reward_loss_std": 0.21978098795645767, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0311744312445323, "train/reward_neg_acc": 0.993348203599453, "train/reward_neg_loss": 0.024725303002115753, "train/reward_pos_acc": 0.9869343605306413, "train/reward_pos_loss": 0.7372955853740374, "train/reward_pred": 0.04194255814784103, "train/reward_rate": 0.04702419704861111, "stats/sum_log_reward": 10.957143034253802, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 11.142857142857142, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3417486271687916, "replay/size": 817340.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.43199030379928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2343720667492624e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2505121231079, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.7368221282959, "timer/env.step_frac": 0.07239562049234216, "timer/env.step_avg": 0.015243213273699789, "timer/env.step_min": 0.002909421920776367, "timer/env.step_max": 3.2048516273498535, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2897064685821533, "timer/replay.add_frac": 0.000964882512717809, "timer/replay.add_avg": 0.00020316021639702196, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.009062528610229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0293729305267334, "timer/logger.write_frac": 9.782807802402677e-05, "timer/logger.write_avg": 0.0293729305267334, "timer/logger.write_min": 0.0293729305267334, "timer/logger.write_max": 0.0293729305267334, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004184246063232422, "timer/checkpoint.save_frac": 1.39358498796392e-06, "timer/checkpoint.save_avg": 0.0004184246063232422, "timer/checkpoint.save_min": 0.0004184246063232422, "timer/checkpoint.save_max": 0.0004184246063232422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.247243881225586, "timer/agent.save_frac": 0.004154010837171177, "timer/agent.save_avg": 1.247243881225586, "timer/agent.save_min": 1.247243881225586, "timer/agent.save_max": 1.247243881225586, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010991096496582031, "timer/replay.save_frac": 3.660642048155938e-07, "timer/replay.save_avg": 0.00010991096496582031, "timer/replay.save_min": 0.00010991096496582031, "timer/replay.save_max": 0.00010991096496582031, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.17308521270752, "timer/agent.policy_frac": 0.04054309558584981, "timer/agent.policy_avg": 0.008536525394605554, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 1.2400805950164795, "timer/dataset_count": 713.0, "timer/dataset_total": 0.061289310455322266, "timer/dataset_frac": 0.0002041272470176257, "timer/dataset_avg": 8.595976220942814e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.28445649147034, "timer/agent.train_frac": 0.8835437269219348, "timer/agent.train_avg": 0.372067961418612, "timer/agent.train_min": 0.36176276206970215, "timer/agent.train_max": 0.46454858779907227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205369472503662, "timer/agent.report_frac": 0.0007345098121262896, "timer/agent.report_avg": 0.2205369472503662, "timer/agent.report_min": 0.2205369472503662, "timer/agent.report_max": 0.2205369472503662, "fps": 4.749304269886278}
+{"step": 817764, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.03430079155672823}
+{"step": 817980, "episode/length": 215.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06944444444444445}
+{"step": 818190, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
+{"step": 818374, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
+{"step": 818409, "episode/length": 34.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.2}
+{"step": 818503, "episode/length": 93.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.07446808510638298}
+{"step": 818714, "episode/length": 210.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04739336492890995}
+{"step": 818851, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410750495062934, "train/action_min": 0.0, "train/action_std": 3.233407888147566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039198316944142185, "train/actor_opt_grad_steps": 408515.0, "train/actor_opt_loss": -12.838167419450151, "train/adv_mag": 0.4431405808362696, "train/adv_max": 0.3741159405973222, "train/adv_mean": 0.0015452837848089177, "train/adv_min": -0.3829293805691931, "train/adv_std": 0.04439979682986935, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 2.8471177897257703e-06, "train/cont_loss_std": 7.231268858988294e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.949648190663961e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.765278408922711e-06, "train/cont_pred": 0.9949518616000811, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.36087249384986, "train/dyn_loss_std": 8.772389451662699, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9444476639231046, "train/extr_critic_critic_opt_grad_steps": 408515.0, "train/extr_critic_critic_opt_loss": 15531.84166124132, "train/extr_critic_mag": 11.991912682851156, "train/extr_critic_max": 11.991912682851156, "train/extr_critic_mean": 3.640671375725004, "train/extr_critic_min": -0.38155801428688896, "train/extr_critic_std": 2.8558321363396115, "train/extr_return_normed_mag": 1.393380108806822, "train/extr_return_normed_max": 1.393380108806822, "train/extr_return_normed_mean": 0.3967507994837231, "train/extr_return_normed_min": -0.0809676586650312, "train/extr_return_normed_std": 0.3167739229069816, "train/extr_return_rate": 0.8634702795081668, "train/extr_return_raw_mag": 12.730018814404806, "train/extr_return_raw_max": 12.730018814404806, "train/extr_return_raw_mean": 3.654763893948661, "train/extr_return_raw_min": -0.695150576531887, "train/extr_return_raw_std": 2.884627434942457, "train/extr_reward_mag": 1.0729202727476757, "train/extr_reward_max": 1.0729202727476757, "train/extr_reward_mean": 0.06121239296367599, "train/extr_reward_min": -0.5710461437702179, "train/extr_reward_std": 0.2375370448248254, "train/image_loss_mean": 3.1017833401759467, "train/image_loss_std": 7.937327437930637, "train/model_loss_mean": 6.374617569976383, "train/model_loss_std": 12.08544659614563, "train/model_opt_grad_norm": 25.871740182240803, "train/model_opt_grad_steps": 408184.55555555556, "train/model_opt_loss": 16432.699259440105, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.680960645278295, "train/policy_entropy_max": 2.680960645278295, "train/policy_entropy_mean": 0.3807207116236289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5669919215142727, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3809665567759011, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0090957606832187, "train/policy_randomness_mag": 0.9462614572710462, "train/policy_randomness_max": 0.9462614572710462, "train/policy_randomness_mean": 0.13437770472632515, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2001232686969969, "train/post_ent_mag": 55.332396030426025, "train/post_ent_max": 55.332396030426025, "train/post_ent_mean": 40.47764725155301, "train/post_ent_min": 19.603957202699448, "train/post_ent_std": 5.722126695844862, "train/prior_ent_mag": 76.69710466596815, "train/prior_ent_max": 76.69710466596815, "train/prior_ent_mean": 45.887436866760254, "train/prior_ent_min": 28.112192763222588, "train/prior_ent_std": 7.686677131387922, "train/rep_loss_mean": 5.36087249384986, "train/rep_loss_std": 8.772389451662699, "train/reward_avg": 0.04118923553162151, "train/reward_loss_mean": 0.05630792144479023, "train/reward_loss_std": 0.2103042925397555, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0300074732965894, "train/reward_neg_acc": 0.9937040027644899, "train/reward_neg_loss": 0.0239041481529259, "train/reward_pos_acc": 0.9882669953836335, "train/reward_pos_loss": 0.731153291132715, "train/reward_pred": 0.04080717513958613, "train/reward_rate": 0.045979817708333336, "stats/sum_log_reward": 9.67142881665911, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.33148398782525745, "replay/size": 818788.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4845665673524636e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.233132833933962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11087822914124, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.643396377563477, "timer/env.step_frac": 0.062121694780183326, "timer/env.step_avg": 0.012875273741411241, "timer/env.step_min": 0.002841949462890625, "timer/env.step_max": 1.7461862564086914, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2646141052246094, "timer/replay.add_frac": 0.0008817211384872584, "timer/replay.add_avg": 0.00018274454780705068, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0027093887329101562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022221088409423828, "timer/logger.write_frac": 7.404292886863481e-05, "timer/logger.write_avg": 0.022221088409423828, "timer/logger.write_min": 0.022221088409423828, "timer/logger.write_max": 0.022221088409423828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.092769145965576, "timer/agent.policy_frac": 0.036962236128928336, "timer/agent.policy_avg": 0.007660752172628161, "timer/agent.policy_min": 0.005742549896240234, "timer/agent.policy_max": 0.018213748931884766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06245541572570801, "timer/dataset_frac": 0.00020810780366988874, "timer/dataset_avg": 8.626438636147515e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00045609474182128906, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.3391926288605, "timer/agent.train_frac": 0.8974656107707435, "timer/agent.train_avg": 0.3720154594321277, "timer/agent.train_min": 0.3658761978149414, "timer/agent.train_max": 0.3870511054992676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083568572998047, "timer/agent.report_frac": 0.0007358469877302067, "timer/agent.report_avg": 0.22083568572998047, "timer/agent.report_min": 0.22083568572998047, "timer/agent.report_max": 0.22083568572998047, "fps": 4.824816014885063}
+{"step": 818888, "episode/length": 173.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.07471264367816093}
+{"step": 819177, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04498269896193772}
+{"step": 819347, "episode/length": 169.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.09411764705882353}
+{"step": 819604, "episode/length": 256.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.054474708171206226}
+{"step": 819803, "episode/length": 198.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.07537688442211055}
+{"step": 819979, "episode/length": 175.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07386363636363637}
+{"step": 820139, "episode/length": 159.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05625}
+{"step": 820299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.38392116598887, "train/action_min": 0.0, "train/action_std": 3.1474807719661766, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0398723863779682, "train/actor_opt_grad_steps": 409240.0, "train/actor_opt_loss": -12.867132709450917, "train/adv_mag": 0.4179464545968461, "train/adv_max": 0.3613143616343198, "train/adv_mean": 0.001958267498182927, "train/adv_min": -0.3623784223239716, "train/adv_std": 0.04440657789372418, "train/cont_avg": 0.9946891053082192, "train/cont_loss_mean": 3.4518435238320393e-06, "train/cont_loss_std": 6.963533061237173e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.2281509014256226e-05, "train/cont_pos_acc": 0.9999999763214424, "train/cont_pos_loss": 3.318093739616017e-06, "train/cont_pred": 0.9946860279122444, "train/cont_rate": 0.9946891053082192, "train/dyn_loss_mean": 5.322451480447429, "train/dyn_loss_std": 8.862058783230717, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9724810384724238, "train/extr_critic_critic_opt_grad_steps": 409240.0, "train/extr_critic_critic_opt_loss": 15786.676824700342, "train/extr_critic_mag": 12.071007258271518, "train/extr_critic_max": 12.071007258271518, "train/extr_critic_mean": 3.6080640734058536, "train/extr_critic_min": -0.38423371151702046, "train/extr_critic_std": 2.9020579808378875, "train/extr_return_normed_mag": 1.4017593060454276, "train/extr_return_normed_max": 1.4017593060454276, "train/extr_return_normed_mean": 0.39011545254759594, "train/extr_return_normed_min": -0.08501122810252726, "train/extr_return_normed_std": 0.3209968376649569, "train/extr_return_rate": 0.8607966385475577, "train/extr_return_raw_mag": 12.856689074268079, "train/extr_return_raw_max": 12.856689074268079, "train/extr_return_raw_mean": 3.6259412112301344, "train/extr_return_raw_min": -0.7098615867634342, "train/extr_return_raw_std": 2.929452510729228, "train/extr_reward_mag": 1.0702879232903049, "train/extr_reward_max": 1.0702879232903049, "train/extr_reward_mean": 0.06217050001229325, "train/extr_reward_min": -0.6188603410982105, "train/extr_reward_std": 0.23990816163690123, "train/image_loss_mean": 3.068000656284698, "train/image_loss_std": 8.383665176287089, "train/model_loss_mean": 6.318580594781327, "train/model_loss_std": 12.55906943752341, "train/model_opt_grad_norm": 22.104622422832332, "train/model_opt_grad_steps": 408909.0, "train/model_opt_loss": 16938.670256314213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.695909565442229, "train/policy_entropy_max": 2.695909565442229, "train/policy_entropy_mean": 0.36362724945153274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5554953854377955, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36460273661842085, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0009384571689448, "train/policy_randomness_mag": 0.9515377683182286, "train/policy_randomness_max": 0.9515377683182286, "train/policy_randomness_mean": 0.12834446224039547, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1960654935404046, "train/post_ent_mag": 55.28959295194443, "train/post_ent_max": 55.28959295194443, "train/post_ent_mean": 40.55163542865074, "train/post_ent_min": 19.359684356271405, "train/post_ent_std": 5.727817724828851, "train/prior_ent_mag": 76.79645088927387, "train/prior_ent_max": 76.79645088927387, "train/prior_ent_mean": 45.875505839308644, "train/prior_ent_min": 28.10907737522909, "train/prior_ent_std": 7.64732317728539, "train/rep_loss_mean": 5.322451480447429, "train/rep_loss_std": 8.862058783230717, "train/reward_avg": 0.04077215240120071, "train/reward_loss_mean": 0.057105640025988016, "train/reward_loss_std": 0.21910082783601056, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.034920764296022, "train/reward_neg_acc": 0.9935284591700932, "train/reward_neg_loss": 0.024900666795262736, "train/reward_pos_acc": 0.9870594984864536, "train/reward_pos_loss": 0.7341143962455122, "train/reward_pred": 0.04048189913777456, "train/reward_rate": 0.04549711044520548, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.34375989011355806, "replay/size": 820236.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.451141863238087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.242476932251651e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30115842819214, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.841282844543457, "timer/env.step_frac": 0.06274129258495277, "timer/env.step_avg": 0.013011935666121173, "timer/env.step_min": 0.002727031707763672, "timer/env.step_max": 1.6886372566223145, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2672722339630127, "timer/replay.add_frac": 0.0008900139958232053, "timer/replay.add_avg": 0.0001845802720739038, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.0024547576904296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0328826904296875, "timer/logger.write_frac": 0.000109499046230121, "timer/logger.write_avg": 0.0328826904296875, "timer/logger.write_min": 0.0328826904296875, "timer/logger.write_max": 0.0328826904296875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.14732575416565, "timer/agent.policy_frac": 0.0371204886871297, "timer/agent.policy_avg": 0.007698429388235946, "timer/agent.policy_min": 0.005707979202270508, "timer/agent.policy_max": 0.015732288360595703, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06199288368225098, "timer/dataset_frac": 0.0002064357127582466, "timer/dataset_avg": 8.562552994786046e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.246200799942, "timer/agent.train_frac": 0.8965872866065684, "timer/agent.train_avg": 0.3718870176794779, "timer/agent.train_min": 0.36591601371765137, "timer/agent.train_max": 0.3855159282684326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2245323657989502, "timer/agent.report_frac": 0.0007476906415352382, "timer/agent.report_avg": 0.2245323657989502, "timer/agent.report_min": 0.2245323657989502, "timer/agent.report_max": 0.2245323657989502, "fps": 4.8217217443377125}
+{"step": 820338, "episode/length": 198.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07035175879396985}
+{"step": 820503, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
+{"step": 820694, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06806282722513089}
+{"step": 820782, "episode/length": 87.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.045454545454545456}
+{"step": 820969, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06951871657754011}
+{"step": 821189, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05909090909090909}
+{"step": 821380, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06806282722513089}
+{"step": 821641, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05747126436781609}
+{"step": 821717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410434395926339, "train/action_min": 0.0, "train/action_std": 3.2490451914923533, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03920513090810605, "train/actor_opt_grad_steps": 409955.0, "train/actor_opt_loss": -11.510117512089865, "train/adv_mag": 0.4190746777823993, "train/adv_max": 0.365491911981787, "train/adv_mean": 0.0017467942983070575, "train/adv_min": -0.36515229621103834, "train/adv_std": 0.043422222935727665, "train/cont_avg": 0.9951032366071428, "train/cont_loss_mean": 4.317441113244058e-06, "train/cont_loss_std": 0.00010920776779487694, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.335999783634147e-05, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 3.861224064901795e-06, "train/cont_pred": 0.9951000094413758, "train/cont_rate": 0.9951032366071428, "train/dyn_loss_mean": 5.366359962735857, "train/dyn_loss_std": 8.839994028636388, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9797916497503009, "train/extr_critic_critic_opt_grad_steps": 409955.0, "train/extr_critic_critic_opt_loss": 15653.720396205357, "train/extr_critic_mag": 11.837185314723424, "train/extr_critic_max": 11.837185314723424, "train/extr_critic_mean": 3.466274550982884, "train/extr_critic_min": -0.41572289296558923, "train/extr_critic_std": 2.811920942578997, "train/extr_return_normed_mag": 1.402242660522461, "train/extr_return_normed_max": 1.402242660522461, "train/extr_return_normed_mean": 0.38024103215762545, "train/extr_return_normed_min": -0.08538021538406611, "train/extr_return_normed_std": 0.31516155238662447, "train/extr_return_rate": 0.8496159298079354, "train/extr_return_raw_mag": 12.689925575256348, "train/extr_return_raw_max": 12.689925575256348, "train/extr_return_raw_mean": 3.482005841391427, "train/extr_return_raw_min": -0.713751712015697, "train/extr_return_raw_std": 2.839931103161403, "train/extr_reward_mag": 1.0661417620522635, "train/extr_reward_max": 1.0661417620522635, "train/extr_reward_mean": 0.05789273333336626, "train/extr_reward_min": -0.6140498110226222, "train/extr_reward_std": 0.23219095702682221, "train/image_loss_mean": 3.2581744824137004, "train/image_loss_std": 8.409553228105818, "train/model_loss_mean": 6.532492508207048, "train/model_loss_std": 12.54734010696411, "train/model_opt_grad_norm": 23.625314726148332, "train/model_opt_grad_steps": 409622.15714285715, "train/model_opt_loss": 9551.44748186384, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1482.142857142857, "train/policy_entropy_mag": 2.6894173009055002, "train/policy_entropy_max": 2.6894173009055002, "train/policy_entropy_mean": 0.38919906062739235, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5867508207048688, "train/policy_logprob_mag": 7.43838427407401, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3880915169204984, "train/policy_logprob_min": -7.43838427407401, "train/policy_logprob_std": 1.0133519666535513, "train/policy_randomness_mag": 0.9492462830884116, "train/policy_randomness_max": 0.9492462830884116, "train/policy_randomness_mean": 0.13737018832138606, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20709729003054755, "train/post_ent_mag": 55.6411247253418, "train/post_ent_max": 55.6411247253418, "train/post_ent_mean": 40.75392216273716, "train/post_ent_min": 19.458743231637136, "train/post_ent_std": 5.8005954401833675, "train/prior_ent_mag": 76.79819728306362, "train/prior_ent_max": 76.79819728306362, "train/prior_ent_mean": 46.12391439165388, "train/prior_ent_min": 28.225020054408482, "train/prior_ent_std": 7.731096410751343, "train/rep_loss_mean": 5.366359962735857, "train/rep_loss_std": 8.839994028636388, "train/reward_avg": 0.03972237650305033, "train/reward_loss_mean": 0.05449773791645254, "train/reward_loss_std": 0.20775709109646934, "train/reward_max_data": 1.0242857200758797, "train/reward_max_pred": 1.0246193987982615, "train/reward_neg_acc": 0.9935591178280967, "train/reward_neg_loss": 0.023806408952389446, "train/reward_pos_acc": 0.9920535351548876, "train/reward_pos_loss": 0.7169737696647644, "train/reward_pred": 0.039565315044351984, "train/reward_rate": 0.044224330357142856, "stats/sum_log_reward": 11.350000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 9.75, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.75, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.32568929344415665, "replay/size": 821654.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4753963540404068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2439211938209695e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2291910648346, "timer/env.step_count": 1418.0, "timer/env.step_total": 23.064051866531372, "timer/env.step_frac": 0.07682148356303796, "timer/env.step_avg": 0.01626519877752565, "timer/env.step_min": 0.0027883052825927734, "timer/env.step_max": 2.644345760345459, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.29566431045532227, "timer/replay.add_frac": 0.0009847953472035085, "timer/replay.add_avg": 0.00020850797634366873, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0049169063568115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026859521865844727, "timer/logger.write_frac": 8.94633921857532e-05, "timer/logger.write_avg": 0.026859521865844727, "timer/logger.write_min": 0.026859521865844727, "timer/logger.write_max": 0.026859521865844727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019073486328125, "timer/checkpoint.save_frac": 6.352975292134759e-07, "timer/checkpoint.save_avg": 0.00019073486328125, "timer/checkpoint.save_min": 0.00019073486328125, "timer/checkpoint.save_max": 0.00019073486328125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2329411506652832, "timer/agent.save_frac": 0.004106666464684406, "timer/agent.save_avg": 1.2329411506652832, "timer/agent.save_min": 1.2329411506652832, "timer/agent.save_max": 1.2329411506652832, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.477660363932556e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.064727544784546, "timer/agent.policy_frac": 0.04018505829494496, "timer/agent.policy_avg": 0.008508270482922811, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 1.2248940467834473, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06107020378112793, "timer/dataset_frac": 0.00020341194526930526, "timer/dataset_avg": 8.613568939510287e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014090538024902344, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.02687668800354, "timer/agent.train_frac": 0.879417739999129, "timer/agent.train_avg": 0.3723933380648851, "timer/agent.train_min": 0.36505627632141113, "timer/agent.train_max": 0.8935916423797607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22445178031921387, "timer/agent.report_frac": 0.0007476014558182767, "timer/agent.report_avg": 0.22445178031921387, "timer/agent.report_min": 0.22445178031921387, "timer/agent.report_max": 0.22445178031921387, "fps": 4.722982815650724}
+{"step": 821889, "episode/length": 247.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05241935483870968}
+{"step": 822053, "episode/length": 163.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07926829268292683}
+{"step": 822237, "episode/length": 183.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08152173913043478}
+{"step": 822448, "episode/length": 210.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07109004739336493}
+{"step": 822574, "episode/length": 125.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09523809523809523}
+{"step": 822790, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06944444444444445}
+{"step": 822960, "episode/length": 169.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.052941176470588235}
+{"step": 823161, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37986191004923, "train/action_min": 0.0, "train/action_std": 3.2166900112204355, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038985166724209916, "train/actor_opt_grad_steps": 410670.0, "train/actor_opt_loss": -11.20255909635596, "train/adv_mag": 0.4071799141086944, "train/adv_max": 0.34779882880106366, "train/adv_mean": 0.0018848328558530353, "train/adv_min": -0.3514550309883405, "train/adv_std": 0.04347806531068397, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 4.339040349085648e-06, "train/cont_loss_std": 9.922475528069237e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.851967868182652e-05, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 3.9565018599202244e-06, "train/cont_pred": 0.9949398383702317, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.628560660636588, "train/dyn_loss_std": 8.982350362490301, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9811586949923267, "train/extr_critic_critic_opt_grad_steps": 410670.0, "train/extr_critic_critic_opt_loss": 15714.55645333904, "train/extr_critic_mag": 11.8839769232763, "train/extr_critic_max": 11.8839769232763, "train/extr_critic_mean": 3.440321675718647, "train/extr_critic_min": -0.4061212817283526, "train/extr_critic_std": 2.8017707948815334, "train/extr_return_normed_mag": 1.4024535270586407, "train/extr_return_normed_max": 1.4024535270586407, "train/extr_return_normed_mean": 0.3808174108805722, "train/extr_return_normed_min": -0.08631223465685975, "train/extr_return_normed_std": 0.31473790027507365, "train/extr_return_rate": 0.840345901985691, "train/extr_return_raw_mag": 12.631262504891174, "train/extr_return_raw_max": 12.631262504891174, "train/extr_return_raw_mean": 3.457245643824747, "train/extr_return_raw_min": -0.7369376919040941, "train/extr_return_raw_std": 2.8261299427241493, "train/extr_reward_mag": 1.0675350247997126, "train/extr_reward_max": 1.0675350247997126, "train/extr_reward_mean": 0.05952365681120794, "train/extr_reward_min": -0.6189448033293633, "train/extr_reward_std": 0.23533310465616722, "train/image_loss_mean": 3.4366130175655836, "train/image_loss_std": 8.327283284435534, "train/model_loss_mean": 6.870635084909935, "train/model_loss_std": 12.534267451665173, "train/model_opt_grad_norm": 24.679549974937963, "train/model_opt_grad_steps": 410337.0, "train/model_opt_loss": 12462.648183326199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.6919677061577367, "train/policy_entropy_max": 2.6919677061577367, "train/policy_entropy_mean": 0.3939630628040392, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.585212571980202, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3936755497978158, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 1.0180943142877865, "train/policy_randomness_mag": 0.9501464652688536, "train/policy_randomness_max": 0.9501464652688536, "train/policy_randomness_mean": 0.1390516730408146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20655435384952858, "train/post_ent_mag": 55.73340820939573, "train/post_ent_max": 55.73340820939573, "train/post_ent_mean": 40.62746199516401, "train/post_ent_min": 19.53192612896227, "train/post_ent_std": 5.796174258401949, "train/prior_ent_mag": 76.81229442439667, "train/prior_ent_max": 76.81229442439667, "train/prior_ent_mean": 46.23337372035196, "train/prior_ent_min": 28.42592573819095, "train/prior_ent_std": 7.765800632842599, "train/rep_loss_mean": 5.628560660636588, "train/rep_loss_std": 8.982350362490301, "train/reward_avg": 0.04023838783167813, "train/reward_loss_mean": 0.05688135642303179, "train/reward_loss_std": 0.2169830370439242, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.028546398633147, "train/reward_neg_acc": 0.9936890789907272, "train/reward_neg_loss": 0.025216508899139217, "train/reward_pos_acc": 0.9873009813974981, "train/reward_pos_loss": 0.7302869468519132, "train/reward_pred": 0.0399564308918094, "train/reward_rate": 0.0449486301369863, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3050122346196856, "replay/size": 823098.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.526415521088069e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2768974264572862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25400376319885, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.43918752670288, "timer/env.step_frac": 0.06474247564749869, "timer/env.step_avg": 0.013462041223478449, "timer/env.step_min": 0.0029587745666503906, "timer/env.step_max": 1.8286213874816895, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.30881738662719727, "timer/replay.add_frac": 0.001028520461864522, "timer/replay.add_avg": 0.0002138624561130175, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0045168399810791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023708820343017578, "timer/logger.write_frac": 7.89625451979518e-05, "timer/logger.write_avg": 0.023708820343017578, "timer/logger.write_min": 0.023708820343017578, "timer/logger.write_max": 0.023708820343017578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.03164792060852, "timer/agent.policy_frac": 0.03674105185058196, "timer/agent.policy_avg": 0.007639645374382632, "timer/agent.policy_min": 0.005709409713745117, "timer/agent.policy_max": 0.020751476287841797, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06213641166687012, "timer/dataset_frac": 0.00020694615521555277, "timer/dataset_avg": 8.606151200397523e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00017023086547851562, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.71270298957825, "timer/agent.train_frac": 0.8949512733275782, "timer/agent.train_avg": 0.3721782589883355, "timer/agent.train_min": 0.36539220809936523, "timer/agent.train_max": 0.38651490211486816, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198193073272705, "timer/agent.report_frac": 0.000732111161124217, "timer/agent.report_avg": 0.2198193073272705, "timer/agent.report_min": 0.2198193073272705, "timer/agent.report_max": 0.2198193073272705, "fps": 4.809160788653031}
+{"step": 823196, "episode/length": 235.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05084745762711865}
+{"step": 823334, "episode/length": 137.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08695652173913043}
+{"step": 823493, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08176100628930817}
+{"step": 823645, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02631578947368421}
+{"step": 824074, "episode/length": 428.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.03263403263403263}
+{"step": 824270, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05612244897959184}
+{"step": 824514, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06147540983606557}
+{"step": 824605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364727444118923, "train/action_min": 0.0, "train/action_std": 3.2085312571790485, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039341878352893725, "train/actor_opt_grad_steps": 411395.0, "train/actor_opt_loss": -10.094849720597267, "train/adv_mag": 0.3926893071167999, "train/adv_max": 0.347264817605416, "train/adv_mean": 0.002167350563973337, "train/adv_min": -0.3291621402733856, "train/adv_std": 0.043704203640421234, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 5.756121968126927e-05, "train/cont_loss_std": 0.0018100919625949371, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.006091889726538587, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 2.203653786973329e-05, "train/cont_pred": 0.9948677809702026, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.467368331220415, "train/dyn_loss_std": 8.876644293467203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9878415912389755, "train/extr_critic_critic_opt_grad_steps": 411395.0, "train/extr_critic_critic_opt_loss": 15542.3486328125, "train/extr_critic_mag": 11.740528888172573, "train/extr_critic_max": 11.740528888172573, "train/extr_critic_mean": 3.559862597121133, "train/extr_critic_min": -0.37739070587688023, "train/extr_critic_std": 2.8489898575676813, "train/extr_return_normed_mag": 1.3906763808594809, "train/extr_return_normed_max": 1.3906763808594809, "train/extr_return_normed_mean": 0.3942210390749905, "train/extr_return_normed_min": -0.08933883113786578, "train/extr_return_normed_std": 0.31985326628718114, "train/extr_return_rate": 0.8543484583497047, "train/extr_return_raw_mag": 12.550691379441155, "train/extr_return_raw_max": 12.550691379441155, "train/extr_return_raw_mean": 3.579381482468711, "train/extr_return_raw_min": -0.7745788755516211, "train/extr_return_raw_std": 2.879998183912701, "train/extr_reward_mag": 1.0637876821888819, "train/extr_reward_max": 1.0637876821888819, "train/extr_reward_mean": 0.05938384459457464, "train/extr_reward_min": -0.6555448952648375, "train/extr_reward_std": 0.23477079139815438, "train/image_loss_mean": 3.1845420367187924, "train/image_loss_std": 8.34437835878796, "train/model_loss_mean": 6.520124779807197, "train/model_loss_std": 12.518964939647251, "train/model_opt_grad_norm": 22.3817138671875, "train/model_opt_grad_steps": 411061.9166666667, "train/model_opt_loss": 16300.311957465277, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6916331317689686, "train/policy_entropy_max": 2.6916331317689686, "train/policy_entropy_mean": 0.3895474970340729, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853667710390356, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38870080477661556, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.016881441904439, "train/policy_randomness_mag": 0.9500283756189876, "train/policy_randomness_max": 0.9500283756189876, "train/policy_randomness_mean": 0.13749317090130514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20660878159105778, "train/post_ent_mag": 55.376775953504776, "train/post_ent_max": 55.376775953504776, "train/post_ent_mean": 40.62372133466933, "train/post_ent_min": 19.260963175031875, "train/post_ent_std": 5.770487030347188, "train/prior_ent_mag": 76.70445707109239, "train/prior_ent_max": 76.70445707109239, "train/prior_ent_mean": 46.079907735188804, "train/prior_ent_min": 28.189631435606216, "train/prior_ent_std": 7.737858110004002, "train/rep_loss_mean": 5.467368331220415, "train/rep_loss_std": 8.876644293467203, "train/reward_avg": 0.04055040148604247, "train/reward_loss_mean": 0.05510415374818775, "train/reward_loss_std": 0.2084710051616033, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0195752779642742, "train/reward_neg_acc": 0.9940071230133375, "train/reward_neg_loss": 0.023631858678224187, "train/reward_pos_acc": 0.99063631064362, "train/reward_pos_loss": 0.7194033157494333, "train/reward_pred": 0.04034304362721741, "train/reward_rate": 0.045206705729166664, "stats/sum_log_reward": 10.528571469443184, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4458839190857751, "replay/size": 824542.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.5209668970504297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2994142780673801e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05396819114685, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.11640739440918, "timer/env.step_frac": 0.06370989695504121, "timer/env.step_avg": 0.013238509275906633, "timer/env.step_min": 0.0027742385864257812, "timer/env.step_max": 1.7090847492218018, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2775704860687256, "timer/replay.add_frac": 0.0009250685393099072, "timer/replay.add_avg": 0.00019222332830244154, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004018306732177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023552656173706055, "timer/logger.write_frac": 7.849473318313868e-05, "timer/logger.write_avg": 0.023552656173706055, "timer/logger.write_min": 0.023552656173706055, "timer/logger.write_max": 0.023552656173706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.249529123306274, "timer/agent.policy_frac": 0.03749168588278712, "timer/agent.policy_avg": 0.007790532633868611, "timer/agent.policy_min": 0.005767107009887695, "timer/agent.policy_max": 0.015764951705932617, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06241583824157715, "timer/dataset_frac": 0.00020801537342714184, "timer/dataset_avg": 8.644852942046696e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.63112807273865, "timer/agent.train_frac": 0.895276038814489, "timer/agent.train_avg": 0.3720652743389732, "timer/agent.train_min": 0.3659224510192871, "timer/agent.train_max": 0.38469600677490234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218930721282959, "timer/agent.report_frac": 0.0007395105402736777, "timer/agent.report_avg": 0.2218930721282959, "timer/agent.report_min": 0.2218930721282959, "timer/agent.report_max": 0.2218930721282959, "fps": 4.812361572174399}
+{"step": 824765, "episode/length": 250.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05179282868525897}
+{"step": 824914, "episode/length": 148.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.053691275167785234}
+{"step": 825158, "episode/length": 243.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06557377049180328}
+{"step": 825320, "episode/length": 161.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08641975308641975}
+{"step": 825537, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
+{"step": 825680, "episode/length": 142.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07692307692307693}
+{"step": 825872, "episode/length": 191.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.057291666666666664}
+{"step": 826029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.321338062555018, "train/action_min": 0.0, "train/action_std": 3.140752718482219, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03966600028142123, "train/actor_opt_grad_steps": 412110.0, "train/actor_opt_loss": -12.680074344008741, "train/adv_mag": 0.39104797512712614, "train/adv_max": 0.32780890418610104, "train/adv_mean": 0.0019716057774953506, "train/adv_min": -0.34588904112157687, "train/adv_std": 0.044390303725507896, "train/cont_avg": 0.9953647667253521, "train/cont_loss_mean": 5.4904429618864336e-05, "train/cont_loss_std": 0.0017357895996697216, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010810267012780508, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.9963344750065735e-06, "train/cont_pred": 0.995376641481695, "train/cont_rate": 0.9953647667253521, "train/dyn_loss_mean": 5.423521048586133, "train/dyn_loss_std": 8.801962798749896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0151989476781496, "train/extr_critic_critic_opt_grad_steps": 412110.0, "train/extr_critic_critic_opt_loss": 15844.349251760563, "train/extr_critic_mag": 11.689853063771423, "train/extr_critic_max": 11.689853063771423, "train/extr_critic_mean": 3.5266806374133473, "train/extr_critic_min": -0.39813194476382835, "train/extr_critic_std": 2.8186237073280442, "train/extr_return_normed_mag": 1.3891854219033684, "train/extr_return_normed_max": 1.3891854219033684, "train/extr_return_normed_mean": 0.389956136614504, "train/extr_return_normed_min": -0.07631333529109686, "train/extr_return_normed_std": 0.313964842910498, "train/extr_return_rate": 0.8530947851463103, "train/extr_return_raw_mag": 12.601972203859141, "train/extr_return_raw_max": 12.601972203859141, "train/extr_return_raw_mean": 3.544568637727012, "train/extr_return_raw_min": -0.6817244320688113, "train/extr_return_raw_std": 2.845920811236744, "train/extr_reward_mag": 1.0622840196313992, "train/extr_reward_max": 1.0622840196313992, "train/extr_reward_mean": 0.05907071586435949, "train/extr_reward_min": -0.5990562002423784, "train/extr_reward_std": 0.23399875890201247, "train/image_loss_mean": 3.181640065891642, "train/image_loss_std": 8.283113889291252, "train/model_loss_mean": 6.489891999204394, "train/model_loss_std": 12.38192626120339, "train/model_opt_grad_norm": 24.665672315678126, "train/model_opt_grad_steps": 411776.0, "train/model_opt_loss": 16224.72998734595, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7041616036858356, "train/policy_entropy_max": 2.7041616036858356, "train/policy_entropy_mean": 0.38841225563640325, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5905846596603662, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3892250056837646, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0223776698112488, "train/policy_randomness_mag": 0.9544503806342541, "train/policy_randomness_max": 0.9544503806342541, "train/policy_randomness_mean": 0.13709248077701514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2084504672339265, "train/post_ent_mag": 55.45993665238501, "train/post_ent_max": 55.45993665238501, "train/post_ent_mean": 40.679930189965475, "train/post_ent_min": 19.382209092798366, "train/post_ent_std": 5.790480136871338, "train/prior_ent_mag": 76.8185467787192, "train/prior_ent_max": 76.8185467787192, "train/prior_ent_mean": 46.09022258704817, "train/prior_ent_min": 28.180222820228256, "train/prior_ent_std": 7.662147548836722, "train/rep_loss_mean": 5.423521048586133, "train/rep_loss_std": 8.801962798749896, "train/reward_avg": 0.04037879617281363, "train/reward_loss_mean": 0.054084415324556996, "train/reward_loss_std": 0.20106722981157438, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0217640601413351, "train/reward_neg_acc": 0.9941469279813094, "train/reward_neg_loss": 0.022987015545368195, "train/reward_pos_acc": 0.9927842591849851, "train/reward_pos_loss": 0.7170229570966371, "train/reward_pred": 0.040153160402682464, "train/reward_rate": 0.0448393485915493, "stats/sum_log_reward": 11.528571605682373, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26457503012248446, "replay/size": 825966.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.533751777048861e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3392209336998756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27282214164734, "timer/env.step_count": 1424.0, "timer/env.step_total": 20.603841543197632, "timer/env.step_frac": 0.06861707095648573, "timer/env.step_avg": 0.014468989847751145, "timer/env.step_min": 0.002819061279296875, "timer/env.step_max": 1.871809482574463, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2840695381164551, "timer/replay.add_frac": 0.0009460381265622877, "timer/replay.add_avg": 0.0001994870351941398, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0037279129028320312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031846046447753906, "timer/logger.write_frac": 0.00010605703913067168, "timer/logger.write_avg": 0.031846046447753906, "timer/logger.write_min": 0.031846046447753906, "timer/logger.write_max": 0.031846046447753906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001800060272216797, "timer/checkpoint.save_frac": 5.994749239635336e-07, "timer/checkpoint.save_avg": 0.0001800060272216797, "timer/checkpoint.save_min": 0.0001800060272216797, "timer/checkpoint.save_max": 0.0001800060272216797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5276265144348145, "timer/agent.save_frac": 0.005087461807363269, "timer/agent.save_avg": 1.5276265144348145, "timer/agent.save_min": 1.5276265144348145, "timer/agent.save_max": 1.5276265144348145, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.707562239358476e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 13.171473264694214, "timer/agent.policy_frac": 0.043865019720235786, "timer/agent.policy_avg": 0.009249630101611105, "timer/agent.policy_min": 0.005676746368408203, "timer/agent.policy_max": 1.5188796520233154, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06125688552856445, "timer/dataset_frac": 0.00020400409564761681, "timer/dataset_avg": 8.603495158506244e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.434366941452, "timer/agent.train_frac": 0.8839773278456716, "timer/agent.train_avg": 0.3728010771649607, "timer/agent.train_min": 0.36596202850341797, "timer/agent.train_max": 0.8645198345184326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351527214050293, "timer/agent.report_frac": 0.0007443739681344332, "timer/agent.report_avg": 0.22351527214050293, "timer/agent.report_min": 0.22351527214050293, "timer/agent.report_max": 0.22351527214050293, "fps": 4.742266183721878}
+{"step": 826093, "episode/length": 220.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 18.300000071525574, "episode/reward_rate": 0.07692307692307693}
+{"step": 826272, "episode/length": 178.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08379888268156424}
+{"step": 826473, "episode/length": 200.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.06467661691542288}
+{"step": 826692, "episode/length": 218.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.0547945205479452}
+{"step": 826876, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
+{"step": 827140, "episode/length": 263.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.041666666666666664}
+{"step": 827374, "episode/length": 233.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05555555555555555}
+{"step": 827479, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3459539544092465, "train/action_min": 0.0, "train/action_std": 3.154295424892478, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039823089917636896, "train/actor_opt_grad_steps": 412830.0, "train/actor_opt_loss": -11.06501884370634, "train/adv_mag": 0.40460686201918616, "train/adv_max": 0.35514781613872476, "train/adv_mean": 0.0023093013900606445, "train/adv_min": -0.33849594629790686, "train/adv_std": 0.04453527554869652, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 5.3082795165644475e-05, "train/cont_loss_std": 0.0016844593648577084, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.0073521814978890964, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 1.7260539352653018e-05, "train/cont_pred": 0.9947709000273927, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.501890535223974, "train/dyn_loss_std": 8.902392295941915, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9473759425829534, "train/extr_critic_critic_opt_grad_steps": 412830.0, "train/extr_critic_critic_opt_loss": 15616.837141481165, "train/extr_critic_mag": 11.806786693938792, "train/extr_critic_max": 11.806786693938792, "train/extr_critic_mean": 3.712881568360002, "train/extr_critic_min": -0.3607383933785844, "train/extr_critic_std": 2.8575491219350737, "train/extr_return_normed_mag": 1.3923673531780505, "train/extr_return_normed_max": 1.3923673531780505, "train/extr_return_normed_mean": 0.40886869863288045, "train/extr_return_normed_min": -0.07952272167352781, "train/extr_return_normed_std": 0.3187438470043548, "train/extr_return_rate": 0.8616055315488005, "train/extr_return_raw_mag": 12.634868948426965, "train/extr_return_raw_max": 12.634868948426965, "train/extr_return_raw_mean": 3.7337989382547874, "train/extr_return_raw_min": -0.6857078038666347, "train/extr_return_raw_std": 2.884761013396799, "train/extr_reward_mag": 1.0693799142968166, "train/extr_reward_max": 1.0693799142968166, "train/extr_reward_mean": 0.06094828401118109, "train/extr_reward_min": -0.5793385456686151, "train/extr_reward_std": 0.2371002690841074, "train/image_loss_mean": 3.2135363539604294, "train/image_loss_std": 8.54824651430731, "train/model_loss_mean": 6.5721766132197965, "train/model_loss_std": 12.74659260005167, "train/model_opt_grad_norm": 24.033077932383915, "train/model_opt_grad_steps": 412495.3287671233, "train/model_opt_loss": 16607.791269798803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.672694598158745, "train/policy_entropy_max": 2.672694598158745, "train/policy_entropy_mean": 0.3649510818801514, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5611837575696919, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.365080764848892, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 0.9986405046018836, "train/policy_randomness_mag": 0.9433439031039199, "train/policy_randomness_max": 0.9433439031039199, "train/policy_randomness_mean": 0.12881171795195095, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19807324180864308, "train/post_ent_mag": 55.437516094887094, "train/post_ent_max": 55.437516094887094, "train/post_ent_mean": 40.48066868194162, "train/post_ent_min": 19.636961140044747, "train/post_ent_std": 5.787760166272725, "train/prior_ent_mag": 76.79642246194082, "train/prior_ent_max": 76.79642246194082, "train/prior_ent_mean": 45.96434648069617, "train/prior_ent_min": 28.13947241273645, "train/prior_ent_std": 7.777281049179704, "train/rep_loss_mean": 5.501890535223974, "train/rep_loss_std": 8.902392295941915, "train/reward_avg": 0.04210188316359912, "train/reward_loss_mean": 0.05745282830440835, "train/reward_loss_std": 0.21775989908061616, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0308261864805874, "train/reward_neg_acc": 0.9939728705850366, "train/reward_neg_loss": 0.02486438255706062, "train/reward_pos_acc": 0.9886822259589417, "train/reward_pos_loss": 0.7264468882181873, "train/reward_pred": 0.0417979743637859, "train/reward_rate": 0.046553938356164386, "stats/sum_log_reward": 11.100000313350133, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3124880237238748, "replay/size": 827416.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4883104521652747e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3354317895297346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3809344768524, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.482717752456665, "timer/env.step_frac": 0.061530928334870595, "timer/env.step_avg": 0.012746701898245975, "timer/env.step_min": 0.002877473831176758, "timer/env.step_max": 1.6033875942230225, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.284487247467041, "timer/replay.add_frac": 0.0009470882296924335, "timer/replay.add_avg": 0.0001961981017014076, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0024209022521972656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0212094783782959, "timer/logger.write_frac": 7.060860375587625e-05, "timer/logger.write_avg": 0.0212094783782959, "timer/logger.write_min": 0.0212094783782959, "timer/logger.write_max": 0.0212094783782959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.2359938621521, "timer/agent.policy_frac": 0.03740581565777756, "timer/agent.policy_avg": 0.007748961284242828, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.01743030548095703, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06232476234436035, "timer/dataset_frac": 0.0002074857462338814, "timer/dataset_avg": 8.596518944049704e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.6018421649933, "timer/agent.train_frac": 0.8975331361643694, "timer/agent.train_avg": 0.3718646098827494, "timer/agent.train_min": 0.36574220657348633, "timer/agent.train_max": 0.3853487968444824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22215628623962402, "timer/agent.report_frac": 0.0007395818467191816, "timer/agent.report_avg": 0.22215628623962402, "timer/agent.report_min": 0.22215628623962402, "timer/agent.report_max": 0.22215628623962402, "fps": 4.8271065601685805}
+{"step": 827590, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06944444444444445}
+{"step": 827783, "episode/length": 192.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.046632124352331605}
+{"step": 828001, "episode/length": 217.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05504587155963303}
+{"step": 828683, "episode/length": 681.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 21.30000013113022, "episode/reward_rate": 0.02346041055718475}
+{"step": 828886, "episode/length": 202.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.06403940886699508}
+{"step": 828937, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3048146565755205, "train/action_min": 0.0, "train/action_std": 3.1179520752694874, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040536973625421524, "train/actor_opt_grad_steps": 413555.0, "train/actor_opt_loss": -11.109186840864519, "train/adv_mag": 0.39142874793873894, "train/adv_max": 0.3509258431278997, "train/adv_mean": 0.002408033543992537, "train/adv_min": -0.32645929604768753, "train/adv_std": 0.044878203007909984, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 1.5439547659232585e-05, "train/cont_loss_std": 0.00047066164555707875, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002291147736826815, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.5508914841584115e-06, "train/cont_pred": 0.9952322145303091, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.420639508300358, "train/dyn_loss_std": 8.86158115333981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9857754301693704, "train/extr_critic_critic_opt_grad_steps": 413555.0, "train/extr_critic_critic_opt_loss": 15817.442328559027, "train/extr_critic_mag": 12.026557087898254, "train/extr_critic_max": 12.026557087898254, "train/extr_critic_mean": 3.648742804924647, "train/extr_critic_min": -0.38811508814493817, "train/extr_critic_std": 2.8646475540267096, "train/extr_return_normed_mag": 1.4252570453617308, "train/extr_return_normed_max": 1.4252570453617308, "train/extr_return_normed_mean": 0.4000803484684891, "train/extr_return_normed_min": -0.08024612327830659, "train/extr_return_normed_std": 0.31720498411191833, "train/extr_return_rate": 0.8566252978311645, "train/extr_return_raw_mag": 13.02914951907264, "train/extr_return_raw_max": 13.02914951907264, "train/extr_return_raw_mean": 3.6707342399491205, "train/extr_return_raw_min": -0.7137325559225347, "train/extr_return_raw_std": 2.895460695028305, "train/extr_reward_mag": 1.063912034034729, "train/extr_reward_max": 1.063912034034729, "train/extr_reward_mean": 0.06060023455777102, "train/extr_reward_min": -0.614077607790629, "train/extr_reward_std": 0.23695952465964687, "train/image_loss_mean": 3.159951221611765, "train/image_loss_std": 8.381600757439932, "train/model_loss_mean": 6.468112064732446, "train/model_loss_std": 12.533522129058838, "train/model_opt_grad_norm": 25.3380024433136, "train/model_opt_grad_steps": 413219.1111111111, "train/model_opt_loss": 9051.571919759115, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.6643998622894287, "train/policy_entropy_max": 2.6643998622894287, "train/policy_entropy_mean": 0.35420244249204796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5386185149351755, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35478541544742054, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9896722079979049, "train/policy_randomness_mag": 0.9404162284400728, "train/policy_randomness_max": 0.9404162284400728, "train/policy_randomness_mean": 0.12501791968113846, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19010869868927532, "train/post_ent_mag": 55.41976886325412, "train/post_ent_max": 55.41976886325412, "train/post_ent_mean": 40.45847770902846, "train/post_ent_min": 19.433907005521988, "train/post_ent_std": 5.8155328962537975, "train/prior_ent_mag": 76.73359828525119, "train/prior_ent_max": 76.73359828525119, "train/prior_ent_mean": 45.88515403535631, "train/prior_ent_min": 28.259715000788372, "train/prior_ent_std": 7.726153009467655, "train/rep_loss_mean": 5.420639508300358, "train/rep_loss_std": 8.86158115333981, "train/reward_avg": 0.0406724712294009, "train/reward_loss_mean": 0.055761740594688386, "train/reward_loss_std": 0.21504414847327602, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0266546640131209, "train/reward_neg_acc": 0.9936192093624009, "train/reward_neg_loss": 0.024416146308390632, "train/reward_pos_acc": 0.9905098560783598, "train/reward_pos_loss": 0.7199119817879465, "train/reward_pred": 0.0405236029635287, "train/reward_rate": 0.045098198784722224, "stats/sum_log_reward": 12.100000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.3444975882768631, "replay/size": 828874.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.542265610766836e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.321277173621828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0663626194, "timer/env.step_count": 1458.0, "timer/env.step_total": 16.441242933273315, "timer/env.step_frac": 0.05479202263709631, "timer/env.step_avg": 0.01127657265656606, "timer/env.step_min": 0.002950906753540039, "timer/env.step_max": 1.7076797485351562, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.29062938690185547, "timer/replay.add_frac": 0.0009685503712073376, "timer/replay.add_avg": 0.00019933428456917385, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0052258968353271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024153709411621094, "timer/logger.write_frac": 8.049455860621512e-05, "timer/logger.write_avg": 0.024153709411621094, "timer/logger.write_min": 0.024153709411621094, "timer/logger.write_max": 0.024153709411621094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.37373423576355, "timer/agent.policy_frac": 0.03790406274291342, "timer/agent.policy_avg": 0.007800915113692421, "timer/agent.policy_min": 0.005806684494018555, "timer/agent.policy_max": 0.019349336624145508, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06422829627990723, "timer/dataset_frac": 0.0002140469718739301, "timer/dataset_avg": 8.810465882017452e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1843948364258, "timer/agent.train_frac": 0.9037480658249998, "timer/agent.train_avg": 0.37199505464530286, "timer/agent.train_min": 0.3619420528411865, "timer/agent.train_max": 0.3862800598144531, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22054314613342285, "timer/agent.report_frac": 0.0007349812361779341, "timer/agent.report_avg": 0.22054314613342285, "timer/agent.report_min": 0.22054314613342285, "timer/agent.report_max": 0.22054314613342285, "fps": 4.858821112704876}
+{"step": 829134, "episode/length": 247.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06451612903225806}
+{"step": 829384, "episode/length": 249.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 12.900000035762787, "episode/reward_rate": 0.048}
+{"step": 829712, "episode/length": 327.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.04573170731707317}
+{"step": 830097, "episode/length": 384.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03896103896103896}
+{"step": 830263, "episode/length": 165.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03614457831325301}
+{"step": 830379, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402097937178938, "train/action_min": 0.0, "train/action_std": 3.1845080754528308, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03979469720937618, "train/actor_opt_grad_steps": 414280.0, "train/actor_opt_loss": -11.568117507516522, "train/adv_mag": 0.401050961997411, "train/adv_max": 0.34623458165011994, "train/adv_mean": 0.001815395437604397, "train/adv_min": -0.35860197919688813, "train/adv_std": 0.04419713196893261, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 9.026945911102368e-05, "train/cont_loss_std": 0.0027724746259065037, "train/cont_neg_acc": 0.994618396236472, "train/cont_neg_loss": 0.015328664429906807, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.5675820781125335e-05, "train/cont_pred": 0.9948881570607016, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.40229788218459, "train/dyn_loss_std": 8.82424644574727, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9156395539845505, "train/extr_critic_critic_opt_grad_steps": 414280.0, "train/extr_critic_critic_opt_loss": 15580.677092251712, "train/extr_critic_mag": 11.948550485584834, "train/extr_critic_max": 11.948550485584834, "train/extr_critic_mean": 3.7162659854105073, "train/extr_critic_min": -0.3664855908041131, "train/extr_critic_std": 2.89845287309934, "train/extr_return_normed_mag": 1.3911633867107025, "train/extr_return_normed_max": 1.3911633867107025, "train/extr_return_normed_mean": 0.4041448515163709, "train/extr_return_normed_min": -0.07778071714182423, "train/extr_return_normed_std": 0.31917148379430377, "train/extr_return_rate": 0.8471809454160194, "train/extr_return_raw_mag": 12.779045849630277, "train/extr_return_raw_max": 12.779045849630277, "train/extr_return_raw_mean": 3.732878910352106, "train/extr_return_raw_min": -0.6837229181642401, "train/extr_return_raw_std": 2.9252989259484696, "train/extr_reward_mag": 1.0689849657555148, "train/extr_reward_max": 1.0689849657555148, "train/extr_reward_mean": 0.06084444174823696, "train/extr_reward_min": -0.6257230272031811, "train/extr_reward_std": 0.23681680919372872, "train/image_loss_mean": 3.1657341179782397, "train/image_loss_std": 7.8968324595934725, "train/model_loss_mean": 6.464783446429527, "train/model_loss_std": 12.062623115435038, "train/model_opt_grad_norm": 23.348664858569837, "train/model_opt_grad_steps": 413943.9589041096, "train/model_opt_loss": 11828.629922945205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.6754573142691833, "train/policy_entropy_max": 2.6754573142691833, "train/policy_entropy_mean": 0.3815021616955326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5835263871983306, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38167980292888537, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.013591273190224, "train/policy_randomness_mag": 0.9443190220284136, "train/policy_randomness_max": 0.9443190220284136, "train/policy_randomness_mean": 0.13465352223752297, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20595920881996416, "train/post_ent_mag": 55.78806482602472, "train/post_ent_max": 55.78806482602472, "train/post_ent_mean": 40.704219661346855, "train/post_ent_min": 19.83096037825493, "train/post_ent_std": 5.7664766768886615, "train/prior_ent_mag": 76.70638954476135, "train/prior_ent_max": 76.70638954476135, "train/prior_ent_mean": 46.09128309276006, "train/prior_ent_min": 28.430636706417555, "train/prior_ent_std": 7.709720853256853, "train/rep_loss_mean": 5.40229788218459, "train/rep_loss_std": 8.82424644574727, "train/reward_avg": 0.04142765407386708, "train/reward_loss_mean": 0.05758041526152663, "train/reward_loss_std": 0.21950545682482522, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0245435531825235, "train/reward_neg_acc": 0.9931859096435651, "train/reward_neg_loss": 0.0250425927774751, "train/reward_pos_acc": 0.988586427414254, "train/reward_pos_loss": 0.7350432758461939, "train/reward_pred": 0.04096184890360048, "train/reward_rate": 0.04608572345890411, "stats/sum_log_reward": 11.900000286102294, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.8, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5369307577610016, "replay/size": 830316.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5678464066800395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2749069772051044e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2472834587097, "timer/env.step_count": 1442.0, "timer/env.step_total": 17.60867428779602, "timer/env.step_frac": 0.05864723931871171, "timer/env.step_avg": 0.012211285913866866, "timer/env.step_min": 0.0028743743896484375, "timer/env.step_max": 1.8961701393127441, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2889416217803955, "timer/replay.add_frac": 0.0009623454988565485, "timer/replay.add_avg": 0.00020037560456338108, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004827260971069336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022621631622314453, "timer/logger.write_frac": 7.534333487292118e-05, "timer/logger.write_avg": 0.022621631622314453, "timer/logger.write_min": 0.022621631622314453, "timer/logger.write_max": 0.022621631622314453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003552436828613281, "timer/checkpoint.save_frac": 1.1831703480180915e-06, "timer/checkpoint.save_avg": 0.0003552436828613281, "timer/checkpoint.save_min": 0.0003552436828613281, "timer/checkpoint.save_max": 0.0003552436828613281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2487657070159912, "timer/agent.save_frac": 0.004159124081426444, "timer/agent.save_avg": 1.2487657070159912, "timer/agent.save_min": 1.2487657070159912, "timer/agent.save_max": 1.2487657070159912, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.66808883848375e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.992609024047852, "timer/agent.policy_frac": 0.04327302773360348, "timer/agent.policy_avg": 0.0090101310846379, "timer/agent.policy_min": 0.005632162094116211, "timer/agent.policy_max": 1.243250846862793, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06281352043151855, "timer/dataset_frac": 0.00020920595752919354, "timer/dataset_avg": 8.712000059850007e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0010170936584472656, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.59353256225586, "timer/agent.train_frac": 0.8945743970376108, "timer/agent.train_avg": 0.3725291713762217, "timer/agent.train_min": 0.3654017448425293, "timer/agent.train_max": 0.8451907634735107, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196362018585205, "timer/agent.report_frac": 0.0007315176987728686, "timer/agent.report_avg": 0.2196362018585205, "timer/agent.report_min": 0.2196362018585205, "timer/agent.report_max": 0.2196362018585205, "fps": 4.80264197263857}
+{"step": 830460, "episode/length": 196.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04568527918781726}
+{"step": 830590, "episode/length": 129.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.1}
+{"step": 830826, "episode/length": 235.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.0635593220338983}
+{"step": 830985, "episode/length": 158.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08176100628930817}
+{"step": 831351, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.040983606557377046}
+{"step": 831625, "episode/length": 273.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.051094890510948905}
+{"step": 831833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.554359436035156, "train/action_min": 0.0, "train/action_std": 3.364729834927453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038617299766176276, "train/actor_opt_grad_steps": 415005.0, "train/actor_opt_loss": -12.247704828778902, "train/adv_mag": 0.40226943376991486, "train/adv_max": 0.33743180334568024, "train/adv_mean": 0.0016084430215717778, "train/adv_min": -0.36034909615086186, "train/adv_std": 0.04325179709121585, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 3.8616295964466474e-05, "train/cont_loss_std": 0.0012201633364953403, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.897835498880643e-05, "train/cont_pos_acc": 0.9999863364630275, "train/cont_pos_loss": 3.82067653268672e-05, "train/cont_pred": 0.9950768624742826, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.351256337430742, "train/dyn_loss_std": 8.754361391067505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8991499228609933, "train/extr_critic_critic_opt_grad_steps": 415005.0, "train/extr_critic_critic_opt_loss": 15439.780219184027, "train/extr_critic_mag": 11.767292512787712, "train/extr_critic_max": 11.767292512787712, "train/extr_critic_mean": 3.6468975477748447, "train/extr_critic_min": -0.39789356622431016, "train/extr_critic_std": 2.881576720211241, "train/extr_return_normed_mag": 1.3729649202691183, "train/extr_return_normed_max": 1.3729649202691183, "train/extr_return_normed_mean": 0.39789344370365143, "train/extr_return_normed_min": -0.08936396411930521, "train/extr_return_normed_std": 0.3184790213902791, "train/extr_return_rate": 0.8514838765064875, "train/extr_return_raw_mag": 12.565367235077751, "train/extr_return_raw_max": 12.565367235077751, "train/extr_return_raw_mean": 3.6615909271770053, "train/extr_return_raw_min": -0.7881161181463135, "train/extr_return_raw_std": 2.908436675866445, "train/extr_reward_mag": 1.0708546605375078, "train/extr_reward_max": 1.0708546605375078, "train/extr_reward_mean": 0.0602180166170001, "train/extr_reward_min": -0.6411164253950119, "train/extr_reward_std": 0.23648326637016404, "train/image_loss_mean": 3.185276774896516, "train/image_loss_std": 8.432942913638222, "train/model_loss_mean": 6.452520145310296, "train/model_loss_std": 12.494488835334778, "train/model_opt_grad_norm": 24.048589030901592, "train/model_opt_grad_steps": 414668.0, "train/model_opt_loss": 8065.650139702691, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.677302290995916, "train/policy_entropy_max": 2.677302290995916, "train/policy_entropy_mean": 0.41579239070415497, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6264233100745413, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41563012823462486, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0407097107834287, "train/policy_randomness_mag": 0.9449702194995351, "train/policy_randomness_max": 0.9449702194995351, "train/policy_randomness_mean": 0.14675646906511652, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22109993857642016, "train/post_ent_mag": 55.26726383633084, "train/post_ent_max": 55.26726383633084, "train/post_ent_mean": 40.45265197753906, "train/post_ent_min": 19.560236546728348, "train/post_ent_std": 5.723519007364909, "train/prior_ent_mag": 76.6926293902927, "train/prior_ent_max": 76.6926293902927, "train/prior_ent_mean": 45.799590004814995, "train/prior_ent_min": 28.053641107347275, "train/prior_ent_std": 7.696440279483795, "train/rep_loss_mean": 5.351256337430742, "train/rep_loss_std": 8.754361391067505, "train/reward_avg": 0.040490722102630466, "train/reward_loss_mean": 0.05645093016533388, "train/reward_loss_std": 0.22212761123147276, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0261828617917166, "train/reward_neg_acc": 0.994336213502619, "train/reward_neg_loss": 0.024098274052246578, "train/reward_pos_acc": 0.9857984715037875, "train/reward_pos_loss": 0.7423011288046837, "train/reward_pred": 0.0398694870269133, "train/reward_rate": 0.04501681857638889, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48555735498666763, "replay/size": 831770.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.557913569013551e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2818893015466662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17008352279663, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.45524787902832, "timer/env.step_frac": 0.0581511910653237, "timer/env.step_avg": 0.012004984786126768, "timer/env.step_min": 0.002892732620239258, "timer/env.step_max": 1.6776995658874512, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2915072441101074, "timer/replay.add_frac": 0.0009711402305285653, "timer/replay.add_avg": 0.00020048641273047278, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00412297248840332, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02905583381652832, "timer/logger.write_frac": 9.679790029548915e-05, "timer/logger.write_avg": 0.02905583381652832, "timer/logger.write_min": 0.02905583381652832, "timer/logger.write_max": 0.02905583381652832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.157787799835205, "timer/agent.policy_frac": 0.03717155177120714, "timer/agent.policy_avg": 0.007673856808689962, "timer/agent.policy_min": 0.005690574645996094, "timer/agent.policy_max": 0.02061748504638672, "timer/dataset_count": 727.0, "timer/dataset_total": 0.061903953552246094, "timer/dataset_frac": 0.00020622959098968554, "timer/dataset_avg": 8.514986733458886e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.49511909484863, "timer/agent.train_frac": 0.9011395003803092, "timer/agent.train_avg": 0.37207031512358824, "timer/agent.train_min": 0.3654642105102539, "timer/agent.train_max": 0.38445329666137695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22057437896728516, "timer/agent.report_frac": 0.0007348313208918885, "timer/agent.report_avg": 0.22057437896728516, "timer/agent.report_min": 0.22057437896728516, "timer/agent.report_max": 0.22057437896728516, "fps": 4.843815809176063}
+{"step": 831841, "episode/length": 215.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05555555555555555}
+{"step": 832029, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0797872340425532}
+{"step": 832251, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05855855855855856}
+{"step": 832479, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06140350877192982}
+{"step": 832694, "episode/length": 214.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06511627906976744}
+{"step": 832868, "episode/length": 173.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.09195402298850575}
+{"step": 833134, "episode/length": 265.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.05639097744360902}
+{"step": 833277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404818216959636, "train/action_min": 0.0, "train/action_std": 3.2245018117957644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04003067105077207, "train/actor_opt_grad_steps": 415725.0, "train/actor_opt_loss": -11.844254246188534, "train/adv_mag": 0.40534819745355183, "train/adv_max": 0.35286450965536964, "train/adv_mean": 0.002216068825166278, "train/adv_min": -0.35344812729292446, "train/adv_std": 0.04433178989630607, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 6.330632603799045e-05, "train/cont_loss_std": 0.001993450936056086, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.01897423184874785, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 7.588821134249832e-06, "train/cont_pred": 0.9952594414353371, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.498737394809723, "train/dyn_loss_std": 8.962496863471138, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9746427834033966, "train/extr_critic_critic_opt_grad_steps": 415725.0, "train/extr_critic_critic_opt_loss": 15667.296861436633, "train/extr_critic_mag": 11.90638898478614, "train/extr_critic_max": 11.90638898478614, "train/extr_critic_mean": 3.623913218577703, "train/extr_critic_min": -0.4136686871449153, "train/extr_critic_std": 2.8453349802229138, "train/extr_return_normed_mag": 1.3893936491674848, "train/extr_return_normed_max": 1.3893936491674848, "train/extr_return_normed_mean": 0.3952786512672901, "train/extr_return_normed_min": -0.09292239085253742, "train/extr_return_normed_std": 0.3165455584724744, "train/extr_return_rate": 0.8632170922226376, "train/extr_return_raw_mag": 12.665265361467997, "train/extr_return_raw_max": 12.665265361467997, "train/extr_return_raw_mean": 3.6440305444929333, "train/extr_return_raw_min": -0.7859173901379108, "train/extr_return_raw_std": 2.8723732034365335, "train/extr_reward_mag": 1.067705386214786, "train/extr_reward_max": 1.067705386214786, "train/extr_reward_mean": 0.06076644340323077, "train/extr_reward_min": -0.6509291016393237, "train/extr_reward_std": 0.23692557153602442, "train/image_loss_mean": 3.195940916736921, "train/image_loss_std": 8.48626438776652, "train/model_loss_mean": 6.552270882659489, "train/model_loss_std": 12.714126348495483, "train/model_opt_grad_norm": 23.21952184041341, "train/model_opt_grad_steps": 415388.0, "train/model_opt_loss": 13676.097351074219, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2065.972222222222, "train/policy_entropy_mag": 2.66546070906851, "train/policy_entropy_max": 2.66546070906851, "train/policy_entropy_mean": 0.3825151700940397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5828423839476373, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3822849591573079, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0141383161147435, "train/policy_randomness_mag": 0.9407906590236558, "train/policy_randomness_max": 0.9407906590236558, "train/policy_randomness_mean": 0.1350110699940059, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20571778383519915, "train/post_ent_mag": 54.98740445242988, "train/post_ent_max": 54.98740445242988, "train/post_ent_mean": 40.436208724975586, "train/post_ent_min": 19.59734348456065, "train/post_ent_std": 5.719799081484477, "train/prior_ent_mag": 76.7410888671875, "train/prior_ent_max": 76.7410888671875, "train/prior_ent_mean": 45.88839785257975, "train/prior_ent_min": 28.279063436720108, "train/prior_ent_std": 7.7171719736523094, "train/rep_loss_mean": 5.498737394809723, "train/rep_loss_std": 8.962496863471138, "train/reward_avg": 0.04168158624735144, "train/reward_loss_mean": 0.0570241893745131, "train/reward_loss_std": 0.2245934121310711, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0357123911380768, "train/reward_neg_acc": 0.9941814243793488, "train/reward_neg_loss": 0.023732091765850782, "train/reward_pos_acc": 0.9850443767176734, "train/reward_pos_loss": 0.7469068691134453, "train/reward_pred": 0.04111037874180409, "train/reward_rate": 0.046101888020833336, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28492708929947447, "replay/size": 833214.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.5257550818107797e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3565216368255193e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16822838783264, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.701654195785522, "timer/env.step_frac": 0.06563537487495173, "timer/env.step_avg": 0.013643804844726817, "timer/env.step_min": 0.0027947425842285156, "timer/env.step_max": 1.6933674812316895, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26795268058776855, "timer/replay.add_frac": 0.0008926750243585408, "timer/replay.add_avg": 0.00018556279819097546, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0024411678314208984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023116111755371094, "timer/logger.write_frac": 7.701052133173768e-05, "timer/logger.write_avg": 0.023116111755371094, "timer/logger.write_min": 0.023116111755371094, "timer/logger.write_max": 0.023116111755371094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.835797309875488, "timer/agent.policy_frac": 0.03609908139869849, "timer/agent.policy_avg": 0.007504014757531502, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 0.026059389114379883, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06032204627990723, "timer/dataset_frac": 0.00020096079656361254, "timer/dataset_avg": 8.354854055388813e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.60889863967896, "timer/agent.train_frac": 0.8948611919467458, "timer/agent.train_avg": 0.3720344856505249, "timer/agent.train_min": 0.36479663848876953, "timer/agent.train_max": 0.38450169563293457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22162270545959473, "timer/agent.report_frac": 0.0007383283255856343, "timer/agent.report_avg": 0.22162270545959473, "timer/agent.report_min": 0.22162270545959473, "timer/agent.report_max": 0.22162270545959473, "fps": 4.810532660855906}
+{"step": 833304, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
+{"step": 833771, "episode/length": 466.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.027837259100642397}
+{"step": 833836, "episode/length": 64.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.13846153846153847}
+{"step": 834055, "episode/length": 218.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.0730593607305936}
+{"step": 834359, "episode/length": 303.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.039473684210526314}
+{"step": 834604, "episode/length": 244.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.061224489795918366}
+{"step": 834711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394659254286024, "train/action_min": 0.0, "train/action_std": 3.224923766321606, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03972046711068186, "train/actor_opt_grad_steps": 416445.0, "train/actor_opt_loss": -11.84412896591756, "train/adv_mag": 0.39167805512746173, "train/adv_max": 0.33074766314691967, "train/adv_mean": 0.002149981530086128, "train/adv_min": -0.3478440987981028, "train/adv_std": 0.044211066534949675, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 2.1081647900958148e-05, "train/cont_loss_std": 0.000647928200531093, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.002934644971342474, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 3.707668506090932e-06, "train/cont_pred": 0.9947720484601127, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.54133544365565, "train/dyn_loss_std": 8.91223257780075, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9446036981211768, "train/extr_critic_critic_opt_grad_steps": 416445.0, "train/extr_critic_critic_opt_loss": 15677.973266601562, "train/extr_critic_mag": 11.761293835110134, "train/extr_critic_max": 11.761293835110134, "train/extr_critic_mean": 3.638398375776079, "train/extr_critic_min": -0.3728117081854079, "train/extr_critic_std": 2.855841292275323, "train/extr_return_normed_mag": 1.3831309990750418, "train/extr_return_normed_max": 1.3831309990750418, "train/extr_return_normed_mean": 0.3985234203024043, "train/extr_return_normed_min": -0.08192063707651363, "train/extr_return_normed_std": 0.3188539101845688, "train/extr_return_rate": 0.8577799912956026, "train/extr_return_raw_mag": 12.555779152446323, "train/extr_return_raw_max": 12.555779152446323, "train/extr_return_raw_mean": 3.657826453447342, "train/extr_return_raw_min": -0.6839470941987302, "train/extr_return_raw_std": 2.8815597792466483, "train/extr_reward_mag": 1.0701099501715765, "train/extr_reward_max": 1.0701099501715765, "train/extr_reward_mean": 0.05986760613612003, "train/extr_reward_min": -0.6045795232057571, "train/extr_reward_std": 0.23554441684650052, "train/image_loss_mean": 3.319490098290973, "train/image_loss_std": 8.307497892114851, "train/model_loss_mean": 6.702524840831757, "train/model_loss_std": 12.477444953388638, "train/model_opt_grad_norm": 24.034483088387383, "train/model_opt_grad_steps": 416108.0, "train/model_opt_loss": 20798.314208984375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3159.722222222222, "train/policy_entropy_mag": 2.6697338422139487, "train/policy_entropy_max": 2.6697338422139487, "train/policy_entropy_mean": 0.3745891298684809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5669813205798467, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37421304773953223, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.004497731725375, "train/policy_randomness_mag": 0.9422988866766294, "train/policy_randomness_max": 0.9422988866766294, "train/policy_randomness_mean": 0.13221352412882778, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20011952622897095, "train/post_ent_mag": 55.55522749159071, "train/post_ent_max": 55.55522749159071, "train/post_ent_mean": 40.58414485719469, "train/post_ent_min": 19.538147343529594, "train/post_ent_std": 5.753061698542701, "train/prior_ent_mag": 76.72646013895671, "train/prior_ent_max": 76.72646013895671, "train/prior_ent_mean": 46.067336877187095, "train/prior_ent_min": 27.70647668838501, "train/prior_ent_std": 7.778429826100667, "train/rep_loss_mean": 5.54133544365565, "train/rep_loss_std": 8.91223257780075, "train/reward_avg": 0.04228515615169373, "train/reward_loss_mean": 0.05821244015047947, "train/reward_loss_std": 0.21751352523763975, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0223569754097197, "train/reward_neg_acc": 0.9934129003021452, "train/reward_neg_loss": 0.024928993299706943, "train/reward_pos_acc": 0.9892988006273905, "train/reward_pos_loss": 0.7308293887310557, "train/reward_pred": 0.041793346844820514, "train/reward_rate": 0.047037760416666664, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4412915160258611, "replay/size": 834648.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4470937242069006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.316373152047853e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1921646595001, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.92045569419861, "timer/env.step_frac": 0.05969661371583532, "timer/env.step_avg": 0.012496831028032502, "timer/env.step_min": 0.0029685497283935547, "timer/env.step_max": 1.6167633533477783, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28969597816467285, "timer/replay.add_frac": 0.0009650351084055348, "timer/replay.add_avg": 0.00020201951057508566, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.006752967834472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03001999855041504, "timer/logger.write_frac": 0.00010000260527940798, "timer/logger.write_avg": 0.03001999855041504, "timer/logger.write_min": 0.03001999855041504, "timer/logger.write_max": 0.03001999855041504, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017261505126953125, "timer/checkpoint.save_frac": 5.75015178911561e-07, "timer/checkpoint.save_avg": 0.00017261505126953125, "timer/checkpoint.save_min": 0.00017261505126953125, "timer/checkpoint.save_max": 0.00017261505126953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2528533935546875, "timer/agent.save_frac": 0.004173504644852291, "timer/agent.save_avg": 1.2528533935546875, "timer/agent.save_min": 1.2528533935546875, "timer/agent.save_max": 1.2528533935546875, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.581710815429688e-05, "timer/replay.save_frac": 2.525619155992768e-07, "timer/replay.save_avg": 7.581710815429688e-05, "timer/replay.save_min": 7.581710815429688e-05, "timer/replay.save_max": 7.581710815429688e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.631531000137329, "timer/agent.policy_frac": 0.048740549296926124, "timer/agent.policy_avg": 0.010203299163275682, "timer/agent.policy_min": 0.005693674087524414, "timer/agent.policy_max": 2.5651490688323975, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06065964698791504, "timer/dataset_frac": 0.00020206938797593082, "timer/dataset_avg": 8.460201811424692e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00013709068298339844, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.5889208316803, "timer/agent.train_frac": 0.8880608897106456, "timer/agent.train_avg": 0.371811605065105, "timer/agent.train_min": 0.36553359031677246, "timer/agent.train_max": 0.3856089115142822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21936416625976562, "timer/agent.report_frac": 0.0007307458091339075, "timer/agent.report_avg": 0.21936416625976562, "timer/agent.report_min": 0.21936416625976562, "timer/agent.report_max": 0.21936416625976562, "fps": 4.776833032078199}
+{"step": 834800, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0663265306122449}
+{"step": 835005, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06829268292682927}
+{"step": 835235, "episode/length": 229.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06521739130434782}
+{"step": 835410, "episode/length": 174.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08571428571428572}
+{"step": 835621, "episode/length": 210.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07109004739336493}
+{"step": 835844, "episode/length": 222.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07174887892376682}
+{"step": 836082, "episode/length": 237.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.058823529411764705}
+{"step": 836159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375648812071918, "train/action_min": 0.0, "train/action_std": 3.2424994723437583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03955959582267559, "train/actor_opt_grad_steps": 417170.0, "train/actor_opt_loss": -11.43278631935381, "train/adv_mag": 0.40680456386037067, "train/adv_max": 0.35513104804574624, "train/adv_mean": 0.0021776740974043967, "train/adv_min": -0.3661870284848017, "train/adv_std": 0.04486631556120638, "train/cont_avg": 0.9948630136986302, "train/cont_loss_mean": 0.00010866791871005997, "train/cont_loss_std": 0.0033814082671371317, "train/cont_neg_acc": 0.9911937387022254, "train/cont_neg_loss": 0.023136565737226573, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.7502164574620583e-05, "train/cont_pred": 0.9948738952205606, "train/cont_rate": 0.9948630136986302, "train/dyn_loss_mean": 5.584694601085088, "train/dyn_loss_std": 8.947456105114663, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9670886381031716, "train/extr_critic_critic_opt_grad_steps": 417170.0, "train/extr_critic_critic_opt_loss": 15719.934423159246, "train/extr_critic_mag": 11.730346013421881, "train/extr_critic_max": 11.730346013421881, "train/extr_critic_mean": 3.6276640434787697, "train/extr_critic_min": -0.342418517151924, "train/extr_critic_std": 2.7727874599090994, "train/extr_return_normed_mag": 1.3892765045166016, "train/extr_return_normed_max": 1.3892765045166016, "train/extr_return_normed_mean": 0.39863532618300557, "train/extr_return_normed_min": -0.08706942052669721, "train/extr_return_normed_std": 0.31199616683672554, "train/extr_return_rate": 0.8692227210084053, "train/extr_return_raw_mag": 12.540017689744086, "train/extr_return_raw_max": 12.540017689744086, "train/extr_return_raw_mean": 3.647207341782034, "train/extr_return_raw_min": -0.7135498776827773, "train/extr_return_raw_std": 2.801039248296659, "train/extr_reward_mag": 1.0731240461950433, "train/extr_reward_max": 1.0731240461950433, "train/extr_reward_mean": 0.060710565582530136, "train/extr_reward_min": -0.6186443991857032, "train/extr_reward_std": 0.23691819036660128, "train/image_loss_mean": 3.233564765485999, "train/image_loss_std": 8.534689263121722, "train/model_loss_mean": 6.64278771126107, "train/model_loss_std": 12.770678219729907, "train/model_opt_grad_norm": 24.266851921604104, "train/model_opt_grad_steps": 416832.05479452055, "train/model_opt_loss": 17450.721880351026, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.683828745802788, "train/policy_entropy_max": 2.683828745802788, "train/policy_entropy_mean": 0.382994972679713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836650733261892, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3831757129463431, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0144568477591422, "train/policy_randomness_mag": 0.9472737687907807, "train/policy_randomness_max": 0.9472737687907807, "train/policy_randomness_mean": 0.1351804181116901, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060081564808545, "train/post_ent_mag": 55.255956832676716, "train/post_ent_max": 55.255956832676716, "train/post_ent_mean": 40.443333299192666, "train/post_ent_min": 19.430120128474822, "train/post_ent_std": 5.785056342817333, "train/prior_ent_mag": 76.70497497140545, "train/prior_ent_max": 76.70497497140545, "train/prior_ent_mean": 45.997970319774055, "train/prior_ent_min": 28.46054902795243, "train/prior_ent_std": 7.7507431539770675, "train/rep_loss_mean": 5.584694601085088, "train/rep_loss_std": 8.947456105114663, "train/reward_avg": 0.04214469129092073, "train/reward_loss_mean": 0.05829756819222071, "train/reward_loss_std": 0.2209964049597309, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0292973991942733, "train/reward_neg_acc": 0.9934770432237077, "train/reward_neg_loss": 0.025383725124475075, "train/reward_pos_acc": 0.9881405593597725, "train/reward_pos_loss": 0.727830418985184, "train/reward_pred": 0.04182966142790775, "train/reward_rate": 0.04686162243150685, "stats/sum_log_reward": 13.671428680419922, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34707011921065195, "replay/size": 836096.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4516358243826345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3321308799870107e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3270525932312, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.00747275352478, "timer/env.step_frac": 0.06328924613817215, "timer/env.step_avg": 0.013126707702710483, "timer/env.step_min": 0.0026390552520751953, "timer/env.step_max": 1.6736392974853516, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2794363498687744, "timer/replay.add_frac": 0.000930440156675624, "timer/replay.add_avg": 0.00019298090460550719, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0051004886627197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02880072593688965, "timer/logger.write_frac": 9.589787429472067e-05, "timer/logger.write_avg": 0.02880072593688965, "timer/logger.write_min": 0.02880072593688965, "timer/logger.write_max": 0.02880072593688965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.963047981262207, "timer/agent.policy_frac": 0.03650369784073622, "timer/agent.policy_avg": 0.007571165732915889, "timer/agent.policy_min": 0.005604982376098633, "timer/agent.policy_max": 0.025578022003173828, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06127572059631348, "timer/dataset_frac": 0.00020402997354789247, "timer/dataset_avg": 8.463497319932801e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.30260968208313, "timer/agent.train_frac": 0.8966978077956628, "timer/agent.train_avg": 0.3719649305001148, "timer/agent.train_min": 0.3653395175933838, "timer/agent.train_max": 0.38474416732788086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218170166015625, "timer/agent.report_frac": 0.0007385848683501575, "timer/agent.report_avg": 0.2218170166015625, "timer/agent.report_min": 0.2218170166015625, "timer/agent.report_max": 0.2218170166015625, "fps": 4.821303403282806}
+{"step": 836281, "episode/length": 198.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07035175879396985}
+{"step": 836590, "episode/length": 308.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.045307443365695796}
+{"step": 836729, "episode/length": 138.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07913669064748201}
+{"step": 836869, "episode/length": 139.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07857142857142857}
+{"step": 837078, "episode/length": 208.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06698564593301436}
+{"step": 837409, "episode/length": 330.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03323262839879154}
+{"step": 837615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.33878919813368, "train/action_min": 0.0, "train/action_std": 3.1633335087034435, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03837598329927358, "train/actor_opt_grad_steps": 417895.0, "train/actor_opt_loss": -12.326403472158644, "train/adv_mag": 0.397026711040073, "train/adv_max": 0.3374379277229309, "train/adv_mean": 0.0019009421775990631, "train/adv_min": -0.34757272754278445, "train/adv_std": 0.04336037103914552, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 2.0573596525173974e-05, "train/cont_loss_std": 0.0006104740433067314, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.0040306205054763365, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 5.696550531237361e-06, "train/cont_pred": 0.9949737812081972, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.420422600375281, "train/dyn_loss_std": 8.840340640809801, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9640273509754075, "train/extr_critic_critic_opt_grad_steps": 417895.0, "train/extr_critic_critic_opt_loss": 15530.735649956598, "train/extr_critic_mag": 11.677285485797459, "train/extr_critic_max": 11.677285485797459, "train/extr_critic_mean": 3.578720645772086, "train/extr_critic_min": -0.38229282862610287, "train/extr_critic_std": 2.853861101799541, "train/extr_return_normed_mag": 1.3776315599679947, "train/extr_return_normed_max": 1.3776315599679947, "train/extr_return_normed_mean": 0.3904046408004231, "train/extr_return_normed_min": -0.08898266844658388, "train/extr_return_normed_std": 0.3185512257946862, "train/extr_return_rate": 0.8510706474383672, "train/extr_return_raw_mag": 12.527267813682556, "train/extr_return_raw_max": 12.527267813682556, "train/extr_return_raw_mean": 3.595910095506244, "train/extr_return_raw_min": -0.741116274976068, "train/extr_return_raw_std": 2.8820470372835794, "train/extr_reward_mag": 1.0737354689174228, "train/extr_reward_max": 1.0737354689174228, "train/extr_reward_mean": 0.05891994992271066, "train/extr_reward_min": -0.6386351651615567, "train/extr_reward_std": 0.23388688266277313, "train/image_loss_mean": 3.1788483874665365, "train/image_loss_std": 8.391910950342814, "train/model_loss_mean": 6.487471785810259, "train/model_loss_std": 12.542915728357103, "train/model_opt_grad_norm": 22.597356120745342, "train/model_opt_grad_steps": 417556.5416666667, "train/model_opt_loss": 17946.496975368922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2777.777777777778, "train/policy_entropy_mag": 2.694703761074278, "train/policy_entropy_max": 2.694703761074278, "train/policy_entropy_mean": 0.38623360109825927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5849584047165182, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3868874820570151, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0184330228302214, "train/policy_randomness_mag": 0.9511121685306231, "train/policy_randomness_max": 0.9511121685306231, "train/policy_randomness_mean": 0.1363235122213761, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20646464452147484, "train/post_ent_mag": 55.27517048517863, "train/post_ent_max": 55.27517048517863, "train/post_ent_mean": 40.722695668538414, "train/post_ent_min": 19.762689219580757, "train/post_ent_std": 5.779445177978939, "train/prior_ent_mag": 76.72828589545355, "train/prior_ent_max": 76.72828589545355, "train/prior_ent_mean": 46.15586000018649, "train/prior_ent_min": 28.25507680575053, "train/prior_ent_std": 7.733643756972419, "train/rep_loss_mean": 5.420422600375281, "train/rep_loss_std": 8.840340640809801, "train/reward_avg": 0.04041341138589713, "train/reward_loss_mean": 0.05634926202603512, "train/reward_loss_std": 0.2153254465924369, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0277343028121524, "train/reward_neg_acc": 0.9932307609253459, "train/reward_neg_loss": 0.024650014225497015, "train/reward_pos_acc": 0.9876698752244314, "train/reward_pos_loss": 0.731122977203793, "train/reward_pred": 0.03999431007024315, "train/reward_rate": 0.04493543836805555, "stats/sum_log_reward": 11.43333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4506895492474238, "replay/size": 837552.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.5376339168338984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4462109122957502e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09202575683594, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.189414978027344, "timer/env.step_frac": 0.05728047899531958, "timer/env.step_avg": 0.011805916880513285, "timer/env.step_min": 0.002815723419189453, "timer/env.step_max": 1.6833653450012207, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2940247058868408, "timer/replay.add_frac": 0.0009797818024164645, "timer/replay.add_avg": 0.00020194004525195112, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.005839824676513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023076295852661133, "timer/logger.write_frac": 7.689739770479545e-05, "timer/logger.write_avg": 0.023076295852661133, "timer/logger.write_min": 0.023076295852661133, "timer/logger.write_max": 0.023076295852661133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.05159592628479, "timer/agent.policy_frac": 0.03682735620319308, "timer/agent.policy_avg": 0.00759038181750329, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 0.015263795852661133, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06577825546264648, "timer/dataset_frac": 0.00021919361334828168, "timer/dataset_avg": 9.03547465146243e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.78324007987976, "timer/agent.train_frac": 0.9023340070332124, "timer/agent.train_avg": 0.37195500010972493, "timer/agent.train_min": 0.36443042755126953, "timer/agent.train_max": 0.38714051246643066, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2233572006225586, "timer/agent.report_frac": 0.000744295687495357, "timer/agent.report_avg": 0.2233572006225586, "timer/agent.report_min": 0.2233572006225586, "timer/agent.report_max": 0.2233572006225586, "fps": 4.851748173643613}
+{"step": 837629, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06818181818181818}
+{"step": 837838, "episode/length": 208.0, "episode/score": 12.100000068545341, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.07177033492822966}
+{"step": 838070, "episode/length": 231.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.1000000461936, "episode/reward_rate": 0.07327586206896551}
+{"step": 838211, "episode/length": 140.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07801418439716312}
+{"step": 838464, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05533596837944664}
+{"step": 838509, "episode/length": 44.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.1111111111111111}
+{"step": 838692, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06557377049180328}
+{"step": 838994, "episode/length": 301.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 11.100000023841858, "episode/reward_rate": 0.033112582781456956}
+{"step": 839033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.313795492682658, "train/action_min": 0.0, "train/action_std": 3.1707230285859445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03907077738516767, "train/actor_opt_grad_steps": 418610.0, "train/actor_opt_loss": -12.79638516231322, "train/adv_mag": 0.3818095945556399, "train/adv_max": 0.3263654757133672, "train/adv_mean": 0.002041035573378215, "train/adv_min": -0.3394712574884925, "train/adv_std": 0.04374238486650964, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 3.072808733701498e-05, "train/cont_loss_std": 0.0009020707604935857, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.00662597667817246, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 1.1562067405900283e-05, "train/cont_pred": 0.9948830654923345, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 5.430142684721611, "train/dyn_loss_std": 8.795760416648758, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9324137677609081, "train/extr_critic_critic_opt_grad_steps": 418610.0, "train/extr_critic_critic_opt_loss": 15591.191199933979, "train/extr_critic_mag": 11.708529646967499, "train/extr_critic_max": 11.708529646967499, "train/extr_critic_mean": 3.6235347163509317, "train/extr_critic_min": -0.38550406778362434, "train/extr_critic_std": 2.8378495901403293, "train/extr_return_normed_mag": 1.3873481800858403, "train/extr_return_normed_max": 1.3873481800858403, "train/extr_return_normed_mean": 0.3970934966920127, "train/extr_return_normed_min": -0.08597708346558289, "train/extr_return_normed_std": 0.31673648911462704, "train/extr_return_rate": 0.8602791705601652, "train/extr_return_raw_mag": 12.611613287052638, "train/extr_return_raw_max": 12.611613287052638, "train/extr_return_raw_mean": 3.642044141258992, "train/extr_return_raw_min": -0.734089259530457, "train/extr_return_raw_std": 2.869373079756616, "train/extr_reward_mag": 1.0723455321620887, "train/extr_reward_max": 1.0723455321620887, "train/extr_reward_mean": 0.06064987597121319, "train/extr_reward_min": -0.632959459868955, "train/extr_reward_std": 0.23712498516264097, "train/image_loss_mean": 3.090722983991596, "train/image_loss_std": 8.112503374126595, "train/model_loss_mean": 6.403567394740145, "train/model_loss_std": 12.300576612982951, "train/model_opt_grad_norm": 24.18068007348289, "train/model_opt_grad_steps": 418270.5070422535, "train/model_opt_loss": 12048.135377695862, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1883.8028169014085, "train/policy_entropy_mag": 2.66772628502107, "train/policy_entropy_max": 2.66772628502107, "train/policy_entropy_mean": 0.36283267677669795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5508202792892993, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36266318950015053, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 0.9921222295559627, "train/policy_randomness_mag": 0.9415903083035644, "train/policy_randomness_max": 0.9415903083035644, "train/policy_randomness_mean": 0.12806401265339112, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1944153874482907, "train/post_ent_mag": 55.36096073204363, "train/post_ent_max": 55.36096073204363, "train/post_ent_mean": 40.659071049220124, "train/post_ent_min": 19.315045477638783, "train/post_ent_std": 5.773497756098358, "train/prior_ent_mag": 76.81787582182548, "train/prior_ent_max": 76.81787582182548, "train/prior_ent_mean": 46.10482304532763, "train/prior_ent_min": 28.086955137655767, "train/prior_ent_std": 7.743179919014515, "train/rep_loss_mean": 5.430142684721611, "train/rep_loss_std": 8.795760416648758, "train/reward_avg": 0.040807933218672245, "train/reward_loss_mean": 0.05472805240834263, "train/reward_loss_std": 0.2072320970850931, "train/reward_max_data": 1.033802824960628, "train/reward_max_pred": 1.0329773207785378, "train/reward_neg_acc": 0.994166222256674, "train/reward_neg_loss": 0.023111337966377467, "train/reward_pos_acc": 0.9895489828687318, "train/reward_pos_loss": 0.7191837295679979, "train/reward_pred": 0.040649843074276416, "train/reward_rate": 0.04548580545774648, "stats/sum_log_reward": 11.100000023841858, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 13.375, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43869233690202236, "replay/size": 838970.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.463626748584053e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323660270787765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.074116230011, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.051843881607056, "timer/env.step_frac": 0.07348799076260217, "timer/env.step_avg": 0.01555137086150004, "timer/env.step_min": 0.0025937557220458984, "timer/env.step_max": 1.9179039001464844, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.26874876022338867, "timer/replay.add_frac": 0.0008956079371317351, "timer/replay.add_avg": 0.00018952662921254492, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.005712270736694336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020800352096557617, "timer/logger.write_frac": 6.931738184513674e-05, "timer/logger.write_avg": 0.020800352096557617, "timer/logger.write_min": 0.020800352096557617, "timer/logger.write_max": 0.020800352096557617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019621849060058594, "timer/checkpoint.save_frac": 6.539000866378683e-07, "timer/checkpoint.save_avg": 0.00019621849060058594, "timer/checkpoint.save_min": 0.00019621849060058594, "timer/checkpoint.save_max": 0.00019621849060058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.510211706161499, "timer/agent.save_frac": 0.00503279564773891, "timer/agent.save_avg": 1.510211706161499, "timer/agent.save_min": 1.510211706161499, "timer/agent.save_max": 1.510211706161499, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3359249753527736e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.816746950149536, "timer/agent.policy_frac": 0.042711937674508794, "timer/agent.policy_avg": 0.009038608568511661, "timer/agent.policy_min": 0.00560307502746582, "timer/agent.policy_max": 1.4983913898468018, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06076455116271973, "timer/dataset_frac": 0.0002024984757970356, "timer/dataset_avg": 8.570458556095871e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.17911028862, "timer/agent.train_frac": 0.8803795329222033, "timer/agent.train_avg": 0.37260805400369534, "timer/agent.train_min": 0.36484766006469727, "timer/agent.train_max": 0.8613801002502441, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22323203086853027, "timer/agent.report_frac": 0.0007439229803393632, "timer/agent.report_avg": 0.22323203086853027, "timer/agent.report_min": 0.22323203086853027, "timer/agent.report_max": 0.22323203086853027, "fps": 4.7254313800175005}
+{"step": 839201, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.057971014492753624}
+{"step": 839427, "episode/length": 225.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048672566371681415}
+{"step": 839542, "episode/length": 114.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.08695652173913043}
+{"step": 839725, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08196721311475409}
+{"step": 840058, "episode/length": 332.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.10000003129244, "episode/reward_rate": 0.05105105105105105}
+{"step": 840266, "episode/length": 207.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.028846153846153848}
+{"step": 840350, "episode/length": 83.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 840483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.329130825931078, "train/action_min": 0.0, "train/action_std": 3.159899803057109, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03909305924524183, "train/actor_opt_grad_steps": 419330.0, "train/actor_opt_loss": -12.533353926384287, "train/adv_mag": 0.4258320686751849, "train/adv_max": 0.3474461126000914, "train/adv_mean": 0.0021729380936299655, "train/adv_min": -0.3818058285811176, "train/adv_std": 0.043817486460894756, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 8.657815905037638e-05, "train/cont_loss_std": 0.0026865250400931796, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.011246324756441077, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.985483958392625e-05, "train/cont_pred": 0.9948867118521912, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.428295710315443, "train/dyn_loss_std": 8.847105071969228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9053207578724378, "train/extr_critic_critic_opt_grad_steps": 419330.0, "train/extr_critic_critic_opt_loss": 15563.717345355308, "train/extr_critic_mag": 11.986099060267618, "train/extr_critic_max": 11.986099060267618, "train/extr_critic_mean": 3.7024737220920927, "train/extr_critic_min": -0.3548808702050823, "train/extr_critic_std": 2.880669218220123, "train/extr_return_normed_mag": 1.3875823216895535, "train/extr_return_normed_max": 1.3875823216895535, "train/extr_return_normed_mean": 0.4002103193165505, "train/extr_return_normed_min": -0.08327614475194722, "train/extr_return_normed_std": 0.3169589001838475, "train/extr_return_rate": 0.8584065102551082, "train/extr_return_raw_mag": 12.7899017595265, "train/extr_return_raw_max": 12.7899017595265, "train/extr_return_raw_mean": 3.722430301039186, "train/extr_return_raw_min": -0.7176733225175779, "train/extr_return_raw_std": 2.9106979435437346, "train/extr_reward_mag": 1.0804081485696035, "train/extr_reward_max": 1.0804081485696035, "train/extr_reward_mean": 0.06039739323601331, "train/extr_reward_min": -0.6443948876367857, "train/extr_reward_std": 0.23714331568103947, "train/image_loss_mean": 3.0690470133742243, "train/image_loss_std": 8.23869454370786, "train/model_loss_mean": 6.382701037681266, "train/model_loss_std": 12.430116601186256, "train/model_opt_grad_norm": 21.68300662628592, "train/model_opt_grad_steps": 418990.0, "train/model_opt_loss": 8908.581188463186, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.667600788482248, "train/policy_entropy_max": 2.667600788482248, "train/policy_entropy_mean": 0.3632204908214203, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5572479501978992, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36405694831724034, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9973176325837226, "train/policy_randomness_mag": 0.9415460139104764, "train/policy_randomness_max": 0.9415460139104764, "train/policy_randomness_mean": 0.12820089312448893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1966840701356326, "train/post_ent_mag": 55.734138593281784, "train/post_ent_max": 55.734138593281784, "train/post_ent_mean": 40.58394351070874, "train/post_ent_min": 19.50503401560326, "train/post_ent_std": 5.759137930935377, "train/prior_ent_mag": 76.72339222529163, "train/prior_ent_max": 76.72339222529163, "train/prior_ent_mean": 45.993151259748906, "train/prior_ent_min": 28.17628951921855, "train/prior_ent_std": 7.732283677140328, "train/rep_loss_mean": 5.428295710315443, "train/rep_loss_std": 8.847105071969228, "train/reward_avg": 0.041589522453611846, "train/reward_loss_mean": 0.056590008970401055, "train/reward_loss_std": 0.2123083225260042, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.036511241573177, "train/reward_neg_acc": 0.9935402429267152, "train/reward_neg_loss": 0.024458878239846393, "train/reward_pos_acc": 0.9900055772637668, "train/reward_pos_loss": 0.7190086343517043, "train/reward_pred": 0.04135860916074008, "train/reward_rate": 0.04617936643835616, "stats/sum_log_reward": 9.814286027635847, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 8.571428571428571, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3492752356188638, "replay/size": 840420.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.505081966005523e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3201195618201947e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29183554649353, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.789177417755127, "timer/env.step_frac": 0.06256972449337884, "timer/env.step_avg": 0.01295805339155526, "timer/env.step_min": 0.0027298927307128906, "timer/env.step_max": 1.673816204071045, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2888665199279785, "timer/replay.add_frac": 0.0009619526265250523, "timer/replay.add_avg": 0.00019921828960550242, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0044176578521728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030490398406982422, "timer/logger.write_frac": 0.00010153588875133324, "timer/logger.write_avg": 0.030490398406982422, "timer/logger.write_min": 0.030490398406982422, "timer/logger.write_max": 0.030490398406982422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.907918214797974, "timer/agent.policy_frac": 0.03632439155379276, "timer/agent.policy_avg": 0.007522702217102051, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 0.01811504364013672, "timer/dataset_count": 725.0, "timer/dataset_total": 0.061942100524902344, "timer/dataset_frac": 0.00020627300909522057, "timer/dataset_avg": 8.543738003434805e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016927719116210938, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.53691244125366, "timer/agent.train_frac": 0.8975832191732094, "timer/agent.train_avg": 0.3717750516431085, "timer/agent.train_min": 0.36577463150024414, "timer/agent.train_max": 0.39078569412231445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198195457458496, "timer/agent.report_frac": 0.0007320197212348633, "timer/agent.report_avg": 0.2198195457458496, "timer/agent.report_min": 0.2198195457458496, "timer/agent.report_max": 0.2198195457458496, "fps": 4.828575972734764}
+{"step": 840532, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06593406593406594}
+{"step": 840734, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07425742574257425}
+{"step": 840964, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
+{"step": 841129, "episode/length": 164.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.06060606060606061}
+{"step": 841288, "episode/length": 158.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06918238993710692}
+{"step": 841544, "episode/length": 255.0, "episode/score": 16.10000003129244, "episode/sum_abs_reward": 17.700000055134296, "episode/reward_rate": 0.06640625}
+{"step": 841710, "episode/length": 165.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.0783132530120482}
+{"step": 841846, "episode/length": 135.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.08823529411764706}
+{"step": 841925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.409242418077257, "train/action_min": 0.0, "train/action_std": 3.2587056358655295, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0383890433392177, "train/actor_opt_grad_steps": 420055.0, "train/actor_opt_loss": -12.949300450997221, "train/adv_mag": 0.4077603680392106, "train/adv_max": 0.3514091405603621, "train/adv_mean": 0.0015397199576372917, "train/adv_min": -0.3591034656597508, "train/adv_std": 0.043516676924708814, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 4.902204982097184e-06, "train/cont_loss_std": 0.0001198699538199498, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.5412770151152825e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.748735671553403e-06, "train/cont_pred": 0.9948008490933312, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.371945877869924, "train/dyn_loss_std": 8.911050425635445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9128128505415387, "train/extr_critic_critic_opt_grad_steps": 420055.0, "train/extr_critic_critic_opt_loss": 15442.229600694445, "train/extr_critic_mag": 11.982110129462349, "train/extr_critic_max": 11.982110129462349, "train/extr_critic_mean": 3.7369017634126873, "train/extr_critic_min": -0.38973527318901485, "train/extr_critic_std": 2.88287623723348, "train/extr_return_normed_mag": 1.3717710259887907, "train/extr_return_normed_max": 1.3717710259887907, "train/extr_return_normed_mean": 0.40339607041743064, "train/extr_return_normed_min": -0.08727291505783796, "train/extr_return_normed_std": 0.3156103901565075, "train/extr_return_rate": 0.8602693205078443, "train/extr_return_raw_mag": 12.67933988571167, "train/extr_return_raw_max": 12.67933988571167, "train/extr_return_raw_mean": 3.7511128385861716, "train/extr_return_raw_min": -0.7727252025571134, "train/extr_return_raw_std": 2.9099083840847015, "train/extr_reward_mag": 1.0672059655189514, "train/extr_reward_max": 1.0672059655189514, "train/extr_reward_mean": 0.06050797515652246, "train/extr_reward_min": -0.6516101972924339, "train/extr_reward_std": 0.23698193041814697, "train/image_loss_mean": 3.037692520353529, "train/image_loss_std": 8.38106585211224, "train/model_loss_mean": 6.316754241784413, "train/model_loss_std": 12.600893338521322, "train/model_opt_grad_norm": 23.470703932974075, "train/model_opt_grad_steps": 419715.0, "train/model_opt_loss": 15791.885552300348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6991409725613065, "train/policy_entropy_max": 2.6991409725613065, "train/policy_entropy_mean": 0.3914240828404824, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5973737893833054, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3920325142227941, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0236976212925382, "train/policy_randomness_mag": 0.9526783161693149, "train/policy_randomness_max": 0.9526783161693149, "train/policy_randomness_mean": 0.13815552472240394, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2108467300939891, "train/post_ent_mag": 55.715881983439125, "train/post_ent_max": 55.715881983439125, "train/post_ent_mean": 40.42771132787069, "train/post_ent_min": 19.08139619562361, "train/post_ent_std": 5.782773786120945, "train/prior_ent_mag": 76.73844157324896, "train/prior_ent_max": 76.73844157324896, "train/prior_ent_mean": 45.812902980380585, "train/prior_ent_min": 27.916361464394463, "train/prior_ent_std": 7.768325322204166, "train/rep_loss_mean": 5.371945877869924, "train/rep_loss_std": 8.911050425635445, "train/reward_avg": 0.04017469651686648, "train/reward_loss_mean": 0.05588935186258621, "train/reward_loss_std": 0.2116526398393843, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017055567767885, "train/reward_neg_acc": 0.9938459338413345, "train/reward_neg_loss": 0.024412303580902517, "train/reward_pos_acc": 0.9880506346623102, "train/reward_pos_loss": 0.7256493551863564, "train/reward_pred": 0.039757069717678756, "train/reward_rate": 0.044854058159722224, "stats/sum_log_reward": 12.225000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.375, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3132232315838337, "replay/size": 841862.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4297884915969575e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.282367891478307e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2366638183594, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.521195888519287, "timer/env.step_frac": 0.06835006633611689, "timer/env.step_avg": 0.014231065109930158, "timer/env.step_min": 0.0027923583984375, "timer/env.step_max": 1.6543543338775635, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2698397636413574, "timer/replay.add_frac": 0.000898756868030642, "timer/replay.add_avg": 0.00018712882360704398, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0037577152252197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02331066131591797, "timer/logger.write_frac": 7.764095503679297e-05, "timer/logger.write_avg": 0.02331066131591797, "timer/logger.write_min": 0.02331066131591797, "timer/logger.write_max": 0.02331066131591797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.690033435821533, "timer/agent.policy_frac": 0.035605356454030256, "timer/agent.policy_avg": 0.007413338027615487, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.015796899795532227, "timer/dataset_count": 721.0, "timer/dataset_total": 0.060643911361694336, "timer/dataset_frac": 0.00020198702780145262, "timer/dataset_avg": 8.411083406615026e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00012564659118652344, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.993536233902, "timer/agent.train_frac": 0.8926076276814606, "timer/agent.train_avg": 0.37169699893745073, "timer/agent.train_min": 0.36575818061828613, "timer/agent.train_max": 0.38614702224731445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2231142520904541, "timer/agent.report_frac": 0.0007431279353191731, "timer/agent.report_avg": 0.2231142520904541, "timer/agent.report_min": 0.2231142520904541, "timer/agent.report_max": 0.2231142520904541, "fps": 4.8028132018034}
+{"step": 842006, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.075}
+{"step": 842184, "episode/length": 177.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.056179775280898875}
+{"step": 842367, "episode/length": 182.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.060109289617486336}
+{"step": 842576, "episode/length": 208.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.07177033492822966}
+{"step": 842749, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
+{"step": 842945, "episode/length": 195.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07142857142857142}
+{"step": 843205, "episode/length": 259.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.057692307692307696}
+{"step": 843347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.40472841934419, "train/action_min": 0.0, "train/action_std": 3.251626716533177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039763329262045066, "train/actor_opt_grad_steps": 420770.0, "train/actor_opt_loss": -13.254205022059695, "train/adv_mag": 0.42906592996187615, "train/adv_max": 0.32979420037336754, "train/adv_mean": 0.0015881396958179785, "train/adv_min": -0.39182949485913127, "train/adv_std": 0.044039979367189, "train/cont_avg": 0.9953235035211268, "train/cont_loss_mean": 2.1388007324744217e-05, "train/cont_loss_std": 0.0006688794107758377, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0028516040322205632, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.927269922144263e-06, "train/cont_pred": 0.9953321042195172, "train/cont_rate": 0.9953235035211268, "train/dyn_loss_mean": 5.356661051092013, "train/dyn_loss_std": 8.822399119256248, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9811777732741664, "train/extr_critic_critic_opt_grad_steps": 420770.0, "train/extr_critic_critic_opt_loss": 15728.906910211268, "train/extr_critic_mag": 12.01268241774868, "train/extr_critic_max": 12.01268241774868, "train/extr_critic_mean": 3.6009392100320734, "train/extr_critic_min": -0.38933579350861025, "train/extr_critic_std": 2.8450940931347053, "train/extr_return_normed_mag": 1.3894024650815506, "train/extr_return_normed_max": 1.3894024650815506, "train/extr_return_normed_mean": 0.3903152587967859, "train/extr_return_normed_min": -0.07893524463222899, "train/extr_return_normed_std": 0.31121390092540796, "train/extr_return_rate": 0.8535184213812922, "train/extr_return_raw_mag": 12.831981564911318, "train/extr_return_raw_max": 12.831981564911318, "train/extr_return_raw_mean": 3.6155879665428485, "train/extr_return_raw_min": -0.7131619373677482, "train/extr_return_raw_std": 2.8709875630660795, "train/extr_reward_mag": 1.0751531728556458, "train/extr_reward_max": 1.0751531728556458, "train/extr_reward_mean": 0.061344105068226934, "train/extr_reward_min": -0.6323335137165768, "train/extr_reward_std": 0.238285577423136, "train/image_loss_mean": 3.178222160943797, "train/image_loss_std": 8.56807755080747, "train/model_loss_mean": 6.449622060211611, "train/model_loss_std": 12.718240294657962, "train/model_opt_grad_norm": 24.772905927308848, "train/model_opt_grad_steps": 420429.2957746479, "train/model_opt_loss": 16358.451378191021, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.6943241542493794, "train/policy_entropy_max": 2.6943241542493794, "train/policy_entropy_mean": 0.3936191432073083, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5944210055848242, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.393621155913447, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0219180785434347, "train/policy_randomness_mag": 0.9509781901265534, "train/policy_randomness_max": 0.9509781901265534, "train/policy_randomness_mean": 0.13893028590041148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20980452893065735, "train/post_ent_mag": 55.08947936581894, "train/post_ent_max": 55.08947936581894, "train/post_ent_mean": 40.63348931325993, "train/post_ent_min": 19.43232864057514, "train/post_ent_std": 5.748628293964225, "train/prior_ent_mag": 76.77281651026766, "train/prior_ent_max": 76.77281651026766, "train/prior_ent_mean": 45.969592403358135, "train/prior_ent_min": 28.109939575195312, "train/prior_ent_std": 7.674622777482154, "train/rep_loss_mean": 5.356661051092013, "train/rep_loss_std": 8.822399119256248, "train/reward_avg": 0.04128245983115384, "train/reward_loss_mean": 0.057381877492011436, "train/reward_loss_std": 0.2213025710112612, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.02361953090614, "train/reward_neg_acc": 0.9933818494769889, "train/reward_neg_loss": 0.02482279415019381, "train/reward_pos_acc": 0.9854045468316951, "train/reward_pos_loss": 0.7382975455740808, "train/reward_pred": 0.040861951082315245, "train/reward_rate": 0.04569212147887324, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.31325577199459076, "replay/size": 843284.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.6123265026323236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3630475676009423e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9942510128021, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.66293215751648, "timer/env.step_frac": 0.06554436323740541, "timer/env.step_avg": 0.013827659745088944, "timer/env.step_min": 0.0027315616607666016, "timer/env.step_max": 1.7145934104919434, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26450037956237793, "timer/replay.add_frac": 0.0008816848278572195, "timer/replay.add_avg": 0.00018600589280054708, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0027894973754882812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022731542587280273, "timer/logger.write_frac": 7.57732606892864e-05, "timer/logger.write_avg": 0.022731542587280273, "timer/logger.write_min": 0.022731542587280273, "timer/logger.write_max": 0.022731542587280273, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003993511199951172, "timer/checkpoint.save_frac": 1.3311959100778737e-06, "timer/checkpoint.save_avg": 0.0003993511199951172, "timer/checkpoint.save_min": 0.0003993511199951172, "timer/checkpoint.save_max": 0.0003993511199951172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2359163761138916, "timer/agent.save_frac": 0.004119800202641715, "timer/agent.save_avg": 1.2359163761138916, "timer/agent.save_min": 1.2359163761138916, "timer/agent.save_max": 1.2359163761138916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0504390734333813e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.579817056655884, "timer/agent.policy_frac": 0.04860032153094059, "timer/agent.policy_avg": 0.010253035904821297, "timer/agent.policy_min": 0.005681276321411133, "timer/agent.policy_max": 2.5465199947357178, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06252193450927734, "timer/dataset_frac": 0.00020841044219413807, "timer/dataset_avg": 8.793521028027756e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.7297418117523, "timer/agent.train_frac": 0.8824493833398663, "timer/agent.train_avg": 0.3723343766691313, "timer/agent.train_min": 0.36540818214416504, "timer/agent.train_max": 0.386368989944458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184598445892334, "timer/agent.report_frac": 0.0007282134369298655, "timer/agent.report_avg": 0.2184598445892334, "timer/agent.report_min": 0.2184598445892334, "timer/agent.report_max": 0.2184598445892334, "fps": 4.740026941834043}
+{"step": 843373, "episode/length": 167.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 843556, "episode/length": 182.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04918032786885246}
+{"step": 843710, "episode/length": 153.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08441558441558442}
+{"step": 843942, "episode/length": 231.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06465517241379311}
+{"step": 844160, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05963302752293578}
+{"step": 844341, "episode/length": 180.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06077348066298342}
+{"step": 844590, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05622489959839357}
+{"step": 844760, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
+{"step": 844789, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.35542975531684, "train/action_min": 0.0, "train/action_std": 3.1825060413943396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03922123547332982, "train/actor_opt_grad_steps": 421485.0, "train/actor_opt_loss": -12.069356226258808, "train/adv_mag": 0.42808570174707306, "train/adv_max": 0.35801235689885086, "train/adv_mean": 0.0016491000447381844, "train/adv_min": -0.3744518535418643, "train/adv_std": 0.04397756176897221, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 8.329168433678862e-06, "train/cont_loss_std": 0.0002261942202474011, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.2231994754567191e-05, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 8.317438880646301e-06, "train/cont_pred": 0.9947300677498182, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.611322184403737, "train/dyn_loss_std": 8.971672223673927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9480558956662813, "train/extr_critic_critic_opt_grad_steps": 421485.0, "train/extr_critic_critic_opt_loss": 15719.098904079861, "train/extr_critic_mag": 11.839123765627543, "train/extr_critic_max": 11.839123765627543, "train/extr_critic_mean": 3.5688036613994174, "train/extr_critic_min": -0.40266132520304787, "train/extr_critic_std": 2.894554545482, "train/extr_return_normed_mag": 1.4024997221099005, "train/extr_return_normed_max": 1.4024997221099005, "train/extr_return_normed_mean": 0.3909268031517665, "train/extr_return_normed_min": -0.08634222759347823, "train/extr_return_normed_std": 0.3217941636426581, "train/extr_return_rate": 0.8468886059191492, "train/extr_return_raw_mag": 12.76353128751119, "train/extr_return_raw_max": 12.76353128751119, "train/extr_return_raw_mean": 3.5838252868917255, "train/extr_return_raw_min": -0.7465256899595261, "train/extr_return_raw_std": 2.92021354370647, "train/extr_reward_mag": 1.0741836296187506, "train/extr_reward_max": 1.0741836296187506, "train/extr_reward_mean": 0.06043353578489688, "train/extr_reward_min": -0.661313545372751, "train/extr_reward_std": 0.23687756123642126, "train/image_loss_mean": 3.356863174173567, "train/image_loss_std": 8.621290491686928, "train/model_loss_mean": 6.781980792681376, "train/model_loss_std": 12.831618984540304, "train/model_opt_grad_norm": 23.224901808632744, "train/model_opt_grad_steps": 421143.7361111111, "train/model_opt_loss": 17625.51241048177, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6997125181886883, "train/policy_entropy_max": 2.6997125181886883, "train/policy_entropy_mean": 0.3723831938372718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5647237913476096, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37246037109030616, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0035998970270157, "train/policy_randomness_mag": 0.9528800480895572, "train/policy_randomness_max": 0.9528800480895572, "train/policy_randomness_mean": 0.13143492655621636, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19932271581557062, "train/post_ent_mag": 55.87515099843343, "train/post_ent_max": 55.87515099843343, "train/post_ent_mean": 40.52691120571561, "train/post_ent_min": 19.60859563615587, "train/post_ent_std": 5.801487902800242, "train/prior_ent_mag": 76.72031434377034, "train/prior_ent_max": 76.72031434377034, "train/prior_ent_mean": 46.11918756696913, "train/prior_ent_min": 28.05412424935235, "train/prior_ent_std": 7.821646703614129, "train/rep_loss_mean": 5.611322184403737, "train/rep_loss_std": 8.971672223673927, "train/reward_avg": 0.04138183562705914, "train/reward_loss_mean": 0.05831598909571767, "train/reward_loss_std": 0.21925700621472466, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0245149433612823, "train/reward_neg_acc": 0.9930544545253118, "train/reward_neg_loss": 0.026327313027448125, "train/reward_pos_acc": 0.9913876760337088, "train/reward_pos_loss": 0.718943821059333, "train/reward_pred": 0.041176404959211745, "train/reward_rate": 0.04616970486111111, "stats/sum_log_reward": 11.475000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.75, "stats/max_log_achievement_collect_wood": 11.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.385814618319273, "replay/size": 844726.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.460872189843208e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3618545294138662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2863051891327, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.28529667854309, "timer/env.step_frac": 0.06755318616933455, "timer/env.step_avg": 0.014067473424787164, "timer/env.step_min": 0.0029222965240478516, "timer/env.step_max": 1.6359155178070068, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.3002457618713379, "timer/replay.add_frac": 0.0009998649844595168, "timer/replay.add_avg": 0.00020821481405779326, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0039033889770507812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028780698776245117, "timer/logger.write_frac": 9.58441936208774e-05, "timer/logger.write_avg": 0.028780698776245117, "timer/logger.write_min": 0.028780698776245117, "timer/logger.write_max": 0.028780698776245117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.751072406768799, "timer/agent.policy_frac": 0.03580273965540097, "timer/agent.policy_avg": 0.007455667411074063, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.014866352081298828, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06201648712158203, "timer/dataset_frac": 0.00020652452692613302, "timer/dataset_avg": 8.601454524491266e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0002002716064453125, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1831810474396, "timer/agent.train_frac": 0.8930916142796681, "timer/agent.train_avg": 0.3719600291920105, "timer/agent.train_min": 0.36493706703186035, "timer/agent.train_max": 0.3874828815460205, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22130703926086426, "timer/agent.report_frac": 0.0007369867870646847, "timer/agent.report_avg": 0.22130703926086426, "timer/agent.report_min": 0.22130703926086426, "timer/agent.report_max": 0.22130703926086426, "fps": 4.802003500541567}
+{"step": 844960, "episode/length": 199.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.065}
+{"step": 845181, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05429864253393665}
+{"step": 845421, "episode/length": 239.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.0625}
+{"step": 845695, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.051094890510948905}
+{"step": 845833, "episode/length": 137.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.07971014492753623}
+{"step": 846032, "episode/length": 198.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04522613065326633}
+{"step": 846247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3830457713505995, "train/action_min": 0.0, "train/action_std": 3.200800595218188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039455516646577884, "train/actor_opt_grad_steps": 422210.0, "train/actor_opt_loss": -11.589145541191101, "train/adv_mag": 0.4142378450256504, "train/adv_max": 0.35043773687865637, "train/adv_mean": 0.0024314762196111475, "train/adv_min": -0.3652670983582327, "train/adv_std": 0.04448717837668445, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 5.85957161743055e-05, "train/cont_loss_std": 0.001808293558136571, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.013832717041011215, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 4.363993675455844e-06, "train/cont_pred": 0.9947119975743228, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.401377730173607, "train/dyn_loss_std": 8.85210698271451, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577063452707578, "train/extr_critic_critic_opt_grad_steps": 422210.0, "train/extr_critic_critic_opt_loss": 15661.230883454624, "train/extr_critic_mag": 11.826365719102833, "train/extr_critic_max": 11.826365719102833, "train/extr_critic_mean": 3.532915040238263, "train/extr_critic_min": -0.37573031529988327, "train/extr_critic_std": 2.8467598288026577, "train/extr_return_normed_mag": 1.403833911843496, "train/extr_return_normed_max": 1.403833911843496, "train/extr_return_normed_mean": 0.3890452985077688, "train/extr_return_normed_min": -0.08506678371396784, "train/extr_return_normed_std": 0.32144505887815394, "train/extr_return_rate": 0.8581032859135981, "train/extr_return_raw_mag": 12.642505802520335, "train/extr_return_raw_max": 12.642505802520335, "train/extr_return_raw_mean": 3.55469791203329, "train/extr_return_raw_min": -0.6908687785880206, "train/extr_return_raw_std": 2.8784885765755015, "train/extr_reward_mag": 1.0797900010461676, "train/extr_reward_max": 1.0797900010461676, "train/extr_reward_mean": 0.06019847564501305, "train/extr_reward_min": -0.6250929293567187, "train/extr_reward_std": 0.2365997852119681, "train/image_loss_mean": 3.2507907119515824, "train/image_loss_std": 8.240898798589837, "train/model_loss_mean": 6.548045478455008, "train/model_loss_std": 12.361984396634037, "train/model_opt_grad_norm": 25.485365867614746, "train/model_opt_grad_steps": 421868.0, "train/model_opt_loss": 16370.113655821919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.68146898975111, "train/policy_entropy_max": 2.68146898975111, "train/policy_entropy_mean": 0.3787203414799416, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5725809613319293, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37944504639057264, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0114159812665966, "train/policy_randomness_mag": 0.9464408787962508, "train/policy_randomness_max": 0.9464408787962508, "train/policy_randomness_mean": 0.1336716614561538, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20209595622265175, "train/post_ent_mag": 55.33082042328299, "train/post_ent_max": 55.33082042328299, "train/post_ent_mean": 40.57844533005806, "train/post_ent_min": 19.730406617465086, "train/post_ent_std": 5.7911528169292295, "train/prior_ent_mag": 76.76439541333342, "train/prior_ent_max": 76.76439541333342, "train/prior_ent_mean": 45.976680755615234, "train/prior_ent_min": 27.928782580650015, "train/prior_ent_std": 7.737720045324874, "train/rep_loss_mean": 5.401377730173607, "train/rep_loss_std": 8.85210698271451, "train/reward_avg": 0.04031999090252674, "train/reward_loss_mean": 0.05636953358372597, "train/reward_loss_std": 0.21468071884488407, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0299599529945687, "train/reward_neg_acc": 0.9934471069949947, "train/reward_neg_loss": 0.024947336415619883, "train/reward_pos_acc": 0.990559797580928, "train/reward_pos_loss": 0.7238160428935534, "train/reward_pred": 0.03999251173171278, "train/reward_rate": 0.0450288955479452, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 6.833333333333333, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.33652348319689435, "replay/size": 846184.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.505963193372771e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3160035116355279e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26101875305176, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.142871379852295, "timer/env.step_frac": 0.0570932299205691, "timer/env.step_avg": 0.011757799300310215, "timer/env.step_min": 0.0026755332946777344, "timer/env.step_max": 1.629666805267334, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2857484817504883, "timer/replay.add_frac": 0.0009516669294508081, "timer/replay.add_avg": 0.00019598661299759142, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.004312992095947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025333404541015625, "timer/logger.write_frac": 8.437127352135897e-05, "timer/logger.write_avg": 0.025333404541015625, "timer/logger.write_min": 0.025333404541015625, "timer/logger.write_max": 0.025333404541015625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.918586492538452, "timer/agent.policy_frac": 0.036363649660159154, "timer/agent.policy_avg": 0.007488742450300722, "timer/agent.policy_min": 0.0057637691497802734, "timer/agent.policy_max": 0.022490978240966797, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06176114082336426, "timer/dataset_frac": 0.00020569150494410138, "timer/dataset_avg": 8.472035778239268e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00017499923706054688, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1493248939514, "timer/agent.train_frac": 0.9030453770522803, "timer/agent.train_avg": 0.3719469477283284, "timer/agent.train_min": 0.36501407623291016, "timer/agent.train_max": 0.3887631893157959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22013401985168457, "timer/agent.report_frac": 0.0007331421866410596, "timer/agent.report_avg": 0.22013401985168457, "timer/agent.report_min": 0.22013401985168457, "timer/agent.report_max": 0.22013401985168457, "fps": 4.855668503477513}
+{"step": 846354, "episode/length": 321.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.043478260869565216}
+{"step": 846553, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06532663316582915}
+{"step": 846783, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06521739130434782}
+{"step": 847387, "episode/length": 603.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.023178807947019868}
+{"step": 847449, "episode/length": 61.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.11290322580645161}
+{"step": 847700, "episode/length": 250.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05976095617529881}
+{"step": 847701, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376703967786815, "train/action_min": 0.0, "train/action_std": 3.208741544044181, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040147667316949534, "train/actor_opt_grad_steps": 422940.0, "train/actor_opt_loss": -12.22042848965893, "train/adv_mag": 0.45627028158266253, "train/adv_max": 0.3569271817599257, "train/adv_mean": 0.0018565694635856757, "train/adv_min": -0.40900536493895806, "train/adv_std": 0.044958981238815886, "train/cont_avg": 0.9949165239726028, "train/cont_loss_mean": 7.032790376517169e-05, "train/cont_loss_std": 0.002071343499384767, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017424812479005266, "train/cont_pos_acc": 0.9999864893416835, "train/cont_pos_loss": 5.8217565282542673e-05, "train/cont_pred": 0.9949083124121575, "train/cont_rate": 0.9949165239726028, "train/dyn_loss_mean": 5.406900765144662, "train/dyn_loss_std": 8.85807039966322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9474676863787925, "train/extr_critic_critic_opt_grad_steps": 422940.0, "train/extr_critic_critic_opt_loss": 15549.456215218323, "train/extr_critic_mag": 11.824666284535029, "train/extr_critic_max": 11.824666284535029, "train/extr_critic_mean": 3.679224723005948, "train/extr_critic_min": -0.3631894915071252, "train/extr_critic_std": 2.808929830381315, "train/extr_return_normed_mag": 1.3963959478352168, "train/extr_return_normed_max": 1.3963959478352168, "train/extr_return_normed_mean": 0.40160170319962174, "train/extr_return_normed_min": -0.08757509515710073, "train/extr_return_normed_std": 0.3141918855987183, "train/extr_return_rate": 0.874076099428412, "train/extr_return_raw_mag": 12.66799357166029, "train/extr_return_raw_max": 12.66799357166029, "train/extr_return_raw_mean": 3.6959382115978086, "train/extr_return_raw_min": -0.7166133700576547, "train/extr_return_raw_std": 2.8342147624655945, "train/extr_reward_mag": 1.0691111871640977, "train/extr_reward_max": 1.0691111871640977, "train/extr_reward_mean": 0.06039107524572986, "train/extr_reward_min": -0.6187375816580367, "train/extr_reward_std": 0.23687877210035715, "train/image_loss_mean": 3.1726283635178656, "train/image_loss_std": 8.458610704500382, "train/model_loss_mean": 6.47304554508157, "train/model_loss_std": 12.631686811577785, "train/model_opt_grad_norm": 22.931132486421767, "train/model_opt_grad_steps": 422597.2876712329, "train/model_opt_loss": 18926.94365368151, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2945.205479452055, "train/policy_entropy_mag": 2.665753903454297, "train/policy_entropy_max": 2.665753903454297, "train/policy_entropy_mean": 0.3623284871039325, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5500998799115011, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36348293150124483, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9978048042075275, "train/policy_randomness_mag": 0.9408941448551335, "train/policy_randomness_max": 0.9408941448551335, "train/policy_randomness_mean": 0.12788605506289497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19416111962844249, "train/post_ent_mag": 55.11913863926718, "train/post_ent_max": 55.11913863926718, "train/post_ent_mean": 40.48939148367268, "train/post_ent_min": 19.41247235912166, "train/post_ent_std": 5.721394774031966, "train/prior_ent_mag": 76.73240337633106, "train/prior_ent_max": 76.73240337633106, "train/prior_ent_mean": 45.88906949186978, "train/prior_ent_min": 28.64584039661982, "train/prior_ent_std": 7.636954803989358, "train/rep_loss_mean": 5.406900765144662, "train/rep_loss_std": 8.85807039966322, "train/reward_avg": 0.041034353845944144, "train/reward_loss_mean": 0.05620636734856318, "train/reward_loss_std": 0.21644499326405459, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0255409887392226, "train/reward_neg_acc": 0.99369478633959, "train/reward_neg_loss": 0.024019426640684474, "train/reward_pos_acc": 0.9889713689072491, "train/reward_pos_loss": 0.7296425610372465, "train/reward_pred": 0.04068090363520466, "train/reward_rate": 0.04561750856164384, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 16.833333333333332, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 2.3333333333333335, "stats/mean_log_entropy": 0.5015838469068209, "replay/size": 847638.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.488224507034071e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2895755951473441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99413990974426, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.84775686264038, "timer/env.step_frac": 0.05949368500334715, "timer/env.step_avg": 0.01227493594404428, "timer/env.step_min": 0.003108501434326172, "timer/env.step_max": 1.6999399662017822, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25381922721862793, "timer/replay.add_frac": 0.0008460806177580388, "timer/replay.add_avg": 0.0001745661810306932, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.003060579299926758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02222299575805664, "timer/logger.write_frac": 7.407809954135308e-05, "timer/logger.write_avg": 0.02222299575805664, "timer/logger.write_min": 0.02222299575805664, "timer/logger.write_max": 0.02222299575805664, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003485679626464844, "timer/checkpoint.save_frac": 1.1619159052618626e-06, "timer/checkpoint.save_avg": 0.0003485679626464844, "timer/checkpoint.save_min": 0.0003485679626464844, "timer/checkpoint.save_max": 0.0003485679626464844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2023658752441406, "timer/agent.save_frac": 0.004007964540926974, "timer/agent.save_avg": 1.2023658752441406, "timer/agent.save_min": 1.2023658752441406, "timer/agent.save_max": 1.2023658752441406, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.4796016582879693e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.785949468612671, "timer/agent.policy_frac": 0.03595386720506512, "timer/agent.policy_avg": 0.007418122055442002, "timer/agent.policy_min": 0.0055735111236572266, "timer/agent.policy_max": 0.01643085479736328, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06177520751953125, "timer/dataset_frac": 0.00020592138079136092, "timer/dataset_avg": 8.497277513002923e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001933574676513672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.3473048210144, "timer/agent.train_frac": 0.901175285965088, "timer/agent.train_avg": 0.3718669942517392, "timer/agent.train_min": 0.36513304710388184, "timer/agent.train_max": 0.3931436538696289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21947169303894043, "timer/agent.report_frac": 0.0007315866006748342, "timer/agent.report_avg": 0.21947169303894043, "timer/agent.report_min": 0.21947169303894043, "timer/agent.report_max": 0.21947169303894043, "fps": 4.846701194309795}
+{"step": 847874, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07471264367816093}
+{"step": 848144, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05555555555555555}
+{"step": 848205, "episode/length": 60.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.08196721311475409}
+{"step": 848428, "episode/length": 222.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06278026905829596}
+{"step": 848616, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07446808510638298}
+{"step": 848806, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06842105263157895}
+{"step": 849016, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07142857142857142}
+{"step": 849133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363190127090669, "train/action_min": 0.0, "train/action_std": 3.210680605660022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040386294290213516, "train/actor_opt_grad_steps": 423660.0, "train/actor_opt_loss": -10.616175038713804, "train/adv_mag": 0.40556923898173053, "train/adv_max": 0.346605036460178, "train/adv_mean": 0.0026527887523218555, "train/adv_min": -0.35283088998895296, "train/adv_std": 0.04497298991806071, "train/cont_avg": 0.9950346610915493, "train/cont_loss_mean": 3.0088851544828494e-05, "train/cont_loss_std": 0.000870228948734864, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.002202167968967317, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.556967235191524e-05, "train/cont_pred": 0.9950302024962197, "train/cont_rate": 0.9950346610915493, "train/dyn_loss_mean": 5.5417366162152355, "train/dyn_loss_std": 9.001268494297081, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.971747102032245, "train/extr_critic_critic_opt_grad_steps": 423660.0, "train/extr_critic_critic_opt_loss": 15902.85029709507, "train/extr_critic_mag": 11.730105588133906, "train/extr_critic_max": 11.730105588133906, "train/extr_critic_mean": 3.577525699642343, "train/extr_critic_min": -0.3414529713106827, "train/extr_critic_std": 2.756334000909832, "train/extr_return_normed_mag": 1.3749604241948732, "train/extr_return_normed_max": 1.3749604241948732, "train/extr_return_normed_mean": 0.38838102238278993, "train/extr_return_normed_min": -0.08217990865379991, "train/extr_return_normed_std": 0.30705332441229216, "train/extr_return_rate": 0.8679458666855181, "train/extr_return_raw_mag": 12.566064001808703, "train/extr_return_raw_max": 12.566064001808703, "train/extr_return_raw_mean": 3.6016786232800553, "train/extr_return_raw_min": -0.6740528240170277, "train/extr_return_raw_std": 2.78996316479965, "train/extr_reward_mag": 1.076749412106796, "train/extr_reward_max": 1.076749412106796, "train/extr_reward_mean": 0.06073011300513442, "train/extr_reward_min": -0.5874399970954572, "train/extr_reward_std": 0.23687779840449213, "train/image_loss_mean": 3.253735263582686, "train/image_loss_std": 8.821917070469386, "train/model_loss_mean": 6.636217030001358, "train/model_loss_std": 13.055733197171923, "train/model_opt_grad_norm": 26.59139254395391, "train/model_opt_grad_steps": 423316.88732394367, "train/model_opt_loss": 19926.356802926937, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3028.169014084507, "train/policy_entropy_mag": 2.665488968432789, "train/policy_entropy_max": 2.665488968432789, "train/policy_entropy_mean": 0.35246028887553954, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5391609408486058, "train/policy_logprob_mag": 7.438384311299928, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3524326440733923, "train/policy_logprob_min": -7.438384311299928, "train/policy_logprob_std": 0.9859053509336122, "train/policy_randomness_mag": 0.9408006349080046, "train/policy_randomness_max": 0.9408006349080046, "train/policy_randomness_mean": 0.1244030142544021, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19030015013167556, "train/post_ent_mag": 55.05763873248033, "train/post_ent_max": 55.05763873248033, "train/post_ent_mean": 40.51016906953194, "train/post_ent_min": 19.675455630665095, "train/post_ent_std": 5.720057091242831, "train/prior_ent_mag": 76.66568820577272, "train/prior_ent_max": 76.66568820577272, "train/prior_ent_mean": 46.01117883601659, "train/prior_ent_min": 28.23587723852883, "train/prior_ent_std": 7.703312739520006, "train/rep_loss_mean": 5.5417366162152355, "train/rep_loss_std": 9.001268494297081, "train/reward_avg": 0.04058786290107479, "train/reward_loss_mean": 0.05740977750277855, "train/reward_loss_std": 0.22606129293710414, "train/reward_max_data": 1.0394366291207326, "train/reward_max_pred": 1.0346160304378456, "train/reward_neg_acc": 0.9936955201793725, "train/reward_neg_loss": 0.0253460823859967, "train/reward_pos_acc": 0.9861540987458027, "train/reward_pos_loss": 0.7412521133960133, "train/reward_pred": 0.04019716295453025, "train/reward_rate": 0.0449493838028169, "stats/sum_log_reward": 11.671428510120936, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26140897614615305, "replay/size": 849070.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.50751690358423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3296372730638728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.125216960907, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.711378574371338, "timer/env.step_frac": 0.07234106748583997, "timer/env.step_avg": 0.01516157721673976, "timer/env.step_min": 0.0029234886169433594, "timer/env.step_max": 2.60802960395813, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2755422592163086, "timer/replay.add_frac": 0.0009180909955067173, "timer/replay.add_avg": 0.0001924177787823384, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.004342794418334961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023542404174804688, "timer/logger.write_frac": 7.844193971168781e-05, "timer/logger.write_avg": 0.023542404174804688, "timer/logger.write_min": 0.023542404174804688, "timer/logger.write_max": 0.023542404174804688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.16395902633667, "timer/agent.policy_frac": 0.03719767082347779, "timer/agent.policy_avg": 0.007796060772581473, "timer/agent.policy_min": 0.005711793899536133, "timer/agent.policy_max": 0.6812057495117188, "timer/dataset_count": 716.0, "timer/dataset_total": 0.060164690017700195, "timer/dataset_frac": 0.00020046529454250086, "timer/dataset_avg": 8.402889667276564e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2256660461426, "timer/agent.train_frac": 0.887048641703506, "timer/agent.train_avg": 0.37182355593036676, "timer/agent.train_min": 0.36563730239868164, "timer/agent.train_max": 0.4462306499481201, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219465970993042, "timer/agent.report_frac": 0.000731248021127224, "timer/agent.report_avg": 0.219465970993042, "timer/agent.report_min": 0.219465970993042, "timer/agent.report_max": 0.219465970993042, "fps": 4.771287967261825}
+{"step": 849277, "episode/length": 260.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.04980842911877394}
+{"step": 849481, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
+{"step": 849722, "episode/length": 240.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06224066390041494}
+{"step": 849927, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06829268292682927}
+{"step": 850224, "episode/length": 296.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.05723905723905724}
+{"step": 850416, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
+{"step": 850593, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37403347067637, "train/action_min": 0.0, "train/action_std": 3.1742575527870494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04049898867737757, "train/actor_opt_grad_steps": 424380.0, "train/actor_opt_loss": -11.412258367424142, "train/adv_mag": 0.42353628739102245, "train/adv_max": 0.33624763501017063, "train/adv_mean": 0.0021638557988920447, "train/adv_min": -0.3874067872354429, "train/adv_std": 0.044960739473774006, "train/cont_avg": 0.9951840753424658, "train/cont_loss_mean": 3.668844833485259e-05, "train/cont_loss_std": 0.0010943160673346714, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0042508394968305335, "train/cont_pos_acc": 0.9999865415978105, "train/cont_pos_loss": 1.9511132939532504e-05, "train/cont_pred": 0.9951792392012191, "train/cont_rate": 0.9951840753424658, "train/dyn_loss_mean": 5.506488689004558, "train/dyn_loss_std": 8.858566767548862, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9261767537626502, "train/extr_critic_critic_opt_grad_steps": 424380.0, "train/extr_critic_critic_opt_loss": 15661.652450770547, "train/extr_critic_mag": 11.76749528597479, "train/extr_critic_max": 11.76749528597479, "train/extr_critic_mean": 3.665506522949428, "train/extr_critic_min": -0.34574429956201, "train/extr_critic_std": 2.8136861520270777, "train/extr_return_normed_mag": 1.3831724663303322, "train/extr_return_normed_max": 1.3831724663303322, "train/extr_return_normed_mean": 0.39833792350063585, "train/extr_return_normed_min": -0.08696945006512616, "train/extr_return_normed_std": 0.31279630040469236, "train/extr_return_rate": 0.8626186651726292, "train/extr_return_raw_mag": 12.629473006888611, "train/extr_return_raw_max": 12.629473006888611, "train/extr_return_raw_mean": 3.6851469425305927, "train/extr_return_raw_min": -0.7226186484506686, "train/extr_return_raw_std": 2.8409540391948127, "train/extr_reward_mag": 1.0644381046295166, "train/extr_reward_max": 1.0644381046295166, "train/extr_reward_mean": 0.05992257569546569, "train/extr_reward_min": -0.6258204848798987, "train/extr_reward_std": 0.23537688753376268, "train/image_loss_mean": 3.2274270269968737, "train/image_loss_std": 8.37881429228064, "train/model_loss_mean": 6.587660057903969, "train/model_loss_std": 12.519146553457599, "train/model_opt_grad_norm": 23.857738129080158, "train/model_opt_grad_steps": 424036.0, "train/model_opt_loss": 16469.15012307363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.69902990942132, "train/policy_entropy_max": 2.69902990942132, "train/policy_entropy_mean": 0.3731981681226051, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5671238074563953, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37270310480300695, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.0027281494989788, "train/policy_randomness_mag": 0.9526391143668188, "train/policy_randomness_max": 0.9526391143668188, "train/policy_randomness_mean": 0.13172257814097077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20016981691938557, "train/post_ent_mag": 55.4189553979325, "train/post_ent_max": 55.4189553979325, "train/post_ent_mean": 40.67930514191928, "train/post_ent_min": 19.59520185810246, "train/post_ent_std": 5.7680681764263, "train/prior_ent_mag": 76.7450669171059, "train/prior_ent_max": 76.7450669171059, "train/prior_ent_mean": 46.17416465445741, "train/prior_ent_min": 28.513637647236862, "train/prior_ent_std": 7.6623647310962415, "train/rep_loss_mean": 5.506488689004558, "train/rep_loss_std": 8.858566767548862, "train/reward_avg": 0.042079141159376054, "train/reward_loss_mean": 0.056303140898681665, "train/reward_loss_std": 0.21003653476499531, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0215990282084844, "train/reward_neg_acc": 0.9934498537076663, "train/reward_neg_loss": 0.02378906884983386, "train/reward_pos_acc": 0.9908264834586888, "train/reward_pos_loss": 0.724723851027554, "train/reward_pred": 0.041728887834573444, "train/reward_rate": 0.04646029537671233, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.47479088604450226, "replay/size": 850530.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3458618268574754e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3386958265957766e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30189061164856, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.353617906570435, "timer/env.step_frac": 0.05778724160285822, "timer/env.step_avg": 0.011886039662034545, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6829729080200195, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2536590099334717, "timer/replay.add_frac": 0.000844680029875351, "timer/replay.add_avg": 0.00017373904789963812, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0022580623626708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02194690704345703, "timer/logger.write_frac": 7.308281342736815e-05, "timer/logger.write_avg": 0.02194690704345703, "timer/logger.write_min": 0.02194690704345703, "timer/logger.write_max": 0.02194690704345703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.72135877609253, "timer/agent.policy_frac": 0.035701935656334005, "timer/agent.policy_avg": 0.007343396421981185, "timer/agent.policy_min": 0.0055959224700927734, "timer/agent.policy_max": 0.01770615577697754, "timer/dataset_count": 730.0, "timer/dataset_total": 0.0613710880279541, "timer/dataset_frac": 0.00020436464087174, "timer/dataset_avg": 8.406998359993712e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.2246241569519, "timer/agent.train_frac": 0.9031732154750252, "timer/agent.train_avg": 0.3715405810369204, "timer/agent.train_min": 0.36533093452453613, "timer/agent.train_max": 0.38609743118286133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21697187423706055, "timer/agent.report_frac": 0.000722512514973305, "timer/agent.report_avg": 0.21697187423706055, "timer/agent.report_min": 0.21697187423706055, "timer/agent.report_max": 0.21697187423706055, "fps": 4.861671168978083}
+{"step": 850615, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05527638190954774}
+{"step": 850862, "episode/length": 246.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.299999989569187, "episode/reward_rate": 0.06882591093117409}
+{"step": 851124, "episode/length": 261.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.04961832061068702}
+{"step": 851433, "episode/length": 308.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.032362459546925564}
+{"step": 851630, "episode/length": 196.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07614213197969544}
+{"step": 851794, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
+{"step": 851845, "episode/length": 50.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.1568627450980392}
+{"step": 851920, "episode/length": 74.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.09333333333333334}
+{"step": 852037, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3921457926432295, "train/action_min": 0.0, "train/action_std": 3.222264548142751, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03883394694680141, "train/actor_opt_grad_steps": 425105.0, "train/actor_opt_loss": -9.712368999711341, "train/adv_mag": 0.3873255571557416, "train/adv_max": 0.31822544398407143, "train/adv_mean": 0.0021921055312582715, "train/adv_min": -0.34447747675908935, "train/adv_std": 0.043678655185633235, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 5.217298741467936e-05, "train/cont_loss_std": 0.001647294146278079, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008343796967359651, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.1425655117728676e-05, "train/cont_pred": 0.9945772017041842, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.498502757814196, "train/dyn_loss_std": 8.940960685412088, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0123833177818193, "train/extr_critic_critic_opt_grad_steps": 425105.0, "train/extr_critic_critic_opt_loss": 15638.289889865451, "train/extr_critic_mag": 11.857028669781155, "train/extr_critic_max": 11.857028669781155, "train/extr_critic_mean": 3.6767968237400055, "train/extr_critic_min": -0.385126198331515, "train/extr_critic_std": 2.918200817373064, "train/extr_return_normed_mag": 1.372603217760722, "train/extr_return_normed_max": 1.372603217760722, "train/extr_return_normed_mean": 0.39730273311336833, "train/extr_return_normed_min": -0.09297522840400536, "train/extr_return_normed_std": 0.3204892271508773, "train/extr_return_rate": 0.8549036598867841, "train/extr_return_raw_mag": 12.663188576698303, "train/extr_return_raw_max": 12.663188576698303, "train/extr_return_raw_mean": 3.6969107687473297, "train/extr_return_raw_min": -0.8109753835532401, "train/extr_return_raw_std": 2.9465792377789817, "train/extr_reward_mag": 1.0670981705188751, "train/extr_reward_max": 1.0670981705188751, "train/extr_reward_mean": 0.060195576244344316, "train/extr_reward_min": -0.6860711524883906, "train/extr_reward_std": 0.23679011522067916, "train/image_loss_mean": 3.309770400325457, "train/image_loss_std": 8.351786447895897, "train/model_loss_mean": 6.666644222206539, "train/model_loss_std": 12.508262435595194, "train/model_opt_grad_norm": 23.227192971441482, "train/model_opt_grad_steps": 424760.40277777775, "train/model_opt_loss": 18868.37297905816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.6960053874386682, "train/policy_entropy_max": 2.6960053874386682, "train/policy_entropy_mean": 0.38523172007666695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885262377560139, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38496031674245995, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0175101516975298, "train/policy_randomness_mag": 0.9515715936819712, "train/policy_randomness_max": 0.9515715936819712, "train/policy_randomness_mean": 0.13596989183376232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2077239356521103, "train/post_ent_mag": 55.36265887154473, "train/post_ent_max": 55.36265887154473, "train/post_ent_mean": 40.520610332489014, "train/post_ent_min": 19.531685762935215, "train/post_ent_std": 5.763758043448131, "train/prior_ent_mag": 76.75289864010281, "train/prior_ent_max": 76.75289864010281, "train/prior_ent_mean": 46.01895750893487, "train/prior_ent_min": 28.03498011165195, "train/prior_ent_std": 7.818908380137549, "train/rep_loss_mean": 5.498502757814196, "train/rep_loss_std": 8.940960685412088, "train/reward_avg": 0.04066704627540377, "train/reward_loss_mean": 0.05772006796259019, "train/reward_loss_std": 0.2169047449198034, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0172873967223697, "train/reward_neg_acc": 0.9937234181496832, "train/reward_neg_loss": 0.026151982782822516, "train/reward_pos_acc": 0.9901312862833341, "train/reward_pos_loss": 0.720524469183551, "train/reward_pred": 0.0404794341367152, "train/reward_rate": 0.04551866319444445, "stats/sum_log_reward": 10.225000143051147, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 6.125, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.39465418085455894, "replay/size": 851974.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4679666450479354e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.307153800848118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30054450035095, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.332829236984253, "timer/env.step_frac": 0.06770826629973191, "timer/env.step_avg": 0.014080906673811809, "timer/env.step_min": 0.0030143260955810547, "timer/env.step_max": 1.6648051738739014, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26055026054382324, "timer/replay.add_frac": 0.0008676316620648643, "timer/replay.add_avg": 0.00018043646852065323, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.003035306930541992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029763460159301758, "timer/logger.write_frac": 9.911224173377073e-05, "timer/logger.write_avg": 0.029763460159301758, "timer/logger.write_min": 0.029763460159301758, "timer/logger.write_max": 0.029763460159301758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.5760498046875, "timer/agent.policy_frac": 0.03521821721064226, "timer/agent.policy_avg": 0.007324134213772507, "timer/agent.policy_min": 0.0056536197662353516, "timer/agent.policy_max": 0.0174710750579834, "timer/dataset_count": 722.0, "timer/dataset_total": 0.060515642166137695, "timer/dataset_frac": 0.00020151692454246274, "timer/dataset_avg": 8.381667890046772e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.3776340484619, "timer/agent.train_frac": 0.8936967946395058, "timer/agent.train_avg": 0.3717141745823572, "timer/agent.train_min": 0.36211562156677246, "timer/agent.train_max": 0.38727903366088867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22042202949523926, "timer/agent.report_frac": 0.0007340047613366271, "timer/agent.report_avg": 0.22042202949523926, "timer/agent.report_min": 0.22042202949523926, "timer/agent.report_max": 0.22042202949523926, "fps": 4.808440562764406}
+{"step": 852259, "episode/length": 338.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04424778761061947}
+{"step": 852479, "episode/length": 219.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06818181818181818}
+{"step": 852692, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06572769953051644}
+{"step": 852871, "episode/length": 178.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.500000052154064, "episode/reward_rate": 0.0670391061452514}
+{"step": 853184, "episode/length": 312.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.500000059604645, "episode/reward_rate": 0.04792332268370607}
+{"step": 853421, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04219409282700422}
+{"step": 853463, "episode/length": 41.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.11904761904761904}
+{"step": 853465, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.378140767415364, "train/action_min": 0.0, "train/action_std": 3.2207893199390836, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039203112944960594, "train/actor_opt_grad_steps": 425825.0, "train/actor_opt_loss": -9.88759209546778, "train/adv_mag": 0.40774797793063855, "train/adv_max": 0.35417537080744904, "train/adv_mean": 0.002686820475800131, "train/adv_min": -0.35226270991067093, "train/adv_std": 0.043776063765916556, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 5.385294908519553e-05, "train/cont_loss_std": 0.0016803161938041297, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007971869457192563, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 7.917897854999486e-06, "train/cont_pred": 0.9948450144794252, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.492410335275862, "train/dyn_loss_std": 8.959861040115356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9941073026922014, "train/extr_critic_critic_opt_grad_steps": 425825.0, "train/extr_critic_critic_opt_loss": 15741.269449869791, "train/extr_critic_mag": 11.95280487007565, "train/extr_critic_max": 11.95280487007565, "train/extr_critic_mean": 3.6403215958012476, "train/extr_critic_min": -0.356120487054189, "train/extr_critic_std": 2.845898942814933, "train/extr_return_normed_mag": 1.3720056331819959, "train/extr_return_normed_max": 1.3720056331819959, "train/extr_return_normed_mean": 0.3917072398795022, "train/extr_return_normed_min": -0.09224634307126205, "train/extr_return_normed_std": 0.3134909621957276, "train/extr_return_rate": 0.8672372806403372, "train/extr_return_raw_mag": 12.655597885449728, "train/extr_return_raw_max": 12.655597885449728, "train/extr_return_raw_mean": 3.664962652656767, "train/extr_return_raw_min": -0.7738183128337065, "train/extr_return_raw_std": 2.8756392995516458, "train/extr_reward_mag": 1.0764889154169295, "train/extr_reward_max": 1.0764889154169295, "train/extr_reward_mean": 0.05891052488651541, "train/extr_reward_min": -0.6499870734082328, "train/extr_reward_std": 0.234361301900612, "train/image_loss_mean": 3.3180517736408444, "train/image_loss_std": 8.650770551628536, "train/model_loss_mean": 6.670004142655267, "train/model_loss_std": 12.849400613043043, "train/model_opt_grad_norm": 23.782259517245823, "train/model_opt_grad_steps": 425479.56944444444, "train/model_opt_loss": 13066.439181857639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1961.8055555555557, "train/policy_entropy_mag": 2.6865229176150427, "train/policy_entropy_max": 2.6865229176150427, "train/policy_entropy_mean": 0.3792146516756879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5725600814653767, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3782554055667586, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0048544373777177, "train/policy_randomness_mag": 0.9482246968481276, "train/policy_randomness_max": 0.9482246968481276, "train/policy_randomness_mean": 0.13384613156732586, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20208858201901117, "train/post_ent_mag": 55.984623220231796, "train/post_ent_max": 55.984623220231796, "train/post_ent_mean": 40.64702187644111, "train/post_ent_min": 19.339511394500732, "train/post_ent_std": 5.77402980460061, "train/prior_ent_mag": 76.72123686472575, "train/prior_ent_max": 76.72123686472575, "train/prior_ent_mean": 46.075965033637154, "train/prior_ent_min": 28.345343563291763, "train/prior_ent_std": 7.7119892901844445, "train/rep_loss_mean": 5.492410335275862, "train/rep_loss_std": 8.959861040115356, "train/reward_avg": 0.03898925742962294, "train/reward_loss_mean": 0.05645235664107733, "train/reward_loss_std": 0.2170075053970019, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0317557487222884, "train/reward_neg_acc": 0.9929679839147462, "train/reward_neg_loss": 0.025134701954407826, "train/reward_pos_acc": 0.9847685131761763, "train/reward_pos_loss": 0.742849224143558, "train/reward_pred": 0.03850860690646288, "train/reward_rate": 0.0438232421875, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3730016563619886, "replay/size": 853402.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4300219111081934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3289581827756738e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3422770500183, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.36110019683838, "timer/env.step_frac": 0.07112252196609986, "timer/env.step_avg": 0.014958753639242562, "timer/env.step_min": 0.002685070037841797, "timer/env.step_max": 2.6284162998199463, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.31331324577331543, "timer/replay.add_frac": 0.0010431872890180457, "timer/replay.add_avg": 0.0002194070348552629, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.004569292068481445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02293705940246582, "timer/logger.write_frac": 7.636973265220979e-05, "timer/logger.write_avg": 0.02293705940246582, "timer/logger.write_min": 0.02293705940246582, "timer/logger.write_max": 0.02293705940246582, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022745132446289062, "timer/checkpoint.save_frac": 7.573070521304312e-07, "timer/checkpoint.save_avg": 0.00022745132446289062, "timer/checkpoint.save_min": 0.00022745132446289062, "timer/checkpoint.save_max": 0.00022745132446289062, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4912433624267578, "timer/agent.save_frac": 0.004965146355930469, "timer/agent.save_avg": 1.4912433624267578, "timer/agent.save_min": 1.4912433624267578, "timer/agent.save_max": 1.4912433624267578, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.5005421532608575e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.753077268600464, "timer/agent.policy_frac": 0.042461811882969096, "timer/agent.policy_avg": 0.008930726378571754, "timer/agent.policy_min": 0.005671501159667969, "timer/agent.policy_max": 1.4832298755645752, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06077909469604492, "timer/dataset_frac": 0.00020236609808323093, "timer/dataset_avg": 8.512478248745788e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.1764621734619, "timer/agent.train_frac": 0.8829142030154484, "timer/agent.train_avg": 0.3713956052849607, "timer/agent.train_min": 0.3630983829498291, "timer/agent.train_max": 0.4288361072540283, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845459938049316, "timer/agent.report_frac": 0.0007273521447801777, "timer/agent.report_avg": 0.21845459938049316, "timer/agent.report_min": 0.21845459938049316, "timer/agent.report_max": 0.21845459938049316, "fps": 4.7544733159222075}
+{"step": 853606, "episode/length": 142.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.09090909090909091}
+{"step": 853825, "episode/length": 218.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.0684931506849315}
+{"step": 854127, "episode/length": 301.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.04966887417218543}
+{"step": 854331, "episode/length": 203.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04411764705882353}
+{"step": 854614, "episode/length": 282.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04946996466431095}
+{"step": 854858, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06147540983606557}
+{"step": 854921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408298440175514, "train/action_min": 0.0, "train/action_std": 3.2327599296831107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039637130723424154, "train/actor_opt_grad_steps": 426550.0, "train/actor_opt_loss": -10.771889247306406, "train/adv_mag": 0.4000770723166531, "train/adv_max": 0.321787029096525, "train/adv_mean": 0.001977678134496011, "train/adv_min": -0.3655760706695792, "train/adv_std": 0.0439312303413267, "train/cont_avg": 0.9951038099315068, "train/cont_loss_mean": 0.00012527376239232388, "train/cont_loss_std": 0.003987723983328416, "train/cont_neg_acc": 0.9885416668322351, "train/cont_neg_loss": 0.05034156050168311, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.937783583621545e-06, "train/cont_pred": 0.9951337608572555, "train/cont_rate": 0.9951038099315068, "train/dyn_loss_mean": 5.404858837388966, "train/dyn_loss_std": 8.869057590014314, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9169198878823894, "train/extr_critic_critic_opt_grad_steps": 426550.0, "train/extr_critic_critic_opt_loss": 15517.836312071919, "train/extr_critic_mag": 12.038383000517545, "train/extr_critic_max": 12.038383000517545, "train/extr_critic_mean": 3.8554088024243915, "train/extr_critic_min": -0.3437652702200903, "train/extr_critic_std": 2.8599459945339047, "train/extr_return_normed_mag": 1.3705184786287072, "train/extr_return_normed_max": 1.3705184786287072, "train/extr_return_normed_mean": 0.4102677678408688, "train/extr_return_normed_min": -0.08557849632550592, "train/extr_return_normed_std": 0.31247737983318224, "train/extr_return_rate": 0.8812598553422379, "train/extr_return_raw_mag": 12.749235100942116, "train/extr_return_raw_max": 12.749235100942116, "train/extr_return_raw_mean": 3.8736935478367216, "train/extr_return_raw_min": -0.7094122804191014, "train/extr_return_raw_std": 2.8879747586707545, "train/extr_reward_mag": 1.0739342872410604, "train/extr_reward_max": 1.0739342872410604, "train/extr_reward_mean": 0.06262918620383086, "train/extr_reward_min": -0.6260140105469586, "train/extr_reward_std": 0.24039342979045764, "train/image_loss_mean": 3.1909450210937083, "train/image_loss_std": 8.44648989585981, "train/model_loss_mean": 6.4900583045123375, "train/model_loss_std": 12.602624226922858, "train/model_opt_grad_norm": 22.97987589117599, "train/model_opt_grad_steps": 426204.0, "train/model_opt_loss": 8544.517036333476, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.667998062421198, "train/policy_entropy_max": 2.667998062421198, "train/policy_entropy_mean": 0.371558133053453, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5662168737960188, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.371213581055811, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.002348732458402, "train/policy_randomness_mag": 0.9416862358785656, "train/policy_randomness_max": 0.9416862358785656, "train/policy_randomness_mean": 0.13114371691664603, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19984970803130164, "train/post_ent_mag": 55.405992952111646, "train/post_ent_max": 55.405992952111646, "train/post_ent_mean": 40.42497985003746, "train/post_ent_min": 19.448536454814754, "train/post_ent_std": 5.755474573945346, "train/prior_ent_mag": 76.76251429727633, "train/prior_ent_max": 76.76251429727633, "train/prior_ent_mean": 45.8586303501913, "train/prior_ent_min": 28.041787709275336, "train/prior_ent_std": 7.696005742843837, "train/rep_loss_mean": 5.404858837388966, "train/rep_loss_std": 8.869057590014314, "train/reward_avg": 0.04201359144884021, "train/reward_loss_mean": 0.0560727289380276, "train/reward_loss_std": 0.21391703474195037, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.022959052699886, "train/reward_neg_acc": 0.9940552801302035, "train/reward_neg_loss": 0.023713078515680684, "train/reward_pos_acc": 0.9901335018954865, "train/reward_pos_loss": 0.7213348950425239, "train/reward_pred": 0.04170469541663993, "train/reward_rate": 0.046326519691780824, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4757862662275632, "replay/size": 854858.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3624224610381074e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3962060540587038e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.051429271698, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.081058025360107, "timer/env.step_frac": 0.06025986301497542, "timer/env.step_avg": 0.012418309083351722, "timer/env.step_min": 0.003058195114135742, "timer/env.step_max": 1.7562024593353271, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27623796463012695, "timer/replay.add_frac": 0.0009206353900750533, "timer/replay.add_avg": 0.00018972387680640587, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.004853725433349609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030963897705078125, "timer/logger.write_frac": 0.00010319530148626677, "timer/logger.write_avg": 0.030963897705078125, "timer/logger.write_min": 0.030963897705078125, "timer/logger.write_max": 0.030963897705078125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.819789171218872, "timer/agent.policy_frac": 0.03605978214295224, "timer/agent.policy_avg": 0.007431173881331643, "timer/agent.policy_min": 0.005600452423095703, "timer/agent.policy_max": 0.015403509140014648, "timer/dataset_count": 728.0, "timer/dataset_total": 0.062448740005493164, "timer/dataset_frac": 0.0002081267873213346, "timer/dataset_avg": 8.578123627128182e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.11247634887695, "timer/agent.train_frac": 0.9002205955309376, "timer/agent.train_avg": 0.37103362135834744, "timer/agent.train_min": 0.36389994621276855, "timer/agent.train_max": 0.38416600227355957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190401554107666, "timer/agent.report_frac": 0.0007300087053157301, "timer/agent.report_avg": 0.2190401554107666, "timer/agent.report_min": 0.2190401554107666, "timer/agent.report_max": 0.2190401554107666, "fps": 4.852435497299794}
+{"step": 855064, "episode/length": 205.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.06796116504854369}
+{"step": 855287, "episode/length": 222.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000058114529, "episode/reward_rate": 0.06278026905829596}
+{"step": 855376, "episode/length": 88.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12359550561797752}
+{"step": 855476, "episode/length": 99.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.1}
+{"step": 855684, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0673076923076923}
+{"step": 855879, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
+{"step": 856146, "episode/length": 266.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.04119850187265917}
+{"step": 856261, "episode/length": 114.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.10434782608695652}
+{"step": 856365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433208889431423, "train/action_min": 0.0, "train/action_std": 3.2309697104824915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040386167717062764, "train/actor_opt_grad_steps": 427275.0, "train/actor_opt_loss": -11.704347584810522, "train/adv_mag": 0.4105272139939997, "train/adv_max": 0.3556937041381995, "train/adv_mean": 0.0019272116927974519, "train/adv_min": -0.3538253069337871, "train/adv_std": 0.04461035422152943, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 1.2818686235347184e-05, "train/cont_loss_std": 0.00034757720971533164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002607461724753395, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.1698102748406805e-05, "train/cont_pred": 0.9946734002894826, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.460747811529371, "train/dyn_loss_std": 8.809227645397186, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9911223517523872, "train/extr_critic_critic_opt_grad_steps": 427275.0, "train/extr_critic_critic_opt_loss": 15615.829576280383, "train/extr_critic_mag": 12.055715494685703, "train/extr_critic_max": 12.055715494685703, "train/extr_critic_mean": 3.8760626680321164, "train/extr_critic_min": -0.3739228695631027, "train/extr_critic_std": 2.8939042720529766, "train/extr_return_normed_mag": 1.3837936056984796, "train/extr_return_normed_max": 1.3837936056984796, "train/extr_return_normed_mean": 0.4088572897017002, "train/extr_return_normed_min": -0.08934934354490703, "train/extr_return_normed_std": 0.31545676497949493, "train/extr_return_rate": 0.8747287748588456, "train/extr_return_raw_mag": 12.920654680993822, "train/extr_return_raw_max": 12.920654680993822, "train/extr_return_raw_mean": 3.893910742468304, "train/extr_return_raw_min": -0.7189745832648542, "train/extr_return_raw_std": 2.9207744896411896, "train/extr_reward_mag": 1.064123809337616, "train/extr_reward_max": 1.064123809337616, "train/extr_reward_mean": 0.061133141784618296, "train/extr_reward_min": -0.6328680382834541, "train/extr_reward_std": 0.2377658070375522, "train/image_loss_mean": 3.093182666434182, "train/image_loss_std": 8.3929596013493, "train/model_loss_mean": 6.426669458548228, "train/model_loss_std": 12.519821882247925, "train/model_opt_grad_norm": 22.759873270988464, "train/model_opt_grad_steps": 426929.0, "train/model_opt_loss": 16066.673624674479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.658094343211916, "train/policy_entropy_max": 2.658094343211916, "train/policy_entropy_mean": 0.37080583742095363, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5544795729219913, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3703799429867003, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9986140082279841, "train/policy_randomness_mag": 0.9381906547480159, "train/policy_randomness_max": 0.9381906547480159, "train/policy_randomness_mean": 0.13087818761252695, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19570695815814865, "train/post_ent_mag": 55.2577740351359, "train/post_ent_max": 55.2577740351359, "train/post_ent_mean": 40.50984255472819, "train/post_ent_min": 19.52217067612542, "train/post_ent_std": 5.8199553158548145, "train/prior_ent_mag": 76.69529872470432, "train/prior_ent_max": 76.69529872470432, "train/prior_ent_mean": 45.97978835635715, "train/prior_ent_min": 28.005629195107353, "train/prior_ent_std": 7.768651896052891, "train/rep_loss_mean": 5.460747811529371, "train/rep_loss_std": 8.809227645397186, "train/reward_avg": 0.04135742178186774, "train/reward_loss_mean": 0.05702521403630575, "train/reward_loss_std": 0.21479648600021997, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0185447103447385, "train/reward_neg_acc": 0.9937614980671141, "train/reward_neg_loss": 0.02430947265949928, "train/reward_pos_acc": 0.9873984000749059, "train/reward_pos_loss": 0.7344338653816117, "train/reward_pred": 0.040743885949874915, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_iron": 0.375, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3428390212357044, "replay/size": 856302.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3981251914745554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3881195284983457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2010681629181, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.374465465545654, "timer/env.step_frac": 0.06786939696859606, "timer/env.step_avg": 0.01410974062710918, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6774718761444092, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.282498836517334, "timer/replay.add_frac": 0.0009410320830838044, "timer/replay.add_avg": 0.0001956363133776551, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004748821258544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02788066864013672, "timer/logger.write_frac": 9.287331591040834e-05, "timer/logger.write_avg": 0.02788066864013672, "timer/logger.write_min": 0.02788066864013672, "timer/logger.write_max": 0.02788066864013672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.65834927558899, "timer/agent.policy_frac": 0.035504035148218524, "timer/agent.policy_avg": 0.007381128307194591, "timer/agent.policy_min": 0.005545139312744141, "timer/agent.policy_max": 0.01603412628173828, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06200742721557617, "timer/dataset_frac": 0.00020655298662003744, "timer/dataset_avg": 8.588286317946839e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.13362765312195, "timer/agent.train_frac": 0.8931801252206296, "timer/agent.train_avg": 0.3713762155860415, "timer/agent.train_min": 0.36374545097351074, "timer/agent.train_max": 0.3854377269744873, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21949124336242676, "timer/agent.report_frac": 0.000731147442964159, "timer/agent.report_avg": 0.21949124336242676, "timer/agent.report_min": 0.21949124336242676, "timer/agent.report_max": 0.21949124336242676, "fps": 4.810047061580215}
+{"step": 856530, "episode/length": 268.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.05204460966542751}
+{"step": 856811, "episode/length": 280.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05338078291814947}
+{"step": 857064, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05533596837944664}
+{"step": 857358, "episode/length": 293.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.500000059604645, "episode/reward_rate": 0.05102040816326531}
+{"step": 857566, "episode/length": 207.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07692307692307693}
+{"step": 857755, "episode/length": 188.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.06878306878306878}
+{"step": 857799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381502787272136, "train/action_min": 0.0, "train/action_std": 3.2342074314753213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04016379794726769, "train/actor_opt_grad_steps": 427995.0, "train/actor_opt_loss": -11.739358666870329, "train/adv_mag": 0.44084229071935016, "train/adv_max": 0.35747771627373165, "train/adv_mean": 0.002051371356477224, "train/adv_min": -0.40860910072094864, "train/adv_std": 0.044839083631005555, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 2.178105314085441e-05, "train/cont_loss_std": 0.0006354501387654131, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011150165980976152, "train/cont_pos_acc": 0.9999863513641887, "train/cont_pos_loss": 1.549611292261943e-05, "train/cont_pred": 0.9946093691719903, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 5.5510743326610985, "train/dyn_loss_std": 8.913969490263197, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9366031198037995, "train/extr_critic_critic_opt_grad_steps": 427995.0, "train/extr_critic_critic_opt_loss": 15469.922566731771, "train/extr_critic_mag": 12.161012834972805, "train/extr_critic_max": 12.161012834972805, "train/extr_critic_mean": 3.957173721657859, "train/extr_critic_min": -0.35361039141813916, "train/extr_critic_std": 2.891585119896465, "train/extr_return_normed_mag": 1.3875565694438086, "train/extr_return_normed_max": 1.3875565694438086, "train/extr_return_normed_mean": 0.4155513648357656, "train/extr_return_normed_min": -0.08936912866516246, "train/extr_return_normed_std": 0.31365126992265385, "train/extr_return_rate": 0.8927246563964419, "train/extr_return_raw_mag": 13.036125752660963, "train/extr_return_raw_max": 13.036125752660963, "train/extr_return_raw_mean": 3.9762904942035675, "train/extr_return_raw_min": -0.7297414259778129, "train/extr_return_raw_std": 2.92347080177731, "train/extr_reward_mag": 1.0731177992290921, "train/extr_reward_max": 1.0731177992290921, "train/extr_reward_mean": 0.062448445655819446, "train/extr_reward_min": -0.6186089449458652, "train/extr_reward_std": 0.24013509332305855, "train/image_loss_mean": 3.114445540640089, "train/image_loss_std": 8.527021368344625, "train/model_loss_mean": 6.503627128071255, "train/model_loss_std": 12.706486768192715, "train/model_opt_grad_norm": 23.85269366519552, "train/model_opt_grad_steps": 427648.2638888889, "train/model_opt_loss": 16343.293762207031, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.6760693987210593, "train/policy_entropy_max": 2.6760693987210593, "train/policy_entropy_mean": 0.3636590482460128, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5547910063631005, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36388626218669945, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9977544811036851, "train/policy_randomness_mag": 0.9445350625448756, "train/policy_randomness_max": 0.9445350625448756, "train/policy_randomness_mean": 0.128355684897138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19581688081638682, "train/post_ent_mag": 55.22091351615058, "train/post_ent_max": 55.22091351615058, "train/post_ent_mean": 40.364417182074654, "train/post_ent_min": 19.612249188952976, "train/post_ent_std": 5.6927682757377625, "train/prior_ent_mag": 76.65295759836833, "train/prior_ent_max": 76.65295759836833, "train/prior_ent_mean": 45.93604034847684, "train/prior_ent_min": 28.126973231633503, "train/prior_ent_std": 7.725697649849786, "train/rep_loss_mean": 5.5510743326610985, "train/rep_loss_std": 8.913969490263197, "train/reward_avg": 0.04277750647937258, "train/reward_loss_mean": 0.05851517001994782, "train/reward_loss_std": 0.21550933519999185, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0239789485931396, "train/reward_neg_acc": 0.9939880826407008, "train/reward_neg_loss": 0.025547495525744226, "train/reward_pos_acc": 0.9899617118967904, "train/reward_pos_loss": 0.7213663938972685, "train/reward_pred": 0.04256484929161767, "train/reward_rate": 0.04745822482638889, "stats/sum_log_reward": 13.266666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5799858520428339, "replay/size": 857736.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.433294043547605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3862859920145245e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12935304641724, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.361384391784668, "timer/env.step_frac": 0.06451013269865105, "timer/env.step_avg": 0.013501662755777313, "timer/env.step_min": 0.002671480178833008, "timer/env.step_max": 1.8936491012573242, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2879221439361572, "timer/replay.add_frac": 0.0009593268402895199, "timer/replay.add_avg": 0.00020078252715213197, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0043714046478271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02317500114440918, "timer/logger.write_frac": 7.721670975922503e-05, "timer/logger.write_avg": 0.02317500114440918, "timer/logger.write_min": 0.02317500114440918, "timer/logger.write_max": 0.02317500114440918, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002181529998779297, "timer/checkpoint.save_frac": 7.268632596698754e-07, "timer/checkpoint.save_avg": 0.0002181529998779297, "timer/checkpoint.save_min": 0.0002181529998779297, "timer/checkpoint.save_max": 0.0002181529998779297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2118630409240723, "timer/agent.save_frac": 0.004037802462915544, "timer/agent.save_avg": 1.2118630409240723, "timer/agent.save_min": 1.2118630409240723, "timer/agent.save_max": 1.2118630409240723, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.6532494943140807e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.567569732666016, "timer/agent.policy_frac": 0.0418738440778978, "timer/agent.policy_avg": 0.008763995629474209, "timer/agent.policy_min": 0.00575566291809082, "timer/agent.policy_max": 1.2067465782165527, "timer/dataset_count": 717.0, "timer/dataset_total": 0.062279701232910156, "timer/dataset_frac": 0.00020750953080979765, "timer/dataset_avg": 8.686150799569059e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.16935873031616, "timer/agent.train_frac": 0.8901807038147196, "timer/agent.train_avg": 0.37262114188328616, "timer/agent.train_min": 0.3643937110900879, "timer/agent.train_max": 0.9340367317199707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845364570617676, "timer/agent.report_frac": 0.0007278649805118904, "timer/agent.report_avg": 0.21845364570617676, "timer/agent.report_min": 0.21845364570617676, "timer/agent.report_max": 0.21845364570617676, "fps": 4.777838589126071}
+{"step": 857923, "episode/length": 167.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.08928571428571429}
+{"step": 858092, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07692307692307693}
+{"step": 858133, "episode/length": 40.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 1.1000000163912773, "episode/reward_rate": 0.0}
+{"step": 858352, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
+{"step": 858446, "episode/length": 93.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.10638297872340426}
+{"step": 858637, "episode/length": 190.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05759162303664921}
+{"step": 858862, "episode/length": 224.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.057777777777777775}
+{"step": 859061, "episode/length": 198.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07035175879396985}
+{"step": 859240, "episode/length": 178.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0446927374301676}
+{"step": 859241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.434113396538629, "train/action_min": 0.0, "train/action_std": 3.2941780520810022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03875338674212495, "train/actor_opt_grad_steps": 428715.0, "train/actor_opt_loss": -11.862559263077047, "train/adv_mag": 0.42834743795295555, "train/adv_max": 0.3564729622254769, "train/adv_mean": 0.002051707782543291, "train/adv_min": -0.37708723669250804, "train/adv_std": 0.043742733334915504, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 7.764205298589468e-06, "train/cont_loss_std": 0.00022028742777951353, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.891572223030531e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.535791210896055e-06, "train/cont_pred": 0.9947444953852229, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.332105974356334, "train/dyn_loss_std": 8.817600925763449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9535632679859797, "train/extr_critic_critic_opt_grad_steps": 428715.0, "train/extr_critic_critic_opt_loss": 15570.253214518229, "train/extr_critic_mag": 12.226216395696005, "train/extr_critic_max": 12.226216395696005, "train/extr_critic_mean": 3.7701563603348203, "train/extr_critic_min": -0.3828466915422016, "train/extr_critic_std": 2.9494765632682376, "train/extr_return_normed_mag": 1.3848190324174032, "train/extr_return_normed_max": 1.3848190324174032, "train/extr_return_normed_mean": 0.39696089716421235, "train/extr_return_normed_min": -0.08903418688310517, "train/extr_return_normed_std": 0.32038162276148796, "train/extr_return_rate": 0.8616555026835866, "train/extr_return_raw_mag": 12.976778745651245, "train/extr_return_raw_max": 12.976778745651245, "train/extr_return_raw_mean": 3.78923370440801, "train/extr_return_raw_min": -0.7300155382189486, "train/extr_return_raw_std": 2.979583591222763, "train/extr_reward_mag": 1.0662911766105228, "train/extr_reward_max": 1.0662911766105228, "train/extr_reward_mean": 0.06036369957857662, "train/extr_reward_min": -0.6279886116584142, "train/extr_reward_std": 0.23701030885179838, "train/image_loss_mean": 3.1969775789313846, "train/image_loss_std": 8.01080873939726, "train/model_loss_mean": 6.452613876925574, "train/model_loss_std": 12.110225624508328, "train/model_opt_grad_norm": 23.391869849628872, "train/model_opt_grad_steps": 428367.0, "train/model_opt_loss": 8065.767354329427, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6787365708086224, "train/policy_entropy_max": 2.6787365708086224, "train/policy_entropy_mean": 0.39593352004885674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908959615561697, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3951626337236828, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0216392576694489, "train/policy_randomness_mag": 0.9454764591323005, "train/policy_randomness_max": 0.9454764591323005, "train/policy_randomness_mean": 0.13974715696854723, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2085603451770213, "train/post_ent_mag": 55.35922818713718, "train/post_ent_max": 55.35922818713718, "train/post_ent_mean": 40.57796918021308, "train/post_ent_min": 19.564460304048325, "train/post_ent_std": 5.774907032648723, "train/prior_ent_mag": 76.75378735860188, "train/prior_ent_max": 76.75378735860188, "train/prior_ent_mean": 45.89417436387804, "train/prior_ent_min": 27.953677866193985, "train/prior_ent_std": 7.698143561681111, "train/rep_loss_mean": 5.332105974356334, "train/rep_loss_std": 8.817600925763449, "train/reward_avg": 0.04051920541355179, "train/reward_loss_mean": 0.056365023729287915, "train/reward_loss_std": 0.21152627074884045, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0287389953931172, "train/reward_neg_acc": 0.9936187515656153, "train/reward_neg_loss": 0.02492591878399253, "train/reward_pos_acc": 0.9916584061251746, "train/reward_pos_loss": 0.7179595149225659, "train/reward_pred": 0.04031282329621414, "train/reward_rate": 0.045355902777777776, "stats/sum_log_reward": 10.099999970859951, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8888888888888888, "stats/max_log_achievement_collect_stone": 7.777777777777778, "stats/max_log_achievement_collect_wood": 10.88888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.29802096883455914, "replay/size": 859178.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4992307961896454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3878747262835668e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.5683784484863, "timer/env.step_count": 1442.0, "timer/env.step_total": 21.962581396102905, "timer/env.step_frac": 0.0728278658030936, "timer/env.step_avg": 0.01523063897094515, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.7500441074371338, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2783033847808838, "timer/replay.add_frac": 0.000922853338313199, "timer/replay.add_avg": 0.00019299818639451026, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004996538162231445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03308844566345215, "timer/logger.write_frac": 0.00010972120430426458, "timer/logger.write_avg": 0.03308844566345215, "timer/logger.write_min": 0.03308844566345215, "timer/logger.write_max": 0.03308844566345215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.700493335723877, "timer/agent.policy_frac": 0.03548280953983286, "timer/agent.policy_avg": 0.007420591772346655, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.017119884490966797, "timer/dataset_count": 721.0, "timer/dataset_total": 0.061246395111083984, "timer/dataset_frac": 0.00020309289530349764, "timer/dataset_avg": 8.494645646474894e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.8693480491638, "timer/agent.train_frac": 0.8882540982158083, "timer/agent.train_avg": 0.3715247545758167, "timer/agent.train_min": 0.36501002311706543, "timer/agent.train_max": 0.38433384895324707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21885371208190918, "timer/agent.report_frac": 0.0007257183701019024, "timer/agent.report_avg": 0.21885371208190918, "timer/agent.report_min": 0.21885371208190918, "timer/agent.report_max": 0.21885371208190918, "fps": 4.781560894779787}
+{"step": 859323, "episode/length": 82.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.10843373493975904}
+{"step": 859514, "episode/length": 190.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04712041884816754}
+{"step": 859760, "episode/length": 245.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06504065040650407}
+{"step": 859879, "episode/length": 118.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.09243697478991597}
+{"step": 860056, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07909604519774012}
+{"step": 860329, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.054945054945054944}
+{"step": 860530, "episode/length": 200.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.07960199004975124}
+{"step": 860691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.386376274956597, "train/action_min": 0.0, "train/action_std": 3.254243916935391, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040050037696750626, "train/actor_opt_grad_steps": 429435.0, "train/actor_opt_loss": -11.572872906923294, "train/adv_mag": 0.46391957956883645, "train/adv_max": 0.3676073257293966, "train/adv_mean": 0.0021573394314550066, "train/adv_min": -0.41883970693581635, "train/adv_std": 0.04503809717587299, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 0.000201859267035963, "train/cont_loss_std": 0.006144104179533964, "train/cont_neg_acc": 0.9945436517397562, "train/cont_neg_loss": 0.031502499911320134, "train/cont_pos_acc": 0.9999726166327795, "train/cont_pos_loss": 4.3578255373747744e-05, "train/cont_pred": 0.9947382402088907, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.483529322677189, "train/dyn_loss_std": 8.956242031521267, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9703809950086806, "train/extr_critic_critic_opt_grad_steps": 429435.0, "train/extr_critic_critic_opt_loss": 15635.680352105035, "train/extr_critic_mag": 12.13291507297092, "train/extr_critic_max": 12.13291507297092, "train/extr_critic_mean": 3.885535094473097, "train/extr_critic_min": -0.37004296647177803, "train/extr_critic_std": 2.8910723858409457, "train/extr_return_normed_mag": 1.3751592652665243, "train/extr_return_normed_max": 1.3751592652665243, "train/extr_return_normed_mean": 0.4088388362692462, "train/extr_return_normed_min": -0.08855212961013119, "train/extr_return_normed_std": 0.3126377726180686, "train/extr_return_rate": 0.8732937739955055, "train/extr_return_raw_mag": 12.938419527477688, "train/extr_return_raw_max": 12.938419527477688, "train/extr_return_raw_mean": 3.9056955873966217, "train/extr_return_raw_min": -0.7437680839664407, "train/extr_return_raw_std": 2.9226416614320545, "train/extr_reward_mag": 1.0768582655323877, "train/extr_reward_max": 1.0768582655323877, "train/extr_reward_mean": 0.06231398337210218, "train/extr_reward_min": -0.6597067614396414, "train/extr_reward_std": 0.2398035969171259, "train/image_loss_mean": 3.240386817190382, "train/image_loss_std": 8.546769559383392, "train/model_loss_mean": 6.589376476075914, "train/model_loss_std": 12.754574020703634, "train/model_opt_grad_norm": 21.61195809311337, "train/model_opt_grad_steps": 429087.0, "train/model_opt_loss": 14143.971754286023, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.6697953508959875, "train/policy_entropy_max": 2.6697953508959875, "train/policy_entropy_mean": 0.3596267689847284, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452959082192845, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3590250081486172, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9926308178239398, "train/policy_randomness_mag": 0.9423205960128043, "train/policy_randomness_max": 0.9423205960128043, "train/policy_randomness_mean": 0.12693246598872873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19246552656922075, "train/post_ent_mag": 55.05963659286499, "train/post_ent_max": 55.05963659286499, "train/post_ent_mean": 40.44407404793633, "train/post_ent_min": 19.410348494847614, "train/post_ent_std": 5.699942065609826, "train/prior_ent_mag": 76.74220095740424, "train/prior_ent_max": 76.74220095740424, "train/prior_ent_mean": 45.89141798019409, "train/prior_ent_min": 27.69787777794732, "train/prior_ent_std": 7.659904142220815, "train/rep_loss_mean": 5.483529322677189, "train/rep_loss_std": 8.956242031521267, "train/reward_avg": 0.04171006935131219, "train/reward_loss_mean": 0.05867028427827689, "train/reward_loss_std": 0.22584176187713942, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0333458814356062, "train/reward_neg_acc": 0.9935062047508028, "train/reward_neg_loss": 0.025701635814685788, "train/reward_pos_acc": 0.9874894320964813, "train/reward_pos_loss": 0.73787721991539, "train/reward_pred": 0.04130908570045398, "train/reward_rate": 0.046454535590277776, "stats/sum_log_reward": 11.81428575515747, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.37263224593230654, "replay/size": 860628.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4090568279397897e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3637953791125068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1908075809479, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.354122400283813, "timer/env.step_frac": 0.06447273504557557, "timer/env.step_avg": 0.013347670620885389, "timer/env.step_min": 0.002935647964477539, "timer/env.step_max": 1.8109705448150635, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2654247283935547, "timer/replay.add_frac": 0.0008841867295419486, "timer/replay.add_avg": 0.00018305153682314116, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004248857498168945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028038978576660156, "timer/logger.write_frac": 9.340385471030558e-05, "timer/logger.write_avg": 0.028038978576660156, "timer/logger.write_min": 0.028038978576660156, "timer/logger.write_max": 0.028038978576660156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.595210075378418, "timer/agent.policy_frac": 0.035294918457892385, "timer/agent.policy_avg": 0.0073070414312954605, "timer/agent.policy_min": 0.005742788314819336, "timer/agent.policy_max": 0.01511240005493164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06146359443664551, "timer/dataset_frac": 0.00020474842295119765, "timer/dataset_avg": 8.477737163675242e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00015497207641601562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.23053002357483, "timer/agent.train_frac": 0.8968646714839046, "timer/agent.train_avg": 0.3713524552049308, "timer/agent.train_min": 0.36464834213256836, "timer/agent.train_max": 0.3899497985839844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182621955871582, "timer/agent.report_frac": 0.0007270782118413228, "timer/agent.report_avg": 0.2182621955871582, "timer/agent.report_min": 0.2182621955871582, "timer/agent.report_max": 0.2182621955871582, "fps": 4.830187114079637}
+{"step": 860769, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06694560669456066}
+{"step": 860966, "episode/length": 196.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.07614213197969544}
+{"step": 861142, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.0625}
+{"step": 861301, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07547169811320754}
+{"step": 861488, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0481283422459893}
+{"step": 861752, "episode/length": 263.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04924242424242424}
+{"step": 861842, "episode/length": 89.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12222222222222222}
+{"step": 861990, "episode/length": 147.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.899999968707561, "episode/reward_rate": 0.08108108108108109}
+{"step": 862111, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.313600352112676, "train/action_min": 0.0, "train/action_std": 3.183221293167329, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038437606215896744, "train/actor_opt_grad_steps": 430150.0, "train/actor_opt_loss": -13.337387786784642, "train/adv_mag": 0.4314328612576068, "train/adv_max": 0.36816058276404795, "train/adv_mean": 0.001376682598431575, "train/adv_min": -0.3687736169553139, "train/adv_std": 0.043450890922210585, "train/cont_avg": 0.9950896786971831, "train/cont_loss_mean": 3.0639883523259785e-05, "train/cont_loss_std": 0.0008913926902369946, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.6931622108130555e-05, "train/cont_pos_acc": 0.9999861020437428, "train/cont_pos_loss": 3.0571490721603e-05, "train/cont_pred": 0.995066782958071, "train/cont_rate": 0.9950896786971831, "train/dyn_loss_mean": 5.616688332087557, "train/dyn_loss_std": 8.905722194994, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0090695686743294, "train/extr_critic_critic_opt_grad_steps": 430150.0, "train/extr_critic_critic_opt_loss": 15789.995777398768, "train/extr_critic_mag": 12.330573444635096, "train/extr_critic_max": 12.330573444635096, "train/extr_critic_mean": 3.7948821967756245, "train/extr_critic_min": -0.38880619196824623, "train/extr_critic_std": 2.9523319022756227, "train/extr_return_normed_mag": 1.3776707699601078, "train/extr_return_normed_max": 1.3776707699601078, "train/extr_return_normed_mean": 0.39588248393904996, "train/extr_return_normed_min": -0.08612150247667877, "train/extr_return_normed_std": 0.31651023471019635, "train/extr_return_rate": 0.8616812002490943, "train/extr_return_raw_mag": 13.048190385522977, "train/extr_return_raw_max": 13.048190385522977, "train/extr_return_raw_mean": 3.807832056367901, "train/extr_return_raw_min": -0.728296591782234, "train/extr_return_raw_std": 2.9790148164185, "train/extr_reward_mag": 1.0751483843360148, "train/extr_reward_max": 1.0751483843360148, "train/extr_reward_mean": 0.05955114525178788, "train/extr_reward_min": -0.6117554550439539, "train/extr_reward_std": 0.23492638179114167, "train/image_loss_mean": 3.2982673896870143, "train/image_loss_std": 8.52727677788533, "train/model_loss_mean": 6.725768082578417, "train/model_loss_std": 12.751833754526057, "train/model_opt_grad_norm": 23.032831420361155, "train/model_opt_grad_steps": 429801.7042253521, "train/model_opt_loss": 17279.79375275088, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.678970823825245, "train/policy_entropy_max": 2.678970823825245, "train/policy_entropy_mean": 0.3647653086924217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5479145377454623, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36508255189573263, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 0.9986836137905927, "train/policy_randomness_mag": 0.9455591381435663, "train/policy_randomness_max": 0.9455591381435663, "train/policy_randomness_mean": 0.12874614688712108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19338978753543237, "train/post_ent_mag": 55.58933580425423, "train/post_ent_max": 55.58933580425423, "train/post_ent_mean": 40.75493557352415, "train/post_ent_min": 19.183657673043264, "train/post_ent_std": 5.88228861043151, "train/prior_ent_mag": 76.73017775844521, "train/prior_ent_max": 76.73017775844521, "train/prior_ent_mean": 46.371401504731516, "train/prior_ent_min": 28.181489622089224, "train/prior_ent_std": 7.707627269583688, "train/rep_loss_mean": 5.616688332087557, "train/rep_loss_std": 8.905722194994, "train/reward_avg": 0.041334727306810905, "train/reward_loss_mean": 0.05745708522662311, "train/reward_loss_std": 0.21912177851502324, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0219489621444486, "train/reward_neg_acc": 0.9931655484186092, "train/reward_neg_loss": 0.024878672966864745, "train/reward_pos_acc": 0.9867477299461902, "train/reward_pos_loss": 0.7377392674835634, "train/reward_pred": 0.04085135069006766, "train/reward_rate": 0.045774647887323945, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3197896424680948, "replay/size": 862048.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.3993116566832635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2850467587860537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00804018974304, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.495567321777344, "timer/env.step_frac": 0.07498321480834247, "timer/env.step_avg": 0.015841948818153057, "timer/env.step_min": 0.0027713775634765625, "timer/env.step_max": 1.8793916702270508, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2510373592376709, "timer/replay.add_frac": 0.0008367687715265892, "timer/replay.add_avg": 0.00017678687270258515, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0047299861907958984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028545379638671875, "timer/logger.write_frac": 9.514871541648707e-05, "timer/logger.write_avg": 0.028545379638671875, "timer/logger.write_min": 0.028545379638671875, "timer/logger.write_max": 0.028545379638671875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003590583801269531, "timer/checkpoint.save_frac": 1.1968291913105498e-06, "timer/checkpoint.save_avg": 0.0003590583801269531, "timer/checkpoint.save_min": 0.0003590583801269531, "timer/checkpoint.save_max": 0.0003590583801269531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2577195167541504, "timer/agent.save_frac": 0.004192286033263286, "timer/agent.save_avg": 1.2577195167541504, "timer/agent.save_min": 1.2577195167541504, "timer/agent.save_max": 1.2577195167541504, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.842613220214844e-05, "timer/replay.save_frac": 2.2808099462558287e-07, "timer/replay.save_avg": 6.842613220214844e-05, "timer/replay.save_min": 6.842613220214844e-05, "timer/replay.save_max": 6.842613220214844e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.19535493850708, "timer/agent.policy_frac": 0.040650093680136064, "timer/agent.policy_avg": 0.008588278125709212, "timer/agent.policy_min": 0.005669593811035156, "timer/agent.policy_max": 1.2452294826507568, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05957293510437012, "timer/dataset_frac": 0.00019857112851606452, "timer/dataset_avg": 8.39055424005213e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0002079010009765625, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.3269064426422, "timer/agent.train_frac": 0.8810660750140765, "timer/agent.train_avg": 0.3722914175248482, "timer/agent.train_min": 0.3646848201751709, "timer/agent.train_max": 0.8652656078338623, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223811149597168, "timer/agent.report_frac": 0.0007412505172163708, "timer/agent.report_avg": 0.2223811149597168, "timer/agent.report_min": 0.2223811149597168, "timer/agent.report_max": 0.2223811149597168, "fps": 4.7331411964740955}
+{"step": 862146, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
+{"step": 862202, "episode/length": 55.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.14285714285714285}
+{"step": 862416, "episode/length": 213.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.028037383177570093}
+{"step": 862518, "episode/length": 101.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0784313725490196}
+{"step": 862772, "episode/length": 253.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.05511811023622047}
+{"step": 862980, "episode/length": 207.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.07211538461538461}
+{"step": 863200, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.05909090909090909}
+{"step": 863378, "episode/length": 177.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.056179775280898875}
+{"step": 863553, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379115634494358, "train/action_min": 0.0, "train/action_std": 3.231245024336709, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03836943258324431, "train/actor_opt_grad_steps": 430865.0, "train/actor_opt_loss": -13.197100489503807, "train/adv_mag": 0.4439653240972095, "train/adv_max": 0.3657689553995927, "train/adv_mean": 0.0015502658609168269, "train/adv_min": -0.3828276087426477, "train/adv_std": 0.04364373359001345, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 0.00017235558736978303, "train/cont_loss_std": 0.005481755536429489, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.03522405784021523, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 3.1087168492020347e-06, "train/cont_pred": 0.9947228514485889, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.374751627445221, "train/dyn_loss_std": 8.85924983686871, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9498088649577565, "train/extr_critic_critic_opt_grad_steps": 430865.0, "train/extr_critic_critic_opt_loss": 15469.494656032986, "train/extr_critic_mag": 12.16543702284495, "train/extr_critic_max": 12.16543702284495, "train/extr_critic_mean": 3.873898747894499, "train/extr_critic_min": -0.3560303664869732, "train/extr_critic_std": 2.9874713818232217, "train/extr_return_normed_mag": 1.3806811852587595, "train/extr_return_normed_max": 1.3806811852587595, "train/extr_return_normed_mean": 0.4094303117858039, "train/extr_return_normed_min": -0.0856018932018843, "train/extr_return_normed_std": 0.3228832520544529, "train/extr_return_rate": 0.8719455732239617, "train/extr_return_raw_mag": 12.953980724016825, "train/extr_return_raw_max": 12.953980724016825, "train/extr_return_raw_mean": 3.888383620315128, "train/extr_return_raw_min": -0.7325060479342937, "train/extr_return_raw_std": 3.014011287026935, "train/extr_reward_mag": 1.0648021366861131, "train/extr_reward_max": 1.0648021366861131, "train/extr_reward_mean": 0.06223810940153069, "train/extr_reward_min": -0.6578462438450919, "train/extr_reward_std": 0.24029030154148737, "train/image_loss_mean": 3.112445536586973, "train/image_loss_std": 8.419377823670706, "train/model_loss_mean": 6.395876361264123, "train/model_loss_std": 12.528447932667202, "train/model_opt_grad_norm": 26.473725875218708, "train/model_opt_grad_steps": 430516.0, "train/model_opt_loss": 15989.690877278646, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6749625437789493, "train/policy_entropy_max": 2.6749625437789493, "train/policy_entropy_mean": 0.3611079984241062, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5532101794249482, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.361180617991421, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9949372857809067, "train/policy_randomness_mag": 0.9441443938348029, "train/policy_randomness_max": 0.9441443938348029, "train/policy_randomness_mean": 0.12745527695450518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19525891739047235, "train/post_ent_mag": 55.40551312764486, "train/post_ent_max": 55.40551312764486, "train/post_ent_mean": 40.48600456449721, "train/post_ent_min": 19.503690097067093, "train/post_ent_std": 5.767530123392741, "train/prior_ent_mag": 76.65431393517389, "train/prior_ent_max": 76.65431393517389, "train/prior_ent_mean": 45.8691521220737, "train/prior_ent_min": 28.112828916973537, "train/prior_ent_std": 7.761764943599701, "train/rep_loss_mean": 5.374751627445221, "train/rep_loss_std": 8.85924983686871, "train/reward_avg": 0.04246690509737366, "train/reward_loss_mean": 0.058407537225219935, "train/reward_loss_std": 0.21559504688613945, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.018051736884647, "train/reward_neg_acc": 0.9930409275823169, "train/reward_neg_loss": 0.02542624345773624, "train/reward_pos_acc": 0.9907971777849727, "train/reward_pos_loss": 0.720638041694959, "train/reward_pred": 0.04222315441196164, "train/reward_rate": 0.04737684461805555, "stats/sum_log_reward": 9.350000023841858, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.2710020914673805, "replay/size": 863490.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.3654716904384914e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300741167901789e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28098320961, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.682844161987305, "timer/env.step_frac": 0.06887830171899273, "timer/env.step_avg": 0.014343165160878852, "timer/env.step_min": 0.0030133724212646484, "timer/env.step_max": 1.7030284404754639, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2687370777130127, "timer/replay.add_frac": 0.0008949520373903325, "timer/replay.add_avg": 0.00018636413156242212, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.004126787185668945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030204057693481445, "timer/logger.write_frac": 0.00010058598240434566, "timer/logger.write_avg": 0.030204057693481445, "timer/logger.write_min": 0.030204057693481445, "timer/logger.write_max": 0.030204057693481445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.484313488006592, "timer/agent.policy_frac": 0.03491500985491331, "timer/agent.policy_avg": 0.007270675095704987, "timer/agent.policy_min": 0.005649566650390625, "timer/agent.policy_max": 0.019995927810668945, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0600581169128418, "timer/dataset_frac": 0.00020000639491352158, "timer/dataset_avg": 8.32983591024158e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.0975239276886, "timer/agent.train_frac": 0.8928221862805883, "timer/agent.train_avg": 0.3718412259746028, "timer/agent.train_min": 0.3655235767364502, "timer/agent.train_max": 0.38884854316711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194528579711914, "timer/agent.report_frac": 0.000730825028030507, "timer/agent.report_avg": 0.2194528579711914, "timer/agent.report_min": 0.2194528579711914, "timer/agent.report_max": 0.2194528579711914, "fps": 4.802110827268544}
+{"step": 863874, "episode/length": 495.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.034274193548387094}
+{"step": 864118, "episode/length": 243.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06147540983606557}
+{"step": 864284, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.060240963855421686}
+{"step": 864558, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.051094890510948905}
+{"step": 864621, "episode/length": 62.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12698412698412698}
+{"step": 864823, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07425742574257425}
+{"step": 865009, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3818727258133565, "train/action_min": 0.0, "train/action_std": 3.208904638682326, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03907869883800206, "train/actor_opt_grad_steps": 431590.0, "train/actor_opt_loss": -11.127334870704233, "train/adv_mag": 0.3948733053387028, "train/adv_max": 0.36184086701641344, "train/adv_mean": 0.001996114565634044, "train/adv_min": -0.32779722732223876, "train/adv_std": 0.04413173572249608, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 1.5365886162589336e-05, "train/cont_loss_std": 0.0004368682184825932, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001456672927923663, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 6.49615963753878e-06, "train/cont_pred": 0.9948108000298069, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.460474576035591, "train/dyn_loss_std": 8.840549442866077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9581396326626817, "train/extr_critic_critic_opt_grad_steps": 431590.0, "train/extr_critic_critic_opt_loss": 15690.462235124143, "train/extr_critic_mag": 12.012289661250703, "train/extr_critic_max": 12.012289661250703, "train/extr_critic_mean": 3.7545822417899353, "train/extr_critic_min": -0.3462774508619962, "train/extr_critic_std": 2.87208909857763, "train/extr_return_normed_mag": 1.3786700670033285, "train/extr_return_normed_max": 1.3786700670033285, "train/extr_return_normed_mean": 0.4001011603499112, "train/extr_return_normed_min": -0.08488967805488469, "train/extr_return_normed_std": 0.31426584679786473, "train/extr_return_rate": 0.8756198736086284, "train/extr_return_raw_mag": 12.793321674817228, "train/extr_return_raw_max": 12.793321674817228, "train/extr_return_raw_mean": 3.772972773199212, "train/extr_return_raw_min": -0.6980497571703506, "train/extr_return_raw_std": 2.8972423664511067, "train/extr_reward_mag": 1.066839378174037, "train/extr_reward_max": 1.066839378174037, "train/extr_reward_mean": 0.06218299126788361, "train/extr_reward_min": -0.6542383073127434, "train/extr_reward_std": 0.23980488760830604, "train/image_loss_mean": 3.190107923664459, "train/image_loss_std": 8.28813286350198, "train/model_loss_mean": 6.523571536965566, "train/model_loss_std": 12.427922340288553, "train/model_opt_grad_norm": 23.872046065657106, "train/model_opt_grad_steps": 431240.1095890411, "train/model_opt_loss": 16548.30777771832, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.654206017925315, "train/policy_entropy_max": 2.654206017925315, "train/policy_entropy_mean": 0.35394735042362996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5406647095941517, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35488611806745396, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 0.9919210174312331, "train/policy_randomness_mag": 0.936818245339067, "train/policy_randomness_max": 0.936818245339067, "train/policy_randomness_mean": 0.12492788307470819, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19083091575805455, "train/post_ent_mag": 55.15220020241933, "train/post_ent_max": 55.15220020241933, "train/post_ent_mean": 40.526280546841555, "train/post_ent_min": 19.582237687829423, "train/post_ent_std": 5.780188586613903, "train/prior_ent_mag": 76.81882309587034, "train/prior_ent_max": 76.81882309587034, "train/prior_ent_mean": 45.96247508427868, "train/prior_ent_min": 27.77029066216456, "train/prior_ent_std": 7.753455932826212, "train/rep_loss_mean": 5.460474576035591, "train/rep_loss_std": 8.840549442866077, "train/reward_avg": 0.041764768631490944, "train/reward_loss_mean": 0.057163488579122984, "train/reward_loss_std": 0.2145305386144821, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0229165945967582, "train/reward_neg_acc": 0.9932756513765414, "train/reward_neg_loss": 0.02442897018045187, "train/reward_pos_acc": 0.9884046781552981, "train/reward_pos_loss": 0.7292605711989206, "train/reward_pred": 0.04148533348351309, "train/reward_rate": 0.046540560787671235, "stats/sum_log_reward": 11.9333336353302, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3776516243815422, "replay/size": 864946.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.44020324748951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.292164017865946e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.116131067276, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.685856819152832, "timer/env.step_frac": 0.058930044034148414, "timer/env.step_avg": 0.012146879683484088, "timer/env.step_min": 0.0030028820037841797, "timer/env.step_max": 1.7332851886749268, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.25165581703186035, "timer/replay.add_frac": 0.0008385281262187388, "timer/replay.add_avg": 0.00017284053367572826, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0021295547485351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021668434143066406, "timer/logger.write_frac": 7.220016486954202e-05, "timer/logger.write_avg": 0.021668434143066406, "timer/logger.write_min": 0.021668434143066406, "timer/logger.write_max": 0.021668434143066406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.682638168334961, "timer/agent.policy_frac": 0.035595014937535197, "timer/agent.policy_avg": 0.007336976763966319, "timer/agent.policy_min": 0.005757808685302734, "timer/agent.policy_max": 0.015980958938598633, "timer/dataset_count": 728.0, "timer/dataset_total": 0.060415029525756836, "timer/dataset_frac": 0.00020130550567511418, "timer/dataset_avg": 8.298767791999565e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00016188621520996094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.7468583583832, "timer/agent.train_frac": 0.9021403061393284, "timer/agent.train_avg": 0.3719050252175593, "timer/agent.train_min": 0.36606693267822266, "timer/agent.train_max": 0.38520240783691406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22081589698791504, "timer/agent.report_frac": 0.0007357681714829767, "timer/agent.report_avg": 0.22081589698791504, "timer/agent.report_min": 0.22081589698791504, "timer/agent.report_max": 0.22081589698791504, "fps": 4.851356901461592}
+{"step": 865024, "episode/length": 200.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.07960199004975124}
+{"step": 865098, "episode/length": 73.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000038743019, "episode/reward_rate": 0.10810810810810811}
+{"step": 865364, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05263157894736842}
+{"step": 865595, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05194805194805195}
+{"step": 865678, "episode/length": 82.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10843373493975904}
+{"step": 865739, "episode/length": 60.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.11475409836065574}
+{"step": 865965, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06637168141592921}
+{"step": 866157, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06770833333333333}
+{"step": 866323, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07228915662650602}
+{"step": 866418, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442877197265625, "train/action_min": 0.0, "train/action_std": 3.2842512130737305, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03769583651529891, "train/actor_opt_grad_steps": 432305.0, "train/actor_opt_loss": -11.825930790390288, "train/adv_mag": 0.37875364295073916, "train/adv_max": 0.33210861193282265, "train/adv_mean": 0.0018870670151175416, "train/adv_min": -0.33697633551699774, "train/adv_std": 0.042752936163118906, "train/cont_avg": 0.9949079241071429, "train/cont_loss_mean": 1.295002686946743e-05, "train/cont_loss_std": 0.000394315490652275, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002664050876449307, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 1.1437497506960881e-05, "train/cont_pred": 0.9948999004704612, "train/cont_rate": 0.9949079241071429, "train/dyn_loss_mean": 5.547499322891236, "train/dyn_loss_std": 8.893335281099592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9496670092855181, "train/extr_critic_critic_opt_grad_steps": 432305.0, "train/extr_critic_critic_opt_loss": 15583.249972098214, "train/extr_critic_mag": 12.00275491986956, "train/extr_critic_max": 12.00275491986956, "train/extr_critic_mean": 3.6272054161344256, "train/extr_critic_min": -0.35945688826697214, "train/extr_critic_std": 2.9201119218553817, "train/extr_return_normed_mag": 1.3755034446716308, "train/extr_return_normed_max": 1.3755034446716308, "train/extr_return_normed_mean": 0.38846194403512135, "train/extr_return_normed_min": -0.08076783791184425, "train/extr_return_normed_std": 0.3191594524042947, "train/extr_return_rate": 0.8551339728491647, "train/extr_return_raw_mag": 12.754089641571046, "train/extr_return_raw_max": 12.754089641571046, "train/extr_return_raw_mean": 3.644609832763672, "train/extr_return_raw_min": -0.6860984895910536, "train/extr_return_raw_std": 2.945597164971488, "train/extr_reward_mag": 1.0727512802396502, "train/extr_reward_max": 1.0727512802396502, "train/extr_reward_mean": 0.05914052166044712, "train/extr_reward_min": -0.5591810550008501, "train/extr_reward_std": 0.23486542510134834, "train/image_loss_mean": 3.3425235441752843, "train/image_loss_std": 8.322885751724243, "train/model_loss_mean": 6.729474871499198, "train/model_loss_std": 12.457744298662458, "train/model_opt_grad_norm": 22.28410211290632, "train/model_opt_grad_steps": 431954.67142857146, "train/model_opt_loss": 19820.983775111607, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2928.5714285714284, "train/policy_entropy_mag": 2.672350968633379, "train/policy_entropy_max": 2.672350968633379, "train/policy_entropy_mean": 0.3882106434021677, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5823030429227012, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3882176173584802, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 1.0148131830351694, "train/policy_randomness_mag": 0.9432226172515324, "train/policy_randomness_max": 0.9432226172515324, "train/policy_randomness_mean": 0.13702132159045766, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20552742470588004, "train/post_ent_mag": 55.25690214974539, "train/post_ent_max": 55.25690214974539, "train/post_ent_mean": 40.78334775652204, "train/post_ent_min": 19.47869954790388, "train/post_ent_std": 5.831123542785645, "train/prior_ent_mag": 76.80166429792132, "train/prior_ent_max": 76.80166429792132, "train/prior_ent_mean": 46.37460294451032, "train/prior_ent_min": 28.291087668282646, "train/prior_ent_std": 7.710890572411674, "train/rep_loss_mean": 5.547499322891236, "train/rep_loss_std": 8.893335281099592, "train/reward_avg": 0.042294921513114654, "train/reward_loss_mean": 0.05843888233814921, "train/reward_loss_std": 0.2147716509444373, "train/reward_max_data": 1.0257142918450493, "train/reward_max_pred": 1.023343004499163, "train/reward_neg_acc": 0.9931670989309038, "train/reward_neg_loss": 0.02594320758112839, "train/reward_pos_acc": 0.9905193098953792, "train/reward_pos_loss": 0.7197833452905927, "train/reward_pred": 0.04191877280494997, "train/reward_rate": 0.04679129464285714, "stats/sum_log_reward": 10.65555567211575, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 10.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.8888888888888888, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.29301148487461937, "replay/size": 866355.0, "replay/inserts": 1409.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.4314339003552774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3058835809881038e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99672627449036, "timer/env.step_count": 1409.0, "timer/env.step_total": 24.105236768722534, "timer/env.step_frac": 0.08035166606007152, "timer/env.step_avg": 0.017108045967865533, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.8522381782531738, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.29316282272338867, "timer/replay.add_frac": 0.000977220072912233, "timer/replay.add_avg": 0.00020806445899459807, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.004787445068359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03243136405944824, "timer/logger.write_frac": 0.0001081057265597434, "timer/logger.write_avg": 0.03243136405944824, "timer/logger.write_min": 0.03243136405944824, "timer/logger.write_max": 0.03243136405944824, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022649765014648438, "timer/checkpoint.save_frac": 7.550004060352447e-07, "timer/checkpoint.save_avg": 0.00022649765014648438, "timer/checkpoint.save_min": 0.00022649765014648438, "timer/checkpoint.save_max": 0.00022649765014648438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.497493028640747, "timer/agent.save_frac": 0.004991697900298332, "timer/agent.save_avg": 1.497493028640747, "timer/agent.save_min": 1.497493028640747, "timer/agent.save_max": 1.497493028640747, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.556510925292969e-05, "timer/replay.save_frac": 2.1855274911546557e-07, "timer/replay.save_avg": 6.556510925292969e-05, "timer/replay.save_min": 6.556510925292969e-05, "timer/replay.save_max": 6.556510925292969e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 12.387027502059937, "timer/agent.policy_frac": 0.04129054225320473, "timer/agent.policy_avg": 0.008791360895713227, "timer/agent.policy_min": 0.005631685256958008, "timer/agent.policy_max": 1.482227087020874, "timer/dataset_count": 704.0, "timer/dataset_total": 0.05921816825866699, "timer/dataset_frac": 0.00019739604826381899, "timer/dataset_avg": 8.411671627651562e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.46453285217285, "timer/agent.train_frac": 0.8748913233540543, "timer/agent.train_avg": 0.3728189387104728, "timer/agent.train_min": 0.3634452819824219, "timer/agent.train_max": 0.9350113868713379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196943759918213, "timer/agent.report_frac": 0.0007323225780497544, "timer/agent.report_avg": 0.2196943759918213, "timer/agent.report_min": 0.2196943759918213, "timer/agent.report_max": 0.2196943759918213, "fps": 4.696620218958851}
+{"step": 866487, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
+{"step": 866670, "episode/length": 182.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07650273224043716}
+{"step": 866868, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07575757575757576}
+{"step": 867058, "episode/length": 189.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05789473684210526}
+{"step": 867103, "episode/length": 44.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.13333333333333333}
+{"step": 867345, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05785123966942149}
+{"step": 867485, "episode/length": 139.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.09285714285714286}
+{"step": 867607, "episode/length": 121.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09016393442622951}
+{"step": 867792, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05405405405405406}
+{"step": 867849, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45926751030816, "train/action_min": 0.0, "train/action_std": 3.2753227882915072, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04009002894680533, "train/actor_opt_grad_steps": 433015.0, "train/actor_opt_loss": -12.010286912322044, "train/adv_mag": 0.40462572707070243, "train/adv_max": 0.33918824998868835, "train/adv_mean": 0.002269293923644808, "train/adv_min": -0.35238276794552803, "train/adv_std": 0.04428622411150071, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 5.581725059479304e-05, "train/cont_loss_std": 0.0016647304897266697, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002714692986969938, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 4.27854814375708e-05, "train/cont_pred": 0.9949620200528039, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.266007257832421, "train/dyn_loss_std": 8.803664876355064, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9631884346405665, "train/extr_critic_critic_opt_grad_steps": 433015.0, "train/extr_critic_critic_opt_loss": 15659.60902235243, "train/extr_critic_mag": 11.974569996198019, "train/extr_critic_max": 11.974569996198019, "train/extr_critic_mean": 3.7203931974040136, "train/extr_critic_min": -0.38472671310106915, "train/extr_critic_std": 2.8620762858125897, "train/extr_return_normed_mag": 1.3742055180999968, "train/extr_return_normed_max": 1.3742055180999968, "train/extr_return_normed_mean": 0.40075015442238915, "train/extr_return_normed_min": -0.08328122635268503, "train/extr_return_normed_std": 0.3147144673599137, "train/extr_return_rate": 0.8620027187797759, "train/extr_return_raw_mag": 12.681451068984138, "train/extr_return_raw_max": 12.681451068984138, "train/extr_return_raw_mean": 3.741247236728668, "train/extr_return_raw_min": -0.7041592680745654, "train/extr_return_raw_std": 2.890606039100223, "train/extr_reward_mag": 1.0771848890516493, "train/extr_reward_max": 1.0771848890516493, "train/extr_reward_mean": 0.06063430254451103, "train/extr_reward_min": -0.6442955434322357, "train/extr_reward_std": 0.23710167739126417, "train/image_loss_mean": 3.126318527592553, "train/image_loss_std": 7.997084471914503, "train/model_loss_mean": 6.342945145236121, "train/model_loss_std": 12.103361421161228, "train/model_opt_grad_norm": 24.554211974143982, "train/model_opt_grad_steps": 432663.81944444444, "train/model_opt_loss": 14348.304429796008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.6536394324567585, "train/policy_entropy_max": 2.6536394324567585, "train/policy_entropy_mean": 0.37217147648334503, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5634031047423681, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37237197367681396, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0017113031612501, "train/policy_randomness_mag": 0.9366182693176799, "train/policy_randomness_max": 0.9366182693176799, "train/policy_randomness_mean": 0.13136019692238834, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19885657282753122, "train/post_ent_mag": 55.059088971879746, "train/post_ent_max": 55.059088971879746, "train/post_ent_mean": 40.496626430087616, "train/post_ent_min": 19.339175356758965, "train/post_ent_std": 5.73555490705702, "train/prior_ent_mag": 76.73731517791748, "train/prior_ent_max": 76.73731517791748, "train/prior_ent_mean": 45.751392152574326, "train/prior_ent_min": 28.538184112972683, "train/prior_ent_std": 7.7082492510477705, "train/rep_loss_mean": 5.266007257832421, "train/rep_loss_std": 8.803664876355064, "train/reward_avg": 0.04089762322190735, "train/reward_loss_mean": 0.05696651494751374, "train/reward_loss_std": 0.21607355173263285, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.024563941690657, "train/reward_neg_acc": 0.9936096370220184, "train/reward_neg_loss": 0.02508279936025954, "train/reward_pos_acc": 0.990667597287231, "train/reward_pos_loss": 0.7256112711297141, "train/reward_pred": 0.040680343052372336, "train/reward_rate": 0.04554578993055555, "stats/sum_log_reward": 10.544444666968452, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 14.555555555555555, "stats/max_log_achievement_collect_wood": 11.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7777777777777777, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.2749354342619578, "replay/size": 867786.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.346523815397613e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3795436760566753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01397347450256, "timer/env.step_count": 1431.0, "timer/env.step_total": 22.5933940410614, "timer/env.step_frac": 0.07530780576452568, "timer/env.step_avg": 0.01578853531870119, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.8005692958831787, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.2525634765625, "timer/replay.add_frac": 0.0008418390438202864, "timer/replay.add_avg": 0.00017649439312543677, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0031778812408447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029705047607421875, "timer/logger.write_frac": 9.901221354260164e-05, "timer/logger.write_avg": 0.029705047607421875, "timer/logger.write_min": 0.029705047607421875, "timer/logger.write_max": 0.029705047607421875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 10.43295693397522, "timer/agent.policy_frac": 0.034774903359166005, "timer/agent.policy_avg": 0.007290675705084011, "timer/agent.policy_min": 0.005755186080932617, "timer/agent.policy_max": 0.021991491317749023, "timer/dataset_count": 716.0, "timer/dataset_total": 0.059931039810180664, "timer/dataset_frac": 0.00019976082819113774, "timer/dataset_avg": 8.370256956729144e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 716.0, "timer/agent.train_total": 265.992018699646, "timer/agent.train_frac": 0.8865987661146456, "timer/agent.train_avg": 0.37149723282073466, "timer/agent.train_min": 0.36322999000549316, "timer/agent.train_max": 0.38695645332336426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208874225616455, "timer/agent.report_frac": 0.0007362571149720737, "timer/agent.report_avg": 0.2208874225616455, "timer/agent.report_min": 0.2208874225616455, "timer/agent.report_max": 0.2208874225616455, "fps": 4.769695731237213}
+{"step": 867879, "episode/length": 86.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.900000005960464, "episode/reward_rate": 0.10344827586206896}
+{"step": 868152, "episode/length": 272.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05128205128205128}
+{"step": 868424, "episode/length": 271.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04779411764705882}
+{"step": 868652, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.043859649122807015}
+{"step": 868972, "episode/length": 319.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05}
+{"step": 869206, "episode/length": 233.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.029914529914529916}
+{"step": 869309, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324587469231592, "train/action_min": 0.0, "train/action_std": 3.177431498488335, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03971755530123841, "train/actor_opt_grad_steps": 433740.0, "train/actor_opt_loss": -10.265922771741266, "train/adv_mag": 0.39734986995997496, "train/adv_max": 0.32421308694636986, "train/adv_mean": 0.0022232538122894667, "train/adv_min": -0.364380612765273, "train/adv_std": 0.04450125313580853, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 2.914095394272978e-05, "train/cont_loss_std": 0.0008859309053910343, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0016242827334900045, "train/cont_pos_acc": 0.999986516286249, "train/cont_pos_loss": 1.7364196485551498e-05, "train/cont_pred": 0.9948727619158079, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.390061130262401, "train/dyn_loss_std": 8.829120413897789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9560922702697858, "train/extr_critic_critic_opt_grad_steps": 433740.0, "train/extr_critic_critic_opt_loss": 15666.853047410103, "train/extr_critic_mag": 12.00646784534193, "train/extr_critic_max": 12.00646784534193, "train/extr_critic_mean": 3.8432446538585507, "train/extr_critic_min": -0.32984098996201605, "train/extr_critic_std": 2.856679769411479, "train/extr_return_normed_mag": 1.376142723919594, "train/extr_return_normed_max": 1.376142723919594, "train/extr_return_normed_mean": 0.40747449373545713, "train/extr_return_normed_min": -0.08261794757659305, "train/extr_return_normed_std": 0.3112970441579819, "train/extr_return_rate": 0.8801352504181535, "train/extr_return_raw_mag": 12.846563391489525, "train/extr_return_raw_max": 12.846563391489525, "train/extr_return_raw_mean": 3.863874504010971, "train/extr_return_raw_min": -0.6817101968886101, "train/extr_return_raw_std": 2.887235853770008, "train/extr_reward_mag": 1.0642430684337878, "train/extr_reward_max": 1.0642430684337878, "train/extr_reward_mean": 0.061324905706186816, "train/extr_reward_min": -0.6224479838593365, "train/extr_reward_std": 0.23828647663332012, "train/image_loss_mean": 3.0983711726044953, "train/image_loss_std": 8.354707802811713, "train/model_loss_mean": 6.387938238170049, "train/model_loss_std": 12.508584127034226, "train/model_opt_grad_norm": 24.489788499597, "train/model_opt_grad_steps": 433388.0, "train/model_opt_loss": 7984.922791363442, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.627057330249107, "train/policy_entropy_max": 2.627057330249107, "train/policy_entropy_mean": 0.3440605399951543, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5246980508712873, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34229789102730684, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.971037943069249, "train/policy_randomness_mag": 0.9272359527953683, "train/policy_randomness_max": 0.9272359527953683, "train/policy_randomness_mean": 0.12143827372626083, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1851953876345125, "train/post_ent_mag": 55.443604142698526, "train/post_ent_max": 55.443604142698526, "train/post_ent_mean": 40.60302687344486, "train/post_ent_min": 19.471993942783303, "train/post_ent_std": 5.762694855258889, "train/prior_ent_mag": 76.63269419212864, "train/prior_ent_max": 76.63269419212864, "train/prior_ent_mean": 45.98183044015545, "train/prior_ent_min": 27.95418350010702, "train/prior_ent_std": 7.695810585805814, "train/rep_loss_mean": 5.390061130262401, "train/rep_loss_std": 8.829120413897789, "train/reward_avg": 0.04083904070294883, "train/reward_loss_mean": 0.0555012765506359, "train/reward_loss_std": 0.21158572255748592, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0263904382104743, "train/reward_neg_acc": 0.993791447110372, "train/reward_neg_loss": 0.023689864458490726, "train/reward_pos_acc": 0.9893288318425009, "train/reward_pos_loss": 0.7280385012496008, "train/reward_pred": 0.04059251012561256, "train/reward_rate": 0.04533657962328767, "stats/sum_log_reward": 10.266666809717814, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4667700231075287, "replay/size": 869246.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.431921135889341e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4096294363884077e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19887495040894, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.656774520874023, "timer/env.step_frac": 0.0588169243598625, "timer/env.step_avg": 0.012093681178680838, "timer/env.step_min": 0.002849578857421875, "timer/env.step_max": 1.683189868927002, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.27777695655822754, "timer/replay.add_frac": 0.0009253097854018095, "timer/replay.add_avg": 0.00019025818942344352, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.002351999282836914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029740333557128906, "timer/logger.write_frac": 9.90687708674519e-05, "timer/logger.write_avg": 0.029740333557128906, "timer/logger.write_min": 0.029740333557128906, "timer/logger.write_max": 0.029740333557128906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.02997350692749, "timer/agent.policy_frac": 0.03674222133160751, "timer/agent.policy_avg": 0.00755477637460787, "timer/agent.policy_min": 0.005762815475463867, "timer/agent.policy_max": 0.01700305938720703, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06538724899291992, "timer/dataset_frac": 0.00021781310474172, "timer/dataset_avg": 8.9571573962904e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00021839141845703125, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.4807620048523, "timer/agent.train_frac": 0.9010052487689506, "timer/agent.train_avg": 0.3705215917874689, "timer/agent.train_min": 0.3625524044036865, "timer/agent.train_max": 0.38559556007385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21822834014892578, "timer/agent.report_frac": 0.0007269458960663187, "timer/agent.report_avg": 0.21822834014892578, "timer/agent.report_min": 0.21822834014892578, "timer/agent.report_max": 0.21822834014892578, "fps": 4.863334970968307}
+{"step": 869375, "episode/length": 168.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.0650887573964497}
+{"step": 869634, "episode/length": 258.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.02702702702702703}
+{"step": 869823, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06349206349206349}
+{"step": 870111, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04861111111111111}
+{"step": 870377, "episode/length": 265.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.041353383458646614}
+{"step": 870701, "episode/length": 323.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.046296296296296294}
+{"step": 870753, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.453431871202257, "train/action_min": 0.0, "train/action_std": 3.285191145208147, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03895108026659323, "train/actor_opt_grad_steps": 434465.0, "train/actor_opt_loss": -10.892105543779003, "train/adv_mag": 0.40726376035147244, "train/adv_max": 0.3416930240475469, "train/adv_mean": 0.0020738955433140895, "train/adv_min": -0.3530626446008682, "train/adv_std": 0.04296929513414701, "train/cont_avg": 0.9945068359375, "train/cont_loss_mean": 0.00011172251572490034, "train/cont_loss_std": 0.003527773043115998, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00443194343342817, "train/cont_pos_acc": 0.9999862934152285, "train/cont_pos_loss": 8.521868667966793e-05, "train/cont_pred": 0.994493242767122, "train/cont_rate": 0.9945068359375, "train/dyn_loss_mean": 5.450015942255656, "train/dyn_loss_std": 8.841701136695015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9617958317200342, "train/extr_critic_critic_opt_grad_steps": 434465.0, "train/extr_critic_critic_opt_loss": 15598.067097981771, "train/extr_critic_mag": 12.116978089014689, "train/extr_critic_max": 12.116978089014689, "train/extr_critic_mean": 3.741335302591324, "train/extr_critic_min": -0.34076260526974994, "train/extr_critic_std": 2.9981525474124484, "train/extr_return_normed_mag": 1.3771071748601065, "train/extr_return_normed_max": 1.3771071748601065, "train/extr_return_normed_mean": 0.3921569585800171, "train/extr_return_normed_min": -0.08615427640163237, "train/extr_return_normed_std": 0.32304810194505584, "train/extr_return_rate": 0.8546061664819717, "train/extr_return_raw_mag": 12.984581496980455, "train/extr_return_raw_max": 12.984581496980455, "train/extr_return_raw_mean": 3.7607523964511023, "train/extr_return_raw_min": -0.7189848956962427, "train/extr_return_raw_std": 3.02530167500178, "train/extr_reward_mag": 1.077123287651274, "train/extr_reward_max": 1.077123287651274, "train/extr_reward_mean": 0.06021881056949496, "train/extr_reward_min": -0.6633538355429968, "train/extr_reward_std": 0.2366064137054814, "train/image_loss_mean": 3.2042823284864426, "train/image_loss_std": 8.265800125069088, "train/model_loss_mean": 6.532105843226115, "train/model_loss_std": 12.42637840906779, "train/model_opt_grad_norm": 23.91754228538937, "train/model_opt_grad_steps": 434113.0, "train/model_opt_loss": 14713.154676649305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2256.9444444444443, "train/policy_entropy_mag": 2.6385589374436274, "train/policy_entropy_max": 2.6385589374436274, "train/policy_entropy_mean": 0.38252817860080135, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5762000775171651, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810821177644862, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0057806049784024, "train/policy_randomness_mag": 0.9312955141067505, "train/policy_randomness_max": 0.9312955141067505, "train/policy_randomness_mean": 0.13501566120733818, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2033733425454961, "train/post_ent_mag": 55.56354268391927, "train/post_ent_max": 55.56354268391927, "train/post_ent_mean": 40.563957850138344, "train/post_ent_min": 19.37327664428287, "train/post_ent_std": 5.830798221959008, "train/prior_ent_mag": 76.64000807868109, "train/prior_ent_max": 76.64000807868109, "train/prior_ent_mean": 46.053427378336586, "train/prior_ent_min": 28.024070024490356, "train/prior_ent_std": 7.782524665196736, "train/rep_loss_mean": 5.450015942255656, "train/rep_loss_std": 8.841701136695015, "train/reward_avg": 0.041354709278999105, "train/reward_loss_mean": 0.05770226681811942, "train/reward_loss_std": 0.21415897127654818, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0344252917501662, "train/reward_neg_acc": 0.9935018974873755, "train/reward_neg_loss": 0.02547236440134131, "train/reward_pos_acc": 0.9891984429624345, "train/reward_pos_loss": 0.7250902172591951, "train/reward_pred": 0.040950707289286785, "train/reward_rate": 0.046196831597222224, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5689332435528437, "replay/size": 870690.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3203584665736996e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3881608059531765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01463532447815, "timer/env.step_count": 1444.0, "timer/env.step_total": 17.293090343475342, "timer/env.step_frac": 0.05764082250444934, "timer/env.step_avg": 0.011975824337586802, "timer/env.step_min": 0.002954721450805664, "timer/env.step_max": 1.5656330585479736, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.3071870803833008, "timer/replay.add_frac": 0.0010239069839078528, "timer/replay.add_avg": 0.00021273343516849084, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0008695125579833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02504253387451172, "timer/logger.write_frac": 8.347104082914885e-05, "timer/logger.write_avg": 0.02504253387451172, "timer/logger.write_min": 0.02504253387451172, "timer/logger.write_max": 0.02504253387451172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002167224884033203, "timer/checkpoint.save_frac": 7.223730541309294e-07, "timer/checkpoint.save_avg": 0.0002167224884033203, "timer/checkpoint.save_min": 0.0002167224884033203, "timer/checkpoint.save_max": 0.0002167224884033203, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1822888851165771, "timer/agent.save_frac": 0.003940770702195522, "timer/agent.save_avg": 1.1822888851165771, "timer/agent.save_min": 1.1822888851165771, "timer/agent.save_max": 1.1822888851165771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.5668481461418066e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.993696212768555, "timer/agent.policy_frac": 0.03997703711952878, "timer/agent.policy_avg": 0.00830588380385634, "timer/agent.policy_min": 0.0058100223541259766, "timer/agent.policy_max": 1.180535078048706, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06324243545532227, "timer/dataset_frac": 0.00021079783453538183, "timer/dataset_avg": 8.759340090764856e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.68778586387634, "timer/agent.train_frac": 0.898915433149446, "timer/agent.train_avg": 0.37352878928514727, "timer/agent.train_min": 0.3621525764465332, "timer/agent.train_max": 3.4238600730895996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067618370056152, "timer/agent.report_frac": 0.0007355513955573906, "timer/agent.report_avg": 0.22067618370056152, "timer/agent.report_min": 0.22067618370056152, "timer/agent.report_max": 0.22067618370056152, "fps": 4.812987838485629}
+{"step": 870866, "episode/length": 164.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07878787878787878}
+{"step": 871091, "episode/length": 224.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06666666666666667}
+{"step": 871371, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05}
+{"step": 871534, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0736196319018405}
+{"step": 871760, "episode/length": 225.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.061946902654867256}
+{"step": 871930, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07058823529411765}
+{"step": 872220, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457669644742398, "train/action_min": 0.0, "train/action_std": 3.280343867637016, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03891019558383001, "train/actor_opt_grad_steps": 435195.0, "train/actor_opt_loss": -13.079903713704363, "train/adv_mag": 0.4033947731997516, "train/adv_max": 0.33217952017848557, "train/adv_mean": 0.0015565582604255257, "train/adv_min": -0.36356058011989334, "train/adv_std": 0.04365771117846708, "train/cont_avg": 0.995143581081081, "train/cont_loss_mean": 1.866275855388299e-05, "train/cont_loss_std": 0.0005467949354899578, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006022516267255914, "train/cont_pos_acc": 0.9999867210517058, "train/cont_pos_loss": 1.4278060161071022e-05, "train/cont_pred": 0.9951366717750961, "train/cont_rate": 0.995143581081081, "train/dyn_loss_mean": 5.3926657599371834, "train/dyn_loss_std": 8.796152617480304, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9293759360506728, "train/extr_critic_critic_opt_grad_steps": 435195.0, "train/extr_critic_critic_opt_loss": 15515.004104201858, "train/extr_critic_mag": 12.060740045599035, "train/extr_critic_max": 12.060740045599035, "train/extr_critic_mean": 3.788360772906123, "train/extr_critic_min": -0.34290396522831273, "train/extr_critic_std": 2.866671626632278, "train/extr_return_normed_mag": 1.3705004872502506, "train/extr_return_normed_max": 1.3705004872502506, "train/extr_return_normed_mean": 0.39824587428891983, "train/extr_return_normed_min": -0.08773329818772303, "train/extr_return_normed_std": 0.3114127148244832, "train/extr_return_rate": 0.8809016540243819, "train/extr_return_raw_mag": 12.823561539521089, "train/extr_return_raw_max": 12.823561539521089, "train/extr_return_raw_mean": 3.8028014253925635, "train/extr_return_raw_min": -0.7063354600120235, "train/extr_return_raw_std": 2.8894841799864897, "train/extr_reward_mag": 1.0690664407369252, "train/extr_reward_max": 1.0690664407369252, "train/extr_reward_mean": 0.06239233785183043, "train/extr_reward_min": -0.6141290857985213, "train/extr_reward_std": 0.2400568677364169, "train/image_loss_mean": 3.1949524492830843, "train/image_loss_std": 8.354214249430475, "train/model_loss_mean": 6.48700111621135, "train/model_loss_std": 12.448103930499103, "train/model_opt_grad_norm": 25.799760230600018, "train/model_opt_grad_steps": 434842.5945945946, "train/model_opt_loss": 16656.613611169763, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2533.7837837837837, "train/policy_entropy_mag": 2.6666223648432137, "train/policy_entropy_max": 2.6666223648432137, "train/policy_entropy_mean": 0.3705416398273932, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5613667042674245, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3708801964247549, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.0018128366083712, "train/policy_randomness_mag": 0.9412006719692333, "train/policy_randomness_max": 0.9412006719692333, "train/policy_randomness_mean": 0.13078493645062317, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1981378124171012, "train/post_ent_mag": 55.88909850249419, "train/post_ent_max": 55.88909850249419, "train/post_ent_mean": 40.56424120310191, "train/post_ent_min": 19.540797375343942, "train/post_ent_std": 5.8038027737591715, "train/prior_ent_mag": 76.620631965431, "train/prior_ent_max": 76.620631965431, "train/prior_ent_mean": 45.98383444708747, "train/prior_ent_min": 27.90746054778228, "train/prior_ent_std": 7.673945691134478, "train/rep_loss_mean": 5.3926657599371834, "train/rep_loss_std": 8.796152617480304, "train/reward_avg": 0.04140097086594717, "train/reward_loss_mean": 0.05643059534801019, "train/reward_loss_std": 0.2169318460934871, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0217301201176, "train/reward_neg_acc": 0.9936470767936191, "train/reward_neg_loss": 0.024083474021707033, "train/reward_pos_acc": 0.9890798330307007, "train/reward_pos_loss": 0.728310250752681, "train/reward_pred": 0.041018849691829166, "train/reward_rate": 0.04587204391891892, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.24810296793778738, "replay/size": 872157.0, "replay/inserts": 1467.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.2465232011811947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3891012899547123e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99351811408997, "timer/env.step_count": 1467.0, "timer/env.step_total": 17.14968967437744, "timer/env.step_frac": 0.057166867411632794, "timer/env.step_avg": 0.011690313343133907, "timer/env.step_min": 0.002585172653198242, "timer/env.step_max": 1.4945464134216309, "timer/replay.add_count": 1467.0, "timer/replay.add_total": 0.2685692310333252, "timer/replay.add_frac": 0.0008952501131413984, "timer/replay.add_avg": 0.00018307377711883108, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008344650268554688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024512052536010742, "timer/logger.write_frac": 8.17086072062684e-05, "timer/logger.write_avg": 0.024512052536010742, "timer/logger.write_min": 0.024512052536010742, "timer/logger.write_max": 0.024512052536010742, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1467.0, "timer/agent.policy_total": 10.987731456756592, "timer/agent.policy_frac": 0.03662656288652833, "timer/agent.policy_avg": 0.00748993282669161, "timer/agent.policy_min": 0.005791425704956055, "timer/agent.policy_max": 0.01678633689880371, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06419754028320312, "timer/dataset_frac": 0.00021399642461204205, "timer/dataset_avg": 8.7581910345434e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001785755157470703, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.8563859462738, "timer/agent.train_frac": 0.9028741275778663, "timer/agent.train_avg": 0.36951757973570776, "timer/agent.train_min": 0.36294126510620117, "timer/agent.train_max": 0.3846883773803711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21960091590881348, "timer/agent.report_frac": 0.0007320188692386929, "timer/agent.report_avg": 0.21960091590881348, "timer/agent.report_min": 0.21960091590881348, "timer/agent.report_max": 0.21960091590881348, "fps": 4.890026873378618}
+{"step": 872233, "episode/length": 302.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0462046204620462}
+{"step": 872428, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05641025641025641}
+{"step": 872586, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
+{"step": 872787, "episode/length": 200.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06965174129353234}
+{"step": 872978, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06282722513089005}
+{"step": 873209, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05194805194805195}
+{"step": 873296, "episode/length": 86.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.10344827586206896}
+{"step": 873481, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06486486486486487}
+{"step": 873673, "stats/sum_log_reward": 10.725000262260437, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3325432315468788, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457786560058594, "train/action_min": 0.0, "train/action_std": 3.304184310966068, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040502497305472694, "train/actor_opt_grad_steps": 435925.0, "train/actor_opt_loss": -12.034221502641836, "train/adv_mag": 0.40570924017164445, "train/adv_max": 0.3374274745583534, "train/adv_mean": 0.0021330835660491074, "train/adv_min": -0.3697074703458283, "train/adv_std": 0.044916346255275935, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 1.3715682229471011e-05, "train/cont_loss_std": 0.00039004672880733123, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010553104849342848, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 6.324623621366419e-06, "train/cont_pred": 0.9945480823516846, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.517001748085022, "train/dyn_loss_std": 8.8610543873575, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9447964794105954, "train/extr_critic_critic_opt_grad_steps": 435925.0, "train/extr_critic_critic_opt_loss": 15595.19371202257, "train/extr_critic_mag": 11.97627822558085, "train/extr_critic_max": 11.97627822558085, "train/extr_critic_mean": 3.8500367568598852, "train/extr_critic_min": -0.32794786824120414, "train/extr_critic_std": 2.919581393400828, "train/extr_return_normed_mag": 1.3841242111391492, "train/extr_return_normed_max": 1.3841242111391492, "train/extr_return_normed_mean": 0.4096944228642517, "train/extr_return_normed_min": -0.08869414015983541, "train/extr_return_normed_std": 0.3216788102355268, "train/extr_return_rate": 0.86566212028265, "train/extr_return_raw_mag": 12.804601987202963, "train/extr_return_raw_max": 12.804601987202963, "train/extr_return_raw_mean": 3.8695722387896643, "train/extr_return_raw_min": -0.701029018809398, "train/extr_return_raw_std": 2.950238244401084, "train/extr_reward_mag": 1.0685013631979625, "train/extr_reward_max": 1.0685013631979625, "train/extr_reward_mean": 0.06153907109465864, "train/extr_reward_min": -0.6057422094874911, "train/extr_reward_std": 0.23856740134457746, "train/image_loss_mean": 3.1403750479221344, "train/image_loss_std": 8.123530858092838, "train/model_loss_mean": 6.509826083978017, "train/model_loss_std": 12.300172832277086, "train/model_opt_grad_norm": 26.381082706981235, "train/model_opt_grad_steps": 435572.0, "train/model_opt_loss": 16429.896240234375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6614805890454187, "train/policy_entropy_max": 2.6614805890454187, "train/policy_entropy_mean": 0.36624756186372703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5588066971136464, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3661764808413055, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9970557391643524, "train/policy_randomness_mag": 0.939385849568579, "train/policy_randomness_max": 0.939385849568579, "train/policy_randomness_mean": 0.12926931813773182, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1972342421197229, "train/post_ent_mag": 55.38477224773831, "train/post_ent_max": 55.38477224773831, "train/post_ent_mean": 40.458283265431724, "train/post_ent_min": 19.5601116153929, "train/post_ent_std": 5.762042476071252, "train/prior_ent_mag": 76.66753143734402, "train/prior_ent_max": 76.66753143734402, "train/prior_ent_mean": 45.963200675116646, "train/prior_ent_min": 28.10487201478746, "train/prior_ent_std": 7.729169408480327, "train/rep_loss_mean": 5.517001748085022, "train/rep_loss_std": 8.8610543873575, "train/reward_avg": 0.042370604894434415, "train/reward_loss_mean": 0.059236355488085084, "train/reward_loss_std": 0.22354018025928074, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0251171357101865, "train/reward_neg_acc": 0.993198393119706, "train/reward_neg_loss": 0.02580583593549414, "train/reward_pos_acc": 0.986889591647519, "train/reward_pos_loss": 0.7348346379068162, "train/reward_pred": 0.041998168350093894, "train/reward_rate": 0.047200520833333336, "replay/size": 873610.0, "replay/inserts": 1453.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.206262240636291e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3985979835793602e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0339868068695, "timer/env.step_count": 1453.0, "timer/env.step_total": 19.500131607055664, "timer/env.step_frac": 0.06499307566648377, "timer/env.step_avg": 0.01342059986720968, "timer/env.step_min": 0.002796173095703125, "timer/env.step_max": 1.569321632385254, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.26738524436950684, "timer/replay.add_frac": 0.0008911831863288925, "timer/replay.add_avg": 0.00018402287981383815, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008645057678222656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024781227111816406, "timer/logger.write_frac": 8.259473326856123e-05, "timer/logger.write_avg": 0.024781227111816406, "timer/logger.write_min": 0.024781227111816406, "timer/logger.write_max": 0.024781227111816406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.758158922195435, "timer/agent.policy_frac": 0.03585646758452206, "timer/agent.policy_avg": 0.007404101116445585, "timer/agent.policy_min": 0.005702495574951172, "timer/agent.policy_max": 0.01712203025817871, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06366562843322754, "timer/dataset_frac": 0.00021219472204063604, "timer/dataset_avg": 8.757307900031299e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001785755157470703, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.76706099510193, "timer/agent.train_frac": 0.8957887199895992, "timer/agent.train_avg": 0.36969334387221725, "timer/agent.train_min": 0.3629882335662842, "timer/agent.train_max": 0.38391995429992676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22031235694885254, "timer/agent.report_frac": 0.0007342913357701259, "timer/agent.report_avg": 0.22031235694885254, "timer/agent.report_min": 0.22031235694885254, "timer/agent.report_max": 0.22031235694885254, "fps": 4.842689112241667}
+{"step": 873730, "episode/length": 248.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04417670682730924}
+{"step": 873868, "episode/length": 137.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.06521739130434782}
+{"step": 873981, "episode/length": 112.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.09734513274336283}
+{"step": 874192, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05687203791469194}
+{"step": 874349, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07006369426751592}
+{"step": 874517, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 874765, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05241935483870968}
+{"step": 874998, "episode/length": 232.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06866952789699571}
+{"step": 875097, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431625151298415, "train/action_min": 0.0, "train/action_std": 3.2748444382573516, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03889484372986874, "train/actor_opt_grad_steps": 436640.0, "train/actor_opt_loss": -13.137918847127699, "train/adv_mag": 0.3725872514113574, "train/adv_max": 0.3239738173048261, "train/adv_mean": 0.0018998210267762287, "train/adv_min": -0.33024120960437076, "train/adv_std": 0.04406239302225516, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 0.0001908561938446991, "train/cont_loss_std": 0.00603369509871969, "train/cont_neg_acc": 0.9964285714285714, "train/cont_neg_loss": 0.024180313032338217, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 9.979945263108342e-05, "train/cont_pred": 0.9947708492547693, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.562464196917037, "train/dyn_loss_std": 8.912331749016131, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9511624633426398, "train/extr_critic_critic_opt_grad_steps": 436640.0, "train/extr_critic_critic_opt_loss": 15673.053284551057, "train/extr_critic_mag": 11.995093466530383, "train/extr_critic_max": 11.995093466530383, "train/extr_critic_mean": 3.823509310332822, "train/extr_critic_min": -0.3552434797018347, "train/extr_critic_std": 2.922111113306502, "train/extr_return_normed_mag": 1.3747788466198343, "train/extr_return_normed_max": 1.3747788466198343, "train/extr_return_normed_mean": 0.4082751966698069, "train/extr_return_normed_min": -0.08461158953502144, "train/extr_return_normed_std": 0.31789753617535177, "train/extr_return_rate": 0.8565874872073321, "train/extr_return_raw_mag": 12.82893621417838, "train/extr_return_raw_max": 12.82893621417838, "train/extr_return_raw_mean": 3.841152419506664, "train/extr_return_raw_min": -0.7429755968107304, "train/extr_return_raw_std": 2.95671877055101, "train/extr_reward_mag": 1.0640261240408455, "train/extr_reward_max": 1.0640261240408455, "train/extr_reward_mean": 0.06166950571285167, "train/extr_reward_min": -0.6448499535171079, "train/extr_reward_std": 0.2384817700990489, "train/image_loss_mean": 3.2507388020904973, "train/image_loss_std": 8.724353232853849, "train/model_loss_mean": 6.646159064601845, "train/model_loss_std": 12.896640629835531, "train/model_opt_grad_norm": 22.95287727302229, "train/model_opt_grad_steps": 436286.04225352115, "train/model_opt_loss": 17251.779228102994, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2605.6338028169016, "train/policy_entropy_mag": 2.6804542709404315, "train/policy_entropy_max": 2.6804542709404315, "train/policy_entropy_mean": 0.3859900735633474, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5899036732357992, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3861023701832328, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0148583113307683, "train/policy_randomness_mag": 0.9460827305283345, "train/policy_randomness_max": 0.9460827305283345, "train/policy_randomness_mean": 0.13623755614102726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20821010930017686, "train/post_ent_mag": 55.357213141213, "train/post_ent_max": 55.357213141213, "train/post_ent_mean": 40.614003356073944, "train/post_ent_min": 19.533053814525335, "train/post_ent_std": 5.798068281630395, "train/prior_ent_mag": 76.61217208647392, "train/prior_ent_max": 76.61217208647392, "train/prior_ent_mean": 46.173061102208955, "train/prior_ent_min": 27.971404760656224, "train/prior_ent_std": 7.712580472650663, "train/rep_loss_mean": 5.562464196917037, "train/rep_loss_std": 8.912331749016131, "train/reward_avg": 0.0425437386869125, "train/reward_loss_mean": 0.05775086791582511, "train/reward_loss_std": 0.21933467140499974, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0217702472713632, "train/reward_neg_acc": 0.9935055165223672, "train/reward_neg_loss": 0.024618949846062863, "train/reward_pos_acc": 0.9898125260648593, "train/reward_pos_loss": 0.728649830314475, "train/reward_pred": 0.04220296736334411, "train/reward_rate": 0.04716384242957746, "stats/sum_log_reward": 10.725000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 13.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.30863809026777744, "replay/size": 875034.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.2169765300965042e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4595185103041403e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.005402803421, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.549174070358276, "timer/env.step_frac": 0.07516255993940768, "timer/env.step_avg": 0.015835094150532497, "timer/env.step_min": 0.0023849010467529297, "timer/env.step_max": 2.6218461990356445, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.28275179862976074, "timer/replay.add_frac": 0.0009424890218228312, "timer/replay.add_avg": 0.00019856165634112412, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.005733489990234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025060653686523438, "timer/logger.write_frac": 8.353400789566602e-05, "timer/logger.write_avg": 0.025060653686523438, "timer/logger.write_min": 0.025060653686523438, "timer/logger.write_max": 0.025060653686523438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003330707550048828, "timer/checkpoint.save_frac": 1.1102158557561976e-06, "timer/checkpoint.save_avg": 0.0003330707550048828, "timer/checkpoint.save_min": 0.0003330707550048828, "timer/checkpoint.save_max": 0.0003330707550048828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.251110553741455, "timer/agent.save_frac": 0.004170293408219875, "timer/agent.save_avg": 1.251110553741455, "timer/agent.save_min": 1.251110553741455, "timer/agent.save_max": 1.251110553741455, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4477199969427975e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.745929479598999, "timer/agent.policy_frac": 0.03915239315638438, "timer/agent.policy_avg": 0.008248545982864466, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.241149663925171, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06420159339904785, "timer/dataset_frac": 0.00021400145730414075, "timer/dataset_avg": 9.017077724585372e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00022912025451660156, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.6835172176361, "timer/agent.train_frac": 0.8822625017559113, "timer/agent.train_avg": 0.37174651294611816, "timer/agent.train_min": 0.36371350288391113, "timer/agent.train_max": 0.8694753646850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193906307220459, "timer/agent.report_frac": 0.0007312889323723344, "timer/agent.report_avg": 0.2193906307220459, "timer/agent.report_min": 0.2193906307220459, "timer/agent.report_max": 0.2193906307220459, "fps": 4.746507035347047}
+{"step": 875234, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.059322033898305086}
+{"step": 875494, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05384615384615385}
+{"step": 875587, "episode/length": 92.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.06451612903225806}
+{"step": 875818, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05627705627705628}
+{"step": 876014, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.061224489795918366}
+{"step": 876075, "episode/length": 60.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.13114754098360656}
+{"step": 876313, "episode/length": 237.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 876525, "episode/length": 211.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07547169811320754}
+{"step": 876545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486354880136986, "train/action_min": 0.0, "train/action_std": 3.289364161556714, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03973767097580106, "train/actor_opt_grad_steps": 437360.0, "train/actor_opt_loss": -11.654692587378907, "train/adv_mag": 0.4075946362867747, "train/adv_max": 0.3468727914437856, "train/adv_mean": 0.0018930964473689179, "train/adv_min": -0.3469581289650643, "train/adv_std": 0.04393385381323017, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 2.63294929743318e-05, "train/cont_loss_std": 0.0007746757975198387, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0021253200279936087, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.3262507001297297e-05, "train/cont_pred": 0.9947808833971415, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.7402029429396535, "train/dyn_loss_std": 9.018479961238496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.942383735963743, "train/extr_critic_critic_opt_grad_steps": 437360.0, "train/extr_critic_critic_opt_loss": 15622.457833904109, "train/extr_critic_mag": 12.035806486051376, "train/extr_critic_max": 12.035806486051376, "train/extr_critic_mean": 3.7917201421032214, "train/extr_critic_min": -0.31954233450432346, "train/extr_critic_std": 2.8522162372118807, "train/extr_return_normed_mag": 1.3788331126513547, "train/extr_return_normed_max": 1.3788331126513547, "train/extr_return_normed_mean": 0.4067257520270674, "train/extr_return_normed_min": -0.08025772221488496, "train/extr_return_normed_std": 0.31074622947059266, "train/extr_return_rate": 0.8635586614478125, "train/extr_return_raw_mag": 12.804346829244535, "train/extr_return_raw_max": 12.804346829244535, "train/extr_return_raw_mean": 3.8092167802052956, "train/extr_return_raw_min": -0.6972632195851575, "train/extr_return_raw_std": 2.8756429757157416, "train/extr_reward_mag": 1.0727410904348713, "train/extr_reward_max": 1.0727410904348713, "train/extr_reward_mean": 0.06183973148669282, "train/extr_reward_min": -0.6424774633695002, "train/extr_reward_std": 0.23902996047718883, "train/image_loss_mean": 3.312856700322399, "train/image_loss_std": 8.7661222562398, "train/model_loss_mean": 6.814485445414504, "train/model_loss_std": 13.023378137039812, "train/model_opt_grad_norm": 24.652830999191494, "train/model_opt_grad_steps": 437005.4383561644, "train/model_opt_loss": 17268.67458395762, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.6691730381691294, "train/policy_entropy_max": 2.6691730381691294, "train/policy_entropy_mean": 0.36546686475407586, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5581871667136885, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36647804877529405, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9999188029602782, "train/policy_randomness_mag": 0.942100947850371, "train/policy_randomness_max": 0.942100947850371, "train/policy_randomness_mean": 0.12899376441762872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1970155757583984, "train/post_ent_mag": 55.441164931205854, "train/post_ent_max": 55.441164931205854, "train/post_ent_mean": 40.435263699048186, "train/post_ent_min": 19.56615854289434, "train/post_ent_std": 5.744576310458249, "train/prior_ent_mag": 76.71247968281786, "train/prior_ent_max": 76.71247968281786, "train/prior_ent_mean": 46.15018065988201, "train/prior_ent_min": 28.18590728550741, "train/prior_ent_std": 7.700205887833687, "train/rep_loss_mean": 5.7402029429396535, "train/rep_loss_std": 9.018479961238496, "train/reward_avg": 0.0417941991903194, "train/reward_loss_mean": 0.05748065938688304, "train/reward_loss_std": 0.21901475668769993, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0305755367017773, "train/reward_neg_acc": 0.9928255260807194, "train/reward_neg_loss": 0.025224718163172677, "train/reward_pos_acc": 0.9916337124288899, "train/reward_pos_loss": 0.7203411794688603, "train/reward_pred": 0.04163471775205985, "train/reward_rate": 0.046353274828767124, "stats/sum_log_reward": 10.975000143051147, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 13.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.32432914339005947, "replay/size": 876482.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.204325944679218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.432528482616277e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20403957366943, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.115495443344116, "timer/env.step_frac": 0.06700607850550865, "timer/env.step_avg": 0.013891916742640965, "timer/env.step_min": 0.0026624202728271484, "timer/env.step_max": 1.5975134372711182, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26380062103271484, "timer/replay.add_frac": 0.0008787377458589419, "timer/replay.add_avg": 0.0001821827493319854, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.002346038818359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02520608901977539, "timer/logger.write_frac": 8.396319068714554e-05, "timer/logger.write_avg": 0.02520608901977539, "timer/logger.write_min": 0.02520608901977539, "timer/logger.write_max": 0.02520608901977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.683488845825195, "timer/agent.policy_frac": 0.03558742534243444, "timer/agent.policy_avg": 0.007378100031647235, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.016199588775634766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.065032958984375, "timer/dataset_frac": 0.00021662919352028256, "timer/dataset_avg": 8.982452898394337e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0010128021240234375, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.4016172885895, "timer/agent.train_frac": 0.8940639761868504, "timer/agent.train_avg": 0.3707204658682175, "timer/agent.train_min": 0.363663911819458, "timer/agent.train_max": 0.38699817657470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2189018726348877, "timer/agent.report_frac": 0.0007291769722544644, "timer/agent.report_avg": 0.2189018726348877, "timer/agent.report_min": 0.2189018726348877, "timer/agent.report_max": 0.2189018726348877, "fps": 4.823287685263615}
+{"step": 876712, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.053475935828877004}
+{"step": 876932, "episode/length": 219.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06818181818181818}
+{"step": 877159, "episode/length": 226.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.90000007301569, "episode/reward_rate": 0.06167400881057269}
+{"step": 877408, "episode/length": 248.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.100000023841858, "episode/reward_rate": 0.060240963855421686}
+{"step": 877652, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06147540983606557}
+{"step": 877847, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07179487179487179}
+{"step": 878003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.366275317048373, "train/action_min": 0.0, "train/action_std": 3.202027866285141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04053093903787332, "train/actor_opt_grad_steps": 438090.0, "train/actor_opt_loss": -10.824968292696836, "train/adv_mag": 0.3856459860115835, "train/adv_max": 0.3417158557535851, "train/adv_mean": 0.0021569269041695044, "train/adv_min": -0.34211182043160476, "train/adv_std": 0.04463918466274053, "train/cont_avg": 0.995036922089041, "train/cont_loss_mean": 0.00016704037965974461, "train/cont_loss_std": 0.005260393269253817, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0025447780962129054, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 0.00015467930290457207, "train/cont_pred": 0.9950198865916631, "train/cont_rate": 0.995036922089041, "train/dyn_loss_mean": 5.652595147694627, "train/dyn_loss_std": 8.938298486683466, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9302795398725222, "train/extr_critic_critic_opt_grad_steps": 438090.0, "train/extr_critic_critic_opt_loss": 15668.152624678938, "train/extr_critic_mag": 12.165116858808961, "train/extr_critic_max": 12.165116858808961, "train/extr_critic_mean": 3.875477088640814, "train/extr_critic_min": -0.340248215688418, "train/extr_critic_std": 2.8663518755403286, "train/extr_return_normed_mag": 1.3872893591449684, "train/extr_return_normed_max": 1.3872893591449684, "train/extr_return_normed_mean": 0.4138835989040871, "train/extr_return_normed_min": -0.08308061901224803, "train/extr_return_normed_std": 0.31195559179129667, "train/extr_return_rate": 0.8727713423232509, "train/extr_return_raw_mag": 12.92775715867134, "train/extr_return_raw_max": 12.92775715867134, "train/extr_return_raw_mean": 3.895493314690786, "train/extr_return_raw_min": -0.7158998818430182, "train/extr_return_raw_std": 2.895017826393859, "train/extr_reward_mag": 1.0754212320667424, "train/extr_reward_max": 1.0754212320667424, "train/extr_reward_mean": 0.062355931899318956, "train/extr_reward_min": -0.61890310457308, "train/extr_reward_std": 0.23922302727013417, "train/image_loss_mean": 3.2492394284026265, "train/image_loss_std": 8.529401753046741, "train/model_loss_mean": 6.698763494622217, "train/model_loss_std": 12.704552519811342, "train/model_opt_grad_norm": 22.63132261250117, "train/model_opt_grad_steps": 437734.0, "train/model_opt_loss": 8373.454409246575, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6538861745024382, "train/policy_entropy_max": 2.6538861745024382, "train/policy_entropy_mean": 0.3551141123657357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5443844211428133, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35578055108246737, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 0.9894580171532827, "train/policy_randomness_mag": 0.9367053582243723, "train/policy_randomness_max": 0.9367053582243723, "train/policy_randomness_mean": 0.125339697383038, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19214380930547845, "train/post_ent_mag": 55.705549632033254, "train/post_ent_max": 55.705549632033254, "train/post_ent_mean": 40.52725569842613, "train/post_ent_min": 19.026000336424946, "train/post_ent_std": 5.832673412479767, "train/prior_ent_mag": 76.772345660484, "train/prior_ent_max": 76.772345660484, "train/prior_ent_mean": 46.16377770410825, "train/prior_ent_min": 28.18684225213038, "train/prior_ent_std": 7.712960863766605, "train/rep_loss_mean": 5.652595147694627, "train/rep_loss_std": 8.938298486683466, "train/reward_avg": 0.04299684228656227, "train/reward_loss_mean": 0.057799897067350885, "train/reward_loss_std": 0.21986511717103932, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0286626619835422, "train/reward_neg_acc": 0.9937129518757127, "train/reward_neg_loss": 0.024415407687017363, "train/reward_pos_acc": 0.98919784777785, "train/reward_pos_loss": 0.731416594492246, "train/reward_pred": 0.04260131895338019, "train/reward_rate": 0.047410102739726026, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 16.666666666666668, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.34400152415037155, "replay/size": 877940.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.309733910161608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4377065483271176e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08705258369446, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.757590532302856, "timer/env.step_frac": 0.05917479737767178, "timer/env.step_avg": 0.012179417374693318, "timer/env.step_min": 0.0029044151306152344, "timer/env.step_max": 1.6806766986846924, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2703516483306885, "timer/replay.add_frac": 0.0009009107390772457, "timer/replay.add_avg": 0.00018542637059718002, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.00626373291015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02301764488220215, "timer/logger.write_frac": 7.670322556079795e-05, "timer/logger.write_avg": 0.02301764488220215, "timer/logger.write_min": 0.02301764488220215, "timer/logger.write_max": 0.02301764488220215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.896377325057983, "timer/agent.policy_frac": 0.03631072127651684, "timer/agent.policy_avg": 0.00747350982514265, "timer/agent.policy_min": 0.005720615386962891, "timer/agent.policy_max": 0.015366077423095703, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06483221054077148, "timer/dataset_frac": 0.00021604467764463028, "timer/dataset_avg": 8.893307344413098e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.4199216365814, "timer/agent.train_frac": 0.9011382507452937, "timer/agent.train_avg": 0.3709463945632118, "timer/agent.train_min": 0.3629140853881836, "timer/agent.train_max": 0.3864161968231201, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21814870834350586, "timer/agent.report_frac": 0.0007269514178145492, "timer/agent.report_avg": 0.21814870834350586, "timer/agent.report_min": 0.21814870834350586, "timer/agent.report_max": 0.21814870834350586, "fps": 4.858491154381537}
+{"step": 878063, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06481481481481481}
+{"step": 878265, "episode/length": 201.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04950495049504951}
+{"step": 878600, "episode/length": 334.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.029850746268656716}
+{"step": 878832, "episode/length": 231.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06465517241379311}
+{"step": 879044, "episode/length": 211.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07075471698113207}
+{"step": 879262, "episode/length": 217.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06880733944954129}
+{"step": 879441, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.432565477159288, "train/action_min": 0.0, "train/action_std": 3.2197203636169434, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039645347356175385, "train/actor_opt_grad_steps": 438815.0, "train/actor_opt_loss": -11.607209775803817, "train/adv_mag": 0.405628927052021, "train/adv_max": 0.3302893328169982, "train/adv_mean": 0.0018181308891800857, "train/adv_min": -0.36833001983662444, "train/adv_std": 0.04400368971336219, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 4.24322458023596e-05, "train/cont_loss_std": 0.001273764447207368, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.005144740318185213, "train/cont_pos_acc": 0.9999863596426116, "train/cont_pos_loss": 2.1982779057812724e-05, "train/cont_pred": 0.9949899555908309, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.46479770872328, "train/dyn_loss_std": 8.849985308117336, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9840559868348969, "train/extr_critic_critic_opt_grad_steps": 438815.0, "train/extr_critic_critic_opt_loss": 15698.076985677084, "train/extr_critic_mag": 12.138238734669155, "train/extr_critic_max": 12.138238734669155, "train/extr_critic_mean": 3.8037876983483634, "train/extr_critic_min": -0.34624451729986405, "train/extr_critic_std": 2.9211564593844943, "train/extr_return_normed_mag": 1.3796012186341815, "train/extr_return_normed_max": 1.3796012186341815, "train/extr_return_normed_mean": 0.40312696910566753, "train/extr_return_normed_min": -0.08255636386780275, "train/extr_return_normed_std": 0.31632140196031994, "train/extr_return_rate": 0.8662525763114294, "train/extr_return_raw_mag": 12.927251987987095, "train/extr_return_raw_max": 12.927251987987095, "train/extr_return_raw_mean": 3.820741487873925, "train/extr_return_raw_min": -0.7089384206467204, "train/extr_return_raw_std": 2.9501050346427493, "train/extr_reward_mag": 1.0800028675132327, "train/extr_reward_max": 1.0800028675132327, "train/extr_reward_mean": 0.061167287536793284, "train/extr_reward_min": -0.6322165197796292, "train/extr_reward_std": 0.23728800275259548, "train/image_loss_mean": 3.1457013686498008, "train/image_loss_std": 8.15171394083235, "train/model_loss_mean": 6.48163953754637, "train/model_loss_std": 12.286349958843655, "train/model_opt_grad_norm": 22.758959492047627, "train/model_opt_grad_steps": 438459.0, "train/model_opt_loss": 13184.999206542969, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2065.972222222222, "train/policy_entropy_mag": 2.637349453237322, "train/policy_entropy_max": 2.637349453237322, "train/policy_entropy_mean": 0.3610878197683228, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5524872752527396, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36091198441055083, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 0.9921575486660004, "train/policy_randomness_mag": 0.9308686198459731, "train/policy_randomness_max": 0.9308686198459731, "train/policy_randomness_mean": 0.12744815399249396, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19500376232382324, "train/post_ent_mag": 55.208699544270836, "train/post_ent_max": 55.208699544270836, "train/post_ent_mean": 40.601257430182564, "train/post_ent_min": 19.568400687641567, "train/post_ent_std": 5.773577524556054, "train/prior_ent_mag": 76.6938648223877, "train/prior_ent_max": 76.6938648223877, "train/prior_ent_mean": 46.0191060172187, "train/prior_ent_min": 27.815314928690594, "train/prior_ent_std": 7.688819395171271, "train/rep_loss_mean": 5.46479770872328, "train/rep_loss_std": 8.849985308117336, "train/reward_avg": 0.0414076060988009, "train/reward_loss_mean": 0.057017117376542754, "train/reward_loss_std": 0.21954232930309242, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0241241521305509, "train/reward_neg_acc": 0.9939023421870338, "train/reward_neg_loss": 0.024333945514323812, "train/reward_pos_acc": 0.9891063993175825, "train/reward_pos_loss": 0.7329373897777663, "train/reward_pred": 0.0409984544902626, "train/reward_rate": 0.04611545138888889, "stats/sum_log_reward": 11.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 5.833333333333333, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4643733004728953, "replay/size": 879378.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2473339988061218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4258898349066934e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21322798728943, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.748063564300537, "timer/env.step_frac": 0.059118193036623835, "timer/env.step_avg": 0.012342186066968385, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.6617364883422852, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2543783187866211, "timer/replay.add_frac": 0.0008473254842634419, "timer/replay.add_avg": 0.0001768973009642706, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.002240419387817383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023921489715576172, "timer/logger.write_frac": 7.968166451542558e-05, "timer/logger.write_avg": 0.023921489715576172, "timer/logger.write_min": 0.023921489715576172, "timer/logger.write_max": 0.023921489715576172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004341602325439453, "timer/checkpoint.save_frac": 1.4461728933620706e-06, "timer/checkpoint.save_avg": 0.0004341602325439453, "timer/checkpoint.save_min": 0.0004341602325439453, "timer/checkpoint.save_max": 0.0004341602325439453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4652938842773438, "timer/agent.save_frac": 0.004880843839230768, "timer/agent.save_avg": 1.4652938842773438, "timer/agent.save_min": 1.4652938842773438, "timer/agent.save_max": 1.4652938842773438, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.081031799316406e-05, "timer/replay.save_frac": 2.3586674867025533e-07, "timer/replay.save_avg": 7.081031799316406e-05, "timer/replay.save_min": 7.081031799316406e-05, "timer/replay.save_max": 7.081031799316406e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.454647064208984, "timer/agent.policy_frac": 0.048147935256273824, "timer/agent.policy_avg": 0.010051910336723912, "timer/agent.policy_min": 0.005784273147583008, "timer/agent.policy_max": 2.5444982051849365, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06324052810668945, "timer/dataset_frac": 0.00021065203732250918, "timer/dataset_avg": 8.795622824296169e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.000202178955078125, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.02111983299255, "timer/agent.train_frac": 0.889438222370061, "timer/agent.train_avg": 0.37137846986508005, "timer/agent.train_min": 0.3637523651123047, "timer/agent.train_max": 0.4224076271057129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21964430809020996, "timer/agent.report_frac": 0.0007316276819737916, "timer/agent.report_avg": 0.21964430809020996, "timer/agent.report_min": 0.21964430809020996, "timer/agent.report_max": 0.21964430809020996, "fps": 4.7898340539677}
+{"step": 879476, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07009345794392523}
+{"step": 879650, "episode/length": 173.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06321839080459771}
+{"step": 879818, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05357142857142857}
+{"step": 879997, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.061452513966480445}
+{"step": 880205, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0625}
+{"step": 880431, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06637168141592921}
+{"step": 880661, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05652173913043478}
+{"step": 880858, "episode/length": 196.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.07106598984771574}
+{"step": 880879, "episode/length": 20.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.2857142857142857}
+{"step": 880880, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520361158582899, "train/action_min": 0.0, "train/action_std": 3.3604589932494693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039586517959833145, "train/actor_opt_grad_steps": 439535.0, "train/actor_opt_loss": -11.827864736525548, "train/adv_mag": 0.41931432195835644, "train/adv_max": 0.3397119322584735, "train/adv_mean": 0.00208305236406482, "train/adv_min": -0.37143541706932914, "train/adv_std": 0.04387178111614452, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 1.6248652564677792e-05, "train/cont_loss_std": 0.00039959883672303757, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00161346156313079, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.131977941554624e-06, "train/cont_pred": 0.9947935044765472, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.454244752724965, "train/dyn_loss_std": 8.939678523275587, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9404349111848407, "train/extr_critic_critic_opt_grad_steps": 439535.0, "train/extr_critic_critic_opt_loss": 15571.245524088541, "train/extr_critic_mag": 12.266739779048496, "train/extr_critic_max": 12.266739779048496, "train/extr_critic_mean": 3.8271559410625033, "train/extr_critic_min": -0.3452897353304757, "train/extr_critic_std": 2.924744940466351, "train/extr_return_normed_mag": 1.376454187764062, "train/extr_return_normed_max": 1.376454187764062, "train/extr_return_normed_mean": 0.40286256476408905, "train/extr_return_normed_min": -0.08253596355724666, "train/extr_return_normed_std": 0.31523567417429554, "train/extr_return_rate": 0.8674362053473791, "train/extr_return_raw_mag": 12.968357430564033, "train/extr_return_raw_max": 12.968357430564033, "train/extr_return_raw_mean": 3.84668857521481, "train/extr_return_raw_min": -0.7009603844748603, "train/extr_return_raw_std": 2.953858620590634, "train/extr_reward_mag": 1.0669800308015611, "train/extr_reward_max": 1.0669800308015611, "train/extr_reward_mean": 0.0623471688789626, "train/extr_reward_min": -0.6414987792571386, "train/extr_reward_std": 0.2395902302943998, "train/image_loss_mean": 3.2134224805566998, "train/image_loss_std": 8.25550495253669, "train/model_loss_mean": 6.543432176113129, "train/model_loss_std": 12.45446625020769, "train/model_opt_grad_norm": 22.121338976754082, "train/model_opt_grad_steps": 439178.77777777775, "train/model_opt_loss": 16767.614149305555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6439524723423853, "train/policy_entropy_max": 2.6439524723423853, "train/policy_entropy_mean": 0.3859078273591068, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5875179891784986, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38479974928001565, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.012286413874891, "train/policy_randomness_mag": 0.9331992011931207, "train/policy_randomness_max": 0.9331992011931207, "train/policy_randomness_mean": 0.13620852813538578, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20736806674136055, "train/post_ent_mag": 54.89502822028266, "train/post_ent_max": 54.89502822028266, "train/post_ent_mean": 40.50752189424303, "train/post_ent_min": 19.727938493092854, "train/post_ent_std": 5.749231908056471, "train/prior_ent_mag": 76.69025156233046, "train/prior_ent_max": 76.69025156233046, "train/prior_ent_mean": 45.93517859776815, "train/prior_ent_min": 28.10200572013855, "train/prior_ent_std": 7.710695829656389, "train/rep_loss_mean": 5.454244752724965, "train/rep_loss_std": 8.939678523275587, "train/reward_avg": 0.04232177697122097, "train/reward_loss_mean": 0.05744660899250044, "train/reward_loss_std": 0.2135553134398328, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.022930423418681, "train/reward_neg_acc": 0.9936530532108413, "train/reward_neg_loss": 0.024428002756192453, "train/reward_pos_acc": 0.9892609011795785, "train/reward_pos_loss": 0.7252977076503966, "train/reward_pred": 0.04205184704106715, "train/reward_rate": 0.047078450520833336, "stats/sum_log_reward": 10.877778000301785, "stats/max_log_achievement_collect_coal": 0.7777777777777778, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.1111111111111111, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_stone": 13.777777777777779, "stats/max_log_achievement_collect_wood": 8.88888888888889, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.4444444444444444, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2701519992616441, "replay/size": 880817.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2604859055869692e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4265737546833234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1109380722046, "timer/env.step_count": 1439.0, "timer/env.step_total": 22.476069927215576, "timer/env.step_frac": 0.0746438175614396, "timer/env.step_avg": 0.015619228580413883, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.762786865234375, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.26703643798828125, "timer/replay.add_frac": 0.0008868373885649, "timer/replay.add_avg": 0.0001855708394637118, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.00311279296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025191068649291992, "timer/logger.write_frac": 8.366042366501919e-05, "timer/logger.write_avg": 0.025191068649291992, "timer/logger.write_min": 0.025191068649291992, "timer/logger.write_max": 0.025191068649291992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.592084646224976, "timer/agent.policy_frac": 0.035176685091675604, "timer/agent.policy_avg": 0.007360725952901303, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 0.01746201515197754, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06450676918029785, "timer/dataset_frac": 0.0002142292458496792, "timer/dataset_avg": 8.971734239262567e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0010688304901123047, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0262472629547, "timer/agent.train_frac": 0.8868035448082043, "timer/agent.train_avg": 0.3713856012002152, "timer/agent.train_min": 0.3596968650817871, "timer/agent.train_max": 0.3874967098236084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195601463317871, "timer/agent.report_frac": 0.0007291669566621253, "timer/agent.report_avg": 0.2195601463317871, "timer/agent.report_min": 0.2195601463317871, "timer/agent.report_max": 0.2195601463317871, "fps": 4.7788845986960045}
+{"step": 880951, "episode/length": 71.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.1111111111111111}
+{"step": 881098, "episode/length": 146.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08163265306122448}
+{"step": 881387, "episode/length": 288.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04844290657439446}
+{"step": 881568, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06629834254143646}
+{"step": 881778, "episode/length": 209.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0380952380952381}
+{"step": 882020, "episode/length": 241.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.05371900826446281}
+{"step": 882180, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04375}
+{"step": 882331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459805806477864, "train/action_min": 0.0, "train/action_std": 3.2845143013530307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039336291866170034, "train/actor_opt_grad_steps": 440255.0, "train/actor_opt_loss": -12.185828487078348, "train/adv_mag": 0.392856412463718, "train/adv_max": 0.34102706693940693, "train/adv_mean": 0.0016954783612466902, "train/adv_min": -0.34217301073173684, "train/adv_std": 0.04412745379118456, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 0.0001023673947100592, "train/cont_loss_std": 0.0032043340684329755, "train/cont_neg_acc": 0.9949139281057976, "train/cont_neg_loss": 0.020960224434651228, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.2948384093923613e-05, "train/cont_pred": 0.9952924425403277, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.428790801101261, "train/dyn_loss_std": 8.865701794624329, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9302936610248353, "train/extr_critic_critic_opt_grad_steps": 440255.0, "train/extr_critic_critic_opt_loss": 15588.800198025174, "train/extr_critic_mag": 12.058771544032627, "train/extr_critic_max": 12.058771544032627, "train/extr_critic_mean": 3.8454313708676233, "train/extr_critic_min": -0.33143901659382713, "train/extr_critic_std": 2.8406669199466705, "train/extr_return_normed_mag": 1.3767690873808331, "train/extr_return_normed_max": 1.3767690873808331, "train/extr_return_normed_mean": 0.40926101182897884, "train/extr_return_normed_min": -0.08054504812591606, "train/extr_return_normed_std": 0.3100386280566454, "train/extr_return_rate": 0.8740659803152084, "train/extr_return_raw_mag": 12.796592540211147, "train/extr_return_raw_max": 12.796592540211147, "train/extr_return_raw_mean": 3.8611043757862515, "train/extr_return_raw_min": -0.6637355362375578, "train/extr_return_raw_std": 2.863933821519216, "train/extr_reward_mag": 1.0753506455156538, "train/extr_reward_max": 1.0753506455156538, "train/extr_reward_mean": 0.062437455945958696, "train/extr_reward_min": -0.5940838836961322, "train/extr_reward_std": 0.23951675349639523, "train/image_loss_mean": 3.057896734939681, "train/image_loss_std": 8.736713058418697, "train/model_loss_mean": 6.371012548605601, "train/model_loss_std": 12.890039112832811, "train/model_opt_grad_norm": 24.587400568856133, "train/model_opt_grad_steps": 439898.0, "train/model_opt_loss": 15927.531331380209, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.616440090868208, "train/policy_entropy_max": 2.616440090868208, "train/policy_entropy_mean": 0.35869453185134464, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5419981392721335, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3589771917710702, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9907985130945841, "train/policy_randomness_mag": 0.9234885341591306, "train/policy_randomness_max": 0.9234885341591306, "train/policy_randomness_mean": 0.1266034287917945, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19130155930502546, "train/post_ent_mag": 55.44563606050279, "train/post_ent_max": 55.44563606050279, "train/post_ent_mean": 40.49253564410739, "train/post_ent_min": 19.24680006504059, "train/post_ent_std": 5.704397281010945, "train/prior_ent_mag": 76.72457345326741, "train/prior_ent_max": 76.72457345326741, "train/prior_ent_mean": 45.91592915852865, "train/prior_ent_min": 28.01600978109572, "train/prior_ent_std": 7.685199936230977, "train/rep_loss_mean": 5.428790801101261, "train/rep_loss_std": 8.865701794624329, "train/reward_avg": 0.041989474557340145, "train/reward_loss_mean": 0.05573899200600055, "train/reward_loss_std": 0.20831905781394905, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.030093984471427, "train/reward_neg_acc": 0.9932039868500497, "train/reward_neg_loss": 0.023401485626689263, "train/reward_pos_acc": 0.9886391096644931, "train/reward_pos_loss": 0.7226267862651083, "train/reward_pred": 0.04176572487793035, "train/reward_rate": 0.046196831597222224, "stats/sum_log_reward": 9.38571446282523, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 6.714285714285714, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3384354966027396, "replay/size": 882268.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.336216974554187e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.44656203666666e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11694383621216, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.94848871231079, "timer/env.step_frac": 0.06313701742428733, "timer/env.step_avg": 0.013058917100145274, "timer/env.step_min": 0.002413034439086914, "timer/env.step_max": 1.7287909984588623, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2750556468963623, "timer/replay.add_frac": 0.0009164948948916161, "timer/replay.add_avg": 0.00018956281660672798, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.003863096237182617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03326582908630371, "timer/logger.write_frac": 0.0001108428889788323, "timer/logger.write_avg": 0.03326582908630371, "timer/logger.write_min": 0.03326582908630371, "timer/logger.write_max": 0.03326582908630371, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.69590950012207, "timer/agent.policy_frac": 0.035639139074931166, "timer/agent.policy_avg": 0.007371405582441123, "timer/agent.policy_min": 0.0058057308197021484, "timer/agent.policy_max": 0.015088558197021484, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06518697738647461, "timer/dataset_frac": 0.00021720525523560638, "timer/dataset_avg": 8.97892250502405e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4418969154358, "timer/agent.train_frac": 0.8977896864846219, "timer/agent.train_avg": 0.3711320894152008, "timer/agent.train_min": 0.36347198486328125, "timer/agent.train_max": 0.3847486972808838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289562225341797, "timer/agent.report_frac": 0.000742695895154332, "timer/agent.report_avg": 0.22289562225341797, "timer/agent.report_min": 0.22289562225341797, "timer/agent.report_max": 0.22289562225341797, "fps": 4.834674431057593}
+{"step": 882684, "episode/length": 503.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 17.500000074505806, "episode/reward_rate": 0.027777777777777776}
+{"step": 882741, "episode/length": 56.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10526315789473684}
+{"step": 882988, "episode/length": 246.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05668016194331984}
+{"step": 883212, "episode/length": 223.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05357142857142857}
+{"step": 883446, "episode/length": 233.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.0641025641025641}
+{"step": 883734, "episode/length": 287.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04861111111111111}
+{"step": 883767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4565785725911455, "train/action_min": 0.0, "train/action_std": 3.2788318594296775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039460036903619766, "train/actor_opt_grad_steps": 440975.0, "train/actor_opt_loss": -10.900249413318104, "train/adv_mag": 0.3984767726312081, "train/adv_max": 0.32214611768722534, "train/adv_mean": 0.0023360678164863202, "train/adv_min": -0.36310133441454834, "train/adv_std": 0.04446038691740897, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 0.00010207526114748412, "train/cont_loss_std": 0.0031465278569208343, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.003008122170209996, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 7.91697115813703e-05, "train/cont_pred": 0.9946671426296234, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.57820404238171, "train/dyn_loss_std": 8.920155021879408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9072598483827379, "train/extr_critic_critic_opt_grad_steps": 440975.0, "train/extr_critic_critic_opt_loss": 15749.537651909723, "train/extr_critic_mag": 12.03879021273719, "train/extr_critic_max": 12.03879021273719, "train/extr_critic_mean": 3.721921983692381, "train/extr_critic_min": -0.36727077927854324, "train/extr_critic_std": 2.8793241348531513, "train/extr_return_normed_mag": 1.3901991297801335, "train/extr_return_normed_max": 1.3901991297801335, "train/extr_return_normed_mean": 0.4015008153186904, "train/extr_return_normed_min": -0.08531698351725936, "train/extr_return_normed_std": 0.31818706004156005, "train/extr_return_rate": 0.8693377880586518, "train/extr_return_raw_mag": 12.769106984138489, "train/extr_return_raw_max": 12.769106984138489, "train/extr_return_raw_mean": 3.743248144785563, "train/extr_return_raw_min": -0.700603347685602, "train/extr_return_raw_std": 2.9045832587613, "train/extr_reward_mag": 1.0688764452934265, "train/extr_reward_max": 1.0688764452934265, "train/extr_reward_mean": 0.06172596958155433, "train/extr_reward_min": -0.6304414007398818, "train/extr_reward_std": 0.2386005932672156, "train/image_loss_mean": 3.3812714897924, "train/image_loss_std": 8.792712959978315, "train/model_loss_mean": 6.786966482798259, "train/model_loss_std": 12.981302128897774, "train/model_opt_grad_norm": 21.231683086341537, "train/model_opt_grad_steps": 440616.7083333333, "train/model_opt_loss": 14642.576551649305, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.6099656191137104, "train/policy_entropy_max": 2.6099656191137104, "train/policy_entropy_mean": 0.35634426607025993, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5362480940918127, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35679832928710514, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9881005841824744, "train/policy_randomness_mag": 0.9212033276756605, "train/policy_randomness_max": 0.9212033276756605, "train/policy_randomness_mean": 0.1257738871499896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1892720437091258, "train/post_ent_mag": 55.60158612993028, "train/post_ent_max": 55.60158612993028, "train/post_ent_mean": 40.62049685584174, "train/post_ent_min": 19.533238066567314, "train/post_ent_std": 5.846870376004113, "train/prior_ent_mag": 76.59253607855902, "train/prior_ent_max": 76.59253607855902, "train/prior_ent_mean": 46.20487557517158, "train/prior_ent_min": 28.181016206741333, "train/prior_ent_std": 7.811893595589532, "train/rep_loss_mean": 5.57820404238171, "train/rep_loss_std": 8.920155021879408, "train/reward_avg": 0.04123942101270788, "train/reward_loss_mean": 0.05867057309175531, "train/reward_loss_std": 0.22554752623869312, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0278183685408697, "train/reward_neg_acc": 0.9930732970436414, "train/reward_neg_loss": 0.02534598872686426, "train/reward_pos_acc": 0.9848520913057857, "train/reward_pos_loss": 0.7451910285486115, "train/reward_pred": 0.040546091842568584, "train/reward_rate": 0.04615614149305555, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5581683094302813, "replay/size": 883704.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3008354952076352e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4457239413991945e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08669257164, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.35169506072998, "timer/env.step_frac": 0.06115464469104661, "timer/env.step_avg": 0.012779731936441491, "timer/env.step_min": 0.0029125213623046875, "timer/env.step_max": 1.6993746757507324, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.30600500106811523, "timer/replay.add_frac": 0.0010197219958197991, "timer/replay.add_avg": 0.0002130954046435343, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.006562948226928711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021739721298217773, "timer/logger.write_frac": 7.244480290650619e-05, "timer/logger.write_avg": 0.021739721298217773, "timer/logger.write_min": 0.021739721298217773, "timer/logger.write_max": 0.021739721298217773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003991127014160156, "timer/checkpoint.save_frac": 1.3299913368225584e-06, "timer/checkpoint.save_avg": 0.0003991127014160156, "timer/checkpoint.save_min": 0.0003991127014160156, "timer/checkpoint.save_max": 0.0003991127014160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2289988994598389, "timer/agent.save_frac": 0.0040954795060312065, "timer/agent.save_avg": 1.2289988994598389, "timer/agent.save_min": 1.2289988994598389, "timer/agent.save_max": 1.2289988994598389, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010824203491210938, "timer/replay.save_frac": 3.607025489351503e-07, "timer/replay.save_avg": 0.00010824203491210938, "timer/replay.save_min": 0.00010824203491210938, "timer/replay.save_max": 0.00010824203491210938, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.774632692337036, "timer/agent.policy_frac": 0.039237436993398385, "timer/agent.policy_avg": 0.008199604938953367, "timer/agent.policy_min": 0.005749225616455078, "timer/agent.policy_max": 1.2248876094818115, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0643608570098877, "timer/dataset_frac": 0.00021447421229624423, "timer/dataset_avg": 8.963907661544248e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0002493858337402344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.9040608406067, "timer/agent.train_frac": 0.8960879222473717, "timer/agent.train_avg": 0.3745181905858032, "timer/agent.train_min": 0.36322975158691406, "timer/agent.train_max": 2.847369909286499, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208082675933838, "timer/agent.report_frac": 0.0007358149263505578, "timer/agent.report_avg": 0.2208082675933838, "timer/agent.report_min": 0.2208082675933838, "timer/agent.report_max": 0.2208082675933838, "fps": 4.785176851159332}
+{"step": 883995, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05747126436781609}
+{"step": 884214, "episode/length": 218.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0593607305936073}
+{"step": 884434, "episode/length": 219.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07272727272727272}
+{"step": 884770, "episode/length": 335.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.044642857142857144}
+{"step": 885199, "episode/length": 428.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.027972027972027972}
+{"step": 885233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436824432791096, "train/action_min": 0.0, "train/action_std": 3.300132611026503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038817233010514145, "train/actor_opt_grad_steps": 441700.0, "train/actor_opt_loss": -12.037560903862731, "train/adv_mag": 0.39400873404659637, "train/adv_max": 0.32813051771627716, "train/adv_mean": 0.00208410145866503, "train/adv_min": -0.3440551817008894, "train/adv_std": 0.04382752821053544, "train/cont_avg": 0.9950770547945206, "train/cont_loss_mean": 7.777405789732393e-06, "train/cont_loss_std": 0.00017909261785225433, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.279933199726856e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 7.418112414358167e-06, "train/cont_pred": 0.9950702476174864, "train/cont_rate": 0.9950770547945206, "train/dyn_loss_mean": 5.381875338619703, "train/dyn_loss_std": 8.825020901144367, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9371160423918946, "train/extr_critic_critic_opt_grad_steps": 441700.0, "train/extr_critic_critic_opt_loss": 15582.764327375857, "train/extr_critic_mag": 12.282802320506475, "train/extr_critic_max": 12.282802320506475, "train/extr_critic_mean": 3.7854924430585886, "train/extr_critic_min": -0.3282602208934418, "train/extr_critic_std": 2.875864002802601, "train/extr_return_normed_mag": 1.405167132207792, "train/extr_return_normed_max": 1.405167132207792, "train/extr_return_normed_mean": 0.40548535079172215, "train/extr_return_normed_min": -0.08096975552505009, "train/extr_return_normed_std": 0.31611038132073127, "train/extr_return_rate": 0.8729327688478443, "train/extr_return_raw_mag": 13.00271686135906, "train/extr_return_raw_max": 13.00271686135906, "train/extr_return_raw_mean": 3.8046793382461757, "train/extr_return_raw_min": -0.670699851561899, "train/extr_return_raw_std": 2.908387011044646, "train/extr_reward_mag": 1.0775197728039467, "train/extr_reward_max": 1.0775197728039467, "train/extr_reward_mean": 0.06161930248753665, "train/extr_reward_min": -0.5896787741412856, "train/extr_reward_std": 0.2386394639129508, "train/image_loss_mean": 3.1541557409991956, "train/image_loss_std": 8.408974869610512, "train/model_loss_mean": 6.440803351467603, "train/model_loss_std": 12.540887323144364, "train/model_opt_grad_norm": 22.4748891281755, "train/model_opt_grad_steps": 441341.0, "train/model_opt_loss": 10219.935306078767, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1575.3424657534247, "train/policy_entropy_mag": 2.6622563551550043, "train/policy_entropy_max": 2.6622563551550043, "train/policy_entropy_mean": 0.374320093491306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5773714156183478, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3741941633698058, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.00647614508459, "train/policy_randomness_mag": 0.9396596648921706, "train/policy_randomness_max": 0.9396596648921706, "train/policy_randomness_mean": 0.13211856496660676, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20378677240789753, "train/post_ent_mag": 55.042433333723515, "train/post_ent_max": 55.042433333723515, "train/post_ent_mean": 40.492030313570204, "train/post_ent_min": 19.365826750454836, "train/post_ent_std": 5.707904364964733, "train/prior_ent_mag": 76.74121846238228, "train/prior_ent_max": 76.74121846238228, "train/prior_ent_mean": 45.891267436824435, "train/prior_ent_min": 28.14256009663621, "train/prior_ent_std": 7.681236815779177, "train/rep_loss_mean": 5.381875338619703, "train/rep_loss_std": 8.825020901144367, "train/reward_avg": 0.04223432106106249, "train/reward_loss_mean": 0.057514609437282774, "train/reward_loss_std": 0.21350719034671783, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0307367174592736, "train/reward_neg_acc": 0.9936726648513585, "train/reward_neg_loss": 0.024842721945925118, "train/reward_pos_acc": 0.9889186971808133, "train/reward_pos_loss": 0.723075415990124, "train/reward_pred": 0.041989135517649455, "train/reward_rate": 0.04680811215753425, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 5.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 18.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 2.6, "stats/mean_log_entropy": 0.5583472132682801, "replay/size": 885170.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3150916210138132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4286005480715555e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.309588432312, "timer/env.step_count": 1466.0, "timer/env.step_total": 16.368204355239868, "timer/env.step_frac": 0.05450443470914737, "timer/env.step_avg": 0.01116521443058654, "timer/env.step_min": 0.0028562545776367188, "timer/env.step_max": 1.7423937320709229, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2758610248565674, "timer/replay.add_frac": 0.0009185888012987797, "timer/replay.add_avg": 0.00018817259540011418, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.005460262298583984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030636072158813477, "timer/logger.write_frac": 0.00010201496501906953, "timer/logger.write_avg": 0.030636072158813477, "timer/logger.write_min": 0.030636072158813477, "timer/logger.write_max": 0.030636072158813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.869281768798828, "timer/agent.policy_frac": 0.036193588841232416, "timer/agent.policy_avg": 0.00741424404420111, "timer/agent.policy_min": 0.005776643753051758, "timer/agent.policy_max": 0.01402425765991211, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06574559211730957, "timer/dataset_frac": 0.0002189260504818288, "timer/dataset_avg": 8.969385009182752e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.0397572517395, "timer/agent.train_frac": 0.9058643737346257, "timer/agent.train_avg": 0.3711320017076937, "timer/agent.train_min": 0.36382508277893066, "timer/agent.train_max": 0.3866736888885498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830105781555176, "timer/agent.report_frac": 0.0007269200392672628, "timer/agent.report_avg": 0.21830105781555176, "timer/agent.report_min": 0.21830105781555176, "timer/agent.report_max": 0.21830105781555176, "fps": 4.8815404391929675}
+{"step": 885535, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.044642857142857144}
+{"step": 885726, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07329842931937172}
+{"step": 885914, "episode/length": 187.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07446808510638298}
+{"step": 885973, "episode/length": 58.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.11864406779661017}
+{"step": 886201, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07017543859649122}
+{"step": 886391, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06315789473684211}
+{"step": 886567, "episode/length": 175.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.045454545454545456}
+{"step": 886685, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457058005136986, "train/action_min": 0.0, "train/action_std": 3.3114096236555546, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039343850789208934, "train/actor_opt_grad_steps": 442430.0, "train/actor_opt_loss": -9.97268674471607, "train/adv_mag": 0.37033387100043363, "train/adv_max": 0.3396059172610714, "train/adv_mean": 0.002274130635557151, "train/adv_min": -0.32012204764640495, "train/adv_std": 0.04366947684998382, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 3.0152253648089778e-05, "train/cont_loss_std": 0.000854452321426404, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.550643704366936e-05, "train/cont_pos_acc": 0.9999864917911895, "train/cont_pos_loss": 3.0198480405257737e-05, "train/cont_pred": 0.994948585555978, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.605902782858235, "train/dyn_loss_std": 9.012088984659274, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9011568386260778, "train/extr_critic_critic_opt_grad_steps": 442430.0, "train/extr_critic_critic_opt_loss": 15620.999531785103, "train/extr_critic_mag": 12.409054116026995, "train/extr_critic_max": 12.409054116026995, "train/extr_critic_mean": 3.85701622701671, "train/extr_critic_min": -0.3681259759484905, "train/extr_critic_std": 2.914452804278021, "train/extr_return_normed_mag": 1.3957671384288841, "train/extr_return_normed_max": 1.3957671384288841, "train/extr_return_normed_mean": 0.40604978881470144, "train/extr_return_normed_min": -0.08102982261613624, "train/extr_return_normed_std": 0.3133675084538656, "train/extr_return_rate": 0.8734286264197467, "train/extr_return_raw_mag": 13.181365405043511, "train/extr_return_raw_max": 13.181365405043511, "train/extr_return_raw_mean": 3.878374939095484, "train/extr_return_raw_min": -0.6989269272921836, "train/extr_return_raw_std": 2.945307738160434, "train/extr_reward_mag": 1.070840744123067, "train/extr_reward_max": 1.070840744123067, "train/extr_reward_mean": 0.06354204575492911, "train/extr_reward_min": -0.6110354645611489, "train/extr_reward_std": 0.24193287467303343, "train/image_loss_mean": 3.3090082815248674, "train/image_loss_std": 9.131722273891919, "train/model_loss_mean": 6.731152155627943, "train/model_loss_std": 13.332871214984214, "train/model_opt_grad_norm": 23.465771100292468, "train/model_opt_grad_steps": 442071.0, "train/model_opt_loss": 16827.880391160103, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6305621160219794, "train/policy_entropy_max": 2.6305621160219794, "train/policy_entropy_mean": 0.36274552488163725, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5524610909697127, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3632609885032863, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 0.993708897943366, "train/policy_randomness_mag": 0.9284729843270288, "train/policy_randomness_max": 0.9284729843270288, "train/policy_randomness_mean": 0.12803325250948946, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1949945211614648, "train/post_ent_mag": 55.44781624780942, "train/post_ent_max": 55.44781624780942, "train/post_ent_mean": 40.29234502086901, "train/post_ent_min": 19.598775341086192, "train/post_ent_std": 5.702398750879993, "train/prior_ent_mag": 76.68277928600573, "train/prior_ent_max": 76.68277928600573, "train/prior_ent_mean": 45.86296253988188, "train/prior_ent_min": 28.02458857183587, "train/prior_ent_std": 7.725504339557805, "train/rep_loss_mean": 5.605902782858235, "train/rep_loss_std": 9.012088984659274, "train/reward_avg": 0.04343027621507645, "train/reward_loss_mean": 0.05857205681809007, "train/reward_loss_std": 0.2220486965897965, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0307657196097177, "train/reward_neg_acc": 0.9936986369629429, "train/reward_neg_loss": 0.024704259029296162, "train/reward_pos_acc": 0.9904198450584935, "train/reward_pos_loss": 0.7282642142413414, "train/reward_pred": 0.04290842650177544, "train/reward_rate": 0.04802547089041096, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.714285714285714, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3911107437951224, "replay/size": 886622.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.293690274241214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4199205666534171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00180220603943, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.0240740776062, "timer/env.step_frac": 0.06341319931318473, "timer/env.step_avg": 0.013101979392290772, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.7782526016235352, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.26159024238586426, "timer/replay.add_frac": 0.0008719622364341854, "timer/replay.add_avg": 0.00018015856913627015, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0022215843200683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02368474006652832, "timer/logger.write_frac": 7.894865928259253e-05, "timer/logger.write_avg": 0.02368474006652832, "timer/logger.write_min": 0.02368474006652832, "timer/logger.write_max": 0.02368474006652832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.64458441734314, "timer/agent.policy_frac": 0.03548173490648734, "timer/agent.policy_avg": 0.007330981003679848, "timer/agent.policy_min": 0.0056915283203125, "timer/agent.policy_max": 0.016432523727416992, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06289863586425781, "timer/dataset_frac": 0.00020966086004063205, "timer/dataset_avg": 8.663723948244878e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.3338837623596, "timer/agent.train_frac": 0.8977742192941319, "timer/agent.train_avg": 0.3709833109674375, "timer/agent.train_min": 0.3630084991455078, "timer/agent.train_max": 0.3859400749206543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22010183334350586, "timer/agent.report_frac": 0.0007336683704064592, "timer/agent.report_avg": 0.22010183334350586, "timer/agent.report_min": 0.22010183334350586, "timer/agent.report_max": 0.22010183334350586, "fps": 4.839872796191181}
+{"step": 886744, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07909604519774012}
+{"step": 887033, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.04498269896193772}
+{"step": 887445, "episode/length": 411.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.03398058252427184}
+{"step": 887615, "episode/length": 169.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08823529411764706}
+{"step": 887775, "episode/length": 159.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.900000087916851, "episode/reward_rate": 0.0875}
+{"step": 887953, "episode/length": 177.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07865168539325842}
+{"step": 888123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.524035135904948, "train/action_min": 0.0, "train/action_std": 3.3781329558955298, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03833125759330061, "train/actor_opt_grad_steps": 443155.0, "train/actor_opt_loss": -12.62724134657118, "train/adv_mag": 0.3829100388619635, "train/adv_max": 0.31562580747736824, "train/adv_mean": 0.001651956682609226, "train/adv_min": -0.34924195272227126, "train/adv_std": 0.04301377820471922, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 1.1253735093832676e-05, "train/cont_loss_std": 0.0002968099999481271, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010674852814152775, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.831614695690847e-06, "train/cont_pred": 0.9949960849351354, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.456777506404453, "train/dyn_loss_std": 8.89419201347563, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9323816713359621, "train/extr_critic_critic_opt_grad_steps": 443155.0, "train/extr_critic_critic_opt_loss": 15518.535454644098, "train/extr_critic_mag": 12.202637328041924, "train/extr_critic_max": 12.202637328041924, "train/extr_critic_mean": 3.8095242281754813, "train/extr_critic_min": -0.35050083696842194, "train/extr_critic_std": 2.9081899457507663, "train/extr_return_normed_mag": 1.3731722864839766, "train/extr_return_normed_max": 1.3731722864839766, "train/extr_return_normed_mean": 0.40123745881848866, "train/extr_return_normed_min": -0.07946838774821824, "train/extr_return_normed_std": 0.3117918065852589, "train/extr_return_rate": 0.8607349975241555, "train/extr_return_raw_mag": 12.952997459305656, "train/extr_return_raw_max": 12.952997459305656, "train/extr_return_raw_mean": 3.825024084912406, "train/extr_return_raw_min": -0.6898279036912653, "train/extr_return_raw_std": 2.928478237655428, "train/extr_reward_mag": 1.0763458477126226, "train/extr_reward_max": 1.0763458477126226, "train/extr_reward_mean": 0.06053409006239639, "train/extr_reward_min": -0.6227835632032819, "train/extr_reward_std": 0.23632948224743208, "train/image_loss_mean": 3.2949347611930637, "train/image_loss_std": 8.67132192850113, "train/model_loss_mean": 6.626072817378574, "train/model_loss_std": 12.793721702363756, "train/model_opt_grad_norm": 25.541236796849212, "train/model_opt_grad_steps": 442794.77777777775, "train/model_opt_loss": 14228.550774468316, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2135.4166666666665, "train/policy_entropy_mag": 2.628895766205258, "train/policy_entropy_max": 2.628895766205258, "train/policy_entropy_mean": 0.38987468203736675, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5785056394007471, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38989357981416917, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0185651671555307, "train/policy_randomness_mag": 0.9278848394751549, "train/policy_randomness_max": 0.9278848394751549, "train/policy_randomness_mean": 0.1376086516926686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20418710634112358, "train/post_ent_mag": 55.72665760252211, "train/post_ent_max": 55.72665760252211, "train/post_ent_mean": 40.57056448194716, "train/post_ent_min": 19.63131160206265, "train/post_ent_std": 5.801051417986552, "train/prior_ent_mag": 76.59580283694797, "train/prior_ent_max": 76.59580283694797, "train/prior_ent_mean": 45.955069382985435, "train/prior_ent_min": 27.798153532875908, "train/prior_ent_std": 7.777018407980601, "train/rep_loss_mean": 5.456777506404453, "train/rep_loss_std": 8.89419201347563, "train/reward_avg": 0.04107259074226022, "train/reward_loss_mean": 0.057060311237970986, "train/reward_loss_std": 0.21909072498480478, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0299228197998471, "train/reward_neg_acc": 0.993550273279349, "train/reward_neg_loss": 0.02510192692797217, "train/reward_pos_acc": 0.989790192908711, "train/reward_pos_loss": 0.7274172479907671, "train/reward_pred": 0.04086534906592634, "train/reward_rate": 0.04550509982638889, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4064827660719554, "replay/size": 888060.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3544399807947238e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4003568299125066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2950975894928, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.529552221298218, "timer/env.step_frac": 0.06503453562200794, "timer/env.step_avg": 0.013581051614254672, "timer/env.step_min": 0.0027358531951904297, "timer/env.step_max": 2.0326147079467773, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2846245765686035, "timer/replay.add_frac": 0.0009478162609157507, "timer/replay.add_avg": 0.00019793085992253373, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.003093719482421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026796340942382812, "timer/logger.write_frac": 8.923336130852775e-05, "timer/logger.write_avg": 0.026796340942382812, "timer/logger.write_min": 0.026796340942382812, "timer/logger.write_max": 0.026796340942382812, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005030632019042969, "timer/checkpoint.save_frac": 1.6752294857373616e-06, "timer/checkpoint.save_avg": 0.0005030632019042969, "timer/checkpoint.save_min": 0.0005030632019042969, "timer/checkpoint.save_max": 0.0005030632019042969, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1872754096984863, "timer/agent.save_frac": 0.003953695612179147, "timer/agent.save_avg": 1.1872754096984863, "timer/agent.save_min": 1.1872754096984863, "timer/agent.save_max": 1.1872754096984863, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.512901306152344e-05, "timer/replay.save_frac": 3.1678510180531153e-07, "timer/replay.save_avg": 9.512901306152344e-05, "timer/replay.save_min": 9.512901306152344e-05, "timer/replay.save_max": 9.512901306152344e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.352394104003906, "timer/agent.policy_frac": 0.0411341850171986, "timer/agent.policy_avg": 0.008589981991657792, "timer/agent.policy_min": 0.005787372589111328, "timer/agent.policy_max": 1.1912219524383545, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06297802925109863, "timer/dataset_frac": 0.00020972047081897554, "timer/dataset_avg": 8.759113943129157e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.3897716999054, "timer/agent.train_frac": 0.8904233663695389, "timer/agent.train_avg": 0.37189119846996577, "timer/agent.train_min": 0.363156795501709, "timer/agent.train_max": 0.9251208305358887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970415115356445, "timer/agent.report_frac": 0.0007316274988075324, "timer/agent.report_avg": 0.21970415115356445, "timer/agent.report_min": 0.21970415115356445, "timer/agent.report_max": 0.21970415115356445, "fps": 4.7885179982289925}
+{"step": 888289, "episode/length": 335.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.026785714285714284}
+{"step": 888464, "episode/length": 174.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08}
+{"step": 888704, "episode/length": 239.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058333333333333334}
+{"step": 888984, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05}
+{"step": 889220, "episode/length": 235.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05508474576271186}
+{"step": 889491, "episode/length": 270.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.055350553505535055}
+{"step": 889585, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4208440911279965, "train/action_min": 0.0, "train/action_std": 3.3292011626779217, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03880413037354816, "train/actor_opt_grad_steps": 443880.0, "train/actor_opt_loss": -11.72547934275784, "train/adv_mag": 0.3867884535495549, "train/adv_max": 0.3196536580177203, "train/adv_mean": 0.0019173421151457634, "train/adv_min": -0.35095612704753876, "train/adv_std": 0.043352397439414506, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 4.2309717431080944e-05, "train/cont_loss_std": 0.0012644528700492042, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.005573012707098888, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 8.94123923534894e-06, "train/cont_pred": 0.9947098117985137, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.448874787108539, "train/dyn_loss_std": 8.88163072768956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264518153177549, "train/extr_critic_critic_opt_grad_steps": 443880.0, "train/extr_critic_critic_opt_loss": 15392.533845248288, "train/extr_critic_mag": 11.972861407554312, "train/extr_critic_max": 11.972861407554312, "train/extr_critic_mean": 3.8509093506695473, "train/extr_critic_min": -0.3564288812140896, "train/extr_critic_std": 2.919443992719258, "train/extr_return_normed_mag": 1.3749144518212095, "train/extr_return_normed_max": 1.3749144518212095, "train/extr_return_normed_mean": 0.4109020755715566, "train/extr_return_normed_min": -0.08383635952048106, "train/extr_return_normed_std": 0.31830923708334363, "train/extr_return_rate": 0.8623252462034356, "train/extr_return_raw_mag": 12.79851381746057, "train/extr_return_raw_max": 12.79851381746057, "train/extr_return_raw_mean": 3.868662843965504, "train/extr_return_raw_min": -0.7144513905864872, "train/extr_return_raw_std": 2.948842793294828, "train/extr_reward_mag": 1.066810477269839, "train/extr_reward_max": 1.066810477269839, "train/extr_reward_mean": 0.06310627461500364, "train/extr_reward_min": -0.6165865659713745, "train/extr_reward_std": 0.2411734882282884, "train/image_loss_mean": 3.1508067372727067, "train/image_loss_std": 8.156324647877314, "train/model_loss_mean": 6.4786863065745735, "train/model_loss_std": 12.31597221060975, "train/model_opt_grad_norm": 23.986687803921633, "train/model_opt_grad_steps": 443519.0, "train/model_opt_loss": 8098.357856645976, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6571960775819545, "train/policy_entropy_max": 2.6571960775819545, "train/policy_entropy_mean": 0.3882961785548354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5841933141832483, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3889780195608531, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.018679573111338, "train/policy_randomness_mag": 0.937873607628966, "train/policy_randomness_max": 0.937873607628966, "train/policy_randomness_mean": 0.13705151109662775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20619460327984535, "train/post_ent_mag": 55.23670332399133, "train/post_ent_max": 55.23670332399133, "train/post_ent_mean": 40.45891346343576, "train/post_ent_min": 19.476554609324833, "train/post_ent_std": 5.752387451798948, "train/prior_ent_mag": 76.61233447349235, "train/prior_ent_max": 76.61233447349235, "train/prior_ent_mean": 45.91794089748435, "train/prior_ent_min": 28.022091460554567, "train/prior_ent_std": 7.718851291970031, "train/rep_loss_mean": 5.448874787108539, "train/rep_loss_std": 8.88163072768956, "train/reward_avg": 0.04327509610926452, "train/reward_loss_mean": 0.05851238389333634, "train/reward_loss_std": 0.22014062943523877, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0243386422118095, "train/reward_neg_acc": 0.9935837910599905, "train/reward_neg_loss": 0.02445039375085537, "train/reward_pos_acc": 0.9867832203433938, "train/reward_pos_loss": 0.7356787046341047, "train/reward_pred": 0.04288192014273715, "train/reward_rate": 0.0479050727739726, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.549051413933436, "replay/size": 889522.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.273444691043546e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4390118634162621e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14482021331787, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.42765760421753, "timer/env.step_frac": 0.058064162466076895, "timer/env.step_avg": 0.011920422437905287, "timer/env.step_min": 0.002705812454223633, "timer/env.step_max": 1.7264854907989502, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.25740814208984375, "timer/replay.add_frac": 0.0008576131412392842, "timer/replay.add_avg": 0.0001760657606633678, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0023834705352783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025178194046020508, "timer/logger.write_frac": 8.388681846358685e-05, "timer/logger.write_avg": 0.025178194046020508, "timer/logger.write_min": 0.025178194046020508, "timer/logger.write_max": 0.025178194046020508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.617290496826172, "timer/agent.policy_frac": 0.03537389214073489, "timer/agent.policy_avg": 0.007262168602480282, "timer/agent.policy_min": 0.0055882930755615234, "timer/agent.policy_max": 0.018713712692260742, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06460332870483398, "timer/dataset_frac": 0.0002152405250869208, "timer/dataset_avg": 8.837664665503965e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.0002808570861816406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.0964617729187, "timer/agent.train_frac": 0.9032188580840608, "timer/agent.train_avg": 0.37085699284941, "timer/agent.train_min": 0.3631768226623535, "timer/agent.train_max": 0.3861229419708252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950936317443848, "timer/agent.report_frac": 0.0007313448321994348, "timer/agent.report_avg": 0.21950936317443848, "timer/agent.report_min": 0.21950936317443848, "timer/agent.report_max": 0.21950936317443848, "fps": 4.8708921875242295}
+{"step": 889722, "episode/length": 230.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06926406926406926}
+{"step": 889777, "episode/length": 54.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.12727272727272726}
+{"step": 890049, "episode/length": 271.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05514705882352941}
+{"step": 890211, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07407407407407407}
+{"step": 890598, "episode/length": 386.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03359173126614987}
+{"step": 890764, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0783132530120482}
+{"step": 891020, "episode/length": 255.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05078125}
+{"step": 891039, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557068707191781, "train/action_min": 0.0, "train/action_std": 3.4086606829133754, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03835673252605412, "train/actor_opt_grad_steps": 444610.0, "train/actor_opt_loss": -13.134028117950649, "train/adv_mag": 0.4166284497470072, "train/adv_max": 0.350333718404378, "train/adv_mean": 0.001593296255440978, "train/adv_min": -0.3636928343609588, "train/adv_std": 0.042982734994937294, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 1.4169527712791223e-05, "train/cont_loss_std": 0.0003174596975328961, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012529588953428125, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 8.12305229424647e-06, "train/cont_pred": 0.9950483523003043, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.548448948011006, "train/dyn_loss_std": 8.92161856612114, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9196190205338883, "train/extr_critic_critic_opt_grad_steps": 444610.0, "train/extr_critic_critic_opt_loss": 15472.371334546233, "train/extr_critic_mag": 12.065256706655841, "train/extr_critic_max": 12.065256706655841, "train/extr_critic_mean": 3.68011289753326, "train/extr_critic_min": -0.3658729481370482, "train/extr_critic_std": 2.8673316028020155, "train/extr_return_normed_mag": 1.3703137995445565, "train/extr_return_normed_max": 1.3703137995445565, "train/extr_return_normed_mean": 0.39344016329882897, "train/extr_return_normed_min": -0.07463264312237909, "train/extr_return_normed_std": 0.31133769289271473, "train/extr_return_rate": 0.8511505159613204, "train/extr_return_raw_mag": 12.77401412023257, "train/extr_return_raw_max": 12.77401412023257, "train/extr_return_raw_mean": 3.6949130313037193, "train/extr_return_raw_min": -0.6560496038770023, "train/extr_return_raw_std": 2.8940091067797518, "train/extr_reward_mag": 1.0672665458835968, "train/extr_reward_max": 1.0672665458835968, "train/extr_reward_mean": 0.05891592331128578, "train/extr_reward_min": -0.5713366776296537, "train/extr_reward_std": 0.23341717519988753, "train/image_loss_mean": 3.3059406051897025, "train/image_loss_std": 8.427969690871565, "train/model_loss_mean": 6.692017927561721, "train/model_loss_std": 12.590811912327597, "train/model_opt_grad_norm": 21.628238847810927, "train/model_opt_grad_steps": 444249.0, "train/model_opt_loss": 16601.82738923373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.876712328767, "train/policy_entropy_mag": 2.6726482731022245, "train/policy_entropy_max": 2.6726482731022245, "train/policy_entropy_mean": 0.41114507880929396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6112378725450333, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4104008356185809, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0330918733387777, "train/policy_randomness_mag": 0.9433275567342158, "train/policy_randomness_max": 0.9433275567342158, "train/policy_randomness_mean": 0.14511617028141674, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21574014568165556, "train/post_ent_mag": 55.58467478294895, "train/post_ent_max": 55.58467478294895, "train/post_ent_mean": 40.5881462097168, "train/post_ent_min": 19.341482214731712, "train/post_ent_std": 5.777123980326195, "train/prior_ent_mag": 76.7452947538193, "train/prior_ent_max": 76.7452947538193, "train/prior_ent_mean": 46.15245986311403, "train/prior_ent_min": 28.014417909596066, "train/prior_ent_std": 7.734917274893147, "train/rep_loss_mean": 5.548448948011006, "train/rep_loss_std": 8.92161856612114, "train/reward_avg": 0.04070660277996978, "train/reward_loss_mean": 0.05699377501868222, "train/reward_loss_std": 0.21700551003625948, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0291727911936093, "train/reward_neg_acc": 0.9939720981741604, "train/reward_neg_loss": 0.02520888311507767, "train/reward_pos_acc": 0.9873937792973976, "train/reward_pos_loss": 0.7303708391646816, "train/reward_pred": 0.040297606424109574, "train/reward_rate": 0.04520280393835616, "stats/sum_log_reward": 11.67142881665911, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.4438318227018629, "replay/size": 890976.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.272926299083348e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4681845616441645e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16763186454773, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.936407327651978, "timer/env.step_frac": 0.0630861069530546, "timer/env.step_avg": 0.013023663911727632, "timer/env.step_min": 0.0027685165405273438, "timer/env.step_max": 1.630005121231079, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26723337173461914, "timer/replay.add_frac": 0.0008902804412142934, "timer/replay.add_avg": 0.00018379186501693201, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0042879581451416016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022649049758911133, "timer/logger.write_frac": 7.545467050601791e-05, "timer/logger.write_avg": 0.022649049758911133, "timer/logger.write_min": 0.022649049758911133, "timer/logger.write_max": 0.022649049758911133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.736102104187012, "timer/agent.policy_frac": 0.035767021372350154, "timer/agent.policy_avg": 0.007383839136304685, "timer/agent.policy_min": 0.005761146545410156, "timer/agent.policy_max": 0.04103279113769531, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06453227996826172, "timer/dataset_frac": 0.00021498747072563193, "timer/dataset_avg": 8.87651718958208e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0001468658447265625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.48717641830444, "timer/agent.train_frac": 0.8977889279544704, "timer/agent.train_avg": 0.3706838740279291, "timer/agent.train_min": 0.36377692222595215, "timer/agent.train_max": 0.38654041290283203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193763256072998, "timer/agent.report_frac": 0.0007308460417420841, "timer/agent.report_avg": 0.2193763256072998, "timer/agent.report_min": 0.2193763256072998, "timer/agent.report_max": 0.2193763256072998, "fps": 4.8438824599321455}
+{"step": 891264, "episode/length": 243.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.06557377049180328}
+{"step": 891518, "episode/length": 253.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000005960464, "episode/reward_rate": 0.06299212598425197}
+{"step": 891727, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06698564593301436}
+{"step": 891885, "episode/length": 157.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08227848101265822}
+{"step": 892271, "episode/length": 385.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.031088082901554404}
+{"step": 892483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.556123521592882, "train/action_min": 0.0, "train/action_std": 3.3766742977831097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834642669082516, "train/actor_opt_grad_steps": 445335.0, "train/actor_opt_loss": -13.180393647816446, "train/adv_mag": 0.39301890610820717, "train/adv_max": 0.33363544195890427, "train/adv_mean": 0.0011344925261356467, "train/adv_min": -0.34992206779619056, "train/adv_std": 0.042513703720437154, "train/cont_avg": 0.9952392578125, "train/cont_loss_mean": 7.006230282789893e-05, "train/cont_loss_std": 0.002178988490853505, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.011601499569694104, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 2.940039837263776e-06, "train/cont_pred": 0.9952525984909799, "train/cont_rate": 0.9952392578125, "train/dyn_loss_mean": 5.449806703461541, "train/dyn_loss_std": 8.884666813744438, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9526468474004004, "train/extr_critic_critic_opt_grad_steps": 445335.0, "train/extr_critic_critic_opt_loss": 15506.73961046007, "train/extr_critic_mag": 12.06334302160475, "train/extr_critic_max": 12.06334302160475, "train/extr_critic_mean": 3.628114879131317, "train/extr_critic_min": -0.3665205025010639, "train/extr_critic_std": 2.8424028986030154, "train/extr_return_normed_mag": 1.3698214209742017, "train/extr_return_normed_max": 1.3698214209742017, "train/extr_return_normed_mean": 0.38665452040731907, "train/extr_return_normed_min": -0.07702423797713386, "train/extr_return_normed_std": 0.30719128085507286, "train/extr_return_rate": 0.8528022352192137, "train/extr_return_raw_mag": 12.81629086865319, "train/extr_return_raw_max": 12.81629086865319, "train/extr_return_raw_mean": 3.638687786128786, "train/extr_return_raw_min": -0.6897135852939553, "train/extr_return_raw_std": 2.8676901939842434, "train/extr_reward_mag": 1.0719820029205747, "train/extr_reward_max": 1.0719820029205747, "train/extr_reward_mean": 0.058595160513909325, "train/extr_reward_min": -0.5982191976573732, "train/extr_reward_std": 0.23285086846186054, "train/image_loss_mean": 3.3148399359650083, "train/image_loss_std": 8.468960238827599, "train/model_loss_mean": 6.64033783144421, "train/model_loss_std": 12.600876132647196, "train/model_opt_grad_norm": 22.30432351430257, "train/model_opt_grad_steps": 444973.1111111111, "train/model_opt_loss": 15122.473876953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2256.9444444444443, "train/policy_entropy_mag": 2.642995092603895, "train/policy_entropy_max": 2.642995092603895, "train/policy_entropy_mean": 0.39641893344620865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.594738445762131, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39636178376773995, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0251067851980527, "train/policy_randomness_mag": 0.9328612834215164, "train/policy_randomness_max": 0.9328612834215164, "train/policy_randomness_mean": 0.13991848845034838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20991657332827648, "train/post_ent_mag": 55.77175251642863, "train/post_ent_max": 55.77175251642863, "train/post_ent_mean": 40.622722996605766, "train/post_ent_min": 19.469636188613045, "train/post_ent_std": 5.811693496174282, "train/prior_ent_mag": 76.63821898566351, "train/prior_ent_max": 76.63821898566351, "train/prior_ent_mean": 46.079469945695664, "train/prior_ent_min": 27.747405661476982, "train/prior_ent_std": 7.650549981329176, "train/rep_loss_mean": 5.449806703461541, "train/rep_loss_std": 8.884666813744438, "train/reward_avg": 0.04113769520901971, "train/reward_loss_mean": 0.055543815820581384, "train/reward_loss_std": 0.21128102619614866, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0317229992813535, "train/reward_neg_acc": 0.9936661918958029, "train/reward_neg_loss": 0.02389945779254453, "train/reward_pos_acc": 0.9893207111292415, "train/reward_pos_loss": 0.7192221408089002, "train/reward_pred": 0.04089697949691779, "train/reward_rate": 0.045654296875, "stats/sum_log_reward": 12.899999809265136, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 18.6, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 0.8, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 7.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4476968437433243, "replay/size": 892420.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.460536703178427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4150324290478989e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3285291194916, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.391495943069458, "timer/env.step_frac": 0.06456761200782951, "timer/env.step_avg": 0.01342901381098993, "timer/env.step_min": 0.00286102294921875, "timer/env.step_max": 3.202887535095215, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2732524871826172, "timer/replay.add_frac": 0.0009098452550736475, "timer/replay.add_avg": 0.00018923302436469334, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.0023064613342285156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030693769454956055, "timer/logger.write_frac": 0.00010220064522323132, "timer/logger.write_avg": 0.030693769454956055, "timer/logger.write_min": 0.030693769454956055, "timer/logger.write_max": 0.030693769454956055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004947185516357422, "timer/checkpoint.save_frac": 1.647257931459814e-06, "timer/checkpoint.save_avg": 0.0004947185516357422, "timer/checkpoint.save_min": 0.0004947185516357422, "timer/checkpoint.save_max": 0.0004947185516357422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4310758113861084, "timer/agent.save_frac": 0.004765034529292843, "timer/agent.save_avg": 1.4310758113861084, "timer/agent.save_min": 1.4310758113861084, "timer/agent.save_max": 1.4310758113861084, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6435512827764726e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.721588850021362, "timer/agent.policy_frac": 0.03902922204689285, "timer/agent.policy_avg": 0.008117443801953853, "timer/agent.policy_min": 0.005608797073364258, "timer/agent.policy_max": 1.0936369895935059, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06431460380554199, "timer/dataset_frac": 0.00021414750038599618, "timer/dataset_avg": 8.907839862263433e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.0002186298370361328, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.190726518631, "timer/agent.train_frac": 0.8929911763791379, "timer/agent.train_avg": 0.3714552998873005, "timer/agent.train_min": 0.36157751083374023, "timer/agent.train_max": 0.57635498046875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208099365234375, "timer/agent.report_frac": 0.0007352279757464665, "timer/agent.report_avg": 0.2208099365234375, "timer/agent.report_min": 0.2208099365234375, "timer/agent.report_max": 0.2208099365234375, "fps": 4.807977400866441}
+{"step": 892498, "episode/length": 226.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06607929515418502}
+{"step": 892711, "episode/length": 212.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.046948356807511735}
+{"step": 892898, "episode/length": 186.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.053475935828877004}
+{"step": 892944, "episode/length": 45.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13043478260869565}
+{"step": 893161, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06912442396313365}
+{"step": 893356, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06153846153846154}
+{"step": 893545, "episode/length": 188.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.06349206349206349}
+{"step": 893819, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.051094890510948905}
+{"step": 893927, "stats/sum_log_reward": 10.475000381469727, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33969148993492126, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362636142306858, "train/action_min": 0.0, "train/action_std": 3.2173496815893383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039047042528788246, "train/actor_opt_grad_steps": 446055.0, "train/actor_opt_loss": -11.958491186300913, "train/adv_mag": 0.3904761994878451, "train/adv_max": 0.32644934331377345, "train/adv_mean": 0.0018673951366913065, "train/adv_min": -0.34809190531571704, "train/adv_std": 0.043075600587245494, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 4.407928582218624e-05, "train/cont_loss_std": 0.0012099087661220488, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018510732942021867, "train/cont_pos_acc": 0.9999863447414504, "train/cont_pos_loss": 3.533856796009458e-05, "train/cont_pred": 0.9949329561657376, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.382910251617432, "train/dyn_loss_std": 8.795381320847405, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.940392952826288, "train/extr_critic_critic_opt_grad_steps": 446055.0, "train/extr_critic_critic_opt_loss": 15541.79206000434, "train/extr_critic_mag": 12.012319617801243, "train/extr_critic_max": 12.012319617801243, "train/extr_critic_mean": 3.692226287391451, "train/extr_critic_min": -0.367832331193818, "train/extr_critic_std": 2.885994800262981, "train/extr_return_normed_mag": 1.3811129728953044, "train/extr_return_normed_max": 1.3811129728953044, "train/extr_return_normed_mean": 0.39616453275084496, "train/extr_return_normed_min": -0.08406847741247879, "train/extr_return_normed_std": 0.31433240365650916, "train/extr_return_rate": 0.8521846557656924, "train/extr_return_raw_mag": 12.830344067679512, "train/extr_return_raw_max": 12.830344067679512, "train/extr_return_raw_mean": 3.709522717528873, "train/extr_return_raw_min": -0.7377568499909507, "train/extr_return_raw_std": 2.91105674372779, "train/extr_reward_mag": 1.070387578672833, "train/extr_reward_max": 1.070387578672833, "train/extr_reward_mean": 0.059976366296824485, "train/extr_reward_min": -0.6475782808330324, "train/extr_reward_std": 0.23606774024665356, "train/image_loss_mean": 3.1636195927858353, "train/image_loss_std": 8.217648877037895, "train/model_loss_mean": 6.44940451780955, "train/model_loss_std": 12.31007390552097, "train/model_opt_grad_norm": 26.119213488366867, "train/model_opt_grad_steps": 445692.0, "train/model_opt_loss": 8061.755622016059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6991065873040094, "train/policy_entropy_max": 2.6991065873040094, "train/policy_entropy_mean": 0.3758413294951121, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756867573493056, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771340861502621, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0120450837744608, "train/policy_randomness_mag": 0.9526661800013648, "train/policy_randomness_max": 0.9526661800013648, "train/policy_randomness_mean": 0.1326554955707656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20319216139614582, "train/post_ent_mag": 56.18968317243788, "train/post_ent_max": 56.18968317243788, "train/post_ent_mean": 40.70903470781114, "train/post_ent_min": 19.485700514581467, "train/post_ent_std": 5.917172769705455, "train/prior_ent_mag": 76.64272838168674, "train/prior_ent_max": 76.64272838168674, "train/prior_ent_mean": 46.07778400844998, "train/prior_ent_min": 27.961824046240913, "train/prior_ent_std": 7.813492284880744, "train/rep_loss_mean": 5.382910251617432, "train/rep_loss_std": 8.795381320847405, "train/reward_avg": 0.04137505394303136, "train/reward_loss_mean": 0.05599475000053644, "train/reward_loss_std": 0.21409228588971826, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0318258735868666, "train/reward_neg_acc": 0.9935375509990586, "train/reward_neg_loss": 0.023254137343934014, "train/reward_pos_acc": 0.985393294857608, "train/reward_pos_loss": 0.7375630189975103, "train/reward_pred": 0.04087533173151314, "train/reward_rate": 0.0458984375, "replay/size": 893864.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3847512961094397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4252485991184732e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3175919055939, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.53671145439148, "timer/env.step_frac": 0.06838331156054049, "timer/env.step_avg": 0.014222099345146453, "timer/env.step_min": 0.0027265548706054688, "timer/env.step_max": 1.6929564476013184, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2697124481201172, "timer/replay.add_frac": 0.0008980907392361566, "timer/replay.add_avg": 0.00018678147376739417, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.005084991455078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025340795516967773, "timer/logger.write_frac": 8.437999038342636e-05, "timer/logger.write_avg": 0.025340795516967773, "timer/logger.write_min": 0.025340795516967773, "timer/logger.write_max": 0.025340795516967773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.710153102874756, "timer/agent.policy_frac": 0.03566275633377328, "timer/agent.policy_avg": 0.007417003533846784, "timer/agent.policy_min": 0.005750179290771484, "timer/agent.policy_max": 0.021896839141845703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06351733207702637, "timer/dataset_frac": 0.00021150053739440384, "timer/dataset_avg": 8.797414415100605e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.06147718429565, "timer/agent.train_frac": 0.892593322566871, "timer/agent.train_avg": 0.3712762841887751, "timer/agent.train_min": 0.3631713390350342, "timer/agent.train_max": 0.4068112373352051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21711134910583496, "timer/agent.report_frac": 0.0007229391649293886, "timer/agent.report_avg": 0.21711134910583496, "timer/agent.report_min": 0.21711134910583496, "timer/agent.report_max": 0.21711134910583496, "fps": 4.808151811383137}
+{"step": 893999, "episode/length": 179.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07777777777777778}
+{"step": 894255, "episode/length": 255.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05078125}
+{"step": 894402, "episode/length": 146.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.08843537414965986}
+{"step": 894613, "episode/length": 210.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08056872037914692}
+{"step": 894835, "episode/length": 221.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.06306306306306306}
+{"step": 895038, "episode/length": 202.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.06403940886699508}
+{"step": 895263, "episode/length": 224.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06666666666666667}
+{"step": 895377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359157986111111, "train/action_min": 0.0, "train/action_std": 3.2018545170625052, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03848983355176946, "train/actor_opt_grad_steps": 446775.0, "train/actor_opt_loss": -11.13445284217596, "train/adv_mag": 0.39125098867548835, "train/adv_max": 0.3472210206091404, "train/adv_mean": 0.002248509838611628, "train/adv_min": -0.3183195630295409, "train/adv_std": 0.04369625242220031, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.390307903391551e-05, "train/cont_loss_std": 0.00039314330826319593, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001475621636874141, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.365034746874048e-06, "train/cont_pred": 0.9946975741121504, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 5.615613884396023, "train/dyn_loss_std": 8.984800259272257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9103999899493324, "train/extr_critic_critic_opt_grad_steps": 446775.0, "train/extr_critic_critic_opt_loss": 15457.376641167535, "train/extr_critic_mag": 11.871907194455465, "train/extr_critic_max": 11.871907194455465, "train/extr_critic_mean": 3.792661683426963, "train/extr_critic_min": -0.3708319316307704, "train/extr_critic_std": 2.910207930538389, "train/extr_return_normed_mag": 1.389445134335094, "train/extr_return_normed_max": 1.389445134335094, "train/extr_return_normed_mean": 0.412763226363394, "train/extr_return_normed_min": -0.08159808379908402, "train/extr_return_normed_std": 0.3220829661521647, "train/extr_return_rate": 0.8571615012155639, "train/extr_return_raw_mag": 12.724866045845879, "train/extr_return_raw_max": 12.724866045845879, "train/extr_return_raw_mean": 3.813167995876736, "train/extr_return_raw_min": -0.697112910863426, "train/extr_return_raw_std": 2.9385424653689065, "train/extr_reward_mag": 1.0689355896578894, "train/extr_reward_max": 1.0689355896578894, "train/extr_reward_mean": 0.06112302213700281, "train/extr_reward_min": -0.6117737922403548, "train/extr_reward_std": 0.23732925434079435, "train/image_loss_mean": 3.3037988046805062, "train/image_loss_std": 8.711627854241264, "train/model_loss_mean": 6.731621437602573, "train/model_loss_std": 12.913275811407301, "train/model_opt_grad_norm": 22.012442893452114, "train/model_opt_grad_steps": 446412.0, "train/model_opt_loss": 16643.639790852863, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.675770252943039, "train/policy_entropy_max": 2.675770252943039, "train/policy_entropy_mean": 0.3802074549926652, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5765777255098025, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38094767928123474, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.012883111834526, "train/policy_randomness_mag": 0.944429475400183, "train/policy_randomness_max": 0.944429475400183, "train/policy_randomness_mean": 0.13419654613567722, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2035066361228625, "train/post_ent_mag": 55.69643365012275, "train/post_ent_max": 55.69643365012275, "train/post_ent_mean": 40.51627392239041, "train/post_ent_min": 19.647982398668926, "train/post_ent_std": 5.858384993341234, "train/prior_ent_mag": 76.70725907219781, "train/prior_ent_max": 76.70725907219781, "train/prior_ent_mean": 46.12301074133979, "train/prior_ent_min": 27.821155230204266, "train/prior_ent_std": 7.862777822547489, "train/rep_loss_mean": 5.615613884396023, "train/rep_loss_std": 8.984800259272257, "train/reward_avg": 0.04345838761784964, "train/reward_loss_mean": 0.05844032702346643, "train/reward_loss_std": 0.21754655904240078, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0237728158632915, "train/reward_neg_acc": 0.9935306616955333, "train/reward_neg_loss": 0.024261347923634782, "train/reward_pos_acc": 0.9894243362877104, "train/reward_pos_loss": 0.7326775069038073, "train/reward_pred": 0.04290505317557189, "train/reward_rate": 0.048272026909722224, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3557158495698656, "replay/size": 895314.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3470679973733835e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4255992297468514e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10842204093933, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.316805124282837, "timer/env.step_frac": 0.06436608807215591, "timer/env.step_avg": 0.013321934568470922, "timer/env.step_min": 0.002645254135131836, "timer/env.step_max": 1.6741061210632324, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27451562881469727, "timer/replay.add_frac": 0.0009147215094724971, "timer/replay.add_avg": 0.00018932112332048086, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.005562543869018555, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026208877563476562, "timer/logger.write_frac": 8.733136306285091e-05, "timer/logger.write_avg": 0.026208877563476562, "timer/logger.write_min": 0.026208877563476562, "timer/logger.write_max": 0.026208877563476562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.739675760269165, "timer/agent.policy_frac": 0.03578598590213543, "timer/agent.policy_avg": 0.0074066729381166655, "timer/agent.policy_min": 0.005789995193481445, "timer/agent.policy_max": 0.01890087127685547, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06409621238708496, "timer/dataset_frac": 0.00021357685316255893, "timer/dataset_avg": 8.840856880977237e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001704692840576172, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.03248929977417, "timer/agent.train_frac": 0.896450980849428, "timer/agent.train_avg": 0.3710792955858954, "timer/agent.train_min": 0.36353611946105957, "timer/agent.train_max": 0.38545823097229004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182328701019287, "timer/agent.report_frac": 0.0007271800925072288, "timer/agent.report_avg": 0.2182328701019287, "timer/agent.report_min": 0.2182328701019287, "timer/agent.report_max": 0.2182328701019287, "fps": 4.831472122679067}
+{"step": 895470, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07246376811594203}
+{"step": 895638, "episode/length": 167.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.05952380952380952}
+{"step": 895847, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06698564593301436}
+{"step": 896100, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05928853754940711}
+{"step": 896381, "episode/length": 280.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.042704626334519574}
+{"step": 896554, "episode/length": 172.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.057803468208092484}
+{"step": 896792, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06302521008403361}
+{"step": 896809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.411431206597222, "train/action_min": 0.0, "train/action_std": 3.2610917422506542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834756603464484, "train/actor_opt_grad_steps": 447495.0, "train/actor_opt_loss": -11.037712616225084, "train/adv_mag": 0.39374684501025414, "train/adv_max": 0.3429901997248332, "train/adv_mean": 0.00215750375981669, "train/adv_min": -0.34195423871278763, "train/adv_std": 0.04306334846963485, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 0.00017659544115853108, "train/cont_loss_std": 0.005620203560873449, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.003983058049372564, "train/cont_pos_acc": 0.9999727292193307, "train/cont_pos_loss": 0.0001413542161636805, "train/cont_pred": 0.9950764154394468, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.4284493989414635, "train/dyn_loss_std": 8.877037478817833, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9337309540973769, "train/extr_critic_critic_opt_grad_steps": 447495.0, "train/extr_critic_critic_opt_loss": 15361.409410264758, "train/extr_critic_mag": 12.097395989629957, "train/extr_critic_max": 12.097395989629957, "train/extr_critic_mean": 3.8295557498931885, "train/extr_critic_min": -0.322528138756752, "train/extr_critic_std": 2.915091395378113, "train/extr_return_normed_mag": 1.3804401556650798, "train/extr_return_normed_max": 1.3804401556650798, "train/extr_return_normed_mean": 0.40975208166572785, "train/extr_return_normed_min": -0.074261625814769, "train/extr_return_normed_std": 0.31713365722033715, "train/extr_return_rate": 0.8579870619707637, "train/extr_return_raw_mag": 12.858420252799988, "train/extr_return_raw_max": 12.858420252799988, "train/extr_return_raw_mean": 3.8495781090524464, "train/extr_return_raw_min": -0.6432229686114523, "train/extr_return_raw_std": 2.9435684416029186, "train/extr_reward_mag": 1.068808717860116, "train/extr_reward_max": 1.068808717860116, "train/extr_reward_mean": 0.060840331121451326, "train/extr_reward_min": -0.5933330373631583, "train/extr_reward_std": 0.23663193794588247, "train/image_loss_mean": 3.2335875812504025, "train/image_loss_std": 8.480068253146278, "train/model_loss_mean": 6.548637674914466, "train/model_loss_std": 12.623640007442898, "train/model_opt_grad_norm": 21.792605347103542, "train/model_opt_grad_steps": 447131.5416666667, "train/model_opt_loss": 18374.819173177082, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.6671133471859827, "train/policy_entropy_max": 2.6671133471859827, "train/policy_entropy_mean": 0.39458327864607173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5988843457566367, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3951898550407754, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0228795980413754, "train/policy_randomness_mag": 0.9413739658064313, "train/policy_randomness_max": 0.9413739658064313, "train/policy_randomness_mean": 0.13927058171894816, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21137989229626125, "train/post_ent_mag": 55.35869296391805, "train/post_ent_max": 55.35869296391805, "train/post_ent_mean": 40.3935801188151, "train/post_ent_min": 19.43199625280168, "train/post_ent_std": 5.785615649488237, "train/prior_ent_mag": 76.81300841437445, "train/prior_ent_max": 76.81300841437445, "train/prior_ent_mean": 45.7981341679891, "train/prior_ent_min": 27.75707695219252, "train/prior_ent_std": 7.79472910033332, "train/rep_loss_mean": 5.4284493989414635, "train/rep_loss_std": 8.877037478817833, "train/reward_avg": 0.042004394370855555, "train/reward_loss_mean": 0.057803950220760375, "train/reward_loss_std": 0.22293953121536308, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.025714549753401, "train/reward_neg_acc": 0.9939311014281379, "train/reward_neg_loss": 0.02512149069742817, "train/reward_pos_acc": 0.9890474279721578, "train/reward_pos_loss": 0.7294303526480993, "train/reward_pred": 0.041597998028414115, "train/reward_rate": 0.04640028211805555, "stats/sum_log_reward": 12.100000245230538, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.43711171405655996, "replay/size": 896746.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.364166067965204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.417046319173035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2071352005005, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.783756256103516, "timer/env.step_frac": 0.07256242008223661, "timer/env.step_avg": 0.01521212029057508, "timer/env.step_min": 0.0028696060180664062, "timer/env.step_max": 2.5981171131134033, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.30668115615844727, "timer/replay.add_frac": 0.0010215651801667638, "timer/replay.add_avg": 0.00021416281854640172, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.011680841445922852, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030805110931396484, "timer/logger.write_frac": 0.00010261285399103708, "timer/logger.write_avg": 0.030805110931396484, "timer/logger.write_min": 0.030805110931396484, "timer/logger.write_max": 0.030805110931396484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001957416534423828, "timer/checkpoint.save_frac": 6.520219891231169e-07, "timer/checkpoint.save_avg": 0.0001957416534423828, "timer/checkpoint.save_min": 0.0001957416534423828, "timer/checkpoint.save_max": 0.0001957416534423828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.167445182800293, "timer/agent.save_frac": 0.0038887989188550994, "timer/agent.save_avg": 1.167445182800293, "timer/agent.save_min": 1.167445182800293, "timer/agent.save_max": 1.167445182800293, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.017217846982603e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.563722610473633, "timer/agent.policy_frac": 0.03851914646449201, "timer/agent.policy_avg": 0.008075225286643598, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 0.6735522747039795, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06401658058166504, "timer/dataset_frac": 0.0002132413692929385, "timer/dataset_avg": 8.940863209729754e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0010287761688232422, "timer/agent.train_count": 716.0, "timer/agent.train_total": 265.7992134094238, "timer/agent.train_frac": 0.8853860626327336, "timer/agent.train_avg": 0.3712279516891394, "timer/agent.train_min": 0.3642756938934326, "timer/agent.train_max": 0.38814449310302734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22301864624023438, "timer/agent.report_frac": 0.0007428825637048435, "timer/agent.report_avg": 0.22301864624023438, "timer/agent.report_min": 0.22301864624023438, "timer/agent.report_max": 0.22301864624023438, "fps": 4.769965656407665}
+{"step": 897003, "episode/length": 210.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07109004739336493}
+{"step": 897213, "episode/length": 209.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.90000006556511, "episode/reward_rate": 0.08095238095238096}
+{"step": 897427, "episode/length": 213.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07476635514018691}
+{"step": 897495, "episode/length": 67.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.1323529411764706}
+{"step": 897913, "episode/length": 417.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03349282296650718}
+{"step": 897978, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09230769230769231}
+{"step": 898235, "episode/length": 256.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.042801556420233464}
+{"step": 898260, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416925299657534, "train/action_min": 0.0, "train/action_std": 3.30187999385677, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040091208297095886, "train/actor_opt_grad_steps": 448220.0, "train/actor_opt_loss": -11.979728351717126, "train/adv_mag": 0.42463360604358047, "train/adv_max": 0.3480743986286529, "train/adv_mean": 0.0019072449396271497, "train/adv_min": -0.3781940806401919, "train/adv_std": 0.04399443887276192, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 6.799729335604647e-05, "train/cont_loss_std": 0.002074060424441597, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.006254644950831478, "train/cont_pos_acc": 0.9999865505793323, "train/cont_pos_loss": 3.894405126797278e-05, "train/cont_pred": 0.9950626468005246, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.527335127739057, "train/dyn_loss_std": 8.908330179240606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.938646575359449, "train/extr_critic_critic_opt_grad_steps": 448220.0, "train/extr_critic_critic_opt_loss": 15552.289035744863, "train/extr_critic_mag": 11.978230463315363, "train/extr_critic_max": 11.978230463315363, "train/extr_critic_mean": 3.8357125145115263, "train/extr_critic_min": -0.34876828814206057, "train/extr_critic_std": 2.8927824627863217, "train/extr_return_normed_mag": 1.3766728982533494, "train/extr_return_normed_max": 1.3766728982533494, "train/extr_return_normed_mean": 0.40993186504873513, "train/extr_return_normed_min": -0.08004609589809425, "train/extr_return_normed_std": 0.31508428613616996, "train/extr_return_rate": 0.8575753153186955, "train/extr_return_raw_mag": 12.809246442089343, "train/extr_return_raw_max": 12.809246442089343, "train/extr_return_raw_mean": 3.8533845111115337, "train/extr_return_raw_min": -0.6856903703245398, "train/extr_return_raw_std": 2.919009355649556, "train/extr_reward_mag": 1.0713393851502302, "train/extr_reward_max": 1.0713393851502302, "train/extr_reward_mean": 0.05983485317189399, "train/extr_reward_min": -0.6026145677043967, "train/extr_reward_std": 0.23533495015477482, "train/image_loss_mean": 3.275196046045382, "train/image_loss_std": 8.612480529367108, "train/model_loss_mean": 6.649381389356639, "train/model_loss_std": 12.839935172094057, "train/model_opt_grad_norm": 21.40665384841292, "train/model_opt_grad_steps": 447855.9589041096, "train/model_opt_loss": 17286.07768354024, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.68196264358416, "train/policy_entropy_max": 2.68196264358416, "train/policy_entropy_mean": 0.3849205305315044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5825349737520087, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3853626306334587, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0151348946845695, "train/policy_randomness_mag": 0.946615118686467, "train/policy_randomness_max": 0.946615118686467, "train/policy_randomness_mean": 0.13586005527679235, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20560928107532736, "train/post_ent_mag": 55.57556053057109, "train/post_ent_max": 55.57556053057109, "train/post_ent_mean": 40.446427227699594, "train/post_ent_min": 19.59111243731355, "train/post_ent_std": 5.787852032543862, "train/prior_ent_mag": 76.79102409049256, "train/prior_ent_max": 76.79102409049256, "train/prior_ent_mean": 45.94297659887027, "train/prior_ent_min": 28.09420893943473, "train/prior_ent_std": 7.799737995618011, "train/rep_loss_mean": 5.527335127739057, "train/rep_loss_std": 8.908330179240606, "train/reward_avg": 0.04261424440941582, "train/reward_loss_mean": 0.05771619678564267, "train/reward_loss_std": 0.21100656014599212, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0364667471141031, "train/reward_neg_acc": 0.9932062544234811, "train/reward_neg_loss": 0.02490497306499579, "train/reward_pos_acc": 0.9908339944604325, "train/reward_pos_loss": 0.7254771181981857, "train/reward_pred": 0.04225746542215347, "train/reward_rate": 0.04694188784246575, "stats/sum_log_reward": 11.100000245230538, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4763291967766626, "replay/size": 898197.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.325043671053907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4336561334544215e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0033447742462, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.744561910629272, "timer/env.step_frac": 0.06248117641733173, "timer/env.step_avg": 0.012918374852260009, "timer/env.step_min": 0.002802610397338867, "timer/env.step_max": 1.7219626903533936, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2888801097869873, "timer/replay.add_frac": 0.0009629229634235272, "timer/replay.add_avg": 0.00019909035822673142, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.007567405700683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028455495834350586, "timer/logger.write_frac": 9.485059526840765e-05, "timer/logger.write_avg": 0.028455495834350586, "timer/logger.write_min": 0.028455495834350586, "timer/logger.write_max": 0.028455495834350586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.778798818588257, "timer/agent.policy_frac": 0.03592892881477488, "timer/agent.policy_avg": 0.007428531232659033, "timer/agent.policy_min": 0.0057146549224853516, "timer/agent.policy_max": 0.01633429527282715, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06490826606750488, "timer/dataset_frac": 0.000216358474657503, "timer/dataset_avg": 8.952864285173087e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0010471343994140625, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.435049533844, "timer/agent.train_frac": 0.8981068185642896, "timer/agent.train_avg": 0.3716345510811641, "timer/agent.train_min": 0.3603818416595459, "timer/agent.train_max": 0.4033973217010498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22040390968322754, "timer/agent.report_frac": 0.0007346715079096282, "timer/agent.report_avg": 0.22040390968322754, "timer/agent.report_min": 0.22040390968322754, "timer/agent.report_max": 0.22040390968322754, "fps": 4.836514593868739}
+{"step": 898447, "episode/length": 211.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0660377358490566}
+{"step": 898642, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
+{"step": 898861, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0639269406392694}
+{"step": 899147, "episode/length": 285.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.045454545454545456}
+{"step": 899318, "episode/length": 170.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08771929824561403}
+{"step": 899489, "episode/length": 170.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0935672514619883}
+{"step": 899678, "episode/length": 188.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.07407407407407407}
+{"step": 899711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4300952487521705, "train/action_min": 0.0, "train/action_std": 3.3728415866692862, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03897998520794014, "train/actor_opt_grad_steps": 448945.0, "train/actor_opt_loss": -10.620840057730675, "train/adv_mag": 0.41558094115720856, "train/adv_max": 0.34906085911724305, "train/adv_mean": 0.001940917669268553, "train/adv_min": -0.36384899769392276, "train/adv_std": 0.04350923731302222, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 1.0543341384444065e-05, "train/cont_loss_std": 0.00028126842719839514, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.717563937477946e-05, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 1.014483768566363e-05, "train/cont_pred": 0.9952437157432238, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.447042683760325, "train/dyn_loss_std": 8.90586088101069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9509994205501344, "train/extr_critic_critic_opt_grad_steps": 448945.0, "train/extr_critic_critic_opt_loss": 15535.039225260416, "train/extr_critic_mag": 12.07452470726437, "train/extr_critic_max": 12.07452470726437, "train/extr_critic_mean": 3.7901912464035883, "train/extr_critic_min": -0.37821827663315666, "train/extr_critic_std": 2.8724319305684833, "train/extr_return_normed_mag": 1.373716178867552, "train/extr_return_normed_max": 1.373716178867552, "train/extr_return_normed_mean": 0.40805593588285977, "train/extr_return_normed_min": -0.07672506268136203, "train/extr_return_normed_std": 0.3127527189337545, "train/extr_return_rate": 0.8648329459958606, "train/extr_return_raw_mag": 12.765181356006199, "train/extr_return_raw_max": 12.765181356006199, "train/extr_return_raw_mean": 3.808185338973999, "train/extr_return_raw_min": -0.6894073873344395, "train/extr_return_raw_std": 2.9017489618725247, "train/extr_reward_mag": 1.0718898442056444, "train/extr_reward_max": 1.0718898442056444, "train/extr_reward_mean": 0.06055878708139062, "train/extr_reward_min": -0.6105321430497699, "train/extr_reward_std": 0.23613987863063812, "train/image_loss_mean": 3.2595928791496487, "train/image_loss_std": 8.56958936320411, "train/model_loss_mean": 6.5847376518779335, "train/model_loss_std": 12.732095930311415, "train/model_opt_grad_norm": 22.33354531394111, "train/model_opt_grad_steps": 448580.0, "train/model_opt_loss": 16461.84417046441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6678108639187283, "train/policy_entropy_max": 2.6678108639187283, "train/policy_entropy_mean": 0.39622067970534164, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5988423116505146, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39622976382573444, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.022598434653547, "train/policy_randomness_mag": 0.9416201619638337, "train/policy_randomness_max": 0.9416201619638337, "train/policy_randomness_mean": 0.13984851352870464, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2113650550858842, "train/post_ent_mag": 55.553745640648735, "train/post_ent_max": 55.553745640648735, "train/post_ent_mean": 40.36084243986342, "train/post_ent_min": 19.233930190404255, "train/post_ent_std": 5.800804085201687, "train/prior_ent_mag": 76.73602432674832, "train/prior_ent_max": 76.73602432674832, "train/prior_ent_mean": 45.794051594204376, "train/prior_ent_min": 27.740865389506023, "train/prior_ent_std": 7.805111825466156, "train/rep_loss_mean": 5.447042683760325, "train/rep_loss_std": 8.90586088101069, "train/reward_avg": 0.041792805306613445, "train/reward_loss_mean": 0.05690861436434918, "train/reward_loss_std": 0.21382475313213137, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0252419826057222, "train/reward_neg_acc": 0.9937603283259604, "train/reward_neg_loss": 0.024566678188016847, "train/reward_pos_acc": 0.9886878116263284, "train/reward_pos_loss": 0.7245135828852654, "train/reward_pred": 0.041409409734317, "train/reward_rate": 0.04629177517361111, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.44647147825786043, "replay/size": 899648.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2987535451708953e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414029887228301e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11036372184753, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.865458011627197, "timer/env.step_frac": 0.06286173452214514, "timer/env.step_avg": 0.01300169401214831, "timer/env.step_min": 0.002813577651977539, "timer/env.step_max": 1.69197416305542, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.25487732887268066, "timer/replay.add_frac": 0.0008492786643946413, "timer/replay.add_avg": 0.0001756563258943354, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.001753091812133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02428150177001953, "timer/logger.write_frac": 8.090857466196819e-05, "timer/logger.write_avg": 0.02428150177001953, "timer/logger.write_min": 0.02428150177001953, "timer/logger.write_max": 0.02428150177001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.583386421203613, "timer/agent.policy_frac": 0.03526498148865214, "timer/agent.policy_avg": 0.0072938569408708565, "timer/agent.policy_min": 0.005923748016357422, "timer/agent.policy_max": 0.016146183013916016, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06262683868408203, "timer/dataset_frac": 0.0002086793601774003, "timer/dataset_avg": 8.626286320121492e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001380443572998047, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.6689429283142, "timer/agent.train_frac": 0.8985659128328288, "timer/agent.train_avg": 0.37144482497012976, "timer/agent.train_min": 0.3642730712890625, "timer/agent.train_max": 0.3857874870300293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052359580993652, "timer/agent.report_frac": 0.0007348083320918743, "timer/agent.report_avg": 0.22052359580993652, "timer/agent.report_min": 0.22052359580993652, "timer/agent.report_max": 0.22052359580993652, "fps": 4.834789788375293}
+{"step": 899900, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
+{"step": 900094, "episode/length": 193.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07731958762886598}
+{"step": 900295, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06965174129353234}
+{"step": 900515, "episode/length": 219.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07272727272727272}
+{"step": 900714, "episode/length": 198.0, "episode/score": 13.099999956786633, "episode/sum_abs_reward": 15.300000004470348, "episode/reward_rate": 0.07035175879396985}
+{"step": 900976, "episode/length": 261.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.061068702290076333}
+{"step": 901129, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0718954248366013}
+{"step": 901139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4342397054036455, "train/action_min": 0.0, "train/action_std": 3.3197250730461545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03968310319922037, "train/actor_opt_grad_steps": 449665.0, "train/actor_opt_loss": -11.50447000314792, "train/adv_mag": 0.4286743518378999, "train/adv_max": 0.3469649652640025, "train/adv_mean": 0.0019247930419320862, "train/adv_min": -0.38285535304910606, "train/adv_std": 0.044193944324635796, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 5.076201414391493e-05, "train/cont_loss_std": 0.0015646832461560696, "train/cont_neg_acc": 0.9962797628508674, "train/cont_neg_loss": 0.005528344220183001, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 9.5151774957003e-06, "train/cont_pred": 0.9948039932383431, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.5967450804180565, "train/dyn_loss_std": 8.961242192321354, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9521068359414736, "train/extr_critic_critic_opt_grad_steps": 449665.0, "train/extr_critic_critic_opt_loss": 15583.999877929688, "train/extr_critic_mag": 11.988776445388794, "train/extr_critic_max": 11.988776445388794, "train/extr_critic_mean": 3.783158563905292, "train/extr_critic_min": -0.3482006821367476, "train/extr_critic_std": 2.893342743317286, "train/extr_return_normed_mag": 1.378192083703147, "train/extr_return_normed_max": 1.378192083703147, "train/extr_return_normed_mean": 0.4052439005010658, "train/extr_return_normed_min": -0.0797565068739156, "train/extr_return_normed_std": 0.3150748366283046, "train/extr_return_rate": 0.8645227915710874, "train/extr_return_raw_mag": 12.81256181663937, "train/extr_return_raw_max": 12.81256181663937, "train/extr_return_raw_mean": 3.800986498594284, "train/extr_return_raw_min": -0.6919942452675767, "train/extr_return_raw_std": 2.9186652302742004, "train/extr_reward_mag": 1.073127183649275, "train/extr_reward_max": 1.073127183649275, "train/extr_reward_mean": 0.06174680021488004, "train/extr_reward_min": -0.6430727806356218, "train/extr_reward_std": 0.23855459007124105, "train/image_loss_mean": 3.235866144299507, "train/image_loss_std": 8.639435119099087, "train/model_loss_mean": 6.653804375065698, "train/model_loss_std": 12.847342133522034, "train/model_opt_grad_norm": 23.63017721970876, "train/model_opt_grad_steps": 449299.4861111111, "train/model_opt_loss": 18971.555623372395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.67763234840499, "train/policy_entropy_max": 2.67763234840499, "train/policy_entropy_mean": 0.3864813360075156, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5946222965915998, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3864907951404651, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0185945903261502, "train/policy_randomness_mag": 0.9450867134663794, "train/policy_randomness_max": 0.9450867134663794, "train/policy_randomness_mean": 0.1364109506830573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20987557702594334, "train/post_ent_mag": 55.69300985336304, "train/post_ent_max": 55.69300985336304, "train/post_ent_mean": 40.31790198220147, "train/post_ent_min": 19.302347938219707, "train/post_ent_std": 5.82528621620602, "train/prior_ent_mag": 76.74633672502306, "train/prior_ent_max": 76.74633672502306, "train/prior_ent_mean": 45.8981384701199, "train/prior_ent_min": 27.84113958146837, "train/prior_ent_std": 7.841123534573449, "train/rep_loss_mean": 5.5967450804180565, "train/rep_loss_std": 8.961242192321354, "train/reward_avg": 0.04383816156122419, "train/reward_loss_mean": 0.059840438370075494, "train/reward_loss_std": 0.22302449639472696, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0256163328886032, "train/reward_neg_acc": 0.9929297773374451, "train/reward_neg_loss": 0.025699405348859727, "train/reward_pos_acc": 0.9871752849883504, "train/reward_pos_loss": 0.7316514079769453, "train/reward_pred": 0.043459172231248684, "train/reward_rate": 0.04847547743055555, "stats/sum_log_reward": 13.385714258466448, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32317611149379183, "replay/size": 901076.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.355223925507703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.416069452836066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29769682884216, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.318551301956177, "timer/env.step_frac": 0.07099139129963727, "timer/env.step_avg": 0.014928957494367071, "timer/env.step_min": 0.002975940704345703, "timer/env.step_max": 2.0080676078796387, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2991814613342285, "timer/replay.add_frac": 0.0009962829035773462, "timer/replay.add_avg": 0.0002095108272648659, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0034203529357910156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021909713745117188, "timer/logger.write_frac": 7.295997930215516e-05, "timer/logger.write_avg": 0.021909713745117188, "timer/logger.write_min": 0.021909713745117188, "timer/logger.write_max": 0.021909713745117188, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003943443298339844, "timer/checkpoint.save_frac": 1.3131780030225975e-06, "timer/checkpoint.save_avg": 0.0003943443298339844, "timer/checkpoint.save_min": 0.0003943443298339844, "timer/checkpoint.save_max": 0.0003943443298339844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1993823051452637, "timer/agent.save_frac": 0.003993977702162878, "timer/agent.save_avg": 1.1993823051452637, "timer/agent.save_min": 1.1993823051452637, "timer/agent.save_max": 1.1993823051452637, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.635883295063497e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.352838516235352, "timer/agent.policy_frac": 0.04113530888409039, "timer/agent.policy_avg": 0.008650447140220835, "timer/agent.policy_min": 0.0057756900787353516, "timer/agent.policy_max": 1.1937255859375, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0628352165222168, "timer/dataset_frac": 0.0002092430850644532, "timer/dataset_avg": 8.800450493307675e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0010080337524414062, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.59431743621826, "timer/agent.train_frac": 0.8844367447399922, "timer/agent.train_avg": 0.3719808367454037, "timer/agent.train_min": 0.3628239631652832, "timer/agent.train_max": 0.9210126399993896, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22039198875427246, "timer/agent.report_frac": 0.0007339116852430847, "timer/agent.report_avg": 0.22039198875427246, "timer/agent.report_min": 0.22039198875427246, "timer/agent.report_max": 0.22039198875427246, "fps": 4.75517500736439}
+{"step": 901512, "episode/length": 382.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04177545691906005}
+{"step": 901668, "episode/length": 155.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07051282051282051}
+{"step": 901817, "episode/length": 148.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.09395973154362416}
+{"step": 901971, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 902234, "episode/length": 262.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.049429657794676805}
+{"step": 902496, "episode/length": 261.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000001490116, "episode/reward_rate": 0.05343511450381679}
+{"step": 902599, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354095877033391, "train/action_min": 0.0, "train/action_std": 3.290468349848708, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03813465409082909, "train/actor_opt_grad_steps": 450390.0, "train/actor_opt_loss": -11.452854047082875, "train/adv_mag": 0.3907916241720931, "train/adv_max": 0.33690961236006595, "train/adv_mean": 0.002597545965216665, "train/adv_min": -0.34930306223973834, "train/adv_std": 0.04386143937502822, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 2.3088594017835557e-05, "train/cont_loss_std": 0.0006708030267458999, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0021432110868098, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.0672920303502358e-05, "train/cont_pred": 0.9947141727356061, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.508924699809453, "train/dyn_loss_std": 8.948365779772196, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264956426947084, "train/extr_critic_critic_opt_grad_steps": 450390.0, "train/extr_critic_critic_opt_loss": 15481.615622324487, "train/extr_critic_mag": 12.045682462927413, "train/extr_critic_max": 12.045682462927413, "train/extr_critic_mean": 3.8369798235697288, "train/extr_critic_min": -0.3485857231976235, "train/extr_critic_std": 2.8975779618302435, "train/extr_return_normed_mag": 1.3739760575229174, "train/extr_return_normed_max": 1.3739760575229174, "train/extr_return_normed_mean": 0.40631755961947247, "train/extr_return_normed_min": -0.08639446028495489, "train/extr_return_normed_std": 0.31511143646011613, "train/extr_return_rate": 0.8680009000921902, "train/extr_return_raw_mag": 12.853407075960343, "train/extr_return_raw_max": 12.853407075960343, "train/extr_return_raw_mean": 3.8611044622447395, "train/extr_return_raw_min": -0.7179532655297893, "train/extr_return_raw_std": 2.928068247559952, "train/extr_reward_mag": 1.0753427792901862, "train/extr_reward_max": 1.0753427792901862, "train/extr_reward_mean": 0.06167678478850077, "train/extr_reward_min": -0.6211247689103427, "train/extr_reward_std": 0.23852937842068606, "train/image_loss_mean": 3.2558503428550614, "train/image_loss_std": 8.737026874333212, "train/model_loss_mean": 6.6191413696498085, "train/model_loss_std": 12.918019425379088, "train/model_opt_grad_norm": 21.236853403587865, "train/model_opt_grad_steps": 450024.0, "train/model_opt_loss": 18909.287162885274, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2842.4657534246576, "train/policy_entropy_mag": 2.6975672147045398, "train/policy_entropy_max": 2.6975672147045398, "train/policy_entropy_mean": 0.3755680600257769, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5762479689023267, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753167454102268, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.007298761034665, "train/policy_randomness_mag": 0.9521228491443477, "train/policy_randomness_max": 0.9521228491443477, "train/policy_randomness_mean": 0.13255904339355964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20339024587445062, "train/post_ent_mag": 55.5023639626699, "train/post_ent_max": 55.5023639626699, "train/post_ent_mean": 40.37991944404497, "train/post_ent_min": 19.36879991505244, "train/post_ent_std": 5.770193178359777, "train/prior_ent_mag": 76.68959076763832, "train/prior_ent_max": 76.68959076763832, "train/prior_ent_mean": 45.89766181005191, "train/prior_ent_min": 27.95936809174002, "train/prior_ent_std": 7.8235471738527895, "train/rep_loss_mean": 5.508924699809453, "train/rep_loss_std": 8.948365779772196, "train/reward_avg": 0.042896510982146, "train/reward_loss_mean": 0.05791315344506747, "train/reward_loss_std": 0.21188984443880107, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.026444820508565, "train/reward_neg_acc": 0.9938617511971356, "train/reward_neg_loss": 0.024272109420128064, "train/reward_pos_acc": 0.9872688781725217, "train/reward_pos_loss": 0.729321929689956, "train/reward_pred": 0.04235797676525704, "train/reward_rate": 0.04766427654109589, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5739070127407709, "replay/size": 902536.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3037303245230896e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4473110029142196e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1534984111786, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.74048948287964, "timer/env.step_frac": 0.05910472333917975, "timer/env.step_avg": 0.012151020193753177, "timer/env.step_min": 0.002943277359008789, "timer/env.step_max": 1.7478623390197754, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2632749080657959, "timer/replay.add_frac": 0.0008771342311830632, "timer/replay.add_avg": 0.00018032527949712047, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0014662742614746094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03813290596008301, "timer/logger.write_frac": 0.0001270446826771446, "timer/logger.write_avg": 0.03813290596008301, "timer/logger.write_min": 0.03813290596008301, "timer/logger.write_max": 0.03813290596008301, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.724687337875366, "timer/agent.policy_frac": 0.035730675786372734, "timer/agent.policy_avg": 0.007345676258818744, "timer/agent.policy_min": 0.00572657585144043, "timer/agent.policy_max": 0.017529010772705078, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06348204612731934, "timer/dataset_frac": 0.0002114986047584081, "timer/dataset_avg": 8.696170702372511e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.6732635498047, "timer/agent.train_frac": 0.9017828044070001, "timer/agent.train_avg": 0.370785292533979, "timer/agent.train_min": 0.3637399673461914, "timer/agent.train_max": 0.3900129795074463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22133612632751465, "timer/agent.report_frac": 0.0007374097836577854, "timer/agent.report_avg": 0.22133612632751465, "timer/agent.report_min": 0.22133612632751465, "timer/agent.report_max": 0.22133612632751465, "fps": 4.864107404629741}
+{"step": 902683, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0748663101604278}
+{"step": 902969, "episode/length": 285.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05244755244755245}
+{"step": 903026, "episode/length": 56.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.17543859649122806}
+{"step": 903289, "episode/length": 262.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.057034220532319393}
+{"step": 903519, "episode/length": 229.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05652173913043478}
+{"step": 903585, "episode/length": 65.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 8.699999988079071, "episode/reward_rate": 0.12121212121212122}
+{"step": 903743, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0759493670886076}
+{"step": 903927, "episode/length": 183.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04891304347826087}
+{"step": 903994, "episode/length": 66.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.13432835820895522}
+{"step": 904037, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347768864161532, "train/action_min": 0.0, "train/action_std": 3.2740115817164033, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03838952641252061, "train/actor_opt_grad_steps": 451110.0, "train/actor_opt_loss": -12.211439081900556, "train/adv_mag": 0.3818571128895585, "train/adv_max": 0.3363966360478334, "train/adv_mean": 0.002031183868612189, "train/adv_min": -0.33159180174411185, "train/adv_std": 0.04328302818704659, "train/cont_avg": 0.9945395026408451, "train/cont_loss_mean": 1.7990834634383324e-05, "train/cont_loss_std": 0.0005295117575645742, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011292677546018406, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 8.515874640525127e-06, "train/cont_pred": 0.9945394270856616, "train/cont_rate": 0.9945395026408451, "train/dyn_loss_mean": 5.619977830161511, "train/dyn_loss_std": 8.95747199528654, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8922909145623865, "train/extr_critic_critic_opt_grad_steps": 451110.0, "train/extr_critic_critic_opt_loss": 15598.209617077464, "train/extr_critic_mag": 12.033930321814308, "train/extr_critic_max": 12.033930321814308, "train/extr_critic_mean": 3.817324420096169, "train/extr_critic_min": -0.3821931372226124, "train/extr_critic_std": 2.949597610554225, "train/extr_return_normed_mag": 1.3847181696287343, "train/extr_return_normed_max": 1.3847181696287343, "train/extr_return_normed_mean": 0.40678654380247625, "train/extr_return_normed_min": -0.08263980712689145, "train/extr_return_normed_std": 0.32075687214522297, "train/extr_return_rate": 0.8581793291468016, "train/extr_return_raw_mag": 12.912700867988693, "train/extr_return_raw_max": 12.912700867988693, "train/extr_return_raw_mean": 3.8361583830605093, "train/extr_return_raw_min": -0.7062472474407142, "train/extr_return_raw_std": 2.9768468594886888, "train/extr_reward_mag": 1.072967421840614, "train/extr_reward_max": 1.072967421840614, "train/extr_reward_mean": 0.06019906028055809, "train/extr_reward_min": -0.5853208001230804, "train/extr_reward_std": 0.2362152633952423, "train/image_loss_mean": 3.361089911259396, "train/image_loss_std": 8.611609217146752, "train/model_loss_mean": 6.792782649187974, "train/model_loss_std": 12.79979598354286, "train/model_opt_grad_norm": 20.957815425496705, "train/model_opt_grad_steps": 450743.23943661974, "train/model_opt_loss": 20884.729368397886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3098.5915492957747, "train/policy_entropy_mag": 2.7037645057893136, "train/policy_entropy_max": 2.7037645057893136, "train/policy_entropy_mean": 0.38223549156961306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5807171812359716, "train/policy_logprob_mag": 7.438384351596026, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38221172316813135, "train/policy_logprob_min": -7.438384351596026, "train/policy_logprob_std": 1.0122373397921172, "train/policy_randomness_mag": 0.9543102207318158, "train/policy_randomness_max": 0.9543102207318158, "train/policy_randomness_mean": 0.13491235474045848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20496768116111486, "train/post_ent_mag": 55.88311052993989, "train/post_ent_max": 55.88311052993989, "train/post_ent_mean": 40.45557817271058, "train/post_ent_min": 19.29417338841398, "train/post_ent_std": 5.844683606859664, "train/prior_ent_mag": 76.77830354932328, "train/prior_ent_max": 76.77830354932328, "train/prior_ent_mean": 46.07748724709094, "train/prior_ent_min": 27.970579335387324, "train/prior_ent_std": 7.817204347798522, "train/rep_loss_mean": 5.619977830161511, "train/rep_loss_std": 8.95747199528654, "train/reward_avg": 0.042201254070854524, "train/reward_loss_mean": 0.059688077321354775, "train/reward_loss_std": 0.21918123729631933, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.024904170506437, "train/reward_neg_acc": 0.9928312175710436, "train/reward_neg_loss": 0.026379794289003795, "train/reward_pos_acc": 0.9886659291428579, "train/reward_pos_loss": 0.7328135094172518, "train/reward_pred": 0.04172047133177099, "train/reward_rate": 0.047150088028169015, "stats/sum_log_reward": 10.544444613986546, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3322913207941585, "replay/size": 903974.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.305031958143635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4162320586670091e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2152738571167, "timer/env.step_count": 1438.0, "timer/env.step_total": 22.01588010787964, "timer/env.step_frac": 0.07333364430471247, "timer/env.step_avg": 0.015310069616049818, "timer/env.step_min": 0.002867460250854492, "timer/env.step_max": 1.7283732891082764, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.26401782035827637, "timer/replay.add_frac": 0.0008794283414238677, "timer/replay.add_avg": 0.00018360070956764698, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004092216491699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02383899688720703, "timer/logger.write_frac": 7.940634259185917e-05, "timer/logger.write_avg": 0.02383899688720703, "timer/logger.write_min": 0.02383899688720703, "timer/logger.write_max": 0.02383899688720703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.543627977371216, "timer/agent.policy_frac": 0.0351202250368824, "timer/agent.policy_avg": 0.00733214741124563, "timer/agent.policy_min": 0.005623340606689453, "timer/agent.policy_max": 0.04827737808227539, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06228041648864746, "timer/dataset_frac": 0.0002074525246116857, "timer/dataset_avg": 8.662088524151247e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0002262592315673828, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.6558949947357, "timer/agent.train_frac": 0.888215617975676, "timer/agent.train_avg": 0.37087050764219154, "timer/agent.train_min": 0.36262011528015137, "timer/agent.train_max": 0.38837289810180664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21679973602294922, "timer/agent.report_frac": 0.0007221475884206079, "timer/agent.report_avg": 0.21679973602294922, "timer/agent.report_min": 0.21679973602294922, "timer/agent.report_max": 0.21679973602294922, "fps": 4.789816514529603}
+{"step": 904223, "episode/length": 228.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.0611353711790393}
+{"step": 904273, "episode/length": 49.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.12}
+{"step": 904376, "episode/length": 102.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000068545341, "episode/reward_rate": 0.10679611650485436}
+{"step": 904657, "episode/length": 280.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0498220640569395}
+{"step": 904863, "episode/length": 205.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06310679611650485}
+{"step": 905018, "episode/length": 154.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.09032258064516129}
+{"step": 905285, "episode/length": 266.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.052434456928838954}
+{"step": 905463, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06741573033707865}
+{"step": 905464, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354723612467448, "train/action_min": 0.0, "train/action_std": 3.268933501508501, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038894351183747254, "train/actor_opt_grad_steps": 451825.0, "train/actor_opt_loss": -12.422279289199246, "train/adv_mag": 0.4069589123957687, "train/adv_max": 0.3288795080863767, "train/adv_mean": 0.0018289763832702495, "train/adv_min": -0.3653311586628358, "train/adv_std": 0.04385503205574221, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 2.952650665092686e-05, "train/cont_loss_std": 0.0009014710579795033, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0027707601728746115, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.3481502253319553e-05, "train/cont_pred": 0.994790204697185, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.557311919000414, "train/dyn_loss_std": 8.871597256925371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9117123459776243, "train/extr_critic_critic_opt_grad_steps": 451825.0, "train/extr_critic_critic_opt_loss": 15691.821885850695, "train/extr_critic_mag": 12.182343337270948, "train/extr_critic_max": 12.182343337270948, "train/extr_critic_mean": 3.8241264323393502, "train/extr_critic_min": -0.39653992652893066, "train/extr_critic_std": 2.9643163250552282, "train/extr_return_normed_mag": 1.381506202949418, "train/extr_return_normed_max": 1.381506202949418, "train/extr_return_normed_mean": 0.40670884773135185, "train/extr_return_normed_min": -0.0838766741928541, "train/extr_return_normed_std": 0.32075310746828717, "train/extr_return_rate": 0.8618833646178246, "train/extr_return_raw_mag": 12.931764324506124, "train/extr_return_raw_max": 12.931764324506124, "train/extr_return_raw_mean": 3.841199669573042, "train/extr_return_raw_min": -0.7342736936277814, "train/extr_return_raw_std": 2.991367760631773, "train/extr_reward_mag": 1.0682833459642198, "train/extr_reward_max": 1.0682833459642198, "train/extr_reward_mean": 0.061431272265811764, "train/extr_reward_min": -0.6094197813007567, "train/extr_reward_std": 0.2389954086393118, "train/image_loss_mean": 3.2548552503188453, "train/image_loss_std": 8.478489809566074, "train/model_loss_mean": 6.648351331551869, "train/model_loss_std": 12.616430838902792, "train/model_opt_grad_norm": 23.525133503807915, "train/model_opt_grad_steps": 451457.55555555556, "train/model_opt_loss": 12978.365431043836, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1944.4444444444443, "train/policy_entropy_mag": 2.7011064986387887, "train/policy_entropy_max": 2.7011064986387887, "train/policy_entropy_mean": 0.37937058115171063, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5753480022152265, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37897356620265377, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0079397989643946, "train/policy_randomness_mag": 0.9533720571133826, "train/policy_randomness_max": 0.9533720571133826, "train/policy_randomness_mean": 0.13390116724703047, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20307259572048983, "train/post_ent_mag": 55.89598920610216, "train/post_ent_max": 55.89598920610216, "train/post_ent_mean": 40.47943449020386, "train/post_ent_min": 19.537756270832485, "train/post_ent_std": 5.8343943158785505, "train/prior_ent_mag": 76.7442962858412, "train/prior_ent_max": 76.7442962858412, "train/prior_ent_mean": 46.02636427349515, "train/prior_ent_min": 27.580605427424114, "train/prior_ent_std": 7.784468723667993, "train/rep_loss_mean": 5.557311919000414, "train/rep_loss_std": 8.871597256925371, "train/reward_avg": 0.04387885158778065, "train/reward_loss_mean": 0.05907948206489285, "train/reward_loss_std": 0.21216914885573918, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0246918300787609, "train/reward_neg_acc": 0.9934106700950198, "train/reward_neg_loss": 0.02504079995883836, "train/reward_pos_acc": 0.9918753587537341, "train/reward_pos_loss": 0.7266816703809632, "train/reward_pred": 0.04334167960203356, "train/reward_rate": 0.048516167534722224, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.36904245242476463, "replay/size": 905401.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.3375259538421954e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4223607693280277e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8178377151489, "timer/env.step_count": 1427.0, "timer/env.step_total": 23.057836055755615, "timer/env.step_frac": 0.07665049463452893, "timer/env.step_avg": 0.016158259324285645, "timer/env.step_min": 0.002852201461791992, "timer/env.step_max": 2.6751317977905273, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2877998352050781, "timer/replay.add_frac": 0.000956724632392319, "timer/replay.add_avg": 0.00020168173455156142, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.005133152008056641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022906780242919922, "timer/logger.write_frac": 7.614834418366793e-05, "timer/logger.write_avg": 0.022906780242919922, "timer/logger.write_min": 0.022906780242919922, "timer/logger.write_max": 0.022906780242919922, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005509853363037109, "timer/checkpoint.save_frac": 1.8316245488921144e-06, "timer/checkpoint.save_avg": 0.0005509853363037109, "timer/checkpoint.save_min": 0.0005509853363037109, "timer/checkpoint.save_max": 0.0005509853363037109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4335379600524902, "timer/agent.save_frac": 0.004765468600335925, "timer/agent.save_avg": 1.4335379600524902, "timer/agent.save_min": 1.4335379600524902, "timer/agent.save_max": 1.4335379600524902, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.940696716308594e-05, "timer/replay.save_frac": 2.972129839180194e-07, "timer/replay.save_avg": 8.940696716308594e-05, "timer/replay.save_min": 8.940696716308594e-05, "timer/replay.save_max": 8.940696716308594e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 11.817219495773315, "timer/agent.policy_frac": 0.03928363951263855, "timer/agent.policy_avg": 0.008281162926260207, "timer/agent.policy_min": 0.005706071853637695, "timer/agent.policy_max": 1.4258816242218018, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06177115440368652, "timer/dataset_frac": 0.00020534405430498108, "timer/dataset_avg": 8.663556017347339e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 713.0, "timer/agent.train_total": 264.92200922966003, "timer/agent.train_frac": 0.8806725400390669, "timer/agent.train_avg": 0.37155962023795236, "timer/agent.train_min": 0.36316776275634766, "timer/agent.train_max": 0.8705847263336182, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677279472351074, "timer/agent.report_frac": 0.0007206115048562303, "timer/agent.report_avg": 0.21677279472351074, "timer/agent.report_min": 0.21677279472351074, "timer/agent.report_max": 0.21677279472351074, "fps": 4.7436657648320075}
+{"step": 905510, "episode/length": 46.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.0851063829787234}
+{"step": 905759, "episode/length": 248.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.05622489959839357}
+{"step": 905916, "episode/length": 156.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05732484076433121}
+{"step": 906105, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
+{"step": 906338, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.060085836909871244}
+{"step": 906521, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07650273224043716}
+{"step": 906718, "episode/length": 196.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.08629441624365482}
+{"step": 906795, "episode/length": 76.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.07792207792207792}
+{"step": 906911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408079359266493, "train/action_min": 0.0, "train/action_std": 3.251205782095591, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038296864833682775, "train/actor_opt_grad_steps": 452545.0, "train/actor_opt_loss": -12.993763834238052, "train/adv_mag": 0.3879939851661523, "train/adv_max": 0.32137650230692494, "train/adv_mean": 0.0016609750422149874, "train/adv_min": -0.3481801628238625, "train/adv_std": 0.04376470080266396, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 4.2001076136660094e-05, "train/cont_loss_std": 0.0012896381968670785, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0037302058150627815, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.278512501162115e-05, "train/cont_pred": 0.9945504201783074, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.46790196498235, "train/dyn_loss_std": 8.833759718471104, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9184014855159653, "train/extr_critic_critic_opt_grad_steps": 452545.0, "train/extr_critic_critic_opt_loss": 15446.400729709201, "train/extr_critic_mag": 12.169123358196682, "train/extr_critic_max": 12.169123358196682, "train/extr_critic_mean": 3.9144293698999615, "train/extr_critic_min": -0.37488920489947003, "train/extr_critic_std": 2.977150645520952, "train/extr_return_normed_mag": 1.3850151615010367, "train/extr_return_normed_max": 1.3850151615010367, "train/extr_return_normed_mean": 0.41658977833059097, "train/extr_return_normed_min": -0.07915903653742538, "train/extr_return_normed_std": 0.32311179778642124, "train/extr_return_rate": 0.8634856484002538, "train/extr_return_raw_mag": 12.93164481057061, "train/extr_return_raw_max": 12.93164481057061, "train/extr_return_raw_mean": 3.9298548731538983, "train/extr_return_raw_min": -0.6784826670255926, "train/extr_return_raw_std": 3.0036207967334323, "train/extr_reward_mag": 1.0776327815320756, "train/extr_reward_max": 1.0776327815320756, "train/extr_reward_mean": 0.0630176894677182, "train/extr_reward_min": -0.6429850227302976, "train/extr_reward_std": 0.24158848449587822, "train/image_loss_mean": 3.143710422847006, "train/image_loss_std": 8.238614737987518, "train/model_loss_mean": 6.484788676102956, "train/model_loss_std": 12.383918205897013, "train/model_opt_grad_norm": 23.905227263768513, "train/model_opt_grad_steps": 452177.0, "train/model_opt_loss": 8505.743401421441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.6742195619477167, "train/policy_entropy_max": 2.6742195619477167, "train/policy_entropy_mean": 0.376401425856683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5745385343001949, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37629967162178624, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0065770687328444, "train/policy_randomness_mag": 0.9438821491267946, "train/policy_randomness_max": 0.9438821491267946, "train/policy_randomness_mean": 0.13285318368838894, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20278688934114245, "train/post_ent_mag": 56.2042949464586, "train/post_ent_max": 56.2042949464586, "train/post_ent_mean": 40.537426153818764, "train/post_ent_min": 19.550773633850945, "train/post_ent_std": 5.846406963136461, "train/prior_ent_mag": 76.72849877675374, "train/prior_ent_max": 76.72849877675374, "train/prior_ent_mean": 46.003878911336265, "train/prior_ent_min": 28.191025336583454, "train/prior_ent_std": 7.832160194714864, "train/rep_loss_mean": 5.46790196498235, "train/rep_loss_std": 8.833759718471104, "train/reward_avg": 0.044090440263971686, "train/reward_loss_mean": 0.06029513876678215, "train/reward_loss_std": 0.22452249916063416, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0263799511724048, "train/reward_neg_acc": 0.9931409416927232, "train/reward_neg_loss": 0.026373419522618253, "train/reward_pos_acc": 0.9902764252490468, "train/reward_pos_loss": 0.7191891123851141, "train/reward_pred": 0.04385445978389018, "train/reward_rate": 0.04896375868055555, "stats/sum_log_reward": 9.975000023841858, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33391098864376545, "replay/size": 906848.0, "replay/inserts": 1447.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2508628650130116e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4377150746340252e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.380845785141, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.416173458099365, "timer/env.step_frac": 0.06796762757869995, "timer/env.step_avg": 0.014109311304837157, "timer/env.step_min": 0.0028285980224609375, "timer/env.step_max": 1.6559953689575195, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2685248851776123, "timer/replay.add_frac": 0.0008939480960436642, "timer/replay.add_avg": 0.0001855735212008378, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.005809307098388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03072214126586914, "timer/logger.write_frac": 0.00010227729796008477, "timer/logger.write_avg": 0.03072214126586914, "timer/logger.write_min": 0.03072214126586914, "timer/logger.write_max": 0.03072214126586914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.606279611587524, "timer/agent.policy_frac": 0.03530944053328246, "timer/agent.policy_avg": 0.007329840782023168, "timer/agent.policy_min": 0.0056874752044677734, "timer/agent.policy_max": 0.019382715225219727, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06405186653137207, "timer/dataset_frac": 0.00021323552227157534, "timer/dataset_avg": 8.84694289107349e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0010030269622802734, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.3459119796753, "timer/agent.train_frac": 0.89335227510352, "timer/agent.train_avg": 0.37064352483380564, "timer/agent.train_min": 0.3635268211364746, "timer/agent.train_max": 0.38550806045532227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21799659729003906, "timer/agent.report_frac": 0.0007257340151641012, "timer/agent.report_avg": 0.21799659729003906, "timer/agent.report_min": 0.21799659729003906, "timer/agent.report_max": 0.21799659729003906, "fps": 4.817158135968629}
+{"step": 906965, "episode/length": 169.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.07647058823529412}
+{"step": 907177, "episode/length": 211.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.08018867924528301}
+{"step": 907326, "episode/length": 148.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.087248322147651}
+{"step": 907581, "episode/length": 254.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.054901960784313725}
+{"step": 907753, "episode/length": 171.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05232558139534884}
+{"step": 908143, "episode/length": 389.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.035897435897435895}
+{"step": 908316, "episode/length": 172.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08092485549132948}
+{"step": 908365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.388954476134418, "train/action_min": 0.0, "train/action_std": 3.287653929566684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038946552942060446, "train/actor_opt_grad_steps": 453270.0, "train/actor_opt_loss": -12.004414339588113, "train/adv_mag": 0.40281031780863463, "train/adv_max": 0.3142963629471113, "train/adv_mean": 0.002208177199575664, "train/adv_min": -0.3584001162280775, "train/adv_std": 0.04370169622236735, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 2.6878025823623648e-05, "train/cont_loss_std": 0.0008253111260797971, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001410163723428553, "train/cont_pos_acc": 0.9999865595608541, "train/cont_pos_loss": 1.7150029891637132e-05, "train/cont_pred": 0.995059998884593, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.545221714124287, "train/dyn_loss_std": 8.930952842921426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9291234220543952, "train/extr_critic_critic_opt_grad_steps": 453270.0, "train/extr_critic_critic_opt_loss": 15593.67499197346, "train/extr_critic_mag": 12.109870179058754, "train/extr_critic_max": 12.109870179058754, "train/extr_critic_mean": 3.7664824740527427, "train/extr_critic_min": -0.39249424901727126, "train/extr_critic_std": 2.863841566320968, "train/extr_return_normed_mag": 1.385809401943259, "train/extr_return_normed_max": 1.385809401943259, "train/extr_return_normed_mean": 0.40348703608120956, "train/extr_return_normed_min": -0.077413327864384, "train/extr_return_normed_std": 0.31146665897271403, "train/extr_return_rate": 0.8689400063802118, "train/extr_return_raw_mag": 12.906474492321276, "train/extr_return_raw_max": 12.906474492321276, "train/extr_return_raw_mean": 3.786990035070132, "train/extr_return_raw_min": -0.6776629073979104, "train/extr_return_raw_std": 2.891619538607663, "train/extr_reward_mag": 1.074805445867042, "train/extr_reward_max": 1.074805445867042, "train/extr_reward_mean": 0.06142874000823661, "train/extr_reward_min": -0.61303944783668, "train/extr_reward_std": 0.23782839125966374, "train/image_loss_mean": 3.239841938018799, "train/image_loss_std": 8.467402366742697, "train/model_loss_mean": 6.624877746791055, "train/model_loss_std": 12.67338450967449, "train/model_opt_grad_norm": 23.823019367374787, "train/model_opt_grad_steps": 452902.0, "train/model_opt_loss": 16562.194402825342, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6475107898450876, "train/policy_entropy_max": 2.6475107898450876, "train/policy_entropy_mean": 0.3783846815971479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5628381379663128, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3794681423739211, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.007204241132083, "train/policy_randomness_mag": 0.9344551269322225, "train/policy_randomness_max": 0.9344551269322225, "train/policy_randomness_mean": 0.13355318701838795, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19865716483495008, "train/post_ent_mag": 55.53663509839202, "train/post_ent_max": 55.53663509839202, "train/post_ent_mean": 40.217078640036384, "train/post_ent_min": 19.530228053053765, "train/post_ent_std": 5.788821912791631, "train/prior_ent_mag": 76.75972319302494, "train/prior_ent_max": 76.75972319302494, "train/prior_ent_mean": 45.7548286751525, "train/prior_ent_min": 27.88068622432343, "train/prior_ent_std": 7.868207604917761, "train/rep_loss_mean": 5.545221714124287, "train/rep_loss_std": 8.930952842921426, "train/reward_avg": 0.04206977669813045, "train/reward_loss_mean": 0.05787593350835042, "train/reward_loss_std": 0.2173451005596004, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0334935743514806, "train/reward_neg_acc": 0.9940117785375412, "train/reward_neg_loss": 0.025276453642506306, "train/reward_pos_acc": 0.9892411828041077, "train/reward_pos_loss": 0.7258168532423777, "train/reward_pred": 0.04172501820203376, "train/reward_rate": 0.04647367294520548, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 19.571428571428573, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4576969934361322, "replay/size": 908302.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.269482839550244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4343033794523762e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29040241241455, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.826492071151733, "timer/env.step_frac": 0.06269428499847857, "timer/env.step_avg": 0.01294806882472609, "timer/env.step_min": 0.002842426300048828, "timer/env.step_max": 1.7161457538604736, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2693028450012207, "timer/replay.add_frac": 0.00089680803261692, "timer/replay.add_avg": 0.00018521516162394821, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005415678024291992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023531436920166016, "timer/logger.write_frac": 7.836226776188563e-05, "timer/logger.write_avg": 0.023531436920166016, "timer/logger.write_min": 0.023531436920166016, "timer/logger.write_max": 0.023531436920166016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.666781902313232, "timer/agent.policy_frac": 0.03552155452395587, "timer/agent.policy_avg": 0.007336163619197546, "timer/agent.policy_min": 0.0055959224700927734, "timer/agent.policy_max": 0.014821767807006836, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06356024742126465, "timer/dataset_frac": 0.0002116626003050604, "timer/dataset_avg": 8.742812575139567e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7745921611786, "timer/agent.train_frac": 0.8983790024386927, "timer/agent.train_avg": 0.3710792189287188, "timer/agent.train_min": 0.36343860626220703, "timer/agent.train_max": 0.38963961601257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22244644165039062, "timer/agent.report_frac": 0.0007407710664854545, "timer/agent.report_avg": 0.22244644165039062, "timer/agent.report_min": 0.22244644165039062, "timer/agent.report_max": 0.22244644165039062, "fps": 4.841882481603837}
+{"step": 908514, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05555555555555555}
+{"step": 908736, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06306306306306306}
+{"step": 908949, "episode/length": 212.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06572769953051644}
+{"step": 909131, "episode/length": 181.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06043956043956044}
+{"step": 909400, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.055762081784386616}
+{"step": 909582, "episode/length": 181.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08241758241758242}
+{"step": 909756, "episode/length": 173.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08620689655172414}
+{"step": 909781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387818242462588, "train/action_min": 0.0, "train/action_std": 3.2460269256376884, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03792385373946647, "train/actor_opt_grad_steps": 453990.0, "train/actor_opt_loss": -12.784603023193252, "train/adv_mag": 0.3941356229110503, "train/adv_max": 0.33946081009549156, "train/adv_mean": 0.001582380726279258, "train/adv_min": -0.3372410609268806, "train/adv_std": 0.04268112925576492, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 0.00010966720975962859, "train/cont_loss_std": 0.0033754809076920627, "train/cont_neg_acc": 0.9920634946352999, "train/cont_neg_loss": 0.014254074256061705, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.795259049926321e-05, "train/cont_pred": 0.9945940022737207, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 5.682991148720325, "train/dyn_loss_std": 9.011017611328985, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9061609556977178, "train/extr_critic_critic_opt_grad_steps": 453990.0, "train/extr_critic_critic_opt_loss": 15341.774675396127, "train/extr_critic_mag": 12.091712038281937, "train/extr_critic_max": 12.091712038281937, "train/extr_critic_mean": 3.832087217921942, "train/extr_critic_min": -0.38674737869853704, "train/extr_critic_std": 2.938877438155698, "train/extr_return_normed_mag": 1.3752081629256128, "train/extr_return_normed_max": 1.3752081629256128, "train/extr_return_normed_mean": 0.40856516403211673, "train/extr_return_normed_min": -0.08173462732786864, "train/extr_return_normed_std": 0.31770954459485873, "train/extr_return_rate": 0.8612823259662574, "train/extr_return_raw_mag": 12.866107457120654, "train/extr_return_raw_max": 12.866107457120654, "train/extr_return_raw_mean": 3.846871903244878, "train/extr_return_raw_min": -0.7274343560279255, "train/extr_return_raw_std": 2.9643466069664752, "train/extr_reward_mag": 1.068494434088049, "train/extr_reward_max": 1.068494434088049, "train/extr_reward_mean": 0.062347115502810815, "train/extr_reward_min": -0.6098422970570309, "train/extr_reward_std": 0.24040995706135118, "train/image_loss_mean": 3.5145072298990168, "train/image_loss_std": 9.253643647046156, "train/model_loss_mean": 6.983766502058002, "train/model_loss_std": 13.446451428910377, "train/model_opt_grad_norm": 22.31249657483168, "train/model_opt_grad_steps": 453621.3943661972, "train/model_opt_loss": 18507.928628411093, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.6778935177225462, "train/policy_entropy_max": 2.6778935177225462, "train/policy_entropy_mean": 0.39003477717789126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.589417320741734, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.389967335781581, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.017900930324071, "train/policy_randomness_mag": 0.945178896608487, "train/policy_randomness_max": 0.945178896608487, "train/policy_randomness_mean": 0.13766515832132017, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2080384480281615, "train/post_ent_mag": 55.277448251213826, "train/post_ent_max": 55.277448251213826, "train/post_ent_mean": 40.37250411342567, "train/post_ent_min": 19.58378181994801, "train/post_ent_std": 5.882653478165747, "train/prior_ent_mag": 76.53711592983193, "train/prior_ent_max": 76.53711592983193, "train/prior_ent_mean": 46.057528106259625, "train/prior_ent_min": 27.652708187909194, "train/prior_ent_std": 7.870067253918715, "train/rep_loss_mean": 5.682991148720325, "train/rep_loss_std": 9.011017611328985, "train/reward_avg": 0.04415437914955784, "train/reward_loss_mean": 0.05935497041529333, "train/reward_loss_std": 0.21716276146996188, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0280285200602572, "train/reward_neg_acc": 0.9935920129359608, "train/reward_neg_loss": 0.02534589558367578, "train/reward_pos_acc": 0.9919370312086293, "train/reward_pos_loss": 0.7187838932158241, "train/reward_pred": 0.04377274296548165, "train/reward_rate": 0.04900693221830986, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3498226489339556, "replay/size": 909718.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.371871797378454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3721906869424938e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2279739379883, "timer/env.step_count": 1416.0, "timer/env.step_total": 21.553531408309937, "timer/env.step_frac": 0.0717905501129678, "timer/env.step_avg": 0.015221420486094588, "timer/env.step_min": 0.002902984619140625, "timer/env.step_max": 2.658891201019287, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2509932518005371, "timer/replay.add_frac": 0.0008360088785476714, "timer/replay.add_avg": 0.00017725512132806294, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.004326820373535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02746891975402832, "timer/logger.write_frac": 9.1493538705697e-05, "timer/logger.write_avg": 0.02746891975402832, "timer/logger.write_min": 0.02746891975402832, "timer/logger.write_max": 0.02746891975402832, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038313865661621094, "timer/checkpoint.save_frac": 1.2761590853467497e-06, "timer/checkpoint.save_avg": 0.00038313865661621094, "timer/checkpoint.save_min": 0.00038313865661621094, "timer/checkpoint.save_max": 0.00038313865661621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1898884773254395, "timer/agent.save_frac": 0.0039632831735100385, "timer/agent.save_avg": 1.1898884773254395, "timer/agent.save_min": 1.1898884773254395, "timer/agent.save_max": 1.1898884773254395, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.988380432128906e-05, "timer/replay.save_frac": 2.993851743470595e-07, "timer/replay.save_avg": 8.988380432128906e-05, "timer/replay.save_min": 8.988380432128906e-05, "timer/replay.save_max": 8.988380432128906e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.514750719070435, "timer/agent.policy_frac": 0.038353357177332154, "timer/agent.policy_avg": 0.008131886101038443, "timer/agent.policy_min": 0.005703449249267578, "timer/agent.policy_max": 1.1902434825897217, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0600893497467041, "timer/dataset_frac": 0.0002001457391146219, "timer/dataset_avg": 8.487196291907359e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 266.1697916984558, "timer/agent.train_frac": 0.8865589312254856, "timer/agent.train_avg": 0.3759460334723952, "timer/agent.train_min": 0.36284756660461426, "timer/agent.train_max": 2.8565709590911865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218170166015625, "timer/agent.report_frac": 0.0007388286097796421, "timer/agent.report_avg": 0.2218170166015625, "timer/agent.report_min": 0.2218170166015625, "timer/agent.report_max": 0.2218170166015625, "fps": 4.716321535833692}
+{"step": 909967, "episode/length": 210.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.052132701421800945}
+{"step": 910157, "episode/length": 189.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07894736842105263}
+{"step": 910413, "episode/length": 255.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0546875}
+{"step": 910574, "episode/length": 160.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.08074534161490683}
+{"step": 910792, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06880733944954129}
+{"step": 910991, "episode/length": 198.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07537688442211055}
+{"step": 911191, "episode/length": 199.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06}
+{"step": 911231, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387172275119358, "train/action_min": 0.0, "train/action_std": 3.2125428517659507, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03912072815001011, "train/actor_opt_grad_steps": 454705.0, "train/actor_opt_loss": -12.08956592116091, "train/adv_mag": 0.4177635999189483, "train/adv_max": 0.3648575734761026, "train/adv_mean": 0.0019417906289365622, "train/adv_min": -0.35058256466355586, "train/adv_std": 0.04424002533778548, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 2.8521618596677456e-05, "train/cont_loss_std": 0.0008473280491203797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004434043512756484, "train/cont_pos_acc": 0.999986346397135, "train/cont_pos_loss": 1.9685248836479968e-05, "train/cont_pred": 0.9946199407180151, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.472628447744581, "train/dyn_loss_std": 8.861308329635197, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.927234884765413, "train/extr_critic_critic_opt_grad_steps": 454705.0, "train/extr_critic_critic_opt_loss": 15531.559380425348, "train/extr_critic_mag": 12.186719245380825, "train/extr_critic_max": 12.186719245380825, "train/extr_critic_mean": 3.892597049474716, "train/extr_critic_min": -0.37923094630241394, "train/extr_critic_std": 2.940617667304145, "train/extr_return_normed_mag": 1.3945867932505078, "train/extr_return_normed_max": 1.3945867932505078, "train/extr_return_normed_mean": 0.4152980306082302, "train/extr_return_normed_min": -0.08051733124173349, "train/extr_return_normed_std": 0.3184251435514953, "train/extr_return_rate": 0.8687048388852013, "train/extr_return_raw_mag": 13.049800316492716, "train/extr_return_raw_max": 13.049800316492716, "train/extr_return_raw_mean": 3.9106990562544928, "train/extr_return_raw_min": -0.7168479437629381, "train/extr_return_raw_std": 2.971784465842777, "train/extr_reward_mag": 1.070609387424257, "train/extr_reward_max": 1.070609387424257, "train/extr_reward_mean": 0.06422882314978375, "train/extr_reward_min": -0.6318677912155787, "train/extr_reward_std": 0.24336729302174515, "train/image_loss_mean": 3.060735676023695, "train/image_loss_std": 8.18293140331904, "train/model_loss_mean": 6.402881013022529, "train/model_loss_std": 12.352089444796244, "train/model_opt_grad_norm": 22.08233512772454, "train/model_opt_grad_steps": 454335.8333333333, "train/model_opt_loss": 16630.132500542535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.671683179007636, "train/policy_entropy_max": 2.671683179007636, "train/policy_entropy_mean": 0.3742929388665491, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5757860127422545, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3754429821338918, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0077045990361109, "train/policy_randomness_mag": 0.942986917992433, "train/policy_randomness_max": 0.942986917992433, "train/policy_randomness_mean": 0.13210898327330747, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20322719392263228, "train/post_ent_mag": 55.12983179092407, "train/post_ent_max": 55.12983179092407, "train/post_ent_mean": 40.17756854163276, "train/post_ent_min": 19.675151718987358, "train/post_ent_std": 5.722142722871569, "train/prior_ent_mag": 76.61681079864502, "train/prior_ent_max": 76.61681079864502, "train/prior_ent_mean": 45.676665200127495, "train/prior_ent_min": 28.174836105770535, "train/prior_ent_std": 7.76154002878401, "train/rep_loss_mean": 5.472628447744581, "train/rep_loss_std": 8.861308329635197, "train/reward_avg": 0.04293619722334875, "train/reward_loss_mean": 0.05853975877269275, "train/reward_loss_std": 0.22025389203594792, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.037046213944753, "train/reward_neg_acc": 0.9938008594844077, "train/reward_neg_loss": 0.02514903350836701, "train/reward_pos_acc": 0.990368016064167, "train/reward_pos_loss": 0.724036257300112, "train/reward_pred": 0.04258013361444076, "train/reward_rate": 0.047810872395833336, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.142857142857142, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.40076397146497456, "replay/size": 911168.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.406097149026805e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300655562302162e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.003342628479, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.831451654434204, "timer/env.step_frac": 0.0627708061165001, "timer/env.step_avg": 0.01298720803754083, "timer/env.step_min": 0.002884387969970703, "timer/env.step_max": 1.7009758949279785, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.24896979331970215, "timer/replay.add_frac": 0.0008298900643517954, "timer/replay.add_avg": 0.00017170330573772563, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0033164024353027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028865337371826172, "timer/logger.write_frac": 9.621671918360158e-05, "timer/logger.write_avg": 0.028865337371826172, "timer/logger.write_min": 0.028865337371826172, "timer/logger.write_max": 0.028865337371826172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.56522250175476, "timer/agent.policy_frac": 0.035217015947847694, "timer/agent.policy_avg": 0.007286360346037766, "timer/agent.policy_min": 0.005680084228515625, "timer/agent.policy_max": 0.01940131187438965, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059221506118774414, "timer/dataset_frac": 0.00019740282091494461, "timer/dataset_avg": 8.168483602589574e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.611629486084, "timer/agent.train_frac": 0.8986954182706164, "timer/agent.train_avg": 0.3718781096359779, "timer/agent.train_min": 0.3639965057373047, "timer/agent.train_max": 0.3854207992553711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193312644958496, "timer/agent.report_frac": 0.0007310960690443611, "timer/agent.report_avg": 0.2193312644958496, "timer/agent.report_min": 0.2193312644958496, "timer/agent.report_max": 0.2193312644958496, "fps": 4.833217816199776}
+{"step": 911355, "episode/length": 163.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.07926829268292683}
+{"step": 911510, "episode/length": 154.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.09032258064516129}
+{"step": 911740, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06521739130434782}
+{"step": 911964, "episode/length": 223.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0625}
+{"step": 912166, "episode/length": 201.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.054455445544554455}
+{"step": 912375, "episode/length": 208.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.500000059604645, "episode/reward_rate": 0.04784688995215311}
+{"step": 912650, "episode/length": 274.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05090909090909091}
+{"step": 912681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379966422303082, "train/action_min": 0.0, "train/action_std": 3.27951590982202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03814866689786519, "train/actor_opt_grad_steps": 455430.0, "train/actor_opt_loss": -11.241813504532592, "train/adv_mag": 0.410846937805006, "train/adv_max": 0.32951812262404456, "train/adv_mean": 0.0018860431758446494, "train/adv_min": -0.3712196744059863, "train/adv_std": 0.04269175001815574, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 0.0001386511641082463, "train/cont_loss_std": 0.0043679284438935175, "train/cont_neg_acc": 0.9885416668322351, "train/cont_neg_loss": 0.02850834813192973, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 8.704958297008887e-06, "train/cont_pred": 0.9952905463845763, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.5865418225118555, "train/dyn_loss_std": 8.940732341923125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9358361592031506, "train/extr_critic_critic_opt_grad_steps": 455430.0, "train/extr_critic_critic_opt_loss": 15462.49406035959, "train/extr_critic_mag": 12.056748677606452, "train/extr_critic_max": 12.056748677606452, "train/extr_critic_mean": 3.732707150994915, "train/extr_critic_min": -0.35580695818548336, "train/extr_critic_std": 2.8587341177953434, "train/extr_return_normed_mag": 1.3912229537963867, "train/extr_return_normed_max": 1.3912229537963867, "train/extr_return_normed_mean": 0.40170079143079995, "train/extr_return_normed_min": -0.07845132471355673, "train/extr_return_normed_std": 0.3111062523436873, "train/extr_return_rate": 0.8632322435509668, "train/extr_return_raw_mag": 12.913505436622934, "train/extr_return_raw_max": 12.913505436622934, "train/extr_return_raw_mean": 3.750150095926572, "train/extr_return_raw_min": -0.6954847214973137, "train/extr_return_raw_std": 2.8811463623830718, "train/extr_reward_mag": 1.0708452642780462, "train/extr_reward_max": 1.0708452642780462, "train/extr_reward_mean": 0.06183540795559753, "train/extr_reward_min": -0.5725355589226501, "train/extr_reward_std": 0.23849941606390967, "train/image_loss_mean": 3.320748423876828, "train/image_loss_std": 8.690180366986418, "train/model_loss_mean": 6.73098441346051, "train/model_loss_std": 12.826167276460831, "train/model_opt_grad_norm": 24.39814998678965, "train/model_opt_grad_steps": 455059.2191780822, "train/model_opt_loss": 10310.551028735017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1523.972602739726, "train/policy_entropy_mag": 2.692058896365231, "train/policy_entropy_max": 2.692058896365231, "train/policy_entropy_mean": 0.390309187443289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5926838064030425, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3900189234377587, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0173238638329178, "train/policy_randomness_mag": 0.9501786485110244, "train/policy_randomness_max": 0.9501786485110244, "train/policy_randomness_mean": 0.1377620137717626, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20919137580754005, "train/post_ent_mag": 55.36955721084386, "train/post_ent_max": 55.36955721084386, "train/post_ent_mean": 40.42786104385167, "train/post_ent_min": 19.123580148775282, "train/post_ent_std": 5.881965310606238, "train/prior_ent_mag": 76.73644392457727, "train/prior_ent_max": 76.73644392457727, "train/prior_ent_mean": 45.99688501227392, "train/prior_ent_min": 28.08736484997893, "train/prior_ent_std": 7.752894891451483, "train/rep_loss_mean": 5.5865418225118555, "train/rep_loss_std": 8.940732341923125, "train/reward_avg": 0.04415266476061246, "train/reward_loss_mean": 0.058172230544972094, "train/reward_loss_std": 0.21877215210705586, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.02954929495511, "train/reward_neg_acc": 0.9934416739907983, "train/reward_neg_loss": 0.024409522404511497, "train/reward_pos_acc": 0.9881276594449396, "train/reward_pos_loss": 0.7280177833282784, "train/reward_pred": 0.043966070557497954, "train/reward_rate": 0.048279644691780824, "stats/sum_log_reward": 11.81428609575544, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36370772974831717, "replay/size": 912618.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3993556581694505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3061638536124395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29719829559326, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.809349060058594, "timer/env.step_frac": 0.0626357793772817, "timer/env.step_avg": 0.012971964869005927, "timer/env.step_min": 0.002701282501220703, "timer/env.step_max": 1.657261610031128, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26805853843688965, "timer/replay.add_frac": 0.0008926441537194432, "timer/replay.add_avg": 0.0001848679575426825, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0042934417724609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02316880226135254, "timer/logger.write_frac": 7.715290849482605e-05, "timer/logger.write_avg": 0.02316880226135254, "timer/logger.write_min": 0.02316880226135254, "timer/logger.write_max": 0.02316880226135254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.722581624984741, "timer/agent.policy_frac": 0.03570656564844178, "timer/agent.policy_avg": 0.007394883879299822, "timer/agent.policy_min": 0.005693912506103516, "timer/agent.policy_max": 0.017612695693969727, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05848979949951172, "timer/dataset_frac": 0.00019477304427575152, "timer/dataset_avg": 8.067558551656788e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.75318694114685, "timer/agent.train_frac": 0.898287391531436, "timer/agent.train_avg": 0.37207336129813356, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.3858506679534912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915054321289062, "timer/agent.report_frac": 0.0007297788472777322, "timer/agent.report_avg": 0.21915054321289062, "timer/agent.report_min": 0.21915054321289062, "timer/agent.report_max": 0.21915054321289062, "fps": 4.828468100621167}
+{"step": 912846, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.0663265306122449}
+{"step": 913030, "episode/length": 183.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08152173913043478}
+{"step": 913199, "episode/length": 168.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.05917159763313609}
+{"step": 913419, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06818181818181818}
+{"step": 913654, "episode/length": 234.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06382978723404255}
+{"step": 913892, "episode/length": 237.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06722689075630252}
+{"step": 914113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390950807383363, "train/action_min": 0.0, "train/action_std": 3.267501085576877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03912569913016239, "train/actor_opt_grad_steps": 456150.0, "train/actor_opt_loss": -10.730843187217982, "train/adv_mag": 0.4043688354357867, "train/adv_max": 0.34666631717077445, "train/adv_mean": 0.0026025132845487104, "train/adv_min": -0.360239746075281, "train/adv_std": 0.04358302974994754, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 1.6210650198039454e-05, "train/cont_loss_std": 0.00046142075575477054, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.501444961793676e-05, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 1.5945308729154912e-05, "train/cont_pred": 0.9948693547450321, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 5.4186245286968395, "train/dyn_loss_std": 8.83079340760137, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8962024500672247, "train/extr_critic_critic_opt_grad_steps": 456150.0, "train/extr_critic_critic_opt_loss": 15518.394008582747, "train/extr_critic_mag": 12.09881842975885, "train/extr_critic_max": 12.09881842975885, "train/extr_critic_mean": 3.767234406001131, "train/extr_critic_min": -0.390342460551732, "train/extr_critic_std": 2.9118650295365023, "train/extr_return_normed_mag": 1.3894016356535361, "train/extr_return_normed_max": 1.3894016356535361, "train/extr_return_normed_mean": 0.40372389932753333, "train/extr_return_normed_min": -0.08368088955610571, "train/extr_return_normed_std": 0.31678119028957796, "train/extr_return_rate": 0.8559410303411349, "train/extr_return_raw_mag": 12.94654737391942, "train/extr_return_raw_max": 12.94654737391942, "train/extr_return_raw_mean": 3.7913958086094386, "train/extr_return_raw_min": -0.7360627525289294, "train/extr_return_raw_std": 2.942914620251723, "train/extr_reward_mag": 1.067010825788471, "train/extr_reward_max": 1.067010825788471, "train/extr_reward_mean": 0.062327200940377275, "train/extr_reward_min": -0.6165422721647881, "train/extr_reward_std": 0.2399804434725936, "train/image_loss_mean": 3.2180709268005803, "train/image_loss_std": 8.583696620565066, "train/model_loss_mean": 6.526502071971625, "train/model_loss_std": 12.687220157032282, "train/model_opt_grad_norm": 20.634543096515493, "train/model_opt_grad_steps": 455779.0, "train/model_opt_loss": 11365.403966769367, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1742.9577464788733, "train/policy_entropy_mag": 2.7057985990819797, "train/policy_entropy_max": 2.7057985990819797, "train/policy_entropy_mean": 0.37761454766904806, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5776957525333888, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37776427243796873, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0087893344986607, "train/policy_randomness_mag": 0.9550281637151476, "train/policy_randomness_max": 0.9550281637151476, "train/policy_randomness_mean": 0.13328136524683992, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20390124744932417, "train/post_ent_mag": 55.27599254124601, "train/post_ent_max": 55.27599254124601, "train/post_ent_mean": 40.54947640862263, "train/post_ent_min": 19.673388924397212, "train/post_ent_std": 5.7828522870238395, "train/prior_ent_mag": 76.72492003105056, "train/prior_ent_max": 76.72492003105056, "train/prior_ent_mean": 45.952555804185465, "train/prior_ent_min": 27.396059331759602, "train/prior_ent_std": 7.789957509913915, "train/rep_loss_mean": 5.4186245286968395, "train/rep_loss_std": 8.83079340760137, "train/reward_avg": 0.04219162584820264, "train/reward_loss_mean": 0.0572403238587816, "train/reward_loss_std": 0.21639663169921283, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0209925779154603, "train/reward_neg_acc": 0.9939658809715594, "train/reward_neg_loss": 0.024408408689876676, "train/reward_pos_acc": 0.9878607434286198, "train/reward_pos_loss": 0.7289111446326887, "train/reward_pred": 0.041859176954333215, "train/reward_rate": 0.04665492957746479, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.36309125522772473, "replay/size": 914050.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.476882114090733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3143406899947694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0080144405365, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.221989631652832, "timer/env.step_frac": 0.06740483139879905, "timer/env.step_avg": 0.01412150113942237, "timer/env.step_min": 0.003013134002685547, "timer/env.step_max": 2.520488977432251, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2835679054260254, "timer/replay.add_frac": 0.0009452011005600331, "timer/replay.add_avg": 0.00019802228032543673, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.005202293395996094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02102041244506836, "timer/logger.write_frac": 7.006616967972614e-05, "timer/logger.write_avg": 0.02102041244506836, "timer/logger.write_min": 0.02102041244506836, "timer/logger.write_max": 0.02102041244506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002281665802001953, "timer/checkpoint.save_frac": 7.605349497935476e-07, "timer/checkpoint.save_avg": 0.0002281665802001953, "timer/checkpoint.save_min": 0.0002281665802001953, "timer/checkpoint.save_max": 0.0002281665802001953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2373998165130615, "timer/agent.save_frac": 0.00412455586835105, "timer/agent.save_avg": 1.2373998165130615, "timer/agent.save_min": 1.2373998165130615, "timer/agent.save_max": 1.2373998165130615, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.128715515136719e-05, "timer/replay.save_frac": 2.376175026000739e-07, "timer/replay.save_avg": 7.128715515136719e-05, "timer/replay.save_min": 7.128715515136719e-05, "timer/replay.save_max": 7.128715515136719e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.851200819015503, "timer/agent.policy_frac": 0.039502947416641385, "timer/agent.policy_avg": 0.008275978225569485, "timer/agent.policy_min": 0.005841255187988281, "timer/agent.policy_max": 1.2326767444610596, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05958223342895508, "timer/dataset_frac": 0.00019860213914640155, "timer/dataset_avg": 8.321540981697637e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9130094051361, "timer/agent.train_frac": 0.889686263558269, "timer/agent.train_avg": 0.3727835326887376, "timer/agent.train_min": 0.3656504154205322, "timer/agent.train_max": 0.8884899616241455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21992182731628418, "timer/agent.report_frac": 0.0007330531743506942, "timer/agent.report_avg": 0.21992182731628418, "timer/agent.report_min": 0.21992182731628418, "timer/agent.report_max": 0.21992182731628418, "fps": 4.773114192639264}
+{"step": 914140, "episode/length": 247.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06048387096774194}
+{"step": 914407, "episode/length": 266.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.052434456928838954}
+{"step": 914628, "episode/length": 220.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07239819004524888}
+{"step": 914819, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05759162303664921}
+{"step": 915013, "episode/length": 193.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07216494845360824}
+{"step": 915223, "episode/length": 209.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.07142857142857142}
+{"step": 915520, "episode/length": 296.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04713804713804714}
+{"step": 915557, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3682607014973955, "train/action_min": 0.0, "train/action_std": 3.2220450010564594, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03898951594924761, "train/actor_opt_grad_steps": 456865.0, "train/actor_opt_loss": -12.893942835430304, "train/adv_mag": 0.40558697117699516, "train/adv_max": 0.3436376303434372, "train/adv_mean": 0.0016408885250914157, "train/adv_min": -0.3545904869420661, "train/adv_std": 0.043177534360438585, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 0.00010888934608773344, "train/cont_loss_std": 0.0034521199597258422, "train/cont_neg_acc": 0.9918981492519379, "train/cont_neg_loss": 0.020304766701702694, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.4285232825045963e-05, "train/cont_pred": 0.9953021109104156, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.4826904733975725, "train/dyn_loss_std": 8.812451104323069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8964480252729522, "train/extr_critic_critic_opt_grad_steps": 456865.0, "train/extr_critic_critic_opt_loss": 15514.145602756076, "train/extr_critic_mag": 12.143730190065172, "train/extr_critic_max": 12.143730190065172, "train/extr_critic_mean": 3.7124859425756664, "train/extr_critic_min": -0.3664385461144977, "train/extr_critic_std": 2.846483485566245, "train/extr_return_normed_mag": 1.379010933968756, "train/extr_return_normed_max": 1.379010933968756, "train/extr_return_normed_mean": 0.39742691732115215, "train/extr_return_normed_min": -0.08208490106173688, "train/extr_return_normed_std": 0.3105847556143999, "train/extr_return_rate": 0.8692265724142393, "train/extr_return_raw_mag": 12.807836108737522, "train/extr_return_raw_max": 12.807836108737522, "train/extr_return_raw_mean": 3.72766003674931, "train/extr_return_raw_min": -0.7082841723329492, "train/extr_return_raw_std": 2.8729816476504006, "train/extr_reward_mag": 1.07986781001091, "train/extr_reward_max": 1.07986781001091, "train/extr_reward_mean": 0.06099040382024315, "train/extr_reward_min": -0.607100225157208, "train/extr_reward_std": 0.23716056243413025, "train/image_loss_mean": 3.1136397603485317, "train/image_loss_std": 8.466731601291233, "train/model_loss_mean": 6.45957436826494, "train/model_loss_std": 12.550315645005968, "train/model_opt_grad_norm": 23.784600112173294, "train/model_opt_grad_steps": 456494.0, "train/model_opt_loss": 16148.935913085938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.690553297599157, "train/policy_entropy_max": 2.690553297599157, "train/policy_entropy_mean": 0.3816751411391629, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5815626987152629, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3812136556953192, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0103604040212102, "train/policy_randomness_mag": 0.9496472411685519, "train/policy_randomness_max": 0.9496472411685519, "train/policy_randomness_mean": 0.1347145757948359, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20526611359996927, "train/post_ent_mag": 55.19526386260986, "train/post_ent_max": 55.19526386260986, "train/post_ent_mean": 40.371801164415146, "train/post_ent_min": 19.190428919262356, "train/post_ent_std": 5.731815576553345, "train/prior_ent_mag": 76.75477684868707, "train/prior_ent_max": 76.75477684868707, "train/prior_ent_mean": 45.844988134172226, "train/prior_ent_min": 28.24258303642273, "train/prior_ent_std": 7.666519853803846, "train/rep_loss_mean": 5.4826904733975725, "train/rep_loss_std": 8.812451104323069, "train/reward_avg": 0.04216037271544337, "train/reward_loss_mean": 0.05621143099334505, "train/reward_loss_std": 0.20963101358049446, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.030632068713506, "train/reward_neg_acc": 0.9937701664037175, "train/reward_neg_loss": 0.02357269625645131, "train/reward_pos_acc": 0.9902080520987511, "train/reward_pos_loss": 0.7265691541963153, "train/reward_pred": 0.041642058873549104, "train/reward_rate": 0.0465087890625, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 15.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44346970319747925, "replay/size": 915494.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.436430669557355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345686304932486e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15954875946045, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.89368510246277, "timer/env.step_frac": 0.0662770356121671, "timer/env.step_avg": 0.013776790237162582, "timer/env.step_min": 0.0028412342071533203, "timer/env.step_max": 1.699798345565796, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2860434055328369, "timer/replay.add_frac": 0.000952971200533301, "timer/replay.add_avg": 0.0001980910010615214, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004645586013793945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024052143096923828, "timer/logger.write_frac": 8.01311942143095e-05, "timer/logger.write_avg": 0.024052143096923828, "timer/logger.write_min": 0.024052143096923828, "timer/logger.write_max": 0.024052143096923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.857078313827515, "timer/agent.policy_frac": 0.03617102423927242, "timer/agent.policy_avg": 0.007518752294894401, "timer/agent.policy_min": 0.0057659149169921875, "timer/agent.policy_max": 0.016023874282836914, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05955386161804199, "timer/dataset_frac": 0.0001984073532365509, "timer/dataset_avg": 8.248457287817451e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.3696265220642, "timer/agent.train_frac": 0.8940899186156767, "timer/agent.train_avg": 0.3717030838255737, "timer/agent.train_min": 0.36527276039123535, "timer/agent.train_max": 0.3896925449371338, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22317075729370117, "timer/agent.report_frac": 0.000743507105524549, "timer/agent.report_avg": 0.22317075729370117, "timer/agent.report_min": 0.22317075729370117, "timer/agent.report_max": 0.22317075729370117, "fps": 4.8107095953375865}
+{"step": 915679, "episode/length": 158.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.06289308176100629}
+{"step": 915835, "episode/length": 155.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.057692307692307696}
+{"step": 916040, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07317073170731707}
+{"step": 916407, "episode/length": 366.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.04087193460490463}
+{"step": 916661, "episode/length": 253.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05905511811023622}
+{"step": 916953, "episode/length": 291.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.05821917808219178}
+{"step": 917007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392830626605308, "train/action_min": 0.0, "train/action_std": 3.2881617807362176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03863130030158448, "train/actor_opt_grad_steps": 457590.0, "train/actor_opt_loss": -12.670877706514647, "train/adv_mag": 0.4001036698687567, "train/adv_max": 0.3392595056801626, "train/adv_mean": 0.0016952954091260064, "train/adv_min": -0.3486162546562822, "train/adv_std": 0.04374908114949318, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 7.752733545191548e-05, "train/cont_loss_std": 0.0022813273176064456, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.013627534284550848, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 3.49208140879028e-05, "train/cont_pred": 0.9950512917074439, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.571529734624575, "train/dyn_loss_std": 8.915792177801263, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8999219348985855, "train/extr_critic_critic_opt_grad_steps": 457590.0, "train/extr_critic_critic_opt_loss": 15568.054299550513, "train/extr_critic_mag": 11.9711166407964, "train/extr_critic_max": 11.9711166407964, "train/extr_critic_mean": 3.6952339851692932, "train/extr_critic_min": -0.3568292790896272, "train/extr_critic_std": 2.831772262102937, "train/extr_return_normed_mag": 1.3792042928199246, "train/extr_return_normed_max": 1.3792042928199246, "train/extr_return_normed_mean": 0.39676641560580633, "train/extr_return_normed_min": -0.08384549969883814, "train/extr_return_normed_std": 0.3092630609665831, "train/extr_return_rate": 0.8662930277928914, "train/extr_return_raw_mag": 12.793384408297603, "train/extr_return_raw_max": 12.793384408297603, "train/extr_return_raw_mean": 3.7109007280166835, "train/extr_return_raw_min": -0.7318672105057599, "train/extr_return_raw_std": 2.858948240541432, "train/extr_reward_mag": 1.073546582705354, "train/extr_reward_max": 1.073546582705354, "train/extr_reward_mean": 0.0626000936002764, "train/extr_reward_min": -0.6377700501925325, "train/extr_reward_std": 0.24066936459443342, "train/image_loss_mean": 3.155279081161708, "train/image_loss_std": 8.440159105274775, "train/model_loss_mean": 6.5566097089689075, "train/model_loss_std": 12.667155474832613, "train/model_opt_grad_norm": 22.30309311548869, "train/model_opt_grad_steps": 457217.6301369863, "train/model_opt_loss": 15097.718990796233, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2277.3972602739727, "train/policy_entropy_mag": 2.6698220592655546, "train/policy_entropy_max": 2.6698220592655546, "train/policy_entropy_mean": 0.37281233072280884, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5683243727847321, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3731173903566517, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.005676609196075, "train/policy_randomness_mag": 0.9423300231972785, "train/policy_randomness_max": 0.9423300231972785, "train/policy_randomness_mean": 0.13158639295868677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20059356277119622, "train/post_ent_mag": 55.51391732202817, "train/post_ent_max": 55.51391732202817, "train/post_ent_mean": 40.25138316742361, "train/post_ent_min": 19.5997548299293, "train/post_ent_std": 5.769155038546209, "train/prior_ent_mag": 76.7675985048895, "train/prior_ent_max": 76.7675985048895, "train/prior_ent_mean": 45.82866109560614, "train/prior_ent_min": 27.78707747263451, "train/prior_ent_std": 7.781111932780645, "train/rep_loss_mean": 5.571529734624575, "train/rep_loss_std": 8.915792177801263, "train/reward_avg": 0.043638966033515865, "train/reward_loss_mean": 0.05833524986080928, "train/reward_loss_std": 0.21749681479310337, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0231176827051869, "train/reward_neg_acc": 0.9935801935522524, "train/reward_neg_loss": 0.02444562645093219, "train/reward_pos_acc": 0.9882463192286557, "train/reward_pos_loss": 0.728967402895836, "train/reward_pred": 0.0431573656068681, "train/reward_rate": 0.04813249143835616, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5416341672341028, "replay/size": 916944.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.498340475148168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3618017065113988e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29044580459595, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.62510633468628, "timer/env.step_frac": 0.062023639429427437, "timer/env.step_avg": 0.012844900920473296, "timer/env.step_min": 0.0029757022857666016, "timer/env.step_max": 1.686654806137085, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26027917861938477, "timer/replay.add_frac": 0.0008667581078778404, "timer/replay.add_avg": 0.00017950288180647225, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0010650157928466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02876758575439453, "timer/logger.write_frac": 9.579920425811377e-05, "timer/logger.write_avg": 0.02876758575439453, "timer/logger.write_min": 0.02876758575439453, "timer/logger.write_max": 0.02876758575439453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.80582594871521, "timer/agent.policy_frac": 0.03598458126019348, "timer/agent.policy_avg": 0.007452293757734627, "timer/agent.policy_min": 0.005989551544189453, "timer/agent.policy_max": 0.018445491790771484, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05810260772705078, "timer/dataset_frac": 0.00019348803313196027, "timer/dataset_avg": 8.014152789938038e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001232624053955078, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.84420251846313, "timer/agent.train_frac": 0.8986106827190077, "timer/agent.train_avg": 0.3721989000254664, "timer/agent.train_min": 0.3657236099243164, "timer/agent.train_max": 0.3846437931060791, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965241432189941, "timer/agent.report_frac": 0.0007314665431108352, "timer/agent.report_avg": 0.21965241432189941, "timer/agent.report_min": 0.21965241432189941, "timer/agent.report_max": 0.21965241432189941, "fps": 4.828554128808025}
+{"step": 917255, "episode/length": 301.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04966887417218543}
+{"step": 917519, "episode/length": 263.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.056818181818181816}
+{"step": 917709, "episode/length": 189.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.05789473684210526}
+{"step": 917896, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0748663101604278}
+{"step": 918284, "episode/length": 387.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03608247422680412}
+{"step": 918443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332593282063802, "train/action_min": 0.0, "train/action_std": 3.263593703508377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03855037531401548, "train/actor_opt_grad_steps": 458315.0, "train/actor_opt_loss": -12.476991032974588, "train/adv_mag": 0.39560261079006726, "train/adv_max": 0.3318416596286827, "train/adv_mean": 0.002007229596529214, "train/adv_min": -0.34691617637872696, "train/adv_std": 0.043757186426470675, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 1.3867675854663099e-05, "train/cont_loss_std": 0.0003779840720983745, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004265236902168586, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1121596466878714e-05, "train/cont_pred": 0.9947981958587965, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.5295312537087336, "train/dyn_loss_std": 8.842038909594217, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8918625116348267, "train/extr_critic_critic_opt_grad_steps": 458315.0, "train/extr_critic_critic_opt_loss": 15668.491712782117, "train/extr_critic_mag": 12.090668029255337, "train/extr_critic_max": 12.090668029255337, "train/extr_critic_mean": 3.690962642431259, "train/extr_critic_min": -0.36511602169937557, "train/extr_critic_std": 2.8858375251293182, "train/extr_return_normed_mag": 1.3906909442610211, "train/extr_return_normed_max": 1.3906909442610211, "train/extr_return_normed_mean": 0.40004234657519394, "train/extr_return_normed_min": -0.08212713478133082, "train/extr_return_normed_std": 0.3168328781094816, "train/extr_return_rate": 0.8484104168083932, "train/extr_return_raw_mag": 12.816273596551683, "train/extr_return_raw_max": 12.816273596551683, "train/extr_return_raw_mean": 3.7094085249635906, "train/extr_return_raw_min": -0.7226142444544368, "train/extr_return_raw_std": 2.912462148401472, "train/extr_reward_mag": 1.0650279687510595, "train/extr_reward_max": 1.0650279687510595, "train/extr_reward_mean": 0.0615607381073965, "train/extr_reward_min": -0.6316881097025342, "train/extr_reward_std": 0.2388144274138742, "train/image_loss_mean": 3.1155000726381936, "train/image_loss_std": 8.351098577181498, "train/model_loss_mean": 6.493267714977264, "train/model_loss_std": 12.450747794575161, "train/model_opt_grad_norm": 22.429070737626816, "train/model_opt_grad_steps": 457942.0, "train/model_opt_loss": 9602.29286702474, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1475.6944444444443, "train/policy_entropy_mag": 2.679570823907852, "train/policy_entropy_max": 2.679570823907852, "train/policy_entropy_mean": 0.3717249201403724, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5651714205741882, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3717012790342172, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0029007411665387, "train/policy_randomness_mag": 0.9457709085610178, "train/policy_randomness_max": 0.9457709085610178, "train/policy_randomness_mean": 0.1312025839255916, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1994807082745764, "train/post_ent_mag": 55.915221214294434, "train/post_ent_max": 55.915221214294434, "train/post_ent_mean": 40.54231405258179, "train/post_ent_min": 19.668219751781887, "train/post_ent_std": 5.881643189324273, "train/prior_ent_mag": 76.74186876085069, "train/prior_ent_max": 76.74186876085069, "train/prior_ent_mean": 46.069649749332, "train/prior_ent_min": 28.04993971188863, "train/prior_ent_std": 7.797666086090936, "train/rep_loss_mean": 5.5295312537087336, "train/rep_loss_std": 8.842038909594217, "train/reward_avg": 0.043717447927014694, "train/reward_loss_mean": 0.0600350382220414, "train/reward_loss_std": 0.2234406020078394, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0263903472158644, "train/reward_neg_acc": 0.9934853803780344, "train/reward_neg_loss": 0.026085800387793116, "train/reward_pos_acc": 0.9913777030176587, "train/reward_pos_loss": 0.7251616170008978, "train/reward_pred": 0.04336716058767504, "train/reward_rate": 0.04857042100694445, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 5.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 12.6, "stats/max_log_achievement_collect_wood": 12.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.5706600368022918, "replay/size": 918380.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4713479469745603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3539302980003251e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12872314453125, "timer/env.step_count": 1436.0, "timer/env.step_total": 17.410027027130127, "timer/env.step_frac": 0.058008533287718954, "timer/env.step_avg": 0.012123974252876132, "timer/env.step_min": 0.0028963088989257812, "timer/env.step_max": 1.6731092929840088, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26759839057922363, "timer/replay.add_frac": 0.0008916120649017583, "timer/replay.add_avg": 0.00018634985416380475, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0008141994476318359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01993083953857422, "timer/logger.write_frac": 6.640763779538769e-05, "timer/logger.write_avg": 0.01993083953857422, "timer/logger.write_min": 0.01993083953857422, "timer/logger.write_max": 0.01993083953857422, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00031447410583496094, "timer/checkpoint.save_frac": 1.0477974335149571e-06, "timer/checkpoint.save_avg": 0.00031447410583496094, "timer/checkpoint.save_min": 0.00031447410583496094, "timer/checkpoint.save_max": 0.00031447410583496094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4587745666503906, "timer/agent.save_frac": 0.004860496360916102, "timer/agent.save_avg": 1.4587745666503906, "timer/agent.save_min": 1.4587745666503906, "timer/agent.save_max": 1.4587745666503906, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6453111854471623e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 14.553130149841309, "timer/agent.policy_frac": 0.04848962804147553, "timer/agent.policy_avg": 0.010134491747800354, "timer/agent.policy_min": 0.0059506893157958984, "timer/agent.policy_max": 2.4917290210723877, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05783271789550781, "timer/dataset_frac": 0.00019269304613559978, "timer/dataset_avg": 8.054696085725322e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015091896057128906, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.16392731666565, "timer/agent.train_frac": 0.8901644751542459, "timer/agent.train_avg": 0.3720946062906207, "timer/agent.train_min": 0.36599278450012207, "timer/agent.train_max": 0.38428521156311035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22221899032592773, "timer/agent.report_frac": 0.0007404122737659968, "timer/agent.report_avg": 0.22221899032592773, "timer/agent.report_min": 0.22221899032592773, "timer/agent.report_max": 0.22221899032592773, "fps": 4.784510294887754}
+{"step": 918550, "episode/length": 265.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.06015037593984962}
+{"step": 918603, "episode/length": 52.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.11320754716981132}
+{"step": 918642, "episode/length": 38.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.10256410256410256}
+{"step": 918860, "episode/length": 217.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04128440366972477}
+{"step": 919080, "episode/length": 219.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.045454545454545456}
+{"step": 919283, "episode/length": 202.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06403940886699508}
+{"step": 919506, "episode/length": 222.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.04484304932735426}
+{"step": 919558, "episode/length": 51.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.11538461538461539}
+{"step": 919754, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0663265306122449}
+{"step": 919879, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384039137098524, "train/action_min": 0.0, "train/action_std": 3.2443177236451044, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03939067924188243, "train/actor_opt_grad_steps": 459035.0, "train/actor_opt_loss": -10.242291510932976, "train/adv_mag": 0.38888206022481125, "train/adv_max": 0.3282491210848093, "train/adv_mean": 0.002628208443133594, "train/adv_min": -0.3584873225126002, "train/adv_std": 0.0439804300872816, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 5.543851316068703e-05, "train/cont_loss_std": 0.0016667783683719979, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005101941547572942, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.6047164047202262e-05, "train/cont_pred": 0.9950342575709025, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.461688597997029, "train/dyn_loss_std": 8.912390563223097, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9372032317850325, "train/extr_critic_critic_opt_grad_steps": 459035.0, "train/extr_critic_critic_opt_loss": 15532.055270724826, "train/extr_critic_mag": 11.920953551928202, "train/extr_critic_max": 11.920953551928202, "train/extr_critic_mean": 3.7679089075989194, "train/extr_critic_min": -0.3890073365635342, "train/extr_critic_std": 2.8815946877002716, "train/extr_return_normed_mag": 1.3701710568534002, "train/extr_return_normed_max": 1.3701710568534002, "train/extr_return_normed_mean": 0.406214137458139, "train/extr_return_normed_min": -0.07907175934977001, "train/extr_return_normed_std": 0.31465703890555435, "train/extr_return_rate": 0.86370899528265, "train/extr_return_raw_mag": 12.712859723303053, "train/extr_return_raw_max": 12.712859723303053, "train/extr_return_raw_mean": 3.7922344075308905, "train/extr_return_raw_min": -0.6984847378399637, "train/extr_return_raw_std": 2.9116257230440774, "train/extr_reward_mag": 1.0753718283441331, "train/extr_reward_max": 1.0753718283441331, "train/extr_reward_mean": 0.06329312449735072, "train/extr_reward_min": -0.6356363015042411, "train/extr_reward_std": 0.24139418825507164, "train/image_loss_mean": 3.2134595728582807, "train/image_loss_std": 8.46979327334298, "train/model_loss_mean": 6.548517604668935, "train/model_loss_std": 12.620164884461296, "train/model_opt_grad_norm": 23.62227291531033, "train/model_opt_grad_steps": 458662.0, "train/model_opt_loss": 16371.293999565973, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.687206781572766, "train/policy_entropy_max": 2.687206781572766, "train/policy_entropy_mean": 0.3785216634472211, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5746247830490271, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37882706626421875, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.0111828487780359, "train/policy_randomness_mag": 0.9484660724798838, "train/policy_randomness_max": 0.9484660724798838, "train/policy_randomness_mean": 0.133601535215146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20281733406914604, "train/post_ent_mag": 55.59283452563815, "train/post_ent_max": 55.59283452563815, "train/post_ent_mean": 40.543920305040146, "train/post_ent_min": 19.616104231940376, "train/post_ent_std": 5.86764532327652, "train/prior_ent_mag": 76.8094088236491, "train/prior_ent_max": 76.8094088236491, "train/prior_ent_mean": 45.985054175059, "train/prior_ent_min": 27.659878333409626, "train/prior_ent_std": 7.828653991222382, "train/rep_loss_mean": 5.461688597997029, "train/rep_loss_std": 8.912390563223097, "train/reward_avg": 0.04343668549942473, "train/reward_loss_mean": 0.05798948318180111, "train/reward_loss_std": 0.2257882191075219, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.029559897051917, "train/reward_neg_acc": 0.9930479543076621, "train/reward_neg_loss": 0.02386577890461518, "train/reward_pos_acc": 0.9872341710660193, "train/reward_pos_loss": 0.7371290019816823, "train/reward_pred": 0.043061704400719866, "train/reward_rate": 0.047783745659722224, "stats/sum_log_reward": 8.32222244474623, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 6.444444444444445, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.5555555555555556, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.27671878536542255, "replay/size": 919816.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4788192812778823e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3480362453832599e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03984689712524, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.497474431991577, "timer/env.step_frac": 0.0716487315078601, "timer/env.step_avg": 0.014970386094701655, "timer/env.step_min": 0.0028841495513916016, "timer/env.step_max": 1.6426994800567627, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28369617462158203, "timer/replay.add_frac": 0.0009455283275052898, "timer/replay.add_avg": 0.00019756001018216018, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.005082845687866211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022790193557739258, "timer/logger.write_frac": 7.595722299362903e-05, "timer/logger.write_avg": 0.022790193557739258, "timer/logger.write_min": 0.022790193557739258, "timer/logger.write_max": 0.022790193557739258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.66499638557434, "timer/agent.policy_frac": 0.0355452667232931, "timer/agent.policy_avg": 0.0074268777058317135, "timer/agent.policy_min": 0.0057909488677978516, "timer/agent.policy_max": 0.01598668098449707, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06020164489746094, "timer/dataset_frac": 0.00020064549932296923, "timer/dataset_avg": 8.38463020856002e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.83941292762756, "timer/agent.train_frac": 0.8893465840859427, "timer/agent.train_avg": 0.37164263638945344, "timer/agent.train_min": 0.3651118278503418, "timer/agent.train_max": 0.3867483139038086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969318389892578, "timer/agent.report_frac": 0.0007322133582285558, "timer/agent.report_avg": 0.21969318389892578, "timer/agent.report_min": 0.21969318389892578, "timer/agent.report_max": 0.21969318389892578, "fps": 4.785968506773901}
+{"step": 919988, "episode/length": 233.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.10000006854534, "episode/reward_rate": 0.06837606837606838}
+{"step": 920288, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05}
+{"step": 920666, "episode/length": 377.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.03968253968253968}
+{"step": 920864, "episode/length": 197.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07575757575757576}
+{"step": 921105, "episode/length": 240.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.058091286307053944}
+{"step": 921239, "episode/length": 133.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.07462686567164178}
+{"step": 921335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364412943522136, "train/action_min": 0.0, "train/action_std": 3.2158965600861444, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03862555237073037, "train/actor_opt_grad_steps": 459755.0, "train/actor_opt_loss": -9.775451373308897, "train/adv_mag": 0.38968031253251767, "train/adv_max": 0.3232835777517822, "train/adv_mean": 0.0024199847828438375, "train/adv_min": -0.34824777642885846, "train/adv_std": 0.043683675273011126, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 1.375782957483788e-05, "train/cont_loss_std": 0.00038024912480436355, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003179873260018932, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.1904975316470415e-05, "train/cont_pred": 0.9950809048281776, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.525090528859033, "train/dyn_loss_std": 8.823595404624939, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9595632321304746, "train/extr_critic_critic_opt_grad_steps": 459755.0, "train/extr_critic_critic_opt_loss": 15778.664605034723, "train/extr_critic_mag": 12.121592892540825, "train/extr_critic_max": 12.121592892540825, "train/extr_critic_mean": 3.6414752105871835, "train/extr_critic_min": -0.3587256222963333, "train/extr_critic_std": 2.8987936509980097, "train/extr_return_normed_mag": 1.3863198392921023, "train/extr_return_normed_max": 1.3863198392921023, "train/extr_return_normed_mean": 0.3917303399907218, "train/extr_return_normed_min": -0.08553733381753166, "train/extr_return_normed_std": 0.3156016133725643, "train/extr_return_rate": 0.8463478792044852, "train/extr_return_raw_mag": 12.893355621231926, "train/extr_return_raw_max": 12.893355621231926, "train/extr_return_raw_mean": 3.6639442808098264, "train/extr_return_raw_min": -0.7649030114213625, "train/extr_return_raw_std": 2.928833822409312, "train/extr_reward_mag": 1.070361809598075, "train/extr_reward_max": 1.070361809598075, "train/extr_reward_mean": 0.06104861877651678, "train/extr_reward_min": -0.6639880190292994, "train/extr_reward_std": 0.2376475946770774, "train/image_loss_mean": 3.2252500885062747, "train/image_loss_std": 8.14494095245997, "train/model_loss_mean": 6.597961399290297, "train/model_loss_std": 12.266707049475777, "train/model_opt_grad_norm": 22.729999899864197, "train/model_opt_grad_steps": 459381.27777777775, "train/model_opt_loss": 17628.195814344617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.688195440504286, "train/policy_entropy_max": 2.688195440504286, "train/policy_entropy_mean": 0.38216018449101186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5800948461724652, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3819072873642047, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0102146905329492, "train/policy_randomness_mag": 0.9488150229056677, "train/policy_randomness_max": 0.9488150229056677, "train/policy_randomness_mean": 0.13488577482187086, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20474802578488985, "train/post_ent_mag": 55.487109661102295, "train/post_ent_max": 55.487109661102295, "train/post_ent_mean": 40.53979237874349, "train/post_ent_min": 19.4559002717336, "train/post_ent_std": 5.778488112820519, "train/prior_ent_mag": 76.83069674173991, "train/prior_ent_max": 76.83069674173991, "train/prior_ent_mean": 46.061447620391846, "train/prior_ent_min": 27.461694293551975, "train/prior_ent_std": 7.772933317555322, "train/rep_loss_mean": 5.525090528859033, "train/rep_loss_std": 8.823595404624939, "train/reward_avg": 0.04216444202595287, "train/reward_loss_mean": 0.057643328638126455, "train/reward_loss_std": 0.20809570968978935, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0287459592024486, "train/reward_neg_acc": 0.9933181438181136, "train/reward_neg_loss": 0.025739860785607662, "train/reward_pos_acc": 0.9921103989084562, "train/reward_pos_loss": 0.7084870843423737, "train/reward_pred": 0.04201784522997008, "train/reward_rate": 0.04684787326388889, "stats/sum_log_reward": 13.100000063578287, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.49945705632368725, "replay/size": 921272.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.41449465070452e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3504791390764844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3234279155731, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.959765672683716, "timer/env.step_frac": 0.05980141408659122, "timer/env.step_avg": 0.012335003896073981, "timer/env.step_min": 0.002919912338256836, "timer/env.step_max": 1.6705200672149658, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27256107330322266, "timer/replay.add_frac": 0.0009075584785208465, "timer/replay.add_avg": 0.00018719853935660895, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.005580425262451172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028792381286621094, "timer/logger.write_frac": 9.587124616436918e-05, "timer/logger.write_avg": 0.028792381286621094, "timer/logger.write_min": 0.028792381286621094, "timer/logger.write_max": 0.028792381286621094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.82738995552063, "timer/agent.policy_frac": 0.03605243197531837, "timer/agent.policy_avg": 0.007436394200220213, "timer/agent.policy_min": 0.0057828426361083984, "timer/agent.policy_max": 0.01703476905822754, "timer/dataset_count": 728.0, "timer/dataset_total": 0.061333656311035156, "timer/dataset_frac": 0.00020422534710904161, "timer/dataset_avg": 8.424952789977356e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.4953374862671, "timer/agent.train_frac": 0.9006801079878081, "timer/agent.train_avg": 0.37155952951410315, "timer/agent.train_min": 0.36502742767333984, "timer/agent.train_max": 0.3835439682006836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22261619567871094, "timer/agent.report_frac": 0.0007412548438988009, "timer/agent.report_avg": 0.22261619567871094, "timer/agent.report_min": 0.22261619567871094, "timer/agent.report_max": 0.22261619567871094, "fps": 4.848041602856793}
+{"step": 921426, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0748663101604278}
+{"step": 921745, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.03761755485893417}
+{"step": 922082, "episode/length": 336.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04154302670623145}
+{"step": 922309, "episode/length": 226.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05726872246696035}
+{"step": 922543, "episode/length": 233.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05128205128205128}
+{"step": 922775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4019360012478295, "train/action_min": 0.0, "train/action_std": 3.248933321899838, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03842097158647246, "train/actor_opt_grad_steps": 460475.0, "train/actor_opt_loss": -11.14189142578592, "train/adv_mag": 0.4171241256925795, "train/adv_max": 0.35807797850834, "train/adv_mean": 0.0021312282379363345, "train/adv_min": -0.35732381376955247, "train/adv_std": 0.04330604859731264, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 1.9343723516998227e-05, "train/cont_loss_std": 0.0005627446611708504, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018936348132569947, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8334645235916645e-05, "train/cont_pred": 0.9950479169686636, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.547937015692393, "train/dyn_loss_std": 8.965935382578108, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9366510750518905, "train/extr_critic_critic_opt_grad_steps": 460475.0, "train/extr_critic_critic_opt_loss": 15519.728352864584, "train/extr_critic_mag": 12.16003782219357, "train/extr_critic_max": 12.16003782219357, "train/extr_critic_mean": 3.7385441528426275, "train/extr_critic_min": -0.3356659710407257, "train/extr_critic_std": 2.87386182612843, "train/extr_return_normed_mag": 1.3785672899749544, "train/extr_return_normed_max": 1.3785672899749544, "train/extr_return_normed_mean": 0.3950338810682297, "train/extr_return_normed_min": -0.08082169961805145, "train/extr_return_normed_std": 0.310488876576225, "train/extr_return_rate": 0.8669352647331026, "train/extr_return_raw_mag": 12.963615616162619, "train/extr_return_raw_max": 12.963615616162619, "train/extr_return_raw_mean": 3.7584998640749188, "train/extr_return_raw_min": -0.6946080889966753, "train/extr_return_raw_std": 2.9062110665771694, "train/extr_reward_mag": 1.067512207561069, "train/extr_reward_max": 1.067512207561069, "train/extr_reward_mean": 0.06078987051215437, "train/extr_reward_min": -0.582888662815094, "train/extr_reward_std": 0.23648577969935206, "train/image_loss_mean": 3.335654010375341, "train/image_loss_std": 8.547339333428276, "train/model_loss_mean": 6.7216406795713635, "train/model_loss_std": 12.738071256213718, "train/model_opt_grad_norm": 23.78872467411889, "train/model_opt_grad_steps": 460100.7638888889, "train/model_opt_loss": 18415.247192382812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2743.0555555555557, "train/policy_entropy_mag": 2.6762019859419928, "train/policy_entropy_max": 2.6762019859419928, "train/policy_entropy_mean": 0.37828731040159863, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5740858738621076, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37847027906941044, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0095240026712418, "train/policy_randomness_mag": 0.9445818579859204, "train/policy_randomness_max": 0.9445818579859204, "train/policy_randomness_mean": 0.13351882104244497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20262712198827001, "train/post_ent_mag": 55.37874364852905, "train/post_ent_max": 55.37874364852905, "train/post_ent_mean": 40.371029694875084, "train/post_ent_min": 19.333859430419075, "train/post_ent_std": 5.8429314030541315, "train/prior_ent_mag": 76.72969648573134, "train/prior_ent_max": 76.72969648573134, "train/prior_ent_mean": 45.87961790296767, "train/prior_ent_min": 27.946288267771404, "train/prior_ent_std": 7.75409992535909, "train/rep_loss_mean": 5.547937015692393, "train/rep_loss_std": 8.965935382578108, "train/reward_avg": 0.04252658373055359, "train/reward_loss_mean": 0.057205107166535325, "train/reward_loss_std": 0.22041761544015673, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0271053380436368, "train/reward_neg_acc": 0.9942533771197001, "train/reward_neg_loss": 0.023725603060382936, "train/reward_pos_acc": 0.9879704962174097, "train/reward_pos_loss": 0.7391927084989018, "train/reward_pred": 0.0420546762438284, "train/reward_rate": 0.046915690104166664, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5360819339752197, "replay/size": 922712.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4974681006537543e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3294112351205613e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12122797966003, "timer/env.step_count": 1440.0, "timer/env.step_total": 16.667440176010132, "timer/env.step_frac": 0.055535692320770214, "timer/env.step_avg": 0.01157461123334037, "timer/env.step_min": 0.0029408931732177734, "timer/env.step_max": 1.6350359916687012, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2704308032989502, "timer/replay.add_frac": 0.0009010718939124092, "timer/replay.add_avg": 0.0001877991689576043, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.008805036544799805, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029530763626098633, "timer/logger.write_frac": 9.839611754520745e-05, "timer/logger.write_avg": 0.029530763626098633, "timer/logger.write_min": 0.029530763626098633, "timer/logger.write_max": 0.029530763626098633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002288818359375, "timer/checkpoint.save_frac": 7.626312789610866e-07, "timer/checkpoint.save_avg": 0.0002288818359375, "timer/checkpoint.save_min": 0.0002288818359375, "timer/checkpoint.save_max": 0.0002288818359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2259860038757324, "timer/agent.save_frac": 0.004084969304333316, "timer/agent.save_avg": 1.2259860038757324, "timer/agent.save_min": 1.2259860038757324, "timer/agent.save_max": 1.2259860038757324, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.462501525878906e-05, "timer/replay.save_frac": 2.486495732446043e-07, "timer/replay.save_avg": 7.462501525878906e-05, "timer/replay.save_min": 7.462501525878906e-05, "timer/replay.save_max": 7.462501525878906e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.711644411087036, "timer/agent.policy_frac": 0.04901900645323256, "timer/agent.policy_avg": 0.010216419729921553, "timer/agent.policy_min": 0.0057179927825927734, "timer/agent.policy_max": 2.6558241844177246, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06039261817932129, "timer/dataset_frac": 0.00020122741262212297, "timer/dataset_avg": 8.387863636016846e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001728534698486328, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.71861600875854, "timer/agent.train_frac": 0.8920349213915069, "timer/agent.train_avg": 0.3718314111232758, "timer/agent.train_min": 0.3653688430786133, "timer/agent.train_max": 0.3946068286895752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046852111816406, "timer/agent.report_frac": 0.0007345982241986087, "timer/agent.report_avg": 0.22046852111816406, "timer/agent.report_min": 0.22046852111816406, "timer/agent.report_max": 0.22046852111816406, "fps": 4.797954481535224}
+{"step": 922781, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.058823529411764705}
+{"step": 923043, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05343511450381679}
+{"step": 923283, "episode/length": 239.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.0625}
+{"step": 923495, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06132075471698113}
+{"step": 923743, "episode/length": 247.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04838709677419355}
+{"step": 923936, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
+{"step": 924231, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4144220221532535, "train/action_min": 0.0, "train/action_std": 3.28252551327013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039072426163578686, "train/actor_opt_grad_steps": 461200.0, "train/actor_opt_loss": -11.479109275014434, "train/adv_mag": 0.45922498466217354, "train/adv_max": 0.36294517247644187, "train/adv_mean": 0.0019287207774452751, "train/adv_min": -0.407350508521681, "train/adv_std": 0.044297779667867375, "train/cont_avg": 0.994408176369863, "train/cont_loss_mean": 3.0533688208276534e-05, "train/cont_loss_std": 0.000948749281685915, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014939294620338236, "train/cont_pos_acc": 0.999986566909372, "train/cont_pos_loss": 2.9961086147289416e-05, "train/cont_pred": 0.9943908918393801, "train/cont_rate": 0.994408176369863, "train/dyn_loss_mean": 5.4363435980391825, "train/dyn_loss_std": 8.904582951166859, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9069461348938616, "train/extr_critic_critic_opt_grad_steps": 461200.0, "train/extr_critic_critic_opt_loss": 15600.562513377568, "train/extr_critic_mag": 12.103291942648692, "train/extr_critic_max": 12.103291942648692, "train/extr_critic_mean": 3.8119238859986604, "train/extr_critic_min": -0.3544287028378003, "train/extr_critic_std": 2.953775853326876, "train/extr_return_normed_mag": 1.371858830321325, "train/extr_return_normed_max": 1.371858830321325, "train/extr_return_normed_mean": 0.4070317463515556, "train/extr_return_normed_min": -0.08369651921603778, "train/extr_return_normed_std": 0.3189525924725075, "train/extr_return_rate": 0.8571285042044234, "train/extr_return_raw_mag": 12.823278753724816, "train/extr_return_raw_max": 12.823278753724816, "train/extr_return_raw_mean": 3.829912139944834, "train/extr_return_raw_min": -0.7436328395588757, "train/extr_return_raw_std": 2.973089146287474, "train/extr_reward_mag": 1.068437246427144, "train/extr_reward_max": 1.068437246427144, "train/extr_reward_mean": 0.06323404885726432, "train/extr_reward_min": -0.6257983005210145, "train/extr_reward_std": 0.24200290768113855, "train/image_loss_mean": 3.163634287167902, "train/image_loss_std": 8.361055263101239, "train/model_loss_mean": 6.482278242503127, "train/model_loss_std": 12.54226725068811, "train/model_opt_grad_norm": 22.949354851082578, "train/model_opt_grad_steps": 460825.0, "train/model_opt_loss": 16205.695606806506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.667469521091409, "train/policy_entropy_max": 2.667469521091409, "train/policy_entropy_mean": 0.3876164861737865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908008630145086, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38841866793697827, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0196633175627825, "train/policy_randomness_mag": 0.9414996855879483, "train/policy_randomness_max": 0.9414996855879483, "train/policy_randomness_mean": 0.13681160903548542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20852677758834134, "train/post_ent_mag": 55.525405413483924, "train/post_ent_max": 55.525405413483924, "train/post_ent_mean": 40.430206873645524, "train/post_ent_min": 19.513366908243256, "train/post_ent_std": 5.771484740792888, "train/prior_ent_mag": 76.72236821422838, "train/prior_ent_max": 76.72236821422838, "train/prior_ent_mean": 45.84878247404752, "train/prior_ent_min": 28.08702821600927, "train/prior_ent_std": 7.800275665439972, "train/rep_loss_mean": 5.4363435980391825, "train/rep_loss_std": 8.904582951166859, "train/reward_avg": 0.04137280616552046, "train/reward_loss_mean": 0.05680731740104009, "train/reward_loss_std": 0.20852223181561247, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0212004674624091, "train/reward_neg_acc": 0.9932144594519106, "train/reward_neg_loss": 0.02516202758742522, "train/reward_pos_acc": 0.9932098437661994, "train/reward_pos_loss": 0.7096255821724461, "train/reward_pred": 0.04125764218401419, "train/reward_rate": 0.04629976455479452, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3997868051131566, "replay/size": 924168.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.432015796284099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3259372540882656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1964433193207, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.541704893112183, "timer/env.step_frac": 0.0584340863574222, "timer/env.step_avg": 0.012047874239774851, "timer/env.step_min": 0.002922534942626953, "timer/env.step_max": 1.6562931537628174, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.25429677963256836, "timer/replay.add_frac": 0.000847101240843388, "timer/replay.add_avg": 0.00017465438161577498, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.003051280975341797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02513742446899414, "timer/logger.write_frac": 8.373658325543623e-05, "timer/logger.write_avg": 0.02513742446899414, "timer/logger.write_min": 0.02513742446899414, "timer/logger.write_max": 0.02513742446899414, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.762863874435425, "timer/agent.policy_frac": 0.035852736146466946, "timer/agent.policy_avg": 0.007392076836837517, "timer/agent.policy_min": 0.005632638931274414, "timer/agent.policy_max": 0.019561052322387695, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05956006050109863, "timer/dataset_frac": 0.00019840361811930015, "timer/dataset_avg": 8.181326991909152e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001468658447265625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.88441228866577, "timer/agent.train_frac": 0.9023571675048944, "timer/agent.train_avg": 0.37209397292399143, "timer/agent.train_min": 0.3659048080444336, "timer/agent.train_max": 0.38500332832336426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21855401992797852, "timer/agent.report_frac": 0.0007280366732909669, "timer/agent.report_avg": 0.21855401992797852, "timer/agent.report_min": 0.21855401992797852, "timer/agent.report_max": 0.21855401992797852, "fps": 4.850096612232912}
+{"step": 924365, "episode/length": 428.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.03496503496503497}
+{"step": 924623, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.050387596899224806}
+{"step": 924764, "episode/length": 140.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07092198581560284}
+{"step": 925000, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05508474576271186}
+{"step": 925105, "episode/length": 104.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.11428571428571428}
+{"step": 925140, "episode/length": 34.0, "episode/score": 6.100000016391277, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.2}
+{"step": 925446, "episode/length": 305.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03594771241830065}
+{"step": 925679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425724395333904, "train/action_min": 0.0, "train/action_std": 3.2716380765993303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0390504633318888, "train/actor_opt_grad_steps": 461930.0, "train/actor_opt_loss": -10.079571908263311, "train/adv_mag": 0.41389737594617554, "train/adv_max": 0.3439410663630864, "train/adv_mean": 0.0021635188907205465, "train/adv_min": -0.3766354544930262, "train/adv_std": 0.043861358490300505, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 4.77642724117982e-05, "train/cont_loss_std": 0.001505360229198107, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.006576386105898377, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 3.0522751220388887e-06, "train/cont_pred": 0.9949007279252353, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.5699772377536725, "train/dyn_loss_std": 8.922814525970042, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9087640569634634, "train/extr_critic_critic_opt_grad_steps": 461930.0, "train/extr_critic_critic_opt_loss": 15566.194269049658, "train/extr_critic_mag": 12.091713696309965, "train/extr_critic_max": 12.091713696309965, "train/extr_critic_mean": 3.842483014276583, "train/extr_critic_min": -0.3444556340779344, "train/extr_critic_std": 2.9016262341852057, "train/extr_return_normed_mag": 1.3760548895352507, "train/extr_return_normed_max": 1.3760548895352507, "train/extr_return_normed_mean": 0.40842677999849186, "train/extr_return_normed_min": -0.07491507473057263, "train/extr_return_normed_std": 0.31490616010476463, "train/extr_return_rate": 0.8651737734063031, "train/extr_return_raw_mag": 12.870546902695747, "train/extr_return_raw_max": 12.870546902695747, "train/extr_return_raw_mean": 3.86261472963307, "train/extr_return_raw_min": -0.637121221790575, "train/extr_return_raw_std": 2.931807145680467, "train/extr_reward_mag": 1.0653211123322788, "train/extr_reward_max": 1.0653211123322788, "train/extr_reward_mean": 0.06186823082500941, "train/extr_reward_min": -0.5963567854606941, "train/extr_reward_std": 0.238689660209499, "train/image_loss_mean": 3.266326711602407, "train/image_loss_std": 8.357671711542835, "train/model_loss_mean": 6.6659466599764885, "train/model_loss_std": 12.543590441142044, "train/model_opt_grad_norm": 22.44643647703406, "train/model_opt_grad_steps": 461554.19178082194, "train/model_opt_loss": 17629.611073951197, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.686623834583857, "train/policy_entropy_max": 2.686623834583857, "train/policy_entropy_mean": 0.3721391317779071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5660073961297126, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3730103518456629, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.005773758235043, "train/policy_randomness_mag": 0.9482603138440275, "train/policy_randomness_max": 0.9482603138440275, "train/policy_randomness_mean": 0.13134878108354464, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19977577173546568, "train/post_ent_mag": 55.60466682747619, "train/post_ent_max": 55.60466682747619, "train/post_ent_mean": 40.44752596502435, "train/post_ent_min": 19.28915891255418, "train/post_ent_std": 5.833576437545149, "train/prior_ent_mag": 76.70292600866867, "train/prior_ent_max": 76.70292600866867, "train/prior_ent_mean": 46.02847263910999, "train/prior_ent_min": 28.09869635595034, "train/prior_ent_std": 7.780256682879304, "train/rep_loss_mean": 5.5699772377536725, "train/rep_loss_std": 8.922814525970042, "train/reward_avg": 0.042731966950917896, "train/reward_loss_mean": 0.05758578963067434, "train/reward_loss_std": 0.21368949605177526, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0276018887350005, "train/reward_neg_acc": 0.9937584285866724, "train/reward_neg_loss": 0.024609862584365556, "train/reward_pos_acc": 0.9906771101363717, "train/reward_pos_loss": 0.721254926021785, "train/reward_pred": 0.042406593666297114, "train/reward_rate": 0.04745023544520548, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4779459780880383, "replay/size": 925616.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.476004574180308e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3283232628311241e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22326278686523, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.159284830093384, "timer/env.step_frac": 0.06381678971923958, "timer/env.step_avg": 0.013231550297025817, "timer/env.step_min": 0.002809286117553711, "timer/env.step_max": 1.6684072017669678, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2609553337097168, "timer/replay.add_frac": 0.0008692042424939418, "timer/replay.add_avg": 0.00018021777189897569, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.00498509407043457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02316880226135254, "timer/logger.write_frac": 7.717190881973912e-05, "timer/logger.write_avg": 0.02316880226135254, "timer/logger.write_min": 0.02316880226135254, "timer/logger.write_max": 0.02316880226135254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.723079442977905, "timer/agent.policy_frac": 0.035717017207259, "timer/agent.policy_avg": 0.007405441604266509, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 0.016524553298950195, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06032204627990723, "timer/dataset_frac": 0.0002009239581235619, "timer/dataset_avg": 8.331774348053484e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.32057332992554, "timer/agent.train_frac": 0.8970676383632598, "timer/agent.train_avg": 0.3719897421684054, "timer/agent.train_min": 0.3615255355834961, "timer/agent.train_max": 0.3832833766937256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22258257865905762, "timer/agent.report_frac": 0.0007413901794048306, "timer/agent.report_avg": 0.22258257865905762, "timer/agent.report_min": 0.22258257865905762, "timer/agent.report_max": 0.22258257865905762, "fps": 4.82297986124662}
+{"step": 925732, "episode/length": 285.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04195804195804196}
+{"step": 925910, "episode/length": 177.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.08426966292134831}
+{"step": 926106, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05612244897959184}
+{"step": 926312, "episode/length": 205.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06796116504854369}
+{"step": 926510, "episode/length": 197.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.0707070707070707}
+{"step": 926699, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000055134296, "episode/reward_rate": 0.06878306878306878}
+{"step": 926919, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06818181818181818}
+{"step": 927105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435611348756602, "train/action_min": 0.0, "train/action_std": 3.3208526154639015, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037971514526387334, "train/actor_opt_grad_steps": 462650.0, "train/actor_opt_loss": -13.068349246407898, "train/adv_mag": 0.37127922706201044, "train/adv_max": 0.33670247398631675, "train/adv_mean": 0.0014383073700026242, "train/adv_min": -0.31652783822845404, "train/adv_std": 0.04264396770109593, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 8.478044971182516e-05, "train/cont_loss_std": 0.0026630396303332503, "train/cont_neg_acc": 0.9905952385493687, "train/cont_neg_loss": 0.01461778030138439, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.942764622115549e-05, "train/cont_pred": 0.9947898211613507, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.520622723539111, "train/dyn_loss_std": 8.922446989677322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8856494737343049, "train/extr_critic_critic_opt_grad_steps": 462650.0, "train/extr_critic_critic_opt_loss": 15437.643926056338, "train/extr_critic_mag": 12.218036530723035, "train/extr_critic_max": 12.218036530723035, "train/extr_critic_mean": 3.7821774348406723, "train/extr_critic_min": -0.3566691086325847, "train/extr_critic_std": 2.9418526182711964, "train/extr_return_normed_mag": 1.3858092637129233, "train/extr_return_normed_max": 1.3858092637129233, "train/extr_return_normed_mean": 0.4005937760984394, "train/extr_return_normed_min": -0.08206454307680398, "train/extr_return_normed_std": 0.3176347852592737, "train/extr_return_rate": 0.8653536229066445, "train/extr_return_raw_mag": 12.997039297936668, "train/extr_return_raw_max": 12.997039297936668, "train/extr_return_raw_mean": 3.7955865054063396, "train/extr_return_raw_min": -0.7125247599373401, "train/extr_return_raw_std": 2.966677635488376, "train/extr_reward_mag": 1.0654343719213781, "train/extr_reward_max": 1.0654343719213781, "train/extr_reward_mean": 0.06144995793280467, "train/extr_reward_min": -0.6142408831018797, "train/extr_reward_std": 0.238769520546349, "train/image_loss_mean": 3.249444389007461, "train/image_loss_std": 8.54260029591305, "train/model_loss_mean": 6.62159796835671, "train/model_loss_std": 12.704532932227766, "train/model_opt_grad_norm": 23.676898526473785, "train/model_opt_grad_steps": 462273.61971830984, "train/model_opt_loss": 17231.045623349473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2605.6338028169016, "train/policy_entropy_mag": 2.6761480519469356, "train/policy_entropy_max": 2.6761480519469356, "train/policy_entropy_mean": 0.3900314705892348, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5868695819042098, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39012547760782107, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0179844146043482, "train/policy_randomness_mag": 0.9445628263580967, "train/policy_randomness_max": 0.9445628263580967, "train/policy_randomness_mean": 0.13766399319742767, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20713920786347187, "train/post_ent_mag": 55.347283323046184, "train/post_ent_max": 55.347283323046184, "train/post_ent_mean": 40.51747797576474, "train/post_ent_min": 19.518457197807205, "train/post_ent_std": 5.804392754192084, "train/prior_ent_mag": 76.77131513138892, "train/prior_ent_max": 76.77131513138892, "train/prior_ent_mean": 46.00365227712712, "train/prior_ent_min": 27.895135476555623, "train/prior_ent_std": 7.81077147201753, "train/rep_loss_mean": 5.520622723539111, "train/rep_loss_std": 8.922446989677322, "train/reward_avg": 0.04405672305171758, "train/reward_loss_mean": 0.05969520558563756, "train/reward_loss_std": 0.22526570818793606, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0280797011415723, "train/reward_neg_acc": 0.9929700367887255, "train/reward_neg_loss": 0.025576187337053493, "train/reward_pos_acc": 0.988048857366535, "train/reward_pos_loss": 0.7293800073610225, "train/reward_pred": 0.04372544088204142, "train/reward_rate": 0.048553036971830985, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4126255512237549, "replay/size": 927042.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.416608459986276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3140608853076652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13017654418945, "timer/env.step_count": 1426.0, "timer/env.step_total": 19.59106206893921, "timer/env.step_frac": 0.06527521588971155, "timer/env.step_avg": 0.013738472699115855, "timer/env.step_min": 0.002850770950317383, "timer/env.step_max": 1.643265724182129, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.273761510848999, "timer/replay.add_frac": 0.0009121425709376875, "timer/replay.add_avg": 0.00019197861910869496, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0064885616302490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026889324188232422, "timer/logger.write_frac": 8.959220461549754e-05, "timer/logger.write_avg": 0.026889324188232422, "timer/logger.write_min": 0.026889324188232422, "timer/logger.write_max": 0.026889324188232422, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006215572357177734, "timer/checkpoint.save_frac": 2.0709588181855447e-06, "timer/checkpoint.save_avg": 0.0006215572357177734, "timer/checkpoint.save_min": 0.0006215572357177734, "timer/checkpoint.save_max": 0.0006215572357177734, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2107574939727783, "timer/agent.save_frac": 0.004034107825857069, "timer/agent.save_avg": 1.2107574939727783, "timer/agent.save_min": 1.2107574939727783, "timer/agent.save_max": 1.2107574939727783, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.0177350971197864e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 14.30679702758789, "timer/agent.policy_frac": 0.047668638963004904, "timer/agent.policy_avg": 0.010032816989893332, "timer/agent.policy_min": 0.0057680606842041016, "timer/agent.policy_max": 2.5843665599823, "timer/dataset_count": 713.0, "timer/dataset_total": 0.060039520263671875, "timer/dataset_frac": 0.00020004493035318625, "timer/dataset_avg": 8.420690079056364e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.19792675971985, "timer/agent.train_frac": 0.8836096716874906, "timer/agent.train_avg": 0.37194660134603064, "timer/agent.train_min": 0.3654923439025879, "timer/agent.train_max": 0.38507533073425293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067546844482422, "timer/agent.report_frac": 0.0007352658469260362, "timer/agent.report_avg": 0.22067546844482422, "timer/agent.report_min": 0.22067546844482422, "timer/agent.report_max": 0.22067546844482422, "fps": 4.751168336555319}
+{"step": 927122, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06403940886699508}
+{"step": 927323, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
+{"step": 927375, "episode/length": 51.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.30000002682209, "episode/reward_rate": 0.09615384615384616}
+{"step": 927596, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06334841628959276}
+{"step": 927802, "episode/length": 205.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07281553398058252}
+{"step": 927960, "episode/length": 157.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08227848101265822}
+{"step": 928131, "episode/length": 170.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08187134502923976}
+{"step": 928323, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.057291666666666664}
+{"step": 928503, "episode/length": 179.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08333333333333333}
+{"step": 928539, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.440636528862847, "train/action_min": 0.0, "train/action_std": 3.284145279063119, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038443446883724794, "train/actor_opt_grad_steps": 463365.0, "train/actor_opt_loss": -10.719997532044848, "train/adv_mag": 0.39907727390527725, "train/adv_max": 0.32257874434192974, "train/adv_mean": 0.00213584442654893, "train/adv_min": -0.3604494006269508, "train/adv_std": 0.043292919949938856, "train/cont_avg": 0.9953070746527778, "train/cont_loss_mean": 0.000110817655950927, "train/cont_loss_std": 0.003466654259935827, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00379238257103667, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 8.60257293268971e-05, "train/cont_pred": 0.9952904308835665, "train/cont_rate": 0.9953070746527778, "train/dyn_loss_mean": 5.645337786939409, "train/dyn_loss_std": 8.925225284364489, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.90133768816789, "train/extr_critic_critic_opt_grad_steps": 463365.0, "train/extr_critic_critic_opt_loss": 15504.25690375434, "train/extr_critic_mag": 11.980662875705296, "train/extr_critic_max": 11.980662875705296, "train/extr_critic_mean": 3.7839260929160647, "train/extr_critic_min": -0.3331430157025655, "train/extr_critic_std": 2.8433868918153973, "train/extr_return_normed_mag": 1.3738224870628781, "train/extr_return_normed_max": 1.3738224870628781, "train/extr_return_normed_mean": 0.40344561222526765, "train/extr_return_normed_min": -0.08337407471198174, "train/extr_return_normed_std": 0.3105232937054502, "train/extr_return_rate": 0.8750759992334578, "train/extr_return_raw_mag": 12.773512681325277, "train/extr_return_raw_max": 12.773512681325277, "train/extr_return_raw_mean": 3.8036713070339627, "train/extr_return_raw_min": -0.6964163949920071, "train/extr_return_raw_std": 2.8705571492513022, "train/extr_reward_mag": 1.0700106687015958, "train/extr_reward_max": 1.0700106687015958, "train/extr_reward_mean": 0.0631790380511019, "train/extr_reward_min": -0.5927591638432609, "train/extr_reward_std": 0.241558271770676, "train/image_loss_mean": 3.286212215820948, "train/image_loss_std": 8.98886807097329, "train/model_loss_mean": 6.7316105763117475, "train/model_loss_std": 13.137357340918648, "train/model_opt_grad_norm": 22.64190000957913, "train/model_opt_grad_steps": 462987.9861111111, "train/model_opt_loss": 16710.323744032117, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.67148067884975, "train/policy_entropy_max": 2.67148067884975, "train/policy_entropy_mean": 0.3902336545288563, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930418347318968, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38900801974038285, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0163604749573603, "train/policy_randomness_mag": 0.9429154470562935, "train/policy_randomness_max": 0.9429154470562935, "train/policy_randomness_mean": 0.1377353561628196, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20931774615827534, "train/post_ent_mag": 55.433206452263725, "train/post_ent_max": 55.433206452263725, "train/post_ent_mean": 40.19816207885742, "train/post_ent_min": 19.276470369762844, "train/post_ent_std": 5.758058183723026, "train/prior_ent_mag": 76.78291617499457, "train/prior_ent_max": 76.78291617499457, "train/prior_ent_mean": 45.85207165612115, "train/prior_ent_min": 27.992422077390884, "train/prior_ent_std": 7.788372708691491, "train/rep_loss_mean": 5.645337786939409, "train/rep_loss_std": 8.925225284364489, "train/reward_avg": 0.043787977296031184, "train/reward_loss_mean": 0.05808494198653433, "train/reward_loss_std": 0.21737824173437226, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0308893140819337, "train/reward_neg_acc": 0.9938250515196059, "train/reward_neg_loss": 0.023955381436583895, "train/reward_pos_acc": 0.9883688978023, "train/reward_pos_loss": 0.7302879823578728, "train/reward_pred": 0.04321895550108618, "train/reward_rate": 0.04823133680555555, "stats/sum_log_reward": 11.433333343929714, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 11.222222222222221, "stats/max_log_achievement_collect_wood": 10.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.2222222222222223, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 3.888888888888889, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2933250019947688, "replay/size": 928476.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4236508932073744e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3307755296034128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36801958084106, "timer/env.step_count": 1434.0, "timer/env.step_total": 22.24389362335205, "timer/env.step_frac": 0.0740554658728085, "timer/env.step_avg": 0.015511780769422629, "timer/env.step_min": 0.002818584442138672, "timer/env.step_max": 1.6829280853271484, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26828885078430176, "timer/replay.add_frac": 0.0008932004517614582, "timer/replay.add_avg": 0.00018709124880355771, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0019443035125732422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024644136428833008, "timer/logger.write_frac": 8.204647240150106e-05, "timer/logger.write_avg": 0.024644136428833008, "timer/logger.write_min": 0.024644136428833008, "timer/logger.write_max": 0.024644136428833008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.490386486053467, "timer/agent.policy_frac": 0.0349251112042242, "timer/agent.policy_avg": 0.00731547174759656, "timer/agent.policy_min": 0.005816936492919922, "timer/agent.policy_max": 0.014228582382202148, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05893731117248535, "timer/dataset_frac": 0.00019621699825011818, "timer/dataset_avg": 8.219987611225293e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.61120438575745, "timer/agent.train_frac": 0.8876151487691974, "timer/agent.train_avg": 0.37184268394108433, "timer/agent.train_min": 0.36291956901550293, "timer/agent.train_max": 0.3845376968383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22070908546447754, "timer/agent.report_frac": 0.000734795554375175, "timer/agent.report_avg": 0.22070908546447754, "timer/agent.report_min": 0.22070908546447754, "timer/agent.report_max": 0.22070908546447754, "fps": 4.774080838208638}
+{"step": 928746, "episode/length": 242.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.053497942386831275}
+{"step": 928772, "episode/length": 25.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.2692307692307692}
+{"step": 929018, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.056910569105691054}
+{"step": 929253, "episode/length": 234.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07234042553191489}
+{"step": 929480, "episode/length": 226.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06167400881057269}
+{"step": 929716, "episode/length": 235.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05508474576271186}
+{"step": 929928, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0660377358490566}
+{"step": 929987, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418799506293403, "train/action_min": 0.0, "train/action_std": 3.2990946306122675, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03927695541642606, "train/actor_opt_grad_steps": 464085.0, "train/actor_opt_loss": -10.753977553711998, "train/adv_mag": 0.38790346930424374, "train/adv_max": 0.323808623270856, "train/adv_mean": 0.00220944077890945, "train/adv_min": -0.3535060797714525, "train/adv_std": 0.04344354787220558, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 1.2291180563364338e-05, "train/cont_loss_std": 0.0003773084594074463, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00065583367070094, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 8.706995023890743e-06, "train/cont_pred": 0.9949642585383521, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.599590712123447, "train/dyn_loss_std": 8.890367070833841, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8790703722172313, "train/extr_critic_critic_opt_grad_steps": 464085.0, "train/extr_critic_critic_opt_loss": 15540.984117296008, "train/extr_critic_mag": 12.044839408662584, "train/extr_critic_max": 12.044839408662584, "train/extr_critic_mean": 3.742348061667548, "train/extr_critic_min": -0.3261265721586015, "train/extr_critic_std": 2.897467361556159, "train/extr_return_normed_mag": 1.3918564899100199, "train/extr_return_normed_max": 1.3918564899100199, "train/extr_return_normed_mean": 0.4008368013633622, "train/extr_return_normed_min": -0.08265433217295343, "train/extr_return_normed_std": 0.31847358205252224, "train/extr_return_rate": 0.8658972200420167, "train/extr_return_raw_mag": 12.856522719065348, "train/extr_return_raw_max": 12.856522719065348, "train/extr_return_raw_mean": 3.7626213563813105, "train/extr_return_raw_min": -0.6740637173255285, "train/extr_return_raw_std": 2.922410267922613, "train/extr_reward_mag": 1.064395248889923, "train/extr_reward_max": 1.064395248889923, "train/extr_reward_mean": 0.061850946189628705, "train/extr_reward_min": -0.6134084860483805, "train/extr_reward_std": 0.23956436291337013, "train/image_loss_mean": 3.2802878816922507, "train/image_loss_std": 8.644101321697235, "train/model_loss_mean": 6.697527620527479, "train/model_loss_std": 12.77547792593638, "train/model_opt_grad_norm": 23.565079278416103, "train/model_opt_grad_steps": 463707.0, "train/model_opt_loss": 8371.909586588541, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6798937883641987, "train/policy_entropy_max": 2.6798937883641987, "train/policy_entropy_mean": 0.3943687669105, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5953501222862138, "train/policy_logprob_mag": 7.438384334246318, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39500730567508274, "train/policy_logprob_min": -7.438384334246318, "train/policy_logprob_std": 1.0246511416302786, "train/policy_randomness_mag": 0.9458849024441507, "train/policy_randomness_max": 0.9458849024441507, "train/policy_randomness_mean": 0.13919486912588278, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21013246590478551, "train/post_ent_mag": 55.53398026360406, "train/post_ent_max": 55.53398026360406, "train/post_ent_mean": 40.259011798434784, "train/post_ent_min": 19.376361582014297, "train/post_ent_std": 5.851060456699795, "train/prior_ent_mag": 76.80379909939236, "train/prior_ent_max": 76.80379909939236, "train/prior_ent_mean": 45.88957569334242, "train/prior_ent_min": 27.862561146418255, "train/prior_ent_std": 7.875468995836046, "train/rep_loss_mean": 5.599590712123447, "train/rep_loss_std": 8.890367070833841, "train/reward_avg": 0.04222140781995323, "train/reward_loss_mean": 0.05747311603691843, "train/reward_loss_std": 0.20970554422173235, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0240646931860182, "train/reward_neg_acc": 0.9936101047529114, "train/reward_neg_loss": 0.025115521223698225, "train/reward_pos_acc": 0.9916687309741974, "train/reward_pos_loss": 0.713857754237122, "train/reward_pred": 0.04208289893964926, "train/reward_rate": 0.04701063368055555, "stats/sum_log_reward": 11.957143170492989, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38050293922424316, "replay/size": 929924.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4437324460698755e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3247832079618675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2025158405304, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.288509130477905, "timer/env.step_frac": 0.06425165717373299, "timer/env.step_avg": 0.013320793598396344, "timer/env.step_min": 0.0028755664825439453, "timer/env.step_max": 1.689699649810791, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26886558532714844, "timer/replay.add_frac": 0.0008956140309962347, "timer/replay.add_avg": 0.00018568065285024064, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0025746822357177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0285186767578125, "timer/logger.write_frac": 9.499812710750837e-05, "timer/logger.write_avg": 0.0285186767578125, "timer/logger.write_min": 0.0285186767578125, "timer/logger.write_max": 0.0285186767578125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.739169359207153, "timer/agent.policy_frac": 0.03577308247780266, "timer/agent.policy_avg": 0.007416553424866819, "timer/agent.policy_min": 0.005690097808837891, "timer/agent.policy_max": 0.014501571655273438, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06065249443054199, "timer/dataset_frac": 0.00020203859471571188, "timer/dataset_avg": 8.377416357809668e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.1338315010071, "timer/agent.train_frac": 0.8965075817151805, "timer/agent.train_avg": 0.3717318114654794, "timer/agent.train_min": 0.3654665946960449, "timer/agent.train_max": 0.3862428665161133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22066187858581543, "timer/agent.report_frac": 0.0007350434021779901, "timer/agent.report_avg": 0.22066187858581543, "timer/agent.report_min": 0.22066187858581543, "timer/agent.report_max": 0.22066187858581543, "fps": 4.823318138099121}
+{"step": 930239, "episode/length": 310.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04823151125401929}
+{"step": 930470, "episode/length": 230.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.06926406926406926}
+{"step": 930724, "episode/length": 253.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 17.10000003874302, "episode/reward_rate": 0.05905511811023622}
+{"step": 930920, "episode/length": 195.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.08163265306122448}
+{"step": 931135, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06046511627906977}
+{"step": 931406, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.055350553505535055}
+{"step": 931419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402307298448351, "train/action_min": 0.0, "train/action_std": 3.272913691070345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037852863729414016, "train/actor_opt_grad_steps": 464805.0, "train/actor_opt_loss": -10.883492262827026, "train/adv_mag": 0.38437995521558654, "train/adv_max": 0.318800937384367, "train/adv_mean": 0.0019704083450859697, "train/adv_min": -0.3445713300671842, "train/adv_std": 0.04289461848222547, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 4.3556025681981384e-05, "train/cont_loss_std": 0.0013033675424350595, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.01271591562468593, "train/cont_pos_acc": 0.9999862644407485, "train/cont_pos_loss": 1.823309443999616e-05, "train/cont_pred": 0.9948588394456439, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.463091949621837, "train/dyn_loss_std": 8.881389061609903, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9207799227701293, "train/extr_critic_critic_opt_grad_steps": 464805.0, "train/extr_critic_critic_opt_loss": 15469.016438802084, "train/extr_critic_mag": 12.224812878502739, "train/extr_critic_max": 12.224812878502739, "train/extr_critic_mean": 3.799648142523236, "train/extr_critic_min": -0.32997642788622117, "train/extr_critic_std": 2.9191339214642844, "train/extr_return_normed_mag": 1.3923094206386142, "train/extr_return_normed_max": 1.3923094206386142, "train/extr_return_normed_mean": 0.40274817993243534, "train/extr_return_normed_min": -0.08519810003538926, "train/extr_return_normed_std": 0.31729590168429744, "train/extr_return_rate": 0.8718940334187614, "train/extr_return_raw_mag": 13.019454916318258, "train/extr_return_raw_max": 13.019454916318258, "train/extr_return_raw_mean": 3.8179678519566855, "train/extr_return_raw_min": -0.719081447356277, "train/extr_return_raw_std": 2.950485385126538, "train/extr_reward_mag": 1.064770023028056, "train/extr_reward_max": 1.064770023028056, "train/extr_reward_mean": 0.061837612392587796, "train/extr_reward_min": -0.5921640776925616, "train/extr_reward_std": 0.23913162822524706, "train/image_loss_mean": 3.366933951775233, "train/image_loss_std": 8.516814377572802, "train/model_loss_mean": 6.704583307107289, "train/model_loss_std": 12.641931586795383, "train/model_opt_grad_norm": 21.93030125564999, "train/model_opt_grad_steps": 464427.0, "train/model_opt_loss": 13682.011440700955, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2031.25, "train/policy_entropy_mag": 2.665254169040256, "train/policy_entropy_max": 2.665254169040256, "train/policy_entropy_mean": 0.3857902294645707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.577058267676168, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3858556414230002, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0119226458999846, "train/policy_randomness_mag": 0.9407177608874109, "train/policy_randomness_max": 0.9407177608874109, "train/policy_randomness_mean": 0.1361670218822029, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2036762481762303, "train/post_ent_mag": 55.723225328657364, "train/post_ent_max": 55.723225328657364, "train/post_ent_mean": 40.521095010969375, "train/post_ent_min": 19.64222656355964, "train/post_ent_std": 5.83407813972897, "train/prior_ent_mag": 76.74519920349121, "train/prior_ent_max": 76.74519920349121, "train/prior_ent_mean": 45.983933978610565, "train/prior_ent_min": 27.744569910897148, "train/prior_ent_std": 7.816437880198161, "train/rep_loss_mean": 5.463091949621837, "train/rep_loss_std": 8.881389061609903, "train/reward_avg": 0.043400064705767565, "train/reward_loss_mean": 0.059750651112861104, "train/reward_loss_std": 0.22780476696789265, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0350229971938663, "train/reward_neg_acc": 0.9932672712537978, "train/reward_neg_loss": 0.026090411016614072, "train/reward_pos_acc": 0.9890070615543259, "train/reward_pos_loss": 0.725000348356035, "train/reward_pred": 0.043125266726646155, "train/reward_rate": 0.048136393229166664, "stats/sum_log_reward": 13.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46362467110157013, "replay/size": 931356.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4464138180183964e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3432897335990181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01470613479614, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.4369957447052, "timer/env.step_frac": 0.06811997987699606, "timer/env.step_avg": 0.014271645073118157, "timer/env.step_min": 0.0028426647186279297, "timer/env.step_max": 2.690319776535034, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2621312141418457, "timer/replay.add_frac": 0.0008737278832727305, "timer/replay.add_avg": 0.00018305252384207102, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.004942655563354492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030808210372924805, "timer/logger.write_frac": 0.00010268900071546067, "timer/logger.write_avg": 0.030808210372924805, "timer/logger.write_min": 0.030808210372924805, "timer/logger.write_max": 0.030808210372924805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024890899658203125, "timer/checkpoint.save_frac": 8.296559851642634e-07, "timer/checkpoint.save_avg": 0.00024890899658203125, "timer/checkpoint.save_min": 0.00024890899658203125, "timer/checkpoint.save_max": 0.00024890899658203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4400579929351807, "timer/agent.save_frac": 0.004799958013685385, "timer/agent.save_avg": 1.4400579929351807, "timer/agent.save_min": 1.4400579929351807, "timer/agent.save_max": 1.4400579929351807, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.845329284667969e-05, "timer/replay.save_frac": 2.94829856796879e-07, "timer/replay.save_avg": 8.845329284667969e-05, "timer/replay.save_min": 8.845329284667969e-05, "timer/replay.save_max": 8.845329284667969e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.930118322372437, "timer/agent.policy_frac": 0.0397651117709285, "timer/agent.policy_avg": 0.008331088213947232, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 1.4294767379760742, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05990767478942871, "timer/dataset_frac": 0.00019968246077414713, "timer/dataset_avg": 8.366993685674401e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.62770080566406, "timer/agent.train_frac": 0.8887154374554848, "timer/agent.train_avg": 0.37238505699115093, "timer/agent.train_min": 0.3644428253173828, "timer/agent.train_max": 0.9090044498443604, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063684463500977, "timer/agent.report_frac": 0.0007354200981597148, "timer/agent.report_avg": 0.22063684463500977, "timer/agent.report_min": 0.22063684463500977, "timer/agent.report_max": 0.22063684463500977, "fps": 4.773021303844903}
+{"step": 931620, "episode/length": 213.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07009345794392523}
+{"step": 931856, "episode/length": 235.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.06779661016949153}
+{"step": 932019, "episode/length": 162.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07975460122699386}
+{"step": 932265, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06097560975609756}
+{"step": 932694, "episode/length": 428.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.30000003427267, "episode/reward_rate": 0.039627039627039624}
+{"step": 932844, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04}
+{"step": 932875, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390576680501302, "train/action_min": 0.0, "train/action_std": 3.258526881535848, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03840357872347037, "train/actor_opt_grad_steps": 465525.0, "train/actor_opt_loss": -10.619856091009247, "train/adv_mag": 0.40545248488585156, "train/adv_max": 0.3250361945894029, "train/adv_mean": 0.0019243837227299486, "train/adv_min": -0.36265387820700806, "train/adv_std": 0.0426980452094641, "train/cont_avg": 0.9950764973958334, "train/cont_loss_mean": 7.714523912912459e-05, "train/cont_loss_std": 0.0024193491389843144, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.014877538133005372, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.50382201602453e-06, "train/cont_pred": 0.9950977348619037, "train/cont_rate": 0.9950764973958334, "train/dyn_loss_mean": 5.389361805386013, "train/dyn_loss_std": 8.889411469300589, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9004212435748842, "train/extr_critic_critic_opt_grad_steps": 465525.0, "train/extr_critic_critic_opt_loss": 15428.942138671875, "train/extr_critic_mag": 12.151754750145805, "train/extr_critic_max": 12.151754750145805, "train/extr_critic_mean": 3.8431647982862263, "train/extr_critic_min": -0.38222680820359123, "train/extr_critic_std": 2.875985417101118, "train/extr_return_normed_mag": 1.3738958620362811, "train/extr_return_normed_max": 1.3738958620362811, "train/extr_return_normed_mean": 0.4059646733933025, "train/extr_return_normed_min": -0.08261005394160748, "train/extr_return_normed_std": 0.31187564093205666, "train/extr_return_rate": 0.8812419068482187, "train/extr_return_raw_mag": 12.859693037139046, "train/extr_return_raw_max": 12.859693037139046, "train/extr_return_raw_mean": 3.86104949315389, "train/extr_return_raw_min": -0.6816024072468281, "train/extr_return_raw_std": 2.8997129831049175, "train/extr_reward_mag": 1.065962662299474, "train/extr_reward_max": 1.065962662299474, "train/extr_reward_mean": 0.062325938501291804, "train/extr_reward_min": -0.6498806940184699, "train/extr_reward_std": 0.23973602822257412, "train/image_loss_mean": 3.1685040328237744, "train/image_loss_std": 8.125680983066559, "train/model_loss_mean": 6.459742433494991, "train/model_loss_std": 12.280429270532396, "train/model_opt_grad_norm": 22.866723497708637, "train/model_opt_grad_steps": 465146.77777777775, "train/model_opt_loss": 16149.356079101562, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6529086000389523, "train/policy_entropy_max": 2.6529086000389523, "train/policy_entropy_mean": 0.36662446562614703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.557720982366138, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36644833017554546, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 0.9982746905750699, "train/policy_randomness_mag": 0.936360314488411, "train/policy_randomness_max": 0.936360314488411, "train/policy_randomness_mean": 0.12940234546032217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19685103268259102, "train/post_ent_mag": 55.90176820755005, "train/post_ent_max": 55.90176820755005, "train/post_ent_mean": 40.38153182135688, "train/post_ent_min": 19.579555590947468, "train/post_ent_std": 5.738483303123051, "train/prior_ent_mag": 76.77243900299072, "train/prior_ent_max": 76.77243900299072, "train/prior_ent_mean": 45.75865915086534, "train/prior_ent_min": 28.03510305616591, "train/prior_ent_std": 7.746918155087365, "train/rep_loss_mean": 5.389361805386013, "train/rep_loss_std": 8.889411469300589, "train/reward_avg": 0.041848415224295527, "train/reward_loss_mean": 0.05754420218161411, "train/reward_loss_std": 0.2179052219208744, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0170594702164333, "train/reward_neg_acc": 0.9936107248067856, "train/reward_neg_loss": 0.024762198962788615, "train/reward_pos_acc": 0.9861937363942465, "train/reward_pos_loss": 0.7354630372590489, "train/reward_pred": 0.041461174505659275, "train/reward_rate": 0.046183268229166664, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4889641652504603, "replay/size": 932812.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.447899451622596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3390576446449363e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3742091655731, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.15657353401184, "timer/env.step_frac": 0.060446512982755864, "timer/env.step_avg": 0.012470174130502639, "timer/env.step_min": 0.002937793731689453, "timer/env.step_max": 1.7020230293273926, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2893822193145752, "timer/replay.add_frac": 0.0009634056802628521, "timer/replay.add_avg": 0.00019875152425451593, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.005892038345336914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02588939666748047, "timer/logger.write_frac": 8.619047800208985e-05, "timer/logger.write_avg": 0.02588939666748047, "timer/logger.write_min": 0.02588939666748047, "timer/logger.write_max": 0.02588939666748047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.515446186065674, "timer/agent.policy_frac": 0.035007819796769965, "timer/agent.policy_avg": 0.007222147105814336, "timer/agent.policy_min": 0.005730390548706055, "timer/agent.policy_max": 0.01817488670349121, "timer/dataset_count": 728.0, "timer/dataset_total": 0.060667991638183594, "timer/dataset_frac": 0.000201974702843885, "timer/dataset_avg": 8.333515334915328e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00014400482177734375, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.66202902793884, "timer/agent.train_frac": 0.9010827853024617, "timer/agent.train_avg": 0.3717885014120039, "timer/agent.train_min": 0.3649895191192627, "timer/agent.train_max": 0.38756465911865234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2191462516784668, "timer/agent.report_frac": 0.0007295774570235102, "timer/agent.report_avg": 0.2191462516784668, "timer/agent.report_min": 0.2191462516784668, "timer/agent.report_max": 0.2191462516784668, "fps": 4.847189486359383}
+{"step": 933094, "episode/length": 249.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.06}
+{"step": 933301, "episode/length": 206.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06280193236714976}
+{"step": 933467, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0783132530120482}
+{"step": 933632, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07878787878787878}
+{"step": 933829, "episode/length": 196.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05583756345177665}
+{"step": 934020, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06806282722513089}
+{"step": 934331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381970549282962, "train/action_min": 0.0, "train/action_std": 3.261473916981318, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03876087870703985, "train/actor_opt_grad_steps": 466250.0, "train/actor_opt_loss": -11.53086451308368, "train/adv_mag": 0.3921756227947261, "train/adv_max": 0.32534717717399336, "train/adv_mean": 0.001835440961669569, "train/adv_min": -0.3595261363542243, "train/adv_std": 0.04342831048655183, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 3.0228592681570972e-05, "train/cont_loss_std": 0.0009231343886485058, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0035183946256456995, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.819542182384177e-06, "train/cont_pred": 0.9947445711044416, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.5147760534939705, "train/dyn_loss_std": 8.831609497331593, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.910343005232615, "train/extr_critic_critic_opt_grad_steps": 466250.0, "train/extr_critic_critic_opt_loss": 15400.047155928938, "train/extr_critic_mag": 12.002396087123923, "train/extr_critic_max": 12.002396087123923, "train/extr_critic_mean": 3.9179416551981885, "train/extr_critic_min": -0.33848318825029344, "train/extr_critic_std": 2.885353121038986, "train/extr_return_normed_mag": 1.3692757152531245, "train/extr_return_normed_max": 1.3692757152531245, "train/extr_return_normed_mean": 0.4186542764918445, "train/extr_return_normed_min": -0.08175861136349913, "train/extr_return_normed_std": 0.3150571435689926, "train/extr_return_rate": 0.8822123351162428, "train/extr_return_raw_mag": 12.712320118734281, "train/extr_return_raw_max": 12.712320118734281, "train/extr_return_raw_mean": 3.934894035940301, "train/extr_return_raw_min": -0.6865372200534768, "train/extr_return_raw_std": 2.909517716055047, "train/extr_reward_mag": 1.0650966036809635, "train/extr_reward_max": 1.0650966036809635, "train/extr_reward_mean": 0.06274741612476846, "train/extr_reward_min": -0.6085893356636779, "train/extr_reward_std": 0.2405483504272487, "train/image_loss_mean": 3.115388422796171, "train/image_loss_std": 8.1171762192086, "train/model_loss_mean": 6.484034642781297, "train/model_loss_std": 12.252210878346064, "train/model_opt_grad_norm": 24.134545012696147, "train/model_opt_grad_steps": 465871.0, "train/model_opt_loss": 16210.086593000857, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6640367279314017, "train/policy_entropy_max": 2.6640367279314017, "train/policy_entropy_mean": 0.37313943672670075, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5718821111607225, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3738753303681334, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0073801246407914, "train/policy_randomness_mag": 0.9402880554329859, "train/policy_randomness_max": 0.9402880554329859, "train/policy_randomness_mean": 0.13170184623705197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2018492864827587, "train/post_ent_mag": 55.63468823367602, "train/post_ent_max": 55.63468823367602, "train/post_ent_mean": 40.3974750989104, "train/post_ent_min": 19.572633978438702, "train/post_ent_std": 5.806790129779136, "train/prior_ent_mag": 76.70599542905207, "train/prior_ent_max": 76.70599542905207, "train/prior_ent_mean": 45.90068294577403, "train/prior_ent_min": 27.7503401090021, "train/prior_ent_std": 7.781166599221425, "train/rep_loss_mean": 5.5147760534939705, "train/rep_loss_std": 8.831609497331593, "train/reward_avg": 0.04418075742991003, "train/reward_loss_mean": 0.05975038721545102, "train/reward_loss_std": 0.22590010133508134, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0294702706271655, "train/reward_neg_acc": 0.9935063393148658, "train/reward_neg_loss": 0.025144725361813423, "train/reward_pos_acc": 0.9882502833457842, "train/reward_pos_loss": 0.7354344350017913, "train/reward_pred": 0.04372694960808101, "train/reward_rate": 0.0488013698630137, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2644352813561757, "replay/size": 934268.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3702824141953018e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.321679779461452e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04859495162964, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.846182346343994, "timer/env.step_frac": 0.05947764011099918, "timer/env.step_avg": 0.012256993369741754, "timer/env.step_min": 0.002904176712036133, "timer/env.step_max": 1.7155470848083496, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2587273120880127, "timer/replay.add_frac": 0.0008622846980160721, "timer/replay.add_avg": 0.00017769732973077796, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.004854917526245117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02268838882446289, "timer/logger.write_frac": 7.561571427495086e-05, "timer/logger.write_avg": 0.02268838882446289, "timer/logger.write_min": 0.02268838882446289, "timer/logger.write_max": 0.02268838882446289, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.555562734603882, "timer/agent.policy_frac": 0.03517951062662209, "timer/agent.policy_avg": 0.007249699680359809, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.018375635147094727, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06169295310974121, "timer/dataset_frac": 0.000205609871693239, "timer/dataset_avg": 8.474306745843573e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0010106563568115234, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.6451632976532, "timer/agent.train_frac": 0.9020044347859169, "timer/agent.train_avg": 0.37176533420007307, "timer/agent.train_min": 0.3651754856109619, "timer/agent.train_max": 0.38686108589172363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22018766403198242, "timer/agent.report_frac": 0.0007338400103739147, "timer/agent.report_avg": 0.22018766403198242, "timer/agent.report_min": 0.22018766403198242, "timer/agent.report_max": 0.22018766403198242, "fps": 4.852465964883627}
+{"step": 934431, "episode/length": 410.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.031630170316301706}
+{"step": 934620, "episode/length": 188.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07936507936507936}
+{"step": 934675, "episode/length": 54.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.12727272727272726}
+{"step": 934952, "episode/length": 276.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05054151624548736}
+{"step": 935163, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07109004739336493}
+{"step": 935350, "episode/length": 186.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.058823529411764705}
+{"step": 935529, "episode/length": 178.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.08379888268156424}
+{"step": 935711, "episode/length": 181.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.08791208791208792}
+{"step": 935747, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397250323228433, "train/action_min": 0.0, "train/action_std": 3.267679513340265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03970874714809404, "train/actor_opt_grad_steps": 466970.0, "train/actor_opt_loss": -10.651679505764598, "train/adv_mag": 0.41429455263513915, "train/adv_max": 0.346326921607407, "train/adv_mean": 0.0026897670179326745, "train/adv_min": -0.35987271662329284, "train/adv_std": 0.04440274483091395, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 6.993423546630215e-05, "train/cont_loss_std": 0.0021238329975227623, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.010397632863946913, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.0809726594404092e-05, "train/cont_pred": 0.9950024720648645, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 5.524928415325326, "train/dyn_loss_std": 8.891154766082764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9253523517662371, "train/extr_critic_critic_opt_grad_steps": 466970.0, "train/extr_critic_critic_opt_loss": 15681.035183758802, "train/extr_critic_mag": 12.04524781670369, "train/extr_critic_max": 12.04524781670369, "train/extr_critic_mean": 3.841794923997261, "train/extr_critic_min": -0.34961598188104764, "train/extr_critic_std": 2.870339893958938, "train/extr_return_normed_mag": 1.3750005691823826, "train/extr_return_normed_max": 1.3750005691823826, "train/extr_return_normed_mean": 0.41161164767305614, "train/extr_return_normed_min": -0.08317274358910574, "train/extr_return_normed_std": 0.31330886735043056, "train/extr_return_rate": 0.8724151379625562, "train/extr_return_raw_mag": 12.792804556833186, "train/extr_return_raw_max": 12.792804556833186, "train/extr_return_raw_mean": 3.8667263514559034, "train/extr_return_raw_min": -0.7168713791269652, "train/extr_return_raw_std": 2.9028875290508003, "train/extr_reward_mag": 1.0721083358979562, "train/extr_reward_max": 1.0721083358979562, "train/extr_reward_mean": 0.061848694537307174, "train/extr_reward_min": -0.6563003382212679, "train/extr_reward_std": 0.23886917489515225, "train/image_loss_mean": 3.1902501986060345, "train/image_loss_std": 8.798021860525642, "train/model_loss_mean": 6.563153696731782, "train/model_loss_std": 12.933521324480084, "train/model_opt_grad_norm": 23.117683853901607, "train/model_opt_grad_steps": 466590.23943661974, "train/model_opt_loss": 17731.292941241198, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2711.2676056338028, "train/policy_entropy_mag": 2.6436701291043994, "train/policy_entropy_max": 2.6436701291043994, "train/policy_entropy_mean": 0.365003603654848, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5575163872309135, "train/policy_logprob_mag": 7.438384250855782, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3650187973825025, "train/policy_logprob_min": -7.438384250855782, "train/policy_logprob_std": 0.9968486319125538, "train/policy_randomness_mag": 0.9330995410261019, "train/policy_randomness_max": 0.9330995410261019, "train/policy_randomness_mean": 0.12883025512728893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19677881865014493, "train/post_ent_mag": 55.41829273062692, "train/post_ent_max": 55.41829273062692, "train/post_ent_mean": 40.197699694566325, "train/post_ent_min": 19.629805524584274, "train/post_ent_std": 5.685577587342598, "train/prior_ent_mag": 76.78779365647007, "train/prior_ent_max": 76.78779365647007, "train/prior_ent_mean": 45.68926985834686, "train/prior_ent_min": 28.003753715837505, "train/prior_ent_std": 7.740535030902271, "train/rep_loss_mean": 5.524928415325326, "train/rep_loss_std": 8.891154766082764, "train/reward_avg": 0.04209259430497465, "train/reward_loss_mean": 0.0578765573740845, "train/reward_loss_std": 0.22356189430599482, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0241115462612098, "train/reward_neg_acc": 0.993641582173361, "train/reward_neg_loss": 0.02458395073059159, "train/reward_pos_acc": 0.9859373183317588, "train/reward_pos_loss": 0.7398709100736699, "train/reward_pred": 0.04164668403460946, "train/reward_rate": 0.04672370158450704, "stats/sum_log_reward": 12.100000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3868097383528948, "replay/size": 935684.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.3979698763055315e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3140593208162125e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9998996257782, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.019787788391113, "timer/env.step_frac": 0.07673265163457102, "timer/env.step_avg": 0.016256912279937228, "timer/env.step_min": 0.002905130386352539, "timer/env.step_max": 1.9324181079864502, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.26854968070983887, "timer/replay.add_frac": 0.0008951659018713988, "timer/replay.add_avg": 0.00018965372931485796, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0039403438568115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02102804183959961, "timer/logger.write_frac": 7.009349625059916e-05, "timer/logger.write_avg": 0.02102804183959961, "timer/logger.write_min": 0.02102804183959961, "timer/logger.write_max": 0.02102804183959961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002830028533935547, "timer/checkpoint.save_frac": 9.433431602696343e-07, "timer/checkpoint.save_avg": 0.0002830028533935547, "timer/checkpoint.save_min": 0.0002830028533935547, "timer/checkpoint.save_max": 0.0002830028533935547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.173342227935791, "timer/agent.save_frac": 0.003911142068378775, "timer/agent.save_avg": 1.173342227935791, "timer/agent.save_min": 1.173342227935791, "timer/agent.save_max": 1.173342227935791, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.699562072753906e-05, "timer/replay.save_frac": 2.2331881047663625e-07, "timer/replay.save_avg": 6.699562072753906e-05, "timer/replay.save_min": 6.699562072753906e-05, "timer/replay.save_max": 6.699562072753906e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.175140142440796, "timer/agent.policy_frac": 0.04058381405336516, "timer/agent.policy_avg": 0.00859826281245819, "timer/agent.policy_min": 0.00567936897277832, "timer/agent.policy_max": 1.1655774116516113, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05872082710266113, "timer/dataset_frac": 0.0001957361558317515, "timer/dataset_avg": 8.293902133144228e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79114866256714, "timer/agent.train_frac": 0.8793041230734474, "timer/agent.train_avg": 0.3725863681674677, "timer/agent.train_min": 0.36418747901916504, "timer/agent.train_max": 0.8833937644958496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2219705581665039, "timer/agent.report_frac": 0.0007399021081120074, "timer/agent.report_avg": 0.2219705581665039, "timer/agent.report_min": 0.2219705581665039, "timer/agent.report_max": 0.2219705581665039, "fps": 4.719899434642917}
+{"step": 935774, "episode/length": 62.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.14285714285714285}
+{"step": 936133, "episode/length": 358.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.700000025331974, "episode/reward_rate": 0.05013927576601671}
+{"step": 936521, "episode/length": 387.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.03865979381443299}
+{"step": 936703, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 936862, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.08176100628930817}
+{"step": 937024, "episode/length": 161.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08024691358024691}
+{"step": 937203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436765069830908, "train/action_min": 0.0, "train/action_std": 3.2814974164309567, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03934369200508889, "train/actor_opt_grad_steps": 467690.0, "train/actor_opt_loss": -11.118846568342757, "train/adv_mag": 0.39941039477309137, "train/adv_max": 0.3333694457191311, "train/adv_mean": 0.001976081853384018, "train/adv_min": -0.34629260881306373, "train/adv_std": 0.043304456627532226, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 1.9499826740109848e-05, "train/cont_loss_std": 0.0005763608293635066, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.003359542642662916, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 6.1789077715555526e-06, "train/cont_pred": 0.9950265084227471, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.624055150437028, "train/dyn_loss_std": 8.934272681197076, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9185373334035482, "train/extr_critic_critic_opt_grad_steps": 467690.0, "train/extr_critic_critic_opt_loss": 15735.970770012842, "train/extr_critic_mag": 12.162556713574553, "train/extr_critic_max": 12.162556713574553, "train/extr_critic_mean": 3.7360199934815705, "train/extr_critic_min": -0.35787997180468417, "train/extr_critic_std": 2.861378601152603, "train/extr_return_normed_mag": 1.380502356241827, "train/extr_return_normed_max": 1.380502356241827, "train/extr_return_normed_mean": 0.39497883434165015, "train/extr_return_normed_min": -0.08444177374651987, "train/extr_return_normed_std": 0.30901834266643, "train/extr_return_rate": 0.8694260553137897, "train/extr_return_raw_mag": 12.949349429509411, "train/extr_return_raw_max": 12.949349429509411, "train/extr_return_raw_mean": 3.754461546466775, "train/extr_return_raw_min": -0.7182000244725241, "train/extr_return_raw_std": 2.8832703583861052, "train/extr_reward_mag": 1.0768672799410886, "train/extr_reward_max": 1.0768672799410886, "train/extr_reward_mean": 0.060663662289511665, "train/extr_reward_min": -0.6314119802762385, "train/extr_reward_std": 0.23722143757016692, "train/image_loss_mean": 3.394326141435806, "train/image_loss_std": 8.694215206250753, "train/model_loss_mean": 6.827683958288741, "train/model_loss_std": 12.86459400229258, "train/model_opt_grad_norm": 23.025671841347055, "train/model_opt_grad_steps": 467309.68493150687, "train/model_opt_loss": 18051.537363548803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.6794606038968856, "train/policy_entropy_max": 2.6794606038968856, "train/policy_entropy_mean": 0.38434259246473446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5817091089405425, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3839090840048986, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0111338161442378, "train/policy_randomness_mag": 0.945732007287953, "train/policy_randomness_max": 0.945732007287953, "train/policy_randomness_mean": 0.13565606960695084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20531778833637498, "train/post_ent_mag": 55.19063803267805, "train/post_ent_max": 55.19063803267805, "train/post_ent_mean": 40.37796203404257, "train/post_ent_min": 19.723173141479492, "train/post_ent_std": 5.746416692864405, "train/prior_ent_mag": 76.75509497237532, "train/prior_ent_max": 76.75509497237532, "train/prior_ent_mean": 46.00629148091355, "train/prior_ent_min": 28.18136095020869, "train/prior_ent_std": 7.756241700420641, "train/rep_loss_mean": 5.624055150437028, "train/rep_loss_std": 8.934272681197076, "train/reward_avg": 0.042392176257012644, "train/reward_loss_mean": 0.058905241985435355, "train/reward_loss_std": 0.22410485005542025, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0357429785271213, "train/reward_neg_acc": 0.9929716872842345, "train/reward_neg_loss": 0.025682888242530906, "train/reward_pos_acc": 0.9863171920384446, "train/reward_pos_loss": 0.735904482129502, "train/reward_pred": 0.04191340796955644, "train/reward_rate": 0.04694188784246575, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4820924202601115, "stats/max_log_achievement_make_iron_sword": 0.2, "replay/size": 937140.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.544183877798227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3294578581065923e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2411410808563, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.535014867782593, "timer/env.step_frac": 0.05840310493311219, "timer/env.step_avg": 0.012043279442158375, "timer/env.step_min": 0.0028221607208251953, "timer/env.step_max": 1.6027414798736572, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2647511959075928, "timer/replay.add_frac": 0.0008817951962029549, "timer/replay.add_avg": 0.00018183461257389614, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0030670166015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02883625030517578, "timer/logger.write_frac": 9.604363413143985e-05, "timer/logger.write_avg": 0.02883625030517578, "timer/logger.write_min": 0.02883625030517578, "timer/logger.write_max": 0.02883625030517578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.762302875518799, "timer/agent.policy_frac": 0.0358455301521135, "timer/agent.policy_avg": 0.007391691535383791, "timer/agent.policy_min": 0.005693912506103516, "timer/agent.policy_max": 0.01653742790222168, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06104016304016113, "timer/dataset_frac": 0.00020330379381193044, "timer/dataset_avg": 8.384637780241913e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001926422119140625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.9114799499512, "timer/agent.train_frac": 0.9023129840723376, "timer/agent.train_avg": 0.37213115377740547, "timer/agent.train_min": 0.36581945419311523, "timer/agent.train_max": 0.38583827018737793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22108197212219238, "timer/agent.report_frac": 0.000736348027876213, "timer/agent.report_avg": 0.22108197212219238, "timer/agent.report_min": 0.22108197212219238, "timer/agent.report_max": 0.22108197212219238, "fps": 4.8493558201694755}
+{"step": 937320, "episode/length": 295.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0472972972972973}
+{"step": 937576, "episode/length": 255.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0625}
+{"step": 937743, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07784431137724551}
+{"step": 937996, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.06324110671936758}
+{"step": 938191, "episode/length": 194.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.07179487179487179}
+{"step": 938462, "episode/length": 270.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.055350553505535055}
+{"step": 938657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445272657606337, "train/action_min": 0.0, "train/action_std": 3.2934119602044425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039266804000362754, "train/actor_opt_grad_steps": 468415.0, "train/actor_opt_loss": -11.871338898522986, "train/adv_mag": 0.4165899165802532, "train/adv_max": 0.3272476529495584, "train/adv_mean": 0.0017025184091481707, "train/adv_min": -0.39223211507002514, "train/adv_std": 0.044171200754741825, "train/cont_avg": 0.9954291449652778, "train/cont_loss_mean": 7.987158147631451e-05, "train/cont_loss_std": 0.002468050913470342, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.00930914970086658, "train/cont_pos_acc": 0.9999863704045614, "train/cont_pos_loss": 2.3643533868029148e-05, "train/cont_pred": 0.9954342088765569, "train/cont_rate": 0.9954291449652778, "train/dyn_loss_mean": 5.512525710794661, "train/dyn_loss_std": 8.844270964463552, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.896218576365047, "train/extr_critic_critic_opt_grad_steps": 468415.0, "train/extr_critic_critic_opt_loss": 15380.780734592014, "train/extr_critic_mag": 12.020932131343418, "train/extr_critic_max": 12.020932131343418, "train/extr_critic_mean": 3.8883278237448797, "train/extr_critic_min": -0.3221120900577969, "train/extr_critic_std": 2.806624243656794, "train/extr_return_normed_mag": 1.3696617053614721, "train/extr_return_normed_max": 1.3696617053614721, "train/extr_return_normed_mean": 0.41541732392377323, "train/extr_return_normed_min": -0.07847562965212597, "train/extr_return_normed_std": 0.3062386086417569, "train/extr_return_rate": 0.8856644680102667, "train/extr_return_raw_mag": 12.741179823875427, "train/extr_return_raw_max": 12.741179823875427, "train/extr_return_raw_mean": 3.9040878315766654, "train/extr_return_raw_min": -0.6703512105676863, "train/extr_return_raw_std": 2.836169295840793, "train/extr_reward_mag": 1.0707493325074513, "train/extr_reward_max": 1.0707493325074513, "train/extr_reward_mean": 0.06243276916858223, "train/extr_reward_min": -0.6303711666001214, "train/extr_reward_std": 0.24028311690522564, "train/image_loss_mean": 3.1385121411747403, "train/image_loss_std": 8.35754872030682, "train/model_loss_mean": 6.503996617264217, "train/model_loss_std": 12.471459481451246, "train/model_opt_grad_norm": 21.291361424658035, "train/model_opt_grad_steps": 468034.0, "train/model_opt_loss": 16259.99156358507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6884318126572504, "train/policy_entropy_max": 2.6884318126572504, "train/policy_entropy_mean": 0.38001698524587685, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5804113029605813, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3798242414163219, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.010555811226368, "train/policy_randomness_mag": 0.9488984528515074, "train/policy_randomness_max": 0.9488984528515074, "train/policy_randomness_mean": 0.13412931923651034, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20485971847342122, "train/post_ent_mag": 55.544625441233315, "train/post_ent_max": 55.544625441233315, "train/post_ent_mean": 40.2746958732605, "train/post_ent_min": 19.787081294589573, "train/post_ent_std": 5.774315933386485, "train/prior_ent_mag": 76.71628761291504, "train/prior_ent_max": 76.71628761291504, "train/prior_ent_mean": 45.78541713290744, "train/prior_ent_min": 28.460920068952774, "train/prior_ent_std": 7.741712252298991, "train/rep_loss_mean": 5.512525710794661, "train/rep_loss_std": 8.844270964463552, "train/reward_avg": 0.043320040917024016, "train/reward_loss_mean": 0.05788918672543433, "train/reward_loss_std": 0.21528265956375334, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0199538932906256, "train/reward_neg_acc": 0.9934525713324547, "train/reward_neg_loss": 0.024419036383430164, "train/reward_pos_acc": 0.9890119358897209, "train/reward_pos_loss": 0.7275137371487088, "train/reward_pred": 0.04309855116945174, "train/reward_rate": 0.04771592881944445, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 21.5, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.41634627679983777, "replay/size": 938594.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.503310139274335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118965917637128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3572943210602, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.066818952560425, "timer/env.step_frac": 0.060151091031098135, "timer/env.step_avg": 0.012425597628996166, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 1.6912922859191895, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2624838352203369, "timer/replay.add_frac": 0.0008739053127165299, "timer/replay.add_avg": 0.00018052533371412443, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.003253936767578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022927045822143555, "timer/logger.write_frac": 7.633257542144525e-05, "timer/logger.write_avg": 0.022927045822143555, "timer/logger.write_min": 0.022927045822143555, "timer/logger.write_max": 0.022927045822143555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.742442846298218, "timer/agent.policy_frac": 0.035765546731871024, "timer/agent.policy_avg": 0.007388200031841966, "timer/agent.policy_min": 0.0056264400482177734, "timer/agent.policy_max": 0.01705312728881836, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06035017967224121, "timer/dataset_frac": 0.00020092796417233417, "timer/dataset_avg": 8.301262678437581e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.52674436569214, "timer/agent.train_frac": 0.9006831180085098, "timer/agent.train_avg": 0.37211381618389566, "timer/agent.train_min": 0.3656885623931885, "timer/agent.train_max": 0.3866701126098633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22119498252868652, "timer/agent.report_frac": 0.0007364395228978362, "timer/agent.report_avg": 0.22119498252868652, "timer/agent.report_min": 0.22119498252868652, "timer/agent.report_max": 0.22119498252868652, "fps": 4.8408056845377105}
+{"step": 938661, "episode/length": 198.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07537688442211055}
+{"step": 938832, "episode/length": 170.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08771929824561403}
+{"step": 938932, "episode/length": 99.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.09}
+{"step": 939151, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
+{"step": 939300, "episode/length": 148.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0738255033557047}
+{"step": 939523, "episode/length": 222.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05829596412556054}
+{"step": 939685, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.08024691358024691}
+{"step": 939890, "episode/length": 204.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05365853658536585}
+{"step": 939936, "episode/length": 45.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.17391304347826086}
+{"step": 940089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.450257195366754, "train/action_min": 0.0, "train/action_std": 3.3152188857396445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03924072513149844, "train/actor_opt_grad_steps": 469135.0, "train/actor_opt_loss": -11.50785653375917, "train/adv_mag": 0.3893284859756629, "train/adv_max": 0.3141654547717836, "train/adv_mean": 0.0019661337730414946, "train/adv_min": -0.3626242871913645, "train/adv_std": 0.04362191021856335, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 1.4659962833698773e-05, "train/cont_loss_std": 0.00044668149665049047, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014870018498721728, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 7.080288200375959e-06, "train/cont_pred": 0.9946429166528914, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.474332630634308, "train/dyn_loss_std": 8.872104578548008, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9496323433187273, "train/extr_critic_critic_opt_grad_steps": 469135.0, "train/extr_critic_critic_opt_loss": 15439.94273546007, "train/extr_critic_mag": 12.097534603542751, "train/extr_critic_max": 12.097534603542751, "train/extr_critic_mean": 3.911991662449307, "train/extr_critic_min": -0.36292362709840137, "train/extr_critic_std": 2.9252184430758157, "train/extr_return_normed_mag": 1.3738559401697583, "train/extr_return_normed_max": 1.3738559401697583, "train/extr_return_normed_mean": 0.4167780776818593, "train/extr_return_normed_min": -0.08422139333561063, "train/extr_return_normed_std": 0.31648261348406476, "train/extr_return_rate": 0.8653447321719594, "train/extr_return_raw_mag": 12.85863843229082, "train/extr_return_raw_max": 12.85863843229082, "train/extr_return_raw_mean": 3.9303289784325495, "train/extr_return_raw_min": -0.7426851963003477, "train/extr_return_raw_std": 2.9523587392436133, "train/extr_reward_mag": 1.0628593928284116, "train/extr_reward_max": 1.0628593928284116, "train/extr_reward_mean": 0.06349072217320402, "train/extr_reward_min": -0.6417581140995026, "train/extr_reward_std": 0.242511965541376, "train/image_loss_mean": 3.199083839853605, "train/image_loss_std": 8.447148548232185, "train/model_loss_mean": 6.543523907661438, "train/model_loss_std": 12.594737847646078, "train/model_opt_grad_norm": 23.058837572733562, "train/model_opt_grad_steps": 468753.09722222225, "train/model_opt_loss": 16788.961832682293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.666709009144041, "train/policy_entropy_max": 2.666709009144041, "train/policy_entropy_mean": 0.3775901858591371, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5682668636242548, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3774825781583786, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0061324454016156, "train/policy_randomness_mag": 0.9412312549021509, "train/policy_randomness_max": 0.9412312549021509, "train/policy_randomness_mean": 0.13327276510083014, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20057326410379675, "train/post_ent_mag": 55.56715933481852, "train/post_ent_max": 55.56715933481852, "train/post_ent_mean": 40.4874390496148, "train/post_ent_min": 19.53368576367696, "train/post_ent_std": 5.729726301299201, "train/prior_ent_mag": 76.64748870001898, "train/prior_ent_max": 76.64748870001898, "train/prior_ent_mean": 45.94600905312432, "train/prior_ent_min": 28.416126039293076, "train/prior_ent_std": 7.781692405541738, "train/rep_loss_mean": 5.474332630634308, "train/rep_loss_std": 8.872104578548008, "train/reward_avg": 0.044010416578708425, "train/reward_loss_mean": 0.05982583968175782, "train/reward_loss_std": 0.22494741446442074, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0174863967630599, "train/reward_neg_acc": 0.9936679767237769, "train/reward_neg_loss": 0.02537588614763485, "train/reward_pos_acc": 0.9862572823961576, "train/reward_pos_loss": 0.7341786449154218, "train/reward_pred": 0.043500323960971504, "train/reward_rate": 0.04867892795138889, "stats/sum_log_reward": 10.544444666968452, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 9.11111111111111, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.8888888888888888, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.7777777777777777, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2912909537553787, "replay/size": 940026.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4404200548566254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3397309367217166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05377674102783, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.139076709747314, "timer/env.step_frac": 0.07378369621008049, "timer/env.step_avg": 0.015460249098985555, "timer/env.step_min": 0.003000497817993164, "timer/env.step_max": 1.6829380989074707, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2723815441131592, "timer/replay.add_frac": 0.0009077757563046701, "timer/replay.add_avg": 0.0001902105754980162, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.008253812789916992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023436784744262695, "timer/logger.write_frac": 7.810861439178169e-05, "timer/logger.write_avg": 0.023436784744262695, "timer/logger.write_min": 0.023436784744262695, "timer/logger.write_max": 0.023436784744262695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.502220153808594, "timer/agent.policy_frac": 0.03500112635766925, "timer/agent.policy_avg": 0.007333952621374716, "timer/agent.policy_min": 0.0057141780853271484, "timer/agent.policy_max": 0.013876676559448242, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05978560447692871, "timer/dataset_frac": 0.00019924963160363357, "timer/dataset_avg": 8.349944759347585e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.3913004398346, "timer/agent.train_frac": 0.8878118560385699, "timer/agent.train_avg": 0.37205488888245053, "timer/agent.train_min": 0.3654518127441406, "timer/agent.train_max": 0.3836705684661865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21796417236328125, "timer/agent.report_frac": 0.0007264170267431863, "timer/agent.report_avg": 0.21796417236328125, "timer/agent.report_min": 0.21796417236328125, "timer/agent.report_max": 0.21796417236328125, "fps": 4.772384091420466}
+{"step": 940209, "episode/length": 272.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.05860805860805861}
+{"step": 940393, "episode/length": 183.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07065217391304347}
+{"step": 940550, "episode/length": 156.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06369426751592357}
+{"step": 940750, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07}
+{"step": 940841, "episode/length": 90.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.0989010989010989}
+{"step": 941232, "episode/length": 390.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.03580562659846547}
+{"step": 941467, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05106382978723404}
+{"step": 941514, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49993466659331, "train/action_min": 0.0, "train/action_std": 3.284056025491634, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038703964550940086, "train/actor_opt_grad_steps": 469850.0, "train/actor_opt_loss": -10.129436348525571, "train/adv_mag": 0.3933512887484591, "train/adv_max": 0.33672113737589876, "train/adv_mean": 0.0019500042508298066, "train/adv_min": -0.3459490476779535, "train/adv_std": 0.042624424093625914, "train/cont_avg": 0.994965889084507, "train/cont_loss_mean": 6.124875959220022e-05, "train/cont_loss_std": 0.0018968083602869186, "train/cont_neg_acc": 0.9971014494481294, "train/cont_neg_loss": 0.007326852974699601, "train/cont_pos_acc": 0.9999862204135304, "train/cont_pos_loss": 3.0055957250541623e-05, "train/cont_pred": 0.9949608252082073, "train/cont_rate": 0.994965889084507, "train/dyn_loss_mean": 5.601455816080873, "train/dyn_loss_std": 8.91396042998408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9289531531468244, "train/extr_critic_critic_opt_grad_steps": 469850.0, "train/extr_critic_critic_opt_loss": 15439.951529489437, "train/extr_critic_mag": 12.08796169388462, "train/extr_critic_max": 12.08796169388462, "train/extr_critic_mean": 3.804656277240162, "train/extr_critic_min": -0.3434001073031358, "train/extr_critic_std": 2.899695398102344, "train/extr_return_normed_mag": 1.3602642542879346, "train/extr_return_normed_max": 1.3602642542879346, "train/extr_return_normed_mean": 0.40320908225757973, "train/extr_return_normed_min": -0.08291944237032407, "train/extr_return_normed_std": 0.31298963053965234, "train/extr_return_rate": 0.8653930543174206, "train/extr_return_raw_mag": 12.771235842100332, "train/extr_return_raw_max": 12.771235842100332, "train/extr_return_raw_mean": 3.822890002962569, "train/extr_return_raw_min": -0.72325019517415, "train/extr_return_raw_std": 2.9267793205422414, "train/extr_reward_mag": 1.0688530021989848, "train/extr_reward_max": 1.0688530021989848, "train/extr_reward_mean": 0.06316416642405617, "train/extr_reward_min": -0.6302750664697566, "train/extr_reward_std": 0.24158649020631548, "train/image_loss_mean": 3.3256098552488944, "train/image_loss_std": 8.591627839585426, "train/model_loss_mean": 6.746136510875863, "train/model_loss_std": 12.754842032848948, "train/model_opt_grad_norm": 22.238711034747915, "train/model_opt_grad_steps": 469467.5633802817, "train/model_opt_loss": 17943.26837588028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.6798664113165627, "train/policy_entropy_max": 2.6798664113165627, "train/policy_entropy_mean": 0.37783512263230873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.569137475859951, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3770389326021705, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0040999692930301, "train/policy_randomness_mag": 0.945875240043855, "train/policy_randomness_max": 0.945875240043855, "train/policy_randomness_mean": 0.13335921730793698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2008805523665858, "train/post_ent_mag": 55.47712788111727, "train/post_ent_max": 55.47712788111727, "train/post_ent_mean": 40.40111890980895, "train/post_ent_min": 19.621715438198034, "train/post_ent_std": 5.790216150418134, "train/prior_ent_mag": 76.79555296562087, "train/prior_ent_max": 76.79555296562087, "train/prior_ent_mean": 46.018552592102914, "train/prior_ent_min": 28.1496487738381, "train/prior_ent_std": 7.753912898856149, "train/rep_loss_mean": 5.601455816080873, "train/rep_loss_std": 8.91396042998408, "train/reward_avg": 0.043474911620289505, "train/reward_loss_mean": 0.05959197480074117, "train/reward_loss_std": 0.22271223030459714, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0277979944793272, "train/reward_neg_acc": 0.9930352602206486, "train/reward_neg_loss": 0.025965983848231778, "train/reward_pos_acc": 0.9907253006814232, "train/reward_pos_loss": 0.7251514834417424, "train/reward_pred": 0.04323093120900678, "train/reward_rate": 0.04816791373239437, "stats/sum_log_reward": 11.671428680419922, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3871059609310968, "replay/size": 941451.0, "replay/inserts": 1425.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.451129846405565e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3180202647541346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0100803375244, "timer/env.step_count": 1425.0, "timer/env.step_total": 21.01119112968445, "timer/env.step_frac": 0.07003495051248258, "timer/env.step_avg": 0.014744695529603122, "timer/env.step_min": 0.002830028533935547, "timer/env.step_max": 1.892594337463379, "timer/replay.add_count": 1425.0, "timer/replay.add_total": 0.28835368156433105, "timer/replay.add_frac": 0.0009611466429391992, "timer/replay.add_avg": 0.00020235346074689897, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.004860639572143555, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030395030975341797, "timer/logger.write_frac": 0.00010131336567473353, "timer/logger.write_avg": 0.030395030975341797, "timer/logger.write_min": 0.030395030975341797, "timer/logger.write_max": 0.030395030975341797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004911422729492188, "timer/checkpoint.save_frac": 1.6370859019025703e-06, "timer/checkpoint.save_avg": 0.0004911422729492188, "timer/checkpoint.save_min": 0.0004911422729492188, "timer/checkpoint.save_max": 0.0004911422729492188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4174652099609375, "timer/agent.save_frac": 0.004724725277118113, "timer/agent.save_avg": 1.4174652099609375, "timer/agent.save_min": 1.4174652099609375, "timer/agent.save_max": 1.4174652099609375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.389617919921875e-05, "timer/replay.save_frac": 2.1298010762615964e-07, "timer/replay.save_avg": 6.389617919921875e-05, "timer/replay.save_min": 6.389617919921875e-05, "timer/replay.save_max": 6.389617919921875e-05, "timer/agent.policy_count": 1425.0, "timer/agent.policy_total": 12.53413701057434, "timer/agent.policy_frac": 0.04177905287873291, "timer/agent.policy_avg": 0.008795885621455678, "timer/agent.policy_min": 0.005750417709350586, "timer/agent.policy_max": 1.415987491607666, "timer/dataset_count": 712.0, "timer/dataset_total": 0.059699058532714844, "timer/dataset_frac": 0.00019899017548193981, "timer/dataset_avg": 8.384699232122871e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.4087269306183, "timer/agent.train_frac": 0.8846660306614428, "timer/agent.train_avg": 0.3727650659137897, "timer/agent.train_min": 0.36236095428466797, "timer/agent.train_max": 0.9012010097503662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22138333320617676, "timer/agent.report_frac": 0.0007379196490901601, "timer/agent.report_avg": 0.22138333320617676, "timer/agent.report_min": 0.22138333320617676, "timer/agent.report_max": 0.22138333320617676, "fps": 4.749751533750529}
+{"step": 941528, "episode/length": 60.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.14754098360655737}
+{"step": 941703, "episode/length": 174.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08}
+{"step": 941927, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 941973, "episode/length": 45.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.10869565217391304}
+{"step": 942176, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06896551724137931}
+{"step": 942354, "episode/length": 177.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.07303370786516854}
+{"step": 942671, "episode/length": 316.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03785488958990536}
+{"step": 942702, "episode/length": 30.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.22580645161290322}
+{"step": 942919, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.055299539170506916}
+{"step": 942943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495210435655382, "train/action_min": 0.0, "train/action_std": 3.3506016068988376, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03880380802891321, "train/actor_opt_grad_steps": 470565.0, "train/actor_opt_loss": -11.742823220375511, "train/adv_mag": 0.4105990816735559, "train/adv_max": 0.3450680710375309, "train/adv_mean": 0.0016952819252209236, "train/adv_min": -0.3665093421522114, "train/adv_std": 0.043481503199372024, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 0.00012327048180931714, "train/cont_loss_std": 0.0038663243155557187, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0162356968869666, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.2634545696875597e-05, "train/cont_pred": 0.995146761337916, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.495867040422228, "train/dyn_loss_std": 8.845609055625069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9558948137693934, "train/extr_critic_critic_opt_grad_steps": 470565.0, "train/extr_critic_critic_opt_loss": 15455.963541666666, "train/extr_critic_mag": 12.080974234475029, "train/extr_critic_max": 12.080974234475029, "train/extr_critic_mean": 3.8553821080260806, "train/extr_critic_min": -0.35631893078486127, "train/extr_critic_std": 2.8658860557609134, "train/extr_return_normed_mag": 1.3686907043059666, "train/extr_return_normed_max": 1.3686907043059666, "train/extr_return_normed_mean": 0.4070826019677851, "train/extr_return_normed_min": -0.08161801198083493, "train/extr_return_normed_std": 0.31037742603156304, "train/extr_return_rate": 0.8770200825399823, "train/extr_return_raw_mag": 12.82967574066586, "train/extr_return_raw_max": 12.82967574066586, "train/extr_return_raw_mean": 3.871173103650411, "train/extr_return_raw_min": -0.681011197467645, "train/extr_return_raw_std": 2.8914951847659216, "train/extr_reward_mag": 1.076229088836246, "train/extr_reward_max": 1.076229088836246, "train/extr_reward_mean": 0.06102377859254678, "train/extr_reward_min": -0.5990015317996343, "train/extr_reward_std": 0.23759761907988125, "train/image_loss_mean": 3.081021891699897, "train/image_loss_std": 8.10996976825926, "train/model_loss_mean": 6.43517843219969, "train/model_loss_std": 12.238588862948948, "train/model_opt_grad_norm": 22.767637901835972, "train/model_opt_grad_steps": 470182.0, "train/model_opt_loss": 16803.467692057293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6858892970614963, "train/policy_entropy_max": 2.6858892970614963, "train/policy_entropy_mean": 0.3913454879075289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5907512307167053, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39193115735219586, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0210981774661276, "train/policy_randomness_mag": 0.948001053598192, "train/policy_randomness_max": 0.948001053598192, "train/policy_randomness_mean": 0.13812778300295273, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20850925985723734, "train/post_ent_mag": 55.27397346496582, "train/post_ent_max": 55.27397346496582, "train/post_ent_mean": 40.27826499938965, "train/post_ent_min": 19.447288619147407, "train/post_ent_std": 5.7908541493945656, "train/prior_ent_mag": 76.6324404610528, "train/prior_ent_max": 76.6324404610528, "train/prior_ent_mean": 45.75637298160129, "train/prior_ent_min": 27.521780490875244, "train/prior_ent_std": 7.764448006947835, "train/rep_loss_mean": 5.495867040422228, "train/rep_loss_std": 8.845609055625069, "train/reward_avg": 0.042937554160339966, "train/reward_loss_mean": 0.056513061850435205, "train/reward_loss_std": 0.20764448928336302, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0330276952849493, "train/reward_neg_acc": 0.9935174393985007, "train/reward_neg_loss": 0.023570668754271336, "train/reward_pos_acc": 0.9924025883277258, "train/reward_pos_loss": 0.7195350478092829, "train/reward_pred": 0.04262238086408211, "train/reward_rate": 0.04726833767361111, "stats/sum_log_reward": 10.100000275505913, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5555555555555556, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 12.222222222222221, "stats/max_log_achievement_collect_wood": 9.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.7777777777777778, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.30023301972283256, "replay/size": 942880.0, "replay/inserts": 1429.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.371896069728886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3104268720933607e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0457532405853, "timer/env.step_count": 1429.0, "timer/env.step_total": 22.41670799255371, "timer/env.step_frac": 0.07471096574587859, "timer/env.step_avg": 0.015686989497938217, "timer/env.step_min": 0.0029404163360595703, "timer/env.step_max": 1.7109134197235107, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.2567873001098633, "timer/replay.add_frac": 0.000855827144148792, "timer/replay.add_avg": 0.00017969720091662932, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.004591464996337891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028839826583862305, "timer/logger.write_frac": 9.611809623160273e-05, "timer/logger.write_avg": 0.028839826583862305, "timer/logger.write_min": 0.028839826583862305, "timer/logger.write_max": 0.028839826583862305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 10.522160053253174, "timer/agent.policy_frac": 0.03506851851629509, "timer/agent.policy_avg": 0.007363303046363312, "timer/agent.policy_min": 0.005730867385864258, "timer/agent.policy_max": 0.015143632888793945, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05929851531982422, "timer/dataset_frac": 0.00019763157678248143, "timer/dataset_avg": 8.293498646129262e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0956120491028, "timer/agent.train_frac": 0.8868501192741084, "timer/agent.train_avg": 0.37216169517357034, "timer/agent.train_min": 0.3654055595397949, "timer/agent.train_max": 0.388962984085083, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.221893310546875, "timer/agent.report_frac": 0.0007395315819349543, "timer/agent.report_avg": 0.221893310546875, "timer/agent.report_min": 0.221893310546875, "timer/agent.report_max": 0.221893310546875, "fps": 4.762470999475235}
+{"step": 943100, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07734806629834254}
+{"step": 943274, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08045977011494253}
+{"step": 943496, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06756756756756757}
+{"step": 943896, "episode/length": 399.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0325}
+{"step": 944132, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.059322033898305086}
+{"step": 944342, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.05714285714285714}
+{"step": 944394, "episode/length": 51.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.15384615384615385}
+{"step": 944395, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418872409396702, "train/action_min": 0.0, "train/action_std": 3.2828761802779303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03878445993177593, "train/actor_opt_grad_steps": 471285.0, "train/actor_opt_loss": -12.36759210905681, "train/adv_mag": 0.3944113159345256, "train/adv_max": 0.3214804617067178, "train/adv_mean": 0.0016788078281832794, "train/adv_min": -0.3549205938147174, "train/adv_std": 0.04294297761387295, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 5.553025910565168e-05, "train/cont_loss_std": 0.0017648617211906508, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.014423701497771132, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.330680961341023e-05, "train/cont_pred": 0.9947935789823532, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.4848267965846595, "train/dyn_loss_std": 8.890320367283291, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9386017165250249, "train/extr_critic_critic_opt_grad_steps": 471285.0, "train/extr_critic_critic_opt_loss": 15361.724216037326, "train/extr_critic_mag": 12.190592924753824, "train/extr_critic_max": 12.190592924753824, "train/extr_critic_mean": 3.840168790684806, "train/extr_critic_min": -0.32667634387811023, "train/extr_critic_std": 2.877475851111942, "train/extr_return_normed_mag": 1.3871420125166576, "train/extr_return_normed_max": 1.3871420125166576, "train/extr_return_normed_mean": 0.40928083078728783, "train/extr_return_normed_min": -0.08059887293105324, "train/extr_return_normed_std": 0.31327447067532277, "train/extr_return_rate": 0.8704490835467974, "train/extr_return_raw_mag": 12.918878343370226, "train/extr_return_raw_max": 12.918878343370226, "train/extr_return_raw_mean": 3.855727401044634, "train/extr_return_raw_min": -0.6845962260332372, "train/extr_return_raw_std": 2.903225087457233, "train/extr_reward_mag": 1.061935481097963, "train/extr_reward_max": 1.061935481097963, "train/extr_reward_mean": 0.06250836576024692, "train/extr_reward_min": -0.5959549132320616, "train/extr_reward_std": 0.24011018934349218, "train/image_loss_mean": 3.1887832350201077, "train/image_loss_std": 8.302934262487623, "train/model_loss_mean": 6.5405069722069635, "train/model_loss_std": 12.479836450682747, "train/model_opt_grad_norm": 21.366104616059197, "train/model_opt_grad_steps": 470901.02777777775, "train/model_opt_loss": 16749.48952907986, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6863457692994013, "train/policy_entropy_max": 2.6863457692994013, "train/policy_entropy_mean": 0.3902622250219186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5926709398627281, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39047867556413013, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0194209077292018, "train/policy_randomness_mag": 0.9481621690922313, "train/policy_randomness_max": 0.9481621690922313, "train/policy_randomness_mean": 0.13774543990277582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20918683676669994, "train/post_ent_mag": 55.514652993943955, "train/post_ent_max": 55.514652993943955, "train/post_ent_mean": 40.48279979493883, "train/post_ent_min": 19.475765837563408, "train/post_ent_std": 5.758457038137648, "train/prior_ent_mag": 76.72730361090765, "train/prior_ent_max": 76.72730361090765, "train/prior_ent_mean": 45.93383344014486, "train/prior_ent_min": 28.465239736768936, "train/prior_ent_std": 7.765211337142521, "train/rep_loss_mean": 5.4848267965846595, "train/rep_loss_std": 8.890320367283291, "train/reward_avg": 0.04511989981660412, "train/reward_loss_mean": 0.06077218914611472, "train/reward_loss_std": 0.23111418013771376, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0220674143897162, "train/reward_neg_acc": 0.9933325300614039, "train/reward_neg_loss": 0.02534010382886562, "train/reward_pos_acc": 0.9866727830635177, "train/reward_pos_loss": 0.738451292945279, "train/reward_pred": 0.04465252228288187, "train/reward_rate": 0.049763997395833336, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3769190524305616, "replay/size": 944332.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.50189603064671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319081165902214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.87166714668274, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.012041568756104, "timer/env.step_frac": 0.06318987011657445, "timer/env.step_avg": 0.013093692540465636, "timer/env.step_min": 0.0029141902923583984, "timer/env.step_max": 1.6836578845977783, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2799203395843506, "timer/replay.add_frac": 0.0009303645711773922, "timer/replay.add_avg": 0.0001927826030195252, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.009714603424072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022785425186157227, "timer/logger.write_frac": 7.573137544735558e-05, "timer/logger.write_avg": 0.022785425186157227, "timer/logger.write_min": 0.022785425186157227, "timer/logger.write_max": 0.022785425186157227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.68446159362793, "timer/agent.policy_frac": 0.03551169073164665, "timer/agent.policy_avg": 0.0073584446237106955, "timer/agent.policy_min": 0.00583958625793457, "timer/agent.policy_max": 0.014042854309082031, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06070089340209961, "timer/dataset_frac": 0.00020175011485048323, "timer/dataset_avg": 8.361004600840167e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.13996839523315, "timer/agent.train_frac": 0.8978577842078195, "timer/agent.train_avg": 0.37209362037910904, "timer/agent.train_min": 0.3652007579803467, "timer/agent.train_max": 0.3880801200866699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202610969543457, "timer/agent.report_frac": 0.0007320765662090831, "timer/agent.report_avg": 0.2202610969543457, "timer/agent.report_min": 0.2202610969543457, "timer/agent.report_max": 0.2202610969543457, "fps": 4.825880027514}
+{"step": 944697, "episode/length": 302.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.039603960396039604}
+{"step": 944955, "episode/length": 257.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.046511627906976744}
+{"step": 945066, "episode/length": 110.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.09009009009009009}
+{"step": 945302, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.059322033898305086}
+{"step": 945523, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06334841628959276}
+{"step": 945833, "episode/length": 309.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.04838709677419355}
+{"step": 945834, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408599853515625, "train/action_min": 0.0, "train/action_std": 3.3064302371607885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038067734748539, "train/actor_opt_grad_steps": 472005.0, "train/actor_opt_loss": -11.165671159021763, "train/adv_mag": 0.40392317643596065, "train/adv_max": 0.33780226711597705, "train/adv_mean": 0.0019370743540194882, "train/adv_min": -0.3528227402518193, "train/adv_std": 0.04267632273129291, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 0.0002085451655418069, "train/cont_loss_std": 0.0066115942561266496, "train/cont_neg_acc": 0.9891975315080749, "train/cont_neg_loss": 0.039482078604196696, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 9.41639185410755e-06, "train/cont_pred": 0.9948740791943338, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.678628888395098, "train/dyn_loss_std": 8.925480008125305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9376963410112593, "train/extr_critic_critic_opt_grad_steps": 472005.0, "train/extr_critic_critic_opt_loss": 15408.15764702691, "train/extr_critic_mag": 12.032312552134195, "train/extr_critic_max": 12.032312552134195, "train/extr_critic_mean": 3.7727230621708765, "train/extr_critic_min": -0.38487585882345837, "train/extr_critic_std": 2.9040954411029816, "train/extr_return_normed_mag": 1.369210574362013, "train/extr_return_normed_max": 1.369210574362013, "train/extr_return_normed_mean": 0.40268563106656075, "train/extr_return_normed_min": -0.08489077062242562, "train/extr_return_normed_std": 0.31535707890159553, "train/extr_return_rate": 0.8559245235390134, "train/extr_return_raw_mag": 12.779317696889242, "train/extr_return_raw_max": 12.779317696889242, "train/extr_return_raw_mean": 3.790726817316479, "train/extr_return_raw_min": -0.744085781276226, "train/extr_return_raw_std": 2.9330377876758575, "train/extr_reward_mag": 1.0788255002763536, "train/extr_reward_max": 1.0788255002763536, "train/extr_reward_mean": 0.06092185237341457, "train/extr_reward_min": -0.6429047567976846, "train/extr_reward_std": 0.2371842068516546, "train/image_loss_mean": 3.39122544725736, "train/image_loss_std": 8.701705303457048, "train/model_loss_mean": 6.8586841556761, "train/model_loss_std": 12.83787390920851, "train/model_opt_grad_norm": 22.504429194662308, "train/model_opt_grad_steps": 471619.97222222225, "train/model_opt_loss": 13387.05504014757, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1944.4444444444443, "train/policy_entropy_mag": 2.70457019077407, "train/policy_entropy_max": 2.70457019077407, "train/policy_entropy_mean": 0.3940475885238912, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5974167639182674, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39399443856543964, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0225619557831023, "train/policy_randomness_mag": 0.9545945939090517, "train/policy_randomness_max": 0.9545945939090517, "train/policy_randomness_mean": 0.13908150678293574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21086190040740702, "train/post_ent_mag": 55.5866207546658, "train/post_ent_max": 55.5866207546658, "train/post_ent_mean": 40.46694888008965, "train/post_ent_min": 19.40648913383484, "train/post_ent_std": 5.83127365509669, "train/prior_ent_mag": 76.6906041039361, "train/prior_ent_max": 76.6906041039361, "train/prior_ent_mean": 46.1364246474372, "train/prior_ent_min": 28.08105715115865, "train/prior_ent_std": 7.878147184848785, "train/rep_loss_mean": 5.678628888395098, "train/rep_loss_std": 8.925480008125305, "train/reward_avg": 0.043551974567688174, "train/reward_loss_mean": 0.06007289379421207, "train/reward_loss_std": 0.22400285800298056, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0323096877998776, "train/reward_neg_acc": 0.9929631178577741, "train/reward_neg_loss": 0.025694642707498536, "train/reward_pos_acc": 0.9875901896092627, "train/reward_pos_loss": 0.7395648037393888, "train/reward_pred": 0.04292792048201793, "train/reward_rate": 0.04819064670138889, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 6.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6476044480999311, "replay/size": 945771.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.5262422647800934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3142865622657064e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6362283229828, "timer/env.step_count": 1439.0, "timer/env.step_total": 19.29038381576538, "timer/env.step_frac": 0.0641652003265592, "timer/env.step_avg": 0.01340540918399262, "timer/env.step_min": 0.0028378963470458984, "timer/env.step_max": 1.8913679122924805, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2856175899505615, "timer/replay.add_frac": 0.0009500438172199052, "timer/replay.add_avg": 0.00019848338426029294, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.002947092056274414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024581193923950195, "timer/logger.write_frac": 8.176391135915216e-05, "timer/logger.write_avg": 0.024581193923950195, "timer/logger.write_min": 0.024581193923950195, "timer/logger.write_max": 0.024581193923950195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001876354217529297, "timer/checkpoint.save_frac": 6.241277799405704e-07, "timer/checkpoint.save_avg": 0.0001876354217529297, "timer/checkpoint.save_min": 0.0001876354217529297, "timer/checkpoint.save_max": 0.0001876354217529297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1945409774780273, "timer/agent.save_frac": 0.003973376675663637, "timer/agent.save_avg": 1.1945409774780273, "timer/agent.save_min": 1.1945409774780273, "timer/agent.save_max": 1.1945409774780273, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.434653474482276e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 12.416303157806396, "timer/agent.policy_frac": 0.04130008957026689, "timer/agent.policy_avg": 0.008628424710080887, "timer/agent.policy_min": 0.00567173957824707, "timer/agent.policy_max": 1.189443826675415, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06007957458496094, "timer/dataset_frac": 0.0001998414326846051, "timer/dataset_avg": 8.355990901941716e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016880035400390625, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.891224861145, "timer/agent.train_frac": 0.8910809796793392, "timer/agent.train_avg": 0.37258862984860225, "timer/agent.train_min": 0.3610556125640869, "timer/agent.train_max": 0.8429553508758545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21794772148132324, "timer/agent.report_frac": 0.0007249549487002454, "timer/agent.report_avg": 0.21794772148132324, "timer/agent.report_min": 0.21794772148132324, "timer/agent.report_max": 0.21794772148132324, "fps": 4.7864475202329775}
+{"step": 946132, "episode/length": 298.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.05016722408026756}
+{"step": 946345, "episode/length": 212.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000005960464, "episode/reward_rate": 0.07511737089201878}
+{"step": 946832, "episode/length": 486.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 18.10000006109476, "episode/reward_rate": 0.03285420944558522}
+{"step": 946896, "episode/length": 63.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.125}
+{"step": 947257, "episode/length": 360.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.0443213296398892}
+{"step": 947295, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473755718910531, "train/action_min": 0.0, "train/action_std": 3.361761883513568, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038554052988143815, "train/actor_opt_grad_steps": 472730.0, "train/actor_opt_loss": -12.483607198277564, "train/adv_mag": 0.3831704844758935, "train/adv_max": 0.32355009080612496, "train/adv_mean": 0.001859946964106886, "train/adv_min": -0.3399916832169441, "train/adv_std": 0.042877941456151335, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 4.288388596597147e-05, "train/cont_loss_std": 0.0012990069678963908, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005237058089462105, "train/cont_pos_acc": 0.9999865505793323, "train/cont_pos_loss": 4.125077756784449e-05, "train/cont_pred": 0.9949842977197203, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.6065257542753875, "train/dyn_loss_std": 8.847600335944188, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9104531293045984, "train/extr_critic_critic_opt_grad_steps": 472730.0, "train/extr_critic_critic_opt_loss": 15418.864431720891, "train/extr_critic_mag": 11.9887167917539, "train/extr_critic_max": 11.9887167917539, "train/extr_critic_mean": 3.830431340491935, "train/extr_critic_min": -0.39119776471020423, "train/extr_critic_std": 2.8777942102249354, "train/extr_return_normed_mag": 1.3757689031836104, "train/extr_return_normed_max": 1.3757689031836104, "train/extr_return_normed_mean": 0.411744480263697, "train/extr_return_normed_min": -0.08288586889840152, "train/extr_return_normed_std": 0.3129969457649205, "train/extr_return_rate": 0.8645682187929545, "train/extr_return_raw_mag": 12.791342800610686, "train/extr_return_raw_max": 12.791342800610686, "train/extr_return_raw_mean": 3.8476902001524627, "train/extr_return_raw_min": -0.7416431046512029, "train/extr_return_raw_std": 2.9040480313235766, "train/extr_reward_mag": 1.0746239309441554, "train/extr_reward_max": 1.0746239309441554, "train/extr_reward_mean": 0.06154318812162909, "train/extr_reward_min": -0.6573348029019082, "train/extr_reward_std": 0.23831958782999482, "train/image_loss_mean": 3.1666251861885804, "train/image_loss_std": 8.222779959848483, "train/model_loss_mean": 6.587176518897488, "train/model_loss_std": 12.351930644414196, "train/model_opt_grad_norm": 23.260291125676403, "train/model_opt_grad_steps": 472344.0, "train/model_opt_loss": 8760.350559182363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1335.6164383561643, "train/policy_entropy_mag": 2.697925381464501, "train/policy_entropy_max": 2.697925381464501, "train/policy_entropy_mean": 0.38844859742954985, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5892913684453049, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38806667699389263, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.016704703030521, "train/policy_randomness_mag": 0.9522492673299084, "train/policy_randomness_max": 0.9522492673299084, "train/policy_randomness_mean": 0.1371053080648592, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20799399269362018, "train/post_ent_mag": 55.8597295578212, "train/post_ent_max": 55.8597295578212, "train/post_ent_mean": 40.37265140063142, "train/post_ent_min": 19.431547818118577, "train/post_ent_std": 5.85524154689214, "train/prior_ent_mag": 76.75453248742508, "train/prior_ent_max": 76.75453248742508, "train/prior_ent_mean": 46.01244207930891, "train/prior_ent_min": 28.05908419987927, "train/prior_ent_std": 7.851384345799277, "train/rep_loss_mean": 5.6065257542753875, "train/rep_loss_std": 8.847600335944188, "train/reward_avg": 0.043156035550653116, "train/reward_loss_mean": 0.05659301803536611, "train/reward_loss_std": 0.21378541115212113, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0306482853954786, "train/reward_neg_acc": 0.9936075880102915, "train/reward_neg_loss": 0.023421144342585784, "train/reward_pos_acc": 0.9898880328217597, "train/reward_pos_loss": 0.7233000716117963, "train/reward_pred": 0.042685777178570014, "train/reward_rate": 0.04743685787671233, "stats/sum_log_reward": 12.499999904632569, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 6.4, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5881596982479096, "replay/size": 947232.0, "replay/inserts": 1461.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4267979072920676e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3217187286564818e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12205147743225, "timer/env.step_count": 1461.0, "timer/env.step_total": 16.502447605133057, "timer/env.step_frac": 0.05498578836141923, "timer/env.step_avg": 0.01129530979132995, "timer/env.step_min": 0.003056764602661133, "timer/env.step_max": 1.6810448169708252, "timer/replay.add_count": 1461.0, "timer/replay.add_total": 0.2868170738220215, "timer/replay.add_frac": 0.0009556681103907113, "timer/replay.add_avg": 0.00019631558783163688, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.006507396697998047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030405759811401367, "timer/logger.write_frac": 0.00010131131538559316, "timer/logger.write_avg": 0.030405759811401367, "timer/logger.write_min": 0.030405759811401367, "timer/logger.write_max": 0.030405759811401367, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1461.0, "timer/agent.policy_total": 10.754592418670654, "timer/agent.policy_frac": 0.03583406272790771, "timer/agent.policy_avg": 0.007361117329685595, "timer/agent.policy_min": 0.005759239196777344, "timer/agent.policy_max": 0.0164792537689209, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06133246421813965, "timer/dataset_frac": 0.00020435840657563798, "timer/dataset_avg": 8.390213983329637e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.8147192001343, "timer/agent.train_frac": 0.9056805984833589, "timer/agent.train_avg": 0.3718395611492945, "timer/agent.train_min": 0.3650093078613281, "timer/agent.train_max": 0.3862266540527344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22126078605651855, "timer/agent.report_frac": 0.0007372360177044715, "timer/agent.report_avg": 0.22126078605651855, "timer/agent.report_min": 0.22126078605651855, "timer/agent.report_max": 0.22126078605651855, "fps": 4.867927404384738}
+{"step": 947590, "episode/length": 332.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.04804804804804805}
+{"step": 947797, "episode/length": 206.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.07729468599033816}
+{"step": 948001, "episode/length": 203.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07352941176470588}
+{"step": 948202, "episode/length": 200.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07960199004975124}
+{"step": 948550, "episode/length": 347.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.031609195402298854}
+{"step": 948757, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459450081603168, "train/action_min": 0.0, "train/action_std": 3.3048272590114647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03864878831967099, "train/actor_opt_grad_steps": 473460.0, "train/actor_opt_loss": -11.3466717413027, "train/adv_mag": 0.4102424495432475, "train/adv_max": 0.34415340362346336, "train/adv_mean": 0.0018498709320476636, "train/adv_min": -0.3649941205161892, "train/adv_std": 0.04282867408370319, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 4.340981408037575e-05, "train/cont_loss_std": 0.0013407732915101257, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.003984762102459386, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.6292358938468692e-05, "train/cont_pred": 0.9947705203539705, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.5578540514593255, "train/dyn_loss_std": 8.927227568953004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9390452610303278, "train/extr_critic_critic_opt_grad_steps": 473460.0, "train/extr_critic_critic_opt_loss": 15414.546406785103, "train/extr_critic_mag": 12.046856396818814, "train/extr_critic_max": 12.046856396818814, "train/extr_critic_mean": 3.795735326531815, "train/extr_critic_min": -0.34867315259698317, "train/extr_critic_std": 2.8951255687295574, "train/extr_return_normed_mag": 1.3706129217801029, "train/extr_return_normed_max": 1.3706129217801029, "train/extr_return_normed_mean": 0.40544057300646014, "train/extr_return_normed_min": -0.08114459748341613, "train/extr_return_normed_std": 0.31381445429096483, "train/extr_return_rate": 0.8617687404972233, "train/extr_return_raw_mag": 12.795066480767238, "train/extr_return_raw_max": 12.795066480767238, "train/extr_return_raw_mean": 3.8129493210413683, "train/extr_return_raw_min": -0.7162775311568012, "train/extr_return_raw_std": 2.920798502556265, "train/extr_reward_mag": 1.0702874595171785, "train/extr_reward_max": 1.0702874595171785, "train/extr_reward_mean": 0.06235065739857008, "train/extr_reward_min": -0.6334479802275357, "train/extr_reward_std": 0.24007990017329175, "train/image_loss_mean": 3.2455595976685823, "train/image_loss_std": 8.361937640464468, "train/model_loss_mean": 6.638570380537478, "train/model_loss_std": 12.531535279260924, "train/model_opt_grad_norm": 21.999555744536934, "train/model_opt_grad_steps": 473074.0, "train/model_opt_loss": 16596.426035423803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6929766707224387, "train/policy_entropy_max": 2.6929766707224387, "train/policy_entropy_mean": 0.3816571541844982, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.576769179269059, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38088296047628745, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0088038828274974, "train/policy_randomness_mag": 0.950502585058343, "train/policy_randomness_max": 0.950502585058343, "train/policy_randomness_mean": 0.13470822736008525, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2035742071393418, "train/post_ent_mag": 55.312724858114166, "train/post_ent_max": 55.312724858114166, "train/post_ent_mean": 40.39135888504656, "train/post_ent_min": 19.295373237296328, "train/post_ent_std": 5.759938004898698, "train/prior_ent_mag": 76.80096937205694, "train/prior_ent_max": 76.80096937205694, "train/prior_ent_mean": 45.89443316524976, "train/prior_ent_min": 28.261540582735243, "train/prior_ent_std": 7.808965408638732, "train/rep_loss_mean": 5.5578540514593255, "train/rep_loss_std": 8.927227568953004, "train/reward_avg": 0.04241491843984552, "train/reward_loss_mean": 0.058254974958014814, "train/reward_loss_std": 0.22160101467615936, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0258899910809243, "train/reward_neg_acc": 0.9931613933550169, "train/reward_neg_loss": 0.025526087820427874, "train/reward_pos_acc": 0.9901163684178705, "train/reward_pos_loss": 0.7222334709886002, "train/reward_pred": 0.042260314121025884, "train/reward_rate": 0.04710241866438356, "stats/sum_log_reward": 13.900000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4795637011528015, "replay/size": 948694.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.471094019272748e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3551698989972534e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18399000167847, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.15023899078369, "timer/env.step_frac": 0.05380113373365911, "timer/env.step_avg": 0.011046675096295274, "timer/env.step_min": 0.002947092056274414, "timer/env.step_max": 1.6018717288970947, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2688446044921875, "timer/replay.add_frac": 0.000895599410517144, "timer/replay.add_avg": 0.00018388823836674932, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004627227783203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030138492584228516, "timer/logger.write_frac": 0.00010040006658602944, "timer/logger.write_avg": 0.030138492584228516, "timer/logger.write_min": 0.030138492584228516, "timer/logger.write_max": 0.030138492584228516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.983356237411499, "timer/agent.policy_frac": 0.036588747578943454, "timer/agent.policy_avg": 0.007512555565944937, "timer/agent.policy_min": 0.005526065826416016, "timer/agent.policy_max": 0.020725011825561523, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06109809875488281, "timer/dataset_frac": 0.00020353550085912704, "timer/dataset_avg": 8.358153044443614e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 731.0, "timer/agent.train_total": 272.0200333595276, "timer/agent.train_frac": 0.906177685752017, "timer/agent.train_avg": 0.37212042867240436, "timer/agent.train_min": 0.36594247817993164, "timer/agent.train_max": 0.4091811180114746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21732687950134277, "timer/agent.report_frac": 0.0007239789153982782, "timer/agent.report_avg": 0.21732687950134277, "timer/agent.report_min": 0.21732687950134277, "timer/agent.report_max": 0.21732687950134277, "fps": 4.870255931665557}
+{"step": 948828, "episode/length": 277.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.05755395683453238}
+{"step": 949047, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
+{"step": 949227, "episode/length": 179.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05}
+{"step": 949473, "episode/length": 245.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.299999982118607, "episode/reward_rate": 0.06097560975609756}
+{"step": 949667, "episode/length": 193.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07731958762886598}
+{"step": 949869, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07425742574257425}
+{"step": 950043, "episode/length": 173.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04597701149425287}
+{"step": 950185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471164279513889, "train/action_min": 0.0, "train/action_std": 3.2995715373092227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03863361568397118, "train/actor_opt_grad_steps": 474185.0, "train/actor_opt_loss": -9.92774622908069, "train/adv_mag": 0.40801627975371146, "train/adv_max": 0.32699571094579166, "train/adv_mean": 0.002498490419788545, "train/adv_min": -0.3694323233018319, "train/adv_std": 0.044013491107357874, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 6.2680685045298406e-06, "train/cont_loss_std": 0.000171086326974527, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014575250325115578, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 5.858151283967396e-06, "train/cont_pred": 0.9949762970209122, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.454416294892629, "train/dyn_loss_std": 8.79732366402944, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9140829162465202, "train/extr_critic_critic_opt_grad_steps": 474185.0, "train/extr_critic_critic_opt_loss": 15450.449815538195, "train/extr_critic_mag": 12.14515319135454, "train/extr_critic_max": 12.14515319135454, "train/extr_critic_mean": 3.8997820847564273, "train/extr_critic_min": -0.3594192845953835, "train/extr_critic_std": 2.8963294426600137, "train/extr_return_normed_mag": 1.3723897685607274, "train/extr_return_normed_max": 1.3723897685607274, "train/extr_return_normed_mean": 0.41581113470925224, "train/extr_return_normed_min": -0.08018048014491796, "train/extr_return_normed_std": 0.3136019067217906, "train/extr_return_rate": 0.876796741452482, "train/extr_return_raw_mag": 12.830763128068712, "train/extr_return_raw_max": 12.830763128068712, "train/extr_return_raw_mean": 3.923042310608758, "train/extr_return_raw_min": -0.6954364387525452, "train/extr_return_raw_std": 2.9200835956467524, "train/extr_reward_mag": 1.0663036273585424, "train/extr_reward_max": 1.0663036273585424, "train/extr_reward_mean": 0.06281016254797578, "train/extr_reward_min": -0.6232031136751175, "train/extr_reward_std": 0.2409632717155748, "train/image_loss_mean": 3.1867388006713657, "train/image_loss_std": 8.498207893636492, "train/model_loss_mean": 6.5184905131657915, "train/model_loss_std": 12.577170411745707, "train/model_opt_grad_norm": 21.449591875076294, "train/model_opt_grad_steps": 473798.52777777775, "train/model_opt_loss": 20061.663262261285, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.693117274178399, "train/policy_entropy_max": 2.693117274178399, "train/policy_entropy_mean": 0.37598141469061375, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5690986352662245, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3767377587242259, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0092677796880405, "train/policy_randomness_mag": 0.9505522143509653, "train/policy_randomness_max": 0.9505522143509653, "train/policy_randomness_mean": 0.1327049396932125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2008668448155125, "train/post_ent_mag": 55.34874274995592, "train/post_ent_max": 55.34874274995592, "train/post_ent_mean": 40.39442163043552, "train/post_ent_min": 19.78601098060608, "train/post_ent_std": 5.770173297988044, "train/prior_ent_mag": 76.77140945858426, "train/prior_ent_max": 76.77140945858426, "train/prior_ent_mean": 45.84025526046753, "train/prior_ent_min": 28.347509331173367, "train/prior_ent_std": 7.771596180068122, "train/rep_loss_mean": 5.454416294892629, "train/rep_loss_std": 8.79732366402944, "train/reward_avg": 0.0439927842364543, "train/reward_loss_mean": 0.059095786729206644, "train/reward_loss_std": 0.21736749385794005, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0284213324387868, "train/reward_neg_acc": 0.9933965735965304, "train/reward_neg_loss": 0.025032462565124862, "train/reward_pos_acc": 0.9901885812481245, "train/reward_pos_loss": 0.7245417262117068, "train/reward_pred": 0.04355584770544536, "train/reward_rate": 0.048651801215277776, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3294129137481962, "replay/size": 950122.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4283523132153253e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3815713863746793e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03262734413147, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.3761248588562, "timer/env.step_frac": 0.06458005927679382, "timer/env.step_avg": 0.013568714887154203, "timer/env.step_min": 0.0026798248291015625, "timer/env.step_max": 1.6690888404846191, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.26720547676086426, "timer/replay.add_frac": 0.0008905880641253889, "timer/replay.add_avg": 0.00018711868120508703, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0027647018432617188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033132314682006836, "timer/logger.write_frac": 0.00011042903891917304, "timer/logger.write_avg": 0.033132314682006836, "timer/logger.write_min": 0.033132314682006836, "timer/logger.write_max": 0.033132314682006836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019979476928710938, "timer/checkpoint.save_frac": 6.65910141359222e-07, "timer/checkpoint.save_avg": 0.00019979476928710938, "timer/checkpoint.save_min": 0.00019979476928710938, "timer/checkpoint.save_max": 0.00019979476928710938, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2056105136871338, "timer/agent.save_frac": 0.004018264694607105, "timer/agent.save_avg": 1.2056105136871338, "timer/agent.save_min": 1.2056105136871338, "timer/agent.save_max": 1.2056105136871338, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.179115295410156e-05, "timer/replay.save_frac": 3.059372367819815e-07, "timer/replay.save_avg": 9.179115295410156e-05, "timer/replay.save_min": 9.179115295410156e-05, "timer/replay.save_max": 9.179115295410156e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.847817420959473, "timer/agent.policy_frac": 0.03948843006120885, "timer/agent.policy_avg": 0.008296790911036045, "timer/agent.policy_min": 0.0058155059814453125, "timer/agent.policy_max": 1.1980795860290527, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05987143516540527, "timer/dataset_frac": 0.00019954974795702445, "timer/dataset_avg": 8.385355065182812e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 714.0, "timer/agent.train_total": 267.78320837020874, "timer/agent.train_frac": 0.8925136267365573, "timer/agent.train_avg": 0.3750465103224212, "timer/agent.train_min": 0.3648393154144287, "timer/agent.train_max": 2.7668628692626953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22066664695739746, "timer/agent.report_frac": 0.0007354755011504039, "timer/agent.report_avg": 0.22066664695739746, "timer/agent.report_min": 0.22066664695739746, "timer/agent.report_max": 0.22066664695739746, "fps": 4.759394872165339}
+{"step": 950270, "episode/length": 226.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06167400881057269}
+{"step": 950456, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
+{"step": 950624, "episode/length": 167.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08333333333333333}
+{"step": 950788, "episode/length": 163.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.09146341463414634}
+{"step": 950842, "episode/length": 53.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.1111111111111111}
+{"step": 951008, "episode/length": 165.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.0783132530120482}
+{"step": 951315, "episode/length": 306.0, "episode/score": 16.099999964237213, "episode/sum_abs_reward": 18.099999994039536, "episode/reward_rate": 0.05537459283387622}
+{"step": 951406, "episode/length": 90.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.07692307692307693}
+{"step": 951570, "episode/length": 163.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08536585365853659}
+{"step": 951617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478426221390845, "train/action_min": 0.0, "train/action_std": 3.3282376779636866, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03872047401439976, "train/actor_opt_grad_steps": 474900.0, "train/actor_opt_loss": -11.307502012857249, "train/adv_mag": 0.4430687303694201, "train/adv_max": 0.37135768797196134, "train/adv_mean": 0.002263300930613875, "train/adv_min": -0.3722266951497172, "train/adv_std": 0.04357931112319651, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 1.6343079067437303e-05, "train/cont_loss_std": 0.0004439132625917973, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.096472327224319e-05, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.631437712375482e-05, "train/cont_pred": 0.994759739284784, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.58910923272791, "train/dyn_loss_std": 8.948693685128655, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9201078624792502, "train/extr_critic_critic_opt_grad_steps": 474900.0, "train/extr_critic_critic_opt_loss": 15462.175836267606, "train/extr_critic_mag": 12.038755322845889, "train/extr_critic_max": 12.038755322845889, "train/extr_critic_mean": 3.8647375576932665, "train/extr_critic_min": -0.3533480167388916, "train/extr_critic_std": 2.9233384636086477, "train/extr_return_normed_mag": 1.3699146626700818, "train/extr_return_normed_max": 1.3699146626700818, "train/extr_return_normed_mean": 0.40993666648864746, "train/extr_return_normed_min": -0.0806148845545003, "train/extr_return_normed_std": 0.31557671222048744, "train/extr_return_rate": 0.8586378038769037, "train/extr_return_raw_mag": 12.869531335965009, "train/extr_return_raw_max": 12.869531335965009, "train/extr_return_raw_mean": 3.88589471158847, "train/extr_return_raw_min": -0.704288512888089, "train/extr_return_raw_std": 2.9530481083292357, "train/extr_reward_mag": 1.0739062336129201, "train/extr_reward_max": 1.0739062336129201, "train/extr_reward_mean": 0.06205397849561463, "train/extr_reward_min": -0.625724626259065, "train/extr_reward_std": 0.2393280481788474, "train/image_loss_mean": 3.2981375539806526, "train/image_loss_std": 8.259675791565801, "train/model_loss_mean": 6.710110986736459, "train/model_loss_std": 12.455583061970456, "train/model_opt_grad_norm": 23.42171209630832, "train/model_opt_grad_steps": 474513.0, "train/model_opt_loss": 17944.58672150088, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.68311075089683, "train/policy_entropy_max": 2.68311075089683, "train/policy_entropy_mean": 0.3853375718627178, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.581023094939514, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3861046313819751, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.017427687074097, "train/policy_randomness_mag": 0.947020346849737, "train/policy_randomness_max": 0.947020346849737, "train/policy_randomness_mean": 0.13600725355282636, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20507565665412958, "train/post_ent_mag": 55.8061833448813, "train/post_ent_max": 55.8061833448813, "train/post_ent_mean": 40.438330421985036, "train/post_ent_min": 18.869177509361588, "train/post_ent_std": 5.831314664491465, "train/prior_ent_mag": 76.75175046249174, "train/prior_ent_max": 76.75175046249174, "train/prior_ent_mean": 46.01824048539282, "train/prior_ent_min": 28.173042942100846, "train/prior_ent_std": 7.845883470186045, "train/rep_loss_mean": 5.58910923272791, "train/rep_loss_std": 8.948693685128655, "train/reward_avg": 0.042480468408952296, "train/reward_loss_mean": 0.05849153023790306, "train/reward_loss_std": 0.21674861538578089, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0251957429966456, "train/reward_neg_acc": 0.9924304048779985, "train/reward_neg_loss": 0.025315571878052934, "train/reward_pos_acc": 0.9877059602401626, "train/reward_pos_loss": 0.7293086841072834, "train/reward_pred": 0.04200446259387782, "train/reward_rate": 0.04719135123239437, "stats/sum_log_reward": 11.21111143959893, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_stone": 9.444444444444445, "stats/max_log_achievement_collect_wood": 12.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3096526347928577, "replay/size": 951554.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3726572324443795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336713243463186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0961766242981, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.211007595062256, "timer/env.step_frac": 0.0740129642600181, "timer/env.step_avg": 0.01551048016414962, "timer/env.step_min": 0.0027141571044921875, "timer/env.step_max": 1.6551997661590576, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2732365131378174, "timer/replay.add_frac": 0.0009104964821990806, "timer/replay.add_avg": 0.00019080762090629706, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.005852460861206055, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030769824981689453, "timer/logger.write_frac": 0.00010253321227818032, "timer/logger.write_avg": 0.030769824981689453, "timer/logger.write_min": 0.030769824981689453, "timer/logger.write_max": 0.030769824981689453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.592095375061035, "timer/agent.policy_frac": 0.0352956691891536, "timer/agent.policy_avg": 0.007396714647388991, "timer/agent.policy_min": 0.0054090023040771484, "timer/agent.policy_max": 0.016338348388671875, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05950045585632324, "timer/dataset_frac": 0.0001982712893100739, "timer/dataset_avg": 8.31011953300604e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001404285430908203, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2535300254822, "timer/agent.train_frac": 0.8872273316524628, "timer/agent.train_avg": 0.37186247210262874, "timer/agent.train_min": 0.36523866653442383, "timer/agent.train_max": 0.38565993309020996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21947932243347168, "timer/agent.report_frac": 0.0007313632746086141, "timer/agent.report_avg": 0.21947932243347168, "timer/agent.report_min": 0.21947932243347168, "timer/agent.report_max": 0.21947932243347168, "fps": 4.771708495121178}
+{"step": 951773, "episode/length": 202.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06896551724137931}
+{"step": 951978, "episode/length": 204.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07317073170731707}
+{"step": 952220, "episode/length": 241.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.05785123966942149}
+{"step": 952717, "episode/length": 496.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.030181086519114688}
+{"step": 953012, "episode/length": 294.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.05084745762711865}
+{"step": 953079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.374232111750422, "train/action_min": 0.0, "train/action_std": 3.259019313631831, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03847608317595881, "train/actor_opt_grad_steps": 475625.0, "train/actor_opt_loss": -12.20310910086374, "train/adv_mag": 0.4028844122548361, "train/adv_max": 0.3361981386268461, "train/adv_mean": 0.0017506086719703416, "train/adv_min": -0.35061392429712657, "train/adv_std": 0.04328511282801628, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 8.584116574030378e-06, "train/cont_loss_std": 0.00021721901925819088, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.503860316140545e-05, "train/cont_pos_acc": 0.9999999879179774, "train/cont_pos_loss": 8.2407827990225e-06, "train/cont_pred": 0.9948193157041395, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.570972648826805, "train/dyn_loss_std": 8.885223427334347, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8922321530612739, "train/extr_critic_critic_opt_grad_steps": 475625.0, "train/extr_critic_critic_opt_loss": 15382.453943201013, "train/extr_critic_mag": 12.238045653781375, "train/extr_critic_max": 12.238045653781375, "train/extr_critic_mean": 3.968278295284993, "train/extr_critic_min": -0.36707391610016693, "train/extr_critic_std": 2.9595144632700325, "train/extr_return_normed_mag": 1.3780837010692906, "train/extr_return_normed_max": 1.3780837010692906, "train/extr_return_normed_mean": 0.4190302797265955, "train/extr_return_normed_min": -0.08252015614227669, "train/extr_return_normed_std": 0.31757123365595535, "train/extr_return_rate": 0.8724240362644196, "train/extr_return_raw_mag": 13.007355522465062, "train/extr_return_raw_max": 13.007355522465062, "train/extr_return_raw_mean": 3.984752384391991, "train/extr_return_raw_min": -0.7335552812830822, "train/extr_return_raw_std": 2.987699376570212, "train/extr_reward_mag": 1.0734817562876522, "train/extr_reward_max": 1.0734817562876522, "train/extr_reward_mean": 0.06266761248981631, "train/extr_reward_min": -0.630114463535515, "train/extr_reward_std": 0.24032679341129354, "train/image_loss_mean": 3.2541913647909424, "train/image_loss_std": 8.483878657624528, "train/model_loss_mean": 6.657293158608514, "train/model_loss_std": 12.639375622208053, "train/model_opt_grad_norm": 21.8777844583666, "train/model_opt_grad_steps": 475237.1891891892, "train/model_opt_loss": 19782.6383947424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2972.972972972973, "train/policy_entropy_mag": 2.677637386966396, "train/policy_entropy_max": 2.677637386966396, "train/policy_entropy_mean": 0.38265940063708537, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.588888784518113, "train/policy_logprob_mag": 7.438384358947341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38315057251098994, "train/policy_logprob_min": -7.438384358947341, "train/policy_logprob_std": 1.014335956122424, "train/policy_randomness_mag": 0.9450884904410388, "train/policy_randomness_max": 0.9450884904410388, "train/policy_randomness_mean": 0.1350619752664824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20785189581078453, "train/post_ent_mag": 55.119261097263646, "train/post_ent_max": 55.119261097263646, "train/post_ent_mean": 40.33736728977512, "train/post_ent_min": 19.60103986069963, "train/post_ent_std": 5.7639627005602865, "train/prior_ent_mag": 76.78260535162849, "train/prior_ent_max": 76.78260535162849, "train/prior_ent_mean": 45.91310470168655, "train/prior_ent_min": 28.091409734777503, "train/prior_ent_std": 7.774246976182267, "train/rep_loss_mean": 5.570972648826805, "train/rep_loss_std": 8.885223427334347, "train/reward_avg": 0.04572555938785946, "train/reward_loss_mean": 0.06050962844007724, "train/reward_loss_std": 0.22323224109572334, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0292339389388625, "train/reward_neg_acc": 0.9935887617033881, "train/reward_neg_loss": 0.02529024982170479, "train/reward_pos_acc": 0.9881969013729611, "train/reward_pos_loss": 0.7284483458544757, "train/reward_pred": 0.04530752374715096, "train/reward_rate": 0.050134607263513514, "stats/sum_log_reward": 13.500000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 17.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 4.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5487464010715485, "replay/size": 953016.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4301616913968983e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3540283599728272e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1502068042755, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.478316068649292, "timer/env.step_frac": 0.054900232267354764, "timer/env.step_avg": 0.011271078022331937, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.6724774837493896, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2689554691314697, "timer/replay.add_frac": 0.0008960695779458599, "timer/replay.add_avg": 0.0001839640691733719, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.002249479293823242, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022000789642333984, "timer/logger.write_frac": 7.329926531311852e-05, "timer/logger.write_avg": 0.022000789642333984, "timer/logger.write_min": 0.022000789642333984, "timer/logger.write_max": 0.022000789642333984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.860857248306274, "timer/agent.policy_frac": 0.03618474018040079, "timer/agent.policy_avg": 0.00742876692770607, "timer/agent.policy_min": 0.00580906867980957, "timer/agent.policy_max": 0.018163442611694336, "timer/dataset_count": 731.0, "timer/dataset_total": 0.060976266860961914, "timer/dataset_frac": 0.00020315250657389628, "timer/dataset_avg": 8.341486574686993e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001475811004638672, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.78323221206665, "timer/agent.train_frac": 0.9054907378067987, "timer/agent.train_avg": 0.37179648729420883, "timer/agent.train_min": 0.36374568939208984, "timer/agent.train_max": 0.3840646743774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165536880493164, "timer/agent.report_frac": 0.0007384814795395778, "timer/agent.report_avg": 0.22165536880493164, "timer/agent.report_min": 0.22165536880493164, "timer/agent.report_max": 0.22165536880493164, "fps": 4.870795431037529}
+{"step": 953209, "episode/length": 196.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.05583756345177665}
+{"step": 953425, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06944444444444445}
+{"step": 953710, "episode/length": 284.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04912280701754386}
+{"step": 953883, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08092485549132948}
+{"step": 954230, "episode/length": 346.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.04610951008645533}
+{"step": 954436, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
+{"step": 954512, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418290259132923, "train/action_min": 0.0, "train/action_std": 3.343467285935308, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037874660808855376, "train/actor_opt_grad_steps": 476350.0, "train/actor_opt_loss": -10.935085236606463, "train/adv_mag": 0.3899962515898154, "train/adv_max": 0.3146372007232317, "train/adv_mean": 0.0019734284930602603, "train/adv_min": -0.3585936248722211, "train/adv_std": 0.04204220985862571, "train/cont_avg": 0.9951722051056338, "train/cont_loss_mean": 3.762253663888285e-06, "train/cont_loss_std": 8.353964076825794e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.86047095486712e-06, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 3.7397364677180516e-06, "train/cont_pred": 0.9951686246294371, "train/cont_rate": 0.9951722051056338, "train/dyn_loss_mean": 5.577471464452609, "train/dyn_loss_std": 8.920863164982325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9381191100872738, "train/extr_critic_critic_opt_grad_steps": 476350.0, "train/extr_critic_critic_opt_loss": 15449.030603543133, "train/extr_critic_mag": 12.312617852654256, "train/extr_critic_max": 12.312617852654256, "train/extr_critic_mean": 3.8738473804903704, "train/extr_critic_min": -0.382358493939252, "train/extr_critic_std": 2.9693530411787434, "train/extr_return_normed_mag": 1.3615627674989297, "train/extr_return_normed_max": 1.3615627674989297, "train/extr_return_normed_mean": 0.4067087866051096, "train/extr_return_normed_min": -0.083315036403881, "train/extr_return_normed_std": 0.3152083284418348, "train/extr_return_rate": 0.8641689117525665, "train/extr_return_raw_mag": 12.970450629650706, "train/extr_return_raw_max": 12.970450629650706, "train/extr_return_raw_mean": 3.8926074370531967, "train/extr_return_raw_min": -0.7665695728550495, "train/extr_return_raw_std": 2.996907949447632, "train/extr_reward_mag": 1.0730873329538695, "train/extr_reward_max": 1.0730873329538695, "train/extr_reward_mean": 0.059913672087058216, "train/extr_reward_min": -0.6439471127281726, "train/extr_reward_std": 0.23591709682639217, "train/image_loss_mean": 3.427275755036045, "train/image_loss_std": 8.646190468694122, "train/model_loss_mean": 6.830588125846755, "train/model_loss_std": 12.767233821707713, "train/model_opt_grad_norm": 20.434131152193313, "train/model_opt_grad_steps": 475961.59154929576, "train/model_opt_loss": 17572.967415823063, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.68229259571559, "train/policy_entropy_max": 2.68229259571559, "train/policy_entropy_mean": 0.4008298543557315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6083135785351337, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3991605979456028, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0241847911351163, "train/policy_randomness_mag": 0.946731578296339, "train/policy_randomness_max": 0.946731578296339, "train/policy_randomness_mean": 0.1414753483004973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2147079993721465, "train/post_ent_mag": 55.68455473134215, "train/post_ent_max": 55.68455473134215, "train/post_ent_mean": 40.51992346535266, "train/post_ent_min": 19.23505764276209, "train/post_ent_std": 5.904293577435991, "train/prior_ent_mag": 76.65522379270742, "train/prior_ent_max": 76.65522379270742, "train/prior_ent_mean": 46.12019074131066, "train/prior_ent_min": 27.76422753132565, "train/prior_ent_std": 7.871506267869976, "train/rep_loss_mean": 5.577471464452609, "train/rep_loss_std": 8.920863164982325, "train/reward_avg": 0.04237455953384789, "train/reward_loss_mean": 0.05682581411281102, "train/reward_loss_std": 0.21046748589461958, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0278260741435306, "train/reward_neg_acc": 0.9927567537401764, "train/reward_neg_loss": 0.02404291306058286, "train/reward_pos_acc": 0.9887361543279298, "train/reward_pos_loss": 0.7242407051610275, "train/reward_pred": 0.04211127214973241, "train/reward_rate": 0.046875, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.48624687890211743, "replay/size": 954449.0, "replay/inserts": 1433.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4579844717703247e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3274728585887887e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9989855289459, "timer/env.step_count": 1433.0, "timer/env.step_total": 19.61841654777527, "timer/env.step_frac": 0.06539494296350663, "timer/env.step_avg": 0.013690451184769902, "timer/env.step_min": 0.0029442310333251953, "timer/env.step_max": 1.9200758934020996, "timer/replay.add_count": 1433.0, "timer/replay.add_total": 0.25426650047302246, "timer/replay.add_frac": 0.0008475578676531529, "timer/replay.add_avg": 0.00017743649718982726, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.003396272659301758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022672176361083984, "timer/logger.write_frac": 7.557417676299582e-05, "timer/logger.write_avg": 0.022672176361083984, "timer/logger.write_min": 0.022672176361083984, "timer/logger.write_max": 0.022672176361083984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017881393432617188, "timer/checkpoint.save_frac": 5.960484633336158e-07, "timer/checkpoint.save_avg": 0.00017881393432617188, "timer/checkpoint.save_min": 0.00017881393432617188, "timer/checkpoint.save_max": 0.00017881393432617188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4874508380889893, "timer/agent.save_frac": 0.004958186226751323, "timer/agent.save_avg": 1.4874508380889893, "timer/agent.save_min": 1.4874508380889893, "timer/agent.save_max": 1.4874508380889893, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2729314735121885e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1433.0, "timer/agent.policy_total": 12.729260921478271, "timer/agent.policy_frac": 0.04243101322170993, "timer/agent.policy_avg": 0.008882945513941571, "timer/agent.policy_min": 0.005625247955322266, "timer/agent.policy_max": 1.492091417312622, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05953335762023926, "timer/dataset_frac": 0.0001984451964571563, "timer/dataset_avg": 8.314714751430064e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00018548965454101562, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6489052772522, "timer/agent.train_frac": 0.8888326899076268, "timer/agent.train_avg": 0.37241467217493324, "timer/agent.train_min": 0.3618607521057129, "timer/agent.train_max": 0.9231390953063965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22093892097473145, "timer/agent.report_frac": 0.0007364655603257491, "timer/agent.report_avg": 0.22093892097473145, "timer/agent.report_min": 0.22093892097473145, "timer/agent.report_max": 0.22093892097473145, "fps": 4.776586576760931}
+{"step": 954559, "episode/length": 122.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.0975609756097561}
+{"step": 954762, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06403940886699508}
+{"step": 955057, "episode/length": 294.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05084745762711865}
+{"step": 955562, "episode/length": 504.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.023762376237623763}
+{"step": 955753, "episode/length": 190.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08376963350785341}
+{"step": 955827, "episode/length": 73.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.06756756756756757}
+{"step": 955967, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436115421660959, "train/action_min": 0.0, "train/action_std": 3.2649972471472335, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03853420913219452, "train/actor_opt_grad_steps": 477070.0, "train/actor_opt_loss": -12.497042751883807, "train/adv_mag": 0.4133263128261044, "train/adv_max": 0.3330272611689894, "train/adv_mean": 0.001673314180476304, "train/adv_min": -0.3694036903038417, "train/adv_std": 0.04306102947217144, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 1.4464930339425162e-05, "train/cont_loss_std": 0.000347510910178742, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.770996570757156e-06, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.4522532350452223e-05, "train/cont_pred": 0.995129887371847, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.537721934383863, "train/dyn_loss_std": 8.922741903017645, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8988040710148746, "train/extr_critic_critic_opt_grad_steps": 477070.0, "train/extr_critic_critic_opt_loss": 15370.088626391267, "train/extr_critic_mag": 12.188779752548427, "train/extr_critic_max": 12.188779752548427, "train/extr_critic_mean": 3.9092664065426344, "train/extr_critic_min": -0.3693341408690361, "train/extr_critic_std": 2.9394437907493276, "train/extr_return_normed_mag": 1.367137708076059, "train/extr_return_normed_max": 1.367137708076059, "train/extr_return_normed_mean": 0.4117682261826241, "train/extr_return_normed_min": -0.07597656507198125, "train/extr_return_normed_std": 0.31361636315306574, "train/extr_return_rate": 0.8717644582056019, "train/extr_return_raw_mag": 12.96807907052236, "train/extr_return_raw_max": 12.96807907052236, "train/extr_return_raw_mean": 3.9251020444582587, "train/extr_return_raw_min": -0.6912231032978998, "train/extr_return_raw_std": 2.968353183302161, "train/extr_reward_mag": 1.0724019775651905, "train/extr_reward_max": 1.0724019775651905, "train/extr_reward_mean": 0.06168221090346167, "train/extr_reward_min": -0.5882546885372841, "train/extr_reward_std": 0.23900200140802827, "train/image_loss_mean": 3.240581071540101, "train/image_loss_std": 8.589304048721104, "train/model_loss_mean": 6.621202436211991, "train/model_loss_std": 12.727627950171902, "train/model_opt_grad_norm": 22.63927067795845, "train/model_opt_grad_steps": 476680.16438356164, "train/model_opt_loss": 9708.635675299658, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.6838583227706283, "train/policy_entropy_max": 2.6838583227706283, "train/policy_entropy_mean": 0.3810112943796262, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5846727616982917, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3796167547163898, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0085911375202545, "train/policy_randomness_mag": 0.94728421348415, "train/policy_randomness_max": 0.94728421348415, "train/policy_randomness_mean": 0.1344802679672633, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2063638289293198, "train/post_ent_mag": 55.366502317663745, "train/post_ent_max": 55.366502317663745, "train/post_ent_mean": 40.35274171176022, "train/post_ent_min": 19.4841490575712, "train/post_ent_std": 5.740203432840843, "train/prior_ent_mag": 76.77624501267525, "train/prior_ent_max": 76.77624501267525, "train/prior_ent_mean": 45.85191209348914, "train/prior_ent_min": 27.9256056171574, "train/prior_ent_std": 7.751746928855164, "train/rep_loss_mean": 5.537721934383863, "train/rep_loss_std": 8.922741903017645, "train/reward_avg": 0.04299015373195687, "train/reward_loss_mean": 0.05797376279553322, "train/reward_loss_std": 0.21089924994396836, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0221815795114595, "train/reward_neg_acc": 0.9931102035796806, "train/reward_neg_loss": 0.02510550929463073, "train/reward_pos_acc": 0.9916321129015048, "train/reward_pos_loss": 0.7169657627197161, "train/reward_pred": 0.04279582562205726, "train/reward_rate": 0.04746361301369863, "stats/sum_log_reward": 11.266666809717814, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 8.333333333333334, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5060733507076899, "replay/size": 955904.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.448466664737033e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3355165719985962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0449450016022, "timer/env.step_count": 1455.0, "timer/env.step_total": 17.62327289581299, "timer/env.step_frac": 0.05873544343737864, "timer/env.step_avg": 0.012112215048668721, "timer/env.step_min": 0.002951383590698242, "timer/env.step_max": 1.6456327438354492, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.2623288631439209, "timer/replay.add_frac": 0.0008742985593125727, "timer/replay.add_avg": 0.00018029475130166385, "timer/replay.add_min": 6.651878356933594e-05, "timer/replay.add_max": 0.0043413639068603516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020993947982788086, "timer/logger.write_frac": 6.996934403502777e-05, "timer/logger.write_avg": 0.020993947982788086, "timer/logger.write_min": 0.020993947982788086, "timer/logger.write_max": 0.020993947982788086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.727181434631348, "timer/agent.policy_frac": 0.03575191521581564, "timer/agent.policy_avg": 0.007372633288406425, "timer/agent.policy_min": 0.0057256221771240234, "timer/agent.policy_max": 0.01421666145324707, "timer/dataset_count": 728.0, "timer/dataset_total": 0.061064958572387695, "timer/dataset_frac": 0.00020351937131305985, "timer/dataset_avg": 8.388043759943365e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.6801154613495, "timer/agent.train_frac": 0.9021318971392907, "timer/agent.train_avg": 0.3718133454139416, "timer/agent.train_min": 0.35939550399780273, "timer/agent.train_max": 0.3860313892364502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21984648704528809, "timer/agent.report_frac": 0.0007327118510332316, "timer/agent.report_avg": 0.21984648704528809, "timer/agent.report_min": 0.21984648704528809, "timer/agent.report_max": 0.21984648704528809, "fps": 4.849171022192445}
+{"step": 955997, "episode/length": 169.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07647058823529412}
+{"step": 956425, "episode/length": 427.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.030373831775700934}
+{"step": 956634, "episode/length": 208.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.05741626794258373}
+{"step": 956733, "episode/length": 98.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.1111111111111111}
+{"step": 957040, "episode/length": 306.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.04560260586319218}
+{"step": 957297, "episode/length": 256.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.054474708171206226}
+{"step": 957425, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383408637895976, "train/action_min": 0.0, "train/action_std": 3.2631278038024902, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03804722862088517, "train/actor_opt_grad_steps": 477800.0, "train/actor_opt_loss": -10.807806099318478, "train/adv_mag": 0.40796944233652666, "train/adv_max": 0.3364355047679927, "train/adv_mean": 0.0017358020798395682, "train/adv_min": -0.364692869864098, "train/adv_std": 0.0433837829081163, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 8.718895203860608e-05, "train/cont_loss_std": 0.0026285708910920333, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.92320893297284e-05, "train/cont_pos_acc": 0.9999864885251816, "train/cont_pos_loss": 8.748467066442423e-05, "train/cont_pred": 0.9945159921907398, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.714414995010585, "train/dyn_loss_std": 8.99878929739129, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8880558511982225, "train/extr_critic_critic_opt_grad_steps": 477800.0, "train/extr_critic_critic_opt_loss": 15540.21616812928, "train/extr_critic_mag": 12.202540462964201, "train/extr_critic_max": 12.202540462964201, "train/extr_critic_mean": 3.883300111718374, "train/extr_critic_min": -0.35635775409332693, "train/extr_critic_std": 2.9459952001702296, "train/extr_return_normed_mag": 1.3767159164768377, "train/extr_return_normed_max": 1.3767159164768377, "train/extr_return_normed_mean": 0.41191036570562073, "train/extr_return_normed_min": -0.07859493271537023, "train/extr_return_normed_std": 0.31690386427591927, "train/extr_return_rate": 0.8650480247523686, "train/extr_return_raw_mag": 12.935003790136886, "train/extr_return_raw_max": 12.935003790136886, "train/extr_return_raw_mean": 3.89956972370409, "train/extr_return_raw_min": -0.696126156882064, "train/extr_return_raw_std": 2.968381300364455, "train/extr_reward_mag": 1.0760059356689453, "train/extr_reward_max": 1.0760059356689453, "train/extr_reward_mean": 0.06162417746365887, "train/extr_reward_min": -0.5931600691521004, "train/extr_reward_std": 0.238773399632271, "train/image_loss_mean": 3.3162576711341125, "train/image_loss_std": 8.537331430879357, "train/model_loss_mean": 6.803817187270073, "train/model_loss_std": 12.734807732987077, "train/model_opt_grad_norm": 23.73345238632626, "train/model_opt_grad_steps": 477409.5479452055, "train/model_opt_loss": 8765.876785905393, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1267.123287671233, "train/policy_entropy_mag": 2.680826588852765, "train/policy_entropy_max": 2.680826588852765, "train/policy_entropy_mean": 0.3659896775059504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5587091360190143, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.366521881663636, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 0.999526855063765, "train/policy_randomness_mag": 0.9462141378285134, "train/policy_randomness_max": 0.9462141378285134, "train/policy_randomness_mean": 0.12917829366171196, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19719980626481853, "train/post_ent_mag": 55.06975419553992, "train/post_ent_max": 55.06975419553992, "train/post_ent_mean": 40.37566475019063, "train/post_ent_min": 19.194987440762453, "train/post_ent_std": 5.759159969956907, "train/prior_ent_mag": 76.68143055536976, "train/prior_ent_max": 76.68143055536976, "train/prior_ent_mean": 46.06800366754401, "train/prior_ent_min": 27.785413715937366, "train/prior_ent_std": 7.826513048720686, "train/rep_loss_mean": 5.714414995010585, "train/rep_loss_std": 8.99878929739129, "train/reward_avg": 0.043626926303522225, "train/reward_loss_mean": 0.058823358624765315, "train/reward_loss_std": 0.2146018761886309, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0300995193115652, "train/reward_neg_acc": 0.992663858688041, "train/reward_neg_loss": 0.025078649275413114, "train/reward_pos_acc": 0.9897422757867265, "train/reward_pos_loss": 0.7227354310963252, "train/reward_pred": 0.04329830704078282, "train/reward_rate": 0.048400042808219176, "stats/sum_log_reward": 11.600000063578287, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.590080072482427, "replay/size": 957362.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3784141592855153e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3218699495815283e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10732650756836, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.50729274749756, "timer/env.step_frac": 0.05833677221824188, "timer/env.step_avg": 0.012007745368654019, "timer/env.step_min": 0.002648591995239258, "timer/env.step_max": 1.6704869270324707, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.25319480895996094, "timer/replay.add_frac": 0.0008436808654638949, "timer/replay.add_avg": 0.00017365899105621464, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.004507541656494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028714656829833984, "timer/logger.write_frac": 9.56812923029716e-05, "timer/logger.write_avg": 0.028714656829833984, "timer/logger.write_min": 0.028714656829833984, "timer/logger.write_max": 0.028714656829833984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.625580072402954, "timer/agent.policy_frac": 0.03540593359067823, "timer/agent.policy_avg": 0.007287777827436869, "timer/agent.policy_min": 0.0056345462799072266, "timer/agent.policy_max": 0.01565074920654297, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05999588966369629, "timer/dataset_frac": 0.00019991477836241116, "timer/dataset_avg": 8.229888842756692e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00014638900756835938, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.9618299007416, "timer/agent.train_frac": 0.9028830887069604, "timer/agent.train_avg": 0.3716897529502628, "timer/agent.train_min": 0.3654060363769531, "timer/agent.train_max": 0.3829028606414795, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22275137901306152, "timer/agent.report_frac": 0.0007422390569576581, "timer/agent.report_avg": 0.22275137901306152, "timer/agent.report_min": 0.22275137901306152, "timer/agent.report_max": 0.22275137901306152, "fps": 4.858150584926855}
+{"step": 957532, "episode/length": 234.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06808510638297872}
+{"step": 957703, "episode/length": 170.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07017543859649122}
+{"step": 957902, "episode/length": 198.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.500000059604645, "episode/reward_rate": 0.07537688442211055}
+{"step": 958334, "episode/length": 431.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.037037037037037035}
+{"step": 958379, "episode/length": 44.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.17777777777777778}
+{"step": 958751, "episode/length": 371.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.0456989247311828}
+{"step": 958865, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4788767496744795, "train/action_min": 0.0, "train/action_std": 3.32503949602445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038608496749980584, "train/actor_opt_grad_steps": 478525.0, "train/actor_opt_loss": -12.670679634230005, "train/adv_mag": 0.41694399486813283, "train/adv_max": 0.3542090178363853, "train/adv_mean": 0.002054504755455532, "train/adv_min": -0.3725911960419681, "train/adv_std": 0.04338956189652284, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 1.2652788153507307e-05, "train/cont_loss_std": 0.00036544906059137675, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015163618921158041, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 9.108358227847032e-06, "train/cont_pred": 0.9947184150417646, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.568827052911122, "train/dyn_loss_std": 8.928315308358934, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.919732440676954, "train/extr_critic_critic_opt_grad_steps": 478525.0, "train/extr_critic_critic_opt_loss": 15438.627536349826, "train/extr_critic_mag": 12.106963766945732, "train/extr_critic_max": 12.106963766945732, "train/extr_critic_mean": 3.9111485150125294, "train/extr_critic_min": -0.3620697458585103, "train/extr_critic_std": 2.9570156236489615, "train/extr_return_normed_mag": 1.3684215943018596, "train/extr_return_normed_max": 1.3684215943018596, "train/extr_return_normed_mean": 0.4169144572483169, "train/extr_return_normed_min": -0.07874680287204683, "train/extr_return_normed_std": 0.3196530518018537, "train/extr_return_rate": 0.8723253516687287, "train/extr_return_raw_mag": 12.816989541053772, "train/extr_return_raw_max": 12.816989541053772, "train/extr_return_raw_mean": 3.9303287665049234, "train/extr_return_raw_min": -0.698896300047636, "train/extr_return_raw_std": 2.9856787853770785, "train/extr_reward_mag": 1.0702709191375308, "train/extr_reward_max": 1.0702709191375308, "train/extr_reward_mean": 0.0642982534546819, "train/extr_reward_min": -0.609062984585762, "train/extr_reward_std": 0.243786402253641, "train/image_loss_mean": 3.2614684287044735, "train/image_loss_std": 8.092680580086178, "train/model_loss_mean": 6.6620621614986, "train/model_loss_std": 12.289013412263659, "train/model_opt_grad_norm": 22.920019308725994, "train/model_opt_grad_steps": 478134.0, "train/model_opt_loss": 8781.115763346354, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.701827608876758, "train/policy_entropy_max": 2.701827608876758, "train/policy_entropy_mean": 0.386392198709978, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941543388697836, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3859838009294536, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0168020617630746, "train/policy_randomness_mag": 0.9536265772249963, "train/policy_randomness_max": 0.9536265772249963, "train/policy_randomness_mean": 0.13637948988212478, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2097104098647833, "train/post_ent_mag": 55.530227714114716, "train/post_ent_max": 55.530227714114716, "train/post_ent_mean": 40.338341606987846, "train/post_ent_min": 19.45583987236023, "train/post_ent_std": 5.846318403879802, "train/prior_ent_mag": 76.78110429975722, "train/prior_ent_max": 76.78110429975722, "train/prior_ent_mean": 45.8785531785753, "train/prior_ent_min": 27.717871295081245, "train/prior_ent_std": 7.897921793990665, "train/rep_loss_mean": 5.568827052911122, "train/rep_loss_std": 8.928315308358934, "train/reward_avg": 0.04468994096128477, "train/reward_loss_mean": 0.059284884120441146, "train/reward_loss_std": 0.22341844191153845, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.032705972592036, "train/reward_neg_acc": 0.9937633532616827, "train/reward_neg_loss": 0.024810282707524795, "train/reward_pos_acc": 0.989731719924344, "train/reward_pos_loss": 0.7264750740594335, "train/reward_pred": 0.04443619762443834, "train/reward_rate": 0.049262152777777776, "stats/sum_log_reward": 12.766666412353516, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 20.166666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5005145544807116, "replay/size": 958802.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3320652114020454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.301926871140798e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12059783935547, "timer/env.step_count": 1440.0, "timer/env.step_total": 17.403928518295288, "timer/env.step_frac": 0.0579897835856339, "timer/env.step_avg": 0.012086061471038394, "timer/env.step_min": 0.002815723419189453, "timer/env.step_max": 1.7343547344207764, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28412294387817383, "timer/replay.add_frac": 0.0009466959146544662, "timer/replay.add_avg": 0.0001973075999153985, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.003651857376098633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028418779373168945, "timer/logger.write_frac": 9.469119939705227e-05, "timer/logger.write_avg": 0.028418779373168945, "timer/logger.write_min": 0.028418779373168945, "timer/logger.write_max": 0.028418779373168945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003597736358642578, "timer/checkpoint.save_frac": 1.1987635585639897e-06, "timer/checkpoint.save_avg": 0.0003597736358642578, "timer/checkpoint.save_min": 0.0003597736358642578, "timer/checkpoint.save_max": 0.0003597736358642578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2241904735565186, "timer/agent.save_frac": 0.004078995185168153, "timer/agent.save_avg": 1.2241904735565186, "timer/agent.save_min": 1.2241904735565186, "timer/agent.save_max": 1.2241904735565186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.036064147949219e-05, "timer/replay.save_frac": 3.010811058288616e-07, "timer/replay.save_avg": 9.036064147949219e-05, "timer/replay.save_min": 9.036064147949219e-05, "timer/replay.save_max": 9.036064147949219e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.230816125869751, "timer/agent.policy_frac": 0.04741699246343309, "timer/agent.policy_avg": 0.00988251119852066, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 2.5621044635772705, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05852961540222168, "timer/dataset_frac": 0.00019502032124283129, "timer/dataset_avg": 8.129113250308567e-05, "timer/dataset_min": 5.2928924560546875e-05, "timer/dataset_max": 0.00013446807861328125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.4577703475952, "timer/agent.train_frac": 0.8911676581783847, "timer/agent.train_avg": 0.3714691254827711, "timer/agent.train_min": 0.36547064781188965, "timer/agent.train_max": 0.4709818363189697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2170543670654297, "timer/agent.report_frac": 0.0007232238261154326, "timer/agent.report_avg": 0.2170543670654297, "timer/agent.report_min": 0.2170543670654297, "timer/agent.report_max": 0.2170543670654297, "fps": 4.797976793847933}
+{"step": 959133, "episode/length": 381.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.04450261780104712}
+{"step": 959387, "episode/length": 253.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05511811023622047}
+{"step": 959715, "episode/length": 327.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04573170731707317}
+{"step": 959862, "episode/length": 146.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.08163265306122448}
+{"step": 960056, "episode/length": 193.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05670103092783505}
+{"step": 960248, "episode/length": 191.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.08333333333333333}
+{"step": 960298, "episode/length": 49.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.14}
+{"step": 960319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4991521965967465, "train/action_min": 0.0, "train/action_std": 3.363239053177507, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037558926396990475, "train/actor_opt_grad_steps": 479250.0, "train/actor_opt_loss": -12.641583800315857, "train/adv_mag": 0.3797927151804101, "train/adv_max": 0.3284494560467054, "train/adv_mean": 0.002113660600801654, "train/adv_min": -0.33943736369479194, "train/adv_std": 0.04246095889439321, "train/cont_avg": 0.9949834118150684, "train/cont_loss_mean": 7.149209064024441e-05, "train/cont_loss_std": 0.002268355189858941, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.017302614075432123, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 3.8602715701378895e-06, "train/cont_pred": 0.9949932596454881, "train/cont_rate": 0.9949834118150684, "train/dyn_loss_mean": 5.635854668813209, "train/dyn_loss_std": 8.866628058969159, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.933982152644902, "train/extr_critic_critic_opt_grad_steps": 479250.0, "train/extr_critic_critic_opt_loss": 15343.310306078767, "train/extr_critic_mag": 12.121513275250997, "train/extr_critic_max": 12.121513275250997, "train/extr_critic_mean": 3.9160927746393908, "train/extr_critic_min": -0.3537802124676639, "train/extr_critic_std": 2.915374654613129, "train/extr_return_normed_mag": 1.3590759202225569, "train/extr_return_normed_max": 1.3590759202225569, "train/extr_return_normed_mean": 0.41563978382985883, "train/extr_return_normed_min": -0.07561442888762852, "train/extr_return_normed_std": 0.31290099330960885, "train/extr_return_rate": 0.8711544414089151, "train/extr_return_raw_mag": 12.807702234346573, "train/extr_return_raw_max": 12.807702234346573, "train/extr_return_raw_mean": 3.9359420390978253, "train/extr_return_raw_min": -0.6837163502222872, "train/extr_return_raw_std": 2.9425739245871974, "train/extr_reward_mag": 1.0712098062854924, "train/extr_reward_max": 1.0712098062854924, "train/extr_reward_mean": 0.06300001611856565, "train/extr_reward_min": -0.5769185366695875, "train/extr_reward_std": 0.24087157825084582, "train/image_loss_mean": 3.215174869315265, "train/image_loss_std": 8.46574875426619, "train/model_loss_mean": 6.654450847677989, "train/model_loss_std": 12.624439344014206, "train/model_opt_grad_norm": 23.387849494202495, "train/model_opt_grad_steps": 478859.0, "train/model_opt_loss": 16636.127140410958, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.698106667766832, "train/policy_entropy_max": 2.698106667766832, "train/policy_entropy_mean": 0.3853445200070943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5858509299689776, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3846083107876451, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0127473195938215, "train/policy_randomness_mag": 0.9523132484253138, "train/policy_randomness_max": 0.9523132484253138, "train/policy_randomness_mean": 0.1360097055974072, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20677966849036414, "train/post_ent_mag": 55.50541671334881, "train/post_ent_max": 55.50541671334881, "train/post_ent_mean": 40.443470837318735, "train/post_ent_min": 19.465882967596183, "train/post_ent_std": 5.782573601970934, "train/prior_ent_mag": 76.6634374122097, "train/prior_ent_max": 76.6634374122097, "train/prior_ent_mean": 46.07623458235231, "train/prior_ent_min": 28.360613261183648, "train/prior_ent_std": 7.730529654515933, "train/rep_loss_mean": 5.635854668813209, "train/rep_loss_std": 8.866628058969159, "train/reward_avg": 0.04536601005453769, "train/reward_loss_mean": 0.05769165783916434, "train/reward_loss_std": 0.20961958578188125, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.022960702033892, "train/reward_neg_acc": 0.9936986557424885, "train/reward_neg_loss": 0.02302151034292701, "train/reward_pos_acc": 0.9897888947839606, "train/reward_pos_loss": 0.7229217527663871, "train/reward_pred": 0.044975743003904, "train/reward_rate": 0.04964415667808219, "stats/sum_log_reward": 12.10000010899135, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4408646800688335, "replay/size": 960256.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3073608944143847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266952690428849e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1187844276428, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.714888334274292, "timer/env.step_frac": 0.06235827047602334, "timer/env.step_avg": 0.012871312471990573, "timer/env.step_min": 0.002784252166748047, "timer/env.step_max": 1.669238567352295, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2513086795806885, "timer/replay.add_frac": 0.0008373640459058896, "timer/replay.add_avg": 0.00017283953203623691, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0037941932678222656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021116018295288086, "timer/logger.write_frac": 7.035886919093881e-05, "timer/logger.write_avg": 0.021116018295288086, "timer/logger.write_min": 0.021116018295288086, "timer/logger.write_max": 0.021116018295288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.593663930892944, "timer/agent.policy_frac": 0.035298236833446274, "timer/agent.policy_avg": 0.007285876156047417, "timer/agent.policy_min": 0.005670785903930664, "timer/agent.policy_max": 0.022631168365478516, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058248281478881836, "timer/dataset_frac": 0.00019408409103737793, "timer/dataset_avg": 8.012143257067653e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00012540817260742188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.823335647583, "timer/agent.train_frac": 0.899055139657998, "timer/agent.train_avg": 0.3711462663653136, "timer/agent.train_min": 0.365215539932251, "timer/agent.train_max": 0.38216304779052734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22033357620239258, "timer/agent.report_frac": 0.0007341545669078702, "timer/agent.report_avg": 0.22033357620239258, "timer/agent.report_min": 0.22033357620239258, "timer/agent.report_max": 0.22033357620239258, "fps": 4.8446487368079865}
+{"step": 960499, "episode/length": 200.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.099999994039536, "episode/reward_rate": 0.0845771144278607}
+{"step": 960760, "episode/length": 260.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05363984674329502}
+{"step": 960811, "episode/length": 50.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0784313725490196}
+{"step": 961007, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 961280, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.054945054945054944}
+{"step": 961477, "episode/length": 196.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06091370558375635}
+{"step": 961695, "episode/length": 217.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05504587155963303}
+{"step": 961775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382042778862847, "train/action_min": 0.0, "train/action_std": 3.2435494330194263, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03867743704985413, "train/actor_opt_grad_steps": 479975.0, "train/actor_opt_loss": -12.253989384406143, "train/adv_mag": 0.399584181399809, "train/adv_max": 0.34621652629640365, "train/adv_mean": 0.0018105171941695314, "train/adv_min": -0.3489661229153474, "train/adv_std": 0.04299715797727307, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 2.1933122773000315e-05, "train/cont_loss_std": 0.0006306181789628656, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002568950970438127, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 9.221791206610103e-06, "train/cont_pred": 0.994589096142186, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 5.587437099880642, "train/dyn_loss_std": 8.94627254539066, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.881896579431163, "train/extr_critic_critic_opt_grad_steps": 479975.0, "train/extr_critic_critic_opt_loss": 15370.010403103299, "train/extr_critic_mag": 12.131725841098362, "train/extr_critic_max": 12.131725841098362, "train/extr_critic_mean": 3.897621419694689, "train/extr_critic_min": -0.411231592297554, "train/extr_critic_std": 2.9422022302945456, "train/extr_return_normed_mag": 1.3682250148720212, "train/extr_return_normed_max": 1.3682250148720212, "train/extr_return_normed_mean": 0.4129520282149315, "train/extr_return_normed_min": -0.08188063263272245, "train/extr_return_normed_std": 0.3178326998733812, "train/extr_return_rate": 0.8706263105074564, "train/extr_return_raw_mag": 12.841901779174805, "train/extr_return_raw_max": 12.841901779174805, "train/extr_return_raw_mean": 3.914535171455807, "train/extr_return_raw_min": -0.7104197376304202, "train/extr_return_raw_std": 2.9705220063527427, "train/extr_reward_mag": 1.071123116546207, "train/extr_reward_max": 1.071123116546207, "train/extr_reward_mean": 0.061806938610970974, "train/extr_reward_min": -0.6338398920165168, "train/extr_reward_std": 0.23943319564892185, "train/image_loss_mean": 3.213430111606916, "train/image_loss_std": 8.57424964507421, "train/model_loss_mean": 6.625023312038845, "train/model_loss_std": 12.715360403060913, "train/model_opt_grad_norm": 21.84136630429162, "train/model_opt_grad_steps": 479583.5, "train/model_opt_loss": 19546.796535915797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.698550727632311, "train/policy_entropy_max": 2.698550727632311, "train/policy_entropy_mean": 0.3660645569778151, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.567075109316243, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3670804873108864, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0039448158608542, "train/policy_randomness_mag": 0.9524699797232946, "train/policy_randomness_max": 0.9524699797232946, "train/policy_randomness_mean": 0.12920472439792421, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20015262667503622, "train/post_ent_mag": 55.150623162587486, "train/post_ent_max": 55.150623162587486, "train/post_ent_mean": 40.36922762129042, "train/post_ent_min": 19.471438619825577, "train/post_ent_std": 5.682532800568475, "train/prior_ent_mag": 76.68015352884929, "train/prior_ent_max": 76.68015352884929, "train/prior_ent_mean": 45.92478529612223, "train/prior_ent_min": 27.98805634180705, "train/prior_ent_std": 7.753919925954607, "train/rep_loss_mean": 5.587437099880642, "train/rep_loss_std": 8.94627254539066, "train/reward_avg": 0.04382731067016721, "train/reward_loss_mean": 0.05910900700837374, "train/reward_loss_std": 0.21949656907882956, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0287206835216947, "train/reward_neg_acc": 0.9929575953218672, "train/reward_neg_loss": 0.02508486959979766, "train/reward_pos_acc": 0.9907123761044608, "train/reward_pos_loss": 0.7250412686003579, "train/reward_pred": 0.04347007118889855, "train/reward_rate": 0.048638237847222224, "stats/sum_log_reward": 11.52857163974217, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 18.428571428571427, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3776916563510895, "replay/size": 961712.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3298364052405723e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.315969032245678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.340047121048, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.526312828063965, "timer/env.step_frac": 0.06168445735309213, "timer/env.step_avg": 0.012724115953340635, "timer/env.step_min": 0.0027141571044921875, "timer/env.step_max": 1.6438207626342773, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2623789310455322, "timer/replay.add_frac": 0.0008736062125600718, "timer/replay.add_avg": 0.0001802053097840194, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.003331899642944336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021610021591186523, "timer/logger.write_frac": 7.195184857408276e-05, "timer/logger.write_avg": 0.021610021591186523, "timer/logger.write_min": 0.021610021591186523, "timer/logger.write_max": 0.021610021591186523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.634926080703735, "timer/agent.policy_frac": 0.03540961714112495, "timer/agent.policy_avg": 0.007304207473010808, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.015079259872436523, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059999704360961914, "timer/dataset_frac": 0.00019977257424075667, "timer/dataset_avg": 8.241717632000263e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.1785144805908, "timer/agent.train_frac": 0.8995753881988939, "timer/agent.train_avg": 0.3711243330777346, "timer/agent.train_min": 0.3647348880767822, "timer/agent.train_max": 0.3836486339569092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194371223449707, "timer/agent.report_frac": 0.0007306289136211314, "timer/agent.report_avg": 0.2194371223449707, "timer/agent.report_min": 0.2194371223449707, "timer/agent.report_max": 0.2194371223449707, "fps": 4.84773294326768}
+{"step": 961882, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0748663101604278}
+{"step": 962105, "episode/length": 222.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05829596412556054}
+{"step": 962349, "episode/length": 243.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06147540983606557}
+{"step": 962541, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 962625, "episode/length": 83.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.13095238095238096}
+{"step": 962884, "episode/length": 258.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05791505791505792}
+{"step": 963116, "episode/length": 231.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06465517241379311}
+{"step": 963211, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495765686035156, "train/action_min": 0.0, "train/action_std": 3.3508820831775665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03801294294599858, "train/actor_opt_grad_steps": 480695.0, "train/actor_opt_loss": -13.249263372686174, "train/adv_mag": 0.4104716007908185, "train/adv_max": 0.33046770095825195, "train/adv_mean": 0.0016253881107609737, "train/adv_min": -0.3714834033615059, "train/adv_std": 0.042916789987227984, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 6.349610257770798e-05, "train/cont_loss_std": 0.0017786210839771696, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009507767261293114, "train/cont_pos_acc": 0.9999726538856825, "train/cont_pos_loss": 5.760088309416902e-05, "train/cont_pred": 0.9949508276250627, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.394585125976139, "train/dyn_loss_std": 8.91715004046758, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9350199459327592, "train/extr_critic_critic_opt_grad_steps": 480695.0, "train/extr_critic_critic_opt_loss": 15409.71812608507, "train/extr_critic_mag": 12.331036024623447, "train/extr_critic_max": 12.331036024623447, "train/extr_critic_mean": 3.8218993643919625, "train/extr_critic_min": -0.3761911491552989, "train/extr_critic_std": 2.932233343521754, "train/extr_return_normed_mag": 1.3850761585765414, "train/extr_return_normed_max": 1.3850761585765414, "train/extr_return_normed_mean": 0.402803643917044, "train/extr_return_normed_min": -0.0816411685405506, "train/extr_return_normed_std": 0.3147968463599682, "train/extr_return_rate": 0.8668692592117522, "train/extr_return_raw_mag": 13.06175414721171, "train/extr_return_raw_max": 13.06175414721171, "train/extr_return_raw_mean": 3.8371795349650912, "train/extr_return_raw_min": -0.712276262541612, "train/extr_return_raw_std": 2.956553707520167, "train/extr_reward_mag": 1.0769929952091641, "train/extr_reward_max": 1.0769929952091641, "train/extr_reward_mean": 0.06199440823143555, "train/extr_reward_min": -0.5976952115694681, "train/extr_reward_std": 0.23899482128520808, "train/image_loss_mean": 3.1901879658301673, "train/image_loss_std": 8.510965320799086, "train/model_loss_mean": 6.484367264641656, "train/model_loss_std": 12.676501260863411, "train/model_opt_grad_norm": 22.068847431076897, "train/model_opt_grad_steps": 480302.9166666667, "train/model_opt_loss": 16571.216837565105, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.7091874049769507, "train/policy_entropy_max": 2.7091874049769507, "train/policy_entropy_mean": 0.39903573050267166, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6046248782012198, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3996413542578618, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.03057072394424, "train/policy_randomness_mag": 0.9562242660257552, "train/policy_randomness_max": 0.9562242660257552, "train/policy_randomness_mean": 0.1408421028819349, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2134060478872723, "train/post_ent_mag": 55.113568994734024, "train/post_ent_max": 55.113568994734024, "train/post_ent_mean": 40.31697909037272, "train/post_ent_min": 19.527777526113724, "train/post_ent_std": 5.747223728232914, "train/prior_ent_mag": 76.79127311706543, "train/prior_ent_max": 76.79127311706543, "train/prior_ent_mean": 45.69829675886366, "train/prior_ent_min": 27.702887852986652, "train/prior_ent_std": 7.7931070062849255, "train/rep_loss_mean": 5.394585125976139, "train/rep_loss_std": 8.91715004046758, "train/reward_avg": 0.04199761227290663, "train/reward_loss_mean": 0.057364697723339, "train/reward_loss_std": 0.21258368011977938, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0259905540280871, "train/reward_neg_acc": 0.9928167429235246, "train/reward_neg_loss": 0.025343391216463514, "train/reward_pos_acc": 0.9915327181418737, "train/reward_pos_loss": 0.7167498055431578, "train/reward_pred": 0.041987662876231804, "train/reward_rate": 0.04635959201388889, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3802447148731777, "replay/size": 963148.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.2824062039261076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2938068105649815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23300981521606, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.272154331207275, "timer/env.step_frac": 0.06752140393784196, "timer/env.step_avg": 0.014117099116439607, "timer/env.step_min": 0.0028896331787109375, "timer/env.step_max": 3.0492026805877686, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2649195194244385, "timer/replay.add_frac": 0.0008823797209623554, "timer/replay.add_avg": 0.00018448434500309085, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0019757747650146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022536039352416992, "timer/logger.write_frac": 7.506183069705497e-05, "timer/logger.write_avg": 0.022536039352416992, "timer/logger.write_min": 0.022536039352416992, "timer/logger.write_max": 0.022536039352416992, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002219676971435547, "timer/checkpoint.save_frac": 7.393180959021421e-07, "timer/checkpoint.save_avg": 0.0002219676971435547, "timer/checkpoint.save_min": 0.0002219676971435547, "timer/checkpoint.save_max": 0.0002219676971435547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1974961757659912, "timer/agent.save_frac": 0.003988556010223567, "timer/agent.save_avg": 1.1974961757659912, "timer/agent.save_min": 1.1974961757659912, "timer/agent.save_max": 1.1974961757659912, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2632186609249247e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.271086931228638, "timer/agent.policy_frac": 0.04087187794167305, "timer/agent.policy_avg": 0.008545325161022728, "timer/agent.policy_min": 0.005711793899536133, "timer/agent.policy_max": 1.1925814151763916, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0591435432434082, "timer/dataset_frac": 0.00019699214047052716, "timer/dataset_avg": 8.237262290168274e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.69165301322937, "timer/agent.train_frac": 0.8882822484355389, "timer/agent.train_avg": 0.3714368426368097, "timer/agent.train_min": 0.36429905891418457, "timer/agent.train_max": 0.3854660987854004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21995115280151367, "timer/agent.report_frac": 0.0007326014982059657, "timer/agent.report_avg": 0.21995115280151367, "timer/agent.report_min": 0.21995115280151367, "timer/agent.report_max": 0.21995115280151367, "fps": 4.782869973374561}
+{"step": 963300, "episode/length": 183.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07065217391304347}
+{"step": 963490, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05263157894736842}
+{"step": 963738, "episode/length": 247.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056451612903225805}
+{"step": 963941, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 964228, "episode/length": 286.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.041811846689895474}
+{"step": 964430, "episode/length": 201.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.07920792079207921}
+{"step": 964643, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
+{"step": 964665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433836218428938, "train/action_min": 0.0, "train/action_std": 3.299227672080471, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038642742173516584, "train/actor_opt_grad_steps": 481420.0, "train/actor_opt_loss": -11.027916688829253, "train/adv_mag": 0.3821461588552553, "train/adv_max": 0.3365101826517549, "train/adv_mean": 0.0022198765728150384, "train/adv_min": -0.33160598290293186, "train/adv_std": 0.04291568563817299, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 2.7613661672383705e-06, "train/cont_loss_std": 8.57883901021278e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024065699648521212, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.8058368459335742e-06, "train/cont_pred": 0.9949023772592414, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.533825482407662, "train/dyn_loss_std": 8.877260600050835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9297469201153272, "train/extr_critic_critic_opt_grad_steps": 481420.0, "train/extr_critic_critic_opt_loss": 15483.166697880994, "train/extr_critic_mag": 11.998777206629923, "train/extr_critic_max": 11.998777206629923, "train/extr_critic_mean": 3.740663521910367, "train/extr_critic_min": -0.3509096723713287, "train/extr_critic_std": 2.890120999453819, "train/extr_return_normed_mag": 1.361604244741675, "train/extr_return_normed_max": 1.361604244741675, "train/extr_return_normed_mean": 0.3971215609001787, "train/extr_return_normed_min": -0.0793569110946296, "train/extr_return_normed_std": 0.3120905291544248, "train/extr_return_rate": 0.8627390575735536, "train/extr_return_raw_mag": 12.768346747306929, "train/extr_return_raw_max": 12.768346747306929, "train/extr_return_raw_mean": 3.76137941504178, "train/extr_return_raw_min": -0.6887126940570466, "train/extr_return_raw_std": 2.9147842420290595, "train/extr_reward_mag": 1.0733404322846296, "train/extr_reward_max": 1.0733404322846296, "train/extr_reward_mean": 0.059476884617789154, "train/extr_reward_min": -0.5905487912974946, "train/extr_reward_std": 0.23498595822347354, "train/image_loss_mean": 3.2781345550328087, "train/image_loss_std": 8.329474736566413, "train/model_loss_mean": 6.65616580231549, "train/model_loss_std": 12.449663214487572, "train/model_opt_grad_norm": 23.44594782999117, "train/model_opt_grad_steps": 481026.08219178085, "train/model_opt_loss": 9000.330686804366, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1352.7397260273972, "train/policy_entropy_mag": 2.689411316832451, "train/policy_entropy_max": 2.689411316832451, "train/policy_entropy_mean": 0.39717117748031877, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6006431387711878, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39681497665300763, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.025834278701103, "train/policy_randomness_mag": 0.9492441701562437, "train/policy_randomness_max": 0.9492441701562437, "train/policy_randomness_mean": 0.14018399594989542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21200066764060765, "train/post_ent_mag": 55.63108350152839, "train/post_ent_max": 55.63108350152839, "train/post_ent_mean": 40.489018218158044, "train/post_ent_min": 19.45117383460476, "train/post_ent_std": 5.891580869073737, "train/prior_ent_mag": 76.75583983120853, "train/prior_ent_max": 76.75583983120853, "train/prior_ent_mean": 46.01019041505578, "train/prior_ent_min": 28.053682013733745, "train/prior_ent_std": 7.855500168996315, "train/rep_loss_mean": 5.533825482407662, "train/rep_loss_std": 8.877260600050835, "train/reward_avg": 0.04214870495951339, "train/reward_loss_mean": 0.057733149867351743, "train/reward_loss_std": 0.21532976117036115, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0287772759999314, "train/reward_neg_acc": 0.9932223607416022, "train/reward_neg_loss": 0.02476854936206994, "train/reward_pos_acc": 0.9875122896612507, "train/reward_pos_loss": 0.73169139639972, "train/reward_pred": 0.04167280899845574, "train/reward_rate": 0.04664758133561644, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.47013857534953524, "replay/size": 964602.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2686629682328384e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118965917637128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0479884147644, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.6217520236969, "timer/env.step_frac": 0.06206257912969425, "timer/env.step_avg": 0.012807257237755778, "timer/env.step_min": 0.0029480457305908203, "timer/env.step_max": 1.6039836406707764, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.266193151473999, "timer/replay.add_frac": 0.0008871685921987688, "timer/replay.add_avg": 0.00018307644530536385, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0034410953521728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03411674499511719, "timer/logger.write_frac": 0.00011370429502082412, "timer/logger.write_avg": 0.03411674499511719, "timer/logger.write_min": 0.03411674499511719, "timer/logger.write_max": 0.03411674499511719, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.578779458999634, "timer/agent.policy_frac": 0.03525695844484817, "timer/agent.policy_avg": 0.00727563924277829, "timer/agent.policy_min": 0.005980968475341797, "timer/agent.policy_max": 0.017383813858032227, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06004476547241211, "timer/dataset_frac": 0.00020011720721623574, "timer/dataset_avg": 8.259252472133715e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.8312203884125, "timer/agent.train_frac": 0.8992935490552849, "timer/agent.train_avg": 0.3711571119510488, "timer/agent.train_min": 0.36304759979248047, "timer/agent.train_max": 0.3863790035247803, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192690372467041, "timer/agent.report_frac": 0.0007307798942601229, "timer/agent.report_avg": 0.2192690372467041, "timer/agent.report_min": 0.2192690372467041, "timer/agent.report_max": 0.2192690372467041, "fps": 4.845812171823088}
+{"step": 964805, "episode/length": 161.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08641975308641975}
+{"step": 964868, "episode/length": 62.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.06349206349206349}
+{"step": 965143, "episode/length": 274.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05454545454545454}
+{"step": 965332, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06878306878306878}
+{"step": 965682, "episode/length": 349.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.04857142857142857}
+{"step": 965987, "episode/length": 304.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04918032786885246}
+{"step": 966127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464908129548373, "train/action_min": 0.0, "train/action_std": 3.2971722557120127, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03940764214996606, "train/actor_opt_grad_steps": 482150.0, "train/actor_opt_loss": -12.22609221445371, "train/adv_mag": 0.4323238113971606, "train/adv_max": 0.3376481341172571, "train/adv_mean": 0.002441226507434207, "train/adv_min": -0.3919035173850517, "train/adv_std": 0.044352973211709765, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 8.85323268815458e-06, "train/cont_loss_std": 0.0002154833232622164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00036145716067483604, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 5.993514710956684e-06, "train/cont_pred": 0.995047150409385, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.6834363741417455, "train/dyn_loss_std": 9.010008197941191, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9794820081697752, "train/extr_critic_critic_opt_grad_steps": 482150.0, "train/extr_critic_critic_opt_loss": 15587.840004280823, "train/extr_critic_mag": 11.999421629187179, "train/extr_critic_max": 11.999421629187179, "train/extr_critic_mean": 3.8142595356457853, "train/extr_critic_min": -0.3372184887324294, "train/extr_critic_std": 2.8815798334879417, "train/extr_return_normed_mag": 1.3682527738074735, "train/extr_return_normed_max": 1.3682527738074735, "train/extr_return_normed_mean": 0.405304490295175, "train/extr_return_normed_min": -0.07972979127135996, "train/extr_return_normed_std": 0.3129017324480292, "train/extr_return_rate": 0.8706184494985293, "train/extr_return_raw_mag": 12.790155881071744, "train/extr_return_raw_max": 12.790155881071744, "train/extr_return_raw_mean": 3.836947365982892, "train/extr_return_raw_min": -0.6731124401909031, "train/extr_return_raw_std": 2.909899107397419, "train/extr_reward_mag": 1.0797676648179146, "train/extr_reward_max": 1.0797676648179146, "train/extr_reward_mean": 0.0627967201377431, "train/extr_reward_min": -0.6023652749518825, "train/extr_reward_std": 0.24092475702501323, "train/image_loss_mean": 3.366289785463516, "train/image_loss_std": 8.976064120253472, "train/model_loss_mean": 6.834812216562767, "train/model_loss_std": 13.204967342010915, "train/model_opt_grad_norm": 23.115310629753218, "train/model_opt_grad_steps": 481756.0, "train/model_opt_loss": 13189.738027076199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1934.9315068493152, "train/policy_entropy_mag": 2.681431397999803, "train/policy_entropy_max": 2.681431397999803, "train/policy_entropy_mean": 0.37347961411084213, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5691289509812446, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3739822306861616, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0071559393242613, "train/policy_randomness_mag": 0.9464276106390235, "train/policy_randomness_max": 0.9464276106390235, "train/policy_randomness_mean": 0.13182191540525384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.200877542058899, "train/post_ent_mag": 55.50325597475653, "train/post_ent_max": 55.50325597475653, "train/post_ent_mean": 40.157640901330396, "train/post_ent_min": 19.862482253819294, "train/post_ent_std": 5.8246130747337865, "train/prior_ent_mag": 76.75761674854853, "train/prior_ent_max": 76.75761674854853, "train/prior_ent_mean": 45.82513871911454, "train/prior_ent_min": 27.80898585384839, "train/prior_ent_std": 7.9467814393239475, "train/rep_loss_mean": 5.6834363741417455, "train/rep_loss_std": 9.010008197941191, "train/reward_avg": 0.04227445391963606, "train/reward_loss_mean": 0.058451744536422705, "train/reward_loss_std": 0.21814048923041723, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0315238939572686, "train/reward_neg_acc": 0.9928979089815323, "train/reward_neg_loss": 0.025967607733933893, "train/reward_pos_acc": 0.9896602099888945, "train/reward_pos_loss": 0.7228090411996189, "train/reward_pred": 0.04208950915259041, "train/reward_rate": 0.04668771404109589, "stats/sum_log_reward": 12.100000143051147, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.6666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4797239328424136, "replay/size": 966064.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3147031729263744e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2953410233420647e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28080582618713, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.199028968811035, "timer/env.step_frac": 0.057276484660715964, "timer/env.step_avg": 0.011764041702333129, "timer/env.step_min": 0.002920866012573242, "timer/env.step_max": 1.6100187301635742, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2555508613586426, "timer/replay.add_frac": 0.0008510396149215218, "timer/replay.add_avg": 0.00017479539080618507, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.002675771713256836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03060126304626465, "timer/logger.write_frac": 0.00010190882151814163, "timer/logger.write_avg": 0.03060126304626465, "timer/logger.write_min": 0.03060126304626465, "timer/logger.write_max": 0.03060126304626465, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.667676448822021, "timer/agent.policy_frac": 0.03552566878016452, "timer/agent.policy_avg": 0.007296632317935719, "timer/agent.policy_min": 0.005814075469970703, "timer/agent.policy_max": 0.01740717887878418, "timer/dataset_count": 731.0, "timer/dataset_total": 0.058979034423828125, "timer/dataset_frac": 0.00019641293509105347, "timer/dataset_avg": 8.068267363040783e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.41020250320435, "timer/agent.train_frac": 0.903854649505323, "timer/agent.train_avg": 0.37128618673488967, "timer/agent.train_min": 0.3641793727874756, "timer/agent.train_max": 0.3837757110595703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174062728881836, "timer/agent.report_frac": 0.000724009888977139, "timer/agent.report_avg": 0.2174062728881836, "timer/agent.report_min": 0.2174062728881836, "timer/agent.report_max": 0.2174062728881836, "fps": 4.868677157640563}
+{"step": 966155, "episode/length": 167.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08333333333333333}
+{"step": 966351, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 966649, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.050335570469798654}
+{"step": 966785, "episode/length": 135.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07352941176470588}
+{"step": 967034, "episode/length": 248.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060240963855421686}
+{"step": 967135, "episode/length": 100.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.0891089108910891}
+{"step": 967453, "episode/length": 317.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04716981132075472}
+{"step": 967559, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.456060621473524, "train/action_min": 0.0, "train/action_std": 3.2987826102309756, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0390020152553916, "train/actor_opt_grad_steps": 482875.0, "train/actor_opt_loss": -13.011800224582354, "train/adv_mag": 0.4232517805778318, "train/adv_max": 0.35034268556369674, "train/adv_mean": 0.0019708673208798347, "train/adv_min": -0.38022391063471633, "train/adv_std": 0.04377790726721287, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 8.198552213814183e-05, "train/cont_loss_std": 0.0025809370928789755, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.02117989248822995, "train/cont_pos_acc": 0.9999863414300812, "train/cont_pos_loss": 3.87230394059104e-05, "train/cont_pred": 0.9949643115202585, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.6094257434209185, "train/dyn_loss_std": 8.974474694993761, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9068740142716302, "train/extr_critic_critic_opt_grad_steps": 482875.0, "train/extr_critic_critic_opt_loss": 15448.094224717883, "train/extr_critic_mag": 12.059384597672356, "train/extr_critic_max": 12.059384597672356, "train/extr_critic_mean": 3.8726013600826263, "train/extr_critic_min": -0.3240821278757519, "train/extr_critic_std": 2.9063324100441403, "train/extr_return_normed_mag": 1.375837066107326, "train/extr_return_normed_max": 1.375837066107326, "train/extr_return_normed_mean": 0.40806592297222877, "train/extr_return_normed_min": -0.0820231481662227, "train/extr_return_normed_std": 0.314962734364801, "train/extr_return_rate": 0.8720613130264812, "train/extr_return_raw_mag": 12.906097332636515, "train/extr_return_raw_max": 12.906097332636515, "train/extr_return_raw_mean": 3.8909516996807523, "train/extr_return_raw_min": -0.6745252381596301, "train/extr_return_raw_std": 2.934096210532718, "train/extr_reward_mag": 1.0730517076121435, "train/extr_reward_max": 1.0730517076121435, "train/extr_reward_mean": 0.06275875007526742, "train/extr_reward_min": -0.5760219775968127, "train/extr_reward_std": 0.24090191307995054, "train/image_loss_mean": 3.298045966360304, "train/image_loss_std": 8.79611967007319, "train/model_loss_mean": 6.721693933010101, "train/model_loss_std": 12.945793920093113, "train/model_opt_grad_norm": 23.21310832765367, "train/model_opt_grad_steps": 482480.2638888889, "train/model_opt_loss": 10787.66978624132, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.650996165143119, "train/policy_entropy_max": 2.650996165143119, "train/policy_entropy_mean": 0.37750322185456753, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5739019670420222, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37813166197803283, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0098149966862466, "train/policy_randomness_mag": 0.9356853109267023, "train/policy_randomness_max": 0.9356853109267023, "train/policy_randomness_mean": 0.13324207212362024, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20256221128834617, "train/post_ent_mag": 54.959283139970566, "train/post_ent_max": 54.959283139970566, "train/post_ent_mean": 40.30572122997708, "train/post_ent_min": 19.6854244073232, "train/post_ent_std": 5.696137156751421, "train/prior_ent_mag": 76.8385042614407, "train/prior_ent_max": 76.8385042614407, "train/prior_ent_mean": 45.896266301472984, "train/prior_ent_min": 27.76842721303304, "train/prior_ent_std": 7.82300732533137, "train/rep_loss_mean": 5.6094257434209185, "train/rep_loss_std": 8.974474694993761, "train/reward_avg": 0.04311252126677169, "train/reward_loss_mean": 0.05791056533861491, "train/reward_loss_std": 0.21416139168043932, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0254129866758983, "train/reward_neg_acc": 0.994135165380107, "train/reward_neg_loss": 0.025210105057340115, "train/reward_pos_acc": 0.9935996615224414, "train/reward_pos_loss": 0.7119715983668963, "train/reward_pred": 0.04281771798721618, "train/reward_rate": 0.047675238715277776, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.40513470130307333, "replay/size": 967496.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4069548772034034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3160264358840174e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3065619468689, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.383848190307617, "timer/env.step_frac": 0.06787679915537106, "timer/env.step_avg": 0.014234530859153363, "timer/env.step_min": 0.003032207489013672, "timer/env.step_max": 1.8446552753448486, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25079965591430664, "timer/replay.add_frac": 0.0008351454403406571, "timer/replay.add_avg": 0.00017513942452116385, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.002110719680786133, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02185964584350586, "timer/logger.write_frac": 7.279110287098333e-05, "timer/logger.write_avg": 0.02185964584350586, "timer/logger.write_min": 0.02185964584350586, "timer/logger.write_max": 0.02185964584350586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001723766326904297, "timer/checkpoint.save_frac": 5.740022181763949e-07, "timer/checkpoint.save_avg": 0.0001723766326904297, "timer/checkpoint.save_min": 0.0001723766326904297, "timer/checkpoint.save_max": 0.0001723766326904297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4173328876495361, "timer/agent.save_frac": 0.004719620105738132, "timer/agent.save_avg": 1.4173328876495361, "timer/agent.save_min": 1.4173328876495361, "timer/agent.save_max": 1.4173328876495361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.14984130859375e-05, "timer/replay.save_frac": 1.7148613987012627e-07, "timer/replay.save_avg": 5.14984130859375e-05, "timer/replay.save_min": 5.14984130859375e-05, "timer/replay.save_max": 5.14984130859375e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.479596138000488, "timer/agent.policy_frac": 0.041556188639688844, "timer/agent.policy_avg": 0.00871480177234671, "timer/agent.policy_min": 0.005704164505004883, "timer/agent.policy_max": 1.399756908416748, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058480024337768555, "timer/dataset_frac": 0.0001947344205822416, "timer/dataset_avg": 8.167601164492815e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00014495849609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45355582237244, "timer/agent.train_frac": 0.8872718401321985, "timer/agent.train_avg": 0.3721418377407436, "timer/agent.train_min": 0.3652470111846924, "timer/agent.train_max": 0.8965983390808105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21843218803405762, "timer/agent.report_frac": 0.0007273640196803401, "timer/agent.report_avg": 0.21843218803405762, "timer/agent.report_min": 0.21843218803405762, "timer/agent.report_max": 0.21843218803405762, "fps": 4.768364475597005}
+{"step": 967681, "episode/length": 227.0, "episode/score": 11.100000068545341, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.05701754385964912}
+{"step": 967861, "episode/length": 179.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.05555555555555555}
+{"step": 968056, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07692307692307693}
+{"step": 968284, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07017543859649122}
+{"step": 968542, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.050387596899224806}
+{"step": 968863, "episode/length": 320.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.040498442367601244}
+{"step": 969017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.455634223090278, "train/action_min": 0.0, "train/action_std": 3.3055955403380923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03938021270247797, "train/actor_opt_grad_steps": 483595.0, "train/actor_opt_loss": -12.496555028379792, "train/adv_mag": 0.40478210606508785, "train/adv_max": 0.3457465927220053, "train/adv_mean": 0.00178942787159839, "train/adv_min": -0.348479591930906, "train/adv_std": 0.043932131595081754, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 2.8322386388859558e-05, "train/cont_loss_std": 0.0007950934744504047, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004972697837740804, "train/cont_pos_acc": 0.9999863083163897, "train/cont_pos_loss": 2.6414027253501222e-05, "train/cont_pred": 0.9949218738410208, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.624643080764347, "train/dyn_loss_std": 8.925123492876688, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9525401766101519, "train/extr_critic_critic_opt_grad_steps": 483595.0, "train/extr_critic_critic_opt_loss": 15521.629014756945, "train/extr_critic_mag": 11.970964047643873, "train/extr_critic_max": 11.970964047643873, "train/extr_critic_mean": 3.8842962649133472, "train/extr_critic_min": -0.3734965638981925, "train/extr_critic_std": 2.883372876379225, "train/extr_return_normed_mag": 1.36423326532046, "train/extr_return_normed_max": 1.36423326532046, "train/extr_return_normed_mean": 0.4118839278817177, "train/extr_return_normed_min": -0.08621194974208872, "train/extr_return_normed_std": 0.31381347754763234, "train/extr_return_rate": 0.8670012777050337, "train/extr_return_raw_mag": 12.728988899124992, "train/extr_return_raw_max": 12.728988899124992, "train/extr_return_raw_mean": 3.900884509086609, "train/extr_return_raw_min": -0.71643324320515, "train/extr_return_raw_std": 2.9093123277028403, "train/extr_reward_mag": 1.0671809613704681, "train/extr_reward_max": 1.0671809613704681, "train/extr_reward_mean": 0.0621002030869325, "train/extr_reward_min": -0.6308022654718823, "train/extr_reward_std": 0.23927085474133492, "train/image_loss_mean": 3.297237810161379, "train/image_loss_std": 8.550187746683756, "train/model_loss_mean": 6.730244437853496, "train/model_loss_std": 12.726869848039415, "train/model_opt_grad_norm": 22.522929125361973, "train/model_opt_grad_steps": 483200.0, "train/model_opt_loss": 11259.384046766492, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1684.0277777777778, "train/policy_entropy_mag": 2.651458286576801, "train/policy_entropy_max": 2.651458286576801, "train/policy_entropy_mean": 0.36004795589380795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5440199942224555, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.360662420383758, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 0.9924489094151391, "train/policy_randomness_mag": 0.9358484165536033, "train/policy_randomness_max": 0.9358484165536033, "train/policy_randomness_mean": 0.12708112763033974, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19201518336517942, "train/post_ent_mag": 55.77224408255683, "train/post_ent_max": 55.77224408255683, "train/post_ent_mean": 40.34301736619737, "train/post_ent_min": 19.698733700646294, "train/post_ent_std": 5.845778200361464, "train/prior_ent_mag": 76.82881471845839, "train/prior_ent_max": 76.82881471845839, "train/prior_ent_mean": 45.97837368647257, "train/prior_ent_min": 27.92524904674954, "train/prior_ent_std": 7.853601773579915, "train/rep_loss_mean": 5.624643080764347, "train/rep_loss_std": 8.925123492876688, "train/reward_avg": 0.04275851707077689, "train/reward_loss_mean": 0.05819245484761066, "train/reward_loss_std": 0.21470879494316047, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.027860552072525, "train/reward_neg_acc": 0.9933872744441032, "train/reward_neg_loss": 0.02502325613103393, "train/reward_pos_acc": 0.9892583241065344, "train/reward_pos_loss": 0.7232944832907783, "train/reward_pred": 0.04246742032571799, "train/reward_rate": 0.047553168402777776, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43762847284475964, "replay/size": 968954.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3705649879570686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3250382348833751e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19554114341736, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.584604501724243, "timer/env.step_frac": 0.058577167518032054, "timer/env.step_avg": 0.012060771263185352, "timer/env.step_min": 0.0025653839111328125, "timer/env.step_max": 1.5958399772644043, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2713761329650879, "timer/replay.add_frac": 0.0009039978806195489, "timer/replay.add_avg": 0.00018612903495547866, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.00460505485534668, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02217268943786621, "timer/logger.write_frac": 7.38608220275773e-05, "timer/logger.write_avg": 0.02217268943786621, "timer/logger.write_min": 0.02217268943786621, "timer/logger.write_max": 0.02217268943786621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.822309255599976, "timer/agent.policy_frac": 0.036050866093409614, "timer/agent.policy_avg": 0.007422708680109723, "timer/agent.policy_min": 0.005803346633911133, "timer/agent.policy_max": 0.01692342758178711, "timer/dataset_count": 729.0, "timer/dataset_total": 0.060297489166259766, "timer/dataset_frac": 0.00020086070877865857, "timer/dataset_avg": 8.271260516633713e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.77073907852173, "timer/agent.train_frac": 0.9019812154676939, "timer/agent.train_avg": 0.37142762562211484, "timer/agent.train_min": 0.3648865222930908, "timer/agent.train_max": 0.38748788833618164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2232663631439209, "timer/agent.report_frac": 0.0007437364402333217, "timer/agent.report_avg": 0.2232663631439209, "timer/agent.report_min": 0.2232663631439209, "timer/agent.report_max": 0.2232663631439209, "fps": 4.8567690391087925}
+{"step": 969126, "episode/length": 262.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.057034220532319393}
+{"step": 969373, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06072874493927125}
+{"step": 969585, "episode/length": 211.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07075471698113207}
+{"step": 969806, "episode/length": 220.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.06334841628959276}
+{"step": 970143, "episode/length": 336.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.03857566765578635}
+{"step": 970200, "episode/length": 56.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.15789473684210525}
+{"step": 970481, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431384937183277, "train/action_min": 0.0, "train/action_std": 3.290734861348126, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03865117003285402, "train/actor_opt_grad_steps": 484325.0, "train/actor_opt_loss": -10.93023430898383, "train/adv_mag": 0.3804560404371571, "train/adv_max": 0.3213052226079477, "train/adv_mean": 0.0022872439197984735, "train/adv_min": -0.3382389829368205, "train/adv_std": 0.042813016605135555, "train/cont_avg": 0.9949324324324325, "train/cont_loss_mean": 1.4956646340655075e-05, "train/cont_loss_std": 0.00042991166070294184, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014708248060361952, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 7.966865170023102e-06, "train/cont_pred": 0.994930638654812, "train/cont_rate": 0.9949324324324325, "train/dyn_loss_mean": 5.482014340323371, "train/dyn_loss_std": 8.839262588604077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.986132259304459, "train/extr_critic_critic_opt_grad_steps": 484325.0, "train/extr_critic_critic_opt_loss": 15378.54981788429, "train/extr_critic_mag": 12.10719920493461, "train/extr_critic_max": 12.10719920493461, "train/extr_critic_mean": 3.8985565546396614, "train/extr_critic_min": -0.3401950033935341, "train/extr_critic_std": 2.928391872225581, "train/extr_return_normed_mag": 1.3665212602228731, "train/extr_return_normed_max": 1.3665212602228731, "train/extr_return_normed_mean": 0.4111551658527271, "train/extr_return_normed_min": -0.08022323809564114, "train/extr_return_normed_std": 0.3151567093021161, "train/extr_return_rate": 0.8617390305609316, "train/extr_return_raw_mag": 12.889035998163996, "train/extr_return_raw_max": 12.889035998163996, "train/extr_return_raw_mean": 3.920042073404467, "train/extr_return_raw_min": -0.6931521074997412, "train/extr_return_raw_std": 2.9588434728416235, "train/extr_reward_mag": 1.0726736042950604, "train/extr_reward_max": 1.0726736042950604, "train/extr_reward_mean": 0.06355648170653228, "train/extr_reward_min": -0.6399226075894123, "train/extr_reward_std": 0.24219793745794813, "train/image_loss_mean": 3.259704556014087, "train/image_loss_std": 8.355304589142671, "train/model_loss_mean": 6.607611739957655, "train/model_loss_std": 12.455382707956675, "train/model_opt_grad_norm": 23.17952967343265, "train/model_opt_grad_steps": 483929.0, "train/model_opt_loss": 8383.02247413429, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6566111880379752, "train/policy_entropy_max": 2.6566111880379752, "train/policy_entropy_mean": 0.3855648979141906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5839724709858766, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38603170719501134, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0147531862194474, "train/policy_randomness_mag": 0.937667167670018, "train/policy_randomness_max": 0.937667167670018, "train/policy_randomness_mean": 0.13608749059809222, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20611665740206436, "train/post_ent_mag": 55.84584720714672, "train/post_ent_max": 55.84584720714672, "train/post_ent_mean": 40.363860980884446, "train/post_ent_min": 19.729073576025062, "train/post_ent_std": 5.825334735818811, "train/prior_ent_mag": 76.78589279587204, "train/prior_ent_max": 76.78589279587204, "train/prior_ent_mean": 45.85347526137893, "train/prior_ent_min": 27.734942255793392, "train/prior_ent_std": 7.843920920346235, "train/rep_loss_mean": 5.482014340323371, "train/rep_loss_std": 8.839262588604077, "train/reward_avg": 0.04319573473185301, "train/reward_loss_mean": 0.058683604706783556, "train/reward_loss_std": 0.22029439863320943, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0259013788120166, "train/reward_neg_acc": 0.9936157867715165, "train/reward_neg_loss": 0.0249101203438398, "train/reward_pos_acc": 0.9888154815983128, "train/reward_pos_loss": 0.7306005076782124, "train/reward_pred": 0.04281955043709761, "train/reward_rate": 0.0478515625, "stats/sum_log_reward": 12.266666968663534, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.33276869108279544, "replay/size": 970418.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2567587055143763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3522803783416748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9972953796387, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.911063194274902, "timer/env.step_frac": 0.05637071885222964, "timer/env.step_avg": 0.011551272673685043, "timer/env.step_min": 0.0027637481689453125, "timer/env.step_max": 1.567889928817749, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.25878405570983887, "timer/replay.add_frac": 0.0008626212959098663, "timer/replay.add_avg": 0.000176765065375573, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.00469970703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03488492965698242, "timer/logger.write_frac": 0.00011628414720484884, "timer/logger.write_avg": 0.03488492965698242, "timer/logger.write_min": 0.03488492965698242, "timer/logger.write_max": 0.03488492965698242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.667765855789185, "timer/agent.policy_frac": 0.035559540102817956, "timer/agent.policy_avg": 0.00728672531133141, "timer/agent.policy_min": 0.005643129348754883, "timer/agent.policy_max": 0.016268253326416016, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05979347229003906, "timer/dataset_frac": 0.0001993133711901369, "timer/dataset_avg": 8.168507143447959e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.4075400829315, "timer/agent.train_frac": 0.904699956509516, "timer/agent.train_avg": 0.3707753279821469, "timer/agent.train_min": 0.3637850284576416, "timer/agent.train_max": 0.3842427730560303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230210304260254, "timer/agent.report_frac": 0.0007434101368940615, "timer/agent.report_avg": 0.2230210304260254, "timer/agent.report_min": 0.2230210304260254, "timer/agent.report_max": 0.2230210304260254, "fps": 4.879965258654923}
+{"step": 970719, "episode/length": 518.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 20.7000000923872, "episode/reward_rate": 0.030828516377649325}
+{"step": 970846, "episode/length": 126.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09448818897637795}
+{"step": 971113, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
+{"step": 971187, "episode/length": 73.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.10810810810810811}
+{"step": 971400, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07042253521126761}
+{"step": 971557, "episode/length": 156.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03821656050955414}
+{"step": 971830, "episode/length": 272.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.054945054945054944}
+{"step": 971915, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445275535046215, "train/action_min": 0.0, "train/action_std": 3.316239152156131, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037900523374408066, "train/actor_opt_grad_steps": 485050.0, "train/actor_opt_loss": -11.171455051697476, "train/adv_mag": 0.4030435578504079, "train/adv_max": 0.35020733005563975, "train/adv_mean": 0.0023024314900730656, "train/adv_min": -0.3554858300887363, "train/adv_std": 0.042764287337031165, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 4.6342127651229645e-05, "train/cont_loss_std": 0.0013207624792508335, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0023622187927101, "train/cont_pos_acc": 0.9999861272288041, "train/cont_pos_loss": 3.057789108130688e-05, "train/cont_pred": 0.9946470277410158, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.749162297853282, "train/dyn_loss_std": 8.952796976331253, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9244046144082513, "train/extr_critic_critic_opt_grad_steps": 485050.0, "train/extr_critic_critic_opt_loss": 15381.866939920774, "train/extr_critic_mag": 12.348777126258527, "train/extr_critic_max": 12.348777126258527, "train/extr_critic_mean": 3.936450867585733, "train/extr_critic_min": -0.38280181146003833, "train/extr_critic_std": 3.0046893475760874, "train/extr_return_normed_mag": 1.3782150762181886, "train/extr_return_normed_max": 1.3782150762181886, "train/extr_return_normed_mean": 0.4125290878222022, "train/extr_return_normed_min": -0.08470826299572495, "train/extr_return_normed_std": 0.32036373690820075, "train/extr_return_rate": 0.8619828786648495, "train/extr_return_raw_mag": 13.097295707380267, "train/extr_return_raw_max": 13.097295707380267, "train/extr_return_raw_mean": 3.9582503345650686, "train/extr_return_raw_min": -0.7475731750609169, "train/extr_return_raw_std": 3.031877920661174, "train/extr_reward_mag": 1.076491033527213, "train/extr_reward_max": 1.076491033527213, "train/extr_reward_mean": 0.06327935596796828, "train/extr_reward_min": -0.6380608031447504, "train/extr_reward_std": 0.24196992478740048, "train/image_loss_mean": 3.367558261038552, "train/image_loss_std": 8.421757113765663, "train/model_loss_mean": 6.876925569185069, "train/model_loss_std": 12.581340104761258, "train/model_opt_grad_norm": 23.726117228118465, "train/model_opt_grad_steps": 484654.0, "train/model_opt_loss": 13836.530239051497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2024.6478873239437, "train/policy_entropy_mag": 2.67587935085028, "train/policy_entropy_max": 2.67587935085028, "train/policy_entropy_mean": 0.3995903650639762, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6033027646407275, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002212949202094, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0291816936412328, "train/policy_randomness_mag": 0.9444679827757285, "train/policy_randomness_max": 0.9444679827757285, "train/policy_randomness_mean": 0.14103786322012754, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21293940237710174, "train/post_ent_mag": 55.77029746686909, "train/post_ent_max": 55.77029746686909, "train/post_ent_mean": 40.4379206375337, "train/post_ent_min": 19.414188492466028, "train/post_ent_std": 6.01501111581292, "train/prior_ent_mag": 76.71585158227195, "train/prior_ent_max": 76.71585158227195, "train/prior_ent_mean": 46.17127410458847, "train/prior_ent_min": 28.174691912154078, "train/prior_ent_std": 7.911959265319394, "train/rep_loss_mean": 5.749162297853282, "train/rep_loss_std": 8.952796976331253, "train/reward_avg": 0.04418326313541809, "train/reward_loss_mean": 0.05982369520294834, "train/reward_loss_std": 0.21893620994729054, "train/reward_max_data": 1.0352112760006542, "train/reward_max_pred": 1.0316388204064169, "train/reward_neg_acc": 0.9936081019925399, "train/reward_neg_loss": 0.025769600408597732, "train/reward_pos_acc": 0.9899962586416325, "train/reward_pos_loss": 0.7254360771515, "train/reward_pred": 0.043904758333949974, "train/reward_rate": 0.04886938820422535, "stats/sum_log_reward": 11.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.857142857142857, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4681091840778078, "replay/size": 971852.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.374105051804121e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.374523011211571e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3338816165924, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.930914878845215, "timer/env.step_frac": 0.06969215316694011, "timer/env.step_avg": 0.014596174950380205, "timer/env.step_min": 0.002786397933959961, "timer/env.step_max": 2.43009090423584, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.30071258544921875, "timer/replay.add_frac": 0.0010012609427567344, "timer/replay.add_avg": 0.00020970194243320693, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.005589962005615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02086186408996582, "timer/logger.write_frac": 6.946223975021963e-05, "timer/logger.write_avg": 0.02086186408996582, "timer/logger.write_min": 0.02086186408996582, "timer/logger.write_max": 0.02086186408996582, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026297569274902344, "timer/checkpoint.save_frac": 8.756111409525863e-07, "timer/checkpoint.save_avg": 0.00026297569274902344, "timer/checkpoint.save_min": 0.00026297569274902344, "timer/checkpoint.save_max": 0.00026297569274902344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.220623254776001, "timer/agent.save_frac": 0.004064220953712622, "timer/agent.save_avg": 1.220623254776001, "timer/agent.save_min": 1.220623254776001, "timer/agent.save_max": 1.220623254776001, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.500612052584448e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 11.805858373641968, "timer/agent.policy_frac": 0.03930911261192096, "timer/agent.policy_avg": 0.008232816160140842, "timer/agent.policy_min": 0.005845546722412109, "timer/agent.policy_max": 1.2095777988433838, "timer/dataset_count": 717.0, "timer/dataset_total": 0.0600278377532959, "timer/dataset_frac": 0.0001998703490601427, "timer/dataset_avg": 8.372083368660516e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0003275871276855469, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.56157517433167, "timer/agent.train_frac": 0.8875507942677788, "timer/agent.train_avg": 0.371773466072987, "timer/agent.train_min": 0.36418771743774414, "timer/agent.train_max": 0.8450520038604736, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.216963529586792, "timer/agent.report_frac": 0.0007224077697093417, "timer/agent.report_avg": 0.216963529586792, "timer/agent.report_min": 0.216963529586792, "timer/agent.report_max": 0.216963529586792, "fps": 4.774585416073022}
+{"step": 971984, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07142857142857142}
+{"step": 972190, "episode/length": 205.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07281553398058252}
+{"step": 972328, "episode/length": 137.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.09420289855072464}
+{"step": 972781, "episode/length": 452.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 9.500000029802322, "episode/reward_rate": 0.01545253863134658}
+{"step": 973044, "episode/length": 262.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.053231939163498096}
+{"step": 973287, "episode/length": 242.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06172839506172839}
+{"step": 973377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.318508200449486, "train/action_min": 0.0, "train/action_std": 3.133621255012408, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039572785366071415, "train/actor_opt_grad_steps": 485770.0, "train/actor_opt_loss": -11.311557840198686, "train/adv_mag": 0.43132601413008287, "train/adv_max": 0.3562880958596321, "train/adv_mean": 0.0022956805353789777, "train/adv_min": -0.3825945349997037, "train/adv_std": 0.044110782648602576, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 2.8613143668168696e-05, "train/cont_loss_std": 0.0007285599019817473, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002627587633432777, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.4100405895090896e-05, "train/cont_pred": 0.995223099238252, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.537144295156819, "train/dyn_loss_std": 8.82752656283444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9504635832081102, "train/extr_critic_critic_opt_grad_steps": 485770.0, "train/extr_critic_critic_opt_loss": 15519.578352418665, "train/extr_critic_mag": 12.37775939784638, "train/extr_critic_max": 12.37775939784638, "train/extr_critic_mean": 4.029811316973542, "train/extr_critic_min": -0.3753622770309448, "train/extr_critic_std": 2.9497507239041263, "train/extr_return_normed_mag": 1.3665422887018281, "train/extr_return_normed_max": 1.3665422887018281, "train/extr_return_normed_mean": 0.4166385478352847, "train/extr_return_normed_min": -0.08724915741445267, "train/extr_return_normed_std": 0.3125580855428356, "train/extr_return_rate": 0.8716110636110175, "train/extr_return_raw_mag": 13.105365727045765, "train/extr_return_raw_max": 13.105365727045765, "train/extr_return_raw_mean": 4.0516905751946855, "train/extr_return_raw_min": -0.7502182856814502, "train/extr_return_raw_std": 2.978704184701998, "train/extr_reward_mag": 1.0766881198099214, "train/extr_reward_max": 1.0766881198099214, "train/extr_reward_mean": 0.062739492483335, "train/extr_reward_min": -0.6169171333312988, "train/extr_reward_std": 0.24086344731997136, "train/image_loss_mean": 3.1348760470952075, "train/image_loss_std": 8.184657652084141, "train/model_loss_mean": 6.515050705165079, "train/model_loss_std": 12.356198010379321, "train/model_opt_grad_norm": 22.26760537657019, "train/model_opt_grad_steps": 485373.80821917806, "train/model_opt_loss": 17007.15829676798, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.686082771379654, "train/policy_entropy_max": 2.686082771379654, "train/policy_entropy_mean": 0.3522074475680312, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5439217662158078, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35203188453635126, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9864641836244766, "train/policy_randomness_mag": 0.9480693438281752, "train/policy_randomness_max": 0.9480693438281752, "train/policy_randomness_mean": 0.12431377264326565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19198051431815918, "train/post_ent_mag": 55.597254034591046, "train/post_ent_max": 55.597254034591046, "train/post_ent_mean": 40.3744581562199, "train/post_ent_min": 19.565516328158445, "train/post_ent_std": 5.859563422529665, "train/prior_ent_mag": 76.81564278798561, "train/prior_ent_max": 76.81564278798561, "train/prior_ent_mean": 45.9468050917534, "train/prior_ent_min": 27.788261073909393, "train/prior_ent_std": 7.834945149617653, "train/rep_loss_mean": 5.537144295156819, "train/rep_loss_std": 8.82752656283444, "train/reward_avg": 0.042636986081934954, "train/reward_loss_mean": 0.05785951554162862, "train/reward_loss_std": 0.21427997028174467, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0318978649296173, "train/reward_neg_acc": 0.9921704791996577, "train/reward_neg_loss": 0.025140808065970466, "train/reward_pos_acc": 0.9903794380083476, "train/reward_pos_loss": 0.720764352850718, "train/reward_pred": 0.04254347177809232, "train/reward_rate": 0.0469017551369863, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4175179402033488, "replay/size": 973314.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.271324689998183e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3358248894583185e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10327410697937, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.891444206237793, "timer/env.step_frac": 0.05628543792633336, "timer/env.step_avg": 0.011553655407823387, "timer/env.step_min": 0.0026504993438720703, "timer/env.step_max": 1.580491065979004, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2600224018096924, "timer/replay.add_frac": 0.0008664430689183379, "timer/replay.add_avg": 0.00017785390000662953, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.00413203239440918, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029496431350708008, "timer/logger.write_frac": 9.828760262106724e-05, "timer/logger.write_avg": 0.029496431350708008, "timer/logger.write_min": 0.029496431350708008, "timer/logger.write_max": 0.029496431350708008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.770637035369873, "timer/agent.policy_frac": 0.03588976850525932, "timer/agent.policy_avg": 0.007367056795738627, "timer/agent.policy_min": 0.005855083465576172, "timer/agent.policy_max": 0.01882338523864746, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06017923355102539, "timer/dataset_frac": 0.0002005284138605332, "timer/dataset_avg": 8.232453290153953e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.4257724285126, "timer/agent.train_frac": 0.9044412235627793, "timer/agent.train_avg": 0.3713074862223154, "timer/agent.train_min": 0.36476826667785645, "timer/agent.train_max": 0.38646960258483887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202463150024414, "timer/agent.report_frac": 0.0007339017398521586, "timer/agent.report_avg": 0.2202463150024414, "timer/agent.report_min": 0.2202463150024414, "timer/agent.report_max": 0.2202463150024414, "fps": 4.871583337478341}
+{"step": 973489, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07425742574257425}
+{"step": 973664, "episode/length": 174.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.08}
+{"step": 973906, "episode/length": 241.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.045454545454545456}
+{"step": 974140, "episode/length": 233.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.05982905982905983}
+{"step": 974351, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.061611374407582936}
+{"step": 974551, "episode/length": 199.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06}
+{"step": 974835, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44361354880137, "train/action_min": 0.0, "train/action_std": 3.3006631086950433, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038202338890261846, "train/actor_opt_grad_steps": 486500.0, "train/actor_opt_loss": -12.025470233943365, "train/adv_mag": 0.38370288479818054, "train/adv_max": 0.33767738407605313, "train/adv_mean": 0.0017295546729232452, "train/adv_min": -0.3341878679108946, "train/adv_std": 0.042599525302648544, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 4.293336068747222e-05, "train/cont_loss_std": 0.001301852865091785, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001183144693021982, "train/cont_pos_acc": 0.9999864836261697, "train/cont_pos_loss": 3.7283661692857105e-05, "train/cont_pred": 0.9948624609267875, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.476746526482987, "train/dyn_loss_std": 8.877034866646545, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9558345855098881, "train/extr_critic_critic_opt_grad_steps": 486500.0, "train/extr_critic_critic_opt_loss": 15354.070687071919, "train/extr_critic_mag": 12.352157436005056, "train/extr_critic_max": 12.352157436005056, "train/extr_critic_mean": 4.010177795201132, "train/extr_critic_min": -0.3886239642966284, "train/extr_critic_std": 3.018289477857825, "train/extr_return_normed_mag": 1.3699323216529742, "train/extr_return_normed_max": 1.3699323216529742, "train/extr_return_normed_mean": 0.4149030026507704, "train/extr_return_normed_min": -0.08449833595181165, "train/extr_return_normed_std": 0.3198735967074355, "train/extr_return_rate": 0.8676905395233467, "train/extr_return_raw_mag": 13.125269981279764, "train/extr_return_raw_max": 13.125269981279764, "train/extr_return_raw_mean": 4.026633435732697, "train/extr_return_raw_min": -0.7302988634942329, "train/extr_return_raw_std": 3.047630894674014, "train/extr_reward_mag": 1.072175339476703, "train/extr_reward_max": 1.072175339476703, "train/extr_reward_mean": 0.0628649612301833, "train/extr_reward_min": -0.6417139425669631, "train/extr_reward_std": 0.2410687753190733, "train/image_loss_mean": 3.256355053757968, "train/image_loss_std": 8.400191698988824, "train/model_loss_mean": 6.600641675191383, "train/model_loss_std": 12.553485138775551, "train/model_opt_grad_norm": 21.107247705328955, "train/model_opt_grad_steps": 486103.0, "train/model_opt_loss": 16501.604184503423, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6906314092139674, "train/policy_entropy_max": 2.6906314092139674, "train/policy_entropy_mean": 0.3845440582053302, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5860431741361749, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3864323182465279, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0230297830006847, "train/policy_randomness_mag": 0.949674810448738, "train/policy_randomness_max": 0.949674810448738, "train/policy_randomness_mean": 0.13572717825435612, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2068475221526133, "train/post_ent_mag": 55.540816424644156, "train/post_ent_max": 55.540816424644156, "train/post_ent_mean": 40.479865400758506, "train/post_ent_min": 19.43823069742281, "train/post_ent_std": 5.831610947439115, "train/prior_ent_mag": 76.66971755354372, "train/prior_ent_max": 76.66971755354372, "train/prior_ent_mean": 45.97360062272581, "train/prior_ent_min": 28.063531274664893, "train/prior_ent_std": 7.816925297044728, "train/rep_loss_mean": 5.476746526482987, "train/rep_loss_std": 8.877034866646545, "train/reward_avg": 0.043325931012426336, "train/reward_loss_mean": 0.05819580627426709, "train/reward_loss_std": 0.21328521428042896, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0259060794360018, "train/reward_neg_acc": 0.9932123479777819, "train/reward_neg_loss": 0.025001512546959804, "train/reward_pos_acc": 0.9886896887870684, "train/reward_pos_loss": 0.7199635293385754, "train/reward_pred": 0.0430571913004738, "train/reward_rate": 0.0478515625, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 15.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.30761875957250595, "replay/size": 974772.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.2670540410631807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.299324022562579e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08379888534546, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.741977214813232, "timer/env.step_frac": 0.05912340913010102, "timer/env.step_avg": 0.012168708652135277, "timer/env.step_min": 0.002852201461791992, "timer/env.step_max": 1.6610567569732666, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.27497363090515137, "timer/replay.add_frac": 0.0009163228135825218, "timer/replay.add_avg": 0.00018859645466745635, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.010778188705444336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027750253677368164, "timer/logger.write_frac": 9.247501458074664e-05, "timer/logger.write_avg": 0.027750253677368164, "timer/logger.write_min": 0.027750253677368164, "timer/logger.write_max": 0.027750253677368164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.625498294830322, "timer/agent.policy_frac": 0.035408437024252885, "timer/agent.policy_avg": 0.007287721738566751, "timer/agent.policy_min": 0.0058100223541259766, "timer/agent.policy_max": 0.014174938201904297, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05868959426879883, "timer/dataset_frac": 0.00019557735034946908, "timer/dataset_avg": 8.050698802304366e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00012922286987304688, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.6981143951416, "timer/agent.train_frac": 0.9020750716987844, "timer/agent.train_avg": 0.37132800328551663, "timer/agent.train_min": 0.36501288414001465, "timer/agent.train_max": 0.3867769241333008, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201249599456787, "timer/agent.report_frac": 0.000733544965650688, "timer/agent.report_avg": 0.2201249599456787, "timer/agent.report_min": 0.2201249599456787, "timer/agent.report_max": 0.2201249599456787, "fps": 4.858551174000333}
+{"step": 974850, "episode/length": 298.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05351170568561873}
+{"step": 975072, "episode/length": 221.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07207207207207207}
+{"step": 975149, "episode/length": 76.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.12987012987012986}
+{"step": 975435, "episode/length": 285.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.03496503496503497}
+{"step": 975639, "episode/length": 203.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07352941176470588}
+{"step": 975820, "episode/length": 180.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07734806629834254}
+{"step": 976108, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04861111111111111}
+{"step": 976265, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429947747124566, "train/action_min": 0.0, "train/action_std": 3.319657176733017, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03802189484445585, "train/actor_opt_grad_steps": 487225.0, "train/actor_opt_loss": -12.874010990063349, "train/adv_mag": 0.3942891791876819, "train/adv_max": 0.3263917157633437, "train/adv_mean": 0.0015237650386931516, "train/adv_min": -0.3542013077272309, "train/adv_std": 0.042951611801981926, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 2.6964642060928805e-05, "train/cont_loss_std": 0.0007831896985379672, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015275684052266708, "train/cont_pos_acc": 0.9999863430857658, "train/cont_pos_loss": 2.1025552721296333e-05, "train/cont_pred": 0.9950791887111134, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.407335274749332, "train/dyn_loss_std": 8.795988553100162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9109138184123569, "train/extr_critic_critic_opt_grad_steps": 487225.0, "train/extr_critic_critic_opt_loss": 15335.623494466146, "train/extr_critic_mag": 12.555665214856466, "train/extr_critic_max": 12.555665214856466, "train/extr_critic_mean": 4.099011811945173, "train/extr_critic_min": -0.3666704098383586, "train/extr_critic_std": 2.994955745008257, "train/extr_return_normed_mag": 1.3748948756191466, "train/extr_return_normed_max": 1.3748948756191466, "train/extr_return_normed_mean": 0.42167801451351905, "train/extr_return_normed_min": -0.07948826677683327, "train/extr_return_normed_std": 0.31409141918023425, "train/extr_return_rate": 0.8793168142437935, "train/extr_return_raw_mag": 13.279141770468819, "train/extr_return_raw_max": 13.279141770468819, "train/extr_return_raw_mean": 4.113664564159182, "train/extr_return_raw_min": -0.7065662845141358, "train/extr_return_raw_std": 3.020887600051032, "train/extr_reward_mag": 1.0683446029822032, "train/extr_reward_max": 1.0683446029822032, "train/extr_reward_mean": 0.06506826030090451, "train/extr_reward_min": -0.6038256469700072, "train/extr_reward_std": 0.2448753085401323, "train/image_loss_mean": 3.0581095847818585, "train/image_loss_std": 8.06920161512163, "train/model_loss_mean": 6.360631240738763, "train/model_loss_std": 12.205537584092882, "train/model_opt_grad_norm": 21.50219950411055, "train/model_opt_grad_steps": 486827.19444444444, "train/model_opt_loss": 16104.320041232639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6938615838686624, "train/policy_entropy_max": 2.6938615838686624, "train/policy_entropy_mean": 0.3876176697926389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5979391067392297, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3890706422842211, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0219071432948112, "train/policy_randomness_mag": 0.9508149201671282, "train/policy_randomness_max": 0.9508149201671282, "train/policy_randomness_mean": 0.13681202775074375, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21104626854260763, "train/post_ent_mag": 55.879927476247154, "train/post_ent_max": 55.879927476247154, "train/post_ent_mean": 40.380071534050835, "train/post_ent_min": 19.310883230633205, "train/post_ent_std": 5.80710866716173, "train/prior_ent_mag": 76.5979093975491, "train/prior_ent_max": 76.5979093975491, "train/prior_ent_mean": 45.78673134909736, "train/prior_ent_min": 27.697367853588528, "train/prior_ent_std": 7.778360810544756, "train/rep_loss_mean": 5.407335274749332, "train/rep_loss_std": 8.795988553100162, "train/reward_avg": 0.045768229032142296, "train/reward_loss_mean": 0.05809358031385475, "train/reward_loss_std": 0.21490544184214538, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0251886116133795, "train/reward_neg_acc": 0.993694759077496, "train/reward_neg_loss": 0.02334712447029435, "train/reward_pos_acc": 0.9896827240784963, "train/reward_pos_loss": 0.7215723221500715, "train/reward_pred": 0.045525297574285, "train/reward_rate": 0.04995388454861111, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4787912837096623, "replay/size": 976202.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4072182395241478e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.326140823897782e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35298371315, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.644092321395874, "timer/env.step_frac": 0.06873276924430978, "timer/env.step_avg": 0.014436428196780331, "timer/env.step_min": 0.0028285980224609375, "timer/env.step_max": 1.8186767101287842, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2756202220916748, "timer/replay.add_frac": 0.0009176543501725421, "timer/replay.add_avg": 0.00019274141405012225, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0019507408142089844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022195816040039062, "timer/logger.write_frac": 7.389910286770122e-05, "timer/logger.write_avg": 0.022195816040039062, "timer/logger.write_min": 0.022195816040039062, "timer/logger.write_max": 0.022195816040039062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018906593322753906, "timer/checkpoint.save_frac": 6.2947912449608e-07, "timer/checkpoint.save_avg": 0.00018906593322753906, "timer/checkpoint.save_min": 0.00018906593322753906, "timer/checkpoint.save_max": 0.00018906593322753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1876208782196045, "timer/agent.save_frac": 0.0039540838367493406, "timer/agent.save_avg": 1.1876208782196045, "timer/agent.save_min": 1.1876208782196045, "timer/agent.save_max": 1.1876208782196045, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.651878356933594e-05, "timer/replay.save_frac": 2.2146869575587178e-07, "timer/replay.save_avg": 6.651878356933594e-05, "timer/replay.save_min": 6.651878356933594e-05, "timer/replay.save_max": 6.651878356933594e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.439541578292847, "timer/agent.policy_frac": 0.04141640753658416, "timer/agent.policy_avg": 0.008698980124680313, "timer/agent.policy_min": 0.005742549896240234, "timer/agent.policy_max": 1.1823203563690186, "timer/dataset_count": 715.0, "timer/dataset_total": 0.058626413345336914, "timer/dataset_frac": 0.00019519171283255055, "timer/dataset_avg": 8.199498369977191e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.24822473526, "timer/agent.train_frac": 0.8864510731464499, "timer/agent.train_avg": 0.37237513948987416, "timer/agent.train_min": 0.3633553981781006, "timer/agent.train_max": 0.827692985534668, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2213575839996338, "timer/agent.report_frac": 0.0007369914600583418, "timer/agent.report_avg": 0.2213575839996338, "timer/agent.report_min": 0.2213575839996338, "timer/agent.report_max": 0.2213575839996338, "fps": 4.760952654902595}
+{"step": 976325, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06912442396313365}
+{"step": 976487, "episode/length": 161.0, "episode/score": 6.099999964237213, "episode/sum_abs_reward": 7.699999988079071, "episode/reward_rate": 0.043209876543209874}
+{"step": 976711, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0625}
+{"step": 976988, "episode/length": 276.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.036101083032490974}
+{"step": 977183, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06153846153846154}
+{"step": 977421, "episode/length": 237.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000064074993, "episode/reward_rate": 0.058823529411764705}
+{"step": 977670, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
+{"step": 977719, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395997765946062, "train/action_min": 0.0, "train/action_std": 3.2687664881144483, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038340180372334505, "train/actor_opt_grad_steps": 487950.0, "train/actor_opt_loss": -11.67654613436085, "train/adv_mag": 0.41008067580118573, "train/adv_max": 0.34964553685220956, "train/adv_mean": 0.0017799481924506437, "train/adv_min": -0.3611409098726429, "train/adv_std": 0.04295737995472673, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.383514617206576e-05, "train/cont_loss_std": 0.001286293769768136, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0031980440997388506, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.3367309401150223e-05, "train/cont_pred": 0.9944817954546785, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.450280496518906, "train/dyn_loss_std": 8.866291268231118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9432716116513291, "train/extr_critic_critic_opt_grad_steps": 487950.0, "train/extr_critic_critic_opt_loss": 15438.370692422945, "train/extr_critic_mag": 12.32332834478927, "train/extr_critic_max": 12.32332834478927, "train/extr_critic_mean": 3.9637585829382074, "train/extr_critic_min": -0.35095224805074193, "train/extr_critic_std": 3.013333637420445, "train/extr_return_normed_mag": 1.3654989706326837, "train/extr_return_normed_max": 1.3654989706326837, "train/extr_return_normed_mean": 0.41102059695818655, "train/extr_return_normed_min": -0.08019000654147096, "train/extr_return_normed_std": 0.31833035754014366, "train/extr_return_rate": 0.8664491054129927, "train/extr_return_raw_mag": 13.08132447281929, "train/extr_return_raw_max": 13.08132447281929, "train/extr_return_raw_mean": 3.980730465013687, "train/extr_return_raw_min": -0.7035471066220166, "train/extr_return_raw_std": 3.0354935339052385, "train/extr_reward_mag": 1.078339067223954, "train/extr_reward_max": 1.078339067223954, "train/extr_reward_mean": 0.062054044324649525, "train/extr_reward_min": -0.6285384550486526, "train/extr_reward_std": 0.23987176687750097, "train/image_loss_mean": 3.135878131814199, "train/image_loss_std": 7.690009143254528, "train/model_loss_mean": 6.46516790128734, "train/model_loss_std": 11.877039648082159, "train/model_opt_grad_norm": 23.421038052807116, "train/model_opt_grad_steps": 487551.65753424657, "train/model_opt_loss": 17447.49850171233, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.699408772873552, "train/policy_entropy_max": 2.699408772873552, "train/policy_entropy_mean": 0.3984164526201274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6064615976320554, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4000057245362295, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0317079669808689, "train/policy_randomness_mag": 0.9527728369791214, "train/policy_randomness_max": 0.9527728369791214, "train/policy_randomness_mean": 0.14062352458091631, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21405432955042958, "train/post_ent_mag": 55.60106021410798, "train/post_ent_max": 55.60106021410798, "train/post_ent_mean": 40.35021497125495, "train/post_ent_min": 19.564079781101174, "train/post_ent_std": 5.845578507201313, "train/prior_ent_mag": 76.67296861622431, "train/prior_ent_max": 76.67296861622431, "train/prior_ent_mean": 45.78720056194149, "train/prior_ent_min": 28.017712135837503, "train/prior_ent_std": 7.862313910706402, "train/rep_loss_mean": 5.450280496518906, "train/rep_loss_std": 8.866291268231118, "train/reward_avg": 0.04308914791231286, "train/reward_loss_mean": 0.05907763535641644, "train/reward_loss_std": 0.22021678232983366, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0294219826998776, "train/reward_neg_acc": 0.993524773480141, "train/reward_neg_loss": 0.025479461819137614, "train/reward_pos_acc": 0.9896674025548647, "train/reward_pos_loss": 0.7303523543762834, "train/reward_pred": 0.042667586662589685, "train/reward_rate": 0.04783818493150685, "stats/sum_log_reward": 11.385714599064418, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4285714285714284, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4462939330509731, "replay/size": 977656.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.388856103364506e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3028985040551858e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.358900308609, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.67665457725525, "timer/env.step_frac": 0.06218112584000538, "timer/env.step_avg": 0.012845016903201684, "timer/env.step_min": 0.002618074417114258, "timer/env.step_max": 1.6185722351074219, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2522132396697998, "timer/replay.add_frac": 0.0008397062294829915, "timer/replay.add_avg": 0.0001734616503918843, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0027811527252197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021468400955200195, "timer/logger.write_frac": 7.147582752880674e-05, "timer/logger.write_avg": 0.021468400955200195, "timer/logger.write_min": 0.021468400955200195, "timer/logger.write_max": 0.021468400955200195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.572420597076416, "timer/agent.policy_frac": 0.03519929186787406, "timer/agent.policy_avg": 0.007271265885196985, "timer/agent.policy_min": 0.005724191665649414, "timer/agent.policy_max": 0.014867782592773438, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05823087692260742, "timer/dataset_frac": 0.00019387098854995504, "timer/dataset_avg": 8.009749232820829e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.10740518569946, "timer/agent.train_frac": 0.8992821751184096, "timer/agent.train_avg": 0.37153700850852744, "timer/agent.train_min": 0.3648183345794678, "timer/agent.train_max": 0.38434529304504395, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2232978343963623, "timer/agent.report_frac": 0.0007434367157654761, "timer/agent.report_avg": 0.2232978343963623, "timer/agent.report_min": 0.2232978343963623, "timer/agent.report_max": 0.2232978343963623, "fps": 4.8407708066484005}
+{"step": 977904, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.0641025641025641}
+{"step": 978287, "episode/length": 382.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.300000056624413, "episode/reward_rate": 0.044386422976501305}
+{"step": 978534, "episode/length": 246.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.06072874493927125}
+{"step": 978744, "episode/length": 209.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.07142857142857142}
+{"step": 979134, "episode/length": 389.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.041025641025641026}
+{"step": 979183, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379271624839469, "train/action_min": 0.0, "train/action_std": 3.2482180203476996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03908458579178542, "train/actor_opt_grad_steps": 488680.0, "train/actor_opt_loss": -11.135128354373043, "train/adv_mag": 0.41152926871221357, "train/adv_max": 0.3486586909179818, "train/adv_mean": 0.002279076730128384, "train/adv_min": -0.3619553067096292, "train/adv_std": 0.044352219223159635, "train/cont_avg": 0.9952777183219178, "train/cont_loss_mean": 3.3529764456985714e-05, "train/cont_loss_std": 0.0010307665267061585, "train/cont_neg_acc": 0.9953033279066217, "train/cont_neg_loss": 0.004561504448593653, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 6.744664240930072e-06, "train/cont_pred": 0.9952888872525464, "train/cont_rate": 0.9952777183219178, "train/dyn_loss_mean": 5.506595461335901, "train/dyn_loss_std": 8.82535827323182, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9553868893074663, "train/extr_critic_critic_opt_grad_steps": 488680.0, "train/extr_critic_critic_opt_loss": 15412.858692744006, "train/extr_critic_mag": 12.220538087087135, "train/extr_critic_max": 12.220538087087135, "train/extr_critic_mean": 3.971430050183649, "train/extr_critic_min": -0.36019578861863644, "train/extr_critic_std": 2.8947366623029316, "train/extr_return_normed_mag": 1.3773201393754515, "train/extr_return_normed_max": 1.3773201393754515, "train/extr_return_normed_mean": 0.41682349655726186, "train/extr_return_normed_min": -0.0803811745590543, "train/extr_return_normed_std": 0.31123504185513273, "train/extr_return_rate": 0.8877470852577523, "train/extr_return_raw_mag": 13.007102313107007, "train/extr_return_raw_max": 13.007102313107007, "train/extr_return_raw_mean": 3.9928141260800296, "train/extr_return_raw_min": -0.6742455065250397, "train/extr_return_raw_std": 2.9214209595771683, "train/extr_reward_mag": 1.0747362979470867, "train/extr_reward_max": 1.0747362979470867, "train/extr_reward_mean": 0.0641746608770057, "train/extr_reward_min": -0.5922265395726243, "train/extr_reward_std": 0.24308489895846747, "train/image_loss_mean": 3.2566056953717584, "train/image_loss_std": 8.420815095509568, "train/model_loss_mean": 6.617513917896845, "train/model_loss_std": 12.529673275882251, "train/model_opt_grad_norm": 20.646040929506903, "train/model_opt_grad_steps": 488281.0, "train/model_opt_loss": 16543.784754922945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.697920613092919, "train/policy_entropy_max": 2.697920613092919, "train/policy_entropy_mean": 0.38314742135674984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864553022874545, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38233734361112937, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.012916864597634, "train/policy_randomness_mag": 0.952247581253313, "train/policy_randomness_max": 0.952247581253313, "train/policy_randomness_mean": 0.13523422742951408, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20699298545105815, "train/post_ent_mag": 55.27693824245505, "train/post_ent_max": 55.27693824245505, "train/post_ent_mean": 40.40291386434477, "train/post_ent_min": 19.702926897022824, "train/post_ent_std": 5.738914424425935, "train/prior_ent_mag": 76.86305121852926, "train/prior_ent_max": 76.86305121852926, "train/prior_ent_mean": 45.92692963064533, "train/prior_ent_min": 28.22144210501893, "train/prior_ent_std": 7.744459668250933, "train/rep_loss_mean": 5.506595461335901, "train/rep_loss_std": 8.82535827323182, "train/reward_avg": 0.0439653783169103, "train/reward_loss_mean": 0.056917449076698254, "train/reward_loss_std": 0.20940561755879283, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.028036264524068, "train/reward_neg_acc": 0.9935756080771145, "train/reward_neg_loss": 0.0235092826889292, "train/reward_pos_acc": 0.992823940433868, "train/reward_pos_loss": 0.7178852231535193, "train/reward_pred": 0.04369384410140449, "train/reward_rate": 0.048199379280821915, "stats/sum_log_reward": 14.500000190734863, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 22.2, "stats/max_log_achievement_collect_wood": 17.2, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5111314356327057, "replay/size": 979120.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.320434705807212e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3382545585840778e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1301152706146, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.471538543701172, "timer/env.step_frac": 0.05488132548394713, "timer/env.step_avg": 0.01125105091782867, "timer/env.step_min": 0.0029366016387939453, "timer/env.step_max": 1.6269774436950684, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26770997047424316, "timer/replay.add_frac": 0.0008919797009802246, "timer/replay.add_avg": 0.0001828620016900568, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0042645931243896484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02307891845703125, "timer/logger.write_frac": 7.689637688048054e-05, "timer/logger.write_avg": 0.02307891845703125, "timer/logger.write_min": 0.02307891845703125, "timer/logger.write_max": 0.02307891845703125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.856688976287842, "timer/agent.policy_frac": 0.03617327426972407, "timer/agent.policy_avg": 0.007415771158666559, "timer/agent.policy_min": 0.005857944488525391, "timer/agent.policy_max": 0.014835357666015625, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05910325050354004, "timer/dataset_frac": 0.00019692542499525294, "timer/dataset_avg": 8.07421454966394e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014257431030273438, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.7916383743286, "timer/agent.train_frac": 0.9055793622351612, "timer/agent.train_avg": 0.3713000524239462, "timer/agent.train_min": 0.36449217796325684, "timer/agent.train_max": 0.385359525680542, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194688320159912, "timer/agent.report_frac": 0.0007312456193144945, "timer/agent.report_avg": 0.2194688320159912, "timer/agent.report_min": 0.2194688320159912, "timer/agent.report_max": 0.2194688320159912, "fps": 4.877788644111757}
+{"step": 979380, "episode/length": 245.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.052845528455284556}
+{"step": 979557, "episode/length": 176.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07344632768361582}
+{"step": 979743, "episode/length": 185.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.08602150537634409}
+{"step": 979966, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06726457399103139}
+{"step": 980165, "episode/length": 198.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.07035175879396985}
+{"step": 980408, "episode/length": 242.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06172839506172839}
+{"step": 980448, "episode/length": 39.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.075}
+{"step": 980615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400205800231074, "train/action_min": 0.0, "train/action_std": 3.2944657164560236, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03938706082777238, "train/actor_opt_grad_steps": 489400.0, "train/actor_opt_loss": -10.488432509798399, "train/adv_mag": 0.44105412380796083, "train/adv_max": 0.369358220570524, "train/adv_mean": 0.002608241912319397, "train/adv_min": -0.38656105478884467, "train/adv_std": 0.044456072728818574, "train/cont_avg": 0.9947458186619719, "train/cont_loss_mean": 0.00013219165276963471, "train/cont_loss_std": 0.004171074424870229, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.020541444465848914, "train/cont_pos_acc": 0.9999861633273918, "train/cont_pos_loss": 2.960296846295327e-05, "train/cont_pred": 0.9947515734484498, "train/cont_rate": 0.9947458186619719, "train/dyn_loss_mean": 5.624087152346759, "train/dyn_loss_std": 8.92636934468444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9602059092320187, "train/extr_critic_critic_opt_grad_steps": 489400.0, "train/extr_critic_critic_opt_loss": 15485.099746919013, "train/extr_critic_mag": 12.324677453914159, "train/extr_critic_max": 12.324677453914159, "train/extr_critic_mean": 4.07930382876329, "train/extr_critic_min": -0.3443845510482788, "train/extr_critic_std": 2.990888894443781, "train/extr_return_normed_mag": 1.3726604454953906, "train/extr_return_normed_max": 1.3726604454953906, "train/extr_return_normed_mean": 0.4236598144954359, "train/extr_return_normed_min": -0.08128483430810378, "train/extr_return_normed_std": 0.318037726509739, "train/extr_return_rate": 0.8756831817223992, "train/extr_return_raw_mag": 13.114930757334534, "train/extr_return_raw_max": 13.114930757334534, "train/extr_return_raw_mean": 4.1040764895963, "train/extr_return_raw_min": -0.6899799251220595, "train/extr_return_raw_std": 3.0196650934890963, "train/extr_reward_mag": 1.0699481796210921, "train/extr_reward_max": 1.0699481796210921, "train/extr_reward_mean": 0.0654693318819496, "train/extr_reward_min": -0.6149641728736985, "train/extr_reward_std": 0.24543433374082538, "train/image_loss_mean": 3.2783489714206104, "train/image_loss_std": 8.317999470401817, "train/model_loss_mean": 6.711122170300551, "train/model_loss_std": 12.494130107718455, "train/model_opt_grad_norm": 24.190700665326187, "train/model_opt_grad_steps": 489000.0281690141, "train/model_opt_loss": 16777.805320202464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.671140667418359, "train/policy_entropy_max": 2.671140667418359, "train/policy_entropy_mean": 0.3718156399021686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5694798205939817, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3721266103462434, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0060006976127625, "train/policy_randomness_mag": 0.9427954361472332, "train/policy_randomness_max": 0.9427954361472332, "train/policy_randomness_mean": 0.13123460166471104, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20100138262963632, "train/post_ent_mag": 55.680568909980884, "train/post_ent_max": 55.680568909980884, "train/post_ent_mean": 40.20117235855317, "train/post_ent_min": 19.916801022811676, "train/post_ent_std": 5.7351303772187565, "train/prior_ent_mag": 76.75983955490757, "train/prior_ent_max": 76.75983955490757, "train/prior_ent_mean": 45.79022523047219, "train/prior_ent_min": 27.670664182851013, "train/prior_ent_std": 7.896998868861669, "train/rep_loss_mean": 5.624087152346759, "train/rep_loss_std": 8.92636934468444, "train/reward_avg": 0.04412136817167343, "train/reward_loss_mean": 0.05818871193578545, "train/reward_loss_std": 0.21667065901655547, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0227306527151188, "train/reward_neg_acc": 0.9937239902120241, "train/reward_neg_loss": 0.023993364469686026, "train/reward_pos_acc": 0.9897902901743499, "train/reward_pos_loss": 0.728087132245722, "train/reward_pred": 0.04365742117376395, "train/reward_rate": 0.04864931778169014, "stats/sum_log_reward": 11.671428901808602, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.310232404087271, "replay/size": 980552.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3516790613781805e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2879098593855703e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23807883262634, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.817672967910767, "timer/env.step_frac": 0.06933721748038492, "timer/env.step_avg": 0.014537481122842715, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 2.3062174320220947, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2603335380554199, "timer/replay.add_frac": 0.0008670903406644432, "timer/replay.add_avg": 0.0001817971634465223, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004674434661865234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024257659912109375, "timer/logger.write_frac": 8.079474797609629e-05, "timer/logger.write_avg": 0.024257659912109375, "timer/logger.write_min": 0.024257659912109375, "timer/logger.write_max": 0.024257659912109375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004353523254394531, "timer/checkpoint.save_frac": 1.4500236849775104e-06, "timer/checkpoint.save_avg": 0.0004353523254394531, "timer/checkpoint.save_min": 0.0004353523254394531, "timer/checkpoint.save_max": 0.0004353523254394531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.446669340133667, "timer/agent.save_frac": 0.00481840726452337, "timer/agent.save_avg": 1.446669340133667, "timer/agent.save_min": 1.446669340133667, "timer/agent.save_max": 1.446669340133667, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010371208190917969, "timer/replay.save_frac": 3.4543280556693154e-07, "timer/replay.save_avg": 0.00010371208190917969, "timer/replay.save_min": 0.00010371208190917969, "timer/replay.save_max": 0.00010371208190917969, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.184180736541748, "timer/agent.policy_frac": 0.04058173028523161, "timer/agent.policy_avg": 0.008508506100936975, "timer/agent.policy_min": 0.005769014358520508, "timer/agent.policy_max": 1.079944133758545, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058284759521484375, "timer/dataset_frac": 0.00019412847213819392, "timer/dataset_avg": 8.140329542106757e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.23988699913025, "timer/agent.train_frac": 0.8867625586811423, "timer/agent.train_avg": 0.37184341759655065, "timer/agent.train_min": 0.3653695583343506, "timer/agent.train_max": 0.6007580757141113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21781516075134277, "timer/agent.report_frac": 0.0007254748018580553, "timer/agent.report_avg": 0.21781516075134277, "timer/agent.report_min": 0.21781516075134277, "timer/agent.report_max": 0.21781516075134277, "fps": 4.769469312199413}
+{"step": 980622, "episode/length": 173.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.08045977011494253}
+{"step": 980859, "episode/length": 236.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06751054852320675}
+{"step": 981063, "episode/length": 203.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.049019607843137254}
+{"step": 981277, "episode/length": 213.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.07009345794392523}
+{"step": 981466, "episode/length": 188.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 981624, "episode/length": 157.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.08860759493670886}
+{"step": 981855, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05627705627705628}
+{"step": 982069, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406612030447346, "train/action_min": 0.0, "train/action_std": 3.292644690160882, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03924912068839759, "train/actor_opt_grad_steps": 490120.0, "train/actor_opt_loss": -10.962729424238205, "train/adv_mag": 0.4035384193675159, "train/adv_max": 0.34034804611989894, "train/adv_mean": 0.002105732940744057, "train/adv_min": -0.36158742602557353, "train/adv_std": 0.04386738927601135, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 0.00019250713521094904, "train/cont_loss_std": 0.006083864126052604, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.027995906188766326, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 2.5109976750558235e-05, "train/cont_pred": 0.9945464664942598, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.5898559322095895, "train/dyn_loss_std": 8.871569607355823, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9037834993780476, "train/extr_critic_critic_opt_grad_steps": 490120.0, "train/extr_critic_critic_opt_loss": 15446.083061322774, "train/extr_critic_mag": 12.438154899910705, "train/extr_critic_max": 12.438154899910705, "train/extr_critic_mean": 4.056540538186896, "train/extr_critic_min": -0.33910315820615583, "train/extr_critic_std": 2.993611322690363, "train/extr_return_normed_mag": 1.3613889348017025, "train/extr_return_normed_max": 1.3613889348017025, "train/extr_return_normed_mean": 0.418672162376038, "train/extr_return_normed_min": -0.07543232455237271, "train/extr_return_normed_std": 0.31610718512371794, "train/extr_return_rate": 0.8788046248971599, "train/extr_return_raw_mag": 13.086440334581349, "train/extr_return_raw_max": 13.086440334581349, "train/extr_return_raw_mean": 4.0766671912310875, "train/extr_return_raw_min": -0.6455375409289582, "train/extr_return_raw_std": 3.0211687022692537, "train/extr_reward_mag": 1.080751951426676, "train/extr_reward_max": 1.080751951426676, "train/extr_reward_mean": 0.06340909514525166, "train/extr_reward_min": -0.5792016035889926, "train/extr_reward_std": 0.24194648739409774, "train/image_loss_mean": 3.14926825320884, "train/image_loss_std": 8.1009967359778, "train/model_loss_mean": 6.563236393340646, "train/model_loss_std": 12.257082508034902, "train/model_opt_grad_norm": 24.684585767249537, "train/model_opt_grad_steps": 489719.4246575342, "train/model_opt_loss": 16408.090967465752, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.67829430919804, "train/policy_entropy_max": 2.67829430919804, "train/policy_entropy_mean": 0.3758159534980173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5748752800569142, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3748775120467356, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0034275316212276, "train/policy_randomness_mag": 0.9453203588315885, "train/policy_randomness_max": 0.9453203588315885, "train/policy_randomness_mean": 0.13264653882751726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20290574696782518, "train/post_ent_mag": 55.12278146613134, "train/post_ent_max": 55.12278146613134, "train/post_ent_mean": 40.313702047687684, "train/post_ent_min": 19.574648007954636, "train/post_ent_std": 5.79415376219031, "train/prior_ent_mag": 76.72062066483171, "train/prior_ent_max": 76.72062066483171, "train/prior_ent_mean": 45.88107843268408, "train/prior_ent_min": 27.935250791784835, "train/prior_ent_std": 7.798652910206416, "train/rep_loss_mean": 5.5898559322095895, "train/rep_loss_std": 8.871569607355823, "train/reward_avg": 0.04395200108012108, "train/reward_loss_mean": 0.059862060548916254, "train/reward_loss_std": 0.21859905021647885, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0317240953445435, "train/reward_neg_acc": 0.9938682440209062, "train/reward_neg_loss": 0.025905602037498397, "train/reward_pos_acc": 0.9912932604959567, "train/reward_pos_loss": 0.7254313099874209, "train/reward_pred": 0.043542980816062185, "train/reward_rate": 0.04868097174657534, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3835910941873278, "replay/size": 982006.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.336712287577507e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3106872815705395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2611165046692, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.67510461807251, "timer/env.step_frac": 0.062196213867012996, "timer/env.step_avg": 0.012843950906514794, "timer/env.step_min": 0.002775907516479492, "timer/env.step_max": 1.5965087413787842, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27287912368774414, "timer/replay.add_frac": 0.0009088060647489824, "timer/replay.add_avg": 0.00018767477557616515, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.003918886184692383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023235321044921875, "timer/logger.write_frac": 7.738371626470841e-05, "timer/logger.write_avg": 0.023235321044921875, "timer/logger.write_min": 0.023235321044921875, "timer/logger.write_max": 0.023235321044921875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.626582622528076, "timer/agent.policy_frac": 0.03539113804088858, "timer/agent.policy_avg": 0.00730851624658052, "timer/agent.policy_min": 0.0058782100677490234, "timer/agent.policy_max": 0.014616012573242188, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05941414833068848, "timer/dataset_frac": 0.00019787493306601544, "timer/dataset_avg": 8.172510086752197e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.9423477649689, "timer/agent.train_frac": 0.8990253247152338, "timer/agent.train_avg": 0.371309969415363, "timer/agent.train_min": 0.3627753257751465, "timer/agent.train_max": 0.38525390625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216048240661621, "timer/agent.report_frac": 0.0007380403651523625, "timer/agent.report_avg": 0.2216048240661621, "timer/agent.report_min": 0.2216048240661621, "timer/agent.report_max": 0.2216048240661621, "fps": 4.842392012624818}
+{"step": 982097, "episode/length": 241.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06198347107438017}
+{"step": 982356, "episode/length": 258.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06563706563706563}
+{"step": 982557, "episode/length": 200.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.07960199004975124}
+{"step": 982606, "episode/length": 48.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.08163265306122448}
+{"step": 982811, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05853658536585366}
+{"step": 983142, "episode/length": 330.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.045317220543806644}
+{"step": 983345, "episode/length": 202.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07389162561576355}
+{"step": 983519, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403291049068922, "train/action_min": 0.0, "train/action_std": 3.2579536895229393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038282922660447145, "train/actor_opt_grad_steps": 490850.0, "train/actor_opt_loss": -12.639450972210872, "train/adv_mag": 0.4011659093507349, "train/adv_max": 0.32559523108887345, "train/adv_mean": 0.0012797563720421947, "train/adv_min": -0.36201712387065366, "train/adv_std": 0.042432968083718055, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 0.00011980829611679829, "train/cont_loss_std": 0.0038011303022665913, "train/cont_neg_acc": 0.9953033279066217, "train/cont_neg_loss": 0.018026688418532003, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.7902943994110815e-05, "train/cont_pred": 0.9952444230040459, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.546471732936493, "train/dyn_loss_std": 8.85804071165111, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9009784010991658, "train/extr_critic_critic_opt_grad_steps": 490850.0, "train/extr_critic_critic_opt_loss": 15330.054139019692, "train/extr_critic_mag": 12.315882761184483, "train/extr_critic_max": 12.315882761184483, "train/extr_critic_mean": 3.9588260095413417, "train/extr_critic_min": -0.3285947074628856, "train/extr_critic_std": 2.9235731575587023, "train/extr_return_normed_mag": 1.365977310154536, "train/extr_return_normed_max": 1.365977310154536, "train/extr_return_normed_mean": 0.4095349524119129, "train/extr_return_normed_min": -0.08238695857867803, "train/extr_return_normed_std": 0.31092240794064246, "train/extr_return_rate": 0.8801851876794475, "train/extr_return_raw_mag": 13.038380270134914, "train/extr_return_raw_max": 13.038380270134914, "train/extr_return_raw_mean": 3.970979445601163, "train/extr_return_raw_min": -0.6937654373580462, "train/extr_return_raw_std": 2.9482814808414406, "train/extr_reward_mag": 1.076009557671743, "train/extr_reward_max": 1.076009557671743, "train/extr_reward_mean": 0.060968543466639845, "train/extr_reward_min": -0.6205449577880232, "train/extr_reward_std": 0.2370374219058311, "train/image_loss_mean": 3.226497366003794, "train/image_loss_std": 8.34243985398175, "train/model_loss_mean": 6.612198058873007, "train/model_loss_std": 12.450157988561342, "train/model_opt_grad_norm": 22.41284263297303, "train/model_opt_grad_steps": 490448.94520547945, "train/model_opt_loss": 18992.937714041094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2876.7123287671234, "train/policy_entropy_mag": 2.6622961612596905, "train/policy_entropy_max": 2.6622961612596905, "train/policy_entropy_mean": 0.3863874437057809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5910602942721485, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.386893459991233, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0160973537458133, "train/policy_randomness_mag": 0.9396737152582979, "train/policy_randomness_max": 0.9396737152582979, "train/policy_randomness_mean": 0.136377812146324, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20861834736719523, "train/post_ent_mag": 55.2411750375408, "train/post_ent_max": 55.2411750375408, "train/post_ent_mean": 40.26552341408925, "train/post_ent_min": 19.306084711257725, "train/post_ent_std": 5.78121495573488, "train/prior_ent_mag": 76.75924212312046, "train/prior_ent_max": 76.75924212312046, "train/prior_ent_mean": 45.79727005631956, "train/prior_ent_min": 27.889341615650753, "train/prior_ent_std": 7.759813086627281, "train/rep_loss_mean": 5.546471732936493, "train/rep_loss_std": 8.85804071165111, "train/reward_avg": 0.04247913101356324, "train/reward_loss_mean": 0.05769783850402048, "train/reward_loss_std": 0.2166193043940688, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0243005785223556, "train/reward_neg_acc": 0.992925812120307, "train/reward_neg_loss": 0.02493204852591639, "train/reward_pos_acc": 0.9875570225389037, "train/reward_pos_loss": 0.7262228898806115, "train/reward_pred": 0.04227802200778706, "train/reward_rate": 0.04678135702054795, "stats/sum_log_reward": 12.528571503502983, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.41071428784302305, "replay/size": 983456.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.304481506347656e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2972437102219154e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0369665622711, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.277465105056763, "timer/env.step_frac": 0.06425029997447272, "timer/env.step_avg": 0.013294803520728801, "timer/env.step_min": 0.0028493404388427734, "timer/env.step_max": 1.6660995483398438, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2549412250518799, "timer/replay.add_frac": 0.0008496993819558836, "timer/replay.add_avg": 0.00017582153451853785, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.002390623092651367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020982027053833008, "timer/logger.write_frac": 6.993147309226078e-05, "timer/logger.write_avg": 0.020982027053833008, "timer/logger.write_min": 0.020982027053833008, "timer/logger.write_max": 0.020982027053833008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.657697677612305, "timer/agent.policy_frac": 0.03552128192644007, "timer/agent.policy_avg": 0.007350136329387797, "timer/agent.policy_min": 0.00572514533996582, "timer/agent.policy_max": 0.017130136489868164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.058408498764038086, "timer/dataset_frac": 0.00019467100815364263, "timer/dataset_avg": 8.056344657108702e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00013780593872070312, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.10589838027954, "timer/agent.train_frac": 0.8969091424420464, "timer/agent.train_avg": 0.37118054949004076, "timer/agent.train_min": 0.36522769927978516, "timer/agent.train_max": 0.3839528560638428, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978330612182617, "timer/agent.report_frac": 0.0007325207578253904, "timer/agent.report_avg": 0.21978330612182617, "timer/agent.report_min": 0.21978330612182617, "timer/agent.report_max": 0.21978330612182617, "fps": 4.832632974953534}
+{"step": 983520, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
+{"step": 983677, "episode/length": 156.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08280254777070063}
+{"step": 983910, "episode/length": 232.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.060085836909871244}
+{"step": 984209, "episode/length": 298.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.043478260869565216}
+{"step": 984384, "episode/length": 174.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.08}
+{"step": 984631, "episode/length": 246.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05668016194331984}
+{"step": 984689, "episode/length": 57.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10344827586206896}
+{"step": 984729, "episode/length": 39.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.2}
+{"step": 984920, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07329842931937172}
+{"step": 984935, "stats/sum_log_reward": 11.100000116560194, "stats/max_log_achievement_collect_coal": 1.2222222222222223, "stats/max_log_achievement_collect_drink": 6.555555555555555, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 10.555555555555555, "stats/max_log_achievement_collect_wood": 10.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_stone_sword": 0.4444444444444444, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.2222222222222223, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.35463008946842617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4384033203125, "train/action_min": 0.0, "train/action_std": 3.318134491784232, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03917499958936657, "train/actor_opt_grad_steps": 491565.0, "train/actor_opt_loss": -11.65792864390782, "train/adv_mag": 0.43541298764092584, "train/adv_max": 0.3656570819871766, "train/adv_mean": 0.0025806106964799775, "train/adv_min": -0.3885760458452361, "train/adv_std": 0.044139526039361957, "train/cont_avg": 0.9951590401785714, "train/cont_loss_mean": 1.5749829889522006e-05, "train/cont_loss_std": 0.0004646238593475159, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011915106741672129, "train/cont_pos_acc": 0.9999999863760812, "train/cont_pos_loss": 1.5214462185131339e-05, "train/cont_pred": 0.9951459790979112, "train/cont_rate": 0.9951590401785714, "train/dyn_loss_mean": 5.5267171451023644, "train/dyn_loss_std": 8.895105007716587, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9427725536482675, "train/extr_critic_critic_opt_grad_steps": 491565.0, "train/extr_critic_critic_opt_loss": 15401.016350446429, "train/extr_critic_mag": 12.351729883466447, "train/extr_critic_max": 12.351729883466447, "train/extr_critic_mean": 4.018110827037266, "train/extr_critic_min": -0.3390348809106009, "train/extr_critic_std": 2.8844895907810755, "train/extr_return_normed_mag": 1.3673871687480381, "train/extr_return_normed_max": 1.3673871687480381, "train/extr_return_normed_mean": 0.41470292104142054, "train/extr_return_normed_min": -0.07823080755770206, "train/extr_return_normed_std": 0.3064383464200156, "train/extr_return_rate": 0.8867885504450117, "train/extr_return_raw_mag": 13.100389426095145, "train/extr_return_raw_max": 13.100389426095145, "train/extr_return_raw_mean": 4.042651384217399, "train/extr_return_raw_min": -0.6439468541315624, "train/extr_return_raw_std": 2.913691828932081, "train/extr_reward_mag": 1.0759060076304845, "train/extr_reward_max": 1.0759060076304845, "train/extr_reward_mean": 0.06300877577492169, "train/extr_reward_min": -0.5565379500389099, "train/extr_reward_std": 0.24082815519401005, "train/image_loss_mean": 3.0869498338018144, "train/image_loss_std": 8.293473557063512, "train/model_loss_mean": 6.461687401362828, "train/model_loss_std": 12.449471269335065, "train/model_opt_grad_norm": 22.77332011631557, "train/model_opt_grad_steps": 491163.0, "train/model_opt_loss": 16154.218512834821, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6755227838243756, "train/policy_entropy_max": 2.6755227838243756, "train/policy_entropy_mean": 0.3821122075830187, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.585407121692385, "train/policy_logprob_mag": 7.438384233202253, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3823324978351593, "train/policy_logprob_min": -7.438384233202253, "train/policy_logprob_std": 1.0132002668721336, "train/policy_randomness_mag": 0.9443421304225922, "train/policy_randomness_max": 0.9443421304225922, "train/policy_randomness_mean": 0.1348688408732414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20662302247115544, "train/post_ent_mag": 55.64205649239676, "train/post_ent_max": 55.64205649239676, "train/post_ent_mean": 40.14754818507603, "train/post_ent_min": 19.462565653664726, "train/post_ent_std": 5.821170248304095, "train/prior_ent_mag": 76.80999941144671, "train/prior_ent_max": 76.80999941144671, "train/prior_ent_mean": 45.65893472943987, "train/prior_ent_min": 27.47755573817662, "train/prior_ent_std": 7.856287050247192, "train/rep_loss_mean": 5.5267171451023644, "train/rep_loss_std": 8.895105007716587, "train/reward_avg": 0.04419224280864, "train/reward_loss_mean": 0.0586916057659047, "train/reward_loss_std": 0.2179815566965512, "train/reward_max_data": 1.0271428636142186, "train/reward_max_pred": 1.0291135157857623, "train/reward_neg_acc": 0.9935034581593105, "train/reward_neg_loss": 0.024602968698101385, "train/reward_pos_acc": 0.9875373780727387, "train/reward_pos_loss": 0.7281132910932814, "train/reward_pred": 0.04372445017631565, "train/reward_rate": 0.048507254464285714, "replay/size": 984872.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4082407331736075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2903395345655537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2485148906708, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.631722927093506, "timer/env.step_frac": 0.07870721004464752, "timer/env.step_avg": 0.0166890698637666, "timer/env.step_min": 0.0028564929962158203, "timer/env.step_max": 1.8262965679168701, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2933506965637207, "timer/replay.add_frac": 0.0009770263032626097, "timer/replay.add_avg": 0.00020716857101957676, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.004413127899169922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029934406280517578, "timer/logger.write_frac": 9.969876550902364e-05, "timer/logger.write_avg": 0.029934406280517578, "timer/logger.write_min": 0.029934406280517578, "timer/logger.write_max": 0.029934406280517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001895427703857422, "timer/checkpoint.save_frac": 6.312862878098172e-07, "timer/checkpoint.save_avg": 0.0001895427703857422, "timer/checkpoint.save_min": 0.0001895427703857422, "timer/checkpoint.save_max": 0.0001895427703857422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1727371215820312, "timer/agent.save_frac": 0.003905888167370483, "timer/agent.save_avg": 1.1727371215820312, "timer/agent.save_min": 1.1727371215820312, "timer/agent.save_max": 1.1727371215820312, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.763366391922219e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.151593208312988, "timer/agent.policy_frac": 0.04047178455732824, "timer/agent.policy_avg": 0.008581633621689963, "timer/agent.policy_min": 0.005738019943237305, "timer/agent.policy_max": 1.1669294834136963, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05788874626159668, "timer/dataset_frac": 0.00019280277300514094, "timer/dataset_avg": 8.176376590621e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.41243624687195, "timer/agent.train_frac": 0.8773147015990673, "timer/agent.train_avg": 0.3720514636255253, "timer/agent.train_min": 0.36457204818725586, "timer/agent.train_max": 0.8559811115264893, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21955418586730957, "timer/agent.report_frac": 0.0007312415381879762, "timer/agent.report_avg": 0.21955418586730957, "timer/agent.report_min": 0.21955418586730957, "timer/agent.report_max": 0.21955418586730957, "fps": 4.715989701645589}
+{"step": 985109, "episode/length": 188.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07936507936507936}
+{"step": 985265, "episode/length": 155.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08974358974358974}
+{"step": 985469, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07352941176470588}
+{"step": 985634, "episode/length": 164.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.06666666666666667}
+{"step": 985842, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07211538461538461}
+{"step": 985986, "episode/length": 143.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.09027777777777778}
+{"step": 986154, "episode/length": 167.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07738095238095238}
+{"step": 986373, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0639269406392694}
+{"step": 986375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472684224446614, "train/action_min": 0.0, "train/action_std": 3.3384350505140095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03763873365500735, "train/actor_opt_grad_steps": 492275.0, "train/actor_opt_loss": -12.752324910627472, "train/adv_mag": 0.39269237716992694, "train/adv_max": 0.3401765790250566, "train/adv_mean": 0.0014126378922456853, "train/adv_min": -0.3410887881699536, "train/adv_std": 0.04261391832389765, "train/cont_avg": 0.9953748914930556, "train/cont_loss_mean": 2.5714610358286273e-05, "train/cont_loss_std": 0.0007565999771688641, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024296369352355563, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.5366952655742556e-05, "train/cont_pred": 0.9953691959381104, "train/cont_rate": 0.9953748914930556, "train/dyn_loss_mean": 5.56855360004637, "train/dyn_loss_std": 8.896661308076647, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9103906510604752, "train/extr_critic_critic_opt_grad_steps": 492275.0, "train/extr_critic_critic_opt_loss": 15352.16295030382, "train/extr_critic_mag": 12.294882827334934, "train/extr_critic_max": 12.294882827334934, "train/extr_critic_mean": 3.908969316217634, "train/extr_critic_min": -0.4128822005457348, "train/extr_critic_std": 2.9041395816538067, "train/extr_return_normed_mag": 1.3717543300655153, "train/extr_return_normed_max": 1.3717543300655153, "train/extr_return_normed_mean": 0.4061327597333325, "train/extr_return_normed_min": -0.0822722044152518, "train/extr_return_normed_std": 0.3079368496934573, "train/extr_return_rate": 0.8678006049659517, "train/extr_return_raw_mag": 13.110088692771065, "train/extr_return_raw_max": 13.110088692771065, "train/extr_return_raw_mean": 3.9224655760659113, "train/extr_return_raw_min": -0.7251435750060611, "train/extr_return_raw_std": 2.930859350495868, "train/extr_reward_mag": 1.0746180481380887, "train/extr_reward_max": 1.0746180481380887, "train/extr_reward_mean": 0.06042735351042615, "train/extr_reward_min": -0.6013392325904634, "train/extr_reward_std": 0.23687677933937973, "train/image_loss_mean": 3.1939172413614063, "train/image_loss_std": 8.461001978980171, "train/model_loss_mean": 6.591513064172533, "train/model_loss_std": 12.655205567677816, "train/model_opt_grad_norm": 20.920868027378138, "train/model_opt_grad_steps": 491872.375, "train/model_opt_loss": 16942.898342556422, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6684286759959326, "train/policy_entropy_max": 2.6684286759959326, "train/policy_entropy_mean": 0.3986973845296436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5993384143544568, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3980264353255431, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0252067314253912, "train/policy_randomness_mag": 0.9418382239010599, "train/policy_randomness_max": 0.9418382239010599, "train/policy_randomness_mean": 0.14072267938819197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21154016059719855, "train/post_ent_mag": 55.73878765106201, "train/post_ent_max": 55.73878765106201, "train/post_ent_mean": 40.392531130048965, "train/post_ent_min": 19.648751921123928, "train/post_ent_std": 5.799397296375698, "train/prior_ent_mag": 76.82731776767307, "train/prior_ent_max": 76.82731776767307, "train/prior_ent_mean": 45.941163539886475, "train/prior_ent_min": 27.71437629063924, "train/prior_ent_std": 7.8183881640434265, "train/rep_loss_mean": 5.56855360004637, "train/rep_loss_std": 8.896661308076647, "train/reward_avg": 0.0416720918017543, "train/reward_loss_mean": 0.05643797981449299, "train/reward_loss_std": 0.20991060530973804, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0264649093151093, "train/reward_neg_acc": 0.9935604830582937, "train/reward_neg_loss": 0.024201862268253334, "train/reward_pos_acc": 0.9902201162444221, "train/reward_pos_loss": 0.7238429420524173, "train/reward_pred": 0.041394244543173246, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 12.725000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 11.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 2.75, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.31212984025478363, "replay/size": 986312.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3448139826456706e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.333095133304596e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04307746887207, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.611185550689697, "timer/env.step_frac": 0.06869408794418196, "timer/env.step_avg": 0.014313323299090068, "timer/env.step_min": 0.0029096603393554688, "timer/env.step_max": 1.588531494140625, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2571141719818115, "timer/replay.add_frac": 0.0008569241928552269, "timer/replay.add_avg": 0.00017855150832070244, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008785724639892578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03149843215942383, "timer/logger.write_frac": 0.0001049796996655976, "timer/logger.write_avg": 0.03149843215942383, "timer/logger.write_min": 0.03149843215942383, "timer/logger.write_max": 0.03149843215942383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.637981176376343, "timer/agent.policy_frac": 0.0354548462378039, "timer/agent.policy_avg": 0.007387486928039127, "timer/agent.policy_min": 0.005840778350830078, "timer/agent.policy_max": 0.01678919792175293, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05741286277770996, "timer/dataset_frac": 0.00019134873319537343, "timer/dataset_avg": 7.974008719126383e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.78881907463074, "timer/agent.train_frac": 0.8925012412673059, "timer/agent.train_avg": 0.3719289153814316, "timer/agent.train_min": 0.36510491371154785, "timer/agent.train_max": 0.3858633041381836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198176383972168, "timer/agent.report_frac": 0.0007326202632354407, "timer/agent.report_avg": 0.2198176383972168, "timer/agent.report_min": 0.2198176383972168, "timer/agent.report_max": 0.2198176383972168, "fps": 4.799231709448979}
+{"step": 986680, "episode/length": 306.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05211726384364821}
+{"step": 986866, "episode/length": 185.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.07526881720430108}
+{"step": 987085, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0684931506849315}
+{"step": 987289, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07352941176470588}
+{"step": 987593, "episode/length": 303.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.049342105263157895}
+{"step": 987843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4496567184860645, "train/action_min": 0.0, "train/action_std": 3.3042229575079842, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03723671481113981, "train/actor_opt_grad_steps": 493005.0, "train/actor_opt_loss": -11.78786061422245, "train/adv_mag": 0.4106877560953836, "train/adv_max": 0.3360483686666231, "train/adv_mean": 0.001881245937732495, "train/adv_min": -0.36656852529661077, "train/adv_std": 0.04242728544852218, "train/cont_avg": 0.9952095650337838, "train/cont_loss_mean": 1.2437263490758019e-05, "train/cont_loss_std": 0.0003359950477004445, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.133817920662607e-05, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 1.24037389098809e-05, "train/cont_pred": 0.9951980589209376, "train/cont_rate": 0.9952095650337838, "train/dyn_loss_mean": 5.476614262606646, "train/dyn_loss_std": 8.845991637255695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9104294164760692, "train/extr_critic_critic_opt_grad_steps": 493005.0, "train/extr_critic_critic_opt_loss": 15333.511613175675, "train/extr_critic_mag": 12.211096003248885, "train/extr_critic_max": 12.211096003248885, "train/extr_critic_mean": 3.952055689450857, "train/extr_critic_min": -0.3512058837993725, "train/extr_critic_std": 2.908235387222187, "train/extr_return_normed_mag": 1.3504162672403697, "train/extr_return_normed_max": 1.3504162672403697, "train/extr_return_normed_mean": 0.4116632654457479, "train/extr_return_normed_min": -0.07391446108954984, "train/extr_return_normed_std": 0.3073842559714575, "train/extr_return_rate": 0.8781373605534837, "train/extr_return_raw_mag": 12.93271981058894, "train/extr_return_raw_max": 12.93271981058894, "train/extr_return_raw_mean": 3.970031197006638, "train/extr_return_raw_min": -0.6658704337236043, "train/extr_return_raw_std": 2.934668830923132, "train/extr_reward_mag": 1.079691548605223, "train/extr_reward_max": 1.079691548605223, "train/extr_reward_mean": 0.06322647349254505, "train/extr_reward_min": -0.6255010672517725, "train/extr_reward_std": 0.24164988603946325, "train/image_loss_mean": 3.247333093269451, "train/image_loss_std": 8.468715377756068, "train/model_loss_mean": 6.591428241214237, "train/model_loss_std": 12.60095012510145, "train/model_opt_grad_norm": 22.51456220729931, "train/model_opt_grad_steps": 492601.5675675676, "train/model_opt_loss": 12934.921716638513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1959.4594594594594, "train/policy_entropy_mag": 2.669811081241917, "train/policy_entropy_max": 2.669811081241917, "train/policy_entropy_mean": 0.3937127743218396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5973728315250294, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3924924358725548, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.0201296508312225, "train/policy_randomness_mag": 0.9423261502304593, "train/policy_randomness_max": 0.9423261502304593, "train/policy_randomness_mean": 0.13896333063776428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21084639309225855, "train/post_ent_mag": 54.982226964589714, "train/post_ent_max": 54.982226964589714, "train/post_ent_mean": 40.377025965097786, "train/post_ent_min": 19.598519621668636, "train/post_ent_std": 5.710677597973798, "train/prior_ent_mag": 76.75142288208008, "train/prior_ent_max": 76.75142288208008, "train/prior_ent_mean": 45.839231594188796, "train/prior_ent_min": 27.97047455246384, "train/prior_ent_std": 7.77844609440984, "train/rep_loss_mean": 5.476614262606646, "train/rep_loss_std": 8.845991637255695, "train/reward_avg": 0.04400997616451334, "train/reward_loss_mean": 0.058114198363713315, "train/reward_loss_std": 0.21823180285659996, "train/reward_max_data": 1.0378378468590814, "train/reward_max_pred": 1.0305379854666221, "train/reward_neg_acc": 0.9939549436440339, "train/reward_neg_loss": 0.023912035633583326, "train/reward_pos_acc": 0.9887823261119224, "train/reward_pos_loss": 0.7294690077369278, "train/reward_pred": 0.043580212454135354, "train/reward_rate": 0.04835304054054054, "stats/sum_log_reward": 14.100000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 19.2, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5570289790630341, "replay/size": 987780.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2314812454930443e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3080539755340492e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01872062683105, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.899271965026855, "timer/env.step_frac": 0.05299426626381315, "timer/env.step_avg": 0.01083056673366952, "timer/env.step_min": 0.0029654502868652344, "timer/env.step_max": 1.5703186988830566, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2562253475189209, "timer/replay.add_frac": 0.000854031198398512, "timer/replay.add_avg": 0.00017454042746520496, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.004484891891479492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02006840705871582, "timer/logger.write_frac": 6.689051608775202e-05, "timer/logger.write_avg": 0.02006840705871582, "timer/logger.write_min": 0.02006840705871582, "timer/logger.write_max": 0.02006840705871582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.755508184432983, "timer/agent.policy_frac": 0.035849456867096265, "timer/agent.policy_avg": 0.007326640452611024, "timer/agent.policy_min": 0.00556635856628418, "timer/agent.policy_max": 0.015634536743164062, "timer/dataset_count": 734.0, "timer/dataset_total": 0.058774709701538086, "timer/dataset_frac": 0.00019590347421900774, "timer/dataset_avg": 8.007453637811729e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015401840209960938, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3742537498474, "timer/agent.train_frac": 0.9078575269595648, "timer/agent.train_avg": 0.3710820895774488, "timer/agent.train_min": 0.3647117614746094, "timer/agent.train_max": 0.384540319442749, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2236311435699463, "timer/agent.report_frac": 0.0007453906313003145, "timer/agent.report_avg": 0.2236311435699463, "timer/agent.report_min": 0.2236311435699463, "timer/agent.report_max": 0.2236311435699463, "fps": 4.892927563197438}
+{"step": 987848, "episode/length": 254.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.054901960784313725}
+{"step": 988066, "episode/length": 217.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000056624413, "episode/reward_rate": 0.06422018348623854}
+{"step": 988243, "episode/length": 176.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0847457627118644}
+{"step": 988417, "episode/length": 173.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.06896551724137931}
+{"step": 988562, "episode/length": 144.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.700000047683716, "episode/reward_rate": 0.04827586206896552}
+{"step": 988810, "episode/length": 247.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05241935483870968}
+{"step": 989037, "episode/length": 226.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.048458149779735685}
+{"step": 989222, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05405405405405406}
+{"step": 989273, "stats/sum_log_reward": 10.850000143051147, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 9.125, "stats/max_log_achievement_collect_wood": 12.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2855486422777176, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41566230881382, "train/action_min": 0.0, "train/action_std": 3.29320636937316, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03914849213521245, "train/actor_opt_grad_steps": 493730.0, "train/actor_opt_loss": -12.25884239060778, "train/adv_mag": 0.40221375122036734, "train/adv_max": 0.3321772274416937, "train/adv_mean": 0.0017764478693286844, "train/adv_min": -0.3637532352561682, "train/adv_std": 0.04287427154854989, "train/cont_avg": 0.9953372579225352, "train/cont_loss_mean": 4.101549391772467e-05, "train/cont_loss_std": 0.0012423337868047153, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.003921340000640988, "train/cont_pos_acc": 0.9999861431793428, "train/cont_pos_loss": 1.827289136192864e-05, "train/cont_pred": 0.9953352120560659, "train/cont_rate": 0.9953372579225352, "train/dyn_loss_mean": 5.406661349283138, "train/dyn_loss_std": 8.863941394107442, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9083376980163682, "train/extr_critic_critic_opt_grad_steps": 493730.0, "train/extr_critic_critic_opt_loss": 15263.04570587588, "train/extr_critic_mag": 12.375569974872429, "train/extr_critic_max": 12.375569974872429, "train/extr_critic_mean": 4.0306001616195894, "train/extr_critic_min": -0.3755452834384542, "train/extr_critic_std": 2.986523111101607, "train/extr_return_normed_mag": 1.3709961981840537, "train/extr_return_normed_max": 1.3709961981840537, "train/extr_return_normed_mean": 0.420395875061062, "train/extr_return_normed_min": -0.07244631684791873, "train/extr_return_normed_std": 0.3161014442292737, "train/extr_return_rate": 0.8665704282236771, "train/extr_return_raw_mag": 13.115254402160645, "train/extr_return_raw_max": 13.115254402160645, "train/extr_return_raw_mean": 4.047548841422712, "train/extr_return_raw_min": -0.6537562058845037, "train/extr_return_raw_std": 3.015384700936331, "train/extr_reward_mag": 1.0743611933479846, "train/extr_reward_max": 1.0743611933479846, "train/extr_reward_mean": 0.06329719596345659, "train/extr_reward_min": -0.5935916967794929, "train/extr_reward_std": 0.24170442723052601, "train/image_loss_mean": 3.152892485470839, "train/image_loss_std": 8.371721187108, "train/model_loss_mean": 6.455125069954026, "train/model_loss_std": 12.508856719648334, "train/model_opt_grad_norm": 23.38527139475648, "train/model_opt_grad_steps": 493326.0, "train/model_opt_loss": 8444.003954390404, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.8169014084508, "train/policy_entropy_mag": 2.6687296343521334, "train/policy_entropy_max": 2.6687296343521334, "train/policy_entropy_mean": 0.40188373184539905, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6090828323028457, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.402215086238485, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0321327263200786, "train/policy_randomness_mag": 0.9419444472017423, "train/policy_randomness_max": 0.9419444472017423, "train/policy_randomness_mean": 0.14184732168493136, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2149795109117535, "train/post_ent_mag": 55.54810182813188, "train/post_ent_max": 55.54810182813188, "train/post_ent_mean": 40.24098587036133, "train/post_ent_min": 19.25826169403506, "train/post_ent_std": 5.79751830033853, "train/prior_ent_mag": 76.7728378940636, "train/prior_ent_max": 76.7728378940636, "train/prior_ent_mean": 45.62116725008253, "train/prior_ent_min": 27.59879047769896, "train/prior_ent_std": 7.834838712719125, "train/rep_loss_mean": 5.406661349283138, "train/rep_loss_std": 8.863941394107442, "train/reward_avg": 0.04360282772653539, "train/reward_loss_mean": 0.05819478373922093, "train/reward_loss_std": 0.22521168329346347, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0243541808195518, "train/reward_neg_acc": 0.9939310424764392, "train/reward_neg_loss": 0.024084254928772718, "train/reward_pos_acc": 0.9858170000600143, "train/reward_pos_loss": 0.7381947913639982, "train/reward_pred": 0.04319035867884965, "train/reward_rate": 0.04781029929577465, "replay/size": 989210.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.249661905782206e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.298276694504531e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3257477283478, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.561936855316162, "timer/env.step_frac": 0.06513573013063945, "timer/env.step_avg": 0.013679676122598714, "timer/env.step_min": 0.0025069713592529297, "timer/env.step_max": 1.5934834480285645, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2782325744628906, "timer/replay.add_frac": 0.0009264359668374455, "timer/replay.add_avg": 0.0001945682338901333, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0034427642822265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02057933807373047, "timer/logger.write_frac": 6.852338911795534e-05, "timer/logger.write_avg": 0.02057933807373047, "timer/logger.write_min": 0.02057933807373047, "timer/logger.write_max": 0.02057933807373047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0011303424835205078, "timer/checkpoint.save_frac": 3.7637215326037615e-06, "timer/checkpoint.save_avg": 0.0011303424835205078, "timer/checkpoint.save_min": 0.0011303424835205078, "timer/checkpoint.save_max": 0.0011303424835205078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1647493839263916, "timer/agent.save_frac": 0.003878286802701768, "timer/agent.save_avg": 1.1647493839263916, "timer/agent.save_min": 1.1647493839263916, "timer/agent.save_max": 1.1647493839263916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.2069491374474706e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.561815738677979, "timer/agent.policy_frac": 0.03849758412700576, "timer/agent.policy_avg": 0.008085185831243341, "timer/agent.policy_min": 0.005782127380371094, "timer/agent.policy_max": 1.1564126014709473, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05751442909240723, "timer/dataset_frac": 0.00019150682060210995, "timer/dataset_avg": 8.043976096840172e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 715.0, "timer/agent.train_total": 268.1852340698242, "timer/agent.train_frac": 0.8929811582868497, "timer/agent.train_avg": 0.3750842434542996, "timer/agent.train_min": 0.3650243282318115, "timer/agent.train_max": 3.1258716583251953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889781951904297, "timer/agent.report_frac": 0.0007288679747733171, "timer/agent.report_avg": 0.21889781951904297, "timer/agent.report_min": 0.21889781951904297, "timer/agent.report_max": 0.21889781951904297, "fps": 4.761438175175566}
+{"step": 989601, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03430079155672823}
+{"step": 989842, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06224066390041494}
+{"step": 990035, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05181347150259067}
+{"step": 990244, "episode/length": 208.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07655502392344497}
+{"step": 990505, "episode/length": 260.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06130268199233716}
+{"step": 990707, "episode/length": 201.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06930693069306931}
+{"step": 990737, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.342193185466609, "train/action_min": 0.0, "train/action_std": 3.1963426609561867, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03791838823115989, "train/actor_opt_grad_steps": 494450.0, "train/actor_opt_loss": -12.52396746204324, "train/adv_mag": 0.3605753828401435, "train/adv_max": 0.3047634444824637, "train/adv_mean": 0.001577459234957207, "train/adv_min": -0.33508421276530176, "train/adv_std": 0.042598613984372515, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.288079040132105e-05, "train/cont_loss_std": 0.0025855205513988645, "train/cont_neg_acc": 0.9925799092201337, "train/cont_neg_loss": 0.013689336309536887, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 7.306554255945475e-06, "train/cont_pred": 0.9951508420787446, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.565127183313239, "train/dyn_loss_std": 8.892126364250705, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9112297982385714, "train/extr_critic_critic_opt_grad_steps": 494450.0, "train/extr_critic_critic_opt_loss": 15411.859348244863, "train/extr_critic_mag": 12.221621265150096, "train/extr_critic_max": 12.221621265150096, "train/extr_critic_mean": 3.9700864341161024, "train/extr_critic_min": -0.37725327929405317, "train/extr_critic_std": 2.93553742643905, "train/extr_return_normed_mag": 1.3626127373682309, "train/extr_return_normed_max": 1.3626127373682309, "train/extr_return_normed_mean": 0.4161230260378694, "train/extr_return_normed_min": -0.07795131175893627, "train/extr_return_normed_std": 0.3118020079723776, "train/extr_return_rate": 0.8723539595734583, "train/extr_return_raw_mag": 12.96707489065928, "train/extr_return_raw_max": 12.96707489065928, "train/extr_return_raw_mean": 3.9850332181747645, "train/extr_return_raw_min": -0.7036354015134785, "train/extr_return_raw_std": 2.9590095689851945, "train/extr_reward_mag": 1.075138614602285, "train/extr_reward_max": 1.075138614602285, "train/extr_reward_mean": 0.06319296497800579, "train/extr_reward_min": -0.5724479139667668, "train/extr_reward_std": 0.2416197275870467, "train/image_loss_mean": 3.1722869889376915, "train/image_loss_std": 8.686051936998759, "train/model_loss_mean": 6.569976323271451, "train/model_loss_std": 12.832353500470724, "train/model_opt_grad_norm": 22.89339042036501, "train/model_opt_grad_steps": 494046.0, "train/model_opt_loss": 16424.940831014555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.677317949190532, "train/policy_entropy_max": 2.677317949190532, "train/policy_entropy_mean": 0.3704483847912044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5691186520334792, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36923461070615954, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 0.9997748030375128, "train/policy_randomness_mag": 0.9449757476375528, "train/policy_randomness_max": 0.9449757476375528, "train/policy_randomness_mean": 0.1307520231563751, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20087391015601486, "train/post_ent_mag": 55.40799279408912, "train/post_ent_max": 55.40799279408912, "train/post_ent_mean": 40.24063261894331, "train/post_ent_min": 19.594555580452695, "train/post_ent_std": 5.822928735654648, "train/prior_ent_mag": 76.82828647143221, "train/prior_ent_max": 76.82828647143221, "train/prior_ent_mean": 45.82383900472563, "train/prior_ent_min": 27.69734549849001, "train/prior_ent_std": 7.801350665419069, "train/rep_loss_mean": 5.565127183313239, "train/rep_loss_std": 8.892126364250705, "train/reward_avg": 0.04421687697711056, "train/reward_loss_mean": 0.05853022553332864, "train/reward_loss_std": 0.21763906025723234, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0315326762526003, "train/reward_neg_acc": 0.9934079287803337, "train/reward_neg_loss": 0.0244872143543134, "train/reward_pos_acc": 0.9905821354421851, "train/reward_pos_loss": 0.7240696712715985, "train/reward_pred": 0.04391643723906719, "train/reward_rate": 0.04861408390410959, "stats/sum_log_reward": 12.933333396911621, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5143021618326505, "replay/size": 990674.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.243893222079251e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3176331428882202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07657384872437, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.77965211868286, "timer/env.step_frac": 0.05591790089932804, "timer/env.step_avg": 0.011461511010029277, "timer/env.step_min": 0.002651691436767578, "timer/env.step_max": 1.501786470413208, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26814818382263184, "timer/replay.add_frac": 0.0008935991916443688, "timer/replay.add_avg": 0.00018316132774769933, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.003832578659057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02182292938232422, "timer/logger.write_frac": 7.272453528253648e-05, "timer/logger.write_avg": 0.02182292938232422, "timer/logger.write_min": 0.02182292938232422, "timer/logger.write_max": 0.02182292938232422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.64114785194397, "timer/agent.policy_frac": 0.035461441442971225, "timer/agent.policy_avg": 0.0072685436147158266, "timer/agent.policy_min": 0.00562286376953125, "timer/agent.policy_max": 0.014413833618164062, "timer/dataset_count": 732.0, "timer/dataset_total": 0.059079885482788086, "timer/dataset_frac": 0.00019688269805616897, "timer/dataset_avg": 8.071022606938263e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.64960384368896, "timer/agent.train_frac": 0.9052676133946861, "timer/agent.train_avg": 0.37110601617990296, "timer/agent.train_min": 0.3645451068878174, "timer/agent.train_max": 0.38596343994140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216329574584961, "timer/agent.report_frac": 0.0007385880031082548, "timer/agent.report_avg": 0.2216329574584961, "timer/agent.report_min": 0.2216329574584961, "timer/agent.report_max": 0.2216329574584961, "fps": 4.878647372664643}
+{"step": 991217, "episode/length": 509.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.03137254901960784}
+{"step": 991442, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 991649, "episode/length": 206.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.07246376811594203}
+{"step": 991828, "episode/length": 178.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0670391061452514}
+{"step": 992217, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346633498733108, "train/action_min": 0.0, "train/action_std": 3.195720972241582, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03854317973191674, "train/actor_opt_grad_steps": 495185.0, "train/actor_opt_loss": -9.731382965236097, "train/adv_mag": 0.41459196785817276, "train/adv_max": 0.34119492648421107, "train/adv_mean": 0.0025510761034712305, "train/adv_min": -0.3587584102878699, "train/adv_std": 0.0434232419104995, "train/cont_avg": 0.9947476773648649, "train/cont_loss_mean": 0.00019787689913322506, "train/cont_loss_std": 0.00617172477251809, "train/cont_neg_acc": 0.9958172472747596, "train/cont_neg_loss": 0.024639219229721267, "train/cont_pos_acc": 0.9999866840001699, "train/cont_pos_loss": 3.6244329359450216e-05, "train/cont_pred": 0.9947482871042715, "train/cont_rate": 0.9947476773648649, "train/dyn_loss_mean": 5.589014684831774, "train/dyn_loss_std": 8.907880969949671, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9108442035881249, "train/extr_critic_critic_opt_grad_steps": 495185.0, "train/extr_critic_critic_opt_loss": 15506.976443728885, "train/extr_critic_mag": 12.417923295820081, "train/extr_critic_max": 12.417923295820081, "train/extr_critic_mean": 3.8903093789074874, "train/extr_critic_min": -0.3811743372195476, "train/extr_critic_std": 2.9617087551065393, "train/extr_return_normed_mag": 1.3899620545876992, "train/extr_return_normed_max": 1.3899620545876992, "train/extr_return_normed_mean": 0.4082695563902726, "train/extr_return_normed_min": -0.07970723550061921, "train/extr_return_normed_std": 0.31647608650697245, "train/extr_return_rate": 0.8747079605991775, "train/extr_return_raw_mag": 13.197707485508275, "train/extr_return_raw_max": 13.197707485508275, "train/extr_return_raw_mean": 3.9144209719992973, "train/extr_return_raw_min": -0.6995380629558821, "train/extr_return_raw_std": 2.9927862270458325, "train/extr_reward_mag": 1.079428727562363, "train/extr_reward_max": 1.079428727562363, "train/extr_reward_mean": 0.06342500231757357, "train/extr_reward_min": -0.6248310321086162, "train/extr_reward_std": 0.24207372963428497, "train/image_loss_mean": 3.2427485665759526, "train/image_loss_std": 8.398610901188206, "train/model_loss_mean": 6.655763729198559, "train/model_loss_std": 12.569530796360326, "train/model_opt_grad_norm": 21.35798148851137, "train/model_opt_grad_steps": 494780.41891891893, "train/model_opt_loss": 18150.07424514358, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.6808862686157227, "train/policy_entropy_max": 2.6808862686157227, "train/policy_entropy_mean": 0.3696813843137509, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5711549214414648, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3691538499819266, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.001876025586515, "train/policy_randomness_mag": 0.9462352048706364, "train/policy_randomness_max": 0.9462352048706364, "train/policy_randomness_mean": 0.1304813060607459, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2015926237847354, "train/post_ent_mag": 55.616334502761426, "train/post_ent_max": 55.616334502761426, "train/post_ent_mean": 40.3885126887141, "train/post_ent_min": 19.693010819924844, "train/post_ent_std": 5.83304035985792, "train/prior_ent_mag": 76.88310901538746, "train/prior_ent_max": 76.88310901538746, "train/prior_ent_mean": 45.962645092525996, "train/prior_ent_min": 27.849493078283363, "train/prior_ent_std": 7.836168579153113, "train/rep_loss_mean": 5.589014684831774, "train/rep_loss_std": 8.907880969949671, "train/reward_avg": 0.04305716838083557, "train/reward_loss_mean": 0.05940850235119059, "train/reward_loss_std": 0.22029414672303843, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.030052135119567, "train/reward_neg_acc": 0.9929644078821749, "train/reward_neg_loss": 0.025673477532895835, "train/reward_pos_acc": 0.9881443800152959, "train/reward_pos_loss": 0.7305578992173478, "train/reward_pred": 0.042653273312828026, "train/reward_rate": 0.04782516891891892, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.25, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6177441775798798, "replay/size": 992154.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1988363008241395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.329364808830055e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3390552997589, "timer/env.step_count": 1480.0, "timer/env.step_total": 14.133469104766846, "timer/env.step_frac": 0.04705837903985107, "timer/env.step_avg": 0.009549641287004626, "timer/env.step_min": 0.0027713775634765625, "timer/env.step_max": 1.6487441062927246, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.25986480712890625, "timer/replay.add_frac": 0.0008652381451674455, "timer/replay.add_avg": 0.00017558432914115287, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0039441585540771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02383136749267578, "timer/logger.write_frac": 7.934821353450169e-05, "timer/logger.write_avg": 0.02383136749267578, "timer/logger.write_min": 0.02383136749267578, "timer/logger.write_max": 0.02383136749267578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.826770782470703, "timer/agent.policy_frac": 0.03604849449787623, "timer/agent.policy_avg": 0.007315385663831556, "timer/agent.policy_min": 0.005833864212036133, "timer/agent.policy_max": 0.0198366641998291, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05960273742675781, "timer/dataset_frac": 0.0001984515046412136, "timer/dataset_avg": 8.054423976588894e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 740.0, "timer/agent.train_total": 274.3763315677643, "timer/agent.train_frac": 0.9135552860213866, "timer/agent.train_avg": 0.3707788264429247, "timer/agent.train_min": 0.3638026714324951, "timer/agent.train_max": 0.3855288028717041, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22091174125671387, "timer/agent.report_frac": 0.0007355411737452155, "timer/agent.report_avg": 0.22091174125671387, "timer/agent.report_min": 0.22091174125671387, "timer/agent.report_max": 0.22091174125671387, "fps": 4.927692888916289}
+{"step": 992238, "episode/length": 409.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.036585365853658534}
+{"step": 992428, "episode/length": 189.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.07368421052631578}
+{"step": 992601, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
+{"step": 992814, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06572769953051644}
+{"step": 993014, "episode/length": 199.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08}
+{"step": 993354, "episode/length": 339.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.041176470588235294}
+{"step": 993549, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06666666666666667}
+{"step": 993649, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3718210856119795, "train/action_min": 0.0, "train/action_std": 3.2403451369868383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03932422363302774, "train/actor_opt_grad_steps": 495915.0, "train/actor_opt_loss": -11.552890899487668, "train/adv_mag": 0.40943217194742626, "train/adv_max": 0.3437193036079407, "train/adv_mean": 0.0019472439376436847, "train/adv_min": -0.34897779900994563, "train/adv_std": 0.043548438077171646, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 2.0551407464461687e-05, "train/cont_loss_std": 0.0006379202510802015, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.328233458436039e-05, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 2.040664168277849e-05, "train/cont_pred": 0.9950230063663589, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.503867593076494, "train/dyn_loss_std": 8.855903307596842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9287167282568084, "train/extr_critic_critic_opt_grad_steps": 495915.0, "train/extr_critic_critic_opt_loss": 15507.1162109375, "train/extr_critic_mag": 12.366316543685066, "train/extr_critic_max": 12.366316543685066, "train/extr_critic_mean": 4.007520020008087, "train/extr_critic_min": -0.3434203763802846, "train/extr_critic_std": 2.9485129680898456, "train/extr_return_normed_mag": 1.3778156340122223, "train/extr_return_normed_max": 1.3778156340122223, "train/extr_return_normed_mean": 0.41630034728182685, "train/extr_return_normed_min": -0.07860875621231066, "train/extr_return_normed_std": 0.3118328851544195, "train/extr_return_rate": 0.8807138370143043, "train/extr_return_raw_mag": 13.193266656663683, "train/extr_return_raw_max": 13.193266656663683, "train/extr_return_raw_mean": 4.026081254084905, "train/extr_return_raw_min": -0.6928902715444565, "train/extr_return_raw_std": 2.9733106560177274, "train/extr_reward_mag": 1.0687432752715216, "train/extr_reward_max": 1.0687432752715216, "train/extr_reward_mean": 0.06594803396405445, "train/extr_reward_min": -0.6000391642252604, "train/extr_reward_std": 0.24649121798574924, "train/image_loss_mean": 3.155214766661326, "train/image_loss_std": 8.273807764053345, "train/model_loss_mean": 6.516418748431736, "train/model_loss_std": 12.390888896253374, "train/model_opt_grad_norm": 22.874138209554886, "train/model_opt_grad_steps": 495509.80555555556, "train/model_opt_loss": 16611.850925021703, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.672529485490587, "train/policy_entropy_max": 2.672529485490587, "train/policy_entropy_mean": 0.3790593246618907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5794153975115882, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37938264819482964, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0132053966323535, "train/policy_randomness_mag": 0.9432856241861979, "train/policy_randomness_max": 0.9432856241861979, "train/policy_randomness_mean": 0.13379130740132597, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20450820970452493, "train/post_ent_mag": 55.065371089511444, "train/post_ent_max": 55.065371089511444, "train/post_ent_mean": 40.16301043828329, "train/post_ent_min": 19.789017385906643, "train/post_ent_std": 5.738214764330122, "train/prior_ent_mag": 76.7461462020874, "train/prior_ent_max": 76.7461462020874, "train/prior_ent_mean": 45.66024298138089, "train/prior_ent_min": 27.851289616690742, "train/prior_ent_std": 7.7934077978134155, "train/rep_loss_mean": 5.503867593076494, "train/rep_loss_std": 8.855903307596842, "train/reward_avg": 0.045608181247694626, "train/reward_loss_mean": 0.058862891203413405, "train/reward_loss_std": 0.2146407649334934, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.028489328092999, "train/reward_neg_acc": 0.992641405098968, "train/reward_neg_loss": 0.024021559187935457, "train/reward_pos_acc": 0.9914518743753433, "train/reward_pos_loss": 0.7201735567715433, "train/reward_pred": 0.045382542070001364, "train/reward_rate": 0.05007595486111111, "stats/sum_log_reward": 12.95714282989502, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5652775572878974, "replay/size": 993586.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3165489495133553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3267028265159223e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05013608932495, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.30937123298645, "timer/env.step_frac": 0.06435381594773898, "timer/env.step_avg": 0.013484197788398359, "timer/env.step_min": 0.002797842025756836, "timer/env.step_max": 1.6094892024993896, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2700340747833252, "timer/replay.add_frac": 0.0008999631804963955, "timer/replay.add_avg": 0.00018857128127327177, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.004794120788574219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022400617599487305, "timer/logger.write_frac": 7.465624875710317e-05, "timer/logger.write_avg": 0.022400617599487305, "timer/logger.write_min": 0.022400617599487305, "timer/logger.write_max": 0.022400617599487305, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003733634948730469, "timer/checkpoint.save_frac": 1.2443370289353795e-06, "timer/checkpoint.save_avg": 0.0003733634948730469, "timer/checkpoint.save_min": 0.0003733634948730469, "timer/checkpoint.save_max": 0.0003733634948730469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4372684955596924, "timer/agent.save_frac": 0.004790094463186037, "timer/agent.save_avg": 1.4372684955596924, "timer/agent.save_min": 1.4372684955596924, "timer/agent.save_max": 1.4372684955596924, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.344057621557707e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.883739233016968, "timer/agent.policy_frac": 0.039605845169419215, "timer/agent.policy_avg": 0.00829870058171576, "timer/agent.policy_min": 0.0057713985443115234, "timer/agent.policy_max": 1.4167821407318115, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05685544013977051, "timer/dataset_frac": 0.0001894864667644898, "timer/dataset_avg": 7.940703930135546e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.85617089271545, "timer/agent.train_frac": 0.8927047138981289, "timer/agent.train_avg": 0.3741007973361948, "timer/agent.train_min": 0.36399126052856445, "timer/agent.train_max": 2.5769217014312744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21744489669799805, "timer/agent.report_frac": 0.0007246952110472121, "timer/agent.report_avg": 0.21744489669799805, "timer/agent.report_min": 0.21744489669799805, "timer/agent.report_max": 0.21744489669799805, "fps": 4.772469094313965}
+{"step": 993724, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07428571428571429}
+{"step": 994037, "episode/length": 312.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04792332268370607}
+{"step": 994202, "episode/length": 164.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08484848484848485}
+{"step": 994364, "episode/length": 161.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08641975308641975}
+{"step": 994591, "episode/length": 226.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.06167400881057269}
+{"step": 994985, "episode/length": 393.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03553299492385787}
+{"step": 995113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379071797410103, "train/action_min": 0.0, "train/action_std": 3.2669895054542857, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039318258172436935, "train/actor_opt_grad_steps": 496640.0, "train/actor_opt_loss": -12.435233577065272, "train/adv_mag": 0.42049365562118896, "train/adv_max": 0.3491042570708549, "train/adv_mean": 0.002174436417253798, "train/adv_min": -0.3693073467440801, "train/adv_std": 0.04373057436657279, "train/cont_avg": 0.995210830479452, "train/cont_loss_mean": 4.429713133688033e-05, "train/cont_loss_std": 0.0013446875161429689, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.007494288414422654, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.549290807973825e-05, "train/cont_pred": 0.9952091868609598, "train/cont_rate": 0.995210830479452, "train/dyn_loss_mean": 5.434859961679537, "train/dyn_loss_std": 8.799389551763666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9167176860652558, "train/extr_critic_critic_opt_grad_steps": 496640.0, "train/extr_critic_critic_opt_loss": 15449.023129815925, "train/extr_critic_mag": 12.340065812411373, "train/extr_critic_max": 12.340065812411373, "train/extr_critic_mean": 3.8992086012069493, "train/extr_critic_min": -0.37035318270121537, "train/extr_critic_std": 2.916253770867439, "train/extr_return_normed_mag": 1.3766371077054167, "train/extr_return_normed_max": 1.3766371077054167, "train/extr_return_normed_mean": 0.40811334040066966, "train/extr_return_normed_min": -0.08094848161690855, "train/extr_return_normed_std": 0.31180472365797385, "train/extr_return_rate": 0.8713015971118456, "train/extr_return_raw_mag": 13.065922763249645, "train/extr_return_raw_max": 13.065922763249645, "train/extr_return_raw_mean": 3.919740569101621, "train/extr_return_raw_min": -0.7002969502586208, "train/extr_return_raw_std": 2.94540263855294, "train/extr_reward_mag": 1.0707553870057407, "train/extr_reward_max": 1.0707553870057407, "train/extr_reward_mean": 0.06356246968450611, "train/extr_reward_min": -0.6007531228130811, "train/extr_reward_std": 0.24188467574446168, "train/image_loss_mean": 3.184839049430743, "train/image_loss_std": 8.212452646804183, "train/model_loss_mean": 6.503565853589202, "train/model_loss_std": 12.325973719766695, "train/model_opt_grad_norm": 21.581555778033113, "train/model_opt_grad_steps": 496234.0, "train/model_opt_loss": 16258.914544092466, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.70160466677522, "train/policy_entropy_max": 2.70160466677522, "train/policy_entropy_mean": 0.398970560260015, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6061916298245731, "train/policy_logprob_mag": 7.438384350032022, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002258197902, "train/policy_logprob_min": -7.438384350032022, "train/policy_logprob_std": 1.0343982111917782, "train/policy_randomness_mag": 0.9535478916886735, "train/policy_randomness_max": 0.9535478916886735, "train/policy_randomness_mean": 0.14081910099476985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21395904376898725, "train/post_ent_mag": 55.08563739306306, "train/post_ent_max": 55.08563739306306, "train/post_ent_mean": 40.295910769945955, "train/post_ent_min": 19.32808216303995, "train/post_ent_std": 5.743488638368372, "train/prior_ent_mag": 76.84022124826092, "train/prior_ent_max": 76.84022124826092, "train/prior_ent_mean": 45.782209317978115, "train/prior_ent_min": 27.855053601199632, "train/prior_ent_std": 7.777414504795859, "train/rep_loss_mean": 5.434859961679537, "train/rep_loss_std": 8.799389551763666, "train/reward_avg": 0.042640999316760936, "train/reward_loss_mean": 0.05776654204277143, "train/reward_loss_std": 0.2152639486610073, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0229190685977674, "train/reward_neg_acc": 0.9930878551038977, "train/reward_neg_loss": 0.024880378991875746, "train/reward_pos_acc": 0.9893957588770618, "train/reward_pos_loss": 0.7278759005951555, "train/reward_pred": 0.042455768544379976, "train/reward_rate": 0.04704890839041096, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.44028185307979584, "replay/size": 995050.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2771154831015998e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3487790125966725e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0949420928955, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.938722610473633, "timer/env.step_frac": 0.05644454549064072, "timer/env.step_avg": 0.011570165717536635, "timer/env.step_min": 0.002737283706665039, "timer/env.step_max": 1.6832003593444824, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2619028091430664, "timer/replay.add_frac": 0.0008727331667655812, "timer/replay.add_avg": 0.00017889536143652078, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.003849029541015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030695438385009766, "timer/logger.write_frac": 0.00010228575720382478, "timer/logger.write_avg": 0.030695438385009766, "timer/logger.write_min": 0.030695438385009766, "timer/logger.write_max": 0.030695438385009766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.594484567642212, "timer/agent.policy_frac": 0.035303775844254814, "timer/agent.policy_avg": 0.007236669786640855, "timer/agent.policy_min": 0.005599021911621094, "timer/agent.policy_max": 0.01867079734802246, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05742383003234863, "timer/dataset_frac": 0.00019135220884386938, "timer/dataset_avg": 7.844785523544895e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00014472007751464844, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.56719517707825, "timer/agent.train_frac": 0.9049375950262221, "timer/agent.train_avg": 0.3709934360342599, "timer/agent.train_min": 0.3645775318145752, "timer/agent.train_max": 0.38352441787719727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2165062427520752, "timer/agent.report_frac": 0.0007214591530338251, "timer/agent.report_avg": 0.2165062427520752, "timer/agent.report_min": 0.2165062427520752, "timer/agent.report_max": 0.2165062427520752, "fps": 4.87838674425431}
+{"step": 995506, "episode/length": 520.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.1000000461936, "episode/reward_rate": 0.03262955854126679}
+{"step": 995685, "episode/length": 178.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0670391061452514}
+{"step": 995905, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
+{"step": 996137, "episode/length": 231.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0603448275862069}
+{"step": 996406, "episode/length": 268.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.04460966542750929}
+{"step": 996581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422602473078547, "train/action_min": 0.0, "train/action_std": 3.3070510400308146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03776496920633961, "train/actor_opt_grad_steps": 497375.0, "train/actor_opt_loss": -11.691746182538367, "train/adv_mag": 0.3964412971525579, "train/adv_max": 0.32788866416022583, "train/adv_mean": 0.0017867898806454487, "train/adv_min": -0.3478802428454966, "train/adv_std": 0.04282006686805068, "train/cont_avg": 0.9950380067567568, "train/cont_loss_mean": 5.180571876097052e-06, "train/cont_loss_std": 0.00015179276663231063, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002501615258174836, "train/cont_pos_acc": 0.999999986307041, "train/cont_pos_loss": 3.6512061968577974e-06, "train/cont_pred": 0.9950361018245285, "train/cont_rate": 0.9950380067567568, "train/dyn_loss_mean": 5.584591524021046, "train/dyn_loss_std": 8.85054916304511, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8942880533836983, "train/extr_critic_critic_opt_grad_steps": 497375.0, "train/extr_critic_critic_opt_loss": 15468.529996304898, "train/extr_critic_mag": 12.400757145237279, "train/extr_critic_max": 12.400757145237279, "train/extr_critic_mean": 3.9548440688365214, "train/extr_critic_min": -0.3491852057946695, "train/extr_critic_std": 2.961518509967907, "train/extr_return_normed_mag": 1.3584481413299974, "train/extr_return_normed_max": 1.3584481413299974, "train/extr_return_normed_mean": 0.40708526364854863, "train/extr_return_normed_min": -0.0720035011401853, "train/extr_return_normed_std": 0.3108485359195116, "train/extr_return_rate": 0.8711914532893413, "train/extr_return_raw_mag": 13.12375478486757, "train/extr_return_raw_max": 13.12375478486757, "train/extr_return_raw_mean": 3.972012645489461, "train/extr_return_raw_min": -0.6362948868725751, "train/extr_return_raw_std": 2.9904091873684444, "train/extr_reward_mag": 1.0815906750189292, "train/extr_reward_max": 1.0815906750189292, "train/extr_reward_mean": 0.06484804221907177, "train/extr_reward_min": -0.5597681628691183, "train/extr_reward_std": 0.24470102464830554, "train/image_loss_mean": 3.241733786222097, "train/image_loss_std": 8.150105276623288, "train/model_loss_mean": 6.651659250259399, "train/model_loss_std": 12.278490478928024, "train/model_opt_grad_norm": 21.845445156097412, "train/model_opt_grad_steps": 496968.3108108108, "train/model_opt_loss": 18830.63088576858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2837.837837837838, "train/policy_entropy_mag": 2.684408803243895, "train/policy_entropy_max": 2.684408803243895, "train/policy_entropy_mean": 0.3956697335517084, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5999991273557818, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3957000328479586, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0280474021628097, "train/policy_randomness_mag": 0.9474785070161562, "train/policy_randomness_max": 0.9474785070161562, "train/policy_randomness_mean": 0.13965405241863146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21177335949362935, "train/post_ent_mag": 55.742220543526315, "train/post_ent_max": 55.742220543526315, "train/post_ent_mean": 40.331710918529616, "train/post_ent_min": 19.0962170781316, "train/post_ent_std": 5.782246125710977, "train/prior_ent_mag": 76.76861891875396, "train/prior_ent_max": 76.76861891875396, "train/prior_ent_mean": 45.92528095760861, "train/prior_ent_min": 27.59228917714712, "train/prior_ent_std": 7.827593513437219, "train/rep_loss_mean": 5.584591524021046, "train/rep_loss_std": 8.85054916304511, "train/reward_avg": 0.044152501970529556, "train/reward_loss_mean": 0.05916547936362189, "train/reward_loss_std": 0.22382731997483485, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.0232514142990112, "train/reward_neg_acc": 0.9937721716391074, "train/reward_neg_loss": 0.024962457714954745, "train/reward_pos_acc": 0.9892475564737577, "train/reward_pos_loss": 0.72713830744898, "train/reward_pred": 0.04374512473775728, "train/reward_rate": 0.04863017314189189, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 15.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 4.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.6069195061922074, "replay/size": 996518.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.3235679855138793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29558897148361e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0628113746643, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.881025791168213, "timer/env.step_frac": 0.05292567152328268, "timer/env.step_avg": 0.010818137459923851, "timer/env.step_min": 0.0027625560760498047, "timer/env.step_max": 1.6101410388946533, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2760612964630127, "timer/replay.add_frac": 0.0009200116975452754, "timer/replay.add_avg": 0.00018805265426635742, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0035278797149658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0208132266998291, "timer/logger.write_frac": 6.936289973581998e-05, "timer/logger.write_avg": 0.0208132266998291, "timer/logger.write_min": 0.0208132266998291, "timer/logger.write_max": 0.0208132266998291, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.83384656906128, "timer/agent.policy_frac": 0.0361052624929716, "timer/agent.policy_avg": 0.007380004474837384, "timer/agent.policy_min": 0.005715131759643555, "timer/agent.policy_max": 0.01761341094970703, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059250831604003906, "timer/dataset_frac": 0.00019746142926729482, "timer/dataset_avg": 8.072320382016881e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.34013271331787, "timer/agent.train_frac": 0.9076104148516713, "timer/agent.train_avg": 0.37103560315165923, "timer/agent.train_min": 0.36446094512939453, "timer/agent.train_max": 0.38533997535705566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22201275825500488, "timer/agent.report_frac": 0.0007398876163224219, "timer/agent.report_avg": 0.22201275825500488, "timer/agent.report_min": 0.22201275825500488, "timer/agent.report_max": 0.22201275825500488, "fps": 4.892225224712019}
+{"step": 996605, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06532663316582915}
+{"step": 996862, "episode/length": 256.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.058365758754863814}
+{"step": 997081, "episode/length": 218.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.0547945205479452}
+{"step": 997301, "episode/length": 219.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03636363636363636}
+{"step": 997416, "episode/length": 114.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.0782608695652174}
+{"step": 997728, "episode/length": 311.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.04807692307692308}
+{"step": 997902, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.08045977011494253}
+{"step": 998017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431857256822183, "train/action_min": 0.0, "train/action_std": 3.3248239738840453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03831141434190139, "train/actor_opt_grad_steps": 498100.0, "train/actor_opt_loss": -12.015939802770884, "train/adv_mag": 0.40101493076539374, "train/adv_max": 0.3221490634998805, "train/adv_mean": 0.00169889713278037, "train/adv_min": -0.3581971228122711, "train/adv_std": 0.04280725242176526, "train/cont_avg": 0.9951722051056338, "train/cont_loss_mean": 1.6746076367018532e-05, "train/cont_loss_std": 0.0005088802560617472, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.0025700959976508726, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.7043984208337518e-06, "train/cont_pred": 0.9951797488709571, "train/cont_rate": 0.9951722051056338, "train/dyn_loss_mean": 5.479317436755543, "train/dyn_loss_std": 8.84582233428955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9074392259960443, "train/extr_critic_critic_opt_grad_steps": 498100.0, "train/extr_critic_critic_opt_loss": 15414.009806888203, "train/extr_critic_mag": 12.559331987945127, "train/extr_critic_max": 12.559331987945127, "train/extr_critic_mean": 3.9612371182777513, "train/extr_critic_min": -0.3786740235879388, "train/extr_critic_std": 3.0084062932242808, "train/extr_return_normed_mag": 1.3653594893468937, "train/extr_return_normed_max": 1.3653594893468937, "train/extr_return_normed_mean": 0.40887138583290744, "train/extr_return_normed_min": -0.07923947400610212, "train/extr_return_normed_std": 0.31439005489080724, "train/extr_return_rate": 0.86830073595047, "train/extr_return_raw_mag": 13.197632668723523, "train/extr_return_raw_max": 13.197632668723523, "train/extr_return_raw_mean": 3.977623892502046, "train/extr_return_raw_min": -0.7273354992060594, "train/extr_return_raw_std": 3.030515711072465, "train/extr_reward_mag": 1.075132772956096, "train/extr_reward_max": 1.075132772956096, "train/extr_reward_mean": 0.06385133179350638, "train/extr_reward_min": -0.643356010947429, "train/extr_reward_std": 0.24281505883579524, "train/image_loss_mean": 3.086807286235648, "train/image_loss_std": 8.182661654244006, "train/model_loss_mean": 6.431856303147867, "train/model_loss_std": 12.297177019253583, "train/model_opt_grad_norm": 22.701063491928746, "train/model_opt_grad_steps": 497692.78873239434, "train/model_opt_loss": 17543.280190911093, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2746.478873239437, "train/policy_entropy_mag": 2.6944790893877055, "train/policy_entropy_max": 2.6944790893877055, "train/policy_entropy_mean": 0.40835186104539417, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6155869834859606, "train/policy_logprob_mag": 7.438384331447978, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4085275868714695, "train/policy_logprob_min": -7.438384331447978, "train/policy_logprob_std": 1.0369917053571889, "train/policy_randomness_mag": 0.9510328761288818, "train/policy_randomness_max": 0.9510328761288818, "train/policy_randomness_mean": 0.14413028693115207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21727518737316132, "train/post_ent_mag": 55.31991770569707, "train/post_ent_max": 55.31991770569707, "train/post_ent_mean": 40.35810594155755, "train/post_ent_min": 19.806164244530905, "train/post_ent_std": 5.770403156817799, "train/prior_ent_mag": 76.78998984753245, "train/prior_ent_max": 76.78998984753245, "train/prior_ent_mean": 45.826945506351095, "train/prior_ent_min": 27.644764779319225, "train/prior_ent_std": 7.810005490209015, "train/rep_loss_mean": 5.479317436755543, "train/rep_loss_std": 8.84582233428955, "train/reward_avg": 0.04332223810045652, "train/reward_loss_mean": 0.05744185282940596, "train/reward_loss_std": 0.2181252100518052, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0242198672093137, "train/reward_neg_acc": 0.9937391658903847, "train/reward_neg_loss": 0.02385386048068463, "train/reward_pos_acc": 0.989568230131982, "train/reward_pos_loss": 0.7260774046602384, "train/reward_pred": 0.04291301107847355, "train/reward_rate": 0.047755281690140844, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4001708967345102, "replay/size": 997954.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3275662690484093e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.322239388330401e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21846413612366, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.84221363067627, "timer/env.step_frac": 0.06276167485199352, "timer/env.step_avg": 0.01312131868431495, "timer/env.step_min": 0.0025787353515625, "timer/env.step_max": 2.064493179321289, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26239943504333496, "timer/replay.add_frac": 0.0008740283040165012, "timer/replay.add_avg": 0.00018272941159006614, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.003927946090698242, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02111077308654785, "timer/logger.write_frac": 7.031803705776038e-05, "timer/logger.write_avg": 0.02111077308654785, "timer/logger.write_min": 0.02111077308654785, "timer/logger.write_max": 0.02111077308654785, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008225440979003906, "timer/checkpoint.save_frac": 2.7398184860723175e-06, "timer/checkpoint.save_avg": 0.0008225440979003906, "timer/checkpoint.save_min": 0.0008225440979003906, "timer/checkpoint.save_max": 0.0008225440979003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.211183786392212, "timer/agent.save_frac": 0.004034341424926625, "timer/agent.save_avg": 1.211183786392212, "timer/agent.save_min": 1.211183786392212, "timer/agent.save_max": 1.211183786392212, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6365789489159694e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 13.95835542678833, "timer/agent.policy_frac": 0.046493993855285985, "timer/agent.policy_avg": 0.009720303221997444, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 2.360825777053833, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0578310489654541, "timer/dataset_frac": 0.0001926298874783152, "timer/dataset_avg": 8.054463644213663e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001614093780517578, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.4224646091461, "timer/agent.train_frac": 0.8874286442566907, "timer/agent.train_avg": 0.3710619284249946, "timer/agent.train_min": 0.3640596866607666, "timer/agent.train_max": 0.38476085662841797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212674617767334, "timer/agent.report_frac": 0.000737021496707169, "timer/agent.report_avg": 0.2212674617767334, "timer/agent.report_min": 0.2212674617767334, "timer/agent.report_max": 0.2212674617767334, "fps": 4.783078184962498}
+{"step": 998112, "episode/length": 209.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.047619047619047616}
+{"step": 998317, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06829268292682927}
+{"step": 998566, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05622489959839357}
+{"step": 998720, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
+{"step": 998906, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
+{"step": 999119, "episode/length": 212.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.100000001490116, "episode/reward_rate": 0.07511737089201878}
+{"step": 999304, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08108108108108109}
+{"step": 999479, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37811279296875, "train/action_min": 0.0, "train/action_std": 3.262286083118336, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834568910502099, "train/actor_opt_grad_steps": 498825.0, "train/actor_opt_loss": -10.71165933480134, "train/adv_mag": 0.44723934680223465, "train/adv_max": 0.3622974405014837, "train/adv_mean": 0.0019902368534365058, "train/adv_min": -0.40329822495176987, "train/adv_std": 0.04341376910137164, "train/cont_avg": 0.9945761190878378, "train/cont_loss_mean": 0.00032535134443615005, "train/cont_loss_std": 0.010199860201368751, "train/cont_neg_acc": 0.9946911206116548, "train/cont_neg_loss": 0.02070395065334004, "train/cont_pos_acc": 0.999986745215751, "train/cont_pos_loss": 0.00016976465919225502, "train/cont_pred": 0.9945770751785588, "train/cont_rate": 0.9945761190878378, "train/dyn_loss_mean": 5.635026454925537, "train/dyn_loss_std": 8.993393015217137, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9354708686068252, "train/extr_critic_critic_opt_grad_steps": 498825.0, "train/extr_critic_critic_opt_loss": 15312.12232105152, "train/extr_critic_mag": 12.336493994738605, "train/extr_critic_max": 12.336493994738605, "train/extr_critic_mean": 3.969267455307213, "train/extr_critic_min": -0.32966149014395635, "train/extr_critic_std": 3.006753692755828, "train/extr_return_normed_mag": 1.373661495543815, "train/extr_return_normed_max": 1.373661495543815, "train/extr_return_normed_mean": 0.4118003474699484, "train/extr_return_normed_min": -0.07523708740198934, "train/extr_return_normed_std": 0.31761454388096527, "train/extr_return_rate": 0.875344921608229, "train/extr_return_raw_mag": 13.177974017890724, "train/extr_return_raw_max": 13.177974017890724, "train/extr_return_raw_mean": 3.988272876352877, "train/extr_return_raw_min": -0.6657931405950237, "train/extr_return_raw_std": 3.0349330418818705, "train/extr_reward_mag": 1.081103821058531, "train/extr_reward_max": 1.081103821058531, "train/extr_reward_mean": 0.06478839423004035, "train/extr_reward_min": -0.598207763723425, "train/extr_reward_std": 0.24434491750356313, "train/image_loss_mean": 3.302735078979183, "train/image_loss_std": 8.468642028602394, "train/model_loss_mean": 6.745825838398289, "train/model_loss_std": 12.65817472097036, "train/model_opt_grad_norm": 22.74815524590982, "train/model_opt_grad_steps": 498417.0, "train/model_opt_loss": 16864.564611486487, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6961644114674748, "train/policy_entropy_max": 2.6961644114674748, "train/policy_entropy_mean": 0.3951648161620707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6053859531073957, "train/policy_logprob_mag": 7.438384307397379, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3947710721073924, "train/policy_logprob_min": -7.438384307397379, "train/policy_logprob_std": 1.0247124723485999, "train/policy_randomness_mag": 0.9516277224630922, "train/policy_randomness_max": 0.9516277224630922, "train/policy_randomness_mean": 0.1394758393635621, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2136746747670947, "train/post_ent_mag": 56.00508385735589, "train/post_ent_max": 56.00508385735589, "train/post_ent_mean": 40.22330382063582, "train/post_ent_min": 19.451754595782305, "train/post_ent_std": 5.844212409612295, "train/prior_ent_mag": 76.89127226133604, "train/prior_ent_max": 76.89127226133604, "train/prior_ent_mean": 45.85037659310006, "train/prior_ent_min": 27.708888182768952, "train/prior_ent_std": 7.924085520409249, "train/rep_loss_mean": 5.635026454925537, "train/rep_loss_std": 8.993393015217137, "train/reward_avg": 0.04382126252292781, "train/reward_loss_mean": 0.061749544397399235, "train/reward_loss_std": 0.22894404667454796, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.0298481116423737, "train/reward_neg_acc": 0.9931628011368416, "train/reward_neg_loss": 0.027793548510384722, "train/reward_pos_acc": 0.9886479514676172, "train/reward_pos_loss": 0.7283445685296446, "train/reward_pred": 0.04357225868246845, "train/reward_rate": 0.04861697635135135, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3469520615679877, "replay/size": 999416.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.210170813689643e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3856449140243427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30165362358093, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.02630376815796, "timer/env.step_frac": 0.06002732103085049, "timer/env.step_avg": 0.012329893138274938, "timer/env.step_min": 0.0027153491973876953, "timer/env.step_max": 1.6053216457366943, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2686500549316406, "timer/replay.add_frac": 0.0008946006513450151, "timer/replay.add_avg": 0.00018375516753190194, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.004161834716796875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02397608757019043, "timer/logger.write_frac": 7.984001180440962e-05, "timer/logger.write_avg": 0.02397608757019043, "timer/logger.write_min": 0.02397608757019043, "timer/logger.write_max": 0.02397608757019043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.56257438659668, "timer/agent.policy_frac": 0.03517321419693729, "timer/agent.policy_avg": 0.007224743082487469, "timer/agent.policy_min": 0.005774736404418945, "timer/agent.policy_max": 0.015903472900390625, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05810189247131348, "timer/dataset_frac": 0.000193478430006058, "timer/dataset_avg": 7.948275303873252e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.7177791595459, "timer/agent.train_frac": 0.901486141994018, "timer/agent.train_avg": 0.37033895917858534, "timer/agent.train_min": 0.36377596855163574, "timer/agent.train_max": 0.38353729248046875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21823525428771973, "timer/agent.report_frac": 0.0007267201217655332, "timer/agent.report_avg": 0.21823525428771973, "timer/agent.report_min": 0.21823525428771973, "timer/agent.report_max": 0.21823525428771973, "fps": 4.868342680377332}
+{"step": 999520, "episode/length": 215.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.500000059604645, "episode/reward_rate": 0.07407407407407407}
+{"step": 999704, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
+{"step": 999974, "episode/length": 269.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.05185185185185185}
+{"step": 1000195, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06787330316742081}
+{"step": 1000463, "episode/length": 267.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05223880597014925}
+{"step": 1000602, "episode/length": 138.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08633093525179857}
+{"step": 1000900, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.050335570469798654}
+{"step": 1000931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425784640842014, "train/action_min": 0.0, "train/action_std": 3.2822574542628393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03786997453102635, "train/actor_opt_grad_steps": 499555.0, "train/actor_opt_loss": -11.033747147561776, "train/adv_mag": 0.39441581691304844, "train/adv_max": 0.3202181431568331, "train/adv_mean": 0.0020398339024217827, "train/adv_min": -0.36339911735720104, "train/adv_std": 0.042987886609302625, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 9.428296053126672e-05, "train/cont_loss_std": 0.0029630913458104954, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.01480371673186593, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.87954299872082e-06, "train/cont_pred": 0.994920459886392, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.59234486023585, "train/dyn_loss_std": 8.8487069606781, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9192208035124673, "train/extr_critic_critic_opt_grad_steps": 499555.0, "train/extr_critic_critic_opt_loss": 15310.051147460938, "train/extr_critic_mag": 12.360421352916294, "train/extr_critic_max": 12.360421352916294, "train/extr_critic_mean": 4.011571870909797, "train/extr_critic_min": -0.3491779598924849, "train/extr_critic_std": 2.960655517048306, "train/extr_return_normed_mag": 1.3649848749240239, "train/extr_return_normed_max": 1.3649848749240239, "train/extr_return_normed_mean": 0.41629308379358715, "train/extr_return_normed_min": -0.07855607191514638, "train/extr_return_normed_std": 0.3123026457097795, "train/extr_return_rate": 0.874174490571022, "train/extr_return_raw_mag": 13.10610028107961, "train/extr_return_raw_max": 13.10610028107961, "train/extr_return_raw_mean": 4.031094961696201, "train/extr_return_raw_min": -0.70286450907588, "train/extr_return_raw_std": 2.9878697295983634, "train/extr_reward_mag": 1.0750490228335063, "train/extr_reward_max": 1.0750490228335063, "train/extr_reward_mean": 0.06524114688444468, "train/extr_reward_min": -0.6249193400144577, "train/extr_reward_std": 0.24490545131266117, "train/image_loss_mean": 3.2012278139591217, "train/image_loss_std": 8.15073155032264, "train/model_loss_mean": 6.615913795100318, "train/model_loss_std": 12.262406865755716, "train/model_opt_grad_norm": 21.248810271142233, "train/model_opt_grad_steps": 499146.19444444444, "train/model_opt_loss": 17497.723225911457, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6805886129538217, "train/policy_entropy_max": 2.6805886129538217, "train/policy_entropy_mean": 0.3837792345633109, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.582880675378773, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38346692526506054, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0119602440132036, "train/policy_randomness_mag": 0.9461301490664482, "train/policy_randomness_max": 0.9461301490664482, "train/policy_randomness_mean": 0.13545722576479116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20573129980928367, "train/post_ent_mag": 55.441084702809654, "train/post_ent_max": 55.441084702809654, "train/post_ent_mean": 40.245129426320396, "train/post_ent_min": 19.751398669348823, "train/post_ent_std": 5.7787712415059405, "train/prior_ent_mag": 76.83623112572565, "train/prior_ent_max": 76.83623112572565, "train/prior_ent_mean": 45.82495625813802, "train/prior_ent_min": 27.589460452397663, "train/prior_ent_std": 7.8786589701970415, "train/rep_loss_mean": 5.59234486023585, "train/rep_loss_std": 8.8487069606781, "train/reward_avg": 0.04510498044287993, "train/reward_loss_mean": 0.0591847579408851, "train/reward_loss_std": 0.22073729439742035, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0316330426269107, "train/reward_neg_acc": 0.9936089432901807, "train/reward_neg_loss": 0.024452410431371793, "train/reward_pos_acc": 0.9894104210866822, "train/reward_pos_loss": 0.7248603949944178, "train/reward_pred": 0.0448528403778457, "train/reward_rate": 0.049628363715277776, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 2.4285714285714284, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5114219380276543, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2426240358799285e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3155303382348095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05438017845154, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.926059246063232, "timer/env.step_frac": 0.0630754306429632, "timer/env.step_avg": 0.013034476064781841, "timer/env.step_min": 0.0029036998748779297, "timer/env.step_max": 1.6205763816833496, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2801845073699951, "timer/replay.add_frac": 0.0009337790943207055, "timer/replay.add_avg": 0.000192964536756195, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008771419525146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020929574966430664, "timer/logger.write_frac": 6.975260602422536e-05, "timer/logger.write_avg": 0.020929574966430664, "timer/logger.write_min": 0.020929574966430664, "timer/logger.write_max": 0.020929574966430664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.664009809494019, "timer/agent.policy_frac": 0.035540257079906, "timer/agent.policy_avg": 0.007344359372929765, "timer/agent.policy_min": 0.005681037902832031, "timer/agent.policy_max": 0.01724720001220703, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05859518051147461, "timer/dataset_frac": 0.0001952818701617562, "timer/dataset_avg": 8.070961502957935e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4504659175873, "timer/agent.train_frac": 0.8980054407382316, "timer/agent.train_avg": 0.37114389244846735, "timer/agent.train_min": 0.36417245864868164, "timer/agent.train_max": 0.385514497756958, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21726226806640625, "timer/agent.report_frac": 0.0007240763088917206, "timer/agent.report_avg": 0.21726226806640625, "timer/agent.report_min": 0.21726226806640625, "timer/agent.report_max": 0.21726226806640625, "fps": 4.8390542684328315}
+{"step": 1001104, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.07352941176470588}
+{"step": 1001254, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06}
+{"step": 1001590, "episode/length": 335.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.047619047619047616}
+{"step": 1001809, "episode/length": 218.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0547945205479452}
+{"step": 1002056, "episode/length": 246.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06477732793522267}
+{"step": 1002249, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05181347150259067}
+{"step": 1002373, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363684760199653, "train/action_min": 0.0, "train/action_std": 3.2004842493269177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040540829895892076, "train/actor_opt_grad_steps": 500275.0, "train/actor_opt_loss": -11.578563920325703, "train/adv_mag": 0.4316582116815779, "train/adv_max": 0.3462205609927575, "train/adv_mean": 0.0021269505432807514, "train/adv_min": -0.3972496711131599, "train/adv_std": 0.044681970650951065, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 0.00010199876296438741, "train/cont_loss_std": 0.003184249888330252, "train/cont_neg_acc": 0.9964229833911842, "train/cont_neg_loss": 0.008458792501888353, "train/cont_pos_acc": 0.9999863646096654, "train/cont_pos_loss": 3.928866976850761e-05, "train/cont_pred": 0.9951365424527062, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.55328604247835, "train/dyn_loss_std": 8.879909912745157, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.877047672867775, "train/extr_critic_critic_opt_grad_steps": 500275.0, "train/extr_critic_critic_opt_loss": 15450.115614149305, "train/extr_critic_mag": 12.372660319010416, "train/extr_critic_max": 12.372660319010416, "train/extr_critic_mean": 4.037530399031109, "train/extr_critic_min": -0.36053071750534904, "train/extr_critic_std": 2.939322772953245, "train/extr_return_normed_mag": 1.3779113954967923, "train/extr_return_normed_max": 1.3779113954967923, "train/extr_return_normed_mean": 0.4175591270128886, "train/extr_return_normed_min": -0.08063700960742103, "train/extr_return_normed_std": 0.30990978847775197, "train/extr_return_rate": 0.881825135813819, "train/extr_return_raw_mag": 13.25610687997606, "train/extr_return_raw_max": 13.25610687997606, "train/extr_return_raw_mean": 4.057901130782233, "train/extr_return_raw_min": -0.7137353776229752, "train/extr_return_raw_std": 2.968355221880807, "train/extr_reward_mag": 1.0732457472218409, "train/extr_reward_max": 1.0732457472218409, "train/extr_reward_mean": 0.06394245201307866, "train/extr_reward_min": -0.643466603424814, "train/extr_reward_std": 0.24280396559172207, "train/image_loss_mean": 3.1798218372795315, "train/image_loss_std": 8.630687826209599, "train/model_loss_mean": 6.568664100435045, "train/model_loss_std": 12.713739607069227, "train/model_opt_grad_norm": 20.80666548675961, "train/model_opt_grad_steps": 499865.7361111111, "train/model_opt_loss": 18760.77266438802, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.667607800828086, "train/policy_entropy_max": 2.667607800828086, "train/policy_entropy_mean": 0.36418418813910747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5642807458837827, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3636744250026014, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9977257640825378, "train/policy_randomness_mag": 0.9415484873784913, "train/policy_randomness_max": 0.9415484873784913, "train/policy_randomness_mean": 0.12854103702637884, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19916634158127838, "train/post_ent_mag": 55.0988056924608, "train/post_ent_max": 55.0988056924608, "train/post_ent_mean": 40.14619265662299, "train/post_ent_min": 19.577078315946792, "train/post_ent_std": 5.7662383980221215, "train/prior_ent_mag": 76.8292441897922, "train/prior_ent_max": 76.8292441897922, "train/prior_ent_mean": 45.65837446848551, "train/prior_ent_min": 27.972921000586616, "train/prior_ent_std": 7.821238352192773, "train/rep_loss_mean": 5.55328604247835, "train/rep_loss_std": 8.879909912745157, "train/reward_avg": 0.0430935324014475, "train/reward_loss_mean": 0.05676868495841821, "train/reward_loss_std": 0.2041921652853489, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.030230187707477, "train/reward_neg_acc": 0.9933554397688972, "train/reward_neg_loss": 0.02396967691472835, "train/reward_pos_acc": 0.9927944772773318, "train/reward_pos_loss": 0.7137396741244528, "train/reward_pred": 0.04279558567537202, "train/reward_rate": 0.047539605034722224, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4566435267527898, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.2651110264200113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2935282618592748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2526025772095, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.938421487808228, "timer/env.step_frac": 0.06307496196619393, "timer/env.step_avg": 0.013133440698896135, "timer/env.step_min": 0.002826213836669922, "timer/env.step_max": 1.7755918502807617, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2892277240753174, "timer/replay.add_frac": 0.0009632813224356413, "timer/replay.add_avg": 0.0002005740111479316, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.004018545150756836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023468971252441406, "timer/logger.write_frac": 7.816408934009623e-05, "timer/logger.write_avg": 0.023468971252441406, "timer/logger.write_min": 0.023468971252441406, "timer/logger.write_max": 0.023468971252441406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037217140197753906, "timer/checkpoint.save_frac": 1.23952764699795e-06, "timer/checkpoint.save_avg": 0.00037217140197753906, "timer/checkpoint.save_min": 0.00037217140197753906, "timer/checkpoint.save_max": 0.00037217140197753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1962156295776367, "timer/agent.save_frac": 0.003984030843729429, "timer/agent.save_avg": 1.1962156295776367, "timer/agent.save_min": 1.1962156295776367, "timer/agent.save_max": 1.1962156295776367, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.435943603515625e-05, "timer/replay.save_frac": 1.8104567810091774e-07, "timer/replay.save_avg": 5.435943603515625e-05, "timer/replay.save_min": 5.435943603515625e-05, "timer/replay.save_max": 5.435943603515625e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.397513389587402, "timer/agent.policy_frac": 0.041290277863284805, "timer/agent.policy_avg": 0.008597443404706936, "timer/agent.policy_min": 0.005559682846069336, "timer/agent.policy_max": 1.1770861148834229, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05921220779418945, "timer/dataset_frac": 0.000197207975171383, "timer/dataset_avg": 8.21251148324403e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.8845217227936, "timer/agent.train_frac": 0.89219716806254, "timer/agent.train_avg": 0.3715457998929176, "timer/agent.train_min": 0.36481332778930664, "timer/agent.train_max": 0.8122105598449707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915960311889648, "timer/agent.report_frac": 0.0007299174136635167, "timer/agent.report_avg": 0.21915960311889648, "timer/agent.report_min": 0.21915960311889648, "timer/agent.report_max": 0.21915960311889648, "fps": 4.802535708996406}
+{"step": 1002489, "episode/length": 239.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.0625}
+{"step": 1002727, "episode/length": 237.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06302521008403361}
+{"step": 1002968, "episode/length": 240.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06224066390041494}
+{"step": 1003474, "episode/length": 505.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 16.300000078976154, "episode/reward_rate": 0.025691699604743084}
+{"step": 1003677, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06403940886699508}
+{"step": 1003841, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473940462679477, "train/action_min": 0.0, "train/action_std": 3.303334084717003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03762297732503833, "train/actor_opt_grad_steps": 501005.0, "train/actor_opt_loss": -11.895895307933962, "train/adv_mag": 0.3792262176001394, "train/adv_max": 0.31591604307696625, "train/adv_mean": 0.0019975126393251843, "train/adv_min": -0.34489998946318756, "train/adv_std": 0.04283284894316583, "train/cont_avg": 0.9951303842905406, "train/cont_loss_mean": 1.8006762364285656e-05, "train/cont_loss_std": 0.0005217324952524592, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015582828450058277, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 7.523966500067937e-06, "train/cont_pred": 0.9951316609575942, "train/cont_rate": 0.9951303842905406, "train/dyn_loss_mean": 5.770263207925333, "train/dyn_loss_std": 9.000913400907773, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9483166892786283, "train/extr_critic_critic_opt_grad_steps": 501005.0, "train/extr_critic_critic_opt_loss": 15598.111367715372, "train/extr_critic_mag": 12.389452547640413, "train/extr_critic_max": 12.389452547640413, "train/extr_critic_mean": 3.826341464712813, "train/extr_critic_min": -0.3914690887605822, "train/extr_critic_std": 2.962414106807193, "train/extr_return_normed_mag": 1.3640593483641341, "train/extr_return_normed_max": 1.3640593483641341, "train/extr_return_normed_mean": 0.3951867073774338, "train/extr_return_normed_min": -0.0786678658143894, "train/extr_return_normed_std": 0.3119819434107961, "train/extr_return_rate": 0.8535878102521639, "train/extr_return_raw_mag": 13.129495775377428, "train/extr_return_raw_max": 13.129495775377428, "train/extr_return_raw_mean": 3.8454913899705216, "train/extr_return_raw_min": -0.6952160814323941, "train/extr_return_raw_std": 2.9896499289048686, "train/extr_reward_mag": 1.0780693550367613, "train/extr_reward_max": 1.0780693550367613, "train/extr_reward_mean": 0.062524971375997, "train/extr_reward_min": -0.597058971185942, "train/extr_reward_std": 0.24044605263987104, "train/image_loss_mean": 3.4426089122488692, "train/image_loss_std": 8.966315224363997, "train/model_loss_mean": 6.9632768502106535, "train/model_loss_std": 13.13802313160252, "train/model_opt_grad_norm": 23.02509748613512, "train/model_opt_grad_steps": 500595.0, "train/model_opt_loss": 17408.19214527027, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6591055296562813, "train/policy_entropy_max": 2.6591055296562813, "train/policy_entropy_mean": 0.3957530964870711, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5946659308833044, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39588712034998713, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.023479910315694, "train/policy_randomness_mag": 0.9385475604920774, "train/policy_randomness_max": 0.9385475604920774, "train/policy_randomness_mean": 0.1396834754661934, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20989097544067614, "train/post_ent_mag": 55.37786854924382, "train/post_ent_max": 55.37786854924382, "train/post_ent_mean": 40.45004195135993, "train/post_ent_min": 19.486221571226377, "train/post_ent_std": 5.798504230138418, "train/prior_ent_mag": 76.80588510874155, "train/prior_ent_max": 76.80588510874155, "train/prior_ent_mean": 46.21737232723751, "train/prior_ent_min": 27.18026908668312, "train/prior_ent_std": 7.861969103684297, "train/rep_loss_mean": 5.770263207925333, "train/rep_loss_std": 9.000913400907773, "train/reward_avg": 0.04313634894788265, "train/reward_loss_mean": 0.05849204423862535, "train/reward_loss_std": 0.21455168482419607, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0323164511371303, "train/reward_neg_acc": 0.992553263097196, "train/reward_neg_loss": 0.02546929946874042, "train/reward_pos_acc": 0.9895851007989935, "train/reward_pos_loss": 0.7218432853350768, "train/reward_pred": 0.04292561629837429, "train/reward_rate": 0.047587626689189186, "stats/sum_log_reward": 13.099999809265137, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 7.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 15.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.4596833139657974, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.3128488940828826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29266558291152e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0466396808624, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.82645320892334, "timer/env.step_frac": 0.05274664374097566, "timer/env.step_avg": 0.010780962676378297, "timer/env.step_min": 0.0028505325317382812, "timer/env.step_max": 1.627838134765625, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.30520081520080566, "timer/replay.add_frac": 0.001017177914491645, "timer/replay.add_avg": 0.00020790246267084854, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0054094791412353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03155875205993652, "timer/logger.write_frac": 0.00010517948840721313, "timer/logger.write_avg": 0.03155875205993652, "timer/logger.write_min": 0.03155875205993652, "timer/logger.write_max": 0.03155875205993652, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.765774250030518, "timer/agent.policy_frac": 0.03588033600869945, "timer/agent.policy_avg": 0.007333633685306892, "timer/agent.policy_min": 0.00581812858581543, "timer/agent.policy_max": 0.017096519470214844, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059156179428100586, "timer/dataset_frac": 0.00019715661368852747, "timer/dataset_avg": 8.059424990204439e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020623207092285156, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3982262611389, "timer/agent.train_frac": 0.9078529476313046, "timer/agent.train_avg": 0.3711147496745762, "timer/agent.train_min": 0.3641645908355713, "timer/agent.train_max": 0.38717198371887207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21766448020935059, "timer/agent.report_frac": 0.0007254354870991533, "timer/agent.report_avg": 0.21766448020935059, "timer/agent.report_min": 0.21766448020935059, "timer/agent.report_max": 0.21766448020935059, "fps": 4.892514676109929}
+{"step": 1004078, "episode/length": 400.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.034912718204488775}
+{"step": 1004293, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05581395348837209}
+{"step": 1004489, "episode/length": 195.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.0663265306122449}
+{"step": 1004688, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06030150753768844}
+{"step": 1004736, "episode/length": 47.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.14583333333333334}
+{"step": 1004966, "episode/length": 229.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.05217391304347826}
+{"step": 1005285, "episode/length": 318.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04075235109717868}
+{"step": 1005295, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.460121154785156, "train/action_min": 0.0, "train/action_std": 3.3026964399549694, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037872119418655835, "train/actor_opt_grad_steps": 501735.0, "train/actor_opt_loss": -11.829872368912524, "train/adv_mag": 0.36511966296368176, "train/adv_max": 0.29959517655273277, "train/adv_mean": 0.001949800493927493, "train/adv_min": -0.33941848513980705, "train/adv_std": 0.04231991282560759, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 6.567817337677084e-05, "train/cont_loss_std": 0.002051873755250671, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.013614628601399344, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.235920958785207e-05, "train/cont_pred": 0.9952303692698479, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.5651003453466625, "train/dyn_loss_std": 8.933490263091194, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9189102525512377, "train/extr_critic_critic_opt_grad_steps": 501735.0, "train/extr_critic_critic_opt_loss": 15334.584025065104, "train/extr_critic_mag": 12.330594102541605, "train/extr_critic_max": 12.330594102541605, "train/extr_critic_mean": 3.911618944671419, "train/extr_critic_min": -0.36728713578648037, "train/extr_critic_std": 2.941349681880739, "train/extr_return_normed_mag": 1.357585276166598, "train/extr_return_normed_max": 1.357585276166598, "train/extr_return_normed_mean": 0.4040239602327347, "train/extr_return_normed_min": -0.07683667638856503, "train/extr_return_normed_std": 0.3093843495266305, "train/extr_return_rate": 0.8726083743903372, "train/extr_return_raw_mag": 13.077603684531319, "train/extr_return_raw_max": 13.077603684531319, "train/extr_return_raw_mean": 3.9303148455089993, "train/extr_return_raw_min": -0.6825535429848565, "train/extr_return_raw_std": 2.9679108262062073, "train/extr_reward_mag": 1.07428644100825, "train/extr_reward_max": 1.07428644100825, "train/extr_reward_mean": 0.06327360759799679, "train/extr_reward_min": -0.6181281937493218, "train/extr_reward_std": 0.24181288791199526, "train/image_loss_mean": 3.2601247661643558, "train/image_loss_std": 8.590263227621714, "train/model_loss_mean": 6.657455113199022, "train/model_loss_std": 12.763162043359545, "train/model_opt_grad_norm": 20.41799904240502, "train/model_opt_grad_steps": 501324.2638888889, "train/model_opt_loss": 19118.9697265625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.6767730679776935, "train/policy_entropy_max": 2.6767730679776935, "train/policy_entropy_mean": 0.3938171054340071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5956345192260213, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3938996738029851, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0227915578418307, "train/policy_randomness_mag": 0.9447834251655473, "train/policy_randomness_max": 0.9447834251655473, "train/policy_randomness_mean": 0.13900015513516134, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21023284581800303, "train/post_ent_mag": 55.18336746427748, "train/post_ent_max": 55.18336746427748, "train/post_ent_mean": 40.300550884670685, "train/post_ent_min": 19.618596606784397, "train/post_ent_std": 5.781287776099311, "train/prior_ent_mag": 76.84118631150987, "train/prior_ent_max": 76.84118631150987, "train/prior_ent_mean": 45.86521975199381, "train/prior_ent_min": 27.45738877190484, "train/prior_ent_std": 7.873186568419139, "train/rep_loss_mean": 5.5651003453466625, "train/rep_loss_std": 8.933490263091194, "train/reward_avg": 0.04386528871125645, "train/reward_loss_mean": 0.05820446973666549, "train/reward_loss_std": 0.22103958225084674, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.03106399708324, "train/reward_neg_acc": 0.9934948003954358, "train/reward_neg_loss": 0.02454477799538937, "train/reward_pos_acc": 0.9911484718322754, "train/reward_pos_loss": 0.7237082637018628, "train/reward_pred": 0.04363591834488842, "train/reward_rate": 0.04823133680555555, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 16.428571428571427, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5077657316412244, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2448867000280746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3339306334189896e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0294396877289, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.551538467407227, "timer/env.step_frac": 0.061832393803473745, "timer/env.step_avg": 0.012758967309083375, "timer/env.step_min": 0.00272369384765625, "timer/env.step_max": 1.6018893718719482, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29452991485595703, "timer/replay.add_frac": 0.0009816700493208408, "timer/replay.add_avg": 0.00020256527844288654, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002434253692626953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0218045711517334, "timer/logger.write_frac": 7.267477209712364e-05, "timer/logger.write_avg": 0.0218045711517334, "timer/logger.write_min": 0.0218045711517334, "timer/logger.write_max": 0.0218045711517334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.7192223072052, "timer/agent.policy_frac": 0.03572723502854181, "timer/agent.policy_avg": 0.007372229922424484, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 0.01306462287902832, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05952930450439453, "timer/dataset_frac": 0.00019841154443494855, "timer/dataset_avg": 8.188350000604475e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7196834087372, "timer/agent.train_frac": 0.8989773926500741, "timer/agent.train_avg": 0.3710036910711653, "timer/agent.train_min": 0.36475133895874023, "timer/agent.train_max": 0.38425230979919434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2167203426361084, "timer/agent.report_frac": 0.0007223302581962333, "timer/agent.report_avg": 0.2167203426361084, "timer/agent.report_min": 0.2167203426361084, "timer/agent.report_max": 0.2167203426361084, "fps": 4.8461060118384625}
+{"step": 1005458, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
+{"step": 1005688, "episode/length": 229.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.06521739130434782}
+{"step": 1005990, "episode/length": 301.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.04966887417218543}
+{"step": 1006247, "episode/length": 256.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.054474708171206226}
+{"step": 1006473, "episode/length": 225.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.06637168141592921}
+{"step": 1006729, "episode/length": 255.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0625}
+{"step": 1006733, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.344822353786892, "train/action_min": 0.0, "train/action_std": 3.2100614806016288, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038660516341527305, "train/actor_opt_grad_steps": 502455.0, "train/actor_opt_loss": -12.664317432377073, "train/adv_mag": 0.41748858036266434, "train/adv_max": 0.32169038740297157, "train/adv_mean": 0.0017934190106656286, "train/adv_min": -0.3956471395989259, "train/adv_std": 0.04377694345182843, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 2.021308619898971e-05, "train/cont_loss_std": 0.0005673947068526925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023919933211067088, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8989171512847253e-05, "train/cont_pred": 0.9946410515242152, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.7025768756866455, "train/dyn_loss_std": 8.90884076886707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8887353266278902, "train/extr_critic_critic_opt_grad_steps": 502455.0, "train/extr_critic_critic_opt_loss": 15382.801540798611, "train/extr_critic_mag": 12.449025538232592, "train/extr_critic_max": 12.449025538232592, "train/extr_critic_mean": 4.06931025452084, "train/extr_critic_min": -0.31436531245708466, "train/extr_critic_std": 3.0025825930966272, "train/extr_return_normed_mag": 1.3679615375068452, "train/extr_return_normed_max": 1.3679615375068452, "train/extr_return_normed_mean": 0.41882890090346336, "train/extr_return_normed_min": -0.07185137295164168, "train/extr_return_normed_std": 0.3143295072433021, "train/extr_return_rate": 0.8757975680960549, "train/extr_return_raw_mag": 13.247097783618504, "train/extr_return_raw_max": 13.247097783618504, "train/extr_return_raw_mean": 4.086632185512119, "train/extr_return_raw_min": -0.6497128821081586, "train/extr_return_raw_std": 3.0339451829592385, "train/extr_reward_mag": 1.0724514292346106, "train/extr_reward_max": 1.0724514292346106, "train/extr_reward_mean": 0.06504032517679864, "train/extr_reward_min": -0.5515146652857462, "train/extr_reward_std": 0.24489202039937177, "train/image_loss_mean": 3.283283139268557, "train/image_loss_std": 8.68778332736757, "train/model_loss_mean": 6.76450166437361, "train/model_loss_std": 12.81006415685018, "train/model_opt_grad_norm": 24.538608802689446, "train/model_opt_grad_steps": 502043.2638888889, "train/model_opt_loss": 10589.673366970486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.656010342968835, "train/policy_entropy_max": 2.656010342968835, "train/policy_entropy_mean": 0.361820659496718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.553222311867608, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36268162520395386, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 0.9982026351822747, "train/policy_randomness_mag": 0.9374550945229001, "train/policy_randomness_max": 0.9374550945229001, "train/policy_randomness_mean": 0.1277068153851562, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19526319868034786, "train/post_ent_mag": 55.418617725372314, "train/post_ent_max": 55.418617725372314, "train/post_ent_mean": 40.12195237477621, "train/post_ent_min": 19.56792488363054, "train/post_ent_std": 5.766565197043949, "train/prior_ent_mag": 76.73405890994601, "train/prior_ent_max": 76.73405890994601, "train/prior_ent_mean": 45.84257226520114, "train/prior_ent_min": 27.65133288171556, "train/prior_ent_std": 7.833787341912587, "train/rep_loss_mean": 5.7025768756866455, "train/rep_loss_std": 8.90884076886707, "train/reward_avg": 0.04587809198225538, "train/reward_loss_mean": 0.05965220840233895, "train/reward_loss_std": 0.21273139491677284, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0194319387276967, "train/reward_neg_acc": 0.9928564007083575, "train/reward_neg_loss": 0.024746193343566522, "train/reward_pos_acc": 0.9930836392773522, "train/reward_pos_loss": 0.7141244361797968, "train/reward_pred": 0.04565040679234597, "train/reward_rate": 0.050591362847222224, "stats/sum_log_reward": 13.266666889190674, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 16.333333333333332, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4231376200914383, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3570927605343795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3302032407036412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09250259399414, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.74643325805664, "timer/env.step_frac": 0.06580115493512444, "timer/env.step_avg": 0.013731872919371795, "timer/env.step_min": 0.0029344558715820312, "timer/env.step_max": 2.3592162132263184, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.32242298126220703, "timer/replay.add_frac": 0.001074411984555391, "timer/replay.add_avg": 0.00022421625957038042, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0047740936279296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035581350326538086, "timer/logger.write_frac": 0.00011856794161458064, "timer/logger.write_avg": 0.035581350326538086, "timer/logger.write_min": 0.035581350326538086, "timer/logger.write_max": 0.035581350326538086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00027251243591308594, "timer/checkpoint.save_frac": 9.080947826336659e-07, "timer/checkpoint.save_avg": 0.00027251243591308594, "timer/checkpoint.save_min": 0.00027251243591308594, "timer/checkpoint.save_max": 0.00027251243591308594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.465341567993164, "timer/agent.save_frac": 0.004882966269822732, "timer/agent.save_avg": 1.465341567993164, "timer/agent.save_min": 1.465341567993164, "timer/agent.save_max": 1.465341567993164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4549543992458685e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.174822807312012, "timer/agent.policy_frac": 0.0405702331850115, "timer/agent.policy_avg": 0.008466497084361622, "timer/agent.policy_min": 0.005606889724731445, "timer/agent.policy_max": 1.4634883403778076, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05872654914855957, "timer/dataset_frac": 0.0001956948228993672, "timer/dataset_avg": 8.167809339159884e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0955195426941, "timer/agent.train_frac": 0.8900439605585787, "timer/agent.train_avg": 0.3714819465127873, "timer/agent.train_min": 0.36482810974121094, "timer/agent.train_max": 0.7963016033172607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21901893615722656, "timer/agent.report_frac": 0.000729838080805188, "timer/agent.report_avg": 0.21901893615722656, "timer/agent.report_min": 0.21901893615722656, "timer/agent.report_max": 0.21901893615722656, "fps": 4.791754545225407}
+{"step": 1006928, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06030150753768844}
+{"step": 1007094, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07228915662650602}
+{"step": 1007343, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
+{"step": 1007564, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06334841628959276}
+{"step": 1007702, "episode/length": 137.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.057971014492753624}
+{"step": 1007920, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06880733944954129}
+{"step": 1008141, "episode/length": 220.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04072398190045249}
+{"step": 1008189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401734234535531, "train/action_min": 0.0, "train/action_std": 3.2243428752846914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037770225168907476, "train/actor_opt_grad_steps": 503180.0, "train/actor_opt_loss": -12.872995356990867, "train/adv_mag": 0.3841203363382653, "train/adv_max": 0.3400141841744723, "train/adv_mean": 0.0015628690865213846, "train/adv_min": -0.3325341394911074, "train/adv_std": 0.04252940977681173, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 6.250078523681959e-05, "train/cont_loss_std": 0.001931865729355737, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.008530829343873874, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.2651003491064112e-05, "train/cont_pred": 0.9947806874366656, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.614499699579526, "train/dyn_loss_std": 8.891978799480281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9044772149765328, "train/extr_critic_critic_opt_grad_steps": 503180.0, "train/extr_critic_critic_opt_loss": 15331.077844071062, "train/extr_critic_mag": 12.50963472340205, "train/extr_critic_max": 12.50963472340205, "train/extr_critic_mean": 3.972605773847397, "train/extr_critic_min": -0.3678222274127072, "train/extr_critic_std": 3.017125515088643, "train/extr_return_normed_mag": 1.3641090425726485, "train/extr_return_normed_max": 1.3641090425726485, "train/extr_return_normed_mean": 0.4095713875881613, "train/extr_return_normed_min": -0.076413606331773, "train/extr_return_normed_std": 0.31602706647899054, "train/extr_return_rate": 0.8739717586399758, "train/extr_return_raw_mag": 13.180273617783637, "train/extr_return_raw_max": 13.180273617783637, "train/extr_return_raw_mean": 3.9876537845559317, "train/extr_return_raw_min": -0.691723012352643, "train/extr_return_raw_std": 3.0436853774606365, "train/extr_reward_mag": 1.0795855750776318, "train/extr_reward_max": 1.0795855750776318, "train/extr_reward_mean": 0.06352283035035003, "train/extr_reward_min": -0.6084329069477238, "train/extr_reward_std": 0.24196954704310797, "train/image_loss_mean": 3.2770805015955884, "train/image_loss_std": 8.552025788450894, "train/model_loss_mean": 6.70528246605233, "train/model_loss_std": 12.698238581827242, "train/model_opt_grad_norm": 22.241666441094385, "train/model_opt_grad_steps": 502768.0, "train/model_opt_loss": 11254.968321917808, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1695.2054794520548, "train/policy_entropy_mag": 2.687769938821662, "train/policy_entropy_max": 2.687769938821662, "train/policy_entropy_mean": 0.39714816090178817, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6069457784090957, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39593692981217005, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0232386074654043, "train/policy_randomness_mag": 0.9486648366875845, "train/policy_randomness_max": 0.9486648366875845, "train/policy_randomness_mean": 0.1401758740005428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21422522219076548, "train/post_ent_mag": 55.73204766887508, "train/post_ent_max": 55.73204766887508, "train/post_ent_mean": 40.32494234058955, "train/post_ent_min": 19.49302660275812, "train/post_ent_std": 5.82368686101208, "train/prior_ent_mag": 76.72998747107101, "train/prior_ent_max": 76.72998747107101, "train/prior_ent_mean": 45.95596271671661, "train/prior_ent_min": 27.715640734319816, "train/prior_ent_std": 7.8838290319050826, "train/rep_loss_mean": 5.614499699579526, "train/rep_loss_std": 8.891978799480281, "train/reward_avg": 0.04631314225086611, "train/reward_loss_mean": 0.059439630643145676, "train/reward_loss_std": 0.2136390207156743, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0325545807407326, "train/reward_neg_acc": 0.9938025188772646, "train/reward_neg_loss": 0.024179588390948022, "train/reward_pos_acc": 0.9917438814084824, "train/reward_pos_loss": 0.7208601497624019, "train/reward_pred": 0.04584320586123695, "train/reward_rate": 0.05079462756849315, "stats/sum_log_reward": 11.100000313350133, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.337457788842065, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.334257628891494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2959097767924214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1980152130127, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.377174377441406, "timer/env.step_frac": 0.06121684170497077, "timer/env.step_avg": 0.012621685698792174, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.5657193660736084, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.30317091941833496, "timer/replay.add_frac": 0.001009903144107108, "timer/replay.add_avg": 0.0002082217853147905, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.005419015884399414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029092073440551758, "timer/logger.write_frac": 9.690961287638354e-05, "timer/logger.write_avg": 0.029092073440551758, "timer/logger.write_min": 0.029092073440551758, "timer/logger.write_max": 0.029092073440551758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.643916606903076, "timer/agent.policy_frac": 0.03545631905444288, "timer/agent.policy_avg": 0.007310382284960904, "timer/agent.policy_min": 0.005749702453613281, "timer/agent.policy_max": 0.017084121704101562, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05931496620178223, "timer/dataset_frac": 0.00019758613713582974, "timer/dataset_avg": 8.147660192552504e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.11600375175476, "timer/agent.train_frac": 0.8997927703155781, "timer/agent.train_avg": 0.3710384666919708, "timer/agent.train_min": 0.3644828796386719, "timer/agent.train_max": 0.3850102424621582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214336395263672, "timer/agent.report_frac": 0.0007376252616768423, "timer/agent.report_avg": 0.2214336395263672, "timer/agent.report_min": 0.2214336395263672, "timer/agent.report_max": 0.2214336395263672, "fps": 4.850037019603298}
+{"step": 1008456, "episode/length": 314.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.047619047619047616}
+{"step": 1008632, "episode/length": 175.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08522727272727272}
+{"step": 1008840, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
+{"step": 1009074, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.05982905982905983}
+{"step": 1009391, "episode/length": 316.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0473186119873817}
+{"step": 1009599, "episode/length": 207.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.057692307692307696}
+{"step": 1009651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421857441941353, "train/action_min": 0.0, "train/action_std": 3.3074250939774186, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03779448823977823, "train/actor_opt_grad_steps": 503910.0, "train/actor_opt_loss": -12.106014406129923, "train/adv_mag": 0.3585348598761101, "train/adv_max": 0.30971676560297406, "train/adv_mean": 0.0015439032539477124, "train/adv_min": -0.333742475264693, "train/adv_std": 0.04256540307239311, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 2.517199474018179e-05, "train/cont_loss_std": 0.0007583491072682474, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.005948966953450756, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.674404953062842e-06, "train/cont_pred": 0.9947062649138986, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.565202425603998, "train/dyn_loss_std": 8.957278891785505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.880608226338478, "train/extr_critic_critic_opt_grad_steps": 503910.0, "train/extr_critic_critic_opt_loss": 15412.04225973887, "train/extr_critic_mag": 12.363821473840165, "train/extr_critic_max": 12.363821473840165, "train/extr_critic_mean": 3.9104791308102542, "train/extr_critic_min": -0.3893998289761478, "train/extr_critic_std": 3.0026180417570347, "train/extr_return_normed_mag": 1.3791586781201297, "train/extr_return_normed_max": 1.3791586781201297, "train/extr_return_normed_mean": 0.40705352450070315, "train/extr_return_normed_min": -0.08365731900685454, "train/extr_return_normed_std": 0.3173324704578478, "train/extr_return_rate": 0.8640027919860735, "train/extr_return_raw_mag": 13.190904930846331, "train/extr_return_raw_max": 13.190904930846331, "train/extr_return_raw_mean": 3.9251932248677295, "train/extr_return_raw_min": -0.7522515850524379, "train/extr_return_raw_std": 3.0247966492012757, "train/extr_reward_mag": 1.0728648394754488, "train/extr_reward_max": 1.0728648394754488, "train/extr_reward_mean": 0.06424721095659962, "train/extr_reward_min": -0.6506184976394862, "train/extr_reward_std": 0.24344979491952348, "train/image_loss_mean": 3.2472887986326873, "train/image_loss_std": 8.505579105795245, "train/model_loss_mean": 6.645765879382826, "train/model_loss_std": 12.664109334553757, "train/model_opt_grad_norm": 20.970680066983995, "train/model_opt_grad_steps": 503498.0, "train/model_opt_loss": 16614.414637735445, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.699822089443468, "train/policy_entropy_max": 2.699822089443468, "train/policy_entropy_mean": 0.3899226633653249, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5997701805748351, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39174470509568304, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.02817623256004, "train/policy_randomness_mag": 0.9529187173059542, "train/policy_randomness_max": 0.9529187173059542, "train/policy_randomness_mean": 0.137625589558523, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.211692554493473, "train/post_ent_mag": 55.6141215807771, "train/post_ent_max": 55.6141215807771, "train/post_ent_mean": 40.28290782562674, "train/post_ent_min": 19.564920699759707, "train/post_ent_std": 5.780606446200854, "train/prior_ent_mag": 76.83926046711125, "train/prior_ent_max": 76.83926046711125, "train/prior_ent_mean": 45.8237195994756, "train/prior_ent_min": 27.71963623778461, "train/prior_ent_std": 7.951653774470499, "train/rep_loss_mean": 5.565202425603998, "train/rep_loss_std": 8.957278891785505, "train/reward_avg": 0.04394397430428087, "train/reward_loss_mean": 0.0593304562140001, "train/reward_loss_std": 0.21783464391754098, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0220607339519343, "train/reward_neg_acc": 0.9931789514136641, "train/reward_neg_loss": 0.025429904830884444, "train/reward_pos_acc": 0.990392508572095, "train/reward_pos_loss": 0.7223750752945469, "train/reward_pred": 0.043582220217340616, "train/reward_rate": 0.04854719606164384, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5345208992560705, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4019493697932254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.287452173298263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29909110069275, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.248621463775635, "timer/env.step_frac": 0.05743814075678314, "timer/env.step_avg": 0.011797962697520955, "timer/env.step_min": 0.003086566925048828, "timer/env.step_max": 1.6357474327087402, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.3140292167663574, "timer/replay.add_frac": 0.001045721502570452, "timer/replay.add_avg": 0.00021479426591406117, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0045166015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0310060977935791, "timer/logger.write_frac": 0.00010325072140555532, "timer/logger.write_avg": 0.0310060977935791, "timer/logger.write_min": 0.0310060977935791, "timer/logger.write_max": 0.0310060977935791, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.636965274810791, "timer/agent.policy_frac": 0.035421236993501685, "timer/agent.policy_avg": 0.007275626042962237, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.018811702728271484, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05896735191345215, "timer/dataset_frac": 0.0001963620725501294, "timer/dataset_avg": 8.066669208406587e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3468863964081, "timer/agent.train_frac": 0.9035887701219291, "timer/agent.train_avg": 0.3711995709937183, "timer/agent.train_min": 0.36506009101867676, "timer/agent.train_max": 0.3854258060455322, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21856069564819336, "timer/agent.report_frac": 0.0007278100471336696, "timer/agent.report_avg": 0.21856069564819336, "timer/agent.report_min": 0.21856069564819336, "timer/agent.report_max": 0.21856069564819336, "fps": 4.868380044092727}
+{"step": 1009799, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07}
+{"step": 1009974, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
+{"step": 1010095, "episode/length": 120.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.09090909090909091}
+{"step": 1010300, "episode/length": 204.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.07317073170731707}
+{"step": 1010513, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06572769953051644}
+{"step": 1010693, "episode/length": 179.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07777777777777778}
+{"step": 1011014, "episode/length": 320.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04361370716510903}
+{"step": 1011087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465539720323351, "train/action_min": 0.0, "train/action_std": 3.325663020213445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03760944534507063, "train/actor_opt_grad_steps": 504635.0, "train/actor_opt_loss": -12.138691467750403, "train/adv_mag": 0.38577641877863145, "train/adv_max": 0.3241207030498319, "train/adv_mean": 0.00175999635777973, "train/adv_min": -0.3464140635397699, "train/adv_std": 0.042822605619827904, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 2.4068741927729675e-05, "train/cont_loss_std": 0.0007292193667431452, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.0035486809944641116, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.3535633799799385e-05, "train/cont_pred": 0.9947467984424697, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.614758451779683, "train/dyn_loss_std": 8.949525482124752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8776457019978099, "train/extr_critic_critic_opt_grad_steps": 504635.0, "train/extr_critic_critic_opt_loss": 15304.162679036459, "train/extr_critic_mag": 12.437285900115967, "train/extr_critic_max": 12.437285900115967, "train/extr_critic_mean": 3.9108787178993225, "train/extr_critic_min": -0.41849198440710705, "train/extr_critic_std": 3.0421019792556763, "train/extr_return_normed_mag": 1.3761094742351108, "train/extr_return_normed_max": 1.3761094742351108, "train/extr_return_normed_mean": 0.41052351105544305, "train/extr_return_normed_min": -0.07563733570795092, "train/extr_return_normed_std": 0.321557695666949, "train/extr_return_rate": 0.8424985963437293, "train/extr_return_raw_mag": 13.152012983957926, "train/extr_return_raw_max": 13.152012983957926, "train/extr_return_raw_mean": 3.927682919634713, "train/extr_return_raw_min": -0.7168785341911845, "train/extr_return_raw_std": 3.0719495349460177, "train/extr_reward_mag": 1.0740891695022583, "train/extr_reward_max": 1.0740891695022583, "train/extr_reward_mean": 0.06459574380682574, "train/extr_reward_min": -0.6222711818085777, "train/extr_reward_std": 0.24370613073309264, "train/image_loss_mean": 3.4201957003937826, "train/image_loss_std": 8.737839632564121, "train/model_loss_mean": 6.848758419354756, "train/model_loss_std": 12.876847638024223, "train/model_opt_grad_norm": 21.708444264199997, "train/model_opt_grad_steps": 504222.19444444444, "train/model_opt_loss": 20214.62430826823, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.6959109405676522, "train/policy_entropy_max": 2.6959109405676522, "train/policy_entropy_mean": 0.403449858021405, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6160974535677168, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4025893687374062, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0303616954220667, "train/policy_randomness_mag": 0.9515382548173269, "train/policy_randomness_max": 0.9515382548173269, "train/policy_randomness_mean": 0.1424000948253605, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21745536497069728, "train/post_ent_mag": 55.72608412636651, "train/post_ent_max": 55.72608412636651, "train/post_ent_mean": 40.2918258772956, "train/post_ent_min": 19.67803366978963, "train/post_ent_std": 5.897462930944231, "train/prior_ent_mag": 76.88485940297444, "train/prior_ent_max": 76.88485940297444, "train/prior_ent_mean": 45.87246243158976, "train/prior_ent_min": 27.755724986394245, "train/prior_ent_std": 7.975124412112766, "train/rep_loss_mean": 5.614758451779683, "train/rep_loss_std": 8.949525482124752, "train/reward_avg": 0.04483642550702724, "train/reward_loss_mean": 0.05968361192693313, "train/reward_loss_std": 0.21759228284160295, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0249552362494998, "train/reward_neg_acc": 0.992985326382849, "train/reward_neg_loss": 0.025458111557074718, "train/reward_pos_acc": 0.992232749859492, "train/reward_pos_loss": 0.7202198786867989, "train/reward_pred": 0.04460950669211646, "train/reward_rate": 0.04946560329861111, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4400243546281542, "replay/size": 1000000.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3126236004417653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3207451214697367e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3318190574646, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.20898985862732, "timer/env.step_frac": 0.06728887375986156, "timer/env.step_avg": 0.014073112714921532, "timer/env.step_min": 0.002759695053100586, "timer/env.step_max": 1.7857849597930908, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.30769920349121094, "timer/replay.add_frac": 0.0010245308154722584, "timer/replay.add_avg": 0.00021427521134485442, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.005909442901611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025639772415161133, "timer/logger.write_frac": 8.537148176848786e-05, "timer/logger.write_avg": 0.025639772415161133, "timer/logger.write_min": 0.025639772415161133, "timer/logger.write_max": 0.025639772415161133, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020647048950195312, "timer/checkpoint.save_frac": 6.874745744554215e-07, "timer/checkpoint.save_avg": 0.00020647048950195312, "timer/checkpoint.save_min": 0.00020647048950195312, "timer/checkpoint.save_max": 0.00020647048950195312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1960957050323486, "timer/agent.save_frac": 0.003982580696198198, "timer/agent.save_avg": 1.1960957050323486, "timer/agent.save_min": 1.1960957050323486, "timer/agent.save_max": 1.1960957050323486, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.397428654567405e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.269398212432861, "timer/agent.policy_frac": 0.04085280824035921, "timer/agent.policy_avg": 0.008544149173003385, "timer/agent.policy_min": 0.00588679313659668, "timer/agent.policy_max": 1.1931824684143066, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05876755714416504, "timer/dataset_frac": 0.00019567542769392886, "timer/dataset_avg": 8.184896538184546e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014257431030273438, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.7948741912842, "timer/agent.train_frac": 0.8883336938076363, "timer/agent.train_avg": 0.371580604723237, "timer/agent.train_min": 0.3634307384490967, "timer/agent.train_max": 0.800358772277832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951866149902344, "timer/agent.report_frac": 0.000730920427239251, "timer/agent.report_avg": 0.21951866149902344, "timer/agent.report_min": 0.21951866149902344, "timer/agent.report_max": 0.21951866149902344, "fps": 4.781278079568256}
+{"step": 1011240, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06637168141592921}
+{"step": 1011284, "episode/length": 43.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.20454545454545456}
+{"step": 1011490, "episode/length": 205.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.07281553398058252}
+{"step": 1011754, "episode/length": 263.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06060606060606061}
+{"step": 1011798, "episode/length": 43.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.1590909090909091}
+{"step": 1012037, "episode/length": 238.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.058577405857740586}
+{"step": 1012252, "episode/length": 214.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06976744186046512}
+{"step": 1012543, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.370151467519264, "train/action_min": 0.0, "train/action_std": 3.233645207261386, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038722825223860675, "train/actor_opt_grad_steps": 505360.0, "train/actor_opt_loss": -11.843712459280066, "train/adv_mag": 0.40237270663045854, "train/adv_max": 0.33950177610737003, "train/adv_mean": 0.002078340323849211, "train/adv_min": -0.3615217974332914, "train/adv_std": 0.04321485410814416, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 3.828666041350167e-05, "train/cont_loss_std": 0.0011130612144412437, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005624298048137976, "train/cont_pos_acc": 0.999986522818265, "train/cont_pos_loss": 3.619682966695894e-05, "train/cont_pred": 0.994871344468365, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.572924920957383, "train/dyn_loss_std": 8.93743047975514, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9247634329207955, "train/extr_critic_critic_opt_grad_steps": 505360.0, "train/extr_critic_critic_opt_loss": 15502.21796072346, "train/extr_critic_mag": 12.429507085721786, "train/extr_critic_max": 12.429507085721786, "train/extr_critic_mean": 3.920379847696383, "train/extr_critic_min": -0.36340395065203107, "train/extr_critic_std": 2.9703662820058327, "train/extr_return_normed_mag": 1.3761448598887822, "train/extr_return_normed_max": 1.3761448598887822, "train/extr_return_normed_mean": 0.40861182016869113, "train/extr_return_normed_min": -0.07213147933760734, "train/extr_return_normed_std": 0.3122987363436451, "train/extr_return_rate": 0.872186299872725, "train/extr_return_raw_mag": 13.232531312393816, "train/extr_return_raw_max": 13.232531312393816, "train/extr_return_raw_mean": 3.94033798452926, "train/extr_return_raw_min": -0.6765682705461162, "train/extr_return_raw_std": 2.9990253154545616, "train/extr_reward_mag": 1.0792762351362672, "train/extr_reward_max": 1.0792762351362672, "train/extr_reward_mean": 0.06398716170902122, "train/extr_reward_min": -0.5917947749568991, "train/extr_reward_std": 0.24289657236778572, "train/image_loss_mean": 3.2189198928336573, "train/image_loss_std": 8.298708922242465, "train/model_loss_mean": 6.6223041194759, "train/model_loss_std": 12.482443208563817, "train/model_opt_grad_norm": 22.4254231910183, "train/model_opt_grad_steps": 504946.2191780822, "train/model_opt_loss": 10160.434851241438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1523.972602739726, "train/policy_entropy_mag": 2.675706742561027, "train/policy_entropy_max": 2.675706742561027, "train/policy_entropy_mean": 0.3772059946435772, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5843720346280973, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37722536145824276, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0106140187341872, "train/policy_randomness_mag": 0.9444070629877587, "train/policy_randomness_max": 0.9444070629877587, "train/policy_randomness_mean": 0.13313716109076593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20625768336531233, "train/post_ent_mag": 55.069815178440045, "train/post_ent_max": 55.069815178440045, "train/post_ent_mean": 40.104364734806424, "train/post_ent_min": 19.261585196403608, "train/post_ent_std": 5.763823189147531, "train/prior_ent_mag": 76.81056882257332, "train/prior_ent_max": 76.81056882257332, "train/prior_ent_mean": 45.67576855176116, "train/prior_ent_min": 27.696810186725774, "train/prior_ent_std": 7.881406908165919, "train/rep_loss_mean": 5.572924920957383, "train/rep_loss_std": 8.93743047975514, "train/reward_avg": 0.045400791584628904, "train/reward_loss_mean": 0.05959105680454267, "train/reward_loss_std": 0.21556808646411113, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0284814573314092, "train/reward_neg_acc": 0.9939666137303391, "train/reward_neg_loss": 0.024946316783252643, "train/reward_pos_acc": 0.9906616904964186, "train/reward_pos_loss": 0.721018615650804, "train/reward_pred": 0.045091202201908584, "train/reward_rate": 0.04993846318493151, "stats/sum_log_reward": 11.81428575515747, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3881909889834268, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.22814826126937e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3900654656546457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3158702850342, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.744269847869873, "timer/env.step_frac": 0.06241518248795647, "timer/env.step_avg": 0.012873811708701836, "timer/env.step_min": 0.0028824806213378906, "timer/env.step_max": 1.652597427368164, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.3026564121246338, "timer/replay.add_frac": 0.0010077936002428982, "timer/replay.add_avg": 0.00020786841492076498, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.004837512969970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029134511947631836, "timer/logger.write_frac": 9.701289485627198e-05, "timer/logger.write_avg": 0.029134511947631836, "timer/logger.write_min": 0.029134511947631836, "timer/logger.write_max": 0.029134511947631836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.743698596954346, "timer/agent.policy_frac": 0.03577466148145066, "timer/agent.policy_avg": 0.007378913871534578, "timer/agent.policy_min": 0.005909442901611328, "timer/agent.policy_max": 0.01729607582092285, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059081315994262695, "timer/dataset_frac": 0.0001967305821639987, "timer/dataset_avg": 8.115565383827293e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001354217529296875, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.7817862033844, "timer/agent.train_frac": 0.8983267715666526, "timer/agent.train_avg": 0.37057937665300056, "timer/agent.train_min": 0.3642261028289795, "timer/agent.train_max": 0.3833887577056885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21764302253723145, "timer/agent.report_frac": 0.0007247136900579489, "timer/agent.report_avg": 0.21764302253723145, "timer/agent.report_min": 0.21764302253723145, "timer/agent.report_max": 0.21764302253723145, "fps": 4.848160510630457}
+{"step": 1012696, "episode/length": 443.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.036036036036036036}
+{"step": 1012881, "episode/length": 184.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07567567567567568}
+{"step": 1013160, "episode/length": 278.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.04659498207885305}
+{"step": 1013372, "episode/length": 211.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.07075471698113207}
+{"step": 1013609, "episode/length": 236.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06329113924050633}
+{"step": 1013777, "episode/length": 167.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.08333333333333333}
+{"step": 1013998, "episode/length": 220.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.058823529411764705}
+{"step": 1013999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406581094820205, "train/action_min": 0.0, "train/action_std": 3.2837327571764385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0388174029449894, "train/actor_opt_grad_steps": 506090.0, "train/actor_opt_loss": -12.973481403229988, "train/adv_mag": 0.3976927054663227, "train/adv_max": 0.3315349476386423, "train/adv_mean": 0.0016635759263520674, "train/adv_min": -0.338762200858495, "train/adv_std": 0.042954939175142, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 0.00012271929141130473, "train/cont_loss_std": 0.0038257461747213573, "train/cont_neg_acc": 0.9932648408902834, "train/cont_neg_loss": 0.01940835671769387, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3070380805674774e-05, "train/cont_pred": 0.9948051596341068, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.546497802211814, "train/dyn_loss_std": 8.869774224006967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9084845275095065, "train/extr_critic_critic_opt_grad_steps": 506090.0, "train/extr_critic_critic_opt_loss": 15383.314346104453, "train/extr_critic_mag": 12.382664667416925, "train/extr_critic_max": 12.382664667416925, "train/extr_critic_mean": 3.947837868781939, "train/extr_critic_min": -0.37170742309256777, "train/extr_critic_std": 2.9706284934527254, "train/extr_return_normed_mag": 1.3680325632225978, "train/extr_return_normed_max": 1.3680325632225978, "train/extr_return_normed_mean": 0.41208334287551984, "train/extr_return_normed_min": -0.07741255063104303, "train/extr_return_normed_std": 0.3137669124423641, "train/extr_return_rate": 0.8610008669226137, "train/extr_return_raw_mag": 13.08507501262508, "train/extr_return_raw_max": 13.08507501262508, "train/extr_return_raw_mean": 3.9637040602017755, "train/extr_return_raw_min": -0.7068670232818551, "train/extr_return_raw_std": 2.9937003965247166, "train/extr_reward_mag": 1.0817046720687657, "train/extr_reward_max": 1.0817046720687657, "train/extr_reward_mean": 0.06496398217261654, "train/extr_reward_min": -0.6059201874145089, "train/extr_reward_std": 0.24450465873496174, "train/image_loss_mean": 3.212107377509548, "train/image_loss_std": 8.421377064430551, "train/model_loss_mean": 6.60100657972571, "train/model_loss_std": 12.558606461302874, "train/model_opt_grad_norm": 21.80543312961108, "train/model_opt_grad_steps": 505676.0, "train/model_opt_loss": 11454.53022661601, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1763.6986301369864, "train/policy_entropy_mag": 2.672188638007804, "train/policy_entropy_max": 2.672188638007804, "train/policy_entropy_mean": 0.38810197886538833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908104034319316, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881467674693016, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0192951584515506, "train/policy_randomness_mag": 0.9431653275881728, "train/policy_randomness_max": 0.9431653275881728, "train/policy_randomness_mean": 0.1369829658571988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20853014678171236, "train/post_ent_mag": 55.59477071892725, "train/post_ent_max": 55.59477071892725, "train/post_ent_mean": 40.18027992771096, "train/post_ent_min": 19.69945698568266, "train/post_ent_std": 5.820872385207921, "train/prior_ent_mag": 76.77356155604532, "train/prior_ent_max": 76.77356155604532, "train/prior_ent_mean": 45.75790295535571, "train/prior_ent_min": 27.60325578140886, "train/prior_ent_std": 7.935168305488482, "train/rep_loss_mean": 5.546497802211814, "train/rep_loss_std": 8.869774224006967, "train/reward_avg": 0.04532186393562245, "train/reward_loss_mean": 0.06087782606482506, "train/reward_loss_std": 0.22296934870824422, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0344255101190853, "train/reward_neg_acc": 0.9935842409525832, "train/reward_neg_loss": 0.02625314714004324, "train/reward_pos_acc": 0.9906729247472058, "train/reward_pos_loss": 0.7186916707313225, "train/reward_pred": 0.045023004766808795, "train/reward_rate": 0.05003210616438356, "stats/sum_log_reward": 12.957142966134208, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4608865422861917, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2040771547254624e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3029919220851018e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.73870372772217, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.833555936813354, "timer/env.step_frac": 0.06262431706783098, "timer/env.step_avg": 0.012935134571987195, "timer/env.step_min": 0.00292205810546875, "timer/env.step_max": 1.598639965057373, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.31276488304138184, "timer/replay.add_frac": 0.0010399887981313762, "timer/replay.add_avg": 0.0002148110460449051, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0040302276611328125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02937936782836914, "timer/logger.write_frac": 9.769067786821395e-05, "timer/logger.write_avg": 0.02937936782836914, "timer/logger.write_min": 0.02937936782836914, "timer/logger.write_max": 0.02937936782836914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.65245532989502, "timer/agent.policy_frac": 0.03542096576814191, "timer/agent.policy_avg": 0.007316246792510315, "timer/agent.policy_min": 0.005934715270996094, "timer/agent.policy_max": 0.014311552047729492, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05904245376586914, "timer/dataset_frac": 0.00019632475977991853, "timer/dataset_avg": 8.110227165641366e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.17759585380554, "timer/agent.train_frac": 0.8983798643303805, "timer/agent.train_avg": 0.37112307122775484, "timer/agent.train_min": 0.364635705947876, "timer/agent.train_max": 0.3871145248413086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830463409423828, "timer/agent.report_frac": 0.0007258947098870365, "timer/agent.report_avg": 0.21830463409423828, "timer/agent.report_min": 0.21830463409423828, "timer/agent.report_max": 0.21830463409423828, "fps": 4.8413449321068445}
+{"step": 1014137, "episode/length": 138.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08633093525179857}
+{"step": 1014548, "episode/length": 410.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0364963503649635}
+{"step": 1014763, "episode/length": 214.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.07441860465116279}
+{"step": 1014967, "episode/length": 203.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.900000043213367, "episode/reward_rate": 0.04411764705882353}
+{"step": 1015126, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08176100628930817}
+{"step": 1015178, "episode/length": 51.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.1346153846153846}
+{"step": 1015358, "episode/length": 179.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.06111111111111111}
+{"step": 1015433, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404375962808099, "train/action_min": 0.0, "train/action_std": 3.263606309890747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03822996908090484, "train/actor_opt_grad_steps": 506810.0, "train/actor_opt_loss": -12.14605864840494, "train/adv_mag": 0.41163390371161446, "train/adv_max": 0.3290115370297096, "train/adv_mean": 0.001763850754312597, "train/adv_min": -0.3735107193950196, "train/adv_std": 0.042758843323714296, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 3.7293129715910997e-05, "train/cont_loss_std": 0.001088450756697057, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0031173286510641648, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.6623508027040273e-05, "train/cont_pred": 0.9946736315606346, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 5.561127078365272, "train/dyn_loss_std": 8.911353084403025, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9262998389526153, "train/extr_critic_critic_opt_grad_steps": 506810.0, "train/extr_critic_critic_opt_loss": 15292.82538787412, "train/extr_critic_mag": 12.331122384944432, "train/extr_critic_max": 12.331122384944432, "train/extr_critic_mean": 3.8754906990158724, "train/extr_critic_min": -0.36938381698769585, "train/extr_critic_std": 2.962710273097938, "train/extr_return_normed_mag": 1.3763023295872647, "train/extr_return_normed_max": 1.3763023295872647, "train/extr_return_normed_mean": 0.40649394376177184, "train/extr_return_normed_min": -0.07893845349760123, "train/extr_return_normed_std": 0.3155294788975111, "train/extr_return_rate": 0.8661889727686493, "train/extr_return_raw_mag": 13.08347731576839, "train/extr_return_raw_max": 13.08347731576839, "train/extr_return_raw_mean": 3.892204052965406, "train/extr_return_raw_min": -0.7090248612450881, "train/extr_return_raw_std": 2.99052554452923, "train/extr_reward_mag": 1.0780187526219327, "train/extr_reward_max": 1.0780187526219327, "train/extr_reward_mean": 0.060977893448631526, "train/extr_reward_min": -0.6287192492417886, "train/extr_reward_std": 0.23828496437677196, "train/image_loss_mean": 3.297813202293826, "train/image_loss_std": 8.49089625183965, "train/model_loss_mean": 6.693925118782151, "train/model_loss_std": 12.642502851889168, "train/model_opt_grad_norm": 21.209281196056956, "train/model_opt_grad_steps": 506396.0, "train/model_opt_loss": 16734.812843860036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.676824670442393, "train/policy_entropy_max": 2.676824670442393, "train/policy_entropy_mean": 0.40153290877040004, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6120017023993211, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40045540685385045, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0292908356223307, "train/policy_randomness_mag": 0.9448016411821607, "train/policy_randomness_max": 0.9448016411821607, "train/policy_randomness_mean": 0.14172349702304518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21600974340673904, "train/post_ent_mag": 55.380847124986246, "train/post_ent_max": 55.380847124986246, "train/post_ent_mean": 40.334488935873544, "train/post_ent_min": 19.208557021449987, "train/post_ent_std": 5.817214777771856, "train/prior_ent_mag": 76.80441370144696, "train/prior_ent_max": 76.80441370144696, "train/prior_ent_mean": 45.889198356950786, "train/prior_ent_min": 27.936016190219934, "train/prior_ent_std": 7.906270604738047, "train/rep_loss_mean": 5.561127078365272, "train/rep_loss_std": 8.911353084403025, "train/reward_avg": 0.04295774630572594, "train/reward_loss_mean": 0.05939836920776837, "train/reward_loss_std": 0.22088316439742772, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.030103649891598, "train/reward_neg_acc": 0.9933292454397175, "train/reward_neg_loss": 0.025822880454886128, "train/reward_pos_acc": 0.9879091944493038, "train/reward_pos_loss": 0.7315570292338519, "train/reward_pred": 0.04254322501660233, "train/reward_rate": 0.04759022887323944, "stats/sum_log_reward": 10.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.42345509571688517, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.306270476996982e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3182643733430274e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1553301811218, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.29707980155945, "timer/env.step_frac": 0.06762192025479488, "timer/env.step_avg": 0.014154170015034483, "timer/env.step_min": 0.002950429916381836, "timer/env.step_max": 1.7765660285949707, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2794816493988037, "timer/replay.add_frac": 0.0009311233927785222, "timer/replay.add_avg": 0.00019489654769791053, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.004459381103515625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022244691848754883, "timer/logger.write_frac": 7.411060078570597e-05, "timer/logger.write_avg": 0.022244691848754883, "timer/logger.write_min": 0.022244691848754883, "timer/logger.write_max": 0.022244691848754883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003032684326171875, "timer/checkpoint.save_frac": 1.0103716380255087e-06, "timer/checkpoint.save_avg": 0.0003032684326171875, "timer/checkpoint.save_min": 0.0003032684326171875, "timer/checkpoint.save_max": 0.0003032684326171875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2049243450164795, "timer/agent.save_frac": 0.0040143359915994015, "timer/agent.save_avg": 1.2049243450164795, "timer/agent.save_min": 1.2049243450164795, "timer/agent.save_max": 1.2049243450164795, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.651878356933594e-05, "timer/replay.save_frac": 2.2161453381219887e-07, "timer/replay.save_avg": 6.651878356933594e-05, "timer/replay.save_min": 6.651878356933594e-05, "timer/replay.save_max": 6.651878356933594e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.28641152381897, "timer/agent.policy_frac": 0.04093351104711356, "timer/agent.policy_avg": 0.008567929932928152, "timer/agent.policy_min": 0.0058574676513671875, "timer/agent.policy_max": 1.2005219459533691, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05746603012084961, "timer/dataset_frac": 0.00019145430496327704, "timer/dataset_avg": 8.014788022433697e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.5613543987274, "timer/agent.train_frac": 0.8880780302581237, "timer/agent.train_avg": 0.37177315815722095, "timer/agent.train_min": 0.36310338973999023, "timer/agent.train_max": 0.8016600608825684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21846985816955566, "timer/agent.report_frac": 0.0007278560005505318, "timer/agent.report_avg": 0.21846985816955566, "timer/agent.report_min": 0.21846985816955566, "timer/agent.report_max": 0.21846985816955566, "fps": 4.777419605857874}
+{"step": 1015585, "episode/length": 226.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06167400881057269}
+{"step": 1015786, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06965174129353234}
+{"step": 1016023, "episode/length": 236.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.06329113924050633}
+{"step": 1016226, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 1016467, "episode/length": 240.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06224066390041494}
+{"step": 1016725, "episode/length": 257.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06201550387596899}
+{"step": 1016824, "episode/length": 98.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.06060606060606061}
+{"step": 1016885, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403367133989726, "train/action_min": 0.0, "train/action_std": 3.2504545629841006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03800289417068436, "train/actor_opt_grad_steps": 507530.0, "train/actor_opt_loss": -12.134175201801405, "train/adv_mag": 0.41356547932102256, "train/adv_max": 0.33592751887563155, "train/adv_mean": 0.0018552052068814304, "train/adv_min": -0.36724956496937633, "train/adv_std": 0.042739526866233515, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 5.948573616221862e-05, "train/cont_loss_std": 0.0018121334714441505, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01175258758452594, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 1.6308012680831917e-05, "train/cont_pred": 0.9950156799734455, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.493852295287668, "train/dyn_loss_std": 8.826914212475085, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9146711581373868, "train/extr_critic_critic_opt_grad_steps": 507530.0, "train/extr_critic_critic_opt_loss": 15393.021497752568, "train/extr_critic_mag": 12.271564731859181, "train/extr_critic_max": 12.271564731859181, "train/extr_critic_mean": 3.8369671220648778, "train/extr_critic_min": -0.390733733569106, "train/extr_critic_std": 2.888484833991691, "train/extr_return_normed_mag": 1.3659549624952552, "train/extr_return_normed_max": 1.3659549624952552, "train/extr_return_normed_mean": 0.4056668893931663, "train/extr_return_normed_min": -0.07986053592231993, "train/extr_return_normed_std": 0.307377671133982, "train/extr_return_rate": 0.8747467651759109, "train/extr_return_raw_mag": 12.966648755008228, "train/extr_return_raw_max": 12.966648755008228, "train/extr_return_raw_mean": 3.854551178135284, "train/extr_return_raw_min": -0.7530033384283928, "train/extr_return_raw_std": 2.916866811987472, "train/extr_reward_mag": 1.079766962626209, "train/extr_reward_max": 1.079766962626209, "train/extr_reward_mean": 0.06219749984471765, "train/extr_reward_min": -0.6332831007160552, "train/extr_reward_std": 0.2401977442715266, "train/image_loss_mean": 3.221885236975265, "train/image_loss_std": 8.518314851473455, "train/model_loss_mean": 6.577535145903287, "train/model_loss_std": 12.629612700579917, "train/model_opt_grad_norm": 22.48664205368251, "train/model_opt_grad_steps": 507115.08219178085, "train/model_opt_loss": 17857.175313035103, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.699642690893722, "train/policy_entropy_max": 2.699642690893722, "train/policy_entropy_mean": 0.3915544407416696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6032949837103282, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38981637358665466, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0215410386046317, "train/policy_randomness_mag": 0.952855399210159, "train/policy_randomness_max": 0.952855399210159, "train/policy_randomness_mean": 0.13820153505426563, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21293665672818277, "train/post_ent_mag": 55.29250586522769, "train/post_ent_max": 55.29250586522769, "train/post_ent_mean": 40.33151396659956, "train/post_ent_min": 19.424659114994416, "train/post_ent_std": 5.810816183482131, "train/prior_ent_mag": 76.78697277748421, "train/prior_ent_max": 76.78697277748421, "train/prior_ent_mean": 45.81690691595208, "train/prior_ent_min": 27.69142352064995, "train/prior_ent_std": 7.8668199304032, "train/rep_loss_mean": 5.493852295287668, "train/rep_loss_std": 8.826914212475085, "train/reward_avg": 0.04384498040459744, "train/reward_loss_mean": 0.059279148454127246, "train/reward_loss_std": 0.22098838772675763, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0383195779094958, "train/reward_neg_acc": 0.9927513297290018, "train/reward_neg_loss": 0.025665313107510135, "train/reward_pos_acc": 0.9914532369130278, "train/reward_pos_loss": 0.7177814057428543, "train/reward_pred": 0.0435580703085416, "train/reward_rate": 0.048400042808219176, "stats/sum_log_reward": 12.385714599064418, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3775813898869923, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2846592674570634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.288745193113637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28974080085754, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.993021965026855, "timer/env.step_frac": 0.06324898717609675, "timer/env.step_avg": 0.013080593639825657, "timer/env.step_min": 0.002866029739379883, "timer/env.step_max": 1.6467399597167969, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.30158424377441406, "timer/replay.add_frac": 0.0010043108464848122, "timer/replay.add_avg": 0.00020770264722755788, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.006308555603027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031462669372558594, "timer/logger.write_frac": 0.00010477437320585527, "timer/logger.write_avg": 0.031462669372558594, "timer/logger.write_min": 0.031462669372558594, "timer/logger.write_max": 0.031462669372558594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.643640995025635, "timer/agent.policy_frac": 0.03544457085559961, "timer/agent.policy_avg": 0.007330331263791759, "timer/agent.policy_min": 0.005902528762817383, "timer/agent.policy_max": 0.01692962646484375, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05826258659362793, "timer/dataset_frac": 0.00019402123575132656, "timer/dataset_avg": 8.025149668543792e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00012803077697753906, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.5921666622162, "timer/agent.train_frac": 0.8977734835137142, "timer/agent.train_avg": 0.3713390725374879, "timer/agent.train_min": 0.3650836944580078, "timer/agent.train_max": 0.38447070121765137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965622901916504, "timer/agent.report_frac": 0.0007314809637963422, "timer/agent.report_avg": 0.21965622901916504, "timer/agent.report_min": 0.21965622901916504, "timer/agent.report_max": 0.21965622901916504, "fps": 4.835266109567454}
+{"step": 1017020, "episode/length": 195.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07653061224489796}
+{"step": 1017186, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0783132530120482}
+{"step": 1017443, "episode/length": 256.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.05058365758754864}
+{"step": 1017647, "episode/length": 203.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0784313725490196}
+{"step": 1017881, "episode/length": 233.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06837606837606838}
+{"step": 1018153, "episode/length": 271.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04779411764705882}
+{"step": 1018345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.349978930329623, "train/action_min": 0.0, "train/action_std": 3.1595863642757887, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03761809474903427, "train/actor_opt_grad_steps": 508260.0, "train/actor_opt_loss": -11.082835395858712, "train/adv_mag": 0.3631877062255389, "train/adv_max": 0.3117002285506627, "train/adv_mean": 0.001950633271394197, "train/adv_min": -0.33282222302809156, "train/adv_std": 0.04237683658322243, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00018098763201038928, "train/cont_loss_std": 0.005711430335794439, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.028262895922311713, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 1.1103001232716495e-05, "train/cont_pred": 0.9949072436110614, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.683234796132127, "train/dyn_loss_std": 8.938566234013805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8909293707102945, "train/extr_critic_critic_opt_grad_steps": 508260.0, "train/extr_critic_critic_opt_loss": 15371.426918343323, "train/extr_critic_mag": 12.16638447487191, "train/extr_critic_max": 12.16638447487191, "train/extr_critic_mean": 3.9143344147564614, "train/extr_critic_min": -0.3778756318027026, "train/extr_critic_std": 2.921295949857529, "train/extr_return_normed_mag": 1.356450908804593, "train/extr_return_normed_max": 1.356450908804593, "train/extr_return_normed_mean": 0.40881925168102734, "train/extr_return_normed_min": -0.07881989569900787, "train/extr_return_normed_std": 0.3095316278607878, "train/extr_return_rate": 0.871866129032553, "train/extr_return_raw_mag": 12.963364993056206, "train/extr_return_raw_max": 12.963364993056206, "train/extr_return_raw_mean": 3.9329143452317745, "train/extr_return_raw_min": -0.7139967908597973, "train/extr_return_raw_std": 2.9495707766650474, "train/extr_reward_mag": 1.0808926641124568, "train/extr_reward_max": 1.0808926641124568, "train/extr_reward_mean": 0.06254563654122287, "train/extr_reward_min": -0.600170855652796, "train/extr_reward_std": 0.24010578634804242, "train/image_loss_mean": 3.231338783486249, "train/image_loss_std": 8.353414137069493, "train/model_loss_mean": 6.700293325398066, "train/model_loss_std": 12.527276849093502, "train/model_opt_grad_norm": 22.424233305944156, "train/model_opt_grad_steps": 507844.7123287671, "train/model_opt_loss": 21124.74751177226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3150.6849315068494, "train/policy_entropy_mag": 2.7053949049074357, "train/policy_entropy_max": 2.7053949049074357, "train/policy_entropy_mean": 0.37986495294799544, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5834882014418301, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37934671913924284, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0115627924056902, "train/policy_randomness_mag": 0.9548856787485619, "train/policy_randomness_max": 0.9548856787485619, "train/policy_randomness_mean": 0.13407565714561775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20594572806603287, "train/post_ent_mag": 55.9386508366833, "train/post_ent_max": 55.9386508366833, "train/post_ent_mean": 40.38304592811898, "train/post_ent_min": 19.58526862157534, "train/post_ent_std": 5.868045643584369, "train/prior_ent_mag": 76.71618119331255, "train/prior_ent_max": 76.71618119331255, "train/prior_ent_mean": 45.99860136476281, "train/prior_ent_min": 27.518849725592627, "train/prior_ent_std": 7.916316006281605, "train/rep_loss_mean": 5.683234796132127, "train/rep_loss_std": 8.938566234013805, "train/reward_avg": 0.04428644016487141, "train/reward_loss_mean": 0.05883268384288435, "train/reward_loss_std": 0.21727766239479795, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0267288897135487, "train/reward_neg_acc": 0.9927957237583317, "train/reward_neg_loss": 0.02440407853063247, "train/reward_pos_acc": 0.9876493574821785, "train/reward_pos_loss": 0.7308163471417884, "train/reward_pred": 0.043855932528433735, "train/reward_rate": 0.0487746147260274, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.37996163467566174, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3390032101983892e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2916244872628826e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35451555252075, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.514724254608154, "timer/env.step_frac": 0.0583135040350192, "timer/env.step_avg": 0.01199638647575901, "timer/env.step_min": 0.0027608871459960938, "timer/env.step_max": 1.6738812923431396, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2865447998046875, "timer/replay.add_frac": 0.0009540219472897572, "timer/replay.add_avg": 0.00019626356151005993, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.003737926483154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030652999877929688, "timer/logger.write_frac": 0.00010205606471919223, "timer/logger.write_avg": 0.030652999877929688, "timer/logger.write_min": 0.030652999877929688, "timer/logger.write_max": 0.030652999877929688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.6986083984375, "timer/agent.policy_frac": 0.03561993525802915, "timer/agent.policy_avg": 0.007327813971532534, "timer/agent.policy_min": 0.005795001983642578, "timer/agent.policy_max": 0.013900279998779297, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05860733985900879, "timer/dataset_frac": 0.00019512721408964655, "timer/dataset_avg": 8.028402720412162e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.11016869544983, "timer/agent.train_frac": 0.9026339031285275, "timer/agent.train_avg": 0.3713837927334929, "timer/agent.train_min": 0.3649561405181885, "timer/agent.train_max": 0.3901810646057129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21925926208496094, "timer/agent.report_frac": 0.0007300015506063557, "timer/agent.report_avg": 0.21925926208496094, "timer/agent.report_min": 0.21925926208496094, "timer/agent.report_max": 0.21925926208496094, "fps": 4.860831298900159}
+{"step": 1018370, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
+{"step": 1018738, "episode/length": 367.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.500000052154064, "episode/reward_rate": 0.03804347826086957}
+{"step": 1018903, "episode/length": 164.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.07272727272727272}
+{"step": 1019101, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07575757575757576}
+{"step": 1019342, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06224066390041494}
+{"step": 1019505, "episode/length": 162.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08588957055214724}
+{"step": 1019715, "episode/length": 209.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.047619047619047616}
+{"step": 1019775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394302583076585, "train/action_min": 0.0, "train/action_std": 3.199638843536377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038192187265401155, "train/actor_opt_grad_steps": 508980.0, "train/actor_opt_loss": -11.637202726283544, "train/adv_mag": 0.4149583466875721, "train/adv_max": 0.33705235010301565, "train/adv_mean": 0.0019204786042625439, "train/adv_min": -0.37383942096166206, "train/adv_std": 0.04334338885587706, "train/cont_avg": 0.9951859595070423, "train/cont_loss_mean": 4.824448542125807e-05, "train/cont_loss_std": 0.0013509397310378557, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0020936855068862796, "train/cont_pos_acc": 0.9999861876729509, "train/cont_pos_loss": 3.8998572436790245e-05, "train/cont_pred": 0.9951656519527167, "train/cont_rate": 0.9951859595070423, "train/dyn_loss_mean": 5.597087759367177, "train/dyn_loss_std": 8.834591731219225, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9134103538284839, "train/extr_critic_critic_opt_grad_steps": 508980.0, "train/extr_critic_critic_opt_loss": 15491.389180787852, "train/extr_critic_mag": 12.313576053565656, "train/extr_critic_max": 12.313576053565656, "train/extr_critic_mean": 3.8717511774788442, "train/extr_critic_min": -0.3369116245860785, "train/extr_critic_std": 2.896811220007883, "train/extr_return_normed_mag": 1.3677919968752794, "train/extr_return_normed_max": 1.3677919968752794, "train/extr_return_normed_mean": 0.40493735713018497, "train/extr_return_normed_min": -0.07752967405487114, "train/extr_return_normed_std": 0.30879957344330533, "train/extr_return_rate": 0.8798993616036965, "train/extr_return_raw_mag": 13.011339066733777, "train/extr_return_raw_max": 13.011339066733777, "train/extr_return_raw_mean": 3.889950416457485, "train/extr_return_raw_min": -0.6810087133461321, "train/extr_return_raw_std": 2.925688434654558, "train/extr_reward_mag": 1.0750428790777502, "train/extr_reward_max": 1.0750428790777502, "train/extr_reward_mean": 0.06457193757236844, "train/extr_reward_min": -0.5918755900691932, "train/extr_reward_std": 0.2435494000223321, "train/image_loss_mean": 3.2990379081645482, "train/image_loss_std": 8.567567167147784, "train/model_loss_mean": 6.716537260673415, "train/model_loss_std": 12.689110218639104, "train/model_opt_grad_norm": 20.309683719151458, "train/model_opt_grad_steps": 508564.0, "train/model_opt_loss": 16791.343296104755, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6644669317863356, "train/policy_entropy_max": 2.6644669317863356, "train/policy_entropy_mean": 0.36329887051817394, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5559281509527019, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36425458062702504, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 0.9995658448044683, "train/policy_randomness_mag": 0.9404398992028035, "train/policy_randomness_max": 0.9404398992028035, "train/policy_randomness_mean": 0.12822855977525174, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19621824053391604, "train/post_ent_mag": 55.723971514634684, "train/post_ent_max": 55.723971514634684, "train/post_ent_mean": 40.34053646678656, "train/post_ent_min": 19.813164160285197, "train/post_ent_std": 5.863619878258504, "train/prior_ent_mag": 76.78421966122909, "train/prior_ent_max": 76.78421966122909, "train/prior_ent_mean": 45.91113608991596, "train/prior_ent_min": 27.82197385438731, "train/prior_ent_std": 7.8426596010235, "train/rep_loss_mean": 5.597087759367177, "train/rep_loss_std": 8.834591731219225, "train/reward_avg": 0.045106183475172014, "train/reward_loss_mean": 0.05919845774769783, "train/reward_loss_std": 0.21353164630036958, "train/reward_max_data": 1.0394366291207326, "train/reward_max_pred": 1.0383655957772697, "train/reward_neg_acc": 0.9926076674125563, "train/reward_neg_loss": 0.024711981914202933, "train/reward_pos_acc": 0.9891248462905347, "train/reward_pos_loss": 0.722539957980035, "train/reward_pred": 0.044762653338027675, "train/reward_rate": 0.049529599471830985, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.285714285714285, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4111240676471165, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.2971788953234266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2950463728471235e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12747073173523, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.48385524749756, "timer/env.step_frac": 0.06825051768022518, "timer/env.step_avg": 0.014324374298949342, "timer/env.step_min": 0.002863645553588867, "timer/env.step_max": 1.823272705078125, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.29427289962768555, "timer/replay.add_frac": 0.000980493051536483, "timer/replay.add_avg": 0.000205785244494885, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0012693405151367188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03386712074279785, "timer/logger.write_frac": 0.00011284245544143977, "timer/logger.write_avg": 0.03386712074279785, "timer/logger.write_min": 0.03386712074279785, "timer/logger.write_max": 0.03386712074279785, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002651214599609375, "timer/checkpoint.save_frac": 8.833628568372958e-07, "timer/checkpoint.save_avg": 0.0002651214599609375, "timer/checkpoint.save_min": 0.0002651214599609375, "timer/checkpoint.save_max": 0.0002651214599609375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4122827053070068, "timer/agent.save_frac": 0.004705609592696552, "timer/agent.save_avg": 1.4122827053070068, "timer/agent.save_min": 1.4122827053070068, "timer/agent.save_max": 1.4122827053070068, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.793571472167969e-05, "timer/replay.save_frac": 1.9303702716858171e-07, "timer/replay.save_avg": 5.793571472167969e-05, "timer/replay.save_min": 5.793571472167969e-05, "timer/replay.save_max": 5.793571472167969e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.521545886993408, "timer/agent.policy_frac": 0.041720759037701075, "timer/agent.policy_avg": 0.008756325795100285, "timer/agent.policy_min": 0.005874156951904297, "timer/agent.policy_max": 1.4068999290466309, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057495832443237305, "timer/dataset_frac": 0.00019157137566600544, "timer/dataset_avg": 8.041375166886336e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0715124607086, "timer/agent.train_frac": 0.8865283534759567, "timer/agent.train_avg": 0.37212798945553655, "timer/agent.train_min": 0.36492228507995605, "timer/agent.train_max": 0.8443748950958252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21851134300231934, "timer/agent.report_frac": 0.0007280617881114677, "timer/agent.report_avg": 0.21851134300231934, "timer/agent.report_min": 0.21851134300231934, "timer/agent.report_max": 0.21851134300231934, "fps": 4.764584517689874}
+{"step": 1019975, "episode/length": 259.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.057692307692307696}
+{"step": 1020246, "episode/length": 270.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.033210332103321034}
+{"step": 1020285, "episode/length": 38.0, "episode/score": 4.1000000312924385, "episode/sum_abs_reward": 4.9000000432133675, "episode/reward_rate": 0.1282051282051282}
+{"step": 1020506, "episode/length": 220.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06334841628959276}
+{"step": 1020686, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07222222222222222}
+{"step": 1020889, "episode/length": 202.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.07389162561576355}
+{"step": 1021159, "episode/length": 269.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.05925925925925926}
+{"step": 1021229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405940643728596, "train/action_min": 0.0, "train/action_std": 3.247587161521389, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038242086028195406, "train/actor_opt_grad_steps": 509700.0, "train/actor_opt_loss": -13.782122174354448, "train/adv_mag": 0.413349329404635, "train/adv_max": 0.3434714648413332, "train/adv_mean": 0.0014578035711876934, "train/adv_min": -0.36413377462184593, "train/adv_std": 0.0432910974303337, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 3.336930861423005e-05, "train/cont_loss_std": 0.0009653494448287671, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005660879543385151, "train/cont_pos_acc": 0.9999865277172768, "train/cont_pos_loss": 3.005926083940952e-05, "train/cont_pred": 0.9949082699540543, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.644432368343824, "train/dyn_loss_std": 8.894469404873783, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8751861763327089, "train/extr_critic_critic_opt_grad_steps": 509700.0, "train/extr_critic_critic_opt_loss": 15292.755698844177, "train/extr_critic_mag": 12.2504197734676, "train/extr_critic_max": 12.2504197734676, "train/extr_critic_mean": 3.9685159219454413, "train/extr_critic_min": -0.3634371871817602, "train/extr_critic_std": 2.924590956674863, "train/extr_return_normed_mag": 1.3828573030968234, "train/extr_return_normed_max": 1.3828573030968234, "train/extr_return_normed_mean": 0.41795437037944794, "train/extr_return_normed_min": -0.07316949989085328, "train/extr_return_normed_std": 0.31282341072004133, "train/extr_return_rate": 0.8749768587007914, "train/extr_return_raw_mag": 13.087188616190872, "train/extr_return_raw_max": 13.087188616190872, "train/extr_return_raw_mean": 3.982283977613057, "train/extr_return_raw_min": -0.6522412557307988, "train/extr_return_raw_std": 2.9518287541115122, "train/extr_reward_mag": 1.0759269733951515, "train/extr_reward_max": 1.0759269733951515, "train/extr_reward_mean": 0.06496837576978827, "train/extr_reward_min": -0.6091580260289858, "train/extr_reward_std": 0.24413452348480486, "train/image_loss_mean": 3.112372636795044, "train/image_loss_std": 8.368549203219478, "train/model_loss_mean": 6.5599688569160355, "train/model_loss_std": 12.530016572508094, "train/model_opt_grad_norm": 23.986647749600344, "train/model_opt_grad_steps": 509282.7123287671, "train/model_opt_loss": 13141.468522581335, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.671352931897934, "train/policy_entropy_max": 2.671352931897934, "train/policy_entropy_mean": 0.37798839521734684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5792632715342796, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37902966733664684, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0154219922954089, "train/policy_randomness_mag": 0.9428703572652112, "train/policy_randomness_max": 0.9428703572652112, "train/policy_randomness_mean": 0.1334133162482144, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20445451293497868, "train/post_ent_mag": 55.19094420132572, "train/post_ent_max": 55.19094420132572, "train/post_ent_mean": 40.02925313662176, "train/post_ent_min": 19.685377695789075, "train/post_ent_std": 5.784555206560109, "train/prior_ent_mag": 76.78125533012495, "train/prior_ent_max": 76.78125533012495, "train/prior_ent_mean": 45.677970781718216, "train/prior_ent_min": 27.72992674945152, "train/prior_ent_std": 7.874801211161156, "train/rep_loss_mean": 5.644432368343824, "train/rep_loss_std": 8.894469404873783, "train/reward_avg": 0.04671580681245621, "train/reward_loss_mean": 0.0609034965809894, "train/reward_loss_std": 0.2203086735042807, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.0392756625397566, "train/reward_neg_acc": 0.9932310777167751, "train/reward_neg_loss": 0.025226880694190934, "train/reward_pos_acc": 0.9897349787085024, "train/reward_pos_loss": 0.7243131456309801, "train/reward_pred": 0.04639817580376586, "train/reward_rate": 0.051075556506849314, "stats/sum_log_reward": 11.385714258466448, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5714285714285716, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.417349493929318, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.331629085409592e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.312081062810129e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34563875198364, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.723248958587646, "timer/env.step_frac": 0.0623390072730463, "timer/env.step_avg": 0.012877062557488064, "timer/env.step_min": 0.0027475357055664062, "timer/env.step_max": 1.6533691883087158, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2972118854522705, "timer/replay.add_frac": 0.0009895661767797437, "timer/replay.add_avg": 0.00020440982493278578, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.003715038299560547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02162766456604004, "timer/logger.write_frac": 7.200925126100969e-05, "timer/logger.write_avg": 0.02162766456604004, "timer/logger.write_min": 0.02162766456604004, "timer/logger.write_max": 0.02162766456604004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.713654041290283, "timer/agent.policy_frac": 0.03567108244290937, "timer/agent.policy_avg": 0.007368400303500882, "timer/agent.policy_min": 0.005683183670043945, "timer/agent.policy_max": 0.016216516494750977, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058551788330078125, "timer/dataset_frac": 0.00019494802246297448, "timer/dataset_avg": 8.053891104549948e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001323223114013672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.8656430244446, "timer/agent.train_frac": 0.8985169358403485, "timer/agent.train_avg": 0.37120446083142306, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.38642048835754395, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21775388717651367, "timer/agent.report_frac": 0.0007250109842824395, "timer/agent.report_avg": 0.21775388717651367, "timer/agent.report_min": 0.21775388717651367, "timer/agent.report_max": 0.21775388717651367, "fps": 4.840982425602859}
+{"step": 1021432, "episode/length": 272.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.03663003663003663}
+{"step": 1021636, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06862745098039216}
+{"step": 1021907, "episode/length": 270.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05166051660516605}
+{"step": 1022156, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05622489959839357}
+{"step": 1022448, "episode/length": 291.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.0547945205479452}
+{"step": 1022697, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4502061817744005, "train/action_min": 0.0, "train/action_std": 3.3157800517670095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03851323579884555, "train/actor_opt_grad_steps": 510430.0, "train/actor_opt_loss": -9.927596543749718, "train/adv_mag": 0.42549272718494885, "train/adv_max": 0.3422103085338253, "train/adv_mean": 0.0023192925492578867, "train/adv_min": -0.38793528569887764, "train/adv_std": 0.04335442945769388, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 0.0001085640234646546, "train/cont_loss_std": 0.003410091236194631, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.01532884609914602, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 7.34864361547433e-06, "train/cont_pred": 0.9947327914303297, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.771935828744549, "train/dyn_loss_std": 9.046131395313838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9179733003655525, "train/extr_critic_critic_opt_grad_steps": 510430.0, "train/extr_critic_critic_opt_loss": 15571.99965218322, "train/extr_critic_mag": 12.264938197723806, "train/extr_critic_max": 12.264938197723806, "train/extr_critic_mean": 3.751675386951394, "train/extr_critic_min": -0.3761918659079565, "train/extr_critic_std": 2.943572165214852, "train/extr_return_normed_mag": 1.375609525262493, "train/extr_return_normed_max": 1.375609525262493, "train/extr_return_normed_mean": 0.39677522933646425, "train/extr_return_normed_min": -0.07474176391755065, "train/extr_return_normed_std": 0.31422609356168196, "train/extr_return_rate": 0.8577135458384475, "train/extr_return_raw_mag": 13.023883127186396, "train/extr_return_raw_max": 13.023883127186396, "train/extr_return_raw_mean": 3.773576961804743, "train/extr_return_raw_min": -0.6832949906995852, "train/extr_return_raw_std": 2.9698625198782307, "train/extr_reward_mag": 1.0780343944079256, "train/extr_reward_max": 1.0780343944079256, "train/extr_reward_mean": 0.0625051898396995, "train/extr_reward_min": -0.6082741397700898, "train/extr_reward_std": 0.23975679727449808, "train/image_loss_mean": 3.5033311158010405, "train/image_loss_std": 9.11942259252888, "train/model_loss_mean": 7.028180769045059, "train/model_loss_std": 13.295262153834512, "train/model_opt_grad_norm": 21.591379191777477, "train/model_opt_grad_steps": 510012.0, "train/model_opt_loss": 9306.5126953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.66984750473336, "train/policy_entropy_max": 2.66984750473336, "train/policy_entropy_mean": 0.39183000709912547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5917509581944714, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3922030760409081, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0230012691184267, "train/policy_randomness_mag": 0.942339006352098, "train/policy_randomness_max": 0.942339006352098, "train/policy_randomness_mean": 0.13829879932207603, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20886211770854585, "train/post_ent_mag": 55.86641008559972, "train/post_ent_max": 55.86641008559972, "train/post_ent_mean": 40.44608505458048, "train/post_ent_min": 19.788709222453914, "train/post_ent_std": 5.877979585569199, "train/prior_ent_mag": 76.8094051831389, "train/prior_ent_max": 76.8094051831389, "train/prior_ent_mean": 46.202048523785315, "train/prior_ent_min": 27.894430108266334, "train/prior_ent_std": 7.898309942794173, "train/rep_loss_mean": 5.771935828744549, "train/rep_loss_std": 9.046131395313838, "train/reward_avg": 0.04441352698900928, "train/reward_loss_mean": 0.061579555324087404, "train/reward_loss_std": 0.22828227628583778, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0336651671422672, "train/reward_neg_acc": 0.9928361757160866, "train/reward_neg_loss": 0.027024631796736424, "train/reward_pos_acc": 0.9881374346066828, "train/reward_pos_loss": 0.7326501060838568, "train/reward_pred": 0.044067439482840774, "train/reward_rate": 0.04904216609589041, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 3.4, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 15.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5342345297336578, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2927099950307073e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2850728931478973e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1862072944641, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.87550950050354, "timer/env.step_frac": 0.05288553942430355, "timer/env.step_avg": 0.010814379768735382, "timer/env.step_min": 0.003064870834350586, "timer/env.step_max": 1.5671849250793457, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.3139684200286865, "timer/replay.add_frac": 0.0010459122118182563, "timer/replay.add_avg": 0.00021387494552362843, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0047664642333984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02404165267944336, "timer/logger.write_frac": 8.008913166306799e-05, "timer/logger.write_avg": 0.02404165267944336, "timer/logger.write_min": 0.02404165267944336, "timer/logger.write_max": 0.02404165267944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.861499071121216, "timer/agent.policy_frac": 0.03618253872825928, "timer/agent.policy_avg": 0.007398841329101646, "timer/agent.policy_min": 0.005794048309326172, "timer/agent.policy_max": 0.014856100082397461, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05886054039001465, "timer/dataset_frac": 0.00019608009615270598, "timer/dataset_avg": 8.019147192100089e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00012421607971191406, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3957452774048, "timer/agent.train_frac": 0.9074225885741692, "timer/agent.train_avg": 0.37111136958774493, "timer/agent.train_min": 0.36470627784729004, "timer/agent.train_max": 0.38454365730285645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21860671043395996, "timer/agent.report_frac": 0.0007282370246262524, "timer/agent.report_avg": 0.21860671043395996, "timer/agent.report_min": 0.21860671043395996, "timer/agent.report_max": 0.21860671043395996, "fps": 4.890200291493106}
+{"step": 1022701, "episode/length": 252.0, "episode/score": 15.1000000461936, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06719367588932806}
+{"step": 1022902, "episode/length": 200.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05472636815920398}
+{"step": 1023131, "episode/length": 228.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.056768558951965066}
+{"step": 1023377, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06097560975609756}
+{"step": 1023676, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05016722408026756}
+{"step": 1023856, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07222222222222222}
+{"step": 1024080, "episode/length": 223.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07142857142857142}
+{"step": 1024133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.330407036675347, "train/action_min": 0.0, "train/action_std": 3.1924345890680947, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03868355951271951, "train/actor_opt_grad_steps": 511155.0, "train/actor_opt_loss": -10.270561442348278, "train/adv_mag": 0.420445731944508, "train/adv_max": 0.3358028700782193, "train/adv_mean": 0.0024272585356218063, "train/adv_min": -0.37580279798971283, "train/adv_std": 0.042942552361637354, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 5.214754328757781e-05, "train/cont_loss_std": 0.0016057426273465107, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.006016672362645458, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 7.329771716888287e-06, "train/cont_pred": 0.994909663995107, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.628867109616597, "train/dyn_loss_std": 8.931846314006382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8861458458834224, "train/extr_critic_critic_opt_grad_steps": 511155.0, "train/extr_critic_critic_opt_loss": 15335.361043294271, "train/extr_critic_mag": 12.260096377796597, "train/extr_critic_max": 12.260096377796597, "train/extr_critic_mean": 3.92544107304679, "train/extr_critic_min": -0.3410109165641997, "train/extr_critic_std": 2.905902862548828, "train/extr_return_normed_mag": 1.3757642441325717, "train/extr_return_normed_max": 1.3757642441325717, "train/extr_return_normed_mean": 0.4125810998181502, "train/extr_return_normed_min": -0.07242142041731212, "train/extr_return_normed_std": 0.3109857866333591, "train/extr_return_rate": 0.8780671755472819, "train/extr_return_raw_mag": 13.053000238206652, "train/extr_return_raw_max": 13.053000238206652, "train/extr_return_raw_mean": 3.948373519712024, "train/extr_return_raw_min": -0.6360195506778028, "train/extr_return_raw_std": 2.939776168929206, "train/extr_reward_mag": 1.0799679888619318, "train/extr_reward_max": 1.0799679888619318, "train/extr_reward_mean": 0.06392995625113447, "train/extr_reward_min": -0.5616939846012328, "train/extr_reward_std": 0.2430015295330021, "train/image_loss_mean": 3.2299508651097617, "train/image_loss_std": 8.694476650820839, "train/model_loss_mean": 6.667288992140028, "train/model_loss_std": 12.824360039499071, "train/model_opt_grad_norm": 21.850323968463474, "train/model_opt_grad_steps": 510737.0, "train/model_opt_loss": 16668.222507052953, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.680300537082884, "train/policy_entropy_max": 2.680300537082884, "train/policy_entropy_mean": 0.36336529523962074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5608042673104339, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36274371813568806, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9964026336868604, "train/policy_randomness_mag": 0.9460284668538306, "train/policy_randomness_max": 0.9460284668538306, "train/policy_randomness_mean": 0.12825200313495266, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19793929759826925, "train/post_ent_mag": 55.520548820495605, "train/post_ent_max": 55.520548820495605, "train/post_ent_mean": 40.23686991797553, "train/post_ent_min": 19.525804625617134, "train/post_ent_std": 5.79281743367513, "train/prior_ent_mag": 76.73729048834906, "train/prior_ent_max": 76.73729048834906, "train/prior_ent_mean": 45.83847925398085, "train/prior_ent_min": 27.390807337231106, "train/prior_ent_std": 7.857997245258755, "train/rep_loss_mean": 5.628867109616597, "train/rep_loss_std": 8.931846314006382, "train/reward_avg": 0.04507242808014982, "train/reward_loss_mean": 0.05996570379162828, "train/reward_loss_std": 0.21734474413096905, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0298049863841798, "train/reward_neg_acc": 0.9936306344138252, "train/reward_neg_loss": 0.025366902131483786, "train/reward_pos_acc": 0.990712396800518, "train/reward_pos_loss": 0.7203481702340974, "train/reward_pred": 0.04479303718027142, "train/reward_rate": 0.049858940972222224, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43015046417713165, "replay/size": 1000000.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.281742085321368e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3561716982913216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32446026802063, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.234922647476196, "timer/env.step_frac": 0.0673768717653494, "timer/env.step_avg": 0.014091171760080916, "timer/env.step_min": 0.0025968551635742188, "timer/env.step_max": 1.7954761981964111, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.286848783493042, "timer/replay.add_frac": 0.0009551296062833096, "timer/replay.add_avg": 0.00019975542025977856, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.002844095230102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025266408920288086, "timer/logger.write_frac": 8.413037318951447e-05, "timer/logger.write_avg": 0.025266408920288086, "timer/logger.write_min": 0.025266408920288086, "timer/logger.write_max": 0.025266408920288086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003674030303955078, "timer/checkpoint.save_frac": 1.2233536691204699e-06, "timer/checkpoint.save_avg": 0.0003674030303955078, "timer/checkpoint.save_min": 0.0003674030303955078, "timer/checkpoint.save_max": 0.0003674030303955078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.178924560546875, "timer/agent.save_frac": 0.003925502969337759, "timer/agent.save_avg": 1.178924560546875, "timer/agent.save_min": 1.178924560546875, "timer/agent.save_max": 1.178924560546875, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.905564197911045e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.23388147354126, "timer/agent.policy_frac": 0.040735548022373176, "timer/agent.policy_avg": 0.008519416067925669, "timer/agent.policy_min": 0.005822896957397461, "timer/agent.policy_max": 1.1754395961761475, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05762052536010742, "timer/dataset_frac": 0.0001918609137220616, "timer/dataset_avg": 8.025142807814405e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0002040863037109375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.82104086875916, "timer/agent.train_frac": 0.8884425884945842, "timer/agent.train_avg": 0.3716170485637314, "timer/agent.train_min": 0.3643181324005127, "timer/agent.train_max": 0.8171696662902832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22092485427856445, "timer/agent.report_frac": 0.0007356205820911256, "timer/agent.report_avg": 0.22092485427856445, "timer/agent.report_min": 0.22092485427856445, "timer/agent.report_max": 0.22092485427856445, "fps": 4.781428399095415}
+{"step": 1024247, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.0658682634730539}
+{"step": 1024441, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07216494845360824}
+{"step": 1024741, "episode/length": 299.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.05333333333333334}
+{"step": 1024882, "episode/length": 140.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.09219858156028368}
+{"step": 1025070, "episode/length": 187.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06914893617021277}
+{"step": 1025229, "episode/length": 158.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0880503144654088}
+{"step": 1025443, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06542056074766354}
+{"step": 1025587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.333848091020976, "train/action_min": 0.0, "train/action_std": 3.178028067497358, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038050841182878575, "train/actor_opt_grad_steps": 511880.0, "train/actor_opt_loss": -12.295349790625377, "train/adv_mag": 0.4140552719161935, "train/adv_max": 0.34704880232680335, "train/adv_mean": 0.0018730192601302805, "train/adv_min": -0.3540654684582802, "train/adv_std": 0.042858011459242805, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 9.751013015706782e-05, "train/cont_loss_std": 0.0030609189977879284, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.013310158556313397, "train/cont_pos_acc": 0.9999865285337788, "train/cont_pos_loss": 2.2007327565339837e-05, "train/cont_pred": 0.994948246707655, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.652126547408431, "train/dyn_loss_std": 8.975633738792105, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264143917658557, "train/extr_critic_critic_opt_grad_steps": 511880.0, "train/extr_critic_critic_opt_loss": 15381.901648116438, "train/extr_critic_mag": 12.430446311219098, "train/extr_critic_max": 12.430446311219098, "train/extr_critic_mean": 3.9139709309355855, "train/extr_critic_min": -0.35612412021584705, "train/extr_critic_std": 2.9126140450778073, "train/extr_return_normed_mag": 1.3869608869291332, "train/extr_return_normed_max": 1.3869608869291332, "train/extr_return_normed_mean": 0.4068774940216378, "train/extr_return_normed_min": -0.08163709262360448, "train/extr_return_normed_std": 0.30817604656905345, "train/extr_return_rate": 0.8764037963462202, "train/extr_return_raw_mag": 13.288782916656912, "train/extr_return_raw_max": 13.288782916656912, "train/extr_return_raw_mean": 3.9318625404410166, "train/extr_return_raw_min": -0.7320786722718853, "train/extr_return_raw_std": 2.94226725134131, "train/extr_reward_mag": 1.0764982602367663, "train/extr_reward_max": 1.0764982602367663, "train/extr_reward_mean": 0.06169661527423009, "train/extr_reward_min": -0.5896006642955623, "train/extr_reward_std": 0.2392417604792608, "train/image_loss_mean": 3.3327489585092622, "train/image_loss_std": 8.60131696805562, "train/model_loss_mean": 6.782685142673858, "train/model_loss_std": 12.775349068315062, "train/model_opt_grad_norm": 23.14756821932858, "train/model_opt_grad_steps": 511461.4246575342, "train/model_opt_loss": 18407.995612157534, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.70110101242588, "train/policy_entropy_max": 2.70110101242588, "train/policy_entropy_mean": 0.39617407811831123, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6114949808545309, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3966078939911437, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 1.0317808528469032, "train/policy_randomness_mag": 0.9533701228768858, "train/policy_randomness_max": 0.9533701228768858, "train/policy_randomness_mean": 0.13983206318257607, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21583089620283205, "train/post_ent_mag": 56.23219644206844, "train/post_ent_max": 56.23219644206844, "train/post_ent_mean": 40.25134867837984, "train/post_ent_min": 19.468489855936127, "train/post_ent_std": 5.935221763506328, "train/prior_ent_mag": 76.7948199755525, "train/prior_ent_max": 76.7948199755525, "train/prior_ent_mean": 45.88001538629401, "train/prior_ent_min": 27.68369779194871, "train/prior_ent_std": 8.029223984234953, "train/rep_loss_mean": 5.652126547408431, "train/rep_loss_std": 8.975633738792105, "train/reward_avg": 0.044721211268477244, "train/reward_loss_mean": 0.05856274231655957, "train/reward_loss_std": 0.20950414138297513, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.025824781966536, "train/reward_neg_acc": 0.9933895289081417, "train/reward_neg_loss": 0.024653007659091525, "train/reward_pos_acc": 0.9921661370421109, "train/reward_pos_loss": 0.7121999026977852, "train/reward_pred": 0.04446958712212844, "train/reward_rate": 0.04921607448630137, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.37122029066085815, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2158632553919147e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492827238374105e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07121682167053, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.768179893493652, "timer/env.step_frac": 0.06254575194610353, "timer/env.step_avg": 0.012907964163338137, "timer/env.step_min": 0.00296783447265625, "timer/env.step_max": 1.566298484802246, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27212047576904297, "timer/replay.add_frac": 0.0009068529752747381, "timer/replay.add_avg": 0.0001871530094697682, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.003157377243041992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03426694869995117, "timer/logger.write_frac": 0.0001141960533999357, "timer/logger.write_avg": 0.03426694869995117, "timer/logger.write_min": 0.03426694869995117, "timer/logger.write_max": 0.03426694869995117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.670077800750732, "timer/agent.policy_frac": 0.03555848479493406, "timer/agent.policy_avg": 0.007338430399415909, "timer/agent.policy_min": 0.00587916374206543, "timer/agent.policy_max": 0.01559758186340332, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05817413330078125, "timer/dataset_frac": 0.00019386775551802953, "timer/dataset_avg": 8.001944057879127e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6136953830719, "timer/agent.train_frac": 0.8984990237944106, "timer/agent.train_avg": 0.37085790286529835, "timer/agent.train_min": 0.3625054359436035, "timer/agent.train_max": 0.38407278060913086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2178044319152832, "timer/agent.report_frac": 0.0007258424657394657, "timer/agent.report_avg": 0.2178044319152832, "timer/agent.report_min": 0.2178044319152832, "timer/agent.report_max": 0.2178044319152832, "fps": 4.84540940063185}
+{"step": 1025636, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06735751295336788}
+{"step": 1025875, "episode/length": 238.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05439330543933055}
+{"step": 1026061, "episode/length": 185.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.099999994039536, "episode/reward_rate": 0.05913978494623656}
+{"step": 1026246, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08108108108108109}
+{"step": 1026392, "episode/length": 145.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08904109589041095}
+{"step": 1026574, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07692307692307693}
+{"step": 1026836, "episode/length": 261.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.500000029802322, "episode/reward_rate": 0.05725190839694656}
+{"step": 1027039, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348616926637415, "train/action_min": 0.0, "train/action_std": 3.233728774606365, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038299511760881505, "train/actor_opt_grad_steps": 512610.0, "train/actor_opt_loss": -12.281736898095641, "train/adv_mag": 0.40198071117270484, "train/adv_max": 0.33215709071453303, "train/adv_mean": 0.0018938572315139574, "train/adv_min": -0.35858095263781614, "train/adv_std": 0.043080377966573796, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 2.1096610598270322e-05, "train/cont_loss_std": 0.0006075648394060359, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009365440981130629, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.4601904743530406e-05, "train/cont_pred": 0.9950561351972084, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.9335144970515, "train/dyn_loss_std": 8.980829199699507, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9241814254081413, "train/extr_critic_critic_opt_grad_steps": 512610.0, "train/extr_critic_critic_opt_loss": 15336.668918557363, "train/extr_critic_mag": 12.302590735971112, "train/extr_critic_max": 12.302590735971112, "train/extr_critic_mean": 3.98288116389758, "train/extr_critic_min": -0.31321281929538675, "train/extr_critic_std": 2.936202633870791, "train/extr_return_normed_mag": 1.374853586497372, "train/extr_return_normed_max": 1.374853586497372, "train/extr_return_normed_mean": 0.41631374048860104, "train/extr_return_normed_min": -0.07551309160173755, "train/extr_return_normed_std": 0.31207745981543034, "train/extr_return_rate": 0.8746656056952803, "train/extr_return_raw_mag": 13.106613694804988, "train/extr_return_raw_max": 13.106613694804988, "train/extr_return_raw_mean": 4.000857820249584, "train/extr_return_raw_min": -0.6713582995819719, "train/extr_return_raw_std": 2.964699255277033, "train/extr_reward_mag": 1.0715326511696592, "train/extr_reward_max": 1.0715326511696592, "train/extr_reward_mean": 0.06341921364607876, "train/extr_reward_min": -0.57387940687676, "train/extr_reward_std": 0.2410395325046696, "train/image_loss_mean": 3.294450661907457, "train/image_loss_std": 8.870364940329774, "train/model_loss_mean": 6.915555888659333, "train/model_loss_std": 13.054124636192844, "train/model_opt_grad_norm": 22.885505179836326, "train/model_opt_grad_steps": 512190.8493150685, "train/model_opt_loss": 18308.101883561645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.697037752360514, "train/policy_entropy_max": 2.697037752360514, "train/policy_entropy_mean": 0.3855663380802494, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5886445253679197, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38568820263424963, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0176507014117828, "train/policy_randomness_mag": 0.9519359649044193, "train/policy_randomness_max": 0.9519359649044193, "train/policy_randomness_mean": 0.1360879982375119, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20776568516476512, "train/post_ent_mag": 55.82005785589349, "train/post_ent_max": 55.82005785589349, "train/post_ent_mean": 40.140027451188594, "train/post_ent_min": 19.440241238842273, "train/post_ent_std": 5.798099093241234, "train/prior_ent_mag": 76.7343247296059, "train/prior_ent_max": 76.7343247296059, "train/prior_ent_mean": 46.03179889835724, "train/prior_ent_min": 27.994422834213466, "train/prior_ent_std": 7.890657555567075, "train/rep_loss_mean": 5.9335144970515, "train/rep_loss_std": 8.980829199699507, "train/reward_avg": 0.045424871146678925, "train/reward_loss_mean": 0.06097548623403458, "train/reward_loss_std": 0.2305461049896397, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0254100708112324, "train/reward_neg_acc": 0.9931474687301949, "train/reward_neg_loss": 0.025730304509299258, "train/reward_pos_acc": 0.9876228015716761, "train/reward_pos_loss": 0.7321214447282764, "train/reward_pred": 0.045153915422828234, "train/reward_rate": 0.04993846318493151, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36572431666510447, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2674182545055044e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3049599552942702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3168079853058, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.97907590866089, "timer/env.step_frac": 0.06319684880770815, "timer/env.step_avg": 0.01307098891781053, "timer/env.step_min": 0.002896547317504883, "timer/env.step_max": 1.6286382675170898, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.31870079040527344, "timer/replay.add_frac": 0.0010612152964174658, "timer/replay.add_avg": 0.00021949090248297068, "timer/replay.add_min": 8.368492126464844e-05, "timer/replay.add_max": 0.005213260650634766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03257298469543457, "timer/logger.write_frac": 0.00010846207681132631, "timer/logger.write_avg": 0.03257298469543457, "timer/logger.write_min": 0.03257298469543457, "timer/logger.write_max": 0.03257298469543457, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.740281105041504, "timer/agent.policy_frac": 0.03576317015718619, "timer/agent.policy_avg": 0.007396887813389466, "timer/agent.policy_min": 0.005865812301635742, "timer/agent.policy_max": 0.018940210342407227, "timer/dataset_count": 726.0, "timer/dataset_total": 0.058682918548583984, "timer/dataset_frac": 0.00019540337732763623, "timer/dataset_avg": 8.083046632036361e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001342296600341797, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.52564787864685, "timer/agent.train_frac": 0.897471072920549, "timer/agent.train_avg": 0.37124744886865957, "timer/agent.train_min": 0.36449193954467773, "timer/agent.train_max": 0.38745546340942383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21698832511901855, "timer/agent.report_frac": 0.0007225314046679518, "timer/agent.report_avg": 0.21698832511901855, "timer/agent.report_min": 0.21698832511901855, "timer/agent.report_max": 0.21698832511901855, "fps": 4.834793840062426}
+{"step": 1027065, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06550218340611354}
+{"step": 1027541, "episode/length": 475.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.899999991059303, "episode/reward_rate": 0.03571428571428571}
+{"step": 1027721, "episode/length": 179.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.08333333333333333}
+{"step": 1027910, "episode/length": 188.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06349206349206349}
+{"step": 1027983, "episode/length": 72.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.136986301369863}
+{"step": 1028176, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
+{"step": 1028447, "episode/length": 270.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.03690036900369004}
+{"step": 1028471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368209623954665, "train/action_min": 0.0, "train/action_std": 3.1960549421713385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036505718335089546, "train/actor_opt_grad_steps": 513330.0, "train/actor_opt_loss": -12.256632060861923, "train/adv_mag": 0.37836384731279293, "train/adv_max": 0.3092296377454006, "train/adv_mean": 0.001956914614375294, "train/adv_min": -0.3286941951849091, "train/adv_std": 0.04172646936396478, "train/cont_avg": 0.9949796434859155, "train/cont_loss_mean": 3.3770915283131235e-06, "train/cont_loss_std": 7.304658412050697e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.2438895788943234e-05, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 3.275427923479673e-06, "train/cont_pred": 0.9949765658714402, "train/cont_rate": 0.9949796434859155, "train/dyn_loss_mean": 5.771129755906656, "train/dyn_loss_std": 8.936632895133865, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.861517759276108, "train/extr_critic_critic_opt_grad_steps": 513330.0, "train/extr_critic_critic_opt_loss": 15249.174144476232, "train/extr_critic_mag": 12.360767633142606, "train/extr_critic_max": 12.360767633142606, "train/extr_critic_mean": 3.9590059132643147, "train/extr_critic_min": -0.37493338215519006, "train/extr_critic_std": 2.9781685463139707, "train/extr_return_normed_mag": 1.3742572589659354, "train/extr_return_normed_max": 1.3742572589659354, "train/extr_return_normed_mean": 0.41529814122428355, "train/extr_return_normed_min": -0.0802191209415315, "train/extr_return_normed_std": 0.3173620352442835, "train/extr_return_rate": 0.8650812842476536, "train/extr_return_raw_mag": 13.053320253399056, "train/extr_return_raw_max": 13.053320253399056, "train/extr_return_raw_mean": 3.977523212701502, "train/extr_return_raw_min": -0.7117628358619313, "train/extr_return_raw_std": 3.003568429342458, "train/extr_reward_mag": 1.0802692258861704, "train/extr_reward_max": 1.0802692258861704, "train/extr_reward_mean": 0.06372667549991272, "train/extr_reward_min": -0.5874350440334266, "train/extr_reward_std": 0.24273755873592806, "train/image_loss_mean": 3.3068063427025165, "train/image_loss_std": 8.371418281340263, "train/model_loss_mean": 6.830356409851934, "train/model_loss_std": 12.558138148885378, "train/model_opt_grad_norm": 21.00335227267843, "train/model_opt_grad_steps": 512910.0, "train/model_opt_loss": 17075.891065140844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6898365390132852, "train/policy_entropy_max": 2.6898365390132852, "train/policy_entropy_mean": 0.373470620370247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5714547126226022, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37456493121637424, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0081427978797697, "train/policy_randomness_mag": 0.9493942579752962, "train/policy_randomness_max": 0.9493942579752962, "train/policy_randomness_mean": 0.13181873998591598, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2016984375429825, "train/post_ent_mag": 55.310993946773905, "train/post_ent_max": 55.310993946773905, "train/post_ent_mean": 40.05803186121121, "train/post_ent_min": 19.5071692936857, "train/post_ent_std": 5.661053476199298, "train/prior_ent_mag": 76.78365594568388, "train/prior_ent_max": 76.78365594568388, "train/prior_ent_mean": 45.815212034843334, "train/prior_ent_min": 27.514607228023905, "train/prior_ent_std": 7.870366559901708, "train/rep_loss_mean": 5.771129755906656, "train/rep_loss_std": 8.936632895133865, "train/reward_avg": 0.04537301888348351, "train/reward_loss_mean": 0.060868832899231305, "train/reward_loss_std": 0.2208122967834204, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0268338666835302, "train/reward_neg_acc": 0.9930618111516388, "train/reward_neg_loss": 0.02598562785489878, "train/reward_pos_acc": 0.990357690294024, "train/reward_pos_loss": 0.7232485740957125, "train/reward_pred": 0.04505112801324314, "train/reward_rate": 0.04998349471830986, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.428571428571427, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4662728139332363, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.2859141600198586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3246216587514184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1008846759796, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.512823820114136, "timer/env.step_frac": 0.06835309346809135, "timer/env.step_avg": 0.014324597639744509, "timer/env.step_min": 0.0028676986694335938, "timer/env.step_max": 1.821592092514038, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.29176926612854004, "timer/replay.add_frac": 0.0009722372742871609, "timer/replay.add_avg": 0.0002037494875199302, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0038704872131347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028640270233154297, "timer/logger.write_frac": 9.543547418754642e-05, "timer/logger.write_avg": 0.028640270233154297, "timer/logger.write_min": 0.028640270233154297, "timer/logger.write_max": 0.028640270233154297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002987384796142578, "timer/checkpoint.save_frac": 9.954601764563513e-07, "timer/checkpoint.save_avg": 0.0002987384796142578, "timer/checkpoint.save_min": 0.0002987384796142578, "timer/checkpoint.save_max": 0.0002987384796142578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2038874626159668, "timer/agent.save_frac": 0.004011609175747049, "timer/agent.save_avg": 1.2038874626159668, "timer/agent.save_min": 1.2038874626159668, "timer/agent.save_max": 1.2038874626159668, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.604194641113281e-05, "timer/replay.save_frac": 2.2006581714158765e-07, "timer/replay.save_avg": 6.604194641113281e-05, "timer/replay.save_min": 6.604194641113281e-05, "timer/replay.save_max": 6.604194641113281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.418835639953613, "timer/agent.policy_frac": 0.04138220269947651, "timer/agent.policy_avg": 0.008672371256950848, "timer/agent.policy_min": 0.005830526351928711, "timer/agent.policy_max": 1.1922619342803955, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05749630928039551, "timer/dataset_frac": 0.00019158993597261317, "timer/dataset_avg": 8.030210793351327e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014448165893554688, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.13699412345886, "timer/agent.train_frac": 0.8868250902052763, "timer/agent.train_avg": 0.3716997124629314, "timer/agent.train_min": 0.36377573013305664, "timer/agent.train_max": 0.8221514225006104, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21727800369262695, "timer/agent.report_frac": 0.0007240165383958233, "timer/agent.report_avg": 0.21727800369262695, "timer/agent.report_min": 0.21727800369262695, "timer/agent.report_max": 0.21727800369262695, "fps": 4.771651829087102}
+{"step": 1028737, "episode/length": 289.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03793103448275862}
+{"step": 1028876, "episode/length": 138.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06474820143884892}
+{"step": 1029118, "episode/length": 241.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05371900826446281}
+{"step": 1029432, "episode/length": 313.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.500000067055225, "episode/reward_rate": 0.050955414012738856}
+{"step": 1029628, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1029801, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
+{"step": 1029931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435957399133134, "train/action_min": 0.0, "train/action_std": 3.3153392811344093, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038410960173566044, "train/actor_opt_grad_steps": 514050.0, "train/actor_opt_loss": -10.187248714268208, "train/adv_mag": 0.4075095100353842, "train/adv_max": 0.3554892366471356, "train/adv_mean": 0.0019457951824584248, "train/adv_min": -0.34565725330620595, "train/adv_std": 0.04221706582258825, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 6.1117672701534685e-06, "train/cont_loss_std": 0.0001580840340670252, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00025379415953703094, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 4.778086099927599e-06, "train/cont_pred": 0.9950470303835934, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.6857571275266885, "train/dyn_loss_std": 8.921447283601108, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9073977094807036, "train/extr_critic_critic_opt_grad_steps": 514050.0, "train/extr_critic_critic_opt_loss": 15266.362772902397, "train/extr_critic_mag": 12.387953993392317, "train/extr_critic_max": 12.387953993392317, "train/extr_critic_mean": 3.9141432683761805, "train/extr_critic_min": -0.36166793842838235, "train/extr_critic_std": 2.9917557370172787, "train/extr_return_normed_mag": 1.3772565306049505, "train/extr_return_normed_max": 1.3772565306049505, "train/extr_return_normed_mean": 0.40803102801923885, "train/extr_return_normed_min": -0.08063635811822055, "train/extr_return_normed_std": 0.3157388696523562, "train/extr_return_rate": 0.8621210145623717, "train/extr_return_raw_mag": 13.201124308860464, "train/extr_return_raw_max": 13.201124308860464, "train/extr_return_raw_mean": 3.9327318243784446, "train/extr_return_raw_min": -0.7375770758276117, "train/extr_return_raw_std": 3.0190872786796255, "train/extr_reward_mag": 1.0816028738675052, "train/extr_reward_max": 1.0816028738675052, "train/extr_reward_mean": 0.06300759453275433, "train/extr_reward_min": -0.5951538984089682, "train/extr_reward_std": 0.24116767432591688, "train/image_loss_mean": 3.3649254237135797, "train/image_loss_std": 8.435831697019813, "train/model_loss_mean": 6.835651064572269, "train/model_loss_std": 12.58897627216496, "train/model_opt_grad_norm": 21.08275490590971, "train/model_opt_grad_steps": 513629.2876712329, "train/model_opt_loss": 17654.37936108733, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.701593957535208, "train/policy_entropy_max": 2.701593957535208, "train/policy_entropy_mean": 0.41715469180721126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6287999928814091, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41901416219260595, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.0488737429658028, "train/policy_randomness_mag": 0.9535441129174951, "train/policy_randomness_max": 0.9535441129174951, "train/policy_randomness_mean": 0.147237300362489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2219388046085018, "train/post_ent_mag": 55.99773929543691, "train/post_ent_max": 55.99773929543691, "train/post_ent_mean": 40.258878734013805, "train/post_ent_min": 19.416156664286575, "train/post_ent_std": 5.779535189066848, "train/prior_ent_mag": 76.7940171124184, "train/prior_ent_max": 76.7940171124184, "train/prior_ent_mean": 45.93645545227887, "train/prior_ent_min": 27.818739747347898, "train/prior_ent_std": 7.904725231536447, "train/rep_loss_mean": 5.6857571275266885, "train/rep_loss_std": 8.921447283601108, "train/reward_avg": 0.04500347771362899, "train/reward_loss_mean": 0.0592652423026627, "train/reward_loss_std": 0.21298708940205507, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.031452289999348, "train/reward_neg_acc": 0.9931367284631076, "train/reward_neg_loss": 0.024923710943493126, "train/reward_pos_acc": 0.991389225607049, "train/reward_pos_loss": 0.7184380341882575, "train/reward_pred": 0.04480019949172458, "train/reward_rate": 0.049510380993150686, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5640420963366827, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3212034669640947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.317038111490746e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2587773799896, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.47705888748169, "timer/env.step_frac": 0.05820665440652136, "timer/env.step_avg": 0.011970588279097048, "timer/env.step_min": 0.0026597976684570312, "timer/env.step_max": 1.6226892471313477, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30524134635925293, "timer/replay.add_frac": 0.0010165942492097663, "timer/replay.add_avg": 0.0002090694153145568, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0041656494140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029050827026367188, "timer/logger.write_frac": 9.67526321124068e-05, "timer/logger.write_avg": 0.029050827026367188, "timer/logger.write_min": 0.029050827026367188, "timer/logger.write_max": 0.029050827026367188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.727406740188599, "timer/agent.policy_frac": 0.03572720449271873, "timer/agent.policy_avg": 0.0073475388631428756, "timer/agent.policy_min": 0.005844831466674805, "timer/agent.policy_max": 0.016249895095825195, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05843400955200195, "timer/dataset_frac": 0.00019461216108947034, "timer/dataset_avg": 8.004658842739993e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00012874603271484375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.99206471443176, "timer/agent.train_frac": 0.9025283692922, "timer/agent.train_avg": 0.3712220064581257, "timer/agent.train_min": 0.36372995376586914, "timer/agent.train_max": 0.38619446754455566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205204963684082, "timer/agent.report_frac": 0.000734434804180031, "timer/agent.report_avg": 0.2205204963684082, "timer/agent.report_min": 0.2205204963684082, "timer/agent.report_max": 0.2205204963684082, "fps": 4.862382700950833}
+{"step": 1030248, "episode/length": 446.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.029082774049217}
+{"step": 1030446, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05555555555555555}
+{"step": 1030638, "episode/length": 191.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.08333333333333333}
+{"step": 1030855, "episode/length": 216.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06912442396313365}
+{"step": 1031022, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07784431137724551}
+{"step": 1031273, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
+{"step": 1031393, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351972188035103, "train/action_min": 0.0, "train/action_std": 3.2050673079817265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03730933130910135, "train/actor_opt_grad_steps": 514780.0, "train/actor_opt_loss": -11.220124584763017, "train/adv_mag": 0.39247979448266224, "train/adv_max": 0.3437744915893633, "train/adv_mean": 0.002174090417935226, "train/adv_min": -0.3275927942093105, "train/adv_std": 0.042301567654087116, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 6.843969209352561e-05, "train/cont_loss_std": 0.0021287942872255006, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.016308075216510447, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 5.020411452259807e-06, "train/cont_pred": 0.9951856487417874, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.625737523379391, "train/dyn_loss_std": 8.834657943412049, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9251326583836177, "train/extr_critic_critic_opt_grad_steps": 514780.0, "train/extr_critic_critic_opt_loss": 15454.556774400686, "train/extr_critic_mag": 12.344110645659983, "train/extr_critic_max": 12.344110645659983, "train/extr_critic_mean": 3.8560101430710048, "train/extr_critic_min": -0.3474968230887635, "train/extr_critic_std": 2.9369105933463735, "train/extr_return_normed_mag": 1.3712963486370975, "train/extr_return_normed_max": 1.3712963486370975, "train/extr_return_normed_mean": 0.4012727929304724, "train/extr_return_normed_min": -0.07208766436127767, "train/extr_return_normed_std": 0.3106066547844508, "train/extr_return_rate": 0.8657053104818684, "train/extr_return_raw_mag": 13.138400744085443, "train/extr_return_raw_max": 13.138400744085443, "train/extr_return_raw_mean": 3.8767593984734523, "train/extr_return_raw_min": -0.6430440518545778, "train/extr_return_raw_std": 2.9657529314903366, "train/extr_reward_mag": 1.0774981648954627, "train/extr_reward_max": 1.0774981648954627, "train/extr_reward_mean": 0.06401063593691342, "train/extr_reward_min": -0.6179381119061823, "train/extr_reward_std": 0.2429585530333323, "train/image_loss_mean": 3.3006754052149105, "train/image_loss_std": 8.442804441060105, "train/model_loss_mean": 6.734970288733914, "train/model_loss_std": 12.557338936688149, "train/model_opt_grad_norm": 22.27512897857248, "train/model_opt_grad_steps": 514358.3561643836, "train/model_opt_loss": 11289.333944242295, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1695.2054794520548, "train/policy_entropy_mag": 2.6894050983533466, "train/policy_entropy_max": 2.6894050983533466, "train/policy_entropy_mean": 0.38619182432351046, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885271977071893, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38647422745619736, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.017815255138972, "train/policy_randomness_mag": 0.9492419778484188, "train/policy_randomness_max": 0.9492419778484188, "train/policy_randomness_mean": 0.13630876751386956, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20772427769556437, "train/post_ent_mag": 55.3175198280648, "train/post_ent_max": 55.3175198280648, "train/post_ent_mean": 40.43044385518113, "train/post_ent_min": 19.650687831721893, "train/post_ent_std": 5.786724998526378, "train/prior_ent_mag": 76.79093264227043, "train/prior_ent_max": 76.79093264227043, "train/prior_ent_mean": 46.036063050570554, "train/prior_ent_min": 27.969818350386944, "train/prior_ent_std": 7.832218294274317, "train/rep_loss_mean": 5.625737523379391, "train/rep_loss_std": 8.834657943412049, "train/reward_avg": 0.04426637368455325, "train/reward_loss_mean": 0.058783928978524795, "train/reward_loss_std": 0.21516815909784134, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0310695530617073, "train/reward_neg_acc": 0.9936022652338629, "train/reward_neg_loss": 0.0244590193798689, "train/reward_pos_acc": 0.9902827119174069, "train/reward_pos_loss": 0.7280533272926122, "train/reward_pred": 0.043770634377860045, "train/reward_rate": 0.0488013698630137, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.491988904774189, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.272629306026099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3011914108422484e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1185495853424, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.05813694000244, "timer/env.step_frac": 0.056837996063791286, "timer/env.step_avg": 0.011667672325583064, "timer/env.step_min": 0.0028328895568847656, "timer/env.step_max": 1.6013474464416504, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.28403282165527344, "timer/replay.add_frac": 0.0009464020869343339, "timer/replay.add_avg": 0.00019427689579704067, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0012710094451904297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02698993682861328, "timer/logger.write_frac": 8.993091851837822e-05, "timer/logger.write_avg": 0.02698993682861328, "timer/logger.write_min": 0.02698993682861328, "timer/logger.write_max": 0.02698993682861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.704654455184937, "timer/agent.policy_frac": 0.035668086727644724, "timer/agent.policy_avg": 0.007321925071945921, "timer/agent.policy_min": 0.005724668502807617, "timer/agent.policy_max": 0.015947818756103516, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05800509452819824, "timer/dataset_frac": 0.0001932739399425352, "timer/dataset_avg": 7.93503345118991e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3267197608948, "timer/agent.train_frac": 0.9040651440431531, "timer/agent.train_avg": 0.371171983257038, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.3874399662017822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21712636947631836, "timer/agent.report_frac": 0.0007234686752162109, "timer/agent.report_avg": 0.21712636947631836, "timer/agent.report_min": 0.21712636947631836, "timer/agent.report_max": 0.21712636947631836, "fps": 4.871303731843268}
+{"step": 1031452, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0782122905027933}
+{"step": 1031672, "episode/length": 219.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 15.900000035762787, "episode/reward_rate": 0.06818181818181818}
+{"step": 1031828, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
+{"step": 1032035, "episode/length": 206.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.07246376811594203}
+{"step": 1032250, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06046511627906977}
+{"step": 1032586, "episode/length": 335.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.023809523809523808}
+{"step": 1032663, "episode/length": 76.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.07792207792207792}
+{"step": 1032822, "episode/length": 158.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08176100628930817}
+{"step": 1032823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4376415676540795, "train/action_min": 0.0, "train/action_std": 3.295412666267819, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038069314090535045, "train/actor_opt_grad_steps": 515505.0, "train/actor_opt_loss": -11.438545554876328, "train/adv_mag": 0.39501772820949554, "train/adv_max": 0.31983810000949436, "train/adv_mean": 0.0020936896169637797, "train/adv_min": -0.35936665369404686, "train/adv_std": 0.043246257222361036, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 1.233720150735825e-05, "train/cont_loss_std": 0.0003540822361409981, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018649736692556553, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.9542540605436643e-06, "train/cont_pred": 0.9949724599719048, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.664107514752282, "train/dyn_loss_std": 8.855037596490648, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9171899366709921, "train/extr_critic_critic_opt_grad_steps": 515505.0, "train/extr_critic_critic_opt_loss": 15486.594645182291, "train/extr_critic_mag": 12.420043932067024, "train/extr_critic_max": 12.420043932067024, "train/extr_critic_mean": 3.9241173499160342, "train/extr_critic_min": -0.32502381172445083, "train/extr_critic_std": 2.9577370120419397, "train/extr_return_normed_mag": 1.3842356668578253, "train/extr_return_normed_max": 1.3842356668578253, "train/extr_return_normed_mean": 0.4083150989479489, "train/extr_return_normed_min": -0.07571638385868734, "train/extr_return_normed_std": 0.3132638484239578, "train/extr_return_rate": 0.8701995180712806, "train/extr_return_raw_mag": 13.239508165253532, "train/extr_return_raw_max": 13.239508165253532, "train/extr_return_raw_mean": 3.944064845641454, "train/extr_return_raw_min": -0.6662774951093726, "train/extr_return_raw_std": 2.983890732129415, "train/extr_reward_mag": 1.0805662274360657, "train/extr_reward_max": 1.0805662274360657, "train/extr_reward_mean": 0.06503711625312765, "train/extr_reward_min": -0.5852577570411894, "train/extr_reward_std": 0.24493356256021392, "train/image_loss_mean": 3.284494654999839, "train/image_loss_std": 8.459382904900444, "train/model_loss_mean": 6.74434275759591, "train/model_loss_std": 12.564500159687466, "train/model_opt_grad_norm": 23.12167806095547, "train/model_opt_grad_steps": 515083.0, "train/model_opt_loss": 10623.015733506945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.670122789012061, "train/policy_entropy_max": 2.670122789012061, "train/policy_entropy_mean": 0.3997061277429263, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5969624804953734, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39921997487545013, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0250055028332605, "train/policy_randomness_mag": 0.9424361669354968, "train/policy_randomness_max": 0.9424361669354968, "train/policy_randomness_mean": 0.1410787215249406, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21070155998071036, "train/post_ent_mag": 55.75413052241007, "train/post_ent_max": 55.75413052241007, "train/post_ent_mean": 40.24976518419054, "train/post_ent_min": 19.424770924780105, "train/post_ent_std": 5.81295997566647, "train/prior_ent_mag": 76.78219657474094, "train/prior_ent_max": 76.78219657474094, "train/prior_ent_mean": 45.953527238633896, "train/prior_ent_min": 27.97736398379008, "train/prior_ent_std": 7.851843025949266, "train/rep_loss_mean": 5.664107514752282, "train/rep_loss_std": 8.855037596490648, "train/reward_avg": 0.04697808144717581, "train/reward_loss_mean": 0.06137137311614222, "train/reward_loss_std": 0.21926578113602269, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0283540884653728, "train/reward_neg_acc": 0.99288310110569, "train/reward_neg_loss": 0.025797107101728518, "train/reward_pos_acc": 0.989390647245778, "train/reward_pos_loss": 0.7197977345850732, "train/reward_pred": 0.04676182599117359, "train/reward_rate": 0.05141872829861111, "stats/sum_log_reward": 10.600000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.29270109720528126, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.3673706588211593e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3087596093024407e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.0365171432495, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.270718574523926, "timer/env.step_frac": 0.07398012302914835, "timer/env.step_avg": 0.015573929073093655, "timer/env.step_min": 0.0027129650115966797, "timer/env.step_max": 2.353111982345581, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.314098596572876, "timer/replay.add_frac": 0.0010433903486313947, "timer/replay.add_avg": 0.0002196493682327804, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.005918025970458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03251361846923828, "timer/logger.write_frac": 0.0001080055628392968, "timer/logger.write_avg": 0.03251361846923828, "timer/logger.write_min": 0.03251361846923828, "timer/logger.write_max": 0.03251361846923828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003376007080078125, "timer/checkpoint.save_frac": 1.121460981583054e-06, "timer/checkpoint.save_avg": 0.0003376007080078125, "timer/checkpoint.save_min": 0.0003376007080078125, "timer/checkpoint.save_max": 0.0003376007080078125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4427440166473389, "timer/agent.save_frac": 0.00479258805655396, "timer/agent.save_avg": 1.4427440166473389, "timer/agent.save_min": 1.4427440166473389, "timer/agent.save_max": 1.4427440166473389, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.28885751184677e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.854273796081543, "timer/agent.policy_frac": 0.0393781920830576, "timer/agent.policy_avg": 0.008289701955301779, "timer/agent.policy_min": 0.005823850631713867, "timer/agent.policy_max": 1.4269964694976807, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057436466217041016, "timer/dataset_frac": 0.00019079567742178477, "timer/dataset_avg": 8.033072198187554e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.85346817970276, "timer/agent.train_frac": 0.8831269731080341, "timer/agent.train_avg": 0.3718230324191647, "timer/agent.train_min": 0.36434078216552734, "timer/agent.train_max": 0.7664453983306885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22169709205627441, "timer/agent.report_frac": 0.000736445844378338, "timer/agent.report_avg": 0.22169709205627441, "timer/agent.report_min": 0.22169709205627441, "timer/agent.report_max": 0.22169709205627441, "fps": 4.750166196089719}
+{"step": 1033074, "episode/length": 251.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05952380952380952}
+{"step": 1033229, "episode/length": 154.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.0967741935483871}
+{"step": 1033476, "episode/length": 246.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05668016194331984}
+{"step": 1033792, "episode/length": 315.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.04746835443037975}
+{"step": 1034004, "episode/length": 211.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05188679245283019}
+{"step": 1034248, "episode/length": 243.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 18.700000032782555, "episode/reward_rate": 0.06967213114754098}
+{"step": 1034285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3812933098779965, "train/action_min": 0.0, "train/action_std": 3.2390700072458345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03911535949637628, "train/actor_opt_grad_steps": 516230.0, "train/actor_opt_loss": -10.258629816035702, "train/adv_mag": 0.3978771648994864, "train/adv_max": 0.3430544342080208, "train/adv_mean": 0.0027547884987243003, "train/adv_min": -0.35106607985823124, "train/adv_std": 0.04363324135950167, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 7.292612712456866e-05, "train/cont_loss_std": 0.0023070953938533626, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01767882899923948, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 3.0314366796152132e-06, "train/cont_pred": 0.9947157926755409, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.68108304559368, "train/dyn_loss_std": 8.90875199722917, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9260912300789192, "train/extr_critic_critic_opt_grad_steps": 516230.0, "train/extr_critic_critic_opt_loss": 15449.706282106165, "train/extr_critic_mag": 12.36324261965817, "train/extr_critic_max": 12.36324261965817, "train/extr_critic_mean": 3.9270974642609895, "train/extr_critic_min": -0.3493743498031407, "train/extr_critic_std": 2.968865107183587, "train/extr_return_normed_mag": 1.3909398758248106, "train/extr_return_normed_max": 1.3909398758248106, "train/extr_return_normed_mean": 0.413755230299414, "train/extr_return_normed_min": -0.07740704235557007, "train/extr_return_normed_std": 0.3187983944399716, "train/extr_return_rate": 0.8607172598577526, "train/extr_return_raw_mag": 13.150696532367027, "train/extr_return_raw_max": 13.150696532367027, "train/extr_return_raw_mean": 3.9530298187308115, "train/extr_return_raw_min": -0.6701233117547754, "train/extr_return_raw_std": 3.0007646704373294, "train/extr_reward_mag": 1.0785582424843148, "train/extr_reward_max": 1.0785582424843148, "train/extr_reward_mean": 0.06450994578126358, "train/extr_reward_min": -0.596188925716975, "train/extr_reward_std": 0.24442996513353635, "train/image_loss_mean": 3.3721406639438785, "train/image_loss_std": 8.888035623994591, "train/model_loss_mean": 6.8438118124661385, "train/model_loss_std": 13.012073373141353, "train/model_opt_grad_norm": 20.56137082348131, "train/model_opt_grad_steps": 515808.0, "train/model_opt_loss": 17109.529497538526, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.692888432986116, "train/policy_entropy_max": 2.692888432986116, "train/policy_entropy_mean": 0.38150989254043527, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5783585407962538, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810419936294425, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0114340643360191, "train/policy_randomness_mag": 0.9504714453057067, "train/policy_randomness_max": 0.9504714453057067, "train/policy_randomness_mean": 0.13465625180365287, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20413518574548095, "train/post_ent_mag": 55.63926336210068, "train/post_ent_max": 55.63926336210068, "train/post_ent_mean": 40.36167442635314, "train/post_ent_min": 19.29313798146705, "train/post_ent_std": 5.769895089815741, "train/prior_ent_mag": 76.94265893387468, "train/prior_ent_max": 76.94265893387468, "train/prior_ent_mean": 46.05470730507211, "train/prior_ent_min": 27.99409270613161, "train/prior_ent_std": 7.8080218132228065, "train/rep_loss_mean": 5.68108304559368, "train/rep_loss_std": 8.90875199722917, "train/reward_avg": 0.046026861703355015, "train/reward_loss_mean": 0.06294838344193485, "train/reward_loss_std": 0.22955332369837042, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0274071448469815, "train/reward_neg_acc": 0.9930939935658076, "train/reward_neg_loss": 0.02714196657634353, "train/reward_pos_acc": 0.987927498066262, "train/reward_pos_loss": 0.7279222681097788, "train/reward_pred": 0.045605060070344844, "train/reward_rate": 0.05106217893835616, "stats/sum_log_reward": 13.433333396911621, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3897470210989316, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.403090908817651e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.332848734144636e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28529596328735, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.122433185577393, "timer/env.step_frac": 0.057020551508025784, "timer/env.step_avg": 0.01171165060573009, "timer/env.step_min": 0.0027441978454589844, "timer/env.step_max": 1.6575429439544678, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.29926109313964844, "timer/replay.add_frac": 0.0009965892341802706, "timer/replay.add_avg": 0.00020469295016391822, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0037217140197753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021095752716064453, "timer/logger.write_frac": 7.0252366664812e-05, "timer/logger.write_avg": 0.021095752716064453, "timer/logger.write_min": 0.021095752716064453, "timer/logger.write_max": 0.021095752716064453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.735322952270508, "timer/agent.policy_frac": 0.03575041168044072, "timer/agent.policy_avg": 0.007342902156135778, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 0.018702030181884766, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05936598777770996, "timer/dataset_frac": 0.00019769861720091682, "timer/dataset_avg": 8.121202158373456e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.39086532592773, "timer/agent.train_frac": 0.9037767382359867, "timer/agent.train_avg": 0.37125973368799964, "timer/agent.train_min": 0.36431026458740234, "timer/agent.train_max": 0.38454151153564453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22176432609558105, "timer/agent.report_frac": 0.0007385121052437206, "timer/agent.report_avg": 0.22176432609558105, "timer/agent.report_min": 0.22176432609558105, "timer/agent.report_max": 0.22176432609558105, "fps": 4.868601250427498}
+{"step": 1034490, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05785123966942149}
+{"step": 1034702, "episode/length": 211.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07547169811320754}
+{"step": 1034767, "episode/length": 64.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.13846153846153847}
+{"step": 1034920, "episode/length": 152.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.058823529411764705}
+{"step": 1035185, "episode/length": 264.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04905660377358491}
+{"step": 1035394, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06220095693779904}
+{"step": 1035749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408521678349743, "train/action_min": 0.0, "train/action_std": 3.2530195125161785, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03846285321226675, "train/actor_opt_grad_steps": 516960.0, "train/actor_opt_loss": -12.443996375554228, "train/adv_mag": 0.4236812983473686, "train/adv_max": 0.35775913318542585, "train/adv_mean": 0.0019225042987310276, "train/adv_min": -0.3688873058720811, "train/adv_std": 0.042800406836075326, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 6.883155650023914e-05, "train/cont_loss_std": 0.0021387213636018423, "train/cont_neg_acc": 0.9987546703586839, "train/cont_neg_loss": 0.0017396535970536592, "train/cont_pos_acc": 0.999986567725874, "train/cont_pos_loss": 5.082173075127226e-05, "train/cont_pred": 0.9952266322423334, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.543995778854579, "train/dyn_loss_std": 8.914645606524324, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9053078669391267, "train/extr_critic_critic_opt_grad_steps": 516960.0, "train/extr_critic_critic_opt_loss": 15289.222014126712, "train/extr_critic_mag": 12.296330086172443, "train/extr_critic_max": 12.296330086172443, "train/extr_critic_mean": 3.9603237060651386, "train/extr_critic_min": -0.33733189759189136, "train/extr_critic_std": 2.907650010226524, "train/extr_return_normed_mag": 1.3707756620563873, "train/extr_return_normed_max": 1.3707756620563873, "train/extr_return_normed_mean": 0.41214740705000213, "train/extr_return_normed_min": -0.07913401748423707, "train/extr_return_normed_std": 0.3095596614357543, "train/extr_return_rate": 0.8815693226579118, "train/extr_return_raw_mag": 13.079037927601435, "train/extr_return_raw_max": 13.079037927601435, "train/extr_return_raw_mean": 3.9785803213511426, "train/extr_return_raw_min": -0.6852519365206157, "train/extr_return_raw_std": 2.9386864524998075, "train/extr_reward_mag": 1.07275673461287, "train/extr_reward_max": 1.07275673461287, "train/extr_reward_mean": 0.06313732506273544, "train/extr_reward_min": -0.6271343900732798, "train/extr_reward_std": 0.24135116865373638, "train/image_loss_mean": 3.2820641700535607, "train/image_loss_std": 8.488899217893, "train/model_loss_mean": 6.667146708867321, "train/model_loss_std": 12.650744869284434, "train/model_opt_grad_norm": 21.991528968288474, "train/model_opt_grad_steps": 516537.12328767125, "train/model_opt_loss": 16869.350733090752, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7003962144459766, "train/policy_entropy_max": 2.7003962144459766, "train/policy_entropy_mean": 0.39162684670866355, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6001643338432051, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39102007060834804, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.022155566574776, "train/policy_randomness_mag": 0.9531213657496727, "train/policy_randomness_max": 0.9531213657496727, "train/policy_randomness_mean": 0.1382270895250856, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21183167255088076, "train/post_ent_mag": 55.695379231074085, "train/post_ent_max": 55.695379231074085, "train/post_ent_mean": 40.24379583907454, "train/post_ent_min": 19.671460347632838, "train/post_ent_std": 5.813710467456138, "train/prior_ent_mag": 76.87222342295189, "train/prior_ent_max": 76.87222342295189, "train/prior_ent_mean": 45.78589123242522, "train/prior_ent_min": 27.874667180727606, "train/prior_ent_std": 7.895473297328165, "train/rep_loss_mean": 5.543995778854579, "train/rep_loss_std": 8.914645606524324, "train/reward_avg": 0.04332994417070526, "train/reward_loss_mean": 0.05861620263081707, "train/reward_loss_std": 0.22509281847574938, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0266937115421033, "train/reward_neg_acc": 0.9931489139387052, "train/reward_neg_loss": 0.024838543752182838, "train/reward_pos_acc": 0.986118003930131, "train/reward_pos_loss": 0.7366442018992281, "train/reward_pred": 0.0428683719508452, "train/reward_rate": 0.04766427654109589, "stats/sum_log_reward": 11.266666809717814, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.43934054176012677, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.312943411655113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2908436235834341e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09251523017883, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.73737144470215, "timer/env.step_frac": 0.05577403832236251, "timer/env.step_avg": 0.011432630768239173, "timer/env.step_min": 0.002541065216064453, "timer/env.step_max": 1.544288158416748, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.300487756729126, "timer/replay.add_frac": 0.0010013170655010972, "timer/replay.add_avg": 0.00020525119995158878, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0038671493530273438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03587222099304199, "timer/logger.write_frac": 0.00011953720660286065, "timer/logger.write_avg": 0.03587222099304199, "timer/logger.write_min": 0.03587222099304199, "timer/logger.write_max": 0.03587222099304199, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.693159580230713, "timer/agent.policy_frac": 0.03563287665481686, "timer/agent.policy_avg": 0.007304070751523711, "timer/agent.policy_min": 0.005780220031738281, "timer/agent.policy_max": 0.01858687400817871, "timer/dataset_count": 732.0, "timer/dataset_total": 0.058570146560668945, "timer/dataset_frac": 0.0001951736334234931, "timer/dataset_avg": 8.001386142167888e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.61641788482666, "timer/agent.train_frac": 0.9051089384101757, "timer/agent.train_avg": 0.37106068017052823, "timer/agent.train_min": 0.3623046875, "timer/agent.train_max": 0.38524913787841797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21958494186401367, "timer/agent.report_frac": 0.0007317241541182268, "timer/agent.report_avg": 0.21958494186401367, "timer/agent.report_min": 0.21958494186401367, "timer/agent.report_max": 0.21958494186401367, "fps": 4.878394073236289}
+{"step": 1035819, "episode/length": 424.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.01411764705882353}
+{"step": 1036024, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.05853658536585366}
+{"step": 1036243, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0639269406392694}
+{"step": 1036541, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04697986577181208}
+{"step": 1036772, "episode/length": 230.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0735930735930736}
+{"step": 1037051, "episode/length": 278.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.06093189964157706}
+{"step": 1037189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435312906901042, "train/action_min": 0.0, "train/action_std": 3.282633582750956, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03779830478338732, "train/actor_opt_grad_steps": 517685.0, "train/actor_opt_loss": -12.229240268468857, "train/adv_mag": 0.39816930662426686, "train/adv_max": 0.32542977316512, "train/adv_mean": 0.0017365218423543007, "train/adv_min": -0.3603026931070619, "train/adv_std": 0.042352286684844226, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 3.166392632674647e-05, "train/cont_loss_std": 0.0009291806085419315, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.00438504235115239, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.477868226413332e-05, "train/cont_pred": 0.9950327368246185, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.654615110821194, "train/dyn_loss_std": 8.881700860129463, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.879661411874824, "train/extr_critic_critic_opt_grad_steps": 517685.0, "train/extr_critic_critic_opt_loss": 15264.340087890625, "train/extr_critic_mag": 12.580051753256056, "train/extr_critic_max": 12.580051753256056, "train/extr_critic_mean": 4.037590940793355, "train/extr_critic_min": -0.3419283926486969, "train/extr_critic_std": 3.02657221754392, "train/extr_return_normed_mag": 1.3933521724409528, "train/extr_return_normed_max": 1.3933521724409528, "train/extr_return_normed_mean": 0.41947728250589633, "train/extr_return_normed_min": -0.07708624388194746, "train/extr_return_normed_std": 0.3184834093683296, "train/extr_return_rate": 0.8614963582820363, "train/extr_return_raw_mag": 13.391377594735888, "train/extr_return_raw_max": 13.391377594735888, "train/extr_return_raw_mean": 4.05422858066029, "train/extr_return_raw_min": -0.7072610101766057, "train/extr_return_raw_std": 3.0536436670356326, "train/extr_reward_mag": 1.066268526845508, "train/extr_reward_max": 1.066268526845508, "train/extr_reward_mean": 0.06500802070109381, "train/extr_reward_min": -0.6360625906123055, "train/extr_reward_std": 0.2438853925300969, "train/image_loss_mean": 3.233964302473598, "train/image_loss_std": 8.289635837078094, "train/model_loss_mean": 6.686875157886082, "train/model_loss_std": 12.43162269062466, "train/model_opt_grad_norm": 20.58102668656243, "train/model_opt_grad_steps": 517261.31944444444, "train/model_opt_loss": 10923.076768663195, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1649.3055555555557, "train/policy_entropy_mag": 2.715771499607298, "train/policy_entropy_max": 2.715771499607298, "train/policy_entropy_mean": 0.40997554506692624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6188663757509656, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40815738774836063, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0320930232604344, "train/policy_randomness_mag": 0.9585481608907381, "train/policy_randomness_max": 0.9585481608907381, "train/policy_randomness_mean": 0.14470337631387842, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21843267149395412, "train/post_ent_mag": 55.54411930508084, "train/post_ent_max": 55.54411930508084, "train/post_ent_mean": 40.24612892998589, "train/post_ent_min": 19.44388877020942, "train/post_ent_std": 5.803984238041772, "train/prior_ent_mag": 76.7310192320082, "train/prior_ent_max": 76.7310192320082, "train/prior_ent_mean": 45.894559966193306, "train/prior_ent_min": 27.979651345147026, "train/prior_ent_std": 7.857420252429114, "train/rep_loss_mean": 5.654615110821194, "train/rep_loss_std": 8.881700860129463, "train/reward_avg": 0.04619140594473316, "train/reward_loss_mean": 0.06011019109023942, "train/reward_loss_std": 0.2150957261522611, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0187924835417006, "train/reward_neg_acc": 0.9934791773557663, "train/reward_neg_loss": 0.0251071246392611, "train/reward_pos_acc": 0.9902058757013745, "train/reward_pos_loss": 0.716946172217528, "train/reward_pred": 0.04591271268307335, "train/reward_rate": 0.050537109375, "stats/sum_log_reward": 12.266666809717814, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5371686021486918, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2665001021491156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.289674805270301e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2675905227661, "timer/env.step_count": 1440.0, "timer/env.step_total": 17.901222944259644, "timer/env.step_frac": 0.059617566161881144, "timer/env.step_avg": 0.01243140482240253, "timer/env.step_min": 0.0027909278869628906, "timer/env.step_max": 1.6217272281646729, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29233431816101074, "timer/replay.add_frac": 0.0009735793252014194, "timer/replay.add_avg": 0.00020300994316736857, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0018744468688964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023142099380493164, "timer/logger.write_frac": 7.707158584848518e-05, "timer/logger.write_avg": 0.023142099380493164, "timer/logger.write_min": 0.023142099380493164, "timer/logger.write_max": 0.023142099380493164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00040149688720703125, "timer/checkpoint.save_frac": 1.3371302793885443e-06, "timer/checkpoint.save_avg": 0.00040149688720703125, "timer/checkpoint.save_min": 0.00040149688720703125, "timer/checkpoint.save_max": 0.00040149688720703125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.170576572418213, "timer/agent.save_frac": 0.0038984446186158092, "timer/agent.save_avg": 1.170576572418213, "timer/agent.save_min": 1.170576572418213, "timer/agent.save_max": 1.170576572418213, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.413459777832031e-05, "timer/replay.save_frac": 2.1359147574555723e-07, "timer/replay.save_avg": 6.413459777832031e-05, "timer/replay.save_min": 6.413459777832031e-05, "timer/replay.save_max": 6.413459777832031e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.018851041793823, "timer/agent.policy_frac": 0.04668785937698768, "timer/agent.policy_avg": 0.009735313223467932, "timer/agent.policy_min": 0.005930662155151367, "timer/agent.policy_max": 2.385586977005005, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05840158462524414, "timer/dataset_frac": 0.00019449846226682986, "timer/dataset_avg": 8.111331197950575e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.3148639202118, "timer/agent.train_frac": 0.8902554666483199, "timer/agent.train_avg": 0.3712706443336275, "timer/agent.train_min": 0.3621382713317871, "timer/agent.train_max": 0.4146535396575928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21904373168945312, "timer/agent.report_frac": 0.0007294950857270271, "timer/agent.report_avg": 0.21904373168945312, "timer/agent.report_min": 0.21904373168945312, "timer/agent.report_max": 0.21904373168945312, "fps": 4.795616753527881}
+{"step": 1037258, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07246376811594203}
+{"step": 1037476, "episode/length": 217.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06880733944954129}
+{"step": 1037660, "episode/length": 183.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07608695652173914}
+{"step": 1037875, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06511627906976744}
+{"step": 1038070, "episode/length": 194.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.08205128205128205}
+{"step": 1038592, "episode/length": 521.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.500000052154064, "episode/reward_rate": 0.032567049808429116}
+{"step": 1038651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462419065710616, "train/action_min": 0.0, "train/action_std": 3.289397602211939, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038731446081440746, "train/actor_opt_grad_steps": 518410.0, "train/actor_opt_loss": -10.639148795033154, "train/adv_mag": 0.37037516660886266, "train/adv_max": 0.31479997749197974, "train/adv_mean": 0.0018099651434530556, "train/adv_min": -0.334824314672653, "train/adv_std": 0.04284041982195149, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 2.841133591173894e-05, "train/cont_loss_std": 0.0007425224381325292, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001923210832012345, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.9466301359403892e-05, "train/cont_pred": 0.994999397290896, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.611905261261822, "train/dyn_loss_std": 8.880907829493692, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.921314001083374, "train/extr_critic_critic_opt_grad_steps": 518410.0, "train/extr_critic_critic_opt_loss": 15534.714094606165, "train/extr_critic_mag": 12.391697491685004, "train/extr_critic_max": 12.391697491685004, "train/extr_critic_mean": 3.8974282055684966, "train/extr_critic_min": -0.3615071561238537, "train/extr_critic_std": 2.9696433086917824, "train/extr_return_normed_mag": 1.3718362344454413, "train/extr_return_normed_max": 1.3718362344454413, "train/extr_return_normed_mean": 0.4039733932442861, "train/extr_return_normed_min": -0.08486838041715426, "train/extr_return_normed_std": 0.3149914663948425, "train/extr_return_rate": 0.8642765846970963, "train/extr_return_raw_mag": 13.122959541947875, "train/extr_return_raw_max": 13.122959541947875, "train/extr_return_raw_mean": 3.9146577887339133, "train/extr_return_raw_min": -0.735991748228465, "train/extr_return_raw_std": 2.9968242612603593, "train/extr_reward_mag": 1.0811071036613151, "train/extr_reward_max": 1.0811071036613151, "train/extr_reward_mean": 0.063551529935778, "train/extr_reward_min": -0.6024175914999557, "train/extr_reward_std": 0.24208674222639162, "train/image_loss_mean": 3.2555539150760597, "train/image_loss_std": 8.486891602816646, "train/model_loss_mean": 6.682106024598422, "train/model_loss_std": 12.602627649699173, "train/model_opt_grad_norm": 21.149901991021142, "train/model_opt_grad_steps": 517986.0, "train/model_opt_loss": 10967.083161654538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1626.7123287671234, "train/policy_entropy_mag": 2.714949954045962, "train/policy_entropy_max": 2.714949954045962, "train/policy_entropy_mean": 0.40129360719902873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6087650481152208, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40129359454324803, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.030724193951855, "train/policy_randomness_mag": 0.9582581920166539, "train/policy_randomness_max": 0.9582581920166539, "train/policy_randomness_mean": 0.14163903412345338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21486734598875046, "train/post_ent_mag": 55.18620697439533, "train/post_ent_max": 55.18620697439533, "train/post_ent_mean": 40.25907767308902, "train/post_ent_min": 19.60104780327784, "train/post_ent_std": 5.824417382070463, "train/prior_ent_mag": 76.7799386847509, "train/prior_ent_max": 76.7799386847509, "train/prior_ent_mean": 45.87248287462209, "train/prior_ent_min": 27.80433832455988, "train/prior_ent_std": 7.895357086233897, "train/rep_loss_mean": 5.611905261261822, "train/rep_loss_std": 8.880907829493692, "train/reward_avg": 0.04430918199048467, "train/reward_loss_mean": 0.0593805316172234, "train/reward_loss_std": 0.21675953166942075, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0340719680263573, "train/reward_neg_acc": 0.9931633741888282, "train/reward_neg_loss": 0.02540080268446305, "train/reward_pos_acc": 0.989727352579979, "train/reward_pos_loss": 0.7236057479087621, "train/reward_pred": 0.044017789655760545, "train/reward_rate": 0.04876123715753425, "stats/sum_log_reward": 14.266666730244955, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4758781095345815, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3098108628216913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336008351087244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34559988975525, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.422733783721924, "timer/env.step_frac": 0.05800895298654985, "timer/env.step_avg": 0.011917054571629223, "timer/env.step_min": 0.0028200149536132812, "timer/env.step_max": 1.6142504215240479, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2927534580230713, "timer/replay.add_frac": 0.0009747219807133158, "timer/replay.add_avg": 0.00020024176335367393, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.00344085693359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02814936637878418, "timer/logger.write_frac": 9.372325211062415e-05, "timer/logger.write_avg": 0.02814936637878418, "timer/logger.write_min": 0.02814936637878418, "timer/logger.write_max": 0.02814936637878418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.751244306564331, "timer/agent.policy_frac": 0.03579624376222152, "timer/agent.policy_avg": 0.0073537922753518, "timer/agent.policy_min": 0.005793333053588867, "timer/agent.policy_max": 0.014049768447875977, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05864143371582031, "timer/dataset_frac": 0.00019524652179803937, "timer/dataset_avg": 8.022083955652574e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00016355514526367188, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.135418176651, "timer/agent.train_frac": 0.9027447656172551, "timer/agent.train_avg": 0.3709102847833803, "timer/agent.train_min": 0.3644399642944336, "timer/agent.train_max": 0.38558244705200195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198495864868164, "timer/agent.report_frac": 0.0007319887042377658, "timer/agent.report_avg": 0.2198495864868164, "timer/agent.report_min": 0.2198495864868164, "timer/agent.report_max": 0.2198495864868164, "fps": 4.867654659762977}
+{"step": 1038785, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06735751295336788}
+{"step": 1038968, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07103825136612021}
+{"step": 1039199, "episode/length": 230.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06493506493506493}
+{"step": 1039385, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05913978494623656}
+{"step": 1039652, "episode/length": 266.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.056179775280898875}
+{"step": 1039846, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07216494845360824}
+{"step": 1040080, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0641025641025641}
+{"step": 1040105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454175139126712, "train/action_min": 0.0, "train/action_std": 3.2835209794240456, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0384111201314077, "train/actor_opt_grad_steps": 519140.0, "train/actor_opt_loss": -12.100320066491218, "train/adv_mag": 0.3902462271794881, "train/adv_max": 0.3271282143788795, "train/adv_mean": 0.002035919813451609, "train/adv_min": -0.34311482861433945, "train/adv_std": 0.042440394883694714, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 0.00015988178582124543, "train/cont_loss_std": 0.004939243929951872, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.017905400460241912, "train/cont_pos_acc": 0.999986567725874, "train/cont_pos_loss": 5.03876323230306e-05, "train/cont_pred": 0.9950102967758702, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.657166794554828, "train/dyn_loss_std": 9.01587773675788, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9365904739458267, "train/extr_critic_critic_opt_grad_steps": 519140.0, "train/extr_critic_critic_opt_loss": 15338.056346318494, "train/extr_critic_mag": 12.430929458304627, "train/extr_critic_max": 12.430929458304627, "train/extr_critic_mean": 3.9686605603727574, "train/extr_critic_min": -0.3475262710492905, "train/extr_critic_std": 2.976675856603335, "train/extr_return_normed_mag": 1.361736586649124, "train/extr_return_normed_max": 1.361736586649124, "train/extr_return_normed_mean": 0.4114552136153391, "train/extr_return_normed_min": -0.07881673078422677, "train/extr_return_normed_std": 0.3133736020081664, "train/extr_return_rate": 0.8588176426822192, "train/extr_return_raw_mag": 13.090528475095148, "train/extr_return_raw_max": 13.090528475095148, "train/extr_return_raw_mean": 3.9881461417838318, "train/extr_return_raw_min": -0.7082099792075484, "train/extr_return_raw_std": 3.0020928088932823, "train/extr_reward_mag": 1.082363340952625, "train/extr_reward_max": 1.082363340952625, "train/extr_reward_mean": 0.06615787606737385, "train/extr_reward_min": -0.6021160736475906, "train/extr_reward_std": 0.24705652341450732, "train/image_loss_mean": 3.2058365475641537, "train/image_loss_std": 8.407514630931697, "train/model_loss_mean": 6.661708733806871, "train/model_loss_std": 12.653632634306607, "train/model_opt_grad_norm": 23.10397954183082, "train/model_opt_grad_steps": 518716.0, "train/model_opt_loss": 16654.27177868151, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.688350341091417, "train/policy_entropy_max": 2.688350341091417, "train/policy_entropy_mean": 0.39685977240131326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6038780024606888, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3964318690234668, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.026174208072767, "train/policy_randomness_mag": 0.9488696986681795, "train/policy_randomness_max": 0.9488696986681795, "train/policy_randomness_mean": 0.14007408304573737, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21314243319099896, "train/post_ent_mag": 55.6019164830038, "train/post_ent_max": 55.6019164830038, "train/post_ent_mean": 40.13597232348298, "train/post_ent_min": 19.316533637373414, "train/post_ent_std": 5.81075695116226, "train/prior_ent_mag": 76.73368553266134, "train/prior_ent_max": 76.73368553266134, "train/prior_ent_mean": 45.76874699004709, "train/prior_ent_min": 27.81638678459272, "train/prior_ent_std": 7.934630544218298, "train/rep_loss_mean": 5.657166794554828, "train/rep_loss_std": 9.01587773675788, "train/reward_avg": 0.04618070425133999, "train/reward_loss_mean": 0.06141225131203051, "train/reward_loss_std": 0.22584605114917233, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0292962283304292, "train/reward_neg_acc": 0.9935423478688279, "train/reward_neg_loss": 0.025297609987120107, "train/reward_pos_acc": 0.9882196963649906, "train/reward_pos_loss": 0.734325156636434, "train/reward_pred": 0.04555884911997678, "train/reward_rate": 0.0508347602739726, "stats/sum_log_reward": 12.81428609575544, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 12.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3692328759602138, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2527574646751686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3320859229548269e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0002200603485, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.699787139892578, "timer/env.step_frac": 0.06233257807654574, "timer/env.step_avg": 0.01286092650611594, "timer/env.step_min": 0.002773761749267578, "timer/env.step_max": 1.6139962673187256, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26799583435058594, "timer/replay.add_frac": 0.000893318792555137, "timer/replay.add_avg": 0.00018431625471154465, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.0012383460998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02298760414123535, "timer/logger.write_frac": 7.662529093015709e-05, "timer/logger.write_avg": 0.02298760414123535, "timer/logger.write_min": 0.02298760414123535, "timer/logger.write_max": 0.02298760414123535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.623679161071777, "timer/agent.policy_frac": 0.03541223789414122, "timer/agent.policy_avg": 0.007306519367999847, "timer/agent.policy_min": 0.005579948425292969, "timer/agent.policy_max": 0.01598978042602539, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05753302574157715, "timer/dataset_frac": 0.00019177661179716374, "timer/dataset_avg": 7.913758698978975e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015115737915039062, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6748585700989, "timer/agent.train_frac": 0.8989155358481092, "timer/agent.train_avg": 0.37094203379655966, "timer/agent.train_min": 0.3645496368408203, "timer/agent.train_max": 0.3822896480560303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21829915046691895, "timer/agent.report_frac": 0.0007276633011235977, "timer/agent.report_avg": 0.21829915046691895, "timer/agent.report_min": 0.21829915046691895, "timer/agent.report_max": 0.21829915046691895, "fps": 4.846576370962569}
+{"step": 1040343, "episode/length": 262.0, "episode/score": 14.100000038743019, "episode/sum_abs_reward": 16.7000000923872, "episode/reward_rate": 0.057034220532319393}
+{"step": 1040663, "episode/length": 319.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.040625}
+{"step": 1041105, "episode/length": 441.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.033936651583710405}
+{"step": 1041571, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458299610712757, "train/action_min": 0.0, "train/action_std": 3.3139030639439415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03825548587188329, "train/actor_opt_grad_steps": 519870.0, "train/actor_opt_loss": -11.262416315813587, "train/adv_mag": 0.38854107464829535, "train/adv_max": 0.3096469630525537, "train/adv_mean": 0.0021609874067557754, "train/adv_min": -0.36217040435908593, "train/adv_std": 0.04306975609227402, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00015295925435152203, "train/cont_loss_std": 0.0041277327335298855, "train/cont_neg_acc": 0.9950532725412552, "train/cont_neg_loss": 0.022083304621149522, "train/cont_pos_acc": 0.9999865464968224, "train/cont_pos_loss": 4.975412812165335e-05, "train/cont_pred": 0.9948859173957616, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.51918213334802, "train/dyn_loss_std": 8.843041740051687, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9162437319755554, "train/extr_critic_critic_opt_grad_steps": 519870.0, "train/extr_critic_critic_opt_loss": 15394.47505083476, "train/extr_critic_mag": 12.319063709206777, "train/extr_critic_max": 12.319063709206777, "train/extr_critic_mean": 3.899472360741602, "train/extr_critic_min": -0.3786214149161561, "train/extr_critic_std": 3.008876085281372, "train/extr_return_normed_mag": 1.3649122306745347, "train/extr_return_normed_max": 1.3649122306745347, "train/extr_return_normed_mean": 0.4083856327892983, "train/extr_return_normed_min": -0.0745657453798268, "train/extr_return_normed_std": 0.3197974536108644, "train/extr_return_rate": 0.8577626012775996, "train/extr_return_raw_mag": 13.005560195609315, "train/extr_return_raw_max": 13.005560195609315, "train/extr_return_raw_mean": 3.919995467956752, "train/extr_return_raw_min": -0.6672022265114196, "train/extr_return_raw_std": 3.0375694020153725, "train/extr_reward_mag": 1.0875083910275811, "train/extr_reward_max": 1.0875083910275811, "train/extr_reward_mean": 0.06562026447221024, "train/extr_reward_min": -0.594698772038499, "train/extr_reward_std": 0.24589967666423485, "train/image_loss_mean": 3.2989013946219665, "train/image_loss_std": 8.313879293938205, "train/model_loss_mean": 6.671740629901625, "train/model_loss_std": 12.398585358711138, "train/model_opt_grad_norm": 20.820741731826573, "train/model_opt_grad_steps": 519445.1780821918, "train/model_opt_loss": 18533.17986140839, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2773.972602739726, "train/policy_entropy_mag": 2.695444270356061, "train/policy_entropy_max": 2.695444270356061, "train/policy_entropy_mean": 0.40801670698270404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6200386077573855, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4081622878574345, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0371180519665757, "train/policy_randomness_mag": 0.9513735403753307, "train/policy_randomness_max": 0.9513735403753307, "train/policy_randomness_mean": 0.14401199454314087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21884641816763029, "train/post_ent_mag": 55.300655521758614, "train/post_ent_max": 55.300655521758614, "train/post_ent_mean": 40.23622005932952, "train/post_ent_min": 19.451621930893154, "train/post_ent_std": 5.780769341612515, "train/prior_ent_mag": 76.83223975194643, "train/prior_ent_max": 76.83223975194643, "train/prior_ent_mean": 45.72692500075249, "train/prior_ent_min": 27.526083097065964, "train/prior_ent_std": 7.935987968967385, "train/rep_loss_mean": 5.51918213334802, "train/rep_loss_std": 8.843041740051687, "train/reward_avg": 0.04470114460954928, "train/reward_loss_mean": 0.06117702484743236, "train/reward_loss_std": 0.22671810731495898, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0334895277676517, "train/reward_neg_acc": 0.9932127578617775, "train/reward_neg_loss": 0.02639155759641977, "train/reward_pos_acc": 0.9889292512854485, "train/reward_pos_loss": 0.7299793468762751, "train/reward_pred": 0.04422066281613422, "train/reward_rate": 0.049376605308219176, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 8.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 25.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 3.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.7932430307070414, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3248495437601254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446214254361058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2883553504944, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.087799072265625, "timer/env.step_frac": 0.05024436946499392, "timer/env.step_avg": 0.010291813828284873, "timer/env.step_min": 0.002711772918701172, "timer/env.step_max": 2.4309194087982178, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.28361082077026367, "timer/replay.add_frac": 0.0009444616007145371, "timer/replay.add_avg": 0.00019345895004792884, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004101753234863281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028174638748168945, "timer/logger.write_frac": 9.38252790897726e-05, "timer/logger.write_avg": 0.028174638748168945, "timer/logger.write_min": 0.028174638748168945, "timer/logger.write_max": 0.028174638748168945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004024505615234375, "timer/checkpoint.save_frac": 1.3402136791275177e-06, "timer/checkpoint.save_avg": 0.0004024505615234375, "timer/checkpoint.save_min": 0.0004024505615234375, "timer/checkpoint.save_max": 0.0004024505615234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.201059103012085, "timer/agent.save_frac": 0.003999685907268091, "timer/agent.save_avg": 1.201059103012085, "timer/agent.save_min": 1.201059103012085, "timer/agent.save_max": 1.201059103012085, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.7629997650259253e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 12.022480010986328, "timer/agent.policy_frac": 0.04003645095379665, "timer/agent.policy_avg": 0.008200873131641424, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 1.2040433883666992, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05832338333129883, "timer/dataset_frac": 0.0001942245921032276, "timer/dataset_avg": 7.95680536579793e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.16375613212585, "timer/agent.train_frac": 0.9063413591727801, "timer/agent.train_avg": 0.37130116798380064, "timer/agent.train_min": 0.36181092262268066, "timer/agent.train_max": 0.7678182125091553, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185041904449463, "timer/agent.report_frac": 0.0007276478976013232, "timer/agent.report_avg": 0.2185041904449463, "timer/agent.report_min": 0.2185041904449463, "timer/agent.report_max": 0.2185041904449463, "fps": 4.881890659807346}
+{"step": 1041605, "episode/length": 499.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.034}
+{"step": 1041873, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.048507462686567165}
+{"step": 1042077, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07352941176470588}
+{"step": 1042296, "episode/length": 218.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0684931506849315}
+{"step": 1042471, "episode/length": 174.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.08571428571428572}
+{"step": 1042580, "episode/length": 108.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000002980232, "episode/reward_rate": 0.08256880733944955}
+{"step": 1042850, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05555555555555555}
+{"step": 1043023, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400714194937928, "train/action_min": 0.0, "train/action_std": 3.2610023152338314, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03845462333155821, "train/actor_opt_grad_steps": 520600.0, "train/actor_opt_loss": -10.293477092703728, "train/adv_mag": 0.38934031884147696, "train/adv_max": 0.3334079027584154, "train/adv_mean": 0.002277134621679529, "train/adv_min": -0.3472690369984875, "train/adv_std": 0.04296634004336514, "train/cont_avg": 0.9952509631849316, "train/cont_loss_mean": 4.73732728689912e-05, "train/cont_loss_std": 0.0014171017397628686, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.003213504735982658, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 3.174578085081178e-05, "train/cont_pred": 0.9952321166861547, "train/cont_rate": 0.9952509631849316, "train/dyn_loss_mean": 5.640689738809246, "train/dyn_loss_std": 8.922017071345081, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9198297180541574, "train/extr_critic_critic_opt_grad_steps": 520600.0, "train/extr_critic_critic_opt_loss": 15348.97175995291, "train/extr_critic_mag": 12.334742781234114, "train/extr_critic_max": 12.334742781234114, "train/extr_critic_mean": 3.93350466963363, "train/extr_critic_min": -0.3472007790656939, "train/extr_critic_std": 2.9249514651625126, "train/extr_return_normed_mag": 1.3720791519504705, "train/extr_return_normed_max": 1.3720791519504705, "train/extr_return_normed_mean": 0.41192760981925547, "train/extr_return_normed_min": -0.07865810572896918, "train/extr_return_normed_std": 0.3110898684148919, "train/extr_return_rate": 0.8711053925017788, "train/extr_return_raw_mag": 13.057395059768467, "train/extr_return_raw_max": 13.057395059768467, "train/extr_return_raw_mean": 3.9551077476919514, "train/extr_return_raw_min": -0.6948044667505238, "train/extr_return_raw_std": 2.9490441361518753, "train/extr_reward_mag": 1.0896457123429808, "train/extr_reward_max": 1.0896457123429808, "train/extr_reward_mean": 0.06453745189594896, "train/extr_reward_min": -0.6318136894539611, "train/extr_reward_std": 0.24332083312615957, "train/image_loss_mean": 3.310356533690675, "train/image_loss_std": 8.52378503590414, "train/model_loss_mean": 6.754960334464295, "train/model_loss_std": 12.668238038886082, "train/model_opt_grad_norm": 21.234646483643413, "train/model_opt_grad_steps": 520174.7397260274, "train/model_opt_loss": 20080.425058861303, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2979.4520547945203, "train/policy_entropy_mag": 2.6915142862764125, "train/policy_entropy_max": 2.6915142862764125, "train/policy_entropy_mean": 0.3950928157731278, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6029893351744299, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39447231468272537, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0230035594064895, "train/policy_randomness_mag": 0.9499864300636396, "train/policy_randomness_max": 0.9499864300636396, "train/policy_randomness_mean": 0.1394504262772325, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2128287742603315, "train/post_ent_mag": 55.923753032945605, "train/post_ent_max": 55.923753032945605, "train/post_ent_mean": 40.22802493996816, "train/post_ent_min": 19.72612603069985, "train/post_ent_std": 5.837428439153384, "train/prior_ent_mag": 76.85254867762735, "train/prior_ent_max": 76.85254867762735, "train/prior_ent_mean": 45.838356488371545, "train/prior_ent_min": 27.617462105947, "train/prior_ent_std": 7.953681299131211, "train/rep_loss_mean": 5.640689738809246, "train/rep_loss_std": 8.922017071345081, "train/reward_avg": 0.04582619825250482, "train/reward_loss_mean": 0.06014263655429017, "train/reward_loss_std": 0.2263708143201593, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0328015464625946, "train/reward_neg_acc": 0.9928807485593508, "train/reward_neg_loss": 0.02494874855579987, "train/reward_pos_acc": 0.9876619381447361, "train/reward_pos_loss": 0.7320842171368533, "train/reward_pred": 0.04543993731782044, "train/reward_rate": 0.05003210616438356, "stats/sum_log_reward": 13.099999972752162, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 15.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4871549393449511, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.3588777232104423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3425617835410042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0075376033783, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.925828456878662, "timer/env.step_frac": 0.06308450983621401, "timer/env.step_avg": 0.013034317119062439, "timer/env.step_min": 0.0029191970825195312, "timer/env.step_max": 1.6236562728881836, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.3149533271789551, "timer/replay.add_frac": 0.0010498180468896609, "timer/replay.add_avg": 0.00021691000494418393, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004202127456665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029743194580078125, "timer/logger.write_frac": 9.914149096946955e-05, "timer/logger.write_avg": 0.029743194580078125, "timer/logger.write_min": 0.029743194580078125, "timer/logger.write_max": 0.029743194580078125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.683628559112549, "timer/agent.policy_frac": 0.03561120045335902, "timer/agent.policy_avg": 0.007357870908479717, "timer/agent.policy_min": 0.0058557987213134766, "timer/agent.policy_max": 0.014554500579833984, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05934858322143555, "timer/dataset_frac": 0.00019782364035098577, "timer/dataset_avg": 8.174735980913987e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014591217041015625, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.33359932899475, "timer/agent.train_frac": 0.8977561079984074, "timer/agent.train_avg": 0.37098291918594317, "timer/agent.train_min": 0.36464738845825195, "timer/agent.train_max": 0.3894224166870117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22000479698181152, "timer/agent.report_frac": 0.0007333308980811891, "timer/agent.report_avg": 0.22000479698181152, "timer/agent.report_min": 0.22000479698181152, "timer/agent.report_max": 0.22000479698181152, "fps": 4.839798040965607}
+{"step": 1043128, "episode/length": 277.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05755395683453238}
+{"step": 1043400, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04411764705882353}
+{"step": 1043579, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.061452513966480445}
+{"step": 1044033, "episode/length": 453.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.100000016391277, "episode/reward_rate": 0.037444933920704845}
+{"step": 1044307, "episode/length": 273.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.06204379562043796}
+{"step": 1044491, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3769205171767975, "train/action_min": 0.0, "train/action_std": 3.238821509766252, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037790911297683846, "train/actor_opt_grad_steps": 521330.0, "train/actor_opt_loss": -10.801384655427034, "train/adv_mag": 0.3717671385774874, "train/adv_max": 0.2999403862512275, "train/adv_mean": 0.001908094710801977, "train/adv_min": -0.3431249926351521, "train/adv_std": 0.04237909987568855, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 6.959981780216931e-05, "train/cont_loss_std": 0.0020758423127495164, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.006279590945317122, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 2.787519102366709e-05, "train/cont_pred": 0.9951350844069703, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.587934147821714, "train/dyn_loss_std": 8.839379918085386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8895314401143217, "train/extr_critic_critic_opt_grad_steps": 521330.0, "train/extr_critic_critic_opt_loss": 15337.030233304795, "train/extr_critic_mag": 12.441895171387555, "train/extr_critic_max": 12.441895171387555, "train/extr_critic_mean": 3.916821777004085, "train/extr_critic_min": -0.34500184287763624, "train/extr_critic_std": 2.9588284459832597, "train/extr_return_normed_mag": 1.3884172129304442, "train/extr_return_normed_max": 1.3884172129304442, "train/extr_return_normed_mean": 0.40878391102568745, "train/extr_return_normed_min": -0.07604692309890708, "train/extr_return_normed_std": 0.31487132527240336, "train/extr_return_rate": 0.8692459063987209, "train/extr_return_raw_mag": 13.22191862864037, "train/extr_return_raw_max": 13.22191862864037, "train/extr_return_raw_mean": 3.9349286654224134, "train/extr_return_raw_min": -0.662064596806487, "train/extr_return_raw_std": 2.9853448214596265, "train/extr_reward_mag": 1.077187371580568, "train/extr_reward_max": 1.077187371580568, "train/extr_reward_mean": 0.06300083945875298, "train/extr_reward_min": -0.5825186428958422, "train/extr_reward_std": 0.24162381907848463, "train/image_loss_mean": 3.2243842507061893, "train/image_loss_std": 8.103479176351469, "train/model_loss_mean": 6.636772110037608, "train/model_loss_std": 12.226972292547357, "train/model_opt_grad_norm": 21.1252256550201, "train/model_opt_grad_steps": 520904.0, "train/model_opt_loss": 16591.930343000855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6904955824760544, "train/policy_entropy_max": 2.6904955824760544, "train/policy_entropy_mean": 0.39034270648270436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.592412919622578, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3906524385491463, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0205100203213626, "train/policy_randomness_mag": 0.949626871167797, "train/policy_randomness_max": 0.949626871167797, "train/policy_randomness_mean": 0.13777384631437797, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20909576546655942, "train/post_ent_mag": 55.38323990286213, "train/post_ent_max": 55.38323990286213, "train/post_ent_mean": 40.27558104632652, "train/post_ent_min": 19.36343961219265, "train/post_ent_std": 5.81269072179925, "train/prior_ent_mag": 76.7818646365649, "train/prior_ent_max": 76.7818646365649, "train/prior_ent_mean": 45.85553569009859, "train/prior_ent_min": 27.595091440906263, "train/prior_ent_std": 7.911065532736583, "train/rep_loss_mean": 5.587934147821714, "train/rep_loss_std": 8.839379918085386, "train/reward_avg": 0.04534728146375042, "train/reward_loss_mean": 0.05955783828888854, "train/reward_loss_std": 0.2203781051586752, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.027836701641344, "train/reward_neg_acc": 0.9938310523555703, "train/reward_neg_loss": 0.024760742888671076, "train/reward_pos_acc": 0.9901150995737886, "train/reward_pos_loss": 0.7231419413057092, "train/reward_pred": 0.044969236172021254, "train/reward_rate": 0.04981806506849315, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 26.8, "stats/max_log_achievement_collect_wood": 14.2, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 4.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.49830359518527984, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2915731216971168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336760027207211e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1100986003876, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.887106657028198, "timer/env.step_frac": 0.05293759433994495, "timer/env.step_avg": 0.010822279739120026, "timer/env.step_min": 0.0027313232421875, "timer/env.step_max": 1.5665907859802246, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2984659671783447, "timer/replay.add_frac": 0.0009945215724838634, "timer/replay.add_avg": 0.00020331469153838196, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0037260055541992188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023570537567138672, "timer/logger.write_frac": 7.853963487754568e-05, "timer/logger.write_avg": 0.023570537567138672, "timer/logger.write_min": 0.023570537567138672, "timer/logger.write_max": 0.023570537567138672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.825366258621216, "timer/agent.policy_frac": 0.036071316190648295, "timer/agent.policy_avg": 0.007374227696608457, "timer/agent.policy_min": 0.00580143928527832, "timer/agent.policy_max": 0.01427149772644043, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05865883827209473, "timer/dataset_frac": 0.00019545772883238448, "timer/dataset_avg": 7.991667339522443e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00027823448181152344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3562400341034, "timer/agent.train_frac": 0.9075210774455147, "timer/agent.train_avg": 0.3710575477303861, "timer/agent.train_min": 0.3633592128753662, "timer/agent.train_max": 0.3881266117095947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22160553932189941, "timer/agent.report_frac": 0.0007384141365298703, "timer/agent.report_avg": 0.22160553932189941, "timer/agent.report_min": 0.22160553932189941, "timer/agent.report_max": 0.22160553932189941, "fps": 4.8914681249292515}
+{"step": 1044606, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05016722408026756}
+{"step": 1044821, "episode/length": 214.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.06976744186046512}
+{"step": 1045016, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
+{"step": 1045209, "episode/length": 192.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.05699481865284974}
+{"step": 1045386, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06779661016949153}
+{"step": 1045895, "episode/length": 508.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03143418467583497}
+{"step": 1045929, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387228224012587, "train/action_min": 0.0, "train/action_std": 3.239662680361006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037115703207544155, "train/actor_opt_grad_steps": 522055.0, "train/actor_opt_loss": -13.475863145457375, "train/adv_mag": 0.41669181403186584, "train/adv_max": 0.3287670777903663, "train/adv_mean": 0.001612176214621286, "train/adv_min": -0.36958722439077163, "train/adv_std": 0.04232544426081909, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 4.863934528347929e-05, "train/cont_loss_std": 0.0013947243585461263, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002472680881830157, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 3.669221049465124e-05, "train/cont_pred": 0.9947462057073911, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.737418989340465, "train/dyn_loss_std": 9.019637968805101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8716553598642349, "train/extr_critic_critic_opt_grad_steps": 522055.0, "train/extr_critic_critic_opt_loss": 15256.64453125, "train/extr_critic_mag": 12.266542620129055, "train/extr_critic_max": 12.266542620129055, "train/extr_critic_mean": 3.8832787440882788, "train/extr_critic_min": -0.32625085446569657, "train/extr_critic_std": 2.9593335853682623, "train/extr_return_normed_mag": 1.3602858831485112, "train/extr_return_normed_max": 1.3602858831485112, "train/extr_return_normed_mean": 0.40374404481715626, "train/extr_return_normed_min": -0.07476381978227033, "train/extr_return_normed_std": 0.31438038705123794, "train/extr_return_rate": 0.862075962126255, "train/extr_return_raw_mag": 12.985597915119595, "train/extr_return_raw_max": 12.985597915119595, "train/extr_return_raw_mean": 3.8986082639959125, "train/extr_return_raw_min": -0.6479008934564061, "train/extr_return_raw_std": 2.9869899451732635, "train/extr_reward_mag": 1.0775395068857405, "train/extr_reward_max": 1.0775395068857405, "train/extr_reward_mean": 0.06350687032358514, "train/extr_reward_min": -0.5979421701696184, "train/extr_reward_std": 0.24160008049673504, "train/image_loss_mean": 3.437443960044119, "train/image_loss_std": 8.827410333686405, "train/model_loss_mean": 6.940868616104126, "train/model_loss_std": 13.056996530956692, "train/model_opt_grad_norm": 21.718207544750637, "train/model_opt_grad_steps": 521628.3333333333, "train/model_opt_loss": 21132.494330512152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.6846640209356942, "train/policy_entropy_max": 2.6846640209356942, "train/policy_entropy_mean": 0.3888477683067322, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5847817183368735, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.389597878480951, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0218357377582126, "train/policy_randomness_mag": 0.9475685871309705, "train/policy_randomness_max": 0.9475685871309705, "train/policy_randomness_mean": 0.13724619719303316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2064022830583983, "train/post_ent_mag": 56.04818783866035, "train/post_ent_max": 56.04818783866035, "train/post_ent_mean": 40.40912940767076, "train/post_ent_min": 19.960059881210327, "train/post_ent_std": 5.9167025619082985, "train/prior_ent_mag": 76.70341618855794, "train/prior_ent_max": 76.70341618855794, "train/prior_ent_mean": 46.148285706837974, "train/prior_ent_min": 27.853433423572117, "train/prior_ent_std": 8.002789894739786, "train/rep_loss_mean": 5.737418989340465, "train/rep_loss_std": 9.019637968805101, "train/reward_avg": 0.04451497351854212, "train/reward_loss_mean": 0.06092463190563851, "train/reward_loss_std": 0.21955841013954747, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0266289677884843, "train/reward_neg_acc": 0.9924019765522745, "train/reward_neg_loss": 0.02685001919356485, "train/reward_pos_acc": 0.9889011300272412, "train/reward_pos_loss": 0.7199451070692804, "train/reward_pred": 0.044311942998319864, "train/reward_rate": 0.04916720920138889, "stats/sum_log_reward": 11.099999984105429, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5293484901388487, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.362398320013691e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3238407142968105e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3053617477417, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.137494802474976, "timer/env.step_frac": 0.06372678360152152, "timer/env.step_avg": 0.01330841085012168, "timer/env.step_min": 0.002866506576538086, "timer/env.step_max": 1.753544569015503, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.31638121604919434, "timer/replay.add_frac": 0.0010535316925675022, "timer/replay.add_avg": 0.00022001475385896685, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.004438638687133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023104429244995117, "timer/logger.write_frac": 7.693645265116171e-05, "timer/logger.write_avg": 0.023104429244995117, "timer/logger.write_min": 0.023104429244995117, "timer/logger.write_max": 0.023104429244995117, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002186298370361328, "timer/checkpoint.save_frac": 7.280250867441494e-07, "timer/checkpoint.save_avg": 0.0002186298370361328, "timer/checkpoint.save_min": 0.0002186298370361328, "timer/checkpoint.save_max": 0.0002186298370361328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4179844856262207, "timer/agent.save_frac": 0.004721808752843168, "timer/agent.save_avg": 1.4179844856262207, "timer/agent.save_min": 1.4179844856262207, "timer/agent.save_max": 1.4179844856262207, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.104873657226562e-05, "timer/replay.save_frac": 2.3658830517966905e-07, "timer/replay.save_avg": 7.104873657226562e-05, "timer/replay.save_min": 7.104873657226562e-05, "timer/replay.save_max": 7.104873657226562e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.652161121368408, "timer/agent.policy_frac": 0.042130986432391104, "timer/agent.policy_avg": 0.00879844306075689, "timer/agent.policy_min": 0.005780696868896484, "timer/agent.policy_max": 1.414670705795288, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05776357650756836, "timer/dataset_frac": 0.00019234946779301965, "timer/dataset_avg": 8.033877122054014e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4507818222046, "timer/agent.train_frac": 0.8905960928092415, "timer/agent.train_avg": 0.3719760526039007, "timer/agent.train_min": 0.3653714656829834, "timer/agent.train_max": 0.7971019744873047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978354454040527, "timer/agent.report_frac": 0.0007318668679816138, "timer/agent.report_avg": 0.21978354454040527, "timer/agent.report_min": 0.21978354454040527, "timer/agent.report_max": 0.21978354454040527, "fps": 4.788357178235923}
+{"step": 1046103, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 1046329, "episode/length": 225.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05309734513274336}
+{"step": 1046524, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 1046728, "episode/length": 203.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.06862745098039216}
+{"step": 1046902, "episode/length": 173.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000041723251, "episode/reward_rate": 0.028735632183908046}
+{"step": 1047054, "episode/length": 151.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07236842105263158}
+{"step": 1047293, "episode/length": 238.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06276150627615062}
+{"step": 1047383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465849575931078, "train/action_min": 0.0, "train/action_std": 3.3201795114229804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03745459096684848, "train/actor_opt_grad_steps": 522780.0, "train/actor_opt_loss": -13.446196649580786, "train/adv_mag": 0.40416743759423085, "train/adv_max": 0.3281139796727324, "train/adv_mean": 0.0011792612921989567, "train/adv_min": -0.358478064406408, "train/adv_std": 0.04234192882702775, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 1.945719273969457e-05, "train/cont_loss_std": 0.0005735694409448314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005895234220828296, "train/cont_pos_acc": 0.999986562826862, "train/cont_pos_loss": 1.6930128946038253e-05, "train/cont_pred": 0.9949190077716357, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.734719302556286, "train/dyn_loss_std": 8.941402187086132, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.917915113984722, "train/extr_critic_critic_opt_grad_steps": 522780.0, "train/extr_critic_critic_opt_loss": 15380.559958261987, "train/extr_critic_mag": 12.387736150663192, "train/extr_critic_max": 12.387736150663192, "train/extr_critic_mean": 3.889015749709247, "train/extr_critic_min": -0.33413419004989, "train/extr_critic_std": 2.988561297116214, "train/extr_return_normed_mag": 1.370374029629851, "train/extr_return_normed_max": 1.370374029629851, "train/extr_return_normed_mean": 0.403670849048928, "train/extr_return_normed_min": -0.07842236461296473, "train/extr_return_normed_std": 0.3161725463116006, "train/extr_return_rate": 0.8627399500102213, "train/extr_return_raw_mag": 13.11745660598964, "train/extr_return_raw_max": 13.11745660598964, "train/extr_return_raw_mean": 3.9002808446753514, "train/extr_return_raw_min": -0.6966504589335559, "train/extr_return_raw_std": 3.0146871919501317, "train/extr_reward_mag": 1.0772908256478506, "train/extr_reward_max": 1.0772908256478506, "train/extr_reward_mean": 0.06423278219283443, "train/extr_reward_min": -0.6107865229044875, "train/extr_reward_std": 0.24324236851032466, "train/image_loss_mean": 3.397025839923179, "train/image_loss_std": 8.746529128453503, "train/model_loss_mean": 6.89816864875898, "train/model_loss_std": 12.907703099185474, "train/model_opt_grad_norm": 20.602590730745497, "train/model_opt_grad_steps": 522352.9315068493, "train/model_opt_loss": 20763.952737050513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3047.945205479452, "train/policy_entropy_mag": 2.66987962592138, "train/policy_entropy_max": 2.66987962592138, "train/policy_entropy_mean": 0.38745369017124176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853444121471824, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38761465496396363, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0173258193551677, "train/policy_randomness_mag": 0.9423503434821351, "train/policy_randomness_max": 0.9423503434821351, "train/policy_randomness_mean": 0.13675414842285522, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20660089017593697, "train/post_ent_mag": 55.85356171490395, "train/post_ent_max": 55.85356171490395, "train/post_ent_mean": 40.362435327817316, "train/post_ent_min": 19.391139775106353, "train/post_ent_std": 5.847252564887478, "train/prior_ent_mag": 76.66954489930035, "train/prior_ent_max": 76.66954489930035, "train/prior_ent_mean": 46.07985692481472, "train/prior_ent_min": 27.724219309140558, "train/prior_ent_std": 7.86706806862191, "train/rep_loss_mean": 5.734719302556286, "train/rep_loss_std": 8.941402187086132, "train/reward_avg": 0.04599074241131136, "train/reward_loss_mean": 0.060291777887981235, "train/reward_loss_std": 0.2193820882741719, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0272782665409455, "train/reward_neg_acc": 0.9936595167199226, "train/reward_neg_loss": 0.025148657329176385, "train/reward_pos_acc": 0.9921399918321061, "train/reward_pos_loss": 0.7210207336569485, "train/reward_pred": 0.04568640928562373, "train/reward_rate": 0.05055383133561644, "stats/sum_log_reward": 10.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.4285714285714284, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3216504837785448, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.325234089133828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3743297925841529e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2371325492859, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.51295495033264, "timer/env.step_frac": 0.061661110313507336, "timer/env.step_avg": 0.012732431190049959, "timer/env.step_min": 0.0029311180114746094, "timer/env.step_max": 1.5698556900024414, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.3105485439300537, "timer/replay.add_frac": 0.0010343442241578002, "timer/replay.add_avg": 0.0002135822172833932, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004361867904663086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03587198257446289, "timer/logger.write_frac": 0.00011947883417976046, "timer/logger.write_avg": 0.03587198257446289, "timer/logger.write_min": 0.03587198257446289, "timer/logger.write_max": 0.03587198257446289, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.75727367401123, "timer/agent.policy_frac": 0.035829257969099984, "timer/agent.policy_avg": 0.007398400050901809, "timer/agent.policy_min": 0.005640983581542969, "timer/agent.policy_max": 0.01576375961303711, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059278011322021484, "timer/dataset_frac": 0.0001974373083658818, "timer/dataset_avg": 8.153784225862652e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.89035511016846, "timer/agent.train_frac": 0.8989239699252196, "timer/agent.train_avg": 0.3712384526962427, "timer/agent.train_min": 0.3643825054168701, "timer/agent.train_max": 0.38649773597717285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21891379356384277, "timer/agent.report_frac": 0.0007291363053765731, "timer/agent.report_avg": 0.21891379356384277, "timer/agent.report_min": 0.21891379356384277, "timer/agent.report_max": 0.21891379356384277, "fps": 4.842775165753427}
+{"step": 1047587, "episode/length": 293.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.700000055134296, "episode/reward_rate": 0.04421768707482993}
+{"step": 1047800, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06572769953051644}
+{"step": 1047974, "episode/length": 173.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.08620689655172414}
+{"step": 1048200, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06637168141592921}
+{"step": 1048451, "episode/length": 250.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.055776892430278883}
+{"step": 1048675, "episode/length": 223.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.03571428571428571}
+{"step": 1048845, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.407637922731165, "train/action_min": 0.0, "train/action_std": 3.212251307213143, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03726070836084346, "train/actor_opt_grad_steps": 523510.0, "train/actor_opt_loss": -11.064272508229294, "train/adv_mag": 0.41710258918265775, "train/adv_max": 0.3464915064507968, "train/adv_mean": 0.002549063264729602, "train/adv_min": -0.35463315901690967, "train/adv_std": 0.04246703101551696, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 0.00017321157775859476, "train/cont_loss_std": 0.00547286744121926, "train/cont_neg_acc": 0.9908675804530105, "train/cont_neg_loss": 0.052118922977095826, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.7980715592854772e-05, "train/cont_pred": 0.9951351742221884, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.672684388617947, "train/dyn_loss_std": 8.936702349414563, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9052618227592887, "train/extr_critic_critic_opt_grad_steps": 523510.0, "train/extr_critic_critic_opt_loss": 15375.564466502568, "train/extr_critic_mag": 12.178936252855275, "train/extr_critic_max": 12.178936252855275, "train/extr_critic_mean": 3.8878794990173757, "train/extr_critic_min": -0.3504589093874579, "train/extr_critic_std": 2.937627165284875, "train/extr_return_normed_mag": 1.3670027239681923, "train/extr_return_normed_max": 1.3670027239681923, "train/extr_return_normed_mean": 0.4100455649911541, "train/extr_return_normed_min": -0.07428571663490713, "train/extr_return_normed_std": 0.31269694007422827, "train/extr_return_rate": 0.8701056405289532, "train/extr_return_raw_mag": 12.99036715781852, "train/extr_return_raw_max": 12.99036715781852, "train/extr_return_raw_mean": 3.9120694349889886, "train/extr_return_raw_min": -0.6830170975156027, "train/extr_return_raw_std": 2.9663823500071484, "train/extr_reward_mag": 1.086613028016809, "train/extr_reward_max": 1.086613028016809, "train/extr_reward_mean": 0.0666671777016496, "train/extr_reward_min": -0.5827207728608014, "train/extr_reward_std": 0.24743175935255338, "train/image_loss_mean": 3.2394261948049885, "train/image_loss_std": 8.462714371615894, "train/model_loss_mean": 6.703969334902829, "train/model_loss_std": 12.665063296278863, "train/model_opt_grad_norm": 23.25924051624455, "train/model_opt_grad_steps": 523082.0, "train/model_opt_loss": 16759.923346532534, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.687589998114599, "train/policy_entropy_max": 2.687589998114599, "train/policy_entropy_mean": 0.3717673894477217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.571140372181592, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37102592705863796, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0027843183034086, "train/policy_randomness_mag": 0.9486013267138232, "train/policy_randomness_max": 0.9486013267138232, "train/policy_randomness_mean": 0.13121757339941312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20158748716524202, "train/post_ent_mag": 55.557849152447425, "train/post_ent_max": 55.557849152447425, "train/post_ent_mean": 40.42491437311042, "train/post_ent_min": 19.471296832986074, "train/post_ent_std": 5.852523241957573, "train/prior_ent_mag": 76.66500708175032, "train/prior_ent_max": 76.66500708175032, "train/prior_ent_mean": 46.07020469561015, "train/prior_ent_min": 27.95341251321035, "train/prior_ent_std": 7.844023972341459, "train/rep_loss_mean": 5.672684388617947, "train/rep_loss_std": 8.936702349414563, "train/reward_avg": 0.04627702221886752, "train/reward_loss_mean": 0.06075934626876491, "train/reward_loss_std": 0.22111764346083548, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0339397894193048, "train/reward_neg_acc": 0.9927836403454819, "train/reward_neg_loss": 0.02497002297425515, "train/reward_pos_acc": 0.9864939051131679, "train/reward_pos_loss": 0.731740998895201, "train/reward_pred": 0.04576205638275571, "train/reward_rate": 0.05066085188356165, "stats/sum_log_reward": 11.933333476384481, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.45236431062221527, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.2736077680470354e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234921910694294e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3072636127472, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.065539836883545, "timer/env.step_frac": 0.05682692996360532, "timer/env.step_avg": 0.011672735866541412, "timer/env.step_min": 0.002730846405029297, "timer/env.step_max": 1.551847219467163, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.31737208366394043, "timer/replay.add_frac": 0.001056824533132834, "timer/replay.add_avg": 0.0002170807685799866, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.009612321853637695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034357547760009766, "timer/logger.write_frac": 0.00011440798116796329, "timer/logger.write_avg": 0.034357547760009766, "timer/logger.write_min": 0.034357547760009766, "timer/logger.write_max": 0.034357547760009766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.755248785018921, "timer/agent.policy_frac": 0.035814148001721495, "timer/agent.policy_avg": 0.007356531316702409, "timer/agent.policy_min": 0.0057566165924072266, "timer/agent.policy_max": 0.015277624130249023, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05955982208251953, "timer/dataset_frac": 0.00019832960870145062, "timer/dataset_avg": 8.147718479140839e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.41204357147217, "timer/agent.train_frac": 0.9037811483689717, "timer/agent.train_avg": 0.37128870529613156, "timer/agent.train_min": 0.36533284187316895, "timer/agent.train_max": 0.38524556159973145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21819233894348145, "timer/agent.report_frac": 0.0007265636412472702, "timer/agent.report_avg": 0.21819233894348145, "timer/agent.report_min": 0.21819233894348145, "timer/agent.report_max": 0.21819233894348145, "fps": 4.8682390335651125}
+{"step": 1049000, "episode/length": 324.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.04}
+{"step": 1049264, "episode/length": 263.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.056818181818181816}
+{"step": 1049497, "episode/length": 232.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04721030042918455}
+{"step": 1049655, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0759493670886076}
+{"step": 1049878, "episode/length": 222.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06726457399103139}
+{"step": 1050043, "episode/length": 164.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.09090909090909091}
+{"step": 1050283, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3756298489040795, "train/action_min": 0.0, "train/action_std": 3.2049467265605927, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038252280093729496, "train/actor_opt_grad_steps": 524235.0, "train/actor_opt_loss": -11.09780682116333, "train/adv_mag": 0.38397708121273255, "train/adv_max": 0.3266707950582107, "train/adv_mean": 0.0020552596086215796, "train/adv_min": -0.3390587048812045, "train/adv_std": 0.04306281694314546, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 2.7518283356108163e-05, "train/cont_loss_std": 0.0008255252023935276, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.817287428696595e-05, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 2.724632034912923e-05, "train/cont_pred": 0.9951115639673339, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.628934661547343, "train/dyn_loss_std": 8.975729776753319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8748220826188723, "train/extr_critic_critic_opt_grad_steps": 524235.0, "train/extr_critic_critic_opt_loss": 15305.168253580729, "train/extr_critic_mag": 12.30071911546919, "train/extr_critic_max": 12.30071911546919, "train/extr_critic_mean": 3.9335472683111825, "train/extr_critic_min": -0.35994331704245675, "train/extr_critic_std": 2.8982046710120306, "train/extr_return_normed_mag": 1.3781943801376555, "train/extr_return_normed_max": 1.3781943801376555, "train/extr_return_normed_mean": 0.414071462634537, "train/extr_return_normed_min": -0.07867401724474297, "train/extr_return_normed_std": 0.31015722991691697, "train/extr_return_rate": 0.8725857651895947, "train/extr_return_raw_mag": 13.054618702994453, "train/extr_return_raw_max": 13.054618702994453, "train/extr_return_raw_mean": 3.952940215667089, "train/extr_return_raw_min": -0.6993828275137477, "train/extr_return_raw_std": 2.9280636807282767, "train/extr_reward_mag": 1.0769245094723172, "train/extr_reward_max": 1.0769245094723172, "train/extr_reward_mean": 0.06725408649072051, "train/extr_reward_min": -0.5954941031005647, "train/extr_reward_std": 0.24871178343892097, "train/image_loss_mean": 3.1902747833066516, "train/image_loss_std": 8.453592717647552, "train/model_loss_mean": 6.627380543284946, "train/model_loss_std": 12.637062377399868, "train/model_opt_grad_norm": 23.621615727742512, "train/model_opt_grad_steps": 523806.3611111111, "train/model_opt_loss": 17524.207912868922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6924242211712732, "train/policy_entropy_max": 2.6924242211712732, "train/policy_entropy_mean": 0.3758943289932277, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5812150359981589, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753023081355625, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0101211551162932, "train/policy_randomness_mag": 0.9503075968888071, "train/policy_randomness_max": 0.9503075968888071, "train/policy_randomness_mean": 0.13267420128815705, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2051434020201365, "train/post_ent_mag": 55.64896175596449, "train/post_ent_max": 55.64896175596449, "train/post_ent_mean": 40.16067202885946, "train/post_ent_min": 19.596243964301216, "train/post_ent_std": 5.775225738684337, "train/prior_ent_mag": 76.7619817521837, "train/prior_ent_max": 76.7619817521837, "train/prior_ent_mean": 45.753547721438935, "train/prior_ent_min": 27.840321593814426, "train/prior_ent_std": 7.82724513610204, "train/rep_loss_mean": 5.628934661547343, "train/rep_loss_std": 8.975729776753319, "train/reward_avg": 0.0453097869693819, "train/reward_loss_mean": 0.059717518018765584, "train/reward_loss_std": 0.21612709760665894, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.023591137594647, "train/reward_neg_acc": 0.9930411552389463, "train/reward_neg_loss": 0.024889079077790182, "train/reward_pos_acc": 0.9899158875147501, "train/reward_pos_loss": 0.7239058398538165, "train/reward_pred": 0.04502021645506223, "train/reward_rate": 0.04983181423611111, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.49909097452958423, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2826491290902894e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.339695218209597e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2219922542572, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.818753480911255, "timer/env.step_frac": 0.06601366319668815, "timer/env.step_avg": 0.013782165146669858, "timer/env.step_min": 0.002730131149291992, "timer/env.step_max": 2.4002041816711426, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.280803918838501, "timer/replay.add_frac": 0.0009353209494416015, "timer/replay.add_avg": 0.00019527393521453476, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0033783912658691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023681640625, "timer/logger.write_frac": 7.888043259983459e-05, "timer/logger.write_avg": 0.023681640625, "timer/logger.write_min": 0.023681640625, "timer/logger.write_max": 0.023681640625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016546249389648438, "timer/checkpoint.save_frac": 5.5113382152349e-07, "timer/checkpoint.save_avg": 0.00016546249389648438, "timer/checkpoint.save_min": 0.00016546249389648438, "timer/checkpoint.save_max": 0.00016546249389648438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.207275629043579, "timer/agent.save_frac": 0.004021276456060356, "timer/agent.save_avg": 1.207275629043579, "timer/agent.save_min": 1.207275629043579, "timer/agent.save_max": 1.207275629043579, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.414188497739783e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.899053812026978, "timer/agent.policy_frac": 0.03963418443359639, "timer/agent.policy_avg": 0.008274724486805964, "timer/agent.policy_min": 0.00596165657043457, "timer/agent.policy_max": 1.2080726623535156, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058786869049072266, "timer/dataset_frac": 0.0001958113348314797, "timer/dataset_avg": 8.176198755086546e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4895746707916, "timer/agent.train_frac": 0.8909726188355163, "timer/agent.train_avg": 0.37203000649623313, "timer/agent.train_min": 0.36385250091552734, "timer/agent.train_max": 0.814697265625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21785473823547363, "timer/agent.report_frac": 0.0007256455018490886, "timer/agent.report_avg": 0.21785473823547363, "timer/agent.report_min": 0.21785473823547363, "timer/agent.report_max": 0.21785473823547363, "fps": 4.789689367904747}
+{"step": 1050444, "episode/length": 400.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0399002493765586}
+{"step": 1050636, "episode/length": 191.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.078125}
+{"step": 1050773, "episode/length": 136.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.10948905109489052}
+{"step": 1050979, "episode/length": 205.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.06310679611650485}
+{"step": 1051187, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0673076923076923}
+{"step": 1051399, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07075471698113207}
+{"step": 1051616, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06912442396313365}
+{"step": 1051735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376482645670573, "train/action_min": 0.0, "train/action_std": 3.170206112994088, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03836583087427749, "train/actor_opt_grad_steps": 524955.0, "train/actor_opt_loss": -12.740773952669567, "train/adv_mag": 0.3962380902634727, "train/adv_max": 0.3255125234524409, "train/adv_mean": 0.0015672883043230791, "train/adv_min": -0.35876793704099125, "train/adv_std": 0.043055892870244056, "train/cont_avg": 0.9948459201388888, "train/cont_loss_mean": 9.869587940908925e-05, "train/cont_loss_std": 0.0028237082880006406, "train/cont_neg_acc": 0.9907407412926356, "train/cont_neg_loss": 0.029487642888156133, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6976366211057188e-05, "train/cont_pred": 0.9948635432455275, "train/cont_rate": 0.9948459201388888, "train/dyn_loss_mean": 5.706589500109355, "train/dyn_loss_std": 8.940139876471626, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8863774405585395, "train/extr_critic_critic_opt_grad_steps": 524955.0, "train/extr_critic_critic_opt_loss": 15475.508124457465, "train/extr_critic_mag": 12.375282367070517, "train/extr_critic_max": 12.375282367070517, "train/extr_critic_mean": 3.8777017659611173, "train/extr_critic_min": -0.35306202206346726, "train/extr_critic_std": 2.974866214725706, "train/extr_return_normed_mag": 1.3726159284512203, "train/extr_return_normed_max": 1.3726159284512203, "train/extr_return_normed_mean": 0.4078008321424325, "train/extr_return_normed_min": -0.07550982634226482, "train/extr_return_normed_std": 0.3162709907111194, "train/extr_return_rate": 0.8609791414605247, "train/extr_return_raw_mag": 13.05244787534078, "train/extr_return_raw_max": 13.05244787534078, "train/extr_return_raw_mean": 3.892580807209015, "train/extr_return_raw_min": -0.695626727408833, "train/extr_return_raw_std": 3.002623435523775, "train/extr_reward_mag": 1.0760706729359097, "train/extr_reward_max": 1.0760706729359097, "train/extr_reward_mean": 0.06569375853157705, "train/extr_reward_min": -0.5926283333036635, "train/extr_reward_std": 0.24624809353715843, "train/image_loss_mean": 3.335314439402686, "train/image_loss_std": 8.69722831249237, "train/model_loss_mean": 6.820486803849538, "train/model_loss_std": 12.841885050137838, "train/model_opt_grad_norm": 21.173310200373333, "train/model_opt_grad_steps": 524526.0, "train/model_opt_loss": 21302.104342990453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3125.0, "train/policy_entropy_mag": 2.6909885538948908, "train/policy_entropy_max": 2.6909885538948908, "train/policy_entropy_mean": 0.4008367889457279, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6066104028787878, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39957869466808105, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0266034031907718, "train/policy_randomness_mag": 0.9498008671734068, "train/policy_randomness_max": 0.9498008671734068, "train/policy_randomness_mean": 0.14147779355860418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21410685270610783, "train/post_ent_mag": 55.880157205793594, "train/post_ent_max": 55.880157205793594, "train/post_ent_mean": 40.20070934295654, "train/post_ent_min": 19.59538706143697, "train/post_ent_std": 5.828581790129344, "train/prior_ent_mag": 76.79910087585449, "train/prior_ent_max": 76.79910087585449, "train/prior_ent_mean": 45.91831021838718, "train/prior_ent_min": 27.9634870423211, "train/prior_ent_std": 7.964052763250139, "train/rep_loss_mean": 5.706589500109355, "train/rep_loss_std": 8.940139876471626, "train/reward_avg": 0.0459350582677871, "train/reward_loss_mean": 0.06111999714954032, "train/reward_loss_std": 0.2238171450379822, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0349507166279688, "train/reward_neg_acc": 0.9930728293127484, "train/reward_neg_loss": 0.025877209677774873, "train/reward_pos_acc": 0.9888000140587488, "train/reward_pos_loss": 0.7230832179387411, "train/reward_pred": 0.04572953827058276, "train/reward_rate": 0.050496419270833336, "stats/sum_log_reward": 13.385714394705635, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3896044705595289, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.3196338937302266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3314988002304202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1500573158264, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.779444456100464, "timer/env.step_frac": 0.06256685280702845, "timer/env.step_avg": 0.012933501691529245, "timer/env.step_min": 0.0026535987854003906, "timer/env.step_max": 1.618779182434082, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.29512929916381836, "timer/replay.add_frac": 0.0009832725064359222, "timer/replay.add_avg": 0.00020325709308802918, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003664255142211914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021858692169189453, "timer/logger.write_frac": 7.282588037685802e-05, "timer/logger.write_avg": 0.021858692169189453, "timer/logger.write_min": 0.021858692169189453, "timer/logger.write_max": 0.021858692169189453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.738046169281006, "timer/agent.policy_frac": 0.03577559259961136, "timer/agent.policy_avg": 0.0073953486014332, "timer/agent.policy_min": 0.005804538726806641, "timer/agent.policy_max": 0.017022132873535156, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05852460861206055, "timer/dataset_frac": 0.0001949844992049403, "timer/dataset_avg": 8.061240855655723e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.5878384113312, "timer/agent.train_frac": 0.8981768680046034, "timer/agent.train_avg": 0.37133311075940933, "timer/agent.train_min": 0.36480212211608887, "timer/agent.train_max": 0.3866088390350342, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21872878074645996, "timer/agent.report_frac": 0.0007287314308799459, "timer/agent.report_avg": 0.21872878074645996, "timer/agent.report_min": 0.21872878074645996, "timer/agent.report_max": 0.21872878074645996, "fps": 4.8374748765838245}
+{"step": 1051783, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0658682634730539}
+{"step": 1052024, "episode/length": 240.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05394190871369295}
+{"step": 1052281, "episode/length": 256.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.0622568093385214}
+{"step": 1052464, "episode/length": 182.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06557377049180328}
+{"step": 1052654, "episode/length": 189.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05789473684210526}
+{"step": 1052725, "episode/length": 70.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.1267605633802817}
+{"step": 1052811, "episode/length": 85.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.10465116279069768}
+{"step": 1052993, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 1053179, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392633307470034, "train/action_min": 0.0, "train/action_std": 3.1766167242233068, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038184526465731124, "train/actor_opt_grad_steps": 525680.0, "train/actor_opt_loss": -10.032827031122496, "train/adv_mag": 0.40517589123281716, "train/adv_max": 0.3400231636550328, "train/adv_mean": 0.0020961798815222533, "train/adv_min": -0.35331397901659145, "train/adv_std": 0.042613393231614, "train/cont_avg": 0.9951038099315068, "train/cont_loss_mean": 1.6106098274881893e-05, "train/cont_loss_std": 0.0004404040910402142, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015115661100277103, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.5318189898603778e-05, "train/cont_pred": 0.9950903327497718, "train/cont_rate": 0.9951038099315068, "train/dyn_loss_mean": 5.697235153145986, "train/dyn_loss_std": 8.905547364117348, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9056786502877326, "train/extr_critic_critic_opt_grad_steps": 525680.0, "train/extr_critic_critic_opt_loss": 15377.93031624572, "train/extr_critic_mag": 12.149958362318065, "train/extr_critic_max": 12.149958362318065, "train/extr_critic_mean": 3.8478072212166983, "train/extr_critic_min": -0.3190728817900566, "train/extr_critic_std": 2.899494842307208, "train/extr_return_normed_mag": 1.3659203036190712, "train/extr_return_normed_max": 1.3659203036190712, "train/extr_return_normed_mean": 0.403937332434197, "train/extr_return_normed_min": -0.07616479633605644, "train/extr_return_normed_std": 0.31117594017557904, "train/extr_return_rate": 0.8692610729230593, "train/extr_return_raw_mag": 12.920189674586466, "train/extr_return_raw_max": 12.920189674586466, "train/extr_return_raw_mean": 3.8675203976565844, "train/extr_return_raw_min": -0.650418709402215, "train/extr_return_raw_std": 2.92817348650057, "train/extr_reward_mag": 1.072712829668228, "train/extr_reward_max": 1.072712829668228, "train/extr_reward_mean": 0.06347540776207022, "train/extr_reward_min": -0.6150446460671621, "train/extr_reward_std": 0.24181863400217604, "train/image_loss_mean": 3.3795802266630406, "train/image_loss_std": 8.505564082158754, "train/model_loss_mean": 6.857382206067647, "train/model_loss_std": 12.638644897774475, "train/model_opt_grad_norm": 20.578849400559516, "train/model_opt_grad_steps": 525250.0684931506, "train/model_opt_loss": 18357.357676048803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.673552340024138, "train/policy_entropy_max": 2.673552340024138, "train/policy_entropy_mean": 0.3830214755175865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5790470883454362, "train/policy_logprob_mag": 7.4383843696280705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3824109422833952, "train/policy_logprob_min": -7.4383843696280705, "train/policy_logprob_std": 1.0131409690804678, "train/policy_randomness_mag": 0.9436466489752678, "train/policy_randomness_max": 0.9436466489752678, "train/policy_randomness_mean": 0.13518977348935113, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20437821153908559, "train/post_ent_mag": 55.04824013905982, "train/post_ent_max": 55.04824013905982, "train/post_ent_mean": 40.1377205522093, "train/post_ent_min": 19.70915149009391, "train/post_ent_std": 5.744832783529203, "train/prior_ent_mag": 76.73802435888003, "train/prior_ent_max": 76.73802435888003, "train/prior_ent_mean": 45.81876535285009, "train/prior_ent_min": 27.791415279858732, "train/prior_ent_std": 7.92251210016747, "train/rep_loss_mean": 5.697235153145986, "train/rep_loss_std": 8.905547364117348, "train/reward_avg": 0.04437339432180336, "train/reward_loss_mean": 0.05944472837121519, "train/reward_loss_std": 0.22632590181207005, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.031050440383284, "train/reward_neg_acc": 0.9931966564426683, "train/reward_neg_loss": 0.025026624346126434, "train/reward_pos_acc": 0.9877310991287231, "train/reward_pos_loss": 0.7307156806122767, "train/reward_pred": 0.044029651311774776, "train/reward_rate": 0.0487211044520548, "stats/sum_log_reward": 10.725000143051147, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.31735868006944656, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.278915901923774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.293594156936265e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1711120605469, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.461183786392212, "timer/env.step_frac": 0.06816506640474128, "timer/env.step_avg": 0.014169794865922585, "timer/env.step_min": 0.002841472625732422, "timer/env.step_max": 1.6165800094604492, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2847745418548584, "timer/replay.add_frac": 0.0009487073552814674, "timer/replay.add_avg": 0.00019721228660308753, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.003851175308227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02427816390991211, "timer/logger.write_frac": 8.088108060516833e-05, "timer/logger.write_avg": 0.02427816390991211, "timer/logger.write_min": 0.02427816390991211, "timer/logger.write_max": 0.02427816390991211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.622048616409302, "timer/agent.policy_frac": 0.0353866451154925, "timer/agent.policy_avg": 0.007355989346543838, "timer/agent.policy_min": 0.005700588226318359, "timer/agent.policy_max": 0.016140222549438477, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05786013603210449, "timer/dataset_frac": 0.00019275717651481947, "timer/dataset_avg": 8.013869256524168e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00015401840209960938, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.0643618106842, "timer/agent.train_frac": 0.8930385071719144, "timer/agent.train_avg": 0.3712802795161831, "timer/agent.train_min": 0.3641195297241211, "timer/agent.train_max": 0.3883638381958008, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21721720695495605, "timer/agent.report_frac": 0.000723644608782812, "timer/agent.report_avg": 0.21721720695495605, "timer/agent.report_min": 0.21721720695495605, "timer/agent.report_max": 0.21721720695495605, "fps": 4.810505934204863}
+{"step": 1053204, "episode/length": 210.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07582938388625593}
+{"step": 1053389, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
+{"step": 1053694, "episode/length": 304.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.04918032786885246}
+{"step": 1053892, "episode/length": 197.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.0707070707070707}
+{"step": 1054110, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06880733944954129}
+{"step": 1054340, "episode/length": 229.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 17.099999994039536, "episode/reward_rate": 0.06956521739130435}
+{"step": 1054605, "episode/length": 264.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.052830188679245285}
+{"step": 1054613, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.356018926056338, "train/action_min": 0.0, "train/action_std": 3.1903111095159824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037671161763055225, "train/actor_opt_grad_steps": 526400.0, "train/actor_opt_loss": -10.756295363772923, "train/adv_mag": 0.41138151434945386, "train/adv_max": 0.33161884399367053, "train/adv_mean": 0.0019399766036219941, "train/adv_min": -0.3735225647687912, "train/adv_std": 0.04241501560933154, "train/cont_avg": 0.9950759242957746, "train/cont_loss_mean": 7.710101222277873e-05, "train/cont_loss_std": 0.002422017261942144, "train/cont_neg_acc": 0.9951020419597626, "train/cont_neg_loss": 0.011557718095348994, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 6.416298593031845e-06, "train/cont_pred": 0.9950945881051076, "train/cont_rate": 0.9950759242957746, "train/dyn_loss_mean": 5.621217284404056, "train/dyn_loss_std": 8.953205968292666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8898424010881236, "train/extr_critic_critic_opt_grad_steps": 526400.0, "train/extr_critic_critic_opt_loss": 15316.53046599912, "train/extr_critic_mag": 12.307252118285273, "train/extr_critic_max": 12.307252118285273, "train/extr_critic_mean": 3.875720071121001, "train/extr_critic_min": -0.3399627225499758, "train/extr_critic_std": 2.9034659056596355, "train/extr_return_normed_mag": 1.3749080510206626, "train/extr_return_normed_max": 1.3749080510206626, "train/extr_return_normed_mean": 0.40506964082449254, "train/extr_return_normed_min": -0.08198402061218947, "train/extr_return_normed_std": 0.3121160312857426, "train/extr_return_rate": 0.8751577600626879, "train/extr_return_raw_mag": 13.005243019318916, "train/extr_return_raw_max": 13.005243019318916, "train/extr_return_raw_mean": 3.8939435649925556, "train/extr_return_raw_min": -0.6819587647914886, "train/extr_return_raw_std": 2.93235135414231, "train/extr_reward_mag": 1.071873446585427, "train/extr_reward_max": 1.071873446585427, "train/extr_reward_mean": 0.062337821270798295, "train/extr_reward_min": -0.5859382454778107, "train/extr_reward_std": 0.23989736530142772, "train/image_loss_mean": 3.371731630513366, "train/image_loss_std": 8.771396012373373, "train/model_loss_mean": 6.805249677577489, "train/model_loss_std": 12.94733536411339, "train/model_opt_grad_norm": 22.172409460578166, "train/model_opt_grad_steps": 525969.4507042253, "train/model_opt_loss": 17013.124119718308, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686382142590805, "train/policy_entropy_max": 2.686382142590805, "train/policy_entropy_mean": 0.3892055800263311, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930226969886834, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38909295830928103, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0189265877428189, "train/policy_randomness_mag": 0.9481750105468321, "train/policy_randomness_max": 0.9481750105468321, "train/policy_randomness_mean": 0.13737248933651078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20931098767569367, "train/post_ent_mag": 55.46667931785046, "train/post_ent_max": 55.46667931785046, "train/post_ent_mean": 40.28144981491734, "train/post_ent_min": 19.75417053867394, "train/post_ent_std": 5.827425278408427, "train/prior_ent_mag": 76.89925352284607, "train/prior_ent_max": 76.89925352284607, "train/prior_ent_mean": 45.85828598452286, "train/prior_ent_min": 28.01896823292047, "train/prior_ent_std": 7.918625522667254, "train/rep_loss_mean": 5.621217284404056, "train/rep_loss_std": 8.953205968292666, "train/reward_avg": 0.0445505063456129, "train/reward_loss_mean": 0.060710655813905556, "train/reward_loss_std": 0.22701848497692967, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.022301885443674, "train/reward_neg_acc": 0.9927252698952044, "train/reward_neg_loss": 0.026035973303754564, "train/reward_pos_acc": 0.987025691589839, "train/reward_pos_loss": 0.7341536594108796, "train/reward_pred": 0.044133837006881206, "train/reward_rate": 0.04908945862676056, "stats/sum_log_reward": 13.385714530944824, "stats/max_log_achievement_collect_coal": 1.8571428571428572, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.571428571428573, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.39777676122529165, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.352657355357746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3184514172073854e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3219163417816, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.082700490951538, "timer/env.step_frac": 0.06354081887661657, "timer/env.step_avg": 0.013307322518097306, "timer/env.step_min": 0.0028426647186279297, "timer/env.step_max": 1.584810495376587, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2892005443572998, "timer/replay.add_frac": 0.0009629684968717864, "timer/replay.add_avg": 0.000201674019774965, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004019260406494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03687119483947754, "timer/logger.write_frac": 0.00012277224149541004, "timer/logger.write_avg": 0.03687119483947754, "timer/logger.write_min": 0.03687119483947754, "timer/logger.write_max": 0.03687119483947754, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025463104248046875, "timer/checkpoint.save_frac": 8.478603412702178e-07, "timer/checkpoint.save_avg": 0.00025463104248046875, "timer/checkpoint.save_min": 0.00025463104248046875, "timer/checkpoint.save_max": 0.00025463104248046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1702513694763184, "timer/agent.save_frac": 0.003896656573490004, "timer/agent.save_avg": 1.1702513694763184, "timer/agent.save_min": 1.1702513694763184, "timer/agent.save_max": 1.1702513694763184, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.225440979003906e-05, "timer/replay.save_frac": 2.7388746979234564e-07, "timer/replay.save_avg": 8.225440979003906e-05, "timer/replay.save_min": 8.225440979003906e-05, "timer/replay.save_max": 8.225440979003906e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 13.910561561584473, "timer/agent.policy_frac": 0.04631883590458162, "timer/agent.policy_avg": 0.00970053107502404, "timer/agent.policy_min": 0.005876779556274414, "timer/agent.policy_max": 2.424654960632324, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05766892433166504, "timer/dataset_frac": 0.00019202369588649956, "timer/dataset_avg": 8.043085680845891e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.2812316417694, "timer/agent.train_frac": 0.8866526788498773, "timer/agent.train_avg": 0.3713824709090229, "timer/agent.train_min": 0.3643832206726074, "timer/agent.train_max": 0.4671354293823242, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032690048217773, "timer/agent.report_frac": 0.000733635770462501, "timer/agent.report_avg": 0.22032690048217773, "timer/agent.report_min": 0.22032690048217773, "timer/agent.report_max": 0.22032690048217773, "fps": 4.774773034620326}
+{"step": 1054826, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06334841628959276}
+{"step": 1054992, "episode/length": 165.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0783132530120482}
+{"step": 1055242, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06}
+{"step": 1055313, "episode/length": 70.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07042253521126761}
+{"step": 1055611, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.050335570469798654}
+{"step": 1055905, "episode/length": 293.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04421768707482993}
+{"step": 1056077, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390317315924658, "train/action_min": 0.0, "train/action_std": 3.2100461737750328, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03815348145284065, "train/actor_opt_grad_steps": 527120.0, "train/actor_opt_loss": -12.130534937120464, "train/adv_mag": 0.38674886177663936, "train/adv_max": 0.31324585292437307, "train/adv_mean": 0.00201380363970912, "train/adv_min": -0.3541209509927932, "train/adv_std": 0.04263329801902379, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 4.861544020601771e-05, "train/cont_loss_std": 0.0015201581756177538, "train/cont_neg_acc": 0.9949771696574068, "train/cont_neg_loss": 0.007575216771710354, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 6.815462670113226e-06, "train/cont_pred": 0.9949194405176868, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.664867374994984, "train/dyn_loss_std": 8.889224581522484, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9325672584037258, "train/extr_critic_critic_opt_grad_steps": 527120.0, "train/extr_critic_critic_opt_loss": 15062.427078874143, "train/extr_critic_mag": 12.292535037210543, "train/extr_critic_max": 12.292535037210543, "train/extr_critic_mean": 3.963214831809475, "train/extr_critic_min": -0.33642862594290956, "train/extr_critic_std": 2.965967295921012, "train/extr_return_normed_mag": 1.3721786149560589, "train/extr_return_normed_max": 1.3721786149560589, "train/extr_return_normed_mean": 0.4129232605026193, "train/extr_return_normed_min": -0.08077342354067385, "train/extr_return_normed_std": 0.31713995970275305, "train/extr_return_rate": 0.8758428341721836, "train/extr_return_raw_mag": 13.035544748175633, "train/extr_return_raw_max": 13.035544748175633, "train/extr_return_raw_mean": 3.9822387499352025, "train/extr_return_raw_min": -0.6777149259227596, "train/extr_return_raw_std": 2.9934625788910747, "train/extr_reward_mag": 1.0804233746985867, "train/extr_reward_max": 1.0804233746985867, "train/extr_reward_mean": 0.0652728859998592, "train/extr_reward_min": -0.6008514182208335, "train/extr_reward_std": 0.24508357823711552, "train/image_loss_mean": 3.308402040233351, "train/image_loss_std": 8.637374165939958, "train/model_loss_mean": 6.769155423935145, "train/model_loss_std": 12.756044557649796, "train/model_opt_grad_norm": 20.687678154200725, "train/model_opt_grad_steps": 526688.9589041095, "train/model_opt_loss": 19013.32466020976, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2808.219178082192, "train/policy_entropy_mag": 2.6751122605310726, "train/policy_entropy_max": 2.6751122605310726, "train/policy_entropy_mean": 0.39407395581676535, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5986082415058188, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39320671231779336, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0226079168385023, "train/policy_randomness_mag": 0.9441972358586037, "train/policy_randomness_max": 0.9441972358586037, "train/policy_randomness_mean": 0.1390908117571922, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21128243922370754, "train/post_ent_mag": 55.59724483751271, "train/post_ent_max": 55.59724483751271, "train/post_ent_mean": 40.1982043540641, "train/post_ent_min": 19.64957672275909, "train/post_ent_std": 5.741301673732392, "train/prior_ent_mag": 76.73864359398411, "train/prior_ent_max": 76.73864359398411, "train/prior_ent_mean": 45.85986312448162, "train/prior_ent_min": 27.616813999332795, "train/prior_ent_std": 7.91430063770242, "train/rep_loss_mean": 5.664867374994984, "train/rep_loss_std": 8.889224581522484, "train/reward_avg": 0.04757197127256491, "train/reward_loss_mean": 0.06178428584786311, "train/reward_loss_std": 0.2257891489218359, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0310732109905922, "train/reward_neg_acc": 0.9932408879881036, "train/reward_neg_loss": 0.025641513159115836, "train/reward_pos_acc": 0.9904868014871258, "train/reward_pos_loss": 0.7201554734412938, "train/reward_pred": 0.0472929780052541, "train/reward_rate": 0.05203874143835616, "stats/sum_log_reward": 11.600000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.398682380716006, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.3173404756139536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336442805378815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1737804412842, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.891334056854248, "timer/env.step_frac": 0.056271850366219095, "timer/env.step_avg": 0.0115377964869223, "timer/env.step_min": 0.0027196407318115234, "timer/env.step_max": 1.5678179264068604, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2985975742340088, "timer/replay.add_frac": 0.0009947490210338885, "timer/replay.add_avg": 0.00020396009168989672, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.003221273422241211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02424168586730957, "timer/logger.write_frac": 8.075883853570413e-05, "timer/logger.write_avg": 0.02424168586730957, "timer/logger.write_min": 0.02424168586730957, "timer/logger.write_max": 0.02424168586730957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.74815559387207, "timer/agent.policy_frac": 0.035806443780903356, "timer/agent.policy_avg": 0.00734163633461207, "timer/agent.policy_min": 0.005722522735595703, "timer/agent.policy_max": 0.016815185546875, "timer/dataset_count": 732.0, "timer/dataset_total": 0.059474945068359375, "timer/dataset_frac": 0.00019813504357684244, "timer/dataset_avg": 8.124992495677511e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.48831272125244, "timer/agent.train_frac": 0.9044371307918321, "timer/agent.train_avg": 0.3708856731164651, "timer/agent.train_min": 0.36117076873779297, "timer/agent.train_max": 0.3856933116912842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889138221740723, "timer/agent.report_frac": 0.0007292155294030543, "timer/agent.report_avg": 0.21889138221740723, "timer/agent.report_min": 0.21889138221740723, "timer/agent.report_max": 0.21889138221740723, "fps": 4.8770733750466375}
+{"step": 1056101, "episode/length": 195.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05102040816326531}
+{"step": 1056330, "episode/length": 228.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0611353711790393}
+{"step": 1056796, "episode/length": 465.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.030042918454935622}
+{"step": 1057094, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04697986577181208}
+{"step": 1057256, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08024691358024691}
+{"step": 1057466, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1057528, "episode/length": 61.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0967741935483871}
+{"step": 1057531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347142885809076, "train/action_min": 0.0, "train/action_std": 3.211499723669601, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038658994671008355, "train/actor_opt_grad_steps": 527850.0, "train/actor_opt_loss": -10.357518154719513, "train/adv_mag": 0.3868875354528427, "train/adv_max": 0.333047430400979, "train/adv_mean": 0.0021376561511815078, "train/adv_min": -0.34686255638730035, "train/adv_std": 0.04355097771303294, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 2.7379050486720717e-05, "train/cont_loss_std": 0.0008398578373589654, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7067837941111575e-05, "train/cont_pos_acc": 0.9999865260842729, "train/cont_pos_loss": 2.738736601264457e-05, "train/cont_pred": 0.9946957385703309, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.647819094461937, "train/dyn_loss_std": 9.025608689817664, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9249640793016513, "train/extr_critic_critic_opt_grad_steps": 527850.0, "train/extr_critic_critic_opt_loss": 15472.858144263699, "train/extr_critic_mag": 12.307852914888565, "train/extr_critic_max": 12.307852914888565, "train/extr_critic_mean": 3.8736179266890436, "train/extr_critic_min": -0.34227770321989714, "train/extr_critic_std": 2.9177078743503517, "train/extr_return_normed_mag": 1.3761240505192378, "train/extr_return_normed_max": 1.3761240505192378, "train/extr_return_normed_mean": 0.4079076288497611, "train/extr_return_normed_min": -0.07722515046392402, "train/extr_return_normed_std": 0.31310101731182777, "train/extr_return_rate": 0.8763930944547261, "train/extr_return_raw_mag": 13.00143096871572, "train/extr_return_raw_max": 13.00143096871572, "train/extr_return_raw_mean": 3.893714245051554, "train/extr_return_raw_min": -0.6704808873673008, "train/extr_return_raw_std": 2.9455433871648085, "train/extr_reward_mag": 1.076885363827013, "train/extr_reward_max": 1.076885363827013, "train/extr_reward_mean": 0.06336896274596045, "train/extr_reward_min": -0.6028822546135889, "train/extr_reward_std": 0.24203778680873245, "train/image_loss_mean": 3.3197085106209534, "train/image_loss_std": 9.030629282128322, "train/model_loss_mean": 6.767166091971202, "train/model_loss_std": 13.196887068552513, "train/model_opt_grad_norm": 22.326293670967832, "train/model_opt_grad_steps": 527417.0547945206, "train/model_opt_loss": 8928.127414651113, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.699023860774628, "train/policy_entropy_max": 2.699023860774628, "train/policy_entropy_mean": 0.37533175312492945, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5719624655703975, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37460199202576727, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0060870704585558, "train/policy_randomness_mag": 0.9526369808471367, "train/policy_randomness_max": 0.9526369808471367, "train/policy_randomness_mean": 0.132475639042789, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20187765094515395, "train/post_ent_mag": 55.442563670955295, "train/post_ent_max": 55.442563670955295, "train/post_ent_mean": 40.13003623648866, "train/post_ent_min": 19.431043755518246, "train/post_ent_std": 5.770737693734365, "train/prior_ent_mag": 76.67162584278681, "train/prior_ent_max": 76.67162584278681, "train/prior_ent_mean": 45.75998849738134, "train/prior_ent_min": 27.60918065946396, "train/prior_ent_std": 7.887619580308052, "train/rep_loss_mean": 5.647819094461937, "train/rep_loss_std": 9.025608689817664, "train/reward_avg": 0.044517872140628016, "train/reward_loss_mean": 0.05873877958279766, "train/reward_loss_std": 0.20927136932333854, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0252457644841442, "train/reward_neg_acc": 0.9930382705714604, "train/reward_neg_loss": 0.02498359437266441, "train/reward_pos_acc": 0.993443541330834, "train/reward_pos_loss": 0.7107639908790588, "train/reward_pred": 0.044359737905125096, "train/reward_rate": 0.049149186643835614, "stats/sum_log_reward": 11.242857388087682, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3541020452976227, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.354093559506507e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3060755054101328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2027175426483, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.69851803779602, "timer/env.step_frac": 0.06228630503699426, "timer/env.step_avg": 0.01286005367111143, "timer/env.step_min": 0.0028350353240966797, "timer/env.step_max": 1.6547274589538574, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2944035530090332, "timer/replay.add_frac": 0.000980682504871758, "timer/replay.add_avg": 0.00020247837208324155, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.004296541213989258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02442312240600586, "timer/logger.write_frac": 8.13554341077415e-05, "timer/logger.write_avg": 0.02442312240600586, "timer/logger.write_min": 0.02442312240600586, "timer/logger.write_max": 0.02442312240600586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.71850872039795, "timer/agent.policy_frac": 0.03570423615127742, "timer/agent.policy_avg": 0.0073717391474538855, "timer/agent.policy_min": 0.005676746368408203, "timer/agent.policy_max": 0.01470184326171875, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05859208106994629, "timer/dataset_frac": 0.00019517505220992013, "timer/dataset_avg": 8.05943343465561e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00014162063598632812, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.74644327163696, "timer/agent.train_frac": 0.8985476396738994, "timer/agent.train_avg": 0.37104049968588304, "timer/agent.train_min": 0.36387157440185547, "timer/agent.train_max": 0.38425207138061523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22005581855773926, "timer/agent.report_frac": 0.0007330240723969363, "timer/agent.report_avg": 0.22005581855773926, "timer/agent.report_min": 0.22005581855773926, "timer/agent.report_max": 0.22005581855773926, "fps": 4.843302532082441}
+{"step": 1057752, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05803571428571429}
+{"step": 1058029, "episode/length": 276.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.04693140794223827}
+{"step": 1058270, "episode/length": 240.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.04149377593360996}
+{"step": 1058498, "episode/length": 227.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06578947368421052}
+{"step": 1058631, "episode/length": 132.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.10526315789473684}
+{"step": 1058688, "episode/length": 56.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.10526315789473684}
+{"step": 1058847, "episode/length": 158.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0880503144654088}
+{"step": 1058965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332501729329427, "train/action_min": 0.0, "train/action_std": 3.1839610735575357, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038529522328947984, "train/actor_opt_grad_steps": 528575.0, "train/actor_opt_loss": -12.94666640791628, "train/adv_mag": 0.4116378277540207, "train/adv_max": 0.34086931455466485, "train/adv_mean": 0.001826509621499402, "train/adv_min": -0.3759272618012296, "train/adv_std": 0.043736872573693596, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 1.544169728420444e-05, "train/cont_loss_std": 0.0004256174048017493, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011947196706604145, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 7.936031899389048e-06, "train/cont_pred": 0.9949805786212286, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.639810065428416, "train/dyn_loss_std": 8.897890329360962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9519254705972142, "train/extr_critic_critic_opt_grad_steps": 528575.0, "train/extr_critic_critic_opt_loss": 15448.97447374132, "train/extr_critic_mag": 12.266727328300476, "train/extr_critic_max": 12.266727328300476, "train/extr_critic_mean": 3.8503504395484924, "train/extr_critic_min": -0.33938762380017173, "train/extr_critic_std": 2.883082398109966, "train/extr_return_normed_mag": 1.3793244527445898, "train/extr_return_normed_max": 1.3793244527445898, "train/extr_return_normed_mean": 0.40290629325641525, "train/extr_return_normed_min": -0.07667410570300287, "train/extr_return_normed_std": 0.30861785676744247, "train/extr_return_rate": 0.8768175401621394, "train/extr_return_raw_mag": 13.099326345655653, "train/extr_return_raw_max": 13.099326345655653, "train/extr_return_raw_mean": 3.8676029642422995, "train/extr_return_raw_min": -0.6668201308283541, "train/extr_return_raw_std": 2.9183847655852637, "train/extr_reward_mag": 1.080905454026328, "train/extr_reward_max": 1.080905454026328, "train/extr_reward_mean": 0.06378594599664211, "train/extr_reward_min": -0.610820449060864, "train/extr_reward_std": 0.24297485790318912, "train/image_loss_mean": 3.2462299449576273, "train/image_loss_std": 8.136299424701267, "train/model_loss_mean": 6.691338135136498, "train/model_loss_std": 12.285602675543892, "train/model_opt_grad_norm": 21.312402857674492, "train/model_opt_grad_steps": 528141.5833333334, "train/model_opt_loss": 9573.611497667102, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.7045753498872123, "train/policy_entropy_max": 2.7045753498872123, "train/policy_entropy_mean": 0.3774244897067547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.582743399673038, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771021407511499, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.010656321214305, "train/policy_randomness_mag": 0.9545964110228751, "train/policy_randomness_max": 0.9545964110228751, "train/policy_randomness_mean": 0.13321428187191486, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20568284723493788, "train/post_ent_mag": 54.995677365197075, "train/post_ent_max": 54.995677365197075, "train/post_ent_mean": 40.16948991351657, "train/post_ent_min": 19.536338912116157, "train/post_ent_std": 5.767170482211643, "train/prior_ent_mag": 76.71928776635065, "train/prior_ent_max": 76.71928776635065, "train/prior_ent_mean": 45.821378495958115, "train/prior_ent_min": 27.975183063083225, "train/prior_ent_std": 7.850217117203607, "train/rep_loss_mean": 5.639810065428416, "train/rep_loss_std": 8.897890329360962, "train/reward_avg": 0.04558241095704337, "train/reward_loss_mean": 0.06120669226058655, "train/reward_loss_std": 0.21691873917977014, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0343906035025914, "train/reward_neg_acc": 0.9927270230319765, "train/reward_neg_loss": 0.026323329579705994, "train/reward_pos_acc": 0.9896062140663465, "train/reward_pos_loss": 0.7196570038795471, "train/reward_pred": 0.045195236077739134, "train/reward_rate": 0.050374348958333336, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 12.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34442474586623056, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.2908081842100603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3450947765525913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0166389942169, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.745357275009155, "timer/env.step_frac": 0.06248105884344131, "timer/env.step_avg": 0.013072076202935256, "timer/env.step_min": 0.00266265869140625, "timer/env.step_max": 1.5897045135498047, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.3040425777435303, "timer/replay.add_frac": 0.0010134190515659733, "timer/replay.add_avg": 0.00021202411279186211, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0017070770263671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025634288787841797, "timer/logger.write_frac": 8.544289034694478e-05, "timer/logger.write_avg": 0.025634288787841797, "timer/logger.write_min": 0.025634288787841797, "timer/logger.write_max": 0.025634288787841797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026106834411621094, "timer/checkpoint.save_frac": 8.701795506789983e-07, "timer/checkpoint.save_avg": 0.00026106834411621094, "timer/checkpoint.save_min": 0.00026106834411621094, "timer/checkpoint.save_max": 0.00026106834411621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3870604038238525, "timer/agent.save_frac": 0.0046232782570789, "timer/agent.save_avg": 1.3870604038238525, "timer/agent.save_min": 1.3870604038238525, "timer/agent.save_max": 1.3870604038238525, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2727977305405802e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.160677909851074, "timer/agent.policy_frac": 0.04719964185094425, "timer/agent.policy_avg": 0.009874949727929619, "timer/agent.policy_min": 0.005900859832763672, "timer/agent.policy_max": 2.394855499267578, "timer/dataset_count": 717.0, "timer/dataset_total": 0.058159589767456055, "timer/dataset_frac": 0.0001938545474092093, "timer/dataset_avg": 8.111518796018976e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015234947204589844, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.06204557418823, "timer/agent.train_frac": 0.886824299032684, "timer/agent.train_avg": 0.37107677206999756, "timer/agent.train_min": 0.3637380599975586, "timer/agent.train_max": 0.4103353023529053, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21770310401916504, "timer/agent.report_frac": 0.000725636767177308, "timer/agent.report_avg": 0.21770310401916504, "timer/agent.report_min": 0.21770310401916504, "timer/agent.report_max": 0.21770310401916504, "fps": 4.779628521163578}
+{"step": 1059079, "episode/length": 231.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05172413793103448}
+{"step": 1059604, "episode/length": 524.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.02666666666666667}
+{"step": 1059719, "episode/length": 114.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09565217391304348}
+{"step": 1060030, "episode/length": 310.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04823151125401929}
+{"step": 1060443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.372559418549409, "train/action_min": 0.0, "train/action_std": 3.2234762520403475, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037991504335927, "train/actor_opt_grad_steps": 529305.0, "train/actor_opt_loss": -11.63585492243638, "train/adv_mag": 0.38116691825357646, "train/adv_max": 0.3210290128717551, "train/adv_mean": 0.0020637763700997805, "train/adv_min": -0.3423247967620154, "train/adv_std": 0.04280781129224075, "train/cont_avg": 0.9948664484797297, "train/cont_loss_mean": 4.477253291994614e-05, "train/cont_loss_std": 0.0013832269996352832, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.006896095742603054, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 6.0619542150899746e-06, "train/cont_pred": 0.9948829339968192, "train/cont_rate": 0.9948664484797297, "train/dyn_loss_mean": 5.8113574144002555, "train/dyn_loss_std": 9.043997203981554, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9226528776658548, "train/extr_critic_critic_opt_grad_steps": 529305.0, "train/extr_critic_critic_opt_loss": 15506.562302048142, "train/extr_critic_mag": 12.31463977452871, "train/extr_critic_max": 12.31463977452871, "train/extr_critic_mean": 3.809568572688747, "train/extr_critic_min": -0.3433519730696807, "train/extr_critic_std": 2.9507546424865723, "train/extr_return_normed_mag": 1.3774990664946067, "train/extr_return_normed_max": 1.3774990664946067, "train/extr_return_normed_mean": 0.400212143119928, "train/extr_return_normed_min": -0.07559875237780649, "train/extr_return_normed_std": 0.3142419622556583, "train/extr_return_rate": 0.8646044900288453, "train/extr_return_raw_mag": 13.077761701635412, "train/extr_return_raw_max": 13.077761701635412, "train/extr_return_raw_mean": 3.829102706264805, "train/extr_return_raw_min": -0.6745249931071255, "train/extr_return_raw_std": 2.9747123009449727, "train/extr_reward_mag": 1.082831569620081, "train/extr_reward_max": 1.082831569620081, "train/extr_reward_mean": 0.063291708611556, "train/extr_reward_min": -0.5895525684227815, "train/extr_reward_std": 0.24207419660445806, "train/image_loss_mean": 3.298447269040185, "train/image_loss_std": 8.657197449658367, "train/model_loss_mean": 6.847301160967028, "train/model_loss_std": 12.901711889215418, "train/model_opt_grad_norm": 22.124953450383366, "train/model_opt_grad_steps": 528871.0, "train/model_opt_loss": 9017.687269056165, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1317.5675675675675, "train/policy_entropy_mag": 2.6979656090607516, "train/policy_entropy_max": 2.6979656090607516, "train/policy_entropy_mean": 0.39603401438609975, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.607705388520215, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39741407938905665, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.0312558098419293, "train/policy_randomness_mag": 0.9522634607714575, "train/policy_randomness_max": 0.9522634607714575, "train/policy_randomness_mean": 0.13978262638320793, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2144933348974666, "train/post_ent_mag": 55.20659823031039, "train/post_ent_max": 55.20659823031039, "train/post_ent_mean": 40.19663857124947, "train/post_ent_min": 19.44947366456728, "train/post_ent_std": 5.780296931395659, "train/prior_ent_mag": 76.72849242751663, "train/prior_ent_max": 76.72849242751663, "train/prior_ent_mean": 45.96363670761521, "train/prior_ent_min": 28.02827518050735, "train/prior_ent_std": 7.842225583823952, "train/rep_loss_mean": 5.8113574144002555, "train/rep_loss_std": 9.043997203981554, "train/reward_avg": 0.045891838626483, "train/reward_loss_mean": 0.0619947483914124, "train/reward_loss_std": 0.22707984979088242, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0193459729890566, "train/reward_neg_acc": 0.993061106752705, "train/reward_neg_loss": 0.026344898635068455, "train/reward_pos_acc": 0.9884825421346201, "train/reward_pos_loss": 0.7308016789926065, "train/reward_pred": 0.04547370562480914, "train/reward_rate": 0.05042493665540541, "stats/sum_log_reward": 11.849999904632568, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.75, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.75, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.6740663126111031, "replay/size": 1000000.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.3647991484976266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3429192632073801e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04384112358093, "timer/env.step_count": 1478.0, "timer/env.step_total": 14.095964908599854, "timer/env.step_frac": 0.04697968422152701, "timer/env.step_avg": 0.0095371887067658, "timer/env.step_min": 0.002764463424682617, "timer/env.step_max": 1.635951280593872, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2868218421936035, "timer/replay.add_frac": 0.0009559331100399705, "timer/replay.add_avg": 0.00019406078632855448, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.004749298095703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023036479949951172, "timer/logger.write_frac": 7.677704652655408e-05, "timer/logger.write_avg": 0.023036479949951172, "timer/logger.write_min": 0.023036479949951172, "timer/logger.write_max": 0.023036479949951172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.85526967048645, "timer/agent.policy_frac": 0.03617894514960373, "timer/agent.policy_avg": 0.0073445667594630925, "timer/agent.policy_min": 0.005948781967163086, "timer/agent.policy_max": 0.014417171478271484, "timer/dataset_count": 739.0, "timer/dataset_total": 0.059294700622558594, "timer/dataset_frac": 0.0001976201224478276, "timer/dataset_avg": 8.023640138370581e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 739.0, "timer/agent.train_total": 274.06932401657104, "timer/agent.train_frac": 0.9134309272613544, "timer/agent.train_avg": 0.3708651204554412, "timer/agent.train_min": 0.36434173583984375, "timer/agent.train_max": 0.38606858253479004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986865997314453, "timer/agent.report_frac": 0.0007327884456811291, "timer/agent.report_avg": 0.21986865997314453, "timer/agent.report_min": 0.21986865997314453, "timer/agent.report_max": 0.21986865997314453, "fps": 4.925844949496488}
+{"step": 1060568, "episode/length": 537.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 19.700000070035458, "episode/reward_rate": 0.02973977695167286}
+{"step": 1060733, "episode/length": 164.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.08484848484848485}
+{"step": 1060898, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
+{"step": 1061184, "episode/length": 285.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.04895104895104895}
+{"step": 1061527, "episode/length": 342.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 20.10000006854534, "episode/reward_rate": 0.04956268221574344}
+{"step": 1061794, "episode/length": 266.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.056179775280898875}
+{"step": 1061903, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.369949967893835, "train/action_min": 0.0, "train/action_std": 3.227572581539415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038576924458962596, "train/actor_opt_grad_steps": 530040.0, "train/actor_opt_loss": -10.587962054226496, "train/adv_mag": 0.401439174397351, "train/adv_max": 0.33613323348842256, "train/adv_mean": 0.0019393614374702375, "train/adv_min": -0.3749601463340733, "train/adv_std": 0.04283389887989384, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 5.487002007345038e-05, "train/cont_loss_std": 0.001719208928270917, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.012156647915774945, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.343152730771551e-06, "train/cont_pred": 0.9952439249378361, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.675030584204687, "train/dyn_loss_std": 8.925006788070888, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.876310555085744, "train/extr_critic_critic_opt_grad_steps": 530040.0, "train/extr_critic_critic_opt_loss": 15248.860257919521, "train/extr_critic_mag": 12.291094479495532, "train/extr_critic_max": 12.291094479495532, "train/extr_critic_mean": 3.9172933036333895, "train/extr_critic_min": -0.32754061646657445, "train/extr_critic_std": 2.9505393505096436, "train/extr_return_normed_mag": 1.3779806813148603, "train/extr_return_normed_max": 1.3779806813148603, "train/extr_return_normed_mean": 0.4102070009055203, "train/extr_return_normed_min": -0.07185571337093229, "train/extr_return_normed_std": 0.3142644971200865, "train/extr_return_rate": 0.8741831207928592, "train/extr_return_raw_mag": 13.108616214908965, "train/extr_return_raw_max": 13.108616214908965, "train/extr_return_raw_mean": 3.935692950470807, "train/extr_return_raw_min": -0.6340576630749114, "train/extr_return_raw_std": 2.9785822286997754, "train/extr_reward_mag": 1.0707191833078045, "train/extr_reward_max": 1.0707191833078045, "train/extr_reward_mean": 0.06313855262243584, "train/extr_reward_min": -0.6026191254184671, "train/extr_reward_std": 0.24149987856819205, "train/image_loss_mean": 3.2786130023329227, "train/image_loss_std": 8.49102356662489, "train/model_loss_mean": 6.7432004392963565, "train/model_loss_std": 12.650087291247225, "train/model_opt_grad_norm": 21.062131228512282, "train/model_opt_grad_steps": 529606.0, "train/model_opt_loss": 16858.00096318493, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.693840457968516, "train/policy_entropy_max": 2.693840457968516, "train/policy_entropy_mean": 0.40581518942362643, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187561885134815, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051280274783095, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0318448314928028, "train/policy_randomness_mag": 0.9508074677153809, "train/policy_randomness_max": 0.9508074677153809, "train/policy_randomness_mean": 0.1432349523656989, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21839377855601377, "train/post_ent_mag": 55.511651548620776, "train/post_ent_max": 55.511651548620776, "train/post_ent_mean": 40.240739430466746, "train/post_ent_min": 19.531077646229367, "train/post_ent_std": 5.777192377064326, "train/prior_ent_mag": 76.82061412236462, "train/prior_ent_max": 76.82061412236462, "train/prior_ent_mean": 45.91135443073429, "train/prior_ent_min": 28.24777671082379, "train/prior_ent_std": 7.841854761724603, "train/rep_loss_mean": 5.675030584204687, "train/rep_loss_std": 8.925006788070888, "train/reward_avg": 0.04515732003197278, "train/reward_loss_mean": 0.059514243359843344, "train/reward_loss_std": 0.2208459050688025, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0258643627166748, "train/reward_neg_acc": 0.99254689314594, "train/reward_neg_loss": 0.02475716271884229, "train/reward_pos_acc": 0.9876169137758751, "train/reward_pos_loss": 0.7274694516234201, "train/reward_pred": 0.0448097271002727, "train/reward_rate": 0.04952375856164384, "stats/sum_log_reward": 13.766666889190674, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 7.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.6054852132995924, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.275316055506876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3189568911513237e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1554033756256, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.432474613189697, "timer/env.step_frac": 0.05807816356840344, "timer/env.step_avg": 0.01194005110492445, "timer/env.step_min": 0.0026242733001708984, "timer/env.step_max": 1.6270737648010254, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.31063199043273926, "timer/replay.add_frac": 0.0010349038762564034, "timer/replay.add_avg": 0.00021276163728269813, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.004251956939697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026140451431274414, "timer/logger.write_frac": 8.708972464693991e-05, "timer/logger.write_avg": 0.026140451431274414, "timer/logger.write_min": 0.026140451431274414, "timer/logger.write_max": 0.026140451431274414, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.721678256988525, "timer/agent.policy_frac": 0.035720423941763994, "timer/agent.policy_avg": 0.007343615244512688, "timer/agent.policy_min": 0.0058176517486572266, "timer/agent.policy_max": 0.01707935333251953, "timer/dataset_count": 730.0, "timer/dataset_total": 0.059007883071899414, "timer/dataset_frac": 0.0001965911071674254, "timer/dataset_avg": 8.08327165368485e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.943683385849, "timer/agent.train_frac": 0.9026780139179438, "timer/agent.train_avg": 0.3711557306655466, "timer/agent.train_min": 0.364271879196167, "timer/agent.train_max": 0.38425421714782715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179248332977295, "timer/agent.report_frac": 0.0007260400140956659, "timer/agent.report_avg": 0.2179248332977295, "timer/agent.report_min": 0.2179248332977295, "timer/agent.report_max": 0.2179248332977295, "fps": 4.86403922441734}
+{"step": 1061983, "episode/length": 188.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.0582010582010582}
+{"step": 1062298, "episode/length": 314.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.047619047619047616}
+{"step": 1062513, "episode/length": 214.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05581395348837209}
+{"step": 1062664, "episode/length": 150.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0728476821192053}
+{"step": 1062886, "episode/length": 221.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06306306306306306}
+{"step": 1063101, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06511627906976744}
+{"step": 1063343, "episode/length": 241.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0371900826446281}
+{"step": 1063344, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.407744513617621, "train/action_min": 0.0, "train/action_std": 3.2580085363652973, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03682182289453016, "train/actor_opt_grad_steps": 530765.0, "train/actor_opt_loss": -12.65050889386071, "train/adv_mag": 0.36360411159694195, "train/adv_max": 0.3231029539472527, "train/adv_mean": 0.0015526954957749695, "train/adv_min": -0.31915279167393845, "train/adv_std": 0.0420432535207106, "train/cont_avg": 0.9954020182291666, "train/cont_loss_mean": 0.00025061338685265316, "train/cont_loss_std": 0.007817915935250695, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.04534556866586955, "train/cont_pos_acc": 0.9999863803386688, "train/cont_pos_loss": 0.00010334999255073246, "train/cont_pred": 0.9953974551624722, "train/cont_rate": 0.9954020182291666, "train/dyn_loss_mean": 5.786059922642178, "train/dyn_loss_std": 8.976786997583178, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8942854776978493, "train/extr_critic_critic_opt_grad_steps": 530765.0, "train/extr_critic_critic_opt_loss": 15344.061089409723, "train/extr_critic_mag": 12.376537190543281, "train/extr_critic_max": 12.376537190543281, "train/extr_critic_mean": 3.850427097744412, "train/extr_critic_min": -0.32655571069982314, "train/extr_critic_std": 2.922581762075424, "train/extr_return_normed_mag": 1.3714607208967209, "train/extr_return_normed_max": 1.3714607208967209, "train/extr_return_normed_mean": 0.40414115600287914, "train/extr_return_normed_min": -0.07208508454884092, "train/extr_return_normed_std": 0.3103451199001736, "train/extr_return_rate": 0.8664949089288712, "train/extr_return_raw_mag": 13.062879668341743, "train/extr_return_raw_max": 13.062879668341743, "train/extr_return_raw_mean": 3.865164190530777, "train/extr_return_raw_min": -0.6632585666245885, "train/extr_return_raw_std": 2.9512507584359913, "train/extr_reward_mag": 1.08012275563346, "train/extr_reward_max": 1.08012275563346, "train/extr_reward_mean": 0.06416642614122894, "train/extr_reward_min": -0.5832656257682376, "train/extr_reward_std": 0.24327006480760044, "train/image_loss_mean": 3.3024431698852115, "train/image_loss_std": 8.468525323602888, "train/model_loss_mean": 6.835515962706672, "train/model_loss_std": 12.65647358364529, "train/model_opt_grad_norm": 21.45430913236406, "train/model_opt_grad_steps": 530330.4027777778, "train/model_opt_loss": 18472.535725911457, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.675911466280619, "train/policy_entropy_max": 2.675911466280619, "train/policy_entropy_mean": 0.40131590308414566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6096162187556425, "train/policy_logprob_mag": 7.438384347491795, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016955964681175, "train/policy_logprob_min": -7.438384347491795, "train/policy_logprob_std": 1.0312632653448317, "train/policy_randomness_mag": 0.9444793206122186, "train/policy_randomness_max": 0.9444793206122186, "train/policy_randomness_mean": 0.14164690093861687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21516777181790936, "train/post_ent_mag": 55.60763512717353, "train/post_ent_max": 55.60763512717353, "train/post_ent_mean": 40.17041121588813, "train/post_ent_min": 19.356768555111355, "train/post_ent_std": 5.85544157690472, "train/prior_ent_mag": 76.74929226769342, "train/prior_ent_max": 76.74929226769342, "train/prior_ent_mean": 45.89558717939589, "train/prior_ent_min": 27.879424333572388, "train/prior_ent_std": 7.909842517640856, "train/rep_loss_mean": 5.786059922642178, "train/rep_loss_std": 8.976786997583178, "train/reward_avg": 0.046835665901501976, "train/reward_loss_mean": 0.06118626887392667, "train/reward_loss_std": 0.2249176622264915, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0300958818859525, "train/reward_neg_acc": 0.9925617095496919, "train/reward_neg_loss": 0.025314822068644896, "train/reward_pos_acc": 0.9890127902229627, "train/reward_pos_loss": 0.7267253597577413, "train/reward_pred": 0.04644596387839152, "train/reward_rate": 0.051093207465277776, "stats/sum_log_reward": 11.242857524326869, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3895963451692036, "replay/size": 1000000.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2950076355361673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3150895635286966e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.473881483078, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.350502014160156, "timer/env.step_frac": 0.06750336683910194, "timer/env.step_avg": 0.014122485783594834, "timer/env.step_min": 0.0027799606323242188, "timer/env.step_max": 1.7700917720794678, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2931363582611084, "timer/replay.add_frac": 0.0009723441275212506, "timer/replay.add_avg": 0.00020342564764823623, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.004125833511352539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021091938018798828, "timer/logger.write_frac": 6.996273745187686e-05, "timer/logger.write_avg": 0.021091938018798828, "timer/logger.write_min": 0.021091938018798828, "timer/logger.write_max": 0.021091938018798828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003762245178222656, "timer/checkpoint.save_frac": 1.2479506216971683e-06, "timer/checkpoint.save_avg": 0.0003762245178222656, "timer/checkpoint.save_min": 0.0003762245178222656, "timer/checkpoint.save_max": 0.0003762245178222656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1657750606536865, "timer/agent.save_frac": 0.003866918934797085, "timer/agent.save_avg": 1.1657750606536865, "timer/agent.save_min": 1.1657750606536865, "timer/agent.save_max": 1.1657750606536865, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.083747863769531e-05, "timer/replay.save_frac": 3.0131127177859384e-07, "timer/replay.save_avg": 9.083747863769531e-05, "timer/replay.save_min": 9.083747863769531e-05, "timer/replay.save_max": 9.083747863769531e-05, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 12.325992345809937, "timer/agent.policy_frac": 0.04088577187905349, "timer/agent.policy_avg": 0.008553776784045758, "timer/agent.policy_min": 0.005684852600097656, "timer/agent.policy_max": 1.1715807914733887, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06184792518615723, "timer/dataset_frac": 0.00020515185223310566, "timer/dataset_avg": 8.589989609188503e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0032160282135009766, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.7574336528778, "timer/agent.train_frac": 0.8881612972097792, "timer/agent.train_avg": 0.37188532451788586, "timer/agent.train_min": 0.3637888431549072, "timer/agent.train_max": 0.7979292869567871, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21759939193725586, "timer/agent.report_frac": 0.000721785220221374, "timer/agent.report_avg": 0.21759939193725586, "timer/agent.report_min": 0.21759939193725586, "timer/agent.report_max": 0.21759939193725586, "fps": 4.77973709946828}
+{"step": 1063552, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000058114529, "episode/reward_rate": 0.07177033492822966}
+{"step": 1063711, "episode/length": 158.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0880503144654088}
+{"step": 1063801, "episode/length": 89.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.08888888888888889}
+{"step": 1064030, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06550218340611354}
+{"step": 1064213, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07103825136612021}
+{"step": 1064491, "episode/length": 277.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.0539568345323741}
+{"step": 1064682, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06282722513089005}
+{"step": 1064797, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3579601711697045, "train/action_min": 0.0, "train/action_std": 3.2085223926438227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03853810578584671, "train/actor_opt_grad_steps": 531485.0, "train/actor_opt_loss": -12.408141697860426, "train/adv_mag": 0.4021858010027144, "train/adv_max": 0.32087111059162354, "train/adv_mean": 0.0014994234709067517, "train/adv_min": -0.36934695827464264, "train/adv_std": 0.043206040643983416, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 2.2662152982238444e-05, "train/cont_loss_std": 0.0006071376806949678, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003054529465059809, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 2.1608158636215397e-05, "train/cont_pred": 0.9947192197044691, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.730981859895918, "train/dyn_loss_std": 8.980094803704155, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9209020394417975, "train/extr_critic_critic_opt_grad_steps": 531485.0, "train/extr_critic_critic_opt_loss": 15385.217190212674, "train/extr_critic_mag": 12.456415176391602, "train/extr_critic_max": 12.456415176391602, "train/extr_critic_mean": 3.8829402459992304, "train/extr_critic_min": -0.3483029438389672, "train/extr_critic_std": 2.996717436446084, "train/extr_return_normed_mag": 1.3840254329972796, "train/extr_return_normed_max": 1.3840254329972796, "train/extr_return_normed_mean": 0.4051986067659325, "train/extr_return_normed_min": -0.07534691970795393, "train/extr_return_normed_std": 0.3163053581698073, "train/extr_return_rate": 0.8641276450620757, "train/extr_return_raw_mag": 13.239615241686503, "train/extr_return_raw_max": 13.239615241686503, "train/extr_return_raw_mean": 3.8972541160053678, "train/extr_return_raw_min": -0.6894028708338737, "train/extr_return_raw_std": 3.0192521942986383, "train/extr_reward_mag": 1.0787368814150493, "train/extr_reward_max": 1.0787368814150493, "train/extr_reward_mean": 0.06386981345713139, "train/extr_reward_min": -0.5957737035221524, "train/extr_reward_std": 0.2429373622354534, "train/image_loss_mean": 3.3234413497977786, "train/image_loss_std": 8.702350152863396, "train/model_loss_mean": 6.823017305798, "train/model_loss_std": 12.884468674659729, "train/model_opt_grad_norm": 22.589231371879578, "train/model_opt_grad_steps": 531049.8194444445, "train/model_opt_loss": 17502.087944878473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6864747173256345, "train/policy_entropy_max": 2.6864747173256345, "train/policy_entropy_mean": 0.39096449832949376, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.600438533971707, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38998641404840684, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0184710787402258, "train/policy_randomness_mag": 0.9482076838612556, "train/policy_randomness_max": 0.9482076838612556, "train/policy_randomness_mean": 0.13799331171645057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21192845236510038, "train/post_ent_mag": 55.38312519921197, "train/post_ent_max": 55.38312519921197, "train/post_ent_mean": 40.3303034040663, "train/post_ent_min": 19.805657532480026, "train/post_ent_std": 5.834613528516558, "train/prior_ent_mag": 76.71627955966525, "train/prior_ent_max": 76.71627955966525, "train/prior_ent_mean": 46.057331244150795, "train/prior_ent_min": 27.76904747221205, "train/prior_ent_std": 7.935433195696937, "train/rep_loss_mean": 5.730981859895918, "train/rep_loss_std": 8.980094803704155, "train/reward_avg": 0.0452975802278767, "train/reward_loss_mean": 0.06096413995449742, "train/reward_loss_std": 0.22667992094324696, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0334512690703075, "train/reward_neg_acc": 0.9933743609322442, "train/reward_neg_loss": 0.025967882842653327, "train/reward_pos_acc": 0.9886345391472181, "train/reward_pos_loss": 0.7269160192873743, "train/reward_pred": 0.044945583368341126, "train/reward_rate": 0.04994032118055555, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3226098758833749, "replay/size": 1000000.0, "replay/inserts": 1453.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2879776242512798e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318809551254756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.040549993515, "timer/env.step_count": 1453.0, "timer/env.step_total": 18.562814712524414, "timer/env.step_frac": 0.06186768659411411, "timer/env.step_avg": 0.012775509093272136, "timer/env.step_min": 0.002773284912109375, "timer/env.step_max": 1.5940594673156738, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.2858247756958008, "timer/replay.add_frac": 0.0009526204898037232, "timer/replay.add_avg": 0.00019671354142863096, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004639863967895508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03551959991455078, "timer/logger.write_frac": 0.00011838266499417659, "timer/logger.write_avg": 0.03551959991455078, "timer/logger.write_min": 0.03551959991455078, "timer/logger.write_max": 0.03551959991455078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.686085939407349, "timer/agent.policy_frac": 0.03561547244076947, "timer/agent.policy_avg": 0.00735449823772013, "timer/agent.policy_min": 0.005776643753051758, "timer/agent.policy_max": 0.014674663543701172, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05838632583618164, "timer/dataset_frac": 0.00019459478339658952, "timer/dataset_avg": 8.031131476778768e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7535455226898, "timer/agent.train_frac": 0.8990569625622943, "timer/agent.train_avg": 0.37105026894455273, "timer/agent.train_min": 0.36413145065307617, "timer/agent.train_max": 0.3857550621032715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21948909759521484, "timer/agent.report_frac": 0.0007315314466659884, "timer/agent.report_avg": 0.21948909759521484, "timer/agent.report_min": 0.21948909759521484, "timer/agent.report_max": 0.21948909759521484, "fps": 4.842585627187565}
+{"step": 1064919, "episode/length": 236.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05485232067510549}
+{"step": 1065130, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.061611374407582936}
+{"step": 1065304, "episode/length": 173.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07471264367816093}
+{"step": 1065673, "episode/length": 368.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.037940379403794036}
+{"step": 1065861, "episode/length": 187.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0797872340425532}
+{"step": 1066033, "episode/length": 171.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0872093023255814}
+{"step": 1066259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4010207717483105, "train/action_min": 0.0, "train/action_std": 3.264322458086787, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03829374149240352, "train/actor_opt_grad_steps": 532215.0, "train/actor_opt_loss": -12.141406412462931, "train/adv_mag": 0.397836633630701, "train/adv_max": 0.33215821010840907, "train/adv_mean": 0.0017975033432702657, "train/adv_min": -0.3630028040827932, "train/adv_std": 0.04258575109211174, "train/cont_avg": 0.9956846494932432, "train/cont_loss_mean": 0.00019040821326860174, "train/cont_loss_std": 0.006030977380679649, "train/cont_neg_acc": 0.9927701680627588, "train/cont_neg_loss": 0.03093638296777133, "train/cont_pos_acc": 0.9999867701852644, "train/cont_pos_loss": 2.5317719201064244e-05, "train/cont_pred": 0.9957034209290067, "train/cont_rate": 0.9956846494932432, "train/dyn_loss_mean": 5.742858351887883, "train/dyn_loss_std": 8.911884913573394, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8985518515110016, "train/extr_critic_critic_opt_grad_steps": 532215.0, "train/extr_critic_critic_opt_loss": 15380.781315983953, "train/extr_critic_mag": 12.275369360640243, "train/extr_critic_max": 12.275369360640243, "train/extr_critic_mean": 3.7315201114963843, "train/extr_critic_min": -0.2965348008516672, "train/extr_critic_std": 2.814402354730142, "train/extr_return_normed_mag": 1.3807262874938346, "train/extr_return_normed_max": 1.3807262874938346, "train/extr_return_normed_mean": 0.3938310512819806, "train/extr_return_normed_min": -0.07120402648138839, "train/extr_return_normed_std": 0.3019717724339382, "train/extr_return_rate": 0.8717756311635714, "train/extr_return_raw_mag": 13.029543786435514, "train/extr_return_raw_max": 13.029543786435514, "train/extr_return_raw_mean": 3.748415222039094, "train/extr_return_raw_min": -0.6242145799301766, "train/extr_return_raw_std": 2.8396637681368233, "train/extr_reward_mag": 1.0766112643319208, "train/extr_reward_max": 1.0766112643319208, "train/extr_reward_mean": 0.061320222259776014, "train/extr_reward_min": -0.5706194075378211, "train/extr_reward_std": 0.23749425362896276, "train/image_loss_mean": 3.3895187265164144, "train/image_loss_std": 8.765956388937461, "train/model_loss_mean": 6.893148931297096, "train/model_loss_std": 12.912358735058758, "train/model_opt_grad_norm": 21.794525185146846, "train/model_opt_grad_steps": 531779.0, "train/model_opt_loss": 17232.872255067567, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7004354290060095, "train/policy_entropy_max": 2.7004354290060095, "train/policy_entropy_mean": 0.3921425876182479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6036906032948881, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.392574891850755, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0254149308075775, "train/policy_randomness_mag": 0.9531351996434702, "train/policy_randomness_max": 0.9531351996434702, "train/policy_randomness_mean": 0.13840912554312396, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21307628883703336, "train/post_ent_mag": 55.30654850521603, "train/post_ent_max": 55.30654850521603, "train/post_ent_mean": 40.23007815592998, "train/post_ent_min": 19.669064032064902, "train/post_ent_std": 5.858701390189093, "train/prior_ent_mag": 76.8528653737661, "train/prior_ent_max": 76.8528653737661, "train/prior_ent_mean": 45.98270034790039, "train/prior_ent_min": 27.719021204355602, "train/prior_ent_std": 7.900899635778891, "train/rep_loss_mean": 5.742858351887883, "train/rep_loss_std": 8.911884913573394, "train/reward_avg": 0.043468908129914385, "train/reward_loss_mean": 0.05772485634362375, "train/reward_loss_std": 0.21741556356082092, "train/reward_max_data": 1.0283783851443111, "train/reward_max_pred": 1.0297227389103658, "train/reward_neg_acc": 0.9933260389276453, "train/reward_neg_loss": 0.02439633965794299, "train/reward_pos_acc": 0.9911672835414475, "train/reward_pos_loss": 0.7226695160608034, "train/reward_pred": 0.04326672361207169, "train/reward_rate": 0.04768000422297297, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.36923079937696457, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3964047516745844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3188444964699805e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20236229896545, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.015339374542236, "timer/env.step_frac": 0.05667956522472999, "timer/env.step_avg": 0.01163839902499469, "timer/env.step_min": 0.0026793479919433594, "timer/env.step_max": 1.544823408126831, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2936866283416748, "timer/replay.add_frac": 0.0009782955273656315, "timer/replay.add_avg": 0.0002008800467453316, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003847360610961914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020842552185058594, "timer/logger.write_frac": 6.942834168740457e-05, "timer/logger.write_avg": 0.020842552185058594, "timer/logger.write_min": 0.020842552185058594, "timer/logger.write_max": 0.020842552185058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.759017705917358, "timer/agent.policy_frac": 0.03583921733168332, "timer/agent.policy_avg": 0.00735910923797357, "timer/agent.policy_min": 0.005657196044921875, "timer/agent.policy_max": 0.014747381210327148, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059609413146972656, "timer/dataset_frac": 0.00019856410419451945, "timer/dataset_avg": 8.154502482486e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3834140300751, "timer/agent.train_frac": 0.9040015939641735, "timer/agent.train_avg": 0.3712495403968195, "timer/agent.train_min": 0.36423277854919434, "timer/agent.train_max": 0.38571953773498535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22080349922180176, "timer/agent.report_frac": 0.0007355155286949675, "timer/agent.report_avg": 0.22080349922180176, "timer/agent.report_min": 0.22080349922180176, "timer/agent.report_max": 0.22080349922180176, "fps": 4.869962678665528}
+{"step": 1066264, "episode/length": 230.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.100000090897083, "episode/reward_rate": 0.06926406926406926}
+{"step": 1066804, "episode/length": 539.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 20.500000037252903, "episode/reward_rate": 0.03333333333333333}
+{"step": 1067289, "episode/length": 484.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.10000003129244, "episode/reward_rate": 0.03505154639175258}
+{"step": 1067551, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05343511450381679}
+{"step": 1067713, "stats/sum_log_reward": 15.100000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 8.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 20.25, "stats/max_log_achievement_collect_wood": 15.5, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 2.25, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_iron_sword": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.75, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 2.75, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.8714424595236778, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405712551540798, "train/action_min": 0.0, "train/action_std": 3.285615642865499, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03810171097413533, "train/actor_opt_grad_steps": 532945.0, "train/actor_opt_loss": -11.058976914319727, "train/adv_mag": 0.4007965674002965, "train/adv_max": 0.33528350128067863, "train/adv_mean": 0.0020647509588292857, "train/adv_min": -0.3627783769948615, "train/adv_std": 0.042407536465260715, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 0.0001541165180288178, "train/cont_loss_std": 0.004800070983073902, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.023558650641968073, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.6330534013064835e-05, "train/cont_pred": 0.9951012267006768, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.741979393694136, "train/dyn_loss_std": 8.90912291738722, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9067861114939054, "train/extr_critic_critic_opt_grad_steps": 532945.0, "train/extr_critic_critic_opt_loss": 15295.040134006076, "train/extr_critic_mag": 12.517668459150526, "train/extr_critic_max": 12.517668459150526, "train/extr_critic_mean": 3.8980606529447765, "train/extr_critic_min": -0.34104375541210175, "train/extr_critic_std": 2.950894776317808, "train/extr_return_normed_mag": 1.385286529858907, "train/extr_return_normed_max": 1.385286529858907, "train/extr_return_normed_mean": 0.4053944612128867, "train/extr_return_normed_min": -0.0723149547767308, "train/extr_return_normed_std": 0.31224011360771126, "train/extr_return_rate": 0.8627884950902727, "train/extr_return_raw_mag": 13.26583402686649, "train/extr_return_raw_max": 13.26583402686649, "train/extr_return_raw_mean": 3.9177869690789118, "train/extr_return_raw_min": -0.6407815031707287, "train/extr_return_raw_std": 2.9792809850639768, "train/extr_reward_mag": 1.0739095045460596, "train/extr_reward_max": 1.0739095045460596, "train/extr_reward_mean": 0.06471400669155021, "train/extr_reward_min": -0.5514374805821313, "train/extr_reward_std": 0.24318657546407646, "train/image_loss_mean": 3.3922000494268207, "train/image_loss_std": 9.001817815833622, "train/model_loss_mean": 6.898497250345018, "train/model_loss_std": 13.12749641471439, "train/model_opt_grad_norm": 20.29730846484502, "train/model_opt_grad_steps": 532508.2361111111, "train/model_opt_loss": 18210.908596462672, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.7059801618258157, "train/policy_entropy_max": 2.7059801618258157, "train/policy_entropy_mean": 0.41164859881003696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6281929649412632, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41195257421996856, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0417248788807127, "train/policy_randomness_mag": 0.9550922455059158, "train/policy_randomness_max": 0.9550922455059158, "train/policy_randomness_mean": 0.14529389111946026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22172454972234037, "train/post_ent_mag": 55.559549278683136, "train/post_ent_max": 55.559549278683136, "train/post_ent_mean": 40.22376743952433, "train/post_ent_min": 19.803914546966553, "train/post_ent_std": 5.828524602784051, "train/prior_ent_mag": 76.68815528021918, "train/prior_ent_max": 76.68815528021918, "train/prior_ent_mean": 46.01168171564738, "train/prior_ent_min": 28.12262111239963, "train/prior_ent_std": 7.95182282394833, "train/rep_loss_mean": 5.741979393694136, "train/rep_loss_std": 8.90912291738722, "train/reward_avg": 0.04631483231464194, "train/reward_loss_mean": 0.06095544176383151, "train/reward_loss_std": 0.22806557681825426, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0267572320169873, "train/reward_neg_acc": 0.9926790570219358, "train/reward_neg_loss": 0.0253946223270355, "train/reward_pos_acc": 0.988385328816043, "train/reward_pos_loss": 0.731423536936442, "train/reward_pred": 0.045939207490947515, "train/reward_rate": 0.050591362847222224, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3891840518914687e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345757277172566e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384638786316, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.510478019714355, "timer/env.step_frac": 0.054991215337381126, "timer/env.step_avg": 0.011355211842994742, "timer/env.step_min": 0.0029604434967041016, "timer/env.step_max": 1.8231689929962158, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2938969135284424, "timer/replay.add_frac": 0.000978878288050552, "timer/replay.add_avg": 0.00020212992677334413, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.001870870590209961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032301902770996094, "timer/logger.write_frac": 0.00010758749013602007, "timer/logger.write_avg": 0.032301902770996094, "timer/logger.write_min": 0.032301902770996094, "timer/logger.write_max": 0.032301902770996094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017023086547851562, "timer/checkpoint.save_frac": 5.669855330306038e-07, "timer/checkpoint.save_avg": 0.00017023086547851562, "timer/checkpoint.save_min": 0.00017023086547851562, "timer/checkpoint.save_max": 0.00017023086547851562, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1965267658233643, "timer/agent.save_frac": 0.003985254755057128, "timer/agent.save_avg": 1.1965267658233643, "timer/agent.save_min": 1.1965267658233643, "timer/agent.save_max": 1.1965267658233643, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.4140560509986495e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 12.655768394470215, "timer/agent.policy_frac": 0.04215238857465706, "timer/agent.policy_avg": 0.008704104810502211, "timer/agent.policy_min": 0.005628347396850586, "timer/agent.policy_max": 1.1899120807647705, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05904817581176758, "timer/dataset_frac": 0.0001966709230021814, "timer/dataset_avg": 8.12216998786349e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.0294225215912, "timer/agent.train_frac": 0.8993831737386849, "timer/agent.train_avg": 0.3714297421204831, "timer/agent.train_min": 0.3640751838684082, "timer/agent.train_max": 0.819831371307373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22071146965026855, "timer/agent.report_frac": 0.0007351205664957338, "timer/agent.report_avg": 0.22071146965026855, "timer/agent.report_min": 0.22071146965026855, "timer/agent.report_max": 0.22071146965026855, "fps": 4.842664080405027}
+{"step": 1067781, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06521739130434782}
+{"step": 1068040, "episode/length": 258.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.06563706563706563}
+{"step": 1068332, "episode/length": 291.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 20.30000003427267, "episode/reward_rate": 0.06164383561643835}
+{"step": 1068537, "episode/length": 204.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06341463414634146}
+{"step": 1068758, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06334841628959276}
+{"step": 1068926, "episode/length": 167.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.07738095238095238}
+{"step": 1069087, "episode/length": 160.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.09316770186335403}
+{"step": 1069165, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.391930149026113, "train/action_min": 0.0, "train/action_std": 3.258648692745052, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03706807676345518, "train/actor_opt_grad_steps": 533670.0, "train/actor_opt_loss": -12.676862386808004, "train/adv_mag": 0.37362665203336165, "train/adv_max": 0.321385458928265, "train/adv_mean": 0.0018118049695048074, "train/adv_min": -0.3431882948091585, "train/adv_std": 0.04209140279929932, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.587213204088104e-05, "train/cont_loss_std": 0.002640013290601928, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.0076200377773446735, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 3.1934437991667873e-05, "train/cont_pred": 0.9951151470615439, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.654763665917802, "train/dyn_loss_std": 8.908906564320603, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9016243382676007, "train/extr_critic_critic_opt_grad_steps": 533670.0, "train/extr_critic_critic_opt_loss": 15234.950757170376, "train/extr_critic_mag": 12.291489013253827, "train/extr_critic_max": 12.291489013253827, "train/extr_critic_mean": 3.8755235476036596, "train/extr_critic_min": -0.3167198504487129, "train/extr_critic_std": 2.9358433795301884, "train/extr_return_normed_mag": 1.363035366959768, "train/extr_return_normed_max": 1.363035366959768, "train/extr_return_normed_mean": 0.4033472942162866, "train/extr_return_normed_min": -0.07484068951174004, "train/extr_return_normed_std": 0.31210790656200826, "train/extr_return_rate": 0.8689738952950256, "train/extr_return_raw_mag": 13.007351548704383, "train/extr_return_raw_max": 13.007351548704383, "train/extr_return_raw_mean": 3.8927127759750575, "train/extr_return_raw_min": -0.6486761639379475, "train/extr_return_raw_std": 2.9641696165685785, "train/extr_reward_mag": 1.0788550605512646, "train/extr_reward_max": 1.0788550605512646, "train/extr_reward_mean": 0.062425156774586196, "train/extr_reward_min": -0.5835980356556095, "train/extr_reward_std": 0.23958272599194147, "train/image_loss_mean": 3.335236560808469, "train/image_loss_std": 8.584144755585553, "train/model_loss_mean": 6.79002223602713, "train/model_loss_std": 12.704947837411542, "train/model_opt_grad_norm": 21.634463787078857, "train/model_opt_grad_steps": 533232.698630137, "train/model_opt_loss": 18526.832004494863, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7095780993161136, "train/policy_entropy_max": 2.7095780993161136, "train/policy_entropy_mean": 0.4043440794291562, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6184581318130232, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40416078432782054, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0325195862822336, "train/policy_randomness_mag": 0.9563621658168427, "train/policy_randomness_max": 0.9563621658168427, "train/policy_randomness_mean": 0.14271571670901284, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21828858064462062, "train/post_ent_mag": 55.50573929042032, "train/post_ent_max": 55.50573929042032, "train/post_ent_mean": 40.3014764132565, "train/post_ent_min": 19.60450054848031, "train/post_ent_std": 5.819851248231653, "train/prior_ent_mag": 76.72487096917139, "train/prior_ent_max": 76.72487096917139, "train/prior_ent_mean": 45.97311944830908, "train/prior_ent_min": 27.733288255456376, "train/prior_ent_std": 7.8652039423380815, "train/rep_loss_mean": 5.654763665917802, "train/rep_loss_std": 8.908906564320603, "train/reward_avg": 0.04683486714142643, "train/reward_loss_mean": 0.061841682365087615, "train/reward_loss_std": 0.2219851019039546, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.030783421372714, "train/reward_neg_acc": 0.9923062896075314, "train/reward_neg_loss": 0.026350294176029833, "train/reward_pos_acc": 0.990246546595064, "train/reward_pos_loss": 0.723980576208193, "train/reward_pred": 0.04640374294392867, "train/reward_rate": 0.051088934075342464, "stats/sum_log_reward": 13.81428609575544, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 14.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4423651397228241, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.339666308778705e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3212568175365773e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15439915657043, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.032764434814453, "timer/env.step_frac": 0.06340991332559592, "timer/env.step_avg": 0.013107964486786814, "timer/env.step_min": 0.0027921199798583984, "timer/env.step_max": 1.7013130187988281, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2934443950653076, "timer/replay.add_frac": 0.000977644825096291, "timer/replay.add_avg": 0.00020209669081632756, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004983663558959961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03519153594970703, "timer/logger.write_frac": 0.00011724477818281105, "timer/logger.write_avg": 0.03519153594970703, "timer/logger.write_min": 0.03519153594970703, "timer/logger.write_max": 0.03519153594970703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.723070859909058, "timer/agent.policy_frac": 0.03572518307258109, "timer/agent.policy_avg": 0.007385035027485577, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.01880359649658203, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05956840515136719, "timer/dataset_frac": 0.00019845921072206022, "timer/dataset_avg": 8.205014483659392e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.34891843795776, "timer/agent.train_frac": 0.8973678853111078, "timer/agent.train_avg": 0.37100401988699416, "timer/agent.train_min": 0.3641953468322754, "timer/agent.train_max": 0.383533239364624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21739959716796875, "timer/agent.report_frac": 0.0007242925566936833, "timer/agent.report_avg": 0.21739959716796875, "timer/agent.report_min": 0.21739959716796875, "timer/agent.report_max": 0.21739959716796875, "fps": 4.83740326161585}
+{"step": 1069333, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.056910569105691054}
+{"step": 1069530, "episode/length": 196.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08121827411167512}
+{"step": 1069788, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05813953488372093}
+{"step": 1070029, "episode/length": 240.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06639004149377593}
+{"step": 1070203, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07471264367816093}
+{"step": 1070388, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
+{"step": 1070601, "episode/length": 212.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07042253521126761}
+{"step": 1070619, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397079676797945, "train/action_min": 0.0, "train/action_std": 3.20972866228182, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037714901877796816, "train/actor_opt_grad_steps": 534400.0, "train/actor_opt_loss": -9.829738272328491, "train/adv_mag": 0.4245379836591956, "train/adv_max": 0.3462047717750889, "train/adv_mean": 0.0024725374757869996, "train/adv_min": -0.36536182218218505, "train/adv_std": 0.042381106633437825, "train/cont_avg": 0.9955854023972602, "train/cont_loss_mean": 9.646017183131771e-05, "train/cont_loss_std": 0.0029241022466428386, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.01665753930211173, "train/cont_pos_acc": 0.9999865611938581, "train/cont_pos_loss": 2.464901380259973e-05, "train/cont_pred": 0.9955906965961195, "train/cont_rate": 0.9955854023972602, "train/dyn_loss_mean": 5.5568488721978175, "train/dyn_loss_std": 8.852874194106011, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9101510488823669, "train/extr_critic_critic_opt_grad_steps": 534400.0, "train/extr_critic_critic_opt_loss": 15319.983545590754, "train/extr_critic_mag": 12.468631666000576, "train/extr_critic_max": 12.468631666000576, "train/extr_critic_mean": 3.875153855101703, "train/extr_critic_min": -0.28990704066132844, "train/extr_critic_std": 2.8997593138315905, "train/extr_return_normed_mag": 1.3794156116982028, "train/extr_return_normed_max": 1.3794156116982028, "train/extr_return_normed_mean": 0.40048607408183895, "train/extr_return_normed_min": -0.07763708132791193, "train/extr_return_normed_std": 0.30731301152542845, "train/extr_return_rate": 0.8758258868570197, "train/extr_return_raw_mag": 13.248178599631949, "train/extr_return_raw_max": 13.248178599631949, "train/extr_return_raw_mean": 3.898818470027349, "train/extr_return_raw_min": -0.6662583710396126, "train/extr_return_raw_std": 2.934859220295736, "train/extr_reward_mag": 1.0755046426433406, "train/extr_reward_max": 1.0755046426433406, "train/extr_reward_mean": 0.06351217025355117, "train/extr_reward_min": -0.5918981555390032, "train/extr_reward_std": 0.2417826242234609, "train/image_loss_mean": 3.3904355029537254, "train/image_loss_std": 8.489550355362566, "train/model_loss_mean": 6.782578644687182, "train/model_loss_std": 12.564947324256375, "train/model_opt_grad_norm": 21.68015301064269, "train/model_opt_grad_steps": 533961.6164383561, "train/model_opt_loss": 13734.289878531677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2020.5479452054794, "train/policy_entropy_mag": 2.6987158239704288, "train/policy_entropy_max": 2.6987158239704288, "train/policy_entropy_mean": 0.38767626003859795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5948916400132114, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3870457912961098, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0183375902371863, "train/policy_randomness_mag": 0.9525282570760544, "train/policy_randomness_max": 0.9525282570760544, "train/policy_randomness_mean": 0.13683270887561041, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20997064162607063, "train/post_ent_mag": 55.439788243541976, "train/post_ent_max": 55.439788243541976, "train/post_ent_mean": 40.33028678371482, "train/post_ent_min": 19.48528417822433, "train/post_ent_std": 5.87644243893558, "train/prior_ent_mag": 76.7795870010167, "train/prior_ent_max": 76.7795870010167, "train/prior_ent_mean": 45.86972469173065, "train/prior_ent_min": 27.692864352709627, "train/prior_ent_std": 7.831603821009805, "train/rep_loss_mean": 5.5568488721978175, "train/rep_loss_std": 8.852874194106011, "train/reward_avg": 0.04485231127640973, "train/reward_loss_mean": 0.057937323332649386, "train/reward_loss_std": 0.20871656153300036, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0279292831682179, "train/reward_neg_acc": 0.9933649097403435, "train/reward_neg_loss": 0.024178421175847314, "train/reward_pos_acc": 0.992881272753624, "train/reward_pos_loss": 0.711970276212039, "train/reward_pred": 0.04462484979670342, "train/reward_rate": 0.04898865582191781, "stats/sum_log_reward": 13.814285823277064, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 18.571428571428573, "stats/max_log_achievement_collect_wood": 14.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.40137547680309843, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2853883431079134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3405715910899753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0640959739685, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.759618043899536, "timer/env.step_frac": 0.06251870282250294, "timer/env.step_avg": 0.012902075683562267, "timer/env.step_min": 0.002752065658569336, "timer/env.step_max": 1.5971970558166504, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27279186248779297, "timer/replay.add_frac": 0.0009091119735680024, "timer/replay.add_avg": 0.00018761476099573107, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.004374504089355469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029987812042236328, "timer/logger.write_frac": 9.993802139139587e-05, "timer/logger.write_avg": 0.029987812042236328, "timer/logger.write_min": 0.029987812042236328, "timer/logger.write_max": 0.029987812042236328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.802024364471436, "timer/agent.policy_frac": 0.03599905656626291, "timer/agent.policy_avg": 0.00742917769220869, "timer/agent.policy_min": 0.005868434906005859, "timer/agent.policy_max": 0.015649795532226562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05877685546875, "timer/dataset_frac": 0.00019588100095070714, "timer/dataset_avg": 8.084849445495186e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.4772970676422, "timer/agent.train_frac": 0.898065782222143, "timer/agent.train_avg": 0.37067028482481734, "timer/agent.train_min": 0.36330485343933105, "timer/agent.train_max": 0.3856468200683594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22142267227172852, "timer/agent.report_frac": 0.0007379179156807138, "timer/agent.report_avg": 0.22142267227172852, "timer/agent.report_min": 0.22142267227172852, "timer/agent.report_max": 0.22142267227172852, "fps": 4.845524015336474}
+{"step": 1070780, "episode/length": 178.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.08379888268156424}
+{"step": 1070938, "episode/length": 157.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.056962025316455694}
+{"step": 1071153, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06976744186046512}
+{"step": 1071374, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06787330316742081}
+{"step": 1071673, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05016722408026756}
+{"step": 1071906, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
+{"step": 1072050, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
+{"step": 1072069, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405055575900608, "train/action_min": 0.0, "train/action_std": 3.2185831566651664, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037612145921836294, "train/actor_opt_grad_steps": 535125.0, "train/actor_opt_loss": -12.216982077600228, "train/adv_mag": 0.38195567578077316, "train/adv_max": 0.347079708137446, "train/adv_mean": 0.0017910873854513436, "train/adv_min": -0.3285010757131709, "train/adv_std": 0.04206842706642217, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 6.636516908741107e-05, "train/cont_loss_std": 0.00207637123820111, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.010764415153871424, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.3804537911986535e-05, "train/cont_pred": 0.9948609504434798, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.660208688841926, "train/dyn_loss_std": 8.956289238399929, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8486491797698869, "train/extr_critic_critic_opt_grad_steps": 535125.0, "train/extr_critic_critic_opt_loss": 15153.12584092882, "train/extr_critic_mag": 12.529320081075033, "train/extr_critic_max": 12.529320081075033, "train/extr_critic_mean": 4.061777512232463, "train/extr_critic_min": -0.33357927534315324, "train/extr_critic_std": 3.009286903672748, "train/extr_return_normed_mag": 1.3751478476656809, "train/extr_return_normed_max": 1.3751478476656809, "train/extr_return_normed_mean": 0.41624386939737534, "train/extr_return_normed_min": -0.07699330647786458, "train/extr_return_normed_std": 0.31523517415755326, "train/extr_return_rate": 0.8836661328872045, "train/extr_return_raw_mag": 13.310489734013876, "train/extr_return_raw_max": 13.310489734013876, "train/extr_return_raw_mean": 4.079019394185808, "train/extr_return_raw_min": -0.669776826683018, "train/extr_return_raw_std": 3.034782065285577, "train/extr_reward_mag": 1.0851127472188737, "train/extr_reward_max": 1.0851127472188737, "train/extr_reward_mean": 0.06344786188047793, "train/extr_reward_min": -0.6062618113226361, "train/extr_reward_std": 0.2421694387578302, "train/image_loss_mean": 3.2537801646524005, "train/image_loss_std": 8.497206489245096, "train/model_loss_mean": 6.712473491827647, "train/model_loss_std": 12.677125506930881, "train/model_opt_grad_norm": 21.65697905752394, "train/model_opt_grad_steps": 534686.0, "train/model_opt_loss": 8390.59186469184, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.670804762177997, "train/policy_entropy_max": 2.670804762177997, "train/policy_entropy_mean": 0.3801015793449349, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5845113491846455, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38128583712710273, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.018423080444336, "train/policy_randomness_mag": 0.9426768778098954, "train/policy_randomness_max": 0.9426768778098954, "train/policy_randomness_mean": 0.1341591766104102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20630685405598748, "train/post_ent_mag": 55.2020837465922, "train/post_ent_max": 55.2020837465922, "train/post_ent_mean": 40.162050088246666, "train/post_ent_min": 19.608627769682144, "train/post_ent_std": 5.715715825557709, "train/prior_ent_mag": 76.8283814324273, "train/prior_ent_max": 76.8283814324273, "train/prior_ent_mean": 45.79578897688124, "train/prior_ent_min": 28.00651741027832, "train/prior_ent_std": 7.841274393929376, "train/rep_loss_mean": 5.660208688841926, "train/rep_loss_std": 8.956289238399929, "train/reward_avg": 0.045760090850914516, "train/reward_loss_mean": 0.06250177861915694, "train/reward_loss_std": 0.2297512139711115, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0357979635397594, "train/reward_neg_acc": 0.9925974119040701, "train/reward_neg_loss": 0.02690881891693506, "train/reward_pos_acc": 0.9873455878761079, "train/reward_pos_loss": 0.7326717252532641, "train/reward_pred": 0.045323622697550386, "train/reward_rate": 0.050469292534722224, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.39766979430403027, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3784734791722793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3128025778408709e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02480936050415, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.053267002105713, "timer/env.step_frac": 0.06350563822610972, "timer/env.step_avg": 0.01314018413938325, "timer/env.step_min": 0.0028171539306640625, "timer/env.step_max": 1.7302038669586182, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2976572513580322, "timer/replay.add_frac": 0.0009921087925777927, "timer/replay.add_avg": 0.00020528086300553947, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0045244693756103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0230712890625, "timer/logger.write_frac": 7.689793757948189e-05, "timer/logger.write_avg": 0.0230712890625, "timer/logger.write_min": 0.0230712890625, "timer/logger.write_max": 0.0230712890625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.711284875869751, "timer/agent.policy_frac": 0.03570133049563669, "timer/agent.policy_avg": 0.007387093017841208, "timer/agent.policy_min": 0.005864143371582031, "timer/agent.policy_max": 0.01588892936706543, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059538841247558594, "timer/dataset_frac": 0.000198446393064841, "timer/dataset_avg": 8.212253965180496e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.2142069339752, "timer/agent.train_frac": 0.8973064844463996, "timer/agent.train_avg": 0.3713299405985865, "timer/agent.train_min": 0.3647491931915283, "timer/agent.train_max": 0.3893160820007324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177598476409912, "timer/agent.report_frac": 0.0007258061361830084, "timer/agent.report_avg": 0.2177598476409912, "timer/agent.report_min": 0.2177598476409912, "timer/agent.report_max": 0.2177598476409912, "fps": 4.832834798529268}
+{"step": 1072219, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
+{"step": 1072552, "episode/length": 332.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.03903903903903904}
+{"step": 1072768, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06481481481481481}
+{"step": 1072983, "episode/length": 214.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06046511627906977}
+{"step": 1073202, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
+{"step": 1073290, "episode/length": 87.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.11363636363636363}
+{"step": 1073511, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398562961154514, "train/action_min": 0.0, "train/action_std": 3.263214041789373, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0366539948930343, "train/actor_opt_grad_steps": 535845.0, "train/actor_opt_loss": -13.557482903616297, "train/adv_mag": 0.39367808360192513, "train/adv_max": 0.33935033198859954, "train/adv_mean": 0.001125694117743276, "train/adv_min": -0.3483268804848194, "train/adv_std": 0.04177550029837423, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 8.319356300508692e-05, "train/cont_loss_std": 0.002612124365473139, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.013790515850242442, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 6.640989108359147e-06, "train/cont_pred": 0.9951697753535377, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.60633987850613, "train/dyn_loss_std": 8.883044362068176, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8816592949959967, "train/extr_critic_critic_opt_grad_steps": 535845.0, "train/extr_critic_critic_opt_loss": 15178.013699001736, "train/extr_critic_mag": 12.433373345269096, "train/extr_critic_max": 12.433373345269096, "train/extr_critic_mean": 3.891163067685233, "train/extr_critic_min": -0.33091307679812115, "train/extr_critic_std": 2.953375428915024, "train/extr_return_normed_mag": 1.3772094994783401, "train/extr_return_normed_max": 1.3772094994783401, "train/extr_return_normed_mean": 0.40159912862711483, "train/extr_return_normed_min": -0.07162048905673954, "train/extr_return_normed_std": 0.3109477365182506, "train/extr_return_rate": 0.8749476017223464, "train/extr_return_raw_mag": 13.249846431944105, "train/extr_return_raw_max": 13.249846431944105, "train/extr_return_raw_mean": 3.901931795809004, "train/extr_return_raw_min": -0.6319961854153209, "train/extr_return_raw_std": 2.979379269811842, "train/extr_reward_mag": 1.0740162432193756, "train/extr_reward_max": 1.0740162432193756, "train/extr_reward_mean": 0.06150918138316936, "train/extr_reward_min": -0.5815751155217489, "train/extr_reward_std": 0.23854611358708805, "train/image_loss_mean": 3.2499499486552343, "train/image_loss_std": 8.391233325004578, "train/model_loss_mean": 6.673627005683051, "train/model_loss_std": 12.556264188554552, "train/model_opt_grad_norm": 22.948890050252277, "train/model_opt_grad_steps": 535406.0, "train/model_opt_loss": 16684.067545572918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6905072496996985, "train/policy_entropy_max": 2.6905072496996985, "train/policy_entropy_mean": 0.40707580869396526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6180470349888006, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4072071202099323, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0374272018671036, "train/policy_randomness_mag": 0.9496309873130586, "train/policy_randomness_max": 0.9496309873130586, "train/policy_randomness_mean": 0.14367989657653701, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21814348010553253, "train/post_ent_mag": 55.31870826085409, "train/post_ent_max": 55.31870826085409, "train/post_ent_mean": 40.299290392133926, "train/post_ent_min": 19.74238085746765, "train/post_ent_std": 5.794936365551418, "train/prior_ent_mag": 76.81010235680475, "train/prior_ent_max": 76.81010235680475, "train/prior_ent_mean": 45.89422061708238, "train/prior_ent_min": 27.71327394909329, "train/prior_ent_std": 7.863000565105015, "train/rep_loss_mean": 5.60633987850613, "train/rep_loss_std": 8.883044362068176, "train/reward_avg": 0.04475504524695376, "train/reward_loss_mean": 0.059789975794653095, "train/reward_loss_std": 0.2202138505462143, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0298225548532274, "train/reward_neg_acc": 0.9937248180309931, "train/reward_neg_loss": 0.025039484452766676, "train/reward_pos_acc": 0.9880266644888454, "train/reward_pos_loss": 0.7311681293778949, "train/reward_pred": 0.044290065196239285, "train/reward_rate": 0.049235026041666664, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.43174365411202115, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.33041986050123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.322255881913988e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2785642147064, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.862468004226685, "timer/env.step_frac": 0.06281656519024637, "timer/env.step_avg": 0.01308076838018494, "timer/env.step_min": 0.0026564598083496094, "timer/env.step_max": 1.7912168502807617, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26493096351623535, "timer/replay.add_frac": 0.0008822839692506433, "timer/replay.add_avg": 0.00018372466263261815, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0032858848571777344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03239941596984863, "timer/logger.write_frac": 0.00010789786495276521, "timer/logger.write_avg": 0.03239941596984863, "timer/logger.write_min": 0.03239941596984863, "timer/logger.write_max": 0.03239941596984863, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042700767517089844, "timer/checkpoint.save_frac": 1.4220384871215038e-06, "timer/checkpoint.save_avg": 0.00042700767517089844, "timer/checkpoint.save_min": 0.00042700767517089844, "timer/checkpoint.save_max": 0.00042700767517089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3887300491333008, "timer/agent.save_frac": 0.004624805812446623, "timer/agent.save_avg": 1.3887300491333008, "timer/agent.save_min": 1.3887300491333008, "timer/agent.save_max": 1.3887300491333008, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00012087821960449219, "timer/replay.save_frac": 4.025536085821342e-07, "timer/replay.save_avg": 0.00012087821960449219, "timer/replay.save_min": 0.00012087821960449219, "timer/replay.save_max": 0.00012087821960449219, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.538731098175049, "timer/agent.policy_frac": 0.04175699697701216, "timer/agent.policy_avg": 0.008695375241452877, "timer/agent.policy_min": 0.005866289138793945, "timer/agent.policy_max": 1.3782265186309814, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05809926986694336, "timer/dataset_frac": 0.0001934845732957514, "timer/dataset_avg": 8.058151160463712e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014066696166992188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.87431502342224, "timer/agent.train_frac": 0.8920860392548222, "timer/agent.train_avg": 0.3715316435831099, "timer/agent.train_min": 0.3647174835205078, "timer/agent.train_max": 0.8142833709716797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21962618827819824, "timer/agent.report_frac": 0.0007314081471402009, "timer/agent.report_avg": 0.21962618827819824, "timer/agent.report_min": 0.21962618827819824, "timer/agent.report_max": 0.21962618827819824, "fps": 4.80213887026428}
+{"step": 1073526, "episode/length": 235.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0635593220338983}
+{"step": 1073776, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06}
+{"step": 1073983, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
+{"step": 1074191, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
+{"step": 1074371, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07222222222222222}
+{"step": 1074657, "episode/length": 285.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05244755244755245}
+{"step": 1074872, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06511627906976744}
+{"step": 1074963, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382140277183219, "train/action_min": 0.0, "train/action_std": 3.28129089041932, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038259080139129126, "train/actor_opt_grad_steps": 536570.0, "train/actor_opt_loss": -10.050443144489641, "train/adv_mag": 0.4029667757145346, "train/adv_max": 0.3309739393322435, "train/adv_mean": 0.0020857369487352465, "train/adv_min": -0.3659449966802989, "train/adv_std": 0.04292649377698768, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 3.706676883287444e-05, "train/cont_loss_std": 0.0010957434185160906, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.006858189783300427, "train/cont_pos_acc": 0.9999999738719365, "train/cont_pos_loss": 1.0241393709391448e-05, "train/cont_pred": 0.994825053704928, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.761287552036651, "train/dyn_loss_std": 8.895060957294621, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8574926150988226, "train/extr_critic_critic_opt_grad_steps": 536570.0, "train/extr_critic_critic_opt_loss": 15259.488736087329, "train/extr_critic_mag": 12.488254808399775, "train/extr_critic_max": 12.488254808399775, "train/extr_critic_mean": 3.9424699593896735, "train/extr_critic_min": -0.3469940750566247, "train/extr_critic_std": 2.9902033936487484, "train/extr_return_normed_mag": 1.3867414569201535, "train/extr_return_normed_max": 1.3867414569201535, "train/extr_return_normed_mean": 0.41278376807905226, "train/extr_return_normed_min": -0.07652654677425345, "train/extr_return_normed_std": 0.31864957286886975, "train/extr_return_rate": 0.8553073724655256, "train/extr_return_raw_mag": 13.174246579000394, "train/extr_return_raw_max": 13.174246579000394, "train/extr_return_raw_mean": 3.962189785421711, "train/extr_return_raw_min": -0.6650141579647587, "train/extr_return_raw_std": 3.013613465714128, "train/extr_reward_mag": 1.0684489420015517, "train/extr_reward_max": 1.0684489420015517, "train/extr_reward_mean": 0.06335584421272147, "train/extr_reward_min": -0.5874447789910722, "train/extr_reward_std": 0.24165681126999528, "train/image_loss_mean": 3.4032706528493804, "train/image_loss_std": 8.551683334455099, "train/model_loss_mean": 6.919827219558089, "train/model_loss_std": 12.639129965272668, "train/model_opt_grad_norm": 20.715126638543115, "train/model_opt_grad_steps": 536130.3424657534, "train/model_opt_loss": 11632.757150310359, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1678.0821917808219, "train/policy_entropy_mag": 2.685186666985081, "train/policy_entropy_max": 2.685186666985081, "train/policy_entropy_mean": 0.39709147300622233, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5972863198959664, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39826023129567706, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0292878869461686, "train/policy_randomness_mag": 0.9477530587209414, "train/policy_randomness_max": 0.9477530587209414, "train/policy_randomness_mean": 0.14015586449675363, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21081585977991965, "train/post_ent_mag": 55.89269267043022, "train/post_ent_max": 55.89269267043022, "train/post_ent_mean": 40.21032641685172, "train/post_ent_min": 19.596055775472564, "train/post_ent_std": 5.892549632346793, "train/prior_ent_mag": 76.77250838606325, "train/prior_ent_max": 76.77250838606325, "train/prior_ent_mean": 45.961273350127755, "train/prior_ent_min": 27.77673551481064, "train/prior_ent_std": 8.017881138683999, "train/rep_loss_mean": 5.761287552036651, "train/rep_loss_std": 8.895060957294621, "train/reward_avg": 0.044521885324422625, "train/reward_loss_mean": 0.05974700322298154, "train/reward_loss_std": 0.21836427099084202, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.021838220831466, "train/reward_neg_acc": 0.9928192439144605, "train/reward_neg_loss": 0.025279200533787682, "train/reward_pos_acc": 0.9869070510341696, "train/reward_pos_loss": 0.7293582958717869, "train/reward_pred": 0.0441582996194085, "train/reward_rate": 0.049135809075342464, "stats/sum_log_reward": 13.528571673801967, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 20.428571428571427, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.47529910291944233, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.419960169095967e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3097833339176231e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0793478488922, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.88159680366516, "timer/env.step_frac": 0.06292201359079588, "timer/env.step_avg": 0.013003854547978762, "timer/env.step_min": 0.0027434825897216797, "timer/env.step_max": 1.5811681747436523, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.27403903007507324, "timer/replay.add_frac": 0.0009132218929410236, "timer/replay.add_avg": 0.0001887321143767722, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.002749919891357422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030464649200439453, "timer/logger.write_frac": 0.00010152197883267933, "timer/logger.write_avg": 0.030464649200439453, "timer/logger.write_min": 0.030464649200439453, "timer/logger.write_max": 0.030464649200439453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.701676607131958, "timer/agent.policy_frac": 0.035662822796192185, "timer/agent.policy_avg": 0.007370300693617051, "timer/agent.policy_min": 0.005656003952026367, "timer/agent.policy_max": 0.01332712173461914, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05881500244140625, "timer/dataset_frac": 0.0001959981680279547, "timer/dataset_avg": 8.10124000570334e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.46644830703735, "timer/agent.train_frac": 0.8979839840318825, "timer/agent.train_avg": 0.3711659067590046, "timer/agent.train_min": 0.36155247688293457, "timer/agent.train_max": 0.38634204864501953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21914434432983398, "timer/agent.report_frac": 0.0007302879918287019, "timer/agent.report_avg": 0.21914434432983398, "timer/agent.report_min": 0.21914434432983398, "timer/agent.report_max": 0.21914434432983398, "fps": 4.838652785513532}
+{"step": 1075092, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
+{"step": 1075257, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07878787878787878}
+{"step": 1075468, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06635071090047394}
+{"step": 1075623, "episode/length": 154.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05806451612903226}
+{"step": 1075787, "episode/length": 163.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.09146341463414634}
+{"step": 1075990, "episode/length": 202.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07881773399014778}
+{"step": 1076338, "episode/length": 347.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.04597701149425287}
+{"step": 1076417, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.388110690646702, "train/action_min": 0.0, "train/action_std": 3.2228025363551245, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037199732252500124, "train/actor_opt_grad_steps": 537295.0, "train/actor_opt_loss": -11.948076298667324, "train/adv_mag": 0.37352357618510723, "train/adv_max": 0.3209216433266799, "train/adv_mean": 0.0017000757610377251, "train/adv_min": -0.32756493447555435, "train/adv_std": 0.0414287977748447, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 5.1925512810117404e-05, "train/cont_loss_std": 0.0016276229924342782, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.008082783363516076, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 4.637284936591533e-06, "train/cont_pred": 0.9949905268020101, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.689834866258833, "train/dyn_loss_std": 8.893320189581978, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8750729155209329, "train/extr_critic_critic_opt_grad_steps": 537295.0, "train/extr_critic_critic_opt_loss": 15208.111151801215, "train/extr_critic_mag": 12.413061671786839, "train/extr_critic_max": 12.413061671786839, "train/extr_critic_mean": 3.8433770570490093, "train/extr_critic_min": -0.2991207506921556, "train/extr_critic_std": 2.9140378567907543, "train/extr_return_normed_mag": 1.3915534367163975, "train/extr_return_normed_max": 1.3915534367163975, "train/extr_return_normed_mean": 0.4003116000029776, "train/extr_return_normed_min": -0.07314081471930775, "train/extr_return_normed_std": 0.31030820765429074, "train/extr_return_rate": 0.8801459877027406, "train/extr_return_raw_mag": 13.249006311098734, "train/extr_return_raw_max": 13.249006311098734, "train/extr_return_raw_mean": 3.8594707449277244, "train/extr_return_raw_min": -0.6255915007657475, "train/extr_return_raw_std": 2.939348965883255, "train/extr_reward_mag": 1.0695157382223341, "train/extr_reward_max": 1.0695157382223341, "train/extr_reward_mean": 0.06301889164994161, "train/extr_reward_min": -0.5791210283835729, "train/extr_reward_std": 0.24051440859006512, "train/image_loss_mean": 3.3900751372178397, "train/image_loss_std": 8.652221308814156, "train/model_loss_mean": 6.864341166284349, "train/model_loss_std": 12.788545462820265, "train/model_opt_grad_norm": 23.788180073102314, "train/model_opt_grad_steps": 536855.0, "train/model_opt_loss": 10999.912638346354, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.69209866060151, "train/policy_entropy_max": 2.69209866060151, "train/policy_entropy_mean": 0.39473963777224225, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6035775360133913, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3945801051126586, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0248480323288176, "train/policy_randomness_mag": 0.9501926882399453, "train/policy_randomness_max": 0.9501926882399453, "train/policy_randomness_mean": 0.1393257703425156, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2130363823639022, "train/post_ent_mag": 55.33845806121826, "train/post_ent_max": 55.33845806121826, "train/post_ent_mean": 40.29739009009467, "train/post_ent_min": 20.003578901290894, "train/post_ent_std": 5.739406731393602, "train/prior_ent_mag": 76.79928270975749, "train/prior_ent_max": 76.79928270975749, "train/prior_ent_mean": 45.94378349516127, "train/prior_ent_min": 27.67765476968553, "train/prior_ent_std": 7.854496657848358, "train/rep_loss_mean": 5.689834866258833, "train/rep_loss_std": 8.893320189581978, "train/reward_avg": 0.04592963305508925, "train/reward_loss_mean": 0.06031318184816175, "train/reward_loss_std": 0.22640839674406582, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.024526533153322, "train/reward_neg_acc": 0.9936072006821632, "train/reward_neg_loss": 0.02464120242641204, "train/reward_pos_acc": 0.9890341957410177, "train/reward_pos_loss": 0.7306396025750372, "train/reward_pred": 0.04542151763517824, "train/reward_rate": 0.050360785590277776, "stats/sum_log_reward": 12.814286163875035, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.714285714285715, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.42304751915591104, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4605128565057598e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.341534939887927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33145236968994, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.74652886390686, "timer/env.step_frac": 0.06241946594668017, "timer/env.step_avg": 0.012893073496497152, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.5327908992767334, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.28168511390686035, "timer/replay.add_frac": 0.0009379141334825063, "timer/replay.add_avg": 0.00019373116499784069, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.005082130432128906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03285837173461914, "timer/logger.write_frac": 0.00010940702838599956, "timer/logger.write_avg": 0.03285837173461914, "timer/logger.write_min": 0.03285837173461914, "timer/logger.write_max": 0.03285837173461914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.780946493148804, "timer/agent.policy_frac": 0.03589682801479649, "timer/agent.policy_avg": 0.007414681219497114, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.017059326171875, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059090375900268555, "timer/dataset_frac": 0.0001967505415567726, "timer/dataset_avg": 8.127974676790723e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.76675629615784, "timer/agent.train_frac": 0.8982301193152797, "timer/agent.train_avg": 0.3710684405724317, "timer/agent.train_min": 0.36478281021118164, "timer/agent.train_max": 0.38284778594970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21990704536437988, "timer/agent.report_frac": 0.0007322145037732763, "timer/agent.report_avg": 0.21990704536437988, "timer/agent.report_min": 0.21990704536437988, "timer/agent.report_max": 0.21990704536437988, "fps": 4.841210165665405}
+{"step": 1076482, "episode/length": 143.0, "episode/score": 15.100000031292439, "episode/sum_abs_reward": 17.90000007301569, "episode/reward_rate": 0.1111111111111111}
+{"step": 1076670, "episode/length": 187.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.07446808510638298}
+{"step": 1076922, "episode/length": 251.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06349206349206349}
+{"step": 1077105, "episode/length": 182.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03825136612021858}
+{"step": 1077334, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06550218340611354}
+{"step": 1077536, "episode/length": 201.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.06930693069306931}
+{"step": 1077608, "episode/length": 71.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.08333333333333333}
+{"step": 1077786, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.0449438202247191}
+{"step": 1077843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468112521701389, "train/action_min": 0.0, "train/action_std": 3.3252463705009885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03772311129917701, "train/actor_opt_grad_steps": 538015.0, "train/actor_opt_loss": -11.237444491850006, "train/adv_mag": 0.3952007755223248, "train/adv_max": 0.3404806192136473, "train/adv_mean": 0.001934236988745397, "train/adv_min": -0.33783705967168015, "train/adv_std": 0.04228833824810055, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 2.792465038462903e-05, "train/cont_loss_std": 0.0008382457015838125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002669583204489154, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.5226471578897202e-05, "train/cont_pred": 0.9950472083356645, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.8352199991544085, "train/dyn_loss_std": 8.953539841704899, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8982171821925375, "train/extr_critic_critic_opt_grad_steps": 538015.0, "train/extr_critic_critic_opt_loss": 15238.433539496527, "train/extr_critic_mag": 12.330864217546251, "train/extr_critic_max": 12.330864217546251, "train/extr_critic_mean": 3.9054172337055206, "train/extr_critic_min": -0.33268847068150836, "train/extr_critic_std": 2.9730394350157843, "train/extr_return_normed_mag": 1.3724894374608994, "train/extr_return_normed_max": 1.3724894374608994, "train/extr_return_normed_mean": 0.40460437453455395, "train/extr_return_normed_min": -0.07610769083516465, "train/extr_return_normed_std": 0.3144414321415954, "train/extr_return_rate": 0.8596445065405633, "train/extr_return_raw_mag": 13.16920804977417, "train/extr_return_raw_max": 13.16920804977417, "train/extr_return_raw_mean": 3.923893312613169, "train/extr_return_raw_min": -0.6679549954003758, "train/extr_return_raw_std": 3.003796421819263, "train/extr_reward_mag": 1.07405196958118, "train/extr_reward_max": 1.07405196958118, "train/extr_reward_mean": 0.06283203067464961, "train/extr_reward_min": -0.589341382185618, "train/extr_reward_std": 0.24057622419463265, "train/image_loss_mean": 3.4178285201390586, "train/image_loss_std": 8.826840188768175, "train/model_loss_mean": 6.978745652569665, "train/model_loss_std": 12.96232873863644, "train/model_opt_grad_norm": 21.9048676888148, "train/model_opt_grad_steps": 537575.0, "train/model_opt_loss": 17446.864135742188, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6950554880830975, "train/policy_entropy_max": 2.6950554880830975, "train/policy_entropy_mean": 0.4182019428246551, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6257716740171114, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41819480972157586, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0438840902513928, "train/policy_randomness_mag": 0.951236315899425, "train/policy_randomness_max": 0.951236315899425, "train/policy_randomness_mean": 0.14760693390336302, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22086994101603827, "train/post_ent_mag": 55.42287105984158, "train/post_ent_max": 55.42287105984158, "train/post_ent_mean": 40.25849628448486, "train/post_ent_min": 19.839107539918686, "train/post_ent_std": 5.749262730280559, "train/prior_ent_mag": 76.82522625393338, "train/prior_ent_max": 76.82522625393338, "train/prior_ent_mean": 46.11346170637343, "train/prior_ent_min": 27.717793809043037, "train/prior_ent_std": 7.881292290157742, "train/rep_loss_mean": 5.8352199991544085, "train/rep_loss_std": 8.953539841704899, "train/reward_avg": 0.045959472061238356, "train/reward_loss_mean": 0.05975723463214106, "train/reward_loss_std": 0.21463514450523588, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0301675448815029, "train/reward_neg_acc": 0.9934037311209573, "train/reward_neg_loss": 0.024710311696657702, "train/reward_pos_acc": 0.9916386008262634, "train/reward_pos_loss": 0.7213650585876571, "train/reward_pred": 0.0456433658902016, "train/reward_rate": 0.050374348958333336, "stats/sum_log_reward": 10.850000083446503, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.375, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.40698946081101894, "replay/size": 1000000.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.3723020620466448e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3158373210741126e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1831896305084, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.761338710784912, "timer/env.step_frac": 0.07249352882674963, "timer/env.step_avg": 0.01526040582803991, "timer/env.step_min": 0.0029687881469726562, "timer/env.step_max": 1.788048505783081, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2686936855316162, "timer/replay.add_frac": 0.0008950990422293393, "timer/replay.add_avg": 0.00018842474441207308, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0006210803985595703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030207395553588867, "timer/logger.write_frac": 0.00010062987068253474, "timer/logger.write_avg": 0.030207395553588867, "timer/logger.write_min": 0.030207395553588867, "timer/logger.write_max": 0.030207395553588867, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018215179443359375, "timer/checkpoint.save_frac": 6.068021152610245e-07, "timer/checkpoint.save_avg": 0.00018215179443359375, "timer/checkpoint.save_min": 0.00018215179443359375, "timer/checkpoint.save_max": 0.00018215179443359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1939756870269775, "timer/agent.save_frac": 0.003977490173572433, "timer/agent.save_avg": 1.1939756870269775, "timer/agent.save_min": 1.1939756870269775, "timer/agent.save_max": 1.1939756870269775, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.6686585173783276e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.224403142929077, "timer/agent.policy_frac": 0.04072314361765539, "timer/agent.policy_avg": 0.008572512722951666, "timer/agent.policy_min": 0.005849361419677734, "timer/agent.policy_max": 1.1859619617462158, "timer/dataset_count": 713.0, "timer/dataset_total": 0.05796980857849121, "timer/dataset_frac": 0.00019311477318182104, "timer/dataset_avg": 8.13040793527226e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.18757677078247, "timer/agent.train_frac": 0.8834191451466633, "timer/agent.train_avg": 0.371932085232514, "timer/agent.train_min": 0.3647909164428711, "timer/agent.train_max": 0.7872331142425537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193617820739746, "timer/agent.report_frac": 0.0007307597149060351, "timer/agent.report_avg": 0.2193617820739746, "timer/agent.report_min": 0.2193617820739746, "timer/agent.report_max": 0.2193617820739746, "fps": 4.7503514070798545}
+{"step": 1078035, "episode/length": 248.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.90000007301569, "episode/reward_rate": 0.060240963855421686}
+{"step": 1078216, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06629834254143646}
+{"step": 1078440, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07142857142857142}
+{"step": 1078624, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
+{"step": 1078773, "episode/length": 148.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06711409395973154}
+{"step": 1078943, "episode/length": 169.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.07647058823529412}
+{"step": 1079145, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07425742574257425}
+{"step": 1079299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4173257906142975, "train/action_min": 0.0, "train/action_std": 3.2829659311738735, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03667633416615937, "train/actor_opt_grad_steps": 538740.0, "train/actor_opt_loss": -12.052277039175165, "train/adv_mag": 0.37612536100492083, "train/adv_max": 0.32729336986803026, "train/adv_mean": 0.00214042160873822, "train/adv_min": -0.3321997004829041, "train/adv_std": 0.0422187037255666, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 2.7059186671967587e-05, "train/cont_loss_std": 0.0008086332744884913, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.002871348463631093, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.644594767862768e-06, "train/cont_pred": 0.9952275818341398, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.680202033421764, "train/dyn_loss_std": 8.93144661759677, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9109545113289192, "train/extr_critic_critic_opt_grad_steps": 538740.0, "train/extr_critic_critic_opt_loss": 15341.821462970891, "train/extr_critic_mag": 12.534254047968616, "train/extr_critic_max": 12.534254047968616, "train/extr_critic_mean": 3.8579792453818125, "train/extr_critic_min": -0.3379252267210451, "train/extr_critic_std": 2.9643014163187105, "train/extr_return_normed_mag": 1.382313795285682, "train/extr_return_normed_max": 1.382313795285682, "train/extr_return_normed_mean": 0.40059746087413944, "train/extr_return_normed_min": -0.07277303041048246, "train/extr_return_normed_std": 0.31279818285001465, "train/extr_return_rate": 0.858809622183238, "train/extr_return_raw_mag": 13.267905679467606, "train/extr_return_raw_max": 13.267905679467606, "train/extr_return_raw_mean": 3.8784330348445946, "train/extr_return_raw_min": -0.6487479614068384, "train/extr_return_raw_std": 2.991901312788872, "train/extr_reward_mag": 1.08012358129841, "train/extr_reward_max": 1.08012358129841, "train/extr_reward_mean": 0.06428839220371965, "train/extr_reward_min": -0.60532730899445, "train/extr_reward_std": 0.24332579317158215, "train/image_loss_mean": 3.3885772326221204, "train/image_loss_std": 8.502482584078018, "train/model_loss_mean": 6.8563260574863385, "train/model_loss_std": 12.64740156147578, "train/model_opt_grad_norm": 19.357534500017557, "train/model_opt_grad_steps": 538299.2739726028, "train/model_opt_loss": 19962.790266481163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.7177272757438766, "train/policy_entropy_max": 2.7177272757438766, "train/policy_entropy_mean": 0.4062462491940146, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6208315920339872, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40703177880750946, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.0367411293395579, "train/policy_randomness_mag": 0.9592384581696497, "train/policy_randomness_max": 0.9592384581696497, "train/policy_randomness_mean": 0.14338709812049996, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21912630800515004, "train/post_ent_mag": 55.58820578170149, "train/post_ent_max": 55.58820578170149, "train/post_ent_mean": 40.280504514093266, "train/post_ent_min": 20.175547952521338, "train/post_ent_std": 5.831924915313721, "train/prior_ent_mag": 76.79521231455345, "train/prior_ent_max": 76.79521231455345, "train/prior_ent_mean": 45.94508006474743, "train/prior_ent_min": 28.141115841800218, "train/prior_ent_std": 7.934985781369144, "train/rep_loss_mean": 5.680202033421764, "train/rep_loss_std": 8.93144661759677, "train/reward_avg": 0.046446917655125056, "train/reward_loss_mean": 0.059600594619365586, "train/reward_loss_std": 0.21716748259655416, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0374091292080814, "train/reward_neg_acc": 0.9933260736400134, "train/reward_neg_loss": 0.023989722910911254, "train/reward_pos_acc": 0.9884164406828684, "train/reward_pos_loss": 0.7276041679186364, "train/reward_pred": 0.04609904695965656, "train/reward_rate": 0.05068760702054795, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3237572674240385, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3958272619561836e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3342065798057305e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1191146373749, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.24388027191162, "timer/env.step_frac": 0.06078879812088999, "timer/env.step_avg": 0.01253013754938985, "timer/env.step_min": 0.002869844436645508, "timer/env.step_max": 1.5556142330169678, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26793432235717773, "timer/replay.add_frac": 0.0008927599386027609, "timer/replay.add_avg": 0.00018402082579476492, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.003820657730102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0251314640045166, "timer/logger.write_frac": 8.373829849152465e-05, "timer/logger.write_avg": 0.0251314640045166, "timer/logger.write_min": 0.0251314640045166, "timer/logger.write_max": 0.0251314640045166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.642624378204346, "timer/agent.policy_frac": 0.035461334713930225, "timer/agent.policy_avg": 0.007309494765250237, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.015959978103637695, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0586702823638916, "timer/dataset_frac": 0.00019548998881587794, "timer/dataset_avg": 8.05910472031478e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013756752014160156, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.22457695007324, "timer/agent.train_frac": 0.9003910906393872, "timer/agent.train_avg": 0.37118760570065007, "timer/agent.train_min": 0.3639068603515625, "timer/agent.train_max": 0.38568997383117676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21983957290649414, "timer/agent.report_frac": 0.0007325077350442002, "timer/agent.report_avg": 0.21983957290649414, "timer/agent.report_min": 0.21983957290649414, "timer/agent.report_max": 0.21983957290649414, "fps": 4.851318104137986}
+{"step": 1079446, "episode/length": 300.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.04983388704318937}
+{"step": 1079632, "episode/length": 185.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07526881720430108}
+{"step": 1079866, "episode/length": 233.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05555555555555555}
+{"step": 1080087, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06334841628959276}
+{"step": 1080294, "episode/length": 206.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.057971014492753624}
+{"step": 1080458, "episode/length": 163.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.09146341463414634}
+{"step": 1080669, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
+{"step": 1080751, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4070019192165795, "train/action_min": 0.0, "train/action_std": 3.284829874833425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03693904634565115, "train/actor_opt_grad_steps": 539465.0, "train/actor_opt_loss": -10.3950624399715, "train/adv_mag": 0.3770868687166108, "train/adv_max": 0.3218646982891692, "train/adv_mean": 0.0014890544851166648, "train/adv_min": -0.33944646786484456, "train/adv_std": 0.04111544736143616, "train/cont_avg": 0.9952935112847222, "train/cont_loss_mean": 5.0104638677458034e-05, "train/cont_loss_std": 0.0015762142436841486, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002286803114076163, "train/cont_pos_acc": 0.9999863513641887, "train/cont_pos_loss": 4.9001415884831876e-05, "train/cont_pred": 0.9952747374773026, "train/cont_rate": 0.9952935112847222, "train/dyn_loss_mean": 5.603509300284916, "train/dyn_loss_std": 8.891870657602945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8796064746048715, "train/extr_critic_critic_opt_grad_steps": 539465.0, "train/extr_critic_critic_opt_loss": 15113.030883789062, "train/extr_critic_mag": 12.492992427614, "train/extr_critic_max": 12.492992427614, "train/extr_critic_mean": 3.8730916447109647, "train/extr_critic_min": -0.3162040561437607, "train/extr_critic_std": 2.9573611385292478, "train/extr_return_normed_mag": 1.3877297821972105, "train/extr_return_normed_max": 1.3877297821972105, "train/extr_return_normed_mean": 0.4031720910635259, "train/extr_return_normed_min": -0.07592188349614541, "train/extr_return_normed_std": 0.31449586856696343, "train/extr_return_rate": 0.8649749101863967, "train/extr_return_raw_mag": 13.216510878668892, "train/extr_return_raw_max": 13.216510878668892, "train/extr_return_raw_mean": 3.8872165944841175, "train/extr_return_raw_min": -0.652857832196686, "train/extr_return_raw_std": 2.9801386064953275, "train/extr_reward_mag": 1.0764038893911574, "train/extr_reward_max": 1.0764038893911574, "train/extr_reward_mean": 0.06215019462009271, "train/extr_reward_min": -0.5999598685238097, "train/extr_reward_std": 0.23940040771332052, "train/image_loss_mean": 3.3850842399729624, "train/image_loss_std": 8.49625031153361, "train/model_loss_mean": 6.806591153144836, "train/model_loss_std": 12.596202545695835, "train/model_opt_grad_norm": 22.355050418112015, "train/model_opt_grad_steps": 539023.7083333334, "train/model_opt_loss": 18048.302761501734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.701152010096444, "train/policy_entropy_max": 2.701152010096444, "train/policy_entropy_mean": 0.4209344271156523, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6315872607131799, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42074870152605903, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0467932853433821, "train/policy_randomness_mag": 0.953388124704361, "train/policy_randomness_max": 0.953388124704361, "train/policy_randomness_mean": 0.14857138289759556, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22292258569763768, "train/post_ent_mag": 55.76361062791612, "train/post_ent_max": 55.76361062791612, "train/post_ent_mean": 40.17625607384576, "train/post_ent_min": 19.703217400444878, "train/post_ent_std": 5.797209554248386, "train/prior_ent_mag": 76.83080715603299, "train/prior_ent_max": 76.83080715603299, "train/prior_ent_mean": 45.78128517998589, "train/prior_ent_min": 27.566825442843967, "train/prior_ent_std": 7.923945367336273, "train/rep_loss_mean": 5.603509300284916, "train/rep_loss_std": 8.891870657602945, "train/reward_avg": 0.04520806183831559, "train/reward_loss_mean": 0.05935132643207908, "train/reward_loss_std": 0.21391308742264906, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0301273100905948, "train/reward_neg_acc": 0.992681048810482, "train/reward_neg_loss": 0.024904733394376107, "train/reward_pos_acc": 0.9906063162618213, "train/reward_pos_loss": 0.722298301756382, "train/reward_pred": 0.04489179597132736, "train/reward_rate": 0.04941134982638889, "stats/sum_log_reward": 11.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3851029191698347, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2838382668403227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490476884132575e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1029636859894, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.890931844711304, "timer/env.step_frac": 0.06294816823094655, "timer/env.step_avg": 0.013010283639608336, "timer/env.step_min": 0.0027017593383789062, "timer/env.step_max": 1.6048154830932617, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.28351330757141113, "timer/replay.add_frac": 0.0009447201190190954, "timer/replay.add_avg": 0.00019525709887838232, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0036869049072265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03398609161376953, "timer/logger.write_frac": 0.00011324810390520048, "timer/logger.write_avg": 0.03398609161376953, "timer/logger.write_min": 0.03398609161376953, "timer/logger.write_max": 0.03398609161376953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.680192947387695, "timer/agent.policy_frac": 0.03558842877194255, "timer/agent.policy_avg": 0.00735550478470227, "timer/agent.policy_min": 0.005574941635131836, "timer/agent.policy_max": 0.014543294906616211, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059418678283691406, "timer/dataset_frac": 0.00019799430686683828, "timer/dataset_avg": 8.18439094816686e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4987065792084, "timer/agent.train_frac": 0.8980208101549988, "timer/agent.train_avg": 0.37121033964078287, "timer/agent.train_min": 0.3646430969238281, "timer/agent.train_max": 0.3856849670410156, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22101688385009766, "timer/agent.report_frac": 0.0007364701805522891, "timer/agent.report_avg": 0.22101688385009766, "timer/agent.report_min": 0.22101688385009766, "timer/agent.report_max": 0.22101688385009766, "fps": 4.838253071971594}
+{"step": 1080895, "episode/length": 225.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07079646017699115}
+{"step": 1081083, "episode/length": 187.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0797872340425532}
+{"step": 1081311, "episode/length": 227.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06140350877192982}
+{"step": 1081482, "episode/length": 170.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08187134502923976}
+{"step": 1081688, "episode/length": 205.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.05825242718446602}
+{"step": 1082152, "episode/length": 463.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 19.500000074505806, "episode/reward_rate": 0.036637931034482756}
+{"step": 1082191, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44541761610243, "train/action_min": 0.0, "train/action_std": 3.27672611673673, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0378069969980667, "train/actor_opt_grad_steps": 540185.0, "train/actor_opt_loss": -11.513400371703836, "train/adv_mag": 0.38090229344864684, "train/adv_max": 0.32184249266154236, "train/adv_mean": 0.0020381611182326903, "train/adv_min": -0.342998537959324, "train/adv_std": 0.04214311297982931, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 4.12820824646529e-05, "train/cont_loss_std": 0.0012963991632144456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023243978580543465, "train/cont_pos_acc": 0.9999863430857658, "train/cont_pos_loss": 2.771218471912344e-05, "train/cont_pred": 0.9948821746640735, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.7752339243888855, "train/dyn_loss_std": 9.028083483378092, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8604988240533404, "train/extr_critic_critic_opt_grad_steps": 540185.0, "train/extr_critic_critic_opt_loss": 15213.180013020834, "train/extr_critic_mag": 12.471793704562717, "train/extr_critic_max": 12.471793704562717, "train/extr_critic_mean": 3.9576225413216486, "train/extr_critic_min": -0.34684417645136517, "train/extr_critic_std": 2.9647556526793375, "train/extr_return_normed_mag": 1.381467388735877, "train/extr_return_normed_max": 1.381467388735877, "train/extr_return_normed_mean": 0.4136439603235986, "train/extr_return_normed_min": -0.0769238555803895, "train/extr_return_normed_std": 0.31482667703595424, "train/extr_return_rate": 0.8723913588457637, "train/extr_return_raw_mag": 13.17816752857632, "train/extr_return_raw_max": 13.17816752857632, "train/extr_return_raw_mean": 3.9770012729697757, "train/extr_return_raw_min": -0.687454727374845, "train/extr_return_raw_std": 2.993299163050122, "train/extr_reward_mag": 1.0852185918225183, "train/extr_reward_max": 1.0852185918225183, "train/extr_reward_mean": 0.06694818784793218, "train/extr_reward_min": -0.579506536324819, "train/extr_reward_std": 0.24814127095871502, "train/image_loss_mean": 3.4408367143736944, "train/image_loss_std": 8.839989357524448, "train/model_loss_mean": 6.967700229750739, "train/model_loss_std": 12.99931025505066, "train/model_opt_grad_norm": 22.399806923336453, "train/model_opt_grad_steps": 539743.0, "train/model_opt_loss": 17419.250569661457, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.692203422387441, "train/policy_entropy_max": 2.692203422387441, "train/policy_entropy_mean": 0.3898882211910354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5936806400616964, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38979686092999244, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.019765507015917, "train/policy_randomness_mag": 0.9502296662992902, "train/policy_randomness_max": 0.9502296662992902, "train/policy_randomness_mean": 0.13761343279232582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20954321117864716, "train/post_ent_mag": 55.44917885462443, "train/post_ent_max": 55.44917885462443, "train/post_ent_mean": 40.035239961412216, "train/post_ent_min": 19.331313437885708, "train/post_ent_std": 5.806176728672451, "train/prior_ent_mag": 76.76353465186224, "train/prior_ent_max": 76.76353465186224, "train/prior_ent_mean": 45.81028079986572, "train/prior_ent_min": 27.5496613184611, "train/prior_ent_std": 7.942500657505459, "train/rep_loss_mean": 5.7752339243888855, "train/rep_loss_std": 9.028083483378092, "train/reward_avg": 0.04803466802049014, "train/reward_loss_mean": 0.06168185221031308, "train/reward_loss_std": 0.22097716252836916, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.037652336888843, "train/reward_neg_acc": 0.993274685409334, "train/reward_neg_loss": 0.024948459687746234, "train/reward_pos_acc": 0.9888834175136354, "train/reward_pos_loss": 0.7218212203847038, "train/reward_pred": 0.047735989869882665, "train/reward_rate": 0.0526123046875, "stats/sum_log_reward": 13.766666889190674, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 21.166666666666668, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.44392794370651245, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.33355532752143e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3001470102204216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1692817211151, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.048060655593872, "timer/env.step_frac": 0.06345772807389156, "timer/env.step_avg": 0.013227819899717967, "timer/env.step_min": 0.0029273033142089844, "timer/env.step_max": 1.795651912689209, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29181909561157227, "timer/replay.add_frac": 0.0009721817433760563, "timer/replay.add_avg": 0.00020265214973025852, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.005714893341064453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03070354461669922, "timer/logger.write_frac": 0.00010228743074791256, "timer/logger.write_avg": 0.03070354461669922, "timer/logger.write_min": 0.03070354461669922, "timer/logger.write_max": 0.03070354461669922, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016236305236816406, "timer/checkpoint.save_frac": 5.409049568203794e-07, "timer/checkpoint.save_avg": 0.00016236305236816406, "timer/checkpoint.save_min": 0.00016236305236816406, "timer/checkpoint.save_max": 0.00016236305236816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.193704605102539, "timer/agent.save_frac": 0.003976771368002941, "timer/agent.save_avg": 1.193704605102539, "timer/agent.save_min": 1.193704605102539, "timer/agent.save_max": 1.193704605102539, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.4384408479274077e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.352930545806885, "timer/agent.policy_frac": 0.04115321352997038, "timer/agent.policy_avg": 0.00857842399014367, "timer/agent.policy_min": 0.005902290344238281, "timer/agent.policy_max": 1.1992816925048828, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05805253982543945, "timer/dataset_frac": 0.00019339933617649658, "timer/dataset_avg": 8.062852753533257e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.73385763168335, "timer/agent.train_frac": 0.8919428933452049, "timer/agent.train_avg": 0.3718525800440047, "timer/agent.train_min": 0.3649923801422119, "timer/agent.train_max": 0.8088290691375732, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21909618377685547, "timer/agent.report_frac": 0.0007299087452273547, "timer/agent.report_avg": 0.21909618377685547, "timer/agent.report_min": 0.21909618377685547, "timer/agent.report_max": 0.21909618377685547, "fps": 4.797191715081152}
+{"step": 1082356, "episode/length": 203.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06862745098039216}
+{"step": 1082561, "episode/length": 204.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06829268292682927}
+{"step": 1082807, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056910569105691054}
+{"step": 1083050, "episode/length": 242.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.06584362139917696}
+{"step": 1083236, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07526881720430108}
+{"step": 1083529, "episode/length": 292.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04778156996587031}
+{"step": 1083651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422959419145976, "train/action_min": 0.0, "train/action_std": 3.297929796454025, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03807419043493598, "train/actor_opt_grad_steps": 540910.0, "train/actor_opt_loss": -10.24400013562751, "train/adv_mag": 0.39050510301165386, "train/adv_max": 0.3275419218491202, "train/adv_mean": 0.002276519647052301, "train/adv_min": -0.3461032558793891, "train/adv_std": 0.04217128731208305, "train/cont_avg": 0.9953312285958904, "train/cont_loss_mean": 7.376849117943724e-06, "train/cont_loss_std": 0.00019811157945655053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008698918721213669, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 4.420795626580253e-06, "train/cont_pred": 0.9953300071089235, "train/cont_rate": 0.9953312285958904, "train/dyn_loss_mean": 5.65681108709884, "train/dyn_loss_std": 8.899691313913424, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.93284877522351, "train/extr_critic_critic_opt_grad_steps": 540910.0, "train/extr_critic_critic_opt_loss": 15339.282841930652, "train/extr_critic_mag": 12.379800313139615, "train/extr_critic_max": 12.379800313139615, "train/extr_critic_mean": 3.869418601467185, "train/extr_critic_min": -0.33971391475363955, "train/extr_critic_std": 2.9338397228554505, "train/extr_return_normed_mag": 1.38098046551012, "train/extr_return_normed_max": 1.38098046551012, "train/extr_return_normed_mean": 0.4030584925658082, "train/extr_return_normed_min": -0.08031134537025673, "train/extr_return_normed_std": 0.31260950108097024, "train/extr_return_rate": 0.8666239005245574, "train/extr_return_raw_mag": 13.159210557806981, "train/extr_return_raw_max": 13.159210557806981, "train/extr_return_raw_mean": 3.890991687774658, "train/extr_return_raw_min": -0.6908680367959689, "train/extr_return_raw_std": 2.9631709758549523, "train/extr_reward_mag": 1.078022101154066, "train/extr_reward_max": 1.078022101154066, "train/extr_reward_mean": 0.06191269420597651, "train/extr_reward_min": -0.59503728396272, "train/extr_reward_std": 0.2395659038057066, "train/image_loss_mean": 3.4399653820142353, "train/image_loss_std": 8.660444553584268, "train/model_loss_mean": 6.894565301398709, "train/model_loss_std": 12.740471186703198, "train/model_opt_grad_norm": 21.5277281591337, "train/model_opt_grad_steps": 540467.1780821917, "train/model_opt_loss": 18597.930797838184, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.690297440306781, "train/policy_entropy_max": 2.690297440306781, "train/policy_entropy_mean": 0.39632254206154444, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5996319961874452, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39700277251740024, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0258683423473411, "train/policy_randomness_mag": 0.9495569353234278, "train/policy_randomness_max": 0.9495569353234278, "train/policy_randomness_mean": 0.13988446658604767, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21164377809387364, "train/post_ent_mag": 55.96904132790761, "train/post_ent_max": 55.96904132790761, "train/post_ent_mean": 40.49932354443694, "train/post_ent_min": 19.578459413084264, "train/post_ent_std": 5.934029219901725, "train/prior_ent_mag": 76.80650486358225, "train/prior_ent_max": 76.80650486358225, "train/prior_ent_mean": 46.153738675052175, "train/prior_ent_min": 27.762130580536308, "train/prior_ent_std": 7.899550150518548, "train/rep_loss_mean": 5.65681108709884, "train/rep_loss_std": 8.899691313913424, "train/reward_avg": 0.04597201325917897, "train/reward_loss_mean": 0.06050598407036638, "train/reward_loss_std": 0.2162537546190497, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0429025627162358, "train/reward_neg_acc": 0.992789524875275, "train/reward_neg_loss": 0.025641648519835244, "train/reward_pos_acc": 0.990323639895818, "train/reward_pos_loss": 0.7175557825663318, "train/reward_pred": 0.04566029921071987, "train/reward_rate": 0.05040667808219178, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 16.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.8333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4249761799971263, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3122219451486248e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3358176571049103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00277519226074, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.29494595527649, "timer/env.step_frac": 0.05764928655807532, "timer/env.step_avg": 0.011845853394024993, "timer/env.step_min": 0.0028502941131591797, "timer/env.step_max": 1.543433666229248, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.27585816383361816, "timer/replay.add_frac": 0.0009195187066413996, "timer/replay.add_avg": 0.00018894394783124533, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0006916522979736328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03007793426513672, "timer/logger.write_frac": 0.00010025885342514208, "timer/logger.write_avg": 0.03007793426513672, "timer/logger.write_min": 0.03007793426513672, "timer/logger.write_max": 0.03007793426513672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.77394413948059, "timer/agent.policy_frac": 0.035912814915048594, "timer/agent.policy_avg": 0.007379413794164788, "timer/agent.policy_min": 0.00594019889831543, "timer/agent.policy_max": 0.015889644622802734, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05960512161254883, "timer/dataset_frac": 0.00019868190077358485, "timer/dataset_avg": 8.165085152403949e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.9032304286957, "timer/agent.train_frac": 0.9030024147446095, "timer/agent.train_avg": 0.3711003156557475, "timer/agent.train_min": 0.36461424827575684, "timer/agent.train_max": 0.3869187831878662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22148752212524414, "timer/agent.report_frac": 0.0007382849108089114, "timer/agent.report_avg": 0.22148752212524414, "timer/agent.report_min": 0.22148752212524414, "timer/agent.report_max": 0.22148752212524414, "fps": 4.866532693948334}
+{"step": 1083791, "episode/length": 261.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.061068702290076333}
+{"step": 1083974, "episode/length": 182.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07650273224043716}
+{"step": 1084362, "episode/length": 387.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.04381443298969072}
+{"step": 1084550, "episode/length": 187.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06914893617021277}
+{"step": 1084715, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06666666666666667}
+{"step": 1084971, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05859375}
+{"step": 1085099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528430677440069, "train/action_min": 0.0, "train/action_std": 3.3379257378512865, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03744530848750513, "train/actor_opt_grad_steps": 541640.0, "train/actor_opt_loss": -12.093065077311373, "train/adv_mag": 0.3990283767654471, "train/adv_max": 0.32318408521887376, "train/adv_mean": 0.0020585601994080457, "train/adv_min": -0.3574588231436194, "train/adv_std": 0.04219556150779332, "train/cont_avg": 0.995384738869863, "train/cont_loss_mean": 1.1759301173502499e-05, "train/cont_loss_std": 0.0002999407748467865, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016059071856091567, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 4.726573934216541e-06, "train/cont_pred": 0.9953864763860834, "train/cont_rate": 0.995384738869863, "train/dyn_loss_mean": 5.767142263177323, "train/dyn_loss_std": 8.952524204776712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9031841485467675, "train/extr_critic_critic_opt_grad_steps": 541640.0, "train/extr_critic_critic_opt_loss": 15171.827964469177, "train/extr_critic_mag": 12.412894797651735, "train/extr_critic_max": 12.412894797651735, "train/extr_critic_mean": 3.962482648353054, "train/extr_critic_min": -0.363231556056297, "train/extr_critic_std": 2.9493785263740855, "train/extr_return_normed_mag": 1.3808331113972077, "train/extr_return_normed_max": 1.3808331113972077, "train/extr_return_normed_mean": 0.4123184142047412, "train/extr_return_normed_min": -0.07505208381438909, "train/extr_return_normed_std": 0.31171444609557114, "train/extr_return_rate": 0.8698568156320755, "train/extr_return_raw_mag": 13.247170539751444, "train/extr_return_raw_max": 13.247170539751444, "train/extr_return_raw_mean": 3.982157047480753, "train/extr_return_raw_min": -0.6795060793830924, "train/extr_return_raw_std": 2.9821674823760986, "train/extr_reward_mag": 1.0770961389149705, "train/extr_reward_max": 1.0770961389149705, "train/extr_reward_mean": 0.06396435548181403, "train/extr_reward_min": -0.625951690216587, "train/extr_reward_std": 0.24256797461477045, "train/image_loss_mean": 3.2870227735336512, "train/image_loss_std": 8.399879651526883, "train/model_loss_mean": 6.808489982395956, "train/model_loss_std": 12.594970820701285, "train/model_opt_grad_norm": 20.83875891280501, "train/model_opt_grad_steps": 541196.6575342466, "train/model_opt_loss": 18915.466248394692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2773.972602739726, "train/policy_entropy_mag": 2.68159673311939, "train/policy_entropy_max": 2.68159673311939, "train/policy_entropy_mean": 0.39520547630852215, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.594997085937082, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39444402370550863, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0207821457353357, "train/policy_randomness_mag": 0.9464859676687685, "train/policy_randomness_max": 0.9464859676687685, "train/policy_randomness_mean": 0.1394901888011253, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21000785829677973, "train/post_ent_mag": 55.513017576034756, "train/post_ent_max": 55.513017576034756, "train/post_ent_mean": 40.120646385297384, "train/post_ent_min": 19.63905235186015, "train/post_ent_std": 5.839727545437747, "train/prior_ent_mag": 76.79471818061724, "train/prior_ent_max": 76.79471818061724, "train/prior_ent_mean": 45.86106062588627, "train/prior_ent_min": 27.49758513986248, "train/prior_ent_std": 7.936257081489041, "train/rep_loss_mean": 5.767142263177323, "train/rep_loss_std": 8.952524204776712, "train/reward_avg": 0.046722495162936105, "train/reward_loss_mean": 0.06117013479544692, "train/reward_loss_std": 0.2205841596404167, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0259572610463181, "train/reward_neg_acc": 0.9919781978816202, "train/reward_neg_loss": 0.02570394573299444, "train/reward_pos_acc": 0.9900158619227475, "train/reward_pos_loss": 0.7231715060260198, "train/reward_pred": 0.046444336998544326, "train/reward_rate": 0.05098191352739726, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4785946061213811, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3264990010972838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3177854250807789e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05175137519836, "timer/env.step_count": 1448.0, "timer/env.step_total": 17.339722871780396, "timer/env.step_frac": 0.05778910735334458, "timer/env.step_avg": 0.011974946734654969, "timer/env.step_min": 0.002855539321899414, "timer/env.step_max": 1.668696403503418, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27715492248535156, "timer/replay.add_frac": 0.0009236904007895106, "timer/replay.add_avg": 0.0001914053332081157, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0044400691986083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 2.3416852951049805, "timer/logger.write_frac": 0.007804271377762534, "timer/logger.write_avg": 2.3416852951049805, "timer/logger.write_min": 2.3416852951049805, "timer/logger.write_max": 2.3416852951049805, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.613988161087036, "timer/agent.policy_frac": 0.03537385838423193, "timer/agent.policy_avg": 0.007330102321192704, "timer/agent.policy_min": 0.005936384201049805, "timer/agent.policy_max": 0.014213323593139648, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05839896202087402, "timer/dataset_frac": 0.00019462963223250545, "timer/dataset_avg": 8.066154975258843e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.7640058994293, "timer/agent.train_frac": 0.8957255029095117, "timer/agent.train_avg": 0.37122100262352115, "timer/agent.train_min": 0.3636603355407715, "timer/agent.train_max": 0.38877153396606445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21857833862304688, "timer/agent.report_frac": 0.0007284687978698933, "timer/agent.report_avg": 0.21857833862304688, "timer/agent.report_min": 0.21857833862304688, "timer/agent.report_max": 0.21857833862304688, "fps": 4.825727739082545}
+{"step": 1085189, "episode/length": 217.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05504587155963303}
+{"step": 1085369, "episode/length": 179.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07777777777777778}
+{"step": 1085535, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07228915662650602}
+{"step": 1085681, "episode/length": 145.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.08904109589041095}
+{"step": 1085854, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08092485549132948}
+{"step": 1085945, "episode/length": 90.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.13186813186813187}
+{"step": 1086137, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06770833333333333}
+{"step": 1086414, "episode/length": 276.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04332129963898917}
+{"step": 1086474, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.1}
+{"step": 1086523, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.51281308456206, "train/action_min": 0.0, "train/action_std": 3.33427525238252, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037292832482448766, "train/actor_opt_grad_steps": 542360.0, "train/actor_opt_loss": -11.743545297165992, "train/adv_mag": 0.3779198565113712, "train/adv_max": 0.31324136802847957, "train/adv_mean": 0.0020470015530828648, "train/adv_min": -0.32835883342883954, "train/adv_std": 0.041309224362944215, "train/cont_avg": 0.9950759242957746, "train/cont_loss_mean": 1.5186519623140657e-05, "train/cont_loss_std": 0.0004073760253432533, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020579220038950197, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.3624221240984875e-05, "train/cont_pred": 0.9950656042972081, "train/cont_rate": 0.9950759242957746, "train/dyn_loss_mean": 5.696531228616204, "train/dyn_loss_std": 8.922928420590683, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.90668948603348, "train/extr_critic_critic_opt_grad_steps": 542360.0, "train/extr_critic_critic_opt_loss": 15197.411889304578, "train/extr_critic_mag": 12.611681763554962, "train/extr_critic_max": 12.611681763554962, "train/extr_critic_mean": 3.906117734774737, "train/extr_critic_min": -0.3540684370927408, "train/extr_critic_std": 2.9497968999432844, "train/extr_return_normed_mag": 1.3771878632021621, "train/extr_return_normed_max": 1.3771878632021621, "train/extr_return_normed_mean": 0.40340526045208247, "train/extr_return_normed_min": -0.07842217438237768, "train/extr_return_normed_std": 0.31010989005297, "train/extr_return_rate": 0.8638397278920026, "train/extr_return_raw_mag": 13.27430616298192, "train/extr_return_raw_max": 13.27430616298192, "train/extr_return_raw_mean": 3.9257575794005057, "train/extr_return_raw_min": -0.700612121484649, "train/extr_return_raw_std": 2.977443389489617, "train/extr_reward_mag": 1.0837040451210989, "train/extr_reward_max": 1.0837040451210989, "train/extr_reward_mean": 0.06308703381620662, "train/extr_reward_min": -0.609948821470771, "train/extr_reward_std": 0.24088507428975173, "train/image_loss_mean": 3.3694641019257023, "train/image_loss_std": 8.636933199116882, "train/model_loss_mean": 6.847760764645859, "train/model_loss_std": 12.751500774437273, "train/model_opt_grad_norm": 21.59802471751898, "train/model_opt_grad_steps": 541916.0, "train/model_opt_loss": 17119.401903609156, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6762629764180788, "train/policy_entropy_max": 2.6762629764180788, "train/policy_entropy_mean": 0.39682417625272776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5998745900644383, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3969485423934292, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0280217184147364, "train/policy_randomness_mag": 0.9446033877386174, "train/policy_randomness_max": 0.9446033877386174, "train/policy_randomness_mean": 0.14006152004003525, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2117294041623532, "train/post_ent_mag": 55.48883572430678, "train/post_ent_max": 55.48883572430678, "train/post_ent_mean": 40.192160324311594, "train/post_ent_min": 19.382724305273783, "train/post_ent_std": 5.80613881097713, "train/prior_ent_mag": 76.8401314104107, "train/prior_ent_max": 76.8401314104107, "train/prior_ent_mean": 45.870206268740375, "train/prior_ent_min": 27.674482775406098, "train/prior_ent_std": 7.891297810514208, "train/rep_loss_mean": 5.696531228616204, "train/rep_loss_std": 8.922928420590683, "train/reward_avg": 0.04641835349546352, "train/reward_loss_mean": 0.060362762391147476, "train/reward_loss_std": 0.22133461438434224, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0284649922814169, "train/reward_neg_acc": 0.9934869668853115, "train/reward_neg_loss": 0.024705496695364863, "train/reward_pos_acc": 0.9883428526596284, "train/reward_pos_loss": 0.730785760241495, "train/reward_pred": 0.045994307609720966, "train/reward_rate": 0.050616197183098594, "stats/sum_log_reward": 10.98888905843099, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.1111111111111111, "stats/max_log_achievement_collect_sapling": 1.1111111111111112, "stats/max_log_achievement_collect_stone": 6.555555555555555, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 3.111111111111111, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2738477620813582, "replay/size": 1000000.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.136443288138743e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.379131768526656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2630264759064, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.49050760269165, "timer/env.step_frac": 0.0749026873759841, "timer/env.step_avg": 0.015793895788407057, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.7935583591461182, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2671799659729004, "timer/replay.add_frac": 0.0008898197327480125, "timer/replay.add_avg": 0.0001876263805989469, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0038652420043945312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02165365219116211, "timer/logger.write_frac": 7.211561291879417e-05, "timer/logger.write_avg": 0.02165365219116211, "timer/logger.write_min": 0.02165365219116211, "timer/logger.write_max": 0.02165365219116211, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019598007202148438, "timer/checkpoint.save_frac": 6.526946534897801e-07, "timer/checkpoint.save_avg": 0.00019598007202148438, "timer/checkpoint.save_min": 0.00019598007202148438, "timer/checkpoint.save_max": 0.00019598007202148438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.434345006942749, "timer/agent.save_frac": 0.004776961798384602, "timer/agent.save_avg": 1.434345006942749, "timer/agent.save_min": 1.434345006942749, "timer/agent.save_max": 1.434345006942749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.888938903808594e-05, "timer/replay.save_frac": 1.9612600901700204e-07, "timer/replay.save_avg": 5.888938903808594e-05, "timer/replay.save_min": 5.888938903808594e-05, "timer/replay.save_max": 5.888938903808594e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.515370845794678, "timer/agent.policy_frac": 0.041681358483206164, "timer/agent.policy_avg": 0.008788884020923229, "timer/agent.policy_min": 0.005743980407714844, "timer/agent.policy_max": 1.4266808032989502, "timer/dataset_count": 712.0, "timer/dataset_total": 0.05840778350830078, "timer/dataset_frac": 0.00019452206351815854, "timer/dataset_avg": 8.203340380379324e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001614093780517578, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.26253032684326, "timer/agent.train_frac": 0.8801034660457875, "timer/agent.train_avg": 0.37115523922309446, "timer/agent.train_min": 0.36385202407836914, "timer/agent.train_max": 0.8249003887176514, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21713519096374512, "timer/agent.report_frac": 0.0007231499446075437, "timer/agent.report_avg": 0.21713519096374512, "timer/agent.report_min": 0.21713519096374512, "timer/agent.report_max": 0.21713519096374512, "fps": 4.74241293410283}
+{"step": 1086686, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06132075471698113}
+{"step": 1086910, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06696428571428571}
+{"step": 1087065, "episode/length": 154.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.05161290322580645}
+{"step": 1087326, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05747126436781609}
+{"step": 1087513, "episode/length": 186.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06951871657754011}
+{"step": 1087743, "episode/length": 229.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04782608695652174}
+{"step": 1087967, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05803571428571429}
+{"step": 1087979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464495933219178, "train/action_min": 0.0, "train/action_std": 3.2546155681348825, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0375203371099005, "train/actor_opt_grad_steps": 543080.0, "train/actor_opt_loss": -10.218846541561492, "train/adv_mag": 0.4052364544509208, "train/adv_max": 0.3304239840131916, "train/adv_mean": 0.0022257425052760495, "train/adv_min": -0.3573125880466749, "train/adv_std": 0.04181767627596855, "train/cont_avg": 0.9953178510273972, "train/cont_loss_mean": 8.169765822829081e-06, "train/cont_loss_std": 0.00022788779084101108, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011246208000158643, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 3.895857937476344e-06, "train/cont_pred": 0.9953179947317463, "train/cont_rate": 0.9953178510273972, "train/dyn_loss_mean": 5.735440698388505, "train/dyn_loss_std": 8.961869069974716, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9092062507590203, "train/extr_critic_critic_opt_grad_steps": 543080.0, "train/extr_critic_critic_opt_loss": 15221.633387735445, "train/extr_critic_mag": 12.4248892509774, "train/extr_critic_max": 12.4248892509774, "train/extr_critic_mean": 3.9571085564077717, "train/extr_critic_min": -0.33175003691895366, "train/extr_critic_std": 2.9523049739942158, "train/extr_return_normed_mag": 1.368809606930981, "train/extr_return_normed_max": 1.368809606930981, "train/extr_return_normed_mean": 0.4078213131591065, "train/extr_return_normed_min": -0.07910273142465174, "train/extr_return_normed_std": 0.30939518650100656, "train/extr_return_rate": 0.877571214551795, "train/extr_return_raw_mag": 13.22317259279016, "train/extr_return_raw_max": 13.22317259279016, "train/extr_return_raw_mean": 3.9785058857643443, "train/extr_return_raw_min": -0.7056593098869063, "train/extr_return_raw_std": 2.976372531015579, "train/extr_reward_mag": 1.0753486221783781, "train/extr_reward_max": 1.0753486221783781, "train/extr_reward_mean": 0.0633704239272908, "train/extr_reward_min": -0.6310569929749998, "train/extr_reward_std": 0.2416552039858413, "train/image_loss_mean": 3.405141205003817, "train/image_loss_std": 9.063062498014267, "train/model_loss_mean": 6.907512638666859, "train/model_loss_std": 13.159505974756529, "train/model_opt_grad_norm": 20.292822524292827, "train/model_opt_grad_steps": 542635.0821917808, "train/model_opt_loss": 17770.419988762842, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6865451629847694, "train/policy_entropy_max": 2.6865451629847694, "train/policy_entropy_mean": 0.4074742555210035, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6127366893095513, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40785195341665453, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.035186960272593, "train/policy_randomness_mag": 0.948232547877586, "train/policy_randomness_max": 0.948232547877586, "train/policy_randomness_mean": 0.14382053044152587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21626916139909666, "train/post_ent_mag": 55.77949628438035, "train/post_ent_max": 55.77949628438035, "train/post_ent_mean": 40.18127770619849, "train/post_ent_min": 19.6025469270471, "train/post_ent_std": 5.887459833328038, "train/prior_ent_mag": 76.81821546162645, "train/prior_ent_max": 76.81821546162645, "train/prior_ent_mean": 45.94650101335081, "train/prior_ent_min": 27.18324645578045, "train/prior_ent_std": 7.993063998548952, "train/rep_loss_mean": 5.735440698388505, "train/rep_loss_std": 8.961869069974716, "train/reward_avg": 0.04681480091626514, "train/reward_loss_mean": 0.061098906479469715, "train/reward_loss_std": 0.22094080852319117, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0161414277063656, "train/reward_neg_acc": 0.992885411602177, "train/reward_neg_loss": 0.025328556152239237, "train/reward_pos_acc": 0.9906300347145289, "train/reward_pos_loss": 0.7259111290108667, "train/reward_pred": 0.0464059213967356, "train/reward_rate": 0.05103542380136986, "stats/sum_log_reward": 11.671428884778704, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3648660012653896, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2466519009935986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3317503444441072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33918476104736, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.50408411026001, "timer/env.step_frac": 0.061610622420054946, "timer/env.step_avg": 0.01270884897682693, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 1.6319282054901123, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29319167137145996, "timer/replay.add_frac": 0.0009762018619206347, "timer/replay.add_avg": 0.00020136790616171702, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.004503726959228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023938655853271484, "timer/logger.write_frac": 7.970540331697744e-05, "timer/logger.write_avg": 0.023938655853271484, "timer/logger.write_min": 0.023938655853271484, "timer/logger.write_max": 0.023938655853271484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.666501760482788, "timer/agent.policy_frac": 0.035514852212737924, "timer/agent.policy_avg": 0.007325894066265651, "timer/agent.policy_min": 0.0057947635650634766, "timer/agent.policy_max": 0.013843774795532227, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05890941619873047, "timer/dataset_frac": 0.00019614295832093753, "timer/dataset_avg": 8.091952774550889e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.1274492740631, "timer/agent.train_frac": 0.8994079460160319, "timer/agent.train_avg": 0.3710541885632735, "timer/agent.train_min": 0.36035752296447754, "timer/agent.train_max": 0.3835024833679199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21934008598327637, "timer/agent.report_frac": 0.0007303079222172937, "timer/agent.report_avg": 0.21934008598327637, "timer/agent.report_min": 0.21934008598327637, "timer/agent.report_max": 0.21934008598327637, "fps": 4.847752834624522}
+{"step": 1088146, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0782122905027933}
+{"step": 1088377, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06060606060606061}
+{"step": 1088613, "episode/length": 235.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.05508474576271186}
+{"step": 1088999, "episode/length": 385.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.038860103626943004}
+{"step": 1089237, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06302521008403361}
+{"step": 1089448, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.415836700021404, "train/action_min": 0.0, "train/action_std": 3.283212501708775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03619053357676284, "train/actor_opt_grad_steps": 543810.0, "train/actor_opt_loss": -12.39511321240092, "train/adv_mag": 0.3986943737693029, "train/adv_max": 0.31613075753597364, "train/adv_mean": 0.0013101834322709418, "train/adv_min": -0.3606737903127932, "train/adv_std": 0.041265248639942846, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 6.899819526196308e-05, "train/cont_loss_std": 0.0021518374863602084, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.006449462426171401, "train/cont_pos_acc": 0.9999865211852609, "train/cont_pos_loss": 2.2349879543915522e-05, "train/cont_pred": 0.99523331694407, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.832785266719452, "train/dyn_loss_std": 8.924529807208335, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9237231906146219, "train/extr_critic_critic_opt_grad_steps": 543810.0, "train/extr_critic_critic_opt_loss": 15189.73091020976, "train/extr_critic_mag": 12.447007296836539, "train/extr_critic_max": 12.447007296836539, "train/extr_critic_mean": 3.9001089383478034, "train/extr_critic_min": -0.34951285140155114, "train/extr_critic_std": 2.973228644018304, "train/extr_return_normed_mag": 1.3618856831772688, "train/extr_return_normed_max": 1.3618856831772688, "train/extr_return_normed_mean": 0.4012485932405681, "train/extr_return_normed_min": -0.07742467440970957, "train/extr_return_normed_std": 0.31219118078277536, "train/extr_return_rate": 0.8626989240515722, "train/extr_return_raw_mag": 13.1429277446172, "train/extr_return_raw_max": 13.1429277446172, "train/extr_return_raw_mean": 3.912707217752117, "train/extr_return_raw_min": -0.6869375664893895, "train/extr_return_raw_std": 3.0001525225704664, "train/extr_reward_mag": 1.0847163722939688, "train/extr_reward_max": 1.0847163722939688, "train/extr_reward_mean": 0.06329282301746003, "train/extr_reward_min": -0.5972455805295134, "train/extr_reward_std": 0.24148307312024783, "train/image_loss_mean": 3.4279381053088462, "train/image_loss_std": 8.755918639979951, "train/model_loss_mean": 6.98889401840837, "train/model_loss_std": 12.90493084633187, "train/model_opt_grad_norm": 22.614268329045544, "train/model_opt_grad_steps": 543364.493150685, "train/model_opt_loss": 18138.683821168663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.692024962542808, "train/policy_entropy_max": 2.692024962542808, "train/policy_entropy_mean": 0.41240023790973507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6198709329513654, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4111331280780165, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0336475143693897, "train/policy_randomness_mag": 0.9501666728764364, "train/policy_randomness_max": 0.9501666728764364, "train/policy_randomness_mean": 0.1455591868047845, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21878724045132938, "train/post_ent_mag": 54.907786016594876, "train/post_ent_max": 54.907786016594876, "train/post_ent_mean": 40.20672853025672, "train/post_ent_min": 19.673257252941394, "train/post_ent_std": 5.809438868744732, "train/prior_ent_mag": 76.76383271935867, "train/prior_ent_max": 76.76383271935867, "train/prior_ent_mean": 46.06106661443841, "train/prior_ent_min": 27.85493986573938, "train/prior_ent_std": 7.806595077253368, "train/rep_loss_mean": 5.832785266719452, "train/rep_loss_std": 8.924529807208335, "train/reward_avg": 0.04684556910946761, "train/reward_loss_mean": 0.06121576398815194, "train/reward_loss_std": 0.21738538411382127, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.034081516200549, "train/reward_neg_acc": 0.9924878445390153, "train/reward_neg_loss": 0.025763564653796693, "train/reward_pos_acc": 0.991527063389347, "train/reward_pos_loss": 0.7196229108392376, "train/reward_pred": 0.046538161496593525, "train/reward_rate": 0.051142444349315065, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.6, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 20.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5058990567922592, "replay/size": 1000000.0, "replay/inserts": 1469.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2899816317003224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319219695774671e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9973678588867, "timer/env.step_count": 1469.0, "timer/env.step_total": 15.714397668838501, "timer/env.step_frac": 0.05238178515029594, "timer/env.step_avg": 0.010697343545839687, "timer/env.step_min": 0.0027573108673095703, "timer/env.step_max": 1.5860755443572998, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2905294895172119, "timer/replay.add_frac": 0.000968440128627634, "timer/replay.add_avg": 0.00019777364841198905, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.005314350128173828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02376556396484375, "timer/logger.write_frac": 7.921924160355513e-05, "timer/logger.write_avg": 0.02376556396484375, "timer/logger.write_min": 0.02376556396484375, "timer/logger.write_max": 0.02376556396484375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.835735559463501, "timer/agent.policy_frac": 0.03611943543638167, "timer/agent.policy_avg": 0.007376266548307353, "timer/agent.policy_min": 0.005786895751953125, "timer/agent.policy_max": 0.015111446380615234, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059911489486694336, "timer/dataset_frac": 0.00019970671714318375, "timer/dataset_avg": 8.162328267942007e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.4193341732025, "timer/agent.train_frac": 0.9080724144931285, "timer/agent.train_avg": 0.37114350704795984, "timer/agent.train_min": 0.36387133598327637, "timer/agent.train_max": 0.3876969814300537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21611618995666504, "timer/agent.report_frac": 0.0007203936204477706, "timer/agent.report_avg": 0.21611618995666504, "timer/agent.report_min": 0.21611618995666504, "timer/agent.report_max": 0.21611618995666504, "fps": 4.896617275979943}
+{"step": 1089488, "episode/length": 250.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 15.900000058114529, "episode/reward_rate": 0.055776892430278883}
+{"step": 1089760, "episode/length": 271.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.058823529411764705}
+{"step": 1089961, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04975124378109453}
+{"step": 1090208, "episode/length": 246.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.05263157894736842}
+{"step": 1090408, "episode/length": 199.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.075}
+{"step": 1090547, "episode/length": 138.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07194244604316546}
+{"step": 1090729, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 1090867, "episode/length": 137.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07971014492753623}
+{"step": 1090873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471550739986796, "train/action_min": 0.0, "train/action_std": 3.3226830623519255, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03755942656015846, "train/actor_opt_grad_steps": 544530.0, "train/actor_opt_loss": -12.782020040590998, "train/adv_mag": 0.36914100487467266, "train/adv_max": 0.3012902623331043, "train/adv_mean": 0.001693841472676378, "train/adv_min": -0.3448800257813763, "train/adv_std": 0.0419283808327057, "train/cont_avg": 0.9952547315140845, "train/cont_loss_mean": 4.985922987803944e-06, "train/cont_loss_std": 0.00014578302328296033, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002532327793863637, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 3.351852714132119e-06, "train/cont_pred": 0.9952531255466838, "train/cont_rate": 0.9952547315140845, "train/dyn_loss_mean": 5.7693708648144355, "train/dyn_loss_std": 9.01169004574628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8921176732425958, "train/extr_critic_critic_opt_grad_steps": 544530.0, "train/extr_critic_critic_opt_loss": 15295.462766835388, "train/extr_critic_mag": 12.503665198742503, "train/extr_critic_max": 12.503665198742503, "train/extr_critic_mean": 3.901594658972512, "train/extr_critic_min": -0.3332555327616947, "train/extr_critic_std": 2.952698166941253, "train/extr_return_normed_mag": 1.3650927896230993, "train/extr_return_normed_max": 1.3650927896230993, "train/extr_return_normed_mean": 0.4011563549579029, "train/extr_return_normed_min": -0.07375975052865458, "train/extr_return_normed_std": 0.3085987666543101, "train/extr_return_rate": 0.8649675871284914, "train/extr_return_raw_mag": 13.226998624667315, "train/extr_return_raw_max": 13.226998624667315, "train/extr_return_raw_mean": 3.917948648963176, "train/extr_return_raw_min": -0.6687511377771136, "train/extr_return_raw_std": 2.9803255645322126, "train/extr_reward_mag": 1.0835571893503968, "train/extr_reward_max": 1.0835571893503968, "train/extr_reward_mean": 0.06391700918615704, "train/extr_reward_min": -0.5987895072346002, "train/extr_reward_std": 0.2422839600435445, "train/image_loss_mean": 3.470295916140919, "train/image_loss_std": 8.90858946383839, "train/model_loss_mean": 6.992150058209057, "train/model_loss_std": 13.11419785190636, "train/model_opt_grad_norm": 20.33360690801916, "train/model_opt_grad_steps": 544083.9577464788, "train/model_opt_loss": 18631.63806668134, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.681616766352049, "train/policy_entropy_max": 2.681616766352049, "train/policy_entropy_mean": 0.41435291859465584, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6197377833682047, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41458098779261954, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0398258827102016, "train/policy_randomness_mag": 0.9464930388289439, "train/policy_randomness_max": 0.9464930388289439, "train/policy_randomness_mean": 0.14624839737801484, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21874024183817312, "train/post_ent_mag": 55.56032734185877, "train/post_ent_max": 55.56032734185877, "train/post_ent_mean": 40.20338837529572, "train/post_ent_min": 19.735039214013327, "train/post_ent_std": 5.848374541376678, "train/prior_ent_mag": 76.8116708674901, "train/prior_ent_max": 76.8116708674901, "train/prior_ent_mean": 45.96978695291868, "train/prior_ent_min": 27.45753871219259, "train/prior_ent_std": 7.939398631243638, "train/rep_loss_mean": 5.7693708648144355, "train/rep_loss_std": 9.01169004574628, "train/reward_avg": 0.045444541728832354, "train/reward_loss_mean": 0.060226780008262315, "train/reward_loss_std": 0.21925230492168749, "train/reward_max_data": 1.0366197270406803, "train/reward_max_pred": 1.0308642185909647, "train/reward_neg_acc": 0.9922558220339494, "train/reward_neg_loss": 0.025311318239275838, "train/reward_pos_acc": 0.9905049448281946, "train/reward_pos_loss": 0.7252728091159337, "train/reward_pred": 0.04500603350535245, "train/reward_rate": 0.049928477112676055, "stats/sum_log_reward": 11.725000143051147, "stats/max_log_achievement_collect_coal": 1.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 16.75, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.34873902052640915, "replay/size": 1000000.0, "replay/inserts": 1425.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.264410453930236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3230475603614582e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2110562324524, "timer/env.step_count": 1425.0, "timer/env.step_total": 21.806787967681885, "timer/env.step_frac": 0.07263819074936721, "timer/env.step_avg": 0.015303009100127638, "timer/env.step_min": 0.0028455257415771484, "timer/env.step_max": 1.7998554706573486, "timer/replay.add_count": 1425.0, "timer/replay.add_total": 0.27431511878967285, "timer/replay.add_frac": 0.0009137408935974416, "timer/replay.add_avg": 0.00019250183774713884, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.003942966461181641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03131914138793945, "timer/logger.write_frac": 0.00010432374403855783, "timer/logger.write_avg": 0.03131914138793945, "timer/logger.write_min": 0.03131914138793945, "timer/logger.write_max": 0.03131914138793945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003414154052734375, "timer/checkpoint.save_frac": 1.137251271016084e-06, "timer/checkpoint.save_avg": 0.0003414154052734375, "timer/checkpoint.save_min": 0.0003414154052734375, "timer/checkpoint.save_max": 0.0003414154052734375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4100182056427002, "timer/agent.save_frac": 0.004696756419759997, "timer/agent.save_avg": 1.4100182056427002, "timer/agent.save_min": 1.4100182056427002, "timer/agent.save_max": 1.4100182056427002, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.5413436223823104e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1425.0, "timer/agent.policy_total": 12.446131229400635, "timer/agent.policy_frac": 0.04145793757763418, "timer/agent.policy_avg": 0.00873412717852676, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 1.404874324798584, "timer/dataset_count": 713.0, "timer/dataset_total": 0.058357954025268555, "timer/dataset_frac": 0.0001943897561856689, "timer/dataset_avg": 8.184846286853935e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00018262863159179688, "timer/agent.train_count": 713.0, "timer/agent.train_total": 264.9418206214905, "timer/agent.train_frac": 0.8825185319502254, "timer/agent.train_avg": 0.3715874062012489, "timer/agent.train_min": 0.36263513565063477, "timer/agent.train_max": 0.8040492534637451, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21785616874694824, "timer/agent.report_frac": 0.0007256767005218587, "timer/agent.report_avg": 0.21785616874694824, "timer/agent.report_min": 0.21785616874694824, "timer/agent.report_max": 0.21785616874694824, "fps": 4.746562737258819}
+{"step": 1091140, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05128205128205128}
+{"step": 1091334, "episode/length": 193.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.06701030927835051}
+{"step": 1091577, "episode/length": 242.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04526748971193416}
+{"step": 1091783, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05339805825242718}
+{"step": 1092007, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05803571428571429}
+{"step": 1092276, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.69999998062849, "episode/reward_rate": 0.05947955390334572}
+{"step": 1092335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442550032106165, "train/action_min": 0.0, "train/action_std": 3.3027385358941066, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03729384933432488, "train/actor_opt_grad_steps": 545250.0, "train/actor_opt_loss": -11.34537391425812, "train/adv_mag": 0.38510204116775565, "train/adv_max": 0.31817981968187303, "train/adv_mean": 0.0017283053944644451, "train/adv_min": -0.35526653879309356, "train/adv_std": 0.04149178849303559, "train/cont_avg": 0.9954248715753424, "train/cont_loss_mean": 3.879717984384819e-05, "train/cont_loss_std": 0.0011254259625532116, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004865303668712255, "train/cont_pos_acc": 0.9999999893854742, "train/cont_pos_loss": 1.801376771267819e-05, "train/cont_pred": 0.9954266107245667, "train/cont_rate": 0.9954248715753424, "train/dyn_loss_mean": 5.690210022338449, "train/dyn_loss_std": 8.870970118535707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8900430553579983, "train/extr_critic_critic_opt_grad_steps": 545250.0, "train/extr_critic_critic_opt_loss": 15252.811483304795, "train/extr_critic_mag": 12.499836477514815, "train/extr_critic_max": 12.499836477514815, "train/extr_critic_mean": 3.903429201204483, "train/extr_critic_min": -0.32761620985318535, "train/extr_critic_std": 2.93717507466878, "train/extr_return_normed_mag": 1.367998524887921, "train/extr_return_normed_max": 1.367998524887921, "train/extr_return_normed_mean": 0.40200452588192404, "train/extr_return_normed_min": -0.07032724301496597, "train/extr_return_normed_std": 0.3076164634668664, "train/extr_return_rate": 0.8680874117433208, "train/extr_return_raw_mag": 13.22637705606957, "train/extr_return_raw_max": 13.22637705606957, "train/extr_return_raw_mean": 3.9200960120109665, "train/extr_return_raw_min": -0.6302693633184041, "train/extr_return_raw_std": 2.9634806228010624, "train/extr_reward_mag": 1.0826765086552868, "train/extr_reward_max": 1.0826765086552868, "train/extr_reward_mean": 0.06224871758524686, "train/extr_reward_min": -0.562455949718005, "train/extr_reward_std": 0.239312058646385, "train/image_loss_mean": 3.29109242027753, "train/image_loss_std": 8.365900797386692, "train/model_loss_mean": 6.766105370978787, "train/model_loss_std": 12.448358483510475, "train/model_opt_grad_norm": 22.851882359752917, "train/model_opt_grad_steps": 544802.7260273972, "train/model_opt_loss": 14485.949285637842, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2157.5342465753424, "train/policy_entropy_mag": 2.694036754843307, "train/policy_entropy_max": 2.694036754843307, "train/policy_entropy_mean": 0.41248528230680176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6252792726640832, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41215456695589303, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0386814221943894, "train/policy_randomness_mag": 0.9508767503581635, "train/policy_randomness_max": 0.9508767503581635, "train/policy_randomness_mean": 0.14558920315275453, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22069614370391794, "train/post_ent_mag": 55.23791791314948, "train/post_ent_max": 55.23791791314948, "train/post_ent_mean": 40.29190037348499, "train/post_ent_min": 19.663946308501778, "train/post_ent_std": 5.700557989616916, "train/prior_ent_mag": 76.83021148263592, "train/prior_ent_max": 76.83021148263592, "train/prior_ent_mean": 45.894200468716555, "train/prior_ent_min": 27.822599907443948, "train/prior_ent_std": 7.756489505506542, "train/rep_loss_mean": 5.690210022338449, "train/rep_loss_std": 8.870970118535707, "train/reward_avg": 0.04591716570805197, "train/reward_loss_mean": 0.06084816407871573, "train/reward_loss_std": 0.22835513500318136, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.029344581577876, "train/reward_neg_acc": 0.9928324777786046, "train/reward_neg_loss": 0.02579967000151742, "train/reward_pos_acc": 0.9911298800821173, "train/reward_pos_loss": 0.724466913366971, "train/reward_pred": 0.045522223596703514, "train/reward_rate": 0.050299657534246575, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4493145744005839, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.2785000781517185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3341533501725517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2564239501953, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.129722356796265, "timer/env.step_frac": 0.057050310968992414, "timer/env.step_avg": 0.011716636358957774, "timer/env.step_min": 0.002721071243286133, "timer/env.step_max": 1.568401575088501, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2818589210510254, "timer/replay.add_frac": 0.0009387273629082401, "timer/replay.add_avg": 0.00019278995967922393, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.003943204879760742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02727961540222168, "timer/logger.write_frac": 9.085439386551362e-05, "timer/logger.write_avg": 0.02727961540222168, "timer/logger.write_min": 0.02727961540222168, "timer/logger.write_max": 0.02727961540222168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.769170761108398, "timer/agent.policy_frac": 0.035866579037438756, "timer/agent.policy_avg": 0.0073660538721671675, "timer/agent.policy_min": 0.005797624588012695, "timer/agent.policy_max": 0.014442205429077148, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05891919136047363, "timer/dataset_frac": 0.0001962295779898011, "timer/dataset_avg": 8.060080897465614e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.33320713043213, "timer/agent.train_frac": 0.9036716136186289, "timer/agent.train_avg": 0.3711808579075679, "timer/agent.train_min": 0.3652637004852295, "timer/agent.train_max": 0.38413023948669434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219679594039917, "timer/agent.report_frac": 0.0007316399467821415, "timer/agent.report_avg": 0.219679594039917, "timer/agent.report_min": 0.219679594039917, "timer/agent.report_max": 0.219679594039917, "fps": 4.869069673227779}
+{"step": 1092543, "episode/length": 266.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.0599250936329588}
+{"step": 1092844, "episode/length": 300.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.053156146179401995}
+{"step": 1093027, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07103825136612021}
+{"step": 1093162, "episode/length": 134.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.1037037037037037}
+{"step": 1093392, "episode/length": 229.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06086956521739131}
+{"step": 1093629, "episode/length": 236.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06751054852320675}
+{"step": 1093795, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.356592465753424, "train/action_min": 0.0, "train/action_std": 3.245576362087302, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733442363979882, "train/actor_opt_grad_steps": 545980.0, "train/actor_opt_loss": -13.45423794772527, "train/adv_mag": 0.41017639208329865, "train/adv_max": 0.3289469931631872, "train/adv_mean": 0.001428544397241825, "train/adv_min": -0.3650693464769076, "train/adv_std": 0.0419376050058293, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 5.967875369165459e-05, "train/cont_loss_std": 0.001800013837036615, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01085079847803969, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.3020207440109043e-05, "train/cont_pred": 0.9949786246639408, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.786191731283109, "train/dyn_loss_std": 8.938813823543184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9096092777709438, "train/extr_critic_critic_opt_grad_steps": 545980.0, "train/extr_critic_critic_opt_loss": 15268.976401969177, "train/extr_critic_mag": 12.615881188275063, "train/extr_critic_max": 12.615881188275063, "train/extr_critic_mean": 3.962092553099541, "train/extr_critic_min": -0.3458973381617298, "train/extr_critic_std": 3.036925782896068, "train/extr_return_normed_mag": 1.3809727283373272, "train/extr_return_normed_max": 1.3809727283373272, "train/extr_return_normed_mean": 0.40919222203019545, "train/extr_return_normed_min": -0.0717719873949273, "train/extr_return_normed_std": 0.3182380403557869, "train/extr_return_rate": 0.8637245387247164, "train/extr_return_raw_mag": 13.338511022802901, "train/extr_return_raw_max": 13.338511022802901, "train/extr_return_raw_mean": 3.9758529826386333, "train/extr_return_raw_min": -0.6577550879080002, "train/extr_return_raw_std": 3.0664114331545895, "train/extr_reward_mag": 1.0808969654449045, "train/extr_reward_max": 1.0808969654449045, "train/extr_reward_mean": 0.06399471782249948, "train/extr_reward_min": -0.5575439864642, "train/extr_reward_std": 0.24306341332115539, "train/image_loss_mean": 3.3078814924579776, "train/image_loss_std": 8.499197718215315, "train/model_loss_mean": 6.841224761858379, "train/model_loss_std": 12.645051877792568, "train/model_opt_grad_norm": 19.343977052871494, "train/model_opt_grad_steps": 545532.0, "train/model_opt_loss": 8551.53094900471, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.710403569757122, "train/policy_entropy_max": 2.710403569757122, "train/policy_entropy_mean": 0.4203942526284962, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6302812564862917, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4192471634851743, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0405378031404051, "train/policy_randomness_mag": 0.9566535157700108, "train/policy_randomness_max": 0.9566535157700108, "train/policy_randomness_mean": 0.14838072269746702, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2224616234841412, "train/post_ent_mag": 55.44328234946891, "train/post_ent_max": 55.44328234946891, "train/post_ent_mean": 40.168383350111036, "train/post_ent_min": 19.765021049813047, "train/post_ent_std": 5.786829870041102, "train/prior_ent_mag": 76.80013567780796, "train/prior_ent_max": 76.80013567780796, "train/prior_ent_mean": 45.96539797848218, "train/prior_ent_min": 27.924103854453726, "train/prior_ent_std": 7.92902693683154, "train/rep_loss_mean": 5.786191731283109, "train/rep_loss_std": 8.938813823543184, "train/reward_avg": 0.04742615537284172, "train/reward_loss_mean": 0.061568532700408, "train/reward_loss_std": 0.2217342153395692, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.0374656670714077, "train/reward_neg_acc": 0.9935151534537746, "train/reward_neg_loss": 0.025489768370577735, "train/reward_pos_acc": 0.9906430097475444, "train/reward_pos_loss": 0.7209604137564358, "train/reward_pred": 0.04716589518707909, "train/reward_rate": 0.05194509845890411, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5084093908468882, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.272050047573978e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3092405175509517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0806682109833, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.36903667449951, "timer/env.step_frac": 0.05788122499876447, "timer/env.step_avg": 0.011896600461985967, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.6050257682800293, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30693960189819336, "timer/replay.add_frac": 0.001022856966188797, "timer/replay.add_avg": 0.00021023260403985847, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.009969949722290039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025043725967407227, "timer/logger.write_frac": 8.345664556371645e-05, "timer/logger.write_avg": 0.025043725967407227, "timer/logger.write_min": 0.025043725967407227, "timer/logger.write_max": 0.025043725967407227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.776229858398438, "timer/agent.policy_frac": 0.035911109911358215, "timer/agent.policy_avg": 0.007380979355067423, "timer/agent.policy_min": 0.005738973617553711, "timer/agent.policy_max": 0.018259525299072266, "timer/dataset_count": 730.0, "timer/dataset_total": 0.0595700740814209, "timer/dataset_frac": 0.00019851353449912296, "timer/dataset_avg": 8.160284120742588e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.8913378715515, "timer/agent.train_frac": 0.9027283879583037, "timer/agent.train_avg": 0.3710840244815774, "timer/agent.train_min": 0.36456727981567383, "timer/agent.train_max": 0.38422155380249023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22015166282653809, "timer/agent.report_frac": 0.0007336416042360715, "timer/agent.report_avg": 0.22015166282653809, "timer/agent.report_min": 0.22015166282653809, "timer/agent.report_max": 0.22015166282653809, "fps": 4.865288882849284}
+{"step": 1093842, "episode/length": 212.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.07981220657276995}
+{"step": 1094101, "episode/length": 258.0, "episode/score": 15.100000031292439, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06563706563706563}
+{"step": 1094299, "episode/length": 197.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.0707070707070707}
+{"step": 1094545, "episode/length": 245.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.06504065040650407}
+{"step": 1094773, "episode/length": 227.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06140350877192982}
+{"step": 1095169, "episode/length": 395.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.03787878787878788}
+{"step": 1095233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.414599948459202, "train/action_min": 0.0, "train/action_std": 3.323421928617689, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03657571958481438, "train/actor_opt_grad_steps": 546705.0, "train/actor_opt_loss": -12.936937799056372, "train/adv_mag": 0.37045381404459476, "train/adv_max": 0.3159544300287962, "train/adv_mean": 0.0011513112101258433, "train/adv_min": -0.3318848204281595, "train/adv_std": 0.0414655278954241, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 8.685825969756422e-05, "train/cont_loss_std": 0.002762156903107401, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.021531221094400643, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.294550858748955e-06, "train/cont_pred": 0.9949945873684354, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.602480603588952, "train/dyn_loss_std": 8.895360754595863, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9307385434707006, "train/extr_critic_critic_opt_grad_steps": 546705.0, "train/extr_critic_critic_opt_loss": 15302.564208984375, "train/extr_critic_mag": 12.521851023038229, "train/extr_critic_max": 12.521851023038229, "train/extr_critic_mean": 3.8611041042539807, "train/extr_critic_min": -0.3707544108231862, "train/extr_critic_std": 3.0412403411335416, "train/extr_return_normed_mag": 1.3510490937365427, "train/extr_return_normed_max": 1.3510490937365427, "train/extr_return_normed_mean": 0.3994160095850627, "train/extr_return_normed_min": -0.07367288098774022, "train/extr_return_normed_std": 0.3160187134312259, "train/extr_return_rate": 0.856241005162398, "train/extr_return_raw_mag": 13.090672188334995, "train/extr_return_raw_max": 13.090672188334995, "train/extr_return_raw_mean": 3.872259179751078, "train/extr_return_raw_min": -0.7118615946835942, "train/extr_return_raw_std": 3.0618368718359203, "train/extr_reward_mag": 1.0797304775979784, "train/extr_reward_max": 1.0797304775979784, "train/extr_reward_mean": 0.06256927011741532, "train/extr_reward_min": -0.6044240941603979, "train/extr_reward_std": 0.2406588051882055, "train/image_loss_mean": 3.2719466818703546, "train/image_loss_std": 8.33553546667099, "train/model_loss_mean": 6.695081644588047, "train/model_loss_std": 12.444650305642021, "train/model_opt_grad_norm": 19.401196055942112, "train/model_opt_grad_steps": 546257.0, "train/model_opt_loss": 15910.671664767795, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.6778238117694855, "train/policy_entropy_max": 2.6778238117694855, "train/policy_entropy_mean": 0.4255670689874225, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6366263619727559, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.426916215982702, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.0508212794860203, "train/policy_randomness_mag": 0.9451542943716049, "train/policy_randomness_max": 0.9451542943716049, "train/policy_randomness_mean": 0.15020649797386593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22470116687731612, "train/post_ent_mag": 55.50409486558702, "train/post_ent_max": 55.50409486558702, "train/post_ent_mean": 40.32689693239, "train/post_ent_min": 19.738832871119182, "train/post_ent_std": 5.827871594164106, "train/prior_ent_mag": 76.76934878031413, "train/prior_ent_max": 76.76934878031413, "train/prior_ent_mean": 45.946044921875, "train/prior_ent_min": 28.14160508579678, "train/prior_ent_std": 7.8747031754917565, "train/rep_loss_mean": 5.602480603588952, "train/rep_loss_std": 8.895360754595863, "train/reward_avg": 0.04708658802943925, "train/reward_loss_mean": 0.061559680176691875, "train/reward_loss_std": 0.2208251046637694, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0255123012595706, "train/reward_neg_acc": 0.9929583999845717, "train/reward_neg_loss": 0.025513247625591855, "train/reward_pos_acc": 0.9909501820802689, "train/reward_pos_loss": 0.7255643076366849, "train/reward_pred": 0.046647239993843764, "train/reward_rate": 0.051554361979166664, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 14.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6044280628363291, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.256950325362374e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3148875826754723e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1591546535492, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.35598611831665, "timer/env.step_frac": 0.057822611268842826, "timer/env.step_avg": 0.01206953137574176, "timer/env.step_min": 0.002734661102294922, "timer/env.step_max": 1.5667057037353516, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3225123882293701, "timer/replay.add_frac": 0.001074471270421925, "timer/replay.add_avg": 0.0002242784340955286, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0045206546783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02901768684387207, "timer/logger.write_frac": 9.667433557828669e-05, "timer/logger.write_avg": 0.02901768684387207, "timer/logger.write_min": 0.02901768684387207, "timer/logger.write_max": 0.02901768684387207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004603862762451172, "timer/checkpoint.save_frac": 1.5338072122987751e-06, "timer/checkpoint.save_avg": 0.0004603862762451172, "timer/checkpoint.save_min": 0.0004603862762451172, "timer/checkpoint.save_max": 0.0004603862762451172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2397758960723877, "timer/agent.save_frac": 0.004130395081580525, "timer/agent.save_avg": 1.2397758960723877, "timer/agent.save_min": 1.2397758960723877, "timer/agent.save_max": 1.2397758960723877, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0493125881568305e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.901633262634277, "timer/agent.policy_frac": 0.04964577302276219, "timer/agent.policy_avg": 0.010362749139523142, "timer/agent.policy_min": 0.0057680606842041016, "timer/agent.policy_max": 2.965599298477173, "timer/dataset_count": 719.0, "timer/dataset_total": 0.060073137283325195, "timer/dataset_frac": 0.00020013761483524643, "timer/dataset_avg": 8.355095588779582e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.8363070487976, "timer/agent.train_frac": 0.8889827376972274, "timer/agent.train_avg": 0.37112142844060864, "timer/agent.train_min": 0.36382246017456055, "timer/agent.train_max": 0.3894484043121338, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21763014793395996, "timer/agent.report_frac": 0.0007250491766115008, "timer/agent.report_avg": 0.21763014793395996, "timer/agent.report_min": 0.21763014793395996, "timer/agent.report_max": 0.21763014793395996, "fps": 4.790690405590049}
+{"step": 1095416, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06072874493927125}
+{"step": 1095640, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0625}
+{"step": 1095868, "episode/length": 227.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.043859649122807015}
+{"step": 1096032, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
+{"step": 1096199, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05389221556886228}
+{"step": 1096242, "episode/length": 42.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.11627906976744186}
+{"step": 1096669, "episode/length": 426.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.03747072599531616}
+{"step": 1096687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.456839783550942, "train/action_min": 0.0, "train/action_std": 3.2741243382022804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03808083119865966, "train/actor_opt_grad_steps": 547430.0, "train/actor_opt_loss": -10.264624706686359, "train/adv_mag": 0.40704847770194486, "train/adv_max": 0.32518039745827243, "train/adv_mean": 0.0021022106653393554, "train/adv_min": -0.3659048084526846, "train/adv_std": 0.042337207710498, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 6.888484823059804e-05, "train/cont_loss_std": 0.00214862621436863, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.010435931226540749, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.800490860780453e-06, "train/cont_pred": 0.9949501769183433, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.6893669807747616, "train/dyn_loss_std": 8.955132314603622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9016566692966305, "train/extr_critic_critic_opt_grad_steps": 547430.0, "train/extr_critic_critic_opt_loss": 15510.830599850171, "train/extr_critic_mag": 12.268590835675802, "train/extr_critic_max": 12.268590835675802, "train/extr_critic_mean": 3.718677710180413, "train/extr_critic_min": -0.3497401279945896, "train/extr_critic_std": 2.9007689397628993, "train/extr_return_normed_mag": 1.3664425970756844, "train/extr_return_normed_max": 1.3664425970756844, "train/extr_return_normed_mean": 0.39488966987557605, "train/extr_return_normed_min": -0.07476151012496589, "train/extr_return_normed_std": 0.30848510093884923, "train/extr_return_rate": 0.8584323745884307, "train/extr_return_raw_mag": 12.937657264813986, "train/extr_return_raw_max": 12.937657264813986, "train/extr_return_raw_mean": 3.7385702361799265, "train/extr_return_raw_min": -0.7079530893123314, "train/extr_return_raw_std": 2.9210575312784273, "train/extr_reward_mag": 1.0737637526368442, "train/extr_reward_max": 1.0737637526368442, "train/extr_reward_mean": 0.06354611234305656, "train/extr_reward_min": -0.6222769070978034, "train/extr_reward_std": 0.2421966552326124, "train/image_loss_mean": 3.3901543617248535, "train/image_loss_std": 8.685719117726364, "train/model_loss_mean": 6.866984948720018, "train/model_loss_std": 12.827561417671099, "train/model_opt_grad_norm": 21.106496131583437, "train/model_opt_grad_steps": 546981.506849315, "train/model_opt_loss": 17647.47529163099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6713761172882498, "train/policy_entropy_max": 2.6713761172882498, "train/policy_entropy_mean": 0.4056260498010949, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6070176485466631, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4047371571602887, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0272962655106637, "train/policy_randomness_mag": 0.9428785369820791, "train/policy_randomness_max": 0.9428785369820791, "train/policy_randomness_mean": 0.1431681946532367, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21425058825375282, "train/post_ent_mag": 55.5148776328727, "train/post_ent_max": 55.5148776328727, "train/post_ent_mean": 40.244908006223916, "train/post_ent_min": 19.609841438188944, "train/post_ent_std": 5.829096526315768, "train/prior_ent_mag": 76.79725709680008, "train/prior_ent_max": 76.79725709680008, "train/prior_ent_mean": 45.93688316867776, "train/prior_ent_min": 27.969099854769773, "train/prior_ent_std": 7.905426410779561, "train/rep_loss_mean": 5.6893669807747616, "train/rep_loss_std": 8.955132314603622, "train/reward_avg": 0.04728301535424304, "train/reward_loss_mean": 0.06314151157459168, "train/reward_loss_std": 0.22787517594964538, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.036221589127632, "train/reward_neg_acc": 0.9925880228003411, "train/reward_neg_loss": 0.0268005441032248, "train/reward_pos_acc": 0.9882857709714811, "train/reward_pos_loss": 0.7264264805676186, "train/reward_pred": 0.046989006028599935, "train/reward_rate": 0.05185145547945205, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 14.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.4285714285714286, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3372123283999307, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2448867000280746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.305399111573273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0973958969116, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.355308532714844, "timer/env.step_frac": 0.061164504536454535, "timer/env.step_avg": 0.012624008619473758, "timer/env.step_min": 0.0027997493743896484, "timer/env.step_max": 1.5485432147979736, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2927396297454834, "timer/replay.add_frac": 0.0009754820726469891, "timer/replay.add_avg": 0.00020133399569840675, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.00425267219543457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027739524841308594, "timer/logger.write_frac": 9.243507348140261e-05, "timer/logger.write_avg": 0.027739524841308594, "timer/logger.write_min": 0.027739524841308594, "timer/logger.write_max": 0.027739524841308594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.720514059066772, "timer/agent.policy_frac": 0.035723449138990344, "timer/agent.policy_avg": 0.0073731183349840254, "timer/agent.policy_min": 0.005914211273193359, "timer/agent.policy_max": 0.01591324806213379, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05932736396789551, "timer/dataset_frac": 0.0001976936980428695, "timer/dataset_avg": 8.160572760370771e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.9828817844391, "timer/agent.train_frac": 0.8996508649384704, "timer/agent.train_avg": 0.37136572460032885, "timer/agent.train_min": 0.36226391792297363, "timer/agent.train_max": 0.38452601432800293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969366073608398, "timer/agent.report_frac": 0.0007320745322680253, "timer/agent.report_avg": 0.21969366073608398, "timer/agent.report_min": 0.21969366073608398, "timer/agent.report_max": 0.21969366073608398, "fps": 4.845010145227425}
+{"step": 1096851, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04945054945054945}
+{"step": 1097097, "episode/length": 245.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.06910569105691057}
+{"step": 1097278, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
+{"step": 1097465, "episode/length": 186.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06951871657754011}
+{"step": 1097577, "episode/length": 111.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.08928571428571429}
+{"step": 1097737, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.075}
+{"step": 1097918, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06629834254143646}
+{"step": 1098143, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394652484214469, "train/action_min": 0.0, "train/action_std": 3.2415177038271135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03748185958151948, "train/actor_opt_grad_steps": 548160.0, "train/actor_opt_loss": -9.516043156538515, "train/adv_mag": 0.38538304665317274, "train/adv_max": 0.3307702371927157, "train/adv_mean": 0.002687366398638242, "train/adv_min": -0.33530299467583224, "train/adv_std": 0.042408549060968505, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 5.38957997068496e-05, "train/cont_loss_std": 0.0016442166331072034, "train/cont_neg_acc": 0.996086107541437, "train/cont_neg_loss": 0.0059601835380543216, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 1.4131999135188007e-05, "train/cont_pred": 0.9951519982455528, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.834303411718917, "train/dyn_loss_std": 8.96511037382361, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8588103749980666, "train/extr_critic_critic_opt_grad_steps": 548160.0, "train/extr_critic_critic_opt_loss": 15275.156932255994, "train/extr_critic_mag": 12.272936729535665, "train/extr_critic_max": 12.272936729535665, "train/extr_critic_mean": 3.8587497129832227, "train/extr_critic_min": -0.3441937557638508, "train/extr_critic_std": 2.954575780319841, "train/extr_return_normed_mag": 1.3729455585349095, "train/extr_return_normed_max": 1.3729455585349095, "train/extr_return_normed_mean": 0.407522588151775, "train/extr_return_normed_min": -0.07386380280942133, "train/extr_return_normed_std": 0.31564048912427195, "train/extr_return_rate": 0.8530108871525282, "train/extr_return_raw_mag": 13.021000012959519, "train/extr_return_raw_max": 13.021000012959519, "train/extr_return_raw_mean": 3.884176819291833, "train/extr_return_raw_min": -0.6713096152429712, "train/extr_return_raw_std": 2.987431875646931, "train/extr_reward_mag": 1.078485368049308, "train/extr_reward_max": 1.078485368049308, "train/extr_reward_mean": 0.06496979622808222, "train/extr_reward_min": -0.619957398061883, "train/extr_reward_std": 0.2448101805089271, "train/image_loss_mean": 3.4158590836067724, "train/image_loss_std": 8.855818284700995, "train/model_loss_mean": 6.978913666450814, "train/model_loss_std": 12.987412230609214, "train/model_opt_grad_norm": 22.189917773416596, "train/model_opt_grad_steps": 547711.0, "train/model_opt_loss": 19763.16653735017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2808.219178082192, "train/policy_entropy_mag": 2.6892786123981214, "train/policy_entropy_max": 2.6892786123981214, "train/policy_entropy_mean": 0.4142435409434854, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6222072594786343, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4138860233026008, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0409383871783948, "train/policy_randomness_mag": 0.949197334785984, "train/policy_randomness_max": 0.949197334785984, "train/policy_randomness_mean": 0.14620979150680646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21961185785189066, "train/post_ent_mag": 55.71605264324032, "train/post_ent_max": 55.71605264324032, "train/post_ent_mean": 40.208897577573175, "train/post_ent_min": 19.606498626813497, "train/post_ent_std": 5.825991251697279, "train/prior_ent_mag": 76.74589758049952, "train/prior_ent_max": 76.74589758049952, "train/prior_ent_mean": 46.00627705822252, "train/prior_ent_min": 28.077612315138726, "train/prior_ent_std": 7.885441512277682, "train/rep_loss_mean": 5.834303411718917, "train/rep_loss_std": 8.96511037382361, "train/reward_avg": 0.04797196015715599, "train/reward_loss_mean": 0.06241867670865908, "train/reward_loss_std": 0.22531065589761082, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0264161188308507, "train/reward_neg_acc": 0.9929707589214796, "train/reward_neg_loss": 0.026063867423632373, "train/reward_pos_acc": 0.9903912038019259, "train/reward_pos_loss": 0.720558327354797, "train/reward_pred": 0.04769512020970044, "train/reward_rate": 0.052292915239726026, "stats/sum_log_reward": 10.81428609575544, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.314568002309118, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.224054535666665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319735259800167e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3311674594879, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.37177324295044, "timer/env.step_frac": 0.06117171720257317, "timer/env.step_avg": 0.012617976128400028, "timer/env.step_min": 0.002562999725341797, "timer/env.step_max": 1.558786153793335, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29367804527282715, "timer/replay.add_frac": 0.0009778473801339376, "timer/replay.add_avg": 0.00020170195417089777, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.003203153610229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029773950576782227, "timer/logger.write_frac": 9.913706535569099e-05, "timer/logger.write_avg": 0.029773950576782227, "timer/logger.write_min": 0.029773950576782227, "timer/logger.write_max": 0.029773950576782227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.700592517852783, "timer/agent.policy_frac": 0.03562931083167118, "timer/agent.policy_avg": 0.007349308047975812, "timer/agent.policy_min": 0.005593299865722656, "timer/agent.policy_max": 0.01801156997680664, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05911827087402344, "timer/dataset_frac": 0.00019684360892046937, "timer/dataset_avg": 8.120641603574648e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.22468304634094, "timer/agent.train_frac": 0.8997557107781426, "timer/agent.train_avg": 0.3711877514372815, "timer/agent.train_min": 0.36464810371398926, "timer/agent.train_max": 0.3870515823364258, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21955513954162598, "timer/agent.report_frac": 0.0007310434724402757, "timer/agent.report_avg": 0.21955513954162598, "timer/agent.report_min": 0.21955513954162598, "timer/agent.report_max": 0.21955513954162598, "fps": 4.847881972713466}
+{"step": 1098164, "episode/length": 245.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06504065040650407}
+{"step": 1098379, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06511627906976744}
+{"step": 1098650, "episode/length": 270.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04059040590405904}
+{"step": 1098869, "episode/length": 218.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0547945205479452}
+{"step": 1099366, "episode/length": 496.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.026156941649899398}
+{"step": 1099589, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381707933213976, "train/action_min": 0.0, "train/action_std": 3.2568220065699682, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037011118709213205, "train/actor_opt_grad_steps": 548885.0, "train/actor_opt_loss": -11.25648845380379, "train/adv_mag": 0.3882598773472839, "train/adv_max": 0.3083200624419583, "train/adv_mean": 0.0016287915589398632, "train/adv_min": -0.3644442827337318, "train/adv_std": 0.04182441170430846, "train/cont_avg": 0.9954291449652778, "train/cont_loss_mean": 7.023462339124838e-06, "train/cont_loss_std": 0.00018424432353075163, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002847254506670168, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 5.445909194120209e-06, "train/cont_pred": 0.9954254850745201, "train/cont_rate": 0.9954291449652778, "train/dyn_loss_mean": 5.761180977026622, "train/dyn_loss_std": 8.841620783011118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8839760820070902, "train/extr_critic_critic_opt_grad_steps": 548885.0, "train/extr_critic_critic_opt_loss": 15190.03857421875, "train/extr_critic_mag": 12.449622207217747, "train/extr_critic_max": 12.449622207217747, "train/extr_critic_mean": 3.8875780734750958, "train/extr_critic_min": -0.3039858705467648, "train/extr_critic_std": 2.9445119400819144, "train/extr_return_normed_mag": 1.376967610584365, "train/extr_return_normed_max": 1.376967610584365, "train/extr_return_normed_mean": 0.4066022021902932, "train/extr_return_normed_min": -0.06764623802155256, "train/extr_return_normed_std": 0.312911218446162, "train/extr_return_rate": 0.8654460103975402, "train/extr_return_raw_mag": 13.11722199122111, "train/extr_return_raw_max": 13.11722199122111, "train/extr_return_raw_mean": 3.90305452214347, "train/extr_return_raw_min": -0.6003506928682327, "train/extr_return_raw_std": 2.9717577745517096, "train/extr_reward_mag": 1.0746348566479154, "train/extr_reward_max": 1.0746348566479154, "train/extr_reward_mean": 0.06488318167005976, "train/extr_reward_min": -0.5814819253153272, "train/extr_reward_std": 0.24381598457694054, "train/image_loss_mean": 3.327805240948995, "train/image_loss_std": 8.742700490686628, "train/model_loss_mean": 6.846313469939762, "train/model_loss_std": 12.858240445454916, "train/model_opt_grad_norm": 21.122925784852768, "train/model_opt_grad_steps": 548435.0138888889, "train/model_opt_loss": 17371.568277994793, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.679819020960066, "train/policy_entropy_max": 2.679819020960066, "train/policy_entropy_mean": 0.400870045233104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6057342485421233, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002678632322285, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0253879063659244, "train/policy_randomness_mag": 0.9458585133155187, "train/policy_randomness_max": 0.9458585133155187, "train/policy_randomness_mean": 0.14148953381097978, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21379760901133218, "train/post_ent_mag": 55.90266752243042, "train/post_ent_max": 55.90266752243042, "train/post_ent_mean": 40.16789807213677, "train/post_ent_min": 19.63881466123793, "train/post_ent_std": 5.841633624500698, "train/prior_ent_mag": 76.78988975948758, "train/prior_ent_max": 76.78988975948758, "train/prior_ent_mean": 45.93529325061374, "train/prior_ent_min": 27.556086990568375, "train/prior_ent_std": 7.84995389646954, "train/rep_loss_mean": 5.761180977026622, "train/rep_loss_std": 8.841620783011118, "train/reward_avg": 0.048739962900678314, "train/reward_loss_mean": 0.06179265703798996, "train/reward_loss_std": 0.22566532364322078, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0240117145909204, "train/reward_neg_acc": 0.9934854267372025, "train/reward_neg_loss": 0.024817516868804686, "train/reward_pos_acc": 0.9911182067460484, "train/reward_pos_loss": 0.7274849853581853, "train/reward_pred": 0.04823394011085232, "train/reward_rate": 0.052775065104166664, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 12.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.4, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.39777180552482605, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3159308743509845e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3226583950417335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3154208660126, "timer/env.step_count": 1446.0, "timer/env.step_total": 16.54468607902527, "timer/env.step_frac": 0.05509103072801171, "timer/env.step_avg": 0.011441691617583172, "timer/env.step_min": 0.0029752254486083984, "timer/env.step_max": 1.6645338535308838, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.301358699798584, "timer/replay.add_frac": 0.0010034739439272313, "timer/replay.add_avg": 0.00020840850608477455, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002145528793334961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022756099700927734, "timer/logger.write_frac": 7.577399667092187e-05, "timer/logger.write_avg": 0.022756099700927734, "timer/logger.write_min": 0.022756099700927734, "timer/logger.write_max": 0.022756099700927734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024890899658203125, "timer/checkpoint.save_frac": 8.288252260382041e-07, "timer/checkpoint.save_avg": 0.00024890899658203125, "timer/checkpoint.save_min": 0.00024890899658203125, "timer/checkpoint.save_max": 0.00024890899658203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4416553974151611, "timer/agent.save_frac": 0.0048004707625665475, "timer/agent.save_avg": 1.4416553974151611, "timer/agent.save_min": 1.4416553974151611, "timer/agent.save_max": 1.4416553974151611, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.937980651855469e-05, "timer/replay.save_frac": 2.3102312334972928e-07, "timer/replay.save_avg": 6.937980651855469e-05, "timer/replay.save_min": 6.937980651855469e-05, "timer/replay.save_max": 6.937980651855469e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 12.061380863189697, "timer/agent.policy_frac": 0.04016237603919431, "timer/agent.policy_avg": 0.008341203916452072, "timer/agent.policy_min": 0.0058135986328125, "timer/agent.policy_max": 1.4403409957885742, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0592808723449707, "timer/dataset_frac": 0.0001973953657591869, "timer/dataset_avg": 8.199290780770498e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00017070770263671875, "timer/agent.train_count": 723.0, "timer/agent.train_total": 270.676876783371, "timer/agent.train_frac": 0.9013086174623547, "timer/agent.train_avg": 0.3743801891886182, "timer/agent.train_min": 0.3624908924102783, "timer/agent.train_max": 2.5829427242279053, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2168595790863037, "timer/agent.report_frac": 0.0007221060392468386, "timer/agent.report_avg": 0.2168595790863037, "timer/agent.report_min": 0.2168595790863037, "timer/agent.report_max": 0.2168595790863037, "fps": 4.814865824031032}
+{"step": 1099686, "episode/length": 319.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.040625}
+{"step": 1099896, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
+{"step": 1100091, "episode/length": 194.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.06666666666666667}
+{"step": 1100256, "episode/length": 164.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07272727272727272}
+{"step": 1100522, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05263157894736842}
+{"step": 1100560, "episode/length": 37.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.700000040233135, "episode/reward_rate": 0.15789473684210525}
+{"step": 1100783, "episode/length": 222.0, "episode/score": 12.100000075995922, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06726457399103139}
+{"step": 1100985, "episode/length": 201.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.054455445544554455}
+{"step": 1101035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474551730685764, "train/action_min": 0.0, "train/action_std": 3.353898058334986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0377565948292613, "train/actor_opt_grad_steps": 549605.0, "train/actor_opt_loss": -10.335565671945611, "train/adv_mag": 0.3931061596506172, "train/adv_max": 0.3142030129416121, "train/adv_mean": 0.002006578507158944, "train/adv_min": -0.36296198620564407, "train/adv_std": 0.04214880667212936, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 0.000245665186060309, "train/cont_loss_std": 0.0077485995075379475, "train/cont_neg_acc": 0.9944885381393962, "train/cont_neg_loss": 0.03261350246161096, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.7781617717618462e-05, "train/cont_pred": 0.9950455807977252, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.770617994997236, "train/dyn_loss_std": 9.003880944516924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772087593873342, "train/extr_critic_critic_opt_grad_steps": 549605.0, "train/extr_critic_critic_opt_loss": 15324.718939887152, "train/extr_critic_mag": 12.381009181340536, "train/extr_critic_max": 12.381009181340536, "train/extr_critic_mean": 3.8543340828683643, "train/extr_critic_min": -0.314270943403244, "train/extr_critic_std": 2.965705633163452, "train/extr_return_normed_mag": 1.372310436434216, "train/extr_return_normed_max": 1.372310436434216, "train/extr_return_normed_mean": 0.40409359004762435, "train/extr_return_normed_min": -0.07143367402669457, "train/extr_return_normed_std": 0.31526193188296425, "train/extr_return_rate": 0.8562039269341363, "train/extr_return_raw_mag": 13.064121511247423, "train/extr_return_raw_max": 13.064121511247423, "train/extr_return_raw_mean": 3.87339276737637, "train/extr_return_raw_min": -0.6412432048883703, "train/extr_return_raw_std": 2.992967860566245, "train/extr_reward_mag": 1.0783689883020189, "train/extr_reward_max": 1.0783689883020189, "train/extr_reward_mean": 0.06424088915809989, "train/extr_reward_min": -0.5531664590040842, "train/extr_reward_std": 0.24297315503160158, "train/image_loss_mean": 3.4731637471252017, "train/image_loss_std": 8.719628585709465, "train/model_loss_mean": 6.998175157441033, "train/model_loss_std": 12.89260603321923, "train/model_opt_grad_norm": 22.868695934613545, "train/model_opt_grad_steps": 549154.4444444445, "train/model_opt_loss": 18252.54206000434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6640845702754126, "train/policy_entropy_max": 2.6640845702754126, "train/policy_entropy_mean": 0.40368470590975547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5965524431731966, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4031166575021214, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.025773685839441, "train/policy_randomness_mag": 0.9403049432569079, "train/policy_randomness_max": 0.9403049432569079, "train/policy_randomness_mean": 0.14248298739807475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21055683410829967, "train/post_ent_mag": 55.796192222171356, "train/post_ent_max": 55.796192222171356, "train/post_ent_mean": 40.11805624432034, "train/post_ent_min": 19.495063066482544, "train/post_ent_std": 5.822372224595812, "train/prior_ent_mag": 76.8084945678711, "train/prior_ent_max": 76.8084945678711, "train/prior_ent_mean": 45.83612855275472, "train/prior_ent_min": 27.55057093832228, "train/prior_ent_std": 7.977988229857551, "train/rep_loss_mean": 5.770617994997236, "train/rep_loss_std": 9.003880944516924, "train/reward_avg": 0.04651150159123871, "train/reward_loss_mean": 0.06239493149850103, "train/reward_loss_std": 0.22710563842621115, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0279668403996363, "train/reward_neg_acc": 0.993281849556499, "train/reward_neg_loss": 0.026803258198520377, "train/reward_pos_acc": 0.9891421124339104, "train/reward_pos_loss": 0.7249947877393829, "train/reward_pred": 0.04608895003588663, "train/reward_rate": 0.05091688368055555, "stats/sum_log_reward": 10.850000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3776446981355548, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3306053235487984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3154242213501145e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1510856151581, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.23259973526001, "timer/env.step_frac": 0.067408051161279, "timer/env.step_avg": 0.01399211599948825, "timer/env.step_min": 0.0027828216552734375, "timer/env.step_max": 1.6224019527435303, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2776370048522949, "timer/replay.add_frac": 0.0009249908401406556, "timer/replay.add_avg": 0.00019200346117032843, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004712820053100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024164676666259766, "timer/logger.write_frac": 8.050837669547117e-05, "timer/logger.write_avg": 0.024164676666259766, "timer/logger.write_min": 0.024164676666259766, "timer/logger.write_max": 0.024164676666259766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.53976559638977, "timer/agent.policy_frac": 0.03511486748344946, "timer/agent.policy_avg": 0.0072889112008228014, "timer/agent.policy_min": 0.005825042724609375, "timer/agent.policy_max": 0.018510818481445312, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05856657028198242, "timer/dataset_frac": 0.00019512363302618262, "timer/dataset_avg": 8.100493814935329e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0001456737518310547, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.3567838668823, "timer/agent.train_frac": 0.8940723413239918, "timer/agent.train_avg": 0.37117120866788705, "timer/agent.train_min": 0.36257100105285645, "timer/agent.train_max": 0.3833012580871582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21721243858337402, "timer/agent.report_frac": 0.0007236770046598308, "timer/agent.report_avg": 0.21721243858337402, "timer/agent.report_min": 0.21721243858337402, "timer/agent.report_max": 0.21721243858337402, "fps": 4.81747707998441}
+{"step": 1101209, "episode/length": 223.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06696428571428571}
+{"step": 1101405, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07142857142857142}
+{"step": 1101641, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059322033898305086}
+{"step": 1101812, "episode/length": 170.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05847953216374269}
+{"step": 1101840, "episode/length": 27.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.10714285714285714}
+{"step": 1102027, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
+{"step": 1102238, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06635071090047394}
+{"step": 1102409, "episode/length": 170.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08771929824561403}
+{"step": 1102483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384947894370719, "train/action_min": 0.0, "train/action_std": 3.254333878216678, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03889977115474335, "train/actor_opt_grad_steps": 550330.0, "train/actor_opt_loss": -11.133394078849113, "train/adv_mag": 0.4126399285989265, "train/adv_max": 0.3504730020075628, "train/adv_mean": 0.0020198343342213176, "train/adv_min": -0.37710681843431026, "train/adv_std": 0.04274008065870363, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 1.208416018807714e-05, "train/cont_loss_std": 0.00029240887356816726, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003443226496002088, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 9.976205088350232e-06, "train/cont_pred": 0.9950159690151476, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.944359792421942, "train/dyn_loss_std": 9.070695223873608, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772688973439883, "train/extr_critic_critic_opt_grad_steps": 550330.0, "train/extr_critic_critic_opt_loss": 15435.733492080479, "train/extr_critic_mag": 12.355632181036961, "train/extr_critic_max": 12.355632181036961, "train/extr_critic_mean": 3.7971130201261336, "train/extr_critic_min": -0.3343023633303708, "train/extr_critic_std": 2.919415452708937, "train/extr_return_normed_mag": 1.3651669956233403, "train/extr_return_normed_max": 1.3651669956233403, "train/extr_return_normed_mean": 0.39713325851584136, "train/extr_return_normed_min": -0.0732269481028596, "train/extr_return_normed_std": 0.3100098428660876, "train/extr_return_rate": 0.8653521415305464, "train/extr_return_raw_mag": 13.017950123303557, "train/extr_return_raw_max": 13.017950123303557, "train/extr_return_raw_mean": 3.816325416303661, "train/extr_return_raw_min": -0.654683282114055, "train/extr_return_raw_std": 2.9471685331161708, "train/extr_reward_mag": 1.0856711145949691, "train/extr_reward_max": 1.0856711145949691, "train/extr_reward_mean": 0.06487037705844395, "train/extr_reward_min": -0.586109607187036, "train/extr_reward_std": 0.24431063173568413, "train/image_loss_mean": 3.4069642138807743, "train/image_loss_std": 8.791848091230001, "train/model_loss_mean": 7.03638690791718, "train/model_loss_std": 13.0077766000408, "train/model_opt_grad_norm": 22.594731827304788, "train/model_opt_grad_steps": 549878.9863013698, "train/model_opt_loss": 20378.04811911387, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.665514733693371, "train/policy_entropy_max": 2.665514733693371, "train/policy_entropy_mean": 0.3850696321627865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5766184562689638, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3860258260001875, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.0162201662586159, "train/policy_randomness_mag": 0.9408097275315899, "train/policy_randomness_max": 0.9408097275315899, "train/policy_randomness_mean": 0.13591268291212108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20352101040213075, "train/post_ent_mag": 55.51931031109535, "train/post_ent_max": 55.51931031109535, "train/post_ent_mean": 40.08859639625027, "train/post_ent_min": 19.780044425023746, "train/post_ent_std": 5.766315316500729, "train/prior_ent_mag": 76.64790563714014, "train/prior_ent_max": 76.64790563714014, "train/prior_ent_mean": 45.98375142763739, "train/prior_ent_min": 27.77936167259739, "train/prior_ent_std": 7.88208467666417, "train/rep_loss_mean": 5.944359792421942, "train/rep_loss_std": 9.070695223873608, "train/reward_avg": 0.046805436148831286, "train/reward_loss_mean": 0.06279481309529854, "train/reward_loss_std": 0.2292951510785377, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0300543275597978, "train/reward_neg_acc": 0.9924106548910272, "train/reward_neg_loss": 0.026720926701410175, "train/reward_pos_acc": 0.9876498808599499, "train/reward_pos_loss": 0.7309140595671249, "train/reward_pred": 0.046432865196711394, "train/reward_rate": 0.051262842465753425, "stats/sum_log_reward": 11.225000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 8.375, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.300320933572948, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2454893733915045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3283850079741925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2653720378876, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.072837114334106, "timer/env.step_frac": 0.06685032302626395, "timer/env.step_avg": 0.013862456570672725, "timer/env.step_min": 0.002714872360229492, "timer/env.step_max": 1.5857422351837158, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.272885799407959, "timer/replay.add_frac": 0.0009088154173619666, "timer/replay.add_avg": 0.00018845704379002692, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0037746429443359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022022247314453125, "timer/logger.write_frac": 7.334261411826853e-05, "timer/logger.write_avg": 0.022022247314453125, "timer/logger.write_min": 0.022022247314453125, "timer/logger.write_max": 0.022022247314453125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.628591537475586, "timer/agent.policy_frac": 0.035397326922314794, "timer/agent.policy_avg": 0.00734018752588093, "timer/agent.policy_min": 0.005830526351928711, "timer/agent.policy_max": 0.01459360122680664, "timer/dataset_count": 724.0, "timer/dataset_total": 0.058644771575927734, "timer/dataset_frac": 0.0001953098060489237, "timer/dataset_avg": 8.100106571260737e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013494491577148438, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.55462741851807, "timer/agent.train_frac": 0.8943909369097405, "timer/agent.train_avg": 0.3709318058266824, "timer/agent.train_min": 0.36186695098876953, "timer/agent.train_max": 0.38441014289855957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950745582580566, "timer/agent.report_frac": 0.0007310448565414601, "timer/agent.report_avg": 0.21950745582580566, "timer/agent.report_min": 0.21950745582580566, "timer/agent.report_max": 0.21950745582580566, "fps": 4.822302228431874}
+{"step": 1102639, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
+{"step": 1102853, "episode/length": 213.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06542056074766354}
+{"step": 1103277, "episode/length": 423.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03773584905660377}
+{"step": 1103429, "episode/length": 151.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05921052631578947}
+{"step": 1103643, "episode/length": 213.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06542056074766354}
+{"step": 1103848, "episode/length": 204.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.90000006556511, "episode/reward_rate": 0.07804878048780488}
+{"step": 1103925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.449532402886285, "train/action_min": 0.0, "train/action_std": 3.3048393958144717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03755640109173126, "train/actor_opt_grad_steps": 551055.0, "train/actor_opt_loss": -10.52942283782694, "train/adv_mag": 0.399834256619215, "train/adv_max": 0.33806968480348587, "train/adv_mean": 0.0019796800728626193, "train/adv_min": -0.34769954967002076, "train/adv_std": 0.042495414769897856, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 0.00013059882647483947, "train/cont_loss_std": 0.004031056355892638, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.011628088510734479, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6883694547529e-05, "train/cont_pred": 0.9950523724158605, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.720721655421787, "train/dyn_loss_std": 8.926336341434055, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8984103732638888, "train/extr_critic_critic_opt_grad_steps": 551055.0, "train/extr_critic_critic_opt_loss": 15327.96959092882, "train/extr_critic_mag": 12.38333076900906, "train/extr_critic_max": 12.38333076900906, "train/extr_critic_mean": 3.806501991218991, "train/extr_critic_min": -0.36130471527576447, "train/extr_critic_std": 2.9549325936370425, "train/extr_return_normed_mag": 1.390692659550243, "train/extr_return_normed_max": 1.390692659550243, "train/extr_return_normed_mean": 0.39947291442917454, "train/extr_return_normed_min": -0.07956592335055272, "train/extr_return_normed_std": 0.3136740233749151, "train/extr_return_rate": 0.8606708000103632, "train/extr_return_raw_mag": 13.268143773078918, "train/extr_return_raw_max": 13.268143773078918, "train/extr_return_raw_mean": 3.8253570993741355, "train/extr_return_raw_min": -0.7394015871816211, "train/extr_return_raw_std": 2.98936798175176, "train/extr_reward_mag": 1.0831070476108127, "train/extr_reward_max": 1.0831070476108127, "train/extr_reward_mean": 0.06286409067817861, "train/extr_reward_min": -0.6577121714750925, "train/extr_reward_std": 0.24103888869285583, "train/image_loss_mean": 3.3182303690248065, "train/image_loss_std": 8.30632648203108, "train/model_loss_mean": 6.81098790301217, "train/model_loss_std": 12.499939031071133, "train/model_opt_grad_norm": 20.510443210601807, "train/model_opt_grad_steps": 550603.0, "train/model_opt_loss": 17027.469767252605, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7035006417168512, "train/policy_entropy_max": 2.7035006417168512, "train/policy_entropy_mean": 0.41376034915447235, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6166686742670007, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4147377436359723, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.040346547961235, "train/policy_randomness_mag": 0.9542170912027359, "train/policy_randomness_max": 0.9542170912027359, "train/policy_randomness_mean": 0.14603924720237652, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21765698244174322, "train/post_ent_mag": 55.71390204959445, "train/post_ent_max": 55.71390204959445, "train/post_ent_mean": 40.19950193829007, "train/post_ent_min": 19.553116096390617, "train/post_ent_std": 5.818597224023607, "train/prior_ent_mag": 76.8627053366767, "train/prior_ent_max": 76.8627053366767, "train/prior_ent_mean": 45.9107232093811, "train/prior_ent_min": 27.50013762050205, "train/prior_ent_std": 7.948483016755846, "train/rep_loss_mean": 5.720721655421787, "train/rep_loss_std": 8.926336341434055, "train/reward_avg": 0.04476318314361075, "train/reward_loss_mean": 0.06019394901684589, "train/reward_loss_std": 0.22008000459108087, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0278125802675884, "train/reward_neg_acc": 0.9928663522005081, "train/reward_neg_loss": 0.02566005069658988, "train/reward_pos_acc": 0.9893220985929171, "train/reward_pos_loss": 0.7275626957416534, "train/reward_pred": 0.04441945604048669, "train/reward_rate": 0.04916720920138889, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46901119748751324, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.308099119739294e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3110955115330202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3097221851349, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.782848119735718, "timer/env.step_frac": 0.0625449218995197, "timer/env.step_avg": 0.01302555348109273, "timer/env.step_min": 0.0028488636016845703, "timer/env.step_max": 1.7753875255584717, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2843961715698242, "timer/replay.add_frac": 0.0009470095390201843, "timer/replay.add_avg": 0.0001972234199513344, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.00481867790222168, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02570176124572754, "timer/logger.write_frac": 8.55841797552026e-05, "timer/logger.write_avg": 0.02570176124572754, "timer/logger.write_min": 0.02570176124572754, "timer/logger.write_max": 0.02570176124572754, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020503997802734375, "timer/checkpoint.save_frac": 6.827617052668736e-07, "timer/checkpoint.save_avg": 0.00020503997802734375, "timer/checkpoint.save_min": 0.00020503997802734375, "timer/checkpoint.save_max": 0.00020503997802734375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1875510215759277, "timer/agent.save_frac": 0.003954420832382598, "timer/agent.save_avg": 1.1875510215759277, "timer/agent.save_min": 1.1875510215759277, "timer/agent.save_max": 1.1875510215759277, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3499705204534252e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.33859395980835, "timer/agent.policy_frac": 0.04108622881080705, "timer/agent.policy_avg": 0.008556583883362239, "timer/agent.policy_min": 0.005744218826293945, "timer/agent.policy_max": 1.1793265342712402, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05886125564575195, "timer/dataset_frac": 0.0001960018317670887, "timer/dataset_avg": 8.163835734500964e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1612067222595, "timer/agent.train_frac": 0.8929488022267342, "timer/agent.train_avg": 0.37192955162588004, "timer/agent.train_min": 0.3649132251739502, "timer/agent.train_max": 0.8079986572265625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21802902221679688, "timer/agent.report_frac": 0.0007260138653865704, "timer/agent.report_avg": 0.21802902221679688, "timer/agent.report_min": 0.21802902221679688, "timer/agent.report_max": 0.21802902221679688, "fps": 4.801640806021746}
+{"step": 1104029, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0718232044198895}
+{"step": 1104259, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06521739130434782}
+{"step": 1104413, "episode/length": 153.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.09740259740259741}
+{"step": 1104591, "episode/length": 177.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06741573033707865}
+{"step": 1104819, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06140350877192982}
+{"step": 1105001, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07142857142857142}
+{"step": 1105289, "episode/length": 287.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.04513888888888889}
+{"step": 1105381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418931934931507, "train/action_min": 0.0, "train/action_std": 3.269725988989007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03670162335038185, "train/actor_opt_grad_steps": 551780.0, "train/actor_opt_loss": -12.979449125185404, "train/adv_mag": 0.40811736698019996, "train/adv_max": 0.33350839026986734, "train/adv_mean": 0.0009769078897079453, "train/adv_min": -0.38079244694481157, "train/adv_std": 0.041606200016932944, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 0.00011193605018265833, "train/cont_loss_std": 0.0033452722283284744, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.0163065082160771, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.644911658518576e-05, "train/cont_pred": 0.9947934763072288, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.7303456280329454, "train/dyn_loss_std": 8.886259274939968, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8954597335972198, "train/extr_critic_critic_opt_grad_steps": 551780.0, "train/extr_critic_critic_opt_loss": 15060.86124785959, "train/extr_critic_mag": 12.40227343938122, "train/extr_critic_max": 12.40227343938122, "train/extr_critic_mean": 3.9037299090868807, "train/extr_critic_min": -0.3534469441191791, "train/extr_critic_std": 2.9879838015935194, "train/extr_return_normed_mag": 1.3753517082292739, "train/extr_return_normed_max": 1.3753517082292739, "train/extr_return_normed_mean": 0.4065408710747549, "train/extr_return_normed_min": -0.07349152235339766, "train/extr_return_normed_std": 0.31516668894519545, "train/extr_return_rate": 0.8686751290543439, "train/extr_return_raw_mag": 13.168186226936236, "train/extr_return_raw_max": 13.168186226936236, "train/extr_return_raw_mean": 3.9130707211690408, "train/extr_return_raw_min": -0.6725218520589071, "train/extr_return_raw_std": 3.0105928394892443, "train/extr_reward_mag": 1.0889368285871532, "train/extr_reward_max": 1.0889368285871532, "train/extr_reward_mean": 0.0640813757295478, "train/extr_reward_min": -0.6279275482648039, "train/extr_reward_std": 0.24300389461321373, "train/image_loss_mean": 3.3794486702304996, "train/image_loss_std": 8.769273366013618, "train/model_loss_mean": 6.88075318401807, "train/model_loss_std": 12.856038655320258, "train/model_opt_grad_norm": 22.484084821727176, "train/model_opt_grad_steps": 551327.3972602739, "train/model_opt_loss": 17598.152892230308, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6903945648506897, "train/policy_entropy_max": 2.6903945648506897, "train/policy_entropy_mean": 0.4081207044320564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6206515758004907, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4071725941684148, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0348613866387981, "train/policy_randomness_mag": 0.9495912194252014, "train/policy_randomness_max": 0.9495912194252014, "train/policy_randomness_mean": 0.14404869824647903, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2190627698620705, "train/post_ent_mag": 55.398084771143246, "train/post_ent_max": 55.398084771143246, "train/post_ent_mean": 40.126980298186, "train/post_ent_min": 19.529575844333596, "train/post_ent_std": 5.8073542281372905, "train/prior_ent_mag": 76.75187777166497, "train/prior_ent_max": 76.75187777166497, "train/prior_ent_mean": 45.880876776290265, "train/prior_ent_min": 28.017620870511827, "train/prior_ent_std": 7.915871162937112, "train/rep_loss_mean": 5.7303456280329454, "train/rep_loss_std": 8.886259274939968, "train/reward_avg": 0.0484736190521962, "train/reward_loss_mean": 0.06298517170425964, "train/reward_loss_std": 0.2221197879885974, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0357656054300806, "train/reward_neg_acc": 0.9923877169008124, "train/reward_neg_loss": 0.026497293263673782, "train/reward_pos_acc": 0.9902392838099231, "train/reward_pos_loss": 0.7182520358529809, "train/reward_pred": 0.04816549873515351, "train/reward_rate": 0.05289490582191781, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.40580895968845915, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.274325486067887e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.320287912756532e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2256233692169, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.51794695854187, "timer/env.step_frac": 0.06168010162066857, "timer/env.step_avg": 0.012718370163833701, "timer/env.step_min": 0.002731800079345703, "timer/env.step_max": 1.6072258949279785, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2815663814544678, "timer/replay.add_frac": 0.0009378492691418213, "timer/replay.add_avg": 0.0001933835037462004, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.004118442535400391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024863719940185547, "timer/logger.write_frac": 8.281678179616332e-05, "timer/logger.write_avg": 0.024863719940185547, "timer/logger.write_min": 0.024863719940185547, "timer/logger.write_max": 0.024863719940185547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.6259126663208, "timer/agent.policy_frac": 0.03539309052663061, "timer/agent.policy_avg": 0.007298016941154396, "timer/agent.policy_min": 0.005880594253540039, "timer/agent.policy_max": 0.019516944885253906, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05891251564025879, "timer/dataset_frac": 0.00019622747378829917, "timer/dataset_avg": 8.09237852201357e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00012969970703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.06112480163574, "timer/agent.train_frac": 0.8995272347874022, "timer/agent.train_avg": 0.3709630835187304, "timer/agent.train_min": 0.36438703536987305, "timer/agent.train_max": 0.3849058151245117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22073650360107422, "timer/agent.report_frac": 0.0007352353910499267, "timer/agent.report_avg": 0.22073650360107422, "timer/agent.report_min": 0.22073650360107422, "timer/agent.report_max": 0.22073650360107422, "fps": 4.8495781002657905}
+{"step": 1105717, "episode/length": 427.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.02336448598130841}
+{"step": 1105778, "episode/length": 60.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.04918032786885246}
+{"step": 1106031, "episode/length": 252.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.06719367588932806}
+{"step": 1106311, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05}
+{"step": 1106532, "episode/length": 220.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06787330316742081}
+{"step": 1106623, "episode/length": 90.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.12087912087912088}
+{"step": 1106792, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 1106837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489383273654514, "train/action_min": 0.0, "train/action_std": 3.305555221107271, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0388557479923798, "train/actor_opt_grad_steps": 552505.0, "train/actor_opt_loss": -12.650155037020644, "train/adv_mag": 0.4102619184801976, "train/adv_max": 0.3324185175200303, "train/adv_mean": 0.0022744513882773593, "train/adv_min": -0.3805497640536891, "train/adv_std": 0.043482168577611446, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 0.00015865903866895003, "train/cont_loss_std": 0.004919846729099693, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.03952133404745115, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.7764014794844723e-05, "train/cont_pred": 0.9949664647380511, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.89036500453949, "train/dyn_loss_std": 8.860333442687988, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9158976525068283, "train/extr_critic_critic_opt_grad_steps": 552505.0, "train/extr_critic_critic_opt_loss": 15466.152031792535, "train/extr_critic_mag": 12.340225921736824, "train/extr_critic_max": 12.340225921736824, "train/extr_critic_mean": 3.7771314713690014, "train/extr_critic_min": -0.3130844682455063, "train/extr_critic_std": 2.945321715540356, "train/extr_return_normed_mag": 1.3863222118881013, "train/extr_return_normed_max": 1.3863222118881013, "train/extr_return_normed_mean": 0.40006855958037907, "train/extr_return_normed_min": -0.07426177671489616, "train/extr_return_normed_std": 0.31488578021526337, "train/extr_return_rate": 0.8500036572416624, "train/extr_return_raw_mag": 13.109427875942654, "train/extr_return_raw_max": 13.109427875942654, "train/extr_return_raw_mean": 3.7985969020260706, "train/extr_return_raw_min": -0.6802845034334395, "train/extr_return_raw_std": 2.973269358277321, "train/extr_reward_mag": 1.0869102080663045, "train/extr_reward_max": 1.0869102080663045, "train/extr_reward_mean": 0.06603541545983818, "train/extr_reward_min": -0.6230764521492852, "train/extr_reward_std": 0.24614373449650076, "train/image_loss_mean": 3.507034477260378, "train/image_loss_std": 8.714492943551805, "train/model_loss_mean": 7.1045566068755255, "train/model_loss_std": 12.817848496966892, "train/model_opt_grad_norm": 21.121512681665553, "train/model_opt_grad_steps": 552051.8472222222, "train/model_opt_loss": 19224.367133246527, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.681202510992686, "train/policy_entropy_max": 2.681202510992686, "train/policy_entropy_mean": 0.41261869048078853, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139721684157848, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41181571160753566, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0344312687714894, "train/policy_randomness_mag": 0.9463468235399988, "train/policy_randomness_max": 0.9463468235399988, "train/policy_randomness_mean": 0.14563629176053736, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2167052331690987, "train/post_ent_mag": 55.86317014694214, "train/post_ent_max": 55.86317014694214, "train/post_ent_mean": 40.253460778130425, "train/post_ent_min": 19.767162402470905, "train/post_ent_std": 5.8663179477055865, "train/prior_ent_mag": 76.68756527370877, "train/prior_ent_max": 76.68756527370877, "train/prior_ent_mean": 46.132663779788544, "train/prior_ent_min": 28.12482844458686, "train/prior_ent_std": 7.838994012938605, "train/rep_loss_mean": 5.89036500453949, "train/rep_loss_std": 8.860333442687988, "train/reward_avg": 0.04813910580964552, "train/reward_loss_mean": 0.06314445680214299, "train/reward_loss_std": 0.2289190331680907, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0316015250153012, "train/reward_neg_acc": 0.9932707357737753, "train/reward_neg_loss": 0.026257679836514097, "train/reward_pos_acc": 0.9884812343451712, "train/reward_pos_loss": 0.7274493094947603, "train/reward_pred": 0.047679421621271305, "train/reward_rate": 0.0526123046875, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4275821489947183, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.170181106735062e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3694740258730376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1478006839752, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.577637195587158, "timer/env.step_frac": 0.06189496359211208, "timer/env.step_avg": 0.012759366205760412, "timer/env.step_min": 0.002788066864013672, "timer/env.step_max": 1.6264123916625977, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.28676533699035645, "timer/replay.add_frac": 0.0009554137539468125, "timer/replay.add_avg": 0.00019695421496590415, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.004364013671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03193354606628418, "timer/logger.write_frac": 0.00010639273715654149, "timer/logger.write_avg": 0.03193354606628418, "timer/logger.write_min": 0.03193354606628418, "timer/logger.write_max": 0.03193354606628418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.675637006759644, "timer/agent.policy_frac": 0.035567933472882556, "timer/agent.policy_avg": 0.0073321682738733815, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 0.0158231258392334, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06011557579040527, "timer/dataset_frac": 0.00020028657765745482, "timer/dataset_avg": 8.257634037143582e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.8627142906189, "timer/agent.train_frac": 0.8990994226033213, "timer/agent.train_avg": 0.370690541607993, "timer/agent.train_min": 0.36356544494628906, "timer/agent.train_max": 0.38301825523376465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22114205360412598, "timer/agent.report_frac": 0.0007367771914376472, "timer/agent.report_avg": 0.22114205360412598, "timer/agent.report_min": 0.22114205360412598, "timer/agent.report_max": 0.22114205360412598, "fps": 4.850843707032203}
+{"step": 1107043, "episode/length": 250.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.06772908366533864}
+{"step": 1107202, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07547169811320754}
+{"step": 1107563, "episode/length": 360.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.04155124653739612}
+{"step": 1107750, "episode/length": 186.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0748663101604278}
+{"step": 1108030, "episode/length": 279.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.05}
+{"step": 1108257, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06607929515418502}
+{"step": 1108277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406311882866754, "train/action_min": 0.0, "train/action_std": 3.236332873503367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037467039526543684, "train/actor_opt_grad_steps": 553225.0, "train/actor_opt_loss": -11.070580609970623, "train/adv_mag": 0.36549173874987495, "train/adv_max": 0.31125864076117676, "train/adv_mean": 0.002138575303534809, "train/adv_min": -0.33358834745983285, "train/adv_std": 0.04257594747468829, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 7.865028388959811e-05, "train/cont_loss_std": 0.002400154342252689, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.00975367179910839, "train/cont_pos_acc": 0.9999863546755579, "train/cont_pos_loss": 2.8756749066537344e-05, "train/cont_pred": 0.995173761414157, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.8878692454761925, "train/dyn_loss_std": 8.988036380873787, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9045382605658637, "train/extr_critic_critic_opt_grad_steps": 553225.0, "train/extr_critic_critic_opt_loss": 15371.342800564236, "train/extr_critic_mag": 12.260105596648323, "train/extr_critic_max": 12.260105596648323, "train/extr_critic_mean": 3.7595742444197335, "train/extr_critic_min": -0.3133066131008996, "train/extr_critic_std": 2.8869596421718597, "train/extr_return_normed_mag": 1.364662367436621, "train/extr_return_normed_max": 1.364662367436621, "train/extr_return_normed_mean": 0.39564670746525127, "train/extr_return_normed_min": -0.06937901934401856, "train/extr_return_normed_std": 0.30856921151280403, "train/extr_return_rate": 0.8663710306088129, "train/extr_return_raw_mag": 12.937743994924757, "train/extr_return_raw_max": 12.937743994924757, "train/extr_return_raw_mean": 3.779790553781721, "train/extr_return_raw_min": -0.6155021054049333, "train/extr_return_raw_std": 2.9164618717299566, "train/extr_reward_mag": 1.0881970160537295, "train/extr_reward_max": 1.0881970160537295, "train/extr_reward_mean": 0.06446232144824332, "train/extr_reward_min": -0.5675467252731323, "train/extr_reward_std": 0.24362870388560826, "train/image_loss_mean": 3.459232280651728, "train/image_loss_std": 8.737616141637167, "train/model_loss_mean": 7.055149270428552, "train/model_loss_std": 12.90104709731208, "train/model_opt_grad_norm": 20.386027640766567, "train/model_opt_grad_steps": 552771.0, "train/model_opt_loss": 17637.873141818578, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.697966867023044, "train/policy_entropy_max": 2.697966867023044, "train/policy_entropy_mean": 0.3950854399138027, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6070201281044219, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39457828882667756, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0252324044704437, "train/policy_randomness_mag": 0.9522639057702489, "train/policy_randomness_max": 0.9522639057702489, "train/policy_randomness_mean": 0.1394478233738078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21425146899289554, "train/post_ent_mag": 55.67393101586236, "train/post_ent_max": 55.67393101586236, "train/post_ent_mean": 40.29870006773207, "train/post_ent_min": 19.573692295286392, "train/post_ent_std": 5.849632766511705, "train/prior_ent_mag": 76.81147045559354, "train/prior_ent_max": 76.81147045559354, "train/prior_ent_mean": 46.16538869010078, "train/prior_ent_min": 27.654780679278904, "train/prior_ent_std": 7.910882665051354, "train/rep_loss_mean": 5.8878692454761925, "train/rep_loss_std": 8.988036380873787, "train/reward_avg": 0.04880913597945538, "train/reward_loss_mean": 0.06311687118270332, "train/reward_loss_std": 0.22663156170811918, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0264055464002821, "train/reward_neg_acc": 0.9927538683017095, "train/reward_neg_loss": 0.025913246493372653, "train/reward_pos_acc": 0.9908047144611677, "train/reward_pos_loss": 0.7232905998826027, "train/reward_pred": 0.048404571005246706, "train/reward_rate": 0.05320909288194445, "stats/sum_log_reward": 13.600000063578287, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48595617959896725, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.245969613393148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118816746605768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2654459476471, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.24911093711853, "timer/env.step_frac": 0.06410697999687488, "timer/env.step_avg": 0.013367438150776758, "timer/env.step_min": 0.0029439926147460938, "timer/env.step_max": 1.81312894821167, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2613368034362793, "timer/replay.add_frac": 0.0008703525729092543, "timer/replay.add_avg": 0.00018148389127519394, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.002123594284057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026773691177368164, "timer/logger.write_frac": 8.916674075789694e-05, "timer/logger.write_avg": 0.026773691177368164, "timer/logger.write_min": 0.026773691177368164, "timer/logger.write_max": 0.026773691177368164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003254413604736328, "timer/checkpoint.save_frac": 1.0838455269021374e-06, "timer/checkpoint.save_avg": 0.0003254413604736328, "timer/checkpoint.save_min": 0.0003254413604736328, "timer/checkpoint.save_max": 0.0003254413604736328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1651639938354492, "timer/agent.save_frac": 0.003880446483471168, "timer/agent.save_avg": 1.1651639938354492, "timer/agent.save_min": 1.1651639938354492, "timer/agent.save_max": 1.1651639938354492, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.821487426757812e-05, "timer/replay.save_frac": 2.937896300027772e-07, "timer/replay.save_avg": 8.821487426757812e-05, "timer/replay.save_min": 8.821487426757812e-05, "timer/replay.save_max": 8.821487426757812e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.374565601348877, "timer/agent.policy_frac": 0.04121208673310498, "timer/agent.policy_avg": 0.008593448334270053, "timer/agent.policy_min": 0.005861043930053711, "timer/agent.policy_max": 1.164452075958252, "timer/dataset_count": 720.0, "timer/dataset_total": 0.059296607971191406, "timer/dataset_frac": 0.0001974806251317046, "timer/dataset_avg": 8.235639995998807e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.635244846344, "timer/agent.train_frac": 0.8913288174124693, "timer/agent.train_avg": 0.37171561784214446, "timer/agent.train_min": 0.36515140533447266, "timer/agent.train_max": 0.8209409713745117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21921920776367188, "timer/agent.report_frac": 0.000730084699129496, "timer/agent.report_avg": 0.21921920776367188, "timer/agent.report_min": 0.21921920776367188, "timer/agent.report_max": 0.21921920776367188, "fps": 4.79565790405653}
+{"step": 1108471, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07009345794392523}
+{"step": 1108735, "episode/length": 263.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.056818181818181816}
+{"step": 1109058, "episode/length": 322.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.043343653250773995}
+{"step": 1109285, "episode/length": 226.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05286343612334802}
+{"step": 1109583, "episode/length": 297.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.05704697986577181}
+{"step": 1109743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445124445734797, "train/action_min": 0.0, "train/action_std": 3.2560465948001758, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036659268561649964, "train/actor_opt_grad_steps": 553955.0, "train/actor_opt_loss": -10.859954573616788, "train/adv_mag": 0.3939818534496668, "train/adv_max": 0.3416940461139421, "train/adv_mean": 0.0018637098447298569, "train/adv_min": -0.3403959197772516, "train/adv_std": 0.04162650454688717, "train/cont_avg": 0.9948796452702703, "train/cont_loss_mean": 3.730377140045307e-05, "train/cont_loss_std": 0.0011202503251189916, "train/cont_neg_acc": 0.9984779300755018, "train/cont_neg_loss": 0.0033232850434467896, "train/cont_pos_acc": 0.9999999774468912, "train/cont_pos_loss": 1.0902600650226575e-05, "train/cont_pred": 0.9948833012903059, "train/cont_rate": 0.9948796452702703, "train/dyn_loss_mean": 5.779522786269316, "train/dyn_loss_std": 9.020776800207189, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.883013022107047, "train/extr_critic_critic_opt_grad_steps": 553955.0, "train/extr_critic_critic_opt_loss": 15203.270850929053, "train/extr_critic_mag": 12.360621478106525, "train/extr_critic_max": 12.360621478106525, "train/extr_critic_mean": 3.8241965480752893, "train/extr_critic_min": -0.33190719662485896, "train/extr_critic_std": 2.9968035398302852, "train/extr_return_normed_mag": 1.3713285729691789, "train/extr_return_normed_max": 1.3713285729691789, "train/extr_return_normed_mean": 0.4020743523095105, "train/extr_return_normed_min": -0.07832818065543433, "train/extr_return_normed_std": 0.3190633644526069, "train/extr_return_rate": 0.8619853693085748, "train/extr_return_raw_mag": 13.03437359268601, "train/extr_return_raw_max": 13.03437359268601, "train/extr_return_raw_mean": 3.8418586769619503, "train/extr_return_raw_min": -0.7147967231434744, "train/extr_return_raw_std": 3.0265501399297974, "train/extr_reward_mag": 1.0883411781207935, "train/extr_reward_max": 1.0883411781207935, "train/extr_reward_mean": 0.06392085501873815, "train/extr_reward_min": -0.6053216795663576, "train/extr_reward_std": 0.24265586584806442, "train/image_loss_mean": 3.5448689364098214, "train/image_loss_std": 8.753456714990977, "train/model_loss_mean": 7.073530976836746, "train/model_loss_std": 12.918806604436925, "train/model_opt_grad_norm": 21.428670457891517, "train/model_opt_grad_steps": 553500.2702702703, "train/model_opt_loss": 18131.248192039697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2567.5675675675675, "train/policy_entropy_mag": 2.674589595279178, "train/policy_entropy_max": 2.674589595279178, "train/policy_entropy_mean": 0.4133777264002207, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6173874018965541, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41348829261354497, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0380377817798305, "train/policy_randomness_mag": 0.9440127546722824, "train/policy_randomness_max": 0.9440127546722824, "train/policy_randomness_mean": 0.14590419778549993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21791065766199216, "train/post_ent_mag": 55.7042905962145, "train/post_ent_max": 55.7042905962145, "train/post_ent_mean": 40.20013690639187, "train/post_ent_min": 19.895057317372913, "train/post_ent_std": 5.880413899550566, "train/prior_ent_mag": 76.87886944332638, "train/prior_ent_max": 76.87886944332638, "train/prior_ent_mean": 45.93227798874314, "train/prior_ent_min": 27.841888401959395, "train/prior_ent_std": 7.9833864392461, "train/rep_loss_mean": 5.779522786269316, "train/rep_loss_std": 9.020776800207189, "train/reward_avg": 0.046290382163951524, "train/reward_loss_mean": 0.06091107297185305, "train/reward_loss_std": 0.22450672392104123, "train/reward_max_data": 1.0337837918384656, "train/reward_max_pred": 1.0320250246975873, "train/reward_neg_acc": 0.9929025213460665, "train/reward_neg_loss": 0.025177324278833898, "train/reward_pos_acc": 0.9894044673120653, "train/reward_pos_loss": 0.7280471131608293, "train/reward_pred": 0.04597662862490963, "train/reward_rate": 0.05076805320945946, "stats/sum_log_reward": 13.700000381469726, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 24.0, "stats/max_log_achievement_collect_wood": 15.2, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.570918881893158, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.2869562770952795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29467305837842e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0849380493164, "timer/env.step_count": 1466.0, "timer/env.step_total": 16.237632513046265, "timer/env.step_frac": 0.05411012168287416, "timer/env.step_avg": 0.01107614768966321, "timer/env.step_min": 0.0027565956115722656, "timer/env.step_max": 1.6492326259613037, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27712273597717285, "timer/replay.add_frac": 0.0009234809910107188, "timer/replay.add_avg": 0.00018903324418633892, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0006418228149414062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022258996963500977, "timer/logger.write_frac": 7.417565542674088e-05, "timer/logger.write_avg": 0.022258996963500977, "timer/logger.write_min": 0.022258996963500977, "timer/logger.write_max": 0.022258996963500977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.804927587509155, "timer/agent.policy_frac": 0.03600623096162679, "timer/agent.policy_avg": 0.007370346239774322, "timer/agent.policy_min": 0.005770683288574219, "timer/agent.policy_max": 0.014991044998168945, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05942392349243164, "timer/dataset_frac": 0.00019802367915801834, "timer/dataset_avg": 8.106947270454522e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.0310266017914, "timer/agent.train_frac": 0.9065134303977809, "timer/agent.train_avg": 0.3711200908619255, "timer/agent.train_min": 0.36399030685424805, "timer/agent.train_max": 0.3862926959991455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183218002319336, "timer/agent.report_frac": 0.000727533349894603, "timer/agent.report_avg": 0.2183218002319336, "timer/agent.report_min": 0.2183218002319336, "timer/agent.report_max": 0.2183218002319336, "fps": 4.88518321525971}
+{"step": 1109831, "episode/length": 247.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056451612903225805}
+{"step": 1110048, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06912442396313365}
+{"step": 1110225, "episode/length": 176.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07909604519774012}
+{"step": 1110427, "episode/length": 201.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06930693069306931}
+{"step": 1110651, "episode/length": 223.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 16.300000078976154, "episode/reward_rate": 0.0625}
+{"step": 1110901, "episode/length": 249.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.064}
+{"step": 1111135, "episode/length": 233.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05982905982905983}
+{"step": 1111195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486519707573785, "train/action_min": 0.0, "train/action_std": 3.3125100433826447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653022900430693, "train/actor_opt_grad_steps": 554685.0, "train/actor_opt_loss": -12.11865451435248, "train/adv_mag": 0.38750182692375446, "train/adv_max": 0.3340735834919744, "train/adv_mean": 0.00129890958238674, "train/adv_min": -0.33744401836560833, "train/adv_std": 0.04109848978825741, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 3.770959360988652e-05, "train/cont_loss_std": 0.0011166255691440103, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004297122457493665, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 8.406900396569958e-06, "train/cont_pred": 0.9949866649177339, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.7696433663368225, "train/dyn_loss_std": 9.00201987557941, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8935762014653947, "train/extr_critic_critic_opt_grad_steps": 554685.0, "train/extr_critic_critic_opt_loss": 15179.021484375, "train/extr_critic_mag": 12.363030870755514, "train/extr_critic_max": 12.363030870755514, "train/extr_critic_mean": 3.721077326271269, "train/extr_critic_min": -0.32821958098146653, "train/extr_critic_std": 2.942926052543852, "train/extr_return_normed_mag": 1.3865319656001196, "train/extr_return_normed_max": 1.3865319656001196, "train/extr_return_normed_mean": 0.3913140319701698, "train/extr_return_normed_min": -0.0714419623836875, "train/extr_return_normed_std": 0.3136955476883385, "train/extr_return_rate": 0.8618743204408221, "train/extr_return_raw_mag": 13.150817857848274, "train/extr_return_raw_max": 13.150817857848274, "train/extr_return_raw_mean": 3.7333469225300684, "train/extr_return_raw_min": -0.6452984035842948, "train/extr_return_raw_std": 2.968416232201788, "train/extr_reward_mag": 1.0852969917986128, "train/extr_reward_max": 1.0852969917986128, "train/extr_reward_mean": 0.0628813323047426, "train/extr_reward_min": -0.5886518524752723, "train/extr_reward_std": 0.24098219349980354, "train/image_loss_mean": 3.5050910777515836, "train/image_loss_std": 8.84529271390703, "train/model_loss_mean": 7.029068715042538, "train/model_loss_std": 13.02738826804691, "train/model_opt_grad_norm": 20.407494995329117, "train/model_opt_grad_steps": 554229.6666666666, "train/model_opt_loss": 18046.21826171875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6916924582587347, "train/policy_entropy_max": 2.6916924582587347, "train/policy_entropy_mean": 0.4213068607366747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.629079514907466, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42133945578502285, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0440068907207913, "train/policy_randomness_mag": 0.9500493200288879, "train/policy_randomness_max": 0.9500493200288879, "train/policy_randomness_mean": 0.14870282997273737, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22203746241413885, "train/post_ent_mag": 55.28888432184855, "train/post_ent_max": 55.28888432184855, "train/post_ent_mean": 40.113142543368866, "train/post_ent_min": 20.03284670246972, "train/post_ent_std": 5.833461397224003, "train/prior_ent_mag": 76.8060572942098, "train/prior_ent_max": 76.8060572942098, "train/prior_ent_mean": 45.85037390391032, "train/prior_ent_min": 27.601679695977104, "train/prior_ent_std": 7.965880705250634, "train/rep_loss_mean": 5.7696433663368225, "train/rep_loss_std": 9.00201987557941, "train/reward_avg": 0.04670681431889534, "train/reward_loss_mean": 0.06215390216352211, "train/reward_loss_std": 0.2239321433007717, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.029541078541014, "train/reward_neg_acc": 0.9926377344462607, "train/reward_neg_loss": 0.026738007384766307, "train/reward_pos_acc": 0.990621363123258, "train/reward_pos_loss": 0.7182006488243738, "train/reward_pred": 0.04652446911980709, "train/reward_rate": 0.051228841145833336, "stats/sum_log_reward": 13.385714394705635, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 20.857142857142858, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3578854224511555, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.287943269924027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3122258107524273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16911721229553, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.847513914108276, "timer/env.step_frac": 0.06278965034493643, "timer/env.step_avg": 0.012980381483545645, "timer/env.step_min": 0.0027680397033691406, "timer/env.step_max": 1.6186749935150146, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2915680408477783, "timer/replay.add_frac": 0.0009713458984575216, "timer/replay.add_avg": 0.00020080443584557736, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.003908634185791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026457548141479492, "timer/logger.write_frac": 8.814213929532034e-05, "timer/logger.write_avg": 0.026457548141479492, "timer/logger.write_min": 0.026457548141479492, "timer/logger.write_max": 0.026457548141479492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.73800802230835, "timer/agent.policy_frac": 0.03577319386495667, "timer/agent.policy_avg": 0.007395322329413464, "timer/agent.policy_min": 0.0057353973388671875, "timer/agent.policy_max": 0.01851940155029297, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05929708480834961, "timer/dataset_frac": 0.0001975455881639268, "timer/dataset_avg": 8.167642535585345e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001881122589111328, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.53995180130005, "timer/agent.train_frac": 0.8979603041930097, "timer/agent.train_avg": 0.37126715124146015, "timer/agent.train_min": 0.36365509033203125, "timer/agent.train_max": 0.38515734672546387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220123291015625, "timer/agent.report_frac": 0.000733330907123074, "timer/agent.report_avg": 0.220123291015625, "timer/agent.report_min": 0.220123291015625, "timer/agent.report_max": 0.220123291015625, "fps": 4.837167294580519}
+{"step": 1111195, "episode/length": 59.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.16666666666666666}
+{"step": 1111260, "episode/length": 64.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.12307692307692308}
+{"step": 1111596, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.044642857142857144}
+{"step": 1112147, "episode/length": 550.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.02722323049001815}
+{"step": 1112324, "episode/length": 176.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0903954802259887}
+{"step": 1112378, "episode/length": 53.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 1112605, "episode/length": 226.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.06167400881057269}
+{"step": 1112627, "stats/sum_log_reward": 10.528571469443184, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.5318277563367572, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.455999586317274, "train/action_min": 0.0, "train/action_std": 3.299568792184194, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03649624685446421, "train/actor_opt_grad_steps": 555405.0, "train/actor_opt_loss": -12.288506728907427, "train/adv_mag": 0.376299658169349, "train/adv_max": 0.31954796467390323, "train/adv_mean": 0.0016613242879783582, "train/adv_min": -0.3384530415965451, "train/adv_std": 0.0413760467328959, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 6.417735319964714e-06, "train/cont_loss_std": 0.00017667333510355357, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.346647907368631e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 6.181614568667726e-06, "train/cont_pred": 0.9947998209132088, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.831666092077891, "train/dyn_loss_std": 8.988787061638302, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9058401576346822, "train/extr_critic_critic_opt_grad_steps": 555405.0, "train/extr_critic_critic_opt_loss": 15262.760999891492, "train/extr_critic_mag": 12.34786123699612, "train/extr_critic_max": 12.34786123699612, "train/extr_critic_mean": 3.691701332728068, "train/extr_critic_min": -0.3537805825471878, "train/extr_critic_std": 2.946672519048055, "train/extr_return_normed_mag": 1.3714112275176578, "train/extr_return_normed_max": 1.3714112275176578, "train/extr_return_normed_mean": 0.3912254838893811, "train/extr_return_normed_min": -0.0707514232231511, "train/extr_return_normed_std": 0.3146685918586122, "train/extr_return_rate": 0.8479772946900792, "train/extr_return_raw_mag": 12.965166012446085, "train/extr_return_raw_max": 12.965166012446085, "train/extr_return_raw_mean": 3.7073879738648734, "train/extr_return_raw_min": -0.6556318414707979, "train/extr_return_raw_std": 2.9720000293519764, "train/extr_reward_mag": 1.08860292368465, "train/extr_reward_max": 1.08860292368465, "train/extr_reward_mean": 0.06487640246955885, "train/extr_reward_min": -0.5906837069325976, "train/extr_reward_std": 0.24449983280566004, "train/image_loss_mean": 3.486578502588802, "train/image_loss_std": 8.854391627841526, "train/model_loss_mean": 7.047430223888821, "train/model_loss_std": 13.00715380244785, "train/model_opt_grad_norm": 23.172419640753006, "train/model_opt_grad_steps": 554948.2222222222, "train/model_opt_loss": 10799.460157606336, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1527.7777777777778, "train/policy_entropy_mag": 2.7032246126068964, "train/policy_entropy_max": 2.7032246126068964, "train/policy_entropy_mean": 0.4100839164521959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6169403456151485, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41089692028860253, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0370840223299131, "train/policy_randomness_mag": 0.9541196624437968, "train/policy_randomness_max": 0.9541196624437968, "train/policy_randomness_mean": 0.1447416271807419, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21775286655045217, "train/post_ent_mag": 55.5162017610338, "train/post_ent_max": 55.5162017610338, "train/post_ent_mean": 40.24803818596734, "train/post_ent_min": 19.64235602484809, "train/post_ent_std": 5.8585378130276995, "train/prior_ent_mag": 76.82121170891656, "train/prior_ent_max": 76.82121170891656, "train/prior_ent_mean": 46.07622141308255, "train/prior_ent_min": 27.502457009421455, "train/prior_ent_std": 7.92558538251453, "train/rep_loss_mean": 5.831666092077891, "train/rep_loss_std": 8.988787061638302, "train/reward_avg": 0.04786919445420305, "train/reward_loss_mean": 0.06184563377044267, "train/reward_loss_std": 0.22092708510657152, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0217260320981343, "train/reward_neg_acc": 0.9932150799367163, "train/reward_neg_loss": 0.025628327624872327, "train/reward_pos_acc": 0.9901987546020083, "train/reward_pos_loss": 0.7185532607965999, "train/reward_pred": 0.047620342035467424, "train/reward_rate": 0.052435980902777776, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3323658245235847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.302769397224128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1891739368439, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.521989345550537, "timer/env.step_frac": 0.06836352249621139, "timer/env.step_avg": 0.014330998146334173, "timer/env.step_min": 0.002912759780883789, "timer/env.step_max": 1.7979321479797363, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27822065353393555, "timer/replay.add_frac": 0.0009268177459073516, "timer/replay.add_avg": 0.0001942881658756533, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0029249191284179688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03840947151184082, "timer/logger.write_frac": 0.00012795088846182608, "timer/logger.write_avg": 0.03840947151184082, "timer/logger.write_min": 0.03840947151184082, "timer/logger.write_max": 0.03840947151184082, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033664703369140625, "timer/checkpoint.save_frac": 1.1214496155088947e-06, "timer/checkpoint.save_avg": 0.00033664703369140625, "timer/checkpoint.save_min": 0.00033664703369140625, "timer/checkpoint.save_max": 0.00033664703369140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4083836078643799, "timer/agent.save_frac": 0.004691653564297714, "timer/agent.save_avg": 1.4083836078643799, "timer/agent.save_min": 1.4083836078643799, "timer/agent.save_max": 1.4083836078643799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010204315185546875, "timer/replay.save_frac": 3.399294868539709e-07, "timer/replay.save_avg": 0.00010204315185546875, "timer/replay.save_min": 0.00010204315185546875, "timer/replay.save_max": 0.00010204315185546875, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.484575271606445, "timer/agent.policy_frac": 0.04158902570628029, "timer/agent.policy_avg": 0.008718278820954222, "timer/agent.policy_min": 0.0054738521575927734, "timer/agent.policy_max": 1.4056792259216309, "timer/dataset_count": 716.0, "timer/dataset_total": 0.057840824127197266, "timer/dataset_frac": 0.00019268124619099776, "timer/dataset_avg": 8.078327392066657e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00020313262939453125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.1434473991394, "timer/agent.train_frac": 0.8865857616008921, "timer/agent.train_avg": 0.3717087254177925, "timer/agent.train_min": 0.3644144535064697, "timer/agent.train_max": 0.8144180774688721, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21774721145629883, "timer/agent.report_frac": 0.0007253666366466307, "timer/agent.report_avg": 0.21774721145629883, "timer/agent.report_min": 0.21774721145629883, "timer/agent.report_max": 0.21774721145629883, "fps": 4.770219737615727}
+{"step": 1112870, "episode/length": 264.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06037735849056604}
+{"step": 1112937, "episode/length": 66.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.11940298507462686}
+{"step": 1113105, "episode/length": 167.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07738095238095238}
+{"step": 1113335, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05217391304347826}
+{"step": 1113553, "episode/length": 217.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07339449541284404}
+{"step": 1113842, "episode/length": 288.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05190311418685121}
+{"step": 1114066, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05803571428571429}
+{"step": 1114081, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375039296607449, "train/action_min": 0.0, "train/action_std": 3.2070099001061427, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037961725375219565, "train/actor_opt_grad_steps": 556130.0, "train/actor_opt_loss": -9.986284990016728, "train/adv_mag": 0.37398418049289756, "train/adv_max": 0.3206453752027799, "train/adv_mean": 0.002471480337477908, "train/adv_min": -0.32825785793670237, "train/adv_std": 0.042436841467063724, "train/cont_avg": 0.995210830479452, "train/cont_loss_mean": 9.76391239942443e-06, "train/cont_loss_std": 0.00021149369641777524, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.48098117055887e-05, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.489631438959991e-06, "train/cont_pred": 0.9952019485708785, "train/cont_rate": 0.995210830479452, "train/dyn_loss_mean": 5.843095394030009, "train/dyn_loss_std": 9.00218866949212, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9288909819028149, "train/extr_critic_critic_opt_grad_steps": 556130.0, "train/extr_critic_critic_opt_loss": 15484.847937178938, "train/extr_critic_mag": 12.387212792487993, "train/extr_critic_max": 12.387212792487993, "train/extr_critic_mean": 3.7091228570023627, "train/extr_critic_min": -0.3709021953687276, "train/extr_critic_std": 2.9664679259470064, "train/extr_return_normed_mag": 1.3835020849149522, "train/extr_return_normed_max": 1.3835020849149522, "train/extr_return_normed_mean": 0.3916694709699448, "train/extr_return_normed_min": -0.0748663411973274, "train/extr_return_normed_std": 0.3153110330235468, "train/extr_return_rate": 0.8497387309596963, "train/extr_return_raw_mag": 13.159517549488642, "train/extr_return_raw_max": 13.159517549488642, "train/extr_return_raw_mean": 3.732620066159392, "train/extr_return_raw_min": -0.7022864132711332, "train/extr_return_raw_std": 2.997129348859395, "train/extr_reward_mag": 1.0797892270022875, "train/extr_reward_max": 1.0797892270022875, "train/extr_reward_mean": 0.06485084398356203, "train/extr_reward_min": -0.6110613068489179, "train/extr_reward_std": 0.24451420629677706, "train/image_loss_mean": 3.4966924027220845, "train/image_loss_std": 8.835018295131318, "train/model_loss_mean": 7.064377053143227, "train/model_loss_std": 13.014981622565282, "train/model_opt_grad_norm": 20.459431713574553, "train/model_opt_grad_steps": 555673.0, "train/model_opt_loss": 12319.943713880564, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.705534383042218, "train/policy_entropy_max": 2.705534383042218, "train/policy_entropy_mean": 0.4040924378045618, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139745932735808, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051007269179984, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.0352116806866372, "train/policy_randomness_mag": 0.9549349056531306, "train/policy_randomness_max": 0.9549349056531306, "train/policy_randomness_mean": 0.14262689813359142, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21670608855273626, "train/post_ent_mag": 55.61444812931427, "train/post_ent_max": 55.61444812931427, "train/post_ent_mean": 40.187050336027795, "train/post_ent_min": 19.332826000370392, "train/post_ent_std": 5.871049756873144, "train/prior_ent_mag": 76.84097331843964, "train/prior_ent_max": 76.84097331843964, "train/prior_ent_mean": 45.98816294212864, "train/prior_ent_min": 27.66214846258294, "train/prior_ent_std": 7.955763287740211, "train/rep_loss_mean": 5.843095394030009, "train/rep_loss_std": 9.00218866949212, "train/reward_avg": 0.04535129444341954, "train/reward_loss_mean": 0.061817625716124494, "train/reward_loss_std": 0.23853480121860765, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.027102973363171, "train/reward_neg_acc": 0.9930554171131082, "train/reward_neg_loss": 0.025958132655806328, "train/reward_pos_acc": 0.9833302506028789, "train/reward_pos_loss": 0.7493242009045327, "train/reward_pred": 0.04472113367527315, "train/reward_rate": 0.04964415667808219, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 16.428571428571427, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3809336679322379, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.310148456893564e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3100518812995502e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3399586677551, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.005252599716187, "timer/env.step_frac": 0.06327913436500254, "timer/env.step_avg": 0.013071012792101917, "timer/env.step_min": 0.002690553665161133, "timer/env.step_max": 1.6734910011291504, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2743854522705078, "timer/replay.add_frac": 0.0009135829061428387, "timer/replay.add_avg": 0.00018871076497283893, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0023467540740966797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02238154411315918, "timer/logger.write_frac": 7.452070051697084e-05, "timer/logger.write_avg": 0.02238154411315918, "timer/logger.write_min": 0.02238154411315918, "timer/logger.write_max": 0.02238154411315918, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.690603971481323, "timer/agent.policy_frac": 0.03559501046381771, "timer/agent.policy_avg": 0.00735254743568179, "timer/agent.policy_min": 0.005864858627319336, "timer/agent.policy_max": 0.014215469360351562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05789303779602051, "timer/dataset_frac": 0.00019275835973615315, "timer/dataset_avg": 7.963278926550277e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001323223114013672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.63508009910583, "timer/agent.train_frac": 0.897766255596326, "timer/agent.train_avg": 0.3708873178804757, "timer/agent.train_min": 0.36488938331604004, "timer/agent.train_max": 0.38466596603393555, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972370147705078, "timer/agent.report_frac": 0.0007315833112973009, "timer/agent.report_avg": 0.21972370147705078, "timer/agent.report_min": 0.21972370147705078, "timer/agent.report_max": 0.21972370147705078, "fps": 4.841074918641088}
+{"step": 1114248, "episode/length": 181.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08241758241758242}
+{"step": 1114308, "episode/length": 59.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.100000023841858, "episode/reward_rate": 0.1}
+{"step": 1114498, "episode/length": 189.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07368421052631578}
+{"step": 1114658, "episode/length": 159.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06875}
+{"step": 1114886, "episode/length": 227.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.06140350877192982}
+{"step": 1115107, "episode/length": 220.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07239819004524888}
+{"step": 1115325, "episode/length": 217.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06880733944954129}
+{"step": 1115537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.371372646755642, "train/action_min": 0.0, "train/action_std": 3.2483055823379092, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03693266008566651, "train/actor_opt_grad_steps": 556855.0, "train/actor_opt_loss": -10.648971984111187, "train/adv_mag": 0.41455484098858303, "train/adv_max": 0.3336395677179098, "train/adv_mean": 0.0017510108765337565, "train/adv_min": -0.37014522693223423, "train/adv_std": 0.04240967374708918, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 1.0688170625093739e-05, "train/cont_loss_std": 0.0002772417048259652, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005808635727358026, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.107229280993363e-06, "train/cont_pred": 0.9951661518878407, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.743873841232723, "train/dyn_loss_std": 8.890304724375406, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9093730772535006, "train/extr_critic_critic_opt_grad_steps": 556855.0, "train/extr_critic_critic_opt_loss": 15303.659505208334, "train/extr_critic_mag": 12.436239414744907, "train/extr_critic_max": 12.436239414744907, "train/extr_critic_mean": 3.790092709991667, "train/extr_critic_min": -0.35249507427215576, "train/extr_critic_std": 3.008467995458179, "train/extr_return_normed_mag": 1.3769454111655552, "train/extr_return_normed_max": 1.3769454111655552, "train/extr_return_normed_mean": 0.39766259036130375, "train/extr_return_normed_min": -0.07673217470033301, "train/extr_return_normed_std": 0.3182451333850622, "train/extr_return_rate": 0.8571099647217326, "train/extr_return_raw_mag": 13.139809846878052, "train/extr_return_raw_max": 13.139809846878052, "train/extr_return_raw_mean": 3.8067836927043066, "train/extr_return_raw_min": -0.7140687828262647, "train/extr_return_raw_std": 3.0331357883082495, "train/extr_reward_mag": 1.0851387414667342, "train/extr_reward_max": 1.0851387414667342, "train/extr_reward_mean": 0.062159862679739795, "train/extr_reward_min": -0.6324052611986796, "train/extr_reward_std": 0.24015478334493107, "train/image_loss_mean": 3.4115189015865326, "train/image_loss_std": 8.284422364499834, "train/model_loss_mean": 6.918802784548865, "train/model_loss_std": 12.380016167958578, "train/model_opt_grad_norm": 21.22368946340349, "train/model_opt_grad_steps": 556398.0, "train/model_opt_loss": 17552.390855577258, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.71916507018937, "train/policy_entropy_max": 2.71916507018937, "train/policy_entropy_mean": 0.4226403890384568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6369303440054258, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4229763839393854, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0484941461020045, "train/policy_randomness_mag": 0.9597459394070837, "train/policy_randomness_max": 0.9597459394070837, "train/policy_randomness_mean": 0.14917350829475456, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2248084596875641, "train/post_ent_mag": 55.056388749016655, "train/post_ent_max": 55.056388749016655, "train/post_ent_mean": 40.11497428682115, "train/post_ent_min": 19.80868731604682, "train/post_ent_std": 5.818812522623274, "train/prior_ent_mag": 76.81989171769884, "train/prior_ent_max": 76.81989171769884, "train/prior_ent_mean": 45.81973388459947, "train/prior_ent_min": 27.409365786446465, "train/prior_ent_std": 7.9077809188101025, "train/rep_loss_mean": 5.743873841232723, "train/rep_loss_std": 8.890304724375406, "train/reward_avg": 0.046636284380737275, "train/reward_loss_mean": 0.06094887676752276, "train/reward_loss_std": 0.22375800005263752, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0332894855075412, "train/reward_neg_acc": 0.9932550779647298, "train/reward_neg_loss": 0.025297426191779476, "train/reward_pos_acc": 0.9867772807677587, "train/reward_pos_loss": 0.7281400602724817, "train/reward_pred": 0.046281340376784406, "train/reward_rate": 0.05093044704861111, "stats/sum_log_reward": 12.100000245230538, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2846430689096451, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2594243248740395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3667926356032654e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1975722312927, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.534019231796265, "timer/env.step_frac": 0.06173940413320994, "timer/env.step_avg": 0.012729408813046884, "timer/env.step_min": 0.0028352737426757812, "timer/env.step_max": 1.6013877391815186, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29245591163635254, "timer/replay.add_frac": 0.0009742114483558331, "timer/replay.add_avg": 0.00020086257667331904, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004145622253417969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033307790756225586, "timer/logger.write_frac": 0.00011095289848168055, "timer/logger.write_avg": 0.033307790756225586, "timer/logger.write_min": 0.033307790756225586, "timer/logger.write_max": 0.033307790756225586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.681912660598755, "timer/agent.policy_frac": 0.03558294153148141, "timer/agent.policy_avg": 0.007336478475685958, "timer/agent.policy_min": 0.0057294368743896484, "timer/agent.policy_max": 0.015984058380126953, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05906987190246582, "timer/dataset_frac": 0.00019676998539133538, "timer/dataset_avg": 8.113993393195854e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.94281339645386, "timer/agent.train_frac": 0.8992171768413619, "timer/agent.train_avg": 0.3708005678522718, "timer/agent.train_min": 0.36419057846069336, "timer/agent.train_max": 0.38472819328308105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21959280967712402, "timer/agent.report_frac": 0.0007314942890608546, "timer/agent.report_avg": 0.21959280967712402, "timer/agent.report_min": 0.21959280967712402, "timer/agent.report_max": 0.21959280967712402, "fps": 4.850055685717075}
+{"step": 1115580, "episode/length": 254.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.058823529411764705}
+{"step": 1115741, "episode/length": 160.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06832298136645963}
+{"step": 1115925, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06521739130434782}
+{"step": 1116216, "episode/length": 290.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.100000008940697, "episode/reward_rate": 0.061855670103092786}
+{"step": 1116426, "episode/length": 209.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06666666666666667}
+{"step": 1116620, "episode/length": 193.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07216494845360824}
+{"step": 1116979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382682068707192, "train/action_min": 0.0, "train/action_std": 3.259187747354377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037122788571127475, "train/actor_opt_grad_steps": 557580.0, "train/actor_opt_loss": -12.596856000488751, "train/adv_mag": 0.3815234121802735, "train/adv_max": 0.30796133226727784, "train/adv_mean": 0.001561009275949439, "train/adv_min": -0.35129076977298684, "train/adv_std": 0.04188784768115984, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 0.00010258733339246381, "train/cont_loss_std": 0.0032726058632230456, "train/cont_neg_acc": 0.9957382042114049, "train/cont_neg_loss": 0.013272811491688843, "train/cont_pos_acc": 0.9999865277172768, "train/cont_pos_loss": 2.703928846310311e-05, "train/cont_pred": 0.9949426904116592, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.744861929383997, "train/dyn_loss_std": 8.94289305438734, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8671710295219944, "train/extr_critic_critic_opt_grad_steps": 557580.0, "train/extr_critic_critic_opt_loss": 15307.965526005994, "train/extr_critic_mag": 12.439646459605596, "train/extr_critic_max": 12.439646459605596, "train/extr_critic_mean": 3.8337503263395125, "train/extr_critic_min": -0.33644573982447795, "train/extr_critic_std": 2.9567455069659507, "train/extr_return_normed_mag": 1.3797501162306902, "train/extr_return_normed_max": 1.3797501162306902, "train/extr_return_normed_mean": 0.4035564314012658, "train/extr_return_normed_min": -0.0722510526849799, "train/extr_return_normed_std": 0.31371733750382513, "train/extr_return_rate": 0.8684468212193006, "train/extr_return_raw_mag": 13.133361019500315, "train/extr_return_raw_max": 13.133361019500315, "train/extr_return_raw_mean": 3.8485938163652813, "train/extr_return_raw_min": -0.6756423634209044, "train/extr_return_raw_std": 2.9833422393014986, "train/extr_reward_mag": 1.0856949760489267, "train/extr_reward_max": 1.0856949760489267, "train/extr_reward_mean": 0.06460099697929539, "train/extr_reward_min": -0.5797537450921045, "train/extr_reward_std": 0.24419040283928178, "train/image_loss_mean": 3.3444095278439456, "train/image_loss_std": 8.471224595422614, "train/model_loss_mean": 6.8541776970641255, "train/model_loss_std": 12.62592873507983, "train/model_opt_grad_norm": 20.40973502642488, "train/model_opt_grad_steps": 557122.3835616439, "train/model_opt_loss": 23751.163393621577, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3458.904109589041, "train/policy_entropy_mag": 2.708191607096424, "train/policy_entropy_max": 2.708191607096424, "train/policy_entropy_mean": 0.39670896040250175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6117365527642916, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39774640496462993, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0294030578169104, "train/policy_randomness_mag": 0.9558727929036911, "train/policy_randomness_max": 0.9558727929036911, "train/policy_randomness_mean": 0.1400208542608235, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21591615942243028, "train/post_ent_mag": 55.98372916652732, "train/post_ent_max": 55.98372916652732, "train/post_ent_mean": 40.14386101291604, "train/post_ent_min": 19.58654957601469, "train/post_ent_std": 5.960024173945596, "train/prior_ent_mag": 76.83304763166872, "train/prior_ent_max": 76.83304763166872, "train/prior_ent_mean": 45.86023555389822, "train/prior_ent_min": 27.8187818657862, "train/prior_ent_std": 7.962833247772635, "train/rep_loss_mean": 5.744861929383997, "train/rep_loss_std": 8.94289305438734, "train/reward_avg": 0.047800727749932305, "train/reward_loss_mean": 0.0627484896207509, "train/reward_loss_std": 0.22984680594646767, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0307245466807118, "train/reward_neg_acc": 0.9926920557675296, "train/reward_neg_loss": 0.026258865422377847, "train/reward_pos_acc": 0.9887503352883744, "train/reward_pos_loss": 0.7244616583602069, "train/reward_pred": 0.047568774182502535, "train/reward_rate": 0.052266160102739725, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.38739950706561405, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.241136897453488e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3269680382970632e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07688331604004, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.843608140945435, "timer/env.step_frac": 0.06279593393770158, "timer/env.step_avg": 0.01306768941813137, "timer/env.step_min": 0.0028526782989501953, "timer/env.step_max": 1.7751374244689941, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26565098762512207, "timer/replay.add_frac": 0.0008852764154622976, "timer/replay.add_avg": 0.00018422398587040367, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0007226467132568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028041839599609375, "timer/logger.write_frac": 9.34488498071869e-05, "timer/logger.write_avg": 0.028041839599609375, "timer/logger.write_min": 0.028041839599609375, "timer/logger.write_max": 0.028041839599609375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022792816162109375, "timer/checkpoint.save_frac": 7.595658789252371e-07, "timer/checkpoint.save_avg": 0.00022792816162109375, "timer/checkpoint.save_min": 0.00022792816162109375, "timer/checkpoint.save_max": 0.00022792816162109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.15482759475708, "timer/agent.save_frac": 0.00384843904667198, "timer/agent.save_avg": 1.15482759475708, "timer/agent.save_min": 1.15482759475708, "timer/agent.save_max": 1.15482759475708, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3835749338658066e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.263107538223267, "timer/agent.policy_frac": 0.04086655194064982, "timer/agent.policy_avg": 0.008504235463400324, "timer/agent.policy_min": 0.005843400955200195, "timer/agent.policy_max": 1.1468589305877686, "timer/dataset_count": 721.0, "timer/dataset_total": 0.058182477951049805, "timer/dataset_frac": 0.00019389190299531404, "timer/dataset_avg": 8.069691810131734e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00019025802612304688, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.9703667163849, "timer/agent.train_frac": 0.8930056982568675, "timer/agent.train_avg": 0.37166486368430635, "timer/agent.train_min": 0.362884521484375, "timer/agent.train_max": 0.8063223361968994, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21712470054626465, "timer/agent.report_frac": 0.00072356356859915, "timer/agent.report_avg": 0.21712470054626465, "timer/agent.report_min": 0.21712470054626465, "timer/agent.report_max": 0.21712470054626465, "fps": 4.805336026475924}
+{"step": 1117024, "episode/length": 403.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.034653465346534656}
+{"step": 1117261, "episode/length": 236.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05063291139240506}
+{"step": 1117668, "episode/length": 406.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.036855036855036855}
+{"step": 1117732, "episode/length": 63.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.140625}
+{"step": 1117936, "episode/length": 203.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06862745098039216}
+{"step": 1117996, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1}
+{"step": 1118437, "episode/length": 440.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.034013605442176874}
+{"step": 1118438, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.430523342556423, "train/action_min": 0.0, "train/action_std": 3.296524769730038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03610109418837561, "train/actor_opt_grad_steps": 558305.0, "train/actor_opt_loss": -10.97279247144858, "train/adv_mag": 0.3678600444561905, "train/adv_max": 0.3154305407984389, "train/adv_mean": 0.001883169358128119, "train/adv_min": -0.3151528711120288, "train/adv_std": 0.0407511405646801, "train/cont_avg": 0.9951985677083334, "train/cont_loss_mean": 0.0001132653826388324, "train/cont_loss_std": 0.0035649962747296765, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.02037064195545102, "train/cont_pos_acc": 0.9999863612982962, "train/cont_pos_loss": 3.1778030036831874e-05, "train/cont_pred": 0.9951962704459826, "train/cont_rate": 0.9951985677083334, "train/dyn_loss_mean": 5.8243617216746015, "train/dyn_loss_std": 8.98689634932412, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.862432573404577, "train/extr_critic_critic_opt_grad_steps": 558305.0, "train/extr_critic_critic_opt_loss": 15267.438666449652, "train/extr_critic_mag": 12.48870046933492, "train/extr_critic_max": 12.48870046933492, "train/extr_critic_mean": 3.7263475159804025, "train/extr_critic_min": -0.35393422842025757, "train/extr_critic_std": 2.9549414879745908, "train/extr_return_normed_mag": 1.37454577949312, "train/extr_return_normed_max": 1.37454577949312, "train/extr_return_normed_mean": 0.3888472898138894, "train/extr_return_normed_min": -0.07531619754930337, "train/extr_return_normed_std": 0.3123167593859964, "train/extr_return_rate": 0.8548349373870425, "train/extr_return_raw_mag": 13.150895158449808, "train/extr_return_raw_max": 13.150895158449808, "train/extr_return_raw_mean": 3.744302087359958, "train/extr_return_raw_min": -0.684206666631831, "train/extr_return_raw_std": 2.980142033762402, "train/extr_reward_mag": 1.0819950434896681, "train/extr_reward_max": 1.0819950434896681, "train/extr_reward_mean": 0.06398905937870343, "train/extr_reward_min": -0.6049500289890501, "train/extr_reward_std": 0.24293862014181083, "train/image_loss_mean": 3.5832786361376443, "train/image_loss_std": 8.967206021149954, "train/model_loss_mean": 7.1400180326567755, "train/model_loss_std": 13.094727476437887, "train/model_opt_grad_norm": 20.686059329244827, "train/model_opt_grad_steps": 557846.8055555555, "train/model_opt_loss": 18662.834879557293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.729442301723692, "train/policy_entropy_max": 2.729442301723692, "train/policy_entropy_mean": 0.41746408057709533, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6270244589282407, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41800636384222245, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0455999482009146, "train/policy_randomness_mag": 0.963373354739613, "train/policy_randomness_max": 0.963373354739613, "train/policy_randomness_mean": 0.1473465028943287, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22131211993594965, "train/post_ent_mag": 56.214756435818146, "train/post_ent_max": 56.214756435818146, "train/post_ent_mean": 40.237113899654815, "train/post_ent_min": 20.010676675372654, "train/post_ent_std": 5.867341544893053, "train/prior_ent_mag": 76.81897311740451, "train/prior_ent_max": 76.81897311740451, "train/prior_ent_mean": 46.04038265016344, "train/prior_ent_min": 28.008440838919746, "train/prior_ent_std": 7.980207721392314, "train/rep_loss_mean": 5.8243617216746015, "train/rep_loss_std": 8.98689634932412, "train/reward_avg": 0.046531846151790686, "train/reward_loss_mean": 0.06200909293774101, "train/reward_loss_std": 0.2241592506567637, "train/reward_max_data": 1.0444444550408258, "train/reward_max_pred": 1.0417136516835954, "train/reward_neg_acc": 0.992610568801562, "train/reward_neg_loss": 0.02644192334264517, "train/reward_pos_acc": 0.989297485185994, "train/reward_pos_loss": 0.7277668350272708, "train/reward_pred": 0.04611626363152431, "train/reward_rate": 0.05087619357638889, "stats/sum_log_reward": 11.242857388087682, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.5634339515651975, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.2229812444277703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34979174133845e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3580596446991, "timer/env.step_count": 1459.0, "timer/env.step_total": 18.293628692626953, "timer/env.step_frac": 0.060906068957386844, "timer/env.step_avg": 0.012538470659785438, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.609165906906128, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.27335572242736816, "timer/replay.add_frac": 0.0009100995084024958, "timer/replay.add_avg": 0.0001873582744533024, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0031342506408691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022597789764404297, "timer/logger.write_frac": 7.523616909476568e-05, "timer/logger.write_avg": 0.022597789764404297, "timer/logger.write_min": 0.022597789764404297, "timer/logger.write_max": 0.022597789764404297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.673274517059326, "timer/agent.policy_frac": 0.03553516935648407, "timer/agent.policy_avg": 0.007315472595654096, "timer/agent.policy_min": 0.005505084991455078, "timer/agent.policy_max": 0.014873504638671875, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05887413024902344, "timer/dataset_frac": 0.0001960131528305486, "timer/dataset_avg": 8.076012379838606e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.3789486885071, "timer/agent.train_frac": 0.9001887580720989, "timer/agent.train_avg": 0.3708901902448657, "timer/agent.train_min": 0.36408162117004395, "timer/agent.train_max": 0.3836073875427246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218125581741333, "timer/agent.report_frac": 0.0007262185073354086, "timer/agent.report_avg": 0.218125581741333, "timer/agent.report_min": 0.218125581741333, "timer/agent.report_max": 0.218125581741333, "fps": 4.857441647381081}
+{"step": 1118654, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06912442396313365}
+{"step": 1118813, "episode/length": 158.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06918238993710692}
+{"step": 1119008, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 1119580, "episode/length": 571.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.300000049173832, "episode/reward_rate": 0.024475524475524476}
+{"step": 1119746, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06626506024096386}
+{"step": 1119909, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.482227222339527, "train/action_min": 0.0, "train/action_std": 3.3602808552819328, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653254027704935, "train/actor_opt_grad_steps": 559035.0, "train/actor_opt_loss": -12.507482236301577, "train/adv_mag": 0.39613313711172826, "train/adv_max": 0.350226743599853, "train/adv_mean": 0.0018709223685790847, "train/adv_min": -0.35131897495405096, "train/adv_std": 0.041869818711200275, "train/cont_avg": 0.9953151393581081, "train/cont_loss_mean": 1.019741103013493e-05, "train/cont_loss_std": 0.0002517092644156209, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002556831612988727, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 8.749215964285582e-06, "train/cont_pred": 0.9953082171646325, "train/cont_rate": 0.9953151393581081, "train/dyn_loss_mean": 5.689579693046776, "train/dyn_loss_std": 8.899949602178625, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8992904626034401, "train/extr_critic_critic_opt_grad_steps": 559035.0, "train/extr_critic_critic_opt_loss": 15235.520045924832, "train/extr_critic_mag": 12.491190124202419, "train/extr_critic_max": 12.491190124202419, "train/extr_critic_mean": 3.7860739263328345, "train/extr_critic_min": -0.33473250672623917, "train/extr_critic_std": 2.972017359089207, "train/extr_return_normed_mag": 1.3816399123217609, "train/extr_return_normed_max": 1.3816399123217609, "train/extr_return_normed_mean": 0.396600949200424, "train/extr_return_normed_min": -0.06748230689884843, "train/extr_return_normed_std": 0.31416883762623815, "train/extr_return_rate": 0.8609956116289705, "train/extr_return_raw_mag": 13.21458253344974, "train/extr_return_raw_max": 13.21458253344974, "train/extr_return_raw_mean": 3.803957330214011, "train/extr_return_raw_min": -0.6301837197026691, "train/extr_return_raw_std": 3.0017444765245593, "train/extr_reward_mag": 1.0793344620111827, "train/extr_reward_max": 1.0793344620111827, "train/extr_reward_mean": 0.06446265630625389, "train/extr_reward_min": -0.5692591538300386, "train/extr_reward_std": 0.24345887915508166, "train/image_loss_mean": 3.359647539821831, "train/image_loss_std": 8.639320695722425, "train/model_loss_mean": 6.835529224292652, "train/model_loss_std": 12.735025032146558, "train/model_opt_grad_norm": 22.966575957633353, "train/model_opt_grad_steps": 558576.0, "train/model_opt_loss": 17088.823057432433, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7220293057931437, "train/policy_entropy_max": 2.7220293057931437, "train/policy_entropy_mean": 0.4370584967168602, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6561363987826012, "train/policy_logprob_mag": 7.438384320284869, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4378835226635675, "train/policy_logprob_min": -7.438384320284869, "train/policy_logprob_std": 1.0611972696072347, "train/policy_randomness_mag": 0.9607568914825851, "train/policy_randomness_max": 0.9607568914825851, "train/policy_randomness_mean": 0.15426247123930906, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23158735157670202, "train/post_ent_mag": 55.42132867349161, "train/post_ent_max": 55.42132867349161, "train/post_ent_mean": 40.175445350440775, "train/post_ent_min": 19.51161389737516, "train/post_ent_std": 5.822565813322325, "train/prior_ent_mag": 76.83430295377164, "train/prior_ent_max": 76.83430295377164, "train/prior_ent_mean": 45.865456091391074, "train/prior_ent_min": 27.71808387137748, "train/prior_ent_std": 7.901561762835528, "train/rep_loss_mean": 5.689579693046776, "train/rep_loss_std": 8.899949602178625, "train/reward_avg": 0.04806535006374926, "train/reward_loss_mean": 0.06212363497832337, "train/reward_loss_std": 0.221282240506765, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.02959964404235, "train/reward_neg_acc": 0.992801121763281, "train/reward_neg_loss": 0.025639372147821093, "train/reward_pos_acc": 0.9882723334673289, "train/reward_pos_loss": 0.7239392963615624, "train/reward_pred": 0.047545417211949825, "train/reward_rate": 0.05227248733108108, "stats/sum_log_reward": 12.300000381469726, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 15.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.3746590971946716, "replay/size": 1000000.0, "replay/inserts": 1471.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.2508235493134188e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363466638585795e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0961136817932, "timer/env.step_count": 1471.0, "timer/env.step_total": 15.237740516662598, "timer/env.step_frac": 0.05077620076353248, "timer/env.step_avg": 0.010358763097663221, "timer/env.step_min": 0.002685070037841797, "timer/env.step_max": 1.5763156414031982, "timer/replay.add_count": 1471.0, "timer/replay.add_total": 0.28096866607666016, "timer/replay.add_frac": 0.0009362622615452633, "timer/replay.add_avg": 0.0001910052114729165, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004314422607421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03968524932861328, "timer/logger.write_frac": 0.00013224179694207408, "timer/logger.write_avg": 0.03968524932861328, "timer/logger.write_min": 0.03968524932861328, "timer/logger.write_max": 0.03968524932861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 10.726064443588257, "timer/agent.policy_frac": 0.035742097130126896, "timer/agent.policy_avg": 0.007291682150637836, "timer/agent.policy_min": 0.005440711975097656, "timer/agent.policy_max": 0.015966176986694336, "timer/dataset_count": 736.0, "timer/dataset_total": 0.05958366394042969, "timer/dataset_frac": 0.000198548602344145, "timer/dataset_avg": 8.095606513645338e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 736.0, "timer/agent.train_total": 273.1001937389374, "timer/agent.train_frac": 0.9100424207043183, "timer/agent.train_avg": 0.37106004584094754, "timer/agent.train_min": 0.36517786979675293, "timer/agent.train_max": 0.3844766616821289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21875834465026855, "timer/agent.report_frac": 0.000728960938435307, "timer/agent.report_avg": 0.21875834465026855, "timer/agent.report_min": 0.21875834465026855, "timer/agent.report_max": 0.21875834465026855, "fps": 4.901676774703053}
+{"step": 1119992, "episode/length": 245.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.052845528455284556}
+{"step": 1120153, "episode/length": 160.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07453416149068323}
+{"step": 1120510, "episode/length": 356.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.025210084033613446}
+{"step": 1120693, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07103825136612021}
+{"step": 1120931, "episode/length": 237.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0546218487394958}
+{"step": 1121121, "episode/length": 189.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07368421052631578}
+{"step": 1121256, "episode/length": 134.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.1111111111111111}
+{"step": 1121343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426239861382379, "train/action_min": 0.0, "train/action_std": 3.2889017959435782, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036403866303670734, "train/actor_opt_grad_steps": 559765.0, "train/actor_opt_loss": -11.83620415793525, "train/adv_mag": 0.3778885193169117, "train/adv_max": 0.3108166406551997, "train/adv_mean": 0.0015309924433495326, "train/adv_min": -0.3432196645687024, "train/adv_std": 0.04112633881676528, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 4.711328394840169e-05, "train/cont_loss_std": 0.0014749407748346026, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.004843364919167907, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 4.672820044435453e-06, "train/cont_pred": 0.9949225460489591, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.864820414119297, "train/dyn_loss_std": 8.965610636605156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8821932549277941, "train/extr_critic_critic_opt_grad_steps": 559765.0, "train/extr_critic_critic_opt_loss": 15364.299655490451, "train/extr_critic_mag": 12.596449812253317, "train/extr_critic_max": 12.596449812253317, "train/extr_critic_mean": 3.8145127263334064, "train/extr_critic_min": -0.36230147381623584, "train/extr_critic_std": 3.0343270798524222, "train/extr_return_normed_mag": 1.3757122423913744, "train/extr_return_normed_max": 1.3757122423913744, "train/extr_return_normed_mean": 0.39850592737396556, "train/extr_return_normed_min": -0.0693877232261002, "train/extr_return_normed_std": 0.31762557559543186, "train/extr_return_rate": 0.8571678333812289, "train/extr_return_raw_mag": 13.250472598605686, "train/extr_return_raw_max": 13.250472598605686, "train/extr_return_raw_mean": 3.8292736411094666, "train/extr_return_raw_min": -0.6820595972239971, "train/extr_return_raw_std": 3.0623446007569632, "train/extr_reward_mag": 1.0786852008766599, "train/extr_reward_max": 1.0786852008766599, "train/extr_reward_mean": 0.06530737851022018, "train/extr_reward_min": -0.6276412920819389, "train/extr_reward_std": 0.24523314212759337, "train/image_loss_mean": 3.4577695892916784, "train/image_loss_std": 8.429356687598759, "train/model_loss_mean": 7.039564079708523, "train/model_loss_std": 12.569904843966166, "train/model_opt_grad_norm": 21.18521303600735, "train/model_opt_grad_steps": 559305.2222222222, "train/model_opt_loss": 18643.225884331598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.700101670291689, "train/policy_entropy_max": 2.700101670291689, "train/policy_entropy_mean": 0.42337330741186935, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6317678540945053, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4233936719182465, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0446638622217708, "train/policy_randomness_mag": 0.9530173987150192, "train/policy_randomness_max": 0.9530173987150192, "train/policy_randomness_mean": 0.1494321981444955, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22298633058865866, "train/post_ent_mag": 56.103892750210235, "train/post_ent_max": 56.103892750210235, "train/post_ent_mean": 40.28788137435913, "train/post_ent_min": 19.552051888571846, "train/post_ent_std": 5.906687107351091, "train/prior_ent_mag": 76.87018299102783, "train/prior_ent_max": 76.87018299102783, "train/prior_ent_mean": 46.1220875316196, "train/prior_ent_min": 28.016787608464558, "train/prior_ent_std": 7.960159831576878, "train/rep_loss_mean": 5.864820414119297, "train/rep_loss_std": 8.965610636605156, "train/reward_avg": 0.04834933770406577, "train/reward_loss_mean": 0.06285517455803023, "train/reward_loss_std": 0.22677345180677044, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0270313802692626, "train/reward_neg_acc": 0.9921534624364641, "train/reward_neg_loss": 0.02596771680853433, "train/reward_pos_acc": 0.9904140383005142, "train/reward_pos_loss": 0.7251934955517451, "train/reward_pred": 0.047896201722323895, "train/reward_rate": 0.052802191840277776, "stats/sum_log_reward": 11.671428952898298, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4172257993902479, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.1624545279573362e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3573357583422375e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1436469554901, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.840172290802002, "timer/env.step_frac": 0.06943399436301412, "timer/env.step_avg": 0.014532895600280336, "timer/env.step_min": 0.002763986587524414, "timer/env.step_max": 2.4483397006988525, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26572299003601074, "timer/replay.add_frac": 0.0008853193886706395, "timer/replay.add_avg": 0.00018530194563180666, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.004335165023803711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03072977066040039, "timer/logger.write_frac": 0.00010238354525277515, "timer/logger.write_avg": 0.03072977066040039, "timer/logger.write_min": 0.03072977066040039, "timer/logger.write_max": 0.03072977066040039, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004317760467529297, "timer/checkpoint.save_frac": 1.4385646710588547e-06, "timer/checkpoint.save_avg": 0.0004317760467529297, "timer/checkpoint.save_min": 0.0004317760467529297, "timer/checkpoint.save_max": 0.0004317760467529297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5458471775054932, "timer/agent.save_frac": 0.005150357814285954, "timer/agent.save_avg": 1.5458471775054932, "timer/agent.save_min": 1.5458471775054932, "timer/agent.save_max": 1.5458471775054932, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.7220458984375e-05, "timer/replay.save_frac": 1.9064357871569583e-07, "timer/replay.save_avg": 5.7220458984375e-05, "timer/replay.save_min": 5.7220458984375e-05, "timer/replay.save_max": 5.7220458984375e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.024782419204712, "timer/agent.policy_frac": 0.040063424767367906, "timer/agent.policy_avg": 0.008385482858580692, "timer/agent.policy_min": 0.005861759185791016, "timer/agent.policy_max": 1.5426957607269287, "timer/dataset_count": 717.0, "timer/dataset_total": 0.057440996170043945, "timer/dataset_frac": 0.00019137835084199591, "timer/dataset_avg": 8.011296536965682e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.28080105781555, "timer/agent.train_frac": 0.8871778688599187, "timer/agent.train_avg": 0.3713818703735224, "timer/agent.train_min": 0.3639259338378906, "timer/agent.train_max": 0.8647298812866211, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21865415573120117, "timer/agent.report_frac": 0.000728498363863842, "timer/agent.report_avg": 0.21865415573120117, "timer/agent.report_min": 0.21865415573120117, "timer/agent.report_max": 0.21865415573120117, "fps": 4.777622012473502}
+{"step": 1121498, "episode/length": 241.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.05785123966942149}
+{"step": 1121723, "episode/length": 224.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.044444444444444446}
+{"step": 1121894, "episode/length": 170.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.08187134502923976}
+{"step": 1121932, "episode/length": 37.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.21052631578947367}
+{"step": 1122188, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05859375}
+{"step": 1122370, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07692307692307693}
+{"step": 1122548, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06179775280898876}
+{"step": 1122785, "episode/length": 236.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.05907172995780591}
+{"step": 1122790, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.350071377224392, "train/action_min": 0.0, "train/action_std": 3.2432237962881723, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03574769969822632, "train/actor_opt_grad_steps": 560485.0, "train/actor_opt_loss": -12.480319456921684, "train/adv_mag": 0.369724309278859, "train/adv_max": 0.31642825301322675, "train/adv_mean": 0.0017297192243353897, "train/adv_min": -0.3301931100173129, "train/adv_std": 0.04128672291214267, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 0.0001184555035277985, "train/cont_loss_std": 0.003737784107091555, "train/cont_neg_acc": 0.9924882641980346, "train/cont_neg_loss": 0.019185456776844148, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.729746665679515e-06, "train/cont_pred": 0.9949742547339864, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.694135798348321, "train/dyn_loss_std": 8.937454210387337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8879426403178109, "train/extr_critic_critic_opt_grad_steps": 560485.0, "train/extr_critic_critic_opt_loss": 15246.03870985243, "train/extr_critic_mag": 12.282453894615173, "train/extr_critic_max": 12.282453894615173, "train/extr_critic_mean": 3.7115262779924603, "train/extr_critic_min": -0.37681112355656093, "train/extr_critic_std": 2.9395857950051627, "train/extr_return_normed_mag": 1.3673988199896283, "train/extr_return_normed_max": 1.3673988199896283, "train/extr_return_normed_mean": 0.393398516294029, "train/extr_return_normed_min": -0.07355450823282202, "train/extr_return_normed_std": 0.31089347249103916, "train/extr_return_rate": 0.8550872115625275, "train/extr_return_raw_mag": 13.015014145109388, "train/extr_return_raw_max": 13.015014145109388, "train/extr_return_raw_mean": 3.728029406732983, "train/extr_return_raw_min": -0.7241636585030291, "train/extr_return_raw_std": 2.9647400461965137, "train/extr_reward_mag": 1.0811229348182678, "train/extr_reward_max": 1.0811229348182678, "train/extr_reward_mean": 0.06307658672125803, "train/extr_reward_min": -0.5962062146928575, "train/extr_reward_std": 0.24170522164139482, "train/image_loss_mean": 3.351713596118821, "train/image_loss_std": 8.626030484835306, "train/model_loss_mean": 6.829691403441959, "train/model_loss_std": 12.748443749215868, "train/model_opt_grad_norm": 21.235446320639717, "train/model_opt_grad_steps": 560024.6388888889, "train/model_opt_loss": 17518.458129882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6927075915866427, "train/policy_entropy_max": 2.6927075915866427, "train/policy_entropy_mean": 0.40757661685347557, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6180723884867297, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40602223947644234, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.029649265938335, "train/policy_randomness_mag": 0.9504076109992133, "train/policy_randomness_max": 0.9504076109992133, "train/policy_randomness_mean": 0.14385666222208077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21815243052939573, "train/post_ent_mag": 55.77610847685072, "train/post_ent_max": 55.77610847685072, "train/post_ent_mean": 40.17912499109904, "train/post_ent_min": 19.552215298016865, "train/post_ent_std": 5.87908042801751, "train/prior_ent_mag": 76.87590302361383, "train/prior_ent_max": 76.87590302361383, "train/prior_ent_mean": 45.87809573279487, "train/prior_ent_min": 27.81396370463901, "train/prior_ent_std": 7.94313618209627, "train/rep_loss_mean": 5.694135798348321, "train/rep_loss_std": 8.937454210387337, "train/reward_avg": 0.046615939354524016, "train/reward_loss_mean": 0.06137793086883095, "train/reward_loss_std": 0.2257161167346769, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.027874423397912, "train/reward_neg_acc": 0.9926961412032446, "train/reward_neg_loss": 0.025769318466902606, "train/reward_pos_acc": 0.9896668195724487, "train/reward_pos_loss": 0.7234943856795629, "train/reward_pred": 0.046428462128258415, "train/reward_rate": 0.05117458767361111, "stats/sum_log_reward": 11.350000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.41400910541415215, "replay/size": 1000000.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.300457883886246e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.327584228410101e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99771451950073, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.07957696914673, "timer/env.step_frac": 0.06693243313972479, "timer/env.step_avg": 0.013876694519106239, "timer/env.step_min": 0.002684354782104492, "timer/env.step_max": 1.6028716564178467, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2788727283477783, "timer/replay.add_frac": 0.0009295828429707946, "timer/replay.add_avg": 0.00019272476043384818, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0026810169219970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02476024627685547, "timer/logger.write_frac": 8.253478302830864e-05, "timer/logger.write_avg": 0.02476024627685547, "timer/logger.write_min": 0.02476024627685547, "timer/logger.write_max": 0.02476024627685547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.681000709533691, "timer/agent.policy_frac": 0.03560360693627682, "timer/agent.policy_avg": 0.007381479412255488, "timer/agent.policy_min": 0.005728483200073242, "timer/agent.policy_max": 0.019369840621948242, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05966925621032715, "timer/dataset_frac": 0.00019889903596731725, "timer/dataset_avg": 8.253009157721597e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.2180435657501, "timer/agent.train_frac": 0.8940669564611472, "timer/agent.train_avg": 0.370979313368949, "timer/agent.train_min": 0.36340904235839844, "timer/agent.train_max": 0.3863956928253174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183239459991455, "timer/agent.report_frac": 0.0007277520308740679, "timer/agent.report_avg": 0.2183239459991455, "timer/agent.report_min": 0.2183239459991455, "timer/agent.report_max": 0.2183239459991455, "fps": 4.82327519526888}
+{"step": 1122951, "episode/length": 165.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.09036144578313253}
+{"step": 1123257, "episode/length": 305.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.30000001937151, "episode/reward_rate": 0.058823529411764705}
+{"step": 1123452, "episode/length": 194.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07692307692307693}
+{"step": 1123695, "episode/length": 242.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04938271604938271}
+{"step": 1123759, "episode/length": 63.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.140625}
+{"step": 1124007, "episode/length": 247.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06451612903225806}
+{"step": 1124249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381814198951199, "train/action_min": 0.0, "train/action_std": 3.25035696813505, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036179826301458766, "train/actor_opt_grad_steps": 561210.0, "train/actor_opt_loss": -11.511996742797225, "train/adv_mag": 0.3792090436367139, "train/adv_max": 0.31756693818797804, "train/adv_mean": 0.0014702168376821297, "train/adv_min": -0.3342203810198666, "train/adv_std": 0.04099667398896936, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 1.2592198729845372e-05, "train/cont_loss_std": 0.0002963753951503692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007201670489807387, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.2489080893107825e-06, "train/cont_pred": 0.9950479522143325, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.699686350887769, "train/dyn_loss_std": 8.887646662045832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.896687872605781, "train/extr_critic_critic_opt_grad_steps": 561210.0, "train/extr_critic_critic_opt_loss": 15237.050032106165, "train/extr_critic_mag": 12.228961356698651, "train/extr_critic_max": 12.228961356698651, "train/extr_critic_mean": 3.766688885754102, "train/extr_critic_min": -0.3761754084939826, "train/extr_critic_std": 2.9462149927060897, "train/extr_return_normed_mag": 1.3651359995750532, "train/extr_return_normed_max": 1.3651359995750532, "train/extr_return_normed_mean": 0.4003845845183281, "train/extr_return_normed_min": -0.0774111091988544, "train/extr_return_normed_std": 0.31253389769221007, "train/extr_return_rate": 0.8612800093546306, "train/extr_return_raw_mag": 12.944845918106706, "train/extr_return_raw_max": 12.944845918106706, "train/extr_return_raw_mean": 3.780678337567473, "train/extr_return_raw_min": -0.7577180846096718, "train/extr_return_raw_std": 2.96880420919967, "train/extr_reward_mag": 1.0828488297658423, "train/extr_reward_max": 1.0828488297658423, "train/extr_reward_mean": 0.06318171480542993, "train/extr_reward_min": -0.6332007548580431, "train/extr_reward_std": 0.24160669233701002, "train/image_loss_mean": 3.33227238099869, "train/image_loss_std": 8.438181864072199, "train/model_loss_mean": 6.814807552180878, "train/model_loss_std": 12.528320626036761, "train/model_opt_grad_norm": 21.793296539620176, "train/model_opt_grad_steps": 560749.0, "train/model_opt_loss": 17037.01879548373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7056050823159414, "train/policy_entropy_max": 2.7056050823159414, "train/policy_entropy_mean": 0.41232223625052467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.626621960777126, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4121634062022379, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0384283735327524, "train/policy_randomness_mag": 0.9549598644857538, "train/policy_randomness_max": 0.9549598644857538, "train/policy_randomness_mean": 0.14553165650122787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22117005533551518, "train/post_ent_mag": 56.09274835455908, "train/post_ent_max": 56.09274835455908, "train/post_ent_mean": 40.03512296284715, "train/post_ent_min": 19.58037371178196, "train/post_ent_std": 5.884555947290708, "train/prior_ent_mag": 76.75122571971319, "train/prior_ent_max": 76.75122571971319, "train/prior_ent_mean": 45.72508955655033, "train/prior_ent_min": 27.4317697760177, "train/prior_ent_std": 7.98217852474892, "train/rep_loss_mean": 5.699686350887769, "train/rep_loss_std": 8.887646662045832, "train/reward_avg": 0.04870906461999841, "train/reward_loss_mean": 0.06271076304455327, "train/reward_loss_std": 0.2231134041531445, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0353102357420203, "train/reward_neg_acc": 0.9933728763501938, "train/reward_neg_loss": 0.02563700239390951, "train/reward_pos_acc": 0.9908601608994889, "train/reward_pos_loss": 0.7236744883942278, "train/reward_pred": 0.04813808876357666, "train/reward_rate": 0.053189212328767124, "stats/sum_log_reward": 12.9333336353302, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4293037950992584, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3654767899908703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3249785932776046e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1546642780304, "timer/env.step_count": 1459.0, "timer/env.step_total": 17.34648585319519, "timer/env.step_frac": 0.05779182507431337, "timer/env.step_avg": 0.011889298048797252, "timer/env.step_min": 0.002839326858520508, "timer/env.step_max": 1.7027101516723633, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3167264461517334, "timer/replay.add_frac": 0.0010552108091125738, "timer/replay.add_avg": 0.00021708461011085223, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.004271745681762695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03301048278808594, "timer/logger.write_frac": 0.00010997824360813079, "timer/logger.write_avg": 0.03301048278808594, "timer/logger.write_min": 0.03301048278808594, "timer/logger.write_max": 0.03301048278808594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.821637630462646, "timer/agent.policy_frac": 0.036053538120062886, "timer/agent.policy_avg": 0.00741716081594424, "timer/agent.policy_min": 0.005776166915893555, "timer/agent.policy_max": 0.013178110122680664, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06022071838378906, "timer/dataset_frac": 0.00020063229245042543, "timer/dataset_avg": 8.249413477231378e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.92139291763306, "timer/agent.train_frac": 0.9026059733880436, "timer/agent.train_avg": 0.3711251957775795, "timer/agent.train_min": 0.3649861812591553, "timer/agent.train_max": 0.3852858543395996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218583345413208, "timer/agent.report_frac": 0.0007282357112089931, "timer/agent.report_avg": 0.218583345413208, "timer/agent.report_min": 0.218583345413208, "timer/agent.report_max": 0.218583345413208, "fps": 4.8607263927694015}
+{"step": 1124329, "episode/length": 321.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.043478260869565216}
+{"step": 1124486, "episode/length": 156.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08917197452229299}
+{"step": 1124794, "episode/length": 307.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.045454545454545456}
+{"step": 1125112, "episode/length": 317.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.050314465408805034}
+{"step": 1125316, "episode/length": 203.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.06862745098039216}
+{"step": 1125616, "episode/length": 299.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.04666666666666667}
+{"step": 1125689, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.479600694444445, "train/action_min": 0.0, "train/action_std": 3.3352155552970038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037374603329226375, "train/actor_opt_grad_steps": 561935.0, "train/actor_opt_loss": -9.653099537309673, "train/adv_mag": 0.40399297037058407, "train/adv_max": 0.32742795575824046, "train/adv_mean": 0.00217490757369079, "train/adv_min": -0.37076017157071167, "train/adv_std": 0.04185021358231703, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 4.608583031788053e-05, "train/cont_loss_std": 0.001453878735245853, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.006544644400812736, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 1.3437549103755151e-05, "train/cont_pred": 0.9952603785528077, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.744665814770593, "train/dyn_loss_std": 8.914888064066568, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8994464882546, "train/extr_critic_critic_opt_grad_steps": 561935.0, "train/extr_critic_critic_opt_loss": 15254.670952690973, "train/extr_critic_mag": 12.201383749643961, "train/extr_critic_max": 12.201383749643961, "train/extr_critic_mean": 3.6919238335556455, "train/extr_critic_min": -0.3477835605541865, "train/extr_critic_std": 2.8748767938878803, "train/extr_return_normed_mag": 1.3809138983488083, "train/extr_return_normed_max": 1.3809138983488083, "train/extr_return_normed_mean": 0.39646198807491195, "train/extr_return_normed_min": -0.07384801048061086, "train/extr_return_normed_std": 0.3091407242334551, "train/extr_return_rate": 0.8637876601682769, "train/extr_return_raw_mag": 12.949196206198799, "train/extr_return_raw_max": 12.949196206198799, "train/extr_return_raw_mean": 3.7123284571700625, "train/extr_return_raw_min": -0.699688675502936, "train/extr_return_raw_std": 2.9004836314254336, "train/extr_reward_mag": 1.0829055673546262, "train/extr_reward_max": 1.0829055673546262, "train/extr_reward_mean": 0.06401330103269881, "train/extr_reward_min": -0.633541981379191, "train/extr_reward_std": 0.24227566665245426, "train/image_loss_mean": 3.43235229783588, "train/image_loss_std": 8.626198814974892, "train/model_loss_mean": 6.9411952826711865, "train/model_loss_std": 12.746490266588, "train/model_opt_grad_norm": 21.584530976083542, "train/model_opt_grad_steps": 561473.0277777778, "train/model_opt_loss": 17578.16852484809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.7048212620947094, "train/policy_entropy_max": 2.7048212620947094, "train/policy_entropy_mean": 0.42840595005287063, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6408516032000383, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4274244217409028, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.047251797384686, "train/policy_randomness_mag": 0.9546832111146715, "train/policy_randomness_max": 0.9546832111146715, "train/policy_randomness_mean": 0.15120850099871555, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22619249112904072, "train/post_ent_mag": 55.37457195917765, "train/post_ent_max": 55.37457195917765, "train/post_ent_mean": 40.06645419862535, "train/post_ent_min": 19.797561354107327, "train/post_ent_std": 5.844720277521345, "train/prior_ent_mag": 76.81305715772841, "train/prior_ent_max": 76.81305715772841, "train/prior_ent_mean": 45.8241860071818, "train/prior_ent_min": 27.77403344048394, "train/prior_ent_std": 7.955674926439921, "train/rep_loss_mean": 5.744665814770593, "train/rep_loss_std": 8.914888064066568, "train/reward_avg": 0.048502603726875454, "train/reward_loss_mean": 0.06199742387980223, "train/reward_loss_std": 0.2218652313782109, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0275116562843323, "train/reward_neg_acc": 0.9932370657722155, "train/reward_neg_loss": 0.024981298031181924, "train/reward_pos_acc": 0.9883886269397206, "train/reward_pos_loss": 0.725769430398941, "train/reward_pred": 0.04808783621734215, "train/reward_rate": 0.05274793836805555, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.6558779353896776, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2511022355821397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3330330451329548e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1586797237396, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.03766131401062, "timer/env.step_frac": 0.06342532333741781, "timer/env.step_avg": 0.013220598134729597, "timer/env.step_min": 0.002913951873779297, "timer/env.step_max": 1.802480697631836, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2923126220703125, "timer/replay.add_frac": 0.0009738603006228289, "timer/replay.add_avg": 0.000202994876437717, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.0039784908294677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030534029006958008, "timer/logger.write_frac": 0.00010172629035768998, "timer/logger.write_avg": 0.030534029006958008, "timer/logger.write_min": 0.030534029006958008, "timer/logger.write_max": 0.030534029006958008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00047588348388671875, "timer/checkpoint.save_frac": 1.585439689182778e-06, "timer/checkpoint.save_avg": 0.00047588348388671875, "timer/checkpoint.save_min": 0.00047588348388671875, "timer/checkpoint.save_max": 0.00047588348388671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4543635845184326, "timer/agent.save_frac": 0.004845315770501794, "timer/agent.save_avg": 1.4543635845184326, "timer/agent.save_min": 1.4543635845184326, "timer/agent.save_max": 1.4543635845184326, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 2.676819515303588e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.724002361297607, "timer/agent.policy_frac": 0.042390919273127596, "timer/agent.policy_avg": 0.008836112750901116, "timer/agent.policy_min": 0.005785226821899414, "timer/agent.policy_max": 1.4519174098968506, "timer/dataset_count": 720.0, "timer/dataset_total": 0.058640480041503906, "timer/dataset_frac": 0.00019536493196024016, "timer/dataset_avg": 8.144511116875543e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013017654418945312, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.368691444397, "timer/agent.train_frac": 0.890757820798246, "timer/agent.train_avg": 0.37134540478388467, "timer/agent.train_min": 0.3641531467437744, "timer/agent.train_max": 0.8240354061126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21985840797424316, "timer/agent.report_frac": 0.0007324739307109049, "timer/agent.report_avg": 0.21985840797424316, "timer/agent.report_min": 0.21985840797424316, "timer/agent.report_max": 0.21985840797424316, "fps": 4.797361897640594}
+{"step": 1125933, "episode/length": 316.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.031545741324921134}
+{"step": 1126179, "episode/length": 245.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06504065040650407}
+{"step": 1126382, "episode/length": 202.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04433497536945813}
+{"step": 1126620, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.06302521008403361}
+{"step": 1126825, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04878048780487805}
+{"step": 1127061, "episode/length": 235.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.0635593220338983}
+{"step": 1127153, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444229753050085, "train/action_min": 0.0, "train/action_std": 3.2592372665666556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037619481296980214, "train/actor_opt_grad_steps": 562660.0, "train/actor_opt_loss": -10.872400617762787, "train/adv_mag": 0.41458960836880826, "train/adv_max": 0.3323132585581035, "train/adv_mean": 0.0021697442369832186, "train/adv_min": -0.3702128970459716, "train/adv_std": 0.04195435942239957, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 9.730575456452689e-06, "train/cont_loss_std": 0.00025956923505259823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.063323566871317e-05, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 9.451888863064325e-06, "train/cont_pred": 0.995109060855761, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.804150927556704, "train/dyn_loss_std": 8.872131974729774, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8898074047206199, "train/extr_critic_critic_opt_grad_steps": 562660.0, "train/extr_critic_critic_opt_loss": 15235.708021190068, "train/extr_critic_mag": 12.609047902773504, "train/extr_critic_max": 12.609047902773504, "train/extr_critic_mean": 3.7970229468933523, "train/extr_critic_min": -0.38143931676263676, "train/extr_critic_std": 2.9931861766397136, "train/extr_return_normed_mag": 1.399635187567097, "train/extr_return_normed_max": 1.399635187567097, "train/extr_return_normed_mean": 0.40005457074674844, "train/extr_return_normed_min": -0.07518360166721148, "train/extr_return_normed_std": 0.3174559480115159, "train/extr_return_rate": 0.8534122182898325, "train/extr_return_raw_mag": 13.345843824621749, "train/extr_return_raw_max": 13.345843824621749, "train/extr_return_raw_mean": 3.81770092820468, "train/extr_return_raw_min": -0.7129365022051825, "train/extr_return_raw_std": 3.0264277621491313, "train/extr_reward_mag": 1.084969739391379, "train/extr_reward_max": 1.084969739391379, "train/extr_reward_mean": 0.06426192666978052, "train/extr_reward_min": -0.6104270350443174, "train/extr_reward_std": 0.2434520909231003, "train/image_loss_mean": 3.450005671749376, "train/image_loss_std": 8.513174266031344, "train/model_loss_mean": 6.994733451163932, "train/model_loss_std": 12.58534027778939, "train/model_opt_grad_norm": 20.56571147866445, "train/model_opt_grad_steps": 562197.493150685, "train/model_opt_loss": 19023.665908604453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7056589159246993, "train/policy_entropy_max": 2.7056589159246993, "train/policy_entropy_mean": 0.43203731350702784, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6453458564738704, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.433844655343931, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0594416072923842, "train/policy_randomness_mag": 0.9549788628538994, "train/policy_randomness_max": 0.9549788628538994, "train/policy_randomness_mean": 0.15249021310512334, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22777876625322316, "train/post_ent_mag": 56.1213784413795, "train/post_ent_max": 56.1213784413795, "train/post_ent_mean": 40.213947661935464, "train/post_ent_min": 19.499538212606353, "train/post_ent_std": 5.887504283696005, "train/prior_ent_mag": 76.76571143163393, "train/prior_ent_max": 76.76571143163393, "train/prior_ent_mean": 46.02925235277986, "train/prior_ent_min": 27.49312949507204, "train/prior_ent_std": 7.94389262264722, "train/rep_loss_mean": 5.804150927556704, "train/rep_loss_std": 8.872131974729774, "train/reward_avg": 0.0485592355364806, "train/reward_loss_mean": 0.06222749419816553, "train/reward_loss_std": 0.22049504273558315, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0391864972571805, "train/reward_neg_acc": 0.9929813677317476, "train/reward_neg_loss": 0.02576743921086396, "train/reward_pos_acc": 0.991762156355871, "train/reward_pos_loss": 0.7148440357756941, "train/reward_pred": 0.048424444735458455, "train/reward_rate": 0.05298854880136986, "stats/sum_log_reward": 11.266666889190674, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.833333333333334, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.45273150503635406, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2179994009883027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3678125996407263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0564708709717, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.91060733795166, "timer/env.step_frac": 0.056358082493156596, "timer/env.step_avg": 0.011550961296415068, "timer/env.step_min": 0.002830028533935547, "timer/env.step_max": 1.6399660110473633, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2808361053466797, "timer/replay.add_frac": 0.0009359441725469169, "timer/replay.add_avg": 0.00019182794081057356, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0030519962310791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026801347732543945, "timer/logger.write_frac": 8.93210123239398e-05, "timer/logger.write_avg": 0.026801347732543945, "timer/logger.write_min": 0.026801347732543945, "timer/logger.write_max": 0.026801347732543945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.811083555221558, "timer/agent.policy_frac": 0.03603016300178532, "timer/agent.policy_avg": 0.0073846199147688234, "timer/agent.policy_min": 0.005880594253540039, "timer/agent.policy_max": 0.015590429306030273, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05929970741271973, "timer/dataset_frac": 0.00019762849053243513, "timer/dataset_avg": 8.101052925234936e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00014495849609375, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.3038296699524, "timer/agent.train_frac": 0.9041759002311824, "timer/agent.train_avg": 0.3706336470900989, "timer/agent.train_min": 0.3627305030822754, "timer/agent.train_max": 0.38590550422668457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22326445579528809, "timer/agent.report_frac": 0.0007440747908126095, "timer/agent.report_avg": 0.22326445579528809, "timer/agent.report_min": 0.22326445579528809, "timer/agent.report_max": 0.22326445579528809, "fps": 4.878992779316631}
+{"step": 1127311, "episode/length": 249.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.068}
+{"step": 1127523, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0660377358490566}
+{"step": 1127781, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.050387596899224806}
+{"step": 1127994, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07042253521126761}
+{"step": 1128227, "episode/length": 232.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06866952789699571}
+{"step": 1128372, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07586206896551724}
+{"step": 1128433, "episode/length": 60.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.700000040233135, "episode/reward_rate": 0.11475409836065574}
+{"step": 1128603, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425235277985873, "train/action_min": 0.0, "train/action_std": 3.224834726281362, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03691198745716925, "train/actor_opt_grad_steps": 563390.0, "train/actor_opt_loss": -11.41335687245408, "train/adv_mag": 0.3851421834671334, "train/adv_max": 0.33148711634008854, "train/adv_mean": 0.0016270116742418072, "train/adv_min": -0.33748591334035954, "train/adv_std": 0.041381509285675334, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 1.430439719531392e-05, "train/cont_loss_std": 0.00043043319871610773, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006039878153366276, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.131182751033818e-05, "train/cont_pred": 0.9952178687265475, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.682004321111392, "train/dyn_loss_std": 8.905352004586835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8921711338709478, "train/extr_critic_critic_opt_grad_steps": 563390.0, "train/extr_critic_critic_opt_loss": 15295.723873608733, "train/extr_critic_mag": 12.34106369541116, "train/extr_critic_max": 12.34106369541116, "train/extr_critic_mean": 3.713941939889568, "train/extr_critic_min": -0.34941770442544595, "train/extr_critic_std": 2.944531548513125, "train/extr_return_normed_mag": 1.386066240807102, "train/extr_return_normed_max": 1.386066240807102, "train/extr_return_normed_mean": 0.39251014222837477, "train/extr_return_normed_min": -0.07257855305932973, "train/extr_return_normed_std": 0.3126258954201659, "train/extr_return_rate": 0.8464656929447226, "train/extr_return_raw_mag": 13.155259694138618, "train/extr_return_raw_max": 13.155259694138618, "train/extr_return_raw_mean": 3.72936457150603, "train/extr_return_raw_min": -0.6827288041376087, "train/extr_return_raw_std": 2.9659547250564784, "train/extr_reward_mag": 1.0798630191855234, "train/extr_reward_max": 1.0798630191855234, "train/extr_reward_mean": 0.06333350288133098, "train/extr_reward_min": -0.5855636890620401, "train/extr_reward_std": 0.24138878734960947, "train/image_loss_mean": 3.3946588072058272, "train/image_loss_std": 8.758050121673167, "train/model_loss_mean": 6.865588952417243, "train/model_loss_std": 12.874019152497592, "train/model_opt_grad_norm": 21.231550647787852, "train/model_opt_grad_steps": 562926.8630136986, "train/model_opt_loss": 17163.972321810787, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.698336179942301, "train/policy_entropy_max": 2.698336179942301, "train/policy_entropy_mean": 0.420307140031906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6291814250488804, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4209710480007407, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0445749727013993, "train/policy_randomness_mag": 0.9523942576695795, "train/policy_randomness_max": 0.9523942576695795, "train/policy_randomness_mean": 0.1483499761925985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22207343108849983, "train/post_ent_mag": 55.80047090086219, "train/post_ent_max": 55.80047090086219, "train/post_ent_mean": 40.152778730000534, "train/post_ent_min": 19.61877417890993, "train/post_ent_std": 5.863048448954543, "train/prior_ent_mag": 76.8037122961593, "train/prior_ent_max": 76.8037122961593, "train/prior_ent_mean": 45.85158084190055, "train/prior_ent_min": 27.504378436362906, "train/prior_ent_std": 8.000987549350686, "train/rep_loss_mean": 5.682004321111392, "train/rep_loss_std": 8.905352004586835, "train/reward_avg": 0.04718937219618118, "train/reward_loss_mean": 0.06171320781928219, "train/reward_loss_std": 0.21861687506714914, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0323547010552394, "train/reward_neg_acc": 0.9925447383972064, "train/reward_neg_loss": 0.02608737796034715, "train/reward_pos_acc": 0.9924241034951928, "train/reward_pos_loss": 0.7159310399669491, "train/reward_pred": 0.047000475840209284, "train/reward_rate": 0.0516507919520548, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32832243399960653, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3276656578327047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2890840398854223e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04428720474243, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.10739278793335, "timer/env.step_frac": 0.06368190831407151, "timer/env.step_avg": 0.01317751226754024, "timer/env.step_min": 0.002767324447631836, "timer/env.step_max": 1.6507322788238525, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2980179786682129, "timer/replay.add_frac": 0.0009932466351704045, "timer/replay.add_avg": 0.00020552964046083647, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.003840923309326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031145811080932617, "timer/logger.write_frac": 0.00010380404629960351, "timer/logger.write_avg": 0.031145811080932617, "timer/logger.write_min": 0.031145811080932617, "timer/logger.write_max": 0.031145811080932617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.75323486328125, "timer/agent.policy_frac": 0.0358388255395895, "timer/agent.policy_avg": 0.007416024043642241, "timer/agent.policy_min": 0.005774497985839844, "timer/agent.policy_max": 0.017970800399780273, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059392690658569336, "timer/dataset_frac": 0.0001979464138840321, "timer/dataset_avg": 8.192095263250943e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014281272888183594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.12598037719727, "timer/agent.train_frac": 0.8969541892779072, "timer/agent.train_avg": 0.3712082487961342, "timer/agent.train_min": 0.3650362491607666, "timer/agent.train_max": 0.3837106227874756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22341656684875488, "timer/agent.report_frac": 0.0007446119668870789, "timer/agent.report_avg": 0.22341656684875488, "timer/agent.report_min": 0.22341656684875488, "timer/agent.report_max": 0.22341656684875488, "fps": 4.832520110101895}
+{"step": 1128659, "episode/length": 225.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07079646017699115}
+{"step": 1128854, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05641025641025641}
+{"step": 1129132, "episode/length": 277.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03597122302158273}
+{"step": 1129407, "episode/length": 274.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.05818181818181818}
+{"step": 1129730, "episode/length": 322.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04643962848297214}
+{"step": 1129915, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
+{"step": 1130041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437443203396267, "train/action_min": 0.0, "train/action_std": 3.2612880865732827, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037600232262371316, "train/actor_opt_grad_steps": 564115.0, "train/actor_opt_loss": -10.502140035231909, "train/adv_mag": 0.4224681392725971, "train/adv_max": 0.3420113863216506, "train/adv_mean": 0.0019718331588794375, "train/adv_min": -0.3769760026286046, "train/adv_std": 0.04210869181487295, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 5.6225116504727955e-05, "train/cont_loss_std": 0.0017628672918801572, "train/cont_neg_acc": 0.9929577464788732, "train/cont_neg_loss": 0.014706321023237318, "train/cont_pos_acc": 0.999986377855142, "train/cont_pos_loss": 2.3401257852310547e-05, "train/cont_pred": 0.9948768127295706, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.793596963087718, "train/dyn_loss_std": 8.957845833566454, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8628952999909719, "train/extr_critic_critic_opt_grad_steps": 564115.0, "train/extr_critic_critic_opt_loss": 15304.669528537326, "train/extr_critic_mag": 12.226562407281664, "train/extr_critic_max": 12.226562407281664, "train/extr_critic_mean": 3.754283686478933, "train/extr_critic_min": -0.3766307416889403, "train/extr_critic_std": 2.9620085093710156, "train/extr_return_normed_mag": 1.3697507588399782, "train/extr_return_normed_max": 1.3697507588399782, "train/extr_return_normed_mean": 0.39910978596243596, "train/extr_return_normed_min": -0.0788201271659798, "train/extr_return_normed_std": 0.31651276018884444, "train/extr_return_rate": 0.8481219684084257, "train/extr_return_raw_mag": 12.937469323476156, "train/extr_return_raw_max": 12.937469323476156, "train/extr_return_raw_mean": 3.772910942633947, "train/extr_return_raw_min": -0.7404323787324958, "train/extr_return_raw_std": 2.9886942820416555, "train/extr_reward_mag": 1.0819405184851751, "train/extr_reward_max": 1.0819405184851751, "train/extr_reward_mean": 0.06341477949172258, "train/extr_reward_min": -0.6207682225439284, "train/extr_reward_std": 0.24189193484683832, "train/image_loss_mean": 3.5285503996743097, "train/image_loss_std": 8.895255075560677, "train/model_loss_mean": 7.067930658658345, "train/model_loss_std": 13.024915430280897, "train/model_opt_grad_norm": 21.02308204438951, "train/model_opt_grad_steps": 563651.0, "train/model_opt_loss": 17669.826605902777, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7084908253616757, "train/policy_entropy_max": 2.7084908253616757, "train/policy_entropy_mean": 0.4285569464166959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6359008927312162, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.427929633607467, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0483259293768141, "train/policy_randomness_mag": 0.9559784034887949, "train/policy_randomness_max": 0.9559784034887949, "train/policy_randomness_mean": 0.15126179655392966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22444510977301332, "train/post_ent_mag": 55.540094746483696, "train/post_ent_max": 55.540094746483696, "train/post_ent_mean": 40.19183667500814, "train/post_ent_min": 19.592582835091484, "train/post_ent_std": 5.838374846511417, "train/prior_ent_mag": 76.82518884870741, "train/prior_ent_max": 76.82518884870741, "train/prior_ent_mean": 45.929896884494354, "train/prior_ent_min": 27.462208721372818, "train/prior_ent_std": 7.940905213356018, "train/rep_loss_mean": 5.793596963087718, "train/rep_loss_std": 8.957845833566454, "train/reward_avg": 0.04861246747896075, "train/reward_loss_mean": 0.06316584716033605, "train/reward_loss_std": 0.2236180290993717, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.035622388124466, "train/reward_neg_acc": 0.9925648669401804, "train/reward_neg_loss": 0.026420238764128752, "train/reward_pos_acc": 0.9890710264444351, "train/reward_pos_loss": 0.7178245559334755, "train/reward_pred": 0.04830047726217243, "train/reward_rate": 0.053141276041666664, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4685739775498708, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3299017682029077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3000278711650567e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0159721374512, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.782459497451782, "timer/env.step_frac": 0.06593802108771904, "timer/env.step_avg": 0.013756925937031837, "timer/env.step_min": 0.0027379989624023438, "timer/env.step_max": 2.395827531814575, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2751152515411377, "timer/replay.add_frac": 0.0009170020168629379, "timer/replay.add_avg": 0.0001913179774277731, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.004314422607421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02537059783935547, "timer/logger.write_frac": 8.456415723004249e-05, "timer/logger.write_avg": 0.02537059783935547, "timer/logger.write_min": 0.02537059783935547, "timer/logger.write_max": 0.02537059783935547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024056434631347656, "timer/checkpoint.save_frac": 8.018384641310461e-07, "timer/checkpoint.save_avg": 0.00024056434631347656, "timer/checkpoint.save_min": 0.00024056434631347656, "timer/checkpoint.save_max": 0.00024056434631347656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.223639726638794, "timer/agent.save_frac": 0.004078581943224636, "timer/agent.save_avg": 1.223639726638794, "timer/agent.save_min": 1.223639726638794, "timer/agent.save_max": 1.223639726638794, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.222724914550781e-05, "timer/replay.save_frac": 2.0741312104876416e-07, "timer/replay.save_avg": 6.222724914550781e-05, "timer/replay.save_min": 6.222724914550781e-05, "timer/replay.save_max": 6.222724914550781e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.7586510181427, "timer/agent.policy_frac": 0.03919341671834565, "timer/agent.policy_avg": 0.008177086938903129, "timer/agent.policy_min": 0.005822181701660156, "timer/agent.policy_max": 1.2090539932250977, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05837750434875488, "timer/dataset_frac": 0.00019458132156380478, "timer/dataset_avg": 8.119263469924184e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.45745277404785, "timer/agent.train_frac": 0.8914773799160041, "timer/agent.train_avg": 0.3719853307010401, "timer/agent.train_min": 0.36478757858276367, "timer/agent.train_max": 0.780343770980835, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845793724060059, "timer/agent.report_frac": 0.0007281543568637569, "timer/agent.report_avg": 0.21845793724060059, "timer/agent.report_min": 0.21845793724060059, "timer/agent.report_max": 0.21845793724060059, "fps": 4.7929984686467035}
+{"step": 1130062, "episode/length": 146.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.08163265306122448}
+{"step": 1130340, "episode/length": 277.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.050359712230215826}
+{"step": 1130496, "episode/length": 155.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 1130688, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0625}
+{"step": 1131026, "episode/length": 337.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04142011834319527}
+{"step": 1131509, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401292774775257, "train/action_min": 0.0, "train/action_std": 3.246662009252261, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03802178238760935, "train/actor_opt_grad_steps": 564840.0, "train/actor_opt_loss": -11.16363560707286, "train/adv_mag": 0.40862131445375205, "train/adv_max": 0.3548110948033529, "train/adv_mean": 0.0021176515381829916, "train/adv_min": -0.36418463493863196, "train/adv_std": 0.04223730976450933, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 1.9355123608623537e-05, "train/cont_loss_std": 0.0005926633379846161, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002712232415902836, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 3.968025362109224e-06, "train/cont_pred": 0.9952323885813151, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.668256367722603, "train/dyn_loss_std": 8.84684196890217, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9164971072379857, "train/extr_critic_critic_opt_grad_steps": 564840.0, "train/extr_critic_critic_opt_loss": 15353.20844927226, "train/extr_critic_mag": 12.381509467347028, "train/extr_critic_max": 12.381509467347028, "train/extr_critic_mean": 3.7667336823189097, "train/extr_critic_min": -0.34098668294410184, "train/extr_critic_std": 2.9483965096408373, "train/extr_return_normed_mag": 1.3739076297577113, "train/extr_return_normed_max": 1.3739076297577113, "train/extr_return_normed_mean": 0.3990313276036145, "train/extr_return_normed_min": -0.07068106154464696, "train/extr_return_normed_std": 0.31259774284003533, "train/extr_return_rate": 0.8528557068681064, "train/extr_return_raw_mag": 13.070150375366211, "train/extr_return_raw_max": 13.070150375366211, "train/extr_return_raw_mean": 3.786904321957941, "train/extr_return_raw_min": -0.6857704218119791, "train/extr_return_raw_std": 2.976672744097775, "train/extr_reward_mag": 1.084289606303385, "train/extr_reward_max": 1.084289606303385, "train/extr_reward_mean": 0.06388246160868095, "train/extr_reward_min": -0.5648513379162305, "train/extr_reward_std": 0.24287230368346385, "train/image_loss_mean": 3.4415067287340557, "train/image_loss_std": 8.1777424028475, "train/model_loss_mean": 6.9032409419752145, "train/model_loss_std": 12.269757937078607, "train/model_opt_grad_norm": 21.000299035686336, "train/model_opt_grad_steps": 564375.2876712328, "train/model_opt_loss": 17890.133039918663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.6969073112696815, "train/policy_entropy_max": 2.6969073112696815, "train/policy_entropy_mean": 0.41917532070042335, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6328974243712752, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4201631595010627, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0464417068925622, "train/policy_randomness_mag": 0.9518899288896012, "train/policy_randomness_max": 0.9518899288896012, "train/policy_randomness_mean": 0.14795049453434878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2233850168038721, "train/post_ent_mag": 55.771979919851645, "train/post_ent_max": 55.771979919851645, "train/post_ent_mean": 40.20842910139528, "train/post_ent_min": 19.59888079395033, "train/post_ent_std": 5.870731020626956, "train/prior_ent_mag": 76.83400182854639, "train/prior_ent_max": 76.83400182854639, "train/prior_ent_mean": 45.85558742366425, "train/prior_ent_min": 27.89869023675788, "train/prior_ent_std": 7.906771561870836, "train/rep_loss_mean": 5.668256367722603, "train/rep_loss_std": 8.84684196890217, "train/reward_avg": 0.04660878639208944, "train/reward_loss_mean": 0.06076106444409449, "train/reward_loss_std": 0.21586328969426352, "train/reward_max_data": 1.04794521691048, "train/reward_max_pred": 1.043558901303435, "train/reward_neg_acc": 0.9932313871710268, "train/reward_neg_loss": 0.02531960912763256, "train/reward_pos_acc": 0.990035110957002, "train/reward_pos_loss": 0.7211251307840216, "train/reward_pred": 0.04619900420410176, "train/reward_rate": 0.05095515839041096, "stats/sum_log_reward": 11.900000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5053608596324921, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.340133854089056e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3224882066087438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06265926361084, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.620542287826538, "timer/env.step_frac": 0.05205760132287433, "timer/env.step_avg": 0.010640696381353228, "timer/env.step_min": 0.002992868423461914, "timer/env.step_max": 1.5734727382659912, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2969536781311035, "timer/replay.add_frac": 0.0009896388936226283, "timer/replay.add_avg": 0.0002022845218876727, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0039288997650146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031184673309326172, "timer/logger.write_frac": 0.00010392720435744001, "timer/logger.write_avg": 0.031184673309326172, "timer/logger.write_min": 0.031184673309326172, "timer/logger.write_max": 0.031184673309326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.828637838363647, "timer/agent.policy_frac": 0.03608792198582257, "timer/agent.policy_avg": 0.007376456293163248, "timer/agent.policy_min": 0.005758523941040039, "timer/agent.policy_max": 0.02283191680908203, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05985617637634277, "timer/dataset_frac": 0.0001994789239128817, "timer/dataset_avg": 8.154792421845064e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.5671417713165, "timer/agent.train_frac": 0.9083674137936004, "timer/agent.train_avg": 0.37134487979743397, "timer/agent.train_min": 0.36514973640441895, "timer/agent.train_max": 0.38277125358581543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22104716300964355, "timer/agent.report_frac": 0.0007366700126970792, "timer/agent.report_avg": 0.22104716300964355, "timer/agent.report_min": 0.22104716300964355, "timer/agent.report_max": 0.22104716300964355, "fps": 4.892229663796629}
+{"step": 1131578, "episode/length": 551.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 18.300000086426735, "episode/reward_rate": 0.028985507246376812}
+{"step": 1131836, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05813953488372093}
+{"step": 1132027, "episode/length": 190.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07853403141361257}
+{"step": 1132239, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07075471698113207}
+{"step": 1132451, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0660377358490566}
+{"step": 1132625, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 1132858, "episode/length": 232.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.055793991416309016}
+{"step": 1132963, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402503444723887, "train/action_min": 0.0, "train/action_std": 3.234654001993676, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653689129405642, "train/actor_opt_grad_steps": 565570.0, "train/actor_opt_loss": -11.962471203853006, "train/adv_mag": 0.43353503064749993, "train/adv_max": 0.31780287072266616, "train/adv_mean": 0.0017011846795294207, "train/adv_min": -0.40485935872548245, "train/adv_std": 0.04113770005841778, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 6.447051392178172e-06, "train/cont_loss_std": 0.00017607951121850383, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.425785569582173e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 5.964692843628595e-06, "train/cont_pred": 0.9947240515931012, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.751654304870187, "train/dyn_loss_std": 8.919260926442604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8858410258815713, "train/extr_critic_critic_opt_grad_steps": 565570.0, "train/extr_critic_critic_opt_loss": 15266.449084974314, "train/extr_critic_mag": 12.608430104712918, "train/extr_critic_max": 12.608430104712918, "train/extr_critic_mean": 3.828895549251609, "train/extr_critic_min": -0.35275672886469595, "train/extr_critic_std": 3.095365191159183, "train/extr_return_normed_mag": 1.380352844930675, "train/extr_return_normed_max": 1.380352844930675, "train/extr_return_normed_mean": 0.39886360911473834, "train/extr_return_normed_min": -0.07028917304865301, "train/extr_return_normed_std": 0.32247833029864587, "train/extr_return_rate": 0.8482368768078007, "train/extr_return_raw_mag": 13.356936637669394, "train/extr_return_raw_max": 13.356936637669394, "train/extr_return_raw_mean": 3.8453514804578806, "train/extr_return_raw_min": -0.7008885275827695, "train/extr_return_raw_std": 3.1250575437937695, "train/extr_reward_mag": 1.087265873608524, "train/extr_reward_max": 1.087265873608524, "train/extr_reward_mean": 0.06365099824862937, "train/extr_reward_min": -0.6005656114996296, "train/extr_reward_std": 0.24249496076205004, "train/image_loss_mean": 3.4073158518908775, "train/image_loss_std": 8.56665141615149, "train/model_loss_mean": 6.921915335197971, "train/model_loss_std": 12.643843650817871, "train/model_opt_grad_norm": 19.577507541604238, "train/model_opt_grad_steps": 565104.698630137, "train/model_opt_loss": 17976.121816138697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.7086917864133233, "train/policy_entropy_max": 2.7086917864133233, "train/policy_entropy_mean": 0.40763985539135866, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6169819872673243, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40693635258772604, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0321852515821588, "train/policy_randomness_mag": 0.956049333696496, "train/policy_randomness_max": 0.956049333696496, "train/policy_randomness_mean": 0.14387897983805775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2177675670548661, "train/post_ent_mag": 55.93200782880391, "train/post_ent_max": 55.93200782880391, "train/post_ent_mean": 40.35637779758401, "train/post_ent_min": 19.68873767330222, "train/post_ent_std": 5.866342544555664, "train/prior_ent_mag": 76.76120778959091, "train/prior_ent_max": 76.76120778959091, "train/prior_ent_mean": 46.108200543547326, "train/prior_ent_min": 27.65087791338359, "train/prior_ent_std": 7.943440914154053, "train/rep_loss_mean": 5.751654304870187, "train/rep_loss_std": 8.919260926442604, "train/reward_avg": 0.04829837300189554, "train/reward_loss_mean": 0.06360052189190094, "train/reward_loss_std": 0.22919086948649525, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0350228499059808, "train/reward_neg_acc": 0.993257418070754, "train/reward_neg_loss": 0.026426560181665094, "train/reward_pos_acc": 0.9876186178155142, "train/reward_pos_loss": 0.731170555500135, "train/reward_pred": 0.04780202358961105, "train/reward_rate": 0.05292166095890411, "stats/sum_log_reward": 13.242857251848493, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.857142857142858, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.46970002140317646, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4577252940265807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3438920699254683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0199043750763, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.30527400970459, "timer/env.step_frac": 0.0610135319116023, "timer/env.step_avg": 0.012589596980539608, "timer/env.step_min": 0.0026748180389404297, "timer/env.step_max": 1.634955644607544, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.30687761306762695, "timer/replay.add_frac": 0.0010228575124268335, "timer/replay.add_avg": 0.00021105750554857426, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004393815994262695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023492097854614258, "timer/logger.write_frac": 7.830179768754645e-05, "timer/logger.write_avg": 0.023492097854614258, "timer/logger.write_min": 0.023492097854614258, "timer/logger.write_max": 0.023492097854614258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.946045398712158, "timer/agent.policy_frac": 0.0364843973319441, "timer/agent.policy_avg": 0.007528229297601209, "timer/agent.policy_min": 0.005795001983642578, "timer/agent.policy_max": 0.032030582427978516, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06289792060852051, "timer/dataset_frac": 0.00020964582579790215, "timer/dataset_avg": 8.651708474349451e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00018215179443359375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6969916820526, "timer/agent.train_frac": 0.8989303301186482, "timer/agent.train_avg": 0.3709724782421632, "timer/agent.train_min": 0.3604269027709961, "timer/agent.train_max": 0.38584041595458984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192823886871338, "timer/agent.report_frac": 0.000730892802408847, "timer/agent.report_avg": 0.2192823886871338, "timer/agent.report_min": 0.2192823886871338, "timer/agent.report_max": 0.2192823886871338, "fps": 4.846256116615131}
+{"step": 1133021, "episode/length": 162.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.09202453987730061}
+{"step": 1133083, "episode/length": 61.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0967741935483871}
+{"step": 1133229, "episode/length": 145.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.08904109589041095}
+{"step": 1133446, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06912442396313365}
+{"step": 1133505, "episode/length": 58.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.1016949152542373}
+{"step": 1133787, "episode/length": 281.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.05319148936170213}
+{"step": 1134009, "episode/length": 221.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06756756756756757}
+{"step": 1134240, "episode/length": 230.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06060606060606061}
+{"step": 1134407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437778896755642, "train/action_min": 0.0, "train/action_std": 3.2799028820461698, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0361748649738729, "train/actor_opt_grad_steps": 566295.0, "train/actor_opt_loss": -11.274049924479591, "train/adv_mag": 0.40912355358401936, "train/adv_max": 0.3349957896603478, "train/adv_mean": 0.001575674106485773, "train/adv_min": -0.37639110535383224, "train/adv_std": 0.041273292878435716, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 9.163145216679109e-05, "train/cont_loss_std": 0.0028813374916367707, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.00656636220115519, "train/cont_pos_acc": 0.9999727225965924, "train/cont_pos_loss": 6.447463331227254e-05, "train/cont_pred": 0.9949703183439043, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.723139226436615, "train/dyn_loss_std": 8.941545804341635, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9903830256727006, "train/extr_critic_critic_opt_grad_steps": 566295.0, "train/extr_critic_critic_opt_loss": 15195.818834092883, "train/extr_critic_mag": 12.594907177819145, "train/extr_critic_max": 12.594907177819145, "train/extr_critic_mean": 3.774635073211458, "train/extr_critic_min": -0.36365070773495567, "train/extr_critic_std": 3.099996331665251, "train/extr_return_normed_mag": 1.3633745378918118, "train/extr_return_normed_max": 1.3633745378918118, "train/extr_return_normed_mean": 0.39215650657812756, "train/extr_return_normed_min": -0.07342537911608815, "train/extr_return_normed_std": 0.322581560868356, "train/extr_return_rate": 0.8408312085602019, "train/extr_return_raw_mag": 13.201239519649082, "train/extr_return_raw_max": 13.201239519649082, "train/extr_return_raw_mean": 3.7899080548021526, "train/extr_return_raw_min": -0.7216396840910116, "train/extr_return_raw_std": 3.1259491211838193, "train/extr_reward_mag": 1.0881323648823633, "train/extr_reward_max": 1.0881323648823633, "train/extr_reward_mean": 0.06359226323871149, "train/extr_reward_min": -0.6194745865133073, "train/extr_reward_std": 0.24246010618905225, "train/image_loss_mean": 3.491965022352007, "train/image_loss_std": 8.44765348566903, "train/model_loss_mean": 6.9896825949351, "train/model_loss_std": 12.571896500057644, "train/model_opt_grad_norm": 20.530824886427986, "train/model_opt_grad_steps": 565829.0, "train/model_opt_loss": 17474.206583658855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7236317793528237, "train/policy_entropy_max": 2.7236317793528237, "train/policy_entropy_mean": 0.4356315423631006, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6549965768224664, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4366678078141477, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0618574644128482, "train/policy_randomness_mag": 0.9613224955068694, "train/policy_randomness_max": 0.9613224955068694, "train/policy_randomness_mean": 0.15375881962892082, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23118504736986425, "train/post_ent_mag": 55.46077553431193, "train/post_ent_max": 55.46077553431193, "train/post_ent_mean": 40.198344495561386, "train/post_ent_min": 19.549480968051487, "train/post_ent_std": 5.831336153878106, "train/prior_ent_mag": 76.85150316026476, "train/prior_ent_max": 76.85150316026476, "train/prior_ent_mean": 45.90237172444662, "train/prior_ent_min": 27.70671108033922, "train/prior_ent_std": 7.92766449186537, "train/rep_loss_mean": 5.723139226436615, "train/rep_loss_std": 8.941545804341635, "train/reward_avg": 0.0485921221681767, "train/reward_loss_mean": 0.06374244371222125, "train/reward_loss_std": 0.22639212095075184, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0329502324263256, "train/reward_neg_acc": 0.9930942124790616, "train/reward_neg_loss": 0.026879031961369846, "train/reward_pos_acc": 0.9909631179438697, "train/reward_pos_loss": 0.7223212545116743, "train/reward_pred": 0.04827126539829704, "train/reward_rate": 0.05300564236111111, "stats/sum_log_reward": 11.475000202655792, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 10.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33973472099751234, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.143856069718041e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3772222804230665e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0125799179077, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.157739639282227, "timer/env.step_frac": 0.06385645443442521, "timer/env.step_avg": 0.013267132714184367, "timer/env.step_min": 0.0023734569549560547, "timer/env.step_max": 1.3800764083862305, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29128193855285645, "timer/replay.add_frac": 0.0009708990824070103, "timer/replay.add_avg": 0.00020171879401167345, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0008893013000488281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02713918685913086, "timer/logger.write_frac": 9.046016292569112e-05, "timer/logger.write_avg": 0.02713918685913086, "timer/logger.write_min": 0.02713918685913086, "timer/logger.write_max": 0.02713918685913086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.82774843905875e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.326059341430664, "timer/agent.save_frac": 0.004420012460122549, "timer/agent.save_avg": 1.326059341430664, "timer/agent.save_min": 1.326059341430664, "timer/agent.save_max": 1.326059341430664, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2966693389725672e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 14.304938077926636, "timer/agent.policy_frac": 0.04768112751085601, "timer/agent.policy_avg": 0.009906466812968584, "timer/agent.policy_min": 0.005836963653564453, "timer/agent.policy_max": 2.2723336219787598, "timer/dataset_count": 722.0, "timer/dataset_total": 0.0562138557434082, "timer/dataset_frac": 0.00018737166207760344, "timer/dataset_avg": 7.785852596039917e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 265.5529067516327, "timer/agent.train_frac": 0.8851392392422204, "timer/agent.train_avg": 0.3678018099053084, "timer/agent.train_min": 0.3606858253479004, "timer/agent.train_max": 0.45405149459838867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21996331214904785, "timer/agent.report_frac": 0.0007331802960037086, "timer/agent.report_avg": 0.21996331214904785, "timer/agent.report_min": 0.21996331214904785, "timer/agent.report_max": 0.21996331214904785, "fps": 4.813046021202572}
+{"step": 1134560, "episode/length": 319.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.500000029802322, "episode/reward_rate": 0.04375}
+{"step": 1134712, "episode/length": 151.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05921052631578947}
+{"step": 1134937, "episode/length": 224.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06666666666666667}
+{"step": 1135126, "episode/length": 188.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07407407407407407}
+{"step": 1135409, "episode/length": 282.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04946996466431095}
+{"step": 1135799, "episode/length": 389.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.041025641025641026}
+{"step": 1135879, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4492657635663, "train/action_min": 0.0, "train/action_std": 3.317765570975639, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677312571656059, "train/actor_opt_grad_steps": 567025.0, "train/actor_opt_loss": -11.424638932218423, "train/adv_mag": 0.3951457195185326, "train/adv_max": 0.33300405982378367, "train/adv_mean": 0.001837331033646085, "train/adv_min": -0.3591104997573672, "train/adv_std": 0.04147010820137488, "train/cont_avg": 0.995288745777027, "train/cont_loss_mean": 0.00012282860009497345, "train/cont_loss_std": 0.0033229467320030084, "train/cont_neg_acc": 0.9912162165384035, "train/cont_neg_loss": 0.025229760898768022, "train/cont_pos_acc": 0.9999999774468912, "train/cont_pos_loss": 1.1539928462181362e-05, "train/cont_pred": 0.9953184248627843, "train/cont_rate": 0.995288745777027, "train/dyn_loss_mean": 5.696051455832817, "train/dyn_loss_std": 8.94433659476203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8961597036670994, "train/extr_critic_critic_opt_grad_steps": 567025.0, "train/extr_critic_critic_opt_loss": 15331.168654983108, "train/extr_critic_mag": 12.572259812741667, "train/extr_critic_max": 12.572259812741667, "train/extr_critic_mean": 3.756270054224375, "train/extr_critic_min": -0.3768271884402713, "train/extr_critic_std": 3.022331659858291, "train/extr_return_normed_mag": 1.3826722486599072, "train/extr_return_normed_max": 1.3826722486599072, "train/extr_return_normed_mean": 0.3945648621868443, "train/extr_return_normed_min": -0.06991372992460793, "train/extr_return_normed_std": 0.3173476679099573, "train/extr_return_rate": 0.8472947019177515, "train/extr_return_raw_mag": 13.263438095917573, "train/extr_return_raw_max": 13.263438095917573, "train/extr_return_raw_mean": 3.773919189298475, "train/extr_return_raw_min": -0.6866654467743796, "train/extr_return_raw_std": 3.047697389448011, "train/extr_reward_mag": 1.0828967223296295, "train/extr_reward_max": 1.0828967223296295, "train/extr_reward_mean": 0.0647309807607451, "train/extr_reward_min": -0.5882199116655298, "train/extr_reward_std": 0.2440600493872488, "train/image_loss_mean": 3.477542701605204, "train/image_loss_std": 8.759248166470915, "train/model_loss_mean": 6.957571139206758, "train/model_loss_std": 12.895892439661798, "train/model_opt_grad_norm": 21.812975648331317, "train/model_opt_grad_steps": 566557.7432432432, "train/model_opt_loss": 15191.114528346707, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2179.054054054054, "train/policy_entropy_mag": 2.70248378934087, "train/policy_entropy_max": 2.70248378934087, "train/policy_entropy_mean": 0.41934080019190506, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6392272738991557, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41920865749990616, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0465893793750454, "train/policy_randomness_mag": 0.953858182236955, "train/policy_randomness_max": 0.953858182236955, "train/policy_randomness_mean": 0.14800889971288475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22561917635234627, "train/post_ent_mag": 55.66684831155313, "train/post_ent_max": 55.66684831155313, "train/post_ent_mean": 40.18163304715543, "train/post_ent_min": 19.853251934051514, "train/post_ent_std": 5.829543674314344, "train/prior_ent_mag": 76.8253505809887, "train/prior_ent_max": 76.8253505809887, "train/prior_ent_mean": 45.856969524074245, "train/prior_ent_min": 27.825247326412715, "train/prior_ent_std": 7.920521439732732, "train/rep_loss_mean": 5.696051455832817, "train/rep_loss_std": 8.94433659476203, "train/reward_avg": 0.047897751216550134, "train/reward_loss_mean": 0.06227479547866293, "train/reward_loss_std": 0.22708699570314303, "train/reward_max_data": 1.0364864951855428, "train/reward_max_pred": 1.031386449530318, "train/reward_neg_acc": 0.9922970275621157, "train/reward_neg_loss": 0.0256018176851039, "train/reward_pos_acc": 0.9882362911830077, "train/reward_pos_loss": 0.7287910427596118, "train/reward_pred": 0.047431200188962186, "train/reward_rate": 0.05216691300675676, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.6012031907836596, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.1308635421421216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4860466446565546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1417660713196, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.839892387390137, "timer/env.step_frac": 0.056106461315979086, "timer/env.step_avg": 0.011440144284911778, "timer/env.step_min": 0.002365589141845703, "timer/env.step_max": 1.4658823013305664, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.29581141471862793, "timer/replay.add_frac": 0.0009855723133458784, "timer/replay.add_avg": 0.00020095884152080703, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0007781982421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02549004554748535, "timer/logger.write_frac": 8.492668608283066e-05, "timer/logger.write_avg": 0.02549004554748535, "timer/logger.write_min": 0.02549004554748535, "timer/logger.write_max": 0.02549004554748535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 11.004336833953857, "timer/agent.policy_frac": 0.036663797171563955, "timer/agent.policy_avg": 0.007475772305675175, "timer/agent.policy_min": 0.005959987640380859, "timer/agent.policy_max": 0.01822352409362793, "timer/dataset_count": 736.0, "timer/dataset_total": 0.0600743293762207, "timer/dataset_frac": 0.0002001531814867307, "timer/dataset_avg": 8.162273013073465e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.27369117736816, "timer/agent.train_frac": 0.9038185345817823, "timer/agent.train_avg": 0.36857838475185895, "timer/agent.train_min": 0.3594787120819092, "timer/agent.train_max": 0.38567590713500977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22030043601989746, "timer/agent.report_frac": 0.000733987938111718, "timer/agent.report_avg": 0.22030043601989746, "timer/agent.report_min": 0.22030043601989746, "timer/agent.report_max": 0.22030043601989746, "fps": 4.904283327321471}
+{"step": 1136001, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07425742574257425}
+{"step": 1136225, "episode/length": 223.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05357142857142857}
+{"step": 1136417, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
+{"step": 1136600, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08196721311475409}
+{"step": 1136703, "episode/length": 102.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.08737864077669903}
+{"step": 1136917, "episode/length": 213.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07009345794392523}
+{"step": 1137125, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0625}
+{"step": 1137337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489660474989149, "train/action_min": 0.0, "train/action_std": 3.3171224693457284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036612323459444776, "train/actor_opt_grad_steps": 567755.0, "train/actor_opt_loss": -10.520217808998293, "train/adv_mag": 0.4071949267139037, "train/adv_max": 0.32442557087375057, "train/adv_mean": 0.002251302734470705, "train/adv_min": -0.36654316323498887, "train/adv_std": 0.04186208132240507, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 7.05058435044808e-05, "train/cont_loss_std": 0.0022391423501677307, "train/cont_neg_acc": 0.9903549386395348, "train/cont_neg_loss": 0.017715607644245884, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 4.5863495580099484e-06, "train/cont_pred": 0.9951716686288515, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.694147282176548, "train/dyn_loss_std": 8.918432897991604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9107423805528216, "train/extr_critic_critic_opt_grad_steps": 567755.0, "train/extr_critic_critic_opt_loss": 15090.801106770834, "train/extr_critic_mag": 12.387923743989733, "train/extr_critic_max": 12.387923743989733, "train/extr_critic_mean": 3.8072409431139627, "train/extr_critic_min": -0.3575564722220103, "train/extr_critic_std": 2.995833867126041, "train/extr_return_normed_mag": 1.3813040720091925, "train/extr_return_normed_max": 1.3813040720091925, "train/extr_return_normed_mean": 0.4049912869102425, "train/extr_return_normed_min": -0.06633912091557351, "train/extr_return_normed_std": 0.31683079712092876, "train/extr_return_rate": 0.8495081464449564, "train/extr_return_raw_mag": 13.157103617986044, "train/extr_return_raw_max": 13.157103617986044, "train/extr_return_raw_mean": 3.8287457790639667, "train/extr_return_raw_min": -0.6740617555462651, "train/extr_return_raw_std": 3.026939998070399, "train/extr_reward_mag": 1.0831935571299658, "train/extr_reward_max": 1.0831935571299658, "train/extr_reward_mean": 0.0655762726544506, "train/extr_reward_min": -0.5840939117802514, "train/extr_reward_std": 0.24511346883243984, "train/image_loss_mean": 3.456269658274121, "train/image_loss_std": 8.747748037179312, "train/model_loss_mean": 6.937336577309503, "train/model_loss_std": 12.86613380908966, "train/model_opt_grad_norm": 20.171875874201458, "train/model_opt_grad_steps": 567287.0, "train/model_opt_loss": 8910.785766601562, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.720411433113946, "train/policy_entropy_max": 2.720411433113946, "train/policy_entropy_mean": 0.4384491762353314, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6558459086550606, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43841829068130916, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0582978162500594, "train/policy_randomness_mag": 0.9601858564549022, "train/policy_randomness_max": 0.9601858564549022, "train/policy_randomness_mean": 0.15475332043651077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23148482561939293, "train/post_ent_mag": 55.78197934892442, "train/post_ent_max": 55.78197934892442, "train/post_ent_mean": 40.20952007505629, "train/post_ent_min": 19.542472706900703, "train/post_ent_std": 5.862916350364685, "train/prior_ent_mag": 76.82173898484972, "train/prior_ent_max": 76.82173898484972, "train/prior_ent_mean": 45.880537297990585, "train/prior_ent_min": 28.147501786549885, "train/prior_ent_std": 7.875923209720188, "train/rep_loss_mean": 5.694147282176548, "train/rep_loss_std": 8.918432897991604, "train/reward_avg": 0.05003662034869194, "train/reward_loss_mean": 0.0645080712209973, "train/reward_loss_std": 0.2310324865910742, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0379935536119673, "train/reward_neg_acc": 0.9928670393096076, "train/reward_neg_loss": 0.026014768389157124, "train/reward_pos_acc": 0.9868898921542697, "train/reward_pos_loss": 0.7364157090584437, "train/reward_pred": 0.049387503027295075, "train/reward_rate": 0.054375542534722224, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.714285714285715, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2797700762748718, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.102548491971156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5118239838400004e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2730004787445, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.295466899871826, "timer/env.step_frac": 0.06425974652768589, "timer/env.step_avg": 0.013234202263286575, "timer/env.step_min": 0.002884387969970703, "timer/env.step_max": 1.5458533763885498, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2859771251678467, "timer/replay.add_frac": 0.0009523904071025201, "timer/replay.add_avg": 0.00019614343289975768, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.001209259033203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022458553314208984, "timer/logger.write_frac": 7.479378191979256e-05, "timer/logger.write_avg": 0.022458553314208984, "timer/logger.write_min": 0.022458553314208984, "timer/logger.write_max": 0.022458553314208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.005421161651611, "timer/agent.policy_frac": 0.036651384387224165, "timer/agent.policy_avg": 0.007548299836523739, "timer/agent.policy_min": 0.006157398223876953, "timer/agent.policy_max": 0.04183626174926758, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0590212345123291, "timer/dataset_frac": 0.0001965585797531838, "timer/dataset_avg": 8.09619129112882e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.96818566322327, "timer/agent.train_frac": 0.8957454890529286, "timer/agent.train_avg": 0.36895498719235015, "timer/agent.train_min": 0.3614675998687744, "timer/agent.train_max": 0.38425254821777344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22053813934326172, "timer/agent.report_frac": 0.0007344587724891803, "timer/agent.report_avg": 0.22053813934326172, "timer/agent.report_min": 0.22053813934326172, "timer/agent.report_max": 0.22053813934326172, "fps": 4.855469471483637}
+{"step": 1137351, "episode/length": 225.0, "episode/score": 14.100000038743019, "episode/sum_abs_reward": 16.500000074505806, "episode/reward_rate": 0.07079646017699115}
+{"step": 1137544, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06735751295336788}
+{"step": 1137865, "episode/length": 320.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.04672897196261682}
+{"step": 1138054, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042328042328042326}
+{"step": 1138136, "episode/length": 81.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.10975609756097561}
+{"step": 1138331, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07692307692307693}
+{"step": 1138672, "episode/length": 340.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.03225806451612903}
+{"step": 1138777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471870422363281, "train/action_min": 0.0, "train/action_std": 3.3121914532449512, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733159813822971, "train/actor_opt_grad_steps": 568475.0, "train/actor_opt_loss": -10.907885743512047, "train/adv_mag": 0.3977704909112718, "train/adv_max": 0.33131098705861306, "train/adv_mean": 0.0014657896416186607, "train/adv_min": -0.34769882158272797, "train/adv_std": 0.04108579482676254, "train/cont_avg": 0.995361328125, "train/cont_loss_mean": 4.592122894417658e-05, "train/cont_loss_std": 0.0014553869401032512, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.004294711973164616, "train/cont_pos_acc": 0.9999863248732355, "train/cont_pos_loss": 3.366446753615292e-05, "train/cont_pred": 0.9953527061475648, "train/cont_rate": 0.995361328125, "train/dyn_loss_mean": 5.859420590930515, "train/dyn_loss_std": 8.98844399717119, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9139257470766703, "train/extr_critic_critic_opt_grad_steps": 568475.0, "train/extr_critic_critic_opt_loss": 15245.86760796441, "train/extr_critic_mag": 12.282108611530727, "train/extr_critic_max": 12.282108611530727, "train/extr_critic_mean": 3.6604723980029426, "train/extr_critic_min": -0.3584802895784378, "train/extr_critic_std": 2.9359260201454163, "train/extr_return_normed_mag": 1.352193597290251, "train/extr_return_normed_max": 1.352193597290251, "train/extr_return_normed_mean": 0.3861571107473638, "train/extr_return_normed_min": -0.06628499387039079, "train/extr_return_normed_std": 0.30807022419240737, "train/extr_return_rate": 0.846396711965402, "train/extr_return_raw_mag": 12.954362259970772, "train/extr_return_raw_max": 12.954362259970772, "train/extr_return_raw_mean": 3.674548505081071, "train/extr_return_raw_min": -0.6719905444317393, "train/extr_return_raw_std": 2.9595880028274326, "train/extr_reward_mag": 1.078114542696211, "train/extr_reward_max": 1.078114542696211, "train/extr_reward_mean": 0.06158780332447754, "train/extr_reward_min": -0.583598170015547, "train/extr_reward_std": 0.2383020901017719, "train/image_loss_mean": 3.542567001448737, "train/image_loss_std": 8.952289912435743, "train/model_loss_mean": 7.120145810974969, "train/model_loss_std": 13.069359633657667, "train/model_opt_grad_norm": 20.80621208084954, "train/model_opt_grad_steps": 568007.0, "train/model_opt_loss": 17800.36461046007, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7080697980191974, "train/policy_entropy_max": 2.7080697980191974, "train/policy_entropy_mean": 0.4361850368893809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6498528487152524, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43727202630705303, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0610979820291202, "train/policy_randomness_mag": 0.9558297933803664, "train/policy_randomness_max": 0.9558297933803664, "train/policy_randomness_mean": 0.15395417612873846, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2293695385257403, "train/post_ent_mag": 56.04164033465915, "train/post_ent_max": 56.04164033465915, "train/post_ent_mean": 40.32329924901327, "train/post_ent_min": 19.822128931681316, "train/post_ent_std": 5.9130553470717535, "train/prior_ent_mag": 76.85291481018066, "train/prior_ent_max": 76.85291481018066, "train/prior_ent_mean": 46.15481445524428, "train/prior_ent_min": 27.78913089964125, "train/prior_ent_std": 7.929746641053094, "train/rep_loss_mean": 5.859420590930515, "train/rep_loss_std": 8.98844399717119, "train/reward_avg": 0.046974012033186026, "train/reward_loss_mean": 0.06188045716327098, "train/reward_loss_std": 0.23324397868580288, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0291878183682759, "train/reward_neg_acc": 0.9930499758985307, "train/reward_neg_loss": 0.025564994818220537, "train/reward_pos_acc": 0.9875446731845537, "train/reward_pos_loss": 0.7354878195457988, "train/reward_pred": 0.04664137770628764, "train/reward_rate": 0.05140516493055555, "stats/sum_log_reward": 11.242856979370117, "stats/max_log_achievement_collect_coal": 2.2857142857142856, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.40541485803467886, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2052397727966308e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4738490184148152e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1995167732239, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.839032411575317, "timer/env.step_frac": 0.06941727500286916, "timer/env.step_avg": 0.014471550285816193, "timer/env.step_min": 0.002522706985473633, "timer/env.step_max": 2.3635261058807373, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.30757808685302734, "timer/replay.add_frac": 0.0010245788872650897, "timer/replay.add_avg": 0.00021359589364793564, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0008108615875244141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025459766387939453, "timer/logger.write_frac": 8.480948491057105e-05, "timer/logger.write_avg": 0.025459766387939453, "timer/logger.write_min": 0.025459766387939453, "timer/logger.write_max": 0.025459766387939453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038170814514160156, "timer/checkpoint.save_frac": 1.2715148553351962e-06, "timer/checkpoint.save_avg": 0.00038170814514160156, "timer/checkpoint.save_min": 0.00038170814514160156, "timer/checkpoint.save_max": 0.00038170814514160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.469588279724121, "timer/agent.save_frac": 0.004895371903060971, "timer/agent.save_avg": 1.469588279724121, "timer/agent.save_min": 1.469588279724121, "timer/agent.save_max": 1.469588279724121, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010275840759277344, "timer/replay.save_frac": 3.4230037642065554e-07, "timer/replay.save_avg": 0.00010275840759277344, "timer/replay.save_min": 0.00010275840759277344, "timer/replay.save_max": 0.00010275840759277344, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.266586542129517, "timer/agent.policy_frac": 0.0408614466604752, "timer/agent.policy_avg": 0.008518462876478831, "timer/agent.policy_min": 0.005936145782470703, "timer/agent.policy_max": 1.4760353565216064, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06054496765136719, "timer/dataset_frac": 0.00020168242874655907, "timer/dataset_avg": 8.409023284912109e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.05752062797546, "timer/agent.train_frac": 0.8862689836671527, "timer/agent.train_avg": 0.3695243342055215, "timer/agent.train_min": 0.3622019290924072, "timer/agent.train_max": 0.80246901512146, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22166681289672852, "timer/agent.report_frac": 0.0007383983001684164, "timer/agent.report_avg": 0.22166681289672852, "timer/agent.report_min": 0.22166681289672852, "timer/agent.report_max": 0.22166681289672852, "fps": 4.796723540058003}
+{"step": 1138889, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06912442396313365}
+{"step": 1139098, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05741626794258373}
+{"step": 1139294, "episode/length": 195.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.500000029802322, "episode/reward_rate": 0.05612244897959184}
+{"step": 1139466, "episode/length": 171.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0755813953488372}
+{"step": 1139661, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06666666666666667}
+{"step": 1139952, "episode/length": 290.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.054982817869415807}
+{"step": 1140159, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06763285024154589}
+{"step": 1140236, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472225659514127, "train/action_min": 0.0, "train/action_std": 3.349440519123861, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03679352733370376, "train/actor_opt_grad_steps": 569200.0, "train/actor_opt_loss": -11.75230737949071, "train/adv_mag": 0.4252862820070084, "train/adv_max": 0.37679133084538863, "train/adv_mean": 0.0017573277436895296, "train/adv_min": -0.36806576709224753, "train/adv_std": 0.04206960699329638, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 6.466973692772782e-05, "train/cont_loss_std": 0.0019523173126416412, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0020682586471684563, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 5.936590231358454e-05, "train/cont_pred": 0.9947090361216296, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.821382450730833, "train/dyn_loss_std": 8.923255430508966, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8641620531474075, "train/extr_critic_critic_opt_grad_steps": 569200.0, "train/extr_critic_critic_opt_loss": 15199.356659353596, "train/extr_critic_mag": 12.31717390556858, "train/extr_critic_max": 12.31717390556858, "train/extr_critic_mean": 3.7950633845917165, "train/extr_critic_min": -0.3714638409549243, "train/extr_critic_std": 3.052782029321749, "train/extr_return_normed_mag": 1.3706632738244044, "train/extr_return_normed_max": 1.3706632738244044, "train/extr_return_normed_mean": 0.40239371134810253, "train/extr_return_normed_min": -0.0700939349472931, "train/extr_return_normed_std": 0.3214337219522424, "train/extr_return_rate": 0.8450521271522731, "train/extr_return_raw_mag": 13.083777937170577, "train/extr_return_raw_max": 13.083777937170577, "train/extr_return_raw_mean": 3.81188915853631, "train/extr_return_raw_min": -0.7125895652052474, "train/extr_return_raw_std": 3.0780316346312224, "train/extr_reward_mag": 1.0749078254177147, "train/extr_reward_max": 1.0749078254177147, "train/extr_reward_mean": 0.063871557224695, "train/extr_reward_min": -0.6188008621947406, "train/extr_reward_std": 0.24354338911298204, "train/image_loss_mean": 3.3624965932271254, "train/image_loss_std": 8.398556630905361, "train/model_loss_mean": 6.918971349115241, "train/model_loss_std": 12.559021401078734, "train/model_opt_grad_norm": 22.35161666347556, "train/model_opt_grad_steps": 568731.3561643836, "train/model_opt_loss": 17297.428376498287, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.711333901914832, "train/policy_entropy_max": 2.711333901914832, "train/policy_entropy_mean": 0.4598627964111224, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6811963621884176, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46069431182456344, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0799683748859248, "train/policy_randomness_mag": 0.9569818834735923, "train/policy_randomness_max": 0.9569818834735923, "train/policy_randomness_mean": 0.1623113868783598, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24043242388392147, "train/post_ent_mag": 55.998435503815955, "train/post_ent_max": 55.998435503815955, "train/post_ent_mean": 40.1727145469352, "train/post_ent_min": 19.59108505510304, "train/post_ent_std": 5.937967091390531, "train/prior_ent_mag": 76.8017440168825, "train/prior_ent_max": 76.8017440168825, "train/prior_ent_mean": 46.00708467666417, "train/prior_ent_min": 27.7439538354743, "train/prior_ent_std": 7.991102460312517, "train/rep_loss_mean": 5.821382450730833, "train/rep_loss_std": 8.923255430508966, "train/reward_avg": 0.049010059783515865, "train/reward_loss_mean": 0.06358066502295129, "train/reward_loss_std": 0.22458301076333817, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0271393991496465, "train/reward_neg_acc": 0.9927976792805815, "train/reward_neg_loss": 0.026625116432264243, "train/reward_pos_acc": 0.9910567476324839, "train/reward_pos_loss": 0.7151492368685056, "train/reward_pred": 0.04873662209776167, "train/reward_rate": 0.0537376926369863, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 15.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3832368424960545, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.313184846664962e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4296325309449918e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01405453681946, "timer/env.step_count": 1459.0, "timer/env.step_total": 18.511611938476562, "timer/env.step_frac": 0.06170248246221648, "timer/env.step_avg": 0.012687876585659057, "timer/env.step_min": 0.0024297237396240234, "timer/env.step_max": 1.6482625007629395, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3247497081756592, "timer/replay.add_frac": 0.0010824483162198124, "timer/replay.add_avg": 0.00022258376160086304, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0043408870697021484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176499366760254, "timer/logger.write_frac": 7.254658019673346e-05, "timer/logger.write_avg": 0.02176499366760254, "timer/logger.write_min": 0.02176499366760254, "timer/logger.write_max": 0.02176499366760254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 11.173425674438477, "timer/agent.policy_frac": 0.03724300747072904, "timer/agent.policy_avg": 0.007658276678847482, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.036884307861328125, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06624054908752441, "timer/dataset_frac": 0.00022079148655149085, "timer/dataset_avg": 9.086495073734488e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0003237724304199219, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.2505531311035, "timer/agent.train_frac": 0.8974597991643739, "timer/agent.train_avg": 0.36934232253923666, "timer/agent.train_min": 0.3607461452484131, "timer/agent.train_max": 0.39029669761657715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2226276397705078, "timer/agent.report_frac": 0.0007420573683263417, "timer/agent.report_avg": 0.2226276397705078, "timer/agent.report_min": 0.2226276397705078, "timer/agent.report_max": 0.2226276397705078, "fps": 4.8630098054593125}
+{"step": 1140448, "episode/length": 288.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 12.500000052154064, "episode/reward_rate": 0.03460207612456748}
+{"step": 1140676, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
+{"step": 1140979, "episode/length": 302.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.0462046204620462}
+{"step": 1141141, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.08024691358024691}
+{"step": 1141328, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.053475935828877004}
+{"step": 1141533, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07317073170731707}
+{"step": 1141705, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.513286693676098, "train/action_min": 0.0, "train/action_std": 3.3358065856469645, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03841361506665881, "train/actor_opt_grad_steps": 569935.0, "train/actor_opt_loss": -9.838350774871337, "train/adv_mag": 0.44469087248718414, "train/adv_max": 0.34372203454778, "train/adv_mean": 0.0027824152889602497, "train/adv_min": -0.40821502257037806, "train/adv_std": 0.043283496303735555, "train/cont_avg": 0.995143581081081, "train/cont_loss_mean": 2.4831391629505037e-05, "train/cont_loss_std": 0.0007742694768395679, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.0038757642283219055, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 9.689267001274356e-06, "train/cont_pred": 0.9951452105431944, "train/cont_rate": 0.995143581081081, "train/dyn_loss_mean": 5.837654184650731, "train/dyn_loss_std": 8.929741737004873, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8742961786888741, "train/extr_critic_critic_opt_grad_steps": 569935.0, "train/extr_critic_critic_opt_loss": 15426.52123363598, "train/extr_critic_mag": 12.356926131892848, "train/extr_critic_max": 12.356926131892848, "train/extr_critic_mean": 3.7178542613983154, "train/extr_critic_min": -0.343263249139528, "train/extr_critic_std": 2.925759737556045, "train/extr_return_normed_mag": 1.372732321958284, "train/extr_return_normed_max": 1.372732321958284, "train/extr_return_normed_mean": 0.39336987403598994, "train/extr_return_normed_min": -0.06805983774766729, "train/extr_return_normed_std": 0.30975253940434067, "train/extr_return_rate": 0.8589316356826473, "train/extr_return_raw_mag": 13.082592603322622, "train/extr_return_raw_max": 13.082592603322622, "train/extr_return_raw_mean": 3.744387211026372, "train/extr_return_raw_min": -0.6557151767853144, "train/extr_return_raw_std": 2.954039715431832, "train/extr_reward_mag": 1.0865871648530703, "train/extr_reward_max": 1.0865871648530703, "train/extr_reward_mean": 0.06533203565993824, "train/extr_reward_min": -0.6245156768206004, "train/extr_reward_std": 0.24521638030135953, "train/image_loss_mean": 3.515265493779569, "train/image_loss_std": 9.067614316940308, "train/model_loss_mean": 7.080404036753887, "train/model_loss_std": 13.156933874697298, "train/model_opt_grad_norm": 21.783622496836895, "train/model_opt_grad_steps": 569465.8108108108, "train/model_opt_loss": 19420.21194045608, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.7147424639882267, "train/policy_entropy_max": 2.7147424639882267, "train/policy_entropy_mean": 0.422310872657879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6319086740951281, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4223293726508682, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0458173429643787, "train/policy_randomness_mag": 0.9581849575042725, "train/policy_randomness_max": 0.9581849575042725, "train/policy_randomness_mean": 0.1490572036520855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22303603307620898, "train/post_ent_mag": 55.91660143878009, "train/post_ent_max": 55.91660143878009, "train/post_ent_mean": 40.26248514330065, "train/post_ent_min": 19.636659338667585, "train/post_ent_std": 5.901180479977582, "train/prior_ent_mag": 76.85330777554898, "train/prior_ent_max": 76.85330777554898, "train/prior_ent_mean": 46.083410159961595, "train/prior_ent_min": 27.668533402520257, "train/prior_ent_std": 7.939135158384168, "train/rep_loss_mean": 5.837654184650731, "train/rep_loss_std": 8.929741737004873, "train/reward_avg": 0.04813397358599547, "train/reward_loss_mean": 0.0625212398433202, "train/reward_loss_std": 0.22092432669691137, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0252257424431879, "train/reward_neg_acc": 0.9931548455277005, "train/reward_neg_loss": 0.02596205277871844, "train/reward_pos_acc": 0.9901135805490855, "train/reward_pos_loss": 0.7215773511577297, "train/reward_pred": 0.04778668646876876, "train/reward_rate": 0.05260240709459459, "stats/sum_log_reward": 11.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 19.666666666666668, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4632207875450452, "replay/size": 1000000.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.2281453630565542e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.368514534567489e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0679976940155, "timer/env.step_count": 1469.0, "timer/env.step_total": 17.07983374595642, "timer/env.step_frac": 0.05691987775175219, "timer/env.step_avg": 0.011626843938704166, "timer/env.step_min": 0.002476215362548828, "timer/env.step_max": 1.5307648181915283, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.3049898147583008, "timer/replay.add_frac": 0.0010164023391434902, "timer/replay.add_avg": 0.00020761730072042258, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0006165504455566406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03644418716430664, "timer/logger.write_frac": 0.00012145309544628417, "timer/logger.write_avg": 0.03644418716430664, "timer/logger.write_min": 0.03644418716430664, "timer/logger.write_max": 0.03644418716430664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 11.12751317024231, "timer/agent.policy_frac": 0.03708330530331737, "timer/agent.policy_avg": 0.007574889836788502, "timer/agent.policy_min": 0.0055692195892333984, "timer/agent.policy_max": 0.016849756240844727, "timer/dataset_count": 735.0, "timer/dataset_total": 0.06595373153686523, "timer/dataset_frac": 0.00021979595306301003, "timer/dataset_avg": 8.973296807736766e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.8041105270386, "timer/agent.train_frac": 0.9024758141758995, "timer/agent.train_avg": 0.36844096670345383, "timer/agent.train_min": 0.3605329990386963, "timer/agent.train_max": 0.38692522048950195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191619873046875, "timer/agent.report_frac": 0.0007395530360980397, "timer/agent.report_avg": 0.22191619873046875, "timer/agent.report_min": 0.22191619873046875, "timer/agent.report_max": 0.22191619873046875, "fps": 4.895440140829152}
+{"step": 1141781, "episode/length": 247.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06048387096774194}
+{"step": 1142071, "episode/length": 289.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05517241379310345}
+{"step": 1142277, "episode/length": 205.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07281553398058252}
+{"step": 1142577, "episode/length": 299.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.04666666666666667}
+{"step": 1142745, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
+{"step": 1142996, "episode/length": 250.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.05976095617529881}
+{"step": 1143149, "episode/length": 152.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.0718954248366013}
+{"step": 1143150, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471631368001302, "train/action_min": 0.0, "train/action_std": 3.367387894127104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03799717017035517, "train/actor_opt_grad_steps": 570665.0, "train/actor_opt_loss": -9.356492286134097, "train/adv_mag": 0.38436276879575515, "train/adv_max": 0.3217616420653131, "train/adv_mean": 0.0025368464150435305, "train/adv_min": -0.3512843820369906, "train/adv_std": 0.042420135552270546, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 6.93992069420446e-05, "train/cont_loss_std": 0.0021797269661125223, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.016283678941970026, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 3.816769134869071e-06, "train/cont_pred": 0.9952667935027016, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.853749526871575, "train/dyn_loss_std": 8.938224805725945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733827827705277, "train/extr_critic_critic_opt_grad_steps": 570665.0, "train/extr_critic_critic_opt_loss": 15365.890625, "train/extr_critic_mag": 12.308940966924032, "train/extr_critic_max": 12.308940966924032, "train/extr_critic_mean": 3.7295663124985166, "train/extr_critic_min": -0.3891681995656755, "train/extr_critic_std": 2.925446480512619, "train/extr_return_normed_mag": 1.3592908398972616, "train/extr_return_normed_max": 1.3592908398972616, "train/extr_return_normed_mean": 0.395676848375135, "train/extr_return_normed_min": -0.06946302614071304, "train/extr_return_normed_std": 0.3091595214274194, "train/extr_return_rate": 0.852377250790596, "train/extr_return_raw_mag": 12.968889951705933, "train/extr_return_raw_max": 12.968889951705933, "train/extr_return_raw_mean": 3.753839820623398, "train/extr_return_raw_min": -0.6952528326461712, "train/extr_return_raw_std": 2.9573871758249073, "train/extr_reward_mag": 1.0861438744597964, "train/extr_reward_max": 1.0861438744597964, "train/extr_reward_mean": 0.06373719255336457, "train/extr_reward_min": -0.5788589715957642, "train/extr_reward_std": 0.24229261154929796, "train/image_loss_mean": 3.3920010957452984, "train/image_loss_std": 8.774265958203209, "train/model_loss_mean": 6.966496924559276, "train/model_loss_std": 12.9081801838345, "train/model_opt_grad_norm": 19.212073140674168, "train/model_opt_grad_steps": 570195.0, "train/model_opt_loss": 17416.242309570312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7043137881490917, "train/policy_entropy_max": 2.7043137881490917, "train/policy_entropy_mean": 0.43882525774339837, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6557909362018108, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4385043260537916, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0596825720535383, "train/policy_randomness_mag": 0.9545040917065408, "train/policy_randomness_max": 0.9545040917065408, "train/policy_randomness_mean": 0.1548860596699847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23146542410055795, "train/post_ent_mag": 55.41498067643907, "train/post_ent_max": 55.41498067643907, "train/post_ent_mean": 40.01521025763618, "train/post_ent_min": 19.657970163557266, "train/post_ent_std": 5.8181816471947565, "train/prior_ent_mag": 76.7957747777303, "train/prior_ent_max": 76.7957747777303, "train/prior_ent_mean": 45.88777293099297, "train/prior_ent_min": 27.870826933119034, "train/prior_ent_std": 7.910433961285485, "train/rep_loss_mean": 5.853749526871575, "train/rep_loss_std": 8.938224805725945, "train/reward_avg": 0.04775933142647975, "train/reward_loss_mean": 0.06217664609559708, "train/reward_loss_std": 0.22008748600880304, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0380151040024228, "train/reward_neg_acc": 0.9926689937710762, "train/reward_neg_loss": 0.025948941034989223, "train/reward_pos_acc": 0.9897124510672357, "train/reward_pos_loss": 0.7227933878699938, "train/reward_pred": 0.04737733493352102, "train/reward_rate": 0.05215115017361111, "stats/sum_log_reward": 12.671428952898298, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5294871287686485, "replay/size": 1000000.0, "replay/inserts": 1445.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.1822692976690907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3751377689541212e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3632926940918, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.899993181228638, "timer/env.step_frac": 0.06625307973799581, "timer/env.step_avg": 0.01377162157870494, "timer/env.step_min": 0.002597808837890625, "timer/env.step_max": 1.7653486728668213, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.3025813102722168, "timer/replay.add_frac": 0.0010073844495385258, "timer/replay.add_avg": 0.0002093988306382123, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0036704540252685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0232088565826416, "timer/logger.write_frac": 7.726928405422333e-05, "timer/logger.write_avg": 0.0232088565826416, "timer/logger.write_min": 0.0232088565826416, "timer/logger.write_max": 0.0232088565826416, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0007658004760742188, "timer/checkpoint.save_frac": 2.5495807733542073e-06, "timer/checkpoint.save_avg": 0.0007658004760742188, "timer/checkpoint.save_min": 0.0007658004760742188, "timer/checkpoint.save_max": 0.0007658004760742188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2396934032440186, "timer/agent.save_frac": 0.004127313268291401, "timer/agent.save_avg": 1.2396934032440186, "timer/agent.save_min": 1.2396934032440186, "timer/agent.save_max": 1.2396934032440186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.198882477153629e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 12.813189268112183, "timer/agent.policy_frac": 0.04265897191759018, "timer/agent.policy_avg": 0.008867259009074174, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 1.2459814548492432, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06708741188049316, "timer/dataset_frac": 0.00022335422973545257, "timer/dataset_avg": 9.291885302007364e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.001001119613647461, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.6182336807251, "timer/agent.train_frac": 0.8876525200177017, "timer/agent.train_avg": 0.3692773319677633, "timer/agent.train_min": 0.36049866676330566, "timer/agent.train_max": 0.7920806407928467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950531005859375, "timer/agent.report_frac": 0.0007307993866019816, "timer/agent.report_avg": 0.21950531005859375, "timer/agent.report_min": 0.21950531005859375, "timer/agent.report_max": 0.21950531005859375, "fps": 4.810722952613704}
+{"step": 1143330, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055248618784530384}
+{"step": 1143563, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
+{"step": 1143820, "episode/length": 256.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.058365758754863814}
+{"step": 1144124, "episode/length": 303.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.049342105263157895}
+{"step": 1144350, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06637168141592921}
+{"step": 1144522, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
+{"step": 1144615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484017986140839, "train/action_min": 0.0, "train/action_std": 3.3390768880713475, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03585464900282964, "train/actor_opt_grad_steps": 571390.0, "train/actor_opt_loss": -11.077598441137026, "train/adv_mag": 0.3729014233367084, "train/adv_max": 0.318116693872295, "train/adv_mean": 0.002009232889265635, "train/adv_min": -0.3270209827651716, "train/adv_std": 0.04114498973709263, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 2.4601792869414767e-05, "train/cont_loss_std": 0.0007365818435469258, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001010849476639537, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.7043233042939278e-05, "train/cont_pred": 0.9953894655998439, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.88029923504346, "train/dyn_loss_std": 9.030902483691907, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8556034393506508, "train/extr_critic_critic_opt_grad_steps": 571390.0, "train/extr_critic_critic_opt_loss": 15145.020628210616, "train/extr_critic_mag": 12.426679167028976, "train/extr_critic_max": 12.426679167028976, "train/extr_critic_mean": 3.8293066775962097, "train/extr_critic_min": -0.3653006276039228, "train/extr_critic_std": 2.9828700235445207, "train/extr_return_normed_mag": 1.362386257681128, "train/extr_return_normed_max": 1.362386257681128, "train/extr_return_normed_mean": 0.40071994515314496, "train/extr_return_normed_min": -0.067177527545862, "train/extr_return_normed_std": 0.3123494031494611, "train/extr_return_rate": 0.8477740165305464, "train/extr_return_raw_mag": 13.108488997367964, "train/extr_return_raw_max": 13.108488997367964, "train/extr_return_raw_mean": 3.8486504979329568, "train/extr_return_raw_min": -0.6573242238939625, "train/extr_return_raw_std": 3.0080616898732644, "train/extr_reward_mag": 1.0829184610549718, "train/extr_reward_max": 1.0829184610549718, "train/extr_reward_mean": 0.06410936679537982, "train/extr_reward_min": -0.6107262552601017, "train/extr_reward_std": 0.2426635888341355, "train/image_loss_mean": 3.5260958083688396, "train/image_loss_std": 8.963917719174738, "train/model_loss_mean": 7.116747411963058, "train/model_loss_std": 13.135748262274754, "train/model_opt_grad_norm": 22.175781355963814, "train/model_opt_grad_steps": 570919.1917808219, "train/model_opt_loss": 18038.743552011987, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7053362996610875, "train/policy_entropy_max": 2.7053362996610875, "train/policy_entropy_mean": 0.4377586539477518, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6564746119388162, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4366392587145714, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0583002306010625, "train/policy_randomness_mag": 0.9548649934873189, "train/policy_randomness_max": 0.9548649934873189, "train/policy_randomness_mean": 0.15450959642456003, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23170673091934152, "train/post_ent_mag": 56.27909197872632, "train/post_ent_max": 56.27909197872632, "train/post_ent_mean": 40.167494107599126, "train/post_ent_min": 19.69259941414611, "train/post_ent_std": 5.903101045791417, "train/prior_ent_mag": 76.83080521675005, "train/prior_ent_max": 76.83080521675005, "train/prior_ent_mean": 46.0125726673701, "train/prior_ent_min": 27.4873843519655, "train/prior_ent_std": 8.01342329260421, "train/rep_loss_mean": 5.88029923504346, "train/rep_loss_std": 9.030902483691907, "train/reward_avg": 0.04905286788532179, "train/reward_loss_mean": 0.06244742441667269, "train/reward_loss_std": 0.2251810905051558, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0293475993692058, "train/reward_neg_acc": 0.9928770334753272, "train/reward_neg_loss": 0.025484611650239932, "train/reward_pos_acc": 0.9912472375451702, "train/reward_pos_loss": 0.7203787214135471, "train/reward_pred": 0.04869271988329822, "train/reward_rate": 0.053175834760273974, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 14.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48867934693892795, "replay/size": 1000000.0, "replay/inserts": 1465.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3567383020811112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3573473830177546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1749532222748, "timer/env.step_count": 1465.0, "timer/env.step_total": 16.58678960800171, "timer/env.step_frac": 0.055257074016163685, "timer/env.step_avg": 0.011322040688055774, "timer/env.step_min": 0.0022699832916259766, "timer/env.step_max": 1.5450398921966553, "timer/replay.add_count": 1465.0, "timer/replay.add_total": 0.32204556465148926, "timer/replay.add_frac": 0.0010728595480550293, "timer/replay.add_avg": 0.0002198263239941906, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.003352642059326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025480031967163086, "timer/logger.write_frac": 8.488393749592934e-05, "timer/logger.write_avg": 0.025480031967163086, "timer/logger.write_min": 0.025480031967163086, "timer/logger.write_max": 0.025480031967163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 11.235788345336914, "timer/agent.policy_frac": 0.03743079902145264, "timer/agent.policy_avg": 0.0076694800992060845, "timer/agent.policy_min": 0.005630970001220703, "timer/agent.policy_max": 0.022897958755493164, "timer/dataset_count": 733.0, "timer/dataset_total": 0.0691838264465332, "timer/dataset_frac": 0.0002304783450580025, "timer/dataset_avg": 9.438448355597981e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00021505355834960938, "timer/agent.train_count": 733.0, "timer/agent.train_total": 271.2597212791443, "timer/agent.train_frac": 0.9036720697955128, "timer/agent.train_avg": 0.3700678325772773, "timer/agent.train_min": 0.3609929084777832, "timer/agent.train_max": 0.42904162406921387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182769775390625, "timer/agent.report_frac": 0.0007271658584300065, "timer/agent.report_avg": 0.2182769775390625, "timer/agent.report_min": 0.2182769775390625, "timer/agent.report_max": 0.2182769775390625, "fps": 4.880383893832065}
+{"step": 1144726, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06862745098039216}
+{"step": 1144979, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05928853754940711}
+{"step": 1145105, "episode/length": 125.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.09523809523809523}
+{"step": 1145488, "episode/length": 382.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.020887728459530026}
+{"step": 1145665, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05649717514124294}
+{"step": 1145870, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
+{"step": 1146061, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07853403141361257}
+{"step": 1146087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416127797719595, "train/action_min": 0.0, "train/action_std": 3.2736072926907926, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03651415617079348, "train/actor_opt_grad_steps": 572125.0, "train/actor_opt_loss": -11.24004423255856, "train/adv_mag": 0.38111344181202556, "train/adv_max": 0.3181192363436158, "train/adv_mean": 0.0013856465225094202, "train/adv_min": -0.33713118309104767, "train/adv_std": 0.04176019857058654, "train/cont_avg": 0.9952623521959459, "train/cont_loss_mean": 6.692011977593426e-05, "train/cont_loss_std": 0.0018924041093424803, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0039058097562521287, "train/cont_pos_acc": 0.9999734598237116, "train/cont_pos_loss": 5.016135413863035e-05, "train/cont_pred": 0.9952460809333904, "train/cont_rate": 0.9952623521959459, "train/dyn_loss_mean": 5.909373547579791, "train/dyn_loss_std": 8.888546647252264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9070194540797053, "train/extr_critic_critic_opt_grad_steps": 572125.0, "train/extr_critic_critic_opt_loss": 15315.708192567568, "train/extr_critic_mag": 12.484384188780913, "train/extr_critic_max": 12.484384188780913, "train/extr_critic_mean": 3.7945621271391174, "train/extr_critic_min": -0.3478130859297675, "train/extr_critic_std": 2.962974670771006, "train/extr_return_normed_mag": 1.375797076805218, "train/extr_return_normed_max": 1.375797076805218, "train/extr_return_normed_mean": 0.3973125775118132, "train/extr_return_normed_min": -0.07028866956966955, "train/extr_return_normed_std": 0.31116212884316574, "train/extr_return_rate": 0.8576313096123773, "train/extr_return_raw_mag": 13.203108993736473, "train/extr_return_raw_max": 13.203108993736473, "train/extr_return_raw_mean": 3.8078570462561943, "train/extr_return_raw_min": -0.6814861772833644, "train/extr_return_raw_std": 2.987730367763622, "train/extr_reward_mag": 1.0852831537659104, "train/extr_reward_max": 1.0852831537659104, "train/extr_reward_mean": 0.06354653145614508, "train/extr_reward_min": -0.5880432338327974, "train/extr_reward_std": 0.24188562099998062, "train/image_loss_mean": 3.517130618159835, "train/image_loss_std": 8.953992302353317, "train/model_loss_mean": 7.1257971492973535, "train/model_loss_std": 13.015401273160368, "train/model_opt_grad_norm": 20.821690391849828, "train/model_opt_grad_steps": 571653.9459459459, "train/model_opt_loss": 24697.378312394427, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3462.837837837838, "train/policy_entropy_mag": 2.705048825289752, "train/policy_entropy_max": 2.705048825289752, "train/policy_entropy_mean": 0.4187478201614844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6304724538648451, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4182493338311041, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0399118057779364, "train/policy_randomness_mag": 0.9547635252411301, "train/policy_randomness_max": 0.9547635252411301, "train/policy_randomness_mean": 0.14779960444650134, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22252910946672028, "train/post_ent_mag": 55.56704871718948, "train/post_ent_max": 55.56704871718948, "train/post_ent_mean": 40.055875675098314, "train/post_ent_min": 19.89300820634172, "train/post_ent_std": 5.850405441748129, "train/prior_ent_mag": 76.77825618434596, "train/prior_ent_max": 76.77825618434596, "train/prior_ent_mean": 45.90591497679014, "train/prior_ent_min": 27.577200374087774, "train/prior_ent_std": 7.984727517978565, "train/rep_loss_mean": 5.909373547579791, "train/rep_loss_std": 8.888546647252264, "train/reward_avg": 0.04864468938998274, "train/reward_loss_mean": 0.06297553683052191, "train/reward_loss_std": 0.22120488837764068, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0236779837994963, "train/reward_neg_acc": 0.9917298313733693, "train/reward_neg_loss": 0.026210851967334747, "train/reward_pos_acc": 0.9906397679367581, "train/reward_pos_loss": 0.718946239432773, "train/reward_pred": 0.04838949109654169, "train/reward_rate": 0.052998310810810814, "stats/sum_log_reward": 11.242857456207275, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 5.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3498753713709967, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.0576534893201743e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3536571160606716e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19795513153076, "timer/env.step_count": 1472.0, "timer/env.step_total": 17.88926100730896, "timer/env.step_frac": 0.059591548514948536, "timer/env.step_avg": 0.0121530305756175, "timer/env.step_min": 0.0023233890533447266, "timer/env.step_max": 1.3054718971252441, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2939877510070801, "timer/replay.add_frac": 0.0009793129699310252, "timer/replay.add_avg": 0.00019971993954285332, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0010485649108886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0370180606842041, "timer/logger.write_frac": 0.00012331216802587732, "timer/logger.write_avg": 0.0370180606842041, "timer/logger.write_min": 0.0370180606842041, "timer/logger.write_max": 0.0370180606842041, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.826547384262085, "timer/agent.policy_frac": 0.03606469397674101, "timer/agent.policy_avg": 0.007354991429525873, "timer/agent.policy_min": 0.0055577754974365234, "timer/agent.policy_max": 0.017479896545410156, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06255960464477539, "timer/dataset_frac": 0.00020839450627625062, "timer/dataset_avg": 8.499946283257526e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 736.0, "timer/agent.train_total": 270.4585633277893, "timer/agent.train_frac": 0.9009340626896968, "timer/agent.train_avg": 0.36747087408667023, "timer/agent.train_min": 0.3577585220336914, "timer/agent.train_max": 0.38885927200317383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21985507011413574, "timer/agent.report_frac": 0.0007323669810402505, "timer/agent.report_avg": 0.21985507011413574, "timer/agent.report_min": 0.21985507011413574, "timer/agent.report_max": 0.21985507011413574, "fps": 4.903311730526964}
+{"step": 1146271, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05714285714285714}
+{"step": 1146419, "episode/length": 147.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.08783783783783784}
+{"step": 1146642, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06278026905829596}
+{"step": 1146817, "episode/length": 174.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.08}
+{"step": 1147069, "episode/length": 251.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06349206349206349}
+{"step": 1147535, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431868659125434, "train/action_min": 0.0, "train/action_std": 3.3174706266986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037500541295028396, "train/actor_opt_grad_steps": 572855.0, "train/actor_opt_loss": -9.557040050625801, "train/adv_mag": 0.4398582875728607, "train/adv_max": 0.3695671053396331, "train/adv_mean": 0.0023049978166859043, "train/adv_min": -0.37299653411739403, "train/adv_std": 0.04241512188067039, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 1.058359002195333e-05, "train/cont_loss_std": 0.00030997664965800215, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.5685417618700663e-06, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.061392146795015e-05, "train/cont_pred": 0.9952162462804053, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.850911087459988, "train/dyn_loss_std": 8.909069577852884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9043323521812757, "train/extr_critic_critic_opt_grad_steps": 572855.0, "train/extr_critic_critic_opt_loss": 15416.51478407118, "train/extr_critic_mag": 12.582384718788994, "train/extr_critic_max": 12.582384718788994, "train/extr_critic_mean": 3.700488613711463, "train/extr_critic_min": -0.31912747356626725, "train/extr_critic_std": 2.980005148384306, "train/extr_return_normed_mag": 1.3843477931287553, "train/extr_return_normed_max": 1.3843477931287553, "train/extr_return_normed_mean": 0.3833405143684811, "train/extr_return_normed_min": -0.06621433918674786, "train/extr_return_normed_std": 0.3107395689520571, "train/extr_return_rate": 0.855109817451901, "train/extr_return_raw_mag": 13.42592912250095, "train/extr_return_raw_max": 13.42592912250095, "train/extr_return_raw_mean": 3.7228323453002505, "train/extr_return_raw_min": -0.6349143828782771, "train/extr_return_raw_std": 3.0122193131181927, "train/extr_reward_mag": 1.0903956757651434, "train/extr_reward_max": 1.0903956757651434, "train/extr_reward_mean": 0.0641910538284315, "train/extr_reward_min": -0.6149873187144598, "train/extr_reward_std": 0.24337833457522923, "train/image_loss_mean": 3.4385660820537143, "train/image_loss_std": 8.687358525064257, "train/model_loss_mean": 7.0100981328222485, "train/model_loss_std": 12.782116678025988, "train/model_opt_grad_norm": 19.562160280015732, "train/model_opt_grad_steps": 572382.0, "train/model_opt_loss": 8762.622653537326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6801365878846912, "train/policy_entropy_max": 2.6801365878846912, "train/policy_entropy_mean": 0.4176195835073789, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6183904376294878, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41665786587529713, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.036980425318082, "train/policy_randomness_mag": 0.9459706006778611, "train/policy_randomness_max": 0.9459706006778611, "train/policy_randomness_mean": 0.1474013879067368, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21826468449499872, "train/post_ent_mag": 54.9829887813992, "train/post_ent_max": 54.9829887813992, "train/post_ent_mean": 39.888933976491295, "train/post_ent_min": 19.806260493066574, "train/post_ent_std": 5.691605475213793, "train/prior_ent_mag": 76.79085699717204, "train/prior_ent_max": 76.79085699717204, "train/prior_ent_mean": 45.76187388102213, "train/prior_ent_min": 27.77020064989726, "train/prior_ent_std": 7.854659895102183, "train/rep_loss_mean": 5.850911087459988, "train/rep_loss_std": 8.909069577852884, "train/reward_avg": 0.04535183346726828, "train/reward_loss_mean": 0.060974798475702606, "train/reward_loss_std": 0.22023797324962086, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0226719876130421, "train/reward_neg_acc": 0.9923074096441269, "train/reward_neg_loss": 0.025983011362970702, "train/reward_pos_acc": 0.9866013212336434, "train/reward_pos_loss": 0.7309823524620798, "train/reward_pred": 0.04496358997291989, "train/reward_rate": 0.049723307291666664, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42635747492313386, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4038862470763824e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3521568880555379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32903718948364, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.350768327713013, "timer/env.step_frac": 0.061102211425980574, "timer/env.step_avg": 0.012673182546763131, "timer/env.step_min": 0.0026259422302246094, "timer/env.step_max": 2.298081874847412, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.30988121032714844, "timer/replay.add_frac": 0.0010318056929395014, "timer/replay.add_avg": 0.00021400636072316882, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.002561330795288086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033058881759643555, "timer/logger.write_frac": 0.00011007554270813328, "timer/logger.write_avg": 0.033058881759643555, "timer/logger.write_min": 0.033058881759643555, "timer/logger.write_max": 0.033058881759643555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003113746643066406, "timer/checkpoint.save_frac": 1.0367784188319696e-06, "timer/checkpoint.save_avg": 0.0003113746643066406, "timer/checkpoint.save_min": 0.0003113746643066406, "timer/checkpoint.save_max": 0.0003113746643066406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.16935133934021, "timer/agent.save_frac": 0.003893567369586187, "timer/agent.save_avg": 1.16935133934021, "timer/agent.save_min": 1.16935133934021, "timer/agent.save_max": 1.16935133934021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.53240670449769e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 13.010948896408081, "timer/agent.policy_frac": 0.043322314146398075, "timer/agent.policy_avg": 0.008985461945033205, "timer/agent.policy_min": 0.005732059478759766, "timer/agent.policy_max": 1.167964220046997, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06923222541809082, "timer/dataset_frac": 0.00023052125117828954, "timer/dataset_avg": 9.562462074321936e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001976490020751953, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.8812770843506, "timer/agent.train_frac": 0.8919592976796942, "timer/agent.train_avg": 0.370001763928661, "timer/agent.train_min": 0.3608403205871582, "timer/agent.train_max": 0.46738171577453613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206268310546875, "timer/agent.report_frac": 0.0007346170490850326, "timer/agent.report_avg": 0.2206268310546875, "timer/agent.report_min": 0.2206268310546875, "timer/agent.report_max": 0.2206268310546875, "fps": 4.8212842282349335}
+{"step": 1147559, "episode/length": 489.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.100000016391277, "episode/reward_rate": 0.03469387755102041}
+{"step": 1147754, "episode/length": 194.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06153846153846154}
+{"step": 1147958, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06862745098039216}
+{"step": 1148131, "episode/length": 172.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06358381502890173}
+{"step": 1148337, "episode/length": 205.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07281553398058252}
+{"step": 1148392, "episode/length": 54.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.14545454545454545}
+{"step": 1148587, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06153846153846154}
+{"step": 1148788, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06965174129353234}
+{"step": 1148985, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4642225291630995, "train/action_min": 0.0, "train/action_std": 3.332132185975166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036328509424443114, "train/actor_opt_grad_steps": 573580.0, "train/actor_opt_loss": -11.794138278046699, "train/adv_mag": 0.39259879066519543, "train/adv_max": 0.3283890277555544, "train/adv_mean": 0.001759815857863717, "train/adv_min": -0.34733344185842224, "train/adv_std": 0.04139474121062723, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 0.00014152290291978128, "train/cont_loss_std": 0.004458753407810142, "train/cont_neg_acc": 0.9933463816773401, "train/cont_neg_loss": 0.020183101378499376, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 8.887572719247257e-06, "train/cont_pred": 0.9951957994944429, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.923229184869218, "train/dyn_loss_std": 8.85580078543049, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8742450712478325, "train/extr_critic_critic_opt_grad_steps": 573580.0, "train/extr_critic_critic_opt_loss": 15244.680102204624, "train/extr_critic_mag": 12.634198410870278, "train/extr_critic_max": 12.634198410870278, "train/extr_critic_mean": 3.8256347048772525, "train/extr_critic_min": -0.333798787365221, "train/extr_critic_std": 3.0616977574074107, "train/extr_return_normed_mag": 1.3788223184951365, "train/extr_return_normed_max": 1.3788223184951365, "train/extr_return_normed_mean": 0.39498226487473265, "train/extr_return_normed_min": -0.06994630281545527, "train/extr_return_normed_std": 0.31735691264884114, "train/extr_return_rate": 0.8572328449928597, "train/extr_return_raw_mag": 13.42455534739037, "train/extr_return_raw_max": 13.42455534739037, "train/extr_return_raw_mean": 3.8427667846418405, "train/extr_return_raw_min": -0.6858518801323356, "train/extr_return_raw_std": 3.0912932337146914, "train/extr_reward_mag": 1.0835943875247485, "train/extr_reward_max": 1.0835943875247485, "train/extr_reward_mean": 0.0652125962588885, "train/extr_reward_min": -0.5984818445493097, "train/extr_reward_std": 0.24544124835974548, "train/image_loss_mean": 3.4218569193800836, "train/image_loss_std": 8.558758219627485, "train/model_loss_mean": 7.038285908633715, "train/model_loss_std": 12.66898372075329, "train/model_opt_grad_norm": 21.841242019444294, "train/model_opt_grad_steps": 573107.0, "train/model_opt_loss": 14151.893956014555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.7048141433768076, "train/policy_entropy_max": 2.7048141433768076, "train/policy_entropy_mean": 0.44641730250561074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.667869991635623, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44798898145760574, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0712168086065006, "train/policy_randomness_mag": 0.9546806951091714, "train/policy_randomness_max": 0.9546806951091714, "train/policy_randomness_mean": 0.15756571803190936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2357288029504149, "train/post_ent_mag": 56.03574554234335, "train/post_ent_max": 56.03574554234335, "train/post_ent_mean": 40.40094051622365, "train/post_ent_min": 19.63635728130602, "train/post_ent_std": 5.849418424580195, "train/prior_ent_mag": 76.71189430968403, "train/prior_ent_max": 76.71189430968403, "train/prior_ent_mean": 46.31362768721907, "train/prior_ent_min": 28.00042181145655, "train/prior_ent_std": 7.898618038386514, "train/rep_loss_mean": 5.923229184869218, "train/rep_loss_std": 8.85580078543049, "train/reward_avg": 0.04928296245634556, "train/reward_loss_mean": 0.062349937396914995, "train/reward_loss_std": 0.21788309984011192, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.033754007457054, "train/reward_neg_acc": 0.9932422099048144, "train/reward_neg_loss": 0.025380290674734605, "train/reward_pos_acc": 0.9935908464536275, "train/reward_pos_loss": 0.7140258534313881, "train/reward_pred": 0.04893577055469768, "train/reward_rate": 0.0537376926369863, "stats/sum_log_reward": 11.850000202655792, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 4.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41713292337954044, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4269793280239765e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3650491319853683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2336995601654, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.91443133354187, "timer/env.step_frac": 0.06632976698723693, "timer/env.step_avg": 0.013734090574856462, "timer/env.step_min": 0.0026693344116210938, "timer/env.step_max": 1.59452486038208, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.30955934524536133, "timer/replay.add_frac": 0.0010310612889187915, "timer/replay.add_avg": 0.00021348920361749057, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0018384456634521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026350021362304688, "timer/logger.write_frac": 8.776503570687364e-05, "timer/logger.write_avg": 0.026350021362304688, "timer/logger.write_min": 0.026350021362304688, "timer/logger.write_max": 0.026350021362304688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.107890367507935, "timer/agent.policy_frac": 0.03699748024216038, "timer/agent.policy_avg": 0.007660614046557196, "timer/agent.policy_min": 0.00585174560546875, "timer/agent.policy_max": 0.017054080963134766, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06938362121582031, "timer/dataset_frac": 0.00023109871182837077, "timer/dataset_avg": 9.570154650457975e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 725.0, "timer/agent.train_total": 268.1073474884033, "timer/agent.train_frac": 0.8929955160968727, "timer/agent.train_avg": 0.36980323791503905, "timer/agent.train_min": 0.36269211769104004, "timer/agent.train_max": 0.3891110420227051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21831440925598145, "timer/agent.report_frac": 0.000727148250099194, "timer/agent.report_avg": 0.21831440925598145, "timer/agent.report_min": 0.21831440925598145, "timer/agent.report_max": 0.21831440925598145, "fps": 4.829454252317814}
+{"step": 1149033, "episode/length": 244.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05714285714285714}
+{"step": 1149216, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07650273224043716}
+{"step": 1149280, "episode/length": 63.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.109375}
+{"step": 1149531, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
+{"step": 1149763, "episode/length": 231.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06465517241379311}
+{"step": 1149962, "episode/length": 198.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.07537688442211055}
+{"step": 1150148, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06989247311827956}
+{"step": 1150308, "episode/length": 159.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06875}
+{"step": 1150435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507428487141927, "train/action_min": 0.0, "train/action_std": 3.3937436044216156, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03595972718257043, "train/actor_opt_grad_steps": 574305.0, "train/actor_opt_loss": -11.028185407320658, "train/adv_mag": 0.3772493793318669, "train/adv_max": 0.3174240711248583, "train/adv_mean": 0.0018572555172290271, "train/adv_min": -0.34144856387542355, "train/adv_std": 0.04087375942617655, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 0.00013963122593373277, "train/cont_loss_std": 0.004308310217342953, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.022941919301385068, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 1.1084153741415372e-05, "train/cont_pred": 0.9950814288523462, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.88036314646403, "train/dyn_loss_std": 8.94107919269138, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.889966199795405, "train/extr_critic_critic_opt_grad_steps": 574305.0, "train/extr_critic_critic_opt_loss": 15280.509847005209, "train/extr_critic_mag": 12.606178945965237, "train/extr_critic_max": 12.606178945965237, "train/extr_critic_mean": 3.7515259749359555, "train/extr_critic_min": -0.3580232544077767, "train/extr_critic_std": 3.0253298580646515, "train/extr_return_normed_mag": 1.3744475626283221, "train/extr_return_normed_max": 1.3744475626283221, "train/extr_return_normed_mean": 0.3901138955520259, "train/extr_return_normed_min": -0.07194899229539765, "train/extr_return_normed_std": 0.315704090313779, "train/extr_return_rate": 0.8553087487816811, "train/extr_return_raw_mag": 13.276825865109762, "train/extr_return_raw_max": 13.276825865109762, "train/extr_return_raw_mean": 3.7694782382912106, "train/extr_return_raw_min": -0.6937127829425864, "train/extr_return_raw_std": 3.049546461966303, "train/extr_reward_mag": 1.0783237549993727, "train/extr_reward_max": 1.0783237549993727, "train/extr_reward_mean": 0.06338042895206147, "train/extr_reward_min": -0.5946238421731525, "train/extr_reward_std": 0.24230053648352623, "train/image_loss_mean": 3.5247544662819967, "train/image_loss_std": 9.153806447982788, "train/model_loss_mean": 7.116240680217743, "train/model_loss_std": 13.259009891086155, "train/model_opt_grad_norm": 20.95586172739665, "train/model_opt_grad_steps": 573832.0, "train/model_opt_loss": 22120.97837999132, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3125.0, "train/policy_entropy_mag": 2.6847658124234943, "train/policy_entropy_max": 2.6847658124234943, "train/policy_entropy_mean": 0.4313761836124791, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6334256587757005, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43091734105514157, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0494611619247332, "train/policy_randomness_mag": 0.9476045130027665, "train/policy_randomness_max": 0.9476045130027665, "train/policy_randomness_mean": 0.15225686236388153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22357146172887749, "train/post_ent_mag": 55.751218954722084, "train/post_ent_max": 55.751218954722084, "train/post_ent_mean": 40.283100605010986, "train/post_ent_min": 19.832019236352707, "train/post_ent_std": 5.8780160546302795, "train/prior_ent_mag": 76.80444675021701, "train/prior_ent_max": 76.80444675021701, "train/prior_ent_mean": 46.15522416432699, "train/prior_ent_min": 27.662134647369385, "train/prior_ent_std": 7.908397965961033, "train/rep_loss_mean": 5.88036314646403, "train/rep_loss_std": 8.94107919269138, "train/reward_avg": 0.04774305529685484, "train/reward_loss_mean": 0.06312876261977686, "train/reward_loss_std": 0.22887248049179712, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0251363582081265, "train/reward_neg_acc": 0.9927567425701354, "train/reward_neg_loss": 0.026459683107936546, "train/reward_pos_acc": 0.9890280581182904, "train/reward_pos_loss": 0.7284667467077574, "train/reward_pred": 0.04717219918448892, "train/reward_rate": 0.05227322048611111, "stats/sum_log_reward": 11.850000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.32520863972604275, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3955738462250807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3614317466472756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0021080970764, "timer/env.step_count": 1450.0, "timer/env.step_total": 20.101886749267578, "timer/env.step_frac": 0.06700581831499296, "timer/env.step_avg": 0.013863370171908675, "timer/env.step_min": 0.0025391578674316406, "timer/env.step_max": 1.6087827682495117, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.31301283836364746, "timer/replay.add_frac": 0.0010433687961364623, "timer/replay.add_avg": 0.00021587092300941204, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0010318756103515625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03363513946533203, "timer/logger.write_frac": 0.00011211634371065213, "timer/logger.write_avg": 0.03363513946533203, "timer/logger.write_min": 0.03363513946533203, "timer/logger.write_max": 0.03363513946533203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.055127382278442, "timer/agent.policy_frac": 0.036850165661839816, "timer/agent.policy_avg": 0.007624225780881684, "timer/agent.policy_min": 0.005639791488647461, "timer/agent.policy_max": 0.044776201248168945, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0714421272277832, "timer/dataset_frac": 0.0002381387506939303, "timer/dataset_avg": 9.854086514176994e-05, "timer/dataset_min": 7.748603820800781e-05, "timer/dataset_max": 0.0011208057403564453, "timer/agent.train_count": 725.0, "timer/agent.train_total": 267.7363772392273, "timer/agent.train_frac": 0.8924483195717798, "timer/agent.train_avg": 0.3692915548127273, "timer/agent.train_min": 0.36223411560058594, "timer/agent.train_max": 0.3847167491912842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137069702148438, "timer/agent.report_frac": 0.0007378971382089488, "timer/agent.report_avg": 0.22137069702148438, "timer/agent.report_min": 0.22137069702148438, "timer/agent.report_max": 0.22137069702148438, "fps": 4.833172373701477}
+{"step": 1150484, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07386363636363637}
+{"step": 1150632, "episode/length": 147.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.08783783783783784}
+{"step": 1150929, "episode/length": 296.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.05723905723905724}
+{"step": 1151081, "episode/length": 151.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.07236842105263158}
+{"step": 1151274, "episode/length": 192.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07772020725388601}
+{"step": 1151516, "episode/length": 241.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.06611570247933884}
+{"step": 1151798, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03900709219858156}
+{"step": 1151799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3915210668591484, "train/action_min": 0.0, "train/action_std": 3.269069046214007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03649698227535987, "train/actor_opt_grad_steps": 575010.0, "train/actor_opt_loss": -10.02722470311151, "train/adv_mag": 0.3473956565494123, "train/adv_max": 0.31306880669317383, "train/adv_mean": 0.0018799179460325252, "train/adv_min": -0.3125345143287078, "train/adv_std": 0.04092906364172265, "train/cont_avg": 0.9954285552536232, "train/cont_loss_mean": 1.7565053131983095e-05, "train/cont_loss_std": 0.0005243405750053645, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018230134589045396, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.375336907613804e-06, "train/cont_pred": 0.9954287919445314, "train/cont_rate": 0.9954285552536232, "train/dyn_loss_mean": 5.59617392913155, "train/dyn_loss_std": 8.869354303332342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8703232960424562, "train/extr_critic_critic_opt_grad_steps": 575010.0, "train/extr_critic_critic_opt_loss": 15042.581153759058, "train/extr_critic_mag": 12.435523682746334, "train/extr_critic_max": 12.435523682746334, "train/extr_critic_mean": 3.8908170444377954, "train/extr_critic_min": -0.35957952340443927, "train/extr_critic_std": 2.972167453904083, "train/extr_return_normed_mag": 1.3703462697457576, "train/extr_return_normed_max": 1.3703462697457576, "train/extr_return_normed_mean": 0.40525474669276806, "train/extr_return_normed_min": -0.06508294752110606, "train/extr_return_normed_std": 0.31174636319063714, "train/extr_return_rate": 0.8654335072075111, "train/extr_return_raw_mag": 13.192505795022715, "train/extr_return_raw_max": 13.192505795022715, "train/extr_return_raw_mean": 3.908933757007986, "train/extr_return_raw_min": -0.6156052553999252, "train/extr_return_raw_std": 2.9989014259283095, "train/extr_reward_mag": 1.080836458482604, "train/extr_reward_max": 1.080836458482604, "train/extr_reward_mean": 0.0649196685332319, "train/extr_reward_min": -0.5303468013155288, "train/extr_reward_std": 0.24417650548444278, "train/image_loss_mean": 3.270383834838867, "train/image_loss_std": 8.592998290407484, "train/model_loss_mean": 6.689558830814085, "train/model_loss_std": 12.679998591326285, "train/model_opt_grad_norm": 20.971066378164984, "train/model_opt_grad_steps": 574536.231884058, "train/model_opt_loss": 20638.50785495924, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3079.710144927536, "train/policy_entropy_mag": 2.7025211928547295, "train/policy_entropy_max": 2.7025211928547295, "train/policy_entropy_mean": 0.4134371598129687, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6245494139367256, "train/policy_logprob_mag": 7.438384284143862, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4138263327919919, "train/policy_logprob_min": -7.438384284143862, "train/policy_logprob_std": 1.0412289171979048, "train/policy_randomness_mag": 0.9538713831832444, "train/policy_randomness_max": 0.9538713831832444, "train/policy_randomness_mean": 0.1459251755605573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22043853544670602, "train/post_ent_mag": 55.53351360818614, "train/post_ent_max": 55.53351360818614, "train/post_ent_mean": 40.13150400355242, "train/post_ent_min": 20.091432377911996, "train/post_ent_std": 5.770370276077934, "train/prior_ent_mag": 76.7576806994452, "train/prior_ent_max": 76.7576806994452, "train/prior_ent_mean": 45.71127706334211, "train/prior_ent_min": 27.665826438129812, "train/prior_ent_std": 7.8301689659339795, "train/rep_loss_mean": 5.59617392913155, "train/rep_loss_std": 8.869354303332342, "train/reward_avg": 0.049777796303016555, "train/reward_loss_mean": 0.06145314623912176, "train/reward_loss_std": 0.2193835045116535, "train/reward_max_data": 1.0275362384492073, "train/reward_max_pred": 1.0248643246249876, "train/reward_neg_acc": 0.9933287846869316, "train/reward_neg_loss": 0.023834457013594067, "train/reward_pos_acc": 0.9905597412067911, "train/reward_pos_loss": 0.7214367692021356, "train/reward_pred": 0.04924559325951597, "train/reward_rate": 0.05393738677536232, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.45114236218588694, "replay/size": 1000000.0, "replay/inserts": 1364.0, "replay/samples": 10912.0, "replay/insert_wait_avg": 3.3560386501099707e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.479628498603172e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.0387454032898, "timer/env.step_count": 1364.0, "timer/env.step_total": 20.355160236358643, "timer/env.step_frac": 0.06761641332609739, "timer/env.step_avg": 0.014923138003195486, "timer/env.step_min": 0.0026102066040039062, "timer/env.step_max": 1.8683960437774658, "timer/replay.add_count": 1364.0, "timer/replay.add_total": 0.29913830757141113, "timer/replay.add_frac": 0.0009936870656654753, "timer/replay.add_avg": 0.00021930960965645978, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.002842426300048828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025743961334228516, "timer/logger.write_frac": 8.551710278934475e-05, "timer/logger.write_avg": 0.025743961334228516, "timer/logger.write_min": 0.025743961334228516, "timer/logger.write_max": 0.025743961334228516, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002613067626953125, "timer/checkpoint.save_frac": 8.680170465939528e-07, "timer/checkpoint.save_avg": 0.0002613067626953125, "timer/checkpoint.save_min": 0.0002613067626953125, "timer/checkpoint.save_max": 0.0002613067626953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4349017143249512, "timer/agent.save_frac": 0.004766501775054469, "timer/agent.save_avg": 1.4349017143249512, "timer/agent.save_min": 1.4349017143249512, "timer/agent.save_max": 1.4349017143249512, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.869171142578125e-05, "timer/replay.save_frac": 2.946189245738599e-07, "timer/replay.save_avg": 8.869171142578125e-05, "timer/replay.save_min": 8.869171142578125e-05, "timer/replay.save_max": 8.869171142578125e-05, "timer/agent.policy_count": 1364.0, "timer/agent.policy_total": 12.714341878890991, "timer/agent.policy_frac": 0.042234901895628375, "timer/agent.policy_avg": 0.0093213650138497, "timer/agent.policy_min": 0.005630970001220703, "timer/agent.policy_max": 1.4396376609802246, "timer/dataset_count": 682.0, "timer/dataset_total": 0.0636446475982666, "timer/dataset_frac": 0.00021141679790421782, "timer/dataset_avg": 9.332059765141731e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 682.0, "timer/agent.train_total": 266.89334058761597, "timer/agent.train_frac": 0.8865747172513273, "timer/agent.train_avg": 0.39133920907275066, "timer/agent.train_min": 0.35849952697753906, "timer/agent.train_max": 0.8805859088897705, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2598257064819336, "timer/agent.report_frac": 0.000863097227348112, "timer/agent.report_avg": 0.2598257064819336, "timer/agent.report_min": 0.2598257064819336, "timer/agent.report_max": 0.2598257064819336, "fps": 4.530873213353254}
+{"step": 1151988, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06315789473684211}
+{"step": 1152227, "episode/length": 238.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.058577405857740586}
+{"step": 1152407, "episode/length": 179.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.06111111111111111}
+{"step": 1152711, "episode/length": 303.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.300000071525574, "episode/reward_rate": 0.04276315789473684}
+{"step": 1152880, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 1153062, "episode/length": 181.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08791208791208792}
+{"step": 1153079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.477822303771973, "train/action_min": 0.0, "train/action_std": 3.370656281709671, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0376924509764649, "train/actor_opt_grad_steps": 575675.0, "train/actor_opt_loss": -11.945545677095652, "train/adv_mag": 0.41459150752052665, "train/adv_max": 0.3594072498381138, "train/adv_mean": 0.0017015555775969915, "train/adv_min": -0.3627492324449122, "train/adv_std": 0.042615102778654546, "train/cont_avg": 0.995208740234375, "train/cont_loss_mean": 3.131919251808668e-05, "train/cont_loss_std": 0.0009939189914369706, "train/cont_neg_acc": 0.9977678582072258, "train/cont_neg_loss": 0.004108261674846042, "train/cont_pos_acc": 0.9999999785795808, "train/cont_pos_loss": 3.2708452932794785e-06, "train/cont_pred": 0.9952185694128275, "train/cont_rate": 0.995208740234375, "train/dyn_loss_mean": 5.664477609097958, "train/dyn_loss_std": 8.96038007736206, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9208743292838335, "train/extr_critic_critic_opt_grad_steps": 575675.0, "train/extr_critic_critic_opt_loss": 15244.872375488281, "train/extr_critic_mag": 12.4282888174057, "train/extr_critic_max": 12.4282888174057, "train/extr_critic_mean": 3.8712416104972363, "train/extr_critic_min": -0.3419375605881214, "train/extr_critic_std": 2.9739281311631203, "train/extr_return_normed_mag": 1.378239344805479, "train/extr_return_normed_max": 1.378239344805479, "train/extr_return_normed_mean": 0.40569040458649397, "train/extr_return_normed_min": -0.07296996749937534, "train/extr_return_normed_std": 0.3140235615428537, "train/extr_return_rate": 0.8638316281139851, "train/extr_return_raw_mag": 13.18241885304451, "train/extr_return_raw_max": 13.18241885304451, "train/extr_return_raw_mean": 3.8874977119266987, "train/extr_return_raw_min": -0.6873561814427376, "train/extr_return_raw_std": 3.001341547816992, "train/extr_reward_mag": 1.081903450191021, "train/extr_reward_max": 1.081903450191021, "train/extr_reward_mean": 0.06302667944692075, "train/extr_reward_min": -0.6107571870088577, "train/extr_reward_std": 0.241449105553329, "train/image_loss_mean": 3.582351218909025, "train/image_loss_std": 8.843196451663971, "train/model_loss_mean": 7.044423542916775, "train/model_loss_std": 12.965452462434769, "train/model_opt_grad_norm": 20.348399952054024, "train/model_opt_grad_steps": 575200.875, "train/model_opt_loss": 20103.07926940918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2851.5625, "train/policy_entropy_mag": 2.6925421692430973, "train/policy_entropy_max": 2.6925421692430973, "train/policy_entropy_mean": 0.433028481900692, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6442748601548374, "train/policy_logprob_mag": 7.43838432431221, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.432765640784055, "train/policy_logprob_min": -7.43838432431221, "train/policy_logprob_std": 1.055092285387218, "train/policy_randomness_mag": 0.9503492284566164, "train/policy_randomness_max": 0.9503492284566164, "train/policy_randomness_mean": 0.15284005214925855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22740075387991965, "train/post_ent_mag": 55.833306074142456, "train/post_ent_max": 55.833306074142456, "train/post_ent_mean": 40.23457223176956, "train/post_ent_min": 19.768908500671387, "train/post_ent_std": 5.884037844836712, "train/prior_ent_mag": 76.82507336139679, "train/prior_ent_max": 76.82507336139679, "train/prior_ent_mean": 45.88324958086014, "train/prior_ent_min": 27.852575063705444, "train/prior_ent_std": 7.893234767019749, "train/rep_loss_mean": 5.664477609097958, "train/rep_loss_std": 8.96038007736206, "train/reward_avg": 0.0490585322258994, "train/reward_loss_mean": 0.0633544372394681, "train/reward_loss_std": 0.2273718046490103, "train/reward_max_data": 1.0234375055879354, "train/reward_max_pred": 1.0227677151560783, "train/reward_neg_acc": 0.9929656386375427, "train/reward_neg_loss": 0.026166761585045606, "train/reward_pos_acc": 0.9909730805084109, "train/reward_pos_loss": 0.721977211534977, "train/reward_pred": 0.0486901372205466, "train/reward_rate": 0.05340576171875, "stats/sum_log_reward": 11.93333371480306, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4039576177795728, "replay/size": 1000000.0, "replay/inserts": 1280.0, "replay/samples": 10240.0, "replay/insert_wait_avg": 3.2598152756690977e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4987075701355933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.294527053833, "timer/env.step_count": 1280.0, "timer/env.step_total": 16.6192045211792, "timer/env.step_frac": 0.05534301502005036, "timer/env.step_avg": 0.012983753532171249, "timer/env.step_min": 0.0029990673065185547, "timer/env.step_max": 1.6381008625030518, "timer/replay.add_count": 1280.0, "timer/replay.add_total": 0.2755773067474365, "timer/replay.add_frac": 0.0009176900739787193, "timer/replay.add_avg": 0.00021529477089643478, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0007104873657226562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030144214630126953, "timer/logger.write_frac": 0.00010038216455647584, "timer/logger.write_avg": 0.030144214630126953, "timer/logger.write_min": 0.030144214630126953, "timer/logger.write_max": 0.030144214630126953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1280.0, "timer/agent.policy_total": 10.287777185440063, "timer/agent.policy_frac": 0.03425895665289898, "timer/agent.policy_avg": 0.00803732592612505, "timer/agent.policy_min": 0.005896091461181641, "timer/agent.policy_max": 0.019412517547607422, "timer/dataset_count": 640.0, "timer/dataset_total": 0.060257911682128906, "timer/dataset_frac": 0.0002006627036240545, "timer/dataset_avg": 9.415298700332642e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00034165382385253906, "timer/agent.train_count": 640.0, "timer/agent.train_total": 272.3745422363281, "timer/agent.train_frac": 0.9070246631151565, "timer/agent.train_avg": 0.4255852222442627, "timer/agent.train_min": 0.3758230209350586, "timer/agent.train_max": 0.4579653739929199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2606837749481201, "timer/agent.report_frac": 0.0008680936596003563, "timer/agent.report_avg": 0.2606837749481201, "timer/agent.report_min": 0.2606837749481201, "timer/agent.report_max": 0.2606837749481201, "fps": 4.262410838340181}
+{"step": 1153353, "episode/length": 290.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05154639175257732}
+{"step": 1153657, "episode/length": 303.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.049342105263157895}
+{"step": 1153890, "episode/length": 232.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06866952789699571}
+{"step": 1154085, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07179487179487179}
+{"step": 1154269, "episode/length": 183.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.08152173913043478}
+{"step": 1154345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466159396701389, "train/action_min": 0.0, "train/action_std": 3.325609816445245, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699884034456715, "train/actor_opt_grad_steps": 576310.0, "train/actor_opt_loss": -10.690893343516759, "train/adv_mag": 0.3637445256823585, "train/adv_max": 0.3106686647922274, "train/adv_mean": 0.0021401293633971363, "train/adv_min": -0.3293297711818937, "train/adv_std": 0.04125897243382439, "train/cont_avg": 0.9953807043650794, "train/cont_loss_mean": 2.242264836580274e-05, "train/cont_loss_std": 0.0006886881903042537, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.003431278654846066, "train/cont_pos_acc": 0.9999999791856796, "train/cont_pos_loss": 5.5724362782247304e-06, "train/cont_pred": 0.9953858473944286, "train/cont_rate": 0.9953807043650794, "train/dyn_loss_mean": 5.65149450302124, "train/dyn_loss_std": 8.844962331983778, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8976600983786205, "train/extr_critic_critic_opt_grad_steps": 576310.0, "train/extr_critic_critic_opt_loss": 15327.103205605159, "train/extr_critic_mag": 12.500981482248458, "train/extr_critic_max": 12.500981482248458, "train/extr_critic_mean": 3.7387151491074335, "train/extr_critic_min": -0.3906220008456518, "train/extr_critic_std": 2.972976571037656, "train/extr_return_normed_mag": 1.371561606725057, "train/extr_return_normed_max": 1.371561606725057, "train/extr_return_normed_mean": 0.38954776005139424, "train/extr_return_normed_min": -0.07186669081686035, "train/extr_return_normed_std": 0.30935845370330506, "train/extr_return_rate": 0.862338832446507, "train/extr_return_raw_mag": 13.286125273931594, "train/extr_return_raw_max": 13.286125273931594, "train/extr_return_raw_mean": 3.7594640633416554, "train/extr_return_raw_min": -0.7158999793113224, "train/extr_return_raw_std": 3.0008785346197704, "train/extr_reward_mag": 1.0847376074109758, "train/extr_reward_max": 1.0847376074109758, "train/extr_reward_mean": 0.06402656944498183, "train/extr_reward_min": -0.6014044587574308, "train/extr_reward_std": 0.24285989668634203, "train/image_loss_mean": 3.537543773651123, "train/image_loss_std": 8.808326335180373, "train/model_loss_mean": 6.990240218147399, "train/model_loss_std": 12.85500817071824, "train/model_opt_grad_norm": 21.744887124924432, "train/model_opt_grad_steps": 575835.0, "train/model_opt_loss": 17475.60060143849, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7020832659706238, "train/policy_entropy_max": 2.7020832659706238, "train/policy_entropy_mean": 0.42408816634662566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6313691432513888, "train/policy_logprob_mag": 7.438384305863154, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4242373123055413, "train/policy_logprob_min": -7.438384305863154, "train/policy_logprob_std": 1.04825739917301, "train/policy_randomness_mag": 0.9537168154640804, "train/policy_randomness_max": 0.9537168154640804, "train/policy_randomness_mean": 0.14968451266250912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2228455992918166, "train/post_ent_mag": 55.7921019660102, "train/post_ent_max": 55.7921019660102, "train/post_ent_mean": 40.28724131508479, "train/post_ent_min": 19.75717308407738, "train/post_ent_std": 5.853872639792306, "train/prior_ent_mag": 76.77102842785064, "train/prior_ent_max": 76.77102842785064, "train/prior_ent_mean": 45.98041613139804, "train/prior_ent_min": 28.382337721567307, "train/prior_ent_std": 7.899947507040841, "train/rep_loss_mean": 5.65149450302124, "train/rep_loss_std": 8.844962331983778, "train/reward_avg": 0.047719803357881216, "train/reward_loss_mean": 0.06177730799194366, "train/reward_loss_std": 0.2197169294906041, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.0358768644787015, "train/reward_neg_acc": 0.9930145428294227, "train/reward_neg_loss": 0.025582817752682972, "train/reward_pos_acc": 0.9910331869882251, "train/reward_pos_loss": 0.7201570783342633, "train/reward_pred": 0.04726673160043974, "train/reward_rate": 0.052036830357142856, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 19.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5513144731521606, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.3563158900063563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3902806934398875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1801197528839, "timer/env.step_count": 1266.0, "timer/env.step_total": 16.014395236968994, "timer/env.step_frac": 0.053349286588840264, "timer/env.step_avg": 0.012649601293024481, "timer/env.step_min": 0.003345489501953125, "timer/env.step_max": 1.6758460998535156, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.2784276008605957, "timer/replay.add_frac": 0.0009275351115517062, "timer/replay.add_avg": 0.0002199270148977849, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.001180410385131836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022791624069213867, "timer/logger.write_frac": 7.592649402624173e-05, "timer/logger.write_avg": 0.022791624069213867, "timer/logger.write_min": 0.022791624069213867, "timer/logger.write_max": 0.022791624069213867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 10.191496133804321, "timer/agent.policy_frac": 0.03395126946512723, "timer/agent.policy_avg": 0.008050154924016052, "timer/agent.policy_min": 0.006083011627197266, "timer/agent.policy_max": 0.01706075668334961, "timer/dataset_count": 633.0, "timer/dataset_total": 0.06053566932678223, "timer/dataset_frac": 0.00020166448523178937, "timer/dataset_avg": 9.563296892066703e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019550323486328125, "timer/agent.train_count": 633.0, "timer/agent.train_total": 272.97614216804504, "timer/agent.train_frac": 0.9093744862010386, "timer/agent.train_avg": 0.43124193075520545, "timer/agent.train_min": 0.3679921627044678, "timer/agent.train_max": 0.4574100971221924, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22986626625061035, "timer/agent.report_frac": 0.0007657611251532655, "timer/agent.report_avg": 0.22986626625061035, "timer/agent.report_min": 0.22986626625061035, "timer/agent.report_max": 0.22986626625061035, "fps": 4.217381592021906}
+{"step": 1154482, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06572769953051644}
+{"step": 1154680, "episode/length": 197.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.0707070707070707}
+{"step": 1154845, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06666666666666667}
+{"step": 1155033, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05851063829787234}
+{"step": 1155250, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06451612903225806}
+{"step": 1155457, "episode/length": 206.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06763285024154589}
+{"step": 1155593, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465798654863911, "train/action_min": 0.0, "train/action_std": 3.286674168802077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03758706035272729, "train/actor_opt_grad_steps": 576935.0, "train/actor_opt_loss": -11.7525686371711, "train/adv_mag": 0.4099607844987223, "train/adv_max": 0.3578049836139525, "train/adv_mean": 0.0018546765751389397, "train/adv_min": -0.3604545590858306, "train/adv_std": 0.04150521082262839, "train/cont_avg": 0.9954794606854839, "train/cont_loss_mean": 1.1433918352107383e-05, "train/cont_loss_std": 0.0003178317724956835, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.712753924057202e-05, "train/cont_pos_acc": 0.9999999865408866, "train/cont_pos_loss": 1.1214408969336425e-05, "train/cont_pred": 0.9954692058024868, "train/cont_rate": 0.9954794606854839, "train/dyn_loss_mean": 5.864374691440213, "train/dyn_loss_std": 9.035746682074763, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8656768000894978, "train/extr_critic_critic_opt_grad_steps": 576935.0, "train/extr_critic_critic_opt_loss": 15091.063665574597, "train/extr_critic_mag": 12.476862630536479, "train/extr_critic_max": 12.476862630536479, "train/extr_critic_mean": 3.805213466767342, "train/extr_critic_min": -0.3828745830443598, "train/extr_critic_std": 2.9326515428481565, "train/extr_return_normed_mag": 1.366725831262527, "train/extr_return_normed_max": 1.366725831262527, "train/extr_return_normed_mean": 0.3982596928554197, "train/extr_return_normed_min": -0.07442407580392976, "train/extr_return_normed_std": 0.3073143728317753, "train/extr_return_rate": 0.854867103599733, "train/extr_return_raw_mag": 13.146217653828282, "train/extr_return_raw_max": 13.146217653828282, "train/extr_return_raw_mean": 3.823070814532618, "train/extr_return_raw_min": -0.7275454166435427, "train/extr_return_raw_std": 2.9586043050212245, "train/extr_reward_mag": 1.0899910080817439, "train/extr_reward_max": 1.0899910080817439, "train/extr_reward_mean": 0.06474927920968301, "train/extr_reward_min": -0.5925633830408896, "train/extr_reward_std": 0.24362547479329572, "train/image_loss_mean": 3.5431927211823, "train/image_loss_std": 8.96169783992152, "train/model_loss_mean": 7.124209180954964, "train/model_loss_std": 13.165601053545553, "train/model_opt_grad_norm": 20.188906810322745, "train/model_opt_grad_steps": 576459.6290322581, "train/model_opt_loss": 20876.425009450606, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2903.2258064516127, "train/policy_entropy_mag": 2.6979840109425206, "train/policy_entropy_max": 2.6979840109425206, "train/policy_entropy_mean": 0.4145572123027617, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6149075262008175, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4147018434539918, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.040230231900369, "train/policy_randomness_mag": 0.9522699569502184, "train/policy_randomness_max": 0.9522699569502184, "train/policy_randomness_mean": 0.14632050344540226, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21703537193036848, "train/post_ent_mag": 55.28357973406392, "train/post_ent_max": 55.28357973406392, "train/post_ent_mean": 40.087076986989665, "train/post_ent_min": 19.55335029478996, "train/post_ent_std": 5.807376869263187, "train/prior_ent_mag": 76.7729962256647, "train/prior_ent_max": 76.7729962256647, "train/prior_ent_mean": 45.969048592352095, "train/prior_ent_min": 27.535523445375503, "train/prior_ent_std": 7.861613027511105, "train/rep_loss_mean": 5.864374691440213, "train/rep_loss_std": 9.035746682074763, "train/reward_avg": 0.04895413264391884, "train/reward_loss_mean": 0.06238013295637023, "train/reward_loss_std": 0.22013471203465615, "train/reward_max_data": 1.038709686648461, "train/reward_max_pred": 1.0415543163976362, "train/reward_neg_acc": 0.9927387304844395, "train/reward_neg_loss": 0.025213606790789673, "train/reward_pos_acc": 0.9898056368674001, "train/reward_pos_loss": 0.7238118014027995, "train/reward_pred": 0.048602060444893375, "train/reward_rate": 0.053238407258064516, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3258015314737956, "replay/size": 1000000.0, "replay/inserts": 1248.0, "replay/samples": 9984.0, "replay/insert_wait_avg": 3.3416809179844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3695456660710847e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0270574092865, "timer/env.step_count": 1248.0, "timer/env.step_total": 19.58302092552185, "timer/env.step_frac": 0.06527084955143686, "timer/env.step_avg": 0.01569152317750148, "timer/env.step_min": 0.0030286312103271484, "timer/env.step_max": 2.5175015926361084, "timer/replay.add_count": 1248.0, "timer/replay.add_total": 0.2637906074523926, "timer/replay.add_frac": 0.0008792227265440883, "timer/replay.add_avg": 0.0002113706790483915, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0010402202606201172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03345847129821777, "timer/logger.write_frac": 0.00011151817968395726, "timer/logger.write_avg": 0.03345847129821777, "timer/logger.write_min": 0.03345847129821777, "timer/logger.write_max": 0.03345847129821777, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018477439880371094, "timer/checkpoint.save_frac": 6.158591175050193e-07, "timer/checkpoint.save_avg": 0.00018477439880371094, "timer/checkpoint.save_min": 0.00018477439880371094, "timer/checkpoint.save_max": 0.00018477439880371094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2333958148956299, "timer/agent.save_frac": 0.004110948610921695, "timer/agent.save_avg": 1.2333958148956299, "timer/agent.save_min": 1.2333958148956299, "timer/agent.save_max": 1.2333958148956299, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.399863915955043e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1248.0, "timer/agent.policy_total": 11.113196849822998, "timer/agent.policy_frac": 0.03704064875276486, "timer/agent.policy_avg": 0.008904805168127403, "timer/agent.policy_min": 0.006233692169189453, "timer/agent.policy_max": 1.2313125133514404, "timer/dataset_count": 624.0, "timer/dataset_total": 0.05857539176940918, "timer/dataset_frac": 0.0001952336975044976, "timer/dataset_avg": 9.387082014328394e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 624.0, "timer/agent.train_total": 268.3421514034271, "timer/agent.train_frac": 0.8943931714710786, "timer/agent.train_avg": 0.4300354990439537, "timer/agent.train_min": 0.37766051292419434, "timer/agent.train_max": 0.9124898910522461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22977495193481445, "timer/agent.report_frac": 0.0007658474336245061, "timer/agent.report_avg": 0.22977495193481445, "timer/agent.report_min": 0.22977495193481445, "timer/agent.report_max": 0.22977495193481445, "fps": 4.159541610879092}
+{"step": 1155688, "episode/length": 230.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06493506493506493}
+{"step": 1155892, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07352941176470588}
+{"step": 1156095, "episode/length": 202.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.07881773399014778}
+{"step": 1156283, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06914893617021277}
+{"step": 1156445, "episode/length": 161.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06790123456790123}
+{"step": 1156581, "episode/length": 135.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.09558823529411764}
+{"step": 1156644, "episode/length": 62.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.12698412698412698}
+{"step": 1156845, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.430168030753968, "train/action_min": 0.0, "train/action_std": 3.2867290141090515, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699372729493512, "train/actor_opt_grad_steps": 577560.0, "train/actor_opt_loss": -11.22965301738845, "train/adv_mag": 0.3958520248295769, "train/adv_max": 0.32651597332386745, "train/adv_mean": 0.0021622706327535626, "train/adv_min": -0.3462213346409419, "train/adv_std": 0.04146680354125916, "train/cont_avg": 0.9955357142857143, "train/cont_loss_mean": 5.8618427377470856e-05, "train/cont_loss_std": 0.001769824405954072, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.009857301568629004, "train/cont_pos_acc": 0.9999999791856796, "train/cont_pos_loss": 1.0913989670024465e-05, "train/cont_pred": 0.9955406236270118, "train/cont_rate": 0.9955357142857143, "train/dyn_loss_mean": 5.850520043146043, "train/dyn_loss_std": 8.982841824728345, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9002493875367301, "train/extr_critic_critic_opt_grad_steps": 577560.0, "train/extr_critic_critic_opt_loss": 15116.398484002977, "train/extr_critic_mag": 12.570849781944638, "train/extr_critic_max": 12.570849781944638, "train/extr_critic_mean": 3.9129035321492998, "train/extr_critic_min": -0.37069256721980987, "train/extr_critic_std": 2.977903343382336, "train/extr_return_normed_mag": 1.3741699230103266, "train/extr_return_normed_max": 1.3741699230103266, "train/extr_return_normed_mean": 0.4075142282342154, "train/extr_return_normed_min": -0.0725674753683427, "train/extr_return_normed_std": 0.31053689311421107, "train/extr_return_rate": 0.8654483291837904, "train/extr_return_raw_mag": 13.30788467043922, "train/extr_return_raw_max": 13.30788467043922, "train/extr_return_raw_mean": 3.933851919476948, "train/extr_return_raw_min": -0.7215947934559414, "train/extr_return_raw_std": 3.0115092936016263, "train/extr_reward_mag": 1.0893877914973669, "train/extr_reward_max": 1.0893877914973669, "train/extr_reward_mean": 0.0630583849454683, "train/extr_reward_min": -0.6175592248401944, "train/extr_reward_std": 0.24085039562649196, "train/image_loss_mean": 3.350520826521374, "train/image_loss_std": 8.743968713851203, "train/model_loss_mean": 6.923015427967859, "train/model_loss_std": 12.884519501337929, "train/model_opt_grad_norm": 20.13859462738037, "train/model_opt_grad_steps": 577084.0, "train/model_opt_loss": 17307.538597470237, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6843829722631547, "train/policy_entropy_max": 2.6843829722631547, "train/policy_entropy_mean": 0.40754083461231655, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6173373063405355, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40885160650525776, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.0391497801220606, "train/policy_randomness_mag": 0.9474693877356393, "train/policy_randomness_max": 0.9474693877356393, "train/policy_randomness_mean": 0.143844031743587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21789297887257167, "train/post_ent_mag": 55.500590612017916, "train/post_ent_max": 55.500590612017916, "train/post_ent_mean": 39.887789650568884, "train/post_ent_min": 19.79427955264137, "train/post_ent_std": 5.81001829722571, "train/prior_ent_mag": 76.85890270414806, "train/prior_ent_max": 76.85890270414806, "train/prior_ent_mean": 45.712843940371556, "train/prior_ent_min": 27.505713659619527, "train/prior_ent_std": 7.92884732049609, "train/rep_loss_mean": 5.850520043146043, "train/rep_loss_std": 8.982841824728345, "train/reward_avg": 0.048896329270468816, "train/reward_loss_mean": 0.06212394986124266, "train/reward_loss_std": 0.22335130685851687, "train/reward_max_data": 1.0428571530750819, "train/reward_max_pred": 1.0402836761777363, "train/reward_neg_acc": 0.9926383097966512, "train/reward_neg_loss": 0.024710307651687236, "train/reward_pos_acc": 0.9881488198325747, "train/reward_pos_loss": 0.7324978529460846, "train/reward_pred": 0.048379938192074264, "train/reward_rate": 0.05315290178571429, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.857142857142857, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.341054584298815, "replay/size": 1000000.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.5094376950979994e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.442865632212581e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05877113342285, "timer/env.step_count": 1252.0, "timer/env.step_total": 18.742852210998535, "timer/env.step_frac": 0.06246393711538737, "timer/env.step_avg": 0.01497032924201161, "timer/env.step_min": 0.0031728744506835938, "timer/env.step_max": 1.6624646186828613, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.2726175785064697, "timer/replay.add_frac": 0.0009085472738447254, "timer/replay.add_avg": 0.00021774566973360203, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0007274150848388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027214765548706055, "timer/logger.write_frac": 9.069811705855735e-05, "timer/logger.write_avg": 0.027214765548706055, "timer/logger.write_min": 0.027214765548706055, "timer/logger.write_max": 0.027214765548706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 9.929970026016235, "timer/agent.policy_frac": 0.03309341696130862, "timer/agent.policy_avg": 0.007931285963271754, "timer/agent.policy_min": 0.006054401397705078, "timer/agent.policy_max": 0.015604734420776367, "timer/dataset_count": 626.0, "timer/dataset_total": 0.060979604721069336, "timer/dataset_frac": 0.00020322553641984492, "timer/dataset_avg": 9.74115091390884e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00026345252990722656, "timer/agent.train_count": 626.0, "timer/agent.train_total": 270.37770104408264, "timer/agent.train_frac": 0.9010824780184734, "timer/agent.train_avg": 0.4319132604538061, "timer/agent.train_min": 0.368410587310791, "timer/agent.train_max": 0.4577960968017578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2335817813873291, "timer/agent.report_frac": 0.0007784534359885971, "timer/agent.report_avg": 0.2335817813873291, "timer/agent.report_min": 0.2335817813873291, "timer/agent.report_max": 0.2335817813873291, "fps": 4.172422602802352}
+{"step": 1156854, "episode/length": 209.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.0380952380952381}
+{"step": 1157044, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07368421052631578}
+{"step": 1157277, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05150214592274678}
+{"step": 1157496, "episode/length": 218.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.045662100456621}
+{"step": 1157706, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06190476190476191}
+{"step": 1158061, "episode/length": 354.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.014084507042253521}
+{"step": 1158115, "stats/sum_log_reward": 9.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.41790589690208435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.43634033203125, "train/action_min": 0.0, "train/action_std": 3.299580937340146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03731703551279174, "train/actor_opt_grad_steps": 578190.0, "train/actor_opt_loss": -12.279995028225203, "train/adv_mag": 0.39584272626846556, "train/adv_max": 0.31688387218921904, "train/adv_mean": 0.0015414859598321426, "train/adv_min": -0.3682469777644627, "train/adv_std": 0.04210017201682878, "train/cont_avg": 0.9947761656746031, "train/cont_loss_mean": 3.5621475347628775e-05, "train/cont_loss_std": 0.0010158637749407083, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007523878905751637, "train/cont_pos_acc": 0.9999843873674907, "train/cont_pos_loss": 3.3326664991017464e-05, "train/cont_pred": 0.9947557297963945, "train/cont_rate": 0.9947761656746031, "train/dyn_loss_mean": 5.808855480617947, "train/dyn_loss_std": 8.991892602708605, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8950628354435876, "train/extr_critic_critic_opt_grad_steps": 578190.0, "train/extr_critic_critic_opt_loss": 15148.931966145834, "train/extr_critic_mag": 12.784065488785032, "train/extr_critic_max": 12.784065488785032, "train/extr_critic_mean": 4.012590128277975, "train/extr_critic_min": -0.36844719023931594, "train/extr_critic_std": 3.106706320293366, "train/extr_return_normed_mag": 1.38418281835223, "train/extr_return_normed_max": 1.38418281835223, "train/extr_return_normed_mean": 0.4091535636356899, "train/extr_return_normed_min": -0.06949522804528002, "train/extr_return_normed_std": 0.31947815843990873, "train/extr_return_rate": 0.86182006957039, "train/extr_return_raw_mag": 13.60654472169422, "train/extr_return_raw_max": 13.60654472169422, "train/extr_return_raw_mean": 4.027733276760768, "train/extr_return_raw_min": -0.6740516575555953, "train/extr_return_raw_std": 3.138822843158056, "train/extr_reward_mag": 1.0893411674196758, "train/extr_reward_max": 1.0893411674196758, "train/extr_reward_mean": 0.0668534596288015, "train/extr_reward_min": -0.5757036947068714, "train/extr_reward_std": 0.2482841776476966, "train/image_loss_mean": 3.400154636019752, "train/image_loss_std": 8.723015482463534, "train/model_loss_mean": 6.950536145104302, "train/model_loss_std": 12.866592604016502, "train/model_opt_grad_norm": 20.184642367892796, "train/model_opt_grad_steps": 577713.0158730159, "train/model_opt_loss": 8821.652320498511, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1269.8412698412699, "train/policy_entropy_mag": 2.699081772849673, "train/policy_entropy_max": 2.699081772849673, "train/policy_entropy_mean": 0.4149858809652783, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6279374413074009, "train/policy_logprob_mag": 7.438384343707372, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4151694651633974, "train/policy_logprob_min": -7.438384343707372, "train/policy_logprob_std": 1.0412464425677346, "train/policy_randomness_mag": 0.9526574195377411, "train/policy_randomness_max": 0.9526574195377411, "train/policy_randomness_mean": 0.14647180409658522, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2216343598233329, "train/post_ent_mag": 55.1891833108569, "train/post_ent_max": 55.1891833108569, "train/post_ent_mean": 40.04585029965355, "train/post_ent_min": 19.61759294782366, "train/post_ent_std": 5.82329611551194, "train/prior_ent_mag": 76.87722911531964, "train/prior_ent_max": 76.87722911531964, "train/prior_ent_mean": 45.84084247407459, "train/prior_ent_min": 27.739750968085396, "train/prior_ent_std": 7.8923966695391945, "train/rep_loss_mean": 5.808855480617947, "train/rep_loss_std": 8.991892602708605, "train/reward_avg": 0.05052238330245018, "train/reward_loss_mean": 0.06503258692839789, "train/reward_loss_std": 0.23195111467724755, "train/reward_max_data": 1.0317460393148756, "train/reward_max_pred": 1.0308324609483992, "train/reward_neg_acc": 0.9926531277005635, "train/reward_neg_loss": 0.026848584901364075, "train/reward_pos_acc": 0.9902482590978108, "train/reward_pos_loss": 0.7215245441784934, "train/reward_pred": 0.05025041605981569, "train/reward_rate": 0.05495101686507937, "replay/size": 1000000.0, "replay/inserts": 1270.0, "replay/samples": 10160.0, "replay/insert_wait_avg": 3.5038144569697343e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.443652656134658e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1379919052124, "timer/env.step_count": 1270.0, "timer/env.step_total": 16.891608476638794, "timer/env.step_frac": 0.05627947454907138, "timer/env.step_avg": 0.013300479115463617, "timer/env.step_min": 0.002816438674926758, "timer/env.step_max": 1.6652390956878662, "timer/replay.add_count": 1270.0, "timer/replay.add_total": 0.26793909072875977, "timer/replay.add_frac": 0.0008927196754664052, "timer/replay.add_avg": 0.00021097566199114942, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0009281635284423828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028600454330444336, "timer/logger.write_frac": 9.529101647177256e-05, "timer/logger.write_avg": 0.028600454330444336, "timer/logger.write_min": 0.028600454330444336, "timer/logger.write_max": 0.028600454330444336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1270.0, "timer/agent.policy_total": 10.329241514205933, "timer/agent.policy_frac": 0.034414975087419274, "timer/agent.policy_avg": 0.00813326103480782, "timer/agent.policy_min": 0.0058841705322265625, "timer/agent.policy_max": 0.016149520874023438, "timer/dataset_count": 635.0, "timer/dataset_total": 0.06411409378051758, "timer/dataset_frac": 0.0002136153886201973, "timer/dataset_avg": 0.00010096707681971272, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00022077560424804688, "timer/agent.train_count": 635.0, "timer/agent.train_total": 271.8674101829529, "timer/agent.train_frac": 0.9058080533463829, "timer/agent.train_avg": 0.4281376538314219, "timer/agent.train_min": 0.37046146392822266, "timer/agent.train_max": 0.4601123332977295, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2605631351470947, "timer/agent.report_frac": 0.0008681444607964994, "timer/agent.report_avg": 0.2605631351470947, "timer/agent.report_min": 0.2605631351470947, "timer/agent.report_max": 0.2605631351470947, "fps": 4.231316175513945}
+{"step": 1158299, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.50000000745058, "episode/reward_rate": 0.06722689075630252}
+{"step": 1158507, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 1158724, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06451612903225806}
+{"step": 1158990, "episode/length": 265.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06015037593984962}
+{"step": 1159182, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06770833333333333}
+{"step": 1159357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464007962134577, "train/action_min": 0.0, "train/action_std": 3.3514411949342295, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0363305572480444, "train/actor_opt_grad_steps": 578815.0, "train/actor_opt_loss": -9.712313051665983, "train/adv_mag": 0.4063900480827978, "train/adv_max": 0.3133824078306075, "train/adv_mean": 0.0021492866797475033, "train/adv_min": -0.3784795614980882, "train/adv_std": 0.041460067814876954, "train/cont_avg": 0.9951959425403226, "train/cont_loss_mean": 1.5542334876367784e-05, "train/cont_loss_std": 0.00044128864205243836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009224617630889019, "train/cont_pos_acc": 0.9999999855795214, "train/cont_pos_loss": 1.1019456164354602e-05, "train/cont_pred": 0.9951906261905548, "train/cont_rate": 0.9951959425403226, "train/dyn_loss_mean": 5.872879043702157, "train/dyn_loss_std": 8.982127128108855, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9038463734811352, "train/extr_critic_critic_opt_grad_steps": 578815.0, "train/extr_critic_critic_opt_loss": 15325.16415700605, "train/extr_critic_mag": 12.68048374114498, "train/extr_critic_max": 12.68048374114498, "train/extr_critic_mean": 3.8084432886492823, "train/extr_critic_min": -0.37224152588075204, "train/extr_critic_std": 3.0363733922281573, "train/extr_return_normed_mag": 1.3711427450180054, "train/extr_return_normed_max": 1.3711427450180054, "train/extr_return_normed_mean": 0.392715054654306, "train/extr_return_normed_min": -0.07637958366784357, "train/extr_return_normed_std": 0.3133147750650683, "train/extr_return_rate": 0.8528352264435061, "train/extr_return_raw_mag": 13.382997005216536, "train/extr_return_raw_max": 13.382997005216536, "train/extr_return_raw_mean": 3.8294178785816317, "train/extr_return_raw_min": -0.7505159752984201, "train/extr_return_raw_std": 3.059127934517399, "train/extr_reward_mag": 1.0800680921923729, "train/extr_reward_max": 1.0800680921923729, "train/extr_reward_mean": 0.06448539124140816, "train/extr_reward_min": -0.610668824565026, "train/extr_reward_std": 0.2433356601865061, "train/image_loss_mean": 3.5937824172358357, "train/image_loss_std": 8.834402084350586, "train/model_loss_mean": 7.180831378506076, "train/model_loss_std": 12.981578242394232, "train/model_opt_grad_norm": 20.134099022034675, "train/model_opt_grad_steps": 578338.0, "train/model_opt_loss": 12493.399327431956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1733.8709677419354, "train/policy_entropy_mag": 2.7296734317656486, "train/policy_entropy_max": 2.7296734317656486, "train/policy_entropy_mean": 0.4336195318929611, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6546744891712742, "train/policy_logprob_mag": 7.438384286818966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4350496679544449, "train/policy_logprob_min": -7.438384286818966, "train/policy_logprob_std": 1.060662523392708, "train/policy_randomness_mag": 0.9634549377426025, "train/policy_randomness_max": 0.9634549377426025, "train/policy_randomness_mean": 0.15304866697519057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23107136425472075, "train/post_ent_mag": 55.873025278891284, "train/post_ent_max": 55.873025278891284, "train/post_ent_mean": 40.09589152182302, "train/post_ent_min": 19.59031818759057, "train/post_ent_std": 5.9152846797820064, "train/prior_ent_mag": 76.78366433420489, "train/prior_ent_max": 76.78366433420489, "train/prior_ent_mean": 45.94055803360477, "train/prior_ent_min": 27.808199144178822, "train/prior_ent_std": 7.976856331671438, "train/rep_loss_mean": 5.872879043702157, "train/rep_loss_std": 8.982127128108855, "train/reward_avg": 0.047013608618609364, "train/reward_loss_mean": 0.0633060410618782, "train/reward_loss_std": 0.23245632984945852, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.030861243124931, "train/reward_neg_acc": 0.9923607899296668, "train/reward_neg_loss": 0.02684672427694163, "train/reward_pos_acc": 0.9857500358935325, "train/reward_pos_loss": 0.7367836131203559, "train/reward_pred": 0.04645743215036008, "train/reward_rate": 0.05144279233870968, "stats/sum_log_reward": 13.900000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.2, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5056517779827118, "replay/size": 1000000.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.7217869658784974e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.451531470109875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27224922180176, "timer/env.step_count": 1242.0, "timer/env.step_total": 18.896958112716675, "timer/env.step_frac": 0.06293274906918914, "timer/env.step_avg": 0.015214942119739673, "timer/env.step_min": 0.003121614456176758, "timer/env.step_max": 2.6068615913391113, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.3027365207672119, "timer/replay.add_frac": 0.0010082067908432986, "timer/replay.add_avg": 0.00024374921156780348, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.01093149185180664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03337264060974121, "timer/logger.write_frac": 0.00011114127494708937, "timer/logger.write_avg": 0.03337264060974121, "timer/logger.write_min": 0.03337264060974121, "timer/logger.write_max": 0.03337264060974121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002593994140625, "timer/checkpoint.save_frac": 8.638807440073816e-07, "timer/checkpoint.save_avg": 0.0002593994140625, "timer/checkpoint.save_min": 0.0002593994140625, "timer/checkpoint.save_max": 0.0002593994140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2043726444244385, "timer/agent.save_frac": 0.004010935567791368, "timer/agent.save_avg": 1.2043726444244385, "timer/agent.save_min": 1.2043726444244385, "timer/agent.save_max": 1.2043726444244385, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.699627325023067e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 11.438186407089233, "timer/agent.policy_frac": 0.03809271897996875, "timer/agent.policy_avg": 0.00920948986078038, "timer/agent.policy_min": 0.00600886344909668, "timer/agent.policy_max": 1.2029409408569336, "timer/dataset_count": 621.0, "timer/dataset_total": 0.06416749954223633, "timer/dataset_frac": 0.00021369773500060538, "timer/dataset_avg": 0.00010332930683129843, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00028395652770996094, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.8772473335266, "timer/agent.train_frac": 0.8954448772084674, "timer/agent.train_avg": 0.43297463338732145, "timer/agent.train_min": 0.37852001190185547, "timer/agent.train_max": 0.9114856719970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23236727714538574, "timer/agent.report_frac": 0.0007738553187901932, "timer/agent.report_avg": 0.23236727714538574, "timer/agent.report_min": 0.23236727714538574, "timer/agent.report_max": 0.23236727714538574, "fps": 4.136167892373865}
+{"step": 1159376, "episode/length": 193.0, "episode/score": 14.1000000461936, "episode/sum_abs_reward": 16.100000075995922, "episode/reward_rate": 0.07731958762886598}
+{"step": 1159580, "episode/length": 203.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0784313725490196}
+{"step": 1159791, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.061611374407582936}
+{"step": 1159997, "episode/length": 205.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06310679611650485}
+{"step": 1160156, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08176100628930817}
+{"step": 1160409, "episode/length": 252.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.043478260869565216}
+{"step": 1160607, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506131611173115, "train/action_min": 0.0, "train/action_std": 3.3547782330285933, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03770659713163262, "train/actor_opt_grad_steps": 579440.0, "train/actor_opt_loss": -13.093169789465646, "train/adv_mag": 0.3976136911956091, "train/adv_max": 0.3323758951728306, "train/adv_mean": 0.001204625165089041, "train/adv_min": -0.36312354911887457, "train/adv_std": 0.04152782344155841, "train/cont_avg": 0.9949311755952381, "train/cont_loss_mean": 0.00016627932268239954, "train/cont_loss_std": 0.005249008837513285, "train/cont_neg_acc": 0.998015873015873, "train/cont_neg_loss": 0.009621242170696494, "train/cont_pos_acc": 0.9999843892597017, "train/cont_pos_loss": 9.244478072137749e-05, "train/cont_pred": 0.9949268717614431, "train/cont_rate": 0.9949311755952381, "train/dyn_loss_mean": 5.75008133479527, "train/dyn_loss_std": 8.917934629652235, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9020146774867225, "train/extr_critic_critic_opt_grad_steps": 579440.0, "train/extr_critic_critic_opt_loss": 15139.513702876984, "train/extr_critic_mag": 12.720799885098897, "train/extr_critic_max": 12.720799885098897, "train/extr_critic_mean": 3.899029217069111, "train/extr_critic_min": -0.3611090202180166, "train/extr_critic_std": 3.0195986392006042, "train/extr_return_normed_mag": 1.3889004730042958, "train/extr_return_normed_max": 1.3889004730042958, "train/extr_return_normed_mean": 0.4029618208370512, "train/extr_return_normed_min": -0.06827090302157024, "train/extr_return_normed_std": 0.3138002029487065, "train/extr_return_rate": 0.8696904371655176, "train/extr_return_raw_mag": 13.464707995217944, "train/extr_return_raw_max": 13.464707995217944, "train/extr_return_raw_mean": 3.910701036453247, "train/extr_return_raw_min": -0.6555248375922914, "train/extr_return_raw_std": 3.041081436096676, "train/extr_reward_mag": 1.0870997035314167, "train/extr_reward_max": 1.0870997035314167, "train/extr_reward_mean": 0.0640137189082683, "train/extr_reward_min": -0.5674438590095157, "train/extr_reward_std": 0.2426422562391039, "train/image_loss_mean": 3.4037272248949324, "train/image_loss_std": 8.823651767912365, "train/model_loss_mean": 6.919670226081969, "train/model_loss_std": 12.972326536027213, "train/model_opt_grad_norm": 21.545921234857467, "train/model_opt_grad_steps": 578963.0, "train/model_opt_loss": 17299.17540922619, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7089142345246815, "train/policy_entropy_max": 2.7089142345246815, "train/policy_entropy_mean": 0.4334369377484397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6462645724652305, "train/policy_logprob_mag": 7.4383842755877785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4328849883306594, "train/policy_logprob_min": -7.4383842755877785, "train/policy_logprob_std": 1.0527098878981576, "train/policy_randomness_mag": 0.9561278441595653, "train/policy_randomness_max": 0.9561278441595653, "train/policy_randomness_mean": 0.1529842187014837, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22810303549917918, "train/post_ent_mag": 55.48248291015625, "train/post_ent_max": 55.48248291015625, "train/post_ent_mean": 40.00534917437841, "train/post_ent_min": 19.697754299829878, "train/post_ent_std": 5.786412110404362, "train/prior_ent_mag": 76.75259132990762, "train/prior_ent_max": 76.75259132990762, "train/prior_ent_mean": 45.775562770782955, "train/prior_ent_min": 27.7286990332225, "train/prior_ent_std": 7.914133881765698, "train/rep_loss_mean": 5.75008133479527, "train/rep_loss_std": 8.917934629652235, "train/reward_avg": 0.04955977171895996, "train/reward_loss_mean": 0.0657279881101752, "train/reward_loss_std": 0.2406079000423825, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.0330054419381278, "train/reward_neg_acc": 0.9927556363363115, "train/reward_neg_loss": 0.027393304728089818, "train/reward_pos_acc": 0.986999183420151, "train/reward_pos_loss": 0.737519677669283, "train/reward_pred": 0.049049866696198784, "train/reward_rate": 0.054191468253968256, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.30924686789512634, "replay/size": 1000000.0, "replay/inserts": 1250.0, "replay/samples": 10000.0, "replay/insert_wait_avg": 3.7324905395507814e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4258861541748047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2009131908417, "timer/env.step_count": 1250.0, "timer/env.step_total": 17.736811876296997, "timer/env.step_frac": 0.05908313764862358, "timer/env.step_avg": 0.014189449501037598, "timer/env.step_min": 0.0028142929077148438, "timer/env.step_max": 1.703716516494751, "timer/replay.add_count": 1250.0, "timer/replay.add_total": 0.3017556667327881, "timer/replay.add_frac": 0.001005179043346074, "timer/replay.add_avg": 0.00024140453338623047, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0012187957763671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024537324905395508, "timer/logger.write_frac": 8.173634331950486e-05, "timer/logger.write_avg": 0.024537324905395508, "timer/logger.write_min": 0.024537324905395508, "timer/logger.write_max": 0.024537324905395508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1250.0, "timer/agent.policy_total": 10.361237049102783, "timer/agent.policy_frac": 0.034514342208266394, "timer/agent.policy_avg": 0.008288989639282226, "timer/agent.policy_min": 0.0061016082763671875, "timer/agent.policy_max": 0.016526460647583008, "timer/dataset_count": 625.0, "timer/dataset_total": 0.06534194946289062, "timer/dataset_frac": 0.00021766072850468607, "timer/dataset_avg": 0.000104547119140625, "timer/dataset_min": 7.534027099609375e-05, "timer/dataset_max": 0.0010769367218017578, "timer/agent.train_count": 625.0, "timer/agent.train_total": 271.00047516822815, "timer/agent.train_frac": 0.9027303491110621, "timer/agent.train_avg": 0.43360076026916505, "timer/agent.train_min": 0.3724954128265381, "timer/agent.train_max": 0.5296928882598877, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26783013343811035, "timer/agent.report_frac": 0.0008921696159793066, "timer/agent.report_avg": 0.26783013343811035, "timer/agent.report_min": 0.26783013343811035, "timer/agent.report_max": 0.26783013343811035, "fps": 4.163789736865052}
+{"step": 1160643, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0641025641025641}
+{"step": 1160873, "episode/length": 229.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06086956521739131}
+{"step": 1161161, "episode/length": 287.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04861111111111111}
+{"step": 1161408, "episode/length": 246.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048582995951417005}
+{"step": 1161463, "episode/length": 54.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.16363636363636364}
+{"step": 1161698, "episode/length": 234.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06382978723404255}
+{"step": 1161853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542482437626008, "train/action_min": 0.0, "train/action_std": 3.3962196380861345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03664020950635595, "train/actor_opt_grad_steps": 580065.0, "train/actor_opt_loss": -11.265601506156306, "train/adv_mag": 0.401322683980388, "train/adv_max": 0.33626405846688057, "train/adv_mean": 0.001973807007432022, "train/adv_min": -0.35400364355694863, "train/adv_std": 0.04165647911929315, "train/cont_avg": 0.9948651713709677, "train/cont_loss_mean": 2.229963705797071e-05, "train/cont_loss_std": 0.0006592146529070056, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005535861890651705, "train/cont_pos_acc": 0.9999841240144545, "train/cont_pos_loss": 2.078439147780845e-05, "train/cont_pred": 0.9948517170644575, "train/cont_rate": 0.9948651713709677, "train/dyn_loss_mean": 5.769585309490081, "train/dyn_loss_std": 8.966450045185704, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.86044204619623, "train/extr_critic_critic_opt_grad_steps": 580065.0, "train/extr_critic_critic_opt_loss": 15077.386372227822, "train/extr_critic_mag": 12.480228301017515, "train/extr_critic_max": 12.480228301017515, "train/extr_critic_mean": 3.8996678821502195, "train/extr_critic_min": -0.33998986790257113, "train/extr_critic_std": 2.9846392831494732, "train/extr_return_normed_mag": 1.3769813622197797, "train/extr_return_normed_max": 1.3769813622197797, "train/extr_return_normed_mean": 0.40772726506956164, "train/extr_return_normed_min": -0.07230861503030023, "train/extr_return_normed_std": 0.31387367772479213, "train/extr_return_rate": 0.8612515157268893, "train/extr_return_raw_mag": 13.221873652550482, "train/extr_return_raw_max": 13.221873652550482, "train/extr_return_raw_mean": 3.9185854927186043, "train/extr_return_raw_min": -0.6898592229812376, "train/extr_return_raw_std": 3.0132686938008955, "train/extr_reward_mag": 1.087179107050742, "train/extr_reward_max": 1.087179107050742, "train/extr_reward_mean": 0.06426983897484118, "train/extr_reward_min": -0.6177014285518277, "train/extr_reward_std": 0.24290323714094778, "train/image_loss_mean": 3.375187314325763, "train/image_loss_std": 8.819312649388467, "train/model_loss_mean": 6.9010882762170604, "train/model_loss_std": 12.98754132178522, "train/model_opt_grad_norm": 20.891541543554087, "train/model_opt_grad_steps": 579587.2741935484, "train/model_opt_loss": 18669.590851814515, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2661.2903225806454, "train/policy_entropy_mag": 2.697609786064394, "train/policy_entropy_max": 2.697609786064394, "train/policy_entropy_mean": 0.42645707678410316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6388454716051778, "train/policy_logprob_mag": 7.438384309891732, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4254696099988876, "train/policy_logprob_min": -7.438384309891732, "train/policy_logprob_std": 1.0453916615055454, "train/policy_randomness_mag": 0.952137872096031, "train/policy_randomness_max": 0.952137872096031, "train/policy_randomness_mean": 0.1505206323439075, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22548441733083419, "train/post_ent_mag": 55.68981318319997, "train/post_ent_max": 55.68981318319997, "train/post_ent_mean": 40.01315682934177, "train/post_ent_min": 20.032401084899902, "train/post_ent_std": 5.788720992303664, "train/prior_ent_mag": 76.7978023405998, "train/prior_ent_max": 76.7978023405998, "train/prior_ent_mean": 45.736714701498705, "train/prior_ent_min": 27.46365494881907, "train/prior_ent_std": 7.953622694938414, "train/rep_loss_mean": 5.769585309490081, "train/rep_loss_std": 8.966450045185704, "train/reward_avg": 0.05035754773885973, "train/reward_loss_mean": 0.06412758503950411, "train/reward_loss_std": 0.2256481195649793, "train/reward_max_data": 1.035483879427756, "train/reward_max_pred": 1.0339316437321324, "train/reward_neg_acc": 0.9931773351084802, "train/reward_neg_loss": 0.026079948405705152, "train/reward_pos_acc": 0.9915348810534323, "train/reward_pos_loss": 0.7190764575235306, "train/reward_pred": 0.0499653251421067, "train/reward_rate": 0.05486076108870968, "stats/sum_log_reward": 12.100000301996866, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.4318566769361496, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.7048639876119205e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3862385221698694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2620589733124, "timer/env.step_count": 1246.0, "timer/env.step_total": 18.000259399414062, "timer/env.step_frac": 0.059948497858711966, "timer/env.step_avg": 0.014446436115099569, "timer/env.step_min": 0.0031347274780273438, "timer/env.step_max": 1.767019510269165, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.2881901264190674, "timer/replay.add_frac": 0.0009597953447880741, "timer/replay.add_avg": 0.00023129223629138635, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004883289337158203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03171825408935547, "timer/logger.write_frac": 0.0001056352380910524, "timer/logger.write_avg": 0.03171825408935547, "timer/logger.write_min": 0.03171825408935547, "timer/logger.write_max": 0.03171825408935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 10.134387969970703, "timer/agent.policy_frac": 0.03375181001763349, "timer/agent.policy_avg": 0.0081335376966057, "timer/agent.policy_min": 0.006013154983520508, "timer/agent.policy_max": 0.0498957633972168, "timer/dataset_count": 623.0, "timer/dataset_total": 0.06219053268432617, "timer/dataset_frac": 0.0002071208493573067, "timer/dataset_avg": 9.982429002299546e-05, "timer/dataset_min": 7.390975952148438e-05, "timer/dataset_max": 0.00021219253540039062, "timer/agent.train_count": 623.0, "timer/agent.train_total": 271.0802707672119, "timer/agent.train_frac": 0.9028122690363148, "timer/agent.train_avg": 0.43512081985106243, "timer/agent.train_min": 0.3797488212585449, "timer/agent.train_max": 0.5154664516448975, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22934579849243164, "timer/agent.report_frac": 0.0007638187764269482, "timer/agent.report_avg": 0.22934579849243164, "timer/agent.report_min": 0.22934579849243164, "timer/agent.report_max": 0.22934579849243164, "fps": 4.149634908667677}
+{"step": 1162019, "episode/length": 320.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.04984423676012461}
+{"step": 1162239, "episode/length": 219.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.05909090909090909}
+{"step": 1162537, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04697986577181208}
+{"step": 1162732, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07179487179487179}
+{"step": 1162928, "episode/length": 195.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.07653061224489796}
+{"step": 1163093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363171977381552, "train/action_min": 0.0, "train/action_std": 3.2110838044074272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03721400861057543, "train/actor_opt_grad_steps": 580685.0, "train/actor_opt_loss": -10.471554331241116, "train/adv_mag": 0.42055941589416995, "train/adv_max": 0.33983579470265296, "train/adv_mean": 0.0015119074069961272, "train/adv_min": -0.37841422687615117, "train/adv_std": 0.04077316748519098, "train/cont_avg": 0.9954164566532258, "train/cont_loss_mean": 2.1126858467915377e-05, "train/cont_loss_std": 0.0005319091737457102, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024082538907151496, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.1791793037749511e-05, "train/cont_pred": 0.9954140551628605, "train/cont_rate": 0.9954164566532258, "train/dyn_loss_mean": 5.830063489175612, "train/dyn_loss_std": 8.95543106909721, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8620578800478289, "train/extr_critic_critic_opt_grad_steps": 580685.0, "train/extr_critic_critic_opt_loss": 15021.004567792339, "train/extr_critic_mag": 12.398633541599397, "train/extr_critic_max": 12.398633541599397, "train/extr_critic_mean": 3.8534800160315728, "train/extr_critic_min": -0.36842345806860155, "train/extr_critic_std": 2.976331910779399, "train/extr_return_normed_mag": 1.3539547574135564, "train/extr_return_normed_max": 1.3539547574135564, "train/extr_return_normed_mean": 0.4029730635304605, "train/extr_return_normed_min": -0.06609726781325956, "train/extr_return_normed_std": 0.30964652520994984, "train/extr_return_rate": 0.8495789670175121, "train/extr_return_raw_mag": 13.09375472222605, "train/extr_return_raw_max": 13.09375472222605, "train/extr_return_raw_mean": 3.8681660582942348, "train/extr_return_raw_min": -0.683332001009295, "train/extr_return_raw_std": 3.0043795224158996, "train/extr_reward_mag": 1.0839697507119948, "train/extr_reward_max": 1.0839697507119948, "train/extr_reward_mean": 0.06222219470768205, "train/extr_reward_min": -0.5882147742855933, "train/extr_reward_std": 0.2393060651037001, "train/image_loss_mean": 3.448207284173658, "train/image_loss_std": 8.777026114925262, "train/model_loss_mean": 7.009824414407054, "train/model_loss_std": 12.928072052617226, "train/model_opt_grad_norm": 20.19834707629296, "train/model_opt_grad_steps": 580206.9193548387, "train/model_opt_loss": 17760.671733240928, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2540.3225806451615, "train/policy_entropy_mag": 2.6815199736625916, "train/policy_entropy_max": 2.6815199736625916, "train/policy_entropy_mean": 0.4269417332064721, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6268702932903844, "train/policy_logprob_mag": 7.438384271437122, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4265585580179768, "train/policy_logprob_min": -7.438384271437122, "train/policy_logprob_std": 1.0467271266445037, "train/policy_randomness_mag": 0.9464588761329651, "train/policy_randomness_max": 0.9464588761329651, "train/policy_randomness_mean": 0.15069169635253568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22125770440024714, "train/post_ent_mag": 55.81678384350192, "train/post_ent_max": 55.81678384350192, "train/post_ent_mean": 40.16094355429372, "train/post_ent_min": 19.867644740689187, "train/post_ent_std": 5.897459053224133, "train/prior_ent_mag": 76.72223749468404, "train/prior_ent_max": 76.72223749468404, "train/prior_ent_mean": 46.005769237395256, "train/prior_ent_min": 27.951348335512222, "train/prior_ent_std": 7.935266810078775, "train/rep_loss_mean": 5.830063489175612, "train/rep_loss_std": 8.95543106909721, "train/reward_avg": 0.049401461236899896, "train/reward_loss_mean": 0.06355790998185834, "train/reward_loss_std": 0.2278771172127416, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0334024660048946, "train/reward_neg_acc": 0.99304624815141, "train/reward_neg_loss": 0.026335298294021238, "train/reward_pos_acc": 0.9904284054233182, "train/reward_pos_loss": 0.7231787375865444, "train/reward_pred": 0.048998432624484264, "train/reward_rate": 0.05358492943548387, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 14.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5312416166067123, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.705486174552671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3844620796941941e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.41435170173645, "timer/env.step_count": 1240.0, "timer/env.step_total": 18.717923164367676, "timer/env.step_frac": 0.06230702048133702, "timer/env.step_avg": 0.015095099326102965, "timer/env.step_min": 0.0032758712768554688, "timer/env.step_max": 2.568169355392456, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2719540596008301, "timer/replay.add_frac": 0.0009052632075009422, "timer/replay.add_avg": 0.00021931779000066942, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.000850677490234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03601837158203125, "timer/logger.write_frac": 0.00011989564206237307, "timer/logger.write_avg": 0.03601837158203125, "timer/logger.write_min": 0.03601837158203125, "timer/logger.write_max": 0.03601837158203125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017642974853515625, "timer/checkpoint.save_frac": 5.872880158213042e-07, "timer/checkpoint.save_avg": 0.00017642974853515625, "timer/checkpoint.save_min": 0.00017642974853515625, "timer/checkpoint.save_max": 0.00017642974853515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4493637084960938, "timer/agent.save_frac": 0.0048245488282633074, "timer/agent.save_avg": 1.4493637084960938, "timer/agent.save_min": 1.4493637084960938, "timer/agent.save_max": 1.4493637084960938, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.82012939453125e-05, "timer/replay.save_frac": 2.60311444850524e-07, "timer/replay.save_avg": 7.82012939453125e-05, "timer/replay.save_min": 7.82012939453125e-05, "timer/replay.save_max": 7.82012939453125e-05, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 11.394328355789185, "timer/agent.policy_frac": 0.037928708436346395, "timer/agent.policy_avg": 0.009188974480475148, "timer/agent.policy_min": 0.005949735641479492, "timer/agent.policy_max": 1.4366328716278076, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05989360809326172, "timer/dataset_frac": 0.00019936999598716416, "timer/dataset_avg": 9.660259369880923e-05, "timer/dataset_min": 7.43865966796875e-05, "timer/dataset_max": 0.00020551681518554688, "timer/agent.train_count": 620.0, "timer/agent.train_total": 269.25544476509094, "timer/agent.train_frac": 0.8962802317527715, "timer/agent.train_avg": 0.43428297542756605, "timer/agent.train_min": 0.37018918991088867, "timer/agent.train_max": 0.8641800880432129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2616894245147705, "timer/agent.report_frac": 0.0008710949494669495, "timer/agent.report_avg": 0.2616894245147705, "timer/agent.report_min": 0.2616894245147705, "timer/agent.report_max": 0.2616894245147705, "fps": 4.127553487930325}
+{"step": 1163249, "episode/length": 320.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.04672897196261682}
+{"step": 1163421, "episode/length": 171.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06976744186046512}
+{"step": 1163647, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.061946902654867256}
+{"step": 1163885, "episode/length": 237.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.06722689075630252}
+{"step": 1164133, "episode/length": 247.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.90000005811453, "episode/reward_rate": 0.06048387096774194}
+{"step": 1164298, "episode/length": 164.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.06060606060606061}
+{"step": 1164353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346231127542163, "train/action_min": 0.0, "train/action_std": 3.2021536864931623, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03747839941864922, "train/actor_opt_grad_steps": 581310.0, "train/actor_opt_loss": -11.331930932544527, "train/adv_mag": 0.37842924065060085, "train/adv_max": 0.31802143937065486, "train/adv_mean": 0.0017038827422694008, "train/adv_min": -0.3509896158699005, "train/adv_std": 0.04192253089849911, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 3.148583210761426e-05, "train/cont_loss_std": 0.0009803157410849797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00041080660140004456, "train/cont_pos_acc": 0.9999844337266589, "train/cont_pos_loss": 2.943522170663899e-05, "train/cont_pred": 0.9949937557417249, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.92294951090737, "train/dyn_loss_std": 9.051773722209628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.857675880666763, "train/extr_critic_critic_opt_grad_steps": 581310.0, "train/extr_critic_critic_opt_loss": 15345.158172123016, "train/extr_critic_mag": 12.58251388489254, "train/extr_critic_max": 12.58251388489254, "train/extr_critic_mean": 3.885676902437967, "train/extr_critic_min": -0.3517120641375345, "train/extr_critic_std": 2.9703009507012745, "train/extr_return_normed_mag": 1.3704111443625555, "train/extr_return_normed_max": 1.3704111443625555, "train/extr_return_normed_mean": 0.40274543847356525, "train/extr_return_normed_min": -0.07227897466648192, "train/extr_return_normed_std": 0.30818229842753636, "train/extr_return_rate": 0.8611896927394564, "train/extr_return_raw_mag": 13.305272874378023, "train/extr_return_raw_max": 13.305272874378023, "train/extr_return_raw_mean": 3.9022143341246105, "train/extr_return_raw_min": -0.7135317330322568, "train/extr_return_raw_std": 2.9945948918660483, "train/extr_reward_mag": 1.0810817196255638, "train/extr_reward_max": 1.0810817196255638, "train/extr_reward_mean": 0.06387539361677473, "train/extr_reward_min": -0.6179917956155444, "train/extr_reward_std": 0.24250182414811755, "train/image_loss_mean": 3.487461487452189, "train/image_loss_std": 8.991051257602752, "train/model_loss_mean": 7.10473688821944, "train/model_loss_std": 13.14118164304703, "train/model_opt_grad_norm": 21.369415767609127, "train/model_opt_grad_steps": 580830.253968254, "train/model_opt_loss": 11211.711883060516, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1567.4603174603174, "train/policy_entropy_mag": 2.685816382604932, "train/policy_entropy_max": 2.685816382604932, "train/policy_entropy_mean": 0.38708241118325126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5880487925476499, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38709044669355663, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.0152345687624007, "train/policy_randomness_mag": 0.9479753204754421, "train/policy_randomness_max": 0.9479753204754421, "train/policy_randomness_mean": 0.13662310583250864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20755541844973488, "train/post_ent_mag": 55.76714912293449, "train/post_ent_max": 55.76714912293449, "train/post_ent_mean": 39.98680096580868, "train/post_ent_min": 19.694412019517685, "train/post_ent_std": 5.84126451280382, "train/prior_ent_mag": 76.80269404820034, "train/prior_ent_max": 76.80269404820034, "train/prior_ent_mean": 45.852830372159445, "train/prior_ent_min": 27.47425681825668, "train/prior_ent_std": 7.926996109977601, "train/rep_loss_mean": 5.92294951090737, "train/rep_loss_std": 9.051773722209628, "train/reward_avg": 0.04898468490749124, "train/reward_loss_mean": 0.06347426062538511, "train/reward_loss_std": 0.23039595617188346, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0289663927895683, "train/reward_neg_acc": 0.9927919204272921, "train/reward_neg_loss": 0.025716575409566598, "train/reward_pos_acc": 0.9868008352461315, "train/reward_pos_loss": 0.7337017485073635, "train/reward_pred": 0.04841438503492446, "train/reward_rate": 0.053369915674603176, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.443742739657561, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.5615194411504837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.39735047779386e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02292251586914, "timer/env.step_count": 1260.0, "timer/env.step_total": 16.576576948165894, "timer/env.step_frac": 0.05525103485147575, "timer/env.step_avg": 0.013156013450925312, "timer/env.step_min": 0.0027887821197509766, "timer/env.step_max": 1.6376795768737793, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.29484033584594727, "timer/replay.add_frac": 0.0009827260309763573, "timer/replay.add_avg": 0.0002340002665444026, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0012118816375732422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024849653244018555, "timer/logger.write_frac": 8.282584889060995e-05, "timer/logger.write_avg": 0.024849653244018555, "timer/logger.write_min": 0.024849653244018555, "timer/logger.write_max": 0.024849653244018555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 10.228230237960815, "timer/agent.policy_frac": 0.03409149591701552, "timer/agent.policy_avg": 0.008117643046000647, "timer/agent.policy_min": 0.0057790279388427734, "timer/agent.policy_max": 0.016278505325317383, "timer/dataset_count": 630.0, "timer/dataset_total": 0.06088399887084961, "timer/dataset_frac": 0.00020293115726058986, "timer/dataset_avg": 9.664126804896764e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 630.0, "timer/agent.train_total": 272.19215154647827, "timer/agent.train_frac": 0.9072378512414537, "timer/agent.train_avg": 0.4320510342007592, "timer/agent.train_min": 0.3761768341064453, "timer/agent.train_max": 0.4563136100769043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23092174530029297, "timer/agent.report_frac": 0.0007696803409682098, "timer/agent.report_avg": 0.23092174530029297, "timer/agent.report_min": 0.23092174530029297, "timer/agent.report_max": 0.23092174530029297, "fps": 4.199593564744366}
+{"step": 1164515, "episode/length": 216.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.300000049173832, "episode/reward_rate": 0.07373271889400922}
+{"step": 1164765, "episode/length": 249.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.064}
+{"step": 1164966, "episode/length": 200.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07960199004975124}
+{"step": 1165153, "episode/length": 186.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06417112299465241}
+{"step": 1165332, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055865921787709494}
+{"step": 1165503, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07602339181286549}
+{"step": 1165617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398650638640873, "train/action_min": 0.0, "train/action_std": 3.259002685546875, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653492329139558, "train/actor_opt_grad_steps": 581940.0, "train/actor_opt_loss": -11.662259976778712, "train/adv_mag": 0.3535173164000587, "train/adv_max": 0.32167963754563106, "train/adv_mean": 0.0017539138169966116, "train/adv_min": -0.3078160529571866, "train/adv_std": 0.04117101490024536, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 1.672581677041988e-05, "train/cont_loss_std": 0.0005211591891774033, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.653373799929009e-05, "train/cont_pos_acc": 0.9999843419544281, "train/cont_pos_loss": 1.6730653378768272e-05, "train/cont_pred": 0.9952295157644484, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.8255026075575085, "train/dyn_loss_std": 8.911192333887493, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557110703180707, "train/extr_critic_critic_opt_grad_steps": 581940.0, "train/extr_critic_critic_opt_loss": 15292.175145709325, "train/extr_critic_mag": 12.499427038525779, "train/extr_critic_max": 12.499427038525779, "train/extr_critic_mean": 3.739738524906219, "train/extr_critic_min": -0.3456718240465437, "train/extr_critic_std": 2.963395799909319, "train/extr_return_normed_mag": 1.3795437528973533, "train/extr_return_normed_max": 1.3795437528973533, "train/extr_return_normed_mean": 0.39048191053526743, "train/extr_return_normed_min": -0.06948907383614117, "train/extr_return_normed_std": 0.3097435160288735, "train/extr_return_rate": 0.8496218229097033, "train/extr_return_raw_mag": 13.307491469004798, "train/extr_return_raw_max": 13.307491469004798, "train/extr_return_raw_mean": 3.756678808303106, "train/extr_return_raw_min": -0.6856354281069741, "train/extr_return_raw_std": 2.9912753483605763, "train/extr_reward_mag": 1.078792969385783, "train/extr_reward_max": 1.078792969385783, "train/extr_reward_mean": 0.0625875327913534, "train/extr_reward_min": -0.5877278362001691, "train/extr_reward_std": 0.24007381356897808, "train/image_loss_mean": 3.4834045834011502, "train/image_loss_std": 8.394203973194909, "train/model_loss_mean": 7.041738373892648, "train/model_loss_std": 12.504134041922432, "train/model_opt_grad_norm": 20.31057740771581, "train/model_opt_grad_steps": 581460.0, "train/model_opt_loss": 10185.853996155754, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1448.4126984126983, "train/policy_entropy_mag": 2.7027397723425004, "train/policy_entropy_max": 2.7027397723425004, "train/policy_entropy_mean": 0.40881218465547714, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6110789208185106, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40876346613679615, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0335744780207436, "train/policy_randomness_mag": 0.9539485308859084, "train/policy_randomness_max": 0.9539485308859084, "train/policy_randomness_mean": 0.144292760462988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21568404280004047, "train/post_ent_mag": 55.57676630171518, "train/post_ent_max": 55.57676630171518, "train/post_ent_mean": 40.01261260017516, "train/post_ent_min": 19.36801734803215, "train/post_ent_std": 5.840000531030079, "train/prior_ent_mag": 76.73846762520927, "train/prior_ent_max": 76.73846762520927, "train/prior_ent_mean": 45.81828326270694, "train/prior_ent_min": 27.620453032236252, "train/prior_ent_std": 7.921159146324037, "train/rep_loss_mean": 5.8255026075575085, "train/rep_loss_std": 8.911192333887493, "train/reward_avg": 0.048914930058850184, "train/reward_loss_mean": 0.06301561092573499, "train/reward_loss_std": 0.2252171921824652, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0322445914858864, "train/reward_neg_acc": 0.9931090341673957, "train/reward_neg_loss": 0.025815007010740892, "train/reward_pos_acc": 0.9891036105534387, "train/reward_pos_loss": 0.7235801333472842, "train/reward_pred": 0.04848379032715919, "train/reward_rate": 0.053230406746031744, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3199009299278259, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.5717517514772055e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.400591263288184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2172577381134, "timer/env.step_count": 1264.0, "timer/env.step_total": 16.49334955215454, "timer/env.step_frac": 0.054938046121725884, "timer/env.step_avg": 0.013048536038096947, "timer/env.step_min": 0.0025370121002197266, "timer/env.step_max": 1.6277203559875488, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.27739596366882324, "timer/replay.add_frac": 0.0009239840699324563, "timer/replay.add_avg": 0.0002194588320164741, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0009491443634033203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03144335746765137, "timer/logger.write_frac": 0.00010473534301309271, "timer/logger.write_avg": 0.03144335746765137, "timer/logger.write_min": 0.03144335746765137, "timer/logger.write_max": 0.03144335746765137, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 9.966626644134521, "timer/agent.policy_frac": 0.03319804703841724, "timer/agent.policy_avg": 0.007884989433650728, "timer/agent.policy_min": 0.005980253219604492, "timer/agent.policy_max": 0.01911330223083496, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05984091758728027, "timer/dataset_frac": 0.00019932537535693873, "timer/dataset_avg": 9.468499618240549e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.70604038238525, "timer/agent.train_frac": 0.9083623054750343, "timer/agent.train_avg": 0.4314968993392172, "timer/agent.train_min": 0.36383652687072754, "timer/agent.train_max": 0.4606144428253174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2672419548034668, "timer/agent.report_frac": 0.0008901618674985975, "timer/agent.report_avg": 0.2672419548034668, "timer/agent.report_min": 0.2672419548034668, "timer/agent.report_max": 0.2672419548034668, "fps": 4.21021181235031}
+{"step": 1165716, "episode/length": 212.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06103286384976526}
+{"step": 1166186, "episode/length": 469.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.300000071525574, "episode/reward_rate": 0.03404255319148936}
+{"step": 1166367, "episode/length": 180.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0718232044198895}
+{"step": 1166571, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07352941176470588}
+{"step": 1166749, "episode/length": 177.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08426966292134831}
+{"step": 1166857, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395440870715726, "train/action_min": 0.0, "train/action_std": 3.2643791552512877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03524284698669949, "train/actor_opt_grad_steps": 582565.0, "train/actor_opt_loss": -11.714912092974108, "train/adv_mag": 0.3647227320940264, "train/adv_max": 0.31915494126658284, "train/adv_mean": 0.0015145675985672091, "train/adv_min": -0.32227622573414155, "train/adv_std": 0.04084954332680472, "train/cont_avg": 0.9951644405241935, "train/cont_loss_mean": 0.00013636853146058842, "train/cont_loss_std": 0.004319827236749522, "train/cont_neg_acc": 0.9913978509364589, "train/cont_neg_loss": 0.02180853117128308, "train/cont_pos_acc": 0.9999999894249824, "train/cont_pos_loss": 1.5423705525609334e-05, "train/cont_pred": 0.9951935631613578, "train/cont_rate": 0.9951644405241935, "train/dyn_loss_mean": 5.680835969986454, "train/dyn_loss_std": 8.924564569227156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8753918534325015, "train/extr_critic_critic_opt_grad_steps": 582565.0, "train/extr_critic_critic_opt_loss": 15026.260364163307, "train/extr_critic_mag": 12.47537789806243, "train/extr_critic_max": 12.47537789806243, "train/extr_critic_mean": 3.819334780016253, "train/extr_critic_min": -0.3109910718856319, "train/extr_critic_std": 2.964344793750394, "train/extr_return_normed_mag": 1.3761544727510022, "train/extr_return_normed_max": 1.3761544727510022, "train/extr_return_normed_mean": 0.3988798364035545, "train/extr_return_normed_min": -0.07589238167049424, "train/extr_return_normed_std": 0.31116051731571076, "train/extr_return_rate": 0.8568496300328162, "train/extr_return_raw_mag": 13.218993125423308, "train/extr_return_raw_max": 13.218993125423308, "train/extr_return_raw_mean": 3.83387965156186, "train/extr_return_raw_min": -0.7258190488623034, "train/extr_return_raw_std": 2.9883589167748728, "train/extr_reward_mag": 1.086641707727986, "train/extr_reward_max": 1.086641707727986, "train/extr_reward_mean": 0.06201470096505458, "train/extr_reward_min": -0.6174875382454165, "train/extr_reward_std": 0.2390601735922598, "train/image_loss_mean": 3.311588029707632, "train/image_loss_std": 8.57436014759925, "train/model_loss_mean": 6.782111644744873, "train/model_loss_std": 12.704152076475081, "train/model_opt_grad_norm": 20.524146772200062, "train/model_opt_grad_steps": 582085.0, "train/model_opt_loss": 16955.279092111894, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.695467548985635, "train/policy_entropy_max": 2.695467548985635, "train/policy_entropy_mean": 0.42652643207580815, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6299617651008791, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4259954150165281, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0472882534227064, "train/policy_randomness_mag": 0.951381758336098, "train/policy_randomness_max": 0.951381758336098, "train/policy_randomness_mean": 0.1505451147114077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22234885719033978, "train/post_ent_mag": 55.93613489212528, "train/post_ent_max": 55.93613489212528, "train/post_ent_mean": 39.98958206176758, "train/post_ent_min": 19.6622119257527, "train/post_ent_std": 5.801661752885388, "train/prior_ent_mag": 76.7541623269358, "train/prior_ent_max": 76.7541623269358, "train/prior_ent_mean": 45.66224528897193, "train/prior_ent_min": 27.55817327191753, "train/prior_ent_std": 7.952379488175915, "train/rep_loss_mean": 5.680835969986454, "train/rep_loss_std": 8.924564569227156, "train/reward_avg": 0.047615297198776274, "train/reward_loss_mean": 0.06188562272056457, "train/reward_loss_std": 0.22639858338140673, "train/reward_max_data": 1.035483879427756, "train/reward_max_pred": 1.0356709572576708, "train/reward_neg_acc": 0.9926690853411152, "train/reward_neg_loss": 0.025607899988010045, "train/reward_pos_acc": 0.9876942336559296, "train/reward_pos_loss": 0.7264946545324018, "train/reward_pred": 0.04733414848845813, "train/reward_rate": 0.05171055947580645, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.45794463753700254, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.649534717682869e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3876345849806263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0536935329437, "timer/env.step_count": 1240.0, "timer/env.step_total": 16.241801023483276, "timer/env.step_frac": 0.054129648704691065, "timer/env.step_avg": 0.013098226631841351, "timer/env.step_min": 0.003196239471435547, "timer/env.step_max": 1.7377593517303467, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2559316158294678, "timer/replay.add_frac": 0.0008529527259472589, "timer/replay.add_avg": 0.00020639646437860306, "timer/replay.add_min": 9.036064147949219e-05, "timer/replay.add_max": 0.0010867118835449219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03713369369506836, "timer/logger.write_frac": 0.00012375682917894608, "timer/logger.write_avg": 0.03713369369506836, "timer/logger.write_min": 0.03713369369506836, "timer/logger.write_max": 0.03713369369506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029587745666503906, "timer/checkpoint.save_frac": 9.860817015157118e-07, "timer/checkpoint.save_avg": 0.00029587745666503906, "timer/checkpoint.save_min": 0.00029587745666503906, "timer/checkpoint.save_max": 0.00029587745666503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5373141765594482, "timer/agent.save_frac": 0.005123463598993032, "timer/agent.save_avg": 1.5373141765594482, "timer/agent.save_min": 1.5373141765594482, "timer/agent.save_max": 1.5373141765594482, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3519756941873543e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 14.45495867729187, "timer/agent.policy_frac": 0.04817457338082999, "timer/agent.policy_avg": 0.011657224739751507, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 3.080325126647949, "timer/dataset_count": 620.0, "timer/dataset_total": 0.059583425521850586, "timer/dataset_frac": 0.00019857587760474863, "timer/dataset_avg": 9.610229922879126e-05, "timer/dataset_min": 7.414817810058594e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 620.0, "timer/agent.train_total": 268.3279356956482, "timer/agent.train_frac": 0.8942663979111716, "timer/agent.train_avg": 0.43278699305749707, "timer/agent.train_min": 0.3807103633880615, "timer/agent.train_max": 0.5105545520782471, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2617645263671875, "timer/agent.report_frac": 0.0008723922818115473, "timer/agent.report_avg": 0.2617645263671875, "timer/agent.report_min": 0.2617645263671875, "timer/agent.report_max": 0.2617645263671875, "fps": 4.132516644069448}
+{"step": 1166942, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
+{"step": 1167197, "episode/length": 254.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06274509803921569}
+{"step": 1167439, "episode/length": 241.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.05785123966942149}
+{"step": 1167598, "episode/length": 158.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.050314465408805034}
+{"step": 1167949, "episode/length": 350.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.042735042735042736}
+{"step": 1167988, "episode/length": 38.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.1794871794871795}
+{"step": 1168119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466115951538086, "train/action_min": 0.0, "train/action_std": 3.287844978272915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036692069115815684, "train/actor_opt_grad_steps": 583195.0, "train/actor_opt_loss": -11.231865194626153, "train/adv_mag": 0.3995716548524797, "train/adv_max": 0.31975572905503213, "train/adv_mean": 0.0018169134062873127, "train/adv_min": -0.3586451711598784, "train/adv_std": 0.04110230371588841, "train/cont_avg": 0.995208740234375, "train/cont_loss_mean": 2.176983384560849e-05, "train/cont_loss_std": 0.0006361847979690083, "train/cont_neg_acc": 0.9947916669771075, "train/cont_neg_loss": 0.004190737014142118, "train/cont_pos_acc": 0.9999999841675162, "train/cont_pos_loss": 8.276491711312062e-06, "train/cont_pred": 0.9952112967148423, "train/cont_rate": 0.995208740234375, "train/dyn_loss_mean": 5.913948215544224, "train/dyn_loss_std": 8.969238810241222, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8760249959304929, "train/extr_critic_critic_opt_grad_steps": 583195.0, "train/extr_critic_critic_opt_loss": 15400.038558959961, "train/extr_critic_mag": 12.4748525172472, "train/extr_critic_max": 12.4748525172472, "train/extr_critic_mean": 3.719779673963785, "train/extr_critic_min": -0.34623635560274124, "train/extr_critic_std": 2.9555284939706326, "train/extr_return_normed_mag": 1.3739938326179981, "train/extr_return_normed_max": 1.3739938326179981, "train/extr_return_normed_mean": 0.3883739816956222, "train/extr_return_normed_min": -0.07469024002784863, "train/extr_return_normed_std": 0.31071558385156095, "train/extr_return_rate": 0.8533020466566086, "train/extr_return_raw_mag": 13.192690178751945, "train/extr_return_raw_max": 13.192690178751945, "train/extr_return_raw_mean": 3.737212184816599, "train/extr_return_raw_min": -0.7047876077704132, "train/extr_return_raw_std": 2.980808675289154, "train/extr_reward_mag": 1.0838965736329556, "train/extr_reward_max": 1.0838965736329556, "train/extr_reward_mean": 0.06356200255686417, "train/extr_reward_min": -0.5995106063783169, "train/extr_reward_std": 0.24144940450787544, "train/image_loss_mean": 3.5525734275579453, "train/image_loss_std": 8.793465211987495, "train/model_loss_mean": 7.165125548839569, "train/model_loss_std": 12.940593183040619, "train/model_opt_grad_norm": 22.19899721443653, "train/model_opt_grad_steps": 582714.015625, "train/model_opt_loss": 10225.430923461914, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1406.25, "train/policy_entropy_mag": 2.6895742043852806, "train/policy_entropy_max": 2.6895742043852806, "train/policy_entropy_mean": 0.3983301112893969, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5947948037646711, "train/policy_logprob_mag": 7.438384287059307, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39704415132291615, "train/policy_logprob_min": -7.438384287059307, "train/policy_logprob_std": 1.0207321336492896, "train/policy_randomness_mag": 0.9493016637861729, "train/policy_randomness_max": 0.9493016637861729, "train/policy_randomness_mean": 0.14059305074624717, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20993646327406168, "train/post_ent_mag": 56.11696529388428, "train/post_ent_max": 56.11696529388428, "train/post_ent_mean": 40.250883638858795, "train/post_ent_min": 19.305329620838165, "train/post_ent_std": 5.995522357523441, "train/prior_ent_mag": 76.79025399684906, "train/prior_ent_max": 76.79025399684906, "train/prior_ent_mean": 46.127483665943146, "train/prior_ent_min": 27.431876629590988, "train/prior_ent_std": 8.056350752711296, "train/rep_loss_mean": 5.913948215544224, "train/rep_loss_std": 8.969238810241222, "train/reward_avg": 0.04784698411822319, "train/reward_loss_mean": 0.06416146183619276, "train/reward_loss_std": 0.22937604901380837, "train/reward_max_data": 1.0453125108033419, "train/reward_max_pred": 1.0458361469209194, "train/reward_neg_acc": 0.9921307489275932, "train/reward_neg_loss": 0.027572816383326426, "train/reward_pos_acc": 0.9882179638370872, "train/reward_pos_loss": 0.7301315274089575, "train/reward_pred": 0.04743625351693481, "train/reward_rate": 0.0521392822265625, "stats/sum_log_reward": 11.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4627586404482524, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.583268771647651e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4365805687881688e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0316753387451, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.438401699066162, "timer/env.step_frac": 0.05812186889726781, "timer/env.step_avg": 0.013818067907342442, "timer/env.step_min": 0.0033164024353027344, "timer/env.step_max": 1.7479727268218994, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2727396488189697, "timer/replay.add_frac": 0.0009090361826331775, "timer/replay.add_avg": 0.00021611699589458775, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0010921955108642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022504568099975586, "timer/logger.write_frac": 7.50073073936851e-05, "timer/logger.write_avg": 0.022504568099975586, "timer/logger.write_min": 0.022504568099975586, "timer/logger.write_max": 0.022504568099975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 10.17252230644226, "timer/agent.policy_frac": 0.03390482786511513, "timer/agent.policy_avg": 0.008060635742030317, "timer/agent.policy_min": 0.005984067916870117, "timer/agent.policy_max": 0.014396190643310547, "timer/dataset_count": 631.0, "timer/dataset_total": 0.060799598693847656, "timer/dataset_frac": 0.00020264393292875833, "timer/dataset_avg": 9.635435609167616e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.00024080276489257812, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.4114570617676, "timer/agent.train_frac": 0.9046093441811954, "timer/agent.train_avg": 0.4301290920154795, "timer/agent.train_min": 0.37030482292175293, "timer/agent.train_max": 0.4604027271270752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2281649112701416, "timer/agent.report_frac": 0.0007604694104798645, "timer/agent.report_avg": 0.2281649112701416, "timer/agent.report_min": 0.2281649112701416, "timer/agent.report_max": 0.2281649112701416, "fps": 4.206136491872236}
+{"step": 1168195, "episode/length": 206.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06280193236714976}
+{"step": 1168480, "episode/length": 284.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.05964912280701754}
+{"step": 1168611, "episode/length": 130.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0916030534351145}
+{"step": 1168918, "episode/length": 306.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.048859934853420196}
+{"step": 1169125, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06280193236714976}
+{"step": 1169375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.417821084299395, "train/action_min": 0.0, "train/action_std": 3.2947199767635715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03728880862435026, "train/actor_opt_grad_steps": 583825.0, "train/actor_opt_loss": -11.216109412331734, "train/adv_mag": 0.39122035690853674, "train/adv_max": 0.3280783711421874, "train/adv_mean": 0.001982434126060276, "train/adv_min": -0.35124065847166125, "train/adv_std": 0.04197910788559144, "train/cont_avg": 0.9949439264112904, "train/cont_loss_mean": 0.00017055263320100362, "train/cont_loss_std": 0.005378765502923083, "train/cont_neg_acc": 0.9923195098676989, "train/cont_neg_loss": 0.03368220067437366, "train/cont_pos_acc": 0.9999841230530893, "train/cont_pos_loss": 3.678040597776544e-05, "train/cont_pred": 0.9949567173757861, "train/cont_rate": 0.9949439264112904, "train/dyn_loss_mean": 5.6549812439949285, "train/dyn_loss_std": 8.819530340933031, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9116787458619764, "train/extr_critic_critic_opt_grad_steps": 583825.0, "train/extr_critic_critic_opt_loss": 15270.556420110886, "train/extr_critic_mag": 12.51176954084827, "train/extr_critic_max": 12.51176954084827, "train/extr_critic_mean": 3.8621021316897486, "train/extr_critic_min": -0.34661718337766584, "train/extr_critic_std": 3.0277913424276535, "train/extr_return_normed_mag": 1.3792506667875475, "train/extr_return_normed_max": 1.3792506667875475, "train/extr_return_normed_mean": 0.4017412119334744, "train/extr_return_normed_min": -0.06843959194638076, "train/extr_return_normed_std": 0.31710002643446766, "train/extr_return_rate": 0.8516885570941433, "train/extr_return_raw_mag": 13.302502755195864, "train/extr_return_raw_max": 13.302502755195864, "train/extr_return_raw_mean": 3.881221313630381, "train/extr_return_raw_min": -0.651507797020097, "train/extr_return_raw_std": 3.056738342008283, "train/extr_reward_mag": 1.084167484314211, "train/extr_reward_max": 1.084167484314211, "train/extr_reward_mean": 0.06442669021987146, "train/extr_reward_min": -0.5936137168638168, "train/extr_reward_std": 0.24353111222867044, "train/image_loss_mean": 3.333814705571821, "train/image_loss_std": 8.423385058679889, "train/model_loss_mean": 6.7894439697265625, "train/model_loss_std": 12.48280857455346, "train/model_opt_grad_norm": 21.415506639788227, "train/model_opt_grad_steps": 583343.0, "train/model_opt_loss": 4243.402473695816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.681165164516818, "train/policy_entropy_max": 2.681165164516818, "train/policy_entropy_mean": 0.4019917441952613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6088435625837695, "train/policy_logprob_mag": 7.438384317582654, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4023854501785771, "train/policy_logprob_min": -7.438384317582654, "train/policy_logprob_std": 1.0296560179802678, "train/policy_randomness_mag": 0.946333642928831, "train/policy_randomness_max": 0.946333642928831, "train/policy_randomness_mean": 0.1418854439210507, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21489505710140352, "train/post_ent_mag": 56.81913369701755, "train/post_ent_max": 56.81913369701755, "train/post_ent_mean": 40.3185055640436, "train/post_ent_min": 19.79531401972617, "train/post_ent_std": 5.994234692665838, "train/prior_ent_mag": 76.81307466568485, "train/prior_ent_max": 76.81307466568485, "train/prior_ent_mean": 45.98066957535282, "train/prior_ent_min": 27.583682275587513, "train/prior_ent_std": 8.012936030664752, "train/rep_loss_mean": 5.6549812439949285, "train/rep_loss_std": 8.819530340933031, "train/reward_avg": 0.049102192263930075, "train/reward_loss_mean": 0.06247004301797959, "train/reward_loss_std": 0.2179644473137394, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0308510680352487, "train/reward_neg_acc": 0.993342513038266, "train/reward_neg_loss": 0.02553875014306076, "train/reward_pos_acc": 0.9915852585146504, "train/reward_pos_loss": 0.7157533620634386, "train/reward_pred": 0.04879858831484472, "train/reward_rate": 0.05360068044354839, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.2, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.39322527647018435, "replay/size": 1000000.0, "replay/inserts": 1256.0, "replay/samples": 10048.0, "replay/insert_wait_avg": 3.7120026387986104e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4185051249850328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32603454589844, "timer/env.step_count": 1256.0, "timer/env.step_total": 16.068732738494873, "timer/env.step_frac": 0.05350429496660607, "timer/env.step_avg": 0.012793577021094644, "timer/env.step_min": 0.0030274391174316406, "timer/env.step_max": 1.761091947555542, "timer/replay.add_count": 1256.0, "timer/replay.add_total": 0.28206515312194824, "timer/replay.add_frac": 0.0009391964754185858, "timer/replay.add_avg": 0.00022457416649836643, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.000701904296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02362513542175293, "timer/logger.write_frac": 7.8664959757734e-05, "timer/logger.write_avg": 0.02362513542175293, "timer/logger.write_min": 0.02362513542175293, "timer/logger.write_max": 0.02362513542175293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1256.0, "timer/agent.policy_total": 9.936442136764526, "timer/agent.policy_frac": 0.03308551705079019, "timer/agent.policy_avg": 0.007911180045194687, "timer/agent.policy_min": 0.0059719085693359375, "timer/agent.policy_max": 0.01491236686706543, "timer/dataset_count": 628.0, "timer/dataset_total": 0.05928468704223633, "timer/dataset_frac": 0.00019740109155663601, "timer/dataset_avg": 9.44023679016502e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00024962425231933594, "timer/agent.train_count": 628.0, "timer/agent.train_total": 273.2819323539734, "timer/agent.train_frac": 0.9099508564656524, "timer/agent.train_avg": 0.4351623126655627, "timer/agent.train_min": 0.3691098690032959, "timer/agent.train_max": 0.4572625160217285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26053595542907715, "timer/agent.report_frac": 0.0008675103902431069, "timer/agent.report_avg": 0.26053595542907715, "timer/agent.report_min": 0.26053595542907715, "timer/agent.report_max": 0.26053595542907715, "fps": 4.182052152134145}
+{"step": 1169446, "episode/length": 320.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.100000023841858, "episode/reward_rate": 0.04672897196261682}
+{"step": 1169629, "episode/length": 182.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.08743169398907104}
+{"step": 1169863, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.0641025641025641}
+{"step": 1169994, "episode/length": 130.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.08396946564885496}
+{"step": 1170168, "episode/length": 173.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.05172413793103448}
+{"step": 1170531, "episode/length": 362.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.0440771349862259}
+{"step": 1170617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.358776461693548, "train/action_min": 0.0, "train/action_std": 3.264305033991414, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036387500293072195, "train/actor_opt_grad_steps": 584445.0, "train/actor_opt_loss": -8.868039104727007, "train/adv_mag": 0.40117501539568745, "train/adv_max": 0.3167743430502953, "train/adv_mean": 0.001941957563347739, "train/adv_min": -0.3688016591533538, "train/adv_std": 0.04071213845764437, "train/cont_avg": 0.9947076612903226, "train/cont_loss_mean": 3.0340961158099014e-05, "train/cont_loss_std": 0.0009174563284590836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0029614244123027413, "train/cont_pos_acc": 0.999984166314525, "train/cont_pos_loss": 1.5860539314822348e-05, "train/cont_pred": 0.9947075103559802, "train/cont_rate": 0.9947076612903226, "train/dyn_loss_mean": 6.033795495187083, "train/dyn_loss_std": 8.899009243134529, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8676423209328805, "train/extr_critic_critic_opt_grad_steps": 584445.0, "train/extr_critic_critic_opt_loss": 15095.200825352822, "train/extr_critic_mag": 12.525153252386279, "train/extr_critic_max": 12.525153252386279, "train/extr_critic_mean": 3.7974652244198706, "train/extr_critic_min": -0.36056761587819747, "train/extr_critic_std": 3.014703039200075, "train/extr_return_normed_mag": 1.3821681026489503, "train/extr_return_normed_max": 1.3821681026489503, "train/extr_return_normed_mean": 0.3944850818764779, "train/extr_return_normed_min": -0.07305121223532385, "train/extr_return_normed_std": 0.3155149019533588, "train/extr_return_rate": 0.8545573382608352, "train/extr_return_raw_mag": 13.33852658733245, "train/extr_return_raw_max": 13.33852658733245, "train/extr_return_raw_mean": 3.816185382104689, "train/extr_return_raw_min": -0.6916744978197159, "train/extr_return_raw_std": 3.0422143205519645, "train/extr_reward_mag": 1.0797571059196227, "train/extr_reward_max": 1.0797571059196227, "train/extr_reward_mean": 0.06151883123863128, "train/extr_reward_min": -0.5877422152027008, "train/extr_reward_std": 0.23844609914287443, "train/image_loss_mean": 3.482022541184579, "train/image_loss_std": 8.436789304979387, "train/model_loss_mean": 7.165531866012081, "train/model_loss_std": 12.513927152079921, "train/model_opt_grad_norm": 22.36015821272327, "train/model_opt_grad_steps": 583963.0, "train/model_opt_loss": 7138.872991746472, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1008.0645161290323, "train/policy_entropy_mag": 2.7015564633953955, "train/policy_entropy_max": 2.7015564633953955, "train/policy_entropy_mean": 0.4310275268170141, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6367135494947433, "train/policy_logprob_mag": 7.438384325273575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43134852330530843, "train/policy_logprob_min": -7.438384325273575, "train/policy_logprob_std": 1.051055654402702, "train/policy_randomness_mag": 0.953530877828598, "train/policy_randomness_max": 0.953530877828598, "train/policy_randomness_mean": 0.15213380129106582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2247319396945738, "train/post_ent_mag": 55.381048387096776, "train/post_ent_max": 55.381048387096776, "train/post_ent_mean": 40.19354986375378, "train/post_ent_min": 19.440209034950502, "train/post_ent_std": 5.968942903703259, "train/prior_ent_mag": 76.6475086827432, "train/prior_ent_max": 76.6475086827432, "train/prior_ent_mean": 46.14834422449912, "train/prior_ent_min": 27.824023400583574, "train/prior_ent_std": 7.866040875834804, "train/rep_loss_mean": 6.033795495187083, "train/rep_loss_std": 8.899009243134529, "train/reward_avg": 0.04877929632822352, "train/reward_loss_mean": 0.06320179295876334, "train/reward_loss_std": 0.222197734059826, "train/reward_max_data": 1.0370967830381086, "train/reward_max_pred": 1.0360190137740104, "train/reward_neg_acc": 0.9930179686315598, "train/reward_neg_loss": 0.026187579853520278, "train/reward_pos_acc": 0.9895540745027603, "train/reward_pos_loss": 0.7220544517040253, "train/reward_pred": 0.048364366344626875, "train/reward_rate": 0.053317162298387094, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5499882151683172, "replay/size": 1000000.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.5225289263395106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4542189581190714e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12970876693726, "timer/env.step_count": 1242.0, "timer/env.step_total": 18.89170789718628, "timer/env.step_frac": 0.06294514453368043, "timer/env.step_avg": 0.015210714893064636, "timer/env.step_min": 0.0026962757110595703, "timer/env.step_max": 1.8465876579284668, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.2587575912475586, "timer/replay.add_frac": 0.0008621525416815509, "timer/replay.add_avg": 0.00020833944544891995, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0005517005920410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03646039962768555, "timer/logger.write_frac": 0.00012148214109653006, "timer/logger.write_avg": 0.03646039962768555, "timer/logger.write_min": 0.03646039962768555, "timer/logger.write_max": 0.03646039962768555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002434253692626953, "timer/checkpoint.save_frac": 8.110672224445627e-07, "timer/checkpoint.save_avg": 0.0002434253692626953, "timer/checkpoint.save_min": 0.0002434253692626953, "timer/checkpoint.save_max": 0.0002434253692626953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1921319961547852, "timer/agent.save_frac": 0.003972055952250043, "timer/agent.save_avg": 1.1921319961547852, "timer/agent.save_min": 1.1921319961547852, "timer/agent.save_max": 1.1921319961547852, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.940696716308594e-05, "timer/replay.save_frac": 2.9789442548159746e-07, "timer/replay.save_avg": 8.940696716308594e-05, "timer/replay.save_min": 8.940696716308594e-05, "timer/replay.save_max": 8.940696716308594e-05, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 11.873240232467651, "timer/agent.policy_frac": 0.039560363021868314, "timer/agent.policy_avg": 0.009559774744337883, "timer/agent.policy_min": 0.00600433349609375, "timer/agent.policy_max": 1.1865415573120117, "timer/dataset_count": 621.0, "timer/dataset_total": 0.05620765686035156, "timer/dataset_frac": 0.00018727788425636685, "timer/dataset_avg": 9.051152473486564e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.33605456352234, "timer/agent.train_frac": 0.8940669541378059, "timer/agent.train_avg": 0.43210314744528555, "timer/agent.train_min": 0.37770843505859375, "timer/agent.train_max": 0.9114789962768555, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2647271156311035, "timer/agent.report_frac": 0.0008820423566821061, "timer/agent.report_avg": 0.2647271156311035, "timer/agent.report_min": 0.2647271156311035, "timer/agent.report_max": 0.2647271156311035, "fps": 4.138127184260785}
+{"step": 1170750, "episode/length": 218.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0730593607305936}
+{"step": 1171097, "episode/length": 346.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.043227665706051875}
+{"step": 1171283, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
+{"step": 1171423, "episode/length": 139.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08571428571428572}
+{"step": 1171640, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.055299539170506916}
+{"step": 1171849, "episode/length": 208.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.07177033492822966}
+{"step": 1171875, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392249697730655, "train/action_min": 0.0, "train/action_std": 3.269007614680699, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036356404867200626, "train/actor_opt_grad_steps": 585070.0, "train/actor_opt_loss": -11.098796727165343, "train/adv_mag": 0.38558976872572825, "train/adv_max": 0.31794371775218416, "train/adv_mean": 0.0016230544303638568, "train/adv_min": -0.34389006074458833, "train/adv_std": 0.04085888252371833, "train/cont_avg": 0.9953652033730159, "train/cont_loss_mean": 4.092742083045438e-06, "train/cont_loss_std": 0.0001132570625607456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.608222220601833e-05, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 3.885253333477421e-06, "train/cont_pred": 0.9953616989983453, "train/cont_rate": 0.9953652033730159, "train/dyn_loss_mean": 5.9017836101471435, "train/dyn_loss_std": 8.917173279656303, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8736783540438092, "train/extr_critic_critic_opt_grad_steps": 585070.0, "train/extr_critic_critic_opt_loss": 15086.62763516865, "train/extr_critic_mag": 12.569200561160134, "train/extr_critic_max": 12.569200561160134, "train/extr_critic_mean": 3.822412574102008, "train/extr_critic_min": -0.3011069449167403, "train/extr_critic_std": 2.9536093681577653, "train/extr_return_normed_mag": 1.3819560436975389, "train/extr_return_normed_max": 1.3819560436975389, "train/extr_return_normed_mean": 0.3982810519990467, "train/extr_return_normed_min": -0.06705713975760672, "train/extr_return_normed_std": 0.31109747385221814, "train/extr_return_rate": 0.8671679080478729, "train/extr_return_raw_mag": 13.260670495411706, "train/extr_return_raw_max": 13.260670495411706, "train/extr_return_raw_mean": 3.837962404129997, "train/extr_return_raw_min": -0.6199751335477072, "train/extr_return_raw_std": 2.9802374915471153, "train/extr_reward_mag": 1.0893392146579803, "train/extr_reward_max": 1.0893392146579803, "train/extr_reward_mean": 0.06221663602997386, "train/extr_reward_min": -0.5956445932388306, "train/extr_reward_std": 0.2391498140872471, "train/image_loss_mean": 3.4435125967812916, "train/image_loss_std": 8.596996837192112, "train/model_loss_mean": 7.046803822593083, "train/model_loss_std": 12.69757316226051, "train/model_opt_grad_norm": 19.6037415095738, "train/model_opt_grad_steps": 584588.0, "train/model_opt_loss": 8808.504813058036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.702155154848856, "train/policy_entropy_max": 2.702155154848856, "train/policy_entropy_mean": 0.416863585275317, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6239494634053063, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41815407597829424, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.043484836343735, "train/policy_randomness_mag": 0.9537421890667507, "train/policy_randomness_max": 0.9537421890667507, "train/policy_randomness_mean": 0.14713455334542289, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22022677816095806, "train/post_ent_mag": 56.040409330337766, "train/post_ent_max": 56.040409330337766, "train/post_ent_mean": 40.22902546231709, "train/post_ent_min": 19.60749265882704, "train/post_ent_std": 5.91847776988196, "train/prior_ent_mag": 76.71964917864118, "train/prior_ent_max": 76.71964917864118, "train/prior_ent_mean": 46.11346586923751, "train/prior_ent_min": 28.093402438693577, "train/prior_ent_std": 7.849654356638591, "train/rep_loss_mean": 5.9017836101471435, "train/rep_loss_std": 8.917173279656303, "train/reward_avg": 0.048550656774923914, "train/reward_loss_mean": 0.06221700229105495, "train/reward_loss_std": 0.22099417779180738, "train/reward_max_data": 1.0412698511093381, "train/reward_max_pred": 1.0394768071553064, "train/reward_neg_acc": 0.9932335388092768, "train/reward_neg_loss": 0.025446552798033706, "train/reward_pos_acc": 0.9909891419940524, "train/reward_pos_loss": 0.7174198050347586, "train/reward_pred": 0.04828938850689502, "train/reward_rate": 0.053059895833333336, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.40395908802747726, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.5823433880586124e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4056367222190092e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00350427627563, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.11679244041443, "timer/env.step_frac": 0.05705530834283668, "timer/env.step_avg": 0.013606353291267432, "timer/env.step_min": 0.002582073211669922, "timer/env.step_max": 1.6100614070892334, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.2829141616821289, "timer/replay.add_frac": 0.0009430361900759365, "timer/replay.add_avg": 0.00022489202041504682, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0012543201446533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02362823486328125, "timer/logger.write_frac": 7.875986288987417e-05, "timer/logger.write_avg": 0.02362823486328125, "timer/logger.write_min": 0.02362823486328125, "timer/logger.write_max": 0.02362823486328125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.904001235961914, "timer/agent.policy_frac": 0.03301295183152674, "timer/agent.policy_avg": 0.007872814972942697, "timer/agent.policy_min": 0.0058765411376953125, "timer/agent.policy_max": 0.015350103378295898, "timer/dataset_count": 629.0, "timer/dataset_total": 0.059229135513305664, "timer/dataset_frac": 0.00019742814556846335, "timer/dataset_avg": 9.416396742973874e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.937509059906, "timer/agent.train_frac": 0.9064477753882387, "timer/agent.train_avg": 0.4323330827661463, "timer/agent.train_min": 0.3676948547363281, "timer/agent.train_max": 0.456554651260376, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26210784912109375, "timer/agent.report_frac": 0.0008736826249859952, "timer/agent.report_avg": 0.26210784912109375, "timer/agent.report_min": 0.26210784912109375, "timer/agent.report_max": 0.26210784912109375, "fps": 4.1932158271604525}
+{"step": 1172038, "episode/length": 188.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.08465608465608465}
+{"step": 1172233, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
+{"step": 1172651, "episode/length": 417.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.03827751196172249}
+{"step": 1172844, "episode/length": 192.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08290155440414508}
+{"step": 1173053, "episode/length": 208.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07655502392344497}
+{"step": 1173133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4423944382440474, "train/action_min": 0.0, "train/action_std": 3.3218504020145962, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035329495334909075, "train/actor_opt_grad_steps": 585700.0, "train/actor_opt_loss": -10.822194415425498, "train/adv_mag": 0.38550033290234825, "train/adv_max": 0.30638729840043993, "train/adv_mean": 0.00193428739051645, "train/adv_min": -0.3427044070429272, "train/adv_std": 0.04005320157323565, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 3.918276898312501e-06, "train/cont_loss_std": 7.460106573127798e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.362911376049843e-06, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 3.9146417920154e-06, "train/cont_pred": 0.9954389314802866, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.896237827482677, "train/dyn_loss_std": 9.006435000707233, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9014676478173997, "train/extr_critic_critic_opt_grad_steps": 585700.0, "train/extr_critic_critic_opt_loss": 15153.156560019841, "train/extr_critic_mag": 12.413238328600686, "train/extr_critic_max": 12.413238328600686, "train/extr_critic_mean": 3.695427970280723, "train/extr_critic_min": -0.3453198160443987, "train/extr_critic_std": 2.9579272724333263, "train/extr_return_normed_mag": 1.3661662434774733, "train/extr_return_normed_max": 1.3661662434774733, "train/extr_return_normed_mean": 0.3873839307399023, "train/extr_return_normed_min": -0.06938505941440189, "train/extr_return_normed_std": 0.3121600148696748, "train/extr_return_rate": 0.8528398218609038, "train/extr_return_raw_mag": 13.068921255686927, "train/extr_return_raw_max": 13.068921255686927, "train/extr_return_raw_mean": 3.7139051830957808, "train/extr_return_raw_min": -0.6525489763608054, "train/extr_return_raw_std": 2.983940321301657, "train/extr_reward_mag": 1.0818385850815546, "train/extr_reward_max": 1.0818385850815546, "train/extr_reward_mean": 0.0635945594145192, "train/extr_reward_min": -0.5799942489654298, "train/extr_reward_std": 0.24152549557269565, "train/image_loss_mean": 3.6116305192311606, "train/image_loss_std": 8.57236155252608, "train/model_loss_mean": 7.212307967836895, "train/model_loss_std": 12.747460819426037, "train/model_opt_grad_norm": 19.959076260763503, "train/model_opt_grad_steps": 585218.0, "train/model_opt_loss": 18030.76998077877, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6977877957480296, "train/policy_entropy_max": 2.6977877957480296, "train/policy_entropy_mean": 0.4323662486341264, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6390009938724457, "train/policy_logprob_mag": 7.438384290725466, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4316045282379029, "train/policy_logprob_min": -7.438384290725466, "train/policy_logprob_std": 1.0517583461034865, "train/policy_randomness_mag": 0.9522007003663078, "train/policy_randomness_max": 0.9522007003663078, "train/policy_randomness_mean": 0.1526063129542366, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22553931034746624, "train/post_ent_mag": 55.88954846821134, "train/post_ent_max": 55.88954846821134, "train/post_ent_mean": 40.30429143754263, "train/post_ent_min": 19.82797380477663, "train/post_ent_std": 5.879402887253534, "train/prior_ent_mag": 76.77874077690973, "train/prior_ent_max": 76.77874077690973, "train/prior_ent_mean": 46.18518381270151, "train/prior_ent_min": 28.270650530618333, "train/prior_ent_std": 7.934450179811508, "train/rep_loss_mean": 5.896237827482677, "train/rep_loss_std": 9.006435000707233, "train/reward_avg": 0.04878162160988838, "train/reward_loss_mean": 0.06293093643727757, "train/reward_loss_std": 0.22335186411464025, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0285165120684912, "train/reward_neg_acc": 0.9921704937541296, "train/reward_neg_loss": 0.02600081633066847, "train/reward_pos_acc": 0.9904876729798695, "train/reward_pos_loss": 0.7203259297779628, "train/reward_pred": 0.04854460051726727, "train/reward_rate": 0.053168402777777776, "stats/sum_log_reward": 14.300000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 21.8, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4226825416088104, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.5516408365367897e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4136677137050416e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11334252357483, "timer/env.step_count": 1258.0, "timer/env.step_total": 15.98958134651184, "timer/env.step_frac": 0.05327847543218046, "timer/env.step_avg": 0.01271031903538302, "timer/env.step_min": 0.0029709339141845703, "timer/env.step_max": 2.0079116821289062, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.29407596588134766, "timer/replay.add_frac": 0.0009798830115600311, "timer/replay.add_avg": 0.00023376467876100768, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.0008351802825927734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031662940979003906, "timer/logger.write_frac": 0.00010550327657130634, "timer/logger.write_avg": 0.031662940979003906, "timer/logger.write_min": 0.031662940979003906, "timer/logger.write_max": 0.031662940979003906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.963841438293457, "timer/agent.policy_frac": 0.033200261456255535, "timer/agent.policy_avg": 0.00792038270134615, "timer/agent.policy_min": 0.00614476203918457, "timer/agent.policy_max": 0.04721331596374512, "timer/dataset_count": 629.0, "timer/dataset_total": 0.06646990776062012, "timer/dataset_frac": 0.00022148268118202277, "timer/dataset_avg": 0.00010567552903119256, "timer/dataset_min": 7.510185241699219e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 629.0, "timer/agent.train_total": 273.09307193756104, "timer/agent.train_frac": 0.9099664468137025, "timer/agent.train_avg": 0.4341702256558999, "timer/agent.train_min": 0.37958621978759766, "timer/agent.train_max": 0.4588322639465332, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2603332996368408, "timer/agent.report_frac": 0.0008674499355735603, "timer/agent.report_avg": 0.2603332996368408, "timer/agent.report_min": 0.2603332996368408, "timer/agent.report_max": 0.2603332996368408, "fps": 4.191661380743728}
+{"step": 1173313, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05384615384615385}
+{"step": 1173553, "episode/length": 239.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.06666666666666667}
+{"step": 1173790, "episode/length": 236.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05907172995780591}
+{"step": 1173924, "episode/length": 133.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.08208955223880597}
+{"step": 1174115, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07329842931937172}
+{"step": 1174336, "episode/length": 220.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.058823529411764705}
+{"step": 1174365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364571848223286, "train/action_min": 0.0, "train/action_std": 3.251919969435661, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699183082508464, "train/actor_opt_grad_steps": 586325.0, "train/actor_opt_loss": -11.091854476159618, "train/adv_mag": 0.3794900366375523, "train/adv_max": 0.32098240213048074, "train/adv_mean": 0.0022243081128826524, "train/adv_min": -0.3515999701715285, "train/adv_std": 0.04160432914091695, "train/cont_avg": 0.9951644405241935, "train/cont_loss_mean": 0.0001434454199687982, "train/cont_loss_std": 0.004543024150555011, "train/cont_neg_acc": 0.9967741937406601, "train/cont_neg_loss": 0.021716737203475594, "train/cont_pos_acc": 0.9999841345894721, "train/cont_pos_loss": 3.761625936066036e-05, "train/cont_pred": 0.9951561958559098, "train/cont_rate": 0.9951644405241935, "train/dyn_loss_mean": 5.821123876879292, "train/dyn_loss_std": 8.915352075330672, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8837232733926466, "train/extr_critic_critic_opt_grad_steps": 586325.0, "train/extr_critic_critic_opt_loss": 15181.0335969002, "train/extr_critic_mag": 12.420195564146965, "train/extr_critic_max": 12.420195564146965, "train/extr_critic_mean": 3.8706856312290316, "train/extr_critic_min": -0.341466897918332, "train/extr_critic_std": 3.04409533931363, "train/extr_return_normed_mag": 1.3707133127797035, "train/extr_return_normed_max": 1.3707133127797035, "train/extr_return_normed_mean": 0.40350034063862217, "train/extr_return_normed_min": -0.07390890889350445, "train/extr_return_normed_std": 0.31926481377693916, "train/extr_return_rate": 0.8583102793462815, "train/extr_return_raw_mag": 13.197562356148996, "train/extr_return_raw_max": 13.197562356148996, "train/extr_return_raw_mean": 3.892067059393852, "train/extr_return_raw_min": -0.7006128415946038, "train/extr_return_raw_std": 3.07144856837488, "train/extr_reward_mag": 1.0894145004210933, "train/extr_reward_max": 1.0894145004210933, "train/extr_reward_mean": 0.06597854160974102, "train/extr_reward_min": -0.6418722694919955, "train/extr_reward_std": 0.24669341334412176, "train/image_loss_mean": 3.4990094284857474, "train/image_loss_std": 8.509868906390283, "train/model_loss_mean": 7.0571343206590225, "train/model_loss_std": 12.638017254491006, "train/model_opt_grad_norm": 20.244883629583544, "train/model_opt_grad_steps": 585842.5967741936, "train/model_opt_loss": 17642.835716985886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6663969255262807, "train/policy_entropy_max": 2.6663969255262807, "train/policy_entropy_mean": 0.4010170176625252, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5923819729397374, "train/policy_logprob_mag": 7.438384348346341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4020679578665764, "train/policy_logprob_min": -7.438384348346341, "train/policy_logprob_std": 1.0292947032759268, "train/policy_randomness_mag": 0.9411211042634903, "train/policy_randomness_max": 0.9411211042634903, "train/policy_randomness_mean": 0.14154140915601485, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20908484151286463, "train/post_ent_mag": 55.44111651758994, "train/post_ent_max": 55.44111651758994, "train/post_ent_mean": 40.182255221951394, "train/post_ent_min": 19.785899223819857, "train/post_ent_std": 5.820421449599728, "train/prior_ent_mag": 76.72946019326487, "train/prior_ent_max": 76.72946019326487, "train/prior_ent_mean": 46.023040217738, "train/prior_ent_min": 28.0442083420292, "train/prior_ent_std": 7.9086674182645735, "train/rep_loss_mean": 5.821123876879292, "train/rep_loss_std": 8.915352075330672, "train/reward_avg": 0.05109784472733736, "train/reward_loss_mean": 0.06530710465965732, "train/reward_loss_std": 0.22717828183404862, "train/reward_max_data": 1.0419354938691663, "train/reward_max_pred": 1.041018324513589, "train/reward_neg_acc": 0.9927362934235604, "train/reward_neg_loss": 0.026802655159225388, "train/reward_pos_acc": 0.9909815634450605, "train/reward_pos_loss": 0.7168037833706025, "train/reward_pred": 0.05072336869254228, "train/reward_rate": 0.05577431955645161, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3826114435990651, "replay/size": 1000000.0, "replay/inserts": 1232.0, "replay/samples": 9856.0, "replay/insert_wait_avg": 3.5259630772974585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4280440745415625e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2975573539734, "timer/env.step_count": 1232.0, "timer/env.step_total": 17.843874216079712, "timer/env.step_frac": 0.059420643888376305, "timer/env.step_avg": 0.014483664136428338, "timer/env.step_min": 0.002801656723022461, "timer/env.step_max": 1.585218906402588, "timer/replay.add_count": 1232.0, "timer/replay.add_total": 0.2752673625946045, "timer/replay.add_frac": 0.0009166486901194978, "timer/replay.add_avg": 0.00022343130080730884, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.001272439956665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03069472312927246, "timer/logger.write_frac": 0.00010221436164760839, "timer/logger.write_avg": 0.03069472312927246, "timer/logger.write_min": 0.03069472312927246, "timer/logger.write_max": 0.03069472312927246, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004596710205078125, "timer/checkpoint.save_frac": 1.53071847989086e-06, "timer/checkpoint.save_avg": 0.0004596710205078125, "timer/checkpoint.save_min": 0.0004596710205078125, "timer/checkpoint.save_max": 0.0004596710205078125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4401428699493408, "timer/agent.save_frac": 0.004795719561087817, "timer/agent.save_avg": 1.4401428699493408, "timer/agent.save_min": 1.4401428699493408, "timer/agent.save_max": 1.4401428699493408, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.564429818489356e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1232.0, "timer/agent.policy_total": 14.320560693740845, "timer/agent.policy_frac": 0.04768790269199758, "timer/agent.policy_avg": 0.011623831731932504, "timer/agent.policy_min": 0.006012439727783203, "timer/agent.policy_max": 2.5687742233276367, "timer/dataset_count": 616.0, "timer/dataset_total": 0.06529617309570312, "timer/dataset_frac": 0.00021743824249204855, "timer/dataset_avg": 0.00010600028099951806, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.002080202102661133, "timer/agent.train_count": 616.0, "timer/agent.train_total": 267.08207726478577, "timer/agent.train_frac": 0.8893914410031809, "timer/agent.train_avg": 0.43357480075452237, "timer/agent.train_min": 0.3712441921234131, "timer/agent.train_max": 0.5584654808044434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2650728225708008, "timer/agent.report_frac": 0.0008827005617576445, "timer/agent.report_avg": 0.2650728225708008, "timer/agent.report_min": 0.2650728225708008, "timer/agent.report_max": 0.2650728225708008, "fps": 4.102517601157292}
+{"step": 1174510, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07471264367816093}
+{"step": 1174709, "episode/length": 198.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05025125628140704}
+{"step": 1174988, "episode/length": 278.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.05734767025089606}
+{"step": 1175042, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
+{"step": 1175393, "episode/length": 350.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.042735042735042736}
+{"step": 1175603, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1175623, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381452287946429, "train/action_min": 0.0, "train/action_std": 3.26596562824552, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677187933926544, "train/actor_opt_grad_steps": 586950.0, "train/actor_opt_loss": -11.329545618995787, "train/adv_mag": 0.39223499146718827, "train/adv_max": 0.30640850795639885, "train/adv_mean": 0.001991706371117043, "train/adv_min": -0.37320976787143284, "train/adv_std": 0.041499497753287116, "train/cont_avg": 0.9954582093253969, "train/cont_loss_mean": 7.123576867364872e-05, "train/cont_loss_std": 0.0021513438890408344, "train/cont_neg_acc": 0.9973544979852343, "train/cont_neg_loss": 0.010921552795098814, "train/cont_pos_acc": 0.999999982023996, "train/cont_pos_loss": 7.331388187161619e-06, "train/cont_pred": 0.9954663571857271, "train/cont_rate": 0.9954582093253969, "train/dyn_loss_mean": 5.827769234066918, "train/dyn_loss_std": 8.982335060361832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8784250579183064, "train/extr_critic_critic_opt_grad_steps": 586950.0, "train/extr_critic_critic_opt_loss": 15148.20283048115, "train/extr_critic_mag": 12.498184249514626, "train/extr_critic_max": 12.498184249514626, "train/extr_critic_mean": 3.820085396842351, "train/extr_critic_min": -0.30864497404249885, "train/extr_critic_std": 2.9277544078372775, "train/extr_return_normed_mag": 1.3714648182429965, "train/extr_return_normed_max": 1.3714648182429965, "train/extr_return_normed_mean": 0.3969802846984258, "train/extr_return_normed_min": -0.06721509029231375, "train/extr_return_normed_std": 0.30690087969340973, "train/extr_return_rate": 0.8634466396437751, "train/extr_return_raw_mag": 13.224967895992219, "train/extr_return_raw_max": 13.224967895992219, "train/extr_return_raw_mean": 3.839249504937066, "train/extr_return_raw_min": -0.6316436240597377, "train/extr_return_raw_std": 2.956272076046656, "train/extr_reward_mag": 1.0859066607460144, "train/extr_reward_max": 1.0859066607460144, "train/extr_reward_mean": 0.06450604274868965, "train/extr_reward_min": -0.5545675962690323, "train/extr_reward_std": 0.24326199127568138, "train/image_loss_mean": 3.4193525390019492, "train/image_loss_std": 8.746467393542092, "train/model_loss_mean": 6.978050716339596, "train/model_loss_std": 12.890046104552253, "train/model_opt_grad_norm": 21.001040549505326, "train/model_opt_grad_steps": 586467.0, "train/model_opt_loss": 17445.126844618055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.700282305005997, "train/policy_entropy_max": 2.700282305005997, "train/policy_entropy_mean": 0.40946866500945317, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6166596185593378, "train/policy_logprob_mag": 7.438384245312403, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4100546377991873, "train/policy_logprob_min": -7.438384245312403, "train/policy_logprob_std": 1.0383608104690674, "train/policy_randomness_mag": 0.9530811546340822, "train/policy_randomness_max": 0.9530811546340822, "train/policy_randomness_mean": 0.14452447020818318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21765378578787759, "train/post_ent_mag": 55.93702195182679, "train/post_ent_max": 55.93702195182679, "train/post_ent_mean": 40.11788789052812, "train/post_ent_min": 20.023975493415954, "train/post_ent_std": 5.881717772710891, "train/prior_ent_mag": 76.75812433636378, "train/prior_ent_max": 76.75812433636378, "train/prior_ent_mean": 45.9751229664636, "train/prior_ent_min": 27.811864974006774, "train/prior_ent_std": 7.924304886469765, "train/rep_loss_mean": 5.827769234066918, "train/rep_loss_std": 8.982335060361832, "train/reward_avg": 0.04866536428767537, "train/reward_loss_mean": 0.06196535910878863, "train/reward_loss_std": 0.22101391851902008, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.027945915857951, "train/reward_neg_acc": 0.9928356115780179, "train/reward_neg_loss": 0.02516777810478021, "train/reward_pos_acc": 0.9914703388062734, "train/reward_pos_loss": 0.7249439358711243, "train/reward_pred": 0.04814248679885789, "train/reward_rate": 0.052734375, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.34743456542491913, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.3983176008506494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4090244265921733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11610317230225, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.20750880241394, "timer/env.step_frac": 0.05733617296948171, "timer/env.step_avg": 0.013678464866783736, "timer/env.step_min": 0.0030035972595214844, "timer/env.step_max": 1.7137272357940674, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.2854483127593994, "timer/replay.add_frac": 0.0009511262799367957, "timer/replay.add_avg": 0.00022690644893433976, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0006537437438964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025495290756225586, "timer/logger.write_frac": 8.495142542080878e-05, "timer/logger.write_avg": 0.025495290756225586, "timer/logger.write_min": 0.025495290756225586, "timer/logger.write_max": 0.025495290756225586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 10.080760717391968, "timer/agent.policy_frac": 0.03358953621893596, "timer/agent.policy_avg": 0.00801332330476309, "timer/agent.policy_min": 0.00577545166015625, "timer/agent.policy_max": 0.015187263488769531, "timer/dataset_count": 629.0, "timer/dataset_total": 0.05615353584289551, "timer/dataset_frac": 0.0001871060407933416, "timer/dataset_avg": 8.927430181700399e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.7963557243347, "timer/agent.train_frac": 0.9056373611791546, "timer/agent.train_avg": 0.432108673647591, "timer/agent.train_min": 0.3777272701263428, "timer/agent.train_max": 0.45554256439208984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2601125240325928, "timer/agent.report_frac": 0.0008667063222637452, "timer/agent.report_avg": 0.2601125240325928, "timer/agent.report_min": 0.2601125240325928, "timer/agent.report_max": 0.2601125240325928, "fps": 4.191631132105454}
+{"step": 1175825, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06756756756756757}
+{"step": 1176015, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07368421052631578}
+{"step": 1176244, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0611353711790393}
+{"step": 1176508, "episode/length": 263.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05303030303030303}
+{"step": 1176752, "episode/length": 243.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05327868852459016}
+{"step": 1176891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365740094866071, "train/action_min": 0.0, "train/action_std": 3.243745871952602, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613759665971711, "train/actor_opt_grad_steps": 587580.0, "train/actor_opt_loss": -13.393339000050984, "train/adv_mag": 0.3836545887447539, "train/adv_max": 0.31200687776482294, "train/adv_mean": 0.0013872259091912715, "train/adv_min": -0.35467211594657294, "train/adv_std": 0.04037208056875637, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 5.615814446205799e-05, "train/cont_loss_std": 0.0017280826913798188, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.008453496024833087, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 1.4968099914121633e-05, "train/cont_pred": 0.9950148217261784, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.649094778393942, "train/dyn_loss_std": 8.99638881380596, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557903653099423, "train/extr_critic_critic_opt_grad_steps": 587580.0, "train/extr_critic_critic_opt_loss": 14975.713774181548, "train/extr_critic_mag": 12.64278190854996, "train/extr_critic_max": 12.64278190854996, "train/extr_critic_mean": 3.822136966008989, "train/extr_critic_min": -0.32793104080926805, "train/extr_critic_std": 3.0003172859312994, "train/extr_return_normed_mag": 1.3804591345408606, "train/extr_return_normed_max": 1.3804591345408606, "train/extr_return_normed_mean": 0.39590967458391946, "train/extr_return_normed_min": -0.07466760715321889, "train/extr_return_normed_std": 0.31377316136208794, "train/extr_return_rate": 0.8669033646583557, "train/extr_return_raw_mag": 13.334804686288985, "train/extr_return_raw_max": 13.334804686288985, "train/extr_return_raw_mean": 3.8355344666375055, "train/extr_return_raw_min": -0.7051845788955688, "train/extr_return_raw_std": 3.0276316498953197, "train/extr_reward_mag": 1.0808008436172727, "train/extr_reward_max": 1.0808008436172727, "train/extr_reward_mean": 0.06124596084867205, "train/extr_reward_min": -0.6134977567763555, "train/extr_reward_std": 0.23816638522677952, "train/image_loss_mean": 3.4896699473971413, "train/image_loss_std": 9.025775182814826, "train/model_loss_mean": 6.942722328125485, "train/model_loss_std": 13.145662504529197, "train/model_opt_grad_norm": 20.265638866121808, "train/model_opt_grad_steps": 587097.0, "train/model_opt_loss": 31362.11027405754, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 4523.809523809524, "train/policy_entropy_mag": 2.7137088472881015, "train/policy_entropy_max": 2.7137088472881015, "train/policy_entropy_mean": 0.4454222572228265, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6596472452557276, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44667871036226786, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.069471087720659, "train/policy_randomness_mag": 0.9578201363957117, "train/policy_randomness_max": 0.9578201363957117, "train/policy_randomness_mean": 0.15721450970759468, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23282652998727466, "train/post_ent_mag": 55.32905130537729, "train/post_ent_max": 55.32905130537729, "train/post_ent_mean": 39.99579620361328, "train/post_ent_min": 19.92933630564856, "train/post_ent_std": 5.8142449212452725, "train/prior_ent_mag": 76.8255099341983, "train/prior_ent_max": 76.8255099341983, "train/prior_ent_mean": 45.605303991408576, "train/prior_ent_min": 27.458296336824933, "train/prior_ent_std": 8.045740929860917, "train/rep_loss_mean": 5.649094778393942, "train/rep_loss_std": 8.99638881380596, "train/reward_avg": 0.04751519030994839, "train/reward_loss_mean": 0.06353928716409774, "train/reward_loss_std": 0.23389250678675516, "train/reward_max_data": 1.0317460393148756, "train/reward_max_pred": 1.031580993107387, "train/reward_neg_acc": 0.9927249806267875, "train/reward_neg_loss": 0.026945188878074525, "train/reward_pos_acc": 0.989660350103227, "train/reward_pos_loss": 0.7281714687271724, "train/reward_pred": 0.04717119673769626, "train/reward_rate": 0.051990327380952384, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 0.8, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 0.6, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5280154824256897, "replay/size": 1000000.0, "replay/inserts": 1268.0, "replay/samples": 10144.0, "replay/insert_wait_avg": 3.3722690979388987e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.389215985307182e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04696559906006, "timer/env.step_count": 1268.0, "timer/env.step_total": 15.847570419311523, "timer/env.step_frac": 0.052816966129522386, "timer/env.step_avg": 0.012498083926901833, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.6260979175567627, "timer/replay.add_count": 1268.0, "timer/replay.add_total": 0.2863740921020508, "timer/replay.add_frac": 0.0009544308889453001, "timer/replay.add_avg": 0.00022584707579026086, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.0014188289642333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02463388442993164, "timer/logger.write_frac": 8.210009516593095e-05, "timer/logger.write_avg": 0.02463388442993164, "timer/logger.write_min": 0.02463388442993164, "timer/logger.write_max": 0.02463388442993164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1268.0, "timer/agent.policy_total": 10.019893407821655, "timer/agent.policy_frac": 0.03339441673011555, "timer/agent.policy_avg": 0.00790212413866061, "timer/agent.policy_min": 0.005964994430541992, "timer/agent.policy_max": 0.014434337615966797, "timer/dataset_count": 634.0, "timer/dataset_total": 0.05582785606384277, "timer/dataset_frac": 0.00018606372489846524, "timer/dataset_avg": 8.80565553057457e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018024444580078125, "timer/agent.train_count": 634.0, "timer/agent.train_total": 273.1797242164612, "timer/agent.train_frac": 0.9104565469310547, "timer/agent.train_avg": 0.4308828457672889, "timer/agent.train_min": 0.36830902099609375, "timer/agent.train_max": 0.45540666580200195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23707914352416992, "timer/agent.report_frac": 0.0007901401137346233, "timer/agent.report_avg": 0.23707914352416992, "timer/agent.report_min": 0.23707914352416992, "timer/agent.report_max": 0.23707914352416992, "fps": 4.225927360978264}
+{"step": 1176947, "episode/length": 194.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.07692307692307693}
+{"step": 1177025, "episode/length": 77.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.14102564102564102}
+{"step": 1177246, "episode/length": 220.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07239819004524888}
+{"step": 1177510, "episode/length": 263.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.04924242424242424}
+{"step": 1177674, "episode/length": 163.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.07926829268292683}
+{"step": 1177875, "episode/length": 200.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.06965174129353234}
+{"step": 1178071, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1178123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.451959425403226, "train/action_min": 0.0, "train/action_std": 3.36155596856148, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03539154988022581, "train/actor_opt_grad_steps": 588205.0, "train/actor_opt_loss": -11.613799206552006, "train/adv_mag": 0.3766179613528713, "train/adv_max": 0.3138809843409446, "train/adv_mean": 0.001671617678326701, "train/adv_min": -0.34108298776611207, "train/adv_std": 0.03984430092837541, "train/cont_avg": 0.9953061995967742, "train/cont_loss_mean": 1.2481603763766252e-05, "train/cont_loss_std": 0.0003924507700682236, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015204037745593233, "train/cont_pos_acc": 0.9999999817340605, "train/cont_pos_loss": 1.2120291111825378e-05, "train/cont_pred": 0.9952955197903418, "train/cont_rate": 0.9953061995967742, "train/dyn_loss_mean": 5.863645776625602, "train/dyn_loss_std": 8.947311878204346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8721268436601085, "train/extr_critic_critic_opt_grad_steps": 588205.0, "train/extr_critic_critic_opt_loss": 15023.457503780242, "train/extr_critic_mag": 12.500715209591773, "train/extr_critic_max": 12.500715209591773, "train/extr_critic_mean": 3.6800397711415447, "train/extr_critic_min": -0.3267144195495113, "train/extr_critic_std": 2.9886322021484375, "train/extr_return_normed_mag": 1.3838867602809783, "train/extr_return_normed_max": 1.3838867602809783, "train/extr_return_normed_mean": 0.38471504541174056, "train/extr_return_normed_min": -0.06670720670973102, "train/extr_return_normed_std": 0.3133683276753272, "train/extr_return_rate": 0.842960391313799, "train/extr_return_raw_mag": 13.310811181222238, "train/extr_return_raw_max": 13.310811181222238, "train/extr_return_raw_mean": 3.6961284491323654, "train/extr_return_raw_min": -0.6476138464866146, "train/extr_return_raw_std": 3.0152847574603174, "train/extr_reward_mag": 1.0925222289177678, "train/extr_reward_max": 1.0925222289177678, "train/extr_reward_mean": 0.0623603398280759, "train/extr_reward_min": -0.5446808434301807, "train/extr_reward_std": 0.23949288769114402, "train/image_loss_mean": 3.4561619104877597, "train/image_loss_std": 8.572927359611757, "train/model_loss_mean": 7.038714593456637, "train/model_loss_std": 12.721001655824724, "train/model_opt_grad_norm": 21.125484174297704, "train/model_opt_grad_steps": 587721.0483870967, "train/model_opt_loss": 18491.978137600807, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2620.967741935484, "train/policy_entropy_mag": 2.7173054218292236, "train/policy_entropy_max": 2.7173054218292236, "train/policy_entropy_mean": 0.4586162168172098, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6686475829732034, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4590265520157353, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.0744428394302246, "train/policy_randomness_mag": 0.9590895685457415, "train/policy_randomness_max": 0.9590895685457415, "train/policy_randomness_mean": 0.16187139768754283, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23600325445013662, "train/post_ent_mag": 55.896580357705396, "train/post_ent_max": 55.896580357705396, "train/post_ent_mean": 40.05276243148312, "train/post_ent_min": 19.653000400912376, "train/post_ent_std": 5.8127659828432146, "train/prior_ent_mag": 76.72864680136404, "train/prior_ent_max": 76.72864680136404, "train/prior_ent_mean": 45.91714212971349, "train/prior_ent_min": 27.653353075827322, "train/prior_ent_std": 7.965239201822588, "train/rep_loss_mean": 5.863645776625602, "train/rep_loss_std": 8.947311878204346, "train/reward_avg": 0.05076864890513882, "train/reward_loss_mean": 0.0643527748123292, "train/reward_loss_std": 0.2222621911956418, "train/reward_max_data": 1.0370967830381086, "train/reward_max_pred": 1.0353682002713602, "train/reward_neg_acc": 0.99245695433309, "train/reward_neg_loss": 0.025922118806310238, "train/reward_pos_acc": 0.9893271634655614, "train/reward_pos_loss": 0.7229056291041835, "train/reward_pred": 0.05030130733165049, "train/reward_rate": 0.05504977318548387, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.428571428571427, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3790161524500166, "replay/size": 1000000.0, "replay/inserts": 1232.0, "replay/samples": 9856.0, "replay/insert_wait_avg": 3.3659207356440557e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3702536945219163e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10955572128296, "timer/env.step_count": 1232.0, "timer/env.step_total": 19.23999810218811, "timer/env.step_frac": 0.06410991498070337, "timer/env.step_avg": 0.015616881576451387, "timer/env.step_min": 0.003088235855102539, "timer/env.step_max": 1.93635892868042, "timer/replay.add_count": 1232.0, "timer/replay.add_total": 0.2559821605682373, "timer/replay.add_frac": 0.0008529623788653116, "timer/replay.add_avg": 0.00020777772773395884, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0011289119720458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023449420928955078, "timer/logger.write_frac": 7.813620220321465e-05, "timer/logger.write_avg": 0.023449420928955078, "timer/logger.write_min": 0.023449420928955078, "timer/logger.write_max": 0.023449420928955078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002803802490234375, "timer/checkpoint.save_frac": 9.342596517780713e-07, "timer/checkpoint.save_avg": 0.0002803802490234375, "timer/checkpoint.save_min": 0.0002803802490234375, "timer/checkpoint.save_max": 0.0002803802490234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4801521301269531, "timer/agent.save_frac": 0.004932039323338296, "timer/agent.save_avg": 1.4801521301269531, "timer/agent.save_min": 1.4801521301269531, "timer/agent.save_max": 1.4801521301269531, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.771087646484375e-05, "timer/replay.save_frac": 2.2562052815048661e-07, "timer/replay.save_avg": 6.771087646484375e-05, "timer/replay.save_min": 6.771087646484375e-05, "timer/replay.save_max": 6.771087646484375e-05, "timer/agent.policy_count": 1232.0, "timer/agent.policy_total": 14.218284368515015, "timer/agent.policy_frac": 0.04737697983105805, "timer/agent.policy_avg": 0.011540815234184265, "timer/agent.policy_min": 0.006137847900390625, "timer/agent.policy_max": 3.0604004859924316, "timer/dataset_count": 616.0, "timer/dataset_total": 0.05447888374328613, "timer/dataset_frac": 0.00018152998698209275, "timer/dataset_avg": 8.843974633650346e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 616.0, "timer/agent.train_total": 265.6950867176056, "timer/agent.train_frac": 0.8853269802723687, "timer/agent.train_avg": 0.4313231927233857, "timer/agent.train_min": 0.36779117584228516, "timer/agent.train_max": 0.5221757888793945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2325127124786377, "timer/agent.report_frac": 0.0007747594438298271, "timer/agent.report_avg": 0.2325127124786377, "timer/agent.report_min": 0.2325127124786377, "timer/agent.report_max": 0.2325127124786377, "fps": 4.105086795853032}
+{"step": 1178273, "episode/length": 201.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07425742574257425}
+{"step": 1178509, "episode/length": 235.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06779661016949153}
+{"step": 1178816, "episode/length": 306.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04234527687296417}
+{"step": 1178881, "episode/length": 64.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09230769230769231}
+{"step": 1179231, "episode/length": 349.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.03428571428571429}
+{"step": 1179389, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3996465773809526, "train/action_min": 0.0, "train/action_std": 3.2861220760950967, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03718638559064222, "train/actor_opt_grad_steps": 588830.0, "train/actor_opt_loss": -11.643585431197334, "train/adv_mag": 0.4015896627827296, "train/adv_max": 0.3434148227411603, "train/adv_mean": 0.0017425764820054321, "train/adv_min": -0.35088566489635953, "train/adv_std": 0.0408005735703877, "train/cont_avg": 0.9953652033730159, "train/cont_loss_mean": 4.820236841377815e-05, "train/cont_loss_std": 0.0014284787564348797, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.0080289037302227, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.686739121054874e-05, "train/cont_pred": 0.9953626772714039, "train/cont_rate": 0.9953652033730159, "train/dyn_loss_mean": 5.844572385152181, "train/dyn_loss_std": 9.030093738010951, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8758398824267917, "train/extr_critic_critic_opt_grad_steps": 588830.0, "train/extr_critic_critic_opt_loss": 15031.32828000992, "train/extr_critic_mag": 12.471769681052557, "train/extr_critic_max": 12.471769681052557, "train/extr_critic_mean": 3.795988817063589, "train/extr_critic_min": -0.35397044249943327, "train/extr_critic_std": 2.9802063495393782, "train/extr_return_normed_mag": 1.3671921453778706, "train/extr_return_normed_max": 1.3671921453778706, "train/extr_return_normed_mean": 0.3957233362727695, "train/extr_return_normed_min": -0.072115311428668, "train/extr_return_normed_std": 0.31292596908788833, "train/extr_return_rate": 0.8594608212274218, "train/extr_return_raw_mag": 13.15672393072219, "train/extr_return_raw_max": 13.15672393072219, "train/extr_return_raw_mean": 3.812739746911185, "train/extr_return_raw_min": -0.6867105000548892, "train/extr_return_raw_std": 3.0097969865042065, "train/extr_reward_mag": 1.0798077621157207, "train/extr_reward_max": 1.0798077621157207, "train/extr_reward_mean": 0.06385974887581099, "train/extr_reward_min": -0.5888713409030248, "train/extr_reward_std": 0.24242151564075834, "train/image_loss_mean": 3.5334352500854975, "train/image_loss_std": 8.603825220986018, "train/model_loss_mean": 7.104488085186671, "train/model_loss_std": 12.79521339658707, "train/model_opt_grad_norm": 20.55819396367149, "train/model_opt_grad_steps": 588345.8571428572, "train/model_opt_loss": 21208.27802579365, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3015.873015873016, "train/policy_entropy_mag": 2.7254887232704768, "train/policy_entropy_max": 2.7254887232704768, "train/policy_entropy_mean": 0.4347848215746501, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6542326547796764, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43393799709895303, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.057862813510592, "train/policy_randomness_mag": 0.9619779132661366, "train/policy_randomness_max": 0.9619779132661366, "train/policy_randomness_mean": 0.15345996322612915, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23091541467204926, "train/post_ent_mag": 55.670857262989834, "train/post_ent_max": 55.670857262989834, "train/post_ent_mean": 40.13968525235615, "train/post_ent_min": 19.644245359632706, "train/post_ent_std": 5.854876033843509, "train/prior_ent_mag": 76.8856930202908, "train/prior_ent_max": 76.8856930202908, "train/prior_ent_mean": 45.91104483225989, "train/prior_ent_min": 27.717886637127588, "train/prior_ent_std": 7.903761893983871, "train/rep_loss_mean": 5.844572385152181, "train/rep_loss_std": 9.030093738010951, "train/reward_avg": 0.050480530552920844, "train/reward_loss_mean": 0.06426122790527722, "train/reward_loss_std": 0.23411446904379224, "train/reward_max_data": 1.0380952471778506, "train/reward_max_pred": 1.0384657912784152, "train/reward_neg_acc": 0.9930994302507431, "train/reward_neg_loss": 0.02541934386900966, "train/reward_pos_acc": 0.9874780367291163, "train/reward_pos_loss": 0.7330588452399723, "train/reward_pred": 0.049999056177006826, "train/reward_rate": 0.05479600694444445, "stats/sum_log_reward": 11.500000381469727, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 8.6, "stats/max_log_achievement_collect_wood": 11.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.48509210497140887, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.3501011877075004e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3755678565581264e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03000664711, "timer/env.step_count": 1266.0, "timer/env.step_total": 15.386143684387207, "timer/env.step_frac": 0.051282016276739006, "timer/env.step_avg": 0.0121533520413801, "timer/env.step_min": 0.0030083656311035156, "timer/env.step_max": 1.6260485649108887, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.2704930305480957, "timer/replay.add_frac": 0.0009015532598585876, "timer/replay.add_avg": 0.00021365958179154479, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0011258125305175781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021977663040161133, "timer/logger.write_frac": 7.325155002249782e-05, "timer/logger.write_avg": 0.021977663040161133, "timer/logger.write_min": 0.021977663040161133, "timer/logger.write_max": 0.021977663040161133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 9.949558734893799, "timer/agent.policy_frac": 0.03316187886032444, "timer/agent.policy_avg": 0.007859051133407425, "timer/agent.policy_min": 0.006143093109130859, "timer/agent.policy_max": 0.015267372131347656, "timer/dataset_count": 633.0, "timer/dataset_total": 0.05595803260803223, "timer/dataset_frac": 0.00018650812041559923, "timer/dataset_avg": 8.84013153365438e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 633.0, "timer/agent.train_total": 273.6941878795624, "timer/agent.train_frac": 0.9122227171146807, "timer/agent.train_avg": 0.43237628416992474, "timer/agent.train_min": 0.37745165824890137, "timer/agent.train_max": 0.4554014205932617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25930261611938477, "timer/agent.report_frac": 0.0008642556090210402, "timer/agent.report_avg": 0.25930261611938477, "timer/agent.report_min": 0.25930261611938477, "timer/agent.report_max": 0.25930261611938477, "fps": 4.219493616984595}
+{"step": 1179496, "episode/length": 264.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04905660377358491}
+{"step": 1179879, "episode/length": 382.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.0391644908616188}
+{"step": 1180024, "episode/length": 144.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0896551724137931}
+{"step": 1180339, "episode/length": 314.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 16.900000035762787, "episode/reward_rate": 0.050793650793650794}
+{"step": 1180539, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07}
+{"step": 1180659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.498149871826172, "train/action_min": 0.0, "train/action_std": 3.407952807843685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036159534589387476, "train/actor_opt_grad_steps": 589465.0, "train/actor_opt_loss": -11.795267384499311, "train/adv_mag": 0.37883621361106634, "train/adv_max": 0.32089716847985983, "train/adv_mean": 0.0015066390440381383, "train/adv_min": -0.3323319414630532, "train/adv_std": 0.040623215900268406, "train/cont_avg": 0.995147705078125, "train/cont_loss_mean": 2.637692498463906e-05, "train/cont_loss_std": 0.0007747987044073312, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.005271726408076202, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 5.737994310139882e-06, "train/cont_pred": 0.9951572297140956, "train/cont_rate": 0.995147705078125, "train/dyn_loss_mean": 5.730260498821735, "train/dyn_loss_std": 8.995024368166924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.888212313875556, "train/extr_critic_critic_opt_grad_steps": 589465.0, "train/extr_critic_critic_opt_loss": 15030.163009643555, "train/extr_critic_mag": 12.631547078490257, "train/extr_critic_max": 12.631547078490257, "train/extr_critic_mean": 3.7012202367186546, "train/extr_critic_min": -0.3696247339248657, "train/extr_critic_std": 3.023976609110832, "train/extr_return_normed_mag": 1.3822047356516123, "train/extr_return_normed_max": 1.3822047356516123, "train/extr_return_normed_mean": 0.38661171100102365, "train/extr_return_normed_min": -0.07104253760189749, "train/extr_return_normed_std": 0.3163724192418158, "train/extr_return_rate": 0.8536499487236142, "train/extr_return_raw_mag": 13.304830700159073, "train/extr_return_raw_max": 13.304830700159073, "train/extr_return_raw_mean": 3.715730607509613, "train/extr_return_raw_min": -0.6931936056353152, "train/extr_return_raw_std": 3.047968525439501, "train/extr_reward_mag": 1.0868867188692093, "train/extr_reward_max": 1.0868867188692093, "train/extr_reward_mean": 0.06356418819632381, "train/extr_reward_min": -0.6235196776688099, "train/extr_reward_std": 0.24226826056838036, "train/image_loss_mean": 3.520106427371502, "train/image_loss_std": 8.73222067207098, "train/model_loss_mean": 7.022611647844315, "train/model_loss_std": 12.880572035908699, "train/model_opt_grad_norm": 20.872014746069908, "train/model_opt_grad_steps": 588980.0, "train/model_opt_loss": 17556.52912902832, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7239047065377235, "train/policy_entropy_max": 2.7239047065377235, "train/policy_entropy_mean": 0.47224145429208875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6876553692854941, "train/policy_logprob_mag": 7.438384264707565, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4717403999529779, "train/policy_logprob_min": -7.438384264707565, "train/policy_logprob_std": 1.0812522945925593, "train/policy_randomness_mag": 0.9614188242703676, "train/policy_randomness_max": 0.9614188242703676, "train/policy_randomness_mean": 0.16668051073793322, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24271217198111117, "train/post_ent_mag": 55.646912932395935, "train/post_ent_max": 55.646912932395935, "train/post_ent_mean": 40.05352699756622, "train/post_ent_min": 19.732870548963547, "train/post_ent_std": 5.800948962569237, "train/prior_ent_mag": 76.83468532562256, "train/prior_ent_max": 76.83468532562256, "train/prior_ent_mean": 45.761982560157776, "train/prior_ent_min": 27.849258571863174, "train/prior_ent_std": 7.996187269687653, "train/rep_loss_mean": 5.730260498821735, "train/rep_loss_std": 8.995024368166924, "train/reward_avg": 0.048736572003690526, "train/reward_loss_mean": 0.06432257231790572, "train/reward_loss_std": 0.2332678723614663, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0384718775749207, "train/reward_neg_acc": 0.9924791483208537, "train/reward_neg_loss": 0.027093818091088906, "train/reward_pos_acc": 0.9888478647917509, "train/reward_pos_loss": 0.7269919849932194, "train/reward_pred": 0.04843318380881101, "train/reward_rate": 0.0530853271484375, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.2, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6004883646965027, "replay/size": 1000000.0, "replay/inserts": 1270.0, "replay/samples": 10160.0, "replay/insert_wait_avg": 3.395493574968473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3775478197833685e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.43018198013306, "timer/env.step_count": 1270.0, "timer/env.step_total": 16.131577491760254, "timer/env.step_frac": 0.05369492966864098, "timer/env.step_avg": 0.012702029521071067, "timer/env.step_min": 0.003064870834350586, "timer/env.step_max": 1.7117993831634521, "timer/replay.add_count": 1270.0, "timer/replay.add_total": 0.26769232749938965, "timer/replay.add_frac": 0.0008910300747249545, "timer/replay.add_avg": 0.0002107813602357399, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0008184909820556641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027224302291870117, "timer/logger.write_frac": 9.06177339188591e-05, "timer/logger.write_avg": 0.027224302291870117, "timer/logger.write_min": 0.027224302291870117, "timer/logger.write_max": 0.027224302291870117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1270.0, "timer/agent.policy_total": 9.954594135284424, "timer/agent.policy_frac": 0.033134467614651, "timer/agent.policy_avg": 0.007838263098649153, "timer/agent.policy_min": 0.006028413772583008, "timer/agent.policy_max": 0.01666736602783203, "timer/dataset_count": 635.0, "timer/dataset_total": 0.05630826950073242, "timer/dataset_frac": 0.00018742547479619071, "timer/dataset_avg": 8.867444015863374e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 635.0, "timer/agent.train_total": 273.3389902114868, "timer/agent.train_frac": 0.909825332494597, "timer/agent.train_avg": 0.43045510269525483, "timer/agent.train_min": 0.3673703670501709, "timer/agent.train_max": 0.4546208381652832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2602677345275879, "timer/agent.report_frac": 0.0008663168687385709, "timer/agent.report_avg": 0.2602677345275879, "timer/agent.report_min": 0.2602677345275879, "timer/agent.report_max": 0.2602677345275879, "fps": 4.2271899736014795}
+{"step": 1180740, "episode/length": 200.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07462686567164178}
+{"step": 1180948, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07211538461538461}
+{"step": 1181246, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.050335570469798654}
+{"step": 1181418, "episode/length": 171.0, "episode/score": 12.100000038743019, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.0755813953488372}
+{"step": 1181663, "episode/length": 244.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.053061224489795916}
+{"step": 1181889, "episode/length": 225.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.061946902654867256}
+{"step": 1181902, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394275296118952, "train/action_min": 0.0, "train/action_std": 3.291005188418973, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03690820247415574, "train/actor_opt_grad_steps": 590095.0, "train/actor_opt_loss": -11.26459873876264, "train/adv_mag": 0.41305948553546784, "train/adv_max": 0.33277106813846097, "train/adv_mean": 0.0022440108955526093, "train/adv_min": -0.38038198361473696, "train/adv_std": 0.04236829851663882, "train/cont_avg": 0.9950384324596774, "train/cont_loss_mean": 0.00010316479773679028, "train/cont_loss_std": 0.0032276691637225813, "train/cont_neg_acc": 0.9976958536332653, "train/cont_neg_loss": 0.0029947448302177376, "train/cont_pos_acc": 0.9999683095562842, "train/cont_pos_loss": 8.524241166234729e-05, "train/cont_pred": 0.9950179178868571, "train/cont_rate": 0.9950384324596774, "train/dyn_loss_mean": 5.76167235835906, "train/dyn_loss_std": 9.038265705108643, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8771293567072961, "train/extr_critic_critic_opt_grad_steps": 590095.0, "train/extr_critic_critic_opt_loss": 15076.53816469254, "train/extr_critic_mag": 12.720799876797583, "train/extr_critic_max": 12.720799876797583, "train/extr_critic_mean": 3.8570399361272014, "train/extr_critic_min": -0.35422784090042114, "train/extr_critic_std": 3.017837066804209, "train/extr_return_normed_mag": 1.4022997329311986, "train/extr_return_normed_max": 1.4022997329311986, "train/extr_return_normed_mean": 0.40219904242023347, "train/extr_return_normed_min": -0.07110077980905771, "train/extr_return_normed_std": 0.316900322033513, "train/extr_return_rate": 0.8654139810992826, "train/extr_return_raw_mag": 13.493682138381466, "train/extr_return_raw_max": 13.493682138381466, "train/extr_return_raw_mean": 3.8786161945712183, "train/extr_return_raw_min": -0.6712101082648, "train/extr_return_raw_std": 3.0465711086027083, "train/extr_reward_mag": 1.0862852296521586, "train/extr_reward_max": 1.0862852296521586, "train/extr_reward_mean": 0.06531269097280118, "train/extr_reward_min": -0.5814528465270996, "train/extr_reward_std": 0.24469037233821808, "train/image_loss_mean": 3.28403353306555, "train/image_loss_std": 8.63581322854565, "train/model_loss_mean": 6.803558595718876, "train/model_loss_std": 12.83804598162251, "train/model_opt_grad_norm": 20.230152646049124, "train/model_opt_grad_steps": 589609.5967741936, "train/model_opt_loss": 19978.90316280242, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2903.2258064516127, "train/policy_entropy_mag": 2.724861891038956, "train/policy_entropy_max": 2.724861891038956, "train/policy_entropy_mean": 0.43324277117367715, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6497427018419388, "train/policy_logprob_mag": 7.438384325273575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43312004448906066, "train/policy_logprob_min": -7.438384325273575, "train/policy_logprob_std": 1.0572975441332786, "train/policy_randomness_mag": 0.9617566716286444, "train/policy_randomness_max": 0.9617566716286444, "train/policy_randomness_mean": 0.15291568745047815, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22933066011436523, "train/post_ent_mag": 55.201136066067605, "train/post_ent_max": 55.201136066067605, "train/post_ent_mean": 39.83620212924096, "train/post_ent_min": 19.48046810396256, "train/post_ent_std": 5.760294375881072, "train/prior_ent_mag": 76.74700497042748, "train/prior_ent_max": 76.74700497042748, "train/prior_ent_mean": 45.555572509765625, "train/prior_ent_min": 27.144818705897176, "train/prior_ent_std": 7.953964141107375, "train/rep_loss_mean": 5.76167235835906, "train/rep_loss_std": 9.038265705108643, "train/reward_avg": 0.04962512532309178, "train/reward_loss_mean": 0.06241850176405522, "train/reward_loss_std": 0.2273466875476222, "train/reward_max_data": 1.032258072207051, "train/reward_max_pred": 1.0322272662193543, "train/reward_neg_acc": 0.9932673092811338, "train/reward_neg_loss": 0.024420055710980968, "train/reward_pos_acc": 0.987650716497052, "train/reward_pos_loss": 0.7283169684871551, "train/reward_pred": 0.049142620646424835, "train/reward_rate": 0.053899949596774195, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39633261660734814, "replay/size": 1000000.0, "replay/inserts": 1243.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.4776888637895653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3798571247217545e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99710488319397, "timer/env.step_count": 1243.0, "timer/env.step_total": 17.5798556804657, "timer/env.step_frac": 0.058600084448516734, "timer/env.step_avg": 0.014143085824992517, "timer/env.step_min": 0.002775430679321289, "timer/env.step_max": 1.6801316738128662, "timer/replay.add_count": 1243.0, "timer/replay.add_total": 0.25456809997558594, "timer/replay.add_frac": 0.0008485685222685861, "timer/replay.add_avg": 0.00020480136763924853, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0008971691131591797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022670269012451172, "timer/logger.write_frac": 7.556829263828397e-05, "timer/logger.write_avg": 0.022670269012451172, "timer/logger.write_min": 0.022670269012451172, "timer/logger.write_max": 0.022670269012451172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022554397583007812, "timer/checkpoint.save_frac": 7.518205081275544e-07, "timer/checkpoint.save_avg": 0.00022554397583007812, "timer/checkpoint.save_min": 0.00022554397583007812, "timer/checkpoint.save_max": 0.00022554397583007812, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2013704776763916, "timer/agent.save_frac": 0.004004606904937145, "timer/agent.save_avg": 1.2013704776763916, "timer/agent.save_min": 1.2013704776763916, "timer/agent.save_max": 1.2013704776763916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.296787810241683e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1243.0, "timer/agent.policy_total": 14.022046089172363, "timer/agent.policy_frac": 0.04674060469560847, "timer/agent.policy_avg": 0.011280809404000293, "timer/agent.policy_min": 0.005948066711425781, "timer/agent.policy_max": 2.882830858230591, "timer/dataset_count": 621.0, "timer/dataset_total": 0.055286407470703125, "timer/dataset_frac": 0.00018428980337070015, "timer/dataset_avg": 8.902803135378925e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 621.0, "timer/agent.train_total": 267.4105176925659, "timer/agent.train_frac": 0.8913769944436102, "timer/agent.train_avg": 0.4306127499075136, "timer/agent.train_min": 0.3786330223083496, "timer/agent.train_max": 0.47463226318359375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2599952220916748, "timer/agent.report_frac": 0.000866659103903372, "timer/agent.report_avg": 0.2599952220916748, "timer/agent.report_min": 0.2599952220916748, "timer/agent.report_max": 0.2599952220916748, "fps": 4.143292703558072}
+{"step": 1182100, "episode/length": 210.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05687203791469194}
+{"step": 1182285, "episode/length": 184.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.700000032782555, "episode/reward_rate": 0.07567567567567568}
+{"step": 1182538, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06324110671936758}
+{"step": 1182724, "episode/length": 185.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06451612903225806}
+{"step": 1182953, "episode/length": 228.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06550218340611354}
+{"step": 1182998, "episode/length": 44.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.1111111111111111}
+{"step": 1183165, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.315351213727679, "train/action_min": 0.0, "train/action_std": 3.167621147064936, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03666537018522384, "train/actor_opt_grad_steps": 590720.0, "train/actor_opt_loss": -9.83738774770782, "train/adv_mag": 0.37079810221043846, "train/adv_max": 0.3197279376169992, "train/adv_mean": 0.0022205384378875827, "train/adv_min": -0.33625438667479013, "train/adv_std": 0.041603755383264454, "train/cont_avg": 0.9949931795634921, "train/cont_loss_mean": 0.00015855833808744692, "train/cont_loss_std": 0.005002265283595969, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.03062554942539929, "train/cont_pos_acc": 0.9999999886467343, "train/cont_pos_loss": 9.047952870629965e-06, "train/cont_pred": 0.99500011167829, "train/cont_rate": 0.9949931795634921, "train/dyn_loss_mean": 5.755578109196255, "train/dyn_loss_std": 9.006855631631518, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8861515966672746, "train/extr_critic_critic_opt_grad_steps": 590720.0, "train/extr_critic_critic_opt_loss": 15144.995039682539, "train/extr_critic_mag": 12.453714961097354, "train/extr_critic_max": 12.453714961097354, "train/extr_critic_mean": 3.8072448457990373, "train/extr_critic_min": -0.3501792483859592, "train/extr_critic_std": 2.9858026050385975, "train/extr_return_normed_mag": 1.3776422019988772, "train/extr_return_normed_max": 1.3776422019988772, "train/extr_return_normed_mean": 0.39812065779216704, "train/extr_return_normed_min": -0.0708800833967943, "train/extr_return_normed_std": 0.31415130883928327, "train/extr_return_rate": 0.8628172997444395, "train/extr_return_raw_mag": 13.229217892601376, "train/extr_return_raw_max": 13.229217892601376, "train/extr_return_raw_mean": 3.828546894921197, "train/extr_return_raw_min": -0.6717237598366208, "train/extr_return_raw_std": 3.01490633071415, "train/extr_reward_mag": 1.086132492337908, "train/extr_reward_max": 1.086132492337908, "train/extr_reward_mean": 0.06405188882398227, "train/extr_reward_min": -0.5943268461832925, "train/extr_reward_std": 0.2425561367519318, "train/image_loss_mean": 3.396051838284447, "train/image_loss_std": 8.887968752119276, "train/model_loss_mean": 6.912418410891578, "train/model_loss_std": 13.03124385409885, "train/model_opt_grad_norm": 19.871193689013285, "train/model_opt_grad_steps": 590234.0, "train/model_opt_loss": 17281.04591393849, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7170169542706204, "train/policy_entropy_max": 2.7170169542706204, "train/policy_entropy_mean": 0.42316006478809176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6339055034849379, "train/policy_logprob_mag": 7.438384336138529, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42372107978851076, "train/policy_logprob_min": -7.438384336138529, "train/policy_logprob_std": 1.0512847361110507, "train/policy_randomness_mag": 0.9589877507043263, "train/policy_randomness_max": 0.9589877507043263, "train/policy_randomness_mean": 0.14935693381324647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22374082392170316, "train/post_ent_mag": 55.50437212747241, "train/post_ent_max": 55.50437212747241, "train/post_ent_mean": 40.017489357600134, "train/post_ent_min": 19.69422423650348, "train/post_ent_std": 5.893296847267757, "train/prior_ent_mag": 76.83141351124597, "train/prior_ent_max": 76.83141351124597, "train/prior_ent_mean": 45.74444356040349, "train/prior_ent_min": 27.15085598779103, "train/prior_ent_std": 7.988528357611762, "train/rep_loss_mean": 5.755578109196255, "train/rep_loss_std": 9.006855631631518, "train/reward_avg": 0.04972563216847087, "train/reward_loss_mean": 0.0628611979385217, "train/reward_loss_std": 0.21968236802116273, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.0306391261872792, "train/reward_neg_acc": 0.9929721260827685, "train/reward_neg_loss": 0.025534453979205517, "train/reward_pos_acc": 0.9921800153596061, "train/reward_pos_loss": 0.7135637118702843, "train/reward_pred": 0.04954139027921926, "train/reward_rate": 0.054299975198412696, "stats/sum_log_reward": 10.9333336353302, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.31627122809489566, "replay/size": 1000000.0, "replay/inserts": 1263.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.318416628682793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3745142311989507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0463082790375, "timer/env.step_count": 1263.0, "timer/env.step_total": 17.05450987815857, "timer/env.step_frac": 0.05683959244817034, "timer/env.step_avg": 0.013503174883736, "timer/env.step_min": 0.0031952857971191406, "timer/env.step_max": 1.6347386837005615, "timer/replay.add_count": 1263.0, "timer/replay.add_total": 0.25096726417541504, "timer/replay.add_frac": 0.0008364284353801153, "timer/replay.add_avg": 0.00019870725587918848, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.001207590103149414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026130199432373047, "timer/logger.write_frac": 8.70872219100008e-05, "timer/logger.write_avg": 0.026130199432373047, "timer/logger.write_min": 0.026130199432373047, "timer/logger.write_max": 0.026130199432373047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1263.0, "timer/agent.policy_total": 9.908616542816162, "timer/agent.policy_frac": 0.03302362425203157, "timer/agent.policy_avg": 0.007845302092491024, "timer/agent.policy_min": 0.006148815155029297, "timer/agent.policy_max": 0.016234636306762695, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05462050437927246, "timer/dataset_frac": 0.00018204024802890228, "timer/dataset_avg": 8.642484870138048e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017452239990234375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.1461772918701, "timer/agent.train_frac": 0.9070139167944011, "timer/agent.train_avg": 0.4306110400187818, "timer/agent.train_min": 0.36760830879211426, "timer/agent.train_max": 0.45391082763671875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21829462051391602, "timer/agent.report_frac": 0.0007275364318460672, "timer/agent.report_avg": 0.21829462051391602, "timer/agent.report_min": 0.21829462051391602, "timer/agent.report_max": 0.21829462051391602, "fps": 4.209268556278836}
+{"step": 1183200, "episode/length": 201.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.0594059405940594}
+{"step": 1183274, "episode/length": 73.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12162162162162163}
+{"step": 1183460, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06989247311827956}
+{"step": 1183627, "episode/length": 166.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08383233532934131}
+{"step": 1183840, "episode/length": 212.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.07042253521126761}
+{"step": 1184074, "episode/length": 233.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06837606837606838}
+{"step": 1184137, "episode/length": 62.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.09523809523809523}
+{"step": 1184184, "episode/length": 46.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.1702127659574468}
+{"step": 1184419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348484584263393, "train/action_min": 0.0, "train/action_std": 3.224863059937008, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036260259056848196, "train/actor_opt_grad_steps": 591350.0, "train/actor_opt_loss": -11.691055087816148, "train/adv_mag": 0.3924112135455722, "train/adv_max": 0.3174501475360658, "train/adv_mean": 0.0014127368368997216, "train/adv_min": -0.34256064773552003, "train/adv_std": 0.04048893376002236, "train/cont_avg": 0.9948691716269841, "train/cont_loss_mean": 0.0001988834607031562, "train/cont_loss_std": 0.006290667661892438, "train/cont_neg_acc": 0.9945578243997362, "train/cont_neg_loss": 0.02915573199219722, "train/cont_pos_acc": 0.9999999810778906, "train/cont_pos_loss": 9.15119696546952e-06, "train/cont_pred": 0.9948922017263988, "train/cont_rate": 0.9948691716269841, "train/dyn_loss_mean": 6.009091384827145, "train/dyn_loss_std": 8.977336172073606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8629043565856086, "train/extr_critic_critic_opt_grad_steps": 591350.0, "train/extr_critic_critic_opt_loss": 15133.682043650793, "train/extr_critic_mag": 12.405481323363288, "train/extr_critic_max": 12.405481323363288, "train/extr_critic_mean": 3.763192407668583, "train/extr_critic_min": -0.3436953718700106, "train/extr_critic_std": 3.0207176851847817, "train/extr_return_normed_mag": 1.359148210949368, "train/extr_return_normed_max": 1.359148210949368, "train/extr_return_normed_mean": 0.38769098051956724, "train/extr_return_normed_min": -0.07066626332345463, "train/extr_return_normed_std": 0.31383638982734985, "train/extr_return_rate": 0.855336520406935, "train/extr_return_raw_mag": 13.199632599240257, "train/extr_return_raw_max": 13.199632599240257, "train/extr_return_raw_mean": 3.7768908455258323, "train/extr_return_raw_min": -0.668856678501008, "train/extr_return_raw_std": 3.044222767390902, "train/extr_reward_mag": 1.0715335664295016, "train/extr_reward_max": 1.0715335664295016, "train/extr_reward_mean": 0.06184631195806321, "train/extr_reward_min": -0.615947615532648, "train/extr_reward_std": 0.23894086409182774, "train/image_loss_mean": 3.6593953238593206, "train/image_loss_std": 8.996973408593071, "train/model_loss_mean": 7.327511923653739, "train/model_loss_std": 13.079367304605151, "train/model_opt_grad_norm": 23.696693692888534, "train/model_opt_grad_steps": 590863.253968254, "train/model_opt_loss": 19132.365745907737, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2619.0476190476193, "train/policy_entropy_mag": 2.732452600721329, "train/policy_entropy_max": 2.732452600721329, "train/policy_entropy_mean": 0.44697457812135183, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6536120814936501, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4461622072590722, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.0612769760782756, "train/policy_randomness_mag": 0.964435857439798, "train/policy_randomness_max": 0.964435857439798, "train/policy_randomness_mean": 0.15776241286879494, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2306963839228191, "train/post_ent_mag": 55.396243564666264, "train/post_ent_max": 55.396243564666264, "train/post_ent_mean": 40.0395633152553, "train/post_ent_min": 19.679051777673145, "train/post_ent_std": 5.869863267928835, "train/prior_ent_mag": 76.73339637877449, "train/prior_ent_max": 76.73339637877449, "train/prior_ent_mean": 45.99044854300363, "train/prior_ent_min": 27.644689862690274, "train/prior_ent_std": 7.9387340469965855, "train/rep_loss_mean": 6.009091384827145, "train/rep_loss_std": 8.977336172073606, "train/reward_avg": 0.04777715727686882, "train/reward_loss_mean": 0.062462868375910655, "train/reward_loss_std": 0.2217695057865173, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.0256605678134494, "train/reward_neg_acc": 0.9930762998641484, "train/reward_neg_loss": 0.026309733840799522, "train/reward_pos_acc": 0.9914676187530397, "train/reward_pos_loss": 0.7200550446434627, "train/reward_pred": 0.047537224899445264, "train/reward_rate": 0.05226934523809524, "stats/sum_log_reward": 10.350000023841858, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.25, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 0.625, "stats/mean_log_entropy": 0.243191696703434, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.2897581133926123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3853326748812978e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3170084953308, "timer/env.step_count": 1254.0, "timer/env.step_total": 20.333210706710815, "timer/env.step_frac": 0.06770582461707941, "timer/env.step_avg": 0.016214681584298896, "timer/env.step_min": 0.0029947757720947266, "timer/env.step_max": 1.6581084728240967, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.26045751571655273, "timer/replay.add_frac": 0.0008672752736234125, "timer/replay.add_avg": 0.00020770136819501812, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0009598731994628906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022949695587158203, "timer/logger.write_frac": 7.641823452538491e-05, "timer/logger.write_avg": 0.022949695587158203, "timer/logger.write_min": 0.022949695587158203, "timer/logger.write_max": 0.022949695587158203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.833296060562134, "timer/agent.policy_frac": 0.03274305411414957, "timer/agent.policy_avg": 0.007841543907944285, "timer/agent.policy_min": 0.005864143371582031, "timer/agent.policy_max": 0.015990257263183594, "timer/dataset_count": 627.0, "timer/dataset_total": 0.054151058197021484, "timer/dataset_frac": 0.00018031299148966917, "timer/dataset_avg": 8.636532407818419e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001659393310546875, "timer/agent.train_count": 627.0, "timer/agent.train_total": 269.1910116672516, "timer/agent.train_frac": 0.8963561971264004, "timer/agent.train_avg": 0.4293317570450583, "timer/agent.train_min": 0.37677860260009766, "timer/agent.train_max": 0.4554111957550049, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22937393188476562, "timer/agent.report_frac": 0.0007637726981698135, "timer/agent.report_avg": 0.22937393188476562, "timer/agent.report_min": 0.22937393188476562, "timer/agent.report_max": 0.22937393188476562, "fps": 4.175505809580031}
+{"step": 1184563, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03430079155672823}
+{"step": 1184758, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07179487179487179}
+{"step": 1184946, "episode/length": 187.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.0797872340425532}
+{"step": 1185185, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058577405857740586}
+{"step": 1185472, "episode/length": 286.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000001490116, "episode/reward_rate": 0.05226480836236934}
+{"step": 1185628, "episode/length": 155.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.10897435897435898}
+{"step": 1185663, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375468592489919, "train/action_min": 0.0, "train/action_std": 3.302082973141824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03665477614248953, "train/actor_opt_grad_steps": 591975.0, "train/actor_opt_loss": -11.378422133384213, "train/adv_mag": 0.4064710524774367, "train/adv_max": 0.31738921927828945, "train/adv_mean": 0.0015923919277889991, "train/adv_min": -0.3831523839504488, "train/adv_std": 0.04155442959839298, "train/cont_avg": 0.9952274445564516, "train/cont_loss_mean": 7.739126592072822e-05, "train/cont_loss_std": 0.002352406392487278, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00039753413008975587, "train/cont_pos_acc": 0.9999841711213512, "train/cont_pos_loss": 7.546882124272762e-05, "train/cont_pred": 0.9952041612517449, "train/cont_rate": 0.9952274445564516, "train/dyn_loss_mean": 5.882768400253788, "train/dyn_loss_std": 8.97588066131838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9061441411895137, "train/extr_critic_critic_opt_grad_steps": 591975.0, "train/extr_critic_critic_opt_loss": 15122.261025705646, "train/extr_critic_mag": 12.388672490273752, "train/extr_critic_max": 12.388672490273752, "train/extr_critic_mean": 3.75620065581414, "train/extr_critic_min": -0.328251431065221, "train/extr_critic_std": 2.9395052579141434, "train/extr_return_normed_mag": 1.3810957843257534, "train/extr_return_normed_max": 1.3810957843257534, "train/extr_return_normed_mean": 0.3932697494183817, "train/extr_return_normed_min": -0.07007699474812515, "train/extr_return_normed_std": 0.30894110808449404, "train/extr_return_rate": 0.8549784133511205, "train/extr_return_raw_mag": 13.242306770816926, "train/extr_return_raw_max": 13.242306770816926, "train/extr_return_raw_mean": 3.771477472397589, "train/extr_return_raw_min": -0.6700713288399481, "train/extr_return_raw_std": 2.961975113038094, "train/extr_reward_mag": 1.0854934069418138, "train/extr_reward_max": 1.0854934069418138, "train/extr_reward_mean": 0.06286923953842732, "train/extr_reward_min": -0.5789982503460299, "train/extr_reward_std": 0.24084632266913691, "train/image_loss_mean": 3.445126143194014, "train/image_loss_std": 8.659870263068907, "train/model_loss_mean": 7.039213395887805, "train/model_loss_std": 12.797528589925458, "train/model_opt_grad_norm": 20.87583937183503, "train/model_opt_grad_steps": 591487.9032258064, "train/model_opt_loss": 18531.461142263106, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2620.967741935484, "train/policy_entropy_mag": 2.7302927663249354, "train/policy_entropy_max": 2.7302927663249354, "train/policy_entropy_mean": 0.4577630513137387, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6759882348199044, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45775486528873444, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0749511324590253, "train/policy_randomness_mag": 0.9636735300863942, "train/policy_randomness_max": 0.9636735300863942, "train/policy_randomness_mean": 0.1615702718977005, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23859418063394486, "train/post_ent_mag": 55.25725444670646, "train/post_ent_max": 55.25725444670646, "train/post_ent_mean": 40.04874567831716, "train/post_ent_min": 19.77040177006875, "train/post_ent_std": 5.747883988964942, "train/prior_ent_mag": 76.85141520346365, "train/prior_ent_max": 76.85141520346365, "train/prior_ent_mean": 45.90721296495007, "train/prior_ent_min": 27.94870650383734, "train/prior_ent_std": 7.862900810856973, "train/rep_loss_mean": 5.882768400253788, "train/rep_loss_std": 8.97588066131838, "train/reward_avg": 0.04885175115158481, "train/reward_loss_mean": 0.06434888753198809, "train/reward_loss_std": 0.2288538078146596, "train/reward_max_data": 1.0419354938691663, "train/reward_max_pred": 1.0376108307992258, "train/reward_neg_acc": 0.9930793296906256, "train/reward_neg_loss": 0.027364639009559346, "train/reward_pos_acc": 0.988830570251711, "train/reward_pos_loss": 0.72383516065536, "train/reward_pred": 0.04852159126030822, "train/reward_rate": 0.05322265625, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.41193169603745144, "replay/size": 1000000.0, "replay/inserts": 1244.0, "replay/samples": 9952.0, "replay/insert_wait_avg": 3.325594199815364e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3687027995609393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03763914108276, "timer/env.step_count": 1244.0, "timer/env.step_total": 17.691206455230713, "timer/env.step_frac": 0.05896329042541229, "timer/env.step_avg": 0.01422122705404398, "timer/env.step_min": 0.00301361083984375, "timer/env.step_max": 1.6139514446258545, "timer/replay.add_count": 1244.0, "timer/replay.add_total": 0.25811338424682617, "timer/replay.add_frac": 0.0008602700147412401, "timer/replay.add_avg": 0.00020748664328523004, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0009565353393554688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024755001068115234, "timer/logger.write_frac": 8.250631867048858e-05, "timer/logger.write_avg": 0.024755001068115234, "timer/logger.write_min": 0.024755001068115234, "timer/logger.write_max": 0.024755001068115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021696090698242188, "timer/checkpoint.save_frac": 7.231122988552886e-07, "timer/checkpoint.save_avg": 0.00021696090698242188, "timer/checkpoint.save_min": 0.00021696090698242188, "timer/checkpoint.save_max": 0.00021696090698242188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.441007137298584, "timer/agent.save_frac": 0.004802754552474658, "timer/agent.save_avg": 1.441007137298584, "timer/agent.save_min": 1.441007137298584, "timer/agent.save_max": 1.441007137298584, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.389617919921875e-05, "timer/replay.save_frac": 2.129605451573817e-07, "timer/replay.save_avg": 6.389617919921875e-05, "timer/replay.save_min": 6.389617919921875e-05, "timer/replay.save_max": 6.389617919921875e-05, "timer/agent.policy_count": 1244.0, "timer/agent.policy_total": 13.524815082550049, "timer/agent.policy_frac": 0.04507706140225445, "timer/agent.policy_avg": 0.010872037847709043, "timer/agent.policy_min": 0.005846977233886719, "timer/agent.policy_max": 2.3259103298187256, "timer/dataset_count": 622.0, "timer/dataset_total": 0.05281949043273926, "timer/dataset_frac": 0.00017604288109966977, "timer/dataset_avg": 8.491879490794093e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 622.0, "timer/agent.train_total": 267.86877608299255, "timer/agent.train_frac": 0.8927839082117165, "timer/agent.train_avg": 0.4306571962749076, "timer/agent.train_min": 0.3688023090362549, "timer/agent.train_max": 0.4851667881011963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22938060760498047, "timer/agent.report_frac": 0.0007645061075058048, "timer/agent.report_avg": 0.22938060760498047, "timer/agent.report_min": 0.22938060760498047, "timer/agent.report_max": 0.22938060760498047, "fps": 4.146097642664825}
+{"step": 1185839, "episode/length": 210.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05687203791469194}
+{"step": 1186058, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0684931506849315}
+{"step": 1186237, "episode/length": 178.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.07262569832402235}
+{"step": 1186454, "episode/length": 216.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06912442396313365}
+{"step": 1186680, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.061946902654867256}
+{"step": 1186871, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06806282722513089}
+{"step": 1186925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428930857824901, "train/action_min": 0.0, "train/action_std": 3.3018256444779652, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03598417726064485, "train/actor_opt_grad_steps": 592600.0, "train/actor_opt_loss": -10.636883495345948, "train/adv_mag": 0.3659774739117849, "train/adv_max": 0.3233108849279464, "train/adv_mean": 0.0018658825522126993, "train/adv_min": -0.32548556275784024, "train/adv_std": 0.040957789572458415, "train/cont_avg": 0.9949466765873016, "train/cont_loss_mean": 5.0483812032098285e-05, "train/cont_loss_std": 0.001590412652997689, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.004905528792498869, "train/cont_pos_acc": 0.9999843930441236, "train/cont_pos_loss": 2.6703554781866004e-05, "train/cont_pred": 0.9949399459929693, "train/cont_rate": 0.9949466765873016, "train/dyn_loss_mean": 5.7730588307456365, "train/dyn_loss_std": 8.976714966789125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8722673134198264, "train/extr_critic_critic_opt_grad_steps": 592600.0, "train/extr_critic_critic_opt_loss": 15101.599531870039, "train/extr_critic_mag": 12.596863428751627, "train/extr_critic_max": 12.596863428751627, "train/extr_critic_mean": 3.7254355407896496, "train/extr_critic_min": -0.3300955825381809, "train/extr_critic_std": 3.0415068278236994, "train/extr_return_normed_mag": 1.3979028917494274, "train/extr_return_normed_max": 1.3979028917494274, "train/extr_return_normed_mean": 0.3906059984176878, "train/extr_return_normed_min": -0.0665631140508349, "train/extr_return_normed_std": 0.32026192640501355, "train/extr_return_rate": 0.8377966275290837, "train/extr_return_raw_mag": 13.409220680357917, "train/extr_return_raw_max": 13.409220680357917, "train/extr_return_raw_mean": 3.7433284577869235, "train/extr_return_raw_min": -0.643559482835588, "train/extr_return_raw_std": 3.0732701392400834, "train/extr_reward_mag": 1.0845044340406145, "train/extr_reward_max": 1.0845044340406145, "train/extr_reward_mean": 0.06260025986130276, "train/extr_reward_min": -0.5921007413712759, "train/extr_reward_std": 0.2403795425854032, "train/image_loss_mean": 3.47451779199025, "train/image_loss_std": 8.715520124586801, "train/model_loss_mean": 7.003318998548719, "train/model_loss_std": 12.858639550587487, "train/model_opt_grad_norm": 20.349500111171178, "train/model_opt_grad_steps": 592112.0, "train/model_opt_loss": 17508.29747953869, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.721440073043581, "train/policy_entropy_max": 2.721440073043581, "train/policy_entropy_mean": 0.4551580340143234, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6719253933618939, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4555313114135984, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.074151376883189, "train/policy_randomness_mag": 0.960548912721967, "train/policy_randomness_max": 0.960548912721967, "train/policy_randomness_mean": 0.1606508144547069, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23716017745790027, "train/post_ent_mag": 55.51378026084294, "train/post_ent_max": 55.51378026084294, "train/post_ent_mean": 40.2786995418488, "train/post_ent_min": 19.728999697972856, "train/post_ent_std": 5.8603895505269366, "train/prior_ent_mag": 76.85291835239956, "train/prior_ent_max": 76.85291835239956, "train/prior_ent_mean": 46.05639048985073, "train/prior_ent_min": 27.6254275488475, "train/prior_ent_std": 7.896033589802091, "train/rep_loss_mean": 5.7730588307456365, "train/rep_loss_std": 8.976714966789125, "train/reward_avg": 0.04940476173919345, "train/reward_loss_mean": 0.06491548089044434, "train/reward_loss_std": 0.22772413610465944, "train/reward_max_data": 1.028571435383388, "train/reward_max_pred": 1.0288426762535459, "train/reward_neg_acc": 0.9922523697217306, "train/reward_neg_loss": 0.02754112792807439, "train/reward_pos_acc": 0.9898958045338827, "train/reward_pos_loss": 0.7209218731002202, "train/reward_pred": 0.049123679154685566, "train/reward_rate": 0.05395895337301587, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3495349586009979, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.372243769384224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3798805877637183e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.236661195755, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.255098581314087, "timer/env.step_frac": 0.057471657567040826, "timer/env.step_avg": 0.013672819795019086, "timer/env.step_min": 0.003031492233276367, "timer/env.step_max": 1.639465093612671, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.25908374786376953, "timer/replay.add_frac": 0.0008629317513454705, "timer/replay.add_avg": 0.0002052961552010852, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.001468658447265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030454397201538086, "timer/logger.write_frac": 0.00010143463852897614, "timer/logger.write_avg": 0.030454397201538086, "timer/logger.write_min": 0.030454397201538086, "timer/logger.write_max": 0.030454397201538086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.994879961013794, "timer/agent.policy_frac": 0.033290005028723355, "timer/agent.policy_avg": 0.007919873186223291, "timer/agent.policy_min": 0.0059659481048583984, "timer/agent.policy_max": 0.016258955001831055, "timer/dataset_count": 631.0, "timer/dataset_total": 0.053626060485839844, "timer/dataset_frac": 0.00017861263268870262, "timer/dataset_avg": 8.49858327826305e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.9871380329132, "timer/agent.train_frac": 0.9059091483021021, "timer/agent.train_avg": 0.4310414231900368, "timer/agent.train_min": 0.3667769432067871, "timer/agent.train_max": 0.45428037643432617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2641890048980713, "timer/agent.report_frac": 0.0008799358607502614, "timer/agent.report_avg": 0.2641890048980713, "timer/agent.report_min": 0.2641890048980713, "timer/agent.report_max": 0.2641890048980713, "fps": 4.20326645987269}
+{"step": 1187150, "episode/length": 278.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05734767025089606}
+{"step": 1187668, "episode/length": 517.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.1000000461936, "episode/reward_rate": 0.032818532818532815}
+{"step": 1187887, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0639269406392694}
+{"step": 1188201, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.393150329589844, "train/action_min": 0.0, "train/action_std": 3.2685402035713196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03695887696812861, "train/actor_opt_grad_steps": 593235.0, "train/actor_opt_loss": -12.063145556952804, "train/adv_mag": 0.3803431522101164, "train/adv_max": 0.3193029537796974, "train/adv_mean": 0.0015271829991547747, "train/adv_min": -0.3484618407674134, "train/adv_std": 0.0410613193816971, "train/cont_avg": 0.9950103759765625, "train/cont_loss_mean": 3.197491284256948e-05, "train/cont_loss_std": 0.0009383695718749863, "train/cont_neg_acc": 0.9968750001862645, "train/cont_neg_loss": 0.003328769892454564, "train/cont_pos_acc": 0.9999999832361937, "train/cont_pos_loss": 1.578805742452616e-05, "train/cont_pred": 0.9950064839795232, "train/cont_rate": 0.9950103759765625, "train/dyn_loss_mean": 5.677666276693344, "train/dyn_loss_std": 8.884365767240524, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8720942046493292, "train/extr_critic_critic_opt_grad_steps": 593235.0, "train/extr_critic_critic_opt_loss": 15113.544067382812, "train/extr_critic_mag": 12.526967450976372, "train/extr_critic_max": 12.526967450976372, "train/extr_critic_mean": 3.840277012437582, "train/extr_critic_min": -0.32100930623710155, "train/extr_critic_std": 3.0072005316615105, "train/extr_return_normed_mag": 1.377054836601019, "train/extr_return_normed_max": 1.377054836601019, "train/extr_return_normed_mean": 0.39810365810990334, "train/extr_return_normed_min": -0.06649043556535617, "train/extr_return_normed_std": 0.3134719138033688, "train/extr_return_rate": 0.8582286015152931, "train/extr_return_raw_mag": 13.322458267211914, "train/extr_return_raw_max": 13.322458267211914, "train/extr_return_raw_mean": 3.8550594337284565, "train/extr_return_raw_min": -0.638348734471947, "train/extr_return_raw_std": 3.0317649953067303, "train/extr_reward_mag": 1.078008845448494, "train/extr_reward_max": 1.078008845448494, "train/extr_reward_mean": 0.0641413705307059, "train/extr_reward_min": -0.5747354738414288, "train/extr_reward_std": 0.24285575631074607, "train/image_loss_mean": 3.335526682436466, "train/image_loss_std": 8.538529083132744, "train/model_loss_mean": 6.805299766361713, "train/model_loss_std": 12.636865645647049, "train/model_opt_grad_norm": 20.51690313220024, "train/model_opt_grad_steps": 592746.625, "train/model_opt_loss": 19340.652862548828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2851.5625, "train/policy_entropy_mag": 2.713475689291954, "train/policy_entropy_max": 2.713475689291954, "train/policy_entropy_mean": 0.42810224229469895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6436858242377639, "train/policy_logprob_mag": 7.438384346663952, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42723676608875394, "train/policy_logprob_min": -7.438384346663952, "train/policy_logprob_std": 1.0506752850487828, "train/policy_randomness_mag": 0.9577378425747156, "train/policy_randomness_max": 0.9577378425747156, "train/policy_randomness_mean": 0.15110130503308028, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22719284845516086, "train/post_ent_mag": 56.07421278953552, "train/post_ent_max": 56.07421278953552, "train/post_ent_mean": 40.16862052679062, "train/post_ent_min": 19.98348969221115, "train/post_ent_std": 5.820601761341095, "train/prior_ent_mag": 76.79956316947937, "train/prior_ent_max": 76.79956316947937, "train/prior_ent_mean": 45.83612394332886, "train/prior_ent_min": 27.50856250524521, "train/prior_ent_std": 7.937638960778713, "train/rep_loss_mean": 5.677666276693344, "train/rep_loss_std": 8.884365767240524, "train/reward_avg": 0.048606872238451615, "train/reward_loss_mean": 0.06314136821310967, "train/reward_loss_std": 0.22086537745781243, "train/reward_max_data": 1.0359375085681677, "train/reward_max_pred": 1.0322965271770954, "train/reward_neg_acc": 0.9926590695977211, "train/reward_neg_loss": 0.02662088323268108, "train/reward_pos_acc": 0.9913332592695951, "train/reward_pos_loss": 0.7175927674397826, "train/reward_pred": 0.04833063457044773, "train/reward_rate": 0.052886962890625, "stats/sum_log_reward": 14.766667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 25.666666666666668, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 1.6666666666666667, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 3.3333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 6.333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.7028495570023855, "replay/size": 1000000.0, "replay/inserts": 1276.0, "replay/samples": 10208.0, "replay/insert_wait_avg": 3.4785569648383926e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3834256737209786e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1746084690094, "timer/env.step_count": 1276.0, "timer/env.step_total": 12.977535724639893, "timer/env.step_frac": 0.04323328942054644, "timer/env.step_avg": 0.010170482542821232, "timer/env.step_min": 0.0031235218048095703, "timer/env.step_max": 1.5943799018859863, "timer/replay.add_count": 1276.0, "timer/replay.add_total": 0.2742152214050293, "timer/replay.add_frac": 0.000913519044144401, "timer/replay.add_avg": 0.0002149022111324681, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0008480548858642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025951623916625977, "timer/logger.write_frac": 8.645509375022728e-05, "timer/logger.write_avg": 0.025951623916625977, "timer/logger.write_min": 0.025951623916625977, "timer/logger.write_max": 0.025951623916625977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1276.0, "timer/agent.policy_total": 10.123167276382446, "timer/agent.policy_frac": 0.03372426244849281, "timer/agent.policy_avg": 0.007933516674280914, "timer/agent.policy_min": 0.006194353103637695, "timer/agent.policy_max": 0.014389514923095703, "timer/dataset_count": 638.0, "timer/dataset_total": 0.05521559715270996, "timer/dataset_frac": 0.00018394492936737027, "timer/dataset_avg": 8.654482312336984e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001499652862548828, "timer/agent.train_count": 638.0, "timer/agent.train_total": 276.1080825328827, "timer/agent.train_frac": 0.9198249110446949, "timer/agent.train_avg": 0.4327712892364933, "timer/agent.train_min": 0.3777804374694824, "timer/agent.train_max": 0.453765869140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21729207038879395, "timer/agent.report_frac": 0.0007238855794534253, "timer/agent.report_avg": 0.21729207038879395, "timer/agent.report_min": 0.21729207038879395, "timer/agent.report_max": 0.21729207038879395, "fps": 4.250777447263183}
+{"step": 1188391, "episode/length": 503.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.01984126984126984}
+{"step": 1188560, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
+{"step": 1188623, "episode/length": 62.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.12698412698412698}
+{"step": 1188834, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06635071090047394}
+{"step": 1189031, "episode/length": 196.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07106598984771574}
+{"step": 1189237, "episode/length": 205.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06796116504854369}
+{"step": 1189445, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403186428931452, "train/action_min": 0.0, "train/action_std": 3.256084288320234, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037039528000018286, "train/actor_opt_grad_steps": 593865.0, "train/actor_opt_loss": -10.603351313260294, "train/adv_mag": 0.4151109904050827, "train/adv_max": 0.3230188693250379, "train/adv_mean": 0.002359486397014529, "train/adv_min": -0.38825629867853656, "train/adv_std": 0.0415895075927819, "train/cont_avg": 0.9949124243951613, "train/cont_loss_mean": 1.3214216302744277e-05, "train/cont_loss_std": 0.0003139096304659189, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.7062146950985624e-05, "train/cont_pos_acc": 0.9999999730817734, "train/cont_pos_loss": 1.2967889831781665e-05, "train/cont_pred": 0.9949002323612091, "train/cont_rate": 0.9949124243951613, "train/dyn_loss_mean": 5.956712692014633, "train/dyn_loss_std": 8.930629807133828, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8489251405962052, "train/extr_critic_critic_opt_grad_steps": 593865.0, "train/extr_critic_critic_opt_loss": 15058.668189264114, "train/extr_critic_mag": 12.533156010412402, "train/extr_critic_max": 12.533156010412402, "train/extr_critic_mean": 3.7887859036845546, "train/extr_critic_min": -0.3489198434737421, "train/extr_critic_std": 2.991837622657899, "train/extr_return_normed_mag": 1.378873973123489, "train/extr_return_normed_max": 1.378873973123489, "train/extr_return_normed_mean": 0.3980534913078431, "train/extr_return_normed_min": -0.06757357229869213, "train/extr_return_normed_std": 0.31463173296182384, "train/extr_return_rate": 0.8545835844932064, "train/extr_return_raw_mag": 13.229878856289771, "train/extr_return_raw_max": 13.229878856289771, "train/extr_return_raw_mean": 3.811455561268714, "train/extr_return_raw_min": -0.6595231722439489, "train/extr_return_raw_std": 3.0213734084560024, "train/extr_reward_mag": 1.094227094804087, "train/extr_reward_max": 1.094227094804087, "train/extr_reward_mean": 0.06613366918698434, "train/extr_reward_min": -0.5969781279563904, "train/extr_reward_std": 0.24631980950793914, "train/image_loss_mean": 3.4241345813197475, "train/image_loss_std": 8.422957205003307, "train/model_loss_mean": 7.063777769765546, "train/model_loss_std": 12.565312139449581, "train/model_opt_grad_norm": 21.8673707618088, "train/model_opt_grad_steps": 593375.3225806452, "train/model_opt_loss": 11821.02287046371, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 1653.225806451613, "train/policy_entropy_mag": 2.72690123896445, "train/policy_entropy_max": 2.72690123896445, "train/policy_entropy_mean": 0.44248476528352304, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6626921728734048, "train/policy_logprob_mag": 7.438384332964497, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44210878014564514, "train/policy_logprob_min": -7.438384332964497, "train/policy_logprob_std": 1.0636205365580897, "train/policy_randomness_mag": 0.9624764678939697, "train/policy_randomness_max": 0.9624764678939697, "train/policy_randomness_mean": 0.1561777036516897, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2339012519486489, "train/post_ent_mag": 55.31746384405321, "train/post_ent_max": 55.31746384405321, "train/post_ent_mean": 40.14324772742487, "train/post_ent_min": 19.90821610727618, "train/post_ent_std": 5.898954391479492, "train/prior_ent_mag": 76.70261629166141, "train/prior_ent_max": 76.70261629166141, "train/prior_ent_mean": 46.08715420384561, "train/prior_ent_min": 27.350819741525957, "train/prior_ent_std": 7.919899302144205, "train/rep_loss_mean": 5.956712692014633, "train/rep_loss_std": 8.930629807133828, "train/reward_avg": 0.0504489034534462, "train/reward_loss_mean": 0.06560237645622223, "train/reward_loss_std": 0.23340607963262067, "train/reward_max_data": 1.0467742047002238, "train/reward_max_pred": 1.0453104049928728, "train/reward_neg_acc": 0.9922701043467368, "train/reward_neg_loss": 0.02677968525958638, "train/reward_pos_acc": 0.9862987004941509, "train/reward_pos_loss": 0.7352563565777194, "train/reward_pred": 0.05001974382227467, "train/reward_rate": 0.05500252016129032, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.37011103828748065, "replay/size": 1000000.0, "replay/inserts": 1244.0, "replay/samples": 9952.0, "replay/insert_wait_avg": 3.269822651167008e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.373302514913381e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23640036582947, "timer/env.step_count": 1244.0, "timer/env.step_total": 17.863782167434692, "timer/env.step_frac": 0.059499055230039344, "timer/env.step_avg": 0.014359953510799592, "timer/env.step_min": 0.0028913021087646484, "timer/env.step_max": 1.9306678771972656, "timer/replay.add_count": 1244.0, "timer/replay.add_total": 0.2755615711212158, "timer/replay.add_frac": 0.0009178153308041661, "timer/replay.add_avg": 0.0002215125169784693, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.01148843765258789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022512197494506836, "timer/logger.write_frac": 7.49815727442654e-05, "timer/logger.write_avg": 0.022512197494506836, "timer/logger.write_min": 0.022512197494506836, "timer/logger.write_max": 0.022512197494506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005896091461181641, "timer/checkpoint.save_frac": 1.963816330730525e-06, "timer/checkpoint.save_avg": 0.0005896091461181641, "timer/checkpoint.save_min": 0.0005896091461181641, "timer/checkpoint.save_max": 0.0005896091461181641, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1887383460998535, "timer/agent.save_frac": 0.003959341187981903, "timer/agent.save_avg": 1.1887383460998535, "timer/agent.save_min": 1.1887383460998535, "timer/agent.save_max": 1.1887383460998535, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.6284804103186563e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1244.0, "timer/agent.policy_total": 13.279946088790894, "timer/agent.policy_frac": 0.04423163238238155, "timer/agent.policy_avg": 0.010675197820571457, "timer/agent.policy_min": 0.006081819534301758, "timer/agent.policy_max": 2.3377509117126465, "timer/dataset_count": 622.0, "timer/dataset_total": 0.05417609214782715, "timer/dataset_frac": 0.00018044478311695427, "timer/dataset_avg": 8.709982660422371e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 622.0, "timer/agent.train_total": 268.0858316421509, "timer/agent.train_frac": 0.8929158200521188, "timer/agent.train_avg": 0.43100616019638405, "timer/agent.train_min": 0.36894893646240234, "timer/agent.train_max": 0.491152286529541, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26505565643310547, "timer/agent.report_frac": 0.0008828231890275221, "timer/agent.report_avg": 0.26505565643310547, "timer/agent.report_min": 0.26505565643310547, "timer/agent.report_max": 0.26505565643310547, "fps": 4.143316882013713}
+{"step": 1189483, "episode/length": 245.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.700000017881393, "episode/reward_rate": 0.04065040650406504}
+{"step": 1189657, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07471264367816093}
+{"step": 1189813, "episode/length": 155.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.08333333333333333}
+{"step": 1189872, "episode/length": 58.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0847457627118644}
+{"step": 1190066, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.061855670103092786}
+{"step": 1190321, "episode/length": 254.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 1190502, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0718232044198895}
+{"step": 1190545, "episode/length": 42.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.11627906976744186}
+{"step": 1190603, "episode/length": 57.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.699999965727329, "episode/reward_rate": 0.13793103448275862}
+{"step": 1190685, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.369342434790827, "train/action_min": 0.0, "train/action_std": 3.2732513604625577, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03650318960388822, "train/actor_opt_grad_steps": 594485.0, "train/actor_opt_loss": -10.748587000754572, "train/adv_mag": 0.41681864785571254, "train/adv_max": 0.3326962967553446, "train/adv_mean": 0.0024952177434663042, "train/adv_min": -0.38272970578362864, "train/adv_std": 0.04172096058966652, "train/cont_avg": 0.9948494203629032, "train/cont_loss_mean": 8.89588799997264e-05, "train/cont_loss_std": 0.002750850392832519, "train/cont_neg_acc": 0.9903033808354409, "train/cont_neg_loss": 0.017255353255197673, "train/cont_pos_acc": 0.9999999807726953, "train/cont_pos_loss": 9.41606464289363e-06, "train/cont_pred": 0.9948834536537048, "train/cont_rate": 0.9948494203629032, "train/dyn_loss_mean": 5.81930043620448, "train/dyn_loss_std": 9.018597102934315, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9004131113329241, "train/extr_critic_critic_opt_grad_steps": 594485.0, "train/extr_critic_critic_opt_loss": 15302.600396925403, "train/extr_critic_mag": 12.623428144762594, "train/extr_critic_max": 12.623428144762594, "train/extr_critic_mean": 3.8543413954396404, "train/extr_critic_min": -0.31677936546264157, "train/extr_critic_std": 3.020209070174925, "train/extr_return_normed_mag": 1.3736533061150582, "train/extr_return_normed_max": 1.3736533061150582, "train/extr_return_normed_mean": 0.400531931750236, "train/extr_return_normed_min": -0.0689126558361515, "train/extr_return_normed_std": 0.31569231565921535, "train/extr_return_rate": 0.8609375472991697, "train/extr_return_raw_mag": 13.275931404482934, "train/extr_return_raw_max": 13.275931404482934, "train/extr_return_raw_mean": 3.87843616162577, "train/extr_return_raw_min": -0.6555003725713299, "train/extr_return_raw_std": 3.049059371794424, "train/extr_reward_mag": 1.0869875723315823, "train/extr_reward_max": 1.0869875723315823, "train/extr_reward_mean": 0.06455786634356744, "train/extr_reward_min": -0.591774046421051, "train/extr_reward_std": 0.24342723503228156, "train/image_loss_mean": 3.4978593126420052, "train/image_loss_std": 8.84016227722168, "train/model_loss_mean": 7.0527253074030725, "train/model_loss_std": 12.991022694495417, "train/model_opt_grad_norm": 18.012227058410645, "train/model_opt_grad_steps": 593995.0, "train/model_opt_loss": 9220.607390372983, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1310.483870967742, "train/policy_entropy_mag": 2.720714065336412, "train/policy_entropy_max": 2.720714065336412, "train/policy_entropy_mean": 0.41704964565653957, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6331578805561988, "train/policy_logprob_mag": 7.438384248364356, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41667869566909727, "train/policy_logprob_min": -7.438384248364356, "train/policy_logprob_std": 1.042278165778806, "train/policy_randomness_mag": 0.960292669073228, "train/policy_randomness_max": 0.960292669073228, "train/policy_randomness_mean": 0.14720022281812084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22347694443118188, "train/post_ent_mag": 55.664271077802105, "train/post_ent_max": 55.664271077802105, "train/post_ent_mean": 40.120925041937056, "train/post_ent_min": 20.165964003532164, "train/post_ent_std": 5.812450870390861, "train/prior_ent_mag": 76.75984487225932, "train/prior_ent_max": 76.75984487225932, "train/prior_ent_mean": 45.91523115096554, "train/prior_ent_min": 27.48230771095522, "train/prior_ent_std": 7.978982240922989, "train/rep_loss_mean": 5.81930043620448, "train/rep_loss_std": 9.018597102934315, "train/reward_avg": 0.049415637588789384, "train/reward_loss_mean": 0.06319676513873762, "train/reward_loss_std": 0.2212819755077362, "train/reward_max_data": 1.038709686648461, "train/reward_max_pred": 1.0372870314505793, "train/reward_neg_acc": 0.9924118028533074, "train/reward_neg_loss": 0.026220312372090354, "train/reward_pos_acc": 0.9925473822701362, "train/reward_pos_loss": 0.7135760245784637, "train/reward_pred": 0.04926783588504599, "train/reward_rate": 0.05385269657258065, "stats/sum_log_reward": 9.322222550710043, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 7.555555555555555, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 2.111111111111111, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3016965455479092, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.236916757399036e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3728776285725254e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.037428855896, "timer/env.step_count": 1240.0, "timer/env.step_total": 21.73396348953247, "timer/env.step_frac": 0.07243750745501491, "timer/env.step_avg": 0.017527389910913283, "timer/env.step_min": 0.0027968883514404297, "timer/env.step_max": 1.631800889968872, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.25168561935424805, "timer/replay.add_frac": 0.0008388474075183778, "timer/replay.add_avg": 0.0002029722736727807, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0007390975952148438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03103017807006836, "timer/logger.write_frac": 0.00010342102379824, "timer/logger.write_avg": 0.03103017807006836, "timer/logger.write_min": 0.03103017807006836, "timer/logger.write_max": 0.03103017807006836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 9.809146404266357, "timer/agent.policy_frac": 0.03269307579947821, "timer/agent.policy_avg": 0.007910601938924481, "timer/agent.policy_min": 0.006064891815185547, "timer/agent.policy_max": 0.015289306640625, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05266547203063965, "timer/dataset_frac": 0.00017552967385257184, "timer/dataset_avg": 8.494430972683815e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016736984252929688, "timer/agent.train_count": 620.0, "timer/agent.train_total": 267.53513956069946, "timer/agent.train_frac": 0.8916725509242817, "timer/agent.train_avg": 0.43150828961403137, "timer/agent.train_min": 0.3777148723602295, "timer/agent.train_max": 0.4532811641693115, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23482584953308105, "timer/agent.report_frac": 0.0007826551854830912, "timer/agent.report_avg": 0.23482584953308105, "timer/agent.report_min": 0.23482584953308105, "timer/agent.report_max": 0.23482584953308105, "fps": 4.132740609513254}
+{"step": 1190789, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07526881720430108}
+{"step": 1191005, "episode/length": 215.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06018518518518518}
+{"step": 1191457, "episode/length": 451.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.030973451327433628}
+{"step": 1191730, "episode/length": 272.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.054945054945054944}
+{"step": 1191959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3816423416137695, "train/action_min": 0.0, "train/action_std": 3.2783816754817963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035610839375294745, "train/actor_opt_grad_steps": 595115.0, "train/actor_opt_loss": -11.631300700828433, "train/adv_mag": 0.3563448286149651, "train/adv_max": 0.30419867346063256, "train/adv_mean": 0.0015738619242213758, "train/adv_min": -0.30791222443804145, "train/adv_std": 0.03974284784635529, "train/cont_avg": 0.9951934814453125, "train/cont_loss_mean": 1.1587079798758282e-05, "train/cont_loss_std": 0.0002909936469519536, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.569647335089249e-06, "train/cont_pos_acc": 0.9999999748542905, "train/cont_pos_loss": 1.1582331609805152e-05, "train/cont_pred": 0.9951823139563203, "train/cont_rate": 0.9951934814453125, "train/dyn_loss_mean": 5.708090603351593, "train/dyn_loss_std": 8.916562207043171, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8536256579682231, "train/extr_critic_critic_opt_grad_steps": 595115.0, "train/extr_critic_critic_opt_loss": 15015.534317016602, "train/extr_critic_mag": 12.48907570540905, "train/extr_critic_max": 12.48907570540905, "train/extr_critic_mean": 3.7386821024119854, "train/extr_critic_min": -0.3579462468624115, "train/extr_critic_std": 2.990009069442749, "train/extr_return_normed_mag": 1.3764616772532463, "train/extr_return_normed_max": 1.3764616772532463, "train/extr_return_normed_mean": 0.38846948044374585, "train/extr_return_normed_min": -0.07345446868566796, "train/extr_return_normed_std": 0.31371842604130507, "train/extr_return_rate": 0.8540181936696172, "train/extr_return_raw_mag": 13.25606980919838, "train/extr_return_raw_max": 13.25606980919838, "train/extr_return_raw_mean": 3.753850106149912, "train/extr_return_raw_min": -0.688241149764508, "train/extr_return_raw_std": 3.0171044506132603, "train/extr_reward_mag": 1.0863017588853836, "train/extr_reward_max": 1.0863017588853836, "train/extr_reward_mean": 0.06088522035861388, "train/extr_reward_min": -0.5786952171474695, "train/extr_reward_std": 0.23719733278267086, "train/image_loss_mean": 3.438787069171667, "train/image_loss_std": 8.556598082184792, "train/model_loss_mean": 6.926611050963402, "train/model_loss_std": 12.680613622069359, "train/model_opt_grad_norm": 21.081465855240822, "train/model_opt_grad_steps": 594625.0, "train/model_opt_loss": 17316.527618408203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7257882729172707, "train/policy_entropy_max": 2.7257882729172707, "train/policy_entropy_mean": 0.4382778061553836, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6481301905587316, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4393679266795516, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0621784506365657, "train/policy_randomness_mag": 0.9620836433023214, "train/policy_randomness_max": 0.9620836433023214, "train/policy_randomness_mean": 0.15469283203128725, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22876151441596448, "train/post_ent_mag": 55.70390206575394, "train/post_ent_max": 55.70390206575394, "train/post_ent_mean": 40.22341573238373, "train/post_ent_min": 19.773541748523712, "train/post_ent_std": 5.853505954146385, "train/prior_ent_mag": 76.82809126377106, "train/prior_ent_max": 76.82809126377106, "train/prior_ent_mean": 45.914108753204346, "train/prior_ent_min": 27.9199238717556, "train/prior_ent_std": 7.952087737619877, "train/rep_loss_mean": 5.708090603351593, "train/rep_loss_std": 8.916562207043171, "train/reward_avg": 0.047900390200084075, "train/reward_loss_mean": 0.06295809108996764, "train/reward_loss_std": 0.22804158134385943, "train/reward_max_data": 1.0343750081956387, "train/reward_max_pred": 1.0345345810055733, "train/reward_neg_acc": 0.9927730429917574, "train/reward_neg_loss": 0.026740661371150054, "train/reward_pos_acc": 0.9907722100615501, "train/reward_pos_loss": 0.7229882758110762, "train/reward_pred": 0.04759527771966532, "train/reward_rate": 0.0521392822265625, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 27.25, "stats/max_log_achievement_collect_wood": 14.25, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 5.75, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.5025257915258408, "replay/size": 1000000.0, "replay/inserts": 1274.0, "replay/samples": 10192.0, "replay/insert_wait_avg": 3.347591477997449e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3773398272096642e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1597590446472, "timer/env.step_count": 1274.0, "timer/env.step_total": 14.16084885597229, "timer/env.step_frac": 0.04717770596912672, "timer/env.step_avg": 0.011115265978000227, "timer/env.step_min": 0.0029840469360351562, "timer/env.step_max": 1.6166350841522217, "timer/replay.add_count": 1274.0, "timer/replay.add_total": 0.2555708885192871, "timer/replay.add_frac": 0.0008514495391811407, "timer/replay.add_avg": 0.00020060509302926774, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.002660512924194336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022057056427001953, "timer/logger.write_frac": 7.348438877085145e-05, "timer/logger.write_avg": 0.022057056427001953, "timer/logger.write_min": 0.022057056427001953, "timer/logger.write_max": 0.022057056427001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1274.0, "timer/agent.policy_total": 10.046361446380615, "timer/agent.policy_frac": 0.033470047678464024, "timer/agent.policy_avg": 0.007885684023846637, "timer/agent.policy_min": 0.006014108657836914, "timer/agent.policy_max": 0.014773368835449219, "timer/dataset_count": 637.0, "timer/dataset_total": 0.05447077751159668, "timer/dataset_frac": 0.00018147261873132845, "timer/dataset_avg": 8.551142466498693e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 637.0, "timer/agent.train_total": 275.0016746520996, "timer/agent.train_frac": 0.9161843530504518, "timer/agent.train_avg": 0.4317137749640496, "timer/agent.train_min": 0.36754727363586426, "timer/agent.train_max": 0.45380353927612305, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23158836364746094, "timer/agent.report_frac": 0.0007715503383417008, "timer/agent.report_avg": 0.23158836364746094, "timer/agent.report_min": 0.23158836364746094, "timer/agent.report_max": 0.23158836364746094, "fps": 4.244352727735984}
+{"step": 1192161, "episode/length": 430.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03480278422273782}
+{"step": 1192430, "episode/length": 268.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05204460966542751}
+{"step": 1192481, "episode/length": 50.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.1568627450980392}
+{"step": 1192705, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05803571428571429}
+{"step": 1192996, "episode/length": 290.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.048109965635738834}
+{"step": 1193206, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
+{"step": 1193207, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401558168472782, "train/action_min": 0.0, "train/action_std": 3.31633230563133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03631619204797091, "train/actor_opt_grad_steps": 595745.0, "train/actor_opt_loss": -12.063320570415065, "train/adv_mag": 0.3733136622655776, "train/adv_max": 0.3004290831665839, "train/adv_mean": 0.0014457582149207742, "train/adv_min": -0.345034065025468, "train/adv_std": 0.04046609264708335, "train/cont_avg": 0.9948021673387096, "train/cont_loss_mean": 1.1533989071073201e-05, "train/cont_loss_std": 0.0003030143561901358, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.83443632981955e-05, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.1087382267462434e-05, "train/cont_pred": 0.994792103767395, "train/cont_rate": 0.9948021673387096, "train/dyn_loss_mean": 6.048818126801522, "train/dyn_loss_std": 9.10014832404352, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8690183672212786, "train/extr_critic_critic_opt_grad_steps": 595745.0, "train/extr_critic_critic_opt_loss": 15149.636608492943, "train/extr_critic_mag": 12.576377284142279, "train/extr_critic_max": 12.576377284142279, "train/extr_critic_mean": 3.709968634190098, "train/extr_critic_min": -0.3527509416303327, "train/extr_critic_std": 3.0914529369723414, "train/extr_return_normed_mag": 1.3861717562521658, "train/extr_return_normed_max": 1.3861717562521658, "train/extr_return_normed_mean": 0.38451171714452004, "train/extr_return_normed_min": -0.07297428856573758, "train/extr_return_normed_std": 0.321883937524211, "train/extr_return_rate": 0.8364657250142866, "train/extr_return_raw_mag": 13.42071456293906, "train/extr_return_raw_max": 13.42071456293906, "train/extr_return_raw_mean": 3.7239606745781435, "train/extr_return_raw_min": -0.7049775431233067, "train/extr_return_raw_std": 3.116052500663265, "train/extr_reward_mag": 1.0876119252174132, "train/extr_reward_max": 1.0876119252174132, "train/extr_reward_mean": 0.06203960753496616, "train/extr_reward_min": -0.6153833154709109, "train/extr_reward_std": 0.23968838924361813, "train/image_loss_mean": 3.7659267206345834, "train/image_loss_std": 9.023614222003568, "train/model_loss_mean": 7.461100409107823, "train/model_loss_std": 13.21154519050352, "train/model_opt_grad_norm": 20.250766446513513, "train/model_opt_grad_steps": 595254.1612903225, "train/model_opt_loss": 10765.136750252017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1451.6129032258063, "train/policy_entropy_mag": 2.6993409510581725, "train/policy_entropy_max": 2.6993409510581725, "train/policy_entropy_mean": 0.4291232793081191, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6330642229126345, "train/policy_logprob_mag": 7.438384271437122, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4299978935910809, "train/policy_logprob_min": -7.438384271437122, "train/policy_logprob_std": 1.0499293054303815, "train/policy_randomness_mag": 0.9527489004596588, "train/policy_randomness_max": 0.9527489004596588, "train/policy_randomness_mean": 0.15146168778019567, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22344388884882774, "train/post_ent_mag": 55.39720270710607, "train/post_ent_max": 55.39720270710607, "train/post_ent_mean": 40.227316210346835, "train/post_ent_min": 19.743840971300678, "train/post_ent_std": 5.922587663896622, "train/prior_ent_mag": 76.7405774516444, "train/prior_ent_max": 76.7405774516444, "train/prior_ent_mean": 46.24702841235745, "train/prior_ent_min": 27.71161460876465, "train/prior_ent_std": 7.940555734019125, "train/rep_loss_mean": 6.048818126801522, "train/rep_loss_std": 9.10014832404352, "train/reward_avg": 0.04974798386495921, "train/reward_loss_mean": 0.06587136897348589, "train/reward_loss_std": 0.23274341730340833, "train/reward_max_data": 1.0258064577656407, "train/reward_max_pred": 1.0231304783974924, "train/reward_neg_acc": 0.9921221088978552, "train/reward_neg_loss": 0.027295842594016465, "train/reward_pos_acc": 0.9875210562059956, "train/reward_pos_loss": 0.7344899283301446, "train/reward_pred": 0.04925726483305616, "train/reward_rate": 0.05456149193548387, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5773482720057169, "replay/size": 1000000.0, "replay/inserts": 1248.0, "replay/samples": 9984.0, "replay/insert_wait_avg": 3.3516150254469653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37291275537931e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.55227422714233, "timer/env.step_count": 1248.0, "timer/env.step_total": 17.13398766517639, "timer/env.step_frac": 0.05681929512582725, "timer/env.step_avg": 0.013729156782993903, "timer/env.step_min": 0.0031108856201171875, "timer/env.step_max": 1.5756504535675049, "timer/replay.add_count": 1248.0, "timer/replay.add_total": 0.2527451515197754, "timer/replay.add_frac": 0.0008381470581428834, "timer/replay.add_avg": 0.00020252015346135848, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0009484291076660156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03347063064575195, "timer/logger.write_frac": 0.00011099445604094637, "timer/logger.write_avg": 0.03347063064575195, "timer/logger.write_min": 0.03347063064575195, "timer/logger.write_max": 0.03347063064575195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022268295288085938, "timer/checkpoint.save_frac": 7.384555578351396e-07, "timer/checkpoint.save_avg": 0.00022268295288085938, "timer/checkpoint.save_min": 0.00022268295288085938, "timer/checkpoint.save_max": 0.00022268295288085938, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.187772274017334, "timer/agent.save_frac": 0.0039388602757565415, "timer/agent.save_avg": 1.187772274017334, "timer/agent.save_min": 1.187772274017334, "timer/agent.save_max": 1.187772274017334, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1426280104210152e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "timer/agent.policy_count": 1248.0, "timer/agent.policy_total": 13.849927425384521, "timer/agent.policy_frac": 0.04592877789060265, "timer/agent.policy_avg": 0.01109769825751965, "timer/agent.policy_min": 0.005942821502685547, "timer/agent.policy_max": 2.8658151626586914, "timer/dataset_count": 624.0, "timer/dataset_total": 0.05486941337585449, "timer/dataset_frac": 0.0001819565563432775, "timer/dataset_avg": 8.793175220489502e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 624.0, "timer/agent.train_total": 269.57619762420654, "timer/agent.train_frac": 0.8939617461520121, "timer/agent.train_avg": 0.4320131372182797, "timer/agent.train_min": 0.3759765625, "timer/agent.train_max": 0.4532451629638672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2579374313354492, "timer/agent.report_frac": 0.0008553655647151893, "timer/agent.report_avg": 0.2579374313354492, "timer/agent.report_min": 0.2579374313354492, "timer/agent.report_max": 0.2579374313354492, "fps": 4.138524129486998}
+{"step": 1193395, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
+{"step": 1193592, "episode/length": 196.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06598984771573604}
+{"step": 1193655, "episode/length": 62.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.07936507936507936}
+{"step": 1193836, "episode/length": 180.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 11.1000000461936, "episode/reward_rate": 0.055248618784530384}
+{"step": 1194040, "episode/length": 203.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06372549019607843}
+{"step": 1194250, "episode/length": 209.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0761904761904762}
+{"step": 1194471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.515699598524305, "train/action_min": 0.0, "train/action_std": 3.3589602235763794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0364912153768634, "train/actor_opt_grad_steps": 596370.0, "train/actor_opt_loss": -12.008325359177968, "train/adv_mag": 0.38573636824176427, "train/adv_max": 0.31083633809808703, "train/adv_mean": 0.0016045464223088135, "train/adv_min": -0.3537151153598513, "train/adv_std": 0.041251414765914284, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 2.304318982940653e-05, "train/cont_loss_std": 0.0006788633906846068, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0028544039308818505, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.1665167630465274e-05, "train/cont_pred": 0.9952386390595209, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.726122909122044, "train/dyn_loss_std": 8.888423056829543, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9111589392026266, "train/extr_critic_critic_opt_grad_steps": 596370.0, "train/extr_critic_critic_opt_loss": 15262.502185639882, "train/extr_critic_mag": 12.642235498579721, "train/extr_critic_max": 12.642235498579721, "train/extr_critic_mean": 3.7302924451373873, "train/extr_critic_min": -0.3595796653202602, "train/extr_critic_std": 3.060747165528555, "train/extr_return_normed_mag": 1.378080648089212, "train/extr_return_normed_max": 1.378080648089212, "train/extr_return_normed_mean": 0.3885424016487031, "train/extr_return_normed_min": -0.06702532350189155, "train/extr_return_normed_std": 0.31810713476604885, "train/extr_return_rate": 0.8339668521805416, "train/extr_return_raw_mag": 13.356465036906894, "train/extr_return_raw_max": 13.356465036906894, "train/extr_return_raw_mean": 3.7458995978037515, "train/extr_return_raw_min": -0.6785577010540735, "train/extr_return_raw_std": 3.089681833509415, "train/extr_reward_mag": 1.0969177768343972, "train/extr_reward_max": 1.0969177768343972, "train/extr_reward_mean": 0.06486734245268125, "train/extr_reward_min": -0.6062831216388278, "train/extr_reward_std": 0.24439491591756307, "train/image_loss_mean": 3.5940830366952077, "train/image_loss_std": 8.513814078436958, "train/model_loss_mean": 7.093526628282335, "train/model_loss_std": 12.576705478486561, "train/model_opt_grad_norm": 17.851451010931108, "train/model_opt_grad_steps": 595879.0, "train/model_opt_loss": 10919.253324962798, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1547.6190476190477, "train/policy_entropy_mag": 2.7039842870500355, "train/policy_entropy_max": 2.7039842870500355, "train/policy_entropy_mean": 0.4546954556116982, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6628073340370542, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4547534140329512, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0704083054784745, "train/policy_randomness_mag": 0.9543877934652661, "train/policy_randomness_max": 0.9543877934652661, "train/policy_randomness_mean": 0.16048754266803228, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2339419046091655, "train/post_ent_mag": 55.751958695669025, "train/post_ent_max": 55.751958695669025, "train/post_ent_mean": 40.277406480577255, "train/post_ent_min": 19.728588376726425, "train/post_ent_std": 5.911918730962844, "train/prior_ent_mag": 76.80747259230841, "train/prior_ent_max": 76.80747259230841, "train/prior_ent_mean": 45.98603239513579, "train/prior_ent_min": 27.531708066425626, "train/prior_ent_std": 8.007537864503407, "train/rep_loss_mean": 5.726122909122044, "train/rep_loss_std": 8.888423056829543, "train/reward_avg": 0.049339657028516136, "train/reward_loss_mean": 0.06374686838142456, "train/reward_loss_std": 0.22204620402956765, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0347688727908664, "train/reward_neg_acc": 0.9925340669495719, "train/reward_neg_loss": 0.026714650500151847, "train/reward_pos_acc": 0.9920298665288895, "train/reward_pos_loss": 0.7160696661661542, "train/reward_pred": 0.04901872223450078, "train/reward_rate": 0.053726438492063495, "stats/sum_log_reward": 10.266666968663534, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.833333333333333, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2491819312175115, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.3495546896246414e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3779565880570232e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2676613330841, "timer/env.step_count": 1264.0, "timer/env.step_total": 17.890406370162964, "timer/env.step_frac": 0.05958152899561603, "timer/env.step_avg": 0.01415380250804032, "timer/env.step_min": 0.003099203109741211, "timer/env.step_max": 1.8793604373931885, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.2542850971221924, "timer/replay.add_frac": 0.0008468614168880355, "timer/replay.add_avg": 0.00020117491860932943, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0006947517395019531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029172658920288086, "timer/logger.write_frac": 9.715551381980868e-05, "timer/logger.write_avg": 0.029172658920288086, "timer/logger.write_min": 0.029172658920288086, "timer/logger.write_max": 0.029172658920288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 9.987766742706299, "timer/agent.policy_frac": 0.03326287852099718, "timer/agent.policy_avg": 0.007901714195179033, "timer/agent.policy_min": 0.00624394416809082, "timer/agent.policy_max": 0.014141559600830078, "timer/dataset_count": 632.0, "timer/dataset_total": 0.053957223892211914, "timer/dataset_frac": 0.00017969708643501795, "timer/dataset_avg": 8.537535425982898e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 632.0, "timer/agent.train_total": 271.4022755622864, "timer/agent.train_frac": 0.9038678169915286, "timer/agent.train_avg": 0.4294339803200734, "timer/agent.train_min": 0.3670008182525635, "timer/agent.train_max": 0.45448994636535645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2636682987213135, "timer/agent.report_frac": 0.0008781108746466997, "timer/agent.report_avg": 0.2636682987213135, "timer/agent.report_min": 0.2636682987213135, "timer/agent.report_max": 0.2636682987213135, "fps": 4.209499881615365}
+{"step": 1194511, "episode/length": 260.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06513409961685823}
+{"step": 1194737, "episode/length": 225.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07079646017699115}
+{"step": 1194989, "episode/length": 251.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05952380952380952}
+{"step": 1195184, "episode/length": 194.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.08205128205128205}
+{"step": 1195392, "episode/length": 207.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07211538461538461}
+{"step": 1195627, "episode/length": 234.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05531914893617021}
+{"step": 1195735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.389916798425099, "train/action_min": 0.0, "train/action_std": 3.2621048783499096, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035810638692170854, "train/actor_opt_grad_steps": 597000.0, "train/actor_opt_loss": -11.286601528288825, "train/adv_mag": 0.37403494450781083, "train/adv_max": 0.3190147124585651, "train/adv_mean": 0.001725488539257582, "train/adv_min": -0.3279263027130611, "train/adv_std": 0.04027159689437775, "train/cont_avg": 0.9954117063492064, "train/cont_loss_mean": 2.3545870339674705e-05, "train/cont_loss_std": 0.000739418484251019, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004126157589223529, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 8.261394056556052e-06, "train/cont_pred": 0.9954162533321078, "train/cont_rate": 0.9954117063492064, "train/dyn_loss_mean": 5.789858696952699, "train/dyn_loss_std": 8.939673817346966, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.869303169704619, "train/extr_critic_critic_opt_grad_steps": 597000.0, "train/extr_critic_critic_opt_loss": 15065.477523561507, "train/extr_critic_mag": 12.605085887606181, "train/extr_critic_max": 12.605085887606181, "train/extr_critic_mean": 3.8366749135274736, "train/extr_critic_min": -0.33265201439933173, "train/extr_critic_std": 3.006535670113942, "train/extr_return_normed_mag": 1.3698205115303161, "train/extr_return_normed_max": 1.3698205115303161, "train/extr_return_normed_mean": 0.3973500643457685, "train/extr_return_normed_min": -0.065550943659175, "train/extr_return_normed_std": 0.310743290990118, "train/extr_return_rate": 0.859372980064816, "train/extr_return_raw_mag": 13.338989106435625, "train/extr_return_raw_max": 13.338989106435625, "train/extr_return_raw_mean": 3.8535103003184, "train/extr_return_raw_min": -0.6627012309100893, "train/extr_return_raw_std": 3.031511420295352, "train/extr_reward_mag": 1.0866671138339572, "train/extr_reward_max": 1.0866671138339572, "train/extr_reward_mean": 0.06738742151194149, "train/extr_reward_min": -0.6064388941204737, "train/extr_reward_std": 0.24790758367568727, "train/image_loss_mean": 3.383922440665109, "train/image_loss_std": 8.818571045285179, "train/model_loss_mean": 6.921940735408238, "train/model_loss_std": 12.944657537672255, "train/model_opt_grad_norm": 21.136236887129527, "train/model_opt_grad_steps": 596509.0, "train/model_opt_loss": 17304.85193452381, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7181681489187572, "train/policy_entropy_max": 2.7181681489187572, "train/policy_entropy_mean": 0.4233812353913746, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6350549828438532, "train/policy_logprob_mag": 7.438384290725466, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4232283958366939, "train/policy_logprob_min": -7.438384290725466, "train/policy_logprob_std": 1.0462106173000638, "train/policy_randomness_mag": 0.9593940755677601, "train/policy_randomness_max": 0.9593940755677601, "train/policy_randomness_mean": 0.14943499733058233, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22414654020279173, "train/post_ent_mag": 55.00674747285389, "train/post_ent_max": 55.00674747285389, "train/post_ent_mean": 40.01065572102865, "train/post_ent_min": 19.764496788146005, "train/post_ent_std": 5.805728829096234, "train/prior_ent_mag": 76.81602465917193, "train/prior_ent_max": 76.81602465917193, "train/prior_ent_mean": 45.7819578382704, "train/prior_ent_min": 27.75512913295201, "train/prior_ent_std": 7.830058786604139, "train/rep_loss_mean": 5.789858696952699, "train/rep_loss_std": 8.939673817346966, "train/reward_avg": 0.052821180650166104, "train/reward_loss_mean": 0.06407960344638143, "train/reward_loss_std": 0.22553644270177872, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.024494659333002, "train/reward_neg_acc": 0.992529623092167, "train/reward_neg_loss": 0.024419673008932954, "train/reward_pos_acc": 0.9918672158604577, "train/reward_pos_loss": 0.7216090910018437, "train/reward_pred": 0.05230612402397489, "train/reward_rate": 0.0568421378968254, "stats/sum_log_reward": 14.43333355585734, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.1666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.48577765623728436, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.3250337914575505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.382247745236264e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1948049068451, "timer/env.step_count": 1264.0, "timer/env.step_total": 17.49469256401062, "timer/env.step_frac": 0.05827779920921511, "timer/env.step_avg": 0.013840737787983086, "timer/env.step_min": 0.0030295848846435547, "timer/env.step_max": 1.6575422286987305, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.2543511390686035, "timer/replay.add_frac": 0.0008472869447142246, "timer/replay.add_avg": 0.00020122716698465468, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0033295154571533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03133559226989746, "timer/logger.write_frac": 0.00010438419239007603, "timer/logger.write_avg": 0.03133559226989746, "timer/logger.write_min": 0.03133559226989746, "timer/logger.write_max": 0.03133559226989746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 10.038549661636353, "timer/agent.policy_frac": 0.03344011787529589, "timer/agent.policy_avg": 0.00794189055509205, "timer/agent.policy_min": 0.005970954895019531, "timer/agent.policy_max": 0.014790773391723633, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05339360237121582, "timer/dataset_frac": 0.00017786317917055442, "timer/dataset_avg": 8.448354805572123e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 271.67012310028076, "timer/agent.train_frac": 0.9049794288897972, "timer/agent.train_avg": 0.4298577897156341, "timer/agent.train_min": 0.37799811363220215, "timer/agent.train_max": 0.45441627502441406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2579467296600342, "timer/agent.report_frac": 0.00085926446908393, "timer/agent.report_avg": 0.2579467296600342, "timer/agent.report_min": 0.2579467296600342, "timer/agent.report_max": 0.2579467296600342, "fps": 4.210516289843518}
+{"step": 1195917, "episode/length": 289.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05517241379310345}
+{"step": 1196145, "episode/length": 227.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.07456140350877193}
+{"step": 1196244, "episode/length": 98.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08080808080808081}
+{"step": 1196499, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.047058823529411764}
+{"step": 1196699, "episode/length": 199.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07}
+{"step": 1196901, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07425742574257425}
+{"step": 1196981, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.377325148809524, "train/action_min": 0.0, "train/action_std": 3.2182773597656733, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03709704343170401, "train/actor_opt_grad_steps": 597630.0, "train/actor_opt_loss": -10.574942306866722, "train/adv_mag": 0.3979794515503777, "train/adv_max": 0.32428296217842706, "train/adv_mean": 0.0018542389113304486, "train/adv_min": -0.35751986574558986, "train/adv_std": 0.04134704823058749, "train/cont_avg": 0.9949156746031746, "train/cont_loss_mean": 5.406852776667663e-05, "train/cont_loss_std": 0.0015468333538101722, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000819145523380621, "train/cont_pos_acc": 0.9999843760142251, "train/cont_pos_loss": 4.860363462951805e-05, "train/cont_pred": 0.9948836479868207, "train/cont_rate": 0.9949156746031746, "train/dyn_loss_mean": 5.877698777213929, "train/dyn_loss_std": 8.944135120936803, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8833567282510182, "train/extr_critic_critic_opt_grad_steps": 597630.0, "train/extr_critic_critic_opt_loss": 15365.116613963293, "train/extr_critic_mag": 12.69678386809334, "train/extr_critic_max": 12.69678386809334, "train/extr_critic_mean": 3.7500920901222834, "train/extr_critic_min": -0.3114989636436341, "train/extr_critic_std": 3.0352625771174355, "train/extr_return_normed_mag": 1.3715518485932123, "train/extr_return_normed_max": 1.3715518485932123, "train/extr_return_normed_mean": 0.3879209842000689, "train/extr_return_normed_min": -0.06805102527141571, "train/extr_return_normed_std": 0.3140289979794669, "train/extr_return_rate": 0.8495970150781056, "train/extr_return_raw_mag": 13.353993203904894, "train/extr_return_raw_max": 13.353993203904894, "train/extr_return_raw_mean": 3.7681471695975652, "train/extr_return_raw_min": -0.6749346592123546, "train/extr_return_raw_std": 3.060331321897961, "train/extr_reward_mag": 1.0881145341055733, "train/extr_reward_max": 1.0881145341055733, "train/extr_reward_mean": 0.06475985529167312, "train/extr_reward_min": -0.6306045149999951, "train/extr_reward_std": 0.2439749569646896, "train/image_loss_mean": 3.503698159777929, "train/image_loss_std": 8.938666684286934, "train/model_loss_mean": 7.094169874039907, "train/model_loss_std": 13.064163389660063, "train/model_opt_grad_norm": 21.247691411820668, "train/model_opt_grad_steps": 597138.6984126985, "train/model_opt_loss": 24030.050688244046, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3373.0158730158732, "train/policy_entropy_mag": 2.7225779881553045, "train/policy_entropy_max": 2.7225779881553045, "train/policy_entropy_mean": 0.43376222773203776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6440938938231695, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4349225844655718, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.057066139720735, "train/policy_randomness_mag": 0.9609505505788893, "train/policy_randomness_max": 0.9609505505788893, "train/policy_randomness_mean": 0.1530990323850087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22733687692218357, "train/post_ent_mag": 55.898762899731835, "train/post_ent_max": 55.898762899731835, "train/post_ent_mean": 40.15509844583178, "train/post_ent_min": 19.727305276053293, "train/post_ent_std": 5.8985525994073775, "train/prior_ent_mag": 76.76966482495504, "train/prior_ent_max": 76.76966482495504, "train/prior_ent_mean": 46.03638633849129, "train/prior_ent_min": 27.709067995586093, "train/prior_ent_std": 8.014796067797949, "train/rep_loss_mean": 5.877698777213929, "train/rep_loss_std": 8.944135120936803, "train/reward_avg": 0.050024801303469944, "train/reward_loss_mean": 0.06379842699047118, "train/reward_loss_std": 0.22381378118954007, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0340507919826205, "train/reward_neg_acc": 0.9925025512301733, "train/reward_neg_loss": 0.025628635157195347, "train/reward_pos_acc": 0.9889491626194545, "train/reward_pos_loss": 0.7250880182735504, "train/reward_pred": 0.04955498241479435, "train/reward_rate": 0.05443948412698413, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3961386779944102, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.3956469540419968e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3915962430485561e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2720103263855, "timer/env.step_count": 1246.0, "timer/env.step_total": 18.326662302017212, "timer/env.step_frac": 0.06103353516731963, "timer/env.step_avg": 0.014708396711089256, "timer/env.step_min": 0.002961874008178711, "timer/env.step_max": 1.9449141025543213, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.26580166816711426, "timer/replay.add_frac": 0.0008852029460827762, "timer/replay.add_avg": 0.00021332397124166472, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0008652210235595703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024968862533569336, "timer/logger.write_frac": 8.315414582407807e-05, "timer/logger.write_avg": 0.024968862533569336, "timer/logger.write_min": 0.024968862533569336, "timer/logger.write_max": 0.024968862533569336, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046372413635253906, "timer/checkpoint.save_frac": 1.544346860196815e-06, "timer/checkpoint.save_avg": 0.00046372413635253906, "timer/checkpoint.save_min": 0.00046372413635253906, "timer/checkpoint.save_max": 0.00046372413635253906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4193015098571777, "timer/agent.save_frac": 0.004726719311315248, "timer/agent.save_avg": 1.4193015098571777, "timer/agent.save_min": 1.4193015098571777, "timer/agent.save_max": 1.4193015098571777, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.9695924201213823e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 13.59782862663269, "timer/agent.policy_frac": 0.04528503543121556, "timer/agent.policy_avg": 0.01091318509360569, "timer/agent.policy_min": 0.006092071533203125, "timer/agent.policy_max": 2.3452389240264893, "timer/dataset_count": 623.0, "timer/dataset_total": 0.05350303649902344, "timer/dataset_frac": 0.00017818189727663078, "timer/dataset_avg": 8.587967335316764e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 623.0, "timer/agent.train_total": 267.34984707832336, "timer/agent.train_frac": 0.890358867573848, "timer/agent.train_avg": 0.42913298086408247, "timer/agent.train_min": 0.36965346336364746, "timer/agent.train_max": 0.45340442657470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26190853118896484, "timer/agent.report_frac": 0.0008722375785351394, "timer/agent.report_avg": 0.26190853118896484, "timer/agent.report_min": 0.26190853118896484, "timer/agent.report_max": 0.26190853118896484, "fps": 4.149494636468801}
+{"step": 1197157, "episode/length": 255.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.900000043213367, "episode/reward_rate": 0.02734375}
+{"step": 1197346, "episode/length": 188.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07936507936507936}
+{"step": 1197525, "episode/length": 178.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.055865921787709494}
+{"step": 1197778, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05928853754940711}
+{"step": 1197957, "episode/length": 178.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.0893854748603352}
+{"step": 1198128, "episode/length": 170.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.08187134502923976}
+{"step": 1198184, "episode/length": 55.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 1198241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4113866412450395, "train/action_min": 0.0, "train/action_std": 3.2475246399167985, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03558049685070439, "train/actor_opt_grad_steps": 598260.0, "train/actor_opt_loss": -11.8053912496756, "train/adv_mag": 0.37498939297502004, "train/adv_max": 0.3169344382153617, "train/adv_mean": 0.001453425199066433, "train/adv_min": -0.3389368655662688, "train/adv_std": 0.04034192050023684, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 0.00014046707001813365, "train/cont_loss_std": 0.004357738880400128, "train/cont_neg_acc": 0.9947089959704687, "train/cont_neg_loss": 0.012874679529649604, "train/cont_pos_acc": 0.9999843911519126, "train/cont_pos_loss": 6.716867686835694e-05, "train/cont_pred": 0.9952380174682254, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.6573032727317205, "train/dyn_loss_std": 8.889634677342006, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.845048671676999, "train/extr_critic_critic_opt_grad_steps": 598260.0, "train/extr_critic_critic_opt_loss": 15081.744373139882, "train/extr_critic_mag": 12.481896733480786, "train/extr_critic_max": 12.481896733480786, "train/extr_critic_mean": 3.7520232465532093, "train/extr_critic_min": -0.34755770743839326, "train/extr_critic_std": 2.9608089166974265, "train/extr_return_normed_mag": 1.367574691772461, "train/extr_return_normed_max": 1.367574691772461, "train/extr_return_normed_mean": 0.3898741359275485, "train/extr_return_normed_min": -0.07178663840842625, "train/extr_return_normed_std": 0.3091518169357663, "train/extr_return_rate": 0.8596168595647055, "train/extr_return_raw_mag": 13.19042576683892, "train/extr_return_raw_max": 13.19042576683892, "train/extr_return_raw_mean": 3.7660164606003534, "train/extr_return_raw_min": -0.6856304615262955, "train/extr_return_raw_std": 2.9807522031995983, "train/extr_reward_mag": 1.0880217779250372, "train/extr_reward_max": 1.0880217779250372, "train/extr_reward_mean": 0.062080463128430505, "train/extr_reward_min": -0.6335546629769462, "train/extr_reward_std": 0.23940974024553147, "train/image_loss_mean": 3.4837706808059936, "train/image_loss_std": 8.955802796378968, "train/model_loss_mean": 6.94015555911594, "train/model_loss_std": 13.009120335654607, "train/model_opt_grad_norm": 19.99388909718347, "train/model_opt_grad_steps": 597768.0, "train/model_opt_loss": 17350.388919890873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7201683445582314, "train/policy_entropy_max": 2.7201683445582314, "train/policy_entropy_mean": 0.43377453301634106, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6436793127703289, "train/policy_logprob_mag": 7.438384305863154, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43323529192379545, "train/policy_logprob_min": -7.438384305863154, "train/policy_logprob_std": 1.054300746274373, "train/policy_randomness_mag": 0.9601000547409058, "train/policy_randomness_max": 0.9601000547409058, "train/policy_randomness_mean": 0.15310337512739122, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22719055224978735, "train/post_ent_mag": 56.083769117082866, "train/post_ent_max": 56.083769117082866, "train/post_ent_mean": 40.112840682741194, "train/post_ent_min": 19.676876552521236, "train/post_ent_std": 5.858653280470106, "train/prior_ent_mag": 76.86300562298487, "train/prior_ent_max": 76.86300562298487, "train/prior_ent_mean": 45.759277585953, "train/prior_ent_min": 27.28415852501279, "train/prior_ent_std": 7.959787270379445, "train/rep_loss_mean": 5.6573032727317205, "train/rep_loss_std": 8.889634677342006, "train/reward_avg": 0.048263888776538866, "train/reward_loss_mean": 0.061862550380211025, "train/reward_loss_std": 0.21639562977684867, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0293150742848713, "train/reward_neg_acc": 0.9925920963287354, "train/reward_neg_loss": 0.025718159559700225, "train/reward_pos_acc": 0.9919452667236328, "train/reward_pos_loss": 0.7143291745867048, "train/reward_pred": 0.04817294302795615, "train/reward_rate": 0.05257936507936508, "stats/sum_log_reward": 10.671428850718907, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2887903239045824, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.3611343020484562e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3836792537144253e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03868770599365, "timer/env.step_count": 1260.0, "timer/env.step_total": 18.504810571670532, "timer/env.step_frac": 0.06167474839045856, "timer/env.step_avg": 0.014686357596563915, "timer/env.step_min": 0.002792835235595703, "timer/env.step_max": 1.5914931297302246, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.26258182525634766, "timer/replay.add_frac": 0.000875159891092612, "timer/replay.add_avg": 0.00020839827401297433, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0008058547973632812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023036956787109375, "timer/logger.write_frac": 7.677995448934629e-05, "timer/logger.write_avg": 0.023036956787109375, "timer/logger.write_min": 0.023036956787109375, "timer/logger.write_max": 0.023036956787109375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 9.998363494873047, "timer/agent.policy_frac": 0.03332358093990329, "timer/agent.policy_avg": 0.007935209122915116, "timer/agent.policy_min": 0.005982637405395508, "timer/agent.policy_max": 0.014899969100952148, "timer/dataset_count": 630.0, "timer/dataset_total": 0.053984642028808594, "timer/dataset_frac": 0.0001799256037331688, "timer/dataset_avg": 8.568990798223587e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 630.0, "timer/agent.train_total": 270.54542660713196, "timer/agent.train_frac": 0.9017018061092109, "timer/agent.train_avg": 0.4294371850906856, "timer/agent.train_min": 0.36917805671691895, "timer/agent.train_max": 0.4530019760131836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2603297233581543, "timer/agent.report_frac": 0.0008676538527366512, "timer/agent.report_avg": 0.2603297233581543, "timer/agent.report_min": 0.2603297233581543, "timer/agent.report_max": 0.2603297233581543, "fps": 4.199377814923894}
+{"step": 1198457, "episode/length": 272.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03296703296703297}
+{"step": 1198688, "episode/length": 230.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06493506493506493}
+{"step": 1198935, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06072874493927125}
+{"step": 1199111, "episode/length": 175.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07954545454545454}
+{"step": 1199175, "episode/length": 63.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.125}
+{"step": 1199447, "episode/length": 271.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025735294117647058}
+{"step": 1199503, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478678385416667, "train/action_min": 0.0, "train/action_std": 3.3076328890664235, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036204350343535814, "train/actor_opt_grad_steps": 598890.0, "train/actor_opt_loss": -11.689388143401297, "train/adv_mag": 0.39521718663828714, "train/adv_max": 0.33093479086482336, "train/adv_mean": 0.0018596578371967004, "train/adv_min": -0.3589133885171678, "train/adv_std": 0.04152034246732318, "train/cont_avg": 0.9954117063492064, "train/cont_loss_mean": 6.133550011028662e-06, "train/cont_loss_std": 0.0001740319940707318, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.1294027298404945e-05, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 5.916933498195841e-06, "train/cont_pred": 0.9954062160991487, "train/cont_rate": 0.9954117063492064, "train/dyn_loss_mean": 5.860544946458605, "train/dyn_loss_std": 9.077769506545295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8626745504046244, "train/extr_critic_critic_opt_grad_steps": 598890.0, "train/extr_critic_critic_opt_loss": 15051.556470114087, "train/extr_critic_mag": 12.402990871005589, "train/extr_critic_max": 12.402990871005589, "train/extr_critic_mean": 3.754063447316488, "train/extr_critic_min": -0.3147299497846573, "train/extr_critic_std": 2.9471848011016846, "train/extr_return_normed_mag": 1.3768138355678983, "train/extr_return_normed_max": 1.3768138355678983, "train/extr_return_normed_mean": 0.39730118002210346, "train/extr_return_normed_min": -0.06680551798097671, "train/extr_return_normed_std": 0.3132750961988691, "train/extr_return_rate": 0.8486111542535206, "train/extr_return_raw_mag": 13.075154365055145, "train/extr_return_raw_max": 13.075154365055145, "train/extr_return_raw_mean": 3.771702005749657, "train/extr_return_raw_min": -0.6369856080365559, "train/extr_return_raw_std": 2.9758574357108465, "train/extr_reward_mag": 1.0848669892265683, "train/extr_reward_max": 1.0848669892265683, "train/extr_reward_mean": 0.0643381065437718, "train/extr_reward_min": -0.5762030207921588, "train/extr_reward_std": 0.2431314675107835, "train/image_loss_mean": 3.5237856516762385, "train/image_loss_std": 9.21514644320049, "train/model_loss_mean": 7.104655977279421, "train/model_loss_std": 13.404850944640144, "train/model_opt_grad_norm": 22.23403721763974, "train/model_opt_grad_steps": 598397.4126984127, "train/model_opt_loss": 19894.09376550099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2817.4603174603176, "train/policy_entropy_mag": 2.729256891068958, "train/policy_entropy_max": 2.729256891068958, "train/policy_entropy_mean": 0.43778928735899547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6532295809851753, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43719617714957587, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0585754551584758, "train/policy_randomness_mag": 0.9633079114414397, "train/policy_randomness_max": 0.9633079114414397, "train/policy_randomness_mean": 0.15452040826517438, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23056137467187549, "train/post_ent_mag": 56.3127805316259, "train/post_ent_max": 56.3127805316259, "train/post_ent_mean": 40.03479342990451, "train/post_ent_min": 19.23493721371605, "train/post_ent_std": 5.853398996686178, "train/prior_ent_mag": 76.79760027688647, "train/prior_ent_max": 76.79760027688647, "train/prior_ent_mean": 45.826544019911026, "train/prior_ent_min": 27.879630558074467, "train/prior_ent_std": 7.93731024908641, "train/rep_loss_mean": 5.860544946458605, "train/rep_loss_std": 9.077769506545295, "train/reward_avg": 0.05003255209515965, "train/reward_loss_mean": 0.0645372700241823, "train/reward_loss_std": 0.23034839947072286, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0243127081129286, "train/reward_neg_acc": 0.9916291520709083, "train/reward_neg_loss": 0.026696871951340684, "train/reward_pos_acc": 0.9894603680050562, "train/reward_pos_loss": 0.7231603510796077, "train/reward_pred": 0.04978279518111357, "train/reward_rate": 0.054346478174603176, "stats/sum_log_reward": 9.933333396911621, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.45310040314992267, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.3042321303378195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.366939484222944e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23554706573486, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.196914196014404, "timer/env.step_frac": 0.057278075045022026, "timer/env.step_avg": 0.013626714893830749, "timer/env.step_min": 0.0029714107513427734, "timer/env.step_max": 1.7399826049804688, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2618544101715088, "timer/replay.add_frac": 0.0008721632489246094, "timer/replay.add_avg": 0.00020749160869374707, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0007088184356689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03220248222351074, "timer/logger.write_frac": 0.00010725739353062079, "timer/logger.write_avg": 0.03220248222351074, "timer/logger.write_min": 0.03220248222351074, "timer/logger.write_max": 0.03220248222351074, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.96937370300293, "timer/agent.policy_frac": 0.03320517440534845, "timer/agent.policy_avg": 0.007899662205232116, "timer/agent.policy_min": 0.005899190902709961, "timer/agent.policy_max": 0.01612687110900879, "timer/dataset_count": 631.0, "timer/dataset_total": 0.05370521545410156, "timer/dataset_frac": 0.0001788769383871228, "timer/dataset_avg": 8.511127647242719e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 631.0, "timer/agent.train_total": 272.1009316444397, "timer/agent.train_frac": 0.9062915244505166, "timer/agent.train_avg": 0.43122176171860493, "timer/agent.train_min": 0.37777018547058105, "timer/agent.train_max": 0.45783281326293945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2287278175354004, "timer/agent.report_frac": 0.0007618279040267065, "timer/agent.report_avg": 0.2287278175354004, "timer/agent.report_min": 0.2287278175354004, "timer/agent.report_max": 0.2287278175354004, "fps": 4.203316720403508}
+{"step": 1199682, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059574468085106386}
+{"step": 1199853, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05847953216374269}
+{"step": 1200039, "episode/length": 185.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06989247311827956}
+{"step": 1200259, "episode/length": 219.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.07272727272727272}
+{"step": 1200759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3751220703125, "train/action_min": 0.0, "train/action_std": 3.2045870016491604, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038026927719040524, "train/actor_opt_grad_steps": 599520.0, "train/actor_opt_loss": -11.439377941782512, "train/adv_mag": 0.4224238573085694, "train/adv_max": 0.3496435454913548, "train/adv_mean": 0.0023868081657888573, "train/adv_min": -0.38339745714550927, "train/adv_std": 0.04277688980339065, "train/cont_avg": 0.9952101934523809, "train/cont_loss_mean": 0.00024849062112181514, "train/cont_loss_std": 0.007905957968096759, "train/cont_neg_acc": 0.9854497360804725, "train/cont_neg_loss": 0.06488525292638853, "train/cont_pos_acc": 0.9999843608765375, "train/cont_pos_loss": 2.6709047082998417e-05, "train/cont_pred": 0.99523459351252, "train/cont_rate": 0.9952101934523809, "train/dyn_loss_mean": 6.018126131996276, "train/dyn_loss_std": 9.056840836055695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8964103138636029, "train/extr_critic_critic_opt_grad_steps": 599520.0, "train/extr_critic_critic_opt_loss": 15338.66728670635, "train/extr_critic_mag": 12.580199786594935, "train/extr_critic_max": 12.580199786594935, "train/extr_critic_mean": 3.790616130071973, "train/extr_critic_min": -0.33627879051935106, "train/extr_critic_std": 3.0053379914117238, "train/extr_return_normed_mag": 1.3945578488092574, "train/extr_return_normed_max": 1.3945578488092574, "train/extr_return_normed_mean": 0.39592852407977697, "train/extr_return_normed_min": -0.07287683142792611, "train/extr_return_normed_std": 0.3159023442911723, "train/extr_return_rate": 0.8600333191099621, "train/extr_return_raw_mag": 13.408906618754068, "train/extr_return_raw_max": 13.408906618754068, "train/extr_return_raw_mean": 3.8135258281041704, "train/extr_return_raw_min": -0.6909474389893668, "train/extr_return_raw_std": 3.03576998483567, "train/extr_reward_mag": 1.0929120305984739, "train/extr_reward_max": 1.0929120305984739, "train/extr_reward_mean": 0.06348834849066204, "train/extr_reward_min": -0.5972534134274438, "train/extr_reward_std": 0.24197300062293098, "train/image_loss_mean": 3.5860682517763167, "train/image_loss_std": 9.069954470982628, "train/model_loss_mean": 7.262525505489773, "train/model_loss_std": 13.24740671733069, "train/model_opt_grad_norm": 21.44470991407122, "train/model_opt_grad_steps": 599025.8571428572, "train/model_opt_loss": 8637.186558314732, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1200.3968253968253, "train/policy_entropy_mag": 2.7231360427916997, "train/policy_entropy_max": 2.7231360427916997, "train/policy_entropy_mean": 0.409951540449309, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187940282481057, "train/policy_logprob_mag": 7.438384252881247, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40855312536633204, "train/policy_logprob_min": -7.438384252881247, "train/policy_logprob_std": 1.031921582562583, "train/policy_randomness_mag": 0.9611475240616572, "train/policy_randomness_max": 0.9611475240616572, "train/policy_randomness_mean": 0.14469490531418058, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21840713705335343, "train/post_ent_mag": 55.26426581730918, "train/post_ent_max": 55.26426581730918, "train/post_ent_mean": 40.00796551174588, "train/post_ent_min": 19.73158203609406, "train/post_ent_std": 5.794395378657749, "train/prior_ent_mag": 76.78835211859808, "train/prior_ent_max": 76.78835211859808, "train/prior_ent_mean": 45.94926422361343, "train/prior_ent_min": 27.991592255849685, "train/prior_ent_std": 7.8463151190016, "train/rep_loss_mean": 6.018126131996276, "train/rep_loss_std": 9.056840836055695, "train/reward_avg": 0.05017361086275843, "train/reward_loss_mean": 0.06533314423665168, "train/reward_loss_std": 0.23557892039654746, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.033442499145629, "train/reward_neg_acc": 0.9921007761879573, "train/reward_neg_loss": 0.026910909096754733, "train/reward_pos_acc": 0.9887143856003171, "train/reward_pos_loss": 0.7323808007770114, "train/reward_pred": 0.04976130844581695, "train/reward_rate": 0.05453249007936508, "stats/sum_log_reward": 12.100000143051147, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37891721725463867, "replay/size": 1000000.0, "replay/inserts": 1256.0, "replay/samples": 10048.0, "replay/insert_wait_avg": 3.3287485693670383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3779303070845878e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36589670181274, "timer/env.step_count": 1256.0, "timer/env.step_total": 14.679052591323853, "timer/env.step_frac": 0.04887057003643937, "timer/env.step_avg": 0.011687143782901156, "timer/env.step_min": 0.0030193328857421875, "timer/env.step_max": 1.6011412143707275, "timer/replay.add_count": 1256.0, "timer/replay.add_total": 0.26163578033447266, "timer/replay.add_frac": 0.0008710568783186818, "timer/replay.add_avg": 0.00020830874230451645, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.003804445266723633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02539992332458496, "timer/logger.write_frac": 8.456327300632486e-05, "timer/logger.write_avg": 0.02539992332458496, "timer/logger.write_min": 0.02539992332458496, "timer/logger.write_max": 0.02539992332458496, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020694732666015625, "timer/checkpoint.save_frac": 6.889840988359691e-07, "timer/checkpoint.save_avg": 0.00020694732666015625, "timer/checkpoint.save_min": 0.00020694732666015625, "timer/checkpoint.save_max": 0.00020694732666015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4411022663116455, "timer/agent.save_frac": 0.004797822529573972, "timer/agent.save_avg": 1.4411022663116455, "timer/agent.save_min": 1.4411022663116455, "timer/agent.save_max": 1.4411022663116455, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4447822861921487e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1256.0, "timer/agent.policy_total": 13.733627796173096, "timer/agent.policy_frac": 0.045722993012775714, "timer/agent.policy_avg": 0.010934417035169662, "timer/agent.policy_min": 0.00609898567199707, "timer/agent.policy_max": 2.3271484375, "timer/dataset_count": 628.0, "timer/dataset_total": 0.05321979522705078, "timer/dataset_frac": 0.00017718321491032839, "timer/dataset_avg": 8.474489685836112e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 628.0, "timer/agent.train_total": 270.96973943710327, "timer/agent.train_frac": 0.9021321741665885, "timer/agent.train_avg": 0.431480476810674, "timer/agent.train_min": 0.3657093048095703, "timer/agent.train_max": 0.4795567989349365, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25774598121643066, "timer/agent.report_frac": 0.0008581066760462062, "timer/agent.report_avg": 0.25774598121643066, "timer/agent.report_min": 0.25774598121643066, "timer/agent.report_max": 0.25774598121643066, "fps": 4.181482731655627}
+{"step": 1200787, "episode/length": 527.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.030303030303030304}
+{"step": 1200949, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07407407407407407}
+{"step": 1201177, "episode/length": 227.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05263157894736842}
+{"step": 1201477, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05}
+{"step": 1201749, "episode/length": 271.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.058823529411764705}
+{"step": 1202027, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3823959108382935, "train/action_min": 0.0, "train/action_std": 3.262511200375027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03661192888541827, "train/actor_opt_grad_steps": 600150.0, "train/actor_opt_loss": -11.778733504670006, "train/adv_mag": 0.3976964832298339, "train/adv_max": 0.3301160510570284, "train/adv_mean": 0.0014013345099801737, "train/adv_min": -0.36479112032860045, "train/adv_std": 0.04074884821025152, "train/cont_avg": 0.9950241815476191, "train/cont_loss_mean": 6.962212512349645e-05, "train/cont_loss_std": 0.002121429839803568, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014163584105809275, "train/cont_pos_acc": 0.9999844195350768, "train/cont_pos_loss": 6.299409960368913e-05, "train/cont_pred": 0.9949963509090363, "train/cont_rate": 0.9950241815476191, "train/dyn_loss_mean": 5.802529297177753, "train/dyn_loss_std": 8.964676493690128, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9007966934688507, "train/extr_critic_critic_opt_grad_steps": 600150.0, "train/extr_critic_critic_opt_loss": 15260.139663938493, "train/extr_critic_mag": 12.72929939391121, "train/extr_critic_max": 12.72929939391121, "train/extr_critic_mean": 3.7181511682177346, "train/extr_critic_min": -0.3199275940183609, "train/extr_critic_std": 3.052110963397556, "train/extr_return_normed_mag": 1.3836766784153287, "train/extr_return_normed_max": 1.3836766784153287, "train/extr_return_normed_mean": 0.3848082158300612, "train/extr_return_normed_min": -0.07217272977152514, "train/extr_return_normed_std": 0.31905714032195864, "train/extr_return_rate": 0.8456184286919851, "train/extr_return_raw_mag": 13.369251296633767, "train/extr_return_raw_max": 13.369251296633767, "train/extr_return_raw_mean": 3.731666118379623, "train/extr_return_raw_min": -0.6777459023490785, "train/extr_return_raw_std": 3.078538523779975, "train/extr_reward_mag": 1.0882328767625113, "train/extr_reward_max": 1.0882328767625113, "train/extr_reward_mean": 0.061644176996889566, "train/extr_reward_min": -0.585580379243881, "train/extr_reward_std": 0.2385799858778242, "train/image_loss_mean": 3.574808677037557, "train/image_loss_std": 8.97984765067933, "train/model_loss_mean": 7.119500864119757, "train/model_loss_std": 13.068713203309075, "train/model_opt_grad_norm": 18.547480795118545, "train/model_opt_grad_steps": 599655.0, "train/model_opt_loss": 4449.688030908978, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.700420697530111, "train/policy_entropy_max": 2.700420697530111, "train/policy_entropy_mean": 0.436640028915708, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6449865362946949, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43842532994255184, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0603606265688699, "train/policy_randomness_mag": 0.9531300020596337, "train/policy_randomness_max": 0.9531300020596337, "train/policy_randomness_mean": 0.15411476956473458, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22765194092478072, "train/post_ent_mag": 55.56168946765718, "train/post_ent_max": 55.56168946765718, "train/post_ent_mean": 40.1416132487948, "train/post_ent_min": 19.556619553338912, "train/post_ent_std": 5.859177097441658, "train/prior_ent_mag": 76.87914663647848, "train/prior_ent_max": 76.87914663647848, "train/prior_ent_mean": 45.94673326280382, "train/prior_ent_min": 27.503923476688446, "train/prior_ent_std": 7.915735774570042, "train/rep_loss_mean": 5.802529297177753, "train/rep_loss_std": 8.964676493690128, "train/reward_avg": 0.04834914408505909, "train/reward_loss_mean": 0.06310508092717519, "train/reward_loss_std": 0.2219338244388974, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0327771050589425, "train/reward_neg_acc": 0.992818189991845, "train/reward_neg_loss": 0.02659764520764824, "train/reward_pos_acc": 0.9913929786000933, "train/reward_pos_loss": 0.7191744285916525, "train/reward_pred": 0.047859664237688455, "train/reward_rate": 0.05267237103174603, "stats/sum_log_reward": 13.099999809265137, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5186434388160706, "replay/size": 1000000.0, "replay/inserts": 1268.0, "replay/samples": 10144.0, "replay/insert_wait_avg": 3.3602353526214697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3774407774868071e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.440691947937, "timer/env.step_count": 1268.0, "timer/env.step_total": 16.413074493408203, "timer/env.step_frac": 0.05462999831012373, "timer/env.step_avg": 0.012944065057892905, "timer/env.step_min": 0.0031299591064453125, "timer/env.step_max": 1.8365719318389893, "timer/replay.add_count": 1268.0, "timer/replay.add_total": 0.2477400302886963, "timer/replay.add_frac": 0.0008245888021441079, "timer/replay.add_avg": 0.0001953785727828835, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0006134510040283203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02271556854248047, "timer/logger.write_frac": 7.560749642534049e-05, "timer/logger.write_avg": 0.02271556854248047, "timer/logger.write_min": 0.02271556854248047, "timer/logger.write_max": 0.02271556854248047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1268.0, "timer/agent.policy_total": 10.11676812171936, "timer/agent.policy_frac": 0.03367309553218737, "timer/agent.policy_avg": 0.00797852375529918, "timer/agent.policy_min": 0.005893230438232422, "timer/agent.policy_max": 0.014871358871459961, "timer/dataset_count": 634.0, "timer/dataset_total": 0.05396270751953125, "timer/dataset_frac": 0.00017961184674971517, "timer/dataset_avg": 8.511468063017547e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 634.0, "timer/agent.train_total": 272.92931294441223, "timer/agent.train_frac": 0.9084299173152877, "timer/agent.train_avg": 0.4304878753066439, "timer/agent.train_min": 0.3772592544555664, "timer/agent.train_max": 0.4529836177825928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26050519943237305, "timer/agent.report_frac": 0.0008670769520046095, "timer/agent.report_avg": 0.26050519943237305, "timer/agent.report_min": 0.26050519943237305, "timer/agent.report_max": 0.26050519943237305, "fps": 4.2203851749131305}
+{"step": 1202034, "episode/length": 284.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05263157894736842}
+{"step": 1202239, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07317073170731707}
+{"step": 1202464, "episode/length": 224.0, "episode/score": 15.100000038743019, "episode/sum_abs_reward": 17.500000074505806, "episode/reward_rate": 0.07111111111111111}
+{"step": 1202664, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07}
+{"step": 1202883, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
+{"step": 1202943, "episode/length": 59.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 1203259, "episode/length": 315.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04430379746835443}
+{"step": 1203281, "stats/sum_log_reward": 12.385714599064418, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4214364630835397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348564995659722, "train/action_min": 0.0, "train/action_std": 3.18830562773205, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03682599136871951, "train/actor_opt_grad_steps": 600780.0, "train/actor_opt_loss": -11.16616073676518, "train/adv_mag": 0.3727878715310778, "train/adv_max": 0.32772710777464364, "train/adv_mean": 0.0020089009484518246, "train/adv_min": -0.3294837796498859, "train/adv_std": 0.04076275123017175, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 0.00015511098410258224, "train/cont_loss_std": 0.004848891493233554, "train/cont_neg_acc": 0.9894179900487264, "train/cont_neg_loss": 0.03963493990995053, "train/cont_pos_acc": 0.999999982023996, "train/cont_pos_loss": 2.2995503896377087e-05, "train/cont_pred": 0.9954675492786226, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.774652806539384, "train/dyn_loss_std": 8.941710396418495, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8793160101724049, "train/extr_critic_critic_opt_grad_steps": 600780.0, "train/extr_critic_critic_opt_loss": 15166.732220362102, "train/extr_critic_mag": 12.617588270278205, "train/extr_critic_max": 12.617588270278205, "train/extr_critic_mean": 3.765047167974805, "train/extr_critic_min": -0.31077202161153156, "train/extr_critic_std": 2.9842331712208097, "train/extr_return_normed_mag": 1.3778564456909421, "train/extr_return_normed_max": 1.3778564456909421, "train/extr_return_normed_mean": 0.3898805862381345, "train/extr_return_normed_min": -0.07054620369204453, "train/extr_return_normed_std": 0.31175459424654645, "train/extr_return_rate": 0.8684627612431844, "train/extr_return_raw_mag": 13.339693765791635, "train/extr_return_raw_max": 13.339693765791635, "train/extr_return_raw_mean": 3.784414325441633, "train/extr_return_raw_min": -0.6671334325321137, "train/extr_return_raw_std": 3.0149639333997453, "train/extr_reward_mag": 1.0903568343510703, "train/extr_reward_max": 1.0903568343510703, "train/extr_reward_mean": 0.06416961497494153, "train/extr_reward_min": -0.6016790337032742, "train/extr_reward_std": 0.24321772725809188, "train/image_loss_mean": 3.5590430668422153, "train/image_loss_std": 8.87850138497731, "train/model_loss_mean": 7.086047081720261, "train/model_loss_std": 12.917536780947732, "train/model_opt_grad_norm": 21.04299104781378, "train/model_opt_grad_steps": 600285.0, "train/model_opt_loss": 7236.772604321676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1011.9047619047619, "train/policy_entropy_mag": 2.698239515698145, "train/policy_entropy_max": 2.698239515698145, "train/policy_entropy_mean": 0.4120359127483671, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6157128626392001, "train/policy_logprob_mag": 7.438384237743559, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4116262027195522, "train/policy_logprob_min": -7.438384237743559, "train/policy_logprob_std": 1.0347248628025962, "train/policy_randomness_mag": 0.9523601380605546, "train/policy_randomness_max": 0.9523601380605546, "train/policy_randomness_mean": 0.14543059551053578, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21731961979752495, "train/post_ent_mag": 55.695055522615945, "train/post_ent_max": 55.695055522615945, "train/post_ent_mean": 40.16884497990684, "train/post_ent_min": 19.968290328979492, "train/post_ent_std": 5.842773800804501, "train/prior_ent_mag": 76.85816059415302, "train/prior_ent_max": 76.85816059415302, "train/prior_ent_mean": 45.87558177160838, "train/prior_ent_min": 27.678233222355917, "train/prior_ent_std": 7.946742988768078, "train/rep_loss_mean": 5.774652806539384, "train/rep_loss_std": 8.941710396418495, "train/reward_avg": 0.04935825888126615, "train/reward_loss_mean": 0.062057283780877555, "train/reward_loss_std": 0.21141667900577424, "train/reward_max_data": 1.0190476235889254, "train/reward_max_pred": 1.0214928331829252, "train/reward_neg_acc": 0.9923242292706929, "train/reward_neg_loss": 0.02565938869993838, "train/reward_pos_acc": 0.9925260969570705, "train/reward_pos_loss": 0.707104155941615, "train/reward_pred": 0.04924300055773485, "train/reward_rate": 0.05349392361111111, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.343373774721672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3757075229139799e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0818099975586, "timer/env.step_count": 1254.0, "timer/env.step_total": 18.85007095336914, "timer/env.step_frac": 0.06281643980194102, "timer/env.step_avg": 0.015031954508268853, "timer/env.step_min": 0.0029060840606689453, "timer/env.step_max": 1.655684232711792, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.26615023612976074, "timer/replay.add_frac": 0.0008869255891649217, "timer/replay.add_avg": 0.00021224101764733713, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0007319450378417969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026664257049560547, "timer/logger.write_frac": 8.885662563078209e-05, "timer/logger.write_avg": 0.026664257049560547, "timer/logger.write_min": 0.026664257049560547, "timer/logger.write_max": 0.026664257049560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.917351007461548, "timer/agent.policy_frac": 0.03304882427742699, "timer/agent.policy_avg": 0.007908573371181457, "timer/agent.policy_min": 0.00597834587097168, "timer/agent.policy_max": 0.015012502670288086, "timer/dataset_count": 627.0, "timer/dataset_total": 0.05389142036437988, "timer/dataset_frac": 0.0001795890939368112, "timer/dataset_avg": 8.595122865132357e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019311904907226562, "timer/agent.train_count": 627.0, "timer/agent.train_total": 270.3124625682831, "timer/agent.train_frac": 0.900795894861079, "timer/agent.train_avg": 0.4311203549733382, "timer/agent.train_min": 0.36694765090942383, "timer/agent.train_max": 0.4529123306274414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2565751075744629, "timer/agent.report_frac": 0.0008550171953993158, "timer/agent.report_avg": 0.2565751075744629, "timer/agent.report_min": 0.2565751075744629, "timer/agent.report_max": 0.2565751075744629, "fps": 4.178784965687842}
+{"step": 1203622, "episode/length": 362.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04132231404958678}
+{"step": 1203931, "episode/length": 308.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.04854368932038835}
+{"step": 1204154, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
+{"step": 1204454, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05}
+{"step": 1204533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521676340410786, "train/action_min": 0.0, "train/action_std": 3.3585834887719925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035297915880237854, "train/actor_opt_grad_steps": 601405.0, "train/actor_opt_loss": -11.823870131565679, "train/adv_mag": 0.37744729244901287, "train/adv_max": 0.30149068923727157, "train/adv_mean": 0.0013644853713025617, "train/adv_min": -0.3526518008401317, "train/adv_std": 0.04003088002003009, "train/cont_avg": 0.9949754284274194, "train/cont_loss_mean": 4.362483746826874e-05, "train/cont_loss_std": 0.0012843940963720006, "train/cont_neg_acc": 0.9979508196721312, "train/cont_neg_loss": 0.003747861763479723, "train/cont_pos_acc": 0.9999999865408866, "train/cont_pos_loss": 1.5314808683843152e-05, "train/cont_pred": 0.9949750650313592, "train/cont_rate": 0.9949754284274194, "train/dyn_loss_mean": 5.778174169601932, "train/dyn_loss_std": 8.9001965830403, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8533502076902697, "train/extr_critic_critic_opt_grad_steps": 601405.0, "train/extr_critic_critic_opt_loss": 14937.8974609375, "train/extr_critic_mag": 12.671598280629803, "train/extr_critic_max": 12.671598280629803, "train/extr_critic_mean": 3.792585369079344, "train/extr_critic_min": -0.35689988636201425, "train/extr_critic_std": 3.069102748747795, "train/extr_return_normed_mag": 1.3767107052187766, "train/extr_return_normed_max": 1.3767107052187766, "train/extr_return_normed_mean": 0.3927950748512822, "train/extr_return_normed_min": -0.06531805887577995, "train/extr_return_normed_std": 0.3177590627343424, "train/extr_return_rate": 0.8392767579324784, "train/extr_return_raw_mag": 13.38071895414783, "train/extr_return_raw_max": 13.38071895414783, "train/extr_return_raw_mean": 3.8058532784062047, "train/extr_return_raw_min": -0.6525412146602908, "train/extr_return_raw_std": 3.092364976483007, "train/extr_reward_mag": 1.0904239377667826, "train/extr_reward_max": 1.0904239377667826, "train/extr_reward_mean": 0.0642504773793682, "train/extr_reward_min": -0.5878638702054177, "train/extr_reward_std": 0.24304850687903742, "train/image_loss_mean": 3.5692139248694144, "train/image_loss_std": 8.683215933461343, "train/model_loss_mean": 7.10116744810535, "train/model_loss_std": 12.742102515312933, "train/model_opt_grad_norm": 20.536057918302475, "train/model_opt_grad_steps": 600910.0, "train/model_opt_loss": 9030.2583952873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1270.1612903225807, "train/policy_entropy_mag": 2.729448672263853, "train/policy_entropy_max": 2.729448672263853, "train/policy_entropy_mean": 0.45413285878396803, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6731066064488503, "train/policy_logprob_mag": 7.438384286818966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4546524550645582, "train/policy_logprob_min": -7.438384286818966, "train/policy_logprob_std": 1.0725532154883108, "train/policy_randomness_mag": 0.9633756020376759, "train/policy_randomness_max": 0.9633756020376759, "train/policy_randomness_mean": 0.16028897211916984, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23757708793686283, "train/post_ent_mag": 55.98429802925356, "train/post_ent_max": 55.98429802925356, "train/post_ent_mean": 40.21055055433704, "train/post_ent_min": 19.72630008574455, "train/post_ent_std": 5.93840826711347, "train/prior_ent_mag": 76.75299736761278, "train/prior_ent_max": 76.75299736761278, "train/prior_ent_mean": 46.01431680494739, "train/prior_ent_min": 27.86372338571856, "train/prior_ent_std": 8.014626318408597, "train/rep_loss_mean": 5.778174169601932, "train/rep_loss_std": 8.9001965830403, "train/reward_avg": 0.05055600969541457, "train/reward_loss_mean": 0.06500542782727749, "train/reward_loss_std": 0.22584051710944023, "train/reward_max_data": 1.032258072207051, "train/reward_max_pred": 1.0308753482757076, "train/reward_neg_acc": 0.9919212431676926, "train/reward_neg_loss": 0.02703891948406254, "train/reward_pos_acc": 0.9908829965899068, "train/reward_pos_loss": 0.7212704343180503, "train/reward_pred": 0.0501161172325092, "train/reward_rate": 0.05473475302419355, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 20.75, "stats/max_log_achievement_collect_wood": 12.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.7852023765444756, "replay/size": 1000000.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.4296474517724767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3727159164964961e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0558376312256, "timer/env.step_count": 1252.0, "timer/env.step_total": 15.542469501495361, "timer/env.step_frac": 0.051798590636311356, "timer/env.step_avg": 0.012414113020363706, "timer/env.step_min": 0.002920389175415039, "timer/env.step_max": 1.9556849002838135, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.24770140647888184, "timer/replay.add_frac": 0.0008255177050856502, "timer/replay.add_avg": 0.0001978445738649216, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0007596015930175781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035898685455322266, "timer/logger.write_frac": 0.00011964001680061443, "timer/logger.write_avg": 0.035898685455322266, "timer/logger.write_min": 0.035898685455322266, "timer/logger.write_max": 0.035898685455322266, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004284381866455078, "timer/checkpoint.save_frac": 1.4278615274669864e-06, "timer/checkpoint.save_avg": 0.0004284381866455078, "timer/checkpoint.save_min": 0.0004284381866455078, "timer/checkpoint.save_max": 0.0004284381866455078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.311859369277954, "timer/agent.save_frac": 0.004372050814389602, "timer/agent.save_avg": 1.311859369277954, "timer/agent.save_min": 1.311859369277954, "timer/agent.save_max": 1.311859369277954, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2963382383859713e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 13.618167638778687, "timer/agent.policy_frac": 0.04538544474350696, "timer/agent.policy_avg": 0.01087713070189991, "timer/agent.policy_min": 0.005989789962768555, "timer/agent.policy_max": 2.415668487548828, "timer/dataset_count": 626.0, "timer/dataset_total": 0.05273747444152832, "timer/dataset_frac": 0.00017575886827552307, "timer/dataset_avg": 8.424516683950211e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 626.0, "timer/agent.train_total": 269.9077818393707, "timer/agent.train_frac": 0.8995251816133389, "timer/agent.train_avg": 0.4311625907977168, "timer/agent.train_min": 0.3792247772216797, "timer/agent.train_max": 0.5065200328826904, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26357316970825195, "timer/agent.report_frac": 0.0008784137372197652, "timer/agent.report_avg": 0.26357316970825195, "timer/agent.report_min": 0.26357316970825195, "timer/agent.report_max": 0.26357316970825195, "fps": 4.172472537242617}
+{"step": 1204634, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07222222222222222}
+{"step": 1204817, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08196721311475409}
+{"step": 1205087, "episode/length": 269.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.02962962962962963}
+{"step": 1205263, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 1205373, "episode/length": 109.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.299999982118607, "episode/reward_rate": 0.08181818181818182}
+{"step": 1205589, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06481481481481481}
+{"step": 1205799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394413948059082, "train/action_min": 0.0, "train/action_std": 3.3315302282571793, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03591522230999544, "train/actor_opt_grad_steps": 602035.0, "train/actor_opt_loss": -11.178181362571195, "train/adv_mag": 0.3693268452771008, "train/adv_max": 0.3234116688836366, "train/adv_mean": 0.0019843343772798505, "train/adv_min": -0.31564974738284945, "train/adv_std": 0.04040471249027178, "train/cont_avg": 0.9950408935546875, "train/cont_loss_mean": 0.0001838024218154266, "train/cont_loss_std": 0.005855263426421509, "train/cont_neg_acc": 0.9977324273851182, "train/cont_neg_loss": 0.026359362762575504, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 6.736536237783586e-06, "train/cont_pred": 0.9950502831488848, "train/cont_rate": 0.9950408935546875, "train/dyn_loss_mean": 5.688444346189499, "train/dyn_loss_std": 8.928266763687134, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8783237058669329, "train/extr_critic_critic_opt_grad_steps": 602035.0, "train/extr_critic_critic_opt_loss": 15040.338562011719, "train/extr_critic_mag": 12.66926994919777, "train/extr_critic_max": 12.66926994919777, "train/extr_critic_mean": 3.800180822610855, "train/extr_critic_min": -0.34104871191084385, "train/extr_critic_std": 3.070708330720663, "train/extr_return_normed_mag": 1.3775800801813602, "train/extr_return_normed_max": 1.3775800801813602, "train/extr_return_normed_mean": 0.395255112554878, "train/extr_return_normed_min": -0.06622840039199218, "train/extr_return_normed_std": 0.3191878234501928, "train/extr_return_rate": 0.8438232848420739, "train/extr_return_raw_mag": 13.35470099747181, "train/extr_return_raw_max": 13.35470099747181, "train/extr_return_raw_mean": 3.819451529532671, "train/extr_return_raw_min": -0.6607122872956097, "train/extr_return_raw_std": 3.0988294035196304, "train/extr_reward_mag": 1.0892015360295773, "train/extr_reward_max": 1.0892015360295773, "train/extr_reward_mean": 0.06430858880048618, "train/extr_reward_min": -0.5928258784115314, "train/extr_reward_std": 0.24327192013151944, "train/image_loss_mean": 3.454002622514963, "train/image_loss_std": 8.477233976125717, "train/model_loss_mean": 6.9321025013923645, "train/model_loss_std": 12.591016262769699, "train/model_opt_grad_norm": 20.00349558889866, "train/model_opt_grad_steps": 601540.0, "train/model_opt_loss": 17330.25633239746, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7094783037900925, "train/policy_entropy_max": 2.7094783037900925, "train/policy_entropy_mean": 0.43482348951511085, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6486258660443127, "train/policy_logprob_mag": 7.438384339213371, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43541826750151813, "train/policy_logprob_min": -7.438384339213371, "train/policy_logprob_std": 1.057661272585392, "train/policy_randomness_mag": 0.9563269382342696, "train/policy_randomness_max": 0.9563269382342696, "train/policy_randomness_mean": 0.15347360773012042, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22893646685406566, "train/post_ent_mag": 55.64791941642761, "train/post_ent_max": 55.64791941642761, "train/post_ent_mean": 40.117775440216064, "train/post_ent_min": 19.947704315185547, "train/post_ent_std": 5.83111197501421, "train/prior_ent_mag": 76.76406383514404, "train/prior_ent_max": 76.76406383514404, "train/prior_ent_mean": 45.808109760284424, "train/prior_ent_min": 27.455341041088104, "train/prior_ent_std": 7.974966041743755, "train/rep_loss_mean": 5.688444346189499, "train/rep_loss_std": 8.928266763687134, "train/reward_avg": 0.05065154973999597, "train/reward_loss_mean": 0.06484950322192162, "train/reward_loss_std": 0.22787420800887048, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0366393066942692, "train/reward_neg_acc": 0.99172009434551, "train/reward_neg_loss": 0.026815177654498257, "train/reward_pos_acc": 0.9914176072925329, "train/reward_pos_loss": 0.7182303555309772, "train/reward_pred": 0.05038046068511903, "train/reward_rate": 0.054962158203125, "stats/sum_log_reward": 10.600000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3434275562564532, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.432398912089319e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37250758648672e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2980556488037, "timer/env.step_count": 1266.0, "timer/env.step_total": 17.03644895553589, "timer/env.step_frac": 0.05673179907451644, "timer/env.step_avg": 0.01345691070737432, "timer/env.step_min": 0.0029959678649902344, "timer/env.step_max": 1.6283504962921143, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.25718069076538086, "timer/replay.add_frac": 0.0008564181017080967, "timer/replay.add_avg": 0.00020314430550188062, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0006334781646728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024320602416992188, "timer/logger.write_frac": 8.098821141031611e-05, "timer/logger.write_avg": 0.024320602416992188, "timer/logger.write_min": 0.024320602416992188, "timer/logger.write_max": 0.024320602416992188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 10.011946678161621, "timer/agent.policy_frac": 0.033340031644662114, "timer/agent.policy_avg": 0.007908330709448358, "timer/agent.policy_min": 0.006124019622802734, "timer/agent.policy_max": 0.014547586441040039, "timer/dataset_count": 633.0, "timer/dataset_total": 0.05420565605163574, "timer/dataset_frac": 0.0001805061838796214, "timer/dataset_avg": 8.563294794887163e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 633.0, "timer/agent.train_total": 272.2766902446747, "timer/agent.train_frac": 0.9066881557271893, "timer/agent.train_avg": 0.43013695141338815, "timer/agent.train_min": 0.36799144744873047, "timer/agent.train_max": 0.5040915012359619, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23677325248718262, "timer/agent.report_frac": 0.0007884608242821496, "timer/agent.report_avg": 0.23677325248718262, "timer/agent.report_min": 0.23677325248718262, "timer/agent.report_max": 0.23677325248718262, "fps": 4.215728344767948}
+{"step": 1205824, "episode/length": 234.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.04680851063829787}
+{"step": 1206007, "episode/length": 182.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07650273224043716}
+{"step": 1206273, "episode/length": 265.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05639097744360902}
+{"step": 1206657, "episode/length": 383.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.033854166666666664}
+{"step": 1206752, "episode/length": 94.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11578947368421053}
+{"step": 1206982, "episode/length": 229.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.06086956521739131}
+{"step": 1207061, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506528824094742, "train/action_min": 0.0, "train/action_std": 3.3518493326883467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037011352737271595, "train/actor_opt_grad_steps": 602670.0, "train/actor_opt_loss": -11.822731262161618, "train/adv_mag": 0.39893171427741886, "train/adv_max": 0.3240645511282815, "train/adv_mean": 0.0019107152997065216, "train/adv_min": -0.36067289066693137, "train/adv_std": 0.041813722560330044, "train/cont_avg": 0.9948536706349206, "train/cont_loss_mean": 0.00019298032860942405, "train/cont_loss_std": 0.006058844317128624, "train/cont_neg_acc": 0.9936507940292358, "train/cont_neg_loss": 0.037080132408258935, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 1.1065135944526056e-05, "train/cont_pred": 0.9948743108719115, "train/cont_rate": 0.9948536706349206, "train/dyn_loss_mean": 5.864288246820843, "train/dyn_loss_std": 8.997072340950133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8464251652596488, "train/extr_critic_critic_opt_grad_steps": 602670.0, "train/extr_critic_critic_opt_loss": 15138.061476934523, "train/extr_critic_mag": 12.635265380617172, "train/extr_critic_max": 12.635265380617172, "train/extr_critic_mean": 3.891900062561035, "train/extr_critic_min": -0.34530795945061576, "train/extr_critic_std": 3.0567856591845315, "train/extr_return_normed_mag": 1.3736818763944838, "train/extr_return_normed_max": 1.3736818763944838, "train/extr_return_normed_mean": 0.40615443152094644, "train/extr_return_normed_min": -0.05999617455970673, "train/extr_return_normed_std": 0.31598235619446585, "train/extr_return_rate": 0.8546224387865218, "train/extr_return_raw_mag": 13.347615817236521, "train/extr_return_raw_max": 13.347615817236521, "train/extr_return_raw_mean": 3.910511580724565, "train/extr_return_raw_min": -0.6369117796421051, "train/extr_return_raw_std": 3.082742978656103, "train/extr_reward_mag": 1.0809193717108831, "train/extr_reward_max": 1.0809193717108831, "train/extr_reward_mean": 0.06901484390809423, "train/extr_reward_min": -0.5666782628922236, "train/extr_reward_std": 0.2512571047695856, "train/image_loss_mean": 3.4963998908088323, "train/image_loss_std": 8.826926761203342, "train/model_loss_mean": 7.08141407134041, "train/model_loss_std": 12.985792704990931, "train/model_opt_grad_norm": 19.622732404678587, "train/model_opt_grad_steps": 602174.6031746032, "train/model_opt_loss": 18625.291434151786, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2619.0476190476193, "train/policy_entropy_mag": 2.7132816428229924, "train/policy_entropy_max": 2.7132816428229924, "train/policy_entropy_mean": 0.4278801523503803, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.642465869585673, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.428090909170726, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0507882852402946, "train/policy_randomness_mag": 0.9576693527282231, "train/policy_randomness_max": 0.9576693527282231, "train/policy_randomness_mean": 0.1510229188771475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22676225668854183, "train/post_ent_mag": 55.58923981681703, "train/post_ent_max": 55.58923981681703, "train/post_ent_mean": 40.037725781637526, "train/post_ent_min": 19.330753220452202, "train/post_ent_std": 5.885218567318386, "train/prior_ent_mag": 76.7663093445793, "train/prior_ent_max": 76.7663093445793, "train/prior_ent_mean": 45.861456674242774, "train/prior_ent_min": 27.501274320814346, "train/prior_ent_std": 8.03608372854808, "train/rep_loss_mean": 5.864288246820843, "train/rep_loss_std": 8.997072340950133, "train/reward_avg": 0.05351717498094317, "train/reward_loss_mean": 0.06624833139635268, "train/reward_loss_std": 0.23426409893565708, "train/reward_max_data": 1.0396825491435944, "train/reward_max_pred": 1.0384874078962538, "train/reward_neg_acc": 0.9924753223146711, "train/reward_neg_loss": 0.02584541772329618, "train/reward_pos_acc": 0.9878829112128605, "train/reward_pos_loss": 0.7230725373540606, "train/reward_pred": 0.05308529172861387, "train/reward_rate": 0.057849702380952384, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5120685398578644, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.2955417542374455e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3857607607229387e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3616247177124, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.61699414253235, "timer/env.step_frac": 0.05865261302634534, "timer/env.step_avg": 0.013959583314209469, "timer/env.step_min": 0.0029315948486328125, "timer/env.step_max": 1.672480583190918, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.26314687728881836, "timer/replay.add_frac": 0.0008761001926798424, "timer/replay.add_avg": 0.00020851575062505416, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0008423328399658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03441452980041504, "timer/logger.write_frac": 0.00011457698643346567, "timer/logger.write_avg": 0.03441452980041504, "timer/logger.write_min": 0.03441452980041504, "timer/logger.write_max": 0.03441452980041504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 10.026344299316406, "timer/agent.policy_frac": 0.03338090979078776, "timer/agent.policy_avg": 0.007944805308491605, "timer/agent.policy_min": 0.006232500076293945, "timer/agent.policy_max": 0.016294240951538086, "timer/dataset_count": 631.0, "timer/dataset_total": 0.0543363094329834, "timer/dataset_frac": 0.0001809029681606299, "timer/dataset_avg": 8.611142540884849e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001533031463623047, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.70907282829285, "timer/agent.train_frac": 0.904606482548002, "timer/agent.train_avg": 0.4306007493316844, "timer/agent.train_min": 0.3688187599182129, "timer/agent.train_max": 0.45382070541381836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2620406150817871, "timer/agent.report_frac": 0.0008724170916576298, "timer/agent.report_avg": 0.2620406150817871, "timer/agent.report_min": 0.2620406150817871, "timer/agent.report_max": 0.2620406150817871, "fps": 4.2015414014301}
+{"step": 1207182, "episode/length": 199.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.08}
+{"step": 1207379, "episode/length": 196.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.700000084936619, "episode/reward_rate": 0.07106598984771574}
+{"step": 1207596, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06912442396313365}
+{"step": 1207829, "episode/length": 232.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03862660944206009}
+{"step": 1208029, "episode/length": 199.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.08}
+{"step": 1208073, "episode/length": 43.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.22727272727272727}
+{"step": 1208275, "episode/length": 201.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.07920792079207921}
+{"step": 1208308, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464027650894657, "train/action_min": 0.0, "train/action_std": 3.3381958584631644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03678980469703674, "train/actor_opt_grad_steps": 603295.0, "train/actor_opt_loss": -12.857961327798906, "train/adv_mag": 0.3949220639563376, "train/adv_max": 0.3265534521591279, "train/adv_mean": 0.0010034556547203288, "train/adv_min": -0.3557286281739512, "train/adv_std": 0.04039505346407814, "train/cont_avg": 0.9953377016129032, "train/cont_loss_mean": 3.771465068276088e-05, "train/cont_loss_std": 0.001097746224009062, "train/cont_neg_acc": 0.9946236562344336, "train/cont_neg_loss": 0.00597879643486687, "train/cont_pos_acc": 0.9999841903486559, "train/cont_pos_loss": 2.0117987336820328e-05, "train/cont_pred": 0.9953320910853725, "train/cont_rate": 0.9953377016129032, "train/dyn_loss_mean": 5.971746221665414, "train/dyn_loss_std": 8.999470356971987, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9239374293435004, "train/extr_critic_critic_opt_grad_steps": 603295.0, "train/extr_critic_critic_opt_loss": 15055.19148500504, "train/extr_critic_mag": 12.587758602634553, "train/extr_critic_max": 12.587758602634553, "train/extr_critic_mean": 3.705028253216897, "train/extr_critic_min": -0.36700235066875336, "train/extr_critic_std": 3.035731646322435, "train/extr_return_normed_mag": 1.374037548418968, "train/extr_return_normed_max": 1.374037548418968, "train/extr_return_normed_mean": 0.38603995932686713, "train/extr_return_normed_min": -0.06725157037257187, "train/extr_return_normed_std": 0.31448431673549837, "train/extr_return_rate": 0.8387118212638363, "train/extr_return_raw_mag": 13.323394283171623, "train/extr_return_raw_max": 13.323394283171623, "train/extr_return_raw_mean": 3.7147710823243663, "train/extr_return_raw_min": -0.693013648832998, "train/extr_return_raw_std": 3.0586807266358407, "train/extr_reward_mag": 1.0808388225493892, "train/extr_reward_max": 1.0808388225493892, "train/extr_reward_mean": 0.06096972513102716, "train/extr_reward_min": -0.617281929139168, "train/extr_reward_std": 0.23763491189287556, "train/image_loss_mean": 3.6097917441398866, "train/image_loss_std": 9.298250598292197, "train/model_loss_mean": 7.255539240375642, "train/model_loss_std": 13.435898596240628, "train/model_opt_grad_norm": 19.608081694572203, "train/model_opt_grad_steps": 602799.0, "train/model_opt_loss": 18138.84806577621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.714935729580541, "train/policy_entropy_max": 2.714935729580541, "train/policy_entropy_mean": 0.44962694712223544, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6562282774717577, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4493203475590675, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.065227033630494, "train/policy_randomness_mag": 0.9582531730974874, "train/policy_randomness_max": 0.9582531730974874, "train/policy_randomness_mean": 0.15869858356252795, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2316197832265208, "train/post_ent_mag": 55.87084179539834, "train/post_ent_max": 55.87084179539834, "train/post_ent_mean": 40.26123348359139, "train/post_ent_min": 19.96446495671426, "train/post_ent_std": 5.906282209580945, "train/prior_ent_mag": 76.75805774811775, "train/prior_ent_max": 76.75805774811775, "train/prior_ent_mean": 46.233189182896766, "train/prior_ent_min": 28.063917129270493, "train/prior_ent_std": 7.930129320390763, "train/rep_loss_mean": 5.971746221665414, "train/rep_loss_std": 8.999470356971987, "train/reward_avg": 0.04901556147923393, "train/reward_loss_mean": 0.06266212926035927, "train/reward_loss_std": 0.22638669201443273, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0293642282485962, "train/reward_neg_acc": 0.9927822860979265, "train/reward_neg_loss": 0.025493781307652112, "train/reward_pos_acc": 0.9889267077369075, "train/reward_pos_loss": 0.7269588122444768, "train/reward_pred": 0.04865592363620958, "train/reward_rate": 0.05309664818548387, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 10.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37884396740368437, "replay/size": 1000000.0, "replay/inserts": 1247.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.400380456552758e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689694396948164e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 302.64847803115845, "timer/env.step_count": 1247.0, "timer/env.step_total": 20.487335920333862, "timer/env.step_frac": 0.06769350387489687, "timer/env.step_avg": 0.016429299053996683, "timer/env.step_min": 0.002846956253051758, "timer/env.step_max": 1.9588639736175537, "timer/replay.add_count": 1247.0, "timer/replay.add_total": 0.2707827091217041, "timer/replay.add_frac": 0.0008947102952020341, "timer/replay.add_avg": 0.00021714732086744516, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0008230209350585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023418188095092773, "timer/logger.write_frac": 7.737751812742244e-05, "timer/logger.write_avg": 0.023418188095092773, "timer/logger.write_min": 0.023418188095092773, "timer/logger.write_max": 0.023418188095092773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044345855712890625, "timer/checkpoint.save_frac": 1.4652594984576498e-06, "timer/checkpoint.save_avg": 0.00044345855712890625, "timer/checkpoint.save_min": 0.00044345855712890625, "timer/checkpoint.save_max": 0.00044345855712890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4837749004364014, "timer/agent.save_frac": 0.004902634601333243, "timer/agent.save_avg": 1.4837749004364014, "timer/agent.save_min": 1.4837749004364014, "timer/agent.save_max": 1.4837749004364014, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3633217717058866e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1247.0, "timer/agent.policy_total": 13.810935974121094, "timer/agent.policy_frac": 0.04563358806218488, "timer/agent.policy_avg": 0.011075329570265512, "timer/agent.policy_min": 0.006063699722290039, "timer/agent.policy_max": 2.3832991123199463, "timer/dataset_count": 623.0, "timer/dataset_total": 0.05359387397766113, "timer/dataset_frac": 0.00017708291257999818, "timer/dataset_avg": 8.602547989993761e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 623.0, "timer/agent.train_total": 267.38726449012756, "timer/agent.train_frac": 0.8834911915948883, "timer/agent.train_avg": 0.42919304091513255, "timer/agent.train_min": 0.3790764808654785, "timer/agent.train_max": 0.508716344833374, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22193384170532227, "timer/agent.report_frac": 0.0007333056592555327, "timer/agent.report_avg": 0.22193384170532227, "timer/agent.report_min": 0.22193384170532227, "timer/agent.report_max": 0.22193384170532227, "fps": 4.1202027158510575}
+{"step": 1208341, "episode/length": 65.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.09090909090909091}
+{"step": 1208521, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06666666666666667}
+{"step": 1208722, "episode/length": 200.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.05970149253731343}
+{"step": 1208983, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05747126436781609}
+{"step": 1209244, "episode/length": 260.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06130268199233716}
+{"step": 1209405, "episode/length": 160.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.055900621118012424}
+{"step": 1209573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403962634858631, "train/action_min": 0.0, "train/action_std": 3.260214347687979, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03675606089925009, "train/actor_opt_grad_steps": 603920.0, "train/actor_opt_loss": -11.114819813224058, "train/adv_mag": 0.3964976474406227, "train/adv_max": 0.30210408568382263, "train/adv_mean": 0.002143994159442151, "train/adv_min": -0.37122852106889087, "train/adv_std": 0.04195005748243559, "train/cont_avg": 0.9951016865079365, "train/cont_loss_mean": 0.00022095462061171264, "train/cont_loss_std": 0.006879991933673741, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.021103512184301402, "train/cont_pos_acc": 0.9999687804116143, "train/cont_pos_loss": 0.0001392293553525604, "train/cont_pred": 0.9950733260502891, "train/cont_rate": 0.9951016865079365, "train/dyn_loss_mean": 5.72249698638916, "train/dyn_loss_std": 8.938597754826622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8958505458301969, "train/extr_critic_critic_opt_grad_steps": 603920.0, "train/extr_critic_critic_opt_loss": 15359.619326636905, "train/extr_critic_mag": 12.513480867658343, "train/extr_critic_max": 12.513480867658343, "train/extr_critic_mean": 3.73363262887985, "train/extr_critic_min": -0.36130985381111264, "train/extr_critic_std": 3.034346728097825, "train/extr_return_normed_mag": 1.3749900242638966, "train/extr_return_normed_max": 1.3749900242638966, "train/extr_return_normed_mean": 0.3930379336788541, "train/extr_return_normed_min": -0.0625761193888528, "train/extr_return_normed_std": 0.3163155951197185, "train/extr_return_rate": 0.8405444413896591, "train/extr_return_raw_mag": 13.268017859685989, "train/extr_return_raw_max": 13.268017859685989, "train/extr_return_raw_mean": 3.754421169795687, "train/extr_return_raw_min": -0.6610674077556247, "train/extr_return_raw_std": 3.065217233839489, "train/extr_reward_mag": 1.081032189111861, "train/extr_reward_max": 1.081032189111861, "train/extr_reward_mean": 0.06590693520884665, "train/extr_reward_min": -0.6051525804731581, "train/extr_reward_std": 0.24643434158393315, "train/image_loss_mean": 3.5192587640550403, "train/image_loss_std": 8.652224578554668, "train/model_loss_mean": 7.0169709372142, "train/model_loss_std": 12.74499909839933, "train/model_opt_grad_norm": 19.86976673489525, "train/model_opt_grad_steps": 603423.2857142857, "train/model_opt_loss": 18954.655366443454, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2698.4126984126983, "train/policy_entropy_mag": 2.7282719877031116, "train/policy_entropy_max": 2.7282719877031116, "train/policy_entropy_mean": 0.43215264072493903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.641579598661453, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.431712292253025, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0523338421942696, "train/policy_randomness_mag": 0.9629602867459494, "train/policy_randomness_max": 0.9629602867459494, "train/policy_randomness_mean": 0.15253091792738627, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22644944489002228, "train/post_ent_mag": 55.98626491001674, "train/post_ent_max": 55.98626491001674, "train/post_ent_mean": 40.263524918329146, "train/post_ent_min": 19.709902415199885, "train/post_ent_std": 5.929274044339619, "train/prior_ent_mag": 76.73955971854073, "train/prior_ent_max": 76.73955971854073, "train/prior_ent_mean": 45.96780740647089, "train/prior_ent_min": 27.532728467668807, "train/prior_ent_std": 7.995345304882716, "train/rep_loss_mean": 5.72249698638916, "train/rep_loss_std": 8.938597754826622, "train/reward_avg": 0.05055183503362867, "train/reward_loss_mean": 0.06399302296931782, "train/reward_loss_std": 0.22615034357895927, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0340345473516555, "train/reward_neg_acc": 0.9920594398937528, "train/reward_neg_loss": 0.02569158153519744, "train/reward_pos_acc": 0.9878831713918655, "train/reward_pos_loss": 0.7272682767065745, "train/reward_pred": 0.050144595463597584, "train/reward_rate": 0.054718501984126984, "stats/sum_log_reward": 10.600000301996866, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.42077116668224335, "replay/size": 1000000.0, "replay/inserts": 1265.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.259078316066576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3752382890119748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0952980518341, "timer/env.step_count": 1265.0, "timer/env.step_total": 17.284416675567627, "timer/env.step_frac": 0.05759642616120619, "timer/env.step_avg": 0.013663570494519862, "timer/env.step_min": 0.003037691116333008, "timer/env.step_max": 1.5884490013122559, "timer/replay.add_count": 1265.0, "timer/replay.add_total": 0.2490394115447998, "timer/replay.add_frac": 0.0008298677558812813, "timer/replay.add_avg": 0.00019686910003541486, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0007040500640869141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03557848930358887, "timer/logger.write_frac": 0.00011855730341181005, "timer/logger.write_avg": 0.03557848930358887, "timer/logger.write_min": 0.03557848930358887, "timer/logger.write_max": 0.03557848930358887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1265.0, "timer/agent.policy_total": 10.006510019302368, "timer/agent.policy_frac": 0.033344441196722745, "timer/agent.policy_avg": 0.007910284600239027, "timer/agent.policy_min": 0.005967617034912109, "timer/agent.policy_max": 0.015264749526977539, "timer/dataset_count": 633.0, "timer/dataset_total": 0.053263187408447266, "timer/dataset_frac": 0.00017748757729368808, "timer/dataset_avg": 8.414405593751543e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 633.0, "timer/agent.train_total": 271.8149857521057, "timer/agent.train_frac": 0.9057622279211996, "timer/agent.train_avg": 0.42940756042986683, "timer/agent.train_min": 0.3678913116455078, "timer/agent.train_max": 0.4529416561126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26029491424560547, "timer/agent.report_frac": 0.0008673741839188893, "timer/agent.report_avg": 0.26029491424560547, "timer/agent.report_min": 0.26029491424560547, "timer/agent.report_max": 0.26029491424560547, "fps": 4.215247468711031}
+{"step": 1209888, "episode/length": 482.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.033126293995859216}
+{"step": 1210104, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06944444444444445}
+{"step": 1210165, "episode/length": 60.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.09836065573770492}
+{"step": 1210383, "episode/length": 217.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06880733944954129}
+{"step": 1210644, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05747126436781609}
+{"step": 1210811, "episode/length": 166.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08982035928143713}
+{"step": 1210833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446811252170139, "train/action_min": 0.0, "train/action_std": 3.336588496253604, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035871876758478936, "train/actor_opt_grad_steps": 604550.0, "train/actor_opt_loss": -11.06978780693478, "train/adv_mag": 0.41114086338451933, "train/adv_max": 0.31546469907911995, "train/adv_mean": 0.0015879499680724824, "train/adv_min": -0.37437671635832104, "train/adv_std": 0.041089378179065765, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 1.4403627537556003e-05, "train/cont_loss_std": 0.0004252477190883989, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002963879387448916, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.3326667174155882e-05, "train/cont_pred": 0.9951058843779186, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.990272847432939, "train/dyn_loss_std": 9.036615371704102, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9341368173796033, "train/extr_critic_critic_opt_grad_steps": 604550.0, "train/extr_critic_critic_opt_loss": 15343.691576760913, "train/extr_critic_mag": 12.661521396939717, "train/extr_critic_max": 12.661521396939717, "train/extr_critic_mean": 3.7085401444208053, "train/extr_critic_min": -0.34967083401150173, "train/extr_critic_std": 3.0112918937017046, "train/extr_return_normed_mag": 1.3833691373703971, "train/extr_return_normed_max": 1.3833691373703971, "train/extr_return_normed_mean": 0.38687610366041697, "train/extr_return_normed_min": -0.06397976004888141, "train/extr_return_normed_std": 0.3115952658274817, "train/extr_return_rate": 0.8413277533319261, "train/extr_return_raw_mag": 13.428899431985522, "train/extr_return_raw_max": 13.428899431985522, "train/extr_return_raw_mean": 3.7240060019114662, "train/extr_return_raw_min": -0.6665051338218507, "train/extr_return_raw_std": 3.0346886165558344, "train/extr_reward_mag": 1.083444144990709, "train/extr_reward_max": 1.083444144990709, "train/extr_reward_mean": 0.06367465989693763, "train/extr_reward_min": -0.5889400546512906, "train/extr_reward_std": 0.2420979267548001, "train/image_loss_mean": 3.5050256365821477, "train/image_loss_std": 8.885464236849831, "train/model_loss_mean": 7.163121352120052, "train/model_loss_std": 13.060485945807564, "train/model_opt_grad_norm": 21.485677507188583, "train/model_opt_grad_steps": 604052.9523809524, "train/model_opt_loss": 19264.391260540673, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2698.4126984126983, "train/policy_entropy_mag": 2.7025860718318393, "train/policy_entropy_max": 2.7025860718318393, "train/policy_entropy_mean": 0.45061997619886246, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6641756551606315, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4520157206626165, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0709338859906272, "train/policy_randomness_mag": 0.9538942859286353, "train/policy_randomness_max": 0.9538942859286353, "train/policy_randomness_mean": 0.1590490783490832, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23442485881230188, "train/post_ent_mag": 55.44162441435314, "train/post_ent_max": 55.44162441435314, "train/post_ent_mean": 40.03649617755224, "train/post_ent_min": 19.91029091486855, "train/post_ent_std": 5.813436818501306, "train/prior_ent_mag": 76.83467852880084, "train/prior_ent_max": 76.83467852880084, "train/prior_ent_mean": 46.00191188993908, "train/prior_ent_min": 27.517085605197483, "train/prior_ent_std": 7.924280938648042, "train/rep_loss_mean": 5.990272847432939, "train/rep_loss_std": 9.036615371704102, "train/reward_avg": 0.04997984849153057, "train/reward_loss_mean": 0.06391764538628715, "train/reward_loss_std": 0.22513948688431393, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0350577414981903, "train/reward_neg_acc": 0.9925792756534758, "train/reward_neg_loss": 0.026245071981397885, "train/reward_pos_acc": 0.9906306456005762, "train/reward_pos_loss": 0.7221395581487625, "train/reward_pred": 0.049632078864508204, "train/reward_rate": 0.05431547619047619, "stats/sum_log_reward": 12.600000143051147, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5281144306063652, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.378921084933811e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3750223886399042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16226172447205, "timer/env.step_count": 1260.0, "timer/env.step_total": 17.584232568740845, "timer/env.step_frac": 0.05858242294589964, "timer/env.step_avg": 0.013955740133921306, "timer/env.step_min": 0.002895832061767578, "timer/env.step_max": 1.652224063873291, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.2619283199310303, "timer/replay.add_frac": 0.0008726224223732101, "timer/replay.add_avg": 0.00020787961899288118, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.004641294479370117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021971464157104492, "timer/logger.write_frac": 7.319862274116511e-05, "timer/logger.write_avg": 0.021971464157104492, "timer/logger.write_min": 0.021971464157104492, "timer/logger.write_max": 0.021971464157104492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 9.986784934997559, "timer/agent.policy_frac": 0.03327128759498997, "timer/agent.policy_avg": 0.007926019789680602, "timer/agent.policy_min": 0.0058557987213134766, "timer/agent.policy_max": 0.014643192291259766, "timer/dataset_count": 630.0, "timer/dataset_total": 0.05379462242126465, "timer/dataset_frac": 0.00017921847374219332, "timer/dataset_avg": 8.538828955756293e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017213821411132812, "timer/agent.train_count": 630.0, "timer/agent.train_total": 271.6013777256012, "timer/agent.train_frac": 0.9048485181488679, "timer/agent.train_avg": 0.43111329797714476, "timer/agent.train_min": 0.3763875961303711, "timer/agent.train_max": 0.4539058208465576, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2556915283203125, "timer/agent.report_frac": 0.0008518443552874725, "timer/agent.report_avg": 0.2556915283203125, "timer/agent.report_min": 0.2556915283203125, "timer/agent.report_max": 0.2556915283203125, "fps": 4.197668081161377}
+{"step": 1211052, "episode/length": 240.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.058091286307053944}
+{"step": 1211273, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06334841628959276}
+{"step": 1211493, "episode/length": 219.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06363636363636363}
+{"step": 1211708, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04186046511627907}
+{"step": 1211877, "episode/length": 168.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0650887573964497}
+{"step": 1212097, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538650754898313, "train/action_min": 0.0, "train/action_std": 3.4050518104008267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03672685616073154, "train/actor_opt_grad_steps": 605180.0, "train/actor_opt_loss": -10.633550852064102, "train/adv_mag": 0.36960484205730376, "train/adv_max": 0.32642913716179983, "train/adv_mean": 0.0021634867544413454, "train/adv_min": -0.32510337541027673, "train/adv_std": 0.04121643387609058, "train/cont_avg": 0.9951016865079365, "train/cont_loss_mean": 0.00015632830010747602, "train/cont_loss_std": 0.004969390447158838, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000586597005186324, "train/cont_pos_acc": 0.9999687946031964, "train/cont_pos_loss": 0.00015526364728882995, "train/cont_pred": 0.9950676475252423, "train/cont_rate": 0.9951016865079365, "train/dyn_loss_mean": 5.882877894810268, "train/dyn_loss_std": 8.931422415233794, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8479991649824475, "train/extr_critic_critic_opt_grad_steps": 605180.0, "train/extr_critic_critic_opt_loss": 15118.078125, "train/extr_critic_mag": 12.573825518290201, "train/extr_critic_max": 12.573825518290201, "train/extr_critic_mean": 3.762961058389573, "train/extr_critic_min": -0.36907819339207243, "train/extr_critic_std": 3.044160036813645, "train/extr_return_normed_mag": 1.3927575974237352, "train/extr_return_normed_max": 1.3927575974237352, "train/extr_return_normed_mean": 0.39580617301047794, "train/extr_return_normed_min": -0.06680122650568447, "train/extr_return_normed_std": 0.31774328412517666, "train/extr_return_rate": 0.8276889532331436, "train/extr_return_raw_mag": 13.413411155579583, "train/extr_return_raw_max": 13.413411155579583, "train/extr_return_raw_mean": 3.783863726116362, "train/extr_return_raw_min": -0.6843177520093464, "train/extr_return_raw_std": 3.0693641200898187, "train/extr_reward_mag": 1.0847734231797477, "train/extr_reward_max": 1.0847734231797477, "train/extr_reward_mean": 0.06378917124063249, "train/extr_reward_min": -0.5834096953982398, "train/extr_reward_std": 0.2421288218290087, "train/image_loss_mean": 3.637688810863192, "train/image_loss_std": 8.72730895451137, "train/model_loss_mean": 7.231614075009785, "train/model_loss_std": 12.816127625722734, "train/model_opt_grad_norm": 19.96017899588933, "train/model_opt_grad_steps": 604682.0, "train/model_opt_loss": 18079.035311259922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7332013599456304, "train/policy_entropy_max": 2.7332013599456304, "train/policy_entropy_mean": 0.47800601001769777, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6920349441823506, "train/policy_logprob_mag": 7.438384252881247, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4780325662522089, "train/policy_logprob_min": -7.438384252881247, "train/policy_logprob_std": 1.0866858590216864, "train/policy_randomness_mag": 0.9647001397042048, "train/policy_randomness_max": 0.9647001397042048, "train/policy_randomness_mean": 0.16871514502498838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2442579669138742, "train/post_ent_mag": 55.70688665480841, "train/post_ent_max": 55.70688665480841, "train/post_ent_mean": 40.12334012228345, "train/post_ent_min": 20.021074385870072, "train/post_ent_std": 5.904106102292499, "train/prior_ent_mag": 76.83758871895927, "train/prior_ent_max": 76.83758871895927, "train/prior_ent_mean": 45.98016787332202, "train/prior_ent_min": 27.66213650173611, "train/prior_ent_std": 8.007813552069285, "train/rep_loss_mean": 5.882877894810268, "train/rep_loss_std": 8.931422415233794, "train/reward_avg": 0.050189111263505996, "train/reward_loss_mean": 0.06404227408624831, "train/reward_loss_std": 0.22238729444761124, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0293028922308058, "train/reward_neg_acc": 0.9928471266277252, "train/reward_neg_loss": 0.026821407726004956, "train/reward_pos_acc": 0.9927435347012111, "train/reward_pos_loss": 0.7094342386911786, "train/reward_pred": 0.050003437236661, "train/reward_rate": 0.05454799107142857, "stats/sum_log_reward": 11.500000381469727, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 1.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3562430441379547, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.4561262855046912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.371425541141365e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4287919998169, "timer/env.step_count": 1264.0, "timer/env.step_total": 16.729658603668213, "timer/env.step_frac": 0.055685936398793656, "timer/env.step_avg": 0.013235489401636245, "timer/env.step_min": 0.0029726028442382812, "timer/env.step_max": 1.9406564235687256, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.25377535820007324, "timer/replay.add_frac": 0.000844710510303646, "timer/replay.add_avg": 0.00020077164414562758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0005953311920166016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02203226089477539, "timer/logger.write_frac": 7.333604994420382e-05, "timer/logger.write_avg": 0.02203226089477539, "timer/logger.write_min": 0.02203226089477539, "timer/logger.write_max": 0.02203226089477539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 10.047724723815918, "timer/agent.policy_frac": 0.033444613137551885, "timer/agent.policy_avg": 0.00794914930681639, "timer/agent.policy_min": 0.006120920181274414, "timer/agent.policy_max": 0.01451873779296875, "timer/dataset_count": 632.0, "timer/dataset_total": 0.054731130599975586, "timer/dataset_frac": 0.00018217671560590286, "timer/dataset_avg": 8.659989018983478e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.6650140285492, "timer/agent.train_frac": 0.907586161145019, "timer/agent.train_avg": 0.431431984222388, "timer/agent.train_min": 0.3683052062988281, "timer/agent.train_max": 0.4544355869293213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2600579261779785, "timer/agent.report_frac": 0.0008656225138971934, "timer/agent.report_avg": 0.2600579261779785, "timer/agent.report_min": 0.2600579261779785, "timer/agent.report_max": 0.2600579261779785, "fps": 4.207234068497456}
+{"step": 1212130, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05533596837944664}
+{"step": 1212312, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07692307692307693}
+{"step": 1212508, "episode/length": 195.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05102040816326531}
+{"step": 1212804, "episode/length": 295.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.057432432432432436}
+{"step": 1213004, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.300000064074993, "episode/reward_rate": 0.07}
+{"step": 1213245, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06224066390041494}
+{"step": 1213343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533753410218254, "train/action_min": 0.0, "train/action_std": 3.4081901179419622, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03621122518938685, "train/actor_opt_grad_steps": 605810.0, "train/actor_opt_loss": -10.732197642799408, "train/adv_mag": 0.39638711228257134, "train/adv_max": 0.3089457338764554, "train/adv_mean": 0.0015383848697219657, "train/adv_min": -0.3652291420906309, "train/adv_std": 0.040559151342936924, "train/cont_avg": 0.995148189484127, "train/cont_loss_mean": 7.855893082635357e-05, "train/cont_loss_std": 0.0024551864499942314, "train/cont_neg_acc": 0.9950076822311648, "train/cont_neg_loss": 0.011636260128967615, "train/cont_pos_acc": 0.9999999848623125, "train/cont_pos_loss": 9.35266267685646e-06, "train/cont_pred": 0.9951649894790043, "train/cont_rate": 0.995148189484127, "train/dyn_loss_mean": 5.86912339074271, "train/dyn_loss_std": 9.031950549473839, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8954478492812504, "train/extr_critic_critic_opt_grad_steps": 605810.0, "train/extr_critic_critic_opt_loss": 15164.582139756945, "train/extr_critic_mag": 12.465998225741917, "train/extr_critic_max": 12.465998225741917, "train/extr_critic_mean": 3.6554219609215144, "train/extr_critic_min": -0.34053971464671784, "train/extr_critic_std": 3.0427898792993453, "train/extr_return_normed_mag": 1.3617542906413003, "train/extr_return_normed_max": 1.3617542906413003, "train/extr_return_normed_mean": 0.3843111343800075, "train/extr_return_normed_min": -0.06698137982970193, "train/extr_return_normed_std": 0.3186285164621141, "train/extr_return_rate": 0.8350374537800985, "train/extr_return_raw_mag": 13.070325578962054, "train/extr_return_raw_max": 13.070325578962054, "train/extr_return_raw_mean": 3.6702153947618275, "train/extr_return_raw_min": -0.6700240780436804, "train/extr_return_raw_std": 3.064515533901396, "train/extr_reward_mag": 1.0870826320042686, "train/extr_reward_max": 1.0870826320042686, "train/extr_reward_mean": 0.060476452703513796, "train/extr_reward_min": -0.5801283291407994, "train/extr_reward_std": 0.23695663398220426, "train/image_loss_mean": 3.5634019904666476, "train/image_loss_std": 8.71309841246832, "train/model_loss_mean": 7.148901046268524, "train/model_loss_std": 12.836365154811315, "train/model_opt_grad_norm": 20.968226493351043, "train/model_opt_grad_steps": 605311.5555555555, "train/model_opt_loss": 18131.824947296627, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2539.6825396825398, "train/policy_entropy_mag": 2.7290825541057284, "train/policy_entropy_max": 2.7290825541057284, "train/policy_entropy_mean": 0.4719048918239654, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6882911206237854, "train/policy_logprob_mag": 7.438384245312403, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4713970001727816, "train/policy_logprob_min": -7.438384245312403, "train/policy_logprob_std": 1.0849904512602186, "train/policy_randomness_mag": 0.9632463795798165, "train/policy_randomness_max": 0.9632463795798165, "train/policy_randomness_mean": 0.1665617170787993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24293655890320975, "train/post_ent_mag": 55.803483145577566, "train/post_ent_max": 55.803483145577566, "train/post_ent_mean": 40.302384270562065, "train/post_ent_min": 19.46380058167473, "train/post_ent_std": 5.86451446442377, "train/prior_ent_mag": 76.88312494187127, "train/prior_ent_max": 76.88312494187127, "train/prior_ent_mean": 46.089398278130425, "train/prior_ent_min": 27.580127776615203, "train/prior_ent_std": 7.989487905350942, "train/rep_loss_mean": 5.86912339074271, "train/rep_loss_std": 9.031950549473839, "train/reward_avg": 0.04818483359283871, "train/reward_loss_mean": 0.06394646139371962, "train/reward_loss_std": 0.22855504661325424, "train/reward_max_data": 1.0428571530750819, "train/reward_max_pred": 1.042499644415719, "train/reward_neg_acc": 0.9919181106582521, "train/reward_neg_loss": 0.027268975219201474, "train/reward_pos_acc": 0.9891974235337878, "train/reward_pos_loss": 0.7242973872593471, "train/reward_pred": 0.0478049237576742, "train/reward_rate": 0.05259486607142857, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.44692395627498627, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.3372860658991585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3791825951198132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19237542152405, "timer/env.step_count": 1246.0, "timer/env.step_total": 17.156013011932373, "timer/env.step_frac": 0.05715006248190763, "timer/env.step_avg": 0.013768870796093397, "timer/env.step_min": 0.002903461456298828, "timer/env.step_max": 1.734135627746582, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.2445971965789795, "timer/replay.add_frac": 0.0008148014959924318, "timer/replay.add_avg": 0.0001963059362592131, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0005590915679931641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034485816955566406, "timer/logger.write_frac": 0.00011487905682861572, "timer/logger.write_avg": 0.034485816955566406, "timer/logger.write_min": 0.034485816955566406, "timer/logger.write_max": 0.034485816955566406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003345012664794922, "timer/checkpoint.save_frac": 1.1142896817742032e-06, "timer/checkpoint.save_avg": 0.0003345012664794922, "timer/checkpoint.save_min": 0.0003345012664794922, "timer/checkpoint.save_max": 0.0003345012664794922, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2496836185455322, "timer/agent.save_frac": 0.004162942569046772, "timer/agent.save_avg": 1.2496836185455322, "timer/agent.save_min": 1.2496836185455322, "timer/agent.save_max": 1.2496836185455322, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.3906001013117264e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 13.929583072662354, "timer/agent.policy_frac": 0.046402188107218634, "timer/agent.policy_avg": 0.011179440668268342, "timer/agent.policy_min": 0.005915164947509766, "timer/agent.policy_max": 2.967716932296753, "timer/dataset_count": 623.0, "timer/dataset_total": 0.0534052848815918, "timer/dataset_frac": 0.00017790353537994153, "timer/dataset_avg": 8.572276867029181e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00018930435180664062, "timer/agent.train_count": 623.0, "timer/agent.train_total": 268.11489701271057, "timer/agent.train_frac": 0.893143593791245, "timer/agent.train_avg": 0.4303609903895836, "timer/agent.train_min": 0.37679481506347656, "timer/agent.train_max": 0.45316505432128906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26366209983825684, "timer/agent.report_frac": 0.000878310448318442, "timer/agent.report_avg": 0.26366209983825684, "timer/agent.report_min": 0.26366209983825684, "timer/agent.report_max": 0.26366209983825684, "fps": 4.150589973079006}
+{"step": 1213449, "episode/length": 203.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.08333333333333333}
+{"step": 1213601, "episode/length": 151.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07894736842105263}
+{"step": 1213870, "episode/length": 268.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.05947955390334572}
+{"step": 1214030, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.075}
+{"step": 1214222, "episode/length": 191.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.078125}
+{"step": 1214483, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05747126436781609}
+{"step": 1214601, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480822366381449, "train/action_min": 0.0, "train/action_std": 3.354527855676318, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03723990225366184, "train/actor_opt_grad_steps": 606440.0, "train/actor_opt_loss": -10.930225023201533, "train/adv_mag": 0.4253004015911193, "train/adv_max": 0.359300973632979, "train/adv_mean": 0.002139671414393917, "train/adv_min": -0.37447330686781144, "train/adv_std": 0.04189779627181235, "train/cont_avg": 0.9950396825396826, "train/cont_loss_mean": 5.9482052004944036e-05, "train/cont_loss_std": 0.0018827369725162469, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.01339191560755095, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 6.849235906958119e-06, "train/cont_pred": 0.9950491691392566, "train/cont_rate": 0.9950396825396826, "train/dyn_loss_mean": 5.898829566107856, "train/dyn_loss_std": 8.974136246575249, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8907548539222233, "train/extr_critic_critic_opt_grad_steps": 606440.0, "train/extr_critic_critic_opt_loss": 15293.839409722223, "train/extr_critic_mag": 12.520696851942274, "train/extr_critic_max": 12.520696851942274, "train/extr_critic_mean": 3.7208691059596957, "train/extr_critic_min": -0.33729221518077546, "train/extr_critic_std": 3.0585620478978233, "train/extr_return_normed_mag": 1.3759422188713437, "train/extr_return_normed_max": 1.3759422188713437, "train/extr_return_normed_mean": 0.38990185043168446, "train/extr_return_normed_min": -0.06733781448195851, "train/extr_return_normed_std": 0.31961340989385334, "train/extr_return_rate": 0.8278026192907303, "train/extr_return_raw_mag": 13.267726671128045, "train/extr_return_raw_max": 13.267726671128045, "train/extr_return_raw_mean": 3.7415371470981174, "train/extr_return_raw_min": -0.6755451314033024, "train/extr_return_raw_std": 3.0876614290570457, "train/extr_reward_mag": 1.0865650441911485, "train/extr_reward_max": 1.0865650441911485, "train/extr_reward_mean": 0.06458673910016105, "train/extr_reward_min": -0.6152474161178346, "train/extr_reward_std": 0.24339150459993453, "train/image_loss_mean": 3.6087603417653886, "train/image_loss_std": 9.225756236485072, "train/model_loss_mean": 7.215180919283912, "train/model_loss_std": 13.363928764585465, "train/model_opt_grad_norm": 20.741672454341764, "train/model_opt_grad_steps": 605940.6507936508, "train/model_opt_loss": 15078.711208767361, "train/model_opt_model_opt_grad_overflow": 0.015873015873015872, "train/model_opt_model_opt_grad_scale": 2063.4920634920636, "train/policy_entropy_mag": 2.7325985431671143, "train/policy_entropy_max": 2.7325985431671143, "train/policy_entropy_mean": 0.4448823039493864, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6605999739397139, "train/policy_logprob_mag": 7.438384199899341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4456805492204333, "train/policy_logprob_min": -7.438384199899341, "train/policy_logprob_std": 1.067335371933286, "train/policy_randomness_mag": 0.964487370044466, "train/policy_randomness_max": 0.964487370044466, "train/policy_randomness_mean": 0.1570239311882428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2331628023631989, "train/post_ent_mag": 55.842475346156526, "train/post_ent_max": 55.842475346156526, "train/post_ent_mean": 40.15663752480159, "train/post_ent_min": 19.77459604777987, "train/post_ent_std": 5.868671659439329, "train/prior_ent_mag": 76.86058080764045, "train/prior_ent_max": 76.86058080764045, "train/prior_ent_mean": 46.02237434992715, "train/prior_ent_min": 27.232488389999148, "train/prior_ent_std": 7.9862655079554, "train/rep_loss_mean": 5.898829566107856, "train/rep_loss_std": 8.974136246575249, "train/reward_avg": 0.05013020803767537, "train/reward_loss_mean": 0.0670633680881962, "train/reward_loss_std": 0.24451452375404417, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.035614528353252, "train/reward_neg_acc": 0.9924784491932581, "train/reward_neg_loss": 0.02808045850150169, "train/reward_pos_acc": 0.985560659378294, "train/reward_pos_loss": 0.7393367422951592, "train/reward_pred": 0.04944048544007634, "train/reward_rate": 0.054671999007936505, "stats/sum_log_reward": 13.599999904632568, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4184667368729909, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.389031026624913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3889114125165347e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0179135799408, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.24546241760254, "timer/env.step_frac": 0.05748144239729681, "timer/env.step_avg": 0.013708634672180078, "timer/env.step_min": 0.002960205078125, "timer/env.step_max": 1.6094257831573486, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.25052642822265625, "timer/replay.add_frac": 0.000835038232328426, "timer/replay.add_avg": 0.00019914660431053757, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0006144046783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03365063667297363, "timer/logger.write_frac": 0.00011216209149460439, "timer/logger.write_avg": 0.03365063667297363, "timer/logger.write_min": 0.03365063667297363, "timer/logger.write_max": 0.03365063667297363, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.945675611495972, "timer/agent.policy_frac": 0.03315027257146068, "timer/agent.policy_avg": 0.007905942457468975, "timer/agent.policy_min": 0.006140470504760742, "timer/agent.policy_max": 0.015472412109375, "timer/dataset_count": 629.0, "timer/dataset_total": 0.054419755935668945, "timer/dataset_frac": 0.00018138835540288035, "timer/dataset_avg": 8.6517894969267e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.82600378990173, "timer/agent.train_frac": 0.9060325783429354, "timer/agent.train_avg": 0.4321558088869662, "timer/agent.train_min": 0.36907458305358887, "timer/agent.train_max": 0.45391058921813965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2616567611694336, "timer/agent.report_frac": 0.0008721371269043048, "timer/agent.report_avg": 0.2616567611694336, "timer/agent.report_min": 0.2616567611694336, "timer/agent.report_max": 0.2616567611694336, "fps": 4.193002585989895}
+{"step": 1214740, "episode/length": 256.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.05058365758754864}
+{"step": 1214988, "episode/length": 247.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06048387096774194}
+{"step": 1215045, "episode/length": 56.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.05263157894736842}
+{"step": 1215247, "episode/length": 201.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.07920792079207921}
+{"step": 1215535, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04513888888888889}
+{"step": 1215596, "episode/length": 60.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08196721311475409}
+{"step": 1215786, "episode/length": 189.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07368421052631578}
+{"step": 1215855, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429633355909778, "train/action_min": 0.0, "train/action_std": 3.257728957360791, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03632224522410862, "train/actor_opt_grad_steps": 607065.0, "train/actor_opt_loss": -10.79910670773637, "train/adv_mag": 0.35974346197420554, "train/adv_max": 0.3186045841824624, "train/adv_mean": 0.0019637809713341056, "train/adv_min": -0.32268192210505087, "train/adv_std": 0.04071884061540327, "train/cont_avg": 0.9948809223790323, "train/cont_loss_mean": 0.0004382918170647592, "train/cont_loss_std": 0.013874249006243365, "train/cont_neg_acc": 0.9849270370698744, "train/cont_neg_loss": 0.08178330415150653, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.2458460861261478e-05, "train/cont_pred": 0.9949330658681931, "train/cont_rate": 0.9948809223790323, "train/dyn_loss_mean": 5.758372299132809, "train/dyn_loss_std": 8.908215238202002, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.86771789673836, "train/extr_critic_critic_opt_grad_steps": 607065.0, "train/extr_critic_critic_opt_loss": 15004.996424521169, "train/extr_critic_mag": 12.664880029616818, "train/extr_critic_max": 12.664880029616818, "train/extr_critic_mean": 3.922752691853431, "train/extr_critic_min": -0.3173483610153198, "train/extr_critic_std": 3.0324305103671167, "train/extr_return_normed_mag": 1.3708988601161587, "train/extr_return_normed_max": 1.3708988601161587, "train/extr_return_normed_mean": 0.40636105114413845, "train/extr_return_normed_min": -0.0635305750634401, "train/extr_return_normed_std": 0.31508424205164753, "train/extr_return_rate": 0.8735226046654486, "train/extr_return_raw_mag": 13.305137234349404, "train/extr_return_raw_max": 13.305137234349404, "train/extr_return_raw_mean": 3.9418009558031635, "train/extr_return_raw_min": -0.620976532659223, "train/extr_return_raw_std": 3.0593050064579135, "train/extr_reward_mag": 1.0858551955992175, "train/extr_reward_max": 1.0858551955992175, "train/extr_reward_mean": 0.06670058266289773, "train/extr_reward_min": -0.5737256177010075, "train/extr_reward_std": 0.24703463479395835, "train/image_loss_mean": 3.4665283464616343, "train/image_loss_std": 8.562202545904345, "train/model_loss_mean": 6.989017794209142, "train/model_loss_std": 12.651456879031274, "train/model_opt_grad_norm": 19.673878131374234, "train/model_opt_grad_steps": 606565.0, "train/model_opt_loss": 8736.272319178428, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.719676690716897, "train/policy_entropy_max": 2.719676690716897, "train/policy_entropy_mean": 0.42232048751846435, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6408834308385849, "train/policy_logprob_mag": 7.438384240673434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4222983044962729, "train/policy_logprob_min": -7.438384240673434, "train/policy_logprob_std": 1.0489659126727813, "train/policy_randomness_mag": 0.9599265235085641, "train/policy_randomness_max": 0.9599265235085641, "train/policy_randomness_mean": 0.14906059890504805, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22620372810671407, "train/post_ent_mag": 55.65669798081921, "train/post_ent_max": 55.65669798081921, "train/post_ent_mean": 39.975432426698745, "train/post_ent_min": 19.371365839435207, "train/post_ent_std": 5.8108462210624445, "train/prior_ent_mag": 76.76578657088741, "train/prior_ent_max": 76.76578657088741, "train/prior_ent_mean": 45.71156095689343, "train/prior_ent_min": 27.741855436755763, "train/prior_ent_std": 7.973835745165425, "train/rep_loss_mean": 5.758372299132809, "train/rep_loss_std": 8.908215238202002, "train/reward_avg": 0.05333448826305328, "train/reward_loss_mean": 0.06702771885020117, "train/reward_loss_std": 0.23801792725439994, "train/reward_max_data": 1.0241935541552882, "train/reward_max_pred": 1.0265198715271489, "train/reward_neg_acc": 0.9930965563943309, "train/reward_neg_loss": 0.026635464190715743, "train/reward_pos_acc": 0.9888938117411828, "train/reward_pos_loss": 0.7231000690690933, "train/reward_pred": 0.052848644013847076, "train/reward_rate": 0.05790070564516129, "stats/sum_log_reward": 9.957143034253802, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.4094581997820309, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.3931869068784576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.384073087092982e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10236144065857, "timer/env.step_count": 1254.0, "timer/env.step_total": 19.169198989868164, "timer/env.step_frac": 0.0638755353268309, "timer/env.step_avg": 0.015286442575652443, "timer/env.step_min": 0.0026960372924804688, "timer/env.step_max": 1.6383788585662842, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.255615234375, "timer/replay.add_frac": 0.0008517601565942515, "timer/replay.add_avg": 0.00020383989982057416, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0006966590881347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022400617599487305, "timer/logger.write_frac": 7.464325669398887e-05, "timer/logger.write_avg": 0.022400617599487305, "timer/logger.write_min": 0.022400617599487305, "timer/logger.write_max": 0.022400617599487305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.929255247116089, "timer/agent.policy_frac": 0.03308622831040093, "timer/agent.policy_avg": 0.007918066385260039, "timer/agent.policy_min": 0.0059926509857177734, "timer/agent.policy_max": 0.01598811149597168, "timer/dataset_count": 627.0, "timer/dataset_total": 0.05453062057495117, "timer/dataset_frac": 0.00018170673603890955, "timer/dataset_avg": 8.697068672241017e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 627.0, "timer/agent.train_total": 270.0411355495453, "timer/agent.train_frac": 0.899830092149883, "timer/agent.train_avg": 0.4306876165064518, "timer/agent.train_min": 0.37070465087890625, "timer/agent.train_max": 0.4540832042694092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23095250129699707, "timer/agent.report_frac": 0.0007695790869098676, "timer/agent.report_avg": 0.23095250129699707, "timer/agent.report_min": 0.23095250129699707, "timer/agent.report_max": 0.23095250129699707, "fps": 4.1784860544779345}
+{"step": 1215901, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.68731689453125, "train/action_min": 0.0, "train/action_std": 3.4236505031585693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03107343055307865, "train/actor_opt_grad_steps": 607401.0, "train/actor_opt_loss": -18.758039474487305, "train/adv_mag": 0.3883853554725647, "train/adv_max": 0.3883853554725647, "train/adv_mean": 8.113247895380482e-05, "train/adv_min": -0.24707669019699097, "train/adv_std": 0.03669021278619766, "train/cont_avg": 0.99609375, "train/cont_loss_mean": 4.650122718885541e-06, "train/cont_loss_std": 5.7803859817795455e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00028802009182982147, "train/cont_pos_acc": 0.9999999403953552, "train/cont_pos_loss": 3.53886753146071e-06, "train/cont_pred": 0.996091365814209, "train/cont_rate": 0.99609375, "train/dyn_loss_mean": 6.849440574645996, "train/dyn_loss_std": 11.69933032989502, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8513932824134827, "train/extr_critic_critic_opt_grad_steps": 607401.0, "train/extr_critic_critic_opt_loss": 14537.5546875, "train/extr_critic_mag": 12.484579086303711, "train/extr_critic_max": 12.484579086303711, "train/extr_critic_mean": 3.185102939605713, "train/extr_critic_min": -0.3723379373550415, "train/extr_critic_std": 2.807521104812622, "train/extr_return_normed_mag": 1.366735577583313, "train/extr_return_normed_max": 1.366735577583313, "train/extr_return_normed_mean": 0.32507771253585815, "train/extr_return_normed_min": -0.07338713854551315, "train/extr_return_normed_std": 0.2898217737674713, "train/extr_return_rate": 0.7277995347976685, "train/extr_return_raw_mag": 13.41198444366455, "train/extr_return_raw_max": 13.41198444366455, "train/extr_return_raw_mean": 3.1859068870544434, "train/extr_return_raw_min": -0.7258697152137756, "train/extr_return_raw_std": 2.845214366912842, "train/extr_reward_mag": 1.0927340984344482, "train/extr_reward_max": 1.0927340984344482, "train/extr_reward_mean": 0.05130041763186455, "train/extr_reward_min": -0.41244959831237793, "train/extr_reward_std": 0.2187647968530655, "train/image_loss_mean": 5.658391952514648, "train/image_loss_std": 21.879947662353516, "train/model_loss_mean": 9.82104778289795, "train/model_loss_std": 27.543432235717773, "train/model_opt_grad_norm": 16.753517150878906, "train/model_opt_grad_steps": 606901.0, "train/model_opt_loss": 12276.3095703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7775380611419678, "train/policy_entropy_max": 2.7775380611419678, "train/policy_entropy_mean": 0.6392571926116943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.8701852560043335, "train/policy_logprob_mag": 7.438384056091309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.6407496929168701, "train/policy_logprob_min": -7.438384056091309, "train/policy_logprob_std": 1.2004868984222412, "train/policy_randomness_mag": 0.980349063873291, "train/policy_randomness_max": 0.980349063873291, "train/policy_randomness_mean": 0.22562971711158752, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.3071371912956238, "train/post_ent_mag": 55.567298889160156, "train/post_ent_max": 55.567298889160156, "train/post_ent_mean": 40.448814392089844, "train/post_ent_min": 15.5747709274292, "train/post_ent_std": 6.226873874664307, "train/prior_ent_mag": 76.5652084350586, "train/prior_ent_max": 76.5652084350586, "train/prior_ent_mean": 46.6375732421875, "train/prior_ent_min": 27.166961669921875, "train/prior_ent_std": 8.160240173339844, "train/rep_loss_mean": 6.849440574645996, "train/rep_loss_std": 11.69933032989502, "train/reward_avg": 0.04140625149011612, "train/reward_loss_mean": 0.05298639088869095, "train/reward_loss_std": 0.17413581907749176, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0006444454193115, "train/reward_neg_acc": 0.997957170009613, "train/reward_neg_loss": 0.024396590888500214, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6749733090400696, "train/reward_pred": 0.041733771562576294, "train/reward_rate": 0.0439453125, "train/params_agent/wm/model_opt": 181569923.0, "train/params_agent/task_behavior/critic/critic_opt": 9708799.0, "train/params_agent/task_behavior/ac/actor_opt": 9464849.0, "replay/size": 1000000.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.2112515313284739e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 198.89960145950317, "timer/logger.write_count": 1.0, "timer/logger.write_total": 1.9073486328125e-06, "timer/logger.write_frac": 9.58950454810662e-09, "timer/logger.write_avg": 1.9073486328125e-06, "timer/logger.write_min": 1.9073486328125e-06, "timer/logger.write_max": 1.9073486328125e-06, "timer/replay.add_count": 1073419.0, "timer/replay.add_total": 43.52536725997925, "timer/replay.add_frac": 0.21883084199563468, "timer/replay.add_avg": 4.054834809145287e-05, "timer/replay.add_min": 4.76837158203125e-06, "timer/replay.add_max": 0.13878774642944336, "timer/checkpoint.load_count": 1.0, "timer/checkpoint.load_total": 97.78647589683533, "timer/checkpoint.load_frac": 0.49163736467689745, "timer/checkpoint.load_avg": 97.78647589683533, "timer/checkpoint.load_min": 97.78647589683533, "timer/checkpoint.load_max": 97.78647589683533, "timer/env.step_count": 1.0, "timer/env.step_total": 1.6054353713989258, "timer/env.step_frac": 0.008071586667939099, "timer/env.step_avg": 1.6054353713989258, "timer/env.step_min": 1.6054353713989258, "timer/env.step_max": 1.6054353713989258, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.512576341629028, "timer/agent.policy_frac": 0.05285368228236211, "timer/agent.policy_avg": 10.512576341629028, "timer/agent.policy_min": 10.512576341629028, "timer/agent.policy_max": 10.512576341629028, "timer/dataset_count": 1.0, "timer/dataset_total": 5.4836273193359375e-05, "timer/dataset_frac": 2.7569825575806535e-07, "timer/dataset_avg": 5.4836273193359375e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 5.4836273193359375e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 74.75839185714722, "timer/agent.train_frac": 0.37585993792133543, "timer/agent.train_avg": 74.75839185714722, "timer/agent.train_min": 74.75839185714722, "timer/agent.train_max": 74.75839185714722, "timer/agent.report_count": 1.0, "timer/agent.report_total": 14.217430830001831, "timer/agent.report_frac": 0.0714804390037783, "timer/agent.report_avg": 14.217430830001831, "timer/agent.report_min": 14.217430830001831, "timer/agent.report_max": 14.217430830001831}
+{"step": 1216167, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
+{"step": 1216217, "episode/length": 49.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.1}
+{"step": 1216463, "episode/length": 245.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06504065040650407}
+{"step": 1216644, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07734806629834254}
+{"step": 1216902, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05813953488372093}
+{"step": 1217170, "episode/length": 267.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.055970149253731345}
+{"step": 1217291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41832080785779, "train/action_min": 0.0, "train/action_std": 3.241554616154104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03541856477765933, "train/actor_opt_grad_steps": 607750.0, "train/actor_opt_loss": -11.744039216767186, "train/adv_mag": 0.4020986848551294, "train/adv_max": 0.3202395547127378, "train/adv_mean": 0.001478643751147172, "train/adv_min": -0.359636629405229, "train/adv_std": 0.04067652958674707, "train/cont_avg": 0.9951879528985508, "train/cont_loss_mean": 6.052293820426956e-05, "train/cont_loss_std": 0.001820115159790538, "train/cont_neg_acc": 0.9963768115942029, "train/cont_neg_loss": 0.012620104775523033, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.039610322981145e-05, "train/cont_pred": 0.9951946718105371, "train/cont_rate": 0.9951879528985508, "train/dyn_loss_mean": 6.1810572665670644, "train/dyn_loss_std": 9.129605044489322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8469270061755526, "train/extr_critic_critic_opt_grad_steps": 607750.0, "train/extr_critic_critic_opt_loss": 15103.866876132246, "train/extr_critic_mag": 12.54314488949983, "train/extr_critic_max": 12.54314488949983, "train/extr_critic_mean": 3.82135241964589, "train/extr_critic_min": -0.28108205138773157, "train/extr_critic_std": 3.0147670179173565, "train/extr_return_normed_mag": 1.3714702250300974, "train/extr_return_normed_max": 1.3714702250300974, "train/extr_return_normed_mean": 0.39658194823541504, "train/extr_return_normed_min": -0.07112668219791807, "train/extr_return_normed_std": 0.3139551791591921, "train/extr_return_rate": 0.8581654291222061, "train/extr_return_raw_mag": 13.270699072575223, "train/extr_return_raw_max": 13.270699072575223, "train/extr_return_raw_mean": 3.835658640101336, "train/extr_return_raw_min": -0.692249883344208, "train/extr_return_raw_std": 3.0391946944637573, "train/extr_reward_mag": 1.0880134554876797, "train/extr_reward_max": 1.0880134554876797, "train/extr_reward_mean": 0.06473376736908719, "train/extr_reward_min": -0.6244952384976373, "train/extr_reward_std": 0.24286715405574744, "train/image_loss_mean": 3.789416841838671, "train/image_loss_std": 11.80712832575259, "train/model_loss_mean": 7.5627333599588145, "train/model_loss_std": 15.944307769554248, "train/model_opt_grad_norm": 23.855155834253285, "train/model_opt_grad_steps": 607249.7971014492, "train/model_opt_loss": 15315.33493970788, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1992.7536231884058, "train/policy_entropy_mag": 2.7189564048380093, "train/policy_entropy_max": 2.7189564048380093, "train/policy_entropy_mean": 0.44621484348739404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.666199120922365, "train/policy_logprob_mag": 7.438384277233179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4465931848339412, "train/policy_logprob_min": -7.438384277233179, "train/policy_logprob_std": 1.0696124399917712, "train/policy_randomness_mag": 0.9596722903458969, "train/policy_randomness_max": 0.9596722903458969, "train/policy_randomness_mean": 0.15749425851348517, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23513905639233795, "train/post_ent_mag": 54.80644917142564, "train/post_ent_max": 54.80644917142564, "train/post_ent_mean": 39.94067968838457, "train/post_ent_min": 19.753234725067582, "train/post_ent_std": 5.804174326468205, "train/prior_ent_mag": 76.77703249281731, "train/prior_ent_max": 76.77703249281731, "train/prior_ent_mean": 46.14153649150462, "train/prior_ent_min": 27.746638671211574, "train/prior_ent_std": 7.815201531285825, "train/rep_loss_mean": 6.1810572665670644, "train/rep_loss_std": 9.129605044489322, "train/reward_avg": 0.05126811520776887, "train/reward_loss_mean": 0.06462171970718149, "train/reward_loss_std": 0.22729427183883777, "train/reward_max_data": 1.0420289955277373, "train/reward_max_pred": 1.0394526737323706, "train/reward_neg_acc": 0.992287902728371, "train/reward_neg_loss": 0.02577212625655575, "train/reward_pos_acc": 0.990850587685903, "train/reward_pos_loss": 0.7258377299792524, "train/reward_pred": 0.050699083512459976, "train/reward_rate": 0.055423460144927536, "stats/sum_log_reward": 12.100000301996866, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4560420749088128, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "replay/size": 1000000.0, "replay/inserts": 1328.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 3.6717897438141235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3998944124729514e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 285.8197855949402, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02840900421142578, "timer/logger.write_frac": 9.939481324671703e-05, "timer/logger.write_avg": 0.02840900421142578, "timer/logger.write_min": 0.02840900421142578, "timer/logger.write_max": 0.02840900421142578, "timer/replay.add_count": 1390.0, "timer/replay.add_total": 0.3136303424835205, "timer/replay.add_frac": 0.0010973010207487631, "timer/replay.add_avg": 0.0002256333399162018, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.016393661499023438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1390.0, "timer/env.step_total": 17.72330379486084, "timer/env.step_frac": 0.06200866660776962, "timer/env.step_avg": 0.012750578269684057, "timer/env.step_min": 0.0030760765075683594, "timer/env.step_max": 1.6317949295043945, "timer/agent.policy_count": 1390.0, "timer/agent.policy_total": 10.075583457946777, "timer/agent.policy_frac": 0.035251525491750785, "timer/agent.policy_avg": 0.007248621192767465, "timer/agent.policy_min": 0.005714893341064453, "timer/agent.policy_max": 0.018172502517700195, "timer/dataset_count": 695.0, "timer/dataset_total": 0.05718231201171875, "timer/dataset_frac": 0.00020006421841193571, "timer/dataset_avg": 8.227670793053057e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 695.0, "timer/agent.train_total": 256.92675280570984, "timer/agent.train_frac": 0.8989117120457953, "timer/agent.train_avg": 0.36967878101540985, "timer/agent.train_min": 0.3633732795715332, "timer/agent.train_max": 0.38674211502075195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22336673736572266, "timer/agent.report_frac": 0.0007814950140725208, "timer/agent.report_avg": 0.22336673736572266, "timer/agent.report_min": 0.22336673736572266, "timer/agent.report_max": 0.22336673736572266, "fps": 4.863102544835116}
+{"step": 1217378, "episode/length": 207.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.07211538461538461}
+{"step": 1217586, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0673076923076923}
+{"step": 1217844, "episode/length": 257.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06201550387596899}
+{"step": 1218068, "episode/length": 223.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.07142857142857142}
+{"step": 1218338, "episode/length": 269.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.05555555555555555}
+{"step": 1218563, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06666666666666667}
+{"step": 1218726, "episode/length": 162.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07975460122699386}
+{"step": 1218745, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44471218161387, "train/action_min": 0.0, "train/action_std": 3.2806683435831983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03657349696612521, "train/actor_opt_grad_steps": 608460.0, "train/actor_opt_loss": -10.612684209869332, "train/adv_mag": 0.415325402396999, "train/adv_max": 0.3408583204631936, "train/adv_mean": 0.0018169599399748034, "train/adv_min": -0.3646344015859578, "train/adv_std": 0.04187561643041977, "train/cont_avg": 0.995036922089041, "train/cont_loss_mean": 8.828030904553949e-05, "train/cont_loss_std": 0.0028015601757393187, "train/cont_neg_acc": 0.9884540128381285, "train/cont_neg_loss": 0.029341982173539352, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 7.601180423524069e-06, "train/cont_pred": 0.995063453504484, "train/cont_rate": 0.995036922089041, "train/dyn_loss_mean": 6.2137793514826525, "train/dyn_loss_std": 9.32857940621572, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8576753523251782, "train/extr_critic_critic_opt_grad_steps": 608460.0, "train/extr_critic_critic_opt_loss": 15179.434088720034, "train/extr_critic_mag": 12.596682052089744, "train/extr_critic_max": 12.596682052089744, "train/extr_critic_mean": 3.7538047163453823, "train/extr_critic_min": -0.31388276570463836, "train/extr_critic_std": 2.991775956872391, "train/extr_return_normed_mag": 1.400047480243526, "train/extr_return_normed_max": 1.400047480243526, "train/extr_return_normed_mean": 0.39276367262618184, "train/extr_return_normed_min": -0.06743703068119206, "train/extr_return_normed_std": 0.314269947066699, "train/extr_return_rate": 0.8528699834052831, "train/extr_return_raw_mag": 13.446826255484803, "train/extr_return_raw_max": 13.446826255484803, "train/extr_return_raw_mean": 3.7712573874486637, "train/extr_return_raw_min": -0.6498410317995776, "train/extr_return_raw_std": 3.019089189294266, "train/extr_reward_mag": 1.0868138711746425, "train/extr_reward_max": 1.0868138711746425, "train/extr_reward_mean": 0.06362940473099278, "train/extr_reward_min": -0.5878901073377426, "train/extr_reward_std": 0.24195512476032727, "train/image_loss_mean": 3.793773781763364, "train/image_loss_std": 11.912294355157304, "train/model_loss_mean": 7.588907496569908, "train/model_loss_std": 16.152837361374946, "train/model_opt_grad_norm": 22.62827206964362, "train/model_opt_grad_steps": 607959.0, "train/model_opt_loss": 9486.134377675513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.718846513800425, "train/policy_entropy_max": 2.718846513800425, "train/policy_entropy_mean": 0.45842112600803375, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6663793076391089, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4589017102979634, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.074486789638049, "train/policy_randomness_mag": 0.9596335063241932, "train/policy_randomness_max": 0.9596335063241932, "train/policy_randomness_mean": 0.16180253978053186, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23520265152193096, "train/post_ent_mag": 55.04680199819068, "train/post_ent_max": 55.04680199819068, "train/post_ent_mean": 39.79554408870331, "train/post_ent_min": 19.3115465347081, "train/post_ent_std": 5.801738288304577, "train/prior_ent_mag": 76.84457522875643, "train/prior_ent_max": 76.84457522875643, "train/prior_ent_mean": 45.97173638539771, "train/prior_ent_min": 27.79481286871923, "train/prior_ent_std": 7.926045391657581, "train/rep_loss_mean": 6.2137793514826525, "train/rep_loss_std": 9.32857940621572, "train/reward_avg": 0.051178564100641095, "train/reward_loss_mean": 0.06677779402226618, "train/reward_loss_std": 0.2346605654448679, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.034073388739808, "train/reward_neg_acc": 0.9921438677670205, "train/reward_neg_loss": 0.028003012174612856, "train/reward_pos_acc": 0.9887332352873397, "train/reward_pos_loss": 0.7267597856586927, "train/reward_pred": 0.05074235863269192, "train/reward_rate": 0.0556105522260274, "stats/sum_log_reward": 13.671428952898298, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.39957593168531147, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.5621768998640606e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3790850462251058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2024710178375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0343475341796875, "timer/logger.write_frac": 0.00011441456182299921, "timer/logger.write_avg": 0.0343475341796875, "timer/logger.write_min": 0.0343475341796875, "timer/logger.write_max": 0.0343475341796875, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29978513717651367, "timer/replay.add_frac": 0.0009986098254291217, "timer/replay.add_avg": 0.0002061795991585376, "timer/replay.add_min": 8.440017700195312e-05, "timer/replay.add_max": 0.001068115234375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.764219522476196, "timer/env.step_frac": 0.06583629860029314, "timer/env.step_avg": 0.013592998296063408, "timer/env.step_min": 0.0028777122497558594, "timer/env.step_max": 1.6803171634674072, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.567898273468018, "timer/agent.policy_frac": 0.03520256924480842, "timer/agent.policy_avg": 0.007268155621367275, "timer/agent.policy_min": 0.005687236785888672, "timer/agent.policy_max": 0.017626047134399414, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058806419372558594, "timer/dataset_frac": 0.00019588919162848734, "timer/dataset_avg": 8.088916007229517e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.7794916629791, "timer/agent.train_frac": 0.895327379390587, "timer/agent.train_avg": 0.369710442452516, "timer/agent.train_min": 0.3635694980621338, "timer/agent.train_max": 0.38199758529663086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22186660766601562, "timer/agent.report_frac": 0.0007390565671021165, "timer/agent.report_avg": 0.22186660766601562, "timer/agent.report_min": 0.22186660766601562, "timer/agent.report_max": 0.22186660766601562, "fps": 4.843327434058554}
+{"step": 1219215, "episode/length": 488.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.700000032782555, "episode/reward_rate": 0.032719836400818}
+{"step": 1219529, "episode/length": 313.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.04777070063694268}
+{"step": 1219810, "episode/length": 280.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05693950177935943}
+{"step": 1219879, "episode/length": 68.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.14492753623188406}
+{"step": 1220127, "episode/length": 247.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06451612903225806}
+{"step": 1220197, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3877673678927955, "train/action_min": 0.0, "train/action_std": 3.2721671296490564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03527091290905244, "train/actor_opt_grad_steps": 609185.0, "train/actor_opt_loss": -10.358674890051285, "train/adv_mag": 0.38335130570663345, "train/adv_max": 0.29315732626451385, "train/adv_mean": 0.002097839528788528, "train/adv_min": -0.3569432186583678, "train/adv_std": 0.039868219238188535, "train/cont_avg": 0.9954020182291666, "train/cont_loss_mean": 2.6646387682769144e-06, "train/cont_loss_std": 8.064748788975488e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027234514229238925, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.0604667438012743e-06, "train/cont_pred": 0.9954025761948692, "train/cont_rate": 0.9954020182291666, "train/dyn_loss_mean": 6.06185730960634, "train/dyn_loss_std": 9.003698481453789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8506591270367304, "train/extr_critic_critic_opt_grad_steps": 609185.0, "train/extr_critic_critic_opt_loss": 14923.014689127604, "train/extr_critic_mag": 12.470574471685621, "train/extr_critic_max": 12.470574471685621, "train/extr_critic_mean": 3.668748570813073, "train/extr_critic_min": -0.3268938495053185, "train/extr_critic_std": 3.010019371906916, "train/extr_return_normed_mag": 1.3674936493237813, "train/extr_return_normed_max": 1.3674936493237813, "train/extr_return_normed_mean": 0.38292826981180245, "train/extr_return_normed_min": -0.06899361884117955, "train/extr_return_normed_std": 0.31635133197738063, "train/extr_return_rate": 0.8295618544022242, "train/extr_return_raw_mag": 13.143340826034546, "train/extr_return_raw_max": 13.143340826034546, "train/extr_return_raw_mean": 3.6888891756534576, "train/extr_return_raw_min": -0.6513883935080634, "train/extr_return_raw_std": 3.0380520025889077, "train/extr_reward_mag": 1.0800230933560266, "train/extr_reward_max": 1.0800230933560266, "train/extr_reward_mean": 0.06304872951780756, "train/extr_reward_min": -0.5657686640818914, "train/extr_reward_std": 0.24043518698049915, "train/image_loss_mean": 3.762812680668301, "train/image_loss_std": 9.730273650752174, "train/model_loss_mean": 7.465376668506199, "train/model_loss_std": 13.82998702261183, "train/model_opt_grad_norm": 20.61197630564372, "train/model_opt_grad_steps": 608684.0, "train/model_opt_loss": 16994.393141004773, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.705971098608441, "train/policy_entropy_max": 2.705971098608441, "train/policy_entropy_mean": 0.4960521881779035, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7052584480908182, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.495750069204304, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.09873897747861, "train/policy_randomness_mag": 0.9550890467233129, "train/policy_randomness_max": 0.9550890467233129, "train/policy_randomness_mean": 0.17508465320699745, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24892528230945268, "train/post_ent_mag": 54.96890640258789, "train/post_ent_max": 54.96890640258789, "train/post_ent_mean": 40.11905097961426, "train/post_ent_min": 19.87413235505422, "train/post_ent_std": 5.725754797458649, "train/prior_ent_mag": 76.91035323672824, "train/prior_ent_max": 76.91035323672824, "train/prior_ent_mean": 46.17616584565904, "train/prior_ent_min": 27.95999789237976, "train/prior_ent_std": 7.835690769884321, "train/rep_loss_mean": 6.06185730960634, "train/rep_loss_std": 9.003698481453789, "train/reward_avg": 0.052452256696091756, "train/reward_loss_mean": 0.06544700016578038, "train/reward_loss_std": 0.22542871638304657, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332242167658277, "train/reward_neg_acc": 0.9930166643526819, "train/reward_neg_loss": 0.026227339817624953, "train/reward_pos_acc": 0.9924802233775457, "train/reward_pos_loss": 0.7186751200093163, "train/reward_pred": 0.05204517642656962, "train/reward_rate": 0.056722005208333336, "stats/sum_log_reward": 13.700000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 10.6, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.5695988833904266, "stats/max_log_achievement_defeat_skeleton": 0.5, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.5639636772723236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3591870460300077e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3710343837738, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03464865684509277, "timer/logger.write_frac": 0.00011535285656347065, "timer/logger.write_avg": 0.03464865684509277, "timer/logger.write_min": 0.03464865684509277, "timer/logger.write_max": 0.03464865684509277, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.3031892776489258, "timer/replay.add_frac": 0.0010093825400672664, "timer/replay.add_avg": 0.00020880804245793788, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0025606155395507812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.48307752609253, "timer/env.step_frac": 0.061534154130445655, "timer/env.step_avg": 0.012729392235600916, "timer/env.step_min": 0.0030007362365722656, "timer/env.step_max": 2.583104133605957, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 11.954322099685669, "timer/agent.policy_frac": 0.03979851826994756, "timer/agent.policy_avg": 0.008233004200885448, "timer/agent.policy_min": 0.005735635757446289, "timer/agent.policy_max": 1.4499144554138184, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05807638168334961, "timer/dataset_frac": 0.00019334880875746294, "timer/dataset_avg": 7.999501609276805e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.83433985710144, "timer/agent.train_frac": 0.8950075376230219, "timer/agent.train_avg": 0.37029523396294967, "timer/agent.train_min": 0.3630971908569336, "timer/agent.train_max": 0.9151980876922607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972966194152832, "timer/agent.report_frac": 0.000731527466995327, "timer/agent.report_avg": 0.21972966194152832, "timer/agent.report_min": 0.21972966194152832, "timer/agent.report_max": 0.21972966194152832, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.01259160041809082, "timer/checkpoint.save_frac": 4.1920155330300466e-05, "timer/checkpoint.save_avg": 0.01259160041809082, "timer/checkpoint.save_min": 0.01259160041809082, "timer/checkpoint.save_max": 0.01259160041809082, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4635775089263916, "timer/agent.save_frac": 0.004872565398754225, "timer/agent.save_avg": 1.4635775089263916, "timer/agent.save_min": 1.4635775089263916, "timer/agent.save_max": 1.4635775089263916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.559226989746094e-05, "timer/replay.save_frac": 2.8495513914335236e-07, "timer/replay.save_avg": 8.559226989746094e-05, "timer/replay.save_min": 8.559226989746094e-05, "timer/replay.save_max": 8.559226989746094e-05, "fps": 4.833948766600684}
+{"step": 1220318, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06282722513089005}
+{"step": 1220491, "episode/length": 172.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07514450867052024}
+{"step": 1220705, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
+{"step": 1220916, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06635071090047394}
+{"step": 1221107, "episode/length": 190.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.05235602094240838}
+{"step": 1221326, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0639269406392694}
+{"step": 1221614, "episode/length": 287.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.034722222222222224}
+{"step": 1221657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4504110257919525, "train/action_min": 0.0, "train/action_std": 3.2908943189333564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03536080089333939, "train/actor_opt_grad_steps": 609910.0, "train/actor_opt_loss": -12.26676260445216, "train/adv_mag": 0.39548282549805835, "train/adv_max": 0.3059193518472044, "train/adv_mean": 0.0014665469032678791, "train/adv_min": -0.36452111111928337, "train/adv_std": 0.04080324405676698, "train/cont_avg": 0.9955051369863014, "train/cont_loss_mean": 4.7564973561036144e-05, "train/cont_loss_std": 0.0014730870388309065, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0026269106141305924, "train/cont_pos_acc": 0.9999865334327906, "train/cont_pos_loss": 4.0044294513476125e-05, "train/cont_pred": 0.995494449791843, "train/cont_rate": 0.9955051369863014, "train/dyn_loss_mean": 6.061980835378987, "train/dyn_loss_std": 9.092606838435342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9391691578577642, "train/extr_critic_critic_opt_grad_steps": 609910.0, "train/extr_critic_critic_opt_loss": 15097.892150042808, "train/extr_critic_mag": 12.777282140026355, "train/extr_critic_max": 12.777282140026355, "train/extr_critic_mean": 3.80138401789208, "train/extr_critic_min": -0.31677890150514365, "train/extr_critic_std": 3.0143642588837505, "train/extr_return_normed_mag": 1.3718491302777642, "train/extr_return_normed_max": 1.3718491302777642, "train/extr_return_normed_mean": 0.386944297650089, "train/extr_return_normed_min": -0.06863210222696604, "train/extr_return_normed_std": 0.3092486001040837, "train/extr_return_rate": 0.8527941703796387, "train/extr_return_raw_mag": 13.50552454386672, "train/extr_return_raw_max": 13.50552454386672, "train/extr_return_raw_mean": 3.8157665435581993, "train/extr_return_raw_min": -0.6667413989158526, "train/extr_return_raw_std": 3.0431735874855357, "train/extr_reward_mag": 1.0856209062550166, "train/extr_reward_max": 1.0856209062550166, "train/extr_reward_mean": 0.0632847373003829, "train/extr_reward_min": -0.5890414927103748, "train/extr_reward_std": 0.24123665302583616, "train/image_loss_mean": 3.666862713147516, "train/image_loss_std": 10.073582805999338, "train/model_loss_mean": 7.369491191759502, "train/model_loss_std": 14.266075669902644, "train/model_opt_grad_norm": 21.358587983536395, "train/model_opt_grad_steps": 609408.4246575342, "train/model_opt_loss": 13132.533236568921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.7098415877721083, "train/policy_entropy_max": 2.7098415877721083, "train/policy_entropy_mean": 0.46629239190114685, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6832146934450489, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4662902826723987, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.080148311510478, "train/policy_randomness_mag": 0.9564551596772181, "train/policy_randomness_max": 0.9564551596772181, "train/policy_randomness_mean": 0.16458075187385898, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24114480308473926, "train/post_ent_mag": 54.669783030470754, "train/post_ent_max": 54.669783030470754, "train/post_ent_mean": 39.77846417361743, "train/post_ent_min": 19.859435643235297, "train/post_ent_std": 5.79503051548788, "train/prior_ent_mag": 76.93231608769665, "train/prior_ent_max": 76.93231608769665, "train/prior_ent_mean": 45.82163494580413, "train/prior_ent_min": 27.783254257620197, "train/prior_ent_std": 7.957766101784902, "train/rep_loss_mean": 6.061980835378987, "train/rep_loss_std": 9.092606838435342, "train/reward_avg": 0.05182202515026478, "train/reward_loss_mean": 0.06539247332982821, "train/reward_loss_std": 0.2326748883479262, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0300099425119897, "train/reward_neg_acc": 0.9917584298408195, "train/reward_neg_loss": 0.026401817989982153, "train/reward_pos_acc": 0.9895737016037719, "train/reward_pos_loss": 0.7266566933017887, "train/reward_pred": 0.05159631578175172, "train/reward_rate": 0.05583797089041096, "stats/sum_log_reward": 11.100000245230538, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4097140622990472, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.508019120725867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3717845694659507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2226254940033, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029754161834716797, "timer/logger.write_frac": 9.910699363766344e-05, "timer/logger.write_avg": 0.029754161834716797, "timer/logger.write_min": 0.029754161834716797, "timer/logger.write_max": 0.029754161834716797, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.29091763496398926, "timer/replay.add_frac": 0.0009690063648111028, "timer/replay.add_avg": 0.00019925865408492414, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0011265277862548828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 19.141191720962524, "timer/env.step_frac": 0.0637566595437853, "timer/env.step_avg": 0.013110405288330497, "timer/env.step_min": 0.002895832061767578, "timer/env.step_max": 1.6978929042816162, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.408416032791138, "timer/agent.policy_frac": 0.0346689927704967, "timer/agent.policy_avg": 0.007129052077254204, "timer/agent.policy_min": 0.0056684017181396484, "timer/agent.policy_max": 0.01565694808959961, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05834221839904785, "timer/dataset_frac": 0.00019432985206577373, "timer/dataset_avg": 7.992084712198335e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.603976726532, "timer/agent.train_frac": 0.8980135200766776, "timer/agent.train_avg": 0.36932051606374244, "timer/agent.train_min": 0.36354875564575195, "timer/agent.train_max": 0.38376903533935547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22160911560058594, "timer/agent.report_frac": 0.0007381492825063993, "timer/agent.report_avg": 0.22160911560058594, "timer/agent.report_min": 0.22160911560058594, "timer/agent.report_max": 0.22160911560058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.862963237065095}
+{"step": 1221863, "episode/length": 248.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.0642570281124498}
+{"step": 1222063, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07}
+{"step": 1222292, "episode/length": 228.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06986899563318777}
+{"step": 1222597, "episode/length": 304.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.04590163934426229}
+{"step": 1222824, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06607929515418502}
+{"step": 1223034, "episode/length": 209.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0761904761904762}
+{"step": 1223123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4457290237014355, "train/action_min": 0.0, "train/action_std": 3.2909281060502336, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03612202760838979, "train/actor_opt_grad_steps": 610645.0, "train/actor_opt_loss": -10.505370000931057, "train/adv_mag": 0.3673610932923652, "train/adv_max": 0.30453293327544184, "train/adv_mean": 0.0018786712952950856, "train/adv_min": -0.33311615219792806, "train/adv_std": 0.040318638338027776, "train/cont_avg": 0.9953019425675675, "train/cont_loss_mean": 1.24771292573738e-05, "train/cont_loss_std": 0.00035532686378457056, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013982679893698828, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 4.817691910369143e-06, "train/cont_pred": 0.9953038990497589, "train/cont_rate": 0.9953019425675675, "train/dyn_loss_mean": 5.9969754090180265, "train/dyn_loss_std": 9.14922705212155, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8628052650271235, "train/extr_critic_critic_opt_grad_steps": 610645.0, "train/extr_critic_critic_opt_loss": 15062.745407516892, "train/extr_critic_mag": 12.57820397454339, "train/extr_critic_max": 12.57820397454339, "train/extr_critic_mean": 3.8391719283284367, "train/extr_critic_min": -0.3182532384588912, "train/extr_critic_std": 3.031072964539399, "train/extr_return_normed_mag": 1.3628860357645396, "train/extr_return_normed_max": 1.3628860357645396, "train/extr_return_normed_mean": 0.39361807019323913, "train/extr_return_normed_min": -0.06609644841503452, "train/extr_return_normed_std": 0.3126404506934656, "train/extr_return_rate": 0.8540646562705169, "train/extr_return_raw_mag": 13.328261491414663, "train/extr_return_raw_max": 13.328261491414663, "train/extr_return_raw_mean": 3.857522030134459, "train/extr_return_raw_min": -0.6342427138541196, "train/extr_return_raw_std": 3.054952753556741, "train/extr_reward_mag": 1.0905346258266553, "train/extr_reward_max": 1.0905346258266553, "train/extr_reward_mean": 0.06580158886877266, "train/extr_reward_min": -0.5804057813979484, "train/extr_reward_std": 0.24527292356297775, "train/image_loss_mean": 3.5166708166534835, "train/image_loss_std": 10.069109923130757, "train/model_loss_mean": 7.179273283159411, "train/model_loss_std": 14.315247960992762, "train/model_opt_grad_norm": 19.948727298427272, "train/model_opt_grad_steps": 610143.0, "train/model_opt_loss": 10885.170330975507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1520.2702702702702, "train/policy_entropy_mag": 2.704696210655006, "train/policy_entropy_max": 2.704696210655006, "train/policy_entropy_mean": 0.4535605357708158, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6636375019679198, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.453012400986375, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0674155523648132, "train/policy_randomness_mag": 0.9546390675209664, "train/policy_randomness_max": 0.9546390675209664, "train/policy_randomness_mean": 0.16008696544009285, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23423491438498367, "train/post_ent_mag": 54.89114333487846, "train/post_ent_max": 54.89114333487846, "train/post_ent_mean": 39.84359669040989, "train/post_ent_min": 19.88815348857158, "train/post_ent_std": 5.690967901332958, "train/prior_ent_mag": 76.8792345201647, "train/prior_ent_max": 76.8792345201647, "train/prior_ent_mean": 45.8152700888144, "train/prior_ent_min": 27.74001067393535, "train/prior_ent_std": 7.897745190439998, "train/rep_loss_mean": 5.9969754090180265, "train/rep_loss_std": 9.14922705212155, "train/reward_avg": 0.05232527414085092, "train/reward_loss_mean": 0.06440480748141134, "train/reward_loss_std": 0.22272758951058258, "train/reward_max_data": 1.0364864951855428, "train/reward_max_pred": 1.036014063938244, "train/reward_neg_acc": 0.9930487863115363, "train/reward_neg_loss": 0.02526122476351825, "train/reward_pos_acc": 0.9907206200264596, "train/reward_pos_loss": 0.7175851166248322, "train/reward_pred": 0.05200040874046248, "train/reward_rate": 0.056548247466216214, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.6666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.6354138255119324, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.5073226991161644e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3746473668867374e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15382504463196, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02458357810974121, "timer/logger.write_frac": 8.190326445476984e-05, "timer/logger.write_avg": 0.02458357810974121, "timer/logger.write_min": 0.02458357810974121, "timer/logger.write_max": 0.02458357810974121, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.29288363456726074, "timer/replay.add_frac": 0.0009757784513447724, "timer/replay.add_avg": 0.0001997841982041342, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0008263587951660156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.91224479675293, "timer/env.step_frac": 0.05967688332503986, "timer/env.step_avg": 0.012218448019613186, "timer/env.step_min": 0.0030508041381835938, "timer/env.step_max": 1.603250503540039, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.517573356628418, "timer/agent.policy_frac": 0.03504061077703903, "timer/agent.policy_avg": 0.007174333803975729, "timer/agent.policy_min": 0.005612611770629883, "timer/agent.policy_max": 0.015540599822998047, "timer/dataset_count": 733.0, "timer/dataset_total": 0.058443307876586914, "timer/dataset_frac": 0.00019471118806464177, "timer/dataset_avg": 7.97316614960258e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013971328735351562, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.65783071517944, "timer/agent.train_frac": 0.9017304066504348, "timer/agent.train_avg": 0.36924669947500605, "timer/agent.train_min": 0.36381077766418457, "timer/agent.train_max": 0.38082408905029297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21966004371643066, "timer/agent.report_frac": 0.0007318249023938572, "timer/agent.report_avg": 0.21966004371643066, "timer/agent.report_min": 0.21966004371643066, "timer/agent.report_max": 0.21966004371643066, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.88406900149772}
+{"step": 1223311, "episode/length": 276.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.04332129963898917}
+{"step": 1223545, "episode/length": 233.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05555555555555555}
+{"step": 1223770, "episode/length": 224.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.06222222222222222}
+{"step": 1224065, "episode/length": 294.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04745762711864407}
+{"step": 1224232, "episode/length": 166.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08383233532934131}
+{"step": 1224472, "episode/length": 239.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.0625}
+{"step": 1224567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.40069580078125, "train/action_min": 0.0, "train/action_std": 3.271108031272888, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0361307960572756, "train/actor_opt_grad_steps": 611375.0, "train/actor_opt_loss": -10.313597910520103, "train/adv_mag": 0.4117726259347465, "train/adv_max": 0.3274619535853465, "train/adv_mean": 0.0017251472263524192, "train/adv_min": -0.36878457851707935, "train/adv_std": 0.040788860318975315, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 6.142480983110469e-06, "train/cont_loss_std": 0.0001453324007169638, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.596571500442426e-07, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 6.164637287259862e-06, "train/cont_pred": 0.9954367081324259, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 6.195995946725209, "train/dyn_loss_std": 9.254636579089695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8617465322216352, "train/extr_critic_critic_opt_grad_steps": 611375.0, "train/extr_critic_critic_opt_loss": 15270.805555555555, "train/extr_critic_mag": 12.56856017642551, "train/extr_critic_max": 12.56856017642551, "train/extr_critic_mean": 3.677474624580807, "train/extr_critic_min": -0.2941594570875168, "train/extr_critic_std": 2.9056470659044056, "train/extr_return_normed_mag": 1.370918071932263, "train/extr_return_normed_max": 1.370918071932263, "train/extr_return_normed_mean": 0.37860176981323296, "train/extr_return_normed_min": -0.06801976214369966, "train/extr_return_normed_std": 0.3025306316299571, "train/extr_return_rate": 0.864209931757715, "train/extr_return_raw_mag": 13.32177013821072, "train/extr_return_raw_max": 13.32177013821072, "train/extr_return_raw_mean": 3.6942070689466266, "train/extr_return_raw_min": -0.6385237268275685, "train/extr_return_raw_std": 2.9351799190044403, "train/extr_reward_mag": 1.0897172060277727, "train/extr_reward_max": 1.0897172060277727, "train/extr_reward_mean": 0.06253136678909262, "train/extr_reward_min": -0.6145683626333872, "train/extr_reward_std": 0.2395512426478995, "train/image_loss_mean": 3.7349446747038098, "train/image_loss_std": 10.463075207339394, "train/model_loss_mean": 7.518212940957811, "train/model_loss_std": 14.690566380818685, "train/model_opt_grad_norm": 20.828672064675224, "train/model_opt_grad_steps": 610873.0, "train/model_opt_loss": 18795.53236219618, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6995418204201593, "train/policy_entropy_max": 2.6995418204201593, "train/policy_entropy_mean": 0.44233767729666496, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6509106867015362, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4427650264567799, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0624739080667496, "train/policy_randomness_mag": 0.9528197944164276, "train/policy_randomness_max": 0.9528197944164276, "train/policy_randomness_mean": 0.1561257897151841, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22974290802246994, "train/post_ent_mag": 55.01333533393012, "train/post_ent_max": 55.01333533393012, "train/post_ent_mean": 39.78786055246989, "train/post_ent_min": 19.49068792661031, "train/post_ent_std": 5.76391777727339, "train/prior_ent_mag": 76.88135316636827, "train/prior_ent_max": 76.88135316636827, "train/prior_ent_mean": 45.97141398323907, "train/prior_ent_min": 27.55041530397203, "train/prior_ent_std": 7.990491979651981, "train/rep_loss_mean": 6.195995946725209, "train/rep_loss_std": 9.254636579089695, "train/reward_avg": 0.051867675294892654, "train/reward_loss_mean": 0.0656645798848735, "train/reward_loss_std": 0.23053497365779346, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0296058754126232, "train/reward_neg_acc": 0.9924302705460124, "train/reward_neg_loss": 0.026268383242293365, "train/reward_pos_acc": 0.9885762019289864, "train/reward_pos_loss": 0.7295018136501312, "train/reward_pred": 0.051328225837399565, "train/reward_rate": 0.055976019965277776, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5207808713118235, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.611447078039111e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.375261601318613e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03189754486084, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024476289749145508, "timer/logger.write_frac": 8.157895860217931e-05, "timer/logger.write_avg": 0.024476289749145508, "timer/logger.write_min": 0.024476289749145508, "timer/logger.write_max": 0.024476289749145508, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.30154919624328613, "timer/replay.add_frac": 0.001005057124628552, "timer/replay.add_avg": 0.00020882908327097378, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.002698659896850586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.568876028060913, "timer/env.step_frac": 0.06522265195198111, "timer/env.step_avg": 0.013551853205028334, "timer/env.step_min": 0.0028543472290039062, "timer/env.step_max": 1.885071039199829, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 12.224586009979248, "timer/agent.policy_frac": 0.040744287890761434, "timer/agent.policy_avg": 0.008465779785304188, "timer/agent.policy_min": 0.005730628967285156, "timer/agent.policy_max": 1.1804273128509521, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05778670310974121, "timer/dataset_frac": 0.00019260186527701086, "timer/dataset_avg": 8.003698491653908e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.000225067138671875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 267.1636698246002, "timer/agent.train_frac": 0.890450888758099, "timer/agent.train_avg": 0.370032783690582, "timer/agent.train_min": 0.36287641525268555, "timer/agent.train_max": 0.8490121364593506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219395637512207, "timer/agent.report_frac": 0.000740567780270428, "timer/agent.report_avg": 0.22219395637512207, "timer/agent.report_min": 0.22219395637512207, "timer/agent.report_max": 0.22219395637512207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024199485778808594, "timer/checkpoint.save_frac": 8.065637679470491e-07, "timer/checkpoint.save_avg": 0.00024199485778808594, "timer/checkpoint.save_min": 0.00024199485778808594, "timer/checkpoint.save_max": 0.00024199485778808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1916546821594238, "timer/agent.save_frac": 0.003971759975891388, "timer/agent.save_avg": 1.1916546821594238, "timer/agent.save_min": 1.1916546821594238, "timer/agent.save_max": 1.1916546821594238, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1534855282133034e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "fps": 4.812737063054685}
+{"step": 1224714, "episode/length": 241.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.05785123966942149}
+{"step": 1224953, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06694560669456066}
+{"step": 1225200, "episode/length": 246.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06072874493927125}
+{"step": 1225286, "episode/length": 85.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.08139534883720931}
+{"step": 1225520, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0641025641025641}
+{"step": 1225769, "episode/length": 248.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.06827309236947791}
+{"step": 1225919, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06}
+{"step": 1226025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48526962489298, "train/action_min": 0.0, "train/action_std": 3.27213318380591, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035957998915077886, "train/actor_opt_grad_steps": 612100.0, "train/actor_opt_loss": -11.247947451186507, "train/adv_mag": 0.4111765837424422, "train/adv_max": 0.34290113534829386, "train/adv_mean": 0.0016553938727305998, "train/adv_min": -0.34940160382283875, "train/adv_std": 0.04041963670249671, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 0.00014798056816671648, "train/cont_loss_std": 0.004661127459626934, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.017112123333916564, "train/cont_pos_acc": 0.9999865203687589, "train/cont_pos_loss": 7.186953439719991e-05, "train/cont_pred": 0.9949733435291134, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.916904220842335, "train/dyn_loss_std": 9.133491908034234, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8760949863146429, "train/extr_critic_critic_opt_grad_steps": 612100.0, "train/extr_critic_critic_opt_loss": 15197.230936964897, "train/extr_critic_mag": 12.758456569828398, "train/extr_critic_max": 12.758456569828398, "train/extr_critic_mean": 3.7732652883007103, "train/extr_critic_min": -0.3206432927144717, "train/extr_critic_std": 3.077356558956512, "train/extr_return_normed_mag": 1.3688051831232357, "train/extr_return_normed_max": 1.3688051831232357, "train/extr_return_normed_mean": 0.3860372858096475, "train/extr_return_normed_min": -0.0697775431589721, "train/extr_return_normed_std": 0.3168546339012172, "train/extr_return_rate": 0.8408203549581031, "train/extr_return_raw_mag": 13.418327579759572, "train/extr_return_raw_max": 13.418327579759572, "train/extr_return_raw_mean": 3.7894876166565776, "train/extr_return_raw_min": -0.6769228838894465, "train/extr_return_raw_std": 3.1047375283829153, "train/extr_reward_mag": 1.0879624249183968, "train/extr_reward_max": 1.0879624249183968, "train/extr_reward_mean": 0.0635537255096109, "train/extr_reward_min": -0.6146348224927302, "train/extr_reward_std": 0.24190099394484743, "train/image_loss_mean": 3.775629468160133, "train/image_loss_std": 10.395669649725091, "train/model_loss_mean": 7.391035772349737, "train/model_loss_std": 14.557811880764897, "train/model_opt_grad_norm": 20.579574584960938, "train/model_opt_grad_steps": 611597.2328767123, "train/model_opt_loss": 19723.324967893837, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.7188185567725194, "train/policy_entropy_max": 2.7188185567725194, "train/policy_entropy_mean": 0.46348629953110054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6737636846222289, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46276135865139634, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.075105755296472, "train/policy_randomness_mag": 0.959623638897726, "train/policy_randomness_max": 0.959623638897726, "train/policy_randomness_mean": 0.16359032588462308, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23780901546347633, "train/post_ent_mag": 55.39144301741091, "train/post_ent_max": 55.39144301741091, "train/post_ent_mean": 39.89458246100439, "train/post_ent_min": 19.77443721196423, "train/post_ent_std": 5.781694967452794, "train/prior_ent_mag": 76.81984219485766, "train/prior_ent_max": 76.81984219485766, "train/prior_ent_mean": 45.80948309702416, "train/prior_ent_min": 27.719944052500267, "train/prior_ent_std": 8.009036279704473, "train/rep_loss_mean": 5.916904220842335, "train/rep_loss_std": 9.133491908034234, "train/reward_avg": 0.05057389694840124, "train/reward_loss_mean": 0.06511584990849234, "train/reward_loss_std": 0.23057816412350904, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0345898556382689, "train/reward_neg_acc": 0.9928703087649934, "train/reward_neg_loss": 0.026721359345398536, "train/reward_pos_acc": 0.9906825913141851, "train/reward_pos_loss": 0.7223488712963992, "train/reward_pred": 0.05034073130929307, "train/reward_rate": 0.05510220462328767, "stats/sum_log_reward": 12.242857456207275, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.475861947451319, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.521334487224312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3666347548140747e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22865748405457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025105714797973633, "timer/logger.write_frac": 8.362198002136762e-05, "timer/logger.write_avg": 0.025105714797973633, "timer/logger.write_min": 0.025105714797973633, "timer/logger.write_max": 0.025105714797973633, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.3144075870513916, "timer/replay.add_frac": 0.0010472271024563674, "timer/replay.add_avg": 0.00021564306382125623, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0009598731994628906, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.232851266860962, "timer/env.step_frac": 0.06406067771156201, "timer/env.step_avg": 0.013191256012936187, "timer/env.step_min": 0.003040790557861328, "timer/env.step_max": 1.5931692123413086, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.548482656478882, "timer/agent.policy_frac": 0.03513482938263188, "timer/agent.policy_avg": 0.0072348989413435405, "timer/agent.policy_min": 0.005667448043823242, "timer/agent.policy_max": 0.01581573486328125, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05808758735656738, "timer/dataset_frac": 0.00019347782401369352, "timer/dataset_avg": 7.968118978953002e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.35801672935486, "timer/agent.train_frac": 0.8971762355619257, "timer/agent.train_avg": 0.36948973488251696, "timer/agent.train_min": 0.3599700927734375, "timer/agent.train_max": 0.38241028785705566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200000286102295, "timer/agent.report_frac": 0.000732774913806867, "timer/agent.report_avg": 0.2200000286102295, "timer/agent.report_min": 0.2200000286102295, "timer/agent.report_max": 0.2200000286102295, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.856203686486197}
+{"step": 1226161, "episode/length": 241.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06611570247933884}
+{"step": 1226350, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06878306878306878}
+{"step": 1226516, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0783132530120482}
+{"step": 1226717, "episode/length": 200.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.05970149253731343}
+{"step": 1227141, "episode/length": 423.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.02122641509433962}
+{"step": 1227312, "episode/length": 170.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.04678362573099415}
+{"step": 1227493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454271290400257, "train/action_min": 0.0, "train/action_std": 3.2890320248799783, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036438790800636764, "train/actor_opt_grad_steps": 612830.0, "train/actor_opt_loss": -13.967772761436358, "train/adv_mag": 0.39778972039483995, "train/adv_max": 0.30869242222341775, "train/adv_mean": 0.0013432968957054633, "train/adv_min": -0.36983416423405685, "train/adv_std": 0.04057927582770178, "train/cont_avg": 0.995652290239726, "train/cont_loss_mean": 9.95794451171345e-06, "train/cont_loss_std": 0.0002940895306008643, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016521810688350605, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 9.092878102960706e-06, "train/cont_pred": 0.9956445881765182, "train/cont_rate": 0.995652290239726, "train/dyn_loss_mean": 5.916950637347077, "train/dyn_loss_std": 9.055102002130797, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8726664267174186, "train/extr_critic_critic_opt_grad_steps": 612830.0, "train/extr_critic_critic_opt_loss": 15085.885193707192, "train/extr_critic_mag": 12.694599935453232, "train/extr_critic_max": 12.694599935453232, "train/extr_critic_mean": 3.799156904220581, "train/extr_critic_min": -0.33098496312964454, "train/extr_critic_std": 2.9685368505242753, "train/extr_return_normed_mag": 1.3788413985134804, "train/extr_return_normed_max": 1.3788413985134804, "train/extr_return_normed_mean": 0.3916137273589226, "train/extr_return_normed_min": -0.06559023077357305, "train/extr_return_normed_std": 0.30696841217067145, "train/extr_return_rate": 0.8544387245831424, "train/extr_return_raw_mag": 13.454144752188904, "train/extr_return_raw_max": 13.454144752188904, "train/extr_return_raw_mean": 3.812301358131513, "train/extr_return_raw_min": -0.6535554217965636, "train/extr_return_raw_std": 2.998272320995592, "train/extr_reward_mag": 1.0859826362296328, "train/extr_reward_max": 1.0859826362296328, "train/extr_reward_mean": 0.06438998980064915, "train/extr_reward_min": -0.5830734184343521, "train/extr_reward_std": 0.24307144116865445, "train/image_loss_mean": 3.6338358611276704, "train/image_loss_std": 9.414789036528704, "train/model_loss_mean": 7.249066509612619, "train/model_loss_std": 13.587635536716409, "train/model_opt_grad_norm": 21.16154820951697, "train/model_opt_grad_steps": 612326.6164383561, "train/model_opt_loss": 18375.650390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7145457888302738, "train/policy_entropy_max": 2.7145457888302738, "train/policy_entropy_mean": 0.4540456823290211, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6700379897470343, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4545614102931872, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0717457737008187, "train/policy_randomness_mag": 0.9581155385056587, "train/policy_randomness_max": 0.9581155385056587, "train/policy_randomness_mean": 0.16025820333663732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2364940051346609, "train/post_ent_mag": 54.95932665263137, "train/post_ent_max": 54.95932665263137, "train/post_ent_mean": 39.74213357167701, "train/post_ent_min": 19.63372246206623, "train/post_ent_std": 5.720610749231626, "train/prior_ent_mag": 76.92723240264475, "train/prior_ent_max": 76.92723240264475, "train/prior_ent_mean": 45.639893675503664, "train/prior_ent_min": 27.428151326636744, "train/prior_ent_std": 7.9329679632840095, "train/rep_loss_mean": 5.916950637347077, "train/rep_loss_std": 9.055102002130797, "train/reward_avg": 0.053161118587810696, "train/reward_loss_mean": 0.06505029352560435, "train/reward_loss_std": 0.2248585250687926, "train/reward_max_data": 1.0397260368686834, "train/reward_max_pred": 1.0373251487130988, "train/reward_neg_acc": 0.9920641241008288, "train/reward_neg_loss": 0.02520383123869765, "train/reward_pos_acc": 0.9893228999555927, "train/reward_pos_loss": 0.7221471503989337, "train/reward_pred": 0.05276218817046244, "train/reward_rate": 0.05722923801369863, "stats/sum_log_reward": 10.600000143051147, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.39493391911188763, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.5902459874789785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3708459259053991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2168138027191, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03590655326843262, "timer/logger.write_frac": 0.00011960207296060313, "timer/logger.write_avg": 0.03590655326843262, "timer/logger.write_min": 0.03590655326843262, "timer/logger.write_max": 0.03590655326843262, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.3010401725769043, "timer/replay.add_frac": 0.0010027425471736777, "timer/replay.add_avg": 0.0002050682374502073, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0010519027709960938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.41649103164673, "timer/env.step_frac": 0.0580130433437069, "timer/env.step_avg": 0.011864094708206218, "timer/env.step_min": 0.003139019012451172, "timer/env.step_max": 1.5985918045043945, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.506186485290527, "timer/agent.policy_frac": 0.034995330049017295, "timer/agent.policy_avg": 0.0071568027828954545, "timer/agent.policy_min": 0.005645751953125, "timer/agent.policy_max": 0.015496969223022461, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05882906913757324, "timer/dataset_frac": 0.00019595527776212918, "timer/dataset_avg": 8.01485955552769e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.207745552063, "timer/agent.train_frac": 0.9033729394326369, "timer/agent.train_avg": 0.36949284135158444, "timer/agent.train_min": 0.36080026626586914, "timer/agent.train_max": 0.3829524517059326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202763557434082, "timer/agent.report_frac": 0.0007337242473306574, "timer/agent.report_avg": 0.2202763557434082, "timer/agent.report_min": 0.2202763557434082, "timer/agent.report_max": 0.2202763557434082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8897114591277555}
+{"step": 1227529, "episode/length": 216.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.059907834101382486}
+{"step": 1227765, "episode/length": 235.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.0635593220338983}
+{"step": 1228055, "episode/length": 289.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05172413793103448}
+{"step": 1228237, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07142857142857142}
+{"step": 1228456, "episode/length": 218.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.900000020861626, "episode/reward_rate": 0.0730593607305936}
+{"step": 1228524, "episode/length": 67.0, "episode/score": 4.100000016391277, "episode/sum_abs_reward": 5.500000037252903, "episode/reward_rate": 0.07352941176470588}
+{"step": 1228797, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.054945054945054944}
+{"step": 1228851, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462653664981618, "train/action_min": 0.0, "train/action_std": 3.3024765218005463, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035251479842426145, "train/actor_opt_grad_steps": 613535.0, "train/actor_opt_loss": -12.86862227364498, "train/adv_mag": 0.3884640465326169, "train/adv_max": 0.32864389743875055, "train/adv_mean": 0.001049208384275142, "train/adv_min": -0.35022317201775666, "train/adv_std": 0.04092057153363438, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 4.183455779958959e-05, "train/cont_loss_std": 0.0013221309507100857, "train/cont_neg_acc": 0.9981617647058824, "train/cont_neg_loss": 0.004090543737719378, "train/cont_pos_acc": 0.9999999842223, "train/cont_pos_loss": 9.980149450750098e-06, "train/cont_pred": 0.9948768221280154, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 6.023780261769014, "train/dyn_loss_std": 9.145663093118106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8666691315524718, "train/extr_critic_critic_opt_grad_steps": 613535.0, "train/extr_critic_critic_opt_loss": 15166.329245174633, "train/extr_critic_mag": 12.881518195657168, "train/extr_critic_max": 12.881518195657168, "train/extr_critic_mean": 3.8205435276031494, "train/extr_critic_min": -0.37348245522555185, "train/extr_critic_std": 3.1498423253788665, "train/extr_return_normed_mag": 1.3910433141624226, "train/extr_return_normed_max": 1.3910433141624226, "train/extr_return_normed_mean": 0.3930322950815453, "train/extr_return_normed_min": -0.06674032515900977, "train/extr_return_normed_std": 0.32227198932977286, "train/extr_return_rate": 0.8297909463153166, "train/extr_return_raw_mag": 13.665206993327422, "train/extr_return_raw_max": 13.665206993327422, "train/extr_return_raw_mean": 3.830957952667685, "train/extr_return_raw_min": -0.6979421526193619, "train/extr_return_raw_std": 3.1747956416186165, "train/extr_reward_mag": 1.0819508643711315, "train/extr_reward_max": 1.0819508643711315, "train/extr_reward_mean": 0.0644731622956255, "train/extr_reward_min": -0.6254829010542702, "train/extr_reward_std": 0.24365314622135723, "train/image_loss_mean": 3.7180642520680145, "train/image_loss_std": 9.93329431028927, "train/model_loss_mean": 7.4008850069607, "train/model_loss_std": 14.086520770016838, "train/model_opt_grad_norm": 19.401099906248206, "train/model_opt_grad_steps": 613031.0, "train/model_opt_loss": 18502.212488511028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.730965453035691, "train/policy_entropy_max": 2.730965453035691, "train/policy_entropy_mean": 0.47744517554255095, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6929562797441202, "train/policy_logprob_mag": 7.438384287497577, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47696349375388203, "train/policy_logprob_min": -7.438384287497577, "train/policy_logprob_std": 1.0889861276921105, "train/policy_randomness_mag": 0.9639109600992763, "train/policy_randomness_max": 0.9639109600992763, "train/policy_randomness_mean": 0.16851719479788752, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24458315179628484, "train/post_ent_mag": 54.78685687570011, "train/post_ent_max": 54.78685687570011, "train/post_ent_mean": 39.78388550702263, "train/post_ent_min": 19.440019383149988, "train/post_ent_std": 5.706648419885075, "train/prior_ent_mag": 76.86238019606647, "train/prior_ent_max": 76.86238019606647, "train/prior_ent_mean": 45.78710802863626, "train/prior_ent_min": 27.295892126419965, "train/prior_ent_std": 8.038594414206113, "train/rep_loss_mean": 6.023780261769014, "train/rep_loss_std": 9.145663093118106, "train/reward_avg": 0.05351562411798274, "train/reward_loss_mean": 0.0685108105706818, "train/reward_loss_std": 0.23355694772566066, "train/reward_max_data": 1.0411764804054708, "train/reward_max_pred": 1.04110205524108, "train/reward_neg_acc": 0.9921644619282555, "train/reward_neg_loss": 0.028580361045897007, "train/reward_pos_acc": 0.9910049026503283, "train/reward_pos_loss": 0.7130539259489845, "train/reward_pred": 0.05323288573280854, "train/reward_rate": 0.058148552389705885, "stats/sum_log_reward": 11.957143034253802, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5037814400025776, "replay/size": 1000000.0, "replay/inserts": 1358.0, "replay/samples": 10864.0, "replay/insert_wait_avg": 3.6315819651810162e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490927588079393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3612298965454, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03164243698120117, "timer/logger.write_frac": 0.00010534794051848802, "timer/logger.write_avg": 0.03164243698120117, "timer/logger.write_min": 0.03164243698120117, "timer/logger.write_max": 0.03164243698120117, "timer/replay.add_count": 1358.0, "timer/replay.add_total": 0.27593064308166504, "timer/replay.add_frac": 0.0009186626488934838, "timer/replay.add_avg": 0.0002031889860689728, "timer/replay.add_min": 8.821487426757812e-05, "timer/replay.add_max": 0.0011706352233886719, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1358.0, "timer/env.step_total": 18.881245613098145, "timer/env.step_frac": 0.06286179351310249, "timer/env.step_avg": 0.013903715473562698, "timer/env.step_min": 0.0028734207153320312, "timer/env.step_max": 1.6090247631072998, "timer/agent.policy_count": 1358.0, "timer/agent.policy_total": 14.119275331497192, "timer/agent.policy_frac": 0.047007649210786456, "timer/agent.policy_avg": 0.010397109964283648, "timer/agent.policy_min": 0.0056858062744140625, "timer/agent.policy_max": 3.0757336616516113, "timer/dataset_count": 679.0, "timer/dataset_total": 0.055200815200805664, "timer/dataset_frac": 0.00018378142618412734, "timer/dataset_avg": 8.129722415435296e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 679.0, "timer/agent.train_total": 266.33434891700745, "timer/agent.train_frac": 0.886713471671234, "timer/agent.train_avg": 0.3922449910412481, "timer/agent.train_min": 0.3639395236968994, "timer/agent.train_max": 0.47316980361938477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677923202514648, "timer/agent.report_frac": 0.0007217284071576502, "timer/agent.report_avg": 0.21677923202514648, "timer/agent.report_min": 0.21677923202514648, "timer/agent.report_max": 0.21677923202514648, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006489753723144531, "timer/checkpoint.save_frac": 2.160649603605573e-06, "timer/checkpoint.save_avg": 0.0006489753723144531, "timer/checkpoint.save_min": 0.0006489753723144531, "timer/checkpoint.save_max": 0.0006489753723144531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1606369018554688, "timer/agent.save_frac": 0.003864136866982571, "timer/agent.save_avg": 1.1606369018554688, "timer/agent.save_min": 1.1606369018554688, "timer/agent.save_max": 1.1606369018554688, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.532135281227692e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "fps": 4.521158561357018}
+{"step": 1228948, "episode/length": 150.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0728476821192053}
+{"step": 1229377, "episode/length": 428.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.023310023310023312}
+{"step": 1229631, "episode/length": 253.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05905511811023622}
+{"step": 1229886, "episode/length": 254.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06274509803921569}
+{"step": 1230094, "episode/length": 207.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07211538461538461}
+{"step": 1230173, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470763235381155, "train/action_min": 0.0, "train/action_std": 3.2995536146741924, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037145759402350945, "train/actor_opt_grad_steps": 614205.0, "train/actor_opt_loss": -11.291696168256529, "train/adv_mag": 0.42732084249005176, "train/adv_max": 0.36625456087517017, "train/adv_mean": 0.0017781076336508374, "train/adv_min": -0.3750002115513339, "train/adv_std": 0.04148639292653763, "train/cont_avg": 0.9951467803030303, "train/cont_loss_mean": 9.525089087783405e-05, "train/cont_loss_std": 0.0029941483615092343, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.003281387345649658, "train/cont_pos_acc": 0.9999702897938815, "train/cont_pos_loss": 7.862032500184593e-05, "train/cont_pred": 0.9951237322706165, "train/cont_rate": 0.9951467803030303, "train/dyn_loss_mean": 5.931408340280706, "train/dyn_loss_std": 9.05903215119333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8528827184980566, "train/extr_critic_critic_opt_grad_steps": 614205.0, "train/extr_critic_critic_opt_loss": 15186.906457149622, "train/extr_critic_mag": 12.729996218825832, "train/extr_critic_max": 12.729996218825832, "train/extr_critic_mean": 3.755699974117857, "train/extr_critic_min": -0.32704643227837304, "train/extr_critic_std": 3.0162144754872178, "train/extr_return_normed_mag": 1.3867387500676243, "train/extr_return_normed_max": 1.3867387500676243, "train/extr_return_normed_mean": 0.3937329762812817, "train/extr_return_normed_min": -0.0657970720168316, "train/extr_return_normed_std": 0.3135867098515684, "train/extr_return_rate": 0.8521731432640192, "train/extr_return_raw_mag": 13.400491916772092, "train/extr_return_raw_max": 13.400491916772092, "train/extr_return_raw_mean": 3.7729715433987705, "train/extr_return_raw_min": -0.682901506171082, "train/extr_return_raw_std": 3.040755725268162, "train/extr_reward_mag": 1.0826953902389065, "train/extr_reward_max": 1.0826953902389065, "train/extr_reward_mean": 0.06625740563101841, "train/extr_reward_min": -0.5830026467641195, "train/extr_reward_std": 0.24639717624946075, "train/image_loss_mean": 3.62168676925428, "train/image_loss_std": 9.963668230808143, "train/model_loss_mean": 7.246253389300722, "train/model_loss_std": 14.146186496272232, "train/model_opt_grad_norm": 19.336725596225623, "train/model_opt_grad_steps": 613700.1515151515, "train/model_opt_loss": 19770.5390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7082946625622837, "train/policy_entropy_max": 2.7082946625622837, "train/policy_entropy_mean": 0.444938733270674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6561290246970726, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44315686551007355, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0602764830444797, "train/policy_randomness_mag": 0.9559091690814856, "train/policy_randomness_max": 0.9559091690814856, "train/policy_randomness_mean": 0.15704384717074307, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23158475282517346, "train/post_ent_mag": 54.724252816402554, "train/post_ent_max": 54.724252816402554, "train/post_ent_mean": 39.83226932178844, "train/post_ent_min": 19.628005547956988, "train/post_ent_std": 5.710817943919789, "train/prior_ent_mag": 76.85401743108577, "train/prior_ent_max": 76.85401743108577, "train/prior_ent_mean": 45.704051509048, "train/prior_ent_min": 27.444044026461516, "train/prior_ent_std": 7.879868550734087, "train/rep_loss_mean": 5.931408340280706, "train/rep_loss_std": 9.05903215119333, "train/reward_avg": 0.05320046091395797, "train/reward_loss_mean": 0.06562649148205917, "train/reward_loss_std": 0.22857650391983264, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0347630724762424, "train/reward_neg_acc": 0.9922290317939989, "train/reward_neg_loss": 0.026332987274861698, "train/reward_pos_acc": 0.9932611747221514, "train/reward_pos_loss": 0.7106488410270575, "train/reward_pred": 0.052960221796776306, "train/reward_rate": 0.05735085227272727, "stats/sum_log_reward": 12.300000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.6, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5421656727790832, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.542012778785694e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3722819748155648e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31664633750916, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024569034576416016, "timer/logger.write_frac": 8.181043200916757e-05, "timer/logger.write_avg": 0.024569034576416016, "timer/logger.write_min": 0.024569034576416016, "timer/logger.write_max": 0.024569034576416016, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.2765531539916992, "timer/replay.add_frac": 0.0009208718776144581, "timer/replay.add_avg": 0.00020919300604515826, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0008962154388427734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.353450059890747, "timer/env.step_frac": 0.051124205891124194, "timer/env.step_avg": 0.01161380488645291, "timer/env.step_min": 0.00289154052734375, "timer/env.step_max": 1.6322674751281738, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 9.825190305709839, "timer/agent.policy_frac": 0.03271610290515783, "timer/agent.policy_avg": 0.0074320652841980625, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.017451763153076172, "timer/dataset_count": 661.0, "timer/dataset_total": 0.05328989028930664, "timer/dataset_frac": 0.00017744567588643455, "timer/dataset_avg": 8.062010633783152e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.1236138343811, "timer/agent.train_frac": 0.9127819492440283, "timer/agent.train_avg": 0.41471045965867037, "timer/agent.train_min": 0.3727574348449707, "timer/agent.train_max": 0.46837401390075684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2335965633392334, "timer/agent.report_frac": 0.0007778342166111805, "timer/agent.report_avg": 0.2335965633392334, "timer/agent.report_min": 0.2335965633392334, "timer/agent.report_max": 0.2335965633392334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.401936600008253}
+{"step": 1230395, "episode/length": 300.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.04983388704318937}
+{"step": 1230585, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06315789473684211}
+{"step": 1230800, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06046511627906977}
+{"step": 1230951, "episode/length": 150.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.09271523178807947}
+{"step": 1231227, "episode/length": 275.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.057971014492753624}
+{"step": 1231448, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06334841628959276}
+{"step": 1231486, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429948286576704, "train/action_min": 0.0, "train/action_std": 3.3017146659619883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0364988986684969, "train/actor_opt_grad_steps": 614865.0, "train/actor_opt_loss": -10.152468524139488, "train/adv_mag": 0.4217284710118265, "train/adv_max": 0.3430141215071534, "train/adv_mean": 0.0018574185805846355, "train/adv_min": -0.37499073712211667, "train/adv_std": 0.04123153989062165, "train/cont_avg": 0.9953983191287878, "train/cont_loss_mean": 4.0012650730018734e-05, "train/cont_loss_std": 0.0012302401024157916, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.0058610781816780255, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 6.2314907487022575e-06, "train/cont_pred": 0.995406920259649, "train/cont_rate": 0.9953983191287878, "train/dyn_loss_mean": 6.1457900495240185, "train/dyn_loss_std": 9.054626833308827, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8797175992618907, "train/extr_critic_critic_opt_grad_steps": 614865.0, "train/extr_critic_critic_opt_loss": 15243.42881451231, "train/extr_critic_mag": 12.617337226867676, "train/extr_critic_max": 12.617337226867676, "train/extr_critic_mean": 3.627818743387858, "train/extr_critic_min": -0.3188320416392702, "train/extr_critic_std": 2.958985274488276, "train/extr_return_normed_mag": 1.3833895993955208, "train/extr_return_normed_max": 1.3833895993955208, "train/extr_return_normed_mean": 0.3827298983479991, "train/extr_return_normed_min": -0.06289248636951952, "train/extr_return_normed_std": 0.3101952089504762, "train/extr_return_rate": 0.8451714813709259, "train/extr_return_raw_mag": 13.261153076634262, "train/extr_return_raw_max": 13.261153076634262, "train/extr_return_raw_mean": 3.6456396904858677, "train/extr_return_raw_min": -0.6367243528366089, "train/extr_return_raw_std": 2.9809115799990566, "train/extr_reward_mag": 1.0861301747235386, "train/extr_reward_max": 1.0861301747235386, "train/extr_reward_mean": 0.06379489984476205, "train/extr_reward_min": -0.5729770263036092, "train/extr_reward_std": 0.24187846888195386, "train/image_loss_mean": 3.753200234788837, "train/image_loss_std": 9.509924512920957, "train/model_loss_mean": 7.5050098607034395, "train/model_loss_std": 13.624975110545304, "train/model_opt_grad_norm": 20.598199569817744, "train/model_opt_grad_steps": 614359.7878787878, "train/model_opt_loss": 21048.710878314392, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2803.030303030303, "train/policy_entropy_mag": 2.7384437756104902, "train/policy_entropy_max": 2.7384437756104902, "train/policy_entropy_mean": 0.46744958875757275, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6901577404051116, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4664730081955592, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.0803393685456477, "train/policy_randomness_mag": 0.9665504820419081, "train/policy_randomness_max": 0.9665504820419081, "train/policy_randomness_mean": 0.16498919079701105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2435953924150178, "train/post_ent_mag": 54.91993580442487, "train/post_ent_max": 54.91993580442487, "train/post_ent_mean": 39.85417209972035, "train/post_ent_min": 19.635295188788213, "train/post_ent_std": 5.7914549148443975, "train/prior_ent_mag": 76.90422300858931, "train/prior_ent_max": 76.90422300858931, "train/prior_ent_mean": 46.00056145407937, "train/prior_ent_min": 27.59458790403424, "train/prior_ent_std": 7.85174908060016, "train/rep_loss_mean": 6.1457900495240185, "train/rep_loss_std": 9.054626833308827, "train/reward_avg": 0.05114672067716266, "train/reward_loss_mean": 0.0642957232440963, "train/reward_loss_std": 0.21940058785857577, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0354177446076365, "train/reward_neg_acc": 0.9918535514311357, "train/reward_neg_loss": 0.02639844354637193, "train/reward_pos_acc": 0.9933730959892273, "train/reward_pos_loss": 0.7094745915947538, "train/reward_pred": 0.05092346419890722, "train/reward_rate": 0.05538293087121212, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.36991186688343686, "replay/size": 1000000.0, "replay/inserts": 1313.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.558483545052034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3660230651134398e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0042350292206, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03365755081176758, "timer/logger.write_frac": 0.00011219025227590308, "timer/logger.write_avg": 0.03365755081176758, "timer/logger.write_min": 0.03365755081176758, "timer/logger.write_max": 0.03365755081176758, "timer/replay.add_count": 1313.0, "timer/replay.add_total": 0.264507532119751, "timer/replay.add_frac": 0.000881679327273456, "timer/replay.add_avg": 0.000201452804356246, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.000957489013671875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1313.0, "timer/env.step_total": 17.3606276512146, "timer/env.step_frac": 0.057867941929298644, "timer/env.step_avg": 0.013222107883636406, "timer/env.step_min": 0.0031211376190185547, "timer/env.step_max": 1.6924126148223877, "timer/agent.policy_count": 1313.0, "timer/agent.policy_total": 9.832254886627197, "timer/agent.policy_frac": 0.03277372029654691, "timer/agent.policy_avg": 0.007488389098725969, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 0.018744707107543945, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05259203910827637, "timer/dataset_frac": 0.0001753043222978298, "timer/dataset_avg": 8.017079132359202e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.8031165599823, "timer/agent.train_frac": 0.9059975987789256, "timer/agent.train_avg": 0.41433401914631446, "timer/agent.train_min": 0.3671534061431885, "timer/agent.train_max": 0.45041751861572266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23067426681518555, "timer/agent.report_frac": 0.0007689033682898434, "timer/agent.report_avg": 0.23067426681518555, "timer/agent.report_min": 0.23067426681518555, "timer/agent.report_max": 0.23067426681518555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.376522726999494}
+{"step": 1231639, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.899999991059303, "episode/reward_rate": 0.08376963350785341}
+{"step": 1231851, "episode/length": 211.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07075471698113207}
+{"step": 1232009, "episode/length": 157.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.08860759493670886}
+{"step": 1232228, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0639269406392694}
+{"step": 1232525, "episode/length": 296.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04713804713804714}
+{"step": 1232680, "episode/length": 154.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08387096774193549}
+{"step": 1232777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489102363586426, "train/action_min": 0.0, "train/action_std": 3.336981475353241, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036552636593114585, "train/actor_opt_grad_steps": 615515.0, "train/actor_opt_loss": -8.429057388566434, "train/adv_mag": 0.4250708776526153, "train/adv_max": 0.3406836409121752, "train/adv_mean": 0.002322853593113905, "train/adv_min": -0.3773365179076791, "train/adv_std": 0.04109268507454544, "train/cont_avg": 0.9952392578125, "train/cont_loss_mean": 7.705077876364597e-05, "train/cont_loss_std": 0.002426796461582059, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019808258847281435, "train/cont_pos_acc": 0.9999846164137125, "train/cont_pos_loss": 7.665454255607884e-05, "train/cont_pred": 0.995215617120266, "train/cont_rate": 0.9952392578125, "train/dyn_loss_mean": 5.9052843898534775, "train/dyn_loss_std": 9.140401989221573, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8655846482142806, "train/extr_critic_critic_opt_grad_steps": 615515.0, "train/extr_critic_critic_opt_loss": 15153.417663574219, "train/extr_critic_mag": 12.482654422521591, "train/extr_critic_max": 12.482654422521591, "train/extr_critic_mean": 3.756703082472086, "train/extr_critic_min": -0.30558057874441147, "train/extr_critic_std": 2.980982631444931, "train/extr_return_normed_mag": 1.3715727776288986, "train/extr_return_normed_max": 1.3715727776288986, "train/extr_return_normed_mean": 0.3934684507548809, "train/extr_return_normed_min": -0.06254210387123749, "train/extr_return_normed_std": 0.31151057593524456, "train/extr_return_rate": 0.8570546889677644, "train/extr_return_raw_mag": 13.220893889665604, "train/extr_return_raw_max": 13.220893889665604, "train/extr_return_raw_mean": 3.7791445665061474, "train/extr_return_raw_min": -0.6236044995021075, "train/extr_return_raw_std": 3.0075812488794327, "train/extr_reward_mag": 1.0891268253326416, "train/extr_reward_max": 1.0891268253326416, "train/extr_reward_mean": 0.06296195444883779, "train/extr_reward_min": -0.5917324461042881, "train/extr_reward_std": 0.24088724423199892, "train/image_loss_mean": 3.6365067027509212, "train/image_loss_std": 9.556416526436806, "train/model_loss_mean": 7.2435062527656555, "train/model_loss_std": 13.790274113416672, "train/model_opt_grad_norm": 21.14125031232834, "train/model_opt_grad_steps": 615009.0, "train/model_opt_loss": 18108.765594482422, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7475984692573547, "train/policy_entropy_max": 2.7475984692573547, "train/policy_entropy_mean": 0.4648336675018072, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6825470477342606, "train/policy_logprob_mag": 7.4383842423558235, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4624552330933511, "train/policy_logprob_min": -7.4383842423558235, "train/policy_logprob_std": 1.0731149539351463, "train/policy_randomness_mag": 0.9697816846892238, "train/policy_randomness_max": 0.9697816846892238, "train/policy_randomness_mean": 0.16406588815152645, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24090915312990546, "train/post_ent_mag": 54.722349405288696, "train/post_ent_max": 54.722349405288696, "train/post_ent_mean": 39.74969303607941, "train/post_ent_min": 19.471729397773743, "train/post_ent_std": 5.7280285358428955, "train/prior_ent_mag": 76.85415184497833, "train/prior_ent_max": 76.85415184497833, "train/prior_ent_mean": 45.63736069202423, "train/prior_ent_min": 27.58554595708847, "train/prior_ent_std": 7.970999494194984, "train/rep_loss_mean": 5.9052843898534775, "train/rep_loss_std": 9.140401989221573, "train/reward_avg": 0.05108337342971936, "train/reward_loss_mean": 0.06375190813560039, "train/reward_loss_std": 0.21944037196226418, "train/reward_max_data": 1.0437500104308128, "train/reward_max_pred": 1.0446413159370422, "train/reward_neg_acc": 0.9916748655959964, "train/reward_neg_loss": 0.02539437825907953, "train/reward_pos_acc": 0.9911904660984874, "train/reward_pos_loss": 0.7186446683481336, "train/reward_pred": 0.05074368271743879, "train/reward_rate": 0.0552520751953125, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46296000977357227, "replay/size": 1000000.0, "replay/inserts": 1291.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.4638101236474874e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492932260590072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0575866699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0354762077331543, "timer/logger.write_frac": 0.00011823133061514579, "timer/logger.write_avg": 0.0354762077331543, "timer/logger.write_min": 0.0354762077331543, "timer/logger.write_max": 0.0354762077331543, "timer/replay.add_count": 1291.0, "timer/replay.add_total": 0.2527344226837158, "timer/replay.add_frac": 0.0008422863940505398, "timer/replay.add_avg": 0.0001957664002197644, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0008111000061035156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1291.0, "timer/env.step_total": 17.442006826400757, "timer/env.step_frac": 0.0581288645955412, "timer/env.step_avg": 0.013510462297754265, "timer/env.step_min": 0.002851724624633789, "timer/env.step_max": 1.6246283054351807, "timer/agent.policy_count": 1291.0, "timer/agent.policy_total": 13.495896577835083, "timer/agent.policy_frac": 0.04497768820850124, "timer/agent.policy_avg": 0.010453831586239413, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 2.5572400093078613, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05138111114501953, "timer/dataset_frac": 0.0001712375004920015, "timer/dataset_avg": 7.95373237539002e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002090930938720703, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.1269516944885, "timer/agent.train_frac": 0.8935849770378956, "timer/agent.train_avg": 0.4150572007654621, "timer/agent.train_min": 0.37426161766052246, "timer/agent.train_max": 0.4797935485839844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24155640602111816, "timer/agent.report_frac": 0.000805033489410958, "timer/agent.report_avg": 0.24155640602111816, "timer/agent.report_min": 0.24155640602111816, "timer/agent.report_max": 0.24155640602111816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002422332763671875, "timer/checkpoint.save_frac": 8.072892908842062e-07, "timer/checkpoint.save_avg": 0.0002422332763671875, "timer/checkpoint.save_min": 0.0002422332763671875, "timer/checkpoint.save_max": 0.0002422332763671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3968563079833984, "timer/agent.save_frac": 0.0046552940836653775, "timer/agent.save_avg": 1.3968563079833984, "timer/agent.save_min": 1.3968563079833984, "timer/agent.save_max": 1.3968563079833984, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3360536566924868e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "fps": 4.302445196846954}
+{"step": 1232908, "episode/length": 227.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07017543859649122}
+{"step": 1232978, "episode/length": 69.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.12857142857142856}
+{"step": 1233203, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04888888888888889}
+{"step": 1233470, "episode/length": 266.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.056179775280898875}
+{"step": 1233659, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031746031746031744}
+{"step": 1233869, "episode/length": 209.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.06666666666666667}
+{"step": 1234089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429633863044508, "train/action_min": 0.0, "train/action_std": 3.293657833879644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03603000817538211, "train/actor_opt_grad_steps": 616165.0, "train/actor_opt_loss": -11.295836259921392, "train/adv_mag": 0.4098984371080543, "train/adv_max": 0.32886284499457386, "train/adv_mean": 0.00160238877420356, "train/adv_min": -0.375237939935742, "train/adv_std": 0.04086822339079597, "train/cont_avg": 0.9951467803030303, "train/cont_loss_mean": 0.0001097998109745969, "train/cont_loss_std": 0.003472015020754997, "train/cont_neg_acc": 0.9915223681565487, "train/cont_neg_loss": 0.019645360366757986, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 5.862178303349776e-06, "train/cont_pred": 0.9951829828999259, "train/cont_rate": 0.9951467803030303, "train/dyn_loss_mean": 5.777145826455318, "train/dyn_loss_std": 8.97958526466832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733990246599371, "train/extr_critic_critic_opt_grad_steps": 616165.0, "train/extr_critic_critic_opt_loss": 14999.7783203125, "train/extr_critic_mag": 12.57871136520848, "train/extr_critic_max": 12.57871136520848, "train/extr_critic_mean": 3.785701148437731, "train/extr_critic_min": -0.30558638139204547, "train/extr_critic_std": 2.992261351961078, "train/extr_return_normed_mag": 1.3789067719921921, "train/extr_return_normed_max": 1.3789067719921921, "train/extr_return_normed_mean": 0.3940058057055329, "train/extr_return_normed_min": -0.0705628895737005, "train/extr_return_normed_std": 0.31313179139838077, "train/extr_return_rate": 0.8556325426607421, "train/extr_return_raw_mag": 13.294038714784564, "train/extr_return_raw_max": 13.294038714784564, "train/extr_return_raw_mean": 3.801156354672981, "train/extr_return_raw_min": -0.6767531565644525, "train/extr_return_raw_std": 3.018624945120378, "train/extr_reward_mag": 1.077832792744492, "train/extr_reward_max": 1.077832792744492, "train/extr_reward_mean": 0.06274641271341931, "train/extr_reward_min": -0.6148563478932236, "train/extr_reward_std": 0.24020393508853335, "train/image_loss_mean": 3.5323352777596675, "train/image_loss_std": 9.138732447768703, "train/model_loss_mean": 7.0633989536401, "train/model_loss_std": 13.279534542199338, "train/model_opt_grad_norm": 21.414429823557537, "train/model_opt_grad_steps": 615658.3636363636, "train/model_opt_loss": 18176.98419744318, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.7336576129450942, "train/policy_entropy_max": 2.7336576129450942, "train/policy_entropy_mean": 0.4562170155572169, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6771667324232332, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45625531537966296, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0766887095841495, "train/policy_randomness_mag": 0.9648611771337914, "train/policy_randomness_max": 0.9648611771337914, "train/policy_randomness_mean": 0.16102458875287662, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23901013871937088, "train/post_ent_mag": 54.61638722275243, "train/post_ent_max": 54.61638722275243, "train/post_ent_mean": 39.912323113643765, "train/post_ent_min": 19.566361181663744, "train/post_ent_std": 5.697679050040968, "train/prior_ent_mag": 76.84593350959547, "train/prior_ent_max": 76.84593350959547, "train/prior_ent_mean": 45.71640274741433, "train/prior_ent_min": 27.62960058270079, "train/prior_ent_std": 7.916971921920776, "train/rep_loss_mean": 5.777145826455318, "train/rep_loss_std": 8.97958526466832, "train/reward_avg": 0.05074573835978905, "train/reward_loss_mean": 0.06466642744613416, "train/reward_loss_std": 0.22677780055638516, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0339515642686323, "train/reward_neg_acc": 0.9925058312488325, "train/reward_neg_loss": 0.026872724463993854, "train/reward_pos_acc": 0.9902948646834402, "train/reward_pos_loss": 0.7164353186433966, "train/reward_pred": 0.050569938947305534, "train/reward_rate": 0.054939038825757576, "stats/sum_log_reward": 10.766666650772095, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4037959749499957, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.5975400994463666e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.38921526873984e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053876876831, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02971053123474121, "timer/logger.write_frac": 9.900032606432473e-05, "timer/logger.write_avg": 0.02971053123474121, "timer/logger.write_min": 0.02971053123474121, "timer/logger.write_max": 0.02971053123474121, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.28400397300720215, "timer/replay.add_frac": 0.0009463474654535774, "timer/replay.add_avg": 0.0002164664428408553, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.001039743423461914, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.266780853271484, "timer/env.step_frac": 0.05753572432108704, "timer/env.step_avg": 0.013160656138164242, "timer/env.step_min": 0.002975940704345703, "timer/env.step_max": 1.6990916728973389, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.739859342575073, "timer/agent.policy_frac": 0.032454796688659436, "timer/agent.policy_avg": 0.007423673279401733, "timer/agent.policy_min": 0.0056362152099609375, "timer/agent.policy_max": 0.015365839004516602, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05422496795654297, "timer/dataset_frac": 0.00018068641944200746, "timer/dataset_avg": 8.266001212887647e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00013256072998046875, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.08140873908997, "timer/agent.train_frac": 0.9066195406736335, "timer/agent.train_avg": 0.4147582450291006, "timer/agent.train_min": 0.3666553497314453, "timer/agent.train_max": 0.45058774948120117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2172536849975586, "timer/agent.report_frac": 0.0007239246408453436, "timer/agent.report_avg": 0.2172536849975586, "timer/agent.report_min": 0.2172536849975586, "timer/agent.report_max": 0.2172536849975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.371744971350779}
+{"step": 1234139, "episode/length": 269.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05185185185185185}
+{"step": 1234346, "episode/length": 206.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 12.300000004470348, "episode/reward_rate": 0.057971014492753624}
+{"step": 1234529, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07103825136612021}
+{"step": 1234778, "episode/length": 248.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.90000006556511, "episode/reward_rate": 0.06827309236947791}
+{"step": 1235007, "episode/length": 228.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.056768558951965066}
+{"step": 1235181, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.08620689655172414}
+{"step": 1235369, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0797872340425532}
+{"step": 1235393, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454181377704327, "train/action_min": 0.0, "train/action_std": 3.3168058578784647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03600173303141044, "train/actor_opt_grad_steps": 616820.0, "train/actor_opt_loss": -10.890059778667414, "train/adv_mag": 0.4156461353485401, "train/adv_max": 0.3412118897988246, "train/adv_mean": 0.0020466955968563875, "train/adv_min": -0.37469397026758927, "train/adv_std": 0.04125261753797531, "train/cont_avg": 0.9954927884615384, "train/cont_loss_mean": 4.1372168031536754e-05, "train/cont_loss_std": 0.0012187013325907095, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009602276387921173, "train/cont_pos_acc": 0.9999848778431232, "train/cont_pos_loss": 3.7448881967268205e-05, "train/cont_pred": 0.9954698195824256, "train/cont_rate": 0.9954927884615384, "train/dyn_loss_mean": 5.9819667889521675, "train/dyn_loss_std": 9.031753496023326, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8559462336393503, "train/extr_critic_critic_opt_grad_steps": 616820.0, "train/extr_critic_critic_opt_loss": 15130.349489182692, "train/extr_critic_mag": 12.745353698730469, "train/extr_critic_max": 12.745353698730469, "train/extr_critic_mean": 3.7973230105180007, "train/extr_critic_min": -0.27972431549659144, "train/extr_critic_std": 2.9442041910611665, "train/extr_return_normed_mag": 1.3859922335698054, "train/extr_return_normed_max": 1.3859922335698054, "train/extr_return_normed_mean": 0.39273634690504805, "train/extr_return_normed_min": -0.0661981686663169, "train/extr_return_normed_std": 0.30762342994029707, "train/extr_return_rate": 0.8646765232086182, "train/extr_return_raw_mag": 13.428190187307505, "train/extr_return_raw_max": 13.428190187307505, "train/extr_return_raw_mean": 3.8170926314133866, "train/extr_return_raw_min": -0.623861516897495, "train/extr_return_raw_std": 2.977588050182049, "train/extr_reward_mag": 1.0819063186645508, "train/extr_reward_max": 1.0819063186645508, "train/extr_reward_mean": 0.06404233832771962, "train/extr_reward_min": -0.6136049784146822, "train/extr_reward_std": 0.2424376755952835, "train/image_loss_mean": 3.4574371044452374, "train/image_loss_std": 8.91783484679002, "train/model_loss_mean": 7.1112461310166575, "train/model_loss_std": 13.086271770183856, "train/model_opt_grad_norm": 21.028792234567497, "train/model_opt_grad_steps": 616312.9692307692, "train/model_opt_loss": 19022.759615384617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.7345923313727747, "train/policy_entropy_max": 2.7345923313727747, "train/policy_entropy_mean": 0.4602538007956285, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6853296431211325, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4601435931829306, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0781741995077867, "train/policy_randomness_mag": 0.9651910901069641, "train/policy_randomness_max": 0.9651910901069641, "train/policy_randomness_mean": 0.1624493970320775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2418912885280756, "train/post_ent_mag": 54.83800864586463, "train/post_ent_max": 54.83800864586463, "train/post_ent_mean": 39.62460080660306, "train/post_ent_min": 19.855812248816857, "train/post_ent_std": 5.738683311755841, "train/prior_ent_mag": 76.76946141169621, "train/prior_ent_max": 76.76946141169621, "train/prior_ent_mean": 45.59049594585712, "train/prior_ent_min": 27.463658142089844, "train/prior_ent_std": 7.945832091111403, "train/rep_loss_mean": 5.9819667889521675, "train/rep_loss_std": 9.031753496023326, "train/reward_avg": 0.05182391817753131, "train/reward_loss_mean": 0.06458760815171095, "train/reward_loss_std": 0.22142318578866813, "train/reward_max_data": 1.0292307761999278, "train/reward_max_pred": 1.0295153287740855, "train/reward_neg_acc": 0.9928365707397461, "train/reward_neg_loss": 0.026103136645486722, "train/reward_pos_acc": 0.992605290046105, "train/reward_pos_loss": 0.7145852730824397, "train/reward_pred": 0.0514030285179615, "train/reward_rate": 0.05588942307692308, "stats/sum_log_reward": 12.52857140132359, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3887787482568196, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.6422826029771677e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.381877009853995e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37437415122986, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0309445858001709, "timer/logger.write_frac": 0.00010302005917652346, "timer/logger.write_avg": 0.0309445858001709, "timer/logger.write_min": 0.0309445858001709, "timer/logger.write_max": 0.0309445858001709, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2645728588104248, "timer/replay.add_frac": 0.0008808103539392478, "timer/replay.add_avg": 0.00020289329663376136, "timer/replay.add_min": 8.320808410644531e-05, "timer/replay.add_max": 0.0009481906890869141, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 18.596521139144897, "timer/env.step_frac": 0.06191114402383102, "timer/env.step_avg": 0.014261135842902528, "timer/env.step_min": 0.0028705596923828125, "timer/env.step_max": 1.6557316780090332, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 9.763736724853516, "timer/agent.policy_frac": 0.03250522536232653, "timer/agent.policy_avg": 0.007487528163231224, "timer/agent.policy_min": 0.005722999572753906, "timer/agent.policy_max": 0.019206762313842773, "timer/dataset_count": 652.0, "timer/dataset_total": 0.054296255111694336, "timer/dataset_frac": 0.00018076194171063917, "timer/dataset_avg": 8.327646489523671e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00013446807861328125, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.996178150177, "timer/agent.train_frac": 0.9021947325431238, "timer/agent.train_avg": 0.41563831004628377, "timer/agent.train_min": 0.3731670379638672, "timer/agent.train_max": 0.45054101943969727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.228956937789917, "timer/agent.report_frac": 0.000762238584555964, "timer/agent.report_avg": 0.228956937789917, "timer/agent.report_min": 0.228956937789917, "timer/agent.report_max": 0.228956937789917, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.341184350403436}
+{"step": 1235586, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06912442396313365}
+{"step": 1235808, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
+{"step": 1235890, "episode/length": 81.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.13414634146341464}
+{"step": 1236160, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05555555555555555}
+{"step": 1236402, "episode/length": 241.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06198347107438017}
+{"step": 1236591, "episode/length": 188.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.06349206349206349}
+{"step": 1236660, "episode/length": 68.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.11594202898550725}
+{"step": 1236699, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446683016690341, "train/action_min": 0.0, "train/action_std": 3.2637448130231914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03730387429734974, "train/actor_opt_grad_steps": 617475.0, "train/actor_opt_loss": -11.47615976089781, "train/adv_mag": 0.44470072582815634, "train/adv_max": 0.3347841189666228, "train/adv_mean": 0.0018410946819048231, "train/adv_min": -0.4106710623159553, "train/adv_std": 0.04160263067619367, "train/cont_avg": 0.9955462831439394, "train/cont_loss_mean": 0.00010774664287279992, "train/cont_loss_std": 0.0033317109220892044, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021805146667909898, "train/cont_pos_acc": 0.999970246445049, "train/cont_pos_loss": 9.767070315590307e-05, "train/cont_pred": 0.9955183177283315, "train/cont_rate": 0.9955462831439394, "train/dyn_loss_mean": 5.833684010939165, "train/dyn_loss_std": 9.014566537105676, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.879994354464791, "train/extr_critic_critic_opt_grad_steps": 617475.0, "train/extr_critic_critic_opt_loss": 15228.562248461174, "train/extr_critic_mag": 12.678473472595215, "train/extr_critic_max": 12.678473472595215, "train/extr_critic_mean": 3.7908541216994776, "train/extr_critic_min": -0.32703497915556934, "train/extr_critic_std": 2.9920462080926606, "train/extr_return_normed_mag": 1.3743519367593708, "train/extr_return_normed_max": 1.3743519367593708, "train/extr_return_normed_mean": 0.3911001212669141, "train/extr_return_normed_min": -0.07491992289821307, "train/extr_return_normed_std": 0.3109008279262167, "train/extr_return_rate": 0.8592803478240967, "train/extr_return_raw_mag": 13.356419534394234, "train/extr_return_raw_max": 13.356419534394234, "train/extr_return_raw_mean": 3.8087111855998184, "train/extr_return_raw_min": -0.7172842183799455, "train/extr_return_raw_std": 3.0194740476030293, "train/extr_reward_mag": 1.0920048879854607, "train/extr_reward_max": 1.0920048879854607, "train/extr_reward_mean": 0.06663836499281002, "train/extr_reward_min": -0.6302137916738336, "train/extr_reward_std": 0.2472564336476904, "train/image_loss_mean": 3.452556357239232, "train/image_loss_std": 9.463378371614398, "train/model_loss_mean": 7.019551082090898, "train/model_loss_std": 13.63700095089999, "train/model_opt_grad_norm": 20.325453758239746, "train/model_opt_grad_steps": 616967.0, "train/model_opt_loss": 17548.877781723484, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7365876400109492, "train/policy_entropy_max": 2.7365876400109492, "train/policy_entropy_mean": 0.44518988918174396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6682369817386974, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4451474416436571, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0713206827640533, "train/policy_randomness_mag": 0.9658953448136648, "train/policy_randomness_max": 0.9658953448136648, "train/policy_randomness_mean": 0.15713249440446045, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2358583320270885, "train/post_ent_mag": 54.489932898319125, "train/post_ent_max": 54.489932898319125, "train/post_ent_mean": 39.745708696769945, "train/post_ent_min": 19.457127686702844, "train/post_ent_std": 5.668312607389508, "train/prior_ent_mag": 76.71116811578923, "train/prior_ent_max": 76.71116811578923, "train/prior_ent_mean": 45.56656276818478, "train/prior_ent_min": 27.06870700373794, "train/prior_ent_std": 7.852418538295861, "train/rep_loss_mean": 5.833684010939165, "train/rep_loss_std": 9.014566537105676, "train/reward_avg": 0.05259824747389013, "train/reward_loss_mean": 0.06667662045043526, "train/reward_loss_std": 0.23090367583614407, "train/reward_max_data": 1.0287878856514439, "train/reward_max_pred": 1.0299478155193906, "train/reward_neg_acc": 0.9920943343278134, "train/reward_neg_loss": 0.02742144609378143, "train/reward_pos_acc": 0.9913087938771104, "train/reward_pos_loss": 0.7177571392420566, "train/reward_pred": 0.05236683035212936, "train/reward_rate": 0.05686257102272727, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.530109737600599, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.6556906941108647e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3861274646215746e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02048683166504, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02581024169921875, "timer/logger.write_frac": 8.602826417550716e-05, "timer/logger.write_avg": 0.02581024169921875, "timer/logger.write_min": 0.02581024169921875, "timer/logger.write_max": 0.02581024169921875, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.264880895614624, "timer/replay.add_frac": 0.0008828760276068844, "timer/replay.add_avg": 0.0002028184499346279, "timer/replay.add_min": 8.511543273925781e-05, "timer/replay.add_max": 0.0009329319000244141, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 18.651458501815796, "timer/env.step_frac": 0.06216728297051502, "timer/env.step_avg": 0.014281361793120824, "timer/env.step_min": 0.0029909610748291016, "timer/env.step_max": 1.6658072471618652, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 9.763289213180542, "timer/agent.policy_frac": 0.03254207509721998, "timer/agent.policy_avg": 0.0074757191525119, "timer/agent.policy_min": 0.0057032108306884766, "timer/agent.policy_max": 0.014810800552368164, "timer/dataset_count": 653.0, "timer/dataset_total": 0.054981231689453125, "timer/dataset_frac": 0.00018325825769458835, "timer/dataset_avg": 8.419790457802928e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 653.0, "timer/agent.train_total": 270.59962797164917, "timer/agent.train_frac": 0.9019371671224463, "timer/agent.train_avg": 0.4143945298187583, "timer/agent.train_min": 0.36658525466918945, "timer/agent.train_max": 0.4495701789855957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2295360565185547, "timer/agent.report_frac": 0.0007650679423346925, "timer/agent.report_avg": 0.2295360565185547, "timer/agent.report_min": 0.2295360565185547, "timer/agent.report_max": 0.2295360565185547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.352971283147646}
+{"step": 1236927, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
+{"step": 1237323, "episode/length": 395.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03787878787878788}
+{"step": 1237582, "episode/length": 258.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05019305019305019}
+{"step": 1237832, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06}
+{"step": 1238003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431173940805288, "train/action_min": 0.0, "train/action_std": 3.261039066314697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03615196327177378, "train/actor_opt_grad_steps": 618130.0, "train/actor_opt_loss": -9.478884096787526, "train/adv_mag": 0.4023288956055274, "train/adv_max": 0.34649388079459853, "train/adv_mean": 0.002299826889513777, "train/adv_min": -0.336446422796983, "train/adv_std": 0.04141566994098517, "train/cont_avg": 0.9950721153846154, "train/cont_loss_mean": 7.832180097667472e-06, "train/cont_loss_std": 0.00021502582888064563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000158566816065014, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 6.845130188974753e-06, "train/cont_pred": 0.9950665088800283, "train/cont_rate": 0.9950721153846154, "train/dyn_loss_mean": 6.082545199761024, "train/dyn_loss_std": 9.18609707905696, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8307347380197965, "train/extr_critic_critic_opt_grad_steps": 618130.0, "train/extr_critic_critic_opt_loss": 15105.390835336539, "train/extr_critic_mag": 12.67934598189134, "train/extr_critic_max": 12.67934598189134, "train/extr_critic_mean": 3.878949422102708, "train/extr_critic_min": -0.2960658807020921, "train/extr_critic_std": 3.0285164466271035, "train/extr_return_normed_mag": 1.3815247058868407, "train/extr_return_normed_max": 1.3815247058868407, "train/extr_return_normed_mean": 0.40272491299189056, "train/extr_return_normed_min": -0.07052615709029711, "train/extr_return_normed_std": 0.31589393638647517, "train/extr_return_rate": 0.8579147072938772, "train/extr_return_raw_mag": 13.380541126544658, "train/extr_return_raw_max": 13.380541126544658, "train/extr_return_raw_mean": 3.901215204825768, "train/extr_return_raw_min": -0.6832487862843734, "train/extr_return_raw_std": 3.0596771276914154, "train/extr_reward_mag": 1.086379942527184, "train/extr_reward_max": 1.086379942527184, "train/extr_reward_mean": 0.06672224488395911, "train/extr_reward_min": -0.6274892293489897, "train/extr_reward_std": 0.24704035956125994, "train/image_loss_mean": 3.578283896813026, "train/image_loss_std": 9.368641273791974, "train/model_loss_mean": 7.293492559286264, "train/model_loss_std": 13.623855766883263, "train/model_opt_grad_norm": 18.561148658165564, "train/model_opt_grad_steps": 617622.0, "train/model_opt_loss": 27633.056670673075, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3769.230769230769, "train/policy_entropy_mag": 2.7259650743924655, "train/policy_entropy_max": 2.7259650743924655, "train/policy_entropy_mean": 0.4540951664631183, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6699375152587891, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4550682058701148, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0753668849284832, "train/policy_randomness_mag": 0.962146047445444, "train/policy_randomness_max": 0.962146047445444, "train/policy_randomness_mean": 0.16027566951054792, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23645854546473577, "train/post_ent_mag": 54.62494536179763, "train/post_ent_max": 54.62494536179763, "train/post_ent_mean": 39.70784325232873, "train/post_ent_min": 19.171765576876126, "train/post_ent_std": 5.725884129450871, "train/prior_ent_mag": 76.65894564115084, "train/prior_ent_max": 76.65894564115084, "train/prior_ent_mean": 45.76330443162185, "train/prior_ent_min": 27.510131102341873, "train/prior_ent_std": 7.969037899604211, "train/rep_loss_mean": 6.082545199761024, "train/rep_loss_std": 9.18609707905696, "train/reward_avg": 0.053105468360277325, "train/reward_loss_mean": 0.06567372570817287, "train/reward_loss_std": 0.22809538680773514, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0316919143383319, "train/reward_neg_acc": 0.9918665830905621, "train/reward_neg_loss": 0.025990847412210246, "train/reward_pos_acc": 0.9910604752027071, "train/reward_pos_loss": 0.7176392408517691, "train/reward_pred": 0.05278774517086836, "train/reward_rate": 0.05734675480769231, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6274280995130539, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.552875635814082e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.369466993706358e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3749632835388, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02487492561340332, "timer/logger.write_frac": 8.281291270578582e-05, "timer/logger.write_avg": 0.02487492561340332, "timer/logger.write_min": 0.02487492561340332, "timer/logger.write_max": 0.02487492561340332, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.28673553466796875, "timer/replay.add_frac": 0.0009545919924001951, "timer/replay.add_avg": 0.00021988921370243001, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.0009860992431640625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 13.888109683990479, "timer/env.step_frac": 0.0462359097182171, "timer/env.step_avg": 0.010650390861955888, "timer/env.step_min": 0.0027332305908203125, "timer/env.step_max": 1.5777831077575684, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.063215255737305, "timer/agent.policy_frac": 0.046818866332951785, "timer/agent.policy_avg": 0.010784674275872166, "timer/agent.policy_min": 0.005684375762939453, "timer/agent.policy_max": 3.244398832321167, "timer/dataset_count": 652.0, "timer/dataset_total": 0.053414344787597656, "timer/dataset_frac": 0.00017782555577768714, "timer/dataset_avg": 8.19238416987694e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016927719116210938, "timer/agent.train_count": 652.0, "timer/agent.train_total": 271.41757917404175, "timer/agent.train_frac": 0.9035958796533826, "timer/agent.train_avg": 0.41628463063503335, "timer/agent.train_min": 0.3742537498474121, "timer/agent.train_max": 0.4593524932861328, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21822571754455566, "timer/agent.report_frac": 0.0007265110086374329, "timer/agent.report_avg": 0.21822571754455566, "timer/agent.report_min": 0.21822571754455566, "timer/agent.report_max": 0.21822571754455566, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005869865417480469, "timer/checkpoint.save_frac": 1.9541793208442646e-06, "timer/checkpoint.save_avg": 0.0005869865417480469, "timer/checkpoint.save_min": 0.0005869865417480469, "timer/checkpoint.save_max": 0.0005869865417480469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1730773448944092, "timer/agent.save_frac": 0.0039053765735697597, "timer/agent.save_avg": 1.1730773448944092, "timer/agent.save_min": 1.1730773448944092, "timer/agent.save_max": 1.1730773448944092, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.412959031424275e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "fps": 4.341161670846262}
+{"step": 1238083, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.055776892430278883}
+{"step": 1238346, "episode/length": 262.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.060836501901140684}
+{"step": 1238513, "episode/length": 166.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08982035928143713}
+{"step": 1238683, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07647058823529412}
+{"step": 1239020, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03560830860534125}
+{"step": 1239201, "episode/length": 180.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.08287292817679558}
+{"step": 1239315, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465404334435096, "train/action_min": 0.0, "train/action_std": 3.332366411502545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035690596986275455, "train/actor_opt_grad_steps": 618780.0, "train/actor_opt_loss": -9.310080331793198, "train/adv_mag": 0.3638212025165558, "train/adv_max": 0.3151845952639213, "train/adv_mean": 0.0019638847188056946, "train/adv_min": -0.3221076217981485, "train/adv_std": 0.04057226822926448, "train/cont_avg": 0.9955528846153846, "train/cont_loss_mean": 1.267411010898146e-05, "train/cont_loss_std": 0.0003349740244647574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009379933679315563, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 7.5178506912939505e-06, "train/cont_pred": 0.9955505481133095, "train/cont_rate": 0.9955528846153846, "train/dyn_loss_mean": 5.919805343334492, "train/dyn_loss_std": 9.022892673198994, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8469019247935369, "train/extr_critic_critic_opt_grad_steps": 618780.0, "train/extr_critic_critic_opt_loss": 15193.5634765625, "train/extr_critic_mag": 12.8256314937885, "train/extr_critic_max": 12.8256314937885, "train/extr_critic_mean": 3.6933752610133244, "train/extr_critic_min": -0.2951116580229539, "train/extr_critic_std": 3.00931642972506, "train/extr_return_normed_mag": 1.3871130191362822, "train/extr_return_normed_max": 1.3871130191362822, "train/extr_return_normed_mean": 0.3788162350654602, "train/extr_return_normed_min": -0.0672623356947532, "train/extr_return_normed_std": 0.31069976618656747, "train/extr_return_rate": 0.8368359794983498, "train/extr_return_raw_mag": 13.572542880131648, "train/extr_return_raw_max": 13.572542880131648, "train/extr_return_raw_mean": 3.71258728320782, "train/extr_return_raw_min": -0.6503534477490646, "train/extr_return_raw_std": 3.0387750222132754, "train/extr_reward_mag": 1.0842813125023476, "train/extr_reward_max": 1.0842813125023476, "train/extr_reward_mean": 0.06360964499987089, "train/extr_reward_min": -0.6041311869254479, "train/extr_reward_std": 0.2419118126997581, "train/image_loss_mean": 3.810709810256958, "train/image_loss_std": 9.236612884814923, "train/model_loss_mean": 7.427976894378662, "train/model_loss_std": 13.375461651728703, "train/model_opt_grad_norm": 18.929257979759804, "train/model_opt_grad_steps": 618271.3538461538, "train/model_opt_loss": 25162.984089543268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3384.6153846153848, "train/policy_entropy_mag": 2.725152070705707, "train/policy_entropy_max": 2.725152070705707, "train/policy_entropy_mean": 0.4868810094319857, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6939473353899442, "train/policy_logprob_mag": 7.438384298177866, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48709420149142924, "train/policy_logprob_min": -7.438384298177866, "train/policy_logprob_std": 1.0943874551699713, "train/policy_randomness_mag": 0.9618590923456045, "train/policy_randomness_max": 0.9618590923456045, "train/policy_randomness_mean": 0.17184763172498116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2449329580251987, "train/post_ent_mag": 55.5394048837515, "train/post_ent_max": 55.5394048837515, "train/post_ent_mean": 40.004534325232875, "train/post_ent_min": 19.447485072796162, "train/post_ent_std": 5.860810287182147, "train/prior_ent_mag": 76.80408313457782, "train/prior_ent_max": 76.80408313457782, "train/prior_ent_mean": 45.92533252422626, "train/prior_ent_min": 27.567083035982574, "train/prior_ent_std": 7.989369619809664, "train/rep_loss_mean": 5.919805343334492, "train/rep_loss_std": 9.022892673198994, "train/reward_avg": 0.051262018714959806, "train/reward_loss_mean": 0.06537124955883393, "train/reward_loss_std": 0.2298014549108652, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0336952246152438, "train/reward_neg_acc": 0.9920595526695252, "train/reward_neg_loss": 0.026410280368649043, "train/reward_pos_acc": 0.9895620611997751, "train/reward_pos_loss": 0.7275365838637718, "train/reward_pred": 0.05071484675774207, "train/reward_rate": 0.055588942307692304, "stats/sum_log_reward": 13.100000063578287, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5305474748214086, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.662959831516917e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3756997338155422e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30085825920105, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03937387466430664, "timer/logger.write_frac": 0.00013111475902050722, "timer/logger.write_avg": 0.03937387466430664, "timer/logger.write_min": 0.03937387466430664, "timer/logger.write_max": 0.03937387466430664, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2683420181274414, "timer/replay.add_frac": 0.0008935772600950253, "timer/replay.add_avg": 0.00020452897723128156, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0008521080017089844, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.81048035621643, "timer/env.step_frac": 0.05597879557742279, "timer/env.step_avg": 0.012812866125164963, "timer/env.step_min": 0.002858877182006836, "timer/env.step_max": 1.5867979526519775, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.64939022064209, "timer/agent.policy_frac": 0.03213240973261999, "timer/agent.policy_avg": 0.007354718155977203, "timer/agent.policy_min": 0.005618572235107422, "timer/agent.policy_max": 0.015076398849487305, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05431556701660156, "timer/dataset_frac": 0.00018087050210732246, "timer/dataset_avg": 8.279812045213652e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.7843291759491, "timer/agent.train_frac": 0.9083701284013601, "timer/agent.train_avg": 0.41582977008528826, "timer/agent.train_min": 0.3655221462249756, "timer/agent.train_max": 0.453779935836792, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25981831550598145, "timer/agent.report_frac": 0.0008651933831028962, "timer/agent.report_avg": 0.25981831550598145, "timer/agent.report_min": 0.25981831550598145, "timer/agent.report_max": 0.25981831550598145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368864550488684}
+{"step": 1239427, "episode/length": 225.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06637168141592921}
+{"step": 1239617, "episode/length": 189.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06842105263157895}
+{"step": 1239930, "episode/length": 312.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04472843450479233}
+{"step": 1240134, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.0784313725490196}
+{"step": 1240455, "episode/length": 320.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.04361370716510903}
+{"step": 1240635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476514411695076, "train/action_min": 0.0, "train/action_std": 3.326558738043814, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03626285546995474, "train/actor_opt_grad_steps": 619435.0, "train/actor_opt_loss": -9.184630170012966, "train/adv_mag": 0.41567116795164166, "train/adv_max": 0.3454279222271659, "train/adv_mean": 0.0019965586213374713, "train/adv_min": -0.3680745259378896, "train/adv_std": 0.041510903078949814, "train/cont_avg": 0.9952503551136364, "train/cont_loss_mean": 0.0001682931067458911, "train/cont_loss_std": 0.005340110469292886, "train/cont_neg_acc": 0.9962121212121212, "train/cont_neg_loss": 0.008532357000812162, "train/cont_pos_acc": 0.9999851412845381, "train/cont_pos_loss": 0.00013510313017091113, "train/cont_pred": 0.9952419192501993, "train/cont_rate": 0.9952503551136364, "train/dyn_loss_mean": 5.924187371225068, "train/dyn_loss_std": 9.096955039284445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8757421022111719, "train/extr_critic_critic_opt_grad_steps": 619435.0, "train/extr_critic_critic_opt_loss": 15120.626938328598, "train/extr_critic_mag": 12.820350748119932, "train/extr_critic_max": 12.820350748119932, "train/extr_critic_mean": 3.888210061824683, "train/extr_critic_min": -0.2889893578760552, "train/extr_critic_std": 3.0612177306955513, "train/extr_return_normed_mag": 1.379722170757525, "train/extr_return_normed_max": 1.379722170757525, "train/extr_return_normed_mean": 0.39837543621207727, "train/extr_return_normed_min": -0.06728894438481692, "train/extr_return_normed_std": 0.3157064300594908, "train/extr_return_rate": 0.8446674220489733, "train/extr_return_raw_mag": 13.510462096243193, "train/extr_return_raw_max": 13.510462096243193, "train/extr_return_raw_mean": 3.9077525608467334, "train/extr_return_raw_min": -0.6492331809166706, "train/extr_return_raw_std": 3.089433373826923, "train/extr_reward_mag": 1.0874298160726374, "train/extr_reward_max": 1.0874298160726374, "train/extr_reward_mean": 0.0656925266552152, "train/extr_reward_min": -0.5943199540629531, "train/extr_reward_std": 0.24563144034508502, "train/image_loss_mean": 3.5296357039249306, "train/image_loss_std": 9.36752225413467, "train/model_loss_mean": 7.149361104676218, "train/model_loss_std": 13.54891568964178, "train/model_opt_grad_norm": 19.881296981464732, "train/model_opt_grad_steps": 618926.0, "train/model_opt_loss": 19967.46875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2803.030303030303, "train/policy_entropy_mag": 2.713782975167939, "train/policy_entropy_max": 2.713782975167939, "train/policy_entropy_mean": 0.4732831215316599, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6906388438109196, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4722234064882452, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0841471670251903, "train/policy_randomness_mag": 0.9578463010715715, "train/policy_randomness_max": 0.9578463010715715, "train/policy_randomness_mean": 0.16704817375901973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24376520503199461, "train/post_ent_mag": 54.938361370202266, "train/post_ent_max": 54.938361370202266, "train/post_ent_mean": 39.84382016731031, "train/post_ent_min": 18.90057812315045, "train/post_ent_std": 5.773290309039029, "train/prior_ent_mag": 76.69681132923473, "train/prior_ent_max": 76.69681132923473, "train/prior_ent_mean": 45.7592970530192, "train/prior_ent_min": 27.64447509881222, "train/prior_ent_std": 7.957283229538889, "train/rep_loss_mean": 5.924187371225068, "train/rep_loss_std": 9.096955039284445, "train/reward_avg": 0.05298295430839062, "train/reward_loss_mean": 0.06504465729901285, "train/reward_loss_std": 0.22470823427041373, "train/reward_max_data": 1.0242424300222686, "train/reward_max_pred": 1.0256767670313518, "train/reward_neg_acc": 0.9925422659426024, "train/reward_neg_loss": 0.025755522377563244, "train/reward_pos_acc": 0.9924669058033915, "train/reward_pos_loss": 0.7105313060861645, "train/reward_pred": 0.05271565236828544, "train/reward_rate": 0.057232481060606064, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 16.8, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.576321867108345, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.6525003837816644e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363632288846103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1635320186615, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03384685516357422, "timer/logger.write_frac": 0.00011276138355631397, "timer/logger.write_avg": 0.03384685516357422, "timer/logger.write_min": 0.03384685516357422, "timer/logger.write_max": 0.03384685516357422, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2709970474243164, "timer/replay.add_frac": 0.0009028313519693932, "timer/replay.add_avg": 0.00020530079350327, "timer/replay.add_min": 9.1552734375e-05, "timer/replay.add_max": 0.004133939743041992, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.494011402130127, "timer/env.step_frac": 0.05161856704553586, "timer/env.step_avg": 0.011737887425856157, "timer/env.step_min": 0.002893209457397461, "timer/env.step_max": 1.6376128196716309, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.688790082931519, "timer/agent.policy_frac": 0.03227837178544779, "timer/agent.policy_avg": 0.007339992487069332, "timer/agent.policy_min": 0.005651235580444336, "timer/agent.policy_max": 0.015364885330200195, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05423259735107422, "timer/dataset_frac": 0.0001806768363443382, "timer/dataset_avg": 8.217060204708214e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.93143248558044, "timer/agent.train_frac": 0.912607306568307, "timer/agent.train_avg": 0.4150476249781522, "timer/agent.train_min": 0.3726484775543213, "timer/agent.train_max": 0.44768857955932617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25998449325561523, "timer/agent.report_frac": 0.0008661428372299794, "timer/agent.report_avg": 0.25998449325561523, "timer/agent.report_min": 0.25998449325561523, "timer/agent.report_max": 0.25998449325561523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.397532160943721}
+{"step": 1240670, "episode/length": 214.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06976744186046512}
+{"step": 1240874, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07352941176470588}
+{"step": 1241057, "episode/length": 182.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.07650273224043716}
+{"step": 1241242, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
+{"step": 1241450, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07692307692307693}
+{"step": 1241517, "episode/length": 66.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.11940298507462686}
+{"step": 1241738, "episode/length": 220.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.058823529411764705}
+{"step": 1241905, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07784431137724551}
+{"step": 1241911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526284217834473, "train/action_min": 0.0, "train/action_std": 3.38186876475811, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03617733780993149, "train/actor_opt_grad_steps": 620085.0, "train/actor_opt_loss": -10.893109761178493, "train/adv_mag": 0.4225542298518121, "train/adv_max": 0.3416501213796437, "train/adv_mean": 0.0018255565964864218, "train/adv_min": -0.3686242059338838, "train/adv_std": 0.04151659907074645, "train/cont_avg": 0.9951934814453125, "train/cont_loss_mean": 1.1900678331344672e-05, "train/cont_loss_std": 0.0003425944725281571, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00038729954522470633, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 9.705550553185116e-06, "train/cont_pred": 0.9951867926865816, "train/cont_rate": 0.9951934814453125, "train/dyn_loss_mean": 5.979389004409313, "train/dyn_loss_std": 9.160178422927856, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9607253670692444, "train/extr_critic_critic_opt_grad_steps": 620085.0, "train/extr_critic_critic_opt_loss": 15218.192169189453, "train/extr_critic_mag": 12.766947850584984, "train/extr_critic_max": 12.766947850584984, "train/extr_critic_mean": 3.8621864430606365, "train/extr_critic_min": -0.3318649120628834, "train/extr_critic_std": 3.0695513673126698, "train/extr_return_normed_mag": 1.3773497305810452, "train/extr_return_normed_max": 1.3773497305810452, "train/extr_return_normed_mean": 0.3959061880595982, "train/extr_return_normed_min": -0.07072108646389097, "train/extr_return_normed_std": 0.31697490671649575, "train/extr_return_rate": 0.842284188605845, "train/extr_return_raw_mag": 13.464618772268295, "train/extr_return_raw_max": 13.464618772268295, "train/extr_return_raw_mean": 3.8800175487995148, "train/extr_return_raw_min": -0.6770943053998053, "train/extr_return_raw_std": 3.0956143736839294, "train/extr_reward_mag": 1.0875803008675575, "train/extr_reward_max": 1.0875803008675575, "train/extr_reward_mean": 0.06592465873109177, "train/extr_reward_min": -0.6197423003613949, "train/extr_reward_std": 0.2457836139947176, "train/image_loss_mean": 3.648068618029356, "train/image_loss_std": 9.874584674835205, "train/model_loss_mean": 7.301082603633404, "train/model_loss_std": 14.078775241971016, "train/model_opt_grad_norm": 21.37886805832386, "train/model_opt_grad_steps": 619575.015625, "train/model_opt_loss": 18608.939651489258, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2539.0625, "train/policy_entropy_mag": 2.6922388896346092, "train/policy_entropy_max": 2.6922388896346092, "train/policy_entropy_mean": 0.46304902038536966, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6738195419311523, "train/policy_logprob_mag": 7.4383843168616295, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46200719801709056, "train/policy_logprob_min": -7.4383843168616295, "train/policy_logprob_std": 1.076145044527948, "train/policy_randomness_mag": 0.950242180377245, "train/policy_randomness_max": 0.950242180377245, "train/policy_randomness_mean": 0.16343598370440304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2378287287428975, "train/post_ent_mag": 55.03016644716263, "train/post_ent_max": 55.03016644716263, "train/post_ent_mean": 39.94692921638489, "train/post_ent_min": 19.094948634505272, "train/post_ent_std": 5.799328289926052, "train/prior_ent_mag": 76.78324723243713, "train/prior_ent_max": 76.78324723243713, "train/prior_ent_mean": 45.87970328330994, "train/prior_ent_min": 27.91842558979988, "train/prior_ent_std": 8.007451631128788, "train/rep_loss_mean": 5.979389004409313, "train/rep_loss_std": 9.160178422927856, "train/reward_avg": 0.05229797336505726, "train/reward_loss_mean": 0.06536872120341286, "train/reward_loss_std": 0.2247014578897506, "train/reward_max_data": 1.0328125078231096, "train/reward_max_pred": 1.0323384515941143, "train/reward_neg_acc": 0.9928473755717278, "train/reward_neg_loss": 0.026778612402267754, "train/reward_pos_acc": 0.9926826125010848, "train/reward_pos_loss": 0.7096657324582338, "train/reward_pred": 0.05208336445502937, "train/reward_rate": 0.0565338134765625, "stats/sum_log_reward": 11.974999964237213, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.625, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33243822678923607, "replay/size": 1000000.0, "replay/inserts": 1276.0, "replay/samples": 10208.0, "replay/insert_wait_avg": 3.6093508561950494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3681508156946833e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26368594169617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03098773956298828, "timer/logger.write_frac": 0.00010320175570283694, "timer/logger.write_avg": 0.03098773956298828, "timer/logger.write_min": 0.03098773956298828, "timer/logger.write_max": 0.03098773956298828, "timer/replay.add_count": 1276.0, "timer/replay.add_total": 0.286043643951416, "timer/replay.add_frac": 0.0009526414859469842, "timer/replay.add_avg": 0.000224172134758163, "timer/replay.add_min": 9.036064147949219e-05, "timer/replay.add_max": 0.0008816719055175781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1276.0, "timer/env.step_total": 20.234032154083252, "timer/env.step_frac": 0.06738754335418437, "timer/env.step_avg": 0.01585739197028468, "timer/env.step_min": 0.0030889511108398438, "timer/env.step_max": 1.6551730632781982, "timer/agent.policy_count": 1276.0, "timer/agent.policy_total": 14.288559913635254, "timer/agent.policy_frac": 0.04758670656034557, "timer/agent.policy_avg": 0.011197930966798789, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 3.3507001399993896, "timer/dataset_count": 638.0, "timer/dataset_total": 0.05306506156921387, "timer/dataset_frac": 0.0001767282027554867, "timer/dataset_avg": 8.317407769469259e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 638.0, "timer/agent.train_total": 264.67930483818054, "timer/agent.train_frac": 0.8814895614435865, "timer/agent.train_avg": 0.4148578445739507, "timer/agent.train_min": 0.3673868179321289, "timer/agent.train_max": 0.4607691764831543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2590615749359131, "timer/agent.report_frac": 0.0008627802397197525, "timer/agent.report_avg": 0.2590615749359131, "timer/agent.report_min": 0.2590615749359131, "timer/agent.report_max": 0.2590615749359131, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017714500427246094, "timer/checkpoint.save_frac": 5.899647961653882e-07, "timer/checkpoint.save_avg": 0.00017714500427246094, "timer/checkpoint.save_min": 0.00017714500427246094, "timer/checkpoint.save_max": 0.00017714500427246094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.391864538192749, "timer/agent.save_frac": 0.004635474096135005, "timer/agent.save_avg": 1.391864538192749, "timer/agent.save_min": 1.391864538192749, "timer/agent.save_max": 1.391864538192749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.4849853515625e-05, "timer/replay.save_frac": 2.1597634529876933e-07, "timer/replay.save_avg": 6.4849853515625e-05, "timer/replay.save_min": 6.4849853515625e-05, "timer/replay.save_max": 6.4849853515625e-05, "fps": 4.249522660457802}
+{"step": 1242120, "episode/length": 214.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06046511627906977}
+{"step": 1242376, "episode/length": 255.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0546875}
+{"step": 1242512, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.07352941176470588}
+{"step": 1242726, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06542056074766354}
+{"step": 1242922, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07142857142857142}
+{"step": 1243229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486764618844697, "train/action_min": 0.0, "train/action_std": 3.3945470795486914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035470221558529316, "train/actor_opt_grad_steps": 620735.0, "train/actor_opt_loss": -10.308396457722694, "train/adv_mag": 0.439505092122338, "train/adv_max": 0.3317904230771643, "train/adv_mean": 0.0021505007426833, "train/adv_min": -0.38362995196472516, "train/adv_std": 0.040426792802684235, "train/cont_avg": 0.9952503551136364, "train/cont_loss_mean": 1.740148575861285e-05, "train/cont_loss_std": 0.0005251439732718106, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007674469254900263, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 1.4244257631782867e-05, "train/cont_pred": 0.9952401618162791, "train/cont_rate": 0.9952503551136364, "train/dyn_loss_mean": 5.882817766883156, "train/dyn_loss_std": 9.068667281757701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8487391661513936, "train/extr_critic_critic_opt_grad_steps": 620735.0, "train/extr_critic_critic_opt_loss": 15155.390477035984, "train/extr_critic_mag": 12.669882181918982, "train/extr_critic_max": 12.669882181918982, "train/extr_critic_mean": 3.730399413542314, "train/extr_critic_min": -0.3287946437344407, "train/extr_critic_std": 3.0227653221650557, "train/extr_return_normed_mag": 1.3673087430722786, "train/extr_return_normed_max": 1.3673087430722786, "train/extr_return_normed_mean": 0.3828786399328347, "train/extr_return_normed_min": -0.07484424701242735, "train/extr_return_normed_std": 0.3126071018703056, "train/extr_return_rate": 0.8379626815969293, "train/extr_return_raw_mag": 13.35370346994111, "train/extr_return_raw_max": 13.35370346994111, "train/extr_return_raw_mean": 3.751368847760287, "train/extr_return_raw_min": -0.7135659248539896, "train/extr_return_raw_std": 3.0495058153614854, "train/extr_reward_mag": 1.0827428319237449, "train/extr_reward_max": 1.0827428319237449, "train/extr_reward_mean": 0.06291231908129924, "train/extr_reward_min": -0.6377285520235697, "train/extr_reward_std": 0.2405959020058314, "train/image_loss_mean": 3.7451831897099814, "train/image_loss_std": 9.399111964485861, "train/model_loss_mean": 7.341798652302135, "train/model_loss_std": 13.544807679725416, "train/model_opt_grad_norm": 21.600762352798924, "train/model_opt_grad_steps": 620224.5757575758, "train/model_opt_loss": 18354.496641216858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2537.878787878788, "train/policy_entropy_mag": 2.7124995390574136, "train/policy_entropy_max": 2.7124995390574136, "train/policy_entropy_mean": 0.4882534155339906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6973779400189718, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48735438829118555, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0947645261432186, "train/policy_randomness_mag": 0.9573933003526746, "train/policy_randomness_max": 0.9573933003526746, "train/policy_randomness_mean": 0.1723320305798993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24614381428920862, "train/post_ent_mag": 54.975041822953656, "train/post_ent_max": 54.975041822953656, "train/post_ent_mean": 39.99856682979699, "train/post_ent_min": 19.296157880262896, "train/post_ent_std": 5.765942595221779, "train/prior_ent_mag": 76.81432839595911, "train/prior_ent_max": 76.81432839595911, "train/prior_ent_mean": 45.866706905942976, "train/prior_ent_min": 27.977667981928047, "train/prior_ent_std": 7.955776893731319, "train/rep_loss_mean": 5.882817766883156, "train/rep_loss_std": 9.068667281757701, "train/reward_avg": 0.05161428651913549, "train/reward_loss_mean": 0.06690735206233733, "train/reward_loss_std": 0.2356412293332996, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.0323843450257273, "train/reward_neg_acc": 0.9915152192115784, "train/reward_neg_loss": 0.027823423585769804, "train/reward_pos_acc": 0.9888404680020881, "train/reward_pos_loss": 0.7275621195634207, "train/reward_pred": 0.05106620913879438, "train/reward_rate": 0.05581202651515151, "stats/sum_log_reward": 12.100000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 9.2, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 0.8, "stats/mean_log_entropy": 0.43100009560585023, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.7150245515999918e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3581537874768827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30308508872986, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03714489936828613, "timer/logger.write_frac": 0.00012369136786360692, "timer/logger.write_avg": 0.03714489936828613, "timer/logger.write_min": 0.03714489936828613, "timer/logger.write_max": 0.03714489936828613, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2728688716888428, "timer/replay.add_frac": 0.0009086449165456253, "timer/replay.add_avg": 0.00020703252783675475, "timer/replay.add_min": 8.821487426757812e-05, "timer/replay.add_max": 0.0032989978790283203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.44633960723877, "timer/env.step_frac": 0.0514358339098477, "timer/env.step_avg": 0.011719529292290417, "timer/env.step_min": 0.0029985904693603516, "timer/env.step_max": 1.68733811378479, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.912346124649048, "timer/agent.policy_frac": 0.03300780650228841, "timer/agent.policy_avg": 0.007520748197761037, "timer/agent.policy_min": 0.005606412887573242, "timer/agent.policy_max": 0.04185080528259277, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05464005470275879, "timer/dataset_frac": 0.00018194969487780793, "timer/dataset_avg": 8.291358831981607e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.91342759132385, "timer/agent.train_frac": 0.9121232554450491, "timer/agent.train_avg": 0.41565011774100735, "timer/agent.train_min": 0.3728344440460205, "timer/agent.train_max": 0.45123767852783203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2285900115966797, "timer/agent.report_frac": 0.0007611976797678876, "timer/agent.report_avg": 0.2285900115966797, "timer/agent.report_min": 0.2285900115966797, "timer/agent.report_max": 0.2285900115966797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.388834915248783}
+{"step": 1243282, "episode/length": 359.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.044444444444444446}
+{"step": 1243530, "episode/length": 247.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06048387096774194}
+{"step": 1244050, "episode/length": 519.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 21.10000006854534, "episode/reward_rate": 0.032692307692307694}
+{"step": 1244238, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07446808510638298}
+{"step": 1244299, "episode/length": 60.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.14754098360655737}
+{"step": 1244469, "episode/length": 169.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07647058823529412}
+{"step": 1244543, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379306677616004, "train/action_min": 0.0, "train/action_std": 3.2653294946208145, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035807155439573704, "train/actor_opt_grad_steps": 621395.0, "train/actor_opt_loss": -11.838800012162238, "train/adv_mag": 0.4132067403106978, "train/adv_max": 0.3246458529522925, "train/adv_mean": 0.0018410311693680176, "train/adv_min": -0.36536684903231537, "train/adv_std": 0.04075527140362696, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 0.00021376050916592376, "train/cont_loss_std": 0.006646236032144601, "train/cont_neg_acc": 0.9949494952505286, "train/cont_neg_loss": 0.06503638603312863, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 2.2847749089547207e-05, "train/cont_pred": 0.9950522554643226, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.822676051746715, "train/dyn_loss_std": 9.08948529850353, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8779613971710205, "train/extr_critic_critic_opt_grad_steps": 621395.0, "train/extr_critic_critic_opt_loss": 14897.477968158144, "train/extr_critic_mag": 12.752995158686783, "train/extr_critic_max": 12.752995158686783, "train/extr_critic_mean": 3.8874039108102973, "train/extr_critic_min": -0.3178192106160251, "train/extr_critic_std": 3.087363011909254, "train/extr_return_normed_mag": 1.3744908101630933, "train/extr_return_normed_max": 1.3744908101630933, "train/extr_return_normed_mean": 0.3968737062179681, "train/extr_return_normed_min": -0.06631551965168028, "train/extr_return_normed_std": 0.3179215427600976, "train/extr_return_rate": 0.8490313725038008, "train/extr_return_raw_mag": 13.486649152004357, "train/extr_return_raw_max": 13.486649152004357, "train/extr_return_raw_mean": 3.9054446545514194, "train/extr_return_raw_min": -0.6342113076737432, "train/extr_return_raw_std": 3.116005543506507, "train/extr_reward_mag": 1.0879158467957468, "train/extr_reward_max": 1.0879158467957468, "train/extr_reward_mean": 0.06436689745521906, "train/extr_reward_min": -0.5750454266866049, "train/extr_reward_std": 0.24294155249089905, "train/image_loss_mean": 3.4811407977884468, "train/image_loss_std": 8.563688704461763, "train/model_loss_mean": 7.04292352994283, "train/model_loss_std": 12.767066088589756, "train/model_opt_grad_norm": 19.13002333496556, "train/model_opt_grad_steps": 620884.0, "train/model_opt_loss": 17607.308756510418, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7250397205352783, "train/policy_entropy_max": 2.7250397205352783, "train/policy_entropy_mean": 0.463717932953979, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6800884455442429, "train/policy_logprob_mag": 7.438384323409109, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46389423762307025, "train/policy_logprob_min": -7.438384323409109, "train/policy_logprob_std": 1.0834347741170363, "train/policy_randomness_mag": 0.9618194383202177, "train/policy_randomness_max": 0.9618194383202177, "train/policy_randomness_mean": 0.16367208178747783, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2400413749344421, "train/post_ent_mag": 54.90441235628995, "train/post_ent_max": 54.90441235628995, "train/post_ent_mean": 39.70105217442368, "train/post_ent_min": 19.528777064699113, "train/post_ent_std": 5.755478064219157, "train/prior_ent_mag": 76.74813680937795, "train/prior_ent_max": 76.74813680937795, "train/prior_ent_mean": 45.46086565653483, "train/prior_ent_min": 27.394291762149695, "train/prior_ent_std": 8.039225469936024, "train/rep_loss_mean": 5.822676051746715, "train/rep_loss_std": 9.08948529850353, "train/reward_avg": 0.05455137275610909, "train/reward_loss_mean": 0.06796333746928157, "train/reward_loss_std": 0.23231704036394754, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0384425809889128, "train/reward_neg_acc": 0.992363200043187, "train/reward_neg_loss": 0.026548212507005894, "train/reward_pos_acc": 0.9870239523324099, "train/reward_pos_loss": 0.7318132203636747, "train/reward_pred": 0.05376329786623969, "train/reward_rate": 0.058845288825757576, "stats/sum_log_reward": 12.766666809717814, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5756292566657066, "replay/size": 1000000.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.615652226603376e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.339834393250162e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06704926490784, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025327444076538086, "timer/logger.write_frac": 8.440594906566461e-05, "timer/logger.write_avg": 0.025327444076538086, "timer/logger.write_min": 0.025327444076538086, "timer/logger.write_max": 0.025327444076538086, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.2798147201538086, "timer/replay.add_frac": 0.0009325073207447716, "timer/replay.add_avg": 0.0002129487976817417, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.010454893112182617, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1314.0, "timer/env.step_total": 16.790889024734497, "timer/env.step_frac": 0.05595712380239063, "timer/env.step_avg": 0.01277845435672336, "timer/env.step_min": 0.0029289722442626953, "timer/env.step_max": 1.7182724475860596, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 9.822070598602295, "timer/agent.policy_frac": 0.03273291960134912, "timer/agent.policy_avg": 0.0074749395727566935, "timer/agent.policy_min": 0.005759000778198242, "timer/agent.policy_max": 0.03492283821105957, "timer/dataset_count": 657.0, "timer/dataset_total": 0.054903507232666016, "timer/dataset_frac": 0.0001829707972507025, "timer/dataset_avg": 8.356698208929378e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 657.0, "timer/agent.train_total": 272.4362757205963, "timer/agent.train_frac": 0.9079180016199704, "timer/agent.train_avg": 0.41466708633271887, "timer/agent.train_min": 0.365830659866333, "timer/agent.train_max": 0.4495260715484619, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21808552742004395, "timer/agent.report_frac": 0.0007267893224341063, "timer/agent.report_avg": 0.21808552742004395, "timer/agent.report_min": 0.21808552742004395, "timer/agent.report_max": 0.21808552742004395, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.378951254198463}
+{"step": 1244683, "episode/length": 213.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07476635514018691}
+{"step": 1245068, "episode/length": 384.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03896103896103896}
+{"step": 1245213, "episode/length": 144.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000001490116, "episode/reward_rate": 0.0896551724137931}
+{"step": 1245540, "episode/length": 326.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.04892966360856269}
+{"step": 1245604, "episode/length": 63.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.140625}
+{"step": 1245839, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458014385516827, "train/action_min": 0.0, "train/action_std": 3.366570835847121, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0365913384522383, "train/actor_opt_grad_steps": 622050.0, "train/actor_opt_loss": -11.307242555801684, "train/adv_mag": 0.4213463923105827, "train/adv_max": 0.34398551262342014, "train/adv_mean": 0.001645052659240229, "train/adv_min": -0.3646006790491251, "train/adv_std": 0.040856198164132926, "train/cont_avg": 0.9954176682692307, "train/cont_loss_mean": 2.9106695715943086e-05, "train/cont_loss_std": 0.0008639885805861852, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023684046395778214, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 1.9662218694039578e-05, "train/cont_pred": 0.9954084634780884, "train/cont_rate": 0.9954176682692307, "train/dyn_loss_mean": 5.7600672208345856, "train/dyn_loss_std": 8.991875178997333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8623453974723816, "train/extr_critic_critic_opt_grad_steps": 622050.0, "train/extr_critic_critic_opt_loss": 15053.4841796875, "train/extr_critic_mag": 12.889195251464844, "train/extr_critic_max": 12.889195251464844, "train/extr_critic_mean": 3.8585395116072436, "train/extr_critic_min": -0.3066078882951003, "train/extr_critic_std": 3.018338408836952, "train/extr_return_normed_mag": 1.378730324598459, "train/extr_return_normed_max": 1.378730324598459, "train/extr_return_normed_mean": 0.39509670780255246, "train/extr_return_normed_min": -0.06741589433871782, "train/extr_return_normed_std": 0.3112910174406492, "train/extr_return_rate": 0.8547025689711938, "train/extr_return_raw_mag": 13.494241611774152, "train/extr_return_raw_max": 13.494241611774152, "train/extr_return_raw_mean": 3.874617015398466, "train/extr_return_raw_min": -0.6496336107070629, "train/extr_return_raw_std": 3.0443417622492865, "train/extr_reward_mag": 1.0783400242145245, "train/extr_reward_max": 1.0783400242145245, "train/extr_reward_mean": 0.06293798931516134, "train/extr_reward_min": -0.6004004386755136, "train/extr_reward_std": 0.24043099513420693, "train/image_loss_mean": 3.4676819251133844, "train/image_loss_std": 9.3746583205003, "train/model_loss_mean": 6.989490934518668, "train/model_loss_std": 13.53479806459867, "train/model_opt_grad_norm": 19.324099188584547, "train/model_opt_grad_steps": 621538.2307692308, "train/model_opt_loss": 19774.584810697117, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.7271467208862306, "train/policy_entropy_max": 2.7271467208862306, "train/policy_entropy_mean": 0.46410542038770825, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6757970869541168, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4645869002892421, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0803081741699805, "train/policy_randomness_mag": 0.96256311581685, "train/policy_randomness_max": 0.96256311581685, "train/policy_randomness_mean": 0.1638088469321911, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23852671384811402, "train/post_ent_mag": 55.10057173508864, "train/post_ent_max": 55.10057173508864, "train/post_ent_mean": 39.7739492563101, "train/post_ent_min": 19.022065192002515, "train/post_ent_std": 5.727779439779428, "train/prior_ent_mag": 76.8918205848107, "train/prior_ent_max": 76.8918205848107, "train/prior_ent_mean": 45.53120610163762, "train/prior_ent_min": 27.9529479100154, "train/prior_ent_std": 7.924147811302772, "train/rep_loss_mean": 5.7600672208345856, "train/rep_loss_std": 8.991875178997333, "train/reward_avg": 0.05058894188931355, "train/reward_loss_mean": 0.06573953416485052, "train/reward_loss_std": 0.2366022779391362, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0285907360223623, "train/reward_neg_acc": 0.9925115310228788, "train/reward_neg_loss": 0.02738380920715057, "train/reward_pos_acc": 0.9895539155373206, "train/reward_pos_loss": 0.7288231647931612, "train/reward_pred": 0.0500966150027055, "train/reward_rate": 0.05471754807692308, "stats/sum_log_reward": 12.500000286102296, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 11.4, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.57273428440094, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.6908888522489573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.342737196404257e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4434404373169, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03169989585876465, "timer/logger.write_frac": 0.00010551036099381363, "timer/logger.write_avg": 0.03169989585876465, "timer/logger.write_min": 0.03169989585876465, "timer/logger.write_max": 0.03169989585876465, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2900230884552002, "timer/replay.add_frac": 0.0009653167598968074, "timer/replay.add_avg": 0.00022378324726481496, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.0007867813110351562, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.775439977645874, "timer/env.step_frac": 0.05250718722526807, "timer/env.step_avg": 0.012172407390158853, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.668358564376831, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.000571727752686, "timer/agent.policy_frac": 0.046599691800139995, "timer/agent.policy_avg": 0.010802910283759789, "timer/agent.policy_min": 0.0057048797607421875, "timer/agent.policy_max": 3.2712485790252686, "timer/dataset_count": 648.0, "timer/dataset_total": 0.05328655242919922, "timer/dataset_frac": 0.00017735967991724775, "timer/dataset_avg": 8.22323339956778e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.6383376121521, "timer/agent.train_frac": 0.8974678802095803, "timer/agent.train_avg": 0.41610854569776556, "timer/agent.train_min": 0.37386322021484375, "timer/agent.train_max": 0.4546072483062744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22938990592956543, "timer/agent.report_frac": 0.0007635044572638099, "timer/agent.report_avg": 0.22938990592956543, "timer/agent.report_min": 0.22938990592956543, "timer/agent.report_max": 0.22938990592956543, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00028967857360839844, "timer/checkpoint.save_frac": 9.641700720333603e-07, "timer/checkpoint.save_avg": 0.00028967857360839844, "timer/checkpoint.save_min": 0.00028967857360839844, "timer/checkpoint.save_max": 0.00028967857360839844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1855964660644531, "timer/agent.save_frac": 0.003946155270818137, "timer/agent.save_avg": 1.1855964660644531, "timer/agent.save_min": 1.1855964660644531, "timer/agent.save_max": 1.1855964660644531, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.224082946777344e-05, "timer/replay.save_frac": 2.404473512972084e-07, "timer/replay.save_avg": 7.224082946777344e-05, "timer/replay.save_min": 7.224082946777344e-05, "timer/replay.save_max": 7.224082946777344e-05, "fps": 4.313553336940307}
+{"step": 1245975, "episode/length": 370.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.03773584905660377}
+{"step": 1246306, "episode/length": 330.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.045317220543806644}
+{"step": 1246672, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.040983606557377046}
+{"step": 1246911, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0502092050209205}
+{"step": 1247140, "episode/length": 228.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06550218340611354}
+{"step": 1247159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351273970170454, "train/action_min": 0.0, "train/action_std": 3.2705378821401885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03663537809343049, "train/actor_opt_grad_steps": 622705.0, "train/actor_opt_loss": -8.662670993669467, "train/adv_mag": 0.3836233577493465, "train/adv_max": 0.3046335754069415, "train/adv_mean": 0.0023207488312905434, "train/adv_min": -0.35723145283532864, "train/adv_std": 0.04119088054832184, "train/cont_avg": 0.9950432054924242, "train/cont_loss_mean": 0.00017551845456573935, "train/cont_loss_std": 0.005544874138004816, "train/cont_neg_acc": 0.9826599332419309, "train/cont_neg_loss": 0.0519261974648192, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 4.725558245586157e-06, "train/cont_pred": 0.9950927866227699, "train/cont_rate": 0.9950432054924242, "train/dyn_loss_mean": 5.866115266626531, "train/dyn_loss_std": 9.085836526119348, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9177758964625272, "train/extr_critic_critic_opt_grad_steps": 622705.0, "train/extr_critic_critic_opt_loss": 15345.696244673296, "train/extr_critic_mag": 12.657808361631451, "train/extr_critic_max": 12.657808361631451, "train/extr_critic_mean": 3.8565575317903, "train/extr_critic_min": -0.28715980233568134, "train/extr_critic_std": 3.053138335545858, "train/extr_return_normed_mag": 1.372312473528313, "train/extr_return_normed_max": 1.372312473528313, "train/extr_return_normed_mean": 0.39673091516350256, "train/extr_return_normed_min": -0.06464123776690527, "train/extr_return_normed_std": 0.3152306693972963, "train/extr_return_rate": 0.8595516148841742, "train/extr_return_raw_mag": 13.407317912939822, "train/extr_return_raw_max": 13.407317912939822, "train/extr_return_raw_mean": 3.8792323885541973, "train/extr_return_raw_min": -0.6267840600374973, "train/extr_return_raw_std": 3.0785913648027363, "train/extr_reward_mag": 1.085449052579475, "train/extr_reward_max": 1.085449052579475, "train/extr_reward_mean": 0.06599945857217818, "train/extr_reward_min": -0.5815595767714761, "train/extr_reward_std": 0.24542851926702441, "train/image_loss_mean": 3.6459280848503113, "train/image_loss_std": 9.363430774573123, "train/model_loss_mean": 7.232557751915672, "train/model_loss_std": 13.533235275384152, "train/model_opt_grad_norm": 19.194845271833014, "train/model_opt_grad_steps": 622192.7575757576, "train/model_opt_loss": 18081.39442767519, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7141882614655928, "train/policy_entropy_max": 2.7141882614655928, "train/policy_entropy_mean": 0.4388225015365716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6419703418558295, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43925163917469257, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0591071103558396, "train/policy_randomness_mag": 0.957989344994227, "train/policy_randomness_max": 0.957989344994227, "train/policy_randomness_mean": 0.154885087500919, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2265873576203982, "train/post_ent_mag": 55.529133998986445, "train/post_ent_max": 55.529133998986445, "train/post_ent_mean": 39.89017636848219, "train/post_ent_min": 19.52176958141905, "train/post_ent_std": 5.786214568398216, "train/prior_ent_mag": 76.8381076003566, "train/prior_ent_max": 76.8381076003566, "train/prior_ent_mean": 45.73371309222597, "train/prior_ent_min": 27.813904386578184, "train/prior_ent_std": 7.969956398010254, "train/rep_loss_mean": 5.866115266626531, "train/rep_loss_std": 9.085836526119348, "train/reward_avg": 0.05206557713223226, "train/reward_loss_mean": 0.06678506839230205, "train/reward_loss_std": 0.2267547748757131, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0282433899966152, "train/reward_neg_acc": 0.9920032033414552, "train/reward_neg_loss": 0.02816714346408844, "train/reward_pos_acc": 0.9915479656421777, "train/reward_pos_loss": 0.7135958861220967, "train/reward_pred": 0.051818686198781834, "train/reward_rate": 0.05649266098484849, "stats/sum_log_reward": 13.3, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 26.0, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6796346724033355, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.710660067471591e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3511289249766957e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35139298439026, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035073041915893555, "timer/logger.write_frac": 0.00011677336191917165, "timer/logger.write_avg": 0.035073041915893555, "timer/logger.write_min": 0.035073041915893555, "timer/logger.write_max": 0.035073041915893555, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.27153801918029785, "timer/replay.add_frac": 0.0009040677870084329, "timer/replay.add_avg": 0.00020571062059113475, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0010783672332763672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.441641330718994, "timer/env.step_frac": 0.051411918477506514, "timer/env.step_avg": 0.011698213129332571, "timer/env.step_min": 0.003202676773071289, "timer/env.step_max": 1.6348419189453125, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.90308690071106, "timer/agent.policy_frac": 0.032971669624404704, "timer/agent.policy_avg": 0.007502338561144742, "timer/agent.policy_min": 0.0056765079498291016, "timer/agent.policy_max": 0.015656709671020508, "timer/dataset_count": 660.0, "timer/dataset_total": 0.055910348892211914, "timer/dataset_frac": 0.0001861497905392357, "timer/dataset_avg": 8.471264983668472e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.9336349964142, "timer/agent.train_frac": 0.9120438306428995, "timer/agent.train_avg": 0.4150509621157791, "timer/agent.train_min": 0.3677709102630615, "timer/agent.train_max": 0.4527571201324463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26020288467407227, "timer/agent.report_frac": 0.0008663282100629227, "timer/agent.report_avg": 0.26020288467407227, "timer/agent.report_min": 0.26020288467407227, "timer/agent.report_max": 0.26020288467407227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3947774778759}
+{"step": 1247371, "episode/length": 230.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.1000000461936, "episode/reward_rate": 0.0735930735930736}
+{"step": 1247745, "episode/length": 373.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.034759358288770054}
+{"step": 1248025, "episode/length": 279.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000086426735, "episode/reward_rate": 0.060714285714285714}
+{"step": 1248274, "episode/length": 248.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060240963855421686}
+{"step": 1248467, "episode/length": 192.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08290155440414508}
+{"step": 1248477, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365411846454327, "train/action_min": 0.0, "train/action_std": 3.282149340556218, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613832386640402, "train/actor_opt_grad_steps": 623360.0, "train/actor_opt_loss": -10.755956486555247, "train/adv_mag": 0.37981683749418993, "train/adv_max": 0.32662146779207085, "train/adv_mean": 0.0018202177108972907, "train/adv_min": -0.33370907077422507, "train/adv_std": 0.04091306758614687, "train/cont_avg": 0.9953275240384616, "train/cont_loss_mean": 9.959676323992776e-05, "train/cont_loss_std": 0.003038465270863246, "train/cont_neg_acc": 0.9947252759566674, "train/cont_neg_loss": 0.01639516902622034, "train/cont_pos_acc": 0.9999999798261202, "train/cont_pos_loss": 1.1923924251697407e-05, "train/cont_pred": 0.9953436374664306, "train/cont_rate": 0.9953275240384616, "train/dyn_loss_mean": 5.888296134655292, "train/dyn_loss_std": 9.0614042868981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8784453126100393, "train/extr_critic_critic_opt_grad_steps": 623360.0, "train/extr_critic_critic_opt_loss": 15060.971168870192, "train/extr_critic_mag": 12.90141922877385, "train/extr_critic_max": 12.90141922877385, "train/extr_critic_mean": 3.879734556491558, "train/extr_critic_min": -0.2609417786965003, "train/extr_critic_std": 3.0127796723292426, "train/extr_return_normed_mag": 1.3882756820091835, "train/extr_return_normed_max": 1.3882756820091835, "train/extr_return_normed_mean": 0.39800795110372394, "train/extr_return_normed_min": -0.0627807493106677, "train/extr_return_normed_std": 0.31202479027784785, "train/extr_return_rate": 0.8479497597767757, "train/extr_return_raw_mag": 13.544433623093825, "train/extr_return_raw_max": 13.544433623093825, "train/extr_return_raw_mean": 3.8974759688744176, "train/extr_return_raw_min": -0.5908284430320446, "train/extr_return_raw_std": 3.03932005075308, "train/extr_reward_mag": 1.086771715604342, "train/extr_reward_max": 1.086771715604342, "train/extr_reward_mean": 0.06461055943599114, "train/extr_reward_min": -0.5527548258121197, "train/extr_reward_std": 0.24367360151731052, "train/image_loss_mean": 3.6700736852792595, "train/image_loss_std": 9.24552202958327, "train/model_loss_mean": 7.2687228422898515, "train/model_loss_std": 13.431524423452524, "train/model_opt_grad_norm": 20.78617596259484, "train/model_opt_grad_steps": 622847.0, "train/model_opt_loss": 18171.807151442306, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.717027623836811, "train/policy_entropy_max": 2.717027623836811, "train/policy_entropy_mean": 0.45149662219561065, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6570989329081315, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4517472624778748, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0706881816570575, "train/policy_randomness_mag": 0.9589915165534386, "train/policy_randomness_max": 0.9589915165534386, "train/policy_randomness_mean": 0.15935849512998873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2319270881322714, "train/post_ent_mag": 55.01810613778921, "train/post_ent_max": 55.01810613778921, "train/post_ent_mean": 39.75525254469652, "train/post_ent_min": 19.414010590773362, "train/post_ent_std": 5.786842133448674, "train/prior_ent_mag": 76.75740673358624, "train/prior_ent_max": 76.75740673358624, "train/prior_ent_mean": 45.60113783616286, "train/prior_ent_min": 27.519978567270133, "train/prior_ent_std": 7.963709515791673, "train/rep_loss_mean": 5.888296134655292, "train/rep_loss_std": 9.0614042868981, "train/reward_avg": 0.05206430264963553, "train/reward_loss_mean": 0.06557190641760827, "train/reward_loss_std": 0.2278460076222053, "train/reward_max_data": 1.0476923190630398, "train/reward_max_pred": 1.0458258041968713, "train/reward_neg_acc": 0.9927227157812852, "train/reward_neg_loss": 0.02656793359380502, "train/reward_pos_acc": 0.9900949533169087, "train/reward_pos_loss": 0.7198907320316021, "train/reward_pred": 0.051779989497019695, "train/reward_rate": 0.05625, "stats/sum_log_reward": 14.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 19.2, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6415741086006165, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.5685002351566947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3741177022004886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08362770080566, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03222942352294922, "timer/logger.write_frac": 0.00010740147261577073, "timer/logger.write_avg": 0.03222942352294922, "timer/logger.write_min": 0.03222942352294922, "timer/logger.write_max": 0.03222942352294922, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.262800931930542, "timer/replay.add_frac": 0.0008757589807350774, "timer/replay.add_avg": 0.00019939372680617755, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.628073930740356, "timer/env.step_frac": 0.05207906226167766, "timer/env.step_avg": 0.011857415728938055, "timer/env.step_min": 0.002965688705444336, "timer/env.step_max": 1.7160344123840332, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.719734191894531, "timer/agent.policy_frac": 0.032390084945205545, "timer/agent.policy_avg": 0.007374608643319068, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 0.018064022064208984, "timer/dataset_count": 659.0, "timer/dataset_total": 0.053985595703125, "timer/dataset_frac": 0.00017990183642058142, "timer/dataset_avg": 8.192047906392261e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001304149627685547, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.733544588089, "timer/agent.train_frac": 0.9121908672105609, "timer/agent.train_avg": 0.415377154154915, "timer/agent.train_min": 0.37326598167419434, "timer/agent.train_max": 0.4505307674407959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2149820327758789, "timer/agent.report_frac": 0.0007164070709989678, "timer/agent.report_avg": 0.2149820327758789, "timer/agent.report_min": 0.2149820327758789, "timer/agent.report_max": 0.2149820327758789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392032287201249}
+{"step": 1248648, "episode/length": 180.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08839779005524862}
+{"step": 1248894, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056910569105691054}
+{"step": 1248987, "episode/length": 92.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.11827956989247312}
+{"step": 1249255, "episode/length": 267.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05223880597014925}
+{"step": 1249446, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06282722513089005}
+{"step": 1249675, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06550218340611354}
+{"step": 1249769, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474960561899039, "train/action_min": 0.0, "train/action_std": 3.378471015049861, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03565979029696721, "train/actor_opt_grad_steps": 624010.0, "train/actor_opt_loss": -10.707011155898755, "train/adv_mag": 0.40149655823524183, "train/adv_max": 0.3251864850521088, "train/adv_mean": 0.002190320599737998, "train/adv_min": -0.366042197896884, "train/adv_std": 0.04109463820663782, "train/cont_avg": 0.9952073317307693, "train/cont_loss_mean": 1.3713731864037563e-05, "train/cont_loss_std": 0.000366938811192505, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008886473383306555, "train/cont_pos_acc": 0.999999984411093, "train/cont_pos_loss": 1.2763889891140514e-05, "train/cont_pred": 0.9951961379784804, "train/cont_rate": 0.9952073317307693, "train/dyn_loss_mean": 5.841347114856426, "train/dyn_loss_std": 9.066807688199557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.866419675716987, "train/extr_critic_critic_opt_grad_steps": 624010.0, "train/extr_critic_critic_opt_loss": 15079.638296274039, "train/extr_critic_mag": 12.875750967172475, "train/extr_critic_max": 12.875750967172475, "train/extr_critic_mean": 3.8685207807100737, "train/extr_critic_min": -0.2766962363169743, "train/extr_critic_std": 3.0508802817418026, "train/extr_return_normed_mag": 1.3890650254029495, "train/extr_return_normed_max": 1.3890650254029495, "train/extr_return_normed_mean": 0.39345070238296803, "train/extr_return_normed_min": -0.06374720621567506, "train/extr_return_normed_std": 0.313320589524049, "train/extr_return_rate": 0.8502614617347717, "train/extr_return_raw_mag": 13.687002431429349, "train/extr_return_raw_max": 13.687002431429349, "train/extr_return_raw_mean": 3.890016566790067, "train/extr_return_raw_min": -0.6084256612337553, "train/extr_return_raw_std": 3.0831040455744816, "train/extr_reward_mag": 1.0787663203019362, "train/extr_reward_max": 1.0787663203019362, "train/extr_reward_mean": 0.06260547686654788, "train/extr_reward_min": -0.5528041711220375, "train/extr_reward_std": 0.23979757244770344, "train/image_loss_mean": 3.7194609898787276, "train/image_loss_std": 9.344482157780574, "train/model_loss_mean": 7.290292607820951, "train/model_loss_std": 13.493507443941557, "train/model_opt_grad_norm": 19.032779708275427, "train/model_opt_grad_steps": 623496.4153846154, "train/model_opt_loss": 20272.1427734375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.7283470704005315, "train/policy_entropy_max": 2.7283470704005315, "train/policy_entropy_mean": 0.4695598230912135, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6833985058160928, "train/policy_logprob_mag": 7.4383843348576475, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46804868899858915, "train/policy_logprob_min": -7.4383843348576475, "train/policy_logprob_std": 1.0803608289131752, "train/policy_randomness_mag": 0.9629867856319134, "train/policy_randomness_max": 0.9629867856319134, "train/policy_randomness_mean": 0.16573401334194038, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24120968190523295, "train/post_ent_mag": 55.04975521381085, "train/post_ent_max": 55.04975521381085, "train/post_ent_mean": 39.85244833139273, "train/post_ent_min": 19.615700046832746, "train/post_ent_std": 5.788263071500338, "train/prior_ent_mag": 76.73590170053335, "train/prior_ent_max": 76.73590170053335, "train/prior_ent_mean": 45.680409475473255, "train/prior_ent_min": 27.431718943669246, "train/prior_ent_std": 7.977902273031382, "train/rep_loss_mean": 5.841347114856426, "train/rep_loss_std": 9.066807688199557, "train/reward_avg": 0.05107722291006492, "train/reward_loss_mean": 0.06600961289726771, "train/reward_loss_std": 0.22551854321589837, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.0316222190856934, "train/reward_neg_acc": 0.9918293301875775, "train/reward_neg_loss": 0.02768282534984442, "train/reward_pos_acc": 0.9896186911142789, "train/reward_pos_loss": 0.7205950278502244, "train/reward_pred": 0.05079060300038411, "train/reward_rate": 0.05539362980769231, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35409530252218246, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.6050660691394158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3486934889211744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2123386859894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02866053581237793, "timer/logger.write_frac": 9.546754786236736e-05, "timer/logger.write_avg": 0.02866053581237793, "timer/logger.write_min": 0.02866053581237793, "timer/logger.write_max": 0.02866053581237793, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2992830276489258, "timer/replay.add_frac": 0.0009969044875332868, "timer/replay.add_avg": 0.00023164321025458652, "timer/replay.add_min": 9.131431579589844e-05, "timer/replay.add_max": 0.005318164825439453, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 16.967940092086792, "timer/env.step_frac": 0.056519795843016994, "timer/env.step_avg": 0.013133080566630644, "timer/env.step_min": 0.00313568115234375, "timer/env.step_max": 1.6893563270568848, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.116975784301758, "timer/agent.policy_frac": 0.047023303059730584, "timer/agent.policy_avg": 0.010926451845434797, "timer/agent.policy_min": 0.005635261535644531, "timer/agent.policy_max": 3.506596803665161, "timer/dataset_count": 646.0, "timer/dataset_total": 0.052527666091918945, "timer/dataset_frac": 0.0001749683784544941, "timer/dataset_avg": 8.131217661287763e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.1034805774689, "timer/agent.train_frac": 0.8930461744208816, "timer/agent.train_avg": 0.41502086776697966, "timer/agent.train_min": 0.36686182022094727, "timer/agent.train_max": 0.4536473751068115, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21573710441589355, "timer/agent.report_frac": 0.000718615048802329, "timer/agent.report_avg": 0.21573710441589355, "timer/agent.report_min": 0.21573710441589355, "timer/agent.report_max": 0.21573710441589355, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003170967102050781, "timer/checkpoint.save_frac": 1.0562414309584695e-06, "timer/checkpoint.save_avg": 0.0003170967102050781, "timer/checkpoint.save_min": 0.0003170967102050781, "timer/checkpoint.save_max": 0.0003170967102050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1668789386749268, "timer/agent.save_frac": 0.003886845370121304, "timer/agent.save_avg": 1.1668789386749268, "timer/agent.save_min": 1.1668789386749268, "timer/agent.save_max": 1.1668789386749268, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.984306335449219e-05, "timer/replay.save_frac": 1.9933578885005704e-07, "timer/replay.save_avg": 5.984306335449219e-05, "timer/replay.save_min": 5.984306335449219e-05, "timer/replay.save_max": 5.984306335449219e-05, "fps": 4.303564309671015}
+{"step": 1249983, "episode/length": 307.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05194805194805195}
+{"step": 1250250, "episode/length": 266.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0599250936329588}
+{"step": 1250569, "episode/length": 318.0, "episode/score": 16.099999964237213, "episode/sum_abs_reward": 18.299999997019768, "episode/reward_rate": 0.05329153605015674}
+{"step": 1250786, "episode/length": 216.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07834101382488479}
+{"step": 1251031, "episode/length": 244.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.0653061224489796}
+{"step": 1251085, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395467122395833, "train/action_min": 0.0, "train/action_std": 3.2923841042952104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03587428316699736, "train/actor_opt_grad_steps": 624665.0, "train/actor_opt_loss": -11.769759703766216, "train/adv_mag": 0.4143337727044568, "train/adv_max": 0.3263519078944669, "train/adv_mean": 0.0017900840863341837, "train/adv_min": -0.3719662753018466, "train/adv_std": 0.04097532221313679, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 2.927614200003022e-05, "train/cont_loss_std": 0.0007947089116641744, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009340109799446207, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 2.1694967702673598e-05, "train/cont_pred": 0.995103100935618, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.941569754571626, "train/dyn_loss_std": 9.017042723569004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8674124253518654, "train/extr_critic_critic_opt_grad_steps": 624665.0, "train/extr_critic_critic_opt_loss": 14923.523467092804, "train/extr_critic_mag": 12.826279972538803, "train/extr_critic_max": 12.826279972538803, "train/extr_critic_mean": 3.9699487975149443, "train/extr_critic_min": -0.3089233763290174, "train/extr_critic_std": 3.134688478527647, "train/extr_return_normed_mag": 1.3640570459943828, "train/extr_return_normed_max": 1.3640570459943828, "train/extr_return_normed_mean": 0.4006362187139916, "train/extr_return_normed_min": -0.06547475284473463, "train/extr_return_normed_std": 0.31942234165740735, "train/extr_return_rate": 0.8457643272298755, "train/extr_return_raw_mag": 13.530180873292865, "train/extr_return_raw_max": 13.530180873292865, "train/extr_return_raw_mean": 3.9876888593037925, "train/extr_return_raw_min": -0.6296465676842313, "train/extr_return_raw_std": 3.1641216639316445, "train/extr_reward_mag": 1.0892385280493535, "train/extr_reward_max": 1.0892385280493535, "train/extr_reward_mean": 0.06371747787025842, "train/extr_reward_min": -0.5831098303650365, "train/extr_reward_std": 0.24196463033105386, "train/image_loss_mean": 3.5600450761390454, "train/image_loss_std": 8.81948355472449, "train/model_loss_mean": 7.191975897008723, "train/model_loss_std": 13.0026285720594, "train/model_opt_grad_norm": 20.202386249195445, "train/model_opt_grad_steps": 624151.0, "train/model_opt_loss": 18962.00115411932, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2651.5151515151515, "train/policy_entropy_mag": 2.740358312924703, "train/policy_entropy_max": 2.740358312924703, "train/policy_entropy_mean": 0.4641997218132019, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6854793460983218, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46346341795993573, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.081547666679729, "train/policy_randomness_mag": 0.9672262262214314, "train/policy_randomness_max": 0.9672262262214314, "train/policy_randomness_mean": 0.16384213146838275, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24194412723635184, "train/post_ent_mag": 55.2419938174161, "train/post_ent_max": 55.2419938174161, "train/post_ent_mean": 39.661405274362274, "train/post_ent_min": 19.611504728143867, "train/post_ent_std": 5.783982638156775, "train/prior_ent_mag": 76.69116881399444, "train/prior_ent_max": 76.69116881399444, "train/prior_ent_mean": 45.59689857020523, "train/prior_ent_min": 27.2383921363137, "train/prior_ent_std": 8.046957023216017, "train/rep_loss_mean": 5.941569754571626, "train/rep_loss_std": 9.017042723569004, "train/reward_avg": 0.0518510297900348, "train/reward_loss_mean": 0.06695976018002539, "train/reward_loss_std": 0.23558595257275033, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0363598881345806, "train/reward_neg_acc": 0.9908439363494064, "train/reward_neg_loss": 0.027644563014760162, "train/reward_pos_acc": 0.9886242431221586, "train/reward_pos_loss": 0.7261290161898641, "train/reward_pred": 0.0513558154643485, "train/reward_rate": 0.056196732954545456, "stats/sum_log_reward": 15.100000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 17.2, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 4.8, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.627393639087677, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.603816394747934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.36823458512141e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2567455768585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025652647018432617, "timer/logger.write_frac": 8.54357059294315e-05, "timer/logger.write_avg": 0.025652647018432617, "timer/logger.write_min": 0.025652647018432617, "timer/logger.write_max": 0.025652647018432617, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2678995132446289, "timer/replay.add_frac": 0.0008922347863657006, "timer/replay.add_avg": 0.00020357105869652653, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.0011701583862304688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.970943689346313, "timer/env.step_frac": 0.05319095715456003, "timer/env.step_avg": 0.012135975447831545, "timer/env.step_min": 0.0029668807983398438, "timer/env.step_max": 1.6627869606018066, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.839242458343506, "timer/agent.policy_frac": 0.03276943017363417, "timer/agent.policy_avg": 0.0074766280078598065, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 0.016542673110961914, "timer/dataset_count": 658.0, "timer/dataset_total": 0.054564476013183594, "timer/dataset_frac": 0.00018172606216840646, "timer/dataset_avg": 8.292473558234588e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.43198680877686, "timer/agent.train_frac": 0.9106605957626515, "timer/agent.train_avg": 0.4155501319282323, "timer/agent.train_min": 0.3740057945251465, "timer/agent.train_max": 0.45079755783081055, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23079204559326172, "timer/agent.report_frac": 0.0007686489945458511, "timer/agent.report_avg": 0.23079204559326172, "timer/agent.report_min": 0.23079204559326172, "timer/agent.report_max": 0.23079204559326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.382845201577151}
+{"step": 1251280, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
+{"step": 1251394, "episode/length": 113.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.08771929824561403}
+{"step": 1251621, "episode/length": 226.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07048458149779736}
+{"step": 1251828, "episode/length": 206.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.07246376811594203}
+{"step": 1252019, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07853403141361257}
+{"step": 1252079, "episode/length": 59.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.15}
+{"step": 1252147, "episode/length": 67.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.04411764705882353}
+{"step": 1252333, "episode/length": 185.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.053763440860215055}
+{"step": 1252381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4620849609375, "train/action_min": 0.0, "train/action_std": 3.3606441974639893, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034888275196919075, "train/actor_opt_grad_steps": 625320.0, "train/actor_opt_loss": -12.360050868988036, "train/adv_mag": 0.41164838350736177, "train/adv_max": 0.3271483668914208, "train/adv_mean": 0.0014275090076597944, "train/adv_min": -0.3736254047888976, "train/adv_std": 0.04013739216786164, "train/cont_avg": 0.9954176682692307, "train/cont_loss_mean": 0.00012053324758811028, "train/cont_loss_std": 0.0036319618342601574, "train/cont_neg_acc": 0.993750000372529, "train/cont_neg_loss": 0.02087532866839617, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 2.333589840715761e-05, "train/cont_pred": 0.9954308867454529, "train/cont_rate": 0.9954176682692307, "train/dyn_loss_mean": 5.791102798168476, "train/dyn_loss_std": 8.986316270094651, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.821765476006728, "train/extr_critic_critic_opt_grad_steps": 625320.0, "train/extr_critic_critic_opt_loss": 14891.933864182693, "train/extr_critic_mag": 12.967520948556754, "train/extr_critic_max": 12.967520948556754, "train/extr_critic_mean": 3.8238340817964995, "train/extr_critic_min": -0.3010743031134972, "train/extr_critic_std": 3.090604301599356, "train/extr_return_normed_mag": 1.3747253839786235, "train/extr_return_normed_max": 1.3747253839786235, "train/extr_return_normed_mean": 0.3913407720052279, "train/extr_return_normed_min": -0.06266485375280563, "train/extr_return_normed_std": 0.31704172033530015, "train/extr_return_rate": 0.8441456776398879, "train/extr_return_raw_mag": 13.503061808072603, "train/extr_return_raw_max": 13.503061808072603, "train/extr_return_raw_mean": 3.837861233491164, "train/extr_return_raw_min": -0.6244171406214054, "train/extr_return_raw_std": 3.1162845281454232, "train/extr_reward_mag": 1.0786095252403847, "train/extr_reward_max": 1.0786095252403847, "train/extr_reward_mean": 0.06317681200229204, "train/extr_reward_min": -0.5701128849616417, "train/extr_reward_std": 0.24127230300353122, "train/image_loss_mean": 3.635367727279663, "train/image_loss_std": 9.319712242713342, "train/model_loss_mean": 7.176348238724929, "train/model_loss_std": 13.39189912355863, "train/model_opt_grad_norm": 20.000416066096378, "train/model_opt_grad_steps": 624805.0615384616, "train/model_opt_loss": 18969.853515625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2653.846153846154, "train/policy_entropy_mag": 2.743556594848633, "train/policy_entropy_max": 2.743556594848633, "train/policy_entropy_mean": 0.4768803963294396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6950202235808739, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47682426663545463, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.091649447954618, "train/policy_randomness_mag": 0.968355077963609, "train/policy_randomness_max": 0.968355077963609, "train/policy_randomness_mean": 0.16831785153884155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24531163756663982, "train/post_ent_mag": 55.10530794583834, "train/post_ent_max": 55.10530794583834, "train/post_ent_mean": 39.80867608877329, "train/post_ent_min": 19.573596279437727, "train/post_ent_std": 5.80678028693566, "train/prior_ent_mag": 76.75266406719501, "train/prior_ent_max": 76.75266406719501, "train/prior_ent_mean": 45.60778286273663, "train/prior_ent_min": 27.67167692918044, "train/prior_ent_std": 8.002966015155499, "train/rep_loss_mean": 5.791102798168476, "train/rep_loss_std": 8.986316270094651, "train/reward_avg": 0.05092247592715116, "train/reward_loss_mean": 0.06619831461172837, "train/reward_loss_std": 0.23797830664194547, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0353850804842435, "train/reward_neg_acc": 0.9915564766296974, "train/reward_neg_loss": 0.02747493082514176, "train/reward_pos_acc": 0.9870624331327585, "train/reward_pos_loss": 0.7317672289334811, "train/reward_pred": 0.050545950348560624, "train/reward_rate": 0.05512319711538462, "stats/sum_log_reward": 9.975000157952309, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3432726990431547, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.5862127939860025e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3996513537418695e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1431713104248, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025461435317993164, "timer/logger.write_frac": 8.483096652450416e-05, "timer/logger.write_avg": 0.025461435317993164, "timer/logger.write_min": 0.025461435317993164, "timer/logger.write_max": 0.025461435317993164, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2613668441772461, "timer/replay.add_frac": 0.0008708072318824336, "timer/replay.add_avg": 0.00020167194766762816, "timer/replay.add_min": 8.368492126464844e-05, "timer/replay.add_max": 0.0014467239379882812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 20.15516233444214, "timer/env.step_frac": 0.0671518270645463, "timer/env.step_avg": 0.015551822788921404, "timer/env.step_min": 0.0028493404388427734, "timer/env.step_max": 1.686586856842041, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 9.546484470367432, "timer/agent.policy_frac": 0.03180643567097492, "timer/agent.policy_avg": 0.0073661145604686975, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 0.015904903411865234, "timer/dataset_count": 648.0, "timer/dataset_total": 0.0528411865234375, "timer/dataset_frac": 0.00017605326915396053, "timer/dataset_avg": 8.154504093123071e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.41904497146606, "timer/agent.train_frac": 0.8976350979273751, "timer/agent.train_avg": 0.4157701311288057, "timer/agent.train_min": 0.36844491958618164, "timer/agent.train_max": 0.4540560245513916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25528478622436523, "timer/agent.report_frac": 0.0008505433760488106, "timer/agent.report_avg": 0.25528478622436523, "timer/agent.report_min": 0.25528478622436523, "timer/agent.report_max": 0.25528478622436523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.317871119888262}
+{"step": 1252519, "episode/length": 185.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.08064516129032258}
+{"step": 1252699, "episode/length": 179.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07222222222222222}
+{"step": 1252905, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
+{"step": 1253097, "episode/length": 191.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06770833333333333}
+{"step": 1253292, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07179487179487179}
+{"step": 1253611, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03761755485893417}
+{"step": 1253671, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3862457275390625, "train/action_min": 0.0, "train/action_std": 3.2660987451672554, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03679896212997846, "train/actor_opt_grad_steps": 625965.0, "train/actor_opt_loss": -13.170719848014414, "train/adv_mag": 0.4453507992438972, "train/adv_max": 0.3360125105828047, "train/adv_mean": 0.001407310679319096, "train/adv_min": -0.4072088396642357, "train/adv_std": 0.041188168223015964, "train/cont_avg": 0.9951324462890625, "train/cont_loss_mean": 5.256160867261883e-05, "train/cont_loss_std": 0.001568435917556954, "train/cont_neg_acc": 0.9973544979852343, "train/cont_neg_loss": 0.0065303971404118005, "train/cont_pos_acc": 0.9999999804422259, "train/cont_pos_loss": 1.5209429959917031e-05, "train/cont_pred": 0.9951334958896041, "train/cont_rate": 0.9951324462890625, "train/dyn_loss_mean": 5.97963098436594, "train/dyn_loss_std": 9.174294993281364, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8287267880514264, "train/extr_critic_critic_opt_grad_steps": 625965.0, "train/extr_critic_critic_opt_loss": 15116.610641479492, "train/extr_critic_mag": 12.629210457205772, "train/extr_critic_max": 12.629210457205772, "train/extr_critic_mean": 3.8882269263267517, "train/extr_critic_min": -0.3123411536216736, "train/extr_critic_std": 3.0446435175836086, "train/extr_return_normed_mag": 1.3708932641893625, "train/extr_return_normed_max": 1.3708932641893625, "train/extr_return_normed_mean": 0.3993609598837793, "train/extr_return_normed_min": -0.07434742682380602, "train/extr_return_normed_std": 0.31506124534644186, "train/extr_return_rate": 0.8597809262573719, "train/extr_return_raw_mag": 13.360292375087738, "train/extr_return_raw_max": 13.360292375087738, "train/extr_return_raw_mean": 3.901918586343527, "train/extr_return_raw_min": -0.7099575288593769, "train/extr_return_raw_std": 3.067168030887842, "train/extr_reward_mag": 1.0853223465383053, "train/extr_reward_max": 1.0853223465383053, "train/extr_reward_mean": 0.06480666331481189, "train/extr_reward_min": -0.5976597443223, "train/extr_reward_std": 0.24448157148435712, "train/image_loss_mean": 3.6050107404589653, "train/image_loss_std": 9.228745929896832, "train/model_loss_mean": 7.25943823158741, "train/model_loss_std": 13.468807309865952, "train/model_opt_grad_norm": 22.056741952896118, "train/model_opt_grad_steps": 625449.671875, "train/model_opt_loss": 18978.03727722168, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2656.25, "train/policy_entropy_mag": 2.7215580716729164, "train/policy_entropy_max": 2.7215580716729164, "train/policy_entropy_mean": 0.4350419060792774, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6467815926298499, "train/policy_logprob_mag": 7.4383843168616295, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4353425498120487, "train/policy_logprob_min": -7.4383843168616295, "train/policy_logprob_std": 1.0579961333423853, "train/policy_randomness_mag": 0.9605905674397945, "train/policy_randomness_max": 0.9605905674397945, "train/policy_randomness_mean": 0.15355070121586323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22828551847487688, "train/post_ent_mag": 55.290724873542786, "train/post_ent_max": 55.290724873542786, "train/post_ent_mean": 39.9153214097023, "train/post_ent_min": 19.00845630466938, "train/post_ent_std": 5.890887215733528, "train/prior_ent_mag": 76.83186483383179, "train/prior_ent_max": 76.83186483383179, "train/prior_ent_mean": 45.82777667045593, "train/prior_ent_min": 27.20353227853775, "train/prior_ent_std": 8.020911939442158, "train/rep_loss_mean": 5.97963098436594, "train/rep_loss_std": 9.174294993281364, "train/reward_avg": 0.053088378452230245, "train/reward_loss_mean": 0.06659639329882339, "train/reward_loss_std": 0.23098183888942003, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.035816427320242, "train/reward_neg_acc": 0.9923521960154176, "train/reward_neg_loss": 0.026485198613954708, "train/reward_pos_acc": 0.9904201179742813, "train/reward_pos_loss": 0.7238517282530665, "train/reward_pred": 0.05275392031762749, "train/reward_rate": 0.0575408935546875, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3879740039507548, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6043714183245517e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378345859143161e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37085914611816, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02700638771057129, "timer/logger.write_frac": 8.99101457023625e-05, "timer/logger.write_avg": 0.02700638771057129, "timer/logger.write_min": 0.02700638771057129, "timer/logger.write_max": 0.02700638771057129, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.25618696212768555, "timer/replay.add_frac": 0.0008529021851719013, "timer/replay.add_avg": 0.00019859454428502755, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0011620521545410156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.820061445236206, "timer/env.step_frac": 0.05932686511565848, "timer/env.step_avg": 0.013814001120338145, "timer/env.step_min": 0.003064393997192383, "timer/env.step_max": 1.6592938899993896, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 13.53954267501831, "timer/agent.policy_frac": 0.045076085987528755, "timer/agent.policy_avg": 0.01049576951551807, "timer/agent.policy_min": 0.005594968795776367, "timer/agent.policy_max": 2.596994638442993, "timer/dataset_count": 645.0, "timer/dataset_total": 0.052901506423950195, "timer/dataset_frac": 0.00017612063491890127, "timer/dataset_avg": 8.201783941697705e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9862344264984, "timer/agent.train_frac": 0.8921845321091353, "timer/agent.train_avg": 0.4154825339945712, "timer/agent.train_min": 0.37368321418762207, "timer/agent.train_max": 0.4507334232330322, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25992798805236816, "timer/agent.report_frac": 0.0008653568751352267, "timer/agent.report_avg": 0.25992798805236816, "timer/agent.report_min": 0.25992798805236816, "timer/agent.report_max": 0.25992798805236816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018668174743652344, "timer/checkpoint.save_frac": 6.215041897446862e-07, "timer/checkpoint.save_avg": 0.00018668174743652344, "timer/checkpoint.save_min": 0.00018668174743652344, "timer/checkpoint.save_max": 0.00018668174743652344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4536716938018799, "timer/agent.save_frac": 0.00483958962575237, "timer/agent.save_avg": 1.4536716938018799, "timer/agent.save_min": 1.4536716938018799, "timer/agent.save_max": 1.4536716938018799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.532669067382812e-05, "timer/replay.save_frac": 2.1748677904220181e-07, "timer/replay.save_avg": 6.532669067382812e-05, "timer/replay.save_min": 6.532669067382812e-05, "timer/replay.save_max": 6.532669067382812e-05, "fps": 4.294617018460057}
+{"step": 1253900, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04152249134948097}
+{"step": 1254127, "episode/length": 226.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.06167400881057269}
+{"step": 1254230, "episode/length": 102.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.1262135922330097}
+{"step": 1254463, "episode/length": 232.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06866952789699571}
+{"step": 1254713, "episode/length": 249.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.056}
+{"step": 1254987, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390225497159091, "train/action_min": 0.0, "train/action_std": 3.3012286244016704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035582139608309124, "train/actor_opt_grad_steps": 626615.0, "train/actor_opt_loss": -9.911345507159378, "train/adv_mag": 0.38941720805384894, "train/adv_max": 0.33631239786292566, "train/adv_mean": 0.0020195676832262316, "train/adv_min": -0.3374301382538044, "train/adv_std": 0.040724350308830086, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 3.3519051819878726e-05, "train/cont_loss_std": 0.0010295406994323525, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000762730761226694, "train/cont_pos_acc": 0.9999850870984973, "train/cont_pos_loss": 2.923094406095529e-05, "train/cont_pred": 0.9950417442755266, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.9512714689428154, "train/dyn_loss_std": 9.114975625818426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8528173927104834, "train/extr_critic_critic_opt_grad_steps": 626615.0, "train/extr_critic_critic_opt_loss": 15002.86455374053, "train/extr_critic_mag": 12.764311790466309, "train/extr_critic_max": 12.764311790466309, "train/extr_critic_mean": 3.8538397044846504, "train/extr_critic_min": -0.3212808659582427, "train/extr_critic_std": 3.045989433924357, "train/extr_return_normed_mag": 1.3908308509624365, "train/extr_return_normed_max": 1.3908308509624365, "train/extr_return_normed_mean": 0.3987307525945432, "train/extr_return_normed_min": -0.06961519784773841, "train/extr_return_normed_std": 0.3166284211205714, "train/extr_return_rate": 0.8520784432237799, "train/extr_return_raw_mag": 13.504441087896174, "train/extr_return_raw_max": 13.504441087896174, "train/extr_return_raw_mean": 3.873440630508192, "train/extr_return_raw_min": -0.6735119824156617, "train/extr_return_raw_std": 3.074056321924383, "train/extr_reward_mag": 1.0843708298423074, "train/extr_reward_max": 1.0843708298423074, "train/extr_reward_mean": 0.0659991055162567, "train/extr_reward_min": -0.601292245315783, "train/extr_reward_std": 0.24654496348265445, "train/image_loss_mean": 3.6791902419292564, "train/image_loss_std": 9.552740429386947, "train/model_loss_mean": 7.316695906899192, "train/model_loss_std": 13.730424866531834, "train/model_opt_grad_norm": 18.581260493307404, "train/model_opt_grad_steps": 626099.0, "train/model_opt_loss": 18291.739805279358, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.731616247784008, "train/policy_entropy_max": 2.731616247784008, "train/policy_entropy_mean": 0.452679098555536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6692744791507721, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4518660952647527, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.069829378164176, "train/policy_randomness_mag": 0.9641406608350349, "train/policy_randomness_max": 0.9641406608350349, "train/policy_randomness_mean": 0.1597758556405703, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2362245192581957, "train/post_ent_mag": 55.102243307865024, "train/post_ent_max": 55.102243307865024, "train/post_ent_mean": 39.68010474696304, "train/post_ent_min": 19.62398081114798, "train/post_ent_std": 5.785852974111384, "train/prior_ent_mag": 76.88567664406516, "train/prior_ent_max": 76.88567664406516, "train/prior_ent_mean": 45.60316848754883, "train/prior_ent_min": 27.56269645690918, "train/prior_ent_std": 8.037735339367028, "train/rep_loss_mean": 5.9512714689428154, "train/rep_loss_std": 9.114975625818426, "train/reward_avg": 0.05299775093568094, "train/reward_loss_mean": 0.06670935531005714, "train/reward_loss_std": 0.2293390469117598, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.032462846149098, "train/reward_neg_acc": 0.9922000612273361, "train/reward_neg_loss": 0.026891619263386183, "train/reward_pos_acc": 0.9897472957770029, "train/reward_pos_loss": 0.7208420968416965, "train/reward_pred": 0.05270482086096749, "train/reward_rate": 0.05754320549242424, "stats/sum_log_reward": 12.500000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4175007402896881, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.6387820374277226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4316437816909744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17205691337585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026428937911987305, "timer/logger.write_frac": 8.804596331767887e-05, "timer/logger.write_avg": 0.026428937911987305, "timer/logger.write_min": 0.026428937911987305, "timer/logger.write_max": 0.026428937911987305, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.26971960067749023, "timer/replay.add_frac": 0.0008985499964619504, "timer/replay.add_avg": 0.00020495410385827525, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0009334087371826172, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.610510110855103, "timer/env.step_frac": 0.05200520751790034, "timer/env.step_avg": 0.011862089749889896, "timer/env.step_min": 0.003020763397216797, "timer/env.step_max": 1.6510231494903564, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.829888105392456, "timer/agent.policy_frac": 0.03274751223172376, "timer/agent.policy_avg": 0.007469519836924359, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.015297412872314453, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05450868606567383, "timer/dataset_frac": 0.00018159147332426093, "timer/dataset_avg": 8.283994842807572e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.73034501075745, "timer/agent.train_frac": 0.9119114811201464, "timer/agent.train_avg": 0.41600356384613596, "timer/agent.train_min": 0.36838459968566895, "timer/agent.train_max": 0.4538288116455078, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22127699851989746, "timer/agent.report_frac": 0.0007371672126821383, "timer/agent.report_avg": 0.22127699851989746, "timer/agent.report_min": 0.22127699851989746, "timer/agent.report_max": 0.22127699851989746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.384090626960057}
+{"step": 1255036, "episode/length": 322.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04643962848297214}
+{"step": 1255238, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07425742574257425}
+{"step": 1255419, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07734806629834254}
+{"step": 1255459, "episode/length": 39.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.15}
+{"step": 1255648, "episode/length": 188.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.08465608465608465}
+{"step": 1255924, "episode/length": 275.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05434782608695652}
+{"step": 1256299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410343054569129, "train/action_min": 0.0, "train/action_std": 3.3039885795477666, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036193308448701195, "train/actor_opt_grad_steps": 627275.0, "train/actor_opt_loss": -9.093037133754203, "train/adv_mag": 0.41675945664897107, "train/adv_max": 0.3303656995748029, "train/adv_mean": 0.0023444567388761434, "train/adv_min": -0.36473759466951544, "train/adv_std": 0.040703522097883804, "train/cont_avg": 0.9952355587121212, "train/cont_loss_mean": 8.387113222101327e-05, "train/cont_loss_std": 0.0026402057689526, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.01313617817761805, "train/cont_pos_acc": 0.9999999783255837, "train/cont_pos_loss": 7.487299182321639e-06, "train/cont_pred": 0.9952438500794497, "train/cont_rate": 0.9952355587121212, "train/dyn_loss_mean": 5.933932983514034, "train/dyn_loss_std": 9.208270997712106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.873127902095968, "train/extr_critic_critic_opt_grad_steps": 627275.0, "train/extr_critic_critic_opt_loss": 15069.884144176136, "train/extr_critic_mag": 12.82054276899858, "train/extr_critic_max": 12.82054276899858, "train/extr_critic_mean": 3.824429154396057, "train/extr_critic_min": -0.3017959486354481, "train/extr_critic_std": 3.0329009691874185, "train/extr_return_normed_mag": 1.3868127158193877, "train/extr_return_normed_max": 1.3868127158193877, "train/extr_return_normed_mean": 0.39296962320804596, "train/extr_return_normed_min": -0.06401236248061512, "train/extr_return_normed_std": 0.3130636077487107, "train/extr_return_rate": 0.8638514506094384, "train/extr_return_raw_mag": 13.567303556384463, "train/extr_return_raw_max": 13.567303556384463, "train/extr_return_raw_mean": 3.847332907445503, "train/extr_return_raw_min": -0.6220042899702535, "train/extr_return_raw_std": 3.062109831607703, "train/extr_reward_mag": 1.090555559505116, "train/extr_reward_max": 1.090555559505116, "train/extr_reward_mean": 0.06371399353850972, "train/extr_reward_min": -0.5885477246660175, "train/extr_reward_std": 0.24207123346400983, "train/image_loss_mean": 3.7197774215178057, "train/image_loss_std": 9.423772053285079, "train/model_loss_mean": 7.3454139521627715, "train/model_loss_std": 13.688177917942856, "train/model_opt_grad_norm": 19.58548677328861, "train/model_opt_grad_steps": 626758.2424242424, "train/model_opt_loss": 19194.4775390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2613.6363636363635, "train/policy_entropy_mag": 2.7299997734301016, "train/policy_entropy_max": 2.7299997734301016, "train/policy_entropy_mean": 0.455803500883507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6750083105130629, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4548148846987522, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.073153642090884, "train/policy_randomness_mag": 0.9635701188535402, "train/policy_randomness_max": 0.9635701188535402, "train/policy_randomness_mean": 0.16087863560427318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23824830962852997, "train/post_ent_mag": 55.307963573571406, "train/post_ent_max": 55.307963573571406, "train/post_ent_mean": 39.84880048578436, "train/post_ent_min": 18.755653713688705, "train/post_ent_std": 5.823665207082575, "train/prior_ent_mag": 76.82098492709073, "train/prior_ent_max": 76.82098492709073, "train/prior_ent_mean": 45.75684807517312, "train/prior_ent_min": 27.40461401505904, "train/prior_ent_std": 8.08218044945688, "train/rep_loss_mean": 5.933932983514034, "train/rep_loss_std": 9.208270997712106, "train/reward_avg": 0.05068507336192962, "train/reward_loss_mean": 0.06519292407866681, "train/reward_loss_std": 0.22426894826419425, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.0375463492942578, "train/reward_neg_acc": 0.9919760913559885, "train/reward_neg_loss": 0.02744265575187676, "train/reward_pos_acc": 0.9899004372683439, "train/reward_pos_loss": 0.7142696272243153, "train/reward_pred": 0.050507924519479275, "train/reward_rate": 0.05496863162878788, "stats/sum_log_reward": 12.266666809717814, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.48188602924346924, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.696760026420035e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.429216709078812e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2849268913269, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02306652069091797, "timer/logger.write_frac": 7.681544634861324e-05, "timer/logger.write_avg": 0.02306652069091797, "timer/logger.write_min": 0.02306652069091797, "timer/logger.write_max": 0.02306652069091797, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.26718783378601074, "timer/replay.add_frac": 0.0008897810374701425, "timer/replay.add_avg": 0.00020364926355641064, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0016274452209472656, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.148926496505737, "timer/env.step_frac": 0.05710884883246881, "timer/env.step_avg": 0.01307082812233669, "timer/env.step_min": 0.002872943878173828, "timer/env.step_max": 1.6884291172027588, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.923052310943604, "timer/agent.policy_frac": 0.03304545590639904, "timer/agent.policy_avg": 0.00756330206626799, "timer/agent.policy_min": 0.005624055862426758, "timer/agent.policy_max": 0.016278743743896484, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05577850341796875, "timer/dataset_frac": 0.0001857519256641043, "timer/dataset_avg": 8.502820642983041e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.19878816604614, "timer/agent.train_frac": 0.906468369837807, "timer/agent.train_avg": 0.4149371770823874, "timer/agent.train_min": 0.3739948272705078, "timer/agent.train_max": 0.45201849937438965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23319530487060547, "timer/agent.report_frac": 0.0007765801210361745, "timer/agent.report_avg": 0.23319530487060547, "timer/agent.report_min": 0.23319530487060547, "timer/agent.report_max": 0.23319530487060547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369119580911845}
+{"step": 1256440, "episode/length": 515.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.031007751937984496}
+{"step": 1256707, "episode/length": 266.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.056179775280898875}
+{"step": 1256917, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1257131, "episode/length": 213.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07476635514018691}
+{"step": 1257193, "episode/length": 61.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.08064516129032258}
+{"step": 1257351, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0379746835443038}
+{"step": 1257544, "episode/length": 192.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07772020725388601}
+{"step": 1257581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.42808723449707, "train/action_min": 0.0, "train/action_std": 3.29001072794199, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03689736584783532, "train/actor_opt_grad_steps": 627925.0, "train/actor_opt_loss": -10.137499255535658, "train/adv_mag": 0.39876104914583266, "train/adv_max": 0.3200252519454807, "train/adv_mean": 0.001930165872863654, "train/adv_min": -0.35605491837486625, "train/adv_std": 0.04058915170026012, "train/cont_avg": 0.9954376220703125, "train/cont_loss_mean": 4.692670758976725e-06, "train/cont_loss_std": 0.00014072447111468378, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003495158543628128, "train/cont_pos_acc": 0.9999999841675162, "train/cont_pos_loss": 2.9215467721721566e-06, "train/cont_pred": 0.9954365026205778, "train/cont_rate": 0.9954376220703125, "train/dyn_loss_mean": 5.817747518420219, "train/dyn_loss_std": 9.064595356583595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.845293128862977, "train/extr_critic_critic_opt_grad_steps": 627925.0, "train/extr_critic_critic_opt_loss": 15017.88542175293, "train/extr_critic_mag": 12.831172123551369, "train/extr_critic_max": 12.831172123551369, "train/extr_critic_mean": 3.8900798931717873, "train/extr_critic_min": -0.29902620799839497, "train/extr_critic_std": 2.982779089361429, "train/extr_return_normed_mag": 1.391851270571351, "train/extr_return_normed_max": 1.391851270571351, "train/extr_return_normed_mean": 0.400440271012485, "train/extr_return_normed_min": -0.0707664234796539, "train/extr_return_normed_std": 0.30812636110931635, "train/extr_return_rate": 0.864554894156754, "train/extr_return_raw_mag": 13.595974519848824, "train/extr_return_raw_max": 13.595974519848824, "train/extr_return_raw_mean": 3.908953905105591, "train/extr_return_raw_min": -0.6955739613622427, "train/extr_return_raw_std": 3.0106760412454605, "train/extr_reward_mag": 1.083659153431654, "train/extr_reward_max": 1.083659153431654, "train/extr_reward_mean": 0.0648741940385662, "train/extr_reward_min": -0.6226187441498041, "train/extr_reward_std": 0.2441832262557, "train/image_loss_mean": 3.4761196188628674, "train/image_loss_std": 9.287538476288319, "train/model_loss_mean": 7.033342242240906, "train/model_loss_std": 13.47217258810997, "train/model_opt_grad_norm": 19.632475420832634, "train/model_opt_grad_steps": 627407.859375, "train/model_opt_loss": 18767.98243713379, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2695.3125, "train/policy_entropy_mag": 2.7272593043744564, "train/policy_entropy_max": 2.7272593043744564, "train/policy_entropy_mean": 0.4489001310430467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6662816661410034, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4487963584251702, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.068851194344461, "train/policy_randomness_mag": 0.9626028509810567, "train/policy_randomness_max": 0.9626028509810567, "train/policy_randomness_mean": 0.1584420473081991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2351681876461953, "train/post_ent_mag": 55.424301505088806, "train/post_ent_max": 55.424301505088806, "train/post_ent_mean": 39.78392940759659, "train/post_ent_min": 19.47880168259144, "train/post_ent_std": 5.813807152211666, "train/prior_ent_mag": 76.8319400548935, "train/prior_ent_max": 76.8319400548935, "train/prior_ent_mean": 45.55946224927902, "train/prior_ent_min": 27.29113107919693, "train/prior_ent_std": 7.994923003017902, "train/rep_loss_mean": 5.817747518420219, "train/rep_loss_std": 9.064595356583595, "train/reward_avg": 0.05234680155990645, "train/reward_loss_mean": 0.06656944495625794, "train/reward_loss_std": 0.23852059966884553, "train/reward_max_data": 1.0359375085681677, "train/reward_max_pred": 1.0341075733304024, "train/reward_neg_acc": 0.9919126089662313, "train/reward_neg_loss": 0.026662905598641373, "train/reward_pos_acc": 0.9865046422928572, "train/reward_pos_loss": 0.7366716461256146, "train/reward_pred": 0.051844738627551123, "train/reward_rate": 0.056396484375, "stats/sum_log_reward": 11.385714565004621, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.714285714285714, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.5714285714285716, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4292690519775663, "replay/size": 1000000.0, "replay/inserts": 1282.0, "replay/samples": 10256.0, "replay/insert_wait_avg": 3.5839036176803517e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3818560450013825e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03286123275757, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028979778289794922, "timer/logger.write_frac": 9.658868088890162e-05, "timer/logger.write_avg": 0.028979778289794922, "timer/logger.write_min": 0.028979778289794922, "timer/logger.write_max": 0.028979778289794922, "timer/replay.add_count": 1282.0, "timer/replay.add_total": 0.2550952434539795, "timer/replay.add_frac": 0.0008502243467794127, "timer/replay.add_avg": 0.00019898224918407135, "timer/replay.add_min": 8.392333984375e-05, "timer/replay.add_max": 0.0009887218475341797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1282.0, "timer/env.step_total": 18.524834871292114, "timer/env.step_frac": 0.06174268643500699, "timer/env.step_avg": 0.014449949197575753, "timer/env.step_min": 0.0028972625732421875, "timer/env.step_max": 1.6930851936340332, "timer/agent.policy_count": 1282.0, "timer/agent.policy_total": 10.62494444847107, "timer/agent.policy_frac": 0.03541260248899376, "timer/agent.policy_avg": 0.008287788181334688, "timer/agent.policy_min": 0.0057256221771240234, "timer/agent.policy_max": 1.2710192203521729, "timer/dataset_count": 641.0, "timer/dataset_total": 0.052335262298583984, "timer/dataset_frac": 0.0001744317675189041, "timer/dataset_avg": 8.164627503679249e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 641.0, "timer/agent.train_total": 266.4220938682556, "timer/agent.train_frac": 0.8879763795658783, "timer/agent.train_avg": 0.4156350918381523, "timer/agent.train_min": 0.3677632808685303, "timer/agent.train_max": 0.4816911220550537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24377107620239258, "timer/agent.report_frac": 0.000812481256888996, "timer/agent.report_avg": 0.24377107620239258, "timer/agent.report_min": 0.24377107620239258, "timer/agent.report_max": 0.24377107620239258, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021409988403320312, "timer/checkpoint.save_frac": 7.135881154934896e-07, "timer/checkpoint.save_avg": 0.00021409988403320312, "timer/checkpoint.save_min": 0.00021409988403320312, "timer/checkpoint.save_max": 0.00021409988403320312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2789196968078613, "timer/agent.save_frac": 0.00426259874186151, "timer/agent.save_avg": 1.2789196968078613, "timer/agent.save_min": 1.2789196968078613, "timer/agent.save_max": 1.2789196968078613, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.503120895105225e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "fps": 4.272785870962391}
+{"step": 1257602, "episode/length": 57.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.08620689655172414}
+{"step": 1258089, "episode/length": 486.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.01642710472279261}
+{"step": 1258500, "episode/length": 410.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.038929440389294405}
+{"step": 1258732, "episode/length": 231.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05603448275862069}
+{"step": 1258909, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.452206698330966, "train/action_min": 0.0, "train/action_std": 3.2876703955910425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03535878350676009, "train/actor_opt_grad_steps": 628575.0, "train/actor_opt_loss": -12.376200032956673, "train/adv_mag": 0.3983210049795382, "train/adv_max": 0.33086818998510187, "train/adv_mean": 0.0014877644227288495, "train/adv_min": -0.35519170783685916, "train/adv_std": 0.040847762233831665, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 2.7234065269502484e-05, "train/cont_loss_std": 0.0007815628369859888, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004358813364410231, "train/cont_pos_acc": 0.9999851241256251, "train/cont_pos_loss": 2.5619784064577868e-05, "train/cont_pred": 0.9952474651914655, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.8576906377618965, "train/dyn_loss_std": 9.025001800421512, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8983576370008064, "train/extr_critic_critic_opt_grad_steps": 628575.0, "train/extr_critic_critic_opt_loss": 15100.82939749053, "train/extr_critic_mag": 12.924843975991914, "train/extr_critic_max": 12.924843975991914, "train/extr_critic_mean": 3.791933966405464, "train/extr_critic_min": -0.3585638999938965, "train/extr_critic_std": 3.0975662144747647, "train/extr_return_normed_mag": 1.3923309626001301, "train/extr_return_normed_max": 1.3923309626001301, "train/extr_return_normed_mean": 0.388356845713023, "train/extr_return_normed_min": -0.0643049714183717, "train/extr_return_normed_std": 0.31611437689174304, "train/extr_return_rate": 0.8324889956098614, "train/extr_return_raw_mag": 13.735565908027418, "train/extr_return_raw_max": 13.735565908027418, "train/extr_return_raw_mean": 3.806638594829675, "train/extr_return_raw_min": -0.6697732652678634, "train/extr_return_raw_std": 3.1264091874613906, "train/extr_reward_mag": 1.0836767680717236, "train/extr_reward_max": 1.0836767680717236, "train/extr_reward_mean": 0.06304425305940888, "train/extr_reward_min": -0.5676276340629115, "train/extr_reward_std": 0.2409413093418786, "train/image_loss_mean": 3.7117447780840322, "train/image_loss_std": 9.291099873456089, "train/model_loss_mean": 7.292119828137484, "train/model_loss_std": 13.381012714270389, "train/model_opt_grad_norm": 21.861311768040512, "train/model_opt_grad_steps": 628057.0, "train/model_opt_loss": 18230.299553148674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7343230536489775, "train/policy_entropy_max": 2.7343230536489775, "train/policy_entropy_mean": 0.47854727732412744, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6979802982373671, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4799293528000514, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.0960973772135647, "train/policy_randomness_mag": 0.9650960465272268, "train/policy_randomness_max": 0.9650960465272268, "train/policy_randomness_mean": 0.16890618972706073, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24635641728386734, "train/post_ent_mag": 55.14462546146277, "train/post_ent_max": 55.14462546146277, "train/post_ent_mean": 40.01049203583688, "train/post_ent_min": 19.83360173485496, "train/post_ent_std": 5.803603454069658, "train/prior_ent_mag": 76.77351286917022, "train/prior_ent_max": 76.77351286917022, "train/prior_ent_mean": 45.82239445773038, "train/prior_ent_min": 27.629244139700226, "train/prior_ent_std": 7.94845294229912, "train/rep_loss_mean": 5.8576906377618965, "train/rep_loss_std": 9.025001800421512, "train/reward_avg": 0.05179628300847429, "train/reward_loss_mean": 0.06573342069080382, "train/reward_loss_std": 0.2250907617536458, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0324457630966648, "train/reward_neg_acc": 0.9922859921599879, "train/reward_neg_loss": 0.027736999941143124, "train/reward_pos_acc": 0.9938602510726813, "train/reward_pos_loss": 0.7046251784671437, "train/reward_pred": 0.05160843228187525, "train/reward_rate": 0.05606356534090909, "stats/sum_log_reward": 9.349999964237213, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 13.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6384375542402267, "replay/size": 1000000.0, "replay/inserts": 1328.0, "replay/samples": 10624.0, "replay/insert_wait_avg": 3.555452967264566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3854938099183233e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18601965904236, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0250699520111084, "timer/logger.write_frac": 8.35147221032591e-05, "timer/logger.write_avg": 0.0250699520111084, "timer/logger.write_min": 0.0250699520111084, "timer/logger.write_max": 0.0250699520111084, "timer/replay.add_count": 1328.0, "timer/replay.add_total": 0.2692856788635254, "timer/replay.add_frac": 0.0008970626918914671, "timer/replay.add_avg": 0.00020277536059000405, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0008985996246337891, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1328.0, "timer/env.step_total": 13.476994276046753, "timer/env.step_frac": 0.04489547611629019, "timer/env.step_avg": 0.010148339063288218, "timer/env.step_min": 0.0029206275939941406, "timer/env.step_max": 1.598149061203003, "timer/agent.policy_count": 1328.0, "timer/agent.policy_total": 9.84031343460083, "timer/agent.policy_frac": 0.032780718588352874, "timer/agent.policy_avg": 0.007409874574247613, "timer/agent.policy_min": 0.00563812255859375, "timer/agent.policy_max": 0.017439603805541992, "timer/dataset_count": 664.0, "timer/dataset_total": 0.05518341064453125, "timer/dataset_frac": 0.00018383071505864842, "timer/dataset_avg": 8.310754615140248e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00023627281188964844, "timer/agent.train_count": 664.0, "timer/agent.train_total": 275.82423067092896, "timer/agent.train_frac": 0.9188443585221455, "timer/agent.train_avg": 0.4153979377574231, "timer/agent.train_min": 0.3735029697418213, "timer/agent.train_max": 0.45117712020874023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2641010284423828, "timer/agent.report_frac": 0.0008797912332571462, "timer/agent.report_avg": 0.2641010284423828, "timer/agent.report_min": 0.2641010284423828, "timer/agent.report_max": 0.2641010284423828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.423846920037965}
+{"step": 1258947, "episode/length": 214.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06046511627906977}
+{"step": 1259251, "episode/length": 303.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.049342105263157895}
+{"step": 1259431, "episode/length": 179.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.08888888888888889}
+{"step": 1259630, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06532663316582915}
+{"step": 1260008, "episode/length": 377.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.03968253968253968}
+{"step": 1260225, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462324662642046, "train/action_min": 0.0, "train/action_std": 3.298901995023092, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0354413433903546, "train/actor_opt_grad_steps": 629235.0, "train/actor_opt_loss": -11.004622926314672, "train/adv_mag": 0.39064468962676596, "train/adv_max": 0.3197132929256468, "train/adv_mean": 0.0016068224513494924, "train/adv_min": -0.3434566920905402, "train/adv_std": 0.04004501709432313, "train/cont_avg": 0.9949840198863636, "train/cont_loss_mean": 0.00024210138094126637, "train/cont_loss_std": 0.0075334026983241665, "train/cont_neg_acc": 0.9915223681565487, "train/cont_neg_loss": 0.039983907785396434, "train/cont_pos_acc": 0.999999977422483, "train/cont_pos_loss": 2.3848914198746723e-05, "train/cont_pred": 0.9950033001827471, "train/cont_rate": 0.9949840198863636, "train/dyn_loss_mean": 5.9677660537488535, "train/dyn_loss_std": 9.136226841897676, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8754725122090542, "train/extr_critic_critic_opt_grad_steps": 629235.0, "train/extr_critic_critic_opt_loss": 15018.173946496212, "train/extr_critic_mag": 12.850140658291904, "train/extr_critic_max": 12.850140658291904, "train/extr_critic_mean": 3.812439542828184, "train/extr_critic_min": -0.3455516786286325, "train/extr_critic_std": 3.1267136299248897, "train/extr_return_normed_mag": 1.3725101767164287, "train/extr_return_normed_max": 1.3725101767164287, "train/extr_return_normed_mean": 0.3911114727908915, "train/extr_return_normed_min": -0.06833685804722887, "train/extr_return_normed_std": 0.3189745863730257, "train/extr_return_rate": 0.8420326736840335, "train/extr_return_raw_mag": 13.527244755716035, "train/extr_return_raw_max": 13.527244755716035, "train/extr_return_raw_mean": 3.8283069278254653, "train/extr_return_raw_min": -0.711973279263034, "train/extr_return_raw_std": 3.152282559510433, "train/extr_reward_mag": 1.0837555581873113, "train/extr_reward_max": 1.0837555581873113, "train/extr_reward_mean": 0.0639489447190003, "train/extr_reward_min": -0.6242860573710818, "train/extr_reward_std": 0.2427003891630606, "train/image_loss_mean": 3.8254263509403574, "train/image_loss_std": 9.486503991213711, "train/model_loss_mean": 7.472944758155129, "train/model_loss_std": 13.653347911256732, "train/model_opt_grad_norm": 20.43804996663874, "train/model_opt_grad_steps": 628716.1666666666, "train/model_opt_loss": 10790.206010298296, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1458.3333333333333, "train/policy_entropy_mag": 2.733643333117167, "train/policy_entropy_max": 2.733643333117167, "train/policy_entropy_mean": 0.47181707033605286, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6907605104374163, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4717702161182057, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.088703506823742, "train/policy_randomness_mag": 0.9648561351227037, "train/policy_randomness_max": 0.9648561351227037, "train/policy_randomness_mean": 0.166530721792669, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24380814645326498, "train/post_ent_mag": 55.17321973858458, "train/post_ent_max": 55.17321973858458, "train/post_ent_mean": 39.91901010455507, "train/post_ent_min": 19.337382128744416, "train/post_ent_std": 5.858738754734849, "train/prior_ent_mag": 76.77243747133197, "train/prior_ent_max": 76.77243747133197, "train/prior_ent_mean": 45.85056825117631, "train/prior_ent_min": 27.562669667330656, "train/prior_ent_std": 8.062287540146798, "train/rep_loss_mean": 5.9677660537488535, "train/rep_loss_std": 9.136226841897676, "train/reward_avg": 0.05219726546695738, "train/reward_loss_mean": 0.06661669311649872, "train/reward_loss_std": 0.23089099765727014, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0295103427135583, "train/reward_neg_acc": 0.9918970691435265, "train/reward_neg_loss": 0.0277376526148256, "train/reward_pos_acc": 0.9916298777768107, "train/reward_pos_loss": 0.7138827515370918, "train/reward_pred": 0.0519493922421878, "train/reward_rate": 0.056685014204545456, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 4.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.6284542679786682, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.7583536652446157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3961799238952823e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01814007759094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030845165252685547, "timer/logger.write_frac": 0.00010281100084384346, "timer/logger.write_avg": 0.030845165252685547, "timer/logger.write_min": 0.030845165252685547, "timer/logger.write_max": 0.030845165252685547, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2697780132293701, "timer/replay.add_frac": 0.0008992056718957057, "timer/replay.add_avg": 0.00020499849029587396, "timer/replay.add_min": 8.988380432128906e-05, "timer/replay.add_max": 0.0014867782592773438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.745796918869019, "timer/env.step_frac": 0.052482816255033204, "timer/env.step_avg": 0.011964891275736337, "timer/env.step_min": 0.003125905990600586, "timer/env.step_max": 1.6789534091949463, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.94586706161499, "timer/agent.policy_frac": 0.03315088567325556, "timer/agent.policy_avg": 0.007557649742868534, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.016271591186523438, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05592632293701172, "timer/dataset_frac": 0.00018640980482896135, "timer/dataset_avg": 8.499441175837647e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.2678108215332, "timer/agent.train_frac": 0.9108376271876776, "timer/agent.train_avg": 0.41530062434883463, "timer/agent.train_min": 0.3661074638366699, "timer/agent.train_max": 0.4494900703430176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26131439208984375, "timer/agent.report_frac": 0.0008709953072246312, "timer/agent.report_avg": 0.26131439208984375, "timer/agent.report_min": 0.26131439208984375, "timer/agent.report_max": 0.26131439208984375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386322887121197}
+{"step": 1260232, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06696428571428571}
+{"step": 1260471, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.058577405857740586}
+{"step": 1260638, "episode/length": 166.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0658682634730539}
+{"step": 1261004, "episode/length": 365.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03825136612021858}
+{"step": 1261289, "episode/length": 284.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04912280701754386}
+{"step": 1261498, "episode/length": 208.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07177033492822966}
+{"step": 1261517, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.501201257109642, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5437469482421875, "train/action_min": 0.0, "train/action_std": 3.4326997846364975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035751429211813956, "train/actor_opt_grad_steps": 629885.0, "train/actor_opt_loss": -10.244833485339768, "train/adv_mag": 0.4144022506661713, "train/adv_max": 0.3207735950127244, "train/adv_mean": 0.0019580556923415315, "train/adv_min": -0.377298045437783, "train/adv_std": 0.04039081680821255, "train/cont_avg": 0.9949798583984375, "train/cont_loss_mean": 8.06879097168256e-05, "train/cont_loss_std": 0.002427240560866295, "train/cont_neg_acc": 0.9982363316747878, "train/cont_neg_loss": 0.007213271664306241, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 1.900135925936297e-05, "train/cont_pred": 0.9949773279950023, "train/cont_rate": 0.9949798583984375, "train/dyn_loss_mean": 5.856318585574627, "train/dyn_loss_std": 9.04344242811203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8400087244808674, "train/extr_critic_critic_opt_grad_steps": 629885.0, "train/extr_critic_critic_opt_loss": 14851.40007019043, "train/extr_critic_mag": 12.788140624761581, "train/extr_critic_max": 12.788140624761581, "train/extr_critic_mean": 3.839380320161581, "train/extr_critic_min": -0.3451575767248869, "train/extr_critic_std": 3.112580541521311, "train/extr_return_normed_mag": 1.3742949310690165, "train/extr_return_normed_max": 1.3742949310690165, "train/extr_return_normed_mean": 0.39335794001817703, "train/extr_return_normed_min": -0.0641082645743154, "train/extr_return_normed_std": 0.3186767983715981, "train/extr_return_rate": 0.8342529721558094, "train/extr_return_raw_mag": 13.52658848464489, "train/extr_return_raw_max": 13.52658848464489, "train/extr_return_raw_mean": 3.8587015010416508, "train/extr_return_raw_min": -0.6519169746898115, "train/extr_return_raw_std": 3.141863014549017, "train/extr_reward_mag": 1.0836914479732513, "train/extr_reward_max": 1.0836914479732513, "train/extr_reward_mean": 0.06324674823554233, "train/extr_reward_min": -0.6177363134920597, "train/extr_reward_std": 0.2407295284792781, "train/image_loss_mean": 3.6614751294255257, "train/image_loss_std": 9.529834225773811, "train/model_loss_mean": 7.2424613162875175, "train/model_loss_std": 13.66159637272358, "train/model_opt_grad_norm": 18.089094325900078, "train/model_opt_grad_steps": 629366.0, "train/model_opt_loss": 11665.367553710938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1621.09375, "train/policy_entropy_mag": 2.7277704551815987, "train/policy_entropy_max": 2.7277704551815987, "train/policy_entropy_mean": 0.4825383995193988, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6965166772715747, "train/policy_logprob_mag": 7.438384264707565, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4838350764475763, "train/policy_logprob_min": -7.438384264707565, "train/policy_logprob_std": 1.0961596174165606, "train/policy_randomness_mag": 0.9627832677215338, "train/policy_randomness_max": 0.9627832677215338, "train/policy_randomness_mean": 0.1703148817177862, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24583982024341822, "train/post_ent_mag": 54.899700343608856, "train/post_ent_max": 54.899700343608856, "train/post_ent_mean": 39.89949232339859, "train/post_ent_min": 19.84188023209572, "train/post_ent_std": 5.7868544310331345, "train/prior_ent_mag": 76.59973955154419, "train/prior_ent_max": 76.59973955154419, "train/prior_ent_mean": 45.76090008020401, "train/prior_ent_min": 28.07918679714203, "train/prior_ent_std": 7.942624486982822, "train/rep_loss_mean": 5.856318585574627, "train/rep_loss_std": 9.04344242811203, "train/reward_avg": 0.052520751632982865, "train/reward_loss_mean": 0.06711442588130012, "train/reward_loss_std": 0.23328676726669073, "train/reward_max_data": 1.0281250067055225, "train/reward_max_pred": 1.0303867906332016, "train/reward_neg_acc": 0.9925102340057492, "train/reward_neg_loss": 0.027086222064099275, "train/reward_pos_acc": 0.9889532728120685, "train/reward_pos_loss": 0.7288215905427933, "train/reward_pred": 0.05188353406265378, "train/reward_rate": 0.0570068359375, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.6637480413950632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3853697215809541e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33432388305664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02650904655456543, "timer/logger.write_frac": 8.826512471777102e-05, "timer/logger.write_avg": 0.02650904655456543, "timer/logger.write_min": 0.02650904655456543, "timer/logger.write_max": 0.02650904655456543, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.26662421226501465, "timer/replay.add_frac": 0.0008877580451604728, "timer/replay.add_avg": 0.0002063654893692064, "timer/replay.add_min": 8.726119995117188e-05, "timer/replay.add_max": 0.004068851470947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.584352731704712, "timer/env.step_frac": 0.05854926105133311, "timer/env.step_avg": 0.013610180132898385, "timer/env.step_min": 0.0029180049896240234, "timer/env.step_max": 1.6569888591766357, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 13.333767414093018, "timer/agent.policy_frac": 0.044396415440297404, "timer/agent.policy_avg": 0.010320253416480664, "timer/agent.policy_min": 0.005686044692993164, "timer/agent.policy_max": 2.5678367614746094, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05376887321472168, "timer/dataset_frac": 0.0001790300639618469, "timer/dataset_avg": 8.323354986799022e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.4113793373108, "timer/agent.train_frac": 0.8937086373178714, "timer/agent.train_avg": 0.41549749123422725, "timer/agent.train_min": 0.37383532524108887, "timer/agent.train_max": 0.4517784118652344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23077058792114258, "timer/agent.report_frac": 0.0007683790015655999, "timer/agent.report_avg": 0.23077058792114258, "timer/agent.report_min": 0.23077058792114258, "timer/agent.report_max": 0.23077058792114258, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023937225341796875, "timer/checkpoint.save_frac": 7.970193027659898e-07, "timer/checkpoint.save_avg": 0.00023937225341796875, "timer/checkpoint.save_min": 0.00023937225341796875, "timer/checkpoint.save_max": 0.00023937225341796875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1865155696868896, "timer/agent.save_frac": 0.003950649244303131, "timer/agent.save_avg": 1.1865155696868896, "timer/agent.save_min": 1.1865155696868896, "timer/agent.save_max": 1.1865155696868896, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.651438716372914e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "fps": 4.301801555932373}
+{"step": 1262085, "episode/length": 586.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 20.10000006109476, "episode/reward_rate": 0.027257240204429302}
+{"step": 1262306, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05429864253393665}
+{"step": 1262510, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06862745098039216}
+{"step": 1262786, "episode/length": 275.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.057971014492753624}
+{"step": 1262843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.46934668697528, "train/action_min": 0.0, "train/action_std": 3.309320876847452, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03462785715932277, "train/actor_opt_grad_steps": 630540.0, "train/actor_opt_loss": -11.53165537830609, "train/adv_mag": 0.3682101686943823, "train/adv_max": 0.30515287060346175, "train/adv_mean": 0.0014564997655358652, "train/adv_min": -0.3410764959321093, "train/adv_std": 0.03975820624783857, "train/cont_avg": 0.995292094216418, "train/cont_loss_mean": 3.359380347160028e-05, "train/cont_loss_std": 0.001020728772222179, "train/cont_neg_acc": 0.9981343283582089, "train/cont_neg_loss": 0.0030240221149140877, "train/cont_pos_acc": 0.999999973311353, "train/cont_pos_loss": 1.0036106757881308e-05, "train/cont_pred": 0.9952941474629872, "train/cont_rate": 0.995292094216418, "train/dyn_loss_mean": 5.878628097363372, "train/dyn_loss_std": 9.042508879704261, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8629921425634356, "train/extr_critic_critic_opt_grad_steps": 630540.0, "train/extr_critic_critic_opt_loss": 14917.09764167444, "train/extr_critic_mag": 12.891208919126596, "train/extr_critic_max": 12.891208919126596, "train/extr_critic_mean": 3.876806921033717, "train/extr_critic_min": -0.2905003544109971, "train/extr_critic_std": 3.0554439523326815, "train/extr_return_normed_mag": 1.3794926262613554, "train/extr_return_normed_max": 1.3794926262613554, "train/extr_return_normed_mean": 0.39542624665730036, "train/extr_return_normed_min": -0.06790620816954926, "train/extr_return_normed_std": 0.3124411702156067, "train/extr_return_rate": 0.8572606159679925, "train/extr_return_raw_mag": 13.591830452876305, "train/extr_return_raw_max": 13.591830452876305, "train/extr_return_raw_mean": 3.891187728340946, "train/extr_return_raw_min": -0.6763400488824987, "train/extr_return_raw_std": 3.0800665029838905, "train/extr_reward_mag": 1.0900570314321945, "train/extr_reward_max": 1.0900570314321945, "train/extr_reward_mean": 0.06419059828813396, "train/extr_reward_min": -0.6293926559277435, "train/extr_reward_std": 0.24255038464247292, "train/image_loss_mean": 3.653963277589029, "train/image_loss_std": 8.939657133017013, "train/model_loss_mean": 7.247425150515428, "train/model_loss_std": 13.10182685282693, "train/model_opt_grad_norm": 19.87231240343692, "train/model_opt_grad_steps": 630021.0, "train/model_opt_loss": 18118.562878964553, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.717593481291586, "train/policy_entropy_max": 2.717593481291586, "train/policy_entropy_mean": 0.462710917440813, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6790825555573649, "train/policy_logprob_mag": 7.438384241132594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.463751602973511, "train/policy_logprob_min": -7.438384241132594, "train/policy_logprob_std": 1.0807728918630686, "train/policy_randomness_mag": 0.9591912387022331, "train/policy_randomness_max": 0.9591912387022331, "train/policy_randomness_mean": 0.16331664817546732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23968634365209893, "train/post_ent_mag": 55.025726318359375, "train/post_ent_max": 55.025726318359375, "train/post_ent_mean": 39.84332713796132, "train/post_ent_min": 19.45176867584684, "train/post_ent_std": 5.730610370635986, "train/prior_ent_mag": 76.6579158270537, "train/prior_ent_max": 76.6579158270537, "train/prior_ent_mean": 45.66112734666511, "train/prior_ent_min": 27.302737335660563, "train/prior_ent_std": 7.903069581558455, "train/rep_loss_mean": 5.878628097363372, "train/rep_loss_std": 9.042508879704261, "train/reward_avg": 0.05222423007683968, "train/reward_loss_mean": 0.06625145000975523, "train/reward_loss_std": 0.23303253303712873, "train/reward_max_data": 1.0402985170705994, "train/reward_max_pred": 1.0367408866312966, "train/reward_neg_acc": 0.9923937329605445, "train/reward_neg_loss": 0.026558872298407022, "train/reward_pos_acc": 0.9884903012816586, "train/reward_pos_loss": 0.7297699638267061, "train/reward_pred": 0.05180298150586548, "train/reward_rate": 0.05648029384328358, "stats/sum_log_reward": 13.599999904632568, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 13.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 3.5, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.7119902856647968, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.6670791257740327e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3664567092964551e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.43276166915894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026172399520874023, "timer/logger.write_frac": 8.711566400236823e-05, "timer/logger.write_avg": 0.026172399520874023, "timer/logger.write_min": 0.026172399520874023, "timer/logger.write_max": 0.026172399520874023, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.2644057273864746, "timer/replay.add_frac": 0.000880082870847628, "timer/replay.add_avg": 0.00019940100104560678, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0008206367492675781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.034202814102173, "timer/env.step_frac": 0.04671329030872088, "timer/env.step_avg": 0.010583863359051413, "timer/env.step_min": 0.0028328895568847656, "timer/env.step_max": 1.6422138214111328, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.746504068374634, "timer/agent.policy_frac": 0.032441548698698947, "timer/agent.policy_avg": 0.007350304727281021, "timer/agent.policy_min": 0.0056302547454833984, "timer/agent.policy_max": 0.015083074569702148, "timer/dataset_count": 663.0, "timer/dataset_total": 0.055194854736328125, "timer/dataset_frac": 0.0001837178290066432, "timer/dataset_avg": 8.325015797334559e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 663.0, "timer/agent.train_total": 275.6111717224121, "timer/agent.train_frac": 0.917380548616463, "timer/agent.train_avg": 0.41570312476985233, "timer/agent.train_min": 0.36737895011901855, "timer/agent.train_max": 0.45024967193603516, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2585577964782715, "timer/agent.report_frac": 0.0008606178468745004, "timer/agent.report_avg": 0.2585577964782715, "timer/agent.report_min": 0.2585577964782715, "timer/agent.report_max": 0.2585577964782715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.413559721444715}
+{"step": 1263123, "episode/length": 336.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04154302670623145}
+{"step": 1263465, "episode/length": 341.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.038011695906432746}
+{"step": 1263769, "episode/length": 303.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.046052631578947366}
+{"step": 1263960, "episode/length": 190.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06282722513089005}
+{"step": 1264167, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48886200875947, "train/action_min": 0.0, "train/action_std": 3.3444152600837476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03525955297730186, "train/actor_opt_grad_steps": 631205.0, "train/actor_opt_loss": -11.16313555023887, "train/adv_mag": 0.3888819339600476, "train/adv_max": 0.3136939736026706, "train/adv_mean": 0.0016075544179770848, "train/adv_min": -0.3577753680221962, "train/adv_std": 0.039716043255545876, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 7.6124746856849734e-06, "train/cont_loss_std": 0.00020737459048630723, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.7575092790246906e-05, "train/cont_pos_acc": 0.999999974713181, "train/cont_pos_loss": 7.457802485869277e-06, "train/cont_pred": 0.9952729633360198, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.915388230121497, "train/dyn_loss_std": 9.114195361281887, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8642787093465979, "train/extr_critic_critic_opt_grad_steps": 631205.0, "train/extr_critic_critic_opt_loss": 14928.537257339016, "train/extr_critic_mag": 12.881226973100143, "train/extr_critic_max": 12.881226973100143, "train/extr_critic_mean": 3.7375385400020713, "train/extr_critic_min": -0.34021187912334094, "train/extr_critic_std": 3.0520713329315186, "train/extr_return_normed_mag": 1.3834145737416816, "train/extr_return_normed_max": 1.3834145737416816, "train/extr_return_normed_mean": 0.38441182311737176, "train/extr_return_normed_min": -0.07322024570947344, "train/extr_return_normed_std": 0.3151495237693642, "train/extr_return_rate": 0.8425821129119757, "train/extr_return_raw_mag": 13.504857251138398, "train/extr_return_raw_max": 13.504857251138398, "train/extr_return_raw_mean": 3.7532146807872886, "train/extr_return_raw_min": -0.7136514940948198, "train/extr_return_raw_std": 3.0760910619388926, "train/extr_reward_mag": 1.0845725283478245, "train/extr_reward_max": 1.0845725283478245, "train/extr_reward_mean": 0.06226982142437588, "train/extr_reward_min": -0.6390677455699805, "train/extr_reward_std": 0.2396875856952234, "train/image_loss_mean": 3.745397737531951, "train/image_loss_std": 9.27063386368029, "train/model_loss_mean": 7.360359661506884, "train/model_loss_std": 13.452231898452297, "train/model_opt_grad_norm": 20.93288703398271, "train/model_opt_grad_steps": 630685.3181818182, "train/model_opt_loss": 20183.840894294506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7370611971074883, "train/policy_entropy_max": 2.7370611971074883, "train/policy_entropy_mean": 0.4824427217245102, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7039730431455554, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48051684124000144, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.092429928707354, "train/policy_randomness_mag": 0.9660624906872258, "train/policy_randomness_max": 0.9660624906872258, "train/policy_randomness_mean": 0.17028110846877098, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24847159150874976, "train/post_ent_mag": 55.37055038683342, "train/post_ent_max": 55.37055038683342, "train/post_ent_mean": 39.89983974803578, "train/post_ent_min": 19.105867978298303, "train/post_ent_std": 5.805857535564538, "train/prior_ent_mag": 76.87143950028853, "train/prior_ent_max": 76.87143950028853, "train/prior_ent_mean": 45.779691407174774, "train/prior_ent_min": 27.338984778433137, "train/prior_ent_std": 8.043937589182999, "train/rep_loss_mean": 5.915388230121497, "train/rep_loss_std": 9.114195361281887, "train/reward_avg": 0.050673235969787296, "train/reward_loss_mean": 0.06572142107920213, "train/reward_loss_std": 0.23138000748374246, "train/reward_max_data": 1.021212126269485, "train/reward_max_pred": 1.0221668301206646, "train/reward_neg_acc": 0.9921115600701534, "train/reward_neg_loss": 0.027164759142606548, "train/reward_pos_acc": 0.9888275536623868, "train/reward_pos_loss": 0.7308022361813169, "train/reward_pred": 0.05017554455182769, "train/reward_rate": 0.054998224431818184, "stats/sum_log_reward": 12.350000381469727, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 19.25, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 6.5, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6834412105381489, "replay/size": 1000000.0, "replay/inserts": 1324.0, "replay/samples": 10592.0, "replay/insert_wait_avg": 3.625799161790001e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3810360179566906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33627128601074, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03461599349975586, "timer/logger.write_frac": 0.00011525745242668672, "timer/logger.write_avg": 0.03461599349975586, "timer/logger.write_min": 0.03461599349975586, "timer/logger.write_max": 0.03461599349975586, "timer/replay.add_count": 1324.0, "timer/replay.add_total": 0.2696506977081299, "timer/replay.add_frac": 0.000897829278340281, "timer/replay.add_avg": 0.0002036636689638443, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0009338855743408203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1324.0, "timer/env.step_total": 14.306134700775146, "timer/env.step_frac": 0.047633722825144185, "timer/env.step_avg": 0.01080523768940721, "timer/env.step_min": 0.0031015872955322266, "timer/env.step_max": 1.6571931838989258, "timer/agent.policy_count": 1324.0, "timer/agent.policy_total": 9.831620693206787, "timer/agent.policy_frac": 0.0327353757543461, "timer/agent.policy_avg": 0.0074256953876184195, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.017613649368286133, "timer/dataset_count": 662.0, "timer/dataset_total": 0.05376124382019043, "timer/dataset_frac": 0.00017900350027650675, "timer/dataset_avg": 8.12103380969644e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 662.0, "timer/agent.train_total": 275.1542375087738, "timer/agent.train_frac": 0.9161538708947476, "timer/agent.train_avg": 0.4156408421582686, "timer/agent.train_min": 0.37398386001586914, "timer/agent.train_max": 0.45082759857177734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26275110244750977, "timer/agent.report_frac": 0.0008748563778941354, "timer/agent.report_avg": 0.26275110244750977, "timer/agent.report_min": 0.26275110244750977, "timer/agent.report_max": 0.26275110244750977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.408326654218305}
+{"step": 1264250, "episode/length": 289.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05172413793103448}
+{"step": 1264483, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.060085836909871244}
+{"step": 1264760, "episode/length": 276.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.061371841155234655}
+{"step": 1265208, "episode/length": 447.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.033482142857142856}
+{"step": 1265363, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07096774193548387}
+{"step": 1265465, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512495304987981, "train/action_min": 0.0, "train/action_std": 3.4304266232710616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0348892471824701, "train/actor_opt_grad_steps": 631860.0, "train/actor_opt_loss": -11.424769068681277, "train/adv_mag": 0.4159329675711118, "train/adv_max": 0.3288457622894874, "train/adv_mean": 0.0017289001968143005, "train/adv_min": -0.3748353728881249, "train/adv_std": 0.04024159868176167, "train/cont_avg": 0.9952524038461539, "train/cont_loss_mean": 9.49548829912426e-05, "train/cont_loss_std": 0.002854051030670654, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.013133308292423408, "train/cont_pos_acc": 0.9999999770751367, "train/cont_pos_loss": 1.870770447304984e-05, "train/cont_pred": 0.995257895726424, "train/cont_rate": 0.9952524038461539, "train/dyn_loss_mean": 5.842520310328557, "train/dyn_loss_std": 9.072208243149978, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8866272495343135, "train/extr_critic_critic_opt_grad_steps": 631860.0, "train/extr_critic_critic_opt_loss": 15172.108623798076, "train/extr_critic_mag": 12.709798607459435, "train/extr_critic_max": 12.709798607459435, "train/extr_critic_mean": 3.6590199323800894, "train/extr_critic_min": -0.331404841863192, "train/extr_critic_std": 3.027453037408682, "train/extr_return_normed_mag": 1.3858151344152598, "train/extr_return_normed_max": 1.3858151344152598, "train/extr_return_normed_mean": 0.37920115177447977, "train/extr_return_normed_min": -0.06744828957777757, "train/extr_return_normed_std": 0.31448291081648605, "train/extr_return_rate": 0.8321404649661137, "train/extr_return_raw_mag": 13.442125980670635, "train/extr_return_raw_max": 13.442125980670635, "train/extr_return_raw_mean": 3.675809111961952, "train/extr_return_raw_min": -0.657747601545774, "train/extr_return_raw_std": 3.0513569281651423, "train/extr_reward_mag": 1.0861031789046067, "train/extr_reward_max": 1.0861031789046067, "train/extr_reward_mean": 0.06144396078128081, "train/extr_reward_min": -0.6067281007766724, "train/extr_reward_std": 0.2385064897628931, "train/image_loss_mean": 3.773448892740103, "train/image_loss_std": 9.602310261359582, "train/model_loss_mean": 7.346221982515775, "train/model_loss_std": 13.769735409663273, "train/model_opt_grad_norm": 20.478543266883264, "train/model_opt_grad_steps": 631340.0, "train/model_opt_loss": 21248.469861778845, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2884.6153846153848, "train/policy_entropy_mag": 2.7200912989102877, "train/policy_entropy_max": 2.7200912989102877, "train/policy_entropy_mean": 0.48672425609368547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6952772626510033, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48652929571958686, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.0951630959144005, "train/policy_randomness_mag": 0.9600728612679702, "train/policy_randomness_max": 0.9600728612679702, "train/policy_randomness_mean": 0.17179230336959544, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24540235996246337, "train/post_ent_mag": 54.993216646634615, "train/post_ent_max": 54.993216646634615, "train/post_ent_mean": 40.034824312650244, "train/post_ent_min": 19.534195181039664, "train/post_ent_std": 5.835148987403283, "train/prior_ent_mag": 76.85718360314003, "train/prior_ent_max": 76.85718360314003, "train/prior_ent_mean": 45.85436947162335, "train/prior_ent_min": 27.744416926457333, "train/prior_ent_std": 8.06413225027231, "train/rep_loss_mean": 5.842520310328557, "train/rep_loss_std": 9.072208243149978, "train/reward_avg": 0.05025991545273707, "train/reward_loss_mean": 0.06716596117386452, "train/reward_loss_std": 0.23716046099479382, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0351054374988262, "train/reward_neg_acc": 0.9916307541040273, "train/reward_neg_loss": 0.02880822723874679, "train/reward_pos_acc": 0.9888765435952407, "train/reward_pos_loss": 0.7301093596678514, "train/reward_pred": 0.04980941088153766, "train/reward_rate": 0.054762620192307696, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.8, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 22.6, "stats/max_log_achievement_collect_wood": 12.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.7167420506477356, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.7096314511056672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3789888155662407e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1881854534149, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021750926971435547, "timer/logger.write_frac": 7.245763832637907e-05, "timer/logger.write_avg": 0.021750926971435547, "timer/logger.write_min": 0.021750926971435547, "timer/logger.write_max": 0.021750926971435547, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2739725112915039, "timer/replay.add_frac": 0.0009126692007471449, "timer/replay.add_avg": 0.00021107281301348528, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0038366317749023438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 15.51904010772705, "timer/env.step_frac": 0.051697704505880335, "timer/env.step_avg": 0.011956117186230393, "timer/env.step_min": 0.002925395965576172, "timer/env.step_max": 1.6367692947387695, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.11210012435913, "timer/agent.policy_frac": 0.04701084455753551, "timer/agent.policy_avg": 0.010872188077318283, "timer/agent.policy_min": 0.005701303482055664, "timer/agent.policy_max": 3.168339729309082, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05346488952636719, "timer/dataset_frac": 0.00017810457611984934, "timer/dataset_avg": 8.23804152948647e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.518185377121, "timer/agent.train_frac": 0.8978307556309424, "timer/agent.train_avg": 0.4152822579000323, "timer/agent.train_min": 0.3678462505340576, "timer/agent.train_max": 0.45505499839782715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2610020637512207, "timer/agent.report_frac": 0.0008694614791617928, "timer/agent.report_avg": 0.2610020637512207, "timer/agent.report_min": 0.2610020637512207, "timer/agent.report_max": 0.2610020637512207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005075931549072266, "timer/checkpoint.save_frac": 1.6909164967320077e-06, "timer/checkpoint.save_avg": 0.0005075931549072266, "timer/checkpoint.save_min": 0.0005075931549072266, "timer/checkpoint.save_max": 0.0005075931549072266, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3927485942840576, "timer/agent.save_frac": 0.004639584972940892, "timer/agent.save_avg": 1.3927485942840576, "timer/agent.save_min": 1.3927485942840576, "timer/agent.save_max": 1.3927485942840576, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.5367431640625e-05, "timer/replay.save_frac": 3.1769215532776095e-07, "timer/replay.save_avg": 9.5367431640625e-05, "timer/replay.save_min": 9.5367431640625e-05, "timer/replay.save_max": 9.5367431640625e-05, "fps": 4.323895800842106}
+{"step": 1265555, "episode/length": 191.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.046875}
+{"step": 1265886, "episode/length": 330.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.045317220543806644}
+{"step": 1266074, "episode/length": 187.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.06914893617021277}
+{"step": 1266218, "episode/length": 143.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.09027777777777778}
+{"step": 1266422, "episode/length": 203.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06372549019607843}
+{"step": 1266663, "episode/length": 240.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.04564315352697095}
+{"step": 1266775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520431753305289, "train/action_min": 0.0, "train/action_std": 3.337076396208543, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03585050341028433, "train/actor_opt_grad_steps": 632510.0, "train/actor_opt_loss": -11.161199922745045, "train/adv_mag": 0.43286832502255074, "train/adv_max": 0.34424157463587246, "train/adv_mean": 0.001766973818191148, "train/adv_min": -0.38806691261438225, "train/adv_std": 0.04032854741582503, "train/cont_avg": 0.9953575721153847, "train/cont_loss_mean": 7.629175621723597e-05, "train/cont_loss_std": 0.002387006966387162, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.010270528744128468, "train/cont_pos_acc": 0.9999697731091426, "train/cont_pos_loss": 3.519093913607863e-05, "train/cont_pred": 0.9953494475438045, "train/cont_rate": 0.9953575721153847, "train/dyn_loss_mean": 5.7842681151169995, "train/dyn_loss_std": 8.995315471062293, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9081714043250451, "train/extr_critic_critic_opt_grad_steps": 632510.0, "train/extr_critic_critic_opt_loss": 14703.068149038461, "train/extr_critic_mag": 12.735059342017541, "train/extr_critic_max": 12.735059342017541, "train/extr_critic_mean": 3.8890892138847937, "train/extr_critic_min": -0.32648913860321044, "train/extr_critic_std": 3.016191684282743, "train/extr_return_normed_mag": 1.3801161839411809, "train/extr_return_normed_max": 1.3801161839411809, "train/extr_return_normed_mean": 0.4000798326272231, "train/extr_return_normed_min": -0.0628402679012372, "train/extr_return_normed_std": 0.3106491998984264, "train/extr_return_rate": 0.856525484415201, "train/extr_return_raw_mag": 13.506838783851038, "train/extr_return_raw_max": 13.506838783851038, "train/extr_return_raw_mean": 3.906391848050631, "train/extr_return_raw_min": -0.6282888439985422, "train/extr_return_raw_std": 3.0432775570796085, "train/extr_reward_mag": 1.0853197501255916, "train/extr_reward_max": 1.0853197501255916, "train/extr_reward_mean": 0.06356532430419555, "train/extr_reward_min": -0.6067159010813786, "train/extr_reward_std": 0.2409714311361313, "train/image_loss_mean": 3.5614039127643293, "train/image_loss_std": 9.285101677821233, "train/model_loss_mean": 7.098296605623686, "train/model_loss_std": 13.402607932457556, "train/model_opt_grad_norm": 20.27622454716609, "train/model_opt_grad_steps": 631989.4307692308, "train/model_opt_loss": 25335.799864783654, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3576.923076923077, "train/policy_entropy_mag": 2.7319051339076115, "train/policy_entropy_max": 2.7319051339076115, "train/policy_entropy_mean": 0.4821747458898104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7013309634648837, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.481391762311642, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0913795296962445, "train/policy_randomness_mag": 0.9642426270705003, "train/policy_randomness_max": 0.9642426270705003, "train/policy_randomness_mean": 0.1701865276465049, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24753905534744264, "train/post_ent_mag": 54.93879928588867, "train/post_ent_max": 54.93879928588867, "train/post_ent_mean": 39.87851245586689, "train/post_ent_min": 19.321523035489594, "train/post_ent_std": 5.74590431360098, "train/prior_ent_mag": 76.70470017653246, "train/prior_ent_max": 76.70470017653246, "train/prior_ent_mean": 45.62681779127855, "train/prior_ent_min": 27.20763840308556, "train/prior_ent_std": 7.969383569864126, "train/rep_loss_mean": 5.7842681151169995, "train/rep_loss_std": 8.995315471062293, "train/reward_avg": 0.053858172377714744, "train/reward_loss_mean": 0.06625553896793952, "train/reward_loss_std": 0.23296420276165009, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0303313145270714, "train/reward_neg_acc": 0.9924138032473051, "train/reward_neg_loss": 0.025782803489038577, "train/reward_pos_acc": 0.9900800769145672, "train/reward_pos_loss": 0.7240530105737539, "train/reward_pred": 0.053382528573274614, "train/reward_rate": 0.05805288461538462, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38884855310122174, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.5646307559413763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4584483081147871e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0850200653076, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026939868927001953, "timer/logger.write_frac": 8.977412108454804e-05, "timer/logger.write_avg": 0.026939868927001953, "timer/logger.write_min": 0.026939868927001953, "timer/logger.write_max": 0.026939868927001953, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2678956985473633, "timer/replay.add_frac": 0.0008927326611940211, "timer/replay.add_avg": 0.00020450053324226204, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0030150413513183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.179301261901855, "timer/env.step_frac": 0.057248113411869465, "timer/env.step_avg": 0.013113970428932715, "timer/env.step_min": 0.0027337074279785156, "timer/env.step_max": 1.641066074371338, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.813953876495361, "timer/agent.policy_frac": 0.03270391129273813, "timer/agent.policy_avg": 0.007491567844652948, "timer/agent.policy_min": 0.005744457244873047, "timer/agent.policy_max": 0.015115022659301758, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05431175231933594, "timer/dataset_frac": 0.0001809878823925168, "timer/dataset_avg": 8.291870583104724e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00014853477478027344, "timer/agent.train_count": 655.0, "timer/agent.train_total": 272.0462296009064, "timer/agent.train_frac": 0.9065638449453454, "timer/agent.train_avg": 0.4153377551158876, "timer/agent.train_min": 0.3740711212158203, "timer/agent.train_max": 0.4516875743865967, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2609715461730957, "timer/agent.report_frac": 0.0008696586924475616, "timer/agent.report_avg": 0.2609715461730957, "timer/agent.report_min": 0.2609715461730957, "timer/agent.report_max": 0.2609715461730957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.36534805728145}
+{"step": 1266800, "episode/length": 136.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08759124087591241}
+{"step": 1266952, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07894736842105263}
+{"step": 1267170, "episode/length": 217.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06422018348623854}
+{"step": 1267368, "episode/length": 197.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06565656565656566}
+{"step": 1267597, "episode/length": 228.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.06550218340611354}
+{"step": 1267818, "episode/length": 220.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.06787330316742081}
+{"step": 1268008, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06842105263157895}
+{"step": 1268083, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472028327710701, "train/action_min": 0.0, "train/action_std": 3.3132482658733022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03506716823374683, "train/actor_opt_grad_steps": 633165.0, "train/actor_opt_loss": -11.776245951652527, "train/adv_mag": 0.41278973989414447, "train/adv_max": 0.3388596951509967, "train/adv_mean": 0.0015752767258025856, "train/adv_min": -0.3640466562726281, "train/adv_std": 0.0399675802186583, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 6.360328200525883e-05, "train/cont_loss_std": 0.0019128398253302969, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012832322518604973, "train/cont_pos_acc": 0.9999851033543096, "train/cont_pos_loss": 5.753794816813972e-05, "train/cont_pred": 0.9953882603934316, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.799479383410829, "train/dyn_loss_std": 9.004853436441133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8521705766518911, "train/extr_critic_critic_opt_grad_steps": 633165.0, "train/extr_critic_critic_opt_loss": 14978.179820667614, "train/extr_critic_mag": 12.516080841873631, "train/extr_critic_max": 12.516080841873631, "train/extr_critic_mean": 3.69849114707022, "train/extr_critic_min": -0.3275917316928054, "train/extr_critic_std": 2.9468666423450816, "train/extr_return_normed_mag": 1.3648792469140254, "train/extr_return_normed_max": 1.3648792469140254, "train/extr_return_normed_mean": 0.3837175111879002, "train/extr_return_normed_min": -0.0699567050306183, "train/extr_return_normed_std": 0.30625135677330423, "train/extr_return_rate": 0.8536281215422081, "train/extr_return_raw_mag": 13.234992359623764, "train/extr_return_raw_max": 13.234992359623764, "train/extr_return_raw_mean": 3.7137699271693374, "train/extr_return_raw_min": -0.6888056361314022, "train/extr_return_raw_std": 2.9720477227008706, "train/extr_reward_mag": 1.0924314079862651, "train/extr_reward_max": 1.0924314079862651, "train/extr_reward_mean": 0.06147076404004386, "train/extr_reward_min": -0.611430337934783, "train/extr_reward_std": 0.23854664080973828, "train/image_loss_mean": 3.623277010339679, "train/image_loss_std": 9.009684548233494, "train/model_loss_mean": 7.167664267800071, "train/model_loss_std": 13.18220839355931, "train/model_opt_grad_norm": 20.68192720413208, "train/model_opt_grad_steps": 632643.9848484849, "train/model_opt_loss": 18461.922022964016, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.73037203875455, "train/policy_entropy_max": 2.73037203875455, "train/policy_entropy_mean": 0.4696039473920157, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6789981944091392, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4698997844349254, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0830584213589176, "train/policy_randomness_mag": 0.963701504649538, "train/policy_randomness_max": 0.963701504649538, "train/policy_randomness_mean": 0.16574958869905182, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2396565650900205, "train/post_ent_mag": 54.86180964383212, "train/post_ent_max": 54.86180964383212, "train/post_ent_mean": 39.79311376629454, "train/post_ent_min": 19.68063007701527, "train/post_ent_std": 5.780105424649788, "train/prior_ent_mag": 76.76011149088542, "train/prior_ent_max": 76.76011149088542, "train/prior_ent_mean": 45.575735959139735, "train/prior_ent_min": 27.454528692996863, "train/prior_ent_std": 7.990243752797444, "train/rep_loss_mean": 5.799479383410829, "train/rep_loss_std": 9.004853436441133, "train/reward_avg": 0.05046608643324086, "train/reward_loss_mean": 0.06463599459014156, "train/reward_loss_std": 0.22340660948644986, "train/reward_max_data": 1.0439394044153618, "train/reward_max_pred": 1.0434537331263225, "train/reward_neg_acc": 0.9921083829619668, "train/reward_neg_loss": 0.02703706261165666, "train/reward_pos_acc": 0.9924418005076322, "train/reward_pos_loss": 0.7171461699586926, "train/reward_pred": 0.05018729042036064, "train/reward_rate": 0.05467270359848485, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4467014329774039, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.646455408965411e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4026686321340206e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.41778230667114, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023736000061035156, "timer/logger.write_frac": 7.900997031129495e-05, "timer/logger.write_avg": 0.023736000061035156, "timer/logger.write_min": 0.023736000061035156, "timer/logger.write_max": 0.023736000061035156, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.26167821884155273, "timer/replay.add_frac": 0.0008710477017449904, "timer/replay.add_avg": 0.00020005980033757854, "timer/replay.add_min": 8.606910705566406e-05, "timer/replay.add_max": 0.0008318424224853516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 18.434595346450806, "timer/env.step_frac": 0.061363196295858694, "timer/env.step_avg": 0.01409372732909083, "timer/env.step_min": 0.0029709339141845703, "timer/env.step_max": 1.6395635604858398, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.66450810432434, "timer/agent.policy_frac": 0.03217022650962339, "timer/agent.policy_avg": 0.00738876766385653, "timer/agent.policy_min": 0.005652904510498047, "timer/agent.policy_max": 0.014681100845336914, "timer/dataset_count": 654.0, "timer/dataset_total": 0.053873538970947266, "timer/dataset_frac": 0.00017932872867010356, "timer/dataset_avg": 8.237544185160132e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 654.0, "timer/agent.train_total": 271.29015469551086, "timer/agent.train_frac": 0.9030429311224116, "timer/agent.train_avg": 0.41481675029894627, "timer/agent.train_min": 0.3657710552215576, "timer/agent.train_max": 0.4505610466003418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2595391273498535, "timer/agent.report_frac": 0.0008639273126812178, "timer/agent.report_avg": 0.2595391273498535, "timer/agent.report_min": 0.2595391273498535, "timer/agent.report_max": 0.2595391273498535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.353853712073631}
+{"step": 1268203, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05641025641025641}
+{"step": 1268440, "episode/length": 236.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05063291139240506}
+{"step": 1268645, "episode/length": 204.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07804878048780488}
+{"step": 1268941, "episode/length": 295.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05405405405405406}
+{"step": 1269387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512606107271635, "train/action_min": 0.0, "train/action_std": 3.354777145385742, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036189537438062525, "train/actor_opt_grad_steps": 633820.0, "train/actor_opt_loss": -11.953958729597238, "train/adv_mag": 0.3898195037474999, "train/adv_max": 0.31788604305340695, "train/adv_mean": 0.001464545742671292, "train/adv_min": -0.3565174400806427, "train/adv_std": 0.0397979495043938, "train/cont_avg": 0.9955979567307692, "train/cont_loss_mean": 8.734637498472116e-05, "train/cont_loss_std": 0.002698019644323652, "train/cont_neg_acc": 0.9978021988501915, "train/cont_neg_loss": 0.01058365341116271, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 1.421688469650261e-05, "train/cont_pred": 0.9956072935691247, "train/cont_rate": 0.9955979567307692, "train/dyn_loss_mean": 5.798974176553579, "train/dyn_loss_std": 8.993609714508057, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8656766295433045, "train/extr_critic_critic_opt_grad_steps": 633820.0, "train/extr_critic_critic_opt_loss": 14833.921514423077, "train/extr_critic_mag": 12.699947283818172, "train/extr_critic_max": 12.699947283818172, "train/extr_critic_mean": 3.734895398066594, "train/extr_critic_min": -0.333409857749939, "train/extr_critic_std": 2.991688798024104, "train/extr_return_normed_mag": 1.3842587012511034, "train/extr_return_normed_max": 1.3842587012511034, "train/extr_return_normed_mean": 0.38928716411957376, "train/extr_return_normed_min": -0.06398855983637847, "train/extr_return_normed_std": 0.31164385309586157, "train/extr_return_rate": 0.8364123005133409, "train/extr_return_raw_mag": 13.396010164114145, "train/extr_return_raw_max": 13.396010164114145, "train/extr_return_raw_mean": 3.749087271323571, "train/extr_return_raw_min": -0.6469924461383086, "train/extr_return_raw_std": 3.0223641432248627, "train/extr_reward_mag": 1.0880467928372897, "train/extr_reward_max": 1.0880467928372897, "train/extr_reward_mean": 0.06274889048475485, "train/extr_reward_min": -0.565293761400076, "train/extr_reward_std": 0.2401459813117981, "train/image_loss_mean": 3.732179931493906, "train/image_loss_std": 9.054528955312875, "train/model_loss_mean": 7.277076955942007, "train/model_loss_std": 13.16057919722337, "train/model_opt_grad_norm": 19.009303048940804, "train/model_opt_grad_steps": 633298.0, "train/model_opt_loss": 18192.6923828125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7402581214904784, "train/policy_entropy_max": 2.7402581214904784, "train/policy_entropy_mean": 0.4924433341393104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7163572733218854, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49108986212657046, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1027188695394077, "train/policy_randomness_mag": 0.967190866286938, "train/policy_randomness_max": 0.967190866286938, "train/policy_randomness_mean": 0.17381088802447686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25284267778580005, "train/post_ent_mag": 55.22109838632437, "train/post_ent_max": 55.22109838632437, "train/post_ent_mean": 39.978216376671426, "train/post_ent_min": 19.53267713693472, "train/post_ent_std": 5.829276627760667, "train/prior_ent_mag": 76.95708594689002, "train/prior_ent_max": 76.95708594689002, "train/prior_ent_mean": 45.76164151705228, "train/prior_ent_min": 27.51371457026555, "train/prior_ent_std": 7.9678339371314415, "train/rep_loss_mean": 5.798974176553579, "train/rep_loss_std": 8.993609714508057, "train/reward_avg": 0.05155048046547633, "train/reward_loss_mean": 0.06542514946598273, "train/reward_loss_std": 0.22836391283915594, "train/reward_max_data": 1.0446153952525212, "train/reward_max_pred": 1.0444306116837723, "train/reward_neg_acc": 0.9927129846352797, "train/reward_neg_loss": 0.026493832368690233, "train/reward_pos_acc": 0.9893515715232262, "train/reward_pos_loss": 0.7254859960996187, "train/reward_pred": 0.05109480556387168, "train/reward_rate": 0.05575420673076923, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.25, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4363092854619026, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.6479505293208396e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3619021404008924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.228303194046, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025322437286376953, "timer/logger.write_frac": 8.434393765337423e-05, "timer/logger.write_avg": 0.025322437286376953, "timer/logger.write_min": 0.025322437286376953, "timer/logger.write_max": 0.025322437286376953, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.30108213424682617, "timer/replay.add_frac": 0.0010028439392412256, "timer/replay.add_avg": 0.0002308912072444986, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.011936664581298828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.014545202255249, "timer/env.step_frac": 0.046679626981061983, "timer/env.step_avg": 0.010747350615226418, "timer/env.step_min": 0.0029649734497070312, "timer/env.step_max": 1.649707555770874, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.371830224990845, "timer/agent.policy_frac": 0.04786967142035881, "timer/agent.policy_avg": 0.011021342197078869, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 3.3171777725219727, "timer/dataset_count": 652.0, "timer/dataset_total": 0.05359935760498047, "timer/dataset_frac": 0.00017852866313652544, "timer/dataset_avg": 8.220760368862035e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00015544891357421875, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.8017244338989, "timer/agent.train_frac": 0.901985993835072, "timer/agent.train_avg": 0.41534006815015173, "timer/agent.train_min": 0.37447333335876465, "timer/agent.train_max": 0.47777342796325684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23246145248413086, "timer/agent.report_frac": 0.0007742822712283873, "timer/agent.report_avg": 0.23246145248413086, "timer/agent.report_min": 0.23246145248413086, "timer/agent.report_max": 0.23246145248413086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001938343048095703, "timer/checkpoint.save_frac": 6.456230233706171e-07, "timer/checkpoint.save_avg": 0.0001938343048095703, "timer/checkpoint.save_min": 0.0001938343048095703, "timer/checkpoint.save_max": 0.0001938343048095703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2229855060577393, "timer/agent.save_frac": 0.0040735183626817795, "timer/agent.save_avg": 1.2229855060577393, "timer/agent.save_min": 1.2229855060577393, "timer/agent.save_max": 1.2229855060577393, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.970024732356837e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "fps": 4.343286090494999}
+{"step": 1269449, "episode/length": 507.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 19.700000062584877, "episode/reward_rate": 0.031496062992125984}
+{"step": 1269738, "episode/length": 288.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05190311418685121}
+{"step": 1270069, "episode/length": 330.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04229607250755287}
+{"step": 1270325, "episode/length": 255.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0390625}
+{"step": 1270561, "episode/length": 235.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.0635593220338983}
+{"step": 1270707, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528142755681818, "train/action_min": 0.0, "train/action_std": 3.3594213615764272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034785107455470345, "train/actor_opt_grad_steps": 634475.0, "train/actor_opt_loss": -12.50689706657872, "train/adv_mag": 0.4128202213482423, "train/adv_max": 0.331088228207646, "train/adv_mean": 0.0012669286436655304, "train/adv_min": -0.3747879487998558, "train/adv_std": 0.04009014706720005, "train/cont_avg": 0.9951023910984849, "train/cont_loss_mean": 2.3712018875225265e-05, "train/cont_loss_std": 0.0005913869814152707, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011182253059088315, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 1.6332937515270178e-05, "train/cont_pred": 0.9950928940917506, "train/cont_rate": 0.9951023910984849, "train/dyn_loss_mean": 5.907906749031761, "train/dyn_loss_std": 9.055989467736447, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8857403713645358, "train/extr_critic_critic_opt_grad_steps": 634475.0, "train/extr_critic_critic_opt_loss": 14909.229743726326, "train/extr_critic_mag": 12.814382423054088, "train/extr_critic_max": 12.814382423054088, "train/extr_critic_mean": 3.8077390880295723, "train/extr_critic_min": -0.36379192634062335, "train/extr_critic_std": 3.0683707522623465, "train/extr_return_normed_mag": 1.3737565260944944, "train/extr_return_normed_max": 1.3737565260944944, "train/extr_return_normed_mean": 0.394200709733096, "train/extr_return_normed_min": -0.06727202552737611, "train/extr_return_normed_std": 0.3153977491187327, "train/extr_return_rate": 0.8375375270843506, "train/extr_return_raw_mag": 13.432767376755223, "train/extr_return_raw_max": 13.432767376755223, "train/extr_return_raw_mean": 3.8201806942621865, "train/extr_return_raw_min": -0.7081511463179733, "train/extr_return_raw_std": 3.0951010928009497, "train/extr_reward_mag": 1.0883405750448054, "train/extr_reward_max": 1.0883405750448054, "train/extr_reward_mean": 0.06373846598646858, "train/extr_reward_min": -0.6299515203996138, "train/extr_reward_std": 0.24173142557794397, "train/image_loss_mean": 3.729907700509736, "train/image_loss_std": 8.926478703816732, "train/model_loss_mean": 7.34055428793936, "train/model_loss_std": 13.073590798811479, "train/model_opt_grad_norm": 21.50675241874926, "train/model_opt_grad_steps": 633952.2878787878, "train/model_opt_loss": 11823.907470703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.8484848484848, "train/policy_entropy_mag": 2.7457868908390854, "train/policy_entropy_max": 2.7457868908390854, "train/policy_entropy_mean": 0.5011338505781058, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7142856220404307, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5009918998588215, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.1098919844988622, "train/policy_randomness_mag": 0.9691422771323811, "train/policy_randomness_max": 0.9691422771323811, "train/policy_randomness_mean": 0.17687826084368158, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25211147918845667, "train/post_ent_mag": 55.81593704223633, "train/post_ent_max": 55.81593704223633, "train/post_ent_mean": 39.85808771306818, "train/post_ent_min": 19.499204910162725, "train/post_ent_std": 5.853241118517789, "train/prior_ent_mag": 76.7594380234227, "train/prior_ent_max": 76.7594380234227, "train/prior_ent_mean": 45.699578603108726, "train/prior_ent_min": 27.4311986692024, "train/prior_ent_std": 8.120044636003898, "train/rep_loss_mean": 5.907906749031761, "train/rep_loss_std": 9.055989467736447, "train/reward_avg": 0.0509514081658739, "train/reward_loss_mean": 0.06587883305143226, "train/reward_loss_std": 0.2266438106695811, "train/reward_max_data": 1.0257575818986604, "train/reward_max_pred": 1.0239748882524895, "train/reward_neg_acc": 0.9921889521858909, "train/reward_neg_loss": 0.02823084772028255, "train/reward_pos_acc": 0.9935032273783828, "train/reward_pos_loss": 0.7084046277132902, "train/reward_pred": 0.05092450584087408, "train/reward_rate": 0.05544211647727273, "stats/sum_log_reward": 12.900000381469727, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6410930216312408, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.631367827906753e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3290932684233693e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37604427337646, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02970123291015625, "timer/logger.write_frac": 9.888016530081453e-05, "timer/logger.write_avg": 0.02970123291015625, "timer/logger.write_min": 0.02970123291015625, "timer/logger.write_max": 0.02970123291015625, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2753174304962158, "timer/replay.add_frac": 0.0009165758579790256, "timer/replay.add_avg": 0.0002085738109819817, "timer/replay.add_min": 8.678436279296875e-05, "timer/replay.add_max": 0.005234241485595703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.208606243133545, "timer/env.step_frac": 0.05063188803862128, "timer/env.step_avg": 0.011521671396313292, "timer/env.step_min": 0.0028765201568603516, "timer/env.step_max": 1.6864585876464844, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.81318736076355, "timer/agent.policy_frac": 0.03266967372348918, "timer/agent.policy_avg": 0.007434232849063295, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.023975849151611328, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05451512336730957, "timer/dataset_frac": 0.00018148958416169364, "timer/dataset_avg": 8.259867176865086e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001926422119140625, "timer/agent.train_count": 660.0, "timer/agent.train_total": 274.29386854171753, "timer/agent.train_frac": 0.9131682561611965, "timer/agent.train_avg": 0.41559677051775384, "timer/agent.train_min": 0.3677859306335449, "timer/agent.train_max": 0.4530479907989502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2636880874633789, "timer/agent.report_frac": 0.0008778599109035229, "timer/agent.report_avg": 0.2636880874633789, "timer/agent.report_min": 0.2636880874633789, "timer/agent.report_max": 0.2636880874633789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3944069944870865}
+{"step": 1270837, "episode/length": 275.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.06159420289855073}
+{"step": 1271021, "episode/length": 183.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.09239130434782608}
+{"step": 1271273, "episode/length": 251.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05952380952380952}
+{"step": 1271318, "episode/length": 44.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.044444444444444446}
+{"step": 1271683, "episode/length": 364.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 19.10000005364418, "episode/reward_rate": 0.043835616438356165}
+{"step": 1271914, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06060606060606061}
+{"step": 1272017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474859149639423, "train/action_min": 0.0, "train/action_std": 3.354847684273353, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036051912204577374, "train/actor_opt_grad_steps": 635130.0, "train/actor_opt_loss": -12.860811105141273, "train/adv_mag": 0.43160200119018555, "train/adv_max": 0.3244172398860638, "train/adv_mean": 0.0011875205583587209, "train/adv_min": -0.3933202848984645, "train/adv_std": 0.040346091871078196, "train/cont_avg": 0.9951622596153846, "train/cont_loss_mean": 5.4926067540988626e-05, "train/cont_loss_std": 0.001685965894215367, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.012049351614433077, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 7.67205861419685e-06, "train/cont_pred": 0.9951697560457083, "train/cont_rate": 0.9951622596153846, "train/dyn_loss_mean": 5.891242636167086, "train/dyn_loss_std": 9.060789453066313, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8580652081049406, "train/extr_critic_critic_opt_grad_steps": 635130.0, "train/extr_critic_critic_opt_loss": 14882.968810096154, "train/extr_critic_mag": 12.727349897531363, "train/extr_critic_max": 12.727349897531363, "train/extr_critic_mean": 3.8572160464066725, "train/extr_critic_min": -0.3554725463573749, "train/extr_critic_std": 3.0844415261195257, "train/extr_return_normed_mag": 1.3803795099258422, "train/extr_return_normed_max": 1.3803795099258422, "train/extr_return_normed_mean": 0.40244136865322405, "train/extr_return_normed_min": -0.06883918084204196, "train/extr_return_normed_std": 0.3180615723133087, "train/extr_return_rate": 0.8388882618684035, "train/extr_return_raw_mag": 13.41676524235652, "train/extr_return_raw_max": 13.41676524235652, "train/extr_return_raw_mean": 3.868808210813082, "train/extr_return_raw_min": -0.7321804275879493, "train/extr_return_raw_std": 3.1055267003866343, "train/extr_reward_mag": 1.0902447847219614, "train/extr_reward_max": 1.0902447847219614, "train/extr_reward_mean": 0.06594308666311778, "train/extr_reward_min": -0.6372440209755531, "train/extr_reward_std": 0.2459508451131674, "train/image_loss_mean": 3.6072738537421594, "train/image_loss_std": 8.870548622424787, "train/model_loss_mean": 7.210311838296744, "train/model_loss_std": 13.05918037707989, "train/model_opt_grad_norm": 18.222660182072566, "train/model_opt_grad_steps": 634607.0, "train/model_opt_loss": 10844.76328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1480.7692307692307, "train/policy_entropy_mag": 2.7180660614600547, "train/policy_entropy_max": 2.7180660614600547, "train/policy_entropy_mean": 0.4605061457707332, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6712597145484044, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4586665197060658, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0732853238399211, "train/policy_randomness_mag": 0.959358038352086, "train/policy_randomness_max": 0.959358038352086, "train/policy_randomness_mean": 0.16253846276264924, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23692521957250742, "train/post_ent_mag": 55.13074223445012, "train/post_ent_max": 55.13074223445012, "train/post_ent_mean": 39.69977575448843, "train/post_ent_min": 19.443092346191406, "train/post_ent_std": 5.753659864572378, "train/prior_ent_mag": 76.82982670710636, "train/prior_ent_max": 76.82982670710636, "train/prior_ent_mean": 45.5717656649076, "train/prior_ent_min": 27.430306185208835, "train/prior_ent_std": 8.022085424569937, "train/rep_loss_mean": 5.891242636167086, "train/rep_loss_std": 9.060789453066313, "train/reward_avg": 0.05406850946064179, "train/reward_loss_mean": 0.06823760912968563, "train/reward_loss_std": 0.23961981099385482, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0388605411236103, "train/reward_neg_acc": 0.991924339074355, "train/reward_neg_loss": 0.027640006175407995, "train/reward_pos_acc": 0.9896116770230807, "train/reward_pos_loss": 0.723254447716933, "train/reward_pred": 0.05369491806397071, "train/reward_rate": 0.0583984375, "stats/sum_log_reward": 12.599999984105429, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.666666666666666, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5599846777816614, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.6401603058094287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3776862894305747e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0358974933624, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030753135681152344, "timer/logger.write_frac": 0.00010249818751048841, "timer/logger.write_avg": 0.030753135681152344, "timer/logger.write_min": 0.030753135681152344, "timer/logger.write_max": 0.030753135681152344, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2576141357421875, "timer/replay.add_frac": 0.0008586110458595595, "timer/replay.add_avg": 0.00019665201201693702, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.000885009765625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.145754098892212, "timer/env.step_frac": 0.05714567570792598, "timer/env.step_avg": 0.013088361907551306, "timer/env.step_min": 0.0030562877655029297, "timer/env.step_max": 1.651954174041748, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.706656455993652, "timer/agent.policy_frac": 0.03235165037613004, "timer/agent.policy_avg": 0.007409661416789047, "timer/agent.policy_min": 0.0056307315826416016, "timer/agent.policy_max": 0.015033721923828125, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05384540557861328, "timer/dataset_frac": 0.00017946321099729235, "timer/dataset_avg": 8.220672607421875e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 655.0, "timer/agent.train_total": 272.1530692577362, "timer/agent.train_frac": 0.9070683592577683, "timer/agent.train_avg": 0.4155008690957805, "timer/agent.train_min": 0.3739337921142578, "timer/agent.train_max": 0.45105814933776855, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25899815559387207, "timer/agent.report_frac": 0.0008632238933996282, "timer/agent.report_avg": 0.25899815559387207, "timer/agent.report_min": 0.25899815559387207, "timer/agent.report_max": 0.25899815559387207, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.36606009825238}
+{"step": 1272140, "episode/length": 225.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.05309734513274336}
+{"step": 1272291, "episode/length": 150.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07947019867549669}
+{"step": 1272562, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.055350553505535055}
+{"step": 1272727, "episode/length": 164.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05454545454545454}
+{"step": 1272933, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05825242718446602}
+{"step": 1273136, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.07389162561576355}
+{"step": 1273307, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4914137620192305, "train/action_min": 0.0, "train/action_std": 3.374696489480826, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0349563367664814, "train/actor_opt_grad_steps": 635780.0, "train/actor_opt_loss": -13.046062212723951, "train/adv_mag": 0.38367533683776855, "train/adv_max": 0.3080281654229531, "train/adv_mean": 0.0010357169947663072, "train/adv_min": -0.33848642454697536, "train/adv_std": 0.039158809930086136, "train/cont_avg": 0.994921875, "train/cont_loss_mean": 2.1701072950664777e-05, "train/cont_loss_std": 0.0006497222144658438, "train/cont_neg_acc": 0.9980769230769231, "train/cont_neg_loss": 0.0019524371221229066, "train/cont_pos_acc": 0.9999999779921311, "train/cont_pos_loss": 7.641328821141367e-06, "train/cont_pred": 0.9949248781571022, "train/cont_rate": 0.994921875, "train/dyn_loss_mean": 5.877828377943772, "train/dyn_loss_std": 9.053567387507512, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8426264056792626, "train/extr_critic_critic_opt_grad_steps": 635780.0, "train/extr_critic_critic_opt_loss": 14941.211853966346, "train/extr_critic_mag": 12.722599807152381, "train/extr_critic_max": 12.722599807152381, "train/extr_critic_mean": 3.670401129355797, "train/extr_critic_min": -0.3688055570308979, "train/extr_critic_std": 3.101468482384315, "train/extr_return_normed_mag": 1.3690357483350313, "train/extr_return_normed_max": 1.3690357483350313, "train/extr_return_normed_mean": 0.382268613576889, "train/extr_return_normed_min": -0.06965737841450251, "train/extr_return_normed_std": 0.3193151437319242, "train/extr_return_rate": 0.81795176084225, "train/extr_return_raw_mag": 13.335663590064415, "train/extr_return_raw_max": 13.335663590064415, "train/extr_return_raw_mean": 3.6805351367363563, "train/extr_return_raw_min": -0.7419067061864413, "train/extr_return_raw_std": 3.1246063195742093, "train/extr_reward_mag": 1.0847976757929876, "train/extr_reward_max": 1.0847976757929876, "train/extr_reward_mean": 0.06182523908523413, "train/extr_reward_min": -0.6072753209334153, "train/extr_reward_std": 0.23928768841119913, "train/image_loss_mean": 3.6873307998363787, "train/image_loss_std": 9.035106262793908, "train/model_loss_mean": 7.280672432826115, "train/model_loss_std": 13.182162050100473, "train/model_opt_grad_norm": 19.758400975740873, "train/model_opt_grad_steps": 635257.0, "train/model_opt_loss": 18201.681084735577, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7405450894282413, "train/policy_entropy_max": 2.7405450894282413, "train/policy_entropy_mean": 0.49101239167726957, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7079934642865108, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49254278678160446, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.1065385974370516, "train/policy_randomness_mag": 0.967292151084313, "train/policy_randomness_max": 0.967292151084313, "train/policy_randomness_mean": 0.17330582623298352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24989062341359947, "train/post_ent_mag": 55.2979979294997, "train/post_ent_max": 55.2979979294997, "train/post_ent_mean": 39.90373012836163, "train/post_ent_min": 19.957972908020018, "train/post_ent_std": 5.817048755058876, "train/prior_ent_mag": 76.8489737877479, "train/prior_ent_max": 76.8489737877479, "train/prior_ent_mean": 45.75401857816256, "train/prior_ent_min": 27.182476513202374, "train/prior_ent_std": 8.10417486337515, "train/rep_loss_mean": 5.877828377943772, "train/rep_loss_std": 9.053567387507512, "train/reward_avg": 0.05239182633276169, "train/reward_loss_mean": 0.06662298842118336, "train/reward_loss_std": 0.23117367625236512, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.032851424584022, "train/reward_neg_acc": 0.9924422713426443, "train/reward_neg_loss": 0.027502587752846572, "train/reward_pos_acc": 0.9907807487707871, "train/reward_pos_loss": 0.716006062580989, "train/reward_pred": 0.05195637121796608, "train/reward_rate": 0.056790865384615384, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.40849529206752777, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6925308464109436e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3262957565544188e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13299894332886, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026267290115356445, "timer/logger.write_frac": 8.751883400970594e-05, "timer/logger.write_avg": 0.026267290115356445, "timer/logger.write_min": 0.026267290115356445, "timer/logger.write_max": 0.026267290115356445, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.2804732322692871, "timer/replay.add_frac": 0.0009344964840811992, "timer/replay.add_avg": 0.00021742111028626908, "timer/replay.add_min": 8.559226989746094e-05, "timer/replay.add_max": 0.0011005401611328125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.18092632293701, "timer/env.step_frac": 0.05724437627127138, "timer/env.step_avg": 0.013318547537160474, "timer/env.step_min": 0.0029611587524414062, "timer/env.step_max": 1.7090857028961182, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 13.990855693817139, "timer/agent.policy_frac": 0.04661551959656023, "timer/agent.policy_avg": 0.010845624568850494, "timer/agent.policy_min": 0.005773067474365234, "timer/agent.policy_max": 3.250514268875122, "timer/dataset_count": 645.0, "timer/dataset_total": 0.05330944061279297, "timer/dataset_frac": 0.00017761939140473808, "timer/dataset_avg": 8.265029552371003e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9400088787079, "timer/agent.train_frac": 0.89273758574378, "timer/agent.train_avg": 0.41541086647861686, "timer/agent.train_min": 0.36617588996887207, "timer/agent.train_max": 0.45630764961242676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2295856475830078, "timer/agent.report_frac": 0.0007649463684143515, "timer/agent.report_avg": 0.2295856475830078, "timer/agent.report_min": 0.2295856475830078, "timer/agent.report_max": 0.2295856475830078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001709461212158203, "timer/checkpoint.save_frac": 5.695678976242741e-07, "timer/checkpoint.save_avg": 0.0001709461212158203, "timer/checkpoint.save_min": 0.0001709461212158203, "timer/checkpoint.save_max": 0.0001709461212158203, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1757590770721436, "timer/agent.save_frac": 0.003917460196684839, "timer/agent.save_avg": 1.1757590770721436, "timer/agent.save_min": 1.1757590770721436, "timer/agent.save_max": 1.1757590770721436, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001163482666015625, "timer/replay.save_frac": 3.876556960120583e-07, "timer/replay.save_avg": 0.0001163482666015625, "timer/replay.save_min": 0.0001163482666015625, "timer/replay.save_max": 0.0001163482666015625, "fps": 4.2980305605138405}
+{"step": 1273425, "episode/length": 288.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04844290657439446}
+{"step": 1273651, "episode/length": 225.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.048672566371681415}
+{"step": 1273869, "episode/length": 217.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.05045871559633028}
+{"step": 1274143, "episode/length": 273.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.040145985401459854}
+{"step": 1274509, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.040983606557377046}
+{"step": 1274627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540225867069129, "train/action_min": 0.0, "train/action_std": 3.394219514095422, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03599642392135027, "train/actor_opt_grad_steps": 636435.0, "train/actor_opt_loss": -11.870333571325649, "train/adv_mag": 0.39529573465838574, "train/adv_max": 0.32835350569450494, "train/adv_mean": 0.001315751294565747, "train/adv_min": -0.3654156543991782, "train/adv_std": 0.04051234827122905, "train/cont_avg": 0.9949988162878788, "train/cont_loss_mean": 9.684319240351029e-05, "train/cont_loss_std": 0.002992406090684384, "train/cont_neg_acc": 0.9950757577563777, "train/cont_neg_loss": 0.012007844961048285, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.5251988417792695e-05, "train/cont_pred": 0.9950170309254618, "train/cont_rate": 0.9949988162878788, "train/dyn_loss_mean": 5.844157616297404, "train/dyn_loss_std": 9.001264225352894, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8352379229935732, "train/extr_critic_critic_opt_grad_steps": 636435.0, "train/extr_critic_critic_opt_loss": 14939.416755445076, "train/extr_critic_mag": 12.762339823173754, "train/extr_critic_max": 12.762339823173754, "train/extr_critic_mean": 3.7418911348689687, "train/extr_critic_min": -0.35326342510454584, "train/extr_critic_std": 3.0895396543271616, "train/extr_return_normed_mag": 1.379638955448613, "train/extr_return_normed_max": 1.379638955448613, "train/extr_return_normed_mean": 0.3922165036201477, "train/extr_return_normed_min": -0.062185122462158855, "train/extr_return_normed_std": 0.31928171894767066, "train/extr_return_rate": 0.8306897562561613, "train/extr_return_raw_mag": 13.378947561437434, "train/extr_return_raw_max": 13.378947561437434, "train/extr_return_raw_mean": 3.7547146515412764, "train/extr_return_raw_min": -0.6747578025767298, "train/extr_return_raw_std": 3.1121973052169336, "train/extr_reward_mag": 1.0831645980025784, "train/extr_reward_max": 1.0831645980025784, "train/extr_reward_mean": 0.06453498334369877, "train/extr_reward_min": -0.6206038576183897, "train/extr_reward_std": 0.24347754500129007, "train/image_loss_mean": 3.518207640358896, "train/image_loss_std": 8.709894303119544, "train/model_loss_mean": 7.093444239009511, "train/model_loss_std": 12.862544045303807, "train/model_opt_grad_norm": 20.023676120873652, "train/model_opt_grad_steps": 635911.5151515151, "train/model_opt_loss": 20546.052689985794, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.720422546068827, "train/policy_entropy_max": 2.720422546068827, "train/policy_entropy_mean": 0.47512416451266315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6935762663682302, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4751693114186778, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0922257457718705, "train/policy_randomness_mag": 0.9601897795995077, "train/policy_randomness_max": 0.9601897795995077, "train/policy_randomness_mean": 0.16769797998395833, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24480198346304172, "train/post_ent_mag": 54.93203550396544, "train/post_ent_max": 54.93203550396544, "train/post_ent_mean": 39.64921812577681, "train/post_ent_min": 19.351400115273215, "train/post_ent_std": 5.738079446734804, "train/prior_ent_mag": 76.7456343679717, "train/prior_ent_max": 76.7456343679717, "train/prior_ent_mean": 45.49046770731608, "train/prior_ent_min": 27.735819643194024, "train/prior_ent_std": 7.981703505371556, "train/rep_loss_mean": 5.844157616297404, "train/rep_loss_std": 9.001264225352894, "train/reward_avg": 0.05410452141906276, "train/reward_loss_mean": 0.06864519744659915, "train/reward_loss_std": 0.23588184560790207, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0322349468866985, "train/reward_neg_acc": 0.991929829120636, "train/reward_neg_loss": 0.027851964205955013, "train/reward_pos_acc": 0.9884034991264343, "train/reward_pos_loss": 0.7262860094055985, "train/reward_pred": 0.053551048040390015, "train/reward_rate": 0.05860854640151515, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 8.6, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 1.6, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6556233286857605, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.633715889670632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.358240842819214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3738434314728, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03054356575012207, "timer/logger.write_frac": 0.00010168517138906695, "timer/logger.write_avg": 0.03054356575012207, "timer/logger.write_min": 0.03054356575012207, "timer/logger.write_max": 0.03054356575012207, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.26323556900024414, "timer/replay.add_frac": 0.0008763598254529731, "timer/replay.add_avg": 0.00019942088560624555, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.0012018680572509766, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.341756105422974, "timer/env.step_frac": 0.051075539501571274, "timer/env.step_avg": 0.011622542504108314, "timer/env.step_min": 0.002894163131713867, "timer/env.step_max": 1.6375031471252441, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.775949954986572, "timer/agent.policy_frac": 0.03254594289338264, "timer/agent.policy_avg": 0.007406022693171646, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.017688274383544922, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05344414710998535, "timer/dataset_frac": 0.00017792543618125686, "timer/dataset_avg": 8.097598046967477e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 660.0, "timer/agent.train_total": 274.257696390152, "timer/agent.train_frac": 0.9130545231802817, "timer/agent.train_avg": 0.415541964227503, "timer/agent.train_min": 0.37300992012023926, "timer/agent.train_max": 0.44934844970703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192847728729248, "timer/agent.report_frac": 0.000730039507993819, "timer/agent.report_avg": 0.2192847728729248, "timer/agent.report_min": 0.2192847728729248, "timer/agent.report_max": 0.2192847728729248, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.394453471534416}
+{"step": 1274751, "episode/length": 241.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06611570247933884}
+{"step": 1275012, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04597701149425287}
+{"step": 1275336, "episode/length": 323.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.046296296296296294}
+{"step": 1275645, "episode/length": 308.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.045307443365695796}
+{"step": 1275865, "episode/length": 219.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.06363636363636363}
+{"step": 1275945, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45474150686553, "train/action_min": 0.0, "train/action_std": 3.3370502934311377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036249986341731114, "train/actor_opt_grad_steps": 637095.0, "train/actor_opt_loss": -10.67780281016321, "train/adv_mag": 0.40406616167588666, "train/adv_max": 0.3209600380875848, "train/adv_mean": 0.0018894264369120003, "train/adv_min": -0.373121770493912, "train/adv_std": 0.04124978670116627, "train/cont_avg": 0.9951615767045454, "train/cont_loss_mean": 0.00013419568091572472, "train/cont_loss_std": 0.0042675446933374715, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.003126209774476721, "train/cont_pos_acc": 0.9999851439938401, "train/cont_pos_loss": 0.00011902657016131734, "train/cont_pred": 0.9951516091823578, "train/cont_rate": 0.9951615767045454, "train/dyn_loss_mean": 5.952714089191321, "train/dyn_loss_std": 9.078042088132916, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8478552753275092, "train/extr_critic_critic_opt_grad_steps": 637095.0, "train/extr_critic_critic_opt_loss": 14947.710700757576, "train/extr_critic_mag": 12.63946078040383, "train/extr_critic_max": 12.63946078040383, "train/extr_critic_mean": 3.7080446156588467, "train/extr_critic_min": -0.31890797434431134, "train/extr_critic_std": 2.998385360746673, "train/extr_return_normed_mag": 1.39676624175274, "train/extr_return_normed_max": 1.39676624175274, "train/extr_return_normed_mean": 0.3927112831310792, "train/extr_return_normed_min": -0.06272482987719052, "train/extr_return_normed_std": 0.3155932119398406, "train/extr_return_rate": 0.8429165130311792, "train/extr_return_raw_mag": 13.35630395195701, "train/extr_return_raw_max": 13.35630395195701, "train/extr_return_raw_mean": 3.726176193266204, "train/extr_return_raw_min": -0.6412732799847921, "train/extr_return_raw_std": 3.0268803365302808, "train/extr_reward_mag": 1.0889425097089824, "train/extr_reward_max": 1.0889425097089824, "train/extr_reward_mean": 0.06338721000109658, "train/extr_reward_min": -0.6179619738549897, "train/extr_reward_std": 0.2416567700830373, "train/image_loss_mean": 3.501294721256603, "train/image_loss_std": 8.644388986356331, "train/model_loss_mean": 7.138439792575258, "train/model_loss_std": 12.868274760968758, "train/model_opt_grad_norm": 19.37564140377623, "train/model_opt_grad_steps": 636571.0, "train/model_opt_loss": 17846.09943181818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7310016371987085, "train/policy_entropy_max": 2.7310016371987085, "train/policy_entropy_mean": 0.4713119024580175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6852761317383159, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47017120773142035, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0854090334791127, "train/policy_randomness_mag": 0.9639237324396769, "train/policy_randomness_max": 0.9639237324396769, "train/policy_randomness_mean": 0.166352419239102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24187240252892175, "train/post_ent_mag": 54.950075380729906, "train/post_ent_max": 54.950075380729906, "train/post_ent_mean": 39.710862419822, "train/post_ent_min": 19.359305757464785, "train/post_ent_std": 5.791511008233735, "train/prior_ent_mag": 76.82484967780836, "train/prior_ent_max": 76.82484967780836, "train/prior_ent_mean": 45.66424855318937, "train/prior_ent_min": 27.379588647322223, "train/prior_ent_std": 8.019197883027973, "train/rep_loss_mean": 5.952714089191321, "train/rep_loss_std": 9.078042088132916, "train/reward_avg": 0.05165127839780215, "train/reward_loss_mean": 0.06538249761091941, "train/reward_loss_std": 0.22496270207744656, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0265337084278916, "train/reward_neg_acc": 0.992398842717662, "train/reward_neg_loss": 0.027113237319457712, "train/reward_pos_acc": 0.9924746119614803, "train/reward_pos_loss": 0.7120632457010674, "train/reward_pred": 0.051556592976505104, "train/reward_rate": 0.055900804924242424, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 12.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6851782023906707, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.6513497869233985e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3814439180226536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1318361759186, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028677940368652344, "timer/logger.write_frac": 9.555114423730485e-05, "timer/logger.write_avg": 0.028677940368652344, "timer/logger.write_min": 0.028677940368652344, "timer/logger.write_max": 0.028677940368652344, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2632725238800049, "timer/replay.add_frac": 0.0008771895951940631, "timer/replay.add_avg": 0.0001997515355690477, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0011394023895263672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.542148351669312, "timer/env.step_frac": 0.05178440431277498, "timer/env.step_avg": 0.011792221814620115, "timer/env.step_min": 0.003063678741455078, "timer/env.step_max": 1.6779298782348633, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.696461200714111, "timer/agent.policy_frac": 0.032307339748625166, "timer/agent.policy_avg": 0.00735695083513969, "timer/agent.policy_min": 0.005573272705078125, "timer/agent.policy_max": 0.01438283920288086, "timer/dataset_count": 659.0, "timer/dataset_total": 0.0539546012878418, "timer/dataset_frac": 0.00017976967047313492, "timer/dataset_avg": 8.187344656728649e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001373291015625, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.8790957927704, "timer/agent.train_frac": 0.9125293047294041, "timer/agent.train_avg": 0.4155980209298488, "timer/agent.train_min": 0.3653552532196045, "timer/agent.train_max": 0.4524722099304199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23459696769714355, "timer/agent.report_frac": 0.0007816463947517965, "timer/agent.report_avg": 0.23459696769714355, "timer/agent.report_min": 0.23459696769714355, "timer/agent.report_max": 0.23459696769714355, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391317846384584}
+{"step": 1275958, "episode/length": 92.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.12903225806451613}
+{"step": 1276220, "episode/length": 261.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.04961832061068702}
+{"step": 1276408, "episode/length": 187.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0851063829787234}
+{"step": 1276619, "episode/length": 210.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.061611374407582936}
+{"step": 1276812, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07253886010362694}
+{"step": 1276997, "episode/length": 184.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.06486486486486487}
+{"step": 1277233, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3552596891919772, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462334632873535, "train/action_min": 0.0, "train/action_std": 3.3213200382888317, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037174066179431975, "train/actor_opt_grad_steps": 637745.0, "train/actor_opt_loss": -11.18002060893923, "train/adv_mag": 0.4038615566678345, "train/adv_max": 0.3272799807600677, "train/adv_mean": 0.0018992861219970791, "train/adv_min": -0.36434000660665333, "train/adv_std": 0.0414594947360456, "train/cont_avg": 0.99517822265625, "train/cont_loss_mean": 1.022144310636186e-05, "train/cont_loss_std": 0.0003114475607957079, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.6709200654801155e-05, "train/cont_pos_acc": 0.9999999785795808, "train/cont_pos_loss": 1.0147155016848597e-05, "train/cont_pred": 0.9951689466834068, "train/cont_rate": 0.99517822265625, "train/dyn_loss_mean": 5.862761080265045, "train/dyn_loss_std": 9.05480907857418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8579488564282656, "train/extr_critic_critic_opt_grad_steps": 637745.0, "train/extr_critic_critic_opt_loss": 15009.441436767578, "train/extr_critic_mag": 12.70560485124588, "train/extr_critic_max": 12.70560485124588, "train/extr_critic_mean": 3.683965642005205, "train/extr_critic_min": -0.3374414723366499, "train/extr_critic_std": 3.012629345059395, "train/extr_return_normed_mag": 1.3946425151079893, "train/extr_return_normed_max": 1.3946425151079893, "train/extr_return_normed_mean": 0.3897393266670406, "train/extr_return_normed_min": -0.06274409980687778, "train/extr_return_normed_std": 0.31529586086981, "train/extr_return_rate": 0.8362305127084255, "train/extr_return_raw_mag": 13.397849515080452, "train/extr_return_raw_max": 13.397849515080452, "train/extr_return_raw_mean": 3.7022748924791813, "train/extr_return_raw_min": -0.6633396954275668, "train/extr_return_raw_std": 3.0421199947595596, "train/extr_reward_mag": 1.0943376198410988, "train/extr_reward_max": 1.0943376198410988, "train/extr_reward_mean": 0.06326746934792027, "train/extr_reward_min": -0.5990018863230944, "train/extr_reward_std": 0.24112286395393312, "train/image_loss_mean": 3.7728035897016525, "train/image_loss_std": 9.39374953508377, "train/model_loss_mean": 7.356437914073467, "train/model_loss_std": 13.508129730820656, "train/model_opt_grad_norm": 20.40099659562111, "train/model_opt_grad_steps": 637220.25, "train/model_opt_loss": 22393.318450927734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3046.875, "train/policy_entropy_mag": 2.73959107324481, "train/policy_entropy_max": 2.73959107324481, "train/policy_entropy_mean": 0.4810730000026524, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6974287405610085, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47988917818292975, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0937664238736033, "train/policy_randomness_mag": 0.9669554270803928, "train/policy_randomness_max": 0.9669554270803928, "train/policy_randomness_mean": 0.1697976595023647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24616173817776144, "train/post_ent_mag": 55.62888866662979, "train/post_ent_max": 55.62888866662979, "train/post_ent_mean": 39.95746958255768, "train/post_ent_min": 20.17094585299492, "train/post_ent_std": 5.848098024725914, "train/prior_ent_mag": 76.88948154449463, "train/prior_ent_max": 76.88948154449463, "train/prior_ent_mean": 45.74482196569443, "train/prior_ent_min": 27.740102887153625, "train/prior_ent_std": 8.062701679766178, "train/rep_loss_mean": 5.862761080265045, "train/rep_loss_std": 9.05480907857418, "train/reward_avg": 0.05180511437356472, "train/reward_loss_mean": 0.06596751557663083, "train/reward_loss_std": 0.23025786271318793, "train/reward_max_data": 1.0453125108033419, "train/reward_max_pred": 1.0437829848378897, "train/reward_neg_acc": 0.9922903999686241, "train/reward_neg_loss": 0.02706692027277313, "train/reward_pos_acc": 0.9898652704432607, "train/reward_pos_loss": 0.723533084616065, "train/reward_pred": 0.05123285111039877, "train/reward_rate": 0.055908203125, "replay/size": 1000000.0, "replay/inserts": 1288.0, "replay/samples": 10304.0, "replay/insert_wait_avg": 3.6590217803575977e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3639421566672947e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30154371261597, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02503657341003418, "timer/logger.write_frac": 8.337144425069557e-05, "timer/logger.write_avg": 0.02503657341003418, "timer/logger.write_min": 0.02503657341003418, "timer/logger.write_max": 0.02503657341003418, "timer/replay.add_count": 1288.0, "timer/replay.add_total": 0.2694227695465088, "timer/replay.add_frac": 0.000897174107783949, "timer/replay.add_avg": 0.00020917916890256894, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0009860992431640625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1288.0, "timer/env.step_total": 16.86944270133972, "timer/env.step_frac": 0.05617501159928609, "timer/env.step_avg": 0.013097393401661274, "timer/env.step_min": 0.00310516357421875, "timer/env.step_max": 1.625201940536499, "timer/agent.policy_count": 1288.0, "timer/agent.policy_total": 14.332655906677246, "timer/agent.policy_frac": 0.04772754655032137, "timer/agent.policy_avg": 0.011127838436861217, "timer/agent.policy_min": 0.0056018829345703125, "timer/agent.policy_max": 3.4454569816589355, "timer/dataset_count": 644.0, "timer/dataset_total": 0.05262565612792969, "timer/dataset_frac": 0.00017524270930252575, "timer/dataset_avg": 8.171685734150572e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 644.0, "timer/agent.train_total": 268.06830644607544, "timer/agent.train_frac": 0.8926637643348672, "timer/agent.train_avg": 0.4162551342330364, "timer/agent.train_min": 0.3744699954986572, "timer/agent.train_max": 0.45210766792297363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26154255867004395, "timer/agent.report_frac": 0.0008709331142178084, "timer/agent.report_avg": 0.26154255867004395, "timer/agent.report_min": 0.26154255867004395, "timer/agent.report_max": 0.26154255867004395, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002493858337402344, "timer/checkpoint.save_frac": 8.304513878186815e-07, "timer/checkpoint.save_avg": 0.0002493858337402344, "timer/checkpoint.save_min": 0.0002493858337402344, "timer/checkpoint.save_max": 0.0002493858337402344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4239003658294678, "timer/agent.save_frac": 0.004741568585448628, "timer/agent.save_avg": 1.4239003658294678, "timer/agent.save_min": 1.4239003658294678, "timer/agent.save_max": 1.4239003658294678, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.104873657226562e-05, "timer/replay.save_frac": 2.365913131644045e-07, "timer/replay.save_avg": 7.104873657226562e-05, "timer/replay.save_min": 7.104873657226562e-05, "timer/replay.save_max": 7.104873657226562e-05, "fps": 4.288944771047604}
+{"step": 1277260, "episode/length": 262.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.045627376425855515}
+{"step": 1277471, "episode/length": 210.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.061611374407582936}
+{"step": 1277743, "episode/length": 271.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.05514705882352941}
+{"step": 1277949, "episode/length": 205.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06796116504854369}
+{"step": 1278095, "episode/length": 145.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.08904109589041095}
+{"step": 1278306, "episode/length": 210.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.04739336492890995}
+{"step": 1278498, "episode/length": 191.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046875}
+{"step": 1278533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494624211237981, "train/action_min": 0.0, "train/action_std": 3.3747587827535774, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677238678702941, "train/actor_opt_grad_steps": 638390.0, "train/actor_opt_loss": -11.052980820032266, "train/adv_mag": 0.38810732914851265, "train/adv_max": 0.3286854269412848, "train/adv_mean": 0.0018207550449591719, "train/adv_min": -0.3500121705807172, "train/adv_std": 0.04145799829409673, "train/cont_avg": 0.9954777644230769, "train/cont_loss_mean": 1.129889625045822e-05, "train/cont_loss_std": 0.00034089665796163725, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007015507283329239, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 5.9803649199407206e-06, "train/cont_pred": 0.9954765182275038, "train/cont_rate": 0.9954777644230769, "train/dyn_loss_mean": 5.803094284351055, "train/dyn_loss_std": 8.966224699753981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8584325588666476, "train/extr_critic_critic_opt_grad_steps": 638390.0, "train/extr_critic_critic_opt_loss": 15040.477028245192, "train/extr_critic_mag": 12.835325006338266, "train/extr_critic_max": 12.835325006338266, "train/extr_critic_mean": 3.7275810168339656, "train/extr_critic_min": -0.32961128675020657, "train/extr_critic_std": 2.9834858197432297, "train/extr_return_normed_mag": 1.3983854825680073, "train/extr_return_normed_max": 1.3983854825680073, "train/extr_return_normed_mean": 0.3912400766060902, "train/extr_return_normed_min": -0.06342042375069398, "train/extr_return_normed_std": 0.3106769552597633, "train/extr_return_rate": 0.8448548106046824, "train/extr_return_raw_mag": 13.50569857083834, "train/extr_return_raw_max": 13.50569857083834, "train/extr_return_raw_mean": 3.7452265482682447, "train/extr_return_raw_min": -0.66139605985238, "train/extr_return_raw_std": 3.0111234224759613, "train/extr_reward_mag": 1.086551754291241, "train/extr_reward_max": 1.086551754291241, "train/extr_reward_mean": 0.06584673357697633, "train/extr_reward_min": -0.5715237012276283, "train/extr_reward_std": 0.24514847031006445, "train/image_loss_mean": 3.3964610374890842, "train/image_loss_std": 8.785213338411772, "train/model_loss_mean": 6.944891966306246, "train/model_loss_std": 12.934048770024226, "train/model_opt_grad_norm": 18.71244452549861, "train/model_opt_grad_steps": 637864.9846153846, "train/model_opt_loss": 20388.843509615384, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2961.5384615384614, "train/policy_entropy_mag": 2.739745261118962, "train/policy_entropy_max": 2.739745261118962, "train/policy_entropy_mean": 0.4847150878264354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7092993374054248, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4842482777742239, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.0994483892734235, "train/policy_randomness_mag": 0.967009845146766, "train/policy_randomness_max": 0.967009845146766, "train/policy_randomness_mean": 0.1710831581399991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25035153742019944, "train/post_ent_mag": 55.439288271390474, "train/post_ent_max": 55.439288271390474, "train/post_ent_mean": 39.77850652841421, "train/post_ent_min": 19.433280988839957, "train/post_ent_std": 5.781303303058331, "train/prior_ent_mag": 76.73803417499249, "train/prior_ent_max": 76.73803417499249, "train/prior_ent_mean": 45.55115837684045, "train/prior_ent_min": 27.70245980482835, "train/prior_ent_std": 8.003260964613695, "train/rep_loss_mean": 5.803094284351055, "train/rep_loss_std": 8.966224699753981, "train/reward_avg": 0.05291616526933817, "train/reward_loss_mean": 0.0665631203697278, "train/reward_loss_std": 0.2283781512425496, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0288891792297363, "train/reward_neg_acc": 0.9923515026385967, "train/reward_neg_loss": 0.02755122484209446, "train/reward_pos_acc": 0.9940516536052411, "train/reward_pos_loss": 0.7102526820622957, "train/reward_pred": 0.05277293977829126, "train/reward_rate": 0.057106370192307694, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 14.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32615409578595844, "replay/size": 1000000.0, "replay/inserts": 1300.0, "replay/samples": 10400.0, "replay/insert_wait_avg": 3.68650142963116e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.448645041539119e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97750449180603, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025316715240478516, "timer/logger.write_frac": 8.439537919140883e-05, "timer/logger.write_avg": 0.025316715240478516, "timer/logger.write_min": 0.025316715240478516, "timer/logger.write_max": 0.025316715240478516, "timer/replay.add_count": 1300.0, "timer/replay.add_total": 0.2664158344268799, "timer/replay.add_frac": 0.0008881193770786806, "timer/replay.add_avg": 0.00020493525725144606, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0009806156158447266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1300.0, "timer/env.step_total": 18.618306159973145, "timer/env.step_frac": 0.062065674529543625, "timer/env.step_avg": 0.014321773969210111, "timer/env.step_min": 0.0030481815338134766, "timer/env.step_max": 1.6593964099884033, "timer/agent.policy_count": 1300.0, "timer/agent.policy_total": 9.630799531936646, "timer/agent.policy_frac": 0.03210507250619426, "timer/agent.policy_avg": 0.0074083073322589585, "timer/agent.policy_min": 0.005637168884277344, "timer/agent.policy_max": 0.015688419342041016, "timer/dataset_count": 650.0, "timer/dataset_total": 0.05348777770996094, "timer/dataset_frac": 0.00017830596264401544, "timer/dataset_avg": 8.22888887845553e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001418590545654297, "timer/agent.train_count": 650.0, "timer/agent.train_total": 270.7315402030945, "timer/agent.train_frac": 0.9025061417913408, "timer/agent.train_avg": 0.4165100618509146, "timer/agent.train_min": 0.368558406829834, "timer/agent.train_max": 0.4510021209716797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21775555610656738, "timer/agent.report_frac": 0.0007259062857912248, "timer/agent.report_avg": 0.21775555610656738, "timer/agent.report_min": 0.21775555610656738, "timer/agent.report_max": 0.21775555610656738, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3336004424488666}
+{"step": 1278704, "episode/length": 205.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07766990291262135}
+{"step": 1278899, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.07179487179487179}
+{"step": 1279213, "episode/length": 313.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.028662420382165606}
+{"step": 1279420, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
+{"step": 1279643, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06278026905829596}
+{"step": 1279849, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472762599135891, "train/action_min": 0.0, "train/action_std": 3.3594916661580405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03636928382470752, "train/actor_opt_grad_steps": 639045.0, "train/actor_opt_loss": -10.965269036365278, "train/adv_mag": 0.4197472697406104, "train/adv_max": 0.32706729277516855, "train/adv_mean": 0.0020021061938994976, "train/adv_min": -0.38012885031375016, "train/adv_std": 0.041001543402671814, "train/cont_avg": 0.9952947443181818, "train/cont_loss_mean": 0.0001743561536213329, "train/cont_loss_std": 0.005536103563663738, "train/cont_neg_acc": 0.9962121212121212, "train/cont_neg_loss": 0.029872699537830436, "train/cont_pos_acc": 0.9999851096760143, "train/cont_pos_loss": 5.688642632334205e-05, "train/cont_pred": 0.9952826572187019, "train/cont_rate": 0.9952947443181818, "train/dyn_loss_mean": 5.883214184732148, "train/dyn_loss_std": 9.10892593499386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8440257229588248, "train/extr_critic_critic_opt_grad_steps": 639045.0, "train/extr_critic_critic_opt_loss": 14984.797526041666, "train/extr_critic_mag": 12.64503372076786, "train/extr_critic_max": 12.64503372076786, "train/extr_critic_mean": 3.6363258397940434, "train/extr_critic_min": -0.34061782107208716, "train/extr_critic_std": 2.982928601178256, "train/extr_return_normed_mag": 1.3876222841667407, "train/extr_return_normed_max": 1.3876222841667407, "train/extr_return_normed_mean": 0.383465235431989, "train/extr_return_normed_min": -0.06205216465009884, "train/extr_return_normed_std": 0.31229278309778735, "train/extr_return_rate": 0.8411212166150411, "train/extr_return_raw_mag": 13.353743090774074, "train/extr_return_raw_max": 13.353743090774074, "train/extr_return_raw_mean": 3.6556606979081123, "train/extr_return_raw_min": -0.6465415056004669, "train/extr_return_raw_std": 3.015954205484101, "train/extr_reward_mag": 1.0908302610570735, "train/extr_reward_max": 1.0908302610570735, "train/extr_reward_mean": 0.06336153795321782, "train/extr_reward_min": -0.5513400923122059, "train/extr_reward_std": 0.2417387847195972, "train/image_loss_mean": 3.667079864126263, "train/image_loss_std": 9.376661185062293, "train/model_loss_mean": 7.264118093432802, "train/model_loss_std": 13.550100702227969, "train/model_opt_grad_norm": 19.740463386882436, "train/model_opt_grad_steps": 638519.0, "train/model_opt_loss": 18160.295276988636, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.758406400680542, "train/policy_entropy_max": 2.758406400680542, "train/policy_entropy_mean": 0.4867890070785176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7091113197984118, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48717541541113996, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1013393284696522, "train/policy_randomness_mag": 0.9735964094147538, "train/policy_randomness_max": 0.9735964094147538, "train/policy_randomness_mean": 0.17181515614643242, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25028517616517615, "train/post_ent_mag": 54.91424710822828, "train/post_ent_max": 54.91424710822828, "train/post_ent_mean": 39.58975578076912, "train/post_ent_min": 19.442374475074537, "train/post_ent_std": 5.77316250223102, "train/prior_ent_mag": 76.83287984674627, "train/prior_ent_max": 76.83287984674627, "train/prior_ent_mean": 45.4315185546875, "train/prior_ent_min": 27.143543330105867, "train/prior_ent_std": 8.043704928773822, "train/rep_loss_mean": 5.883214184732148, "train/rep_loss_std": 9.10892593499386, "train/reward_avg": 0.05289861469557791, "train/reward_loss_mean": 0.06693535145710815, "train/reward_loss_std": 0.2319029788627769, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0405059258143108, "train/reward_neg_acc": 0.9922968528487466, "train/reward_neg_loss": 0.027198658268334286, "train/reward_pos_acc": 0.9901221385507872, "train/reward_pos_loss": 0.7220748229460283, "train/reward_pred": 0.052507302864934456, "train/reward_rate": 0.05726207386363636, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 13.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.47121656239032744, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.575372840858158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3868044212596394e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34377694129944, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029116392135620117, "timer/logger.write_frac": 9.694355059439356e-05, "timer/logger.write_avg": 0.029116392135620117, "timer/logger.write_min": 0.029116392135620117, "timer/logger.write_max": 0.029116392135620117, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2651834487915039, "timer/replay.add_frac": 0.0008829330558872627, "timer/replay.add_avg": 0.00020150717993275372, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.004884481430053711, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.5794198513031, "timer/env.step_frac": 0.051871958227215124, "timer/env.step_avg": 0.01183846493260114, "timer/env.step_min": 0.002851724624633789, "timer/env.step_max": 1.6871764659881592, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.646271705627441, "timer/agent.policy_frac": 0.03211743490697579, "timer/agent.policy_avg": 0.00732999369728529, "timer/agent.policy_min": 0.005719661712646484, "timer/agent.policy_max": 0.014774322509765625, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05312085151672363, "timer/dataset_frac": 0.00017686682926380663, "timer/dataset_avg": 8.073077738103896e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00011968612670898438, "timer/agent.train_count": 658.0, "timer/agent.train_total": 274.1271347999573, "timer/agent.train_frac": 0.9127112190958894, "timer/agent.train_avg": 0.41660658784188037, "timer/agent.train_min": 0.37386131286621094, "timer/agent.train_max": 0.4536569118499756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2171337604522705, "timer/agent.report_frac": 0.0007229507555094379, "timer/agent.report_avg": 0.2171337604522705, "timer/agent.report_min": 0.2171337604522705, "timer/agent.report_max": 0.2171337604522705, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.381584073685112}
+{"step": 1280121, "episode/length": 477.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.03138075313807531}
+{"step": 1280338, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06912442396313365}
+{"step": 1280605, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04868913857677903}
+{"step": 1280896, "episode/length": 290.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.054982817869415807}
+{"step": 1281135, "episode/length": 238.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06276150627615062}
+{"step": 1281147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494889009915865, "train/action_min": 0.0, "train/action_std": 3.4171812424292933, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035504908171983866, "train/actor_opt_grad_steps": 639700.0, "train/actor_opt_loss": -12.09117776797368, "train/adv_mag": 0.4114497789969811, "train/adv_max": 0.3047296097645393, "train/adv_mean": 0.0017113881779340983, "train/adv_min": -0.3874589807712115, "train/adv_std": 0.040266191558195996, "train/cont_avg": 0.9955679086538461, "train/cont_loss_mean": 9.570811129501285e-05, "train/cont_loss_std": 0.0030280779072960774, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.007992907501047163, "train/cont_pos_acc": 0.9999849108549265, "train/cont_pos_loss": 6.464095268020524e-05, "train/cont_pred": 0.995561040364779, "train/cont_rate": 0.9955679086538461, "train/dyn_loss_mean": 5.7587926424466644, "train/dyn_loss_std": 9.03306334568904, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8763544183511001, "train/extr_critic_critic_opt_grad_steps": 639700.0, "train/extr_critic_critic_opt_loss": 14927.124368990384, "train/extr_critic_mag": 12.706546313946063, "train/extr_critic_max": 12.706546313946063, "train/extr_critic_mean": 3.613932884656466, "train/extr_critic_min": -0.34003909734579235, "train/extr_critic_std": 2.958503007888794, "train/extr_return_normed_mag": 1.3938105198053212, "train/extr_return_normed_max": 1.3938105198053212, "train/extr_return_normed_mean": 0.3822481682667365, "train/extr_return_normed_min": -0.06741577048714344, "train/extr_return_normed_std": 0.308840648486064, "train/extr_return_rate": 0.8361759222470797, "train/extr_return_raw_mag": 13.399801782461314, "train/extr_return_raw_max": 13.399801782461314, "train/extr_return_raw_mean": 3.6304514151353104, "train/extr_return_raw_min": -0.7126720740244938, "train/extr_return_raw_std": 2.9829221358666054, "train/extr_reward_mag": 1.087937171642597, "train/extr_reward_max": 1.087937171642597, "train/extr_reward_mean": 0.06297150059388235, "train/extr_reward_min": -0.6217402403171246, "train/extr_reward_std": 0.24079692363739014, "train/image_loss_mean": 3.479530198757465, "train/image_loss_std": 9.070996137765738, "train/model_loss_mean": 6.999888023963341, "train/model_loss_std": 13.222709362323467, "train/model_opt_grad_norm": 18.70961397611178, "train/model_opt_grad_steps": 639173.8307692307, "train/model_opt_loss": 23106.18137019231, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3307.6923076923076, "train/policy_entropy_mag": 2.756653330876277, "train/policy_entropy_max": 2.756653330876277, "train/policy_entropy_mean": 0.49736166848586155, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7228604325881371, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4980915197959313, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1076235010073736, "train/policy_randomness_mag": 0.972977655667525, "train/policy_randomness_max": 0.972977655667525, "train/policy_randomness_mean": 0.1755468452206025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2551380116205949, "train/post_ent_mag": 54.55430872990535, "train/post_ent_max": 54.55430872990535, "train/post_ent_mean": 39.666377258300784, "train/post_ent_min": 19.661357659559982, "train/post_ent_std": 5.732142485105074, "train/prior_ent_mag": 76.88238595815805, "train/prior_ent_max": 76.88238595815805, "train/prior_ent_mean": 45.38986528836764, "train/prior_ent_min": 27.369698451115536, "train/prior_ent_std": 7.973505210876465, "train/rep_loss_mean": 5.7587926424466644, "train/rep_loss_std": 9.03306334568904, "train/reward_avg": 0.051868990178291614, "train/reward_loss_mean": 0.06498660508256693, "train/reward_loss_std": 0.22610458594102126, "train/reward_max_data": 1.0353846238209652, "train/reward_max_pred": 1.0323131671318642, "train/reward_neg_acc": 0.9917212908084576, "train/reward_neg_loss": 0.025799598831396837, "train/reward_pos_acc": 0.98936935204726, "train/reward_pos_loss": 0.7264977941146263, "train/reward_pred": 0.05138814242986532, "train/reward_rate": 0.05600961538461539, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 17.4, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6507878065109253, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.6205459265569325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3648912609082708e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3917009830475, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028460264205932617, "timer/logger.write_frac": 9.474384316475762e-05, "timer/logger.write_avg": 0.028460264205932617, "timer/logger.write_min": 0.028460264205932617, "timer/logger.write_max": 0.028460264205932617, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2945902347564697, "timer/replay.add_frac": 0.0009806869956540338, "timer/replay.add_avg": 0.00022695703756276558, "timer/replay.add_min": 9.1552734375e-05, "timer/replay.add_max": 0.009831905364990234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 15.6353440284729, "timer/env.step_frac": 0.05204985349896626, "timer/env.step_avg": 0.012045719590503006, "timer/env.step_min": 0.0028755664825439453, "timer/env.step_max": 1.6491925716400146, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.018526077270508, "timer/agent.policy_frac": 0.046667487921251326, "timer/agent.policy_avg": 0.010800097131949543, "timer/agent.policy_min": 0.00569915771484375, "timer/agent.policy_max": 3.1895458698272705, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05325055122375488, "timer/dataset_frac": 0.00017727038080442861, "timer/dataset_avg": 8.205015596880568e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.7124228477478, "timer/agent.train_frac": 0.8978690888100432, "timer/agent.train_avg": 0.4155815452199504, "timer/agent.train_min": 0.36669087409973145, "timer/agent.train_max": 0.5086057186126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22043824195861816, "timer/agent.report_frac": 0.0007338359922635097, "timer/agent.report_avg": 0.22043824195861816, "timer/agent.report_min": 0.22043824195861816, "timer/agent.report_max": 0.22043824195861816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00014925003051757812, "timer/checkpoint.save_frac": 4.968513778148651e-07, "timer/checkpoint.save_avg": 0.00014925003051757812, "timer/checkpoint.save_min": 0.00014925003051757812, "timer/checkpoint.save_max": 0.00014925003051757812, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.229743242263794, "timer/agent.save_frac": 0.004093798990582613, "timer/agent.save_avg": 1.229743242263794, "timer/agent.save_min": 1.229743242263794, "timer/agent.save_max": 1.229743242263794, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0953476636281852e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "fps": 4.320976738743335}
+{"step": 1281422, "episode/length": 286.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04529616724738676}
+{"step": 1281676, "episode/length": 253.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.04330708661417323}
+{"step": 1281974, "episode/length": 297.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.053691275167785234}
+{"step": 1282040, "episode/length": 65.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.12121212121212122}
+{"step": 1282354, "episode/length": 313.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.041401273885350316}
+{"step": 1282463, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.525399872750947, "train/action_min": 0.0, "train/action_std": 3.4064058968515107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03614449876388817, "train/actor_opt_grad_steps": 640355.0, "train/actor_opt_loss": -11.142412935016733, "train/adv_mag": 0.43698869690750586, "train/adv_max": 0.3827655252182122, "train/adv_mean": 0.0021416359062586157, "train/adv_min": -0.37201417260097736, "train/adv_std": 0.04097287001257593, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 0.00016270594228928064, "train/cont_loss_std": 0.005115095685097213, "train/cont_neg_acc": 0.9955128211241502, "train/cont_neg_loss": 0.025801841568344107, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 7.261823738699294e-06, "train/cont_pred": 0.9954354744968992, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.705484419158011, "train/dyn_loss_std": 8.999391136747418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8695912343083005, "train/extr_critic_critic_opt_grad_steps": 640355.0, "train/extr_critic_critic_opt_loss": 15021.33330374053, "train/extr_critic_mag": 12.598155281760476, "train/extr_critic_max": 12.598155281760476, "train/extr_critic_mean": 3.6464742927840263, "train/extr_critic_min": -0.3558242917060852, "train/extr_critic_std": 3.0003639965346367, "train/extr_return_normed_mag": 1.3828357566486706, "train/extr_return_normed_max": 1.3828357566486706, "train/extr_return_normed_mean": 0.3855586458336223, "train/extr_return_normed_min": -0.05903013538794987, "train/extr_return_normed_std": 0.31240389541243063, "train/extr_return_rate": 0.8246764929005594, "train/extr_return_raw_mag": 13.345825744397713, "train/extr_return_raw_max": 13.345825744397713, "train/extr_return_raw_mean": 3.6672448100465718, "train/extr_return_raw_min": -0.6474129259586334, "train/extr_return_raw_std": 3.032060579820113, "train/extr_reward_mag": 1.0882453340472598, "train/extr_reward_max": 1.0882453340472598, "train/extr_reward_mean": 0.06340556179709507, "train/extr_reward_min": -0.5719673796133562, "train/extr_reward_std": 0.2416967652512319, "train/image_loss_mean": 3.586901209571145, "train/image_loss_std": 9.316716309749719, "train/model_loss_mean": 7.073429707324866, "train/model_loss_std": 13.452773628812848, "train/model_opt_grad_norm": 18.761593789765328, "train/model_opt_grad_steps": 639828.0, "train/model_opt_loss": 17683.57421875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7545223597324258, "train/policy_entropy_max": 2.7545223597324258, "train/policy_entropy_mean": 0.509717300082698, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7305044066725355, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5117284605900446, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.121215665882284, "train/policy_randomness_mag": 0.9722255143252286, "train/policy_randomness_max": 0.9722255143252286, "train/policy_randomness_mean": 0.17990784222880998, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2578359966476758, "train/post_ent_mag": 55.47326879790335, "train/post_ent_max": 55.47326879790335, "train/post_ent_mean": 39.919802925803445, "train/post_ent_min": 19.77979157187722, "train/post_ent_std": 5.796447876727942, "train/prior_ent_mag": 76.76162187980883, "train/prior_ent_max": 76.76162187980883, "train/prior_ent_mean": 45.617450540716, "train/prior_ent_min": 27.582088181466766, "train/prior_ent_std": 7.884250821489276, "train/rep_loss_mean": 5.705484419158011, "train/rep_loss_std": 8.999391136747418, "train/reward_avg": 0.049891986093963635, "train/reward_loss_mean": 0.06307520175522024, "train/reward_loss_std": 0.22391820270003696, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0384938464020237, "train/reward_neg_acc": 0.9920275030714093, "train/reward_neg_loss": 0.02550149330812873, "train/reward_pos_acc": 0.989671862486637, "train/reward_pos_loss": 0.7223099406921503, "train/reward_pred": 0.04959696034590403, "train/reward_rate": 0.054080847537878785, "stats/sum_log_reward": 11.300000381469726, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 14.8, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.7090869784355164, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.620483954989077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378742394838652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1614181995392, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031556129455566406, "timer/logger.write_frac": 0.00010513053158147309, "timer/logger.write_avg": 0.031556129455566406, "timer/logger.write_min": 0.031556129455566406, "timer/logger.write_max": 0.031556129455566406, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2748141288757324, "timer/replay.add_frac": 0.0009155544724040564, "timer/replay.add_avg": 0.0002088253258934137, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0015420913696289062, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.94657850265503, "timer/env.step_frac": 0.053126676300730216, "timer/env.step_avg": 0.012117460868278898, "timer/env.step_min": 0.0032415390014648438, "timer/env.step_max": 1.6768417358398438, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.67484712600708, "timer/agent.policy_frac": 0.032232147569263896, "timer/agent.policy_avg": 0.007351707542558572, "timer/agent.policy_min": 0.005681753158569336, "timer/agent.policy_max": 0.017917633056640625, "timer/dataset_count": 658.0, "timer/dataset_total": 0.0543217658996582, "timer/dataset_frac": 0.0001809751773745504, "timer/dataset_avg": 8.255587522744408e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001583099365234375, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.49217462539673, "timer/agent.train_frac": 0.9111503279331741, "timer/agent.train_avg": 0.4156416027741592, "timer/agent.train_min": 0.37357044219970703, "timer/agent.train_max": 0.4521973133087158, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26241159439086914, "timer/agent.report_frac": 0.0008742349232119666, "timer/agent.report_avg": 0.26241159439086914, "timer/agent.report_min": 0.26241159439086914, "timer/agent.report_max": 0.26241159439086914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.384220653033113}
+{"step": 1282746, "episode/length": 391.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.900000043213367, "episode/reward_rate": 0.03826530612244898}
+{"step": 1283053, "episode/length": 306.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.03908794788273615}
+{"step": 1283262, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06698564593301436}
+{"step": 1283313, "episode/length": 50.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.17647058823529413}
+{"step": 1283487, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 1283743, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05859375}
+{"step": 1283775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545197002704327, "train/action_min": 0.0, "train/action_std": 3.4194823081676775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035865116234009085, "train/actor_opt_grad_steps": 641010.0, "train/actor_opt_loss": -11.745034247178298, "train/adv_mag": 0.4278695883659216, "train/adv_max": 0.34542397466989666, "train/adv_mean": 0.0013954024479272238, "train/adv_min": -0.38255510467749376, "train/adv_std": 0.04103271009830328, "train/cont_avg": 0.9952524038461539, "train/cont_loss_mean": 1.989667760758843e-05, "train/cont_loss_std": 0.0005673765144199303, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0022649513196203036, "train/cont_pos_acc": 0.999999984411093, "train/cont_pos_loss": 1.0843618158035567e-05, "train/cont_pred": 0.9952498390124395, "train/cont_rate": 0.9952524038461539, "train/dyn_loss_mean": 5.781811472085806, "train/dyn_loss_std": 9.05435670705942, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8540917754173278, "train/extr_critic_critic_opt_grad_steps": 641010.0, "train/extr_critic_critic_opt_loss": 15023.207527043269, "train/extr_critic_mag": 12.751578228290265, "train/extr_critic_max": 12.751578228290265, "train/extr_critic_mean": 3.6665146314180816, "train/extr_critic_min": -0.3667226828061617, "train/extr_critic_std": 3.0732677643115704, "train/extr_return_normed_mag": 1.3952905654907226, "train/extr_return_normed_max": 1.3952905654907226, "train/extr_return_normed_mean": 0.38479856573618376, "train/extr_return_normed_min": -0.06228805161439455, "train/extr_return_normed_std": 0.31912358311506417, "train/extr_return_rate": 0.8202694718654339, "train/extr_return_raw_mag": 13.503572860130896, "train/extr_return_raw_max": 13.503572860130896, "train/extr_return_raw_mean": 3.68009242277879, "train/extr_return_raw_min": -0.6667696663966546, "train/extr_return_raw_std": 3.1024930257063645, "train/extr_reward_mag": 1.0865996250739465, "train/extr_reward_max": 1.0865996250739465, "train/extr_reward_mean": 0.0647894106232203, "train/extr_reward_min": -0.6032805956326999, "train/extr_reward_std": 0.2447644850382438, "train/image_loss_mean": 3.627707679455097, "train/image_loss_std": 9.01347143466656, "train/model_loss_mean": 7.162557572584886, "train/model_loss_std": 13.16654660151555, "train/model_opt_grad_norm": 21.153353397662823, "train/model_opt_grad_steps": 640482.5538461539, "train/model_opt_loss": 21452.420162259616, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3000.0, "train/policy_entropy_mag": 2.7461734258211576, "train/policy_entropy_max": 2.7461734258211576, "train/policy_entropy_mean": 0.5010705911196195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7178990565813504, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5003039135382725, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.1043178109022287, "train/policy_randomness_mag": 0.9692787087880648, "train/policy_randomness_max": 0.9692787087880648, "train/policy_randomness_mean": 0.1768559293105052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2533868594811513, "train/post_ent_mag": 55.44617385864258, "train/post_ent_max": 55.44617385864258, "train/post_ent_mean": 39.87591400146484, "train/post_ent_min": 19.50793411548321, "train/post_ent_std": 5.799811531947209, "train/prior_ent_mag": 76.74669518103967, "train/prior_ent_max": 76.74669518103967, "train/prior_ent_mean": 45.61744554959811, "train/prior_ent_min": 27.55550463749812, "train/prior_ent_std": 7.992127477205717, "train/rep_loss_mean": 5.781811472085806, "train/rep_loss_std": 9.05435670705942, "train/reward_avg": 0.05165715125890879, "train/reward_loss_mean": 0.06574315331303156, "train/reward_loss_std": 0.22860414087772368, "train/reward_max_data": 1.0353846238209652, "train/reward_max_pred": 1.0355364726139948, "train/reward_neg_acc": 0.9919727316269508, "train/reward_neg_loss": 0.027115745383959552, "train/reward_pos_acc": 0.9889563129498409, "train/reward_pos_loss": 0.7186512442735525, "train/reward_pred": 0.05126833881323154, "train/reward_rate": 0.056039663461538464, "stats/sum_log_reward": 11.933333396911621, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.5290013427535692, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.6731362342834473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3711566968661983e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32567977905273, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024310588836669922, "timer/logger.write_frac": 8.094741966306388e-05, "timer/logger.write_avg": 0.024310588836669922, "timer/logger.write_min": 0.024310588836669922, "timer/logger.write_max": 0.024310588836669922, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.26384520530700684, "timer/replay.add_frac": 0.0008785302858587241, "timer/replay.add_avg": 0.00020110152843521862, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.00107574462890625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.305587768554688, "timer/env.step_frac": 0.057622737360608904, "timer/env.step_avg": 0.013190234579691073, "timer/env.step_min": 0.002857685089111328, "timer/env.step_max": 1.720879316329956, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.873213291168213, "timer/agent.policy_frac": 0.032875021871029676, "timer/agent.policy_avg": 0.007525315008512358, "timer/agent.policy_min": 0.005558490753173828, "timer/agent.policy_max": 0.014678239822387695, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05416440963745117, "timer/dataset_frac": 0.00018035224186389759, "timer/dataset_avg": 8.256769761806581e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.14016938209534, "timer/agent.train_frac": 0.9061501819701423, "timer/agent.train_avg": 0.4148478191800234, "timer/agent.train_min": 0.367267370223999, "timer/agent.train_max": 0.45338940620422363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22822189331054688, "timer/agent.report_frac": 0.0007599146815498693, "timer/agent.report_avg": 0.22822189331054688, "timer/agent.report_min": 0.22822189331054688, "timer/agent.report_max": 0.22822189331054688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368515923308128}
+{"step": 1283946, "episode/length": 202.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07389162561576355}
+{"step": 1284247, "episode/length": 300.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04318936877076412}
+{"step": 1284502, "episode/length": 254.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.058823529411764705}
+{"step": 1284705, "episode/length": 202.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.04433497536945813}
+{"step": 1284920, "episode/length": 214.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07441860465116279}
+{"step": 1285077, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562293419471154, "train/action_min": 0.0, "train/action_std": 3.3909559103158804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03544680851583298, "train/actor_opt_grad_steps": 641660.0, "train/actor_opt_loss": -10.80180908533243, "train/adv_mag": 0.37434307084633756, "train/adv_max": 0.3187937014378034, "train/adv_mean": 0.0018264853983614908, "train/adv_min": -0.3359667303470465, "train/adv_std": 0.0401444499882368, "train/cont_avg": 0.9956580528846154, "train/cont_loss_mean": 7.806202680794828e-05, "train/cont_loss_std": 0.0023490413151191747, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012504996910420244, "train/cont_pos_acc": 0.9999848705071669, "train/cont_pos_loss": 7.165155328190911e-05, "train/cont_pred": 0.9956359927470867, "train/cont_rate": 0.9956580528846154, "train/dyn_loss_mean": 5.848788576859694, "train/dyn_loss_std": 8.971106543907752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8786635655623216, "train/extr_critic_critic_opt_grad_steps": 641660.0, "train/extr_critic_critic_opt_loss": 14930.751231971153, "train/extr_critic_mag": 12.691183090209961, "train/extr_critic_max": 12.691183090209961, "train/extr_critic_mean": 3.6027733069199783, "train/extr_critic_min": -0.3307041314932016, "train/extr_critic_std": 2.9863343165471004, "train/extr_return_normed_mag": 1.387321897653433, "train/extr_return_normed_max": 1.387321897653433, "train/extr_return_normed_mean": 0.37949489790659685, "train/extr_return_normed_min": -0.06261195322641959, "train/extr_return_normed_std": 0.31071200760511253, "train/extr_return_rate": 0.8354167131277231, "train/extr_return_raw_mag": 13.397355901277983, "train/extr_return_raw_max": 13.397355901277983, "train/extr_return_raw_mean": 3.620509386062622, "train/extr_return_raw_min": -0.6684132355910081, "train/extr_return_raw_std": 3.0140804144052358, "train/extr_reward_mag": 1.0872547443096454, "train/extr_reward_max": 1.0872547443096454, "train/extr_reward_mean": 0.06376419096038892, "train/extr_reward_min": -0.6135792970657349, "train/extr_reward_std": 0.24204822320204514, "train/image_loss_mean": 3.632576656341553, "train/image_loss_std": 8.866755771636964, "train/model_loss_mean": 7.206915400578425, "train/model_loss_std": 12.96180735367995, "train/model_opt_grad_norm": 20.977007381732648, "train/model_opt_grad_steps": 641131.7538461538, "train/model_opt_loss": 15773.78095703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2192.3076923076924, "train/policy_entropy_mag": 2.759427609810462, "train/policy_entropy_max": 2.759427609810462, "train/policy_entropy_mean": 0.511483170894476, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7335293797346262, "train/policy_logprob_mag": 7.438384283505953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5127213808206411, "train/policy_logprob_min": -7.438384283505953, "train/policy_logprob_std": 1.1229807560260479, "train/policy_randomness_mag": 0.9739568545268132, "train/policy_randomness_max": 0.9739568545268132, "train/policy_randomness_mean": 0.18053111491295007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2589036810856599, "train/post_ent_mag": 55.6416612478403, "train/post_ent_max": 55.6416612478403, "train/post_ent_mean": 40.00233776385968, "train/post_ent_min": 19.71524003835825, "train/post_ent_std": 5.817990596477802, "train/prior_ent_mag": 76.84204571063702, "train/prior_ent_max": 76.84204571063702, "train/prior_ent_mean": 45.77639776376577, "train/prior_ent_min": 27.42556032034067, "train/prior_ent_std": 7.99913278726431, "train/rep_loss_mean": 5.848788576859694, "train/rep_loss_std": 8.971106543907752, "train/reward_avg": 0.05160757194344814, "train/reward_loss_mean": 0.06498750946842707, "train/reward_loss_std": 0.22312173912158378, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.041346788406372, "train/reward_neg_acc": 0.9913268850399898, "train/reward_neg_loss": 0.026572404973782025, "train/reward_pos_acc": 0.9932386077367342, "train/reward_pos_loss": 0.7165087168033306, "train/reward_pred": 0.051346491219905706, "train/reward_rate": 0.05552884615384615, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 22.4, "stats/max_log_achievement_collect_wood": 14.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5431055426597595, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.692558101062218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3742029392224851e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16855025291443, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03247332572937012, "timer/logger.write_frac": 0.00010818363783284063, "timer/logger.write_avg": 0.03247332572937012, "timer/logger.write_min": 0.03247332572937012, "timer/logger.write_max": 0.03247332572937012, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2695438861846924, "timer/replay.add_frac": 0.000897975107510702, "timer/replay.add_avg": 0.00020702295405890353, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0009732246398925781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 17.097481727600098, "timer/env.step_frac": 0.05695960390651916, "timer/env.step_avg": 0.013131706396006219, "timer/env.step_min": 0.0030202865600585938, "timer/env.step_max": 3.254089117050171, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 11.712230205535889, "timer/agent.policy_frac": 0.039018845231012574, "timer/agent.policy_avg": 0.008995568514236474, "timer/agent.policy_min": 0.005749702453613281, "timer/agent.policy_max": 1.2243320941925049, "timer/dataset_count": 651.0, "timer/dataset_total": 0.05328488349914551, "timer/dataset_frac": 0.00017751654346949078, "timer/dataset_avg": 8.185081950713595e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00013327598571777344, "timer/agent.train_count": 651.0, "timer/agent.train_total": 270.3113811016083, "timer/agent.train_frac": 0.9005319873579385, "timer/agent.train_avg": 0.41522485576283913, "timer/agent.train_min": 0.37381768226623535, "timer/agent.train_max": 0.45109105110168457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26152586936950684, "timer/agent.report_frac": 0.0008712633923479051, "timer/agent.report_avg": 0.26152586936950684, "timer/agent.report_min": 0.26152586936950684, "timer/agent.report_max": 0.26152586936950684, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021314620971679688, "timer/checkpoint.save_frac": 7.100884137835402e-07, "timer/checkpoint.save_avg": 0.00021314620971679688, "timer/checkpoint.save_min": 0.00021314620971679688, "timer/checkpoint.save_max": 0.00021314620971679688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2262389659881592, "timer/agent.save_frac": 0.004085168032943362, "timer/agent.save_avg": 1.2262389659881592, "timer/agent.save_min": 1.2262389659881592, "timer/agent.save_max": 1.2262389659881592, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.030632019042969e-05, "timer/replay.save_frac": 1.6759357417038812e-07, "timer/replay.save_avg": 5.030632019042969e-05, "timer/replay.save_min": 5.030632019042969e-05, "timer/replay.save_max": 5.030632019042969e-05, "fps": 4.3374940326119455}
+{"step": 1285128, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.057692307692307696}
+{"step": 1285192, "episode/length": 63.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.140625}
+{"step": 1285349, "episode/length": 156.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07006369426751592}
+{"step": 1285566, "episode/length": 216.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.059907834101382486}
+{"step": 1285784, "episode/length": 217.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.045871559633027525}
+{"step": 1286024, "episode/length": 239.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.06666666666666667}
+{"step": 1286240, "episode/length": 215.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07407407407407407}
+{"step": 1286383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493106726444129, "train/action_min": 0.0, "train/action_std": 3.39660885478511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035733453393208256, "train/actor_opt_grad_steps": 642315.0, "train/actor_opt_loss": -11.516737206415696, "train/adv_mag": 0.3982307658051, "train/adv_max": 0.32997905891953094, "train/adv_mean": 0.0017970854015319756, "train/adv_min": -0.35848064856095746, "train/adv_std": 0.04082876452329484, "train/cont_avg": 0.9953391335227273, "train/cont_loss_mean": 0.00011670228038157705, "train/cont_loss_std": 0.0035782451418320056, "train/cont_neg_acc": 0.9960973380189954, "train/cont_neg_loss": 0.014952253305303361, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.2517206794032752e-05, "train/cont_pred": 0.9953431595455516, "train/cont_rate": 0.9953391335227273, "train/dyn_loss_mean": 6.017222852417917, "train/dyn_loss_std": 9.087421771251794, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.861007857503313, "train/extr_critic_critic_opt_grad_steps": 642315.0, "train/extr_critic_critic_opt_loss": 15225.427867542614, "train/extr_critic_mag": 12.716079524069121, "train/extr_critic_max": 12.716079524069121, "train/extr_critic_mean": 3.515067255858219, "train/extr_critic_min": -0.37244661649068195, "train/extr_critic_std": 2.9627802913839165, "train/extr_return_normed_mag": 1.3974774515990056, "train/extr_return_normed_max": 1.3974774515990056, "train/extr_return_normed_mean": 0.3732858747243881, "train/extr_return_normed_min": -0.06726043411728108, "train/extr_return_normed_std": 0.31002693894234573, "train/extr_return_rate": 0.8271504532207142, "train/extr_return_raw_mag": 13.40902077067982, "train/extr_return_raw_max": 13.40902077067982, "train/extr_return_raw_mean": 3.532366304686575, "train/extr_return_raw_min": -0.7148466805617014, "train/extr_return_raw_std": 2.9895583282817495, "train/extr_reward_mag": 1.0918947386019158, "train/extr_reward_max": 1.0918947386019158, "train/extr_reward_mean": 0.06234482675790787, "train/extr_reward_min": -0.5756557800553062, "train/extr_reward_std": 0.23960023937803326, "train/image_loss_mean": 3.7465623219807944, "train/image_loss_std": 9.532215616919778, "train/model_loss_mean": 7.423087784738252, "train/model_loss_std": 13.710076187596176, "train/model_opt_grad_norm": 18.916869322458904, "train/model_opt_grad_steps": 641786.0, "train/model_opt_loss": 9278.859700520834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7445633772647744, "train/policy_entropy_max": 2.7445633772647744, "train/policy_entropy_mean": 0.4687866433100267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6897738697853956, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46804509515112097, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.0865777189081365, "train/policy_randomness_mag": 0.9687104333530773, "train/policy_randomness_max": 0.9687104333530773, "train/policy_randomness_mean": 0.1654611150875236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2434599060903896, "train/post_ent_mag": 55.415403539484196, "train/post_ent_max": 55.415403539484196, "train/post_ent_mean": 40.04185219967004, "train/post_ent_min": 19.688256032539137, "train/post_ent_std": 5.832196560772982, "train/prior_ent_mag": 76.79081899469548, "train/prior_ent_max": 76.79081899469548, "train/prior_ent_mean": 46.05903978058786, "train/prior_ent_min": 27.489330494042598, "train/prior_ent_std": 7.937497955380064, "train/rep_loss_mean": 6.017222852417917, "train/rep_loss_std": 9.087421771251794, "train/reward_avg": 0.05164092099011847, "train/reward_loss_mean": 0.0660751024543336, "train/reward_loss_std": 0.228720857564247, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.0371714974894668, "train/reward_neg_acc": 0.9926265559413217, "train/reward_neg_loss": 0.027266446740902735, "train/reward_pos_acc": 0.9915411382010488, "train/reward_pos_loss": 0.7213106877876051, "train/reward_pred": 0.05112982403035417, "train/reward_rate": 0.056033972537878785, "stats/sum_log_reward": 11.242857319968087, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.380785454596792, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.594716876790863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3575345779816187e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2747824192047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024953365325927734, "timer/logger.write_frac": 8.310176807019073e-05, "timer/logger.write_avg": 0.024953365325927734, "timer/logger.write_min": 0.024953365325927734, "timer/logger.write_max": 0.024953365325927734, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.2745516300201416, "timer/replay.add_frac": 0.00091433462313478, "timer/replay.add_avg": 0.00021022330016856172, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0007815361022949219, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 18.462222814559937, "timer/env.step_frac": 0.0614844265835996, "timer/env.step_avg": 0.014136464635957073, "timer/env.step_min": 0.0027205944061279297, "timer/env.step_max": 1.6798887252807617, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 9.594120979309082, "timer/agent.policy_frac": 0.03195113789447365, "timer/agent.policy_avg": 0.007346187579869129, "timer/agent.policy_min": 0.005684852600097656, "timer/agent.policy_max": 0.019055843353271484, "timer/dataset_count": 653.0, "timer/dataset_total": 0.05303215980529785, "timer/dataset_frac": 0.00017661209968428593, "timer/dataset_avg": 8.121310843077773e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 653.0, "timer/agent.train_total": 271.17737007141113, "timer/agent.train_frac": 0.9030973826261189, "timer/agent.train_avg": 0.4152792803543815, "timer/agent.train_min": 0.366621732711792, "timer/agent.train_max": 0.4523153305053711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26096367835998535, "timer/agent.report_frac": 0.0008690828988618222, "timer/agent.report_avg": 0.26096367835998535, "timer/agent.report_min": 0.26096367835998535, "timer/agent.report_max": 0.26096367835998535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.349291771574485}
+{"step": 1286496, "episode/length": 255.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.90000006556511, "episode/reward_rate": 0.05859375}
+{"step": 1286688, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06770833333333333}
+{"step": 1286920, "episode/length": 231.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06465517241379311}
+{"step": 1287144, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07142857142857142}
+{"step": 1287361, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.07373271889400922}
+{"step": 1287560, "episode/length": 198.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06532663316582915}
+{"step": 1287695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429217059795673, "train/action_min": 0.0, "train/action_std": 3.2722154764028697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03662907312122675, "train/actor_opt_grad_steps": 642970.0, "train/actor_opt_loss": -10.544568782815567, "train/adv_mag": 0.39062727781442497, "train/adv_max": 0.3315321434002656, "train/adv_mean": 0.0024189800913098644, "train/adv_min": -0.3435251556910001, "train/adv_std": 0.04121510460972786, "train/cont_avg": 0.9961538461538462, "train/cont_loss_mean": 7.053569233050894e-05, "train/cont_loss_std": 0.0021934188633395022, "train/cont_neg_acc": 0.99609375, "train/cont_neg_loss": 0.015416519036565192, "train/cont_pos_acc": 0.999999986245082, "train/cont_pos_loss": 8.651318975912895e-06, "train/cont_pred": 0.9961691223658048, "train/cont_rate": 0.9961538461538462, "train/dyn_loss_mean": 5.779225188035231, "train/dyn_loss_std": 8.933706723726713, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8816379629648649, "train/extr_critic_critic_opt_grad_steps": 642970.0, "train/extr_critic_critic_opt_loss": 15116.09248798077, "train/extr_critic_mag": 12.413238848172702, "train/extr_critic_max": 12.413238848172702, "train/extr_critic_mean": 3.518459598834698, "train/extr_critic_min": -0.32838347691756026, "train/extr_critic_std": 2.8031349402207595, "train/extr_return_normed_mag": 1.3709999194512001, "train/extr_return_normed_max": 1.3709999194512001, "train/extr_return_normed_mean": 0.3756165059713217, "train/extr_return_normed_min": -0.06501972709710781, "train/extr_return_normed_std": 0.2969974561379506, "train/extr_return_rate": 0.8465244815899775, "train/extr_return_raw_mag": 13.02680354485145, "train/extr_return_raw_max": 13.02680354485145, "train/extr_return_raw_mean": 3.54150501031142, "train/extr_return_raw_min": -0.6577109192426388, "train/extr_return_raw_std": 2.830076239659236, "train/extr_reward_mag": 1.0959161501664383, "train/extr_reward_max": 1.0959161501664383, "train/extr_reward_mean": 0.0640944042457984, "train/extr_reward_min": -0.5927196557705219, "train/extr_reward_std": 0.24190128055902627, "train/image_loss_mean": 3.546445318368765, "train/image_loss_std": 9.023447080758901, "train/model_loss_mean": 7.078229434673602, "train/model_loss_std": 13.114344538175143, "train/model_opt_grad_norm": 19.09923032613901, "train/model_opt_grad_steps": 642440.8, "train/model_opt_loss": 13433.364475661057, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1903.8461538461538, "train/policy_entropy_mag": 2.723602815774771, "train/policy_entropy_max": 2.723602815774771, "train/policy_entropy_mean": 0.4579165353224828, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6795645356178284, "train/policy_logprob_mag": 7.438384312849778, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4576084214907426, "train/policy_logprob_min": -7.438384312849778, "train/policy_logprob_std": 1.0769572028746972, "train/policy_randomness_mag": 0.9613122701644897, "train/policy_randomness_max": 0.9613122701644897, "train/policy_randomness_mean": 0.16162444307253912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23985646023200108, "train/post_ent_mag": 55.291304837740384, "train/post_ent_max": 55.291304837740384, "train/post_ent_mean": 39.95853471022386, "train/post_ent_min": 19.786814777667704, "train/post_ent_std": 5.780485204549936, "train/prior_ent_mag": 76.8301994910607, "train/prior_ent_max": 76.8301994910607, "train/prior_ent_mean": 45.71536378126878, "train/prior_ent_min": 27.616975520207333, "train/prior_ent_std": 7.810808057051439, "train/rep_loss_mean": 5.779225188035231, "train/rep_loss_std": 8.933706723726713, "train/reward_avg": 0.05274038455234124, "train/reward_loss_mean": 0.06417858239549856, "train/reward_loss_std": 0.22452106223656582, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0407561668982872, "train/reward_neg_acc": 0.9920482855576735, "train/reward_neg_loss": 0.025099724617141942, "train/reward_pos_acc": 0.9900426782094516, "train/reward_pos_loss": 0.7202403417000404, "train/reward_pred": 0.05248250445494285, "train/reward_rate": 0.056265024038461536, "stats/sum_log_reward": 13.266666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35485151410102844, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.7434624462592892e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.380401777058113e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32605838775635, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029174089431762695, "timer/logger.write_frac": 9.714138556067454e-05, "timer/logger.write_avg": 0.029174089431762695, "timer/logger.write_min": 0.029174089431762695, "timer/logger.write_max": 0.029174089431762695, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.27350616455078125, "timer/replay.add_frac": 0.0009106974134014457, "timer/replay.add_avg": 0.00020846506444419303, "timer/replay.add_min": 8.678436279296875e-05, "timer/replay.add_max": 0.0009036064147949219, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.987635374069214, "timer/env.step_frac": 0.05656397405294806, "timer/env.step_avg": 0.012947892815601535, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6082777976989746, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.889514684677124, "timer/agent.policy_frac": 0.03292925941147802, "timer/agent.policy_avg": 0.007537739851125856, "timer/agent.policy_min": 0.00568079948425293, "timer/agent.policy_max": 0.01485753059387207, "timer/dataset_count": 656.0, "timer/dataset_total": 0.054553985595703125, "timer/dataset_frac": 0.000181649191177635, "timer/dataset_avg": 8.316156340808403e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018668174743652344, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.4266130924225, "timer/agent.train_frac": 0.9071028153697126, "timer/agent.train_avg": 0.4152844711774733, "timer/agent.train_min": 0.3742334842681885, "timer/agent.train_max": 0.4503898620605469, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23085737228393555, "timer/agent.report_frac": 0.0007686891158338031, "timer/agent.report_avg": 0.23085737228393555, "timer/agent.report_min": 0.23085737228393555, "timer/agent.report_max": 0.23085737228393555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368517386787829}
+{"step": 1287733, "episode/length": 172.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06936416184971098}
+{"step": 1288030, "episode/length": 296.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 20.10000006854534, "episode/reward_rate": 0.05723905723905724}
+{"step": 1288242, "episode/length": 211.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.05660377358490566}
+{"step": 1288486, "episode/length": 243.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05327868852459016}
+{"step": 1288713, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06607929515418502}
+{"step": 1288877, "episode/length": 163.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06707317073170732}
+{"step": 1288985, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.482842548076923, "train/action_min": 0.0, "train/action_std": 3.33051055761484, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037247054708691746, "train/actor_opt_grad_steps": 643620.0, "train/actor_opt_loss": -10.75060999152752, "train/adv_mag": 0.41341720865322995, "train/adv_max": 0.3309957809173144, "train/adv_mean": 0.0019884662347836777, "train/adv_min": -0.37555383168734036, "train/adv_std": 0.04131407250578587, "train/cont_avg": 0.9952073317307693, "train/cont_loss_mean": 0.00014422380907035403, "train/cont_loss_std": 0.004363544402314381, "train/cont_neg_acc": 0.994358975153703, "train/cont_neg_loss": 0.019144104996810525, "train/cont_pos_acc": 0.9999697245084322, "train/cont_pos_loss": 4.916983725357008e-05, "train/cont_pred": 0.9952054399710435, "train/cont_rate": 0.9952073317307693, "train/dyn_loss_mean": 5.9181717799260065, "train/dyn_loss_std": 9.078245206979604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8381224412184495, "train/extr_critic_critic_opt_grad_steps": 643620.0, "train/extr_critic_critic_opt_loss": 15048.5818359375, "train/extr_critic_mag": 12.428111487168533, "train/extr_critic_max": 12.428111487168533, "train/extr_critic_mean": 3.726731432401217, "train/extr_critic_min": -0.3131308335524339, "train/extr_critic_std": 2.986183452606201, "train/extr_return_normed_mag": 1.3848668391887957, "train/extr_return_normed_max": 1.3848668391887957, "train/extr_return_normed_mean": 0.39377944125578956, "train/extr_return_normed_min": -0.0655718037715325, "train/extr_return_normed_std": 0.31399821318112886, "train/extr_return_rate": 0.8410837787848252, "train/extr_return_raw_mag": 13.254061669569749, "train/extr_return_raw_max": 13.254061669569749, "train/extr_return_raw_mean": 3.7458089168255144, "train/extr_return_raw_min": -0.6613617411026588, "train/extr_return_raw_std": 3.0127110481262207, "train/extr_reward_mag": 1.0911908333118145, "train/extr_reward_max": 1.0911908333118145, "train/extr_reward_mean": 0.06544364174971214, "train/extr_reward_min": -0.601033012683575, "train/extr_reward_std": 0.24476887537882877, "train/image_loss_mean": 3.5435520795675424, "train/image_loss_std": 9.042691524212177, "train/model_loss_mean": 7.160351474468524, "train/model_loss_std": 13.207315430274377, "train/model_opt_grad_norm": 21.44069329775297, "train/model_opt_grad_steps": 643090.0, "train/model_opt_loss": 8950.439332932692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7406216438000017, "train/policy_entropy_max": 2.7406216438000017, "train/policy_entropy_mean": 0.4697335477058704, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6904082426658044, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4689743179541368, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.0870410625751201, "train/policy_randomness_mag": 0.9673191749132597, "train/policy_randomness_max": 0.9673191749132597, "train/policy_randomness_mean": 0.1657953299008883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24368381202220918, "train/post_ent_mag": 54.828255638709436, "train/post_ent_max": 54.828255638709436, "train/post_ent_mean": 39.690159548245944, "train/post_ent_min": 19.711237613971416, "train/post_ent_std": 5.730255823868972, "train/prior_ent_mag": 76.81056659405048, "train/prior_ent_max": 76.81056659405048, "train/prior_ent_mean": 45.55003456702599, "train/prior_ent_min": 27.303254318237304, "train/prior_ent_std": 7.961448346651517, "train/rep_loss_mean": 5.9181717799260065, "train/rep_loss_std": 9.078245206979604, "train/reward_avg": 0.05281099728666819, "train/reward_loss_mean": 0.06575209395243571, "train/reward_loss_std": 0.2321847344820316, "train/reward_max_data": 1.0492307809682992, "train/reward_max_pred": 1.0470235934624306, "train/reward_neg_acc": 0.9927219592607939, "train/reward_neg_loss": 0.026291692486176126, "train/reward_pos_acc": 0.989589549944951, "train/reward_pos_loss": 0.7182499619630667, "train/reward_pred": 0.05250278218434407, "train/reward_rate": 0.056896033653846156, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4329337999224663, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6710916563521985e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.366424930188083e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.39488077163696, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026596546173095703, "timer/logger.write_frac": 8.853861325724339e-05, "timer/logger.write_avg": 0.026596546173095703, "timer/logger.write_min": 0.026596546173095703, "timer/logger.write_max": 0.026596546173095703, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.2741892337799072, "timer/replay.add_frac": 0.0009127626711733097, "timer/replay.add_avg": 0.00021254979362783505, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0008573532104492188, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.067907094955444, "timer/env.step_frac": 0.05681823555418918, "timer/env.step_avg": 0.0132309357325236, "timer/env.step_min": 0.003130197525024414, "timer/env.step_max": 1.6487984657287598, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 14.389881610870361, "timer/agent.policy_frac": 0.04790321850327964, "timer/agent.policy_avg": 0.011154946985170822, "timer/agent.policy_min": 0.005815029144287109, "timer/agent.policy_max": 3.2569825649261475, "timer/dataset_count": 645.0, "timer/dataset_total": 0.05389094352722168, "timer/dataset_frac": 0.00017940033927605473, "timer/dataset_avg": 8.355185042980106e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9258575439453, "timer/agent.train_frac": 0.8919121952268724, "timer/agent.train_avg": 0.4153889264247214, "timer/agent.train_min": 0.36684226989746094, "timer/agent.train_max": 0.5179145336151123, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202608585357666, "timer/agent.report_frac": 0.0007332377235256915, "timer/agent.report_avg": 0.2202608585357666, "timer/agent.report_min": 0.2202608585357666, "timer/agent.report_max": 0.2202608585357666, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021839141845703125, "timer/checkpoint.save_frac": 7.270144481025776e-07, "timer/checkpoint.save_avg": 0.00021839141845703125, "timer/checkpoint.save_min": 0.00021839141845703125, "timer/checkpoint.save_max": 0.00021839141845703125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3931479454040527, "timer/agent.save_frac": 0.00463772199388157, "timer/agent.save_avg": 1.3931479454040527, "timer/agent.save_min": 1.3931479454040527, "timer/agent.save_max": 1.3931479454040527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.534027099609375e-05, "timer/replay.save_frac": 2.508041109174831e-07, "timer/replay.save_avg": 7.534027099609375e-05, "timer/replay.save_min": 7.534027099609375e-05, "timer/replay.save_max": 7.534027099609375e-05, "fps": 4.29428162729358}
+{"step": 1289109, "episode/length": 231.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07327586206896551}
+{"step": 1289370, "episode/length": 260.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.05363984674329502}
+{"step": 1289688, "episode/length": 317.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0440251572327044}
+{"step": 1289906, "episode/length": 217.0, "episode/score": 12.100000061094761, "episode/sum_abs_reward": 14.300000093877316, "episode/reward_rate": 0.05963302752293578}
+{"step": 1290082, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06818181818181818}
+{"step": 1290303, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517474550189394, "train/action_min": 0.0, "train/action_std": 3.3805201956720063, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03645686604872798, "train/actor_opt_grad_steps": 644275.0, "train/actor_opt_loss": -10.420769549454704, "train/adv_mag": 0.38564918009620724, "train/adv_max": 0.3046000518582084, "train/adv_mean": 0.0020345545712960743, "train/adv_min": -0.3553638584686048, "train/adv_std": 0.041085192425684494, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 0.00017727450876040248, "train/cont_loss_std": 0.0056188443199239445, "train/cont_neg_acc": 0.9939393943006342, "train/cont_neg_loss": 0.033975703506153164, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 1.1280342491850412e-05, "train/cont_pred": 0.9952847731835914, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.813415715188691, "train/dyn_loss_std": 8.949150027650775, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772541979948679, "train/extr_critic_critic_opt_grad_steps": 644275.0, "train/extr_critic_critic_opt_loss": 15163.52889737216, "train/extr_critic_mag": 12.606438116593795, "train/extr_critic_max": 12.606438116593795, "train/extr_critic_mean": 3.6773907126802388, "train/extr_critic_min": -0.34923028404062445, "train/extr_critic_std": 3.038566874735283, "train/extr_return_normed_mag": 1.3768037792408105, "train/extr_return_normed_max": 1.3768037792408105, "train/extr_return_normed_mean": 0.385895516836282, "train/extr_return_normed_min": -0.06899211569830324, "train/extr_return_normed_std": 0.3161244821367842, "train/extr_return_rate": 0.8307035592469302, "train/extr_return_raw_mag": 13.31417551907626, "train/extr_return_raw_max": 13.31417551907626, "train/extr_return_raw_mean": 3.6971449201757256, "train/extr_return_raw_min": -0.7168476279034759, "train/extr_return_raw_std": 3.067940520517754, "train/extr_reward_mag": 1.0912663467002637, "train/extr_reward_max": 1.0912663467002637, "train/extr_reward_mean": 0.06518506128905398, "train/extr_reward_min": -0.6343638355081732, "train/extr_reward_std": 0.24487190377531629, "train/image_loss_mean": 3.560656265778975, "train/image_loss_std": 8.751461166324038, "train/model_loss_mean": 7.115964203169852, "train/model_loss_std": 12.863433476650354, "train/model_opt_grad_norm": 19.194564299149945, "train/model_opt_grad_steps": 643745.0, "train/model_opt_loss": 14703.780421401516, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2083.3333333333335, "train/policy_entropy_mag": 2.7458689537915317, "train/policy_entropy_max": 2.7458689537915317, "train/policy_entropy_mean": 0.4882192507837758, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7165521798711835, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4885203748038321, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.104805692578807, "train/policy_randomness_mag": 0.9691712404742385, "train/policy_randomness_max": 0.9691712404742385, "train/policy_randomness_mean": 0.17231996910590114, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2529114717335412, "train/post_ent_mag": 55.28720167911414, "train/post_ent_max": 55.28720167911414, "train/post_ent_mean": 39.88088723384973, "train/post_ent_min": 19.65556595542214, "train/post_ent_std": 5.761829860282667, "train/prior_ent_mag": 76.76606658010772, "train/prior_ent_max": 76.76606658010772, "train/prior_ent_mean": 45.678247740774445, "train/prior_ent_min": 27.35344597787568, "train/prior_ent_std": 7.9902850931341, "train/rep_loss_mean": 5.813415715188691, "train/rep_loss_std": 8.949150027650775, "train/reward_avg": 0.052681107807791595, "train/reward_loss_mean": 0.0670812584346894, "train/reward_loss_std": 0.2330405298959125, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.034033320166848, "train/reward_neg_acc": 0.9916114771004879, "train/reward_neg_loss": 0.027089163548115528, "train/reward_pos_acc": 0.988032110712745, "train/reward_pos_loss": 0.7301810889533071, "train/reward_pred": 0.05214106393131343, "train/reward_rate": 0.05692175662878788, "stats/sum_log_reward": 12.700000381469726, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.8, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5727424502372742, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.649540844745086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3898554991518057e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07382225990295, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026268959045410156, "timer/logger.write_frac": 8.754165507532284e-05, "timer/logger.write_avg": 0.026268959045410156, "timer/logger.write_min": 0.026268959045410156, "timer/logger.write_max": 0.026268959045410156, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2989046573638916, "timer/replay.add_frac": 0.0009961037424484208, "timer/replay.add_avg": 0.00022678653821236086, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0007975101470947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.68351697921753, "timer/env.step_frac": 0.05226552873257156, "timer/env.step_avg": 0.011899481774823618, "timer/env.step_min": 0.003048419952392578, "timer/env.step_max": 1.6586906909942627, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.905843257904053, "timer/agent.policy_frac": 0.03301135428376123, "timer/agent.policy_avg": 0.007515814307969691, "timer/agent.policy_min": 0.005663871765136719, "timer/agent.policy_max": 0.014697074890136719, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05426669120788574, "timer/dataset_frac": 0.00018084446953484576, "timer/dataset_avg": 8.234702762956865e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.4491720199585, "timer/agent.train_frac": 0.9112729992925406, "timer/agent.train_avg": 0.4149456328072208, "timer/agent.train_min": 0.3737306594848633, "timer/agent.train_max": 0.45093560218811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2181692123413086, "timer/agent.report_frac": 0.0007270517991147715, "timer/agent.report_avg": 0.2181692123413086, "timer/agent.report_min": 0.2181692123413086, "timer/agent.report_max": 0.2181692123413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392178503093606}
+{"step": 1290308, "episode/length": 225.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07079646017699115}
+{"step": 1290513, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07317073170731707}
+{"step": 1290601, "episode/length": 87.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.09090909090909091}
+{"step": 1290885, "episode/length": 283.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.04929577464788732}
+{"step": 1291081, "episode/length": 195.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.07653061224489796}
+{"step": 1291228, "episode/length": 146.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.08163265306122448}
+{"step": 1291269, "episode/length": 40.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.12195121951219512}
+{"step": 1291465, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04591836734693878}
+{"step": 1291601, "stats/sum_log_reward": 10.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33066366240382195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.475753079927885, "train/action_min": 0.0, "train/action_std": 3.3106698733109696, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035426094354345246, "train/actor_opt_grad_steps": 644930.0, "train/actor_opt_loss": -10.677155096255817, "train/adv_mag": 0.36099742169563587, "train/adv_max": 0.30151292085647585, "train/adv_mean": 0.0016601268859141364, "train/adv_min": -0.32048122882843016, "train/adv_std": 0.039831481530116154, "train/cont_avg": 0.9952674278846154, "train/cont_loss_mean": 1.5790887273134592e-05, "train/cont_loss_std": 0.00041862280784506277, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007585130507880404, "train/cont_pos_acc": 0.9999999761581421, "train/cont_pos_loss": 1.1521189886510596e-05, "train/cont_pred": 0.9952606402910673, "train/cont_rate": 0.9952674278846154, "train/dyn_loss_mean": 5.845196980696458, "train/dyn_loss_std": 8.979963845473069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8547382501455454, "train/extr_critic_critic_opt_grad_steps": 644930.0, "train/extr_critic_critic_opt_loss": 15033.819456129808, "train/extr_critic_mag": 12.80521675990178, "train/extr_critic_max": 12.80521675990178, "train/extr_critic_mean": 3.7300151604872482, "train/extr_critic_min": -0.3808063525419969, "train/extr_critic_std": 3.0243407873006967, "train/extr_return_normed_mag": 1.3782842819507306, "train/extr_return_normed_max": 1.3782842819507306, "train/extr_return_normed_mean": 0.3883040299782386, "train/extr_return_normed_min": -0.07026523569455513, "train/extr_return_normed_std": 0.3126328472907727, "train/extr_return_rate": 0.8406741169782785, "train/extr_return_raw_mag": 13.409051733750564, "train/extr_return_raw_max": 13.409051733750564, "train/extr_return_raw_mean": 3.7462082092578592, "train/extr_return_raw_min": -0.7303721739695622, "train/extr_return_raw_std": 3.051927896646353, "train/extr_reward_mag": 1.0876106849083533, "train/extr_reward_max": 1.0876106849083533, "train/extr_reward_mean": 0.0649716498186955, "train/extr_reward_min": -0.58973372899569, "train/extr_reward_std": 0.2441633123617906, "train/image_loss_mean": 3.4399110353910007, "train/image_loss_std": 8.972320681351881, "train/model_loss_mean": 7.012125616807204, "train/model_loss_std": 13.093196692833533, "train/model_opt_grad_norm": 19.949713369516225, "train/model_opt_grad_steps": 644400.0, "train/model_opt_loss": 19688.560096153848, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.715567009265606, "train/policy_entropy_max": 2.715567009265606, "train/policy_entropy_mean": 0.46729703408021195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6791900034134205, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4660860831920917, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0798475274672874, "train/policy_randomness_mag": 0.9584759868108309, "train/policy_randomness_max": 0.9584759868108309, "train/policy_randomness_mean": 0.16493534835485313, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23972426377809963, "train/post_ent_mag": 55.175086740347055, "train/post_ent_max": 55.175086740347055, "train/post_ent_mean": 39.81556167602539, "train/post_ent_min": 19.638553839463455, "train/post_ent_std": 5.710317076169527, "train/prior_ent_mag": 76.79480708195614, "train/prior_ent_max": 76.79480708195614, "train/prior_ent_mean": 45.654635091928334, "train/prior_ent_min": 27.468650935246394, "train/prior_ent_std": 7.925310398982122, "train/rep_loss_mean": 5.845196980696458, "train/rep_loss_std": 8.979963845473069, "train/reward_avg": 0.052225059958604665, "train/reward_loss_mean": 0.06508068958154091, "train/reward_loss_std": 0.23037645793878114, "train/reward_max_data": 1.026153852389409, "train/reward_max_pred": 1.0253262336437519, "train/reward_neg_acc": 0.9926263708334703, "train/reward_neg_loss": 0.02539058380688612, "train/reward_pos_acc": 0.989850062590379, "train/reward_pos_loss": 0.7270859975081224, "train/reward_pred": 0.051721545366140514, "train/reward_rate": 0.05652043269230769, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.597402058323653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3765320755851287e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4230661392212, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03313708305358887, "timer/logger.write_frac": 0.00011030139422860618, "timer/logger.write_avg": 0.03313708305358887, "timer/logger.write_min": 0.03313708305358887, "timer/logger.write_max": 0.03313708305358887, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2582976818084717, "timer/replay.add_frac": 0.0008597797936353266, "timer/replay.add_avg": 0.00019899667319604907, "timer/replay.add_min": 8.845329284667969e-05, "timer/replay.add_max": 0.0009620189666748047, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 19.8452250957489, "timer/env.step_frac": 0.0660575945475248, "timer/env.step_avg": 0.015289079426617027, "timer/env.step_min": 0.0031697750091552734, "timer/env.step_max": 1.6258628368377686, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 9.574148893356323, "timer/agent.policy_frac": 0.03186888748721944, "timer/agent.policy_avg": 0.007376077729858492, "timer/agent.policy_min": 0.005667686462402344, "timer/agent.policy_max": 0.014655590057373047, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05273580551147461, "timer/dataset_frac": 0.00017553847042835232, "timer/dataset_avg": 8.125701927808106e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.9664466381073, "timer/agent.train_frac": 0.8986209018750918, "timer/agent.train_avg": 0.41597295321742267, "timer/agent.train_min": 0.36792969703674316, "timer/agent.train_max": 0.45191264152526855, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2607104778289795, "timer/agent.report_frac": 0.0008678111210946825, "timer/agent.report_avg": 0.2607104778289795, "timer/agent.report_min": 0.2607104778289795, "timer/agent.report_max": 0.2607104778289795, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3205076083184215}
+{"step": 1291652, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06417112299465241}
+{"step": 1291813, "episode/length": 160.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08695652173913043}
+{"step": 1292088, "episode/length": 274.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05090909090909091}
+{"step": 1292393, "episode/length": 304.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.05245901639344262}
+{"step": 1292666, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.054945054945054944}
+{"step": 1292897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461289405822754, "train/action_min": 0.0, "train/action_std": 3.318341940641403, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03519621241139248, "train/actor_opt_grad_steps": 645575.0, "train/actor_opt_loss": -13.702226493507624, "train/adv_mag": 0.3674576960038394, "train/adv_max": 0.3136293648276478, "train/adv_mean": 0.0015424339140110988, "train/adv_min": -0.32952441927045584, "train/adv_std": 0.04028419399401173, "train/cont_avg": 0.9955291748046875, "train/cont_loss_mean": 2.409608559328369e-05, "train/cont_loss_std": 0.0006762056346163448, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015441763599152725, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 2.3535684114728284e-05, "train/cont_pred": 0.9955085553228855, "train/cont_rate": 0.9955291748046875, "train/dyn_loss_mean": 5.756559520959854, "train/dyn_loss_std": 9.022668197751045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8681141501292586, "train/extr_critic_critic_opt_grad_steps": 645575.0, "train/extr_critic_critic_opt_loss": 15018.46125793457, "train/extr_critic_mag": 12.707761064171791, "train/extr_critic_max": 12.707761064171791, "train/extr_critic_mean": 3.7438229620456696, "train/extr_critic_min": -0.3783189821988344, "train/extr_critic_std": 2.984402559697628, "train/extr_return_normed_mag": 1.390607438981533, "train/extr_return_normed_max": 1.390607438981533, "train/extr_return_normed_mean": 0.39223948074504733, "train/extr_return_normed_min": -0.06953590270131826, "train/extr_return_normed_std": 0.30996696348302066, "train/extr_return_rate": 0.8531057136133313, "train/extr_return_raw_mag": 13.452820360660553, "train/extr_return_raw_max": 13.452820360660553, "train/extr_return_raw_mean": 3.7588086239993572, "train/extr_return_raw_min": -0.724458837416023, "train/extr_return_raw_std": 3.0098109878599644, "train/extr_reward_mag": 1.0921108201146126, "train/extr_reward_max": 1.0921108201146126, "train/extr_reward_mean": 0.06557030417025089, "train/extr_reward_min": -0.612133638933301, "train/extr_reward_std": 0.2448538050521165, "train/image_loss_mean": 3.4759625643491745, "train/image_loss_std": 9.253665812313557, "train/model_loss_mean": 6.9963290095329285, "train/model_loss_std": 13.394010484218597, "train/model_opt_grad_norm": 19.771650210022926, "train/model_opt_grad_steps": 645044.046875, "train/model_opt_loss": 18352.388305664062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2617.1875, "train/policy_entropy_mag": 2.7104863561689854, "train/policy_entropy_max": 2.7104863561689854, "train/policy_entropy_mean": 0.45668225176632404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.668978976085782, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4559919098392129, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0719182090833783, "train/policy_randomness_mag": 0.956682737916708, "train/policy_randomness_max": 0.956682737916708, "train/policy_randomness_mean": 0.16118879325222224, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23612022050656378, "train/post_ent_mag": 55.47056621313095, "train/post_ent_max": 55.47056621313095, "train/post_ent_mean": 39.82759779691696, "train/post_ent_min": 19.736855924129486, "train/post_ent_std": 5.814741067588329, "train/prior_ent_mag": 76.87696433067322, "train/prior_ent_max": 76.87696433067322, "train/prior_ent_mean": 45.579652547836304, "train/prior_ent_min": 27.619766026735306, "train/prior_ent_std": 8.01356054842472, "train/rep_loss_mean": 5.756559520959854, "train/rep_loss_std": 9.022668197751045, "train/reward_avg": 0.05370788529398851, "train/reward_loss_mean": 0.06640667252941057, "train/reward_loss_std": 0.22623420180752873, "train/reward_max_data": 1.0343750081956387, "train/reward_max_pred": 1.031530424952507, "train/reward_neg_acc": 0.9915273888036609, "train/reward_neg_loss": 0.026449426310136914, "train/reward_pos_acc": 0.991193181835115, "train/reward_pos_loss": 0.7177670728415251, "train/reward_pred": 0.053332638199208304, "train/reward_rate": 0.05780029296875, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 17.8, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5712963670492173, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.661270494814272e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3945233306767028e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28980803489685, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03252124786376953, "timer/logger.write_frac": 0.00010829953929035853, "timer/logger.write_avg": 0.03252124786376953, "timer/logger.write_min": 0.03252124786376953, "timer/logger.write_max": 0.03252124786376953, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.26816606521606445, "timer/replay.add_frac": 0.0008930241987596886, "timer/replay.add_avg": 0.0002069182601975806, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.005723476409912109, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.951302528381348, "timer/env.step_frac": 0.05311969338142718, "timer/env.step_avg": 0.012308103802763386, "timer/env.step_min": 0.003122091293334961, "timer/env.step_max": 1.72365140914917, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 13.987560033798218, "timer/agent.policy_frac": 0.04658020238959531, "timer/agent.policy_avg": 0.010792870396449243, "timer/agent.policy_min": 0.005718708038330078, "timer/agent.policy_max": 3.1205575466156006, "timer/dataset_count": 648.0, "timer/dataset_total": 0.0527806282043457, "timer/dataset_frac": 0.00017576563303877446, "timer/dataset_avg": 8.14515867351014e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.34177708625793, "timer/agent.train_frac": 0.8969394560835631, "timer/agent.train_avg": 0.41565089056521287, "timer/agent.train_min": 0.37370824813842773, "timer/agent.train_max": 0.4522275924682617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22811245918273926, "timer/agent.report_frac": 0.0007596410303616771, "timer/agent.report_avg": 0.22811245918273926, "timer/agent.report_min": 0.22811245918273926, "timer/agent.report_max": 0.22811245918273926, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.003001689910888672, "timer/checkpoint.save_frac": 9.995976655124585e-06, "timer/checkpoint.save_avg": 0.003001689910888672, "timer/checkpoint.save_min": 0.003001689910888672, "timer/checkpoint.save_max": 0.003001689910888672, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1714353561401367, "timer/agent.save_frac": 0.003901016034496927, "timer/agent.save_avg": 1.1714353561401367, "timer/agent.save_min": 1.1714353561401367, "timer/agent.save_max": 1.1714353561401367, "timer/replay.save_count": 1.0, "timer/replay.save_total": 1.6689300537109375e-05, "timer/replay.save_frac": 5.557731261784916e-08, "timer/replay.save_avg": 1.6689300537109375e-05, "timer/replay.save_min": 1.6689300537109375e-05, "timer/replay.save_max": 1.6689300537109375e-05, "fps": 4.315752944253082}
+{"step": 1292993, "episode/length": 326.0, "episode/score": 16.1000000461936, "episode/sum_abs_reward": 18.90000008791685, "episode/reward_rate": 0.05198776758409786}
+{"step": 1293224, "episode/length": 230.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05194805194805195}
+{"step": 1293414, "episode/length": 189.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.06842105263157895}
+{"step": 1293634, "episode/length": 219.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.07727272727272727}
+{"step": 1293875, "episode/length": 240.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.10000003874302, "episode/reward_rate": 0.06639004149377593}
+{"step": 1294213, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470920447147254, "train/action_min": 0.0, "train/action_std": 3.322000023090478, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03587890580070741, "train/actor_opt_grad_steps": 646225.0, "train/actor_opt_loss": -11.26928719584689, "train/adv_mag": 0.3876994414763017, "train/adv_max": 0.33232277089899237, "train/adv_mean": 0.001721524871002926, "train/adv_min": -0.3444173229914723, "train/adv_std": 0.040087526494806465, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 1.4572264000569454e-05, "train/cont_loss_std": 0.0003929846035275935, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017667303092375843, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 5.450815837265867e-06, "train/cont_pred": 0.9954157092354514, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.853846824530399, "train/dyn_loss_std": 9.035115400950113, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8587260372710951, "train/extr_critic_critic_opt_grad_steps": 646225.0, "train/extr_critic_critic_opt_loss": 14958.57978219697, "train/extr_critic_mag": 12.684358914693197, "train/extr_critic_max": 12.684358914693197, "train/extr_critic_mean": 3.634621652689847, "train/extr_critic_min": -0.3846862894116026, "train/extr_critic_std": 3.0405407493764702, "train/extr_return_normed_mag": 1.3888879291939014, "train/extr_return_normed_max": 1.3888879291939014, "train/extr_return_normed_mean": 0.3831450632124236, "train/extr_return_normed_min": -0.07008273955998999, "train/extr_return_normed_std": 0.31650426577438007, "train/extr_return_rate": 0.8317935647386493, "train/extr_return_raw_mag": 13.406282511624424, "train/extr_return_raw_max": 13.406282511624424, "train/extr_return_raw_mean": 3.6513134241104126, "train/extr_return_raw_min": -0.7439353217681249, "train/extr_return_raw_std": 3.069890087301081, "train/extr_reward_mag": 1.092893907518098, "train/extr_reward_max": 1.092893907518098, "train/extr_reward_mean": 0.06510865112597292, "train/extr_reward_min": -0.6207174821333452, "train/extr_reward_std": 0.24489158843502853, "train/image_loss_mean": 3.6131866231109155, "train/image_loss_std": 9.317420728278883, "train/model_loss_mean": 7.192337252876976, "train/model_loss_std": 13.505477226141727, "train/model_opt_grad_norm": 20.414527387330025, "train/model_opt_grad_steps": 645693.7272727273, "train/model_opt_loss": 20141.593971946022, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2840.909090909091, "train/policy_entropy_mag": 2.721118146722967, "train/policy_entropy_max": 2.721118146722967, "train/policy_entropy_mean": 0.47295808295408887, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.684437708421187, "train/policy_logprob_mag": 7.438384229486639, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47331954629132245, "train/policy_logprob_min": -7.438384229486639, "train/policy_logprob_std": 1.0871215453653624, "train/policy_randomness_mag": 0.9604352947437402, "train/policy_randomness_max": 0.9604352947437402, "train/policy_randomness_mean": 0.16693345073497656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2415764731439677, "train/post_ent_mag": 55.06267888618238, "train/post_ent_max": 55.06267888618238, "train/post_ent_mean": 39.944238547122836, "train/post_ent_min": 19.77851846001365, "train/post_ent_std": 5.756624770886971, "train/prior_ent_mag": 76.8490358988444, "train/prior_ent_max": 76.8490358988444, "train/prior_ent_mean": 45.756859519264914, "train/prior_ent_min": 27.624023321903113, "train/prior_ent_std": 7.968598026217836, "train/rep_loss_mean": 5.853846824530399, "train/rep_loss_std": 9.035115400950113, "train/reward_avg": 0.053107244414136265, "train/reward_loss_mean": 0.06682802398096431, "train/reward_loss_std": 0.2318282899531451, "train/reward_max_data": 1.0469697081681453, "train/reward_max_pred": 1.0427380150014705, "train/reward_neg_acc": 0.9919173699436765, "train/reward_neg_loss": 0.027426104583410604, "train/reward_pos_acc": 0.9913177517327395, "train/reward_pos_loss": 0.7145944508639249, "train/reward_pred": 0.05297933149179726, "train/reward_rate": 0.057365648674242424, "stats/sum_log_reward": 14.099999809265137, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.6, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5510724574327469, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.662877532124157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3810070090018507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9974892139435, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03078174591064453, "timer/logger.write_frac": 0.0001026066784468736, "timer/logger.write_avg": 0.03078174591064453, "timer/logger.write_min": 0.03078174591064453, "timer/logger.write_max": 0.03078174591064453, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.25839829444885254, "timer/replay.add_frac": 0.0008613348569213377, "timer/replay.add_avg": 0.00019635128757511592, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0009105205535888672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.850690603256226, "timer/env.step_frac": 0.05283607754447669, "timer/env.step_avg": 0.012044597722839077, "timer/env.step_min": 0.0029740333557128906, "timer/env.step_max": 1.6555123329162598, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.789769649505615, "timer/agent.policy_frac": 0.03263283861193929, "timer/agent.policy_avg": 0.0074390346880741755, "timer/agent.policy_min": 0.005718231201171875, "timer/agent.policy_max": 0.01695990562438965, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05397820472717285, "timer/dataset_frac": 0.0001799288549667769, "timer/dataset_avg": 8.203374578597698e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00015425682067871094, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.36252641677856, "timer/agent.train_frac": 0.9112160476177513, "timer/agent.train_avg": 0.4154445690224598, "timer/agent.train_min": 0.36818528175354004, "timer/agent.train_max": 0.45252227783203125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2172539234161377, "timer/agent.report_frac": 0.0007241858056392027, "timer/agent.report_avg": 0.2172539234161377, "timer/agent.report_min": 0.2172539234161377, "timer/agent.report_max": 0.2172539234161377, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386640108883898}
+{"step": 1294378, "episode/length": 502.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 21.700000055134296, "episode/reward_rate": 0.03578528827037773}
+{"step": 1294541, "episode/length": 162.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.0736196319018405}
+{"step": 1294918, "episode/length": 376.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.023872679045092837}
+{"step": 1295236, "episode/length": 317.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.050314465408805034}
+{"step": 1295512, "episode/length": 275.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.050724637681159424}
+{"step": 1295531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466341885653409, "train/action_min": 0.0, "train/action_std": 3.3326779965198403, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035703022512748386, "train/actor_opt_grad_steps": 646885.0, "train/actor_opt_loss": -12.40306377772129, "train/adv_mag": 0.4096957661888816, "train/adv_max": 0.32593912450653134, "train/adv_mean": 0.0017702403104825255, "train/adv_min": -0.3733313018173883, "train/adv_std": 0.0407098557687167, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 1.4107927262459311e-05, "train/cont_loss_std": 0.0003854444413487058, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021808071723954315, "train/cont_pos_acc": 0.9999999711007783, "train/cont_pos_loss": 1.3296205137953104e-05, "train/cont_pred": 0.9950464286587455, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.873111074621027, "train/dyn_loss_std": 9.06525528792179, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8562649325890974, "train/extr_critic_critic_opt_grad_steps": 646885.0, "train/extr_critic_critic_opt_loss": 15045.408558238636, "train/extr_critic_mag": 12.762449929208467, "train/extr_critic_max": 12.762449929208467, "train/extr_critic_mean": 3.7260177316087666, "train/extr_critic_min": -0.3423806302475207, "train/extr_critic_std": 3.0691447005127417, "train/extr_return_normed_mag": 1.3797091462395408, "train/extr_return_normed_max": 1.3797091462395408, "train/extr_return_normed_mean": 0.38947505391005316, "train/extr_return_normed_min": -0.06250090329823169, "train/extr_return_normed_std": 0.31786917782191076, "train/extr_return_rate": 0.8343158544916095, "train/extr_return_raw_mag": 13.394550005594889, "train/extr_return_raw_max": 13.394550005594889, "train/extr_return_raw_mean": 3.743274728457133, "train/extr_return_raw_min": -0.6612541296265342, "train/extr_return_raw_std": 3.0982410763249253, "train/extr_reward_mag": 1.0896609588102861, "train/extr_reward_max": 1.0896609588102861, "train/extr_reward_mean": 0.06669235381890427, "train/extr_reward_min": -0.571052352587382, "train/extr_reward_std": 0.2473813886895324, "train/image_loss_mean": 3.5404461405493994, "train/image_loss_std": 9.141514734788375, "train/model_loss_mean": 7.1324756145477295, "train/model_loss_std": 13.316876266941879, "train/model_opt_grad_norm": 19.410309040185176, "train/model_opt_grad_steps": 646353.0, "train/model_opt_loss": 17831.189009232956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.715623465451327, "train/policy_entropy_max": 2.715623465451327, "train/policy_entropy_mean": 0.4657723000555327, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6841160393122471, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4661498918677821, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0853076821023768, "train/policy_randomness_mag": 0.9584959095174616, "train/policy_randomness_max": 0.9584959095174616, "train/policy_randomness_mean": 0.16439718346704135, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24146293871330493, "train/post_ent_mag": 55.11836797540838, "train/post_ent_max": 55.11836797540838, "train/post_ent_mean": 39.78303585630475, "train/post_ent_min": 19.448107676072553, "train/post_ent_std": 5.736985141580755, "train/prior_ent_mag": 76.73788405909683, "train/prior_ent_max": 76.73788405909683, "train/prior_ent_mean": 45.60387004505504, "train/prior_ent_min": 27.301407727328215, "train/prior_ent_std": 7.989190600135109, "train/rep_loss_mean": 5.873111074621027, "train/rep_loss_std": 9.06525528792179, "train/reward_avg": 0.05366802768725337, "train/reward_loss_mean": 0.0681487608588103, "train/reward_loss_std": 0.23787428054845694, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0323587800517227, "train/reward_neg_acc": 0.9919050073984897, "train/reward_neg_loss": 0.027499936662162796, "train/reward_pos_acc": 0.9872677253954338, "train/reward_pos_loss": 0.726996612368208, "train/reward_pred": 0.05318470863681851, "train/reward_rate": 0.05791311553030303, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 5.6, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6325125932693482, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.5969006273561978e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3767180565818127e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4492530822754, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026293277740478516, "timer/logger.write_frac": 8.751320720800172e-05, "timer/logger.write_avg": 0.026293277740478516, "timer/logger.write_min": 0.026293277740478516, "timer/logger.write_max": 0.026293277740478516, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.25930047035217285, "timer/replay.add_frac": 0.000863042486183734, "timer/replay.add_avg": 0.0001967378378999794, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0009303092956542969, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.513557434082031, "timer/env.step_frac": 0.051634534867137045, "timer/env.step_avg": 0.011770529160912011, "timer/env.step_min": 0.0030798912048339844, "timer/env.step_max": 1.6582379341125488, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.61086654663086, "timer/agent.policy_frac": 0.03198831898576565, "timer/agent.policy_avg": 0.0072920080019960995, "timer/agent.policy_min": 0.0056645870208740234, "timer/agent.policy_max": 0.015941619873046875, "timer/dataset_count": 659.0, "timer/dataset_total": 0.053455352783203125, "timer/dataset_frac": 0.00017791807513185877, "timer/dataset_avg": 8.11158615830093e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00013589859008789062, "timer/agent.train_count": 659.0, "timer/agent.train_total": 274.2943048477173, "timer/agent.train_frac": 0.9129472016780291, "timer/agent.train_avg": 0.4162280801938047, "timer/agent.train_min": 0.3738560676574707, "timer/agent.train_max": 0.45011234283447266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25824809074401855, "timer/agent.report_frac": 0.0008595397994659005, "timer/agent.report_avg": 0.25824809074401855, "timer/agent.report_min": 0.25824809074401855, "timer/agent.report_max": 0.25824809074401855, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386689796301761}
+{"step": 1295781, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.055762081784386616}
+{"step": 1295978, "episode/length": 196.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06598984771573604}
+{"step": 1296034, "episode/length": 55.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.14285714285714285}
+{"step": 1296252, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06422018348623854}
+{"step": 1296506, "episode/length": 253.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.047244094488188976}
+{"step": 1296743, "episode/length": 236.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05907172995780591}
+{"step": 1296823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.492400653545673, "train/action_min": 0.0, "train/action_std": 3.377616566878099, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03474941740815456, "train/actor_opt_grad_steps": 647540.0, "train/actor_opt_loss": -10.600030716107442, "train/adv_mag": 0.357362067928681, "train/adv_max": 0.3093227789952205, "train/adv_mean": 0.0016995989596650292, "train/adv_min": -0.3327517126615231, "train/adv_std": 0.0393433695515761, "train/cont_avg": 0.9950871394230769, "train/cont_loss_mean": 0.00019770068357407065, "train/cont_loss_std": 0.006212227766516776, "train/cont_neg_acc": 0.9948717951774597, "train/cont_neg_loss": 0.05689559811383684, "train/cont_pos_acc": 0.9999849163568937, "train/cont_pos_loss": 3.0941477410314414e-05, "train/cont_pred": 0.9950783766233005, "train/cont_rate": 0.9950871394230769, "train/dyn_loss_mean": 5.9682895220243015, "train/dyn_loss_std": 9.074579532329853, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8316998243331909, "train/extr_critic_critic_opt_grad_steps": 647540.0, "train/extr_critic_critic_opt_loss": 14902.294756610578, "train/extr_critic_mag": 12.808876888568586, "train/extr_critic_max": 12.808876888568586, "train/extr_critic_mean": 3.646530041327843, "train/extr_critic_min": -0.3630539472286518, "train/extr_critic_std": 3.0613413664010856, "train/extr_return_normed_mag": 1.3839011339040903, "train/extr_return_normed_max": 1.3839011339040903, "train/extr_return_normed_mean": 0.382881662937311, "train/extr_return_normed_min": -0.05917059309207476, "train/extr_return_normed_std": 0.31542050677996414, "train/extr_return_rate": 0.8241226434707641, "train/extr_return_raw_mag": 13.444407580449031, "train/extr_return_raw_max": 13.444407580449031, "train/extr_return_raw_mean": 3.6631368563725397, "train/extr_return_raw_min": -0.6565611406014515, "train/extr_return_raw_std": 3.0822862148284913, "train/extr_reward_mag": 1.0915221691131591, "train/extr_reward_max": 1.0915221691131591, "train/extr_reward_mean": 0.06462671871368701, "train/extr_reward_min": -0.58209786598499, "train/extr_reward_std": 0.24328152147623208, "train/image_loss_mean": 3.5287372515751767, "train/image_loss_std": 8.792290929647592, "train/model_loss_mean": 7.175270770146296, "train/model_loss_std": 12.989706523601825, "train/model_opt_grad_norm": 21.19814687875601, "train/model_opt_grad_steps": 647007.323076923, "train/model_opt_loss": 19352.542427884615, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.7354382991790773, "train/policy_entropy_max": 2.7354382991790773, "train/policy_entropy_mean": 0.4947928841297443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7154666052414821, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4949115867798145, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.1030403861632714, "train/policy_randomness_mag": 0.9654896745314965, "train/policy_randomness_max": 0.9654896745314965, "train/policy_randomness_mean": 0.17464017661718223, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25252831280231475, "train/post_ent_mag": 55.1439942580003, "train/post_ent_max": 55.1439942580003, "train/post_ent_mean": 39.646541067270135, "train/post_ent_min": 19.461414880018967, "train/post_ent_std": 5.7693857999948355, "train/prior_ent_mag": 76.87112215482271, "train/prior_ent_max": 76.87112215482271, "train/prior_ent_mean": 45.58931473952073, "train/prior_ent_min": 26.94607006953313, "train/prior_ent_std": 8.037493199568528, "train/rep_loss_mean": 5.9682895220243015, "train/rep_loss_std": 9.074579532329853, "train/reward_avg": 0.05152644196955057, "train/reward_loss_mean": 0.06536208459964166, "train/reward_loss_std": 0.232053168461873, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0327422123688919, "train/reward_neg_acc": 0.9928731138889606, "train/reward_neg_loss": 0.02620180808007717, "train/reward_pos_acc": 0.9883943814497728, "train/reward_pos_loss": 0.7267357211846571, "train/reward_pred": 0.05107935887689774, "train/reward_rate": 0.055919471153846156, "stats/sum_log_reward": 11.600000143051147, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.38132209082444507, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.5618849952154484e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3883684072701186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9907057285309, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024832487106323242, "timer/logger.write_frac": 8.277752154360003e-05, "timer/logger.write_avg": 0.024832487106323242, "timer/logger.write_min": 0.024832487106323242, "timer/logger.write_max": 0.024832487106323242, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2567329406738281, "timer/replay.add_frac": 0.0008558029824635707, "timer/replay.add_avg": 0.00019870970640389175, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0008528232574462891, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.142669439315796, "timer/env.step_frac": 0.05714400183727234, "timer/env.step_avg": 0.01326831999947043, "timer/env.step_min": 0.003149271011352539, "timer/env.step_max": 1.710815668106079, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 13.783870935440063, "timer/agent.policy_frac": 0.04594765995155008, "timer/agent.policy_avg": 0.01066863075498457, "timer/agent.policy_min": 0.005619525909423828, "timer/agent.policy_max": 3.1436867713928223, "timer/dataset_count": 646.0, "timer/dataset_total": 0.0521235466003418, "timer/dataset_frac": 0.00017375053828337504, "timer/dataset_avg": 8.068660464449195e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00016450881958007812, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.0789272785187, "timer/agent.train_frac": 0.8936241095452805, "timer/agent.train_avg": 0.4149828595642704, "timer/agent.train_min": 0.3667869567871094, "timer/agent.train_max": 0.5253076553344727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23163580894470215, "timer/agent.report_frac": 0.0007721432848466819, "timer/agent.report_avg": 0.23163580894470215, "timer/agent.report_min": 0.23163580894470215, "timer/agent.report_max": 0.23163580894470215, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001766681671142578, "timer/checkpoint.save_frac": 5.889121354117193e-07, "timer/checkpoint.save_avg": 0.0001766681671142578, "timer/checkpoint.save_min": 0.0001766681671142578, "timer/checkpoint.save_max": 0.0001766681671142578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1765618324279785, "timer/agent.save_frac": 0.0039219942816917765, "timer/agent.save_avg": 1.1765618324279785, "timer/agent.save_min": 1.1765618324279785, "timer/agent.save_max": 1.1765618324279785, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4557874472634447e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "fps": 4.306749827941712}
+{"step": 1296918, "episode/length": 174.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08}
+{"step": 1297241, "episode/length": 322.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.04953560371517028}
+{"step": 1297281, "episode/length": 39.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.1}
+{"step": 1297326, "episode/length": 44.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 1297492, "episode/length": 165.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.060240963855421686}
+{"step": 1297530, "episode/length": 37.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07894736842105263}
+{"step": 1297736, "episode/length": 205.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07281553398058252}
+{"step": 1297952, "episode/length": 215.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06481481481481481}
+{"step": 1298121, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421454326923077, "train/action_min": 0.0, "train/action_std": 3.2785129913916955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0344366039794225, "train/actor_opt_grad_steps": 648190.0, "train/actor_opt_loss": -11.275526262246645, "train/adv_mag": 0.368076491355896, "train/adv_max": 0.30698698163032534, "train/adv_mean": 0.0017337472249682132, "train/adv_min": -0.3326833683710832, "train/adv_std": 0.039694861609202166, "train/cont_avg": 0.9953725961538461, "train/cont_loss_mean": 3.582141482682416e-05, "train/cont_loss_std": 0.0010682211346053148, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018197501146681556, "train/cont_pos_acc": 0.9999848521672763, "train/cont_pos_loss": 2.541975713064368e-05, "train/cont_pred": 0.9953599315423232, "train/cont_rate": 0.9953725961538461, "train/dyn_loss_mean": 5.657242378821739, "train/dyn_loss_std": 8.886442477886494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8518885291539706, "train/extr_critic_critic_opt_grad_steps": 648190.0, "train/extr_critic_critic_opt_loss": 14838.555303485577, "train/extr_critic_mag": 12.71962162898137, "train/extr_critic_max": 12.71962162898137, "train/extr_critic_mean": 3.718056062551645, "train/extr_critic_min": -0.3218955846933218, "train/extr_critic_std": 3.0119853459871733, "train/extr_return_normed_mag": 1.409102518741901, "train/extr_return_normed_max": 1.409102518741901, "train/extr_return_normed_mean": 0.39620528129430915, "train/extr_return_normed_min": -0.06605950806003351, "train/extr_return_normed_std": 0.31836897822526783, "train/extr_return_rate": 0.8381801302616413, "train/extr_return_raw_mag": 13.395473847022423, "train/extr_return_raw_max": 13.395473847022423, "train/extr_return_raw_mean": 3.7345713688777042, "train/extr_return_raw_min": -0.6745271989932426, "train/extr_return_raw_std": 3.036995865748479, "train/extr_reward_mag": 1.09260930281419, "train/extr_reward_max": 1.09260930281419, "train/extr_reward_mean": 0.06489433468534396, "train/extr_reward_min": -0.5979706214024471, "train/extr_reward_std": 0.24397427714787998, "train/image_loss_mean": 3.528824813549335, "train/image_loss_std": 8.871962642669677, "train/model_loss_mean": 6.988221454620361, "train/model_loss_std": 12.986894710247332, "train/model_opt_grad_norm": 17.981545184208798, "train/model_opt_grad_steps": 647657.0, "train/model_opt_loss": 19544.75088641827, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.7432712114774263, "train/policy_entropy_max": 2.7432712114774263, "train/policy_entropy_mean": 0.4829058151978713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.708560035778926, "train/policy_logprob_mag": 7.438384276169997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4825424804137303, "train/policy_logprob_min": -7.438384276169997, "train/policy_logprob_std": 1.0950841656097998, "train/policy_randomness_mag": 0.9682543525329003, "train/policy_randomness_max": 0.9682543525329003, "train/policy_randomness_mean": 0.1704445642920641, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25009060066479905, "train/post_ent_mag": 55.57749962439904, "train/post_ent_max": 55.57749962439904, "train/post_ent_mean": 39.93483605018029, "train/post_ent_min": 19.69303157512958, "train/post_ent_std": 5.8209735356844385, "train/prior_ent_mag": 76.83745387150691, "train/prior_ent_max": 76.83745387150691, "train/prior_ent_mean": 45.59114908071665, "train/prior_ent_min": 27.202535482553337, "train/prior_ent_std": 7.980535683265099, "train/rep_loss_mean": 5.657242378821739, "train/rep_loss_std": 8.886442477886494, "train/reward_avg": 0.053638821553725465, "train/reward_loss_mean": 0.06501536203118471, "train/reward_loss_std": 0.23041134407887093, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0318354386549728, "train/reward_neg_acc": 0.9925745643102206, "train/reward_neg_loss": 0.024895643528837424, "train/reward_pos_acc": 0.9916828238047086, "train/reward_pos_loss": 0.7196481585502624, "train/reward_pred": 0.05308946806650895, "train/reward_rate": 0.05772235576923077, "stats/sum_log_reward": 8.850000083446503, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.625, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.2752264868468046, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.5606657595406696e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3721926002913889e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3596787452698, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024828195571899414, "timer/logger.write_frac": 8.2661546568492e-05, "timer/logger.write_avg": 0.024828195571899414, "timer/logger.write_min": 0.024828195571899414, "timer/logger.write_max": 0.024828195571899414, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2583494186401367, "timer/replay.add_frac": 0.0008601334896860065, "timer/replay.add_avg": 0.0001990365320802286, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0011839866638183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 19.90419292449951, "timer/env.step_frac": 0.06626785928007313, "timer/env.step_avg": 0.01533450918682551, "timer/env.step_min": 0.002928018569946289, "timer/env.step_max": 1.6228442192077637, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 9.693360090255737, "timer/agent.policy_frac": 0.032272507850417964, "timer/agent.policy_avg": 0.0074679199462679025, "timer/agent.policy_min": 0.005620479583740234, "timer/agent.policy_max": 0.09807729721069336, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05254054069519043, "timer/dataset_frac": 0.00017492541247438615, "timer/dataset_avg": 8.095614899104842e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00012612342834472656, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.7835021018982, "timer/agent.train_frac": 0.8982014604253764, "timer/agent.train_avg": 0.41569106641278614, "timer/agent.train_min": 0.37425684928894043, "timer/agent.train_max": 0.4526524543762207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22018790245056152, "timer/agent.report_frac": 0.0007330807629385546, "timer/agent.report_avg": 0.22018790245056152, "timer/agent.report_min": 0.22018790245056152, "timer/agent.report_max": 0.22018790245056152, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.32140480522773}
+{"step": 1298190, "episode/length": 237.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06302521008403361}
+{"step": 1298482, "episode/length": 291.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000064074993, "episode/reward_rate": 0.0547945205479452}
+{"step": 1298733, "episode/length": 250.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05976095617529881}
+{"step": 1299043, "episode/length": 309.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.10000006109476, "episode/reward_rate": 0.05161290322580645}
+{"step": 1299305, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05343511450381679}
+{"step": 1299439, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.511913877544981, "train/action_min": 0.0, "train/action_std": 3.3410371469728872, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03555925023939573, "train/actor_opt_grad_steps": 648845.0, "train/actor_opt_loss": -10.62569415591883, "train/adv_mag": 0.41154430535706604, "train/adv_max": 0.33489172431555664, "train/adv_mean": 0.002161831143894233, "train/adv_min": -0.3603164820056973, "train/adv_std": 0.04099118782941139, "train/cont_avg": 0.9954279119318182, "train/cont_loss_mean": 6.255597602858236e-06, "train/cont_loss_std": 0.00014575268592883125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023948751982202793, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 5.132542348893352e-06, "train/cont_pred": 0.9954240493702166, "train/cont_rate": 0.9954279119318182, "train/dyn_loss_mean": 5.827135396726204, "train/dyn_loss_std": 9.03500155246619, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8706203961011135, "train/extr_critic_critic_opt_grad_steps": 648845.0, "train/extr_critic_critic_opt_loss": 14963.52772845644, "train/extr_critic_mag": 12.513009360342314, "train/extr_critic_max": 12.513009360342314, "train/extr_critic_mean": 3.7913183624094184, "train/extr_critic_min": -0.3041226863861084, "train/extr_critic_std": 3.020546165379611, "train/extr_return_normed_mag": 1.3881925091598972, "train/extr_return_normed_max": 1.3881925091598972, "train/extr_return_normed_mean": 0.4021155698732896, "train/extr_return_normed_min": -0.06563458775141925, "train/extr_return_normed_std": 0.3196428203673074, "train/extr_return_rate": 0.8391651339603193, "train/extr_return_raw_mag": 13.223511117877383, "train/extr_return_raw_max": 13.223511117877383, "train/extr_return_raw_mean": 3.8119312633167612, "train/extr_return_raw_min": -0.6521400258396611, "train/extr_return_raw_std": 3.050795742959687, "train/extr_reward_mag": 1.0864666411370942, "train/extr_reward_max": 1.0864666411370942, "train/extr_reward_mean": 0.06658579753429601, "train/extr_reward_min": -0.530526092558196, "train/extr_reward_std": 0.24701177690065268, "train/image_loss_mean": 3.5440312190489336, "train/image_loss_std": 9.004785877285581, "train/model_loss_mean": 7.108552007964163, "train/model_loss_std": 13.157355265183883, "train/model_opt_grad_norm": 19.98614030984732, "train/model_opt_grad_steps": 648311.3484848485, "train/model_opt_loss": 24237.178622159092, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 3371.212121212121, "train/policy_entropy_mag": 2.7326268210555567, "train/policy_entropy_max": 2.7326268210555567, "train/policy_entropy_mean": 0.47970956473639514, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7038633493763028, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48056918518109754, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.0951563508221598, "train/policy_randomness_mag": 0.9644973449634783, "train/policy_randomness_max": 0.9644973449634783, "train/policy_randomness_mean": 0.16931642456488175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2484328749053406, "train/post_ent_mag": 55.120075399225406, "train/post_ent_max": 55.120075399225406, "train/post_ent_mean": 39.82209379022772, "train/post_ent_min": 19.45597930388017, "train/post_ent_std": 5.76298797491825, "train/prior_ent_mag": 76.82778098366477, "train/prior_ent_max": 76.82778098366477, "train/prior_ent_mean": 45.64883301474831, "train/prior_ent_min": 27.691899530815355, "train/prior_ent_std": 7.975094340064309, "train/rep_loss_mean": 5.827135396726204, "train/rep_loss_std": 9.03500155246619, "train/reward_avg": 0.05549982215531848, "train/reward_loss_mean": 0.06823332794010639, "train/reward_loss_std": 0.233713567934253, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332911881533535, "train/reward_neg_acc": 0.9918535965861697, "train/reward_neg_loss": 0.02652323902161284, "train/reward_pos_acc": 0.9891369315710935, "train/reward_pos_loss": 0.7248333981542876, "train/reward_pred": 0.05499813186399864, "train/reward_rate": 0.05965909090909091, "stats/sum_log_reward": 14.300000381469726, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.8, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 17.2, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6559101402759552, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.6318132113976255e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3968425383155372e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2674722671509, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026279926300048828, "timer/logger.write_frac": 8.752172222193726e-05, "timer/logger.write_avg": 0.026279926300048828, "timer/logger.write_min": 0.026279926300048828, "timer/logger.write_max": 0.026279926300048828, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.26546192169189453, "timer/replay.add_frac": 0.0008840848450467871, "timer/replay.add_avg": 0.0002014126871713919, "timer/replay.add_min": 8.988380432128906e-05, "timer/replay.add_max": 0.0016279220581054688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.884937524795532, "timer/env.step_frac": 0.05290262513237714, "timer/env.step_avg": 0.012052304647037581, "timer/env.step_min": 0.003223419189453125, "timer/env.step_max": 1.6249351501464844, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.851680994033813, "timer/agent.policy_frac": 0.032809684377895845, "timer/agent.policy_avg": 0.007474720025822317, "timer/agent.policy_min": 0.005700588226318359, "timer/agent.policy_max": 0.015106201171875, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05401134490966797, "timer/dataset_frac": 0.0001798774422745783, "timer/dataset_avg": 8.195955221497415e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.5400068759918, "timer/agent.train_frac": 0.9109878096706413, "timer/agent.train_avg": 0.4150834702215354, "timer/agent.train_min": 0.367063045501709, "timer/agent.train_max": 0.45228028297424316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21784114837646484, "timer/agent.report_frac": 0.0007254903327745387, "timer/agent.report_avg": 0.21784114837646484, "timer/agent.report_min": 0.21784114837646484, "timer/agent.report_max": 0.21784114837646484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.389342603592313}
+{"step": 1299517, "episode/length": 211.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07547169811320754}
+{"step": 1300026, "episode/length": 508.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.03143418467583497}
+{"step": 1300197, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07602339181286549}
+{"step": 1300370, "episode/length": 172.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.06358381502890173}
+{"step": 1300532, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08024691358024691}
+{"step": 1300733, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472455978393555, "train/action_min": 0.0, "train/action_std": 3.298720460385084, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613993717590347, "train/actor_opt_grad_steps": 649495.0, "train/actor_opt_loss": -10.844817435368896, "train/adv_mag": 0.4132125424221158, "train/adv_max": 0.31733761518262327, "train/adv_mean": 0.0018895775249188063, "train/adv_min": -0.3862373330630362, "train/adv_std": 0.040241069335024804, "train/cont_avg": 0.9950714111328125, "train/cont_loss_mean": 9.334723698128933e-06, "train/cont_loss_std": 0.00025230735991943476, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.833217335871177e-05, "train/cont_pos_acc": 0.9999999832361937, "train/cont_pos_loss": 9.238469393046955e-06, "train/cont_pred": 0.9950627163052559, "train/cont_rate": 0.9950714111328125, "train/dyn_loss_mean": 5.810845270752907, "train/dyn_loss_std": 9.022498548030853, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8569208020344377, "train/extr_critic_critic_opt_grad_steps": 649495.0, "train/extr_critic_critic_opt_loss": 15047.450729370117, "train/extr_critic_mag": 12.519224926829338, "train/extr_critic_max": 12.519224926829338, "train/extr_critic_mean": 3.653626050800085, "train/extr_critic_min": -0.3279421776533127, "train/extr_critic_std": 3.0482164286077023, "train/extr_return_normed_mag": 1.375423438847065, "train/extr_return_normed_max": 1.375423438847065, "train/extr_return_normed_mean": 0.3853408491704613, "train/extr_return_normed_min": -0.07054607011377811, "train/extr_return_normed_std": 0.31980797508731484, "train/extr_return_rate": 0.8202148890122771, "train/extr_return_raw_mag": 13.180629894137383, "train/extr_return_raw_max": 13.180629894137383, "train/extr_return_raw_mean": 3.671749286353588, "train/extr_return_raw_min": -0.7064440636895597, "train/extr_return_raw_std": 3.0714632607996464, "train/extr_reward_mag": 1.087877046316862, "train/extr_reward_max": 1.087877046316862, "train/extr_reward_mean": 0.0650251284823753, "train/extr_reward_min": -0.6063519045710564, "train/extr_reward_std": 0.24418936460278928, "train/image_loss_mean": 3.6218168660998344, "train/image_loss_std": 8.34477549791336, "train/model_loss_mean": 7.175800271332264, "train/model_loss_std": 12.50005666911602, "train/model_opt_grad_norm": 21.80790811777115, "train/model_opt_grad_steps": 648961.0, "train/model_opt_loss": 19724.1534576416, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2734.375, "train/policy_entropy_mag": 2.7210508286952972, "train/policy_entropy_max": 2.7210508286952972, "train/policy_entropy_mean": 0.47149169771000743, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6699972385540605, "train/policy_logprob_mag": 7.4383842423558235, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47009268030524254, "train/policy_logprob_min": -7.4383842423558235, "train/policy_logprob_std": 1.0800511110574007, "train/policy_randomness_mag": 0.9604115327820182, "train/policy_randomness_max": 0.9604115327820182, "train/policy_randomness_mean": 0.1664158774074167, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.236479623708874, "train/post_ent_mag": 55.26693594455719, "train/post_ent_max": 55.26693594455719, "train/post_ent_mean": 39.951252579689026, "train/post_ent_min": 19.33880165219307, "train/post_ent_std": 5.824865870177746, "train/prior_ent_mag": 76.73317730426788, "train/prior_ent_max": 76.73317730426788, "train/prior_ent_mean": 45.745019018650055, "train/prior_ent_min": 27.53661620616913, "train/prior_ent_std": 7.90339519828558, "train/rep_loss_mean": 5.810845270752907, "train/rep_loss_std": 9.022498548030853, "train/reward_avg": 0.05268402025103569, "train/reward_loss_mean": 0.0674670070875436, "train/reward_loss_std": 0.23286865465342999, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0356402583420277, "train/reward_neg_acc": 0.9918661154806614, "train/reward_neg_loss": 0.028008275825413875, "train/reward_pos_acc": 0.9899665731936693, "train/reward_pos_loss": 0.7208305737003684, "train/reward_pred": 0.05235596123384312, "train/reward_rate": 0.057037353515625, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 10.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 6.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 2.6, "stats/mean_log_entropy": 0.4982550829648972, "replay/size": 1000000.0, "replay/inserts": 1294.0, "replay/samples": 10352.0, "replay/insert_wait_avg": 3.617182028533134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3793362347751717e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1865530014038, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02499246597290039, "timer/logger.write_frac": 8.325644744247926e-05, "timer/logger.write_avg": 0.02499246597290039, "timer/logger.write_min": 0.02499246597290039, "timer/logger.write_max": 0.02499246597290039, "timer/replay.add_count": 1294.0, "timer/replay.add_total": 0.2541332244873047, "timer/replay.add_frac": 0.0008465843054805864, "timer/replay.add_avg": 0.0001963935274245013, "timer/replay.add_min": 8.606910705566406e-05, "timer/replay.add_max": 0.0009052753448486328, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1294.0, "timer/env.step_total": 16.353111267089844, "timer/env.step_frac": 0.054476495044777605, "timer/env.step_avg": 0.012637643946746402, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 1.6440565586090088, "timer/agent.policy_count": 1294.0, "timer/agent.policy_total": 13.614607810974121, "timer/agent.policy_frac": 0.04535382306385474, "timer/agent.policy_avg": 0.010521335248048007, "timer/agent.policy_min": 0.005698680877685547, "timer/agent.policy_max": 2.619788408279419, "timer/dataset_count": 647.0, "timer/dataset_total": 0.053109169006347656, "timer/dataset_frac": 0.000176920546491299, "timer/dataset_avg": 8.208526894335032e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 647.0, "timer/agent.train_total": 269.2324240207672, "timer/agent.train_frac": 0.8968836922535572, "timer/agent.train_avg": 0.4161243029687283, "timer/agent.train_min": 0.3732450008392334, "timer/agent.train_max": 0.44910645484924316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23231172561645508, "timer/agent.report_frac": 0.0007738911796471066, "timer/agent.report_avg": 0.23231172561645508, "timer/agent.report_min": 0.23231172561645508, "timer/agent.report_max": 0.23231172561645508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004305839538574219, "timer/checkpoint.save_frac": 1.4343878816430803e-06, "timer/checkpoint.save_avg": 0.0004305839538574219, "timer/checkpoint.save_min": 0.0004305839538574219, "timer/checkpoint.save_max": 0.0004305839538574219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4037978649139404, "timer/agent.save_frac": 0.004676418216865882, "timer/agent.save_avg": 1.4037978649139404, "timer/agent.save_min": 1.4037978649139404, "timer/agent.save_max": 1.4037978649139404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.9068990292434517e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "fps": 4.310572848251896}
+{"step": 1300774, "episode/length": 241.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.045454545454545456}
+{"step": 1300994, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
+{"step": 1301222, "episode/length": 227.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06578947368421052}
+{"step": 1301485, "episode/length": 262.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.060836501901140684}
+{"step": 1301605, "episode/length": 119.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09166666666666666}
+{"step": 1301836, "episode/length": 230.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06926406926406926}
+{"step": 1302045, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517145330255682, "train/action_min": 0.0, "train/action_std": 3.3678599812767724, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03728601181258758, "train/actor_opt_grad_steps": 650145.0, "train/actor_opt_loss": -11.906459656628696, "train/adv_mag": 0.4073261975338965, "train/adv_max": 0.336025068479957, "train/adv_mean": 0.0015834350900237578, "train/adv_min": -0.36031379663583, "train/adv_std": 0.04135546584924062, "train/cont_avg": 0.9954575047348485, "train/cont_loss_mean": 3.381375938952639e-05, "train/cont_loss_std": 0.0010318451471520843, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.00465760044437424, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 9.093453616017225e-06, "train/cont_pred": 0.9954647783077124, "train/cont_rate": 0.9954575047348485, "train/dyn_loss_mean": 5.786460529674184, "train/dyn_loss_std": 9.087675990480365, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8597499637892752, "train/extr_critic_critic_opt_grad_steps": 650145.0, "train/extr_critic_critic_opt_loss": 15029.902861624054, "train/extr_critic_mag": 12.77642703778816, "train/extr_critic_max": 12.77642703778816, "train/extr_critic_mean": 3.7915537718570596, "train/extr_critic_min": -0.32331799015854346, "train/extr_critic_std": 3.061002189462835, "train/extr_return_normed_mag": 1.3856125022425796, "train/extr_return_normed_max": 1.3856125022425796, "train/extr_return_normed_mean": 0.3955871367996389, "train/extr_return_normed_min": -0.06866389538415453, "train/extr_return_normed_std": 0.3182311315428127, "train/extr_return_rate": 0.830448081999114, "train/extr_return_raw_mag": 13.423954862536807, "train/extr_return_raw_max": 13.423954862536807, "train/extr_return_raw_mean": 3.8069506161140674, "train/extr_return_raw_min": -0.7026019967866667, "train/extr_return_raw_std": 3.09105063568462, "train/extr_reward_mag": 1.091069712783351, "train/extr_reward_max": 1.091069712783351, "train/extr_reward_mean": 0.06650210815397176, "train/extr_reward_min": -0.5942943818641432, "train/extr_reward_std": 0.24692175356727658, "train/image_loss_mean": 3.673896222403555, "train/image_loss_std": 9.689171328689113, "train/model_loss_mean": 7.213299534537575, "train/model_loss_std": 13.81561347210046, "train/model_opt_grad_norm": 20.718871665723395, "train/model_opt_grad_steps": 649610.3484848485, "train/model_opt_loss": 24265.043338660038, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3371.212121212121, "train/policy_entropy_mag": 2.7341167999036387, "train/policy_entropy_max": 2.7341167999036387, "train/policy_entropy_mean": 0.48633401637727564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7101645158095793, "train/policy_logprob_mag": 7.438384222261833, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48623944548043335, "train/policy_logprob_min": -7.438384222261833, "train/policy_logprob_std": 1.0992174582047896, "train/policy_randomness_mag": 0.9650232466784391, "train/policy_randomness_max": 0.9650232466784391, "train/policy_randomness_mean": 0.17165456746112218, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25065690911177435, "train/post_ent_mag": 55.16661314530806, "train/post_ent_max": 55.16661314530806, "train/post_ent_mean": 39.8534804835464, "train/post_ent_min": 19.35390418948549, "train/post_ent_std": 5.784403345801613, "train/prior_ent_mag": 76.79374382712625, "train/prior_ent_max": 76.79374382712625, "train/prior_ent_mean": 45.601006189982094, "train/prior_ent_min": 27.90402146541711, "train/prior_ent_std": 7.994091084509185, "train/rep_loss_mean": 5.786460529674184, "train/rep_loss_std": 9.087675990480365, "train/reward_avg": 0.05391660733430675, "train/reward_loss_mean": 0.06749310141259973, "train/reward_loss_std": 0.2341246749415542, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0396312800320713, "train/reward_neg_acc": 0.9923298476320325, "train/reward_neg_loss": 0.027383549251791203, "train/reward_pos_acc": 0.9917087211753383, "train/reward_pos_loss": 0.7198246482646826, "train/reward_pred": 0.05367099725161538, "train/reward_rate": 0.058075875946969696, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4091584235429764, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.832687691944401e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3934630082874764e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2218430042267, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031662940979003906, "timer/logger.write_frac": 0.00010546514757941227, "timer/logger.write_avg": 0.031662940979003906, "timer/logger.write_min": 0.031662940979003906, "timer/logger.write_max": 0.031662940979003906, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2845284938812256, "timer/replay.add_frac": 0.0009477274905584397, "timer/replay.add_avg": 0.00021686623009239755, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.0010488033294677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.434756755828857, "timer/env.step_frac": 0.05474204205587226, "timer/env.step_avg": 0.012526491429747605, "timer/env.step_min": 0.002530336380004883, "timer/env.step_max": 1.8646786212921143, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.885857105255127, "timer/agent.policy_frac": 0.03292850715434436, "timer/agent.policy_avg": 0.0075349520619322615, "timer/agent.policy_min": 0.005578041076660156, "timer/agent.policy_max": 0.017299413681030273, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06459832191467285, "timer/dataset_frac": 0.00021516862753308527, "timer/dataset_avg": 9.847305169919641e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.82392597198486, "timer/agent.train_frac": 0.9087410937256284, "timer/agent.train_avg": 0.41589013105485495, "timer/agent.train_min": 0.36890673637390137, "timer/agent.train_max": 0.4670896530151367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26220273971557617, "timer/agent.report_frac": 0.0008733633005906393, "timer/agent.report_avg": 0.26220273971557617, "timer/agent.report_min": 0.26220273971557617, "timer/agent.report_max": 0.26220273971557617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.370025697728586}
+{"step": 1302102, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05263157894736842}
+{"step": 1302314, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07075471698113207}
+{"step": 1302514, "episode/length": 199.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.075}
+{"step": 1302775, "episode/length": 260.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.05747126436781609}
+{"step": 1302991, "episode/length": 215.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06481481481481481}
+{"step": 1303340, "episode/length": 348.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04297994269340974}
+{"step": 1303357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481537334735577, "train/action_min": 0.0, "train/action_std": 3.314552435508141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03491762802004814, "train/actor_opt_grad_steps": 650800.0, "train/actor_opt_loss": -11.382864279013413, "train/adv_mag": 0.36944675009984235, "train/adv_max": 0.30911586468036356, "train/adv_mean": 0.0015483892371076554, "train/adv_min": -0.3343301507142874, "train/adv_std": 0.039317991469915096, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 9.334449882771877e-05, "train/cont_loss_std": 0.002865496891672592, "train/cont_neg_acc": 0.9952380968974187, "train/cont_neg_loss": 0.013925649452219633, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 8.995992869551208e-06, "train/cont_pred": 0.9955251290247991, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.697668779813326, "train/dyn_loss_std": 9.013795295128455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8812398910522461, "train/extr_critic_critic_opt_grad_steps": 650800.0, "train/extr_critic_critic_opt_loss": 15016.170868389423, "train/extr_critic_mag": 12.756607862619253, "train/extr_critic_max": 12.756607862619253, "train/extr_critic_mean": 3.611732508586003, "train/extr_critic_min": -0.31991390815147985, "train/extr_critic_std": 2.9808130924518292, "train/extr_return_normed_mag": 1.382811188697815, "train/extr_return_normed_max": 1.382811188697815, "train/extr_return_normed_mean": 0.3770172160405379, "train/extr_return_normed_min": -0.06481160951348451, "train/extr_return_normed_std": 0.30932045922829554, "train/extr_return_rate": 0.838700964817634, "train/extr_return_raw_mag": 13.397163361769456, "train/extr_return_raw_max": 13.397163361769456, "train/extr_return_raw_mean": 3.6267822412344124, "train/extr_return_raw_min": -0.6658537502472217, "train/extr_return_raw_std": 3.0050986730135403, "train/extr_reward_mag": 1.089842965052678, "train/extr_reward_max": 1.089842965052678, "train/extr_reward_mean": 0.06259008628817705, "train/extr_reward_min": -0.5885131615858812, "train/extr_reward_std": 0.2403155301625912, "train/image_loss_mean": 3.6487215555631196, "train/image_loss_std": 9.019917708176832, "train/model_loss_mean": 7.131735610961914, "train/model_loss_std": 13.17953551365779, "train/model_opt_grad_norm": 18.905417060852052, "train/model_opt_grad_steps": 650265.0, "train/model_opt_loss": 19918.387049278845, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.7451433181762694, "train/policy_entropy_max": 2.7451433181762694, "train/policy_entropy_mean": 0.471613897727086, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6862043078129109, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46888960141402025, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.0816624008692228, "train/policy_randomness_mag": 0.9689151250399076, "train/policy_randomness_max": 0.9689151250399076, "train/policy_randomness_mean": 0.166459010885312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24220000803470612, "train/post_ent_mag": 55.11124555147611, "train/post_ent_max": 55.11124555147611, "train/post_ent_mean": 39.80495493962214, "train/post_ent_min": 19.836237349876992, "train/post_ent_std": 5.770721883040208, "train/prior_ent_mag": 76.80039661114033, "train/prior_ent_max": 76.80039661114033, "train/prior_ent_mean": 45.50217009324294, "train/prior_ent_min": 27.07523372356708, "train/prior_ent_std": 8.03234324822059, "train/rep_loss_mean": 5.697668779813326, "train/rep_loss_std": 9.013795295128455, "train/reward_avg": 0.05146183858697231, "train/reward_loss_mean": 0.06431951992786848, "train/reward_loss_std": 0.22452694590275105, "train/reward_max_data": 1.026153852389409, "train/reward_max_pred": 1.0270228459284856, "train/reward_neg_acc": 0.9921347856521606, "train/reward_neg_loss": 0.02616343406530527, "train/reward_pos_acc": 0.9927864789962768, "train/reward_pos_loss": 0.7124186460788433, "train/reward_pred": 0.05115491426908053, "train/reward_rate": 0.05554387019230769, "stats/sum_log_reward": 13.766667048136393, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.6679264605045319, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.847952296094197e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.397529026357139e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29694533348083, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02430105209350586, "timer/logger.write_frac": 8.092340755088086e-05, "timer/logger.write_avg": 0.02430105209350586, "timer/logger.write_min": 0.02430105209350586, "timer/logger.write_max": 0.02430105209350586, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.3014204502105713, "timer/replay.add_frac": 0.0010037413130388083, "timer/replay.add_avg": 0.00022974119680683788, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0034177303314208984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.07738447189331, "timer/env.step_frac": 0.05353828842327822, "timer/env.step_avg": 0.012254104018211365, "timer/env.step_min": 0.002341032028198242, "timer/env.step_max": 1.4966750144958496, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.996631145477295, "timer/agent.policy_frac": 0.03328915362217887, "timer/agent.policy_avg": 0.007619383495028426, "timer/agent.policy_min": 0.005688667297363281, "timer/agent.policy_max": 0.01568460464477539, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06456136703491211, "timer/dataset_frac": 0.00021499175412262845, "timer/dataset_avg": 9.841671804102456e-05, "timer/dataset_min": 7.319450378417969e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 656.0, "timer/agent.train_total": 273.1573178768158, "timer/agent.train_frac": 0.9096240308854078, "timer/agent.train_avg": 0.4163983504219753, "timer/agent.train_min": 0.3726317882537842, "timer/agent.train_max": 0.4835014343261719, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23359966278076172, "timer/agent.report_frac": 0.000777895567739953, "timer/agent.report_avg": 0.23359966278076172, "timer/agent.report_min": 0.23359966278076172, "timer/agent.report_max": 0.23359966278076172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368934702305787}
+{"step": 1303500, "episode/length": 159.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08125}
+{"step": 1303761, "episode/length": 260.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.04980842911877394}
+{"step": 1304044, "episode/length": 282.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.045936395759717315}
+{"step": 1304321, "episode/length": 276.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.05054151624548736}
+{"step": 1304535, "episode/length": 213.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07476635514018691}
+{"step": 1304673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.441654089725379, "train/action_min": 0.0, "train/action_std": 3.2789805043827402, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03511561797649571, "train/actor_opt_grad_steps": 651455.0, "train/actor_opt_loss": -12.602179050445557, "train/adv_mag": 0.42367819380579574, "train/adv_max": 0.35086018140568875, "train/adv_mean": 0.0017713348184412153, "train/adv_min": -0.36962098650860065, "train/adv_std": 0.04101275601847605, "train/cont_avg": 0.9947768702651515, "train/cont_loss_mean": 2.9665821169931984e-05, "train/cont_loss_std": 0.0008567930192315764, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014173052482909418, "train/cont_pos_acc": 0.9999851620558536, "train/cont_pos_loss": 2.8962796461207812e-05, "train/cont_pred": 0.9947596562631202, "train/cont_rate": 0.9947768702651515, "train/dyn_loss_mean": 5.687181899041841, "train/dyn_loss_std": 9.078877853624748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8552601770921187, "train/extr_critic_critic_opt_grad_steps": 651455.0, "train/extr_critic_critic_opt_loss": 14864.198360558712, "train/extr_critic_mag": 12.567344983418783, "train/extr_critic_max": 12.567344983418783, "train/extr_critic_mean": 3.776977705233025, "train/extr_critic_min": -0.3755433974844037, "train/extr_critic_std": 3.0870992414879077, "train/extr_return_normed_mag": 1.3799514029965256, "train/extr_return_normed_max": 1.3799514029965256, "train/extr_return_normed_mean": 0.39830947441585135, "train/extr_return_normed_min": -0.07074889944245417, "train/extr_return_normed_std": 0.3230831442457257, "train/extr_return_rate": 0.8276436681097205, "train/extr_return_raw_mag": 13.255866050720215, "train/extr_return_raw_max": 13.255866050720215, "train/extr_return_raw_mean": 3.794060670968258, "train/extr_return_raw_min": -0.726706629449671, "train/extr_return_raw_std": 3.114442735007315, "train/extr_reward_mag": 1.0856288815989639, "train/extr_reward_max": 1.0856288815989639, "train/extr_reward_mean": 0.06483381199227138, "train/extr_reward_min": -0.6245064663164543, "train/extr_reward_std": 0.24462173201821066, "train/image_loss_mean": 3.69452105327086, "train/image_loss_std": 9.704840631195992, "train/model_loss_mean": 7.173248464410955, "train/model_loss_std": 13.82297455180775, "train/model_opt_grad_norm": 19.75899231072628, "train/model_opt_grad_steps": 650919.2424242424, "train/model_opt_loss": 22242.386112097538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3106.060606060606, "train/policy_entropy_mag": 2.740908286788247, "train/policy_entropy_max": 2.740908286788247, "train/policy_entropy_mean": 0.48265736482360144, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6975324208086188, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4812519107804154, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0933058334119392, "train/policy_randomness_mag": 0.9674203395843506, "train/policy_randomness_max": 0.9674203395843506, "train/policy_randomness_mean": 0.1703568702620087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24619833379983902, "train/post_ent_mag": 55.07762949394457, "train/post_ent_max": 55.07762949394457, "train/post_ent_mean": 39.90991187818123, "train/post_ent_min": 19.28050689986258, "train/post_ent_std": 5.812504782821193, "train/prior_ent_mag": 76.71320909442323, "train/prior_ent_max": 76.71320909442323, "train/prior_ent_mean": 45.55623568910541, "train/prior_ent_min": 27.41792092178807, "train/prior_ent_std": 8.029366984511867, "train/rep_loss_mean": 5.687181899041841, "train/rep_loss_std": 9.078877853624748, "train/reward_avg": 0.05316790921444243, "train/reward_loss_mean": 0.06638862926400069, "train/reward_loss_std": 0.22808828430645395, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.042215751879143, "train/reward_neg_acc": 0.9922012867349567, "train/reward_neg_loss": 0.02693059387137041, "train/reward_pos_acc": 0.9928005247405081, "train/reward_pos_loss": 0.7131499115264777, "train/reward_pred": 0.05301869420729803, "train/reward_rate": 0.057587594696969696, "stats/sum_log_reward": 12.900000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 5.4, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.500957977771759, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.7210328238351006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.398512476483377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0503590106964, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03519749641418457, "timer/logger.write_frac": 0.00011730529678496343, "timer/logger.write_avg": 0.03519749641418457, "timer/logger.write_min": 0.03519749641418457, "timer/logger.write_max": 0.03519749641418457, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.29230642318725586, "timer/replay.add_frac": 0.0009741912129384771, "timer/replay.add_avg": 0.00022211734284745887, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0050506591796875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.068408489227295, "timer/env.step_frac": 0.05021959826647008, "timer/env.step_avg": 0.01145015842646451, "timer/env.step_min": 0.0026426315307617188, "timer/env.step_max": 1.734191656112671, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 10.041825771331787, "timer/agent.policy_frac": 0.03346713466513069, "timer/agent.policy_avg": 0.0076305666955408715, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 0.018398523330688477, "timer/dataset_count": 658.0, "timer/dataset_total": 0.06180882453918457, "timer/dataset_frac": 0.00020599483614342607, "timer/dataset_avg": 9.393438379815284e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.000217437744140625, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.8965644836426, "timer/agent.train_frac": 0.9128353166672216, "timer/agent.train_avg": 0.41625617702681245, "timer/agent.train_min": 0.36748242378234863, "timer/agent.train_max": 0.4798097610473633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22127747535705566, "timer/agent.report_frac": 0.0007374677906956525, "timer/agent.report_avg": 0.22127747535705566, "timer/agent.report_min": 0.22127747535705566, "timer/agent.report_max": 0.22127747535705566, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.385859457931181}
+{"step": 1304771, "episode/length": 235.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.0635593220338983}
+{"step": 1305220, "episode/length": 448.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.031180400890868598}
+{"step": 1305478, "episode/length": 257.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.05426356589147287}
+{"step": 1305609, "episode/length": 130.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.09923664122137404}
+{"step": 1305856, "episode/length": 246.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05668016194331984}
+{"step": 1305965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488680326021635, "train/action_min": 0.0, "train/action_std": 3.3648639385516828, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036460887554746406, "train/actor_opt_grad_steps": 652110.0, "train/actor_opt_loss": -10.022165287687228, "train/adv_mag": 0.3730680332734035, "train/adv_max": 0.3185885243690931, "train/adv_mean": 0.0022279114165380284, "train/adv_min": -0.342280248266, "train/adv_std": 0.04073407122722039, "train/cont_avg": 0.9951472355769231, "train/cont_loss_mean": 6.314038595007787e-05, "train/cont_loss_std": 0.001985014589736413, "train/cont_neg_acc": 0.9933333341891949, "train/cont_neg_loss": 0.011688598414828465, "train/cont_pos_acc": 0.9999999752411476, "train/cont_pos_loss": 6.813454804990635e-06, "train/cont_pred": 0.995169314971337, "train/cont_rate": 0.9951472355769231, "train/dyn_loss_mean": 5.8687205534714915, "train/dyn_loss_std": 9.060957204378568, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8422729363808266, "train/extr_critic_critic_opt_grad_steps": 652110.0, "train/extr_critic_critic_opt_loss": 15093.703740985577, "train/extr_critic_mag": 12.622496560903697, "train/extr_critic_max": 12.622496560903697, "train/extr_critic_mean": 3.6765134261204646, "train/extr_critic_min": -0.3386438039632944, "train/extr_critic_std": 3.0271963302905744, "train/extr_return_normed_mag": 1.3986847198926486, "train/extr_return_normed_max": 1.3986847198926486, "train/extr_return_normed_mean": 0.39057098168593185, "train/extr_return_normed_min": -0.06223724023080789, "train/extr_return_normed_std": 0.3176405892922328, "train/extr_return_rate": 0.821579568202679, "train/extr_return_raw_mag": 13.388059366666354, "train/extr_return_raw_max": 13.388059366666354, "train/extr_return_raw_mean": 3.697942466002244, "train/extr_return_raw_min": -0.6538745517914112, "train/extr_return_raw_std": 3.052848999316876, "train/extr_reward_mag": 1.0980459323296181, "train/extr_reward_max": 1.0980459323296181, "train/extr_reward_mean": 0.06485089871745843, "train/extr_reward_min": -0.6011855143767136, "train/extr_reward_std": 0.24405591510809385, "train/image_loss_mean": 3.756821977175199, "train/image_loss_std": 9.117063940488375, "train/model_loss_mean": 7.345755408360408, "train/model_loss_std": 13.263881316551796, "train/model_opt_grad_norm": 20.347556554354153, "train/model_opt_grad_steps": 651573.7846153846, "train/model_opt_loss": 18672.357106370193, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2538.4615384615386, "train/policy_entropy_mag": 2.7351051367246186, "train/policy_entropy_max": 2.7351051367246186, "train/policy_entropy_mean": 0.48215532853053167, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6874110391506782, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48302491834530464, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0944662644312932, "train/policy_randomness_mag": 0.9653720892392672, "train/policy_randomness_max": 0.9653720892392672, "train/policy_randomness_mean": 0.17017967437322323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24262593147846367, "train/post_ent_mag": 55.56693173922025, "train/post_ent_max": 55.56693173922025, "train/post_ent_mean": 39.85255936842698, "train/post_ent_min": 19.397378217256986, "train/post_ent_std": 5.830223516317514, "train/prior_ent_mag": 76.82871774526743, "train/prior_ent_max": 76.82871774526743, "train/prior_ent_mean": 45.72390952477088, "train/prior_ent_min": 27.38979245699369, "train/prior_ent_std": 8.08688704417302, "train/rep_loss_mean": 5.8687205534714915, "train/rep_loss_std": 9.060957204378568, "train/reward_avg": 0.05168719922120755, "train/reward_loss_mean": 0.06763793963652391, "train/reward_loss_std": 0.23620477387538322, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.043346933218149, "train/reward_neg_acc": 0.9918992565228388, "train/reward_neg_loss": 0.028434372478379655, "train/reward_pos_acc": 0.9882495935146626, "train/reward_pos_loss": 0.7278502968641428, "train/reward_pred": 0.0511324926924247, "train/reward_rate": 0.055994591346153845, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.6315732419490814, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.8639679781792706e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.393627640632653e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25951290130615, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.038840293884277344, "timer/logger.write_frac": 0.00012935574799604753, "timer/logger.write_avg": 0.038840293884277344, "timer/logger.write_min": 0.038840293884277344, "timer/logger.write_max": 0.038840293884277344, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2983860969543457, "timer/replay.add_frac": 0.0009937606774591144, "timer/replay.add_avg": 0.00023094899145073198, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.007791042327880859, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 15.767088890075684, "timer/env.step_frac": 0.05251153822812685, "timer/env.step_avg": 0.012203629171885205, "timer/env.step_min": 0.002692699432373047, "timer/env.step_max": 1.7086832523345947, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.436377763748169, "timer/agent.policy_frac": 0.04807966823183829, "timer/agent.policy_avg": 0.011173666999805085, "timer/agent.policy_min": 0.005609750747680664, "timer/agent.policy_max": 3.1036174297332764, "timer/dataset_count": 646.0, "timer/dataset_total": 0.06121349334716797, "timer/dataset_frac": 0.00020386862269802106, "timer/dataset_avg": 9.47577296395789e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.9885015487671, "timer/agent.train_frac": 0.8958533867907202, "timer/agent.train_avg": 0.4163908692705373, "timer/agent.train_min": 0.3733546733856201, "timer/agent.train_max": 0.4781644344329834, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23169612884521484, "timer/agent.report_frac": 0.0007716529165268187, "timer/agent.report_avg": 0.23169612884521484, "timer/agent.report_min": 0.23169612884521484, "timer/agent.report_max": 0.23169612884521484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038242340087890625, "timer/checkpoint.save_frac": 1.27364291370381e-06, "timer/checkpoint.save_avg": 0.00038242340087890625, "timer/checkpoint.save_min": 0.00038242340087890625, "timer/checkpoint.save_max": 0.00038242340087890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.171919345855713, "timer/agent.save_frac": 0.0039030215380417175, "timer/agent.save_avg": 1.171919345855713, "timer/agent.save_min": 1.171919345855713, "timer/agent.save_max": 1.171919345855713, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.7076822541957555e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "fps": 4.302858847617188}
+{"step": 1306038, "episode/length": 181.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.07692307692307693}
+{"step": 1306271, "episode/length": 232.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.060085836909871244}
+{"step": 1306648, "episode/length": 376.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.042440318302387266}
+{"step": 1306876, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.1000000461936, "episode/reward_rate": 0.039473684210526314}
+{"step": 1307219, "episode/length": 342.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 18.500000044703484, "episode/reward_rate": 0.04956268221574344}
+{"step": 1307283, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530699758818655, "train/action_min": 0.0, "train/action_std": 3.4081937941637905, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035836546681821346, "train/actor_opt_grad_steps": 652765.0, "train/actor_opt_loss": -9.89404814622619, "train/adv_mag": 0.3867057236758145, "train/adv_max": 0.33050152591683646, "train/adv_mean": 0.001952667165713854, "train/adv_min": -0.34549518674612045, "train/adv_std": 0.04054080107898423, "train/cont_avg": 0.9948508522727273, "train/cont_loss_mean": 1.6900385190434932e-05, "train/cont_loss_std": 0.0004358096628986156, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008491260511751634, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 1.2607531787095336e-05, "train/cont_pred": 0.9948428038394812, "train/cont_rate": 0.9948508522727273, "train/dyn_loss_mean": 5.972619324019461, "train/dyn_loss_std": 9.118874130827008, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8347598124634136, "train/extr_critic_critic_opt_grad_steps": 652765.0, "train/extr_critic_critic_opt_loss": 15010.617690577652, "train/extr_critic_mag": 12.878395904194225, "train/extr_critic_max": 12.878395904194225, "train/extr_critic_mean": 3.7596708247155854, "train/extr_critic_min": -0.3460657036665714, "train/extr_critic_std": 3.1266407081575105, "train/extr_return_normed_mag": 1.4001081658132148, "train/extr_return_normed_max": 1.4001081658132148, "train/extr_return_normed_mean": 0.3909400642821283, "train/extr_return_normed_min": -0.06766506800936027, "train/extr_return_normed_std": 0.32223048015977396, "train/extr_return_rate": 0.8264609421744491, "train/extr_return_raw_mag": 13.662943695530746, "train/extr_return_raw_max": 13.662943695530746, "train/extr_return_raw_mean": 3.778790072961287, "train/extr_return_raw_min": -0.713457137797818, "train/extr_return_raw_std": 3.1562943025068804, "train/extr_reward_mag": 1.08785829038331, "train/extr_reward_max": 1.08785829038331, "train/extr_reward_mean": 0.06511747927376718, "train/extr_reward_min": -0.6001900886044358, "train/extr_reward_std": 0.2450264696822022, "train/image_loss_mean": 3.67781328793728, "train/image_loss_std": 9.255177158297915, "train/model_loss_mean": 7.328774972395464, "train/model_loss_std": 13.4312549793359, "train/model_opt_grad_norm": 20.72471942323627, "train/model_opt_grad_steps": 652228.0, "train/model_opt_loss": 18321.937455610794, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7464036002303613, "train/policy_entropy_max": 2.7464036002303613, "train/policy_entropy_mean": 0.49874335301644873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7156430487379883, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4985713443972848, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1068703739932089, "train/policy_randomness_mag": 0.9693599496826981, "train/policy_randomness_max": 0.9693599496826981, "train/policy_randomness_mean": 0.17603451747334364, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25259059103149356, "train/post_ent_mag": 55.18311223116788, "train/post_ent_max": 55.18311223116788, "train/post_ent_mean": 39.82584236607407, "train/post_ent_min": 19.742198741797246, "train/post_ent_std": 5.8586360252264775, "train/prior_ent_mag": 76.84377358176492, "train/prior_ent_max": 76.84377358176492, "train/prior_ent_mean": 45.779894106315844, "train/prior_ent_min": 27.35471017432935, "train/prior_ent_std": 8.059417616237294, "train/rep_loss_mean": 5.972619324019461, "train/rep_loss_std": 9.118874130827008, "train/reward_avg": 0.05290009493403362, "train/reward_loss_mean": 0.06737325210688692, "train/reward_loss_std": 0.23207537852453464, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0334235646507957, "train/reward_neg_acc": 0.9921956540960254, "train/reward_neg_loss": 0.02771631106169838, "train/reward_pos_acc": 0.9903760660778392, "train/reward_pos_loss": 0.7180744012196859, "train/reward_pred": 0.05253039006934022, "train/reward_rate": 0.05739524147727273, "stats/sum_log_reward": 12.699999713897705, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 19.4, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6442769944667817, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.8094513333078944e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3917775002162626e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13063788414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0267331600189209, "timer/logger.write_frac": 8.907174624818127e-05, "timer/logger.write_avg": 0.0267331600189209, "timer/logger.write_min": 0.0267331600189209, "timer/logger.write_max": 0.0267331600189209, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.3021230697631836, "timer/replay.add_frac": 0.0010066385487769254, "timer/replay.add_avg": 0.00022922842925886464, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0011985301971435547, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 14.99924349784851, "timer/env.step_frac": 0.049975715920207706, "timer/env.step_avg": 0.011380306144042876, "timer/env.step_min": 0.0027294158935546875, "timer/env.step_max": 1.6377456188201904, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 10.26877212524414, "timer/agent.policy_frac": 0.034214341453564674, "timer/agent.policy_avg": 0.007791177636755797, "timer/agent.policy_min": 0.005692481994628906, "timer/agent.policy_max": 0.01683640480041504, "timer/dataset_count": 659.0, "timer/dataset_total": 0.06082487106323242, "timer/dataset_frac": 0.00020266131939090056, "timer/dataset_avg": 9.2298742129336e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00021600723266601562, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.8054850101471, "timer/agent.train_frac": 0.9122876855905818, "timer/agent.train_avg": 0.4154863201974918, "timer/agent.train_min": 0.36608099937438965, "timer/agent.train_max": 0.45726633071899414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201547622680664, "timer/agent.report_frac": 0.0007335297849633504, "timer/agent.report_avg": 0.2201547622680664, "timer/agent.report_min": 0.2201547622680664, "timer/agent.report_max": 0.2201547622680664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391343883246291}
+{"step": 1307369, "episode/length": 149.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08}
+{"step": 1307487, "episode/length": 117.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.11016949152542373}
+{"step": 1307701, "episode/length": 213.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.0794392523364486}
+{"step": 1307928, "episode/length": 226.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07488986784140969}
+{"step": 1308228, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.043333333333333335}
+{"step": 1308412, "episode/length": 183.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05434782608695652}
+{"step": 1308587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474152080829327, "train/action_min": 0.0, "train/action_std": 3.3867346323453464, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036900112548699744, "train/actor_opt_grad_steps": 653420.0, "train/actor_opt_loss": -11.258999587939336, "train/adv_mag": 0.4204679764234103, "train/adv_max": 0.34406079283127416, "train/adv_mean": 0.001965105244352554, "train/adv_min": -0.3657627160732563, "train/adv_std": 0.04147048621223523, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 6.495216528540263e-05, "train/cont_loss_std": 0.0020316411773233785, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.00945626823419788, "train/cont_pos_acc": 0.999999974324153, "train/cont_pos_loss": 9.724051344160391e-06, "train/cont_pred": 0.9951245958988483, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.768104457855225, "train/dyn_loss_std": 9.062824968191293, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9105919351944557, "train/extr_critic_critic_opt_grad_steps": 653420.0, "train/extr_critic_critic_opt_loss": 15095.954432091346, "train/extr_critic_mag": 12.976701002854567, "train/extr_critic_max": 12.976701002854567, "train/extr_critic_mean": 3.8079443491422214, "train/extr_critic_min": -0.3332113742828369, "train/extr_critic_std": 3.1179478828723615, "train/extr_return_normed_mag": 1.4012487741617057, "train/extr_return_normed_max": 1.4012487741617057, "train/extr_return_normed_mean": 0.39203167053369375, "train/extr_return_normed_min": -0.06764332090432827, "train/extr_return_normed_std": 0.3202205717563629, "train/extr_return_rate": 0.841814950796274, "train/extr_return_raw_mag": 13.744303776667667, "train/extr_return_raw_max": 13.744303776667667, "train/extr_return_raw_mean": 3.8272593388190637, "train/extr_return_raw_min": -0.689643336717899, "train/extr_return_raw_std": 3.1467014386103704, "train/extr_reward_mag": 1.0880839531238262, "train/extr_reward_max": 1.0880839531238262, "train/extr_reward_mean": 0.06616700973648292, "train/extr_reward_min": -0.6061434268951416, "train/extr_reward_std": 0.2463425439137679, "train/image_loss_mean": 3.657235394991361, "train/image_loss_std": 8.992208722921518, "train/model_loss_mean": 7.1850204541133, "train/model_loss_std": 13.17371419759897, "train/model_opt_grad_norm": 19.81594496506911, "train/model_opt_grad_steps": 652882.3846153846, "train/model_opt_loss": 19311.911583533652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.73523132617657, "train/policy_entropy_max": 2.73523132617657, "train/policy_entropy_mean": 0.4770736359632932, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6918076464763054, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4792169644282414, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.0974402601902302, "train/policy_randomness_mag": 0.9654166249128489, "train/policy_randomness_max": 0.9654166249128489, "train/policy_randomness_mean": 0.168386057133858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2441777419585448, "train/post_ent_mag": 55.26489011324369, "train/post_ent_max": 55.26489011324369, "train/post_ent_mean": 39.80423085139348, "train/post_ent_min": 19.396380849984975, "train/post_ent_std": 5.868761994288518, "train/prior_ent_mag": 76.82686086801382, "train/prior_ent_max": 76.82686086801382, "train/prior_ent_mean": 45.51062991802509, "train/prior_ent_min": 26.962166712834286, "train/prior_ent_std": 8.096359142890343, "train/rep_loss_mean": 5.768104457855225, "train/rep_loss_std": 9.062824968191293, "train/reward_avg": 0.05230168178677559, "train/reward_loss_mean": 0.06685745830719288, "train/reward_loss_std": 0.23436305545843564, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0314032481266902, "train/reward_neg_acc": 0.991687812254979, "train/reward_neg_loss": 0.027614046146090213, "train/reward_pos_acc": 0.9907896353648259, "train/reward_pos_loss": 0.7191165942412157, "train/reward_pred": 0.0519964697269293, "train/reward_rate": 0.05662560096153846, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3802093217770259, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.890574344096739e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4130048956607748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0070538520813, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024970531463623047, "timer/logger.write_frac": 8.323314783103328e-05, "timer/logger.write_avg": 0.024970531463623047, "timer/logger.write_min": 0.024970531463623047, "timer/logger.write_max": 0.024970531463623047, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2910499572753906, "timer/replay.add_frac": 0.0009701437134171286, "timer/replay.add_avg": 0.0002231978199964652, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.001233816146850586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 17.652665853500366, "timer/env.step_frac": 0.05884083599648969, "timer/env.step_avg": 0.013537320439800894, "timer/env.step_min": 0.002857208251953125, "timer/env.step_max": 1.7900638580322266, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 10.134140968322754, "timer/agent.policy_frac": 0.03377967563829149, "timer/agent.policy_avg": 0.007771580497180026, "timer/agent.policy_min": 0.00567936897277832, "timer/agent.policy_max": 0.017568588256835938, "timer/dataset_count": 652.0, "timer/dataset_total": 0.061364173889160156, "timer/dataset_frac": 0.0002045424369235525, "timer/dataset_avg": 9.41168311183438e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00018310546875, "timer/agent.train_count": 652.0, "timer/agent.train_total": 271.1700248718262, "timer/agent.train_frac": 0.9038788301475297, "timer/agent.train_avg": 0.4159049461224328, "timer/agent.train_min": 0.37305736541748047, "timer/agent.train_max": 0.482677698135376, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032856941223145, "timer/agent.report_frac": 0.0007344112966119276, "timer/agent.report_avg": 0.22032856941223145, "timer/agent.report_min": 0.22032856941223145, "timer/agent.report_max": 0.22032856941223145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.346512843320031}
+{"step": 1308661, "episode/length": 248.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.04819277108433735}
+{"step": 1308949, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04513888888888889}
+{"step": 1309369, "episode/length": 419.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 19.90000008046627, "episode/reward_rate": 0.0380952380952381}
+{"step": 1309664, "episode/length": 294.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.90000005811453, "episode/reward_rate": 0.05084745762711865}
+{"step": 1309810, "episode/length": 145.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08904109589041095}
+{"step": 1309889, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481001164362981, "train/action_min": 0.0, "train/action_std": 3.35380628659175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03514928981088675, "train/actor_opt_grad_steps": 654070.0, "train/actor_opt_loss": -12.413675396259015, "train/adv_mag": 0.4038621641122378, "train/adv_max": 0.3233968803515801, "train/adv_mean": 0.0015370695442050838, "train/adv_min": -0.37846751167224, "train/adv_std": 0.04023219616367267, "train/cont_avg": 0.9953876201923076, "train/cont_loss_mean": 4.160755418408913e-05, "train/cont_loss_std": 0.0012851556898064804, "train/cont_neg_acc": 0.9978021988501915, "train/cont_neg_loss": 0.004210024979595936, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 1.355066876326506e-05, "train/cont_pred": 0.9953876724609962, "train/cont_rate": 0.9953876201923076, "train/dyn_loss_mean": 5.826642043773944, "train/dyn_loss_std": 8.987108707427979, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8635080530093266, "train/extr_critic_critic_opt_grad_steps": 654070.0, "train/extr_critic_critic_opt_loss": 14965.612169471155, "train/extr_critic_mag": 12.761896368173453, "train/extr_critic_max": 12.761896368173453, "train/extr_critic_mean": 3.7365463770352876, "train/extr_critic_min": -0.340354481110206, "train/extr_critic_std": 3.0476684386913595, "train/extr_return_normed_mag": 1.3782625876940213, "train/extr_return_normed_max": 1.3782625876940213, "train/extr_return_normed_mean": 0.38715160810030425, "train/extr_return_normed_min": -0.06945808761968063, "train/extr_return_normed_std": 0.31385107453052813, "train/extr_return_rate": 0.8398427926577055, "train/extr_return_raw_mag": 13.458458739060623, "train/extr_return_raw_max": 13.458458739060623, "train/extr_return_raw_mean": 3.751563233595628, "train/extr_return_raw_min": -0.7205283685372426, "train/extr_return_raw_std": 3.0737531515268177, "train/extr_reward_mag": 1.0859010549692008, "train/extr_reward_max": 1.0859010549692008, "train/extr_reward_mean": 0.063587397394272, "train/extr_reward_min": -0.6067894715529222, "train/extr_reward_std": 0.24175572464099296, "train/image_loss_mean": 3.6904961916116568, "train/image_loss_std": 8.836908450493446, "train/model_loss_mean": 7.251066780090332, "train/model_loss_std": 12.923283210167519, "train/model_opt_grad_norm": 20.749230766296385, "train/model_opt_grad_steps": 653531.9538461538, "train/model_opt_loss": 18375.097521033655, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2576.923076923077, "train/policy_entropy_mag": 2.732950408642109, "train/policy_entropy_max": 2.732950408642109, "train/policy_entropy_mean": 0.48496190034426173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6935224973238432, "train/policy_logprob_mag": 7.4383842321542595, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48452612390884986, "train/policy_logprob_min": -7.4383842321542595, "train/policy_logprob_std": 1.0950749525657066, "train/policy_randomness_mag": 0.9646115587307856, "train/policy_randomness_max": 0.9646115587307856, "train/policy_randomness_mean": 0.17117026952596812, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2447830048891214, "train/post_ent_mag": 55.29245887169471, "train/post_ent_max": 55.29245887169471, "train/post_ent_mean": 39.73683612530048, "train/post_ent_min": 19.41161961188683, "train/post_ent_std": 5.800496688255897, "train/prior_ent_mag": 76.80676457331731, "train/prior_ent_max": 76.80676457331731, "train/prior_ent_mean": 45.53170095590445, "train/prior_ent_min": 27.343895310621996, "train/prior_ent_std": 8.06996133510883, "train/rep_loss_mean": 5.826642043773944, "train/rep_loss_std": 8.987108707427979, "train/reward_avg": 0.05120642999043831, "train/reward_loss_mean": 0.0645438232100927, "train/reward_loss_std": 0.22599071883238278, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0376844846285307, "train/reward_neg_acc": 0.991828585588015, "train/reward_neg_loss": 0.02625266554263922, "train/reward_pos_acc": 0.9912404903998742, "train/reward_pos_loss": 0.7205004233580369, "train/reward_pred": 0.050701781706168104, "train/reward_rate": 0.055108173076923075, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 15.2, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 2.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 2.4, "stats/mean_log_entropy": 0.6020988076925278, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.7072074761222216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.402517434455649e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0037796497345, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027252674102783203, "timer/logger.write_frac": 9.084110251744731e-05, "timer/logger.write_avg": 0.027252674102783203, "timer/logger.write_min": 0.027252674102783203, "timer/logger.write_max": 0.027252674102783203, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.27375149726867676, "timer/replay.add_frac": 0.0009124934945429412, "timer/replay.add_avg": 0.00021025460619714036, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0020787715911865234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 14.81512451171875, "timer/env.step_frac": 0.04938312620266303, "timer/env.step_avg": 0.011378743864607336, "timer/env.step_min": 0.002647876739501953, "timer/env.step_max": 1.4327619075775146, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 14.220406532287598, "timer/agent.policy_frac": 0.047400757913418454, "timer/agent.policy_avg": 0.010921971222955145, "timer/agent.policy_min": 0.0055789947509765625, "timer/agent.policy_max": 3.160494089126587, "timer/dataset_count": 651.0, "timer/dataset_total": 0.0598142147064209, "timer/dataset_frac": 0.00019937820375548669, "timer/dataset_avg": 9.188051414196759e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00018548965454101562, "timer/agent.train_count": 651.0, "timer/agent.train_total": 269.958379983902, "timer/agent.train_frac": 0.8998499295545155, "timer/agent.train_avg": 0.41468261134239937, "timer/agent.train_min": 0.36475324630737305, "timer/agent.train_max": 0.4536166191101074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22295713424682617, "timer/agent.report_frac": 0.000743181084275461, "timer/agent.report_avg": 0.22295713424682617, "timer/agent.report_min": 0.22295713424682617, "timer/agent.report_max": 0.22295713424682617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019121170043945312, "timer/checkpoint.save_frac": 6.37364304752093e-07, "timer/checkpoint.save_avg": 0.00019121170043945312, "timer/checkpoint.save_min": 0.00019121170043945312, "timer/checkpoint.save_max": 0.00019121170043945312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2151775360107422, "timer/agent.save_frac": 0.004050540754618181, "timer/agent.save_avg": 1.2151775360107422, "timer/agent.save_min": 1.2151775360107422, "timer/agent.save_max": 1.2151775360107422, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.4159444968159135e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "fps": 4.339859387296549}
+{"step": 1310147, "episode/length": 336.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 18.900000050663948, "episode/reward_rate": 0.050445103857566766}
+{"step": 1310368, "episode/length": 220.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07692307692307693}
+{"step": 1310556, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0797872340425532}
+{"step": 1310855, "episode/length": 298.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.046822742474916385}
+{"step": 1311076, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06787330316742081}
+{"step": 1311209, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394683837890625, "train/action_min": 0.0, "train/action_std": 3.272489551341895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03494309684769674, "train/actor_opt_grad_steps": 654725.0, "train/actor_opt_loss": -12.495273658723542, "train/adv_mag": 0.39502568091406964, "train/adv_max": 0.32204960015687073, "train/adv_mean": 0.0015089703266505348, "train/adv_min": -0.36223527066635364, "train/adv_std": 0.04023314781035438, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 7.119175231936244e-05, "train/cont_loss_std": 0.0022288311781474245, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.012916785500365256, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 7.593213979254532e-06, "train/cont_pred": 0.9954233892036207, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.796598672866821, "train/dyn_loss_std": 9.030566649003463, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8527672570763212, "train/extr_critic_critic_opt_grad_steps": 654725.0, "train/extr_critic_critic_opt_loss": 14881.455033735796, "train/extr_critic_mag": 12.68171621091438, "train/extr_critic_max": 12.68171621091438, "train/extr_critic_mean": 3.8224994377656416, "train/extr_critic_min": -0.3331822355588277, "train/extr_critic_std": 3.0454886971098003, "train/extr_return_normed_mag": 1.362340175744259, "train/extr_return_normed_max": 1.362340175744259, "train/extr_return_normed_mean": 0.3962483433159915, "train/extr_return_normed_min": -0.061873610893433746, "train/extr_return_normed_std": 0.3143302175131711, "train/extr_return_rate": 0.8469391600652174, "train/extr_return_raw_mag": 13.26954393675833, "train/extr_return_raw_max": 13.26954393675833, "train/extr_return_raw_mean": 3.837235273736896, "train/extr_return_raw_min": -0.6352610434546615, "train/extr_return_raw_std": 3.0689671617565732, "train/extr_reward_mag": 1.0904437159046982, "train/extr_reward_max": 1.0904437159046982, "train/extr_reward_mean": 0.0646565178352775, "train/extr_reward_min": -0.5726000558246266, "train/extr_reward_std": 0.24334964020685715, "train/image_loss_mean": 3.5533198804566353, "train/image_loss_std": 8.859252922462694, "train/model_loss_mean": 7.098840316136678, "train/model_loss_std": 13.026790445501154, "train/model_opt_grad_norm": 18.89171465960416, "train/model_opt_grad_steps": 654186.0, "train/model_opt_loss": 17747.100807883522, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7491237539233584, "train/policy_entropy_max": 2.7491237539233584, "train/policy_entropy_mean": 0.446069751273502, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6612510197993481, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4455713778734207, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0709925510666587, "train/policy_randomness_mag": 0.9703200468511293, "train/policy_randomness_max": 0.9703200468511293, "train/policy_randomness_mean": 0.15744304939201384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23339259353550998, "train/post_ent_mag": 55.66916945486358, "train/post_ent_max": 55.66916945486358, "train/post_ent_mean": 39.70546450759425, "train/post_ent_min": 19.331381581046365, "train/post_ent_std": 5.806882056322965, "train/prior_ent_mag": 76.81122461954753, "train/prior_ent_max": 76.81122461954753, "train/prior_ent_mean": 45.457037550030336, "train/prior_ent_min": 27.199879415107496, "train/prior_ent_std": 8.060051130525993, "train/rep_loss_mean": 5.796598672866821, "train/rep_loss_std": 9.030566649003463, "train/reward_avg": 0.05377160235674995, "train/reward_loss_mean": 0.06749003555512789, "train/reward_loss_std": 0.23593963840694138, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0386755285841045, "train/reward_neg_acc": 0.9913356322230715, "train/reward_neg_loss": 0.02701729591089216, "train/reward_pos_acc": 0.9886877572897709, "train/reward_pos_loss": 0.7246618216687982, "train/reward_pred": 0.053301798038636196, "train/reward_rate": 0.05795750473484849, "stats/sum_log_reward": 14.700000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.6, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 21.6, "stats/max_log_achievement_collect_wood": 10.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.49584788680076597, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.864367802937825e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4033732992230039e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3804793357849, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03089761734008789, "timer/logger.write_frac": 0.00010286160208682708, "timer/logger.write_avg": 0.03089761734008789, "timer/logger.write_min": 0.03089761734008789, "timer/logger.write_max": 0.03089761734008789, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2943706512451172, "timer/replay.add_frac": 0.000979992614353779, "timer/replay.add_avg": 0.00022300806912508878, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0020253658294677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.400840044021606, "timer/env.step_frac": 0.051271108156151324, "timer/env.step_avg": 0.011667303063652733, "timer/env.step_min": 0.002725839614868164, "timer/env.step_max": 1.8028514385223389, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.06713056564331, "timer/agent.policy_frac": 0.033514596514075116, "timer/agent.policy_avg": 0.007626614064881296, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.016422748565673828, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05971670150756836, "timer/dataset_frac": 0.00019880353623383473, "timer/dataset_avg": 9.047985076904297e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.8617031574249, "timer/agent.train_frac": 0.9117160468050404, "timer/agent.train_avg": 0.4149419744809469, "timer/agent.train_min": 0.37214183807373047, "timer/agent.train_max": 0.47411394119262695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2343282699584961, "timer/agent.report_frac": 0.0007801048539394221, "timer/agent.report_avg": 0.2343282699584961, "timer/agent.report_min": 0.2343282699584961, "timer/agent.report_max": 0.2343282699584961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3943385241643576}
+{"step": 1311304, "episode/length": 227.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.06140350877192982}
+{"step": 1311560, "episode/length": 255.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.0625}
+{"step": 1311775, "episode/length": 214.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06976744186046512}
+{"step": 1312213, "episode/length": 437.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.0182648401826484}
+{"step": 1312320, "episode/length": 106.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.300000034272671, "episode/reward_rate": 0.028037383177570093}
+{"step": 1312482, "episode/length": 161.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.09259259259259259}
+{"step": 1312529, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.340051824396307, "train/action_min": 0.0, "train/action_std": 3.2359009005806665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03448623542984327, "train/actor_opt_grad_steps": 655385.0, "train/actor_opt_loss": -12.35075919375275, "train/adv_mag": 0.3941210232900851, "train/adv_max": 0.3026985799272855, "train/adv_mean": 0.0012989683942357783, "train/adv_min": -0.3678237362341447, "train/adv_std": 0.039514153744235184, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 5.587822383705069e-05, "train/cont_loss_std": 0.001778228252531539, "train/cont_neg_acc": 0.9919191924008456, "train/cont_neg_loss": 0.011816466833530817, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 9.399221853225187e-06, "train/cont_pred": 0.9953978016520991, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.897499221743959, "train/dyn_loss_std": 9.113783084984982, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8253873234445398, "train/extr_critic_critic_opt_grad_steps": 655385.0, "train/extr_critic_critic_opt_loss": 14858.986535274622, "train/extr_critic_mag": 12.715491005868623, "train/extr_critic_max": 12.715491005868623, "train/extr_critic_mean": 3.7575709603049536, "train/extr_critic_min": -0.31881402839313855, "train/extr_critic_std": 2.999865091208256, "train/extr_return_normed_mag": 1.3743967720956514, "train/extr_return_normed_max": 1.3743967720956514, "train/extr_return_normed_mean": 0.39298135900136194, "train/extr_return_normed_min": -0.06060542905646743, "train/extr_return_normed_std": 0.3107246682047844, "train/extr_return_rate": 0.8379656302206444, "train/extr_return_raw_mag": 13.309665145296039, "train/extr_return_raw_max": 13.309665145296039, "train/extr_return_raw_mean": 3.7702319658163823, "train/extr_return_raw_min": -0.6397650585030065, "train/extr_return_raw_std": 3.020605127016703, "train/extr_reward_mag": 1.0865890148914221, "train/extr_reward_max": 1.0865890148914221, "train/extr_reward_mean": 0.0645032748015541, "train/extr_reward_min": -0.5608969095981482, "train/extr_reward_std": 0.2433991985339107, "train/image_loss_mean": 3.730916229161349, "train/image_loss_std": 9.26308689695416, "train/model_loss_mean": 7.333994294657852, "train/model_loss_std": 13.487335999806723, "train/model_opt_grad_norm": 19.478523709223822, "train/model_opt_grad_steps": 654845.6666666666, "train/model_opt_loss": 22265.148866595642, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 2992.4242424242425, "train/policy_entropy_mag": 2.742561278921185, "train/policy_entropy_max": 2.742561278921185, "train/policy_entropy_mean": 0.4514559200315764, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6682671719428265, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.452268584208055, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.075287062110323, "train/policy_randomness_mag": 0.9680037733280298, "train/policy_randomness_max": 0.9680037733280298, "train/policy_randomness_mean": 0.15934413061900574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23586898342226492, "train/post_ent_mag": 55.355488979455195, "train/post_ent_max": 55.355488979455195, "train/post_ent_mean": 39.81424025333289, "train/post_ent_min": 19.275769724990383, "train/post_ent_std": 5.840009450912476, "train/prior_ent_mag": 76.79681512081262, "train/prior_ent_max": 76.79681512081262, "train/prior_ent_mean": 45.6440653367476, "train/prior_ent_min": 27.553629990779992, "train/prior_ent_std": 8.031191984812418, "train/rep_loss_mean": 5.897499221743959, "train/rep_loss_std": 9.113783084984982, "train/reward_avg": 0.05230971792656364, "train/reward_loss_mean": 0.06452266380868175, "train/reward_loss_std": 0.22393180858908276, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0305694684837803, "train/reward_neg_acc": 0.9922554023338087, "train/reward_neg_loss": 0.025592315377611103, "train/reward_pos_acc": 0.9908159826741074, "train/reward_pos_loss": 0.716162565982703, "train/reward_pred": 0.05209532651034268, "train/reward_rate": 0.05635949337121212, "stats/sum_log_reward": 10.933333595593771, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5372605895002683, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.7615949457341975e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4108464573368883e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15125823020935, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0260162353515625, "timer/logger.write_frac": 8.667708243158063e-05, "timer/logger.write_avg": 0.0260162353515625, "timer/logger.write_min": 0.0260162353515625, "timer/logger.write_max": 0.0260162353515625, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2823350429534912, "timer/replay.add_frac": 0.0009406425434237111, "timer/replay.add_avg": 0.00021389018405567516, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0012743473052978516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.88502812385559, "timer/env.step_frac": 0.052923410075036655, "timer/env.step_avg": 0.012034112215042114, "timer/env.step_min": 0.002704620361328125, "timer/env.step_max": 1.441990613937378, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.164576053619385, "timer/agent.policy_frac": 0.03386484572329655, "timer/agent.policy_avg": 0.007700436404257109, "timer/agent.policy_min": 0.005682945251464844, "timer/agent.policy_max": 0.04638981819152832, "timer/dataset_count": 660.0, "timer/dataset_total": 0.058968544006347656, "timer/dataset_frac": 0.00019646275799090635, "timer/dataset_avg": 8.934627879749645e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00023818016052246094, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.07284569740295, "timer/agent.train_frac": 0.9097841112095627, "timer/agent.train_avg": 0.413746735905156, "timer/agent.train_min": 0.3672206401824951, "timer/agent.train_max": 0.44985198974609375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22157073020935059, "timer/agent.report_frac": 0.0007381969061725896, "timer/agent.report_avg": 0.22157073020935059, "timer/agent.report_min": 0.22157073020935059, "timer/agent.report_max": 0.22157073020935059, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.397708408475503}
+{"step": 1312666, "episode/length": 183.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07608695652173914}
+{"step": 1312785, "episode/length": 118.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07563025210084033}
+{"step": 1313110, "episode/length": 324.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.046153846153846156}
+{"step": 1313320, "episode/length": 209.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.047619047619047616}
+{"step": 1313567, "episode/length": 246.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06072874493927125}
+{"step": 1313781, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06542056074766354}
+{"step": 1313825, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.450318321814904, "train/action_min": 0.0, "train/action_std": 3.3213516748868503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03447411005886702, "train/actor_opt_grad_steps": 656040.0, "train/actor_opt_loss": -10.020971742043129, "train/adv_mag": 0.43709108325151297, "train/adv_max": 0.34543800491553084, "train/adv_mean": 0.0017819513961652635, "train/adv_min": -0.3914108457473608, "train/adv_std": 0.03984826241548245, "train/cont_avg": 0.9952974759615385, "train/cont_loss_mean": 7.245457451689346e-05, "train/cont_loss_std": 0.002252564581203186, "train/cont_neg_acc": 0.9968750001862645, "train/cont_neg_loss": 0.007456101944052954, "train/cont_pos_acc": 0.9999849126889155, "train/cont_pos_loss": 3.7101691111292194e-05, "train/cont_pred": 0.9952908974427443, "train/cont_rate": 0.9952974759615385, "train/dyn_loss_mean": 5.893272840059721, "train/dyn_loss_std": 9.052039645268367, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8305315888845004, "train/extr_critic_critic_opt_grad_steps": 656040.0, "train/extr_critic_critic_opt_loss": 14912.848753004808, "train/extr_critic_mag": 12.62925469325139, "train/extr_critic_max": 12.62925469325139, "train/extr_critic_mean": 3.729180181943453, "train/extr_critic_min": -0.3286861181259155, "train/extr_critic_std": 3.038363056916457, "train/extr_return_normed_mag": 1.3799262175193199, "train/extr_return_normed_max": 1.3799262175193199, "train/extr_return_normed_mean": 0.3898697513800401, "train/extr_return_normed_min": -0.07032427260508904, "train/extr_return_normed_std": 0.3163133396552159, "train/extr_return_rate": 0.832530089525076, "train/extr_return_raw_mag": 13.33108385526217, "train/extr_return_raw_max": 13.33108385526217, "train/extr_return_raw_mean": 3.746417709497305, "train/extr_return_raw_min": -0.708499537064479, "train/extr_return_raw_std": 3.0622194033402663, "train/extr_reward_mag": 1.0899656772613526, "train/extr_reward_max": 1.0899656772613526, "train/extr_reward_mean": 0.06431437484346904, "train/extr_reward_min": -0.6168129315743079, "train/extr_reward_std": 0.24300133058658013, "train/image_loss_mean": 3.613770002585191, "train/image_loss_std": 9.188975561582126, "train/model_loss_mean": 7.217050589047945, "train/model_loss_std": 13.307275801438552, "train/model_opt_grad_norm": 21.203966889014612, "train/model_opt_grad_steps": 655500.0, "train/model_opt_loss": 18042.626487379806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7348153921274037, "train/policy_entropy_max": 2.7348153921274037, "train/policy_entropy_mean": 0.4722734121175913, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.690714382666808, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.472327818778845, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.087598963884207, "train/policy_randomness_mag": 0.9652698177557725, "train/policy_randomness_max": 0.9652698177557725, "train/policy_randomness_mean": 0.1666917900626476, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24379186515624707, "train/post_ent_mag": 55.05851258497972, "train/post_ent_max": 55.05851258497972, "train/post_ent_mean": 39.74471189058744, "train/post_ent_min": 19.26921553978553, "train/post_ent_std": 5.755295232626108, "train/prior_ent_mag": 76.82543018047626, "train/prior_ent_max": 76.82543018047626, "train/prior_ent_mean": 45.63600411048302, "train/prior_ent_min": 27.800582562960113, "train/prior_ent_std": 7.95369468835684, "train/rep_loss_mean": 5.893272840059721, "train/rep_loss_std": 9.052039645268367, "train/reward_avg": 0.05249849706888199, "train/reward_loss_mean": 0.0672445066846334, "train/reward_loss_std": 0.23685296315413254, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0329059747549203, "train/reward_neg_acc": 0.9915029479907109, "train/reward_neg_loss": 0.027796076682324592, "train/reward_pos_acc": 0.989669120311737, "train/reward_pos_loss": 0.7227083820563096, "train/reward_pred": 0.05207059486554219, "train/reward_rate": 0.056805889423076926, "stats/sum_log_reward": 11.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4248609667023023, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.6715725321828583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.396018045919913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0503706932068, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02393651008605957, "timer/logger.write_frac": 7.977497255130536e-05, "timer/logger.write_avg": 0.02393651008605957, "timer/logger.write_min": 0.02393651008605957, "timer/logger.write_max": 0.02393651008605957, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2755470275878906, "timer/replay.add_frac": 0.0009183359012398284, "timer/replay.add_avg": 0.00021261344721287858, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.00311279296875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.838881969451904, "timer/env.step_frac": 0.05278741010337469, "timer/env.step_avg": 0.012221359544330172, "timer/env.step_min": 0.0026144981384277344, "timer/env.step_max": 1.4117045402526855, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.354727745056152, "timer/agent.policy_frac": 0.04784105985902435, "timer/agent.policy_avg": 0.011076178815629747, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 3.1999425888061523, "timer/dataset_count": 648.0, "timer/dataset_total": 0.05711483955383301, "timer/dataset_frac": 0.00019035083816720677, "timer/dataset_avg": 8.814018449665587e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 648.0, "timer/agent.train_total": 268.86135244369507, "timer/agent.train_frac": 0.896054058598709, "timer/agent.train_avg": 0.4149094945118751, "timer/agent.train_min": 0.37091779708862305, "timer/agent.train_max": 0.5080881118774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21939659118652344, "timer/agent.report_frac": 0.0007311992005863922, "timer/agent.report_avg": 0.21939659118652344, "timer/agent.report_min": 0.21939659118652344, "timer/agent.report_max": 0.21939659118652344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038552284240722656, "timer/checkpoint.save_frac": 1.284860410325615e-06, "timer/checkpoint.save_avg": 0.00038552284240722656, "timer/checkpoint.save_min": 0.00038552284240722656, "timer/checkpoint.save_max": 0.00038552284240722656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4173974990844727, "timer/agent.save_frac": 0.0047238651824020655, "timer/agent.save_avg": 1.4173974990844727, "timer/agent.save_min": 1.4173974990844727, "timer/agent.save_max": 1.4173974990844727, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3837855479139425e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "fps": 4.31919657507581}
+{"step": 1314004, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06278026905829596}
+{"step": 1314315, "episode/length": 310.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.04501607717041801}
+{"step": 1314508, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
+{"step": 1314728, "episode/length": 219.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07272727272727272}
+{"step": 1315004, "episode/length": 275.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.057971014492753624}
+{"step": 1315051, "episode/length": 46.0, "episode/score": 5.100000016391277, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.1276595744680851}
+{"step": 1315092, "episode/length": 40.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.14634146341463414}
+{"step": 1315135, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.477173790564904, "train/action_min": 0.0, "train/action_std": 3.3753539158747747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03584040036568275, "train/actor_opt_grad_steps": 656690.0, "train/actor_opt_loss": -10.414078776652996, "train/adv_mag": 0.3957079011660356, "train/adv_max": 0.31235146339123065, "train/adv_mean": 0.001895176521625567, "train/adv_min": -0.36593903119747456, "train/adv_std": 0.040302119289453216, "train/cont_avg": 0.9951322115384615, "train/cont_loss_mean": 0.00012707709542277931, "train/cont_loss_std": 0.0039670983363906155, "train/cont_neg_acc": 0.9947916669771075, "train/cont_neg_loss": 0.03568616616210963, "train/cont_pos_acc": 0.9999848540012654, "train/cont_pos_loss": 2.0560108732489913e-05, "train/cont_pred": 0.9951397244746868, "train/cont_rate": 0.9951322115384615, "train/dyn_loss_mean": 5.9562157264122595, "train/dyn_loss_std": 9.12489672440749, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8541078833433298, "train/extr_critic_critic_opt_grad_steps": 656690.0, "train/extr_critic_critic_opt_loss": 15135.693239182692, "train/extr_critic_mag": 12.60621744302603, "train/extr_critic_max": 12.60621744302603, "train/extr_critic_mean": 3.6752008804908165, "train/extr_critic_min": -0.32798547377953163, "train/extr_critic_std": 3.035680879079379, "train/extr_return_normed_mag": 1.3756915422586293, "train/extr_return_normed_max": 1.3756915422586293, "train/extr_return_normed_mean": 0.3829027503728867, "train/extr_return_normed_min": -0.06843375907494471, "train/extr_return_normed_std": 0.31628541144040917, "train/extr_return_rate": 0.8286859374779921, "train/extr_return_raw_mag": 13.314990909282978, "train/extr_return_raw_max": 13.314990909282978, "train/extr_return_raw_mean": 3.6935651742495024, "train/extr_return_raw_min": -0.6812816784932063, "train/extr_return_raw_std": 3.0656733109400824, "train/extr_reward_mag": 1.0901938328376184, "train/extr_reward_max": 1.0901938328376184, "train/extr_reward_mean": 0.06457856887808212, "train/extr_reward_min": -0.6004717019888071, "train/extr_reward_std": 0.2433709985934771, "train/image_loss_mean": 3.7981649692241963, "train/image_loss_std": 9.22625006895799, "train/model_loss_mean": 7.437513212057261, "train/model_loss_std": 13.356407062823957, "train/model_opt_grad_norm": 19.6030216217041, "train/model_opt_grad_steps": 656149.323076923, "train/model_opt_loss": 20757.32537560096, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2769.230769230769, "train/policy_entropy_mag": 2.7370186218848596, "train/policy_entropy_max": 2.7370186218848596, "train/policy_entropy_mean": 0.4746868399473337, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6878717697583712, "train/policy_logprob_mag": 7.438384364201473, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47622970663584197, "train/policy_logprob_min": -7.438384364201473, "train/policy_logprob_std": 1.0931931908314045, "train/policy_randomness_mag": 0.9660474612162664, "train/policy_randomness_max": 0.9660474612162664, "train/policy_randomness_mean": 0.16754362491460947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24278854842369374, "train/post_ent_mag": 55.191475501427284, "train/post_ent_max": 55.191475501427284, "train/post_ent_mean": 39.829241884671724, "train/post_ent_min": 19.53190523294302, "train/post_ent_std": 5.861823632166936, "train/prior_ent_mag": 76.7790505042443, "train/prior_ent_max": 76.7790505042443, "train/prior_ent_mean": 45.730521451509915, "train/prior_ent_min": 27.3960810147799, "train/prior_ent_std": 8.02112023280217, "train/rep_loss_mean": 5.9562157264122595, "train/rep_loss_std": 9.12489672440749, "train/reward_avg": 0.051409254781901836, "train/reward_loss_mean": 0.06549165581281369, "train/reward_loss_std": 0.22483675456964053, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0354690955235408, "train/reward_neg_acc": 0.9919567126494188, "train/reward_neg_loss": 0.027098346702181374, "train/reward_pos_acc": 0.9918662639764639, "train/reward_pos_loss": 0.7165560052945064, "train/reward_pred": 0.05108447882991571, "train/reward_rate": 0.0556640625, "stats/sum_log_reward": 11.242857456207275, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.45469957696540014, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.7457196767093573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4081938576152307e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0510449409485, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.037480831146240234, "timer/logger.write_frac": 0.00012491484958373215, "timer/logger.write_avg": 0.037480831146240234, "timer/logger.write_min": 0.037480831146240234, "timer/logger.write_max": 0.037480831146240234, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2792673110961914, "timer/replay.add_frac": 0.0009307326730061965, "timer/replay.add_avg": 0.00021318115350854307, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0019333362579345703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.278169631958008, "timer/env.step_frac": 0.05758410084976853, "timer/env.step_avg": 0.013189442467143517, "timer/env.step_min": 0.002672433853149414, "timer/env.step_max": 1.4095954895019531, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.927905321121216, "timer/agent.policy_frac": 0.03308738792452823, "timer/agent.policy_avg": 0.007578553680245203, "timer/agent.policy_min": 0.005659818649291992, "timer/agent.policy_max": 0.01729583740234375, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05935406684875488, "timer/dataset_frac": 0.00019781323161342782, "timer/dataset_avg": 9.061689595229753e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.8062698841095, "timer/agent.train_frac": 0.9058667665616772, "timer/agent.train_avg": 0.4149714044032206, "timer/agent.train_min": 0.3720691204071045, "timer/agent.train_max": 0.4529538154602051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23225951194763184, "timer/agent.report_frac": 0.0007740666658679414, "timer/agent.report_avg": 0.23225951194763184, "timer/agent.report_min": 0.23225951194763184, "timer/agent.report_max": 0.23225951194763184, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.365850264652791}
+{"step": 1315388, "episode/length": 295.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05067567567567568}
+{"step": 1315583, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
+{"step": 1315786, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06403940886699508}
+{"step": 1316059, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05128205128205128}
+{"step": 1316289, "episode/length": 229.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.043478260869565216}
+{"step": 1316392, "episode/length": 102.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.05825242718446602}
+{"step": 1316453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395535555752841, "train/action_min": 0.0, "train/action_std": 3.2560516487468374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035570636335195915, "train/actor_opt_grad_steps": 657345.0, "train/actor_opt_loss": -11.27303299601331, "train/adv_mag": 0.434271185687094, "train/adv_max": 0.34453473443334753, "train/adv_mean": 0.0016977558566809007, "train/adv_min": -0.3820326348597353, "train/adv_std": 0.04062743970390522, "train/cont_avg": 0.9951615767045454, "train/cont_loss_mean": 8.908531805062341e-05, "train/cont_loss_std": 0.0028362761121162416, "train/cont_neg_acc": 0.9952861955671599, "train/cont_neg_loss": 0.014614156771581342, "train/cont_pos_acc": 0.999999974713181, "train/cont_pos_loss": 1.2026403434114396e-05, "train/cont_pred": 0.9951838318145636, "train/cont_rate": 0.9951615767045454, "train/dyn_loss_mean": 5.800940990447998, "train/dyn_loss_std": 9.000837369398637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8515953584150835, "train/extr_critic_critic_opt_grad_steps": 657345.0, "train/extr_critic_critic_opt_loss": 14846.02647076231, "train/extr_critic_mag": 12.603380044301352, "train/extr_critic_max": 12.603380044301352, "train/extr_critic_mean": 3.828308080181931, "train/extr_critic_min": -0.2819898309129657, "train/extr_critic_std": 2.983174670826305, "train/extr_return_normed_mag": 1.3864923986521633, "train/extr_return_normed_max": 1.3864923986521633, "train/extr_return_normed_mean": 0.40004958257530676, "train/extr_return_normed_min": -0.06791748930559013, "train/extr_return_normed_std": 0.3132095585266749, "train/extr_return_rate": 0.8527679560762463, "train/extr_return_raw_mag": 13.317968065088445, "train/extr_return_raw_max": 13.317968065088445, "train/extr_return_raw_mean": 3.8446293744173916, "train/extr_return_raw_min": -0.6484321378397219, "train/extr_return_raw_std": 3.007733876054937, "train/extr_reward_mag": 1.0900592045350508, "train/extr_reward_max": 1.0900592045350508, "train/extr_reward_mean": 0.06526031345129013, "train/extr_reward_min": -0.6012677821246061, "train/extr_reward_std": 0.24404155282360135, "train/image_loss_mean": 3.4632107922525117, "train/image_loss_std": 8.64678025968147, "train/model_loss_mean": 7.011492815884677, "train/model_loss_std": 12.76612814989957, "train/model_opt_grad_norm": 19.490758708029084, "train/model_opt_grad_steps": 656804.0, "train/model_opt_loss": 19872.459487452652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2878.787878787879, "train/policy_entropy_mag": 2.7419318936087866, "train/policy_entropy_max": 2.7419318936087866, "train/policy_entropy_mean": 0.4486653104876027, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6721144146991499, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4477089647993897, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0715821692437837, "train/policy_randomness_mag": 0.967781634944858, "train/policy_randomness_max": 0.967781634944858, "train/policy_randomness_mean": 0.1583591660089565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23722689418178616, "train/post_ent_mag": 55.51131780219801, "train/post_ent_max": 55.51131780219801, "train/post_ent_mean": 39.66084295330626, "train/post_ent_min": 19.36952322179621, "train/post_ent_std": 5.790287314039288, "train/prior_ent_mag": 76.81445878924745, "train/prior_ent_max": 76.81445878924745, "train/prior_ent_mean": 45.46233217643969, "train/prior_ent_min": 27.190069632096723, "train/prior_ent_std": 8.049300034840902, "train/rep_loss_mean": 5.800940990447998, "train/rep_loss_std": 9.000837369398637, "train/reward_avg": 0.05382339029826901, "train/reward_loss_mean": 0.06762836924330755, "train/reward_loss_std": 0.23224359186309756, "train/reward_max_data": 1.0409091006625781, "train/reward_max_pred": 1.0386748061035618, "train/reward_neg_acc": 0.9916248727928508, "train/reward_neg_loss": 0.027170283211903137, "train/reward_pos_acc": 0.9874716473348213, "train/reward_pos_loss": 0.7261107022112067, "train/reward_pred": 0.05336116948588328, "train/reward_rate": 0.05809067234848485, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 7.666666666666667, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.512956440448761, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.7479472992452756e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.397792232959151e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31374502182007, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029510021209716797, "timer/logger.write_frac": 9.826397125969933e-05, "timer/logger.write_avg": 0.029510021209716797, "timer/logger.write_min": 0.029510021209716797, "timer/logger.write_max": 0.029510021209716797, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2842519283294678, "timer/replay.add_frac": 0.000946516544918098, "timer/replay.add_avg": 0.00021566914137288905, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003565073013305664, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.269578218460083, "timer/env.step_frac": 0.05417526999064919, "timer/env.step_avg": 0.012344141288664706, "timer/env.step_min": 0.002710103988647461, "timer/env.step_max": 1.6603314876556396, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.988575220108032, "timer/agent.policy_frac": 0.03326046638119173, "timer/agent.policy_avg": 0.007578585144239781, "timer/agent.policy_min": 0.005563497543334961, "timer/agent.policy_max": 0.015801668167114258, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05918407440185547, "timer/dataset_frac": 0.00019707414456689385, "timer/dataset_avg": 8.980891411510694e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.030464887619, "timer/agent.train_frac": 0.9091507445580996, "timer/agent.train_avg": 0.41431026538333693, "timer/agent.train_min": 0.36331772804260254, "timer/agent.train_max": 0.4512503147125244, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22013068199157715, "timer/agent.report_frac": 0.0007330023538402579, "timer/agent.report_avg": 0.22013068199157715, "timer/agent.report_min": 0.22013068199157715, "timer/agent.report_max": 0.22013068199157715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3886727102900585}
+{"step": 1316618, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.061946902654867256}
+{"step": 1317089, "episode/length": 470.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03184713375796178}
+{"step": 1317270, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06629834254143646}
+{"step": 1317685, "episode/length": 414.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02891566265060241}
+{"step": 1317759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398455070726799, "train/action_min": 0.0, "train/action_std": 3.300522197376598, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03527259761749795, "train/actor_opt_grad_steps": 658005.0, "train/actor_opt_loss": -11.118688230938984, "train/adv_mag": 0.37238694275870465, "train/adv_max": 0.30496218326416885, "train/adv_mean": 0.002042688470530927, "train/adv_min": -0.33398775485428894, "train/adv_std": 0.04018528426461147, "train/cont_avg": 0.9951911695075758, "train/cont_loss_mean": 8.853057216987626e-06, "train/cont_loss_std": 0.00023566568784724151, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020875021484357387, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 7.987540859076926e-06, "train/cont_pred": 0.9951844341827162, "train/cont_rate": 0.9951911695075758, "train/dyn_loss_mean": 5.975352077773123, "train/dyn_loss_std": 9.153426748333555, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8410888142658003, "train/extr_critic_critic_opt_grad_steps": 658005.0, "train/extr_critic_critic_opt_loss": 14996.808874881628, "train/extr_critic_mag": 12.798621972401937, "train/extr_critic_max": 12.798621972401937, "train/extr_critic_mean": 3.7525354515422475, "train/extr_critic_min": -0.31215779889713635, "train/extr_critic_std": 3.0563514377131606, "train/extr_return_normed_mag": 1.3916239395286099, "train/extr_return_normed_max": 1.3916239395286099, "train/extr_return_normed_mean": 0.38869266934467084, "train/extr_return_normed_min": -0.062323331804663845, "train/extr_return_normed_std": 0.3173383221481786, "train/extr_return_rate": 0.845322409362504, "train/extr_return_raw_mag": 13.52010677800034, "train/extr_return_raw_max": 13.52010677800034, "train/extr_return_raw_mean": 3.7723830179734663, "train/extr_return_raw_min": -0.611501255721757, "train/extr_return_raw_std": 3.084294951323307, "train/extr_reward_mag": 1.08774564482949, "train/extr_reward_max": 1.08774564482949, "train/extr_reward_mean": 0.06535455240218928, "train/extr_reward_min": -0.5849710522275983, "train/extr_reward_std": 0.24490627714178778, "train/image_loss_mean": 3.717133691816619, "train/image_loss_std": 9.609244758432562, "train/model_loss_mean": 7.3697161385507295, "train/model_loss_std": 13.804017066955566, "train/model_opt_grad_norm": 21.989032167376894, "train/model_opt_grad_steps": 657463.0303030303, "train/model_opt_loss": 18935.693596117424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.7355050968401358, "train/policy_entropy_max": 2.7355050968401358, "train/policy_entropy_mean": 0.45735355579491815, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6774221487117537, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4577474986965006, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.078004949020617, "train/policy_randomness_mag": 0.9655132564631376, "train/policy_randomness_max": 0.9655132564631376, "train/policy_randomness_mean": 0.16142573264060597, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23910028803529162, "train/post_ent_mag": 55.209149505152844, "train/post_ent_max": 55.209149505152844, "train/post_ent_mean": 39.77870490334251, "train/post_ent_min": 19.149535352533515, "train/post_ent_std": 5.82250384128455, "train/prior_ent_mag": 76.8032182635683, "train/prior_ent_max": 76.8032182635683, "train/prior_ent_mean": 45.68966934897683, "train/prior_ent_min": 27.349534930604875, "train/prior_ent_std": 8.065525806311404, "train/rep_loss_mean": 5.975352077773123, "train/rep_loss_std": 9.153426748333555, "train/reward_avg": 0.05319750201747273, "train/reward_loss_mean": 0.0673623602611549, "train/reward_loss_std": 0.23262359856656104, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0291923248406611, "train/reward_neg_acc": 0.9919567108154297, "train/reward_neg_loss": 0.027279525063931942, "train/reward_pos_acc": 0.9881020224455631, "train/reward_pos_loss": 0.7280277420173992, "train/reward_pred": 0.052757713040619186, "train/reward_rate": 0.05732125946969697, "stats/sum_log_reward": 12.350000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 20.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 23.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 3.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6179618313908577, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.702242560627632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3980392657596886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13572335243225, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023814678192138672, "timer/logger.write_frac": 7.934636345895572e-05, "timer/logger.write_avg": 0.023814678192138672, "timer/logger.write_min": 0.023814678192138672, "timer/logger.write_max": 0.023814678192138672, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.2747318744659424, "timer/replay.add_frac": 0.0009153587963380834, "timer/replay.add_avg": 0.00021036131276105848, "timer/replay.add_min": 8.845329284667969e-05, "timer/replay.add_max": 0.0010995864868164062, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 13.425598382949829, "timer/env.step_frac": 0.044731757462889266, "timer/env.step_avg": 0.01027993750608716, "timer/env.step_min": 0.002704620361328125, "timer/env.step_max": 1.7157175540924072, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 14.378922700881958, "timer/agent.policy_frac": 0.047908068190861804, "timer/agent.policy_avg": 0.011009894870506859, "timer/agent.policy_min": 0.005534172058105469, "timer/agent.policy_max": 3.353755474090576, "timer/dataset_count": 653.0, "timer/dataset_total": 0.06030082702636719, "timer/dataset_frac": 0.00020091186198305147, "timer/dataset_avg": 9.234429866212432e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002665519714355469, "timer/agent.train_count": 653.0, "timer/agent.train_total": 271.30454874038696, "timer/agent.train_frac": 0.9039395434505126, "timer/agent.train_avg": 0.4154740409500566, "timer/agent.train_min": 0.37167859077453613, "timer/agent.train_max": 0.453960657119751, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2338254451751709, "timer/agent.report_frac": 0.0007790656925587062, "timer/agent.report_avg": 0.2338254451751709, "timer/agent.report_min": 0.2338254451751709, "timer/agent.report_max": 0.2338254451751709, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002846717834472656, "timer/checkpoint.save_frac": 9.484768433012947e-07, "timer/checkpoint.save_avg": 0.0002846717834472656, "timer/checkpoint.save_min": 0.0002846717834472656, "timer/checkpoint.save_max": 0.0002846717834472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2124464511871338, "timer/agent.save_frac": 0.00403966058303372, "timer/agent.save_avg": 1.2124464511871338, "timer/agent.save_min": 1.2124464511871338, "timer/agent.save_max": 1.2124464511871338, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.3910513386406175e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.35129304226231}
+{"step": 1317956, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.055350553505535055}
+{"step": 1318199, "episode/length": 242.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.053497942386831275}
+{"step": 1318403, "episode/length": 203.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06862745098039216}
+{"step": 1318584, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06629834254143646}
+{"step": 1318780, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
+{"step": 1319004, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06696428571428571}
+{"step": 1319079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422862659801137, "train/action_min": 0.0, "train/action_std": 3.375773801948085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03590587481404796, "train/actor_opt_grad_steps": 658665.0, "train/actor_opt_loss": -11.877224499529058, "train/adv_mag": 0.4058425724506378, "train/adv_max": 0.3294528420224334, "train/adv_mean": 0.0015954823450308388, "train/adv_min": -0.3458597452351541, "train/adv_std": 0.03968769484058474, "train/cont_avg": 0.99560546875, "train/cont_loss_mean": 9.644355160521092e-06, "train/cont_loss_std": 0.00028295863601357496, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023059892210335937, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 8.547761176956644e-06, "train/cont_pred": 0.9955983234174324, "train/cont_rate": 0.99560546875, "train/dyn_loss_mean": 5.706881848248568, "train/dyn_loss_std": 8.91370812329379, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8110355021375598, "train/extr_critic_critic_opt_grad_steps": 658665.0, "train/extr_critic_critic_opt_loss": 14803.851089015152, "train/extr_critic_mag": 12.886394081693707, "train/extr_critic_max": 12.886394081693707, "train/extr_critic_mean": 3.7861954407258467, "train/extr_critic_min": -0.34501781066258747, "train/extr_critic_std": 3.0292297890692046, "train/extr_return_normed_mag": 1.3861528598900996, "train/extr_return_normed_max": 1.3861528598900996, "train/extr_return_normed_mean": 0.39242026887156745, "train/extr_return_normed_min": -0.06599666085094213, "train/extr_return_normed_std": 0.3133987429918665, "train/extr_return_rate": 0.8420484562714895, "train/extr_return_raw_mag": 13.491067756306041, "train/extr_return_raw_max": 13.491067756306041, "train/extr_return_raw_mean": 3.801752617864898, "train/extr_return_raw_min": -0.6677935895594683, "train/extr_return_raw_std": 3.055797396284161, "train/extr_reward_mag": 1.0840473319544937, "train/extr_reward_max": 1.0840473319544937, "train/extr_reward_mean": 0.06475543462191567, "train/extr_reward_min": -0.5869474031708457, "train/extr_reward_std": 0.24370720576156268, "train/image_loss_mean": 3.5827732664166074, "train/image_loss_std": 8.922110326362379, "train/model_loss_mean": 7.07238338210366, "train/model_loss_std": 13.0246964078961, "train/model_opt_grad_norm": 19.593345483144123, "train/model_opt_grad_steps": 658122.696969697, "train/model_opt_loss": 20455.383049242424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2878.787878787879, "train/policy_entropy_mag": 2.7371311657356494, "train/policy_entropy_max": 2.7371311657356494, "train/policy_entropy_mean": 0.4709424362941222, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6908073321436391, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4719346874591076, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0898064989032168, "train/policy_randomness_mag": 0.966087183265975, "train/policy_randomness_max": 0.966087183265975, "train/policy_randomness_mean": 0.16622201680685533, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24382467161525379, "train/post_ent_mag": 55.176872715805516, "train/post_ent_max": 55.176872715805516, "train/post_ent_mean": 39.93911303895892, "train/post_ent_min": 19.5945782661438, "train/post_ent_std": 5.8262418689149795, "train/prior_ent_mag": 76.81959972959577, "train/prior_ent_max": 76.81959972959577, "train/prior_ent_mean": 45.62307386687308, "train/prior_ent_min": 27.40694424600312, "train/prior_ent_std": 7.999419710852883, "train/rep_loss_mean": 5.706881848248568, "train/rep_loss_std": 8.91370812329379, "train/reward_avg": 0.05284238821177772, "train/reward_loss_mean": 0.0654714261040543, "train/reward_loss_std": 0.22894219941262042, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0344963976831147, "train/reward_neg_acc": 0.992857653986324, "train/reward_neg_loss": 0.02595286002156861, "train/reward_pos_acc": 0.9880046022660804, "train/reward_pos_loss": 0.7208907089450143, "train/reward_pred": 0.05238225883945371, "train/reward_rate": 0.056892163825757576, "stats/sum_log_reward": 12.43333355585734, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.42811621228853863, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.614570155288234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3982933579069196e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3501396179199, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02625417709350586, "timer/logger.write_frac": 8.741190241131303e-05, "timer/logger.write_avg": 0.02625417709350586, "timer/logger.write_min": 0.02625417709350586, "timer/logger.write_max": 0.02625417709350586, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2793240547180176, "timer/replay.add_frac": 0.0009299947556986324, "timer/replay.add_avg": 0.00021160913236213452, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.002930164337158203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.112658739089966, "timer/env.step_frac": 0.053646250205134347, "timer/env.step_avg": 0.012206559650825732, "timer/env.step_min": 0.002623319625854492, "timer/env.step_max": 1.771554946899414, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.00842809677124, "timer/agent.policy_frac": 0.033322535190105515, "timer/agent.policy_avg": 0.00758214249755397, "timer/agent.policy_min": 0.0056993961334228516, "timer/agent.policy_max": 0.01977062225341797, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06002449989318848, "timer/dataset_frac": 0.00019984841681627507, "timer/dataset_avg": 9.094621195937648e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.20137000083923, "timer/agent.train_frac": 0.9096095988115169, "timer/agent.train_avg": 0.41394146969824125, "timer/agent.train_min": 0.36287832260131836, "timer/agent.train_max": 0.4535825252532959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2267470359802246, "timer/agent.report_frac": 0.0007549423358639788, "timer/agent.report_avg": 0.2267470359802246, "timer/agent.report_min": 0.2267470359802246, "timer/agent.report_max": 0.2267470359802246, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.394826073354446}
+{"step": 1319193, "episode/length": 188.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08465608465608465}
+{"step": 1319422, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0611353711790393}
+{"step": 1319723, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04983388704318937}
+{"step": 1319783, "episode/length": 59.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.08333333333333333}
+{"step": 1320098, "episode/length": 314.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.050793650793650794}
+{"step": 1320391, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3590951772836535, "train/action_min": 0.0, "train/action_std": 3.2929383534651535, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034772411475961024, "train/actor_opt_grad_steps": 659320.0, "train/actor_opt_loss": -11.414819709154276, "train/adv_mag": 0.40258013330973114, "train/adv_max": 0.3569785801263956, "train/adv_mean": 0.0019947593204471138, "train/adv_min": -0.3405912243402921, "train/adv_std": 0.04024406740298638, "train/cont_avg": 0.9954477163461538, "train/cont_loss_mean": 5.086518992308916e-05, "train/cont_loss_std": 0.0015569792048635324, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006146182484440142, "train/cont_pos_acc": 0.9999849356137789, "train/cont_pos_loss": 4.654570552090193e-05, "train/cont_pred": 0.9954247392140902, "train/cont_rate": 0.9954477163461538, "train/dyn_loss_mean": 5.934060463538537, "train/dyn_loss_std": 9.007042576716497, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8462517857551575, "train/extr_critic_critic_opt_grad_steps": 659320.0, "train/extr_critic_critic_opt_loss": 14945.02334735577, "train/extr_critic_mag": 12.840262559744028, "train/extr_critic_max": 12.840262559744028, "train/extr_critic_mean": 3.7170101495889516, "train/extr_critic_min": -0.3060684369160579, "train/extr_critic_std": 3.05958242049584, "train/extr_return_normed_mag": 1.3828278431525598, "train/extr_return_normed_max": 1.3828278431525598, "train/extr_return_normed_mean": 0.3840696275234222, "train/extr_return_normed_min": -0.059445556281850886, "train/extr_return_normed_std": 0.3156084175293262, "train/extr_return_rate": 0.8335957985657912, "train/extr_return_raw_mag": 13.506465119581955, "train/extr_return_raw_max": 13.506465119581955, "train/extr_return_raw_mean": 3.7365220326643724, "train/extr_return_raw_min": -0.6028682245657995, "train/extr_return_raw_std": 3.0878763015453634, "train/extr_reward_mag": 1.0889496950002817, "train/extr_reward_max": 1.0889496950002817, "train/extr_reward_mean": 0.06520945028616831, "train/extr_reward_min": -0.5831985253554124, "train/extr_reward_std": 0.24421879305289343, "train/image_loss_mean": 3.707403876231267, "train/image_loss_std": 9.106957912445068, "train/model_loss_mean": 7.335601857992319, "train/model_loss_std": 13.21817999619704, "train/model_opt_grad_norm": 17.545295443901647, "train/model_opt_grad_steps": 658777.0, "train/model_opt_loss": 18339.00461237981, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.745722535940317, "train/policy_entropy_max": 2.745722535940317, "train/policy_entropy_mean": 0.4567680363471691, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6760499839599315, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45753265298329865, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.080706619299375, "train/policy_randomness_mag": 0.9691195625525254, "train/policy_randomness_max": 0.9691195625525254, "train/policy_randomness_mean": 0.16121907394665938, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.238615977534881, "train/post_ent_mag": 55.45986169668345, "train/post_ent_max": 55.45986169668345, "train/post_ent_mean": 39.953211036095254, "train/post_ent_min": 19.641216894296498, "train/post_ent_std": 5.843611335754394, "train/prior_ent_mag": 76.82011930025541, "train/prior_ent_max": 76.82011930025541, "train/prior_ent_mean": 45.84816970825195, "train/prior_ent_min": 27.201543543888974, "train/prior_ent_std": 8.02216698573186, "train/rep_loss_mean": 5.934060463538537, "train/rep_loss_std": 9.007042576716497, "train/reward_avg": 0.05301983167345707, "train/reward_loss_mean": 0.06771091153988472, "train/reward_loss_std": 0.23293825135781215, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0301453517033503, "train/reward_neg_acc": 0.9921259971765372, "train/reward_neg_loss": 0.02808659442055684, "train/reward_pos_acc": 0.9904909491539001, "train/reward_pos_loss": 0.7218085105602557, "train/reward_pred": 0.05266596462864142, "train/reward_rate": 0.05725661057692308, "stats/sum_log_reward": 12.300000286102295, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5828641578555107, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.5651936763670386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4004592851894658e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2142345905304, "timer/logger.write_count": 1.0, "timer/logger.write_total": 2.7372348308563232, "timer/logger.write_frac": 0.009117605081550198, "timer/logger.write_avg": 2.7372348308563232, "timer/logger.write_min": 2.7372348308563232, "timer/logger.write_max": 2.7372348308563232, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2662825584411621, "timer/replay.add_frac": 0.0008869751256277087, "timer/replay.add_avg": 0.0002029592671045443, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0012807846069335938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 14.723768711090088, "timer/env.step_frac": 0.04904420581912846, "timer/env.step_avg": 0.01122238468833086, "timer/env.step_min": 0.0026700496673583984, "timer/env.step_max": 1.4186723232269287, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 10.04848337173462, "timer/agent.policy_frac": 0.033471042388912686, "timer/agent.policy_avg": 0.007658905008944069, "timer/agent.policy_min": 0.005533456802368164, "timer/agent.policy_max": 0.0177152156829834, "timer/dataset_count": 656.0, "timer/dataset_total": 0.060260772705078125, "timer/dataset_frac": 0.0002007259009129573, "timer/dataset_avg": 9.186093400164349e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00015211105346679688, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.7418475151062, "timer/agent.train_frac": 0.9051597699414273, "timer/agent.train_avg": 0.41424062121205213, "timer/agent.train_min": 0.37241125106811523, "timer/agent.train_max": 0.4519071578979492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21963047981262207, "timer/agent.report_frac": 0.0007315791674974423, "timer/agent.report_avg": 0.21963047981262207, "timer/agent.report_min": 0.21963047981262207, "timer/agent.report_max": 0.21963047981262207, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.370135079200543}
+{"step": 1320404, "episode/length": 305.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.0457516339869281}
+{"step": 1320589, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07027027027027027}
+{"step": 1320762, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.08670520231213873}
+{"step": 1320934, "episode/length": 171.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0872093023255814}
+{"step": 1321116, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07692307692307693}
+{"step": 1321321, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06829268292682927}
+{"step": 1321519, "episode/length": 197.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06060606060606061}
+{"step": 1321683, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431635929987981, "train/action_min": 0.0, "train/action_std": 3.365830865273109, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035739774514849366, "train/actor_opt_grad_steps": 659970.0, "train/actor_opt_loss": -11.854520220022936, "train/adv_mag": 0.3909652521977058, "train/adv_max": 0.32963652473229627, "train/adv_mean": 0.0013213448955971567, "train/adv_min": -0.36193558000601256, "train/adv_std": 0.04033167849366481, "train/cont_avg": 0.9950120192307692, "train/cont_loss_mean": 0.00010168728936894065, "train/cont_loss_std": 0.0031949033617995437, "train/cont_neg_acc": 0.9897435903549194, "train/cont_neg_loss": 0.04065302932833778, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 1.1947973750308777e-05, "train/cont_pred": 0.995025518307319, "train/cont_rate": 0.9950120192307692, "train/dyn_loss_mean": 5.799017737461971, "train/dyn_loss_std": 9.05771697117732, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8387742959536039, "train/extr_critic_critic_opt_grad_steps": 659970.0, "train/extr_critic_critic_opt_loss": 14989.495537860577, "train/extr_critic_mag": 12.854677728506235, "train/extr_critic_max": 12.854677728506235, "train/extr_critic_mean": 3.813044786453247, "train/extr_critic_min": -0.3214839183367216, "train/extr_critic_std": 3.1263650197249193, "train/extr_return_normed_mag": 1.378030544060927, "train/extr_return_normed_max": 1.378030544060927, "train/extr_return_normed_mean": 0.39126354639346783, "train/extr_return_normed_min": -0.06187498661187979, "train/extr_return_normed_std": 0.3192151087981004, "train/extr_return_rate": 0.8327274093261132, "train/extr_return_raw_mag": 13.568167172945463, "train/extr_return_raw_max": 13.568167172945463, "train/extr_return_raw_mean": 3.82609674013578, "train/extr_return_raw_min": -0.6476805035884564, "train/extr_return_raw_std": 3.151530926044171, "train/extr_reward_mag": 1.0915721636552078, "train/extr_reward_max": 1.0915721636552078, "train/extr_reward_mean": 0.06534676546087632, "train/extr_reward_min": -0.5772131974880512, "train/extr_reward_std": 0.24505655329961043, "train/image_loss_mean": 3.5350052081621612, "train/image_loss_std": 9.149531841278076, "train/model_loss_mean": 7.081099488185003, "train/model_loss_std": 13.283508902329665, "train/model_opt_grad_norm": 19.210825934776892, "train/model_opt_grad_steps": 659426.323076923, "train/model_opt_loss": 19208.853771033653, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2730.769230769231, "train/policy_entropy_mag": 2.7337290837214545, "train/policy_entropy_max": 2.7337290837214545, "train/policy_entropy_mean": 0.46493764565541196, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6847466876873604, "train/policy_logprob_mag": 7.438384283505953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4639755565386552, "train/policy_logprob_min": -7.438384283505953, "train/policy_logprob_std": 1.080644558943235, "train/policy_randomness_mag": 0.9648863994158231, "train/policy_randomness_max": 0.9648863994158231, "train/policy_randomness_mean": 0.16410258744771664, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24168553146032187, "train/post_ent_mag": 55.93436701847957, "train/post_ent_max": 55.93436701847957, "train/post_ent_mean": 39.86993161714994, "train/post_ent_min": 19.382287304218, "train/post_ent_std": 5.806047542278583, "train/prior_ent_mag": 76.90352442814753, "train/prior_ent_max": 76.90352442814753, "train/prior_ent_mean": 45.65846581092248, "train/prior_ent_min": 27.542816690298228, "train/prior_ent_std": 7.971930511181171, "train/rep_loss_mean": 5.799017737461971, "train/rep_loss_std": 9.05771697117732, "train/reward_avg": 0.051962138855686554, "train/reward_loss_mean": 0.06658200071408199, "train/reward_loss_std": 0.23472429445156684, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0352197958872869, "train/reward_neg_acc": 0.9924538052999057, "train/reward_neg_loss": 0.02737133437051223, "train/reward_pos_acc": 0.9904381632804871, "train/reward_pos_loss": 0.7212914824485779, "train/reward_pred": 0.05168298511550977, "train/reward_rate": 0.05634014423076923, "stats/sum_log_reward": 12.81428609575544, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3469411070857729, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.4823506240136113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4195547384374282e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16224670410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02254486083984375, "timer/logger.write_frac": 7.510891555282221e-05, "timer/logger.write_avg": 0.02254486083984375, "timer/logger.write_min": 0.02254486083984375, "timer/logger.write_max": 0.02254486083984375, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.25824689865112305, "timer/replay.add_frac": 0.0008603576948359583, "timer/replay.add_avg": 0.0001998815005039652, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.0009579658508300781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.90710711479187, "timer/env.step_frac": 0.05965809261963783, "timer/env.step_avg": 0.013859990026928693, "timer/env.step_min": 0.002410411834716797, "timer/env.step_max": 1.664780855178833, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.221863031387329, "timer/agent.policy_frac": 0.04738058562510418, "timer/agent.policy_avg": 0.011007633925222391, "timer/agent.policy_min": 0.005605459213256836, "timer/agent.policy_max": 3.198000431060791, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05900692939758301, "timer/dataset_frac": 0.0001965834479369144, "timer/dataset_avg": 9.134199597149072e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00018262863159179688, "timer/agent.train_count": 646.0, "timer/agent.train_total": 267.03130626678467, "timer/agent.train_frac": 0.889623226101525, "timer/agent.train_avg": 0.413361155211741, "timer/agent.train_min": 0.36218714714050293, "timer/agent.train_max": 0.4516425132751465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24082612991333008, "timer/agent.report_frac": 0.0008023198538713473, "timer/agent.report_avg": 0.24082612991333008, "timer/agent.report_min": 0.24082612991333008, "timer/agent.report_max": 0.24082612991333008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008053779602050781, "timer/checkpoint.save_frac": 2.683142097477088e-06, "timer/checkpoint.save_avg": 0.0008053779602050781, "timer/checkpoint.save_min": 0.0008053779602050781, "timer/checkpoint.save_max": 0.0008053779602050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1979835033416748, "timer/agent.save_frac": 0.003991119857663649, "timer/agent.save_avg": 1.1979835033416748, "timer/agent.save_min": 1.1979835033416748, "timer/agent.save_max": 1.1979835033416748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00013113021850585938, "timer/replay.save_frac": 4.3686446228904623e-07, "timer/replay.save_avg": 0.00013113021850585938, "timer/replay.save_min": 0.00013113021850585938, "timer/replay.save_max": 0.00013113021850585938, "fps": 4.304263958616254}
+{"step": 1321772, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06324110671936758}
+{"step": 1322240, "episode/length": 467.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.03418803418803419}
+{"step": 1322502, "episode/length": 261.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.04580152671755725}
+{"step": 1322543, "episode/length": 40.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.1951219512195122}
+{"step": 1322790, "episode/length": 246.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.06477732793522267}
+{"step": 1322948, "episode/length": 157.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06962025316455696}
+{"step": 1322999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435323079427083, "train/action_min": 0.0, "train/action_std": 3.3680998520417647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03666954013434323, "train/actor_opt_grad_steps": 660625.0, "train/actor_opt_loss": -12.16712831115971, "train/adv_mag": 0.39988785485426587, "train/adv_max": 0.33074748493505246, "train/adv_mean": 0.001376057756274487, "train/adv_min": -0.36348974298347125, "train/adv_std": 0.041204900396141136, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 5.226624588535363e-06, "train/cont_loss_std": 0.00013413475465693918, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.468191403032499e-05, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 4.677866824780374e-06, "train/cont_pred": 0.995409116600499, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.989882223533861, "train/dyn_loss_std": 8.9988513137355, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733274683807836, "train/extr_critic_critic_opt_grad_steps": 660625.0, "train/extr_critic_critic_opt_loss": 15118.519457267992, "train/extr_critic_mag": 12.71374968326453, "train/extr_critic_max": 12.71374968326453, "train/extr_critic_mean": 3.8052492972576255, "train/extr_critic_min": -0.30846792820728186, "train/extr_critic_std": 3.0123377243677774, "train/extr_return_normed_mag": 1.383648086677898, "train/extr_return_normed_max": 1.383648086677898, "train/extr_return_normed_mean": 0.3966320260907664, "train/extr_return_normed_min": -0.06018279769429655, "train/extr_return_normed_std": 0.3127282358931773, "train/extr_return_rate": 0.8462171003674016, "train/extr_return_raw_mag": 13.39604562701601, "train/extr_return_raw_max": 13.39604562701601, "train/extr_return_raw_mean": 3.818584756417708, "train/extr_return_raw_min": -0.6133923801508817, "train/extr_return_raw_std": 3.0342257781462236, "train/extr_reward_mag": 1.0913499160246416, "train/extr_reward_max": 1.0913499160246416, "train/extr_reward_mean": 0.0653725571253083, "train/extr_reward_min": -0.5703463066707958, "train/extr_reward_std": 0.24512607513955145, "train/image_loss_mean": 3.6277192560109226, "train/image_loss_std": 9.240350347576719, "train/model_loss_mean": 7.286963730147391, "train/model_loss_std": 13.382998206398703, "train/model_opt_grad_norm": 20.427242640293006, "train/model_opt_grad_steps": 660080.8636363636, "train/model_opt_loss": 18486.774340080494, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2537.878787878788, "train/policy_entropy_mag": 2.7219318512714272, "train/policy_entropy_max": 2.7219318512714272, "train/policy_entropy_mean": 0.46320445067954785, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6790137638648351, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46259054270657624, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0795056061311201, "train/policy_randomness_mag": 0.9607224943059863, "train/policy_randomness_max": 0.9607224943059863, "train/policy_randomness_mean": 0.1634908461886825, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2396620586514473, "train/post_ent_mag": 55.517441662875086, "train/post_ent_max": 55.517441662875086, "train/post_ent_mean": 39.720225074074484, "train/post_ent_min": 19.53842949144768, "train/post_ent_std": 5.922411282857259, "train/prior_ent_mag": 76.84908190640536, "train/prior_ent_max": 76.84908190640536, "train/prior_ent_mean": 45.67377142472701, "train/prior_ent_min": 27.565468499154754, "train/prior_ent_std": 8.10597452250394, "train/rep_loss_mean": 5.989882223533861, "train/rep_loss_std": 8.9988513137355, "train/reward_avg": 0.05326112698424946, "train/reward_loss_mean": 0.06530994069621418, "train/reward_loss_std": 0.2280308139143568, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0372144670197458, "train/reward_neg_acc": 0.9930010167035189, "train/reward_neg_loss": 0.025586876185667334, "train/reward_pos_acc": 0.9906489560098359, "train/reward_pos_loss": 0.720998921177604, "train/reward_pred": 0.05296188025650653, "train/reward_rate": 0.057306463068181816, "stats/sum_log_reward": 11.9333336353302, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5783237963914871, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.454170690843762e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4183731426946297e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2255849838257, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024440288543701172, "timer/logger.write_frac": 8.14064149296865e-05, "timer/logger.write_avg": 0.024440288543701172, "timer/logger.write_min": 0.024440288543701172, "timer/logger.write_max": 0.024440288543701172, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2735931873321533, "timer/replay.add_frac": 0.0009112920451029943, "timer/replay.add_avg": 0.00020789755876303445, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.002471446990966797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 16.712894439697266, "timer/env.step_frac": 0.05566778874158128, "timer/env.step_avg": 0.01269976781132011, "timer/env.step_min": 0.0025703907012939453, "timer/env.step_max": 1.6981256008148193, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.994644403457642, "timer/agent.policy_frac": 0.0332904485938335, "timer/agent.policy_avg": 0.007594714592293041, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.02097153663635254, "timer/dataset_count": 658.0, "timer/dataset_total": 0.059574127197265625, "timer/dataset_frac": 0.00019843121365047922, "timer/dataset_avg": 9.053818722988697e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00042748451232910156, "timer/agent.train_count": 658.0, "timer/agent.train_total": 272.5152921676636, "timer/agent.train_frac": 0.907701760935348, "timer/agent.train_avg": 0.41415697897821213, "timer/agent.train_min": 0.3720071315765381, "timer/agent.train_max": 0.4517245292663574, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2178812026977539, "timer/agent.report_frac": 0.0007257249668095142, "timer/agent.report_avg": 0.2178812026977539, "timer/agent.report_min": 0.2178812026977539, "timer/agent.report_max": 0.2178812026977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3832945125735465}
+{"step": 1323455, "episode/length": 506.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.03155818540433925}
+{"step": 1323610, "episode/length": 154.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07741935483870968}
+{"step": 1323877, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04868913857677903}
+{"step": 1324075, "episode/length": 197.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06565656565656566}
+{"step": 1324333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.307720762310606, "train/action_min": 0.0, "train/action_std": 3.2441658756949683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03500609943699656, "train/actor_opt_grad_steps": 661285.0, "train/actor_opt_loss": -9.915699288700566, "train/adv_mag": 0.3768806227228858, "train/adv_max": 0.31578677666909766, "train/adv_mean": 0.002258990278416163, "train/adv_min": -0.3495543504303152, "train/adv_std": 0.04066497914380196, "train/cont_avg": 0.9953539299242424, "train/cont_loss_mean": 6.930694536287346e-05, "train/cont_loss_std": 0.002197434399228909, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.01153058789871616, "train/cont_pos_acc": 0.9999999783255837, "train/cont_pos_loss": 2.241019256307456e-06, "train/cont_pred": 0.9953739435383768, "train/cont_rate": 0.9953539299242424, "train/dyn_loss_mean": 5.897283041115963, "train/dyn_loss_std": 9.004173618374448, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.863849067326748, "train/extr_critic_critic_opt_grad_steps": 661285.0, "train/extr_critic_critic_opt_loss": 15019.16542376894, "train/extr_critic_mag": 12.703882491949832, "train/extr_critic_max": 12.703882491949832, "train/extr_critic_mean": 3.765215848431443, "train/extr_critic_min": -0.3362692594528198, "train/extr_critic_std": 3.039583430145726, "train/extr_return_normed_mag": 1.3900358658848386, "train/extr_return_normed_max": 1.3900358658848386, "train/extr_return_normed_mean": 0.39430173125230905, "train/extr_return_normed_min": -0.06775947361055648, "train/extr_return_normed_std": 0.3171617305188468, "train/extr_return_rate": 0.8326428803530607, "train/extr_return_raw_mag": 13.423560055819424, "train/extr_return_raw_max": 13.423560055819424, "train/extr_return_raw_mean": 3.7870627117879465, "train/extr_return_raw_min": -0.6852482087684401, "train/extr_return_raw_std": 3.069589535395304, "train/extr_reward_mag": 1.0879434419400764, "train/extr_reward_max": 1.0879434419400764, "train/extr_reward_mean": 0.06385583264019454, "train/extr_reward_min": -0.5885025335080696, "train/extr_reward_std": 0.24229948606454965, "train/image_loss_mean": 3.7306148608525596, "train/image_loss_std": 9.304179668426514, "train/model_loss_mean": 7.3350441455841064, "train/model_loss_std": 13.39758911999789, "train/model_opt_grad_norm": 19.127661979559697, "train/model_opt_grad_steps": 660740.0, "train/model_opt_loss": 18337.610277580494, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.731739979801756, "train/policy_entropy_max": 2.731739979801756, "train/policy_entropy_mean": 0.44660802998326044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6514802259026151, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44653300466862594, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.067284390781865, "train/policy_randomness_mag": 0.9641843329776417, "train/policy_randomness_max": 0.9641843329776417, "train/policy_randomness_mean": 0.1576330332141934, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22994392974810166, "train/post_ent_mag": 55.7495033379757, "train/post_ent_max": 55.7495033379757, "train/post_ent_mean": 39.90524829517711, "train/post_ent_min": 19.53103137738777, "train/post_ent_std": 5.954681504856456, "train/prior_ent_mag": 76.80556996663411, "train/prior_ent_max": 76.80556996663411, "train/prior_ent_mean": 45.798657735188804, "train/prior_ent_min": 27.238730690696023, "train/prior_ent_std": 8.07797434835723, "train/rep_loss_mean": 5.897283041115963, "train/rep_loss_std": 9.004173618374448, "train/reward_avg": 0.05307469181152004, "train/reward_loss_mean": 0.06599006062429963, "train/reward_loss_std": 0.22634531173742178, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0329767646211567, "train/reward_neg_acc": 0.991640851353154, "train/reward_neg_loss": 0.026545240670781244, "train/reward_pos_acc": 0.9902422175262914, "train/reward_pos_loss": 0.7164092100027836, "train/reward_pred": 0.05278388515227672, "train/reward_rate": 0.057247277462121215, "stats/sum_log_reward": 12.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 16.75, "stats/max_log_achievement_collect_wood": 16.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.75, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.4449625238776207, "replay/size": 1000000.0, "replay/inserts": 1334.0, "replay/samples": 10672.0, "replay/insert_wait_avg": 3.5585849538914624e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.410561344255393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4198808670044, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03028559684753418, "timer/logger.write_frac": 0.00010081089427281141, "timer/logger.write_avg": 0.03028559684753418, "timer/logger.write_min": 0.03028559684753418, "timer/logger.write_max": 0.03028559684753418, "timer/replay.add_count": 1334.0, "timer/replay.add_total": 0.26914405822753906, "timer/replay.add_frac": 0.0008958929663735833, "timer/replay.add_avg": 0.00020175716508811023, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0009441375732421875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1334.0, "timer/env.step_total": 13.396578788757324, "timer/env.step_frac": 0.04459285034697147, "timer/env.step_avg": 0.01004241288512543, "timer/env.step_min": 0.0026154518127441406, "timer/env.step_max": 1.4322826862335205, "timer/agent.policy_count": 1334.0, "timer/agent.policy_total": 10.056426763534546, "timer/agent.policy_frac": 0.033474571438188265, "timer/agent.policy_avg": 0.007538550797252283, "timer/agent.policy_min": 0.005558013916015625, "timer/agent.policy_max": 0.018732547760009766, "timer/dataset_count": 667.0, "timer/dataset_total": 0.06028580665588379, "timer/dataset_frac": 0.00020067182798255706, "timer/dataset_avg": 9.038351822471332e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 667.0, "timer/agent.train_total": 275.9298963546753, "timer/agent.train_frac": 0.9184808127822579, "timer/agent.train_avg": 0.4136880005317471, "timer/agent.train_min": 0.3607332706451416, "timer/agent.train_max": 0.45345616340637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2588021755218506, "timer/agent.report_frac": 0.0008614682050167715, "timer/agent.report_avg": 0.2588021755218506, "timer/agent.report_min": 0.2588021755218506, "timer/agent.report_max": 0.2588021755218506, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.440374781337375}
+{"step": 1324343, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05223880597014925}
+{"step": 1324616, "episode/length": 272.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.047619047619047616}
+{"step": 1324830, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07009345794392523}
+{"step": 1325010, "episode/length": 179.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07777777777777778}
+{"step": 1325186, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07386363636363637}
+{"step": 1325436, "episode/length": 249.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06}
+{"step": 1325627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397004582331731, "train/action_min": 0.0, "train/action_std": 3.261891078948975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03549218186392234, "train/actor_opt_grad_steps": 661940.0, "train/actor_opt_loss": -12.027335588748638, "train/adv_mag": 0.38607687812585095, "train/adv_max": 0.31706834527162403, "train/adv_mean": 0.0017654713885769105, "train/adv_min": -0.34985282375262333, "train/adv_std": 0.04024402556511072, "train/cont_avg": 0.994921875, "train/cont_loss_mean": 1.3789853726328041e-05, "train/cont_loss_std": 0.00038019368217262055, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011010579059027, "train/cont_pos_acc": 0.9999999853280874, "train/cont_pos_loss": 8.35999244400271e-06, "train/cont_pred": 0.9949189552894006, "train/cont_rate": 0.994921875, "train/dyn_loss_mean": 5.715177807441124, "train/dyn_loss_std": 8.998944487938514, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8519602096997775, "train/extr_critic_critic_opt_grad_steps": 661940.0, "train/extr_critic_critic_opt_loss": 14845.222280649039, "train/extr_critic_mag": 12.884496864905724, "train/extr_critic_max": 12.884496864905724, "train/extr_critic_mean": 3.9061103637401873, "train/extr_critic_min": -0.32804856116955095, "train/extr_critic_std": 3.11479062300462, "train/extr_return_normed_mag": 1.3829504086421087, "train/extr_return_normed_max": 1.3829504086421087, "train/extr_return_normed_mean": 0.39980042714339037, "train/extr_return_normed_min": -0.06724034424584646, "train/extr_return_normed_std": 0.31863703979895663, "train/extr_return_rate": 0.8509014881574191, "train/extr_return_raw_mag": 13.60330203129695, "train/extr_return_raw_max": 13.60330203129695, "train/extr_return_raw_mean": 3.923487839331994, "train/extr_return_raw_min": -0.6752092567773965, "train/extr_return_raw_std": 3.1377478782947246, "train/extr_reward_mag": 1.0849083240215596, "train/extr_reward_max": 1.0849083240215596, "train/extr_reward_mean": 0.06519509903513468, "train/extr_reward_min": -0.5480277373240544, "train/extr_reward_std": 0.2445517831123792, "train/image_loss_mean": 3.6606793623704177, "train/image_loss_std": 9.194211160219632, "train/model_loss_mean": 7.155672506185678, "train/model_loss_std": 13.288776647127591, "train/model_opt_grad_norm": 19.051909021230845, "train/model_opt_grad_steps": 661394.5538461539, "train/model_opt_loss": 20975.466165865386, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2923.076923076923, "train/policy_entropy_mag": 2.720012309001042, "train/policy_entropy_max": 2.720012309001042, "train/policy_entropy_mean": 0.46620982541487765, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6816333995415614, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4648029293005283, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0808483701485854, "train/policy_randomness_mag": 0.9600449800491333, "train/policy_randomness_max": 0.9600449800491333, "train/policy_randomness_mean": 0.16455160998381102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24058667662052008, "train/post_ent_mag": 55.78877551739033, "train/post_ent_max": 55.78877551739033, "train/post_ent_mean": 39.97825282170222, "train/post_ent_min": 19.336478350712703, "train/post_ent_std": 5.912774738898644, "train/prior_ent_mag": 76.64942920391377, "train/prior_ent_max": 76.64942920391377, "train/prior_ent_mean": 45.676925424429086, "train/prior_ent_min": 27.314792192899265, "train/prior_ent_std": 8.07599261357234, "train/rep_loss_mean": 5.715177807441124, "train/rep_loss_std": 8.998944487938514, "train/reward_avg": 0.05391826887543385, "train/reward_loss_mean": 0.0658727092238573, "train/reward_loss_std": 0.22414372884310207, "train/reward_max_data": 1.0230769285788903, "train/reward_max_pred": 1.0245541315812332, "train/reward_neg_acc": 0.9926916296665486, "train/reward_neg_loss": 0.02587434504754268, "train/reward_pos_acc": 0.989872344640585, "train/reward_pos_loss": 0.7147600650787354, "train/reward_pred": 0.05358808860182762, "train/reward_rate": 0.05809795673076923, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43238591651121777, "replay/size": 1000000.0, "replay/inserts": 1294.0, "replay/samples": 10352.0, "replay/insert_wait_avg": 3.5858596495166997e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.422611786372142e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97947931289673, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03408241271972656, "timer/logger.write_frac": 0.00011361581398098417, "timer/logger.write_avg": 0.03408241271972656, "timer/logger.write_min": 0.03408241271972656, "timer/logger.write_max": 0.03408241271972656, "timer/replay.add_count": 1294.0, "timer/replay.add_total": 0.2723557949066162, "timer/replay.add_frac": 0.0009079147531372726, "timer/replay.add_avg": 0.0002104758847810017, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0012218952178955078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1294.0, "timer/env.step_total": 16.788266897201538, "timer/env.step_frac": 0.05596471777221255, "timer/env.step_avg": 0.012973931141577695, "timer/env.step_min": 0.002672433853149414, "timer/env.step_max": 1.7424802780151367, "timer/agent.policy_count": 1294.0, "timer/agent.policy_total": 14.34833312034607, "timer/agent.policy_frac": 0.04783104882110916, "timer/agent.policy_avg": 0.011088356352663115, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 3.1224422454833984, "timer/dataset_count": 647.0, "timer/dataset_total": 0.05931663513183594, "timer/dataset_frac": 0.00019773564267696158, "timer/dataset_avg": 9.167949788537239e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 647.0, "timer/agent.train_total": 267.8404085636139, "timer/agent.train_frac": 0.8928624357142781, "timer/agent.train_avg": 0.4139728107629272, "timer/agent.train_min": 0.37154245376586914, "timer/agent.train_max": 0.4507439136505127, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21784687042236328, "timer/agent.report_frac": 0.0007262059088886404, "timer/agent.report_avg": 0.21784687042236328, "timer/agent.report_min": 0.21784687042236328, "timer/agent.report_max": 0.21784687042236328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041604042053222656, "timer/checkpoint.save_frac": 1.3868962686553344e-06, "timer/checkpoint.save_avg": 0.00041604042053222656, "timer/checkpoint.save_min": 0.00041604042053222656, "timer/checkpoint.save_max": 0.00041604042053222656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4077041149139404, "timer/agent.save_frac": 0.004692668038954824, "timer/agent.save_avg": 1.4077041149139404, "timer/agent.save_min": 1.4077041149139404, "timer/agent.save_max": 1.4077041149139404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8850621519878875e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "fps": 4.3135612889698915}
+{"step": 1325627, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
+{"step": 1325870, "episode/length": 242.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.06995884773662552}
+{"step": 1326193, "episode/length": 322.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.300000071525574, "episode/reward_rate": 0.043343653250773995}
+{"step": 1326416, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
+{"step": 1326797, "episode/length": 380.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.04199475065616798}
+{"step": 1326953, "stats/sum_log_reward": 13.700000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.7506658971309662, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.438368363813921, "train/action_min": 0.0, "train/action_std": 3.355213559035099, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034634221006523476, "train/actor_opt_grad_steps": 662595.0, "train/actor_opt_loss": -12.087522400599537, "train/adv_mag": 0.42250921328862506, "train/adv_max": 0.346225615252148, "train/adv_mean": 0.0014603479655761475, "train/adv_min": -0.3661636055418939, "train/adv_std": 0.03941400653936646, "train/cont_avg": 0.9956498579545454, "train/cont_loss_mean": 1.7535438951823885e-05, "train/cont_loss_std": 0.0005128727424683823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017718336018439438, "train/cont_pos_acc": 0.9999999765193823, "train/cont_pos_loss": 1.0883337993375964e-05, "train/cont_pred": 0.9956458617340435, "train/cont_rate": 0.9956498579545454, "train/dyn_loss_mean": 5.75656880754413, "train/dyn_loss_std": 9.08241553740068, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8458759062217943, "train/extr_critic_critic_opt_grad_steps": 662595.0, "train/extr_critic_critic_opt_loss": 14766.130992542614, "train/extr_critic_mag": 12.866178093534527, "train/extr_critic_max": 12.866178093534527, "train/extr_critic_mean": 3.763379111434474, "train/extr_critic_min": -0.3510693167195176, "train/extr_critic_std": 3.015795425935225, "train/extr_return_normed_mag": 1.377384025039095, "train/extr_return_normed_max": 1.377384025039095, "train/extr_return_normed_mean": 0.38661757427634613, "train/extr_return_normed_min": -0.07008208224380558, "train/extr_return_normed_std": 0.3087048991159959, "train/extr_return_rate": 0.8378640368129268, "train/extr_return_raw_mag": 13.547208179127086, "train/extr_return_raw_max": 13.547208179127086, "train/extr_return_raw_mean": 3.7777810746973213, "train/extr_return_raw_min": -0.7256026114478256, "train/extr_return_raw_std": 3.044105244405342, "train/extr_reward_mag": 1.0914383801546963, "train/extr_reward_max": 1.0914383801546963, "train/extr_reward_mean": 0.06130094323871714, "train/extr_reward_min": -0.6145525520498102, "train/extr_reward_std": 0.23803322107502908, "train/image_loss_mean": 3.627659570087086, "train/image_loss_std": 9.230026281241214, "train/model_loss_mean": 7.145724578337236, "train/model_loss_std": 13.390302874825217, "train/model_opt_grad_norm": 18.539659081083357, "train/model_opt_grad_steps": 662049.0, "train/model_opt_loss": 17864.311508641098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7180459571607187, "train/policy_entropy_max": 2.7180459571607187, "train/policy_entropy_mean": 0.4861738532781601, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7043438431891528, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48636330980243103, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0980010122963877, "train/policy_randomness_mag": 0.9593509435653687, "train/policy_randomness_max": 0.9593509435653687, "train/policy_randomness_mean": 0.1715980370839437, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24860246682708914, "train/post_ent_mag": 55.16709923021721, "train/post_ent_max": 55.16709923021721, "train/post_ent_mean": 39.67094005237926, "train/post_ent_min": 19.089128364216197, "train/post_ent_std": 5.881846102801236, "train/prior_ent_mag": 76.75049036199397, "train/prior_ent_max": 76.75049036199397, "train/prior_ent_mean": 45.37981790484804, "train/prior_ent_min": 27.187970479329426, "train/prior_ent_std": 8.100989291162202, "train/rep_loss_mean": 5.75656880754413, "train/rep_loss_std": 9.08241553740068, "train/reward_avg": 0.05087002840909091, "train/reward_loss_mean": 0.0641061540580157, "train/reward_loss_std": 0.2223957214843143, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332565054748997, "train/reward_neg_acc": 0.9922589289419579, "train/reward_neg_loss": 0.026206184855916283, "train/reward_pos_acc": 0.9909984153328519, "train/reward_pos_loss": 0.7149302769790996, "train/reward_pred": 0.05076922580712673, "train/reward_rate": 0.05496863162878788, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.5367220595231784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.412800893884259e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3137788772583, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03436088562011719, "timer/logger.write_frac": 0.00011441661367845821, "timer/logger.write_avg": 0.03436088562011719, "timer/logger.write_min": 0.03436088562011719, "timer/logger.write_max": 0.03436088562011719, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.27332067489624023, "timer/replay.add_frac": 0.0009101169980214246, "timer/replay.add_avg": 0.00020612418921285087, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0011398792266845703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.711473226547241, "timer/env.step_frac": 0.04898700712816773, "timer/env.step_avg": 0.01109462535938706, "timer/env.step_min": 0.0025720596313476562, "timer/env.step_max": 1.4708600044250488, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.972391366958618, "timer/agent.policy_frac": 0.03320657281940583, "timer/agent.policy_avg": 0.007520657139486137, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.017247438430786133, "timer/dataset_count": 663.0, "timer/dataset_total": 0.0594942569732666, "timer/dataset_frac": 0.00019810698395421474, "timer/dataset_avg": 8.973492756148809e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001773834228515625, "timer/agent.train_count": 663.0, "timer/agent.train_total": 274.5956633090973, "timer/agent.train_frac": 0.9143625188817184, "timer/agent.train_avg": 0.4141714378719416, "timer/agent.train_min": 0.3659837245941162, "timer/agent.train_max": 0.4506206512451172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2269117832183838, "timer/agent.report_frac": 0.0007555823248160893, "timer/agent.report_avg": 0.2269117832183838, "timer/agent.report_min": 0.2269117832183838, "timer/agent.report_max": 0.2269117832183838, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.415316507019758}
+{"step": 1327060, "episode/length": 262.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.049429657794676805}
+{"step": 1327269, "episode/length": 208.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07655502392344497}
+{"step": 1327488, "episode/length": 218.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.0776255707762557}
+{"step": 1327545, "episode/length": 56.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08771929824561403}
+{"step": 1327733, "episode/length": 187.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07446808510638298}
+{"step": 1327911, "episode/length": 177.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.07865168539325842}
+{"step": 1328086, "episode/length": 174.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06857142857142857}
+{"step": 1328267, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3538124778053975, "train/action_min": 0.0, "train/action_std": 3.263651818940134, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035505278995542816, "train/actor_opt_grad_steps": 663255.0, "train/actor_opt_loss": -12.367339012297718, "train/adv_mag": 0.4092448344736388, "train/adv_max": 0.3266691748391498, "train/adv_mean": 0.0015463084446585553, "train/adv_min": -0.3712415706479188, "train/adv_std": 0.0403217627017787, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 1.160429485319076e-05, "train/cont_loss_std": 0.00030908258016486826, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012115922737491887, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 1.0855091562753863e-05, "train/cont_pred": 0.9953590234120687, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.8098890636906475, "train/dyn_loss_std": 8.98811486273101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557087634548997, "train/extr_critic_critic_opt_grad_steps": 663255.0, "train/extr_critic_critic_opt_loss": 14863.095377604166, "train/extr_critic_mag": 12.884164969126383, "train/extr_critic_max": 12.884164969126383, "train/extr_critic_mean": 3.859796744404417, "train/extr_critic_min": -0.3275268186222423, "train/extr_critic_std": 3.0528150977510395, "train/extr_return_normed_mag": 1.3778878251711528, "train/extr_return_normed_max": 1.3778878251711528, "train/extr_return_normed_mean": 0.3978688825260509, "train/extr_return_normed_min": -0.06233216082733689, "train/extr_return_normed_std": 0.3122712631117214, "train/extr_return_rate": 0.8519689531037302, "train/extr_return_raw_mag": 13.53759967919552, "train/extr_return_raw_max": 13.53759967919552, "train/extr_return_raw_mean": 3.875043045390736, "train/extr_return_raw_min": -0.66284207638466, "train/extr_return_raw_std": 3.0794780254364014, "train/extr_reward_mag": 1.090613235126842, "train/extr_reward_max": 1.090613235126842, "train/extr_reward_mean": 0.06413727727803317, "train/extr_reward_min": -0.5846858530333547, "train/extr_reward_std": 0.2426743624788342, "train/image_loss_mean": 3.688221407659126, "train/image_loss_std": 8.925113793575402, "train/model_loss_mean": 7.240492408925837, "train/model_loss_std": 13.045092394857695, "train/model_opt_grad_norm": 18.815062754081957, "train/model_opt_grad_steps": 662708.3333333334, "train/model_opt_loss": 22818.54265802557, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3143.939393939394, "train/policy_entropy_mag": 2.7310053579735034, "train/policy_entropy_max": 2.7310053579735034, "train/policy_entropy_mean": 0.45324177994872583, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6704345169392499, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4535445880257722, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0741852350307233, "train/policy_randomness_mag": 0.9639250401294592, "train/policy_randomness_max": 0.9639250401294592, "train/policy_randomness_mean": 0.15997445978450053, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23663396320559762, "train/post_ent_mag": 55.33770462960908, "train/post_ent_max": 55.33770462960908, "train/post_ent_mean": 39.806989785396695, "train/post_ent_min": 19.80146327163234, "train/post_ent_std": 5.812612793662331, "train/prior_ent_mag": 76.7776660341205, "train/prior_ent_max": 76.7776660341205, "train/prior_ent_mean": 45.5709562590628, "train/prior_ent_min": 27.48310713334517, "train/prior_ent_std": 8.060117331418125, "train/rep_loss_mean": 5.8098890636906475, "train/rep_loss_std": 8.98811486273101, "train/reward_avg": 0.05367690544914116, "train/reward_loss_mean": 0.06632595402047489, "train/reward_loss_std": 0.22485010664571414, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0292219718297322, "train/reward_neg_acc": 0.9913813634352251, "train/reward_neg_loss": 0.026534195805928022, "train/reward_pos_acc": 0.9926905939073274, "train/reward_pos_loss": 0.715475877126058, "train/reward_pred": 0.05343284869961666, "train/reward_rate": 0.057853929924242424, "stats/sum_log_reward": 11.957143170492989, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.30850588210991453, "replay/size": 1000000.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.5309174652331857e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4044514529781254e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3766360282898, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025902748107910156, "timer/logger.write_frac": 8.623423063260689e-05, "timer/logger.write_avg": 0.025902748107910156, "timer/logger.write_min": 0.025902748107910156, "timer/logger.write_max": 0.025902748107910156, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.2636682987213135, "timer/replay.add_frac": 0.0008777923017171046, "timer/replay.add_avg": 0.00020066080572398286, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0012924671173095703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1314.0, "timer/env.step_total": 16.93434429168701, "timer/env.step_frac": 0.05637703556308593, "timer/env.step_avg": 0.012887628836900313, "timer/env.step_min": 0.002498626708984375, "timer/env.step_max": 1.4435184001922607, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 10.017198324203491, "timer/agent.policy_frac": 0.03334879322391792, "timer/agent.policy_avg": 0.00762343860289459, "timer/agent.policy_min": 0.005713939666748047, "timer/agent.policy_max": 0.017576217651367188, "timer/dataset_count": 657.0, "timer/dataset_total": 0.05976057052612305, "timer/dataset_frac": 0.00019895212662443803, "timer/dataset_avg": 9.095977249029383e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 657.0, "timer/agent.train_total": 272.4412455558777, "timer/agent.train_frac": 0.9069987904459349, "timer/agent.train_avg": 0.4146746507699813, "timer/agent.train_min": 0.3717775344848633, "timer/agent.train_max": 0.4510347843170166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21648335456848145, "timer/agent.report_frac": 0.0007207063686141448, "timer/agent.report_avg": 0.21648335456848145, "timer/agent.report_min": 0.21648335456848145, "timer/agent.report_max": 0.21648335456848145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.374440076633613}
+{"step": 1328404, "episode/length": 317.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04716981132075472}
+{"step": 1328536, "episode/length": 131.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.09848484848484848}
+{"step": 1328761, "episode/length": 224.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.044444444444444446}
+{"step": 1329037, "episode/length": 275.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.05434782608695652}
+{"step": 1329469, "episode/length": 431.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.034722222222222224}
+{"step": 1329569, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431861290564904, "train/action_min": 0.0, "train/action_std": 3.307467379936805, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034578201891138007, "train/actor_opt_grad_steps": 663910.0, "train/actor_opt_loss": -11.568756160827784, "train/adv_mag": 0.39211736825796273, "train/adv_max": 0.3185860762229333, "train/adv_mean": 0.0015311923151714907, "train/adv_min": -0.3551568317871827, "train/adv_std": 0.03949537196984658, "train/cont_avg": 0.9948167067307693, "train/cont_loss_mean": 0.00015556913248044698, "train/cont_loss_std": 0.004811549292636331, "train/cont_neg_acc": 0.9948717951774597, "train/cont_neg_loss": 0.00946869739310789, "train/cont_pos_acc": 0.9999848705071669, "train/cont_pos_loss": 0.00012518486475224713, "train/cont_pred": 0.9947966309694144, "train/cont_rate": 0.9948167067307693, "train/dyn_loss_mean": 5.804938191633958, "train/dyn_loss_std": 9.05737878359281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8057965883841881, "train/extr_critic_critic_opt_grad_steps": 663910.0, "train/extr_critic_critic_opt_loss": 14808.7947265625, "train/extr_critic_mag": 13.05872412461501, "train/extr_critic_max": 13.05872412461501, "train/extr_critic_mean": 3.8364277106065017, "train/extr_critic_min": -0.3396636431033795, "train/extr_critic_std": 3.147316034023578, "train/extr_return_normed_mag": 1.4024903976000271, "train/extr_return_normed_max": 1.4024903976000271, "train/extr_return_normed_mean": 0.39335527007396404, "train/extr_return_normed_min": -0.0634584381030156, "train/extr_return_normed_std": 0.32218485130713537, "train/extr_return_rate": 0.8436078172463637, "train/extr_return_raw_mag": 13.798153084975022, "train/extr_return_raw_max": 13.798153084975022, "train/extr_return_raw_mean": 3.8515078324538012, "train/extr_return_raw_min": -0.6509116048996265, "train/extr_return_raw_std": 3.175534351055439, "train/extr_reward_mag": 1.0866374969482422, "train/extr_reward_max": 1.0866374969482422, "train/extr_reward_mean": 0.06560217933012889, "train/extr_reward_min": -0.5594238061171312, "train/extr_reward_std": 0.24586103352216573, "train/image_loss_mean": 3.618174043068519, "train/image_loss_std": 9.06766483600323, "train/model_loss_mean": 7.168778866987962, "train/model_loss_std": 13.212197245084322, "train/model_opt_grad_norm": 18.97923281742976, "train/model_opt_grad_steps": 663363.0, "train/model_opt_loss": 20332.250540865385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.73097531245305, "train/policy_entropy_max": 2.73097531245305, "train/policy_entropy_mean": 0.449373262662154, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.661161888562716, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4507895630139571, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.07470344213339, "train/policy_randomness_mag": 0.9639144383943998, "train/policy_randomness_max": 0.9639144383943998, "train/policy_randomness_mean": 0.1586090420301144, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23336113301607278, "train/post_ent_mag": 54.98042966402494, "train/post_ent_max": 54.98042966402494, "train/post_ent_mean": 39.95657741840069, "train/post_ent_min": 19.68703539921687, "train/post_ent_std": 5.7633898368248575, "train/prior_ent_mag": 76.84065586970402, "train/prior_ent_max": 76.84065586970402, "train/prior_ent_mean": 45.73281455406776, "train/prior_ent_min": 27.373757817195013, "train/prior_ent_std": 8.024676022162804, "train/rep_loss_mean": 5.804938191633958, "train/rep_loss_std": 9.05737878359281, "train/reward_avg": 0.05208533578194105, "train/reward_loss_mean": 0.06748631424628772, "train/reward_loss_std": 0.23140115531591268, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0347483048072228, "train/reward_neg_acc": 0.9914995441069969, "train/reward_neg_loss": 0.028252887768814197, "train/reward_pos_acc": 0.9895666617613572, "train/reward_pos_loss": 0.7214501701868498, "train/reward_pred": 0.0518013847561983, "train/reward_rate": 0.05655048076923077, "stats/sum_log_reward": 12.300000190734863, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 16.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6960966944694519, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.6462294524349557e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4088578670988067e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0809516906738, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026335716247558594, "timer/logger.write_frac": 8.7762039207026e-05, "timer/logger.write_avg": 0.026335716247558594, "timer/logger.write_min": 0.026335716247558594, "timer/logger.write_max": 0.026335716247558594, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2653212547302246, "timer/replay.add_frac": 0.0008841656001002028, "timer/replay.add_avg": 0.0002037797655378069, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0019383430480957031, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 14.554208278656006, "timer/env.step_frac": 0.048500940151838146, "timer/env.step_avg": 0.011178347372239637, "timer/env.step_min": 0.00258636474609375, "timer/env.step_max": 1.5734477043151855, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 14.653966903686523, "timer/agent.policy_frac": 0.04883337919693072, "timer/agent.policy_avg": 0.011254966899912844, "timer/agent.policy_min": 0.005620002746582031, "timer/agent.policy_max": 3.182192087173462, "timer/dataset_count": 651.0, "timer/dataset_total": 0.060524940490722656, "timer/dataset_frac": 0.00020169537636334983, "timer/dataset_avg": 9.297225881831437e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00015306472778320312, "timer/agent.train_count": 651.0, "timer/agent.train_total": 269.86538434028625, "timer/agent.train_frac": 0.8993086126255223, "timer/agent.train_avg": 0.41453976089137673, "timer/agent.train_min": 0.36203861236572266, "timer/agent.train_max": 0.4686243534088135, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23466277122497559, "timer/agent.report_frac": 0.0007819982238221775, "timer/agent.report_avg": 0.23466277122497559, "timer/agent.report_min": 0.23466277122497559, "timer/agent.report_max": 0.23466277122497559, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000576019287109375, "timer/checkpoint.save_frac": 1.919546321964284e-06, "timer/checkpoint.save_avg": 0.000576019287109375, "timer/checkpoint.save_min": 0.000576019287109375, "timer/checkpoint.save_max": 0.000576019287109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5991590023040771, "timer/agent.save_frac": 0.005329092010986771, "timer/agent.save_avg": 1.5991590023040771, "timer/agent.save_min": 1.5991590023040771, "timer/agent.save_max": 1.5991590023040771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3517620500886925e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "fps": 4.338751218462959}
+{"step": 1329680, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07582938388625593}
+{"step": 1329736, "episode/length": 55.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.899999976158142, "episode/reward_rate": 0.08928571428571429}
+{"step": 1329920, "episode/length": 183.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07065217391304347}
+{"step": 1330119, "episode/length": 198.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04522613065326633}
+{"step": 1330458, "episode/length": 338.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04424778761061947}
+{"step": 1330541, "episode/length": 82.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10843373493975904}
+{"step": 1330692, "episode/length": 150.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06622516556291391}
+{"step": 1330881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421786221590909, "train/action_min": 0.0, "train/action_std": 3.3239281791629214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035164316071931156, "train/actor_opt_grad_steps": 664565.0, "train/actor_opt_loss": -12.16888960292845, "train/adv_mag": 0.4197957181569302, "train/adv_max": 0.32119712323853467, "train/adv_mean": 0.0013144420901715587, "train/adv_min": -0.3909323980862444, "train/adv_std": 0.039887278651197754, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 0.00016388694859670989, "train/cont_loss_std": 0.00516790047741033, "train/cont_neg_acc": 0.992255892717477, "train/cont_neg_loss": 0.027413722995550564, "train/cont_pos_acc": 0.9999999873565905, "train/cont_pos_loss": 1.3156700154441857e-05, "train/cont_pred": 0.995420880389936, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.834793249766032, "train/dyn_loss_std": 8.987273028402617, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8529371465697433, "train/extr_critic_critic_opt_grad_steps": 664565.0, "train/extr_critic_critic_opt_loss": 14895.768036813446, "train/extr_critic_mag": 12.756766694964785, "train/extr_critic_max": 12.756766694964785, "train/extr_critic_mean": 3.7984590060783154, "train/extr_critic_min": -0.34636115124731354, "train/extr_critic_std": 3.0190447677265513, "train/extr_return_normed_mag": 1.375660412239306, "train/extr_return_normed_max": 1.375660412239306, "train/extr_return_normed_mean": 0.39320901736165537, "train/extr_return_normed_min": -0.06993980635183328, "train/extr_return_normed_std": 0.3103419774861047, "train/extr_return_rate": 0.8356189303325884, "train/extr_return_raw_mag": 13.437475724653764, "train/extr_return_raw_max": 13.437475724653764, "train/extr_return_raw_mean": 3.811352048859452, "train/extr_return_raw_min": -0.7281926337516669, "train/extr_return_raw_std": 3.041499089110981, "train/extr_reward_mag": 1.0861862717252788, "train/extr_reward_max": 1.0861862717252788, "train/extr_reward_mean": 0.06510753918326262, "train/extr_reward_min": -0.6277841745000897, "train/extr_reward_std": 0.24400860409845004, "train/image_loss_mean": 3.6480325243689795, "train/image_loss_std": 8.926207188403968, "train/model_loss_mean": 7.217138767242432, "train/model_loss_std": 13.046874291969068, "train/model_opt_grad_norm": 19.929491129788484, "train/model_opt_grad_steps": 664017.0, "train/model_opt_loss": 18042.846916429924, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7278841842304575, "train/policy_entropy_max": 2.7278841842304575, "train/policy_entropy_mean": 0.457444069963513, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6716893888784178, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4570905083056652, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0766529576344923, "train/policy_randomness_mag": 0.9628234027010022, "train/policy_randomness_max": 0.9628234027010022, "train/policy_randomness_mean": 0.16145768084309317, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23707687854766846, "train/post_ent_mag": 55.639526020396836, "train/post_ent_max": 55.639526020396836, "train/post_ent_mean": 39.87054385560931, "train/post_ent_min": 19.273339199297357, "train/post_ent_std": 5.889313661690914, "train/prior_ent_mag": 76.84345245361328, "train/prior_ent_max": 76.84345245361328, "train/prior_ent_mean": 45.66787349816525, "train/prior_ent_min": 27.35790995395545, "train/prior_ent_std": 8.035458680355188, "train/rep_loss_mean": 5.834793249766032, "train/rep_loss_std": 8.987273028402617, "train/reward_avg": 0.05392104621525064, "train/reward_loss_mean": 0.0680664111154549, "train/reward_loss_std": 0.23882445015690543, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0376984820221409, "train/reward_neg_acc": 0.9917581271041523, "train/reward_neg_loss": 0.02767273797794725, "train/reward_pos_acc": 0.9897827876336647, "train/reward_pos_loss": 0.7203454926158442, "train/reward_pred": 0.053537698377939785, "train/reward_rate": 0.05825343276515151, "stats/sum_log_reward": 9.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3916688305991037, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.659507123435416e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4187450089105745e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.242901802063, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.036451101303100586, "timer/logger.write_frac": 0.00012140537239788337, "timer/logger.write_avg": 0.036451101303100586, "timer/logger.write_min": 0.036451101303100586, "timer/logger.write_max": 0.036451101303100586, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.270737886428833, "timer/replay.add_frac": 0.0009017295156816685, "timer/replay.add_avg": 0.0002063550963634398, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0023877620697021484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.32277202606201, "timer/env.step_frac": 0.05769585866007303, "timer/env.step_avg": 0.013203332336937509, "timer/env.step_min": 0.002591848373413086, "timer/env.step_max": 1.5072922706604004, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.929468393325806, "timer/agent.policy_frac": 0.03307145092766213, "timer/agent.policy_avg": 0.007568192372961742, "timer/agent.policy_min": 0.005675077438354492, "timer/agent.policy_max": 0.019489765167236328, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05973219871520996, "timer/dataset_frac": 0.00019894624771042477, "timer/dataset_avg": 9.105518096830787e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.97510504722595, "timer/agent.train_frac": 0.9058502413040467, "timer/agent.train_avg": 0.41459619671833225, "timer/agent.train_min": 0.37250757217407227, "timer/agent.train_max": 0.4541201591491699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23078393936157227, "timer/agent.report_frac": 0.0007686574369498934, "timer/agent.report_avg": 0.23078393936157227, "timer/agent.report_min": 0.23078393936157227, "timer/agent.report_max": 0.23078393936157227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369711489842667}
+{"step": 1330921, "episode/length": 228.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06986899563318777}
+{"step": 1331064, "episode/length": 142.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0979020979020979}
+{"step": 1331288, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06696428571428571}
+{"step": 1331531, "episode/length": 242.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06172839506172839}
+{"step": 1331713, "episode/length": 181.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08241758241758242}
+{"step": 1331923, "episode/length": 209.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0761904761904762}
+{"step": 1332156, "episode/length": 232.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.06866952789699571}
+{"step": 1332193, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381107271634615, "train/action_min": 0.0, "train/action_std": 3.266681869213398, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03475538363250402, "train/actor_opt_grad_steps": 665220.0, "train/actor_opt_loss": -11.778570888821895, "train/adv_mag": 0.3933206168504862, "train/adv_max": 0.3092565875787001, "train/adv_mean": 0.0016265753649629634, "train/adv_min": -0.3600478131037492, "train/adv_std": 0.03933627367592775, "train/cont_avg": 0.9954026442307692, "train/cont_loss_mean": 7.901406714071212e-05, "train/cont_loss_std": 0.002463065893494751, "train/cont_neg_acc": 0.9946428583934903, "train/cont_neg_loss": 0.013025860472524853, "train/cont_pos_acc": 0.9999999853280874, "train/cont_pos_loss": 1.1388957561892382e-05, "train/cont_pred": 0.9954214417017423, "train/cont_rate": 0.9954026442307692, "train/dyn_loss_mean": 5.743139685117281, "train/dyn_loss_std": 9.046469849806565, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8231706967720619, "train/extr_critic_critic_opt_grad_steps": 665220.0, "train/extr_critic_critic_opt_loss": 14944.485667067307, "train/extr_critic_mag": 12.52671115581806, "train/extr_critic_max": 12.52671115581806, "train/extr_critic_mean": 3.663852093769954, "train/extr_critic_min": -0.3522086657010592, "train/extr_critic_std": 2.954566636452308, "train/extr_return_normed_mag": 1.3662235168310313, "train/extr_return_normed_max": 1.3662235168310313, "train/extr_return_normed_mean": 0.38627057258899394, "train/extr_return_normed_min": -0.06306171549054293, "train/extr_return_normed_std": 0.30699924322275013, "train/extr_return_rate": 0.8282562530957736, "train/extr_return_raw_mag": 13.193906358572153, "train/extr_return_raw_max": 13.193906358572153, "train/extr_return_raw_mean": 3.679644955121554, "train/extr_return_raw_min": -0.6824048991386708, "train/extr_return_raw_std": 2.980559073961698, "train/extr_reward_mag": 1.088269644517165, "train/extr_reward_max": 1.088269644517165, "train/extr_reward_mean": 0.06459657819225238, "train/extr_reward_min": -0.5930620982096746, "train/extr_reward_std": 0.24306732347378365, "train/image_loss_mean": 3.6672586807837853, "train/image_loss_std": 9.388974571228028, "train/model_loss_mean": 7.17910207601694, "train/model_loss_std": 13.525866611187274, "train/model_opt_grad_norm": 19.301831069359412, "train/model_opt_grad_steps": 664671.7846153846, "train/model_opt_loss": 22271.69460637019, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3153.846153846154, "train/policy_entropy_mag": 2.7399762337024396, "train/policy_entropy_max": 2.7399762337024396, "train/policy_entropy_mean": 0.4733184328446021, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6884376915601583, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4723813575047713, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.086631598839393, "train/policy_randomness_mag": 0.9670913714628954, "train/policy_randomness_max": 0.9670913714628954, "train/policy_randomness_mean": 0.16706063529619805, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24298829596776228, "train/post_ent_mag": 55.51744619516226, "train/post_ent_max": 55.51744619516226, "train/post_ent_mean": 39.90746935330905, "train/post_ent_min": 19.114877011225772, "train/post_ent_std": 5.778834533691406, "train/prior_ent_mag": 76.73471221923828, "train/prior_ent_max": 76.73471221923828, "train/prior_ent_mean": 45.58709141657903, "train/prior_ent_min": 27.75866957444411, "train/prior_ent_std": 7.926635859562801, "train/rep_loss_mean": 5.743139685117281, "train/rep_loss_std": 9.046469849806565, "train/reward_avg": 0.05221754771012526, "train/reward_loss_mean": 0.06588062116732964, "train/reward_loss_std": 0.22796395902450267, "train/reward_max_data": 1.0276923142946683, "train/reward_max_pred": 1.0300173722780668, "train/reward_neg_acc": 0.9919396363771878, "train/reward_neg_loss": 0.02698698775986066, "train/reward_pos_acc": 0.9906332758756784, "train/reward_pos_loss": 0.717106387248406, "train/reward_pred": 0.05203917189859427, "train/reward_rate": 0.05652043269230769, "stats/sum_log_reward": 14.100000245230538, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43234649300575256, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.6794964860125287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.404161860303181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2729184627533, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03447747230529785, "timer/logger.write_frac": 0.00011482045227989661, "timer/logger.write_avg": 0.03447747230529785, "timer/logger.write_min": 0.03447747230529785, "timer/logger.write_max": 0.03447747230529785, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2639303207397461, "timer/replay.add_frac": 0.000878968113711143, "timer/replay.add_avg": 0.00020116640300285525, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.001874685287475586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.653377056121826, "timer/env.step_frac": 0.05879110625925994, "timer/env.step_avg": 0.013455317878141635, "timer/env.step_min": 0.0025281906127929688, "timer/env.step_max": 1.5020220279693604, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 10.027763605117798, "timer/agent.policy_frac": 0.033395497857265706, "timer/agent.policy_avg": 0.00764311250390076, "timer/agent.policy_min": 0.005557060241699219, "timer/agent.policy_max": 0.018952369689941406, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06083965301513672, "timer/dataset_frac": 0.0002026145192400474, "timer/dataset_avg": 9.274337349868402e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.55810737609863, "timer/agent.train_frac": 0.9043709594802618, "timer/agent.train_avg": 0.41396052953673573, "timer/agent.train_min": 0.36476731300354004, "timer/agent.train_max": 0.4510672092437744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24993467330932617, "timer/agent.report_frac": 0.0008323583578195008, "timer/agent.report_avg": 0.24993467330932617, "timer/agent.report_min": 0.24993467330932617, "timer/agent.report_max": 0.24993467330932617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369272915968955}
+{"step": 1332416, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.057692307692307696}
+{"step": 1332632, "episode/length": 215.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06018518518518518}
+{"step": 1332842, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06666666666666667}
+{"step": 1333110, "episode/length": 267.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.05970149253731343}
+{"step": 1333304, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06701030927835051}
+{"step": 1333497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481390850360577, "train/action_min": 0.0, "train/action_std": 3.3628258521740255, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03497818201207198, "train/actor_opt_grad_steps": 665870.0, "train/actor_opt_loss": -11.23600968752916, "train/adv_mag": 0.41300745354248924, "train/adv_max": 0.3409882343732394, "train/adv_mean": 0.001806091739630434, "train/adv_min": -0.36849809541152073, "train/adv_std": 0.040142540347117645, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 5.886968664124372e-06, "train/cont_loss_std": 0.0001691676811049092, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003459283115896524, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 4.465324011868268e-06, "train/cont_pred": 0.9955049652319689, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.899229159721961, "train/dyn_loss_std": 8.971405528141903, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8376004118185777, "train/extr_critic_critic_opt_grad_steps": 665870.0, "train/extr_critic_critic_opt_loss": 14864.133894230768, "train/extr_critic_mag": 12.591016666705793, "train/extr_critic_max": 12.591016666705793, "train/extr_critic_mean": 3.707287256534283, "train/extr_critic_min": -0.37486681387974663, "train/extr_critic_std": 3.0314466549799994, "train/extr_return_normed_mag": 1.3699652213316698, "train/extr_return_normed_max": 1.3699652213316698, "train/extr_return_normed_mean": 0.3903791184608753, "train/extr_return_normed_min": -0.06351722871454862, "train/extr_return_normed_std": 0.31407910379079673, "train/extr_return_rate": 0.8240074570362385, "train/extr_return_raw_mag": 13.269636256878192, "train/extr_return_raw_max": 13.269636256878192, "train/extr_return_raw_mean": 3.7248996844658486, "train/extr_return_raw_min": -0.6988092926832346, "train/extr_return_raw_std": 3.060269487821139, "train/extr_reward_mag": 1.0929218512315018, "train/extr_reward_max": 1.0929218512315018, "train/extr_reward_mean": 0.06345496126092397, "train/extr_reward_min": -0.6014941765711858, "train/extr_reward_std": 0.24121641562535212, "train/image_loss_mean": 3.712173865391658, "train/image_loss_std": 8.993924713134765, "train/model_loss_mean": 7.316958398085374, "train/model_loss_std": 13.084035051785982, "train/model_opt_grad_norm": 19.38613091982328, "train/model_opt_grad_steps": 665321.0, "train/model_opt_loss": 18292.396018629806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.72876270367549, "train/policy_entropy_max": 2.72876270367549, "train/policy_entropy_mean": 0.49670578699845536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.719093997661884, "train/policy_logprob_mag": 7.438384276169997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4965252523238842, "train/policy_logprob_min": -7.438384276169997, "train/policy_logprob_std": 1.107608723640442, "train/policy_randomness_mag": 0.9631334845836346, "train/policy_randomness_max": 0.9631334845836346, "train/policy_randomness_mean": 0.17531534662613502, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2538086228645765, "train/post_ent_mag": 55.578435633732724, "train/post_ent_max": 55.578435633732724, "train/post_ent_mean": 39.96307150033804, "train/post_ent_min": 19.815721819950983, "train/post_ent_std": 5.89542041191688, "train/prior_ent_mag": 76.84058697040264, "train/prior_ent_max": 76.84058697040264, "train/prior_ent_mean": 45.8252433189979, "train/prior_ent_min": 27.66972949688251, "train/prior_ent_std": 8.0256499510545, "train/rep_loss_mean": 5.899229159721961, "train/rep_loss_std": 8.971405528141903, "train/reward_avg": 0.05137169429889092, "train/reward_loss_mean": 0.06524115181886232, "train/reward_loss_std": 0.22274480920571546, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0391746227557843, "train/reward_neg_acc": 0.991627232845013, "train/reward_neg_loss": 0.027446501831022593, "train/reward_pos_acc": 0.9931034381573017, "train/reward_pos_loss": 0.7082763598515437, "train/reward_pred": 0.051271490552104435, "train/reward_rate": 0.05548377403846154, "stats/sum_log_reward": 12.9, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4762246310710907, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.7035327747555596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4066284785241438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36303782463074, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03325986862182617, "timer/logger.write_frac": 0.00011073222878124305, "timer/logger.write_avg": 0.03325986862182617, "timer/logger.write_min": 0.03325986862182617, "timer/logger.write_max": 0.03325986862182617, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2627909183502197, "timer/replay.add_frac": 0.000874910975243406, "timer/replay.add_avg": 0.00020152677787593537, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.002114534378051758, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.977733612060547, "timer/env.step_frac": 0.04986543524308544, "timer/env.step_avg": 0.011485992033788762, "timer/env.step_min": 0.0024971961975097656, "timer/env.step_max": 1.7055728435516357, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.267249584197998, "timer/agent.policy_frac": 0.047500017603790655, "timer/agent.policy_avg": 0.010941142319170243, "timer/agent.policy_min": 0.005588054656982422, "timer/agent.policy_max": 3.175513744354248, "timer/dataset_count": 652.0, "timer/dataset_total": 0.06005096435546875, "timer/dataset_frac": 0.00019992794316632916, "timer/dataset_avg": 9.210270606666986e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.1197657585144, "timer/agent.train_frac": 0.8993109395711529, "timer/agent.train_avg": 0.41429411926152515, "timer/agent.train_min": 0.37210798263549805, "timer/agent.train_max": 0.5079381465911865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23209619522094727, "timer/agent.report_frac": 0.0007727188967786989, "timer/agent.report_avg": 0.23209619522094727, "timer/agent.report_min": 0.23209619522094727, "timer/agent.report_max": 0.23209619522094727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002880096435546875, "timer/checkpoint.save_frac": 9.588717894205217e-07, "timer/checkpoint.save_avg": 0.0002880096435546875, "timer/checkpoint.save_min": 0.0002880096435546875, "timer/checkpoint.save_max": 0.0002880096435546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.244375467300415, "timer/agent.save_frac": 0.004142904787196064, "timer/agent.save_avg": 1.244375467300415, "timer/agent.save_min": 1.244375467300415, "timer/agent.save_max": 1.244375467300415, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.535385131835938e-05, "timer/replay.save_frac": 2.841689574607175e-07, "timer/replay.save_avg": 8.535385131835938e-05, "timer/replay.save_min": 8.535385131835938e-05, "timer/replay.save_max": 8.535385131835938e-05, "fps": 4.341339423314832}
+{"step": 1333577, "episode/length": 272.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.05860805860805861}
+{"step": 1333828, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
+{"step": 1334067, "episode/length": 238.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05439330543933055}
+{"step": 1334338, "episode/length": 270.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.05166051660516605}
+{"step": 1334526, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07446808510638298}
+{"step": 1334692, "episode/length": 165.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0783132530120482}
+{"step": 1334817, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447208288944129, "train/action_min": 0.0, "train/action_std": 3.3143465699571553, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454081189226021, "train/actor_opt_grad_steps": 666525.0, "train/actor_opt_loss": -12.425098551945252, "train/adv_mag": 0.38736027975877124, "train/adv_max": 0.30444040262337885, "train/adv_mean": 0.001155511695342835, "train/adv_min": -0.34512105064861703, "train/adv_std": 0.03941255903831034, "train/cont_avg": 0.9952355587121212, "train/cont_loss_mean": 3.978323974354182e-05, "train/cont_loss_std": 0.001165462277725522, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.006267977308547573, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.743430322166398e-06, "train/cont_pred": 0.9952424376299887, "train/cont_rate": 0.9952355587121212, "train/dyn_loss_mean": 5.890099178661, "train/dyn_loss_std": 8.991099964488637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8199415071444078, "train/extr_critic_critic_opt_grad_steps": 666525.0, "train/extr_critic_critic_opt_loss": 14893.561464251894, "train/extr_critic_mag": 12.552591020410711, "train/extr_critic_max": 12.552591020410711, "train/extr_critic_mean": 3.7173194921377934, "train/extr_critic_min": -0.3452994064851241, "train/extr_critic_std": 3.064763336470633, "train/extr_return_normed_mag": 1.3711444031108508, "train/extr_return_normed_max": 1.3711444031108508, "train/extr_return_normed_mean": 0.39151745266986615, "train/extr_return_normed_min": -0.06262769208600123, "train/extr_return_normed_std": 0.3178361719756415, "train/extr_return_rate": 0.8207850402051752, "train/extr_return_raw_mag": 13.24290063164451, "train/extr_return_raw_max": 13.24290063164451, "train/extr_return_raw_mean": 3.7285228245186084, "train/extr_return_raw_min": -0.68188366068132, "train/extr_return_raw_std": 3.086803772232749, "train/extr_reward_mag": 1.0920477708180745, "train/extr_reward_max": 1.0920477708180745, "train/extr_reward_mean": 0.06439877188566959, "train/extr_reward_min": -0.5588103659225233, "train/extr_reward_std": 0.2435292247118372, "train/image_loss_mean": 3.684756221193256, "train/image_loss_std": 8.964492234316738, "train/model_loss_mean": 7.284874280293782, "train/model_loss_std": 13.108324672236588, "train/model_opt_grad_norm": 20.632040731834643, "train/model_opt_grad_steps": 665975.7272727273, "train/model_opt_loss": 25616.551521070076, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3522.7272727272725, "train/policy_entropy_mag": 2.7532939838640615, "train/policy_entropy_max": 2.7532939838640615, "train/policy_entropy_mean": 0.4856948477752281, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7017502170620542, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4837578684091568, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0939485195911292, "train/policy_randomness_mag": 0.9717919501391324, "train/policy_randomness_max": 0.9717919501391324, "train/policy_randomness_mean": 0.1714289677188252, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24768702934185663, "train/post_ent_mag": 55.18173333370324, "train/post_ent_max": 55.18173333370324, "train/post_ent_mean": 39.91548619125829, "train/post_ent_min": 19.86652960921779, "train/post_ent_std": 5.849140774119984, "train/prior_ent_mag": 76.81998825073242, "train/prior_ent_max": 76.81998825073242, "train/prior_ent_mean": 45.78527306065415, "train/prior_ent_min": 27.283935431278113, "train/prior_ent_std": 8.0298067222942, "train/rep_loss_mean": 5.890099178661, "train/rep_loss_std": 8.991099964488637, "train/reward_avg": 0.052303799682042816, "train/reward_loss_mean": 0.06601878193517526, "train/reward_loss_std": 0.23018754634893301, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.042351990035086, "train/reward_neg_acc": 0.9923753223635934, "train/reward_neg_loss": 0.02692406208282619, "train/reward_pos_acc": 0.9901535944505171, "train/reward_pos_loss": 0.720214970184095, "train/reward_pred": 0.05192322690378536, "train/reward_rate": 0.05643347537878788, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 19.833333333333332, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5068153068423271, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.7648461081764915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4069405469027433e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30832409858704, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0341794490814209, "timer/logger.write_frac": 0.00011381452440259451, "timer/logger.write_avg": 0.0341794490814209, "timer/logger.write_min": 0.0341794490814209, "timer/logger.write_max": 0.0341794490814209, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.27866411209106445, "timer/replay.add_frac": 0.0009279266997593543, "timer/replay.add_avg": 0.000211109175826564, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0019795894622802734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.47435688972473, "timer/env.step_frac": 0.054858142674448246, "timer/env.step_avg": 0.012480573401306615, "timer/env.step_min": 0.002546072006225586, "timer/env.step_max": 1.8221352100372314, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.962363481521606, "timer/agent.policy_frac": 0.03317378401489498, "timer/agent.policy_avg": 0.007547245061758793, "timer/agent.policy_min": 0.005568504333496094, "timer/agent.policy_max": 0.018487930297851562, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06026959419250488, "timer/dataset_frac": 0.00020069238631134054, "timer/dataset_avg": 9.131756695834073e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00022554397583007812, "timer/agent.train_count": 660.0, "timer/agent.train_total": 272.8541069030762, "timer/agent.train_frac": 0.9085798994153155, "timer/agent.train_avg": 0.41341531348950933, "timer/agent.train_min": 0.3662092685699463, "timer/agent.train_max": 0.4557638168334961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289013862609863, "timer/agent.report_frac": 0.0007422043304831168, "timer/agent.report_avg": 0.22289013862609863, "timer/agent.report_min": 0.22289013862609863, "timer/agent.report_max": 0.22289013862609863, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.395413232129315}
+{"step": 1335062, "episode/length": 369.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.043243243243243246}
+{"step": 1335122, "episode/length": 59.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.15}
+{"step": 1335342, "episode/length": 219.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07272727272727272}
+{"step": 1335516, "episode/length": 173.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07471264367816093}
+{"step": 1335696, "episode/length": 179.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08333333333333333}
+{"step": 1335955, "episode/length": 258.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06177606177606178}
+{"step": 1336120, "episode/length": 164.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.09090909090909091}
+{"step": 1336127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.419445615826231, "train/action_min": 0.0, "train/action_std": 3.315613020550121, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03492930751632561, "train/actor_opt_grad_steps": 667185.0, "train/actor_opt_loss": -11.66998287041982, "train/adv_mag": 0.40782307946320734, "train/adv_max": 0.30529126570080267, "train/adv_mean": 0.0016360728177184656, "train/adv_min": -0.3778564769661788, "train/adv_std": 0.0397161670932264, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 9.748364335235041e-05, "train/cont_loss_std": 0.0030858507693512288, "train/cont_neg_acc": 0.9936868692889358, "train/cont_neg_loss": 0.01779332544569273, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 1.9354195853782734e-05, "train/cont_pred": 0.9954242769515875, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.757533875378695, "train/dyn_loss_std": 8.990444790233266, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8719326302860723, "train/extr_critic_critic_opt_grad_steps": 667185.0, "train/extr_critic_critic_opt_loss": 14923.768761837122, "train/extr_critic_mag": 12.703511888330633, "train/extr_critic_max": 12.703511888330633, "train/extr_critic_mean": 3.646172552397757, "train/extr_critic_min": -0.370389593370033, "train/extr_critic_std": 3.0317000114556514, "train/extr_return_normed_mag": 1.3725822965304058, "train/extr_return_normed_max": 1.3725822965304058, "train/extr_return_normed_mean": 0.38292006200010126, "train/extr_return_normed_min": -0.06155336361773538, "train/extr_return_normed_std": 0.3142760522437818, "train/extr_return_rate": 0.8271997742580645, "train/extr_return_raw_mag": 13.294331146009041, "train/extr_return_raw_max": 13.294331146009041, "train/extr_return_raw_mean": 3.6620800350651597, "train/extr_return_raw_min": -0.6641268441171357, "train/extr_return_raw_std": 3.0590929985046387, "train/extr_reward_mag": 1.0851416479457507, "train/extr_reward_max": 1.0851416479457507, "train/extr_reward_mean": 0.06268189520095334, "train/extr_reward_min": -0.5594722393787268, "train/extr_reward_std": 0.24033418275190122, "train/image_loss_mean": 3.6470688834334863, "train/image_loss_std": 9.058392575292876, "train/model_loss_mean": 7.1689097303332705, "train/model_loss_std": 13.151352376648873, "train/model_opt_grad_norm": 17.55214481642752, "train/model_opt_grad_steps": 666635.0, "train/model_opt_loss": 17922.274354876892, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.73732662562168, "train/policy_entropy_max": 2.73732662562168, "train/policy_entropy_mean": 0.48411792652173474, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.714425678506042, "train/policy_logprob_mag": 7.438384308959499, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48468408394943585, "train/policy_logprob_min": -7.438384308959499, "train/policy_logprob_std": 1.1009870957244525, "train/policy_randomness_mag": 0.9661561729330005, "train/policy_randomness_max": 0.9661561729330005, "train/policy_randomness_mean": 0.170872385416067, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2521609128876166, "train/post_ent_mag": 55.59646820299553, "train/post_ent_max": 55.59646820299553, "train/post_ent_mean": 39.82141015023896, "train/post_ent_min": 20.068063721512303, "train/post_ent_std": 5.773086836843779, "train/prior_ent_mag": 76.90431190259528, "train/prior_ent_max": 76.90431190259528, "train/prior_ent_mean": 45.53710613828717, "train/prior_ent_min": 27.077965418497723, "train/prior_ent_std": 8.013714826468265, "train/rep_loss_mean": 5.757533875378695, "train/rep_loss_std": 8.990444790233266, "train/reward_avg": 0.05316642970975601, "train/reward_loss_mean": 0.06722307831726292, "train/reward_loss_std": 0.23563644019040195, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.029519285216476, "train/reward_neg_acc": 0.9917065564430121, "train/reward_neg_loss": 0.02744283095340837, "train/reward_pos_acc": 0.9906360163833156, "train/reward_pos_loss": 0.7230985507820592, "train/reward_pred": 0.05276893638074398, "train/reward_rate": 0.05732125946969697, "stats/sum_log_reward": 13.242857251848493, "stats/max_log_achievement_collect_coal": 2.2857142857142856, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 1.1428571428571428, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.46239316889217924, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.82980317559861e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4186815451119692e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0739333629608, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023323535919189453, "timer/logger.write_frac": 7.772596459079295e-05, "timer/logger.write_avg": 0.023323535919189453, "timer/logger.write_min": 0.023323535919189453, "timer/logger.write_max": 0.023323535919189453, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2848227024078369, "timer/replay.add_frac": 0.0009491750890048939, "timer/replay.add_avg": 0.00021742191023499, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.003919124603271484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.445200204849243, "timer/env.step_frac": 0.05813633996575114, "timer/env.step_avg": 0.013316946721258964, "timer/env.step_min": 0.0027930736541748047, "timer/env.step_max": 1.4733340740203857, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.902416706085205, "timer/agent.policy_frac": 0.032999923035992355, "timer/agent.policy_avg": 0.007559096722202447, "timer/agent.policy_min": 0.005640506744384766, "timer/agent.policy_max": 0.017210721969604492, "timer/dataset_count": 655.0, "timer/dataset_total": 0.06088590621948242, "timer/dataset_frac": 0.0002029030163904193, "timer/dataset_avg": 9.295558201447698e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.6911187171936, "timer/agent.train_frac": 0.9054139280687331, "timer/agent.train_avg": 0.41479560109495206, "timer/agent.train_min": 0.37084317207336426, "timer/agent.train_max": 0.4541149139404297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23606610298156738, "timer/agent.report_frac": 0.0007866931337085804, "timer/agent.report_avg": 0.23606610298156738, "timer/agent.report_min": 0.23606610298156738, "timer/agent.report_max": 0.23606610298156738, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.365523993264953}
+{"step": 1336208, "episode/length": 87.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.03409090909090909}
+{"step": 1336495, "episode/length": 286.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05226480836236934}
+{"step": 1336695, "episode/length": 199.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.06}
+{"step": 1336921, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.061946902654867256}
+{"step": 1337208, "episode/length": 286.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.059233449477351915}
+{"step": 1337410, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07425742574257425}
+{"step": 1337423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507223745492788, "train/action_min": 0.0, "train/action_std": 3.399846234688392, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034566062631515355, "train/actor_opt_grad_steps": 667840.0, "train/actor_opt_loss": -12.363871854085188, "train/adv_mag": 0.41507058693812443, "train/adv_max": 0.33195323783617753, "train/adv_mean": 0.0013128056906680286, "train/adv_min": -0.3684792963358072, "train/adv_std": 0.0393284417115725, "train/cont_avg": 0.9953425480769231, "train/cont_loss_mean": 0.0002566500433431429, "train/cont_loss_std": 0.008038926468809502, "train/cont_neg_acc": 0.9969230771064759, "train/cont_neg_loss": 0.034389467612279116, "train/cont_pos_acc": 0.9999848971000085, "train/cont_pos_loss": 8.928074846739246e-05, "train/cont_pred": 0.9953267170832707, "train/cont_rate": 0.9953425480769231, "train/dyn_loss_mean": 5.908268928527832, "train/dyn_loss_std": 9.1242506980896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8515181147135221, "train/extr_critic_critic_opt_grad_steps": 667840.0, "train/extr_critic_critic_opt_loss": 14836.092518028847, "train/extr_critic_mag": 12.80982723236084, "train/extr_critic_max": 12.80982723236084, "train/extr_critic_mean": 3.627218297811655, "train/extr_critic_min": -0.3511867834971501, "train/extr_critic_std": 3.0587874559255748, "train/extr_return_normed_mag": 1.3815057314359225, "train/extr_return_normed_max": 1.3815057314359225, "train/extr_return_normed_mean": 0.38165846994289987, "train/extr_return_normed_min": -0.061028315184208065, "train/extr_return_normed_std": 0.3162285898740475, "train/extr_return_rate": 0.820157293172983, "train/extr_return_raw_mag": 13.38962597480187, "train/extr_return_raw_max": 13.38962597480187, "train/extr_return_raw_mean": 3.6400257404033955, "train/extr_return_raw_min": -0.6763151214672969, "train/extr_return_raw_std": 3.0833103546729457, "train/extr_reward_mag": 1.0863597466395452, "train/extr_reward_max": 1.0863597466395452, "train/extr_reward_mean": 0.061980301027114576, "train/extr_reward_min": -0.5742740631103516, "train/extr_reward_std": 0.2394061157336602, "train/image_loss_mean": 3.7005154609680178, "train/image_loss_std": 9.009815810276912, "train/model_loss_mean": 7.313311672210693, "train/model_loss_std": 13.212900821979229, "train/model_opt_grad_norm": 19.351455013568586, "train/model_opt_grad_steps": 667289.4, "train/model_opt_loss": 21133.84657451923, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2884.6153846153848, "train/policy_entropy_mag": 2.729491666647104, "train/policy_entropy_max": 2.729491666647104, "train/policy_entropy_mean": 0.5232303192982307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7435977990810688, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5216441044440636, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.1200224317037142, "train/policy_randomness_mag": 0.9633907776612501, "train/policy_randomness_max": 0.9633907776612501, "train/policy_randomness_mean": 0.18467734375825295, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2624573925366768, "train/post_ent_mag": 55.46871138352614, "train/post_ent_max": 55.46871138352614, "train/post_ent_mean": 39.740931877723106, "train/post_ent_min": 19.07653550368089, "train/post_ent_std": 5.833158977215106, "train/prior_ent_mag": 76.76610506497897, "train/prior_ent_max": 76.76610506497897, "train/prior_ent_mean": 45.61403080866887, "train/prior_ent_min": 27.132608178945688, "train/prior_ent_std": 8.04858378630418, "train/rep_loss_mean": 5.908268928527832, "train/rep_loss_std": 9.1242506980896, "train/reward_avg": 0.051622596096533996, "train/reward_loss_mean": 0.06757816999004437, "train/reward_loss_std": 0.23766074845424065, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.030276030760545, "train/reward_neg_acc": 0.990896240564493, "train/reward_neg_loss": 0.028615936507972388, "train/reward_pos_acc": 0.9870507221955519, "train/reward_pos_loss": 0.72763455922787, "train/reward_pred": 0.05121928121034915, "train/reward_rate": 0.05579927884615385, "stats/sum_log_reward": 11.600000182787577, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.43341980626185733, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.816720880108115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3948912605827238e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1051983833313, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034132957458496094, "timer/logger.write_frac": 0.00011373664182550173, "timer/logger.write_avg": 0.034132957458496094, "timer/logger.write_min": 0.034132957458496094, "timer/logger.write_max": 0.034132957458496094, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.26595187187194824, "timer/replay.add_frac": 0.0008861954851319896, "timer/replay.add_avg": 0.00020520977767897241, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0010619163513183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 16.290743589401245, "timer/env.step_frac": 0.05428344352966756, "timer/env.step_avg": 0.012570018201698492, "timer/env.step_min": 0.0028228759765625, "timer/env.step_max": 1.779585361480713, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.354594945907593, "timer/agent.policy_frac": 0.04783187703257355, "timer/agent.policy_avg": 0.01107607634715092, "timer/agent.policy_min": 0.0054166316986083984, "timer/agent.policy_max": 3.0884413719177246, "timer/dataset_count": 648.0, "timer/dataset_total": 0.060721635818481445, "timer/dataset_frac": 0.00020233450185331444, "timer/dataset_avg": 9.37062281149405e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 648.0, "timer/agent.train_total": 268.4606132507324, "timer/agent.train_frac": 0.894555025027662, "timer/agent.train_avg": 0.4142910698313772, "timer/agent.train_min": 0.36486220359802246, "timer/agent.train_max": 0.45167088508605957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21565675735473633, "timer/agent.report_frac": 0.0007186038712974007, "timer/agent.report_avg": 0.21565675735473633, "timer/agent.report_min": 0.21565675735473633, "timer/agent.report_max": 0.21565675735473633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002357959747314453, "timer/checkpoint.save_frac": 7.857110639924926e-07, "timer/checkpoint.save_avg": 0.0002357959747314453, "timer/checkpoint.save_min": 0.0002357959747314453, "timer/checkpoint.save_max": 0.0002357959747314453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.489081621170044, "timer/agent.save_frac": 0.004961865469814373, "timer/agent.save_avg": 1.489081621170044, "timer/agent.save_min": 1.489081621170044, "timer/agent.save_max": 1.489081621170044, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2959605408880725e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "fps": 4.318405778814009}
+{"step": 1337596, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06989247311827956}
+{"step": 1337825, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0611353711790393}
+{"step": 1338040, "episode/length": 214.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06511627906976744}
+{"step": 1338385, "episode/length": 344.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03188405797101449}
+{"step": 1338641, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05859375}
+{"step": 1338745, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458798495205966, "train/action_min": 0.0, "train/action_std": 3.345995715170196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03447649969408909, "train/actor_opt_grad_steps": 668495.0, "train/actor_opt_loss": -12.167726942987153, "train/adv_mag": 0.39097651252240845, "train/adv_max": 0.31284529038450937, "train/adv_mean": 0.0015497768212795067, "train/adv_min": -0.3605498181599559, "train/adv_std": 0.03964992005829558, "train/cont_avg": 0.9953983191287878, "train/cont_loss_mean": 2.2595991548860528e-05, "train/cont_loss_std": 0.0005929011487749545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000642593261990787, "train/cont_pos_acc": 0.9999999819379864, "train/cont_pos_loss": 2.0006289641935037e-05, "train/cont_pred": 0.9953818583127224, "train/cont_rate": 0.9953983191287878, "train/dyn_loss_mean": 5.786308165752526, "train/dyn_loss_std": 9.044338833202016, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8797244637301473, "train/extr_critic_critic_opt_grad_steps": 668495.0, "train/extr_critic_critic_opt_loss": 14972.660304214016, "train/extr_critic_mag": 12.636327916925604, "train/extr_critic_max": 12.636327916925604, "train/extr_critic_mean": 3.5899269942081338, "train/extr_critic_min": -0.36192711374976416, "train/extr_critic_std": 2.990572203289379, "train/extr_return_normed_mag": 1.3692152427904534, "train/extr_return_normed_max": 1.3692152427904534, "train/extr_return_normed_mean": 0.37753028987031995, "train/extr_return_normed_min": -0.06389159745903629, "train/extr_return_normed_std": 0.3092833696441217, "train/extr_return_rate": 0.8275973038239912, "train/extr_return_raw_mag": 13.286574826096043, "train/extr_return_raw_max": 13.286574826096043, "train/extr_return_raw_mean": 3.6050565856875796, "train/extr_return_raw_min": -0.7043215334415436, "train/extr_return_raw_std": 3.019313162023371, "train/extr_reward_mag": 1.0909022995919893, "train/extr_reward_max": 1.0909022995919893, "train/extr_reward_mean": 0.06198519569906322, "train/extr_reward_min": -0.6112672253088518, "train/extr_reward_std": 0.23942352470123407, "train/image_loss_mean": 3.7520336165572656, "train/image_loss_std": 9.164163379958183, "train/model_loss_mean": 7.287832440751972, "train/model_loss_std": 13.30068014607285, "train/model_opt_grad_norm": 19.642657814603865, "train/model_opt_grad_steps": 667944.0, "train/model_opt_loss": 19501.573316169506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2689.3939393939395, "train/policy_entropy_mag": 2.732170502344767, "train/policy_entropy_max": 2.732170502344767, "train/policy_entropy_mean": 0.48960181257941504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7112118579221495, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4884153717395031, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0975065393881365, "train/policy_randomness_mag": 0.9643362896008925, "train/policy_randomness_max": 0.9643362896008925, "train/policy_randomness_mean": 0.17280795312289035, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2510265739578189, "train/post_ent_mag": 55.17053251555472, "train/post_ent_max": 55.17053251555472, "train/post_ent_mean": 39.86290937481505, "train/post_ent_min": 19.659619186863754, "train/post_ent_std": 5.844845526146166, "train/prior_ent_mag": 76.7421032298695, "train/prior_ent_max": 76.7421032298695, "train/prior_ent_mean": 45.600338791355945, "train/prior_ent_min": 26.70195622877641, "train/prior_ent_std": 8.085498174031576, "train/rep_loss_mean": 5.786308165752526, "train/rep_loss_std": 9.044338833202016, "train/reward_avg": 0.05124437718680411, "train/reward_loss_mean": 0.06399134478785774, "train/reward_loss_std": 0.2253531770724239, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0402792511564312, "train/reward_neg_acc": 0.9923764702045557, "train/reward_neg_loss": 0.02509852854365652, "train/reward_pos_acc": 0.987078994512558, "train/reward_pos_loss": 0.7305900075218894, "train/reward_pred": 0.05071138579285506, "train/reward_rate": 0.055338541666666664, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 13.8, "stats/max_log_achievement_collect_wood": 12.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.41512094140052797, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.889721568882375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414640948920315e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.331848859787, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025304794311523438, "timer/logger.write_frac": 8.425611338788528e-05, "timer/logger.write_avg": 0.025304794311523438, "timer/logger.write_min": 0.025304794311523438, "timer/logger.write_max": 0.025304794311523438, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.27641892433166504, "timer/replay.add_frac": 0.0009203783261119071, "timer/replay.add_avg": 0.00020909147075012484, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0007991790771484375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.052542448043823, "timer/env.step_frac": 0.05011970094144513, "timer/env.step_avg": 0.011386189446326644, "timer/env.step_min": 0.002700328826904297, "timer/env.step_max": 1.6927452087402344, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 10.111262321472168, "timer/agent.policy_frac": 0.033666966589989314, "timer/agent.policy_avg": 0.007648458639540218, "timer/agent.policy_min": 0.005585908889770508, "timer/agent.policy_max": 0.01804661750793457, "timer/dataset_count": 661.0, "timer/dataset_total": 0.06229114532470703, "timer/dataset_frac": 0.00020740772435955766, "timer/dataset_avg": 9.423773876657645e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0001533031463623047, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.1073055267334, "timer/agent.train_frac": 0.912681444100533, "timer/agent.train_avg": 0.41468578748371165, "timer/agent.train_min": 0.37074995040893555, "timer/agent.train_max": 0.4496805667877197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26408839225769043, "timer/agent.report_frac": 0.000879321967551243, "timer/agent.report_avg": 0.26408839225769043, "timer/agent.report_min": 0.26408839225769043, "timer/agent.report_max": 0.26408839225769043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.401730149325027}
+{"step": 1338754, "episode/length": 112.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.11504424778761062}
+{"step": 1338976, "episode/length": 221.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 16.300000093877316, "episode/reward_rate": 0.06756756756756757}
+{"step": 1339200, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05803571428571429}
+{"step": 1339469, "episode/length": 268.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.055762081784386616}
+{"step": 1339681, "episode/length": 211.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07547169811320754}
+{"step": 1339866, "episode/length": 184.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08108108108108109}
+{"step": 1340065, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4833064178625743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447667902166193, "train/action_min": 0.0, "train/action_std": 3.3353865724621397, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03509742665019902, "train/actor_opt_grad_steps": 669155.0, "train/actor_opt_loss": -9.074527527346756, "train/adv_mag": 0.3874010940392812, "train/adv_max": 0.3188240523591186, "train/adv_mean": 0.0018563841615766498, "train/adv_min": -0.35395291154131747, "train/adv_std": 0.03964592849440647, "train/cont_avg": 0.9955610795454546, "train/cont_loss_mean": 7.355638223251823e-05, "train/cont_loss_std": 0.002309826226175115, "train/cont_neg_acc": 0.9949494952505286, "train/cont_neg_loss": 0.01714731709379457, "train/cont_pos_acc": 0.9999999819379864, "train/cont_pos_loss": 2.228989560759339e-05, "train/cont_pred": 0.995557374123371, "train/cont_rate": 0.9955610795454546, "train/dyn_loss_mean": 5.797094186147054, "train/dyn_loss_std": 8.972423221125748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8615637304204883, "train/extr_critic_critic_opt_grad_steps": 669155.0, "train/extr_critic_critic_opt_loss": 14982.30527935606, "train/extr_critic_mag": 12.586037144516453, "train/extr_critic_max": 12.586037144516453, "train/extr_critic_mean": 3.591137586217938, "train/extr_critic_min": -0.3886049371777159, "train/extr_critic_std": 2.9747404979937, "train/extr_return_normed_mag": 1.3756614742857036, "train/extr_return_normed_max": 1.3756614742857036, "train/extr_return_normed_mean": 0.3809498826211149, "train/extr_return_normed_min": -0.06004601606929844, "train/extr_return_normed_std": 0.3089187307791276, "train/extr_return_rate": 0.8235726844180714, "train/extr_return_raw_mag": 13.266608816204648, "train/extr_return_raw_max": 13.266608816204648, "train/extr_return_raw_mean": 3.609160224596659, "train/extr_return_raw_min": -0.6718230401024674, "train/extr_return_raw_std": 2.99897808378393, "train/extr_reward_mag": 1.0919737310120554, "train/extr_reward_max": 1.0919737310120554, "train/extr_reward_mean": 0.0610606600953774, "train/extr_reward_min": -0.5832739761381438, "train/extr_reward_std": 0.23710754400852954, "train/image_loss_mean": 3.581235058379896, "train/image_loss_std": 9.149554599415172, "train/model_loss_mean": 7.12419859568278, "train/model_loss_std": 13.265421824021773, "train/model_opt_grad_norm": 20.051493948156182, "train/model_opt_grad_steps": 668603.0606060605, "train/model_opt_loss": 18940.664669152462, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2651.5151515151515, "train/policy_entropy_mag": 2.7395511612747656, "train/policy_entropy_max": 2.7395511612747656, "train/policy_entropy_mean": 0.4824769203410004, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7015459036285226, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4818957583470778, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0966445623022136, "train/policy_randomness_mag": 0.966941338596922, "train/policy_randomness_max": 0.966941338596922, "train/policy_randomness_mean": 0.17029317998976418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2476149174300107, "train/post_ent_mag": 55.064796043164804, "train/post_ent_max": 55.064796043164804, "train/post_ent_mean": 39.829779942830406, "train/post_ent_min": 19.620661157550234, "train/post_ent_std": 5.772133971705581, "train/prior_ent_mag": 76.78396687363133, "train/prior_ent_max": 76.78396687363133, "train/prior_ent_mean": 45.608447566176906, "train/prior_ent_min": 27.512059558521617, "train/prior_ent_std": 7.952863816058997, "train/rep_loss_mean": 5.797094186147054, "train/rep_loss_std": 8.972423221125748, "train/reward_avg": 0.05056374237844438, "train/reward_loss_mean": 0.06463342645403111, "train/reward_loss_std": 0.22831240838224237, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0302358287753481, "train/reward_neg_acc": 0.9924381032134547, "train/reward_neg_loss": 0.02653055123025269, "train/reward_pos_acc": 0.989616494287144, "train/reward_pos_loss": 0.7246142797397844, "train/reward_pred": 0.0501491277281082, "train/reward_rate": 0.054657907196969696, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.897421287767815e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4035087643247662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3234131336212, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02364802360534668, "timer/logger.write_frac": 7.874185818081754e-05, "timer/logger.write_avg": 0.02364802360534668, "timer/logger.write_min": 0.02364802360534668, "timer/logger.write_max": 0.02364802360534668, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.28447580337524414, "timer/replay.add_frac": 0.0009472315208693833, "timer/replay.add_avg": 0.00021551197225397282, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.003660440444946289, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.429068326950073, "timer/env.step_frac": 0.05470458714998814, "timer/env.step_avg": 0.012446263884053085, "timer/env.step_min": 0.00247955322265625, "timer/env.step_max": 1.611208200454712, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.144020318984985, "timer/agent.policy_frac": 0.033776987991514545, "timer/agent.policy_avg": 0.0076848638780189285, "timer/agent.policy_min": 0.0056095123291015625, "timer/agent.policy_max": 0.017838716506958008, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06126236915588379, "timer/dataset_frac": 0.00020398798920358123, "timer/dataset_avg": 9.282177144830877e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0002465248107910156, "timer/agent.train_count": 660.0, "timer/agent.train_total": 272.689994096756, "timer/agent.train_frac": 0.9079877963941144, "timer/agent.train_avg": 0.41316665772235756, "timer/agent.train_min": 0.3641970157623291, "timer/agent.train_max": 0.4526102542877197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26119256019592285, "timer/agent.report_frac": 0.0008697042880226987, "timer/agent.report_avg": 0.26119256019592285, "timer/agent.report_min": 0.26119256019592285, "timer/agent.report_max": 0.26119256019592285, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3952031103101135}
+{"step": 1340074, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07211538461538461}
+{"step": 1340277, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07389162561576355}
+{"step": 1340457, "episode/length": 179.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08888888888888889}
+{"step": 1340689, "episode/length": 231.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.06465517241379311}
+{"step": 1340879, "episode/length": 189.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.06842105263157895}
+{"step": 1341265, "episode/length": 385.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03626943005181347}
+{"step": 1341363, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5415860563516617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400066669170673, "train/action_min": 0.0, "train/action_std": 3.30716353563162, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036472542182757306, "train/actor_opt_grad_steps": 669810.0, "train/actor_opt_loss": -11.022871002554893, "train/adv_mag": 0.42615475929700414, "train/adv_max": 0.32645718363615184, "train/adv_mean": 0.0017223453087353846, "train/adv_min": -0.40286067999326264, "train/adv_std": 0.04049406395508693, "train/cont_avg": 0.9956129807692308, "train/cont_loss_mean": 5.6840048794216414e-05, "train/cont_loss_std": 0.0017206669904068733, "train/cont_neg_acc": 0.9939560450040377, "train/cont_neg_loss": 0.008213495684182868, "train/cont_pos_acc": 0.9999999779921311, "train/cont_pos_loss": 1.3175163222128433e-05, "train/cont_pred": 0.9956253418555626, "train/cont_rate": 0.9956129807692308, "train/dyn_loss_mean": 5.826799201965332, "train/dyn_loss_std": 9.048898975665752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8616267433533302, "train/extr_critic_critic_opt_grad_steps": 669810.0, "train/extr_critic_critic_opt_loss": 15094.270582932691, "train/extr_critic_mag": 12.70889056279109, "train/extr_critic_max": 12.70889056279109, "train/extr_critic_mean": 3.6740003145658053, "train/extr_critic_min": -0.34303973821493294, "train/extr_critic_std": 3.005033357326801, "train/extr_return_normed_mag": 1.3769194988104014, "train/extr_return_normed_max": 1.3769194988104014, "train/extr_return_normed_mean": 0.38779304440204915, "train/extr_return_normed_min": -0.06264131269775904, "train/extr_return_normed_std": 0.31085932873762573, "train/extr_return_rate": 0.8348297715187073, "train/extr_return_raw_mag": 13.340909473712628, "train/extr_return_raw_max": 13.340909473712628, "train/extr_return_raw_mean": 3.6908179356501654, "train/extr_return_raw_min": -0.7044837300594037, "train/extr_return_raw_std": 3.033047716434185, "train/extr_reward_mag": 1.0943877917069655, "train/extr_reward_max": 1.0943877917069655, "train/extr_reward_mean": 0.06390379575582651, "train/extr_reward_min": -0.6295534445689275, "train/extr_reward_std": 0.24214329559069414, "train/image_loss_mean": 3.612054333320031, "train/image_loss_std": 9.33936237188486, "train/model_loss_mean": 7.173924336066613, "train/model_loss_std": 13.494090124276967, "train/model_opt_grad_norm": 19.427864690927358, "train/model_opt_grad_steps": 669257.6923076923, "train/model_opt_loss": 19796.95546875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2769.230769230769, "train/policy_entropy_mag": 2.727514875852145, "train/policy_entropy_max": 2.727514875852145, "train/policy_entropy_mean": 0.4558033672662882, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6757912186475901, "train/policy_logprob_mag": 7.438384298177866, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45499410720971917, "train/policy_logprob_min": -7.438384298177866, "train/policy_logprob_std": 1.0758759397726791, "train/policy_randomness_mag": 0.9626930585274329, "train/policy_randomness_max": 0.9626930585274329, "train/policy_randomness_mean": 0.16087858550823653, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23852464442069715, "train/post_ent_mag": 55.10304365891677, "train/post_ent_max": 55.10304365891677, "train/post_ent_mean": 39.79329581627479, "train/post_ent_min": 19.632728209862343, "train/post_ent_std": 5.786233535179725, "train/prior_ent_mag": 76.83511810302734, "train/prior_ent_max": 76.83511810302734, "train/prior_ent_mean": 45.57693246694711, "train/prior_ent_min": 27.19684151869554, "train/prior_ent_std": 7.984741937197172, "train/rep_loss_mean": 5.826799201965332, "train/rep_loss_std": 9.048898975665752, "train/reward_avg": 0.052363280751384224, "train/reward_loss_mean": 0.06573365055597745, "train/reward_loss_std": 0.22257403823045585, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.042778418614314, "train/reward_neg_acc": 0.9926942577728859, "train/reward_neg_loss": 0.027146138365452106, "train/reward_pos_acc": 0.9915328355935904, "train/reward_pos_loss": 0.7068029183607835, "train/reward_pred": 0.05218011645170358, "train/reward_rate": 0.05673076923076923, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.86961803230556e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3868871198045822e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0085334777832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03482413291931152, "timer/logger.write_frac": 0.00011607714125868485, "timer/logger.write_avg": 0.03482413291931152, "timer/logger.write_min": 0.03482413291931152, "timer/logger.write_max": 0.03482413291931152, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2671971321105957, "timer/replay.add_frac": 0.0008906317730804904, "timer/replay.add_avg": 0.00020585295231941118, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0011913776397705078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 16.05555009841919, "timer/env.step_frac": 0.053516978041586824, "timer/env.step_avg": 0.012369453080446216, "timer/env.step_min": 0.002624034881591797, "timer/env.step_max": 1.6740446090698242, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.402217388153076, "timer/agent.policy_frac": 0.04800602576599581, "timer/agent.policy_avg": 0.011095699066373711, "timer/agent.policy_min": 0.0056841373443603516, "timer/agent.policy_max": 3.215205669403076, "timer/dataset_count": 649.0, "timer/dataset_total": 0.06027102470397949, "timer/dataset_frac": 0.00020089770115969984, "timer/dataset_avg": 9.286752650844298e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002224445343017578, "timer/agent.train_count": 649.0, "timer/agent.train_total": 268.5024902820587, "timer/agent.train_frac": 0.8949828432194992, "timer/agent.train_avg": 0.4137172423452368, "timer/agent.train_min": 0.37191081047058105, "timer/agent.train_max": 0.4513711929321289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2629983425140381, "timer/agent.report_frac": 0.0008766362058615047, "timer/agent.report_avg": 0.2629983425140381, "timer/agent.report_min": 0.2629983425140381, "timer/agent.report_max": 0.2629983425140381, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029087066650390625, "timer/checkpoint.save_frac": 9.695413098155968e-07, "timer/checkpoint.save_avg": 0.00029087066650390625, "timer/checkpoint.save_min": 0.00029087066650390625, "timer/checkpoint.save_max": 0.00029087066650390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.247413158416748, "timer/agent.save_frac": 0.004157925589503686, "timer/agent.save_avg": 1.247413158416748, "timer/agent.save_min": 1.247413158416748, "timer/agent.save_max": 1.247413158416748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.341934204101562e-05, "timer/replay.save_frac": 2.113917937794662e-07, "timer/replay.save_avg": 6.341934204101562e-05, "timer/replay.save_min": 6.341934204101562e-05, "timer/replay.save_max": 6.341934204101562e-05, "fps": 4.326457091798258}
+{"step": 1341452, "episode/length": 186.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.053475935828877004}
+{"step": 1341625, "episode/length": 172.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08670520231213873}
+{"step": 1341841, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06944444444444445}
+{"step": 1342145, "episode/length": 303.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.049342105263157895}
+{"step": 1342353, "episode/length": 207.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.100000075995922, "episode/reward_rate": 0.07211538461538461}
+{"step": 1342576, "episode/length": 222.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06726457399103139}
+{"step": 1342681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433406020655776, "train/action_min": 0.0, "train/action_std": 3.3407800631089644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03515709338314606, "train/actor_opt_grad_steps": 670465.0, "train/actor_opt_loss": -10.90185916175445, "train/adv_mag": 0.38444527780467813, "train/adv_max": 0.32551355705116736, "train/adv_mean": 0.00193900701589717, "train/adv_min": -0.3478137898174199, "train/adv_std": 0.03977623316600467, "train/cont_avg": 0.9947472774621212, "train/cont_loss_mean": 2.2039506623972365e-05, "train/cont_loss_std": 0.0006529019306614456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002871481944615644, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 2.0921969705641047e-05, "train/cont_pred": 0.994729423161709, "train/cont_rate": 0.9947472774621212, "train/dyn_loss_mean": 5.716633312629931, "train/dyn_loss_std": 9.092580816962503, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8083295334469188, "train/extr_critic_critic_opt_grad_steps": 670465.0, "train/extr_critic_critic_opt_loss": 14687.642548532196, "train/extr_critic_mag": 12.789963245391846, "train/extr_critic_max": 12.789963245391846, "train/extr_critic_mean": 3.9225836992263794, "train/extr_critic_min": -0.38247138984275586, "train/extr_critic_std": 3.1320802479079277, "train/extr_return_normed_mag": 1.379577611431931, "train/extr_return_normed_max": 1.379577611431931, "train/extr_return_normed_mean": 0.40861244454528345, "train/extr_return_normed_min": -0.06140214066500917, "train/extr_return_normed_std": 0.3198681803363742, "train/extr_return_rate": 0.8439266121748722, "train/extr_return_raw_mag": 13.531098611427076, "train/extr_return_raw_max": 13.531098611427076, "train/extr_return_raw_mean": 3.9417194922765098, "train/extr_return_raw_min": -0.7016536092216318, "train/extr_return_raw_std": 3.160236047975945, "train/extr_reward_mag": 1.0944045023484663, "train/extr_reward_max": 1.0944045023484663, "train/extr_reward_mean": 0.06660913331716349, "train/extr_reward_min": -0.6111613403667103, "train/extr_reward_std": 0.24713840809735385, "train/image_loss_mean": 3.504921060619932, "train/image_loss_std": 8.667778911012592, "train/model_loss_mean": 7.003590670498935, "train/model_loss_std": 12.89232775659272, "train/model_opt_grad_norm": 19.09655371579257, "train/model_opt_grad_steps": 669912.0, "train/model_opt_loss": 17508.976636482006, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7389602769504893, "train/policy_entropy_max": 2.7389602769504893, "train/policy_entropy_mean": 0.47011689615972113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6942516009915959, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4711035584861582, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0912506977717082, "train/policy_randomness_mag": 0.9667327819448529, "train/policy_randomness_max": 0.9667327819448529, "train/policy_randomness_mean": 0.16593063419515436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24504034966230392, "train/post_ent_mag": 54.95608803720185, "train/post_ent_max": 54.95608803720185, "train/post_ent_mean": 39.6181302504106, "train/post_ent_min": 19.288736169988457, "train/post_ent_std": 5.765212824850371, "train/prior_ent_mag": 76.75800346605706, "train/prior_ent_max": 76.75800346605706, "train/prior_ent_mean": 45.308452143813625, "train/prior_ent_min": 27.33657342737371, "train/prior_ent_std": 8.061242038553411, "train/rep_loss_mean": 5.716633312629931, "train/rep_loss_std": 9.092580816962503, "train/reward_avg": 0.05512991180699883, "train/reward_loss_mean": 0.06866758085335746, "train/reward_loss_std": 0.22852500302321982, "train/reward_max_data": 1.0454545562917537, "train/reward_max_pred": 1.0438986980553828, "train/reward_neg_acc": 0.9923727485266599, "train/reward_neg_loss": 0.028163354251195084, "train/reward_pos_acc": 0.9927516886682222, "train/reward_pos_loss": 0.7114915883902347, "train/reward_pred": 0.05481888119582877, "train/reward_rate": 0.05937795928030303, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.4755597760279973, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.800406622416333e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.398040962508669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10105061531067, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026427268981933594, "timer/logger.write_frac": 8.806123446668573e-05, "timer/logger.write_avg": 0.026427268981933594, "timer/logger.write_min": 0.026427268981933594, "timer/logger.write_max": 0.026427268981933594, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2728900909423828, "timer/replay.add_frac": 0.0009093273428495635, "timer/replay.add_avg": 0.00020704862742214173, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0014865398406982422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.09919023513794, "timer/env.step_frac": 0.0536458976139172, "timer/env.step_avg": 0.012214863607843657, "timer/env.step_min": 0.0022881031036376953, "timer/env.step_max": 1.4448237419128418, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.999866724014282, "timer/agent.policy_frac": 0.033321665164154225, "timer/agent.policy_avg": 0.007587152294396268, "timer/agent.policy_min": 0.00556182861328125, "timer/agent.policy_max": 0.016507863998413086, "timer/dataset_count": 659.0, "timer/dataset_total": 0.060790300369262695, "timer/dataset_frac": 0.00020256610313300008, "timer/dataset_avg": 9.224628280616494e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0002110004425048828, "timer/agent.train_count": 659.0, "timer/agent.train_total": 272.95902705192566, "timer/agent.train_frac": 0.9095570525070322, "timer/agent.train_avg": 0.41420186199078246, "timer/agent.train_min": 0.3652760982513428, "timer/agent.train_max": 0.45185279846191406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26209545135498047, "timer/agent.report_frac": 0.0008733573268657153, "timer/agent.report_avg": 0.26209545135498047, "timer/agent.report_min": 0.26209545135498047, "timer/agent.report_max": 0.26209545135498047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391811277194515}
+{"step": 1342757, "episode/length": 180.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07734806629834254}
+{"step": 1342936, "episode/length": 178.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.08379888268156424}
+{"step": 1343143, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06280193236714976}
+{"step": 1343503, "episode/length": 359.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.041666666666666664}
+{"step": 1343726, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
+{"step": 1343927, "episode/length": 200.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.100000023841858, "episode/reward_rate": 0.06467661691542288}
+{"step": 1343999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471693559126421, "train/action_min": 0.0, "train/action_std": 3.314336231260589, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03286602201335358, "train/actor_opt_grad_steps": 671125.0, "train/actor_opt_loss": -13.961097233223192, "train/adv_mag": 0.39474988119168714, "train/adv_max": 0.3240983142997279, "train/adv_mean": 0.0011224260855563057, "train/adv_min": -0.34949358981667145, "train/adv_std": 0.0383387982675975, "train/cont_avg": 0.9950136126893939, "train/cont_loss_mean": 1.3780686175275122e-05, "train/cont_loss_std": 0.0003347189651449436, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.888086466345038e-05, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 1.3475703186162663e-05, "train/cont_pred": 0.9950011444814277, "train/cont_rate": 0.9950136126893939, "train/dyn_loss_mean": 5.703441670446685, "train/dyn_loss_std": 9.043198831153639, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8372083577242765, "train/extr_critic_critic_opt_grad_steps": 671125.0, "train/extr_critic_critic_opt_loss": 14730.735277580492, "train/extr_critic_mag": 12.810076915856564, "train/extr_critic_max": 12.810076915856564, "train/extr_critic_mean": 3.734488718437426, "train/extr_critic_min": -0.3988285588495659, "train/extr_critic_std": 3.125522833881956, "train/extr_return_normed_mag": 1.3812181136824868, "train/extr_return_normed_max": 1.3812181136824868, "train/extr_return_normed_mean": 0.38866563818671485, "train/extr_return_normed_min": -0.06453847571868788, "train/extr_return_normed_std": 0.3186137473041361, "train/extr_return_rate": 0.823278726050348, "train/extr_return_raw_mag": 13.561844739046963, "train/extr_return_raw_max": 13.561844739046963, "train/extr_return_raw_mean": 3.745563106103377, "train/extr_return_raw_min": -0.736288434176734, "train/extr_return_raw_std": 3.1509102004947085, "train/extr_reward_mag": 1.089555303255717, "train/extr_reward_max": 1.089555303255717, "train/extr_reward_mean": 0.06348933934262305, "train/extr_reward_min": -0.6059302272218646, "train/extr_reward_std": 0.241832039798751, "train/image_loss_mean": 3.559993388074817, "train/image_loss_std": 8.765702023650661, "train/model_loss_mean": 7.049283367214781, "train/model_loss_std": 12.944925871762363, "train/model_opt_grad_norm": 18.51865583566519, "train/model_opt_grad_steps": 670571.2878787878, "train/model_opt_loss": 19243.29569128788, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7486190940394546, "train/policy_entropy_max": 2.7486190940394546, "train/policy_entropy_mean": 0.4916266225504153, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7114208227757252, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4911611053076657, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.1036786446065614, "train/policy_randomness_mag": 0.97014192107952, "train/policy_randomness_max": 0.97014192107952, "train/policy_randomness_mean": 0.17352262455405612, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25110033493150363, "train/post_ent_mag": 54.75273380857526, "train/post_ent_max": 54.75273380857526, "train/post_ent_mean": 39.58661293260979, "train/post_ent_min": 19.41659586357348, "train/post_ent_std": 5.758268732013124, "train/prior_ent_mag": 76.75536831942472, "train/prior_ent_max": 76.75536831942472, "train/prior_ent_mean": 45.27500701673103, "train/prior_ent_min": 26.76087220509847, "train/prior_ent_std": 8.143286748365922, "train/rep_loss_mean": 5.703441670446685, "train/rep_loss_std": 9.043198831153639, "train/reward_avg": 0.052768406232423855, "train/reward_loss_mean": 0.0672112362967296, "train/reward_loss_std": 0.23803104437661893, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.034971002376441, "train/reward_neg_acc": 0.9918817281723022, "train/reward_neg_loss": 0.026925223724295694, "train/reward_pos_acc": 0.9861169972202994, "train/reward_pos_loss": 0.7351388967398441, "train/reward_pred": 0.052191641040597904, "train/reward_rate": 0.05704012784090909, "stats/sum_log_reward": 13.266666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5043225139379501, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.756811115919006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.406294261197219e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0472996234894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031168460845947266, "timer/logger.write_frac": 0.00010387849144137815, "timer/logger.write_avg": 0.031168460845947266, "timer/logger.write_min": 0.031168460845947266, "timer/logger.write_max": 0.031168460845947266, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2766108512878418, "timer/replay.add_frac": 0.0009218908206637536, "timer/replay.add_avg": 0.00020987166258561594, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.001894235610961914, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.237054109573364, "timer/env.step_frac": 0.05411498163772255, "timer/env.step_avg": 0.01231946442304504, "timer/env.step_min": 0.0025298595428466797, "timer/env.step_max": 1.7431790828704834, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.998520851135254, "timer/agent.policy_frac": 0.03332314892912475, "timer/agent.policy_avg": 0.007586131146536611, "timer/agent.policy_min": 0.0053522586822509766, "timer/agent.policy_max": 0.01996445655822754, "timer/dataset_count": 659.0, "timer/dataset_total": 0.06082320213317871, "timer/dataset_frac": 0.00020271204643235234, "timer/dataset_avg": 9.229620961028636e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00025391578674316406, "timer/agent.train_count": 659.0, "timer/agent.train_total": 272.7987563610077, "timer/agent.train_frac": 0.9091858407102007, "timer/agent.train_avg": 0.4139586591214077, "timer/agent.train_min": 0.37195682525634766, "timer/agent.train_max": 0.45150160789489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22124266624450684, "timer/agent.report_frac": 0.0007373592980911024, "timer/agent.report_avg": 0.22124266624450684, "timer/agent.report_min": 0.22124266624450684, "timer/agent.report_max": 0.22124266624450684, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392563653612553}
+{"step": 1344118, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07853403141361257}
+{"step": 1344297, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.061452513966480445}
+{"step": 1344504, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06763285024154589}
+{"step": 1344902, "episode/length": 397.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03768844221105527}
+{"step": 1345079, "episode/length": 176.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.07909604519774012}
+{"step": 1345200, "episode/length": 120.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.09090909090909091}
+{"step": 1345299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4600247896634615, "train/action_min": 0.0, "train/action_std": 3.280338166310237, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03457980559995541, "train/actor_opt_grad_steps": 671780.0, "train/actor_opt_loss": -10.950177337802373, "train/adv_mag": 0.4024217000374427, "train/adv_max": 0.32704685628414154, "train/adv_mean": 0.0016471579720158704, "train/adv_min": -0.3630943298339844, "train/adv_std": 0.03956764122614494, "train/cont_avg": 0.9953275240384616, "train/cont_loss_mean": 6.767641119525846e-05, "train/cont_loss_std": 0.002120117268982715, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.011237303599947537, "train/cont_pos_acc": 0.9999849035189702, "train/cont_pos_loss": 2.3705312154421477e-05, "train/cont_pred": 0.9953264309809758, "train/cont_rate": 0.9953275240384616, "train/dyn_loss_mean": 5.869592263148381, "train/dyn_loss_std": 9.043247868464544, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8800282404972957, "train/extr_critic_critic_opt_grad_steps": 671780.0, "train/extr_critic_critic_opt_loss": 14883.949353966345, "train/extr_critic_mag": 12.708766467754657, "train/extr_critic_max": 12.708766467754657, "train/extr_critic_mean": 3.7504357778109036, "train/extr_critic_min": -0.38708544144263635, "train/extr_critic_std": 3.067508943264301, "train/extr_return_normed_mag": 1.3668188443550697, "train/extr_return_normed_max": 1.3668188443550697, "train/extr_return_normed_mean": 0.3909898015168997, "train/extr_return_normed_min": -0.06343960607281098, "train/extr_return_normed_std": 0.313159244794112, "train/extr_return_rate": 0.8294080917651837, "train/extr_return_raw_mag": 13.393098831176758, "train/extr_return_raw_max": 13.393098831176758, "train/extr_return_raw_mean": 3.766679253944984, "train/extr_return_raw_min": -0.7173713363133944, "train/extr_return_raw_std": 3.089882252766536, "train/extr_reward_mag": 1.09496551660391, "train/extr_reward_max": 1.09496551660391, "train/extr_reward_mean": 0.06452740425100693, "train/extr_reward_min": -0.6081079959869384, "train/extr_reward_std": 0.24340033577038692, "train/image_loss_mean": 3.6353486941410944, "train/image_loss_std": 9.030690097808838, "train/model_loss_mean": 7.225422587761512, "train/model_loss_std": 13.200680527320275, "train/model_opt_grad_norm": 20.177791419396033, "train/model_opt_grad_steps": 671225.0, "train/model_opt_loss": 9031.778185096155, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7384502520928016, "train/policy_entropy_max": 2.7384502520928016, "train/policy_entropy_mean": 0.4823075927220858, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6985680401325226, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48273375630378723, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.0975137738081124, "train/policy_randomness_mag": 0.9665527673868033, "train/policy_randomness_max": 0.9665527673868033, "train/policy_randomness_mean": 0.17023341770355518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24656386077404022, "train/post_ent_mag": 54.82582297691932, "train/post_ent_max": 54.82582297691932, "train/post_ent_mean": 39.69012298583984, "train/post_ent_min": 19.53253442324125, "train/post_ent_std": 5.7510887659513035, "train/prior_ent_mag": 76.77583829439604, "train/prior_ent_max": 76.77583829439604, "train/prior_ent_mean": 45.52348374586839, "train/prior_ent_min": 27.45063350384052, "train/prior_ent_std": 7.949731731414795, "train/rep_loss_mean": 5.869592263148381, "train/rep_loss_std": 9.043247868464544, "train/reward_avg": 0.05488431442242402, "train/reward_loss_mean": 0.0682509272144391, "train/reward_loss_std": 0.2424061296077875, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0396363735198975, "train/reward_neg_acc": 0.9923270298884466, "train/reward_neg_loss": 0.026767649458578, "train/reward_pos_acc": 0.9883793354034424, "train/reward_pos_loss": 0.7288146000642043, "train/reward_pred": 0.05435286307564149, "train/reward_rate": 0.05925480769230769, "stats/sum_log_reward": 12.433333396911621, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4431702196598053, "replay/size": 1000000.0, "replay/inserts": 1300.0, "replay/samples": 10400.0, "replay/insert_wait_avg": 3.817081451416016e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4187051699711727e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23122000694275, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030559062957763672, "timer/logger.write_frac": 0.00010178509402538817, "timer/logger.write_avg": 0.030559062957763672, "timer/logger.write_min": 0.030559062957763672, "timer/logger.write_max": 0.030559062957763672, "timer/replay.add_count": 1300.0, "timer/replay.add_total": 0.26830625534057617, "timer/replay.add_frac": 0.0008936654067300919, "timer/replay.add_avg": 0.00020638942718505859, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0020182132720947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1300.0, "timer/env.step_total": 15.865178108215332, "timer/env.step_frac": 0.05284319901124358, "timer/env.step_avg": 0.01220398316016564, "timer/env.step_min": 0.0026390552520751953, "timer/env.step_max": 1.4433319568634033, "timer/agent.policy_count": 1300.0, "timer/agent.policy_total": 14.438437938690186, "timer/agent.policy_frac": 0.04809106107737997, "timer/agent.policy_avg": 0.011106490722069373, "timer/agent.policy_min": 0.005539655685424805, "timer/agent.policy_max": 3.170109748840332, "timer/dataset_count": 650.0, "timer/dataset_total": 0.060526371002197266, "timer/dataset_frac": 0.00020159919078634663, "timer/dataset_avg": 9.311749384953426e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017452239990234375, "timer/agent.train_count": 650.0, "timer/agent.train_total": 268.92560839653015, "timer/agent.train_frac": 0.8957283269551759, "timer/agent.train_avg": 0.413731705225431, "timer/agent.train_min": 0.36338090896606445, "timer/agent.train_max": 0.5105655193328857, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23038220405578613, "timer/agent.report_frac": 0.0007673492585163483, "timer/agent.report_avg": 0.23038220405578613, "timer/agent.report_min": 0.23038220405578613, "timer/agent.report_max": 0.23038220405578613, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004029273986816406, "timer/checkpoint.save_frac": 1.3420569608727668e-06, "timer/checkpoint.save_avg": 0.0004029273986816406, "timer/checkpoint.save_min": 0.0004029273986816406, "timer/checkpoint.save_max": 0.0004029273986816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.374619483947754, "timer/agent.save_frac": 0.004578536115984095, "timer/agent.save_avg": 1.374619483947754, "timer/agent.save_min": 1.374619483947754, "timer/agent.save_max": 1.374619483947754, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8667607270714134e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "fps": 4.329922460633874}
+{"step": 1345439, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06694560669456066}
+{"step": 1345656, "episode/length": 216.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.03686635944700461}
+{"step": 1345948, "episode/length": 291.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.03424657534246575}
+{"step": 1346166, "episode/length": 217.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05963302752293578}
+{"step": 1346411, "episode/length": 244.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.0653061224489796}
+{"step": 1346625, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.432175145004734, "train/action_min": 0.0, "train/action_std": 3.285895246447939, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035043321239451565, "train/actor_opt_grad_steps": 672435.0, "train/actor_opt_loss": -9.635414951678479, "train/adv_mag": 0.3947142976703066, "train/adv_max": 0.3334864910804864, "train/adv_mean": 0.002008864323105434, "train/adv_min": -0.33685815650405304, "train/adv_std": 0.03928897699171847, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 1.1839657334049166e-05, "train/cont_loss_std": 0.0002937756765451275, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001792643938517043, "train/cont_pos_acc": 0.999999972003879, "train/cont_pos_loss": 1.0913298067097541e-05, "train/cont_pred": 0.9953591606833718, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.685903498620698, "train/dyn_loss_std": 8.89245437853264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8300133817123644, "train/extr_critic_critic_opt_grad_steps": 672435.0, "train/extr_critic_critic_opt_loss": 14917.953095407196, "train/extr_critic_mag": 12.619678136074182, "train/extr_critic_max": 12.619678136074182, "train/extr_critic_mean": 3.712278243267175, "train/extr_critic_min": -0.34408034700335877, "train/extr_critic_std": 3.0384082541321265, "train/extr_return_normed_mag": 1.3686149662191218, "train/extr_return_normed_max": 1.3686149662191218, "train/extr_return_normed_mean": 0.3892728609569145, "train/extr_return_normed_min": -0.05998827178369869, "train/extr_return_normed_std": 0.3129509265224139, "train/extr_return_rate": 0.8271603177894246, "train/extr_return_raw_mag": 13.321430639787154, "train/extr_return_raw_max": 13.321430639787154, "train/extr_return_raw_mean": 3.7319447380123716, "train/extr_return_raw_min": -0.6672372402566852, "train/extr_return_raw_std": 3.064369700171731, "train/extr_reward_mag": 1.083740613677285, "train/extr_reward_max": 1.083740613677285, "train/extr_reward_mean": 0.06326742848437844, "train/extr_reward_min": -0.5844940308368567, "train/extr_reward_std": 0.24113911977320007, "train/image_loss_mean": 3.6352859609054797, "train/image_loss_std": 8.676046140266187, "train/model_loss_mean": 7.113806594501842, "train/model_loss_std": 12.731575734687574, "train/model_opt_grad_norm": 20.332542130441375, "train/model_opt_grad_steps": 671880.0, "train/model_opt_loss": 13119.288315281723, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1856.060606060606, "train/policy_entropy_mag": 2.7388619328990127, "train/policy_entropy_max": 2.7388619328990127, "train/policy_entropy_mean": 0.48172121743361157, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6983112200643077, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4813601528153275, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0940012561552452, "train/policy_randomness_mag": 0.9666980721733787, "train/policy_randomness_max": 0.9666980721733787, "train/policy_randomness_mean": 0.17002645270390945, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24647321439150607, "train/post_ent_mag": 55.14392904801802, "train/post_ent_max": 55.14392904801802, "train/post_ent_mean": 39.87048495899547, "train/post_ent_min": 19.58837801037413, "train/post_ent_std": 5.813277959823608, "train/prior_ent_mag": 76.7074106389826, "train/prior_ent_max": 76.7074106389826, "train/prior_ent_mean": 45.51463017319188, "train/prior_ent_min": 27.188206296978574, "train/prior_ent_std": 8.013821291201042, "train/rep_loss_mean": 5.685903498620698, "train/rep_loss_std": 8.89245437853264, "train/reward_avg": 0.052141039152488564, "train/reward_loss_mean": 0.06696676090359688, "train/reward_loss_std": 0.2348219481381503, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.0333531842087254, "train/reward_neg_acc": 0.9922054256453658, "train/reward_neg_loss": 0.027827842062282743, "train/reward_pos_acc": 0.9891957902547085, "train/reward_pos_loss": 0.7211702574383129, "train/reward_pred": 0.05173242837190628, "train/reward_rate": 0.05650745738636364, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 10.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.4, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.4287777304649353, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.7938401350248634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4057211566654626e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2358491420746, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0268707275390625, "timer/logger.write_frac": 8.949873113369284e-05, "timer/logger.write_avg": 0.0268707275390625, "timer/logger.write_min": 0.0268707275390625, "timer/logger.write_max": 0.0268707275390625, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.2623410224914551, "timer/replay.add_frac": 0.000873783138293098, "timer/replay.add_avg": 0.00019784390836459658, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0011072158813476562, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.576819896697998, "timer/env.step_frac": 0.04855123043551039, "timer/env.step_avg": 0.010993076845171944, "timer/env.step_min": 0.0023882389068603516, "timer/env.step_max": 1.4778351783752441, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.880576372146606, "timer/agent.policy_frac": 0.032909382408464555, "timer/agent.policy_avg": 0.007451415061950684, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 0.01795816421508789, "timer/dataset_count": 663.0, "timer/dataset_total": 0.06195402145385742, "timer/dataset_frac": 0.00020635117901773338, "timer/dataset_avg": 9.34449795684124e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00020360946655273438, "timer/agent.train_count": 663.0, "timer/agent.train_total": 274.74404668807983, "timer/agent.train_frac": 0.9150940751184854, "timer/agent.train_avg": 0.4143952438734236, "timer/agent.train_min": 0.3708069324493408, "timer/agent.train_max": 0.4496579170227051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26066040992736816, "timer/agent.report_frac": 0.0008681854970757375, "timer/agent.report_avg": 0.26066040992736816, "timer/agent.report_min": 0.26066040992736816, "timer/agent.report_max": 0.26066040992736816, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.4164628283231355}
+{"step": 1346629, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06422018348623854}
+{"step": 1346824, "episode/length": 194.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.08717948717948718}
+{"step": 1347076, "episode/length": 251.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.051587301587301584}
+{"step": 1347397, "episode/length": 320.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04672897196261682}
+{"step": 1347550, "episode/length": 152.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0718954248366013}
+{"step": 1347646, "episode/length": 95.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11458333333333333}
+{"step": 1347874, "episode/length": 227.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06578947368421052}
+{"step": 1347935, "stats/sum_log_reward": 12.385714667184013, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.714285714285714, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42065291106700897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.413611778846154, "train/action_min": 0.0, "train/action_std": 3.3046595646784858, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03467617725523619, "train/actor_opt_grad_steps": 673090.0, "train/actor_opt_loss": -11.097186750632066, "train/adv_mag": 0.40030605655450086, "train/adv_max": 0.34247178068527806, "train/adv_mean": 0.0021125715326399167, "train/adv_min": -0.3531305446074559, "train/adv_std": 0.04033888045411844, "train/cont_avg": 0.9949669471153846, "train/cont_loss_mean": 1.7774220744006295e-05, "train/cont_loss_std": 0.00046910559335716385, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.727182545039864e-05, "train/cont_pos_acc": 0.9999999834940984, "train/cont_pos_loss": 1.7629891206419975e-05, "train/cont_pred": 0.9949506402015686, "train/cont_rate": 0.9949669471153846, "train/dyn_loss_mean": 5.816108975043663, "train/dyn_loss_std": 8.96060911325308, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.835360572888301, "train/extr_critic_critic_opt_grad_steps": 673090.0, "train/extr_critic_critic_opt_loss": 14886.558022836538, "train/extr_critic_mag": 12.897931553767277, "train/extr_critic_max": 12.897931553767277, "train/extr_critic_mean": 3.8423240698300876, "train/extr_critic_min": -0.3497485931103046, "train/extr_critic_std": 3.1279837681696967, "train/extr_return_normed_mag": 1.3913684826630812, "train/extr_return_normed_max": 1.3913684826630812, "train/extr_return_normed_mean": 0.39813964504462024, "train/extr_return_normed_min": -0.06181559141438741, "train/extr_return_normed_std": 0.3197885125875473, "train/extr_return_rate": 0.8379567751517663, "train/extr_return_raw_mag": 13.668230438232422, "train/extr_return_raw_max": 13.668230438232422, "train/extr_return_raw_mean": 3.8631716618171104, "train/extr_return_raw_min": -0.6770356017809648, "train/extr_return_raw_std": 3.1570141425499547, "train/extr_reward_mag": 1.0939885249504677, "train/extr_reward_max": 1.0939885249504677, "train/extr_reward_mean": 0.06493720435179197, "train/extr_reward_min": -0.5861797314423781, "train/extr_reward_std": 0.24463105224646053, "train/image_loss_mean": 3.5503844517927905, "train/image_loss_std": 8.529806657937856, "train/model_loss_mean": 7.105893699939434, "train/model_loss_std": 12.66936798095703, "train/model_opt_grad_norm": 19.315884443429802, "train/model_opt_grad_steps": 672535.0, "train/model_opt_loss": 17764.734329927884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7433122708247257, "train/policy_entropy_max": 2.7433122708247257, "train/policy_entropy_mean": 0.47699575974391056, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7021837124457726, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4775187382331261, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.0985802366183355, "train/policy_randomness_mag": 0.9682688465485206, "train/policy_randomness_max": 0.9682688465485206, "train/policy_randomness_mean": 0.16835857125429007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2478400367956895, "train/post_ent_mag": 54.77258294912485, "train/post_ent_max": 54.77258294912485, "train/post_ent_mean": 39.73629338191106, "train/post_ent_min": 19.52807143284724, "train/post_ent_std": 5.771653079986573, "train/prior_ent_mag": 76.8003180870643, "train/prior_ent_max": 76.8003180870643, "train/prior_ent_mean": 45.473919736422026, "train/prior_ent_min": 26.953668036827676, "train/prior_ent_std": 8.003563550802378, "train/rep_loss_mean": 5.816108975043663, "train/rep_loss_std": 8.96060911325308, "train/reward_avg": 0.05236478339021022, "train/reward_loss_mean": 0.06582617988953224, "train/reward_loss_std": 0.22429072925677665, "train/reward_max_data": 1.0476923190630398, "train/reward_max_pred": 1.046823813365056, "train/reward_neg_acc": 0.9924355901204622, "train/reward_neg_loss": 0.026350884454754683, "train/reward_pos_acc": 0.9898384543565604, "train/reward_pos_loss": 0.7197646562869732, "train/reward_pred": 0.051961846076525174, "train/reward_rate": 0.05695612980769231, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.818519242847239e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4044173801218281e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1719973087311, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034598588943481445, "timer/logger.write_frac": 0.00011526254698534159, "timer/logger.write_avg": 0.034598588943481445, "timer/logger.write_min": 0.034598588943481445, "timer/logger.write_max": 0.034598588943481445, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2773277759552002, "timer/replay.add_frac": 0.0009238962276350006, "timer/replay.add_avg": 0.0002117005923322139, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.0020263195037841797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.86407160758972, "timer/env.step_frac": 0.05951278522898415, "timer/env.step_avg": 0.013636695883656276, "timer/env.step_min": 0.0025191307067871094, "timer/env.step_max": 1.7832415103912354, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.943030834197998, "timer/agent.policy_frac": 0.03312444506264671, "timer/agent.policy_avg": 0.007590099873433586, "timer/agent.policy_min": 0.005593776702880859, "timer/agent.policy_max": 0.016125917434692383, "timer/dataset_count": 655.0, "timer/dataset_total": 0.06072354316711426, "timer/dataset_frac": 0.00020229582942961615, "timer/dataset_avg": 9.27076994917775e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.30116176605225, "timer/agent.train_frac": 0.9038190244209063, "timer/agent.train_avg": 0.4142002469710721, "timer/agent.train_min": 0.3651554584503174, "timer/agent.train_max": 0.4516913890838623, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2628951072692871, "timer/agent.report_frac": 0.0008758148982128264, "timer/agent.report_avg": 0.2628951072692871, "timer/agent.report_min": 0.2628951072692871, "timer/agent.report_max": 0.2628951072692871, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.364099453249617}
+{"step": 1348136, "episode/length": 261.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.05725190839694656}
+{"step": 1348320, "episode/length": 183.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07608695652173914}
+{"step": 1348550, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06521739130434782}
+{"step": 1348829, "episode/length": 278.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.053763440860215055}
+{"step": 1349016, "episode/length": 186.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.500000059604645, "episode/reward_rate": 0.0748663101604278}
+{"step": 1349237, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3883310171274035, "train/action_min": 0.0, "train/action_std": 3.3056593528160683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034881712926121855, "train/actor_opt_grad_steps": 673740.0, "train/actor_opt_loss": -11.206856157229497, "train/adv_mag": 0.40676298645826486, "train/adv_max": 0.31901708520375766, "train/adv_mean": 0.0016215561109744997, "train/adv_min": -0.3714642045589594, "train/adv_std": 0.0390502043068409, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 0.00025677683384012304, "train/cont_loss_std": 0.008140258115912066, "train/cont_neg_acc": 0.9899553582072258, "train/cont_neg_loss": 0.055095576361379586, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 2.7413876702334725e-05, "train/cont_pred": 0.9955278479135954, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.900822059924786, "train/dyn_loss_std": 9.106993755927453, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8635030792309688, "train/extr_critic_critic_opt_grad_steps": 673740.0, "train/extr_critic_critic_opt_loss": 15031.220147235577, "train/extr_critic_mag": 12.887165744488057, "train/extr_critic_max": 12.887165744488057, "train/extr_critic_mean": 3.662769651412964, "train/extr_critic_min": -0.3366293943845309, "train/extr_critic_std": 3.092489983485295, "train/extr_return_normed_mag": 1.366843768266531, "train/extr_return_normed_max": 1.366843768266531, "train/extr_return_normed_mean": 0.3765618539773501, "train/extr_return_normed_min": -0.056756567009366474, "train/extr_return_normed_std": 0.3123464563718209, "train/extr_return_rate": 0.8157903066048255, "train/extr_return_raw_mag": 13.578379176213192, "train/extr_return_raw_max": 13.578379176213192, "train/extr_return_raw_mean": 3.6789937239426833, "train/extr_return_raw_min": -0.6528831330629495, "train/extr_return_raw_std": 3.1224604313190167, "train/extr_reward_mag": 1.0917415435497577, "train/extr_reward_max": 1.0917415435497577, "train/extr_reward_mean": 0.06319948509335518, "train/extr_reward_min": -0.5858947295408983, "train/extr_reward_std": 0.24120749556101284, "train/image_loss_mean": 3.7640106017772967, "train/image_loss_std": 9.162617441324088, "train/model_loss_mean": 7.370969948401818, "train/model_loss_std": 13.362258470975435, "train/model_opt_grad_norm": 22.31781492966872, "train/model_opt_grad_steps": 673184.2615384615, "train/model_opt_loss": 22377.224384014422, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3038.4615384615386, "train/policy_entropy_mag": 2.7395718647883487, "train/policy_entropy_max": 2.7395718647883487, "train/policy_entropy_mean": 0.49713383729641253, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7137163831637456, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4954644785477565, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.1033679842948914, "train/policy_randomness_mag": 0.9669486476824833, "train/policy_randomness_max": 0.9669486476824833, "train/policy_randomness_mean": 0.1754664285824849, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25191056178166316, "train/post_ent_mag": 55.14129973191481, "train/post_ent_max": 55.14129973191481, "train/post_ent_mean": 39.75131272536058, "train/post_ent_min": 19.064649156423716, "train/post_ent_std": 5.81547806079571, "train/prior_ent_mag": 76.74506037785457, "train/prior_ent_max": 76.74506037785457, "train/prior_ent_mean": 45.63022736769456, "train/prior_ent_min": 27.231389617919923, "train/prior_ent_std": 8.027149948706993, "train/rep_loss_mean": 5.900822059924786, "train/rep_loss_std": 9.106993755927453, "train/reward_avg": 0.05094951904163911, "train/reward_loss_mean": 0.06620939385432463, "train/reward_loss_std": 0.23545047205228073, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.0411664375892051, "train/reward_neg_acc": 0.9921812057495117, "train/reward_neg_loss": 0.027876132583388915, "train/reward_pos_acc": 0.9910139001332796, "train/reward_pos_loss": 0.7237441906562219, "train/reward_pred": 0.05065590570179316, "train/reward_rate": 0.05512319711538462, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.4790726274251938, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.799132304623746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4120166385961202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9904074668884, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02329564094543457, "timer/logger.write_frac": 7.76546194998113e-05, "timer/logger.write_avg": 0.02329564094543457, "timer/logger.write_min": 0.02329564094543457, "timer/logger.write_max": 0.02329564094543457, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2752265930175781, "timer/replay.add_frac": 0.0009174513123322331, "timer/replay.add_avg": 0.00021138755224084341, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0019001960754394531, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 17.00624704360962, "timer/env.step_frac": 0.05668930279207908, "timer/env.step_avg": 0.013061633674047326, "timer/env.step_min": 0.0026216506958007812, "timer/env.step_max": 2.651176929473877, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 11.970339059829712, "timer/agent.policy_frac": 0.03990240608327099, "timer/agent.policy_avg": 0.00919380880171253, "timer/agent.policy_min": 0.005544424057006836, "timer/agent.policy_max": 1.4699041843414307, "timer/dataset_count": 651.0, "timer/dataset_total": 0.05977916717529297, "timer/dataset_frac": 0.00019927026227293992, "timer/dataset_avg": 9.182667768862207e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 651.0, "timer/agent.train_total": 270.02345061302185, "timer/agent.train_frac": 0.900106949729137, "timer/agent.train_avg": 0.41478256622584003, "timer/agent.train_min": 0.37227535247802734, "timer/agent.train_max": 0.4489908218383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21943187713623047, "timer/agent.report_frac": 0.0007314629790635901, "timer/agent.report_avg": 0.21943187713623047, "timer/agent.report_min": 0.21943187713623047, "timer/agent.report_max": 0.21943187713623047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006389617919921875, "timer/checkpoint.save_frac": 2.1299407450643673e-06, "timer/checkpoint.save_avg": 0.0006389617919921875, "timer/checkpoint.save_min": 0.0006389617919921875, "timer/checkpoint.save_max": 0.0006389617919921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4815678596496582, "timer/agent.save_frac": 0.004938717448201029, "timer/agent.save_avg": 1.4815678596496582, "timer/agent.save_min": 1.4815678596496582, "timer/agent.save_max": 1.4815678596496582, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010561943054199219, "timer/replay.save_frac": 3.520760261431025e-07, "timer/replay.save_avg": 0.00010561943054199219, "timer/replay.save_min": 0.00010561943054199219, "timer/replay.save_max": 0.00010561943054199219, "fps": 4.3400604880974925}
+{"step": 1349330, "episode/length": 313.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.041401273885350316}
+{"step": 1349700, "episode/length": 369.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.03783783783783784}
+{"step": 1349889, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06878306878306878}
+{"step": 1349950, "episode/length": 60.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09836065573770492}
+{"step": 1350185, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059574468085106386}
+{"step": 1350379, "episode/length": 193.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.04639175257731959}
+{"step": 1350555, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.43850615530303, "train/action_min": 0.0, "train/action_std": 3.3141701221466064, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035104455341669644, "train/actor_opt_grad_steps": 674395.0, "train/actor_opt_loss": -13.284908506003292, "train/adv_mag": 0.39286372110699164, "train/adv_max": 0.3037901385263963, "train/adv_mean": 0.0011428057760224678, "train/adv_min": -0.36371861127289856, "train/adv_std": 0.03968699045027747, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 1.697085164578587e-05, "train/cont_loss_std": 0.0005041594898840733, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.0022292168957287473, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.354217426966346e-06, "train/cont_pred": 0.9953888690832889, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.673585277615172, "train/dyn_loss_std": 8.959016482035318, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8559874187816273, "train/extr_critic_critic_opt_grad_steps": 674395.0, "train/extr_critic_critic_opt_loss": 14876.994288589016, "train/extr_critic_mag": 12.87953974983909, "train/extr_critic_max": 12.87953974983909, "train/extr_critic_mean": 3.8665478229522705, "train/extr_critic_min": -0.3572934576959321, "train/extr_critic_std": 3.107611262437069, "train/extr_return_normed_mag": 1.3729874365257495, "train/extr_return_normed_max": 1.3729874365257495, "train/extr_return_normed_mean": 0.39938033959179214, "train/extr_return_normed_min": -0.05986471254039894, "train/extr_return_normed_std": 0.31456163096608536, "train/extr_return_rate": 0.8377377734039769, "train/extr_return_raw_mag": 13.56436824798584, "train/extr_return_raw_max": 13.56436824798584, "train/extr_return_raw_mean": 3.87792490829121, "train/extr_return_raw_min": -0.6913099126382307, "train/extr_return_raw_std": 3.1299178311319062, "train/extr_reward_mag": 1.0884514866453228, "train/extr_reward_max": 1.0884514866453228, "train/extr_reward_mean": 0.0662936433359529, "train/extr_reward_min": -0.585252330158696, "train/extr_reward_std": 0.24671468499935034, "train/image_loss_mean": 3.4089474280675254, "train/image_loss_std": 9.118318731134588, "train/model_loss_mean": 6.878802350073149, "train/model_loss_std": 13.23321076595422, "train/model_opt_grad_norm": 21.355799906181566, "train/model_opt_grad_steps": 673838.9545454546, "train/model_opt_loss": 19928.426743016098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.7342442057349463, "train/policy_entropy_max": 2.7342442057349463, "train/policy_entropy_mean": 0.4563152026949507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6741864907019066, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45651225248972577, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0762594721534036, "train/policy_randomness_mag": 0.965068212964318, "train/policy_randomness_max": 0.965068212964318, "train/policy_randomness_mean": 0.16105924298365912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2379582445278312, "train/post_ent_mag": 54.73287819371079, "train/post_ent_max": 54.73287819371079, "train/post_ent_mean": 39.610810308745414, "train/post_ent_min": 19.214882388259426, "train/post_ent_std": 5.685076677437984, "train/prior_ent_mag": 76.74290096398556, "train/prior_ent_max": 76.74290096398556, "train/prior_ent_mean": 45.27076865687515, "train/prior_ent_min": 27.148512204488117, "train/prior_ent_std": 7.948549855839122, "train/rep_loss_mean": 5.673585277615172, "train/rep_loss_std": 8.959016482035318, "train/reward_avg": 0.053123519558346634, "train/reward_loss_mean": 0.06568672282226158, "train/reward_loss_std": 0.2229039380044648, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0288018602313418, "train/reward_neg_acc": 0.9919004250656475, "train/reward_neg_loss": 0.02633049300956455, "train/reward_pos_acc": 0.9917507298064955, "train/reward_pos_loss": 0.7118046590776155, "train/reward_pred": 0.05275115636036252, "train/reward_rate": 0.057306463068181816, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.45880266030629474, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.8065570258225947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4161756078462499e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1983742713928, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.038687944412231445, "timer/logger.write_frac": 0.00012887459669337119, "timer/logger.write_avg": 0.038687944412231445, "timer/logger.write_min": 0.038687944412231445, "timer/logger.write_max": 0.038687944412231445, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2689938545227051, "timer/replay.add_frac": 0.0008960536684303378, "timer/replay.add_avg": 0.00020409245411434377, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0014007091522216797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.08630919456482, "timer/env.step_frac": 0.053585597302475974, "timer/env.step_avg": 0.012205090435936889, "timer/env.step_min": 0.0026412010192871094, "timer/env.step_max": 1.4723834991455078, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 10.095124006271362, "timer/agent.policy_frac": 0.03362817680399867, "timer/agent.policy_avg": 0.007659426408400123, "timer/agent.policy_min": 0.005494117736816406, "timer/agent.policy_max": 0.01871800422668457, "timer/dataset_count": 659.0, "timer/dataset_total": 0.061547279357910156, "timer/dataset_frac": 0.00020502202754192348, "timer/dataset_avg": 9.339496108939326e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00018525123596191406, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.0031855106354, "timer/agent.train_frac": 0.9094092736952274, "timer/agent.train_avg": 0.41426887027410525, "timer/agent.train_min": 0.36606836318969727, "timer/agent.train_max": 0.45194149017333984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21817803382873535, "timer/agent.report_frac": 0.0007267795315623282, "timer/agent.report_avg": 0.21817803382873535, "timer/agent.report_min": 0.21817803382873535, "timer/agent.report_max": 0.21817803382873535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.390347178546051}
+{"step": 1350722, "episode/length": 342.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.043731778425655975}
+{"step": 1350918, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 1351147, "episode/length": 228.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05240174672489083}
+{"step": 1351338, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
+{"step": 1351530, "episode/length": 191.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07291666666666667}
+{"step": 1351877, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.485618822502367, "train/action_min": 0.0, "train/action_std": 3.418958747025692, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03466594628425258, "train/actor_opt_grad_steps": 675055.0, "train/actor_opt_loss": -12.177171921639731, "train/adv_mag": 0.40000429072163324, "train/adv_max": 0.3234017220410434, "train/adv_mean": 0.0014356909121929537, "train/adv_min": -0.35449214776357013, "train/adv_std": 0.03904059300707145, "train/cont_avg": 0.9955462831439394, "train/cont_loss_mean": 1.9373086521721746e-05, "train/cont_loss_std": 0.000541148695254268, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.002167873836078113, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 6.722661180490239e-06, "train/cont_pred": 0.995548278093338, "train/cont_rate": 0.9955462831439394, "train/dyn_loss_mean": 5.975053071975708, "train/dyn_loss_std": 8.998353307897395, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8358804791262655, "train/extr_critic_critic_opt_grad_steps": 675055.0, "train/extr_critic_critic_opt_loss": 14839.27783203125, "train/extr_critic_mag": 12.867199724370783, "train/extr_critic_max": 12.867199724370783, "train/extr_critic_mean": 3.818845237746383, "train/extr_critic_min": -0.41329949191122345, "train/extr_critic_std": 3.134652943322153, "train/extr_return_normed_mag": 1.3829030268120044, "train/extr_return_normed_max": 1.3829030268120044, "train/extr_return_normed_mean": 0.3954297335761966, "train/extr_return_normed_min": -0.06006685731876077, "train/extr_return_normed_std": 0.3174967368443807, "train/extr_return_rate": 0.8198528655550696, "train/extr_return_raw_mag": 13.665191982731674, "train/extr_return_raw_max": 13.665191982731674, "train/extr_return_raw_mean": 3.8331240487821177, "train/extr_return_raw_min": -0.7021172222766009, "train/extr_return_raw_std": 3.1612953055988657, "train/extr_reward_mag": 1.0809699333075322, "train/extr_reward_max": 1.0809699333075322, "train/extr_reward_mean": 0.06543103029782121, "train/extr_reward_min": -0.5821767070076682, "train/extr_reward_std": 0.24498311091553082, "train/image_loss_mean": 3.5928600159558384, "train/image_loss_std": 8.715294469486583, "train/model_loss_mean": 7.244688308600224, "train/model_loss_std": 12.8704433296666, "train/model_opt_grad_norm": 20.706163146279074, "train/model_opt_grad_steps": 674496.6515151515, "train/model_opt_loss": 8702.250628847065, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1202.6515151515152, "train/policy_entropy_mag": 2.7434195280075073, "train/policy_entropy_max": 2.7434195280075073, "train/policy_entropy_mean": 0.4923516096490802, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7124705535895897, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49203967641700397, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.1028694140188622, "train/policy_randomness_mag": 0.9683067012916912, "train/policy_randomness_max": 0.9683067012916912, "train/policy_randomness_mean": 0.17377851203535544, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2514708369518771, "train/post_ent_mag": 54.72079779885032, "train/post_ent_max": 54.72079779885032, "train/post_ent_mean": 39.509692567767516, "train/post_ent_min": 19.491040822231408, "train/post_ent_std": 5.695195125811027, "train/prior_ent_mag": 76.685258807558, "train/prior_ent_max": 76.685258807558, "train/prior_ent_mean": 45.402233990755946, "train/prior_ent_min": 27.05229551141912, "train/prior_ent_std": 8.058290698311545, "train/rep_loss_mean": 5.975053071975708, "train/rep_loss_std": 8.998353307897395, "train/reward_avg": 0.05388997382286823, "train/reward_loss_mean": 0.06677708972358343, "train/reward_loss_std": 0.22935695539821277, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.0421020533099319, "train/reward_neg_acc": 0.9921174636392882, "train/reward_neg_loss": 0.026778265269416752, "train/reward_pos_acc": 0.9910399733167706, "train/reward_pos_loss": 0.7165871885689822, "train/reward_pred": 0.05358375213814504, "train/reward_rate": 0.05795750473484849, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 16.2, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.4861244440078735, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.7623966696042338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4286178323396575e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2036621570587, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02759575843811035, "timer/logger.write_frac": 9.192345702855874e-05, "timer/logger.write_avg": 0.02759575843811035, "timer/logger.write_min": 0.02759575843811035, "timer/logger.write_max": 0.02759575843811035, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.2695791721343994, "timer/replay.add_frac": 0.0008979876201289065, "timer/replay.add_avg": 0.00020391767937549124, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0018155574798583984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.129170179367065, "timer/env.step_frac": 0.050396354497007696, "timer/env.step_avg": 0.01144415293446828, "timer/env.step_min": 0.002730846405029297, "timer/env.step_max": 1.5611724853515625, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 9.954076290130615, "timer/agent.policy_frac": 0.03315774437462692, "timer/agent.policy_avg": 0.007529558464546607, "timer/agent.policy_min": 0.0055119991302490234, "timer/agent.policy_max": 0.017621755599975586, "timer/dataset_count": 661.0, "timer/dataset_total": 0.061044931411743164, "timer/dataset_frac": 0.0002033450590612917, "timer/dataset_avg": 9.235239245346923e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.12291169166565, "timer/agent.train_frac": 0.9131231435419722, "timer/agent.train_avg": 0.4147093974155305, "timer/agent.train_min": 0.3698582649230957, "timer/agent.train_max": 0.4531726837158203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185380458831787, "timer/agent.report_frac": 0.000727965955887791, "timer/agent.report_avg": 0.2185380458831787, "timer/agent.report_min": 0.2185380458831787, "timer/agent.report_max": 0.2185380458831787, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.403589287604178}
+{"step": 1352012, "episode/length": 481.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.03319502074688797}
+{"step": 1352195, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06557377049180328}
+{"step": 1352416, "episode/length": 220.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.07239819004524888}
+{"step": 1352670, "episode/length": 253.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.04330708661417323}
+{"step": 1352892, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
+{"step": 1353181, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486678614760891, "train/action_min": 0.0, "train/action_std": 3.371987158601934, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034654136577790436, "train/actor_opt_grad_steps": 675715.0, "train/actor_opt_loss": -11.974538354259549, "train/adv_mag": 0.39876030498381815, "train/adv_max": 0.334016953228098, "train/adv_mean": 0.0018792671093747645, "train/adv_min": -0.34717849642038345, "train/adv_std": 0.03997934524985877, "train/cont_avg": 0.9953539299242424, "train/cont_loss_mean": 7.08378621162138e-05, "train/cont_loss_std": 0.002255791254439266, "train/cont_neg_acc": 0.9955128211241502, "train/cont_neg_loss": 0.009395196359864227, "train/cont_pos_acc": 0.9999999900658926, "train/cont_pos_loss": 5.646745849628415e-06, "train/cont_pred": 0.9953743716080984, "train/cont_rate": 0.9953539299242424, "train/dyn_loss_mean": 5.74720683964816, "train/dyn_loss_std": 8.975983417395389, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8690529041218035, "train/extr_critic_critic_opt_grad_steps": 675715.0, "train/extr_critic_critic_opt_loss": 14864.320445667614, "train/extr_critic_mag": 12.932287534077963, "train/extr_critic_max": 12.932287534077963, "train/extr_critic_mean": 3.8375836683042124, "train/extr_critic_min": -0.35940576141530817, "train/extr_critic_std": 3.129091649344473, "train/extr_return_normed_mag": 1.3825130607142593, "train/extr_return_normed_max": 1.3825130607142593, "train/extr_return_normed_mean": 0.3970626533934564, "train/extr_return_normed_min": -0.05922655910817963, "train/extr_return_normed_std": 0.31923928811694635, "train/extr_return_rate": 0.8271376300941814, "train/extr_return_raw_mag": 13.596911054669004, "train/extr_return_raw_max": 13.596911054669004, "train/extr_return_raw_mean": 3.856118762131893, "train/extr_return_raw_min": -0.6538484439705358, "train/extr_return_raw_std": 3.1557392459927183, "train/extr_reward_mag": 1.091298688541759, "train/extr_reward_max": 1.091298688541759, "train/extr_reward_mean": 0.06543398970230059, "train/extr_reward_min": -0.5653099435748477, "train/extr_reward_std": 0.2448179220611399, "train/image_loss_mean": 3.6005867502906104, "train/image_loss_std": 8.98145932862253, "train/model_loss_mean": 7.116223205219615, "train/model_loss_std": 13.077247084993305, "train/model_opt_grad_norm": 18.67849925070098, "train/model_opt_grad_steps": 675156.0, "train/model_opt_loss": 4950.2288448449335, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 691.2878787878788, "train/policy_entropy_mag": 2.7475160107468115, "train/policy_entropy_max": 2.7475160107468115, "train/policy_entropy_mean": 0.49202308103893744, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108744581540426, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4928188640059847, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.1066273441820433, "train/policy_randomness_mag": 0.9697525763150417, "train/policy_randomness_max": 0.9697525763150417, "train/policy_randomness_mean": 0.17366255594022345, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25090748884461145, "train/post_ent_mag": 54.96448071797689, "train/post_ent_max": 54.96448071797689, "train/post_ent_mean": 39.682270223444156, "train/post_ent_min": 19.65938511761752, "train/post_ent_std": 5.845735159787265, "train/prior_ent_mag": 76.75158275257458, "train/prior_ent_max": 76.75158275257458, "train/prior_ent_mean": 45.39282885464755, "train/prior_ent_min": 27.158119808543812, "train/prior_ent_std": 8.094306454514012, "train/rep_loss_mean": 5.74720683964816, "train/rep_loss_std": 8.975983417395389, "train/reward_avg": 0.05429095611201994, "train/reward_loss_mean": 0.0672414864441662, "train/reward_loss_std": 0.23545286601239984, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0296946113759822, "train/reward_neg_acc": 0.991511735049161, "train/reward_neg_loss": 0.027036032258448275, "train/reward_pos_acc": 0.992366710395524, "train/reward_pos_loss": 0.7157580066810955, "train/reward_pred": 0.05390512099433126, "train/reward_rate": 0.05837180397727273, "stats/sum_log_reward": 12.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5015823006629944, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.73827167815226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4075426601924779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3484342098236, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03227424621582031, "timer/logger.write_frac": 0.00010745601621240183, "timer/logger.write_avg": 0.03227424621582031, "timer/logger.write_min": 0.03227424621582031, "timer/logger.write_max": 0.03227424621582031, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2703678607940674, "timer/replay.add_frac": 0.0009001806901553155, "timer/replay.add_avg": 0.00020733731655986763, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.001453399658203125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.939155578613281, "timer/env.step_frac": 0.04973941554886475, "timer/env.step_avg": 0.0114564076523108, "timer/env.step_min": 0.002390146255493164, "timer/env.step_max": 1.7424976825714111, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.597615957260132, "timer/agent.policy_frac": 0.048602270878037035, "timer/agent.policy_avg": 0.01119449076477004, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 3.2260239124298096, "timer/dataset_count": 652.0, "timer/dataset_total": 0.06056714057922363, "timer/dataset_frac": 0.00020165625547064245, "timer/dataset_avg": 9.289438739144729e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 652.0, "timer/agent.train_total": 269.8045129776001, "timer/agent.train_frac": 0.8983050425663764, "timer/agent.train_avg": 0.41381060272638054, "timer/agent.train_min": 0.3658583164215088, "timer/agent.train_max": 0.4648294448852539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185046672821045, "timer/agent.report_frac": 0.0007275039334130738, "timer/agent.report_avg": 0.2185046672821045, "timer/agent.report_min": 0.2185046672821045, "timer/agent.report_max": 0.2185046672821045, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.001068115234375, "timer/checkpoint.save_frac": 3.5562537130751745e-06, "timer/checkpoint.save_avg": 0.001068115234375, "timer/checkpoint.save_min": 0.001068115234375, "timer/checkpoint.save_max": 0.001068115234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5151331424713135, "timer/agent.save_frac": 0.005044584788522122, "timer/agent.save_avg": 1.5151331424713135, "timer/agent.save_min": 1.5151331424713135, "timer/agent.save_max": 1.5151331424713135, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001385211944580078, "timer/replay.save_frac": 4.612016534144367e-07, "timer/replay.save_avg": 0.0001385211944580078, "timer/replay.save_min": 0.0001385211944580078, "timer/replay.save_max": 0.0001385211944580078, "fps": 4.341552414648107}
+{"step": 1353414, "episode/length": 521.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.019157088122605363}
+{"step": 1353674, "episode/length": 259.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.900000013411045, "episode/reward_rate": 0.06538461538461539}
+{"step": 1353843, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07100591715976332}
+{"step": 1354065, "episode/length": 221.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05855855855855856}
+{"step": 1354243, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.056179775280898875}
+{"step": 1354327, "episode/length": 83.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.11904761904761904}
+{"step": 1354499, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494421756628788, "train/action_min": 0.0, "train/action_std": 3.3850765047651348, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03271242713725025, "train/actor_opt_grad_steps": 676375.0, "train/actor_opt_loss": -12.491407519037073, "train/adv_mag": 0.40689723374265613, "train/adv_max": 0.33531205356121063, "train/adv_mean": 0.0013695538310099491, "train/adv_min": -0.36404901043032156, "train/adv_std": 0.038629344354073204, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 5.7400348673513e-06, "train/cont_loss_std": 0.00013747463632260846, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011961418310241055, "train/cont_pos_acc": 0.9999999738100803, "train/cont_pos_loss": 5.386202222766632e-06, "train/cont_pred": 0.9952602982521057, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.766736406268495, "train/dyn_loss_std": 9.046570460001627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8405315785697012, "train/extr_critic_critic_opt_grad_steps": 676375.0, "train/extr_critic_critic_opt_loss": 14844.521173650568, "train/extr_critic_mag": 12.919339815775553, "train/extr_critic_max": 12.919339815775553, "train/extr_critic_mean": 3.630072676774227, "train/extr_critic_min": -0.38952234297087696, "train/extr_critic_std": 3.124587991020896, "train/extr_return_normed_mag": 1.368764806877483, "train/extr_return_normed_max": 1.368764806877483, "train/extr_return_normed_mean": 0.3745896592736244, "train/extr_return_normed_min": -0.06337996544034193, "train/extr_return_normed_std": 0.31745381540421286, "train/extr_return_rate": 0.8109937707583109, "train/extr_return_raw_mag": 13.495745196486965, "train/extr_return_raw_max": 13.495745196486965, "train/extr_return_raw_mean": 3.643650286125414, "train/extr_return_raw_min": -0.6973943710327148, "train/extr_return_raw_std": 3.1462411880493164, "train/extr_reward_mag": 1.092153043457956, "train/extr_reward_max": 1.092153043457956, "train/extr_reward_mean": 0.0626954599989183, "train/extr_reward_min": -0.5710921287536621, "train/extr_reward_std": 0.24065529600237356, "train/image_loss_mean": 3.7096002716006655, "train/image_loss_std": 9.0872696240743, "train/model_loss_mean": 7.235922054810957, "train/model_loss_std": 13.205810532425389, "train/model_opt_grad_norm": 19.896117239287406, "train/model_opt_grad_steps": 675816.0, "train/model_opt_loss": 9044.902632279829, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7534110762856225, "train/policy_entropy_max": 2.7534110762856225, "train/policy_entropy_mean": 0.5058452446352352, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7264138866554607, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5068934523698055, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.116881785067645, "train/policy_randomness_mag": 0.971833277832378, "train/policy_randomness_max": 0.971833277832378, "train/policy_randomness_mean": 0.17854117319890947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25639221546324814, "train/post_ent_mag": 55.317318078243375, "train/post_ent_max": 55.317318078243375, "train/post_ent_mean": 39.9059632619222, "train/post_ent_min": 19.28226629892985, "train/post_ent_std": 5.837396412184744, "train/prior_ent_mag": 76.78384202899355, "train/prior_ent_max": 76.78384202899355, "train/prior_ent_mean": 45.640432473384976, "train/prior_ent_min": 27.41777974909002, "train/prior_ent_std": 8.033426292014845, "train/rep_loss_mean": 5.766736406268495, "train/rep_loss_std": 9.046570460001627, "train/reward_avg": 0.05163352270469521, "train/reward_loss_mean": 0.06627423090465141, "train/reward_loss_std": 0.2284421744671735, "train/reward_max_data": 1.0409091006625781, "train/reward_max_pred": 1.0396653088656338, "train/reward_neg_acc": 0.9920160445300016, "train/reward_neg_loss": 0.027804854424726782, "train/reward_pos_acc": 0.9906592820629929, "train/reward_pos_loss": 0.7144882588675527, "train/reward_pred": 0.051411845297975975, "train/reward_rate": 0.055974786931818184, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.43733548869689304, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.730762348551309e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414479724554082e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.42418789863586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02964305877685547, "timer/logger.write_frac": 9.86706795621168e-05, "timer/logger.write_avg": 0.02964305877685547, "timer/logger.write_min": 0.02964305877685547, "timer/logger.write_max": 0.02964305877685547, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2714192867279053, "timer/replay.add_frac": 0.0009034535089414407, "timer/replay.add_avg": 0.00020593269099234088, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.003939151763916016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.04309630393982, "timer/env.step_frac": 0.05340148014098257, "timer/env.step_avg": 0.012172303720743414, "timer/env.step_min": 0.002641439437866211, "timer/env.step_max": 1.7037782669067383, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.902286291122437, "timer/agent.policy_frac": 0.03296101542417584, "timer/agent.policy_avg": 0.007513115547133867, "timer/agent.policy_min": 0.005463600158691406, "timer/agent.policy_max": 0.017040729522705078, "timer/dataset_count": 659.0, "timer/dataset_total": 0.0615997314453125, "timer/dataset_frac": 0.00020504251630396836, "timer/dataset_avg": 9.3474554545239e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.4743404388428, "timer/agent.train_frac": 0.9102940157771648, "timer/agent.train_avg": 0.4149838246416431, "timer/agent.train_min": 0.37246108055114746, "timer/agent.train_max": 0.44913268089294434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2166440486907959, "timer/agent.report_frac": 0.0007211271842195754, "timer/agent.report_avg": 0.2166440486907959, "timer/agent.report_min": 0.2166440486907959, "timer/agent.report_max": 0.2166440486907959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.387070040159255}
+{"step": 1354598, "episode/length": 270.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04797047970479705}
+{"step": 1354936, "episode/length": 337.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.04142011834319527}
+{"step": 1355146, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07142857142857142}
+{"step": 1355378, "episode/length": 231.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.0603448275862069}
+{"step": 1355629, "episode/length": 250.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.035856573705179286}
+{"step": 1355821, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484239982836174, "train/action_min": 0.0, "train/action_std": 3.3015858404564136, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03459346624599262, "train/actor_opt_grad_steps": 677035.0, "train/actor_opt_loss": -10.70084032867894, "train/adv_mag": 0.4155300627603675, "train/adv_max": 0.35310904184977215, "train/adv_mean": 0.0019879278084069733, "train/adv_min": -0.3324672281742096, "train/adv_std": 0.039585300467231056, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 6.272180185276559e-06, "train/cont_loss_std": 0.0001750510221715341, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.188096068988234e-05, "train/cont_pos_acc": 0.9999999864534899, "train/cont_pos_loss": 5.805028854324794e-06, "train/cont_pred": 0.9953636770898645, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.803290721141931, "train/dyn_loss_std": 8.945921529423106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8703305694189939, "train/extr_critic_critic_opt_grad_steps": 677035.0, "train/extr_critic_critic_opt_loss": 14992.06875887784, "train/extr_critic_mag": 12.817912983171867, "train/extr_critic_max": 12.817912983171867, "train/extr_critic_mean": 3.7840621254660864, "train/extr_critic_min": -0.3992336265968554, "train/extr_critic_std": 3.1270781285835034, "train/extr_return_normed_mag": 1.3722849108956077, "train/extr_return_normed_max": 1.3722849108956077, "train/extr_return_normed_mean": 0.3918655627604687, "train/extr_return_normed_min": -0.06387945467775519, "train/extr_return_normed_std": 0.3178779936649583, "train/extr_return_rate": 0.8242385233893539, "train/extr_return_raw_mag": 13.541853803576846, "train/extr_return_raw_max": 13.541853803576846, "train/extr_return_raw_mean": 3.8038140788222803, "train/extr_return_raw_min": -0.7237697591384252, "train/extr_return_raw_std": 3.1576156146598584, "train/extr_reward_mag": 1.09168520118251, "train/extr_reward_max": 1.09168520118251, "train/extr_reward_mean": 0.0657558844735225, "train/extr_reward_min": -0.5992363185593577, "train/extr_reward_std": 0.24551910974762656, "train/image_loss_mean": 3.5557565038854424, "train/image_loss_std": 8.946315664233584, "train/model_loss_mean": 7.106239932956117, "train/model_loss_std": 13.007099267208215, "train/model_opt_grad_norm": 19.777211463812627, "train/model_opt_grad_steps": 676476.0, "train/model_opt_loss": 14051.957083037405, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1988.6363636363637, "train/policy_entropy_mag": 2.7469204555858266, "train/policy_entropy_max": 2.7469204555858266, "train/policy_entropy_mean": 0.4893378321871613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.703554860570214, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48942207838549756, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.100353335792368, "train/policy_randomness_mag": 0.9695423742135366, "train/policy_randomness_max": 0.9695423742135366, "train/policy_randomness_mean": 0.17271478135477414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24832399437824884, "train/post_ent_mag": 55.31454970619895, "train/post_ent_max": 55.31454970619895, "train/post_ent_mean": 39.709546407063804, "train/post_ent_min": 19.568096392082445, "train/post_ent_std": 5.8743907755071465, "train/prior_ent_mag": 76.6864426352761, "train/prior_ent_max": 76.6864426352761, "train/prior_ent_mean": 45.4776896274451, "train/prior_ent_min": 27.02530511220296, "train/prior_ent_std": 8.064597375465162, "train/rep_loss_mean": 5.803290721141931, "train/rep_loss_std": 8.945921529423106, "train/reward_avg": 0.05617749730520176, "train/reward_loss_mean": 0.06850277542164832, "train/reward_loss_std": 0.22591413286599246, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.0392038533181855, "train/reward_neg_acc": 0.9915043558135177, "train/reward_neg_loss": 0.027063673997128553, "train/reward_pos_acc": 0.9918541483806841, "train/reward_pos_loss": 0.7135767629652312, "train/reward_pred": 0.055851406954003105, "train/reward_rate": 0.060369318181818184, "stats/sum_log_reward": 11.899999809265136, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 9.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.7367427349090576, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.9072152165169075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4058264950219875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08123779296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03261971473693848, "timer/logger.write_frac": 0.00010870294649825253, "timer/logger.write_avg": 0.03261971473693848, "timer/logger.write_min": 0.03261971473693848, "timer/logger.write_max": 0.03261971473693848, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.27640342712402344, "timer/replay.add_frac": 0.0009210953312406655, "timer/replay.add_avg": 0.00020907974820274087, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.001359701156616211, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 14.890233278274536, "timer/env.step_frac": 0.04962067401410669, "timer/env.step_avg": 0.011263413977514777, "timer/env.step_min": 0.0024862289428710938, "timer/env.step_max": 1.4751181602478027, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 10.069042205810547, "timer/agent.policy_frac": 0.033554387738020976, "timer/agent.policy_avg": 0.0076165220921411095, "timer/agent.policy_min": 0.005597114562988281, "timer/agent.policy_max": 0.015003681182861328, "timer/dataset_count": 661.0, "timer/dataset_total": 0.06265449523925781, "timer/dataset_frac": 0.000208791778186693, "timer/dataset_avg": 9.478743606544299e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001728534698486328, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.08322930336, "timer/agent.train_frac": 0.9133634322464864, "timer/agent.train_avg": 0.41464936354517395, "timer/agent.train_min": 0.36315011978149414, "timer/agent.train_max": 0.4541497230529785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2301023006439209, "timer/agent.report_frac": 0.0007668000250074697, "timer/agent.report_avg": 0.2301023006439209, "timer/agent.report_min": 0.2301023006439209, "timer/agent.report_max": 0.2301023006439209, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.405411673985315}
+{"step": 1355839, "episode/length": 209.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06666666666666667}
+{"step": 1356107, "episode/length": 267.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.05970149253731343}
+{"step": 1356170, "episode/length": 62.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.15873015873015872}
+{"step": 1356384, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06542056074766354}
+{"step": 1356628, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.06147540983606557}
+{"step": 1356832, "episode/length": 203.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07352941176470588}
+{"step": 1357016, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
+{"step": 1357113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472848892211914, "train/action_min": 0.0, "train/action_std": 3.333691544830799, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03449775907211006, "train/actor_opt_grad_steps": 677685.0, "train/actor_opt_loss": -13.225984197109938, "train/adv_mag": 0.39755583507940173, "train/adv_max": 0.3024383168667555, "train/adv_mean": 0.0011099184688418973, "train/adv_min": -0.36199635709635913, "train/adv_std": 0.03906421107240021, "train/cont_avg": 0.9951629638671875, "train/cont_loss_mean": 2.6321525245842636e-05, "train/cont_loss_std": 0.000806355352134247, "train/cont_neg_acc": 0.9982638889923692, "train/cont_neg_loss": 0.0020615445659388776, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 8.329733851786258e-06, "train/cont_pred": 0.9951661145314574, "train/cont_rate": 0.9951629638671875, "train/dyn_loss_mean": 5.639649853110313, "train/dyn_loss_std": 8.97844985127449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8607911206781864, "train/extr_critic_critic_opt_grad_steps": 677685.0, "train/extr_critic_critic_opt_loss": 14862.459014892578, "train/extr_critic_mag": 12.95414151251316, "train/extr_critic_max": 12.95414151251316, "train/extr_critic_mean": 3.7562465965747833, "train/extr_critic_min": -0.4097171239554882, "train/extr_critic_std": 3.1407653130590916, "train/extr_return_normed_mag": 1.3690574690699577, "train/extr_return_normed_max": 1.3690574690699577, "train/extr_return_normed_mean": 0.3868189351633191, "train/extr_return_normed_min": -0.0611950232705567, "train/extr_return_normed_std": 0.31664225785061717, "train/extr_return_rate": 0.8217875584959984, "train/extr_return_raw_mag": 13.587126180529594, "train/extr_return_raw_max": 13.587126180529594, "train/extr_return_raw_mean": 3.767353504896164, "train/extr_return_raw_min": -0.7124914885498583, "train/extr_return_raw_std": 3.166005227714777, "train/extr_reward_mag": 1.0920030698180199, "train/extr_reward_max": 1.0920030698180199, "train/extr_reward_mean": 0.06508572131861001, "train/extr_reward_min": -0.5807915087789297, "train/extr_reward_std": 0.24458119133487344, "train/image_loss_mean": 3.5250298380851746, "train/image_loss_std": 8.744985356926918, "train/model_loss_mean": 6.97565670311451, "train/model_loss_std": 12.859633088111877, "train/model_opt_grad_norm": 18.787001490592957, "train/model_opt_grad_steps": 677125.953125, "train/model_opt_loss": 17439.14176940918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.74503280967474, "train/policy_entropy_max": 2.74503280967474, "train/policy_entropy_mean": 0.4898628811351955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108706617727876, "train/policy_logprob_mag": 7.43838432431221, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4885653010569513, "train/policy_logprob_min": -7.43838432431221, "train/policy_logprob_std": 1.0993119310587645, "train/policy_randomness_mag": 0.968876120634377, "train/policy_randomness_max": 0.968876120634377, "train/policy_randomness_mean": 0.17290010082069784, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25090614799410105, "train/post_ent_mag": 55.23672437667847, "train/post_ent_max": 55.23672437667847, "train/post_ent_mean": 39.643523931503296, "train/post_ent_min": 19.29160526394844, "train/post_ent_std": 5.770564720034599, "train/prior_ent_mag": 76.69047152996063, "train/prior_ent_max": 76.69047152996063, "train/prior_ent_mean": 45.25951486825943, "train/prior_ent_min": 26.713156163692474, "train/prior_ent_std": 8.097980082035065, "train/rep_loss_mean": 5.639649853110313, "train/rep_loss_std": 8.97844985127449, "train/reward_avg": 0.053285216563381255, "train/reward_loss_mean": 0.06681064830627292, "train/reward_loss_std": 0.23053025919944048, "train/reward_max_data": 1.0281250067055225, "train/reward_max_pred": 1.026673762127757, "train/reward_neg_acc": 0.9926669932901859, "train/reward_neg_loss": 0.02667138729884755, "train/reward_pos_acc": 0.9891012543812394, "train/reward_pos_loss": 0.7246858524158597, "train/reward_pred": 0.05285425699548796, "train/reward_rate": 0.0576019287109375, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4121546766587666, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.8191260937197655e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4091977394033143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0557487010956, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023226261138916016, "timer/logger.write_frac": 7.740648609286654e-05, "timer/logger.write_avg": 0.023226261138916016, "timer/logger.write_min": 0.023226261138916016, "timer/logger.write_max": 0.023226261138916016, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2642402648925781, "timer/replay.add_frac": 0.000880637235035295, "timer/replay.add_avg": 0.00020452032886422456, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0028595924377441406, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.04053235054016, "timer/env.step_frac": 0.056791221045777426, "timer/env.step_avg": 0.013189266525185882, "timer/env.step_min": 0.002597332000732422, "timer/env.step_max": 1.4558436870574951, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.344210386276245, "timer/agent.policy_frac": 0.04780515103733412, "timer/agent.policy_avg": 0.01110233002033765, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 3.234292507171631, "timer/dataset_count": 646.0, "timer/dataset_total": 0.060478925704956055, "timer/dataset_frac": 0.00020155896351515304, "timer/dataset_avg": 9.362062802624776e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00031065940856933594, "timer/agent.train_count": 646.0, "timer/agent.train_total": 267.6734595298767, "timer/agent.train_frac": 0.8920790909309426, "timer/agent.train_avg": 0.41435520051064506, "timer/agent.train_min": 0.37253260612487793, "timer/agent.train_max": 0.4525578022003174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23224759101867676, "timer/agent.report_frac": 0.0007740148023293938, "timer/agent.report_avg": 0.23224759101867676, "timer/agent.report_min": 0.23224759101867676, "timer/agent.report_max": 0.23224759101867676, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008454322814941406, "timer/checkpoint.save_frac": 2.817584016150042e-06, "timer/checkpoint.save_avg": 0.0008454322814941406, "timer/checkpoint.save_min": 0.0008454322814941406, "timer/checkpoint.save_max": 0.0008454322814941406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2356464862823486, "timer/agent.save_frac": 0.004118056366629569, "timer/agent.save_avg": 1.2356464862823486, "timer/agent.save_min": 1.2356464862823486, "timer/agent.save_max": 1.2356464862823486, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010323524475097656, "timer/replay.save_frac": 3.4405354737534356e-07, "timer/replay.save_avg": 0.00010323524475097656, "timer/replay.save_min": 0.00010323524475097656, "timer/replay.save_max": 0.00010323524475097656, "fps": 4.305776470327478}
+{"step": 1357277, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04597701149425287}
+{"step": 1357433, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0641025641025641}
+{"step": 1357624, "episode/length": 190.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.07329842931937172}
+{"step": 1357770, "episode/length": 145.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0821917808219178}
+{"step": 1357976, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
+{"step": 1358066, "episode/length": 89.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08888888888888889}
+{"step": 1358215, "episode/length": 148.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.087248322147651}
+{"step": 1358270, "episode/length": 54.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.16363636363636364}
+{"step": 1358421, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.496913100733901, "train/action_min": 0.0, "train/action_std": 3.404221292698022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03424877004528588, "train/actor_opt_grad_steps": 678335.0, "train/actor_opt_loss": -11.782844773070378, "train/adv_mag": 0.396818506898302, "train/adv_max": 0.31771840764717624, "train/adv_mean": 0.0013463110144860393, "train/adv_min": -0.3596458988207759, "train/adv_std": 0.03838635679108627, "train/cont_avg": 0.9951319839015151, "train/cont_loss_mean": 6.458430861066449e-05, "train/cont_loss_std": 0.001949844549030493, "train/cont_neg_acc": 0.9950757577563777, "train/cont_neg_loss": 0.008054485788499977, "train/cont_pos_acc": 0.9999999882596912, "train/cont_pos_loss": 9.520505630132275e-06, "train/cont_pred": 0.9951464949232159, "train/cont_rate": 0.9951319839015151, "train/dyn_loss_mean": 5.908423611612031, "train/dyn_loss_std": 8.99247333497712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8383733639211366, "train/extr_critic_critic_opt_grad_steps": 678335.0, "train/extr_critic_critic_opt_loss": 15002.633167613636, "train/extr_critic_mag": 12.946068749283299, "train/extr_critic_max": 12.946068749283299, "train/extr_critic_mean": 3.4968720042344295, "train/extr_critic_min": -0.3793889916304386, "train/extr_critic_std": 3.101195295651754, "train/extr_return_normed_mag": 1.3886096260764382, "train/extr_return_normed_max": 1.3886096260764382, "train/extr_return_normed_mean": 0.3643010701193954, "train/extr_return_normed_min": -0.05794361544152101, "train/extr_return_normed_std": 0.31510718324870773, "train/extr_return_rate": 0.7977371793804746, "train/extr_return_raw_mag": 13.658687490405459, "train/extr_return_raw_max": 13.658687490405459, "train/extr_return_raw_mean": 3.5102025866508484, "train/extr_return_raw_min": -0.6735026353236401, "train/extr_return_raw_std": 3.1223991097825947, "train/extr_reward_mag": 1.0884368744763462, "train/extr_reward_max": 1.0884368744763462, "train/extr_reward_mean": 0.06158456595783884, "train/extr_reward_min": -0.6021289410013141, "train/extr_reward_std": 0.23834495156100302, "train/image_loss_mean": 3.8186927419720273, "train/image_loss_std": 9.119698025963523, "train/model_loss_mean": 7.430142315951261, "train/model_loss_std": 13.167583335529674, "train/model_opt_grad_norm": 19.09846529816136, "train/model_opt_grad_steps": 677775.0, "train/model_opt_loss": 18575.355735085228, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7416108124183887, "train/policy_entropy_max": 2.7416108124183887, "train/policy_entropy_mean": 0.5273943850488374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7446010668169368, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5264786238020117, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.1232261766086926, "train/policy_randomness_mag": 0.9676683075500258, "train/policy_randomness_max": 0.9676683075500258, "train/policy_randomness_mean": 0.18614707548509946, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2628114973053788, "train/post_ent_mag": 55.118662574074484, "train/post_ent_max": 55.118662574074484, "train/post_ent_mean": 39.65790349786932, "train/post_ent_min": 18.99486969456528, "train/post_ent_std": 5.8247251366124, "train/prior_ent_mag": 76.66011579108961, "train/prior_ent_max": 76.66011579108961, "train/prior_ent_mean": 45.55126461838231, "train/prior_ent_min": 27.11240389852813, "train/prior_ent_std": 8.121662905721953, "train/rep_loss_mean": 5.908423611612031, "train/rep_loss_std": 8.99247333497712, "train/reward_avg": 0.051229580785288956, "train/reward_loss_mean": 0.06633086581573341, "train/reward_loss_std": 0.22724282222263742, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0270730762770681, "train/reward_neg_acc": 0.9921443841674111, "train/reward_neg_loss": 0.02785610705331871, "train/reward_pos_acc": 0.9901862848888744, "train/reward_pos_loss": 0.7187684169321349, "train/reward_pred": 0.050844972783868965, "train/reward_rate": 0.05567885890151515, "stats/sum_log_reward": 9.850000321865082, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.625, "stats/max_log_achievement_collect_stone": 10.75, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33232999779284, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.7570976700622372e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4237672181668997e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33640718460083, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031179189682006836, "timer/logger.write_frac": 0.00010381421944240894, "timer/logger.write_avg": 0.031179189682006836, "timer/logger.write_min": 0.031179189682006836, "timer/logger.write_max": 0.031179189682006836, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.2630183696746826, "timer/replay.add_frac": 0.0008757458749016039, "timer/replay.add_avg": 0.00020108438048523135, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0011034011840820312, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 18.8265380859375, "timer/env.step_frac": 0.06268483485708687, "timer/env.step_avg": 0.01439337774154243, "timer/env.step_min": 0.0026509761810302734, "timer/env.step_max": 1.682873249053955, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.86438798904419, "timer/agent.policy_frac": 0.03284446291914611, "timer/agent.policy_avg": 0.00754158103137935, "timer/agent.policy_min": 0.005455493927001953, "timer/agent.policy_max": 0.01690387725830078, "timer/dataset_count": 654.0, "timer/dataset_total": 0.061911821365356445, "timer/dataset_frac": 0.0002061415795231996, "timer/dataset_avg": 9.466639352500985e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.001836538314819336, "timer/agent.train_count": 654.0, "timer/agent.train_total": 270.6583149433136, "timer/agent.train_frac": 0.9011838340895991, "timer/agent.train_avg": 0.41385063446989845, "timer/agent.train_min": 0.3656601905822754, "timer/agent.train_max": 0.4521479606628418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21138882637023926, "timer/agent.report_frac": 0.0007038401649398096, "timer/agent.report_avg": 0.21138882637023926, "timer/agent.report_min": 0.21138882637023926, "timer/agent.report_max": 0.21138882637023926, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.355018281794279}
+{"step": 1358539, "episode/length": 268.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05204460966542751}
+{"step": 1358751, "episode/length": 211.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07547169811320754}
+{"step": 1358980, "episode/length": 228.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.06986899563318777}
+{"step": 1359204, "episode/length": 223.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07142857142857142}
+{"step": 1359498, "episode/length": 293.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.047619047619047616}
+{"step": 1359662, "episode/length": 163.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0975609756097561}
+{"step": 1359727, "episode/length": 64.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.1076923076923077}
+{"step": 1359729, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484612567608173, "train/action_min": 0.0, "train/action_std": 3.368494650033804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03462650552392006, "train/actor_opt_grad_steps": 678990.0, "train/actor_opt_loss": -11.798138706959211, "train/adv_mag": 0.39745729015423703, "train/adv_max": 0.32187835482450633, "train/adv_mean": 0.0016028777814846343, "train/adv_min": -0.35963210944945995, "train/adv_std": 0.0392505546601919, "train/cont_avg": 0.9954026442307692, "train/cont_loss_mean": 2.715589843201262e-05, "train/cont_loss_std": 0.0008292885930193104, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.003835637979209822, "train/cont_pos_acc": 0.9999999798261202, "train/cont_pos_loss": 4.705345577567991e-06, "train/cont_pred": 0.9954101626689618, "train/cont_rate": 0.9954026442307692, "train/dyn_loss_mean": 5.754795918097863, "train/dyn_loss_std": 8.958503150939942, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8365945880229656, "train/extr_critic_critic_opt_grad_steps": 678990.0, "train/extr_critic_critic_opt_loss": 14995.898707932693, "train/extr_critic_mag": 12.770530480604906, "train/extr_critic_max": 12.770530480604906, "train/extr_critic_mean": 3.684792379232553, "train/extr_critic_min": -0.35065168417417086, "train/extr_critic_std": 3.1144653687110315, "train/extr_return_normed_mag": 1.3807316431632408, "train/extr_return_normed_max": 1.3807316431632408, "train/extr_return_normed_mean": 0.38428628398821907, "train/extr_return_normed_min": -0.062133668907559836, "train/extr_return_normed_std": 0.3180708807248336, "train/extr_return_rate": 0.8208884651844318, "train/extr_return_raw_mag": 13.530859110905574, "train/extr_return_raw_max": 13.530859110905574, "train/extr_return_raw_mean": 3.700608257146982, "train/extr_return_raw_min": -0.7032491541825808, "train/extr_return_raw_std": 3.1381995274470404, "train/extr_reward_mag": 1.0882730080531193, "train/extr_reward_max": 1.0882730080531193, "train/extr_reward_mean": 0.06511574954940723, "train/extr_reward_min": -0.6293405551176805, "train/extr_reward_std": 0.2445880325940939, "train/image_loss_mean": 3.6909694744990422, "train/image_loss_std": 8.834227217160738, "train/model_loss_mean": 7.209775660588191, "train/model_loss_std": 12.896353721618652, "train/model_opt_grad_norm": 18.798308020371657, "train/model_opt_grad_steps": 678429.7692307692, "train/model_opt_loss": 23194.99050480769, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3230.769230769231, "train/policy_entropy_mag": 2.744803568033072, "train/policy_entropy_max": 2.744803568033072, "train/policy_entropy_mean": 0.49615295116718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7183229923248291, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4947044574297391, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1028035649886498, "train/policy_randomness_mag": 0.9687952050795922, "train/policy_randomness_max": 0.9687952050795922, "train/policy_randomness_mean": 0.17512022176614175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25353649464937356, "train/post_ent_mag": 55.4264276944674, "train/post_ent_max": 55.4264276944674, "train/post_ent_mean": 39.80805135873648, "train/post_ent_min": 19.57375007042518, "train/post_ent_std": 5.847955835782565, "train/prior_ent_mag": 76.71939873328576, "train/prior_ent_max": 76.71939873328576, "train/prior_ent_mean": 45.55951966505784, "train/prior_ent_min": 27.43586258521447, "train/prior_ent_std": 8.07333536881667, "train/rep_loss_mean": 5.754795918097863, "train/rep_loss_std": 8.958503150939942, "train/reward_avg": 0.053099458779280004, "train/reward_loss_mean": 0.06590146124362946, "train/reward_loss_std": 0.22719017336001762, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0352335122915415, "train/reward_neg_acc": 0.9920050593522879, "train/reward_neg_loss": 0.026032442671175188, "train/reward_pos_acc": 0.9908600009404696, "train/reward_pos_loss": 0.721843460889963, "train/reward_pred": 0.052599843878012434, "train/reward_rate": 0.05721153846153846, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4369197977440698, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.7653001441138966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4190052262869085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2043471336365, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024734973907470703, "timer/logger.write_frac": 8.239378990891124e-05, "timer/logger.write_avg": 0.024734973907470703, "timer/logger.write_min": 0.024734973907470703, "timer/logger.write_max": 0.024734973907470703, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.27269411087036133, "timer/replay.add_frac": 0.0009083616325814599, "timer/replay.add_avg": 0.00020848173613941998, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0014553070068359375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 17.69945764541626, "timer/env.step_frac": 0.05895803246825509, "timer/env.step_avg": 0.013531695447565948, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.4936563968658447, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.864237785339355, "timer/agent.policy_frac": 0.032858410877535604, "timer/agent.policy_avg": 0.007541466196742627, "timer/agent.policy_min": 0.00560450553894043, "timer/agent.policy_max": 0.017388343811035156, "timer/dataset_count": 654.0, "timer/dataset_total": 0.06017136573791504, "timer/dataset_frac": 0.00020043469161067694, "timer/dataset_avg": 9.20051463882493e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001537799835205078, "timer/agent.train_count": 654.0, "timer/agent.train_total": 271.6398959159851, "timer/agent.train_frac": 0.9048499747242639, "timer/agent.train_avg": 0.4153515228073167, "timer/agent.train_min": 0.3713662624359131, "timer/agent.train_max": 0.4528791904449463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22494840621948242, "timer/agent.report_frac": 0.0007493176177070689, "timer/agent.report_avg": 0.22494840621948242, "timer/agent.report_min": 0.22494840621948242, "timer/agent.report_max": 0.22494840621948242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.35695544918069}
+{"step": 1359773, "episode/length": 45.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.17391304347826086}
+{"step": 1360026, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05533596837944664}
+{"step": 1360195, "episode/length": 168.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08875739644970414}
+{"step": 1360490, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.03728813559322034}
+{"step": 1360705, "episode/length": 214.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03255813953488372}
+{"step": 1360902, "episode/length": 196.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07106598984771574}
+{"step": 1361118, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06018518518518518}
+{"step": 1361159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425208197699653, "train/action_min": 0.0, "train/action_std": 3.3415665990776486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0349147233646363, "train/actor_opt_grad_steps": 679675.0, "train/actor_opt_loss": -12.265682091315588, "train/adv_mag": 0.3569837460915248, "train/adv_max": 0.3047599353724056, "train/adv_mean": 0.0015361189190217475, "train/adv_min": -0.308335548473729, "train/adv_std": 0.0392747199576762, "train/cont_avg": 0.9953477647569444, "train/cont_loss_mean": 0.00010566240629275272, "train/cont_loss_std": 0.0033086597211280377, "train/cont_neg_acc": 0.9898148154218992, "train/cont_neg_loss": 0.024553003693526667, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 9.735075684444735e-06, "train/cont_pred": 0.9953759494755003, "train/cont_rate": 0.9953477647569444, "train/dyn_loss_mean": 5.778193672498067, "train/dyn_loss_std": 8.994923214117685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.7999842713276545, "train/extr_critic_critic_opt_grad_steps": 679675.0, "train/extr_critic_critic_opt_loss": 14862.46910264757, "train/extr_critic_mag": 12.985542641745674, "train/extr_critic_max": 12.985542641745674, "train/extr_critic_mean": 3.8500369456079273, "train/extr_critic_min": -0.3760138534837299, "train/extr_critic_std": 3.0862481362289853, "train/extr_return_normed_mag": 1.3833355738057032, "train/extr_return_normed_max": 1.3833355738057032, "train/extr_return_normed_mean": 0.3968251918752988, "train/extr_return_normed_min": -0.05959333026678198, "train/extr_return_normed_std": 0.3130356489370267, "train/extr_return_rate": 0.8369403291079733, "train/extr_return_raw_mag": 13.677627656194899, "train/extr_return_raw_max": 13.677627656194899, "train/extr_return_raw_mean": 3.865319437450833, "train/extr_return_raw_min": -0.6746252444055345, "train/extr_return_raw_std": 3.1137582163016, "train/extr_reward_mag": 1.0897259414196014, "train/extr_reward_max": 1.0897259414196014, "train/extr_reward_mean": 0.06644672848698166, "train/extr_reward_min": -0.5807210091087553, "train/extr_reward_std": 0.24699489751623738, "train/image_loss_mean": 3.5937283039093018, "train/image_loss_std": 9.038997345500523, "train/model_loss_mean": 7.127985775470734, "train/model_loss_std": 13.149549298816257, "train/model_opt_grad_norm": 19.713466193940903, "train/model_opt_grad_steps": 679114.0, "train/model_opt_loss": 17819.964477539062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7388832999600305, "train/policy_entropy_max": 2.7388832999600305, "train/policy_entropy_mean": 0.4771143895470434, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7001276765432622, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4773548866311709, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0919941183593538, "train/policy_randomness_mag": 0.9667056136661105, "train/policy_randomness_max": 0.9667056136661105, "train/policy_randomness_mean": 0.16840044346948466, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24711434688005182, "train/post_ent_mag": 55.19801558388604, "train/post_ent_max": 55.19801558388604, "train/post_ent_mean": 39.61421622170342, "train/post_ent_min": 19.280056675275166, "train/post_ent_std": 5.75050421555837, "train/prior_ent_mag": 76.82586097717285, "train/prior_ent_max": 76.82586097717285, "train/prior_ent_mean": 45.33139721552531, "train/prior_ent_min": 26.966230975257027, "train/prior_ent_std": 8.05649228228463, "train/rep_loss_mean": 5.778193672498067, "train/rep_loss_std": 8.994923214117685, "train/reward_avg": 0.054401312566672765, "train/reward_loss_mean": 0.06723569157636827, "train/reward_loss_std": 0.22948869462642404, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0316724909676447, "train/reward_neg_acc": 0.9920513679583868, "train/reward_neg_loss": 0.02689962308957345, "train/reward_pos_acc": 0.9926882311701775, "train/reward_pos_loss": 0.716299395594332, "train/reward_pred": 0.05403386568650603, "train/reward_rate": 0.058525933159722224, "stats/sum_log_reward": 10.814285823277064, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.3380084676401956, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.8201992328350365e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4051482394025042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26317620277405, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030635833740234375, "timer/logger.write_frac": 0.0001020299396271801, "timer/logger.write_avg": 0.030635833740234375, "timer/logger.write_min": 0.030635833740234375, "timer/logger.write_max": 0.030635833740234375, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.31169676780700684, "timer/replay.add_frac": 0.0010380785674381579, "timer/replay.add_avg": 0.00021796976769720758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.011554479598999023, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.8183434009552, "timer/env.step_frac": 0.06933365477655554, "timer/env.step_avg": 0.01455828209857007, "timer/env.step_min": 0.002527952194213867, "timer/env.step_max": 3.322467803955078, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.768287658691406, "timer/agent.policy_frac": 0.04252365481562985, "timer/agent.policy_avg": 0.008928872488595389, "timer/agent.policy_min": 0.0056111812591552734, "timer/agent.policy_max": 1.409231424331665, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06736540794372559, "timer/dataset_frac": 0.00022435454388929898, "timer/dataset_avg": 9.421735376744837e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.5860524177551, "timer/agent.train_frac": 0.8845109006586918, "timer/agent.train_avg": 0.3714490243604967, "timer/agent.train_min": 0.3616664409637451, "timer/agent.train_max": 0.4505887031555176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20597553253173828, "timer/agent.report_frac": 0.0006859833268154024, "timer/agent.report_avg": 0.20597553253173828, "timer/agent.report_min": 0.20597553253173828, "timer/agent.report_max": 0.20597553253173828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004048347473144531, "timer/checkpoint.save_frac": 1.3482663856225237e-06, "timer/checkpoint.save_avg": 0.0004048347473144531, "timer/checkpoint.save_min": 0.0004048347473144531, "timer/checkpoint.save_max": 0.0004048347473144531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.435581922531128, "timer/agent.save_frac": 0.004781078854510116, "timer/agent.save_avg": 1.435581922531128, "timer/agent.save_min": 1.435581922531128, "timer/agent.save_max": 1.435581922531128, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.870529174804688e-05, "timer/replay.save_frac": 3.287292600987779e-07, "timer/replay.save_avg": 9.870529174804688e-05, "timer/replay.save_min": 9.870529174804688e-05, "timer/replay.save_max": 9.870529174804688e-05, "fps": 4.762379537553059}
+{"step": 1361403, "episode/length": 284.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.056140350877192984}
+{"step": 1361640, "episode/length": 236.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06329113924050633}
+{"step": 1361936, "episode/length": 295.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05405405405405406}
+{"step": 1362098, "episode/length": 161.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.09259259259259259}
+{"step": 1362344, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.056910569105691054}
+{"step": 1362614, "episode/length": 269.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05555555555555555}
+{"step": 1362615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423654344346788, "train/action_min": 0.0, "train/action_std": 3.3138243191772037, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034184925775561065, "train/actor_opt_grad_steps": 680395.0, "train/actor_opt_loss": -12.740051422061192, "train/adv_mag": 0.38798573261333835, "train/adv_max": 0.308379540219903, "train/adv_mean": 0.0013927402101722287, "train/adv_min": -0.3545684191501803, "train/adv_std": 0.038933228235691786, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 1.3823511643017304e-05, "train/cont_loss_std": 0.00040530023011480724, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006239978380691014, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.749078743313592e-06, "train/cont_pred": 0.9951268840167258, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.613929318057166, "train/dyn_loss_std": 9.031316240628561, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8417906959851583, "train/extr_critic_critic_opt_grad_steps": 680395.0, "train/extr_critic_critic_opt_loss": 14827.508802625867, "train/extr_critic_mag": 13.005337145593431, "train/extr_critic_max": 13.005337145593431, "train/extr_critic_mean": 3.7694614198472767, "train/extr_critic_min": -0.3784952428605821, "train/extr_critic_std": 3.1470447613133326, "train/extr_return_normed_mag": 1.3957205265760422, "train/extr_return_normed_max": 1.3957205265760422, "train/extr_return_normed_mean": 0.3894652761518955, "train/extr_return_normed_min": -0.05752208782359958, "train/extr_return_normed_std": 0.3189801594449414, "train/extr_return_rate": 0.8176315186752213, "train/extr_return_raw_mag": 13.789375437630547, "train/extr_return_raw_max": 13.789375437630547, "train/extr_return_raw_mean": 3.783310830593109, "train/extr_return_raw_min": -0.6619417410757806, "train/extr_return_raw_std": 3.172312342458301, "train/extr_reward_mag": 1.0906983647081587, "train/extr_reward_max": 1.0906983647081587, "train/extr_reward_mean": 0.06617790781375435, "train/extr_reward_min": -0.5640783078140683, "train/extr_reward_std": 0.24663202154139677, "train/image_loss_mean": 3.507507711648941, "train/image_loss_std": 8.700277513927883, "train/model_loss_mean": 6.941340923309326, "train/model_loss_std": 12.85932461420695, "train/model_opt_grad_norm": 19.352936175134445, "train/model_opt_grad_steps": 679833.4444444445, "train/model_opt_loss": 22998.43132188585, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3333.3333333333335, "train/policy_entropy_mag": 2.749176469114092, "train/policy_entropy_max": 2.749176469114092, "train/policy_entropy_mean": 0.4991073360045751, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7265426081915697, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4995965117381679, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1136704641911719, "train/policy_randomness_mag": 0.9703386467364099, "train/policy_randomness_max": 0.9703386467364099, "train/policy_randomness_mean": 0.1761629885683457, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2564376557452811, "train/post_ent_mag": 55.146989557478165, "train/post_ent_max": 55.146989557478165, "train/post_ent_mean": 39.6304464870029, "train/post_ent_min": 19.4354506333669, "train/post_ent_std": 5.757721324761708, "train/prior_ent_mag": 76.74079714881049, "train/prior_ent_max": 76.74079714881049, "train/prior_ent_mean": 45.223252826266815, "train/prior_ent_min": 26.60144352912903, "train/prior_ent_std": 8.077661838796404, "train/rep_loss_mean": 5.613929318057166, "train/rep_loss_std": 9.031316240628561, "train/reward_avg": 0.052825248826088175, "train/reward_loss_mean": 0.06546181197174722, "train/reward_loss_std": 0.22615440810720125, "train/reward_max_data": 1.0402777873807483, "train/reward_max_pred": 1.0425811111927032, "train/reward_neg_acc": 0.9917006269097328, "train/reward_neg_loss": 0.026293913264655404, "train/reward_pos_acc": 0.9923970889714029, "train/reward_pos_loss": 0.7139247084657351, "train/reward_pred": 0.0526488054698954, "train/reward_rate": 0.056925455729166664, "stats/sum_log_reward": 14.266666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 1.1666666666666667, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.47193146745363873, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.964363873659909e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4811303916868274e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.488267660141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03249216079711914, "timer/logger.write_frac": 0.00010777255463136832, "timer/logger.write_avg": 0.03249216079711914, "timer/logger.write_min": 0.03249216079711914, "timer/logger.write_max": 0.03249216079711914, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.3244900703430176, "timer/replay.add_frac": 0.0010762941883655846, "timer/replay.add_avg": 0.00022286405930152306, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004979610443115234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.399025440216064, "timer/env.step_frac": 0.06434421342751562, "timer/env.step_avg": 0.01332350648366488, "timer/env.step_min": 0.0027403831481933594, "timer/env.step_max": 1.8195207118988037, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.430548906326294, "timer/agent.policy_frac": 0.03791374369238017, "timer/agent.policy_avg": 0.007850651721377949, "timer/agent.policy_min": 0.005618572235107422, "timer/agent.policy_max": 0.02274465560913086, "timer/dataset_count": 728.0, "timer/dataset_total": 0.07013964653015137, "timer/dataset_frac": 0.00023264469650679, "timer/dataset_avg": 9.634566831064748e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.5295321941376, "timer/agent.train_frac": 0.8939967524639149, "timer/agent.train_avg": 0.3702328738930461, "timer/agent.train_min": 0.36110901832580566, "timer/agent.train_max": 0.3839378356933594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028961181640625, "timer/agent.report_frac": 0.0006729818036991788, "timer/agent.report_avg": 0.2028961181640625, "timer/agent.report_min": 0.2028961181640625, "timer/agent.report_max": 0.2028961181640625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.829279786331239}
+{"step": 1362915, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04983388704318937}
+{"step": 1363091, "episode/length": 175.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07954545454545454}
+{"step": 1363338, "episode/length": 246.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06882591093117409}
+{"step": 1363545, "episode/length": 206.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.07246376811594203}
+{"step": 1363767, "episode/length": 221.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04054054054054054}
+{"step": 1364054, "episode/length": 286.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.041811846689895474}
+{"step": 1364066, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4542478796553935, "train/action_min": 0.0, "train/action_std": 3.370523243734281, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034690867267446975, "train/actor_opt_grad_steps": 681120.0, "train/actor_opt_loss": -12.354285297226417, "train/adv_mag": 0.36599881497964465, "train/adv_max": 0.306770019539415, "train/adv_mean": 0.001252580832729171, "train/adv_min": -0.33499836880866796, "train/adv_std": 0.03924072814518458, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 5.918999470028696e-05, "train/cont_loss_std": 0.0018825916443472891, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.009441828868313327, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.2295317846400712e-05, "train/cont_pred": 0.9952723155282948, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.639430816859415, "train/dyn_loss_std": 8.894840554015277, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8130850506155458, "train/extr_critic_critic_opt_grad_steps": 681120.0, "train/extr_critic_critic_opt_loss": 14818.202389233733, "train/extr_critic_mag": 12.743028980411895, "train/extr_critic_max": 12.743028980411895, "train/extr_critic_mean": 3.8418061504625296, "train/extr_critic_min": -0.34825490272208437, "train/extr_critic_std": 3.064532760071428, "train/extr_return_normed_mag": 1.381889379187806, "train/extr_return_normed_max": 1.381889379187806, "train/extr_return_normed_mean": 0.40166691884602584, "train/extr_return_normed_min": -0.05907638442434677, "train/extr_return_normed_std": 0.31435598820856175, "train/extr_return_rate": 0.835689611630897, "train/extr_return_raw_mag": 13.468143959567971, "train/extr_return_raw_max": 13.468143959567971, "train/extr_return_raw_mean": 3.8540926600155765, "train/extr_return_raw_min": -0.6651082924784046, "train/extr_return_raw_std": 3.0832716863449305, "train/extr_reward_mag": 1.0960565495164427, "train/extr_reward_max": 1.0960565495164427, "train/extr_reward_mean": 0.06624469911194827, "train/extr_reward_min": -0.5834134670153056, "train/extr_reward_std": 0.24648567768808913, "train/image_loss_mean": 3.445826530456543, "train/image_loss_std": 8.49233160933403, "train/model_loss_mean": 6.896288943617312, "train/model_loss_std": 12.624492697519798, "train/model_opt_grad_norm": 19.167724126005826, "train/model_opt_grad_steps": 680557.0, "train/model_opt_loss": 8620.36118766053, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7407464850438785, "train/policy_entropy_max": 2.7407464850438785, "train/policy_entropy_mean": 0.4814021064810557, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7123342564661209, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4814163605644278, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.1000145967692545, "train/policy_randomness_mag": 0.9673632350686479, "train/policy_randomness_max": 0.9673632350686479, "train/policy_randomness_mean": 0.1699138157171746, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2514227320478387, "train/post_ent_mag": 54.96800169226241, "train/post_ent_max": 54.96800169226241, "train/post_ent_mean": 39.66965124051865, "train/post_ent_min": 19.585181784956422, "train/post_ent_std": 5.759955824237981, "train/prior_ent_mag": 76.76363864010328, "train/prior_ent_max": 76.76363864010328, "train/prior_ent_mean": 45.28361030474101, "train/prior_ent_min": 26.79378559164805, "train/prior_ent_std": 8.034631846702261, "train/rep_loss_mean": 5.639430816859415, "train/rep_loss_std": 8.894840554015277, "train/reward_avg": 0.05358251258220575, "train/reward_loss_mean": 0.06674475794377392, "train/reward_loss_std": 0.23378441309275694, "train/reward_max_data": 1.045205490229881, "train/reward_max_pred": 1.0418405075595802, "train/reward_neg_acc": 0.9923823467672688, "train/reward_neg_loss": 0.026267669890841394, "train/reward_pos_acc": 0.9884301179075894, "train/reward_pos_loss": 0.7280597703097618, "train/reward_pred": 0.05301385467285163, "train/reward_rate": 0.0576974529109589, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.492544357975324, "replay/size": 1000000.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 4.001357159394383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4878552535484576e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99866461753845, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027590036392211914, "timer/logger.write_frac": 9.19671973453143e-05, "timer/logger.write_avg": 0.027590036392211914, "timer/logger.write_min": 0.027590036392211914, "timer/logger.write_max": 0.027590036392211914, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.33213019371032715, "timer/replay.add_frac": 0.0011071055737323114, "timer/replay.add_avg": 0.00022889744569974305, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0019249916076660156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.667412519454956, "timer/env.step_frac": 0.062224985378697, "timer/env.step_avg": 0.012865205044421058, "timer/env.step_min": 0.0030364990234375, "timer/env.step_max": 1.7632131576538086, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 11.364519357681274, "timer/agent.policy_frac": 0.03788189981501966, "timer/agent.policy_avg": 0.007832198041131134, "timer/agent.policy_min": 0.005778312683105469, "timer/agent.policy_max": 0.03188371658325195, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06981515884399414, "timer/dataset_frac": 0.00023271823203946563, "timer/dataset_avg": 9.629677081930227e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001766681671142578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 268.81774830818176, "timer/agent.train_frac": 0.8960631496506541, "timer/agent.train_avg": 0.37078310111473345, "timer/agent.train_min": 0.3630790710449219, "timer/agent.train_max": 0.3850860595703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20173096656799316, "timer/agent.report_frac": 0.0006724395484399087, "timer/agent.report_avg": 0.20173096656799316, "timer/agent.report_min": 0.20173096656799316, "timer/agent.report_max": 0.20173096656799316, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.83659828961136}
+{"step": 1364217, "episode/length": 162.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.07975460122699386}
+{"step": 1364273, "episode/length": 55.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07142857142857142}
+{"step": 1364436, "episode/length": 162.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.07975460122699386}
+{"step": 1364997, "episode/length": 560.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.024955436720142603}
+{"step": 1365161, "episode/length": 163.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08536585365853659}
+{"step": 1365420, "episode/length": 258.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.06563706563706563}
+{"step": 1365497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473755742462588, "train/action_min": 0.0, "train/action_std": 3.3594084860573354, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454745652705011, "train/actor_opt_grad_steps": 681840.0, "train/actor_opt_loss": -10.25584607309019, "train/adv_mag": 0.39319635906689604, "train/adv_max": 0.30633464056841087, "train/adv_mean": 0.0018824726458135533, "train/adv_min": -0.3642995762573162, "train/adv_std": 0.03898764328217842, "train/cont_avg": 0.995392275528169, "train/cont_loss_mean": 0.0001323786597725444, "train/cont_loss_std": 0.004149319225178456, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.03823677182805515, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.6254117788330315e-05, "train/cont_pred": 0.995403701990423, "train/cont_rate": 0.995392275528169, "train/dyn_loss_mean": 5.853052085554096, "train/dyn_loss_std": 9.021568647572693, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8280046573826965, "train/extr_critic_critic_opt_grad_steps": 681840.0, "train/extr_critic_critic_opt_loss": 14968.326446963029, "train/extr_critic_mag": 12.677128952993474, "train/extr_critic_max": 12.677128952993474, "train/extr_critic_mean": 3.6753055612805863, "train/extr_critic_min": -0.3634882325857458, "train/extr_critic_std": 3.058795838288858, "train/extr_return_normed_mag": 1.3791121597021399, "train/extr_return_normed_max": 1.3791121597021399, "train/extr_return_normed_mean": 0.38597604590402523, "train/extr_return_normed_min": -0.061685073701008945, "train/extr_return_normed_std": 0.3162522798692676, "train/extr_return_rate": 0.8216476398454585, "train/extr_return_raw_mag": 13.377486403559296, "train/extr_return_raw_max": 13.377486403559296, "train/extr_return_raw_mean": 3.693660259246826, "train/extr_return_raw_min": -0.6722677312266658, "train/extr_return_raw_std": 3.083956419582098, "train/extr_reward_mag": 1.0975863396281926, "train/extr_reward_max": 1.0975863396281926, "train/extr_reward_mean": 0.06523249607900498, "train/extr_reward_min": -0.5992145420799793, "train/extr_reward_std": 0.24503794564327724, "train/image_loss_mean": 3.702736901565337, "train/image_loss_std": 8.653157993101738, "train/model_loss_mean": 7.282573129089785, "train/model_loss_std": 12.852153348251127, "train/model_opt_grad_norm": 19.21864286610778, "train/model_opt_grad_steps": 681277.0, "train/model_opt_loss": 15924.592037577024, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2200.7042253521126, "train/policy_entropy_mag": 2.740881107222866, "train/policy_entropy_max": 2.740881107222866, "train/policy_entropy_mean": 0.48129514195549655, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6982110944432272, "train/policy_logprob_mag": 7.438384210559684, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48085307571249947, "train/policy_logprob_min": -7.438384210559684, "train/policy_logprob_std": 1.0965930458525537, "train/policy_randomness_mag": 0.967410748273554, "train/policy_randomness_max": 0.967410748273554, "train/policy_randomness_mean": 0.1698760665218595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24643787531785563, "train/post_ent_mag": 55.22131240199989, "train/post_ent_max": 55.22131240199989, "train/post_ent_mean": 39.786384851160186, "train/post_ent_min": 19.272314998465525, "train/post_ent_std": 5.816060522912254, "train/prior_ent_mag": 76.75495018757564, "train/prior_ent_max": 76.75495018757564, "train/prior_ent_mean": 45.60054956355565, "train/prior_ent_min": 26.949991306788483, "train/prior_ent_std": 8.047275630521103, "train/rep_loss_mean": 5.853052085554096, "train/rep_loss_std": 9.021568647572693, "train/reward_avg": 0.053426220986834715, "train/reward_loss_mean": 0.06787262117149125, "train/reward_loss_std": 0.2296955064988472, "train/reward_max_data": 1.042253531200785, "train/reward_max_pred": 1.0413864699887558, "train/reward_neg_acc": 0.9921675341230043, "train/reward_neg_loss": 0.028417059705710748, "train/reward_pos_acc": 0.9914871345103626, "train/reward_pos_loss": 0.7135444904716921, "train/reward_pred": 0.053061670925415735, "train/reward_rate": 0.0576446963028169, "stats/sum_log_reward": 11.266666968663534, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.5066128099958102, "replay/size": 1000000.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.9936361572777454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4047258060071721e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1842167377472, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03847312927246094, "timer/logger.write_frac": 0.0001281650637417509, "timer/logger.write_avg": 0.03847312927246094, "timer/logger.write_min": 0.03847312927246094, "timer/logger.write_max": 0.03847312927246094, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.31937432289123535, "timer/replay.add_frac": 0.0010639277652970457, "timer/replay.add_avg": 0.0002231826155773832, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0023915767669677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1431.0, "timer/env.step_total": 20.25733757019043, "timer/env.step_frac": 0.06748302022783577, "timer/env.step_avg": 0.014156070978469902, "timer/env.step_min": 0.0028808116912841797, "timer/env.step_max": 2.7541229724884033, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 12.207406759262085, "timer/agent.policy_frac": 0.040666384435284815, "timer/agent.policy_avg": 0.008530682571112568, "timer/agent.policy_min": 0.0056209564208984375, "timer/agent.policy_max": 1.1648125648498535, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06863689422607422, "timer/dataset_frac": 0.0002286492440275037, "timer/dataset_avg": 9.58615841146288e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0002067089080810547, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.5871136188507, "timer/agent.train_frac": 0.8880783823879447, "timer/agent.train_avg": 0.3723283709760485, "timer/agent.train_min": 0.3630995750427246, "timer/agent.train_max": 0.9433493614196777, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20030617713928223, "timer/agent.report_frac": 0.0006672775115097994, "timer/agent.report_avg": 0.20030617713928223, "timer/agent.report_min": 0.20030617713928223, "timer/agent.report_max": 0.20030617713928223, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005338191986083984, "timer/checkpoint.save_frac": 1.7783053499936808e-06, "timer/checkpoint.save_avg": 0.0005338191986083984, "timer/checkpoint.save_min": 0.0005338191986083984, "timer/checkpoint.save_max": 0.0005338191986083984, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1698887348175049, "timer/agent.save_frac": 0.0038972359957204746, "timer/agent.save_avg": 1.1698887348175049, "timer/agent.save_min": 1.1698887348175049, "timer/agent.save_max": 1.1698887348175049, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.179115295410156e-05, "timer/replay.save_frac": 3.057827421829241e-07, "timer/replay.save_avg": 9.179115295410156e-05, "timer/replay.save_min": 9.179115295410156e-05, "timer/replay.save_max": 9.179115295410156e-05, "fps": 4.766990410419345}
+{"step": 1365605, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04864864864864865}
+{"step": 1365760, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07741935483870968}
+{"step": 1365924, "episode/length": 163.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.07317073170731707}
+{"step": 1366142, "episode/length": 217.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07339449541284404}
+{"step": 1366317, "episode/length": 174.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.07428571428571429}
+{"step": 1366492, "episode/length": 174.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05142857142857143}
+{"step": 1366778, "episode/length": 285.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04895104895104895}
+{"step": 1366938, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0625}
+{"step": 1366939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423691004922945, "train/action_min": 0.0, "train/action_std": 3.309776809117565, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03508210215360334, "train/actor_opt_grad_steps": 682560.0, "train/actor_opt_loss": -11.591900034310067, "train/adv_mag": 0.37867854719292626, "train/adv_max": 0.3102307864656187, "train/adv_mean": 0.001757237531483167, "train/adv_min": -0.3318734403750668, "train/adv_std": 0.039227203402208956, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 0.00013005264597232432, "train/cont_loss_std": 0.004029478558407683, "train/cont_neg_acc": 0.9925636020425248, "train/cont_neg_loss": 0.021060546322527293, "train/cont_pos_acc": 0.9999999722389326, "train/cont_pos_loss": 1.7173383312946535e-05, "train/cont_pred": 0.9952503010018231, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.795907621514307, "train/dyn_loss_std": 9.03651196336093, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8297622799873352, "train/extr_critic_critic_opt_grad_steps": 682560.0, "train/extr_critic_critic_opt_loss": 14815.990956763699, "train/extr_critic_mag": 12.723543127922163, "train/extr_critic_max": 12.723543127922163, "train/extr_critic_mean": 3.822395060160389, "train/extr_critic_min": -0.33656901692690916, "train/extr_critic_std": 3.0889829544171894, "train/extr_return_normed_mag": 1.3825426787546236, "train/extr_return_normed_max": 1.3825426787546236, "train/extr_return_normed_mean": 0.4007367936715688, "train/extr_return_normed_min": -0.06305298718228323, "train/extr_return_normed_std": 0.31857628548798494, "train/extr_return_rate": 0.8343358048020977, "train/extr_return_raw_mag": 13.43361939469429, "train/extr_return_raw_max": 13.43361939469429, "train/extr_return_raw_mean": 3.839568987284621, "train/extr_return_raw_min": -0.692786989554967, "train/extr_return_raw_std": 3.113474378847096, "train/extr_reward_mag": 1.0883814602682036, "train/extr_reward_max": 1.0883814602682036, "train/extr_reward_mean": 0.06662032105130693, "train/extr_reward_min": -0.5693607689583138, "train/extr_reward_std": 0.24725940292828705, "train/image_loss_mean": 3.5455364005206382, "train/image_loss_std": 8.723121486298025, "train/model_loss_mean": 7.090743580909624, "train/model_loss_std": 12.903238701493773, "train/model_opt_grad_norm": 18.66400065487378, "train/model_opt_grad_steps": 681996.6575342466, "train/model_opt_loss": 18311.499892979453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.715532747033524, "train/policy_entropy_max": 2.715532747033524, "train/policy_entropy_mean": 0.4624332610058458, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.675300269094232, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46249577260180696, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0803011255721524, "train/policy_randomness_mag": 0.9584638917282836, "train/policy_randomness_max": 0.9584638917282836, "train/policy_randomness_mean": 0.16321864836428263, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23835136037166804, "train/post_ent_mag": 55.34345308068681, "train/post_ent_max": 55.34345308068681, "train/post_ent_mean": 39.722087651082916, "train/post_ent_min": 19.851730634088387, "train/post_ent_std": 5.719305502225275, "train/prior_ent_mag": 76.79431204599877, "train/prior_ent_max": 76.79431204599877, "train/prior_ent_mean": 45.477015194827565, "train/prior_ent_min": 27.15731385636003, "train/prior_ent_std": 8.032342669082015, "train/rep_loss_mean": 5.795907621514307, "train/rep_loss_std": 9.03651196336093, "train/reward_avg": 0.05485739523213204, "train/reward_loss_mean": 0.06753257253806885, "train/reward_loss_std": 0.23436584701276805, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.038167225171442, "train/reward_neg_acc": 0.9914743222602426, "train/reward_neg_loss": 0.02661493712755507, "train/reward_pos_acc": 0.98988792586, "train/reward_pos_loss": 0.7202776531650595, "train/reward_pred": 0.054523710926918136, "train/reward_rate": 0.059061964897260275, "stats/sum_log_reward": 10.599999964237213, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.75, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4433796592056751, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.895547948829344e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3610278353115722e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2917900085449, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030986309051513672, "timer/logger.write_frac": 0.00010318733339540167, "timer/logger.write_avg": 0.030986309051513672, "timer/logger.write_min": 0.030986309051513672, "timer/logger.write_max": 0.030986309051513672, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.3018167018890381, "timer/replay.add_frac": 0.0010050781004717103, "timer/replay.add_avg": 0.00020930423154579618, "timer/replay.add_min": 8.893013000488281e-05, "timer/replay.add_max": 0.003973722457885742, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.66953945159912, "timer/env.step_frac": 0.06883151700887646, "timer/env.step_avg": 0.01433393859334197, "timer/env.step_min": 0.0028982162475585938, "timer/env.step_max": 1.6554286479949951, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.69112515449524, "timer/agent.policy_frac": 0.035602455712129256, "timer/agent.policy_avg": 0.007414095114074369, "timer/agent.policy_min": 0.005733013153076172, "timer/agent.policy_max": 0.02774953842163086, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06469845771789551, "timer/dataset_frac": 0.0002154519699524735, "timer/dataset_avg": 8.973433802759432e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.83849906921387, "timer/agent.train_frac": 0.8919274784754935, "timer/agent.train_avg": 0.3714819681958583, "timer/agent.train_min": 0.36517763137817383, "timer/agent.train_max": 0.41532444953918457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20039987564086914, "timer/agent.report_frac": 0.0006673504981110762, "timer/agent.report_avg": 0.20039987564086914, "timer/agent.report_min": 0.20039987564086914, "timer/agent.report_max": 0.20039987564086914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8018968686594965}
+{"step": 1367158, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05}
+{"step": 1367375, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.059907834101382486}
+{"step": 1367623, "episode/length": 247.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.500000029802322, "episode/reward_rate": 0.056451612903225805}
+{"step": 1367921, "episode/length": 297.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.040268456375838924}
+{"step": 1368016, "episode/length": 94.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11578947368421053}
+{"step": 1368244, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07017543859649122}
+{"step": 1368401, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3512815710616435, "train/action_min": 0.0, "train/action_std": 3.258446618302228, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0347892799197811, "train/actor_opt_grad_steps": 683290.0, "train/actor_opt_loss": -11.517937649602759, "train/adv_mag": 0.41474058244326345, "train/adv_max": 0.3342628601479204, "train/adv_mean": 0.0019296194496958266, "train/adv_min": -0.37469895041152224, "train/adv_std": 0.03959183599034401, "train/cont_avg": 0.9953446061643836, "train/cont_loss_mean": 1.0639808286289e-05, "train/cont_loss_std": 0.00026593367873259274, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024487081126593546, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 9.488928550424184e-06, "train/cont_pred": 0.9953366452700472, "train/cont_rate": 0.9953446061643836, "train/dyn_loss_mean": 5.755710543018498, "train/dyn_loss_std": 9.025502609880004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8304798766358258, "train/extr_critic_critic_opt_grad_steps": 683290.0, "train/extr_critic_critic_opt_loss": 14900.167554045376, "train/extr_critic_mag": 12.720971421019671, "train/extr_critic_max": 12.720971421019671, "train/extr_critic_mean": 3.7433844167892247, "train/extr_critic_min": -0.39569127233061074, "train/extr_critic_std": 3.057347931273996, "train/extr_return_normed_mag": 1.37674218007963, "train/extr_return_normed_max": 1.37674218007963, "train/extr_return_normed_mean": 0.39134359808817304, "train/extr_return_normed_min": -0.06388153421552215, "train/extr_return_normed_std": 0.31395320859673903, "train/extr_return_rate": 0.8265857337272331, "train/extr_return_raw_mag": 13.445316902578693, "train/extr_return_raw_max": 13.445316902578693, "train/extr_return_raw_mean": 3.762348609427883, "train/extr_return_raw_min": -0.7110703558954474, "train/extr_return_raw_std": 3.0855554685200732, "train/extr_reward_mag": 1.0874605897354752, "train/extr_reward_max": 1.0874605897354752, "train/extr_reward_mean": 0.06323402089207139, "train/extr_reward_min": -0.6025167083087033, "train/extr_reward_std": 0.24163717296842027, "train/image_loss_mean": 3.5370687164672434, "train/image_loss_std": 9.24353986243679, "train/model_loss_mean": 7.054805298374124, "train/model_loss_std": 13.337575742643173, "train/model_opt_grad_norm": 18.501394167338333, "train/model_opt_grad_steps": 682726.0, "train/model_opt_loss": 17637.013283925513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.710408975000251, "train/policy_entropy_max": 2.710408975000251, "train/policy_entropy_mean": 0.46425614822400757, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.680719695270878, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46390677682340964, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0810127617561653, "train/policy_randomness_mag": 0.9566554247516476, "train/policy_randomness_max": 0.9566554247516476, "train/policy_randomness_mean": 0.1638620481507419, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24026417793476418, "train/post_ent_mag": 55.11811745003478, "train/post_ent_max": 55.11811745003478, "train/post_ent_mean": 39.732150247652235, "train/post_ent_min": 19.45550966916019, "train/post_ent_std": 5.737561761516414, "train/prior_ent_mag": 76.78626836489325, "train/prior_ent_max": 76.78626836489325, "train/prior_ent_mean": 45.487318587629765, "train/prior_ent_min": 27.604101181030273, "train/prior_ent_std": 7.9677969200970375, "train/rep_loss_mean": 5.755710543018498, "train/rep_loss_std": 9.025502609880004, "train/reward_avg": 0.051395279852903056, "train/reward_loss_mean": 0.06429963410921292, "train/reward_loss_std": 0.22320751151809953, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0296366378052595, "train/reward_neg_acc": 0.9921768568966487, "train/reward_neg_loss": 0.02583388517266267, "train/reward_pos_acc": 0.9901566742217704, "train/reward_pos_loss": 0.7183073938709416, "train/reward_pred": 0.051028290125605176, "train/reward_rate": 0.0556105522260274, "stats/sum_log_reward": 11.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4829771916071574, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7171772175383144e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.380711834668787e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2305865287781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028720378875732422, "timer/logger.write_frac": 9.566106907291899e-05, "timer/logger.write_avg": 0.028720378875732422, "timer/logger.write_min": 0.028720378875732422, "timer/logger.write_max": 0.028720378875732422, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2946770191192627, "timer/replay.add_frac": 0.000981502326349474, "timer/replay.add_avg": 0.00020155746861782675, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0019276142120361328, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.71808648109436, "timer/env.step_frac": 0.059014928112249565, "timer/env.step_avg": 0.01211907420047494, "timer/env.step_min": 0.002881765365600586, "timer/env.step_max": 1.617335319519043, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.684202432632446, "timer/agent.policy_frac": 0.03558665543095267, "timer/agent.policy_avg": 0.00730793600043259, "timer/agent.policy_min": 0.005736112594604492, "timer/agent.policy_max": 0.029817819595336914, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06310200691223145, "timer/dataset_frac": 0.00021017847529063437, "timer/dataset_avg": 8.632285487309364e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016736984252929688, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.7696371078491, "timer/agent.train_frac": 0.9018722583812925, "timer/agent.train_avg": 0.37040990028433535, "timer/agent.train_min": 0.36366748809814453, "timer/agent.train_max": 0.44597315788269043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19951272010803223, "timer/agent.report_frac": 0.0006645316268897482, "timer/agent.report_avg": 0.19951272010803223, "timer/agent.report_min": 0.19951272010803223, "timer/agent.report_max": 0.19951272010803223, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.869507266257694}
+{"step": 1368596, "episode/length": 351.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04261363636363636}
+{"step": 1368878, "episode/length": 281.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.05319148936170213}
+{"step": 1369064, "episode/length": 185.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08064516129032258}
+{"step": 1369240, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.056818181818181816}
+{"step": 1369448, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0673076923076923}
+{"step": 1369608, "episode/length": 159.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08125}
+{"step": 1369764, "episode/length": 155.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.08333333333333333}
+{"step": 1369817, "episode/length": 52.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.1509433962264151}
+{"step": 1369825, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.52092216384243, "train/action_min": 0.0, "train/action_std": 3.412879487158547, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0342924045792348, "train/actor_opt_grad_steps": 684010.0, "train/actor_opt_loss": -12.910134821710452, "train/adv_mag": 0.3789531193988424, "train/adv_max": 0.3145315582063836, "train/adv_mean": 0.0010222484571629688, "train/adv_min": -0.33214391705016016, "train/adv_std": 0.038208753211607396, "train/cont_avg": 0.995240977112676, "train/cont_loss_mean": 0.00011421995338372946, "train/cont_loss_std": 0.0035184861095164215, "train/cont_neg_acc": 0.9907891809100836, "train/cont_neg_loss": 0.016134985622833907, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 1.7363969292000626e-05, "train/cont_pred": 0.9952718900962615, "train/cont_rate": 0.995240977112676, "train/dyn_loss_mean": 5.788674958994691, "train/dyn_loss_std": 9.006675935127365, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8149722277278632, "train/extr_critic_critic_opt_grad_steps": 684010.0, "train/extr_critic_critic_opt_loss": 14889.747482944542, "train/extr_critic_mag": 12.722065374884806, "train/extr_critic_max": 12.722065374884806, "train/extr_critic_mean": 3.6854766791974995, "train/extr_critic_min": -0.36923887528164284, "train/extr_critic_std": 3.0777483624471746, "train/extr_return_normed_mag": 1.3673707431470845, "train/extr_return_normed_max": 1.3673707431470845, "train/extr_return_normed_mean": 0.3832422049952225, "train/extr_return_normed_min": -0.06122736184215042, "train/extr_return_normed_std": 0.3139535209662478, "train/extr_return_rate": 0.823484309122596, "train/extr_return_raw_mag": 13.40956156018754, "train/extr_return_raw_max": 13.40956156018754, "train/extr_return_raw_mean": 3.695558427085339, "train/extr_return_raw_min": -0.6906794783934741, "train/extr_return_raw_std": 3.098656805468277, "train/extr_reward_mag": 1.0944727944656156, "train/extr_reward_max": 1.0944727944656156, "train/extr_reward_mean": 0.06556933787716947, "train/extr_reward_min": -0.5968688978275782, "train/extr_reward_std": 0.24505867861526112, "train/image_loss_mean": 3.6039097208372306, "train/image_loss_std": 8.950699940533704, "train/model_loss_mean": 7.143880206094662, "train/model_loss_std": 13.090755717855105, "train/model_opt_grad_norm": 19.2970539684027, "train/model_opt_grad_steps": 683445.4507042253, "train/model_opt_loss": 25556.603666923416, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3556.3380281690143, "train/policy_entropy_mag": 2.7122564215055656, "train/policy_entropy_max": 2.7122564215055656, "train/policy_entropy_mean": 0.4853189205619651, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6947408200989307, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48478429754015423, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0910045949506089, "train/policy_randomness_mag": 0.9573074923434728, "train/policy_randomness_max": 0.9573074923434728, "train/policy_randomness_mean": 0.1712962839175278, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2452130223244009, "train/post_ent_mag": 54.94106083184901, "train/post_ent_max": 54.94106083184901, "train/post_ent_mean": 39.78990108866087, "train/post_ent_min": 19.603592912915726, "train/post_ent_std": 5.75736906159092, "train/prior_ent_mag": 76.79783759318607, "train/prior_ent_max": 76.79783759318607, "train/prior_ent_mean": 45.565437531807056, "train/prior_ent_min": 27.408139242252833, "train/prior_ent_std": 7.9613729732137335, "train/rep_loss_mean": 5.788674958994691, "train/rep_loss_std": 9.006675935127365, "train/reward_avg": 0.053981899008364746, "train/reward_loss_mean": 0.06665136324058116, "train/reward_loss_std": 0.22306474119844572, "train/reward_max_data": 1.0464788843208634, "train/reward_max_pred": 1.0435927753717127, "train/reward_neg_acc": 0.991954074779027, "train/reward_neg_loss": 0.026871999305948406, "train/reward_pos_acc": 0.9928349231330442, "train/reward_pos_loss": 0.7100489089186762, "train/reward_pred": 0.05375877620888428, "train/reward_rate": 0.05826364436619718, "stats/sum_log_reward": 11.725000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4396064132452011, "replay/size": 1000000.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.76949149571108e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3921074987797255e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0285210609436, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030585765838623047, "timer/logger.write_frac": 0.00010194286106689931, "timer/logger.write_avg": 0.030585765838623047, "timer/logger.write_min": 0.030585765838623047, "timer/logger.write_max": 0.030585765838623047, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2849564552307129, "timer/replay.add_frac": 0.0009497645564597201, "timer/replay.add_avg": 0.00020010987024628713, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0006635189056396484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.60954713821411, "timer/env.step_frac": 0.07535799282769362, "timer/env.step_avg": 0.015877490967846988, "timer/env.step_min": 0.003175020217895508, "timer/env.step_max": 1.905277967453003, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.203054666519165, "timer/agent.policy_frac": 0.04067298209972647, "timer/agent.policy_avg": 0.008569560861319638, "timer/agent.policy_min": 0.005719423294067383, "timer/agent.policy_max": 1.235443115234375, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06060171127319336, "timer/dataset_frac": 0.00020198650134626225, "timer/dataset_avg": 8.511476302414797e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00027871131896972656, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.1719617843628, "timer/agent.train_frac": 0.8804894976324688, "timer/agent.train_avg": 0.37102803621399266, "timer/agent.train_min": 0.3625619411468506, "timer/agent.train_max": 0.9613752365112305, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2001950740814209, "timer/agent.report_frac": 0.0006672534776810638, "timer/agent.report_avg": 0.2001950740814209, "timer/agent.report_min": 0.2001950740814209, "timer/agent.report_max": 0.2001950740814209, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002846717834472656, "timer/checkpoint.save_frac": 9.488157407190011e-07, "timer/checkpoint.save_avg": 0.0002846717834472656, "timer/checkpoint.save_min": 0.0002846717834472656, "timer/checkpoint.save_max": 0.0002846717834472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2404778003692627, "timer/agent.save_frac": 0.004134532930345276, "timer/agent.save_avg": 1.2404778003692627, "timer/agent.save_min": 1.2404778003692627, "timer/agent.save_max": 1.2404778003692627, "timer/replay.save_count": 1.0, "timer/replay.save_total": 2.5033950805664062e-05, "timer/replay.save_frac": 8.343857016373126e-08, "timer/replay.save_avg": 2.5033950805664062e-05, "timer/replay.save_min": 2.5033950805664062e-05, "timer/replay.save_max": 2.5033950805664062e-05, "fps": 4.746110813730241}
+{"step": 1369974, "episode/length": 156.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08280254777070063}
+{"step": 1370190, "episode/length": 215.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.06481481481481481}
+{"step": 1370441, "episode/length": 250.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05976095617529881}
+{"step": 1370680, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.058577405857740586}
+{"step": 1370847, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0718562874251497}
+{"step": 1371014, "episode/length": 166.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07784431137724551}
+{"step": 1371289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464353796553938, "train/action_min": 0.0, "train/action_std": 3.3418928793031877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03362473472952843, "train/actor_opt_grad_steps": 684730.0, "train/actor_opt_loss": -10.998675270848079, "train/adv_mag": 0.37510459553705505, "train/adv_max": 0.32295936019453286, "train/adv_mean": 0.002085265222034002, "train/adv_min": -0.32475082188436427, "train/adv_std": 0.0388249507403537, "train/cont_avg": 0.9954382491438356, "train/cont_loss_mean": 6.855880086395824e-05, "train/cont_loss_std": 0.0021211938998295745, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.00959139275848216, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.2537772662442078e-05, "train/cont_pred": 0.9954500337169595, "train/cont_rate": 0.9954382491438356, "train/dyn_loss_mean": 5.822370679411169, "train/dyn_loss_std": 9.068964154752967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8263006545092961, "train/extr_critic_critic_opt_grad_steps": 684730.0, "train/extr_critic_critic_opt_loss": 14994.869368043665, "train/extr_critic_mag": 12.715242803913274, "train/extr_critic_max": 12.715242803913274, "train/extr_critic_mean": 3.6555419850022823, "train/extr_critic_min": -0.3780321242058114, "train/extr_critic_std": 3.0780495421527183, "train/extr_return_normed_mag": 1.3826721939322066, "train/extr_return_normed_max": 1.3826721939322066, "train/extr_return_normed_mean": 0.3812661632283093, "train/extr_return_normed_min": -0.057795103269386784, "train/extr_return_normed_std": 0.3156906494947329, "train/extr_return_rate": 0.820930587102289, "train/extr_return_raw_mag": 13.5270311015926, "train/extr_return_raw_max": 13.5270311015926, "train/extr_return_raw_mean": 3.67603902620812, "train/extr_return_raw_min": -0.6434952024727651, "train/extr_return_raw_std": 3.105563278067602, "train/extr_reward_mag": 1.087563733532004, "train/extr_reward_max": 1.087563733532004, "train/extr_reward_mean": 0.06424216951613557, "train/extr_reward_min": -0.5290006333834505, "train/extr_reward_std": 0.24299926076033343, "train/image_loss_mean": 3.7515316466762596, "train/image_loss_std": 9.026905288435009, "train/model_loss_mean": 7.312183628343556, "train/model_loss_std": 13.170794682959988, "train/model_opt_grad_norm": 18.650039320122705, "train/model_opt_grad_steps": 684164.1369863014, "train/model_opt_loss": 10437.08930864726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.719894980731076, "train/policy_entropy_max": 2.719894980731076, "train/policy_entropy_mean": 0.4711855805083497, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6846787341653484, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4714604620247671, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0870588258521197, "train/policy_randomness_mag": 0.9600035678850461, "train/policy_randomness_max": 0.9600035678850461, "train/policy_randomness_mean": 0.16630783299468968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24166154800212547, "train/post_ent_mag": 55.381688679734324, "train/post_ent_max": 55.381688679734324, "train/post_ent_mean": 39.93055787805009, "train/post_ent_min": 19.60005133119348, "train/post_ent_std": 5.822624565803841, "train/prior_ent_mag": 76.86018685118793, "train/prior_ent_max": 76.86018685118793, "train/prior_ent_mean": 45.7076837200008, "train/prior_ent_min": 27.536307295707807, "train/prior_ent_std": 8.029626487052603, "train/rep_loss_mean": 5.822370679411169, "train/rep_loss_std": 9.068964154752967, "train/reward_avg": 0.05364271135975237, "train/reward_loss_mean": 0.06716106576870566, "train/reward_loss_std": 0.2345535391814088, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.026744248115853, "train/reward_neg_acc": 0.9921943316720936, "train/reward_neg_loss": 0.02672308248352923, "train/reward_pos_acc": 0.9890303268824538, "train/reward_pos_loss": 0.7276004218075374, "train/reward_pred": 0.05300934413728649, "train/reward_rate": 0.05779109589041096, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3445052703221639, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.575138706978553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3873754629020483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.345232963562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02481245994567871, "timer/logger.write_frac": 8.261313056594765e-05, "timer/logger.write_avg": 0.02481245994567871, "timer/logger.write_min": 0.02481245994567871, "timer/logger.write_max": 0.02481245994567871, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.28383731842041016, "timer/replay.add_frac": 0.0009450368684721072, "timer/replay.add_avg": 0.00019387794974071732, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0013127326965332031, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1464.0, "timer/env.step_total": 17.94097137451172, "timer/env.step_frac": 0.05973449685711617, "timer/env.step_avg": 0.012254761867835874, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6467137336730957, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.573721647262573, "timer/agent.policy_frac": 0.03520522547646155, "timer/agent.policy_avg": 0.007222487463977167, "timer/agent.policy_min": 0.0057599544525146484, "timer/agent.policy_max": 0.015715360641479492, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05997729301452637, "timer/dataset_frac": 0.00019969450629437103, "timer/dataset_avg": 8.193619264279558e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 732.0, "timer/agent.train_total": 270.7928764820099, "timer/agent.train_frac": 0.9016053752877862, "timer/agent.train_avg": 0.3699356236093031, "timer/agent.train_min": 0.3632853031158447, "timer/agent.train_max": 0.4032127857208252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20348334312438965, "timer/agent.report_frac": 0.0006774981614210482, "timer/agent.report_avg": 0.20348334312438965, "timer/agent.report_min": 0.20348334312438965, "timer/agent.report_max": 0.20348334312438965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.874309069749222}
+{"step": 1371559, "episode/length": 544.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.029357798165137616}
+{"step": 1371790, "episode/length": 230.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.06926406926406926}
+{"step": 1371971, "episode/length": 180.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08287292817679558}
+{"step": 1372296, "episode/length": 324.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.046153846153846156}
+{"step": 1372541, "episode/length": 244.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05714285714285714}
+{"step": 1372759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426095498574747, "train/action_min": 0.0, "train/action_std": 3.3485384502926387, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03456307778990752, "train/actor_opt_grad_steps": 685465.0, "train/actor_opt_loss": -11.098488338895747, "train/adv_mag": 0.3724936836877385, "train/adv_max": 0.30641392437187404, "train/adv_mean": 0.0018753155943429462, "train/adv_min": -0.32897371416156357, "train/adv_std": 0.038942076618204244, "train/cont_avg": 0.9952491554054054, "train/cont_loss_mean": 0.00015361839128806, "train/cont_loss_std": 0.004842284935813191, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.030996908293474332, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 1.8528439316156664e-05, "train/cont_pred": 0.9952649917151477, "train/cont_rate": 0.9952491554054054, "train/dyn_loss_mean": 5.769226306193584, "train/dyn_loss_std": 9.06468002216236, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8571306128759641, "train/extr_critic_critic_opt_grad_steps": 685465.0, "train/extr_critic_critic_opt_loss": 14990.827108847128, "train/extr_critic_mag": 12.799823464574041, "train/extr_critic_max": 12.799823464574041, "train/extr_critic_mean": 3.6898748971320487, "train/extr_critic_min": -0.3566282198235795, "train/extr_critic_std": 3.087096855447099, "train/extr_return_normed_mag": 1.3812040380529456, "train/extr_return_normed_max": 1.3812040380529456, "train/extr_return_normed_mean": 0.38753365342681473, "train/extr_return_normed_min": -0.06274559497329835, "train/extr_return_normed_std": 0.31878413320393173, "train/extr_return_rate": 0.8269778022894988, "train/extr_return_raw_mag": 13.415399744703963, "train/extr_return_raw_max": 13.415399744703963, "train/extr_return_raw_mean": 3.7082130490122616, "train/extr_return_raw_min": -0.6906865597576708, "train/extr_return_raw_std": 3.114329238195677, "train/extr_reward_mag": 1.090794031684463, "train/extr_reward_max": 1.090794031684463, "train/extr_reward_mean": 0.06541555319484826, "train/extr_reward_min": -0.5704319299878301, "train/extr_reward_std": 0.24517814593540654, "train/image_loss_mean": 3.568723108317401, "train/image_loss_std": 9.022761808859336, "train/model_loss_mean": 7.097187976579408, "train/model_loss_std": 13.165100058993778, "train/model_opt_grad_norm": 19.52962403684049, "train/model_opt_grad_steps": 684899.0, "train/model_opt_loss": 13306.221033044763, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.7338805102013253, "train/policy_entropy_max": 2.7338805102013253, "train/policy_entropy_mean": 0.4798729097520983, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.699990642634598, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47915405598846644, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.091961215476732, "train/policy_randomness_mag": 0.9649398463803369, "train/policy_randomness_max": 0.9649398463803369, "train/policy_randomness_mean": 0.16937407881424232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2470659790812312, "train/post_ent_mag": 55.34525500117122, "train/post_ent_max": 55.34525500117122, "train/post_ent_mean": 39.68775759516536, "train/post_ent_min": 19.7812661866884, "train/post_ent_std": 5.816301223394033, "train/prior_ent_mag": 76.80840600503457, "train/prior_ent_max": 76.80840600503457, "train/prior_ent_mean": 45.40026541013975, "train/prior_ent_min": 27.160986642579775, "train/prior_ent_std": 8.047907178466385, "train/rep_loss_mean": 5.769226306193584, "train/rep_loss_std": 9.06468002216236, "train/reward_avg": 0.053266205170468706, "train/reward_loss_mean": 0.0667755271534662, "train/reward_loss_std": 0.22282060235738754, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0296362509598602, "train/reward_neg_acc": 0.9922159966584798, "train/reward_neg_loss": 0.027616110655504303, "train/reward_pos_acc": 0.9932395880286758, "train/reward_pos_loss": 0.7093996711679407, "train/reward_pred": 0.05307550813902069, "train/reward_rate": 0.05741923564189189, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 14.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 4.4, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.7139091968536377, "replay/size": 1000000.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.641478869379783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4026757000254937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31606912612915, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025343656539916992, "timer/logger.write_frac": 8.438994494587954e-05, "timer/logger.write_avg": 0.025343656539916992, "timer/logger.write_min": 0.025343656539916992, "timer/logger.write_max": 0.025343656539916992, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.29283928871154785, "timer/replay.add_frac": 0.0009751036285326406, "timer/replay.add_avg": 0.00019921040048404617, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0008170604705810547, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1470.0, "timer/env.step_total": 16.753259658813477, "timer/env.step_frac": 0.0557854253605634, "timer/env.step_avg": 0.011396775278104405, "timer/env.step_min": 0.003023862838745117, "timer/env.step_max": 1.6175522804260254, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.729922771453857, "timer/agent.policy_frac": 0.03572876670461286, "timer/agent.policy_avg": 0.007299267191465209, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.029221534729003906, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059705257415771484, "timer/dataset_frac": 0.0001988080677451062, "timer/dataset_avg": 8.123164274254623e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.78319096565247, "timer/agent.train_frac": 0.904990504692264, "timer/agent.train_avg": 0.3697730489328605, "timer/agent.train_min": 0.36342906951904297, "timer/agent.train_max": 0.3815798759460449, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20192193984985352, "timer/agent.report_frac": 0.0006723647536990394, "timer/agent.report_avg": 0.20192193984985352, "timer/agent.report_min": 0.20192193984985352, "timer/agent.report_max": 0.20192193984985352, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.894735879552945}
+{"step": 1372984, "episode/length": 442.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 17.700000055134296, "episode/reward_rate": 0.03611738148984198}
+{"step": 1373054, "episode/length": 69.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05714285714285714}
+{"step": 1373211, "episode/length": 156.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.08917197452229299}
+{"step": 1373349, "episode/length": 137.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07971014492753623}
+{"step": 1373619, "episode/length": 269.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.044444444444444446}
+{"step": 1373735, "episode/length": 115.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.10344827586206896}
+{"step": 1373900, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06666666666666667}
+{"step": 1374122, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06756756756756757}
+{"step": 1374191, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.344336281360035, "train/action_min": 0.0, "train/action_std": 3.2915366468295244, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03421823730246282, "train/actor_opt_grad_steps": 686190.0, "train/actor_opt_loss": -12.322859039818736, "train/adv_mag": 0.4022131402727584, "train/adv_max": 0.32925097497416217, "train/adv_mean": 0.0012905037257669519, "train/adv_min": -0.3541829288005829, "train/adv_std": 0.039570125843017875, "train/cont_avg": 0.995268485915493, "train/cont_loss_mean": 1.1858519784664407e-05, "train/cont_loss_std": 0.0003433095635075925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012535439746561133, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.1320382275249905e-05, "train/cont_pred": 0.9952594176144667, "train/cont_rate": 0.995268485915493, "train/dyn_loss_mean": 5.793100733152578, "train/dyn_loss_std": 9.01995350609363, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8257982176794133, "train/extr_critic_critic_opt_grad_steps": 686190.0, "train/extr_critic_critic_opt_loss": 14942.058855083627, "train/extr_critic_mag": 12.82080763158664, "train/extr_critic_max": 12.82080763158664, "train/extr_critic_mean": 3.8056951072854055, "train/extr_critic_min": -0.38363576271164584, "train/extr_critic_std": 3.141809735499637, "train/extr_return_normed_mag": 1.3819392298308897, "train/extr_return_normed_max": 1.3819392298308897, "train/extr_return_normed_mean": 0.39525693613038937, "train/extr_return_normed_min": -0.06304958053457906, "train/extr_return_normed_std": 0.32124852336628335, "train/extr_return_rate": 0.821301025404057, "train/extr_return_raw_mag": 13.539032895800094, "train/extr_return_raw_max": 13.539032895800094, "train/extr_return_raw_mean": 3.8184206586488534, "train/extr_return_raw_min": -0.6969479603666655, "train/extr_return_raw_std": 3.1650092467455795, "train/extr_reward_mag": 1.086486299272994, "train/extr_reward_max": 1.086486299272994, "train/extr_reward_mean": 0.06542136430950232, "train/extr_reward_min": -0.6361996590251654, "train/extr_reward_std": 0.24535901844501495, "train/image_loss_mean": 3.6346146556693064, "train/image_loss_std": 9.313070411413488, "train/model_loss_mean": 7.179395816695522, "train/model_loss_std": 13.459616190950635, "train/model_opt_grad_norm": 20.51778906164035, "train/model_opt_grad_steps": 685623.1830985915, "train/model_opt_loss": 10679.624731789172, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1478.8732394366198, "train/policy_entropy_mag": 2.72150002398961, "train/policy_entropy_max": 2.72150002398961, "train/policy_entropy_mean": 0.4640150787964673, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6739913674307542, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4633115911987466, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0782658885902083, "train/policy_randomness_mag": 0.9605700818585677, "train/policy_randomness_max": 0.9605700818585677, "train/policy_randomness_mean": 0.16377696289982593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2378893752752895, "train/post_ent_mag": 54.65095498528279, "train/post_ent_max": 54.65095498528279, "train/post_ent_mean": 39.51435051501637, "train/post_ent_min": 19.500718546585297, "train/post_ent_std": 5.752079063737896, "train/prior_ent_mag": 76.84996569996149, "train/prior_ent_max": 76.84996569996149, "train/prior_ent_mean": 45.28503648999711, "train/prior_ent_min": 27.258082913680816, "train/prior_ent_std": 8.039676686407814, "train/rep_loss_mean": 5.793100733152578, "train/rep_loss_std": 9.01995350609363, "train/reward_avg": 0.054323007942925036, "train/reward_loss_mean": 0.06890886161528842, "train/reward_loss_std": 0.23745201507084807, "train/reward_max_data": 1.0380281780807066, "train/reward_max_pred": 1.037671320874926, "train/reward_neg_acc": 0.9919959399062144, "train/reward_neg_loss": 0.02813403267728191, "train/reward_pos_acc": 0.9910028484505666, "train/reward_pos_loss": 0.7241848094362608, "train/reward_pred": 0.05390110661761022, "train/reward_rate": 0.058538732394366196, "stats/sum_log_reward": 10.975000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4394455626606941, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.678838633958188e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689713438129958e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14094710350037, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031184673309326172, "timer/logger.write_frac": 0.0001039000963056616, "timer/logger.write_avg": 0.031184673309326172, "timer/logger.write_min": 0.031184673309326172, "timer/logger.write_max": 0.031184673309326172, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2799715995788574, "timer/replay.add_frac": 0.0009328004135414161, "timer/replay.add_avg": 0.00019551089356065462, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.004326820373535156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.74934196472168, "timer/env.step_frac": 0.06913199336832403, "timer/env.step_avg": 0.014489763941844749, "timer/env.step_min": 0.002948284149169922, "timer/env.step_max": 1.6065683364868164, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 13.486747980117798, "timer/agent.policy_frac": 0.04493471520720909, "timer/agent.policy_avg": 0.009418120097847624, "timer/agent.policy_min": 0.005543708801269531, "timer/agent.policy_max": 3.1280975341796875, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058389902114868164, "timer/dataset_frac": 0.0001945416067962664, "timer/dataset_avg": 8.155014261853096e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 264.87018394470215, "timer/agent.train_frac": 0.8824860003302533, "timer/agent.train_avg": 0.36993042450377395, "timer/agent.train_min": 0.36380767822265625, "timer/agent.train_max": 0.3833315372467041, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20041489601135254, "timer/agent.report_frac": 0.0006677359352179349, "timer/agent.report_avg": 0.20041489601135254, "timer/agent.report_min": 0.20041489601135254, "timer/agent.report_max": 0.20041489601135254, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002601146697998047, "timer/checkpoint.save_frac": 8.666417305270479e-07, "timer/checkpoint.save_avg": 0.0002601146697998047, "timer/checkpoint.save_min": 0.0002601146697998047, "timer/checkpoint.save_max": 0.0002601146697998047, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4076132774353027, "timer/agent.save_frac": 0.004689840859834105, "timer/agent.save_avg": 1.4076132774353027, "timer/agent.save_min": 1.4076132774353027, "timer/agent.save_max": 1.4076132774353027, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8676229580225875e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "fps": 4.771012549180148}
+{"step": 1374324, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07425742574257425}
+{"step": 1374549, "episode/length": 224.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07111111111111111}
+{"step": 1374769, "episode/length": 219.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.05}
+{"step": 1375006, "episode/length": 236.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05907172995780591}
+{"step": 1375223, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06451612903225806}
+{"step": 1375425, "episode/length": 201.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06930693069306931}
+{"step": 1375592, "episode/length": 166.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08383233532934131}
+{"step": 1375647, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501340265143408, "train/action_min": 0.0, "train/action_std": 3.3794792090376764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03441214650767307, "train/actor_opt_grad_steps": 686910.0, "train/actor_opt_loss": -13.141435109997449, "train/adv_mag": 0.41485153118224993, "train/adv_max": 0.3488527062821062, "train/adv_mean": 0.0011236141483893073, "train/adv_min": -0.35508122856486335, "train/adv_std": 0.038896362820308505, "train/cont_avg": 0.995465004280822, "train/cont_loss_mean": 0.00019411443951543184, "train/cont_loss_std": 0.0059741887087991375, "train/cont_neg_acc": 0.9958904116121057, "train/cont_neg_loss": 0.011885574010416565, "train/cont_pos_acc": 0.9999730309394941, "train/cont_pos_loss": 0.00011731407154689019, "train/cont_pred": 0.9954327842960619, "train/cont_rate": 0.995465004280822, "train/dyn_loss_mean": 5.6872342449345, "train/dyn_loss_std": 8.956026665151935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8502773111813688, "train/extr_critic_critic_opt_grad_steps": 686910.0, "train/extr_critic_critic_opt_loss": 14781.582713505994, "train/extr_critic_mag": 12.743610355952015, "train/extr_critic_max": 12.743610355952015, "train/extr_critic_mean": 3.7547896724857694, "train/extr_critic_min": -0.3415253995216056, "train/extr_critic_std": 3.070198999692316, "train/extr_return_normed_mag": 1.370182265974071, "train/extr_return_normed_max": 1.370182265974071, "train/extr_return_normed_mean": 0.38940553469200656, "train/extr_return_normed_min": -0.05965691368567617, "train/extr_return_normed_std": 0.31350594187436037, "train/extr_return_rate": 0.8342430534428114, "train/extr_return_raw_mag": 13.457480927036233, "train/extr_return_raw_max": 13.457480927036233, "train/extr_return_raw_mean": 3.7658826063757074, "train/extr_return_raw_min": -0.6715431335854204, "train/extr_return_raw_std": 3.097822506133824, "train/extr_reward_mag": 1.0915915770073459, "train/extr_reward_max": 1.0915915770073459, "train/extr_reward_mean": 0.06434851874635644, "train/extr_reward_min": -0.5948028139872094, "train/extr_reward_std": 0.24299758856427178, "train/image_loss_mean": 3.4998778970274205, "train/image_loss_std": 8.532866850291214, "train/model_loss_mean": 6.977230718691055, "train/model_loss_std": 12.63965287927079, "train/model_opt_grad_norm": 18.814842916514774, "train/model_opt_grad_steps": 686343.0, "train/model_opt_loss": 12532.656290132705, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.727691620996554, "train/policy_entropy_max": 2.727691620996554, "train/policy_entropy_mean": 0.48524714822638526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7110652588818172, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.484871360945375, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0968980062497806, "train/policy_randomness_mag": 0.9627554400326455, "train/policy_randomness_max": 0.9627554400326455, "train/policy_randomness_mean": 0.17127095550706942, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25097483008691707, "train/post_ent_mag": 55.28221574548173, "train/post_ent_max": 55.28221574548173, "train/post_ent_mean": 39.612169709924146, "train/post_ent_min": 19.60229447769792, "train/post_ent_std": 5.7563656062296, "train/prior_ent_mag": 76.69626356151007, "train/prior_ent_max": 76.69626356151007, "train/prior_ent_mean": 45.25982942973098, "train/prior_ent_min": 27.119124164320016, "train/prior_ent_std": 8.00641076205528, "train/rep_loss_mean": 5.6872342449345, "train/rep_loss_std": 8.956026665151935, "train/reward_avg": 0.052382544601616794, "train/reward_loss_mean": 0.0648181532343773, "train/reward_loss_std": 0.2199137023050491, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.0365604668447417, "train/reward_neg_acc": 0.9924175224892081, "train/reward_neg_loss": 0.026312551984231766, "train/reward_pos_acc": 0.9942267684087361, "train/reward_pos_loss": 0.7076180022056788, "train/reward_pred": 0.052247782378164055, "train/reward_rate": 0.0565603595890411, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31019256157534464, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.6109934796343794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3844775302069529e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28911876678467, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03178119659423828, "timer/logger.write_frac": 0.00010583532538493578, "timer/logger.write_avg": 0.03178119659423828, "timer/logger.write_min": 0.03178119659423828, "timer/logger.write_max": 0.03178119659423828, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.30048060417175293, "timer/replay.add_frac": 0.0010006376701418775, "timer/replay.add_avg": 0.00020637404132675338, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.007303714752197266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.370503187179565, "timer/env.step_frac": 0.06450617746899912, "timer/env.step_avg": 0.013303917024161789, "timer/env.step_min": 0.002817869186401367, "timer/env.step_max": 1.5945374965667725, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.642564296722412, "timer/agent.policy_frac": 0.03544105873842139, "timer/agent.policy_avg": 0.007309453500496162, "timer/agent.policy_min": 0.00572967529296875, "timer/agent.policy_max": 0.024226665496826172, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05913734436035156, "timer/dataset_frac": 0.00019693468948596751, "timer/dataset_avg": 8.12326158796038e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.21860933303833, "timer/agent.train_frac": 0.8965313509815291, "timer/agent.train_avg": 0.36980578205087683, "timer/agent.train_min": 0.362835168838501, "timer/agent.train_max": 0.3826122283935547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19909238815307617, "timer/agent.report_frac": 0.0006630023391147199, "timer/agent.report_avg": 0.19909238815307617, "timer/agent.report_min": 0.19909238815307617, "timer/agent.report_max": 0.19909238815307617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.848570049083444}
+{"step": 1375860, "episode/length": 267.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05223880597014925}
+{"step": 1376086, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06637168141592921}
+{"step": 1376372, "episode/length": 285.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.055944055944055944}
+{"step": 1376645, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05128205128205128}
+{"step": 1376824, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0782122905027933}
+{"step": 1376949, "episode/length": 124.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.104}
+{"step": 1377110, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542583308807791, "train/action_min": 0.0, "train/action_std": 3.436026582979176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0340676355902871, "train/actor_opt_grad_steps": 687640.0, "train/actor_opt_loss": -12.711227328809974, "train/adv_mag": 0.3950836760540531, "train/adv_max": 0.30519795887274287, "train/adv_mean": 0.001368451028449197, "train/adv_min": -0.3638801227693688, "train/adv_std": 0.038602238087213206, "train/cont_avg": 0.9954382491438356, "train/cont_loss_mean": 8.740757470436682e-05, "train/cont_loss_std": 0.0027026443387048607, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.007149834886320734, "train/cont_pos_acc": 0.9999731607633094, "train/cont_pos_loss": 5.68425843838456e-05, "train/cont_pred": 0.9954277783224027, "train/cont_rate": 0.9954382491438356, "train/dyn_loss_mean": 5.775580458445091, "train/dyn_loss_std": 8.951704038332586, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8245667210996968, "train/extr_critic_critic_opt_grad_steps": 687640.0, "train/extr_critic_critic_opt_loss": 14953.50968535959, "train/extr_critic_mag": 12.8031807860283, "train/extr_critic_max": 12.8031807860283, "train/extr_critic_mean": 3.685749485068125, "train/extr_critic_min": -0.3770970873636742, "train/extr_critic_std": 3.097362704472999, "train/extr_return_normed_mag": 1.3827690065723577, "train/extr_return_normed_max": 1.3827690065723577, "train/extr_return_normed_mean": 0.38723910426440306, "train/extr_return_normed_min": -0.06313926749543784, "train/extr_return_normed_std": 0.3177162576211642, "train/extr_return_rate": 0.8246112016782369, "train/extr_return_raw_mag": 13.466058678822975, "train/extr_return_raw_max": 13.466058678822975, "train/extr_return_raw_mean": 3.6991679113205165, "train/extr_return_raw_min": -0.7199246809907156, "train/extr_return_raw_std": 3.117323930949381, "train/extr_reward_mag": 1.0846587174559292, "train/extr_reward_max": 1.0846587174559292, "train/extr_reward_mean": 0.06645265573712245, "train/extr_reward_min": -0.6114295329133125, "train/extr_reward_std": 0.2470936322048919, "train/image_loss_mean": 3.6346827141226155, "train/image_loss_std": 8.614553046553102, "train/model_loss_mean": 7.165829573592094, "train/model_loss_std": 12.749972095228221, "train/model_opt_grad_norm": 18.24765895164176, "train/model_opt_grad_steps": 687073.0, "train/model_opt_loss": 18930.343602846748, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.7400393322722554, "train/policy_entropy_max": 2.7400393322722554, "train/policy_entropy_mean": 0.4986434721783416, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7158370842672375, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4988037743797041, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.1066418763709396, "train/policy_randomness_mag": 0.9671136402103999, "train/policy_randomness_max": 0.9671136402103999, "train/policy_randomness_mean": 0.1759992635821643, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25265907628895484, "train/post_ent_mag": 55.4240633298273, "train/post_ent_max": 55.4240633298273, "train/post_ent_mean": 39.67295340969138, "train/post_ent_min": 19.227542877197266, "train/post_ent_std": 5.780683491327991, "train/prior_ent_mag": 76.75334292895174, "train/prior_ent_max": 76.75334292895174, "train/prior_ent_mean": 45.40312435202403, "train/prior_ent_min": 27.325410346462302, "train/prior_ent_std": 8.053237248773444, "train/rep_loss_mean": 5.775580458445091, "train/rep_loss_std": 8.951704038332586, "train/reward_avg": 0.05412296642077296, "train/reward_loss_mean": 0.06571109674564779, "train/reward_loss_std": 0.22754171388606503, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0254468754546282, "train/reward_neg_acc": 0.9926773277047563, "train/reward_neg_loss": 0.025239145868036845, "train/reward_pos_acc": 0.9908930447003613, "train/reward_pos_loss": 0.7203008279408494, "train/reward_pred": 0.0536685448701251, "train/reward_rate": 0.058259310787671235, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5972532480955124, "replay/size": 1000000.0, "replay/inserts": 1463.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7244143587061583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3890083772213123e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0106956958771, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026926755905151367, "timer/logger.write_frac": 8.975265312689787e-05, "timer/logger.write_avg": 0.026926755905151367, "timer/logger.write_min": 0.026926755905151367, "timer/logger.write_max": 0.026926755905151367, "timer/replay.add_count": 1463.0, "timer/replay.add_total": 0.2853553295135498, "timer/replay.add_frac": 0.00095115052098948, "timer/replay.add_avg": 0.0001950480721213601, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0019044876098632812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1463.0, "timer/env.step_total": 18.04976987838745, "timer/env.step_frac": 0.06016375461721747, "timer/env.step_avg": 0.012337505043327035, "timer/env.step_min": 0.002935171127319336, "timer/env.step_max": 1.6754000186920166, "timer/agent.policy_count": 1463.0, "timer/agent.policy_total": 10.554404973983765, "timer/agent.policy_frac": 0.03518009566126548, "timer/agent.policy_avg": 0.00721422076143798, "timer/agent.policy_min": 0.005695819854736328, "timer/agent.policy_max": 0.015595436096191406, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059694766998291016, "timer/dataset_frac": 0.0001989754627241824, "timer/dataset_avg": 8.166178795935844e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.36697721481323, "timer/agent.train_frac": 0.9011911278286096, "timer/agent.train_avg": 0.36985906595733686, "timer/agent.train_min": 0.36385393142700195, "timer/agent.train_max": 0.38648080825805664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19995450973510742, "timer/agent.report_frac": 0.0006664912704905785, "timer/agent.report_avg": 0.19995450973510742, "timer/agent.report_min": 0.19995450973510742, "timer/agent.report_max": 0.19995450973510742, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.876413225495253}
+{"step": 1377113, "episode/length": 163.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.08536585365853659}
+{"step": 1377409, "episode/length": 295.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04054054054054054}
+{"step": 1377653, "episode/length": 243.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05737704918032787}
+{"step": 1377890, "episode/length": 236.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06751054852320675}
+{"step": 1378085, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07692307692307693}
+{"step": 1378329, "episode/length": 243.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.036885245901639344}
+{"step": 1378549, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4797842005888621, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480194939507379, "train/action_min": 0.0, "train/action_std": 3.354247553480996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034041909837267466, "train/actor_opt_grad_steps": 688365.0, "train/actor_opt_loss": -10.608750157058239, "train/adv_mag": 0.37998710614111686, "train/adv_max": 0.29092610213491654, "train/adv_mean": 0.0014298401174528408, "train/adv_min": -0.3584080361243751, "train/adv_std": 0.039025717311435275, "train/cont_avg": 0.9953070746527778, "train/cont_loss_mean": 1.1276175025029841e-05, "train/cont_loss_std": 0.0002420549678008557, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027032700127656756, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0095822247140834e-05, "train/cont_pred": 0.9952984228730202, "train/cont_rate": 0.9953070746527778, "train/dyn_loss_mean": 5.990218083063762, "train/dyn_loss_std": 9.111382497681511, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8092259408699142, "train/extr_critic_critic_opt_grad_steps": 688365.0, "train/extr_critic_critic_opt_loss": 14942.321343315973, "train/extr_critic_mag": 12.561253971523708, "train/extr_critic_max": 12.561253971523708, "train/extr_critic_mean": 3.5956581864092083, "train/extr_critic_min": -0.4185065229733785, "train/extr_critic_std": 3.052273372809092, "train/extr_return_normed_mag": 1.3793155286047194, "train/extr_return_normed_max": 1.3793155286047194, "train/extr_return_normed_mean": 0.3827704360915555, "train/extr_return_normed_min": -0.06354888197448519, "train/extr_return_normed_std": 0.31696804405914414, "train/extr_return_rate": 0.8103443690472178, "train/extr_return_raw_mag": 13.281062854660881, "train/extr_return_raw_max": 13.281062854660881, "train/extr_return_raw_mean": 3.609539601537916, "train/extr_return_raw_min": -0.7227878119382594, "train/extr_return_raw_std": 3.0765118532710605, "train/extr_reward_mag": 1.0914418167538114, "train/extr_reward_max": 1.0914418167538114, "train/extr_reward_mean": 0.06497117504477501, "train/extr_reward_min": -0.5972097665071487, "train/extr_reward_std": 0.24447986649142373, "train/image_loss_mean": 3.701558623048994, "train/image_loss_std": 9.354083008236355, "train/model_loss_mean": 7.361914581722683, "train/model_loss_std": 13.495779964658949, "train/model_opt_grad_norm": 19.089066942532856, "train/model_opt_grad_steps": 687797.0, "train/model_opt_loss": 18404.786444769965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7396350966559515, "train/policy_entropy_max": 2.7396350966559515, "train/policy_entropy_mean": 0.492253119746844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7185342100759348, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49240945610735154, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.1067738102542028, "train/policy_randomness_mag": 0.9669709627827009, "train/policy_randomness_max": 0.9669709627827009, "train/policy_randomness_mean": 0.17374375172787243, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25361104495823383, "train/post_ent_mag": 55.68282990985446, "train/post_ent_max": 55.68282990985446, "train/post_ent_mean": 39.80253521601359, "train/post_ent_min": 18.979174931844074, "train/post_ent_std": 5.824280096424951, "train/prior_ent_mag": 76.84171136220296, "train/prior_ent_max": 76.84171136220296, "train/prior_ent_mean": 45.74464363522, "train/prior_ent_min": 27.25818353229099, "train/prior_ent_std": 8.060536404450735, "train/rep_loss_mean": 5.990218083063762, "train/rep_loss_std": 9.111382497681511, "train/reward_avg": 0.051722547660271324, "train/reward_loss_mean": 0.06621387844077414, "train/reward_loss_std": 0.2328440532502201, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332964493168726, "train/reward_neg_acc": 0.9926052863399187, "train/reward_neg_loss": 0.0267608165094215, "train/reward_pos_acc": 0.9872277329365412, "train/reward_pos_loss": 0.7327934114469422, "train/reward_pred": 0.0511132822268539, "train/reward_rate": 0.05605740017361111, "replay/size": 1000000.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.835407705088305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3399662242995369e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18226528167725, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027393341064453125, "timer/logger.write_frac": 9.125569439869632e-05, "timer/logger.write_avg": 0.027393341064453125, "timer/logger.write_min": 0.027393341064453125, "timer/logger.write_max": 0.027393341064453125, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.28420424461364746, "timer/replay.add_frac": 0.0009467722696641097, "timer/replay.add_avg": 0.00019750121237918517, "timer/replay.add_min": 8.726119995117188e-05, "timer/replay.add_max": 0.000946044921875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.586257457733154, "timer/env.step_frac": 0.06857919283944358, "timer/env.step_avg": 0.014305946808709627, "timer/env.step_min": 0.0031354427337646484, "timer/env.step_max": 2.775848865509033, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 11.564515113830566, "timer/agent.policy_frac": 0.03852497782631814, "timer/agent.policy_avg": 0.00803649417222416, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 1.1262288093566895, "timer/dataset_count": 720.0, "timer/dataset_total": 0.060326576232910156, "timer/dataset_frac": 0.0002009664900633036, "timer/dataset_avg": 8.378691143459745e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00019860267639160156, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.98312067985535, "timer/agent.train_frac": 0.8894033777422882, "timer/agent.train_avg": 0.3708098898331324, "timer/agent.train_min": 0.36368227005004883, "timer/agent.train_max": 0.8784165382385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20041251182556152, "timer/agent.report_frac": 0.0006676360831560239, "timer/agent.report_avg": 0.20041251182556152, "timer/agent.report_min": 0.20041251182556152, "timer/agent.report_max": 0.20041251182556152, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006530284881591797, "timer/checkpoint.save_frac": 2.1754399366211983e-06, "timer/checkpoint.save_avg": 0.0006530284881591797, "timer/checkpoint.save_min": 0.0006530284881591797, "timer/checkpoint.save_max": 0.0006530284881591797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.142460584640503, "timer/agent.save_frac": 0.0038058896769550005, "timer/agent.save_avg": 1.142460584640503, "timer/agent.save_min": 1.142460584640503, "timer/agent.save_max": 1.142460584640503, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.2008115898442604e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "fps": 4.793686007826051}
+{"step": 1378612, "episode/length": 282.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04946996466431095}
+{"step": 1378968, "episode/length": 355.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.042134831460674156}
+{"step": 1379151, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07650273224043716}
+{"step": 1379350, "episode/length": 198.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.08040201005025126}
+{"step": 1379840, "episode/length": 489.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 19.10000006109476, "episode/reward_rate": 0.030612244897959183}
+{"step": 1380003, "episode/length": 162.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.0736196319018405}
+{"step": 1380021, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4496443464949325, "train/action_min": 0.0, "train/action_std": 3.388500152407466, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033942376691344624, "train/actor_opt_grad_steps": 689095.0, "train/actor_opt_loss": -12.21141086075757, "train/adv_mag": 0.39274064109132095, "train/adv_max": 0.32739793871705597, "train/adv_mean": 0.0013489865231275798, "train/adv_min": -0.347654285865861, "train/adv_std": 0.03875541357273186, "train/cont_avg": 0.995433910472973, "train/cont_loss_mean": 5.1566598012039174e-05, "train/cont_loss_std": 0.001538765152098357, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.005576859764789826, "train/cont_pos_acc": 0.9999999782523593, "train/cont_pos_loss": 1.1278863781485228e-05, "train/cont_pred": 0.9954366128186922, "train/cont_rate": 0.995433910472973, "train/dyn_loss_mean": 5.683585160487407, "train/dyn_loss_std": 8.947536223643535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8325285863231968, "train/extr_critic_critic_opt_grad_steps": 689095.0, "train/extr_critic_critic_opt_loss": 14862.849714949325, "train/extr_critic_mag": 12.715655017543483, "train/extr_critic_max": 12.715655017543483, "train/extr_critic_mean": 3.5981777181496493, "train/extr_critic_min": -0.40528527143839244, "train/extr_critic_std": 3.013754841443655, "train/extr_return_normed_mag": 1.3813038919423077, "train/extr_return_normed_max": 1.3813038919423077, "train/extr_return_normed_mean": 0.3791130579806663, "train/extr_return_normed_min": -0.06481320043472019, "train/extr_return_normed_std": 0.31026160274003, "train/extr_return_rate": 0.8162188956866393, "train/extr_return_raw_mag": 13.435442254349992, "train/extr_return_raw_max": 13.435442254349992, "train/extr_return_raw_mean": 3.611408451118985, "train/extr_return_raw_min": -0.7410308106525524, "train/extr_return_raw_std": 3.042040728233956, "train/extr_reward_mag": 1.0898551071012341, "train/extr_reward_max": 1.0898551071012341, "train/extr_reward_mean": 0.06189225045208995, "train/extr_reward_min": -0.6484651243364489, "train/extr_reward_std": 0.23958535995837804, "train/image_loss_mean": 3.5557663440704346, "train/image_loss_std": 8.929615768226418, "train/model_loss_mean": 7.030846879288957, "train/model_loss_std": 12.994502660390493, "train/model_opt_grad_norm": 19.225007095852412, "train/model_opt_grad_steps": 688526.6621621621, "train/model_opt_loss": 22762.72507126267, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3209.4594594594596, "train/policy_entropy_mag": 2.7394456734528414, "train/policy_entropy_max": 2.7394456734528414, "train/policy_entropy_mean": 0.4965706407218366, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7221681298436345, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.495147121919168, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.1033693640618711, "train/policy_randomness_mag": 0.96690410858876, "train/policy_randomness_max": 0.96690410858876, "train/policy_randomness_mean": 0.175267646340905, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.254893655309806, "train/post_ent_mag": 55.099188830401445, "train/post_ent_max": 55.099188830401445, "train/post_ent_mean": 39.77694552653545, "train/post_ent_min": 19.782794050268226, "train/post_ent_std": 5.780011860099998, "train/prior_ent_mag": 76.62189122792837, "train/prior_ent_max": 76.62189122792837, "train/prior_ent_mean": 45.41448727169552, "train/prior_ent_min": 27.45973821588465, "train/prior_ent_std": 7.988157691182317, "train/rep_loss_mean": 5.683585160487407, "train/rep_loss_std": 8.947536223643535, "train/reward_avg": 0.050502797387338975, "train/reward_loss_mean": 0.06487784403804187, "train/reward_loss_std": 0.22402743149448084, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0323497959085413, "train/reward_neg_acc": 0.9918163974542875, "train/reward_neg_loss": 0.0266391757649143, "train/reward_pos_acc": 0.9900656801623267, "train/reward_pos_loss": 0.7212560273505546, "train/reward_pred": 0.050038106538153986, "train/reward_rate": 0.054872255067567564, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.6280044714609782, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.7186495635820473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4834753845048987e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.193514585495, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029607772827148438, "timer/logger.write_frac": 9.862895561894677e-05, "timer/logger.write_avg": 0.029607772827148438, "timer/logger.write_min": 0.029607772827148438, "timer/logger.write_max": 0.029607772827148438, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2962222099304199, "timer/replay.add_frac": 0.0009867708512605324, "timer/replay.add_avg": 0.00020123791435490483, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.004333972930908203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.809725761413574, "timer/env.step_frac": 0.0559962988694953, "timer/env.step_avg": 0.011419650653134222, "timer/env.step_min": 0.0027823448181152344, "timer/env.step_max": 1.5341877937316895, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.828187704086304, "timer/agent.policy_frac": 0.03607069166380155, "timer/agent.policy_avg": 0.007356105777232543, "timer/agent.policy_min": 0.005756855010986328, "timer/agent.policy_max": 0.016777753829956055, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06398653984069824, "timer/dataset_frac": 0.00021315097339477966, "timer/dataset_avg": 8.693823347920957e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.4986026287079, "timer/agent.train_frac": 0.9044119524153983, "timer/agent.train_avg": 0.3688839709629183, "timer/agent.train_min": 0.3616793155670166, "timer/agent.train_max": 0.3827512264251709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19893741607666016, "timer/agent.report_frac": 0.0006626972483111485, "timer/agent.report_avg": 0.19893741607666016, "timer/agent.report_min": 0.19893741607666016, "timer/agent.report_max": 0.19893741607666016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.903411714548888}
+{"step": 1380196, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07253886010362694}
+{"step": 1380497, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.04983388704318937}
+{"step": 1380560, "episode/length": 62.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.15873015873015872}
+{"step": 1380758, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07575757575757576}
+{"step": 1380975, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
+{"step": 1381177, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07425742574257425}
+{"step": 1381385, "episode/length": 207.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0673076923076923}
+{"step": 1381481, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446155286815069, "train/action_min": 0.0, "train/action_std": 3.320490102245383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03408933290573832, "train/actor_opt_grad_steps": 689830.0, "train/actor_opt_loss": -12.741222822502868, "train/adv_mag": 0.37800553134859427, "train/adv_max": 0.3100112368390985, "train/adv_mean": 0.001388856675176824, "train/adv_min": -0.34696143967648074, "train/adv_std": 0.03912299284583902, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 0.00010739509095334479, "train/cont_loss_std": 0.0033446721207190124, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.022767988191714415, "train/cont_pos_acc": 0.9999864917911895, "train/cont_pos_loss": 1.879016048918271e-05, "train/cont_pred": 0.9950508377323412, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.672371746742562, "train/dyn_loss_std": 9.006339765574834, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.823932410919503, "train/extr_critic_critic_opt_grad_steps": 689830.0, "train/extr_critic_critic_opt_loss": 14747.311068600171, "train/extr_critic_mag": 12.731328258775685, "train/extr_critic_max": 12.731328258775685, "train/extr_critic_mean": 3.686340093612671, "train/extr_critic_min": -0.3966221989017643, "train/extr_critic_std": 3.079435546104222, "train/extr_return_normed_mag": 1.383595064894794, "train/extr_return_normed_max": 1.383595064894794, "train/extr_return_normed_mean": 0.39109591241568736, "train/extr_return_normed_min": -0.059208116481361324, "train/extr_return_normed_std": 0.3172012675706654, "train/extr_return_rate": 0.8200690713647294, "train/extr_return_raw_mag": 13.410503544219553, "train/extr_return_raw_max": 13.410503544219553, "train/extr_return_raw_mean": 3.6999339632792014, "train/extr_return_raw_min": -0.7060077141409051, "train/extr_return_raw_std": 3.1037003520416886, "train/extr_reward_mag": 1.0948929035500303, "train/extr_reward_max": 1.0948929035500303, "train/extr_reward_mean": 0.06527977610287601, "train/extr_reward_min": -0.5923841113913549, "train/extr_reward_std": 0.2446450160382545, "train/image_loss_mean": 3.4992114289166176, "train/image_loss_std": 9.236794138607914, "train/model_loss_mean": 6.971149973673363, "train/model_loss_std": 13.348186688880398, "train/model_opt_grad_norm": 18.91613663712593, "train/model_opt_grad_steps": 689261.0, "train/model_opt_loss": 17427.874946489726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7403581175085616, "train/policy_entropy_max": 2.7403581175085616, "train/policy_entropy_mean": 0.47631120681762695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6960297324886061, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4758340014170294, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0932481688995883, "train/policy_randomness_mag": 0.9672261566331942, "train/policy_randomness_max": 0.9672261566331942, "train/policy_randomness_mean": 0.16811695368322607, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2456679491147603, "train/post_ent_mag": 55.21964776026059, "train/post_ent_max": 55.21964776026059, "train/post_ent_mean": 39.74702845534233, "train/post_ent_min": 19.25837410966011, "train/post_ent_std": 5.78368352210685, "train/prior_ent_mag": 76.80826955298855, "train/prior_ent_max": 76.80826955298855, "train/prior_ent_mean": 45.37548425752823, "train/prior_ent_min": 27.075054665134378, "train/prior_ent_std": 8.095314417799859, "train/rep_loss_mean": 5.672371746742562, "train/rep_loss_std": 9.006339765574834, "train/reward_avg": 0.055083475649765096, "train/reward_loss_mean": 0.06840809883728419, "train/reward_loss_std": 0.23427188845529948, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.041009638407459, "train/reward_neg_acc": 0.9915349148724177, "train/reward_neg_loss": 0.02763829070258222, "train/reward_pos_acc": 0.9892149249168292, "train/reward_pos_loss": 0.7189509043954823, "train/reward_pred": 0.05492161724665393, "train/reward_rate": 0.059222495719178085, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 16.571428571428573, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.39307444436209543, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7728923640839043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5383509740437548e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11044120788574, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022549867630004883, "timer/logger.write_frac": 7.513856412074862e-05, "timer/logger.write_avg": 0.022549867630004883, "timer/logger.write_min": 0.022549867630004883, "timer/logger.write_max": 0.022549867630004883, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2957489490509033, "timer/replay.add_frac": 0.0009854670429345002, "timer/replay.add_avg": 0.00020256777332253653, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0007722377777099609, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.638245582580566, "timer/env.step_frac": 0.06210462224361565, "timer/env.step_avg": 0.012765921631904497, "timer/env.step_min": 0.0025081634521484375, "timer/env.step_max": 1.5041606426239014, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.918369054794312, "timer/agent.policy_frac": 0.036381170248026076, "timer/agent.policy_avg": 0.0074783349690372, "timer/agent.policy_min": 0.0057451725006103516, "timer/agent.policy_max": 0.01591634750366211, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06514191627502441, "timer/dataset_frac": 0.00021705981309027756, "timer/dataset_avg": 8.923550174660879e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00024580955505371094, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.4968330860138, "timer/agent.train_frac": 0.8979921924786816, "timer/agent.train_avg": 0.36917374395344354, "timer/agent.train_min": 0.3621244430541992, "timer/agent.train_max": 0.38461732864379883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20034027099609375, "timer/agent.report_frac": 0.0006675551513295019, "timer/agent.report_avg": 0.20034027099609375, "timer/agent.report_min": 0.20034027099609375, "timer/agent.report_max": 0.20034027099609375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8647722531877}
+{"step": 1381569, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.04891304347826087}
+{"step": 1381673, "episode/length": 103.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10576923076923077}
+{"step": 1381861, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06382978723404255}
+{"step": 1382023, "episode/length": 161.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.08641975308641975}
+{"step": 1382306, "episode/length": 282.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05653710247349823}
+{"step": 1382495, "episode/length": 188.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.0582010582010582}
+{"step": 1382707, "episode/length": 211.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07075471698113207}
+{"step": 1382927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.438972473144531, "train/action_min": 0.0, "train/action_std": 3.322464085287518, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034973934629104204, "train/actor_opt_grad_steps": 690555.0, "train/actor_opt_loss": -11.846413536204231, "train/adv_mag": 0.3933125146561199, "train/adv_max": 0.31082504408227074, "train/adv_mean": 0.0015203807593024976, "train/adv_min": -0.3565352052036259, "train/adv_std": 0.0390160636872881, "train/cont_avg": 0.9954698350694444, "train/cont_loss_mean": 3.884540619342797e-05, "train/cont_loss_std": 0.0012142406011044216, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.009084517995315325, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 3.2659820467826094e-06, "train/cont_pred": 0.9954798536168205, "train/cont_rate": 0.9954698350694444, "train/dyn_loss_mean": 5.73952552345064, "train/dyn_loss_std": 8.951158218913609, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8370272591710091, "train/extr_critic_critic_opt_grad_steps": 690555.0, "train/extr_critic_critic_opt_loss": 14992.45501030816, "train/extr_critic_mag": 12.707031899028355, "train/extr_critic_max": 12.707031899028355, "train/extr_critic_mean": 3.546090583006541, "train/extr_critic_min": -0.39183391961786485, "train/extr_critic_std": 3.0382185412777796, "train/extr_return_normed_mag": 1.3921022017796834, "train/extr_return_normed_max": 1.3921022017796834, "train/extr_return_normed_mean": 0.3779040094878938, "train/extr_return_normed_min": -0.060181527890058026, "train/extr_return_normed_std": 0.3152488989548551, "train/extr_return_rate": 0.8160138602058092, "train/extr_return_raw_mag": 13.408127307891846, "train/extr_return_raw_max": 13.408127307891846, "train/extr_return_raw_mean": 3.5608590642611184, "train/extr_return_raw_min": -0.6932047274377611, "train/extr_return_raw_std": 3.0611471202638416, "train/extr_reward_mag": 1.0960460040304396, "train/extr_reward_max": 1.0960460040304396, "train/extr_reward_mean": 0.0650324535349177, "train/extr_reward_min": -0.5967508835924996, "train/extr_reward_std": 0.24477938128014406, "train/image_loss_mean": 3.6087705857223935, "train/image_loss_std": 9.060498038927713, "train/model_loss_mean": 7.11840679248174, "train/model_loss_std": 13.11887968911065, "train/model_opt_grad_norm": 18.833516942130196, "train/model_opt_grad_steps": 689985.0277777778, "train/model_opt_loss": 17796.017049153645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7359225153923035, "train/policy_entropy_max": 2.7359225153923035, "train/policy_entropy_mean": 0.4658200273083316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6839889101684093, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4653967436816957, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0842172238561842, "train/policy_randomness_mag": 0.9656605861253209, "train/policy_randomness_max": 0.9656605861253209, "train/policy_randomness_mean": 0.1644140277057886, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24141806902156937, "train/post_ent_mag": 54.763305293189156, "train/post_ent_max": 54.763305293189156, "train/post_ent_mean": 39.83104001151191, "train/post_ent_min": 19.854492770300972, "train/post_ent_std": 5.745795064502293, "train/prior_ent_mag": 76.76644897460938, "train/prior_ent_max": 76.76644897460938, "train/prior_ent_mean": 45.543284522162544, "train/prior_ent_min": 27.39012010892232, "train/prior_ent_std": 8.010891517003378, "train/rep_loss_mean": 5.73952552345064, "train/rep_loss_std": 8.951158218913609, "train/reward_avg": 0.053157551783240505, "train/reward_loss_mean": 0.06588205157054795, "train/reward_loss_std": 0.22509267326030466, "train/reward_max_data": 1.0430555658207998, "train/reward_max_pred": 1.0440480179256864, "train/reward_neg_acc": 0.9916646364662383, "train/reward_neg_loss": 0.026543755575807557, "train/reward_pos_acc": 0.9917686945862241, "train/reward_pos_loss": 0.7131539558370908, "train/reward_pred": 0.052952161317484245, "train/reward_rate": 0.057305230034722224, "stats/sum_log_reward": 11.385714394705635, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.3977459967136383, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.654432494610672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5419919461135547e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0750858783722, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023533344268798828, "timer/logger.write_frac": 7.842485223294236e-05, "timer/logger.write_avg": 0.023533344268798828, "timer/logger.write_min": 0.023533344268798828, "timer/logger.write_max": 0.023533344268798828, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28847312927246094, "timer/replay.add_frac": 0.0009613364882594291, "timer/replay.add_avg": 0.00019949732314831323, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0009891986846923828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.23040223121643, "timer/env.step_frac": 0.06741780035486289, "timer/env.step_avg": 0.013990596287148292, "timer/env.step_min": 0.0027925968170166016, "timer/env.step_max": 3.4090898036956787, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.935337781906128, "timer/agent.policy_frac": 0.03977450426105623, "timer/agent.policy_avg": 0.008254037193572702, "timer/agent.policy_min": 0.0058193206787109375, "timer/agent.policy_max": 1.1933326721191406, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06430935859680176, "timer/dataset_frac": 0.00021431088958470855, "timer/dataset_avg": 8.894793720166218e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 266.86074447631836, "timer/agent.train_frac": 0.8893132320371427, "timer/agent.train_avg": 0.3691019978925565, "timer/agent.train_min": 0.36121416091918945, "timer/agent.train_max": 0.40992164611816406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20290780067443848, "timer/agent.report_frac": 0.0006761900944908235, "timer/agent.report_avg": 0.20290780067443848, "timer/agent.report_min": 0.20290780067443848, "timer/agent.report_max": 0.20290780067443848, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043964385986328125, "timer/checkpoint.save_frac": 1.4651128352637703e-06, "timer/checkpoint.save_avg": 0.00043964385986328125, "timer/checkpoint.save_min": 0.00043964385986328125, "timer/checkpoint.save_max": 0.00043964385986328125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1912000179290771, "timer/agent.save_frac": 0.003969673171773746, "timer/agent.save_avg": 1.1912000179290771, "timer/agent.save_min": 1.1912000179290771, "timer/agent.save_max": 1.1912000179290771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.369850158691406e-05, "timer/replay.save_frac": 3.1225018669124823e-07, "timer/replay.save_avg": 9.369850158691406e-05, "timer/replay.save_min": 9.369850158691406e-05, "timer/replay.save_max": 9.369850158691406e-05, "fps": 4.818692686386255}
+{"step": 1382949, "episode/length": 241.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04132231404958678}
+{"step": 1383269, "episode/length": 319.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.0375}
+{"step": 1383426, "episode/length": 156.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.09554140127388536}
+{"step": 1383656, "episode/length": 229.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06956521739130435}
+{"step": 1383854, "episode/length": 197.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.300000011920929, "episode/reward_rate": 0.050505050505050504}
+{"step": 1384043, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06878306878306878}
+{"step": 1384366, "episode/length": 322.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04024767801857585}
+{"step": 1384387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.563377066834332, "train/action_min": 0.0, "train/action_std": 3.417274148496863, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034616308490911574, "train/actor_opt_grad_steps": 691280.0, "train/actor_opt_loss": -11.584768310801623, "train/adv_mag": 0.361941933631897, "train/adv_max": 0.297396401632322, "train/adv_mean": 0.0018350328205150156, "train/adv_min": -0.3353818691756627, "train/adv_std": 0.039203877981803185, "train/cont_avg": 0.9952509631849316, "train/cont_loss_mean": 3.168827522072144e-05, "train/cont_loss_std": 0.0009814073231775512, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024055337760509237, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 2.0416952568079478e-05, "train/cont_pred": 0.9952419040954277, "train/cont_rate": 0.9952509631849316, "train/dyn_loss_mean": 5.8536872733129215, "train/dyn_loss_std": 8.984350452684376, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8477092671067747, "train/extr_critic_critic_opt_grad_steps": 691280.0, "train/extr_critic_critic_opt_loss": 15058.9599609375, "train/extr_critic_mag": 12.737038494789438, "train/extr_critic_max": 12.737038494789438, "train/extr_critic_mean": 3.500919893996356, "train/extr_critic_min": -0.4344489035541064, "train/extr_critic_std": 3.0808347643238223, "train/extr_return_normed_mag": 1.406554146988751, "train/extr_return_normed_max": 1.406554146988751, "train/extr_return_normed_mean": 0.3742433288326002, "train/extr_return_normed_min": -0.0644169609279257, "train/extr_return_normed_std": 0.31942636836065, "train/extr_return_rate": 0.8042674856643154, "train/extr_return_raw_mag": 13.576421816055088, "train/extr_return_raw_max": 13.576421816055088, "train/extr_return_raw_mean": 3.5188045567029143, "train/extr_return_raw_min": -0.7557410320190534, "train/extr_return_raw_std": 3.1128423932480485, "train/extr_reward_mag": 1.0978530073819095, "train/extr_reward_max": 1.0978530073819095, "train/extr_reward_mean": 0.06519758640086815, "train/extr_reward_min": -0.569120562239869, "train/extr_reward_std": 0.2458346226852234, "train/image_loss_mean": 3.834731487378682, "train/image_loss_std": 9.062314562601586, "train/model_loss_mean": 7.41378293625296, "train/model_loss_std": 13.152949672855742, "train/model_opt_grad_norm": 20.94568512537708, "train/model_opt_grad_steps": 690709.7397260274, "train/model_opt_loss": 24560.28772474315, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3321.917808219178, "train/policy_entropy_mag": 2.7316396301739836, "train/policy_entropy_max": 2.7316396301739836, "train/policy_entropy_mean": 0.5006619797994013, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7177417984564011, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5003987877336267, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.1064679100088877, "train/policy_randomness_mag": 0.9641489157937977, "train/policy_randomness_max": 0.9641489157937977, "train/policy_randomness_mean": 0.1767117073887015, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2533313570773765, "train/post_ent_mag": 55.01298826034755, "train/post_ent_max": 55.01298826034755, "train/post_ent_mean": 39.855621024353866, "train/post_ent_min": 19.754004818119416, "train/post_ent_std": 5.811246388579068, "train/prior_ent_mag": 76.79808556543638, "train/prior_ent_max": 76.79808556543638, "train/prior_ent_mean": 45.67004148927453, "train/prior_ent_min": 27.097173925948468, "train/prior_ent_std": 8.041109300639532, "train/rep_loss_mean": 5.8536872733129215, "train/rep_loss_std": 8.984350452684376, "train/reward_avg": 0.05180195759828776, "train/reward_loss_mean": 0.06680748836226659, "train/reward_loss_std": 0.232451078418183, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0386398524454195, "train/reward_neg_acc": 0.9915753366195992, "train/reward_neg_loss": 0.027508310042321682, "train/reward_pos_acc": 0.9852719960147387, "train/reward_pos_loss": 0.7333441058250323, "train/reward_pred": 0.05111881638940883, "train/reward_rate": 0.05594499143835616, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.44399450932230267, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7967342219940604e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4725613267454383e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00757813453674, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030071020126342773, "timer/logger.write_frac": 0.000100234201793588, "timer/logger.write_avg": 0.030071020126342773, "timer/logger.write_min": 0.030071020126342773, "timer/logger.write_max": 0.030071020126342773, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30964159965515137, "timer/replay.add_frac": 0.0010321125938901926, "timer/replay.add_avg": 0.00021208328743503517, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0009474754333496094, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.175692558288574, "timer/env.step_frac": 0.06058411147913666, "timer/env.step_avg": 0.012449104491978476, "timer/env.step_min": 0.0025043487548828125, "timer/env.step_max": 1.5645804405212402, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.044596672058105, "timer/agent.policy_frac": 0.036814392292134755, "timer/agent.policy_avg": 0.0075647922411356885, "timer/agent.policy_min": 0.0058422088623046875, "timer/agent.policy_max": 0.016838788986206055, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06783318519592285, "timer/dataset_frac": 0.00022610490580842407, "timer/dataset_avg": 9.292217150126417e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019121170043945312, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.6807961463928, "timer/agent.train_frac": 0.898913280202062, "timer/agent.train_avg": 0.3694257481457436, "timer/agent.train_min": 0.36091113090515137, "timer/agent.train_max": 0.38950657844543457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2030653953552246, "timer/agent.report_frac": 0.0006768675532061428, "timer/agent.report_avg": 0.2030653953552246, "timer/agent.report_min": 0.2030653953552246, "timer/agent.report_max": 0.2030653953552246, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.866486072089564}
+{"step": 1384413, "episode/length": 46.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.14893617021276595}
+{"step": 1384620, "episode/length": 206.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05314009661835749}
+{"step": 1384817, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.050761421319796954}
+{"step": 1385092, "episode/length": 274.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04363636363636364}
+{"step": 1385311, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.0593607305936073}
+{"step": 1385486, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
+{"step": 1385740, "episode/length": 253.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06299212598425197}
+{"step": 1385855, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.619947459599743, "train/action_min": 0.0, "train/action_std": 3.470038887572615, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03584847629886784, "train/actor_opt_grad_steps": 692010.0, "train/actor_opt_loss": -11.23384146821009, "train/adv_mag": 0.4090384938945509, "train/adv_max": 0.3345087133858302, "train/adv_mean": 0.001883420054856624, "train/adv_min": -0.3754128781083512, "train/adv_std": 0.03990587505371603, "train/cont_avg": 0.9954248715753424, "train/cont_loss_mean": 0.00015671153969822637, "train/cont_loss_std": 0.004897548611496274, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.019283054668515032, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.4978526032620398e-05, "train/cont_pred": 0.9954403793975098, "train/cont_rate": 0.9954248715753424, "train/dyn_loss_mean": 5.9270451036218095, "train/dyn_loss_std": 9.091343304882312, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8103876236366899, "train/extr_critic_critic_opt_grad_steps": 692010.0, "train/extr_critic_critic_opt_loss": 14989.657467358733, "train/extr_critic_mag": 12.77328245607141, "train/extr_critic_max": 12.77328245607141, "train/extr_critic_mean": 3.6616118607455737, "train/extr_critic_min": -0.39327586023774863, "train/extr_critic_std": 3.1021404658278375, "train/extr_return_normed_mag": 1.38394500784678, "train/extr_return_normed_max": 1.38394500784678, "train/extr_return_normed_mean": 0.38845097345032104, "train/extr_return_normed_min": -0.05992235656674594, "train/extr_return_normed_std": 0.31911839769311146, "train/extr_return_rate": 0.8090762724615124, "train/extr_return_raw_mag": 13.446810043021424, "train/extr_return_raw_max": 13.446810043021424, "train/extr_return_raw_mean": 3.6800890164832545, "train/extr_return_raw_min": -0.7188298073533463, "train/extr_return_raw_std": 3.1308383321108884, "train/extr_reward_mag": 1.0923868956631178, "train/extr_reward_max": 1.0923868956631178, "train/extr_reward_mean": 0.06564976703630734, "train/extr_reward_min": -0.5920114288591358, "train/extr_reward_std": 0.24609298861190065, "train/image_loss_mean": 3.510835983981825, "train/image_loss_std": 8.909091407305574, "train/model_loss_mean": 7.134798180567075, "train/model_loss_std": 13.126563059140558, "train/model_opt_grad_norm": 19.625203602934537, "train/model_opt_grad_steps": 691439.0, "train/model_opt_loss": 17836.99547838185, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7331733377012486, "train/policy_entropy_max": 2.7331733377012486, "train/policy_entropy_mean": 0.5169219817609003, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7377477876127583, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5178361265626672, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.1206944250080684, "train/policy_randomness_mag": 0.9646902435446438, "train/policy_randomness_max": 0.9646902435446438, "train/policy_randomness_mean": 0.18245077521017153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2603925933984861, "train/post_ent_mag": 55.133028840365476, "train/post_ent_max": 55.133028840365476, "train/post_ent_mean": 39.456461658216504, "train/post_ent_min": 19.269117159386205, "train/post_ent_std": 5.743594940394571, "train/prior_ent_mag": 76.75633595087757, "train/prior_ent_max": 76.75633595087757, "train/prior_ent_mean": 45.34365437128773, "train/prior_ent_min": 27.26854752841061, "train/prior_ent_std": 8.027312775180764, "train/rep_loss_mean": 5.9270451036218095, "train/rep_loss_std": 9.091343304882312, "train/reward_avg": 0.05340592836170164, "train/reward_loss_mean": 0.06757843897563137, "train/reward_loss_std": 0.23694224757690951, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0311698619633505, "train/reward_neg_acc": 0.9915743935598086, "train/reward_neg_loss": 0.027269662957485407, "train/reward_pos_acc": 0.9886026210980873, "train/reward_pos_loss": 0.7293668381155354, "train/reward_pred": 0.05295966154806418, "train/reward_rate": 0.05752354452054795, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3937831563608987, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.7297565865581626e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4699975216421184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0936782360077, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02221393585205078, "timer/logger.write_frac": 7.402333825433239e-05, "timer/logger.write_avg": 0.02221393585205078, "timer/logger.write_min": 0.02221393585205078, "timer/logger.write_max": 0.02221393585205078, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.29929375648498535, "timer/replay.add_frac": 0.0009973344265173315, "timer/replay.add_avg": 0.00020387858071184287, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0008993148803710938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.79256796836853, "timer/env.step_frac": 0.059290045938174094, "timer/env.step_avg": 0.012120277907607991, "timer/env.step_min": 0.00278472900390625, "timer/env.step_max": 1.5317888259887695, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.774829387664795, "timer/agent.policy_frac": 0.03590488627084962, "timer/agent.policy_avg": 0.007339802035194002, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.017955303192138672, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06581687927246094, "timer/dataset_frac": 0.00021932111219183853, "timer/dataset_avg": 8.966877285076422e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001747608184814453, "timer/agent.train_count": 734.0, "timer/agent.train_total": 270.46895837783813, "timer/agent.train_frac": 0.9012817596414967, "timer/agent.train_avg": 0.3684863193158558, "timer/agent.train_min": 0.36096811294555664, "timer/agent.train_max": 0.38452768325805664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19923686981201172, "timer/agent.report_frac": 0.0006639155845706371, "timer/agent.report_avg": 0.19923686981201172, "timer/agent.report_min": 0.19923686981201172, "timer/agent.report_max": 0.19923686981201172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8917042479726405}
+{"step": 1385966, "episode/length": 225.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.300000086426735, "episode/reward_rate": 0.07964601769911504}
+{"step": 1386176, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06666666666666667}
+{"step": 1386389, "episode/length": 212.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06572769953051644}
+{"step": 1386455, "episode/length": 65.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.12121212121212122}
+{"step": 1386490, "episode/length": 34.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.14285714285714285}
+{"step": 1386731, "episode/length": 240.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06224066390041494}
+{"step": 1386956, "episode/length": 224.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.05333333333333334}
+{"step": 1387144, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.0797872340425532}
+{"step": 1387289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463858710394965, "train/action_min": 0.0, "train/action_std": 3.3895089063379498, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454994218837884, "train/actor_opt_grad_steps": 692735.0, "train/actor_opt_loss": -11.241031884319252, "train/adv_mag": 0.37605187234779197, "train/adv_max": 0.3094738523165385, "train/adv_mean": 0.0018777849280316634, "train/adv_min": -0.3380595915433433, "train/adv_std": 0.03888529740894834, "train/cont_avg": 0.995361328125, "train/cont_loss_mean": 0.00011205002503612683, "train/cont_loss_std": 0.0035565724468660737, "train/cont_neg_acc": 0.9902777787711885, "train/cont_neg_loss": 0.01684308739630542, "train/cont_pos_acc": 0.9999863844778802, "train/cont_pos_loss": 3.414841418081238e-05, "train/cont_pred": 0.9953746894995371, "train/cont_rate": 0.995361328125, "train/dyn_loss_mean": 5.742445164256626, "train/dyn_loss_std": 9.045236349105835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8027849983837869, "train/extr_critic_critic_opt_grad_steps": 692735.0, "train/extr_critic_critic_opt_loss": 14988.515543619791, "train/extr_critic_mag": 12.730694572130838, "train/extr_critic_max": 12.730694572130838, "train/extr_critic_mean": 3.6195209324359894, "train/extr_critic_min": -0.3777594417333603, "train/extr_critic_std": 3.0680027869012623, "train/extr_return_normed_mag": 1.3780572265386581, "train/extr_return_normed_max": 1.3780572265386581, "train/extr_return_normed_mean": 0.38466809979743427, "train/extr_return_normed_min": -0.05783456933891608, "train/extr_return_normed_std": 0.31762989920874435, "train/extr_return_rate": 0.8153727642363973, "train/extr_return_raw_mag": 13.315739830334982, "train/extr_return_raw_max": 13.315739830334982, "train/extr_return_raw_mean": 3.637801832622952, "train/extr_return_raw_min": -0.672873857534594, "train/extr_return_raw_std": 3.0942606065008373, "train/extr_reward_mag": 1.0849069820510016, "train/extr_reward_max": 1.0849069820510016, "train/extr_reward_mean": 0.0643913317989144, "train/extr_reward_min": -0.5538547568851047, "train/extr_reward_std": 0.24337403807375166, "train/image_loss_mean": 3.5810445646444955, "train/image_loss_std": 9.007784386475882, "train/model_loss_mean": 7.0937018394470215, "train/model_loss_std": 13.130109402868483, "train/model_opt_grad_norm": 17.968133489290874, "train/model_opt_grad_steps": 692163.3333333334, "train/model_opt_loss": 21612.843180338543, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.721318870782852, "train/policy_entropy_max": 2.721318870782852, "train/policy_entropy_mean": 0.4900666086210145, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7080072520507706, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48896414207087624, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0983272948198848, "train/policy_randomness_mag": 0.9605061370465491, "train/policy_randomness_max": 0.9605061370465491, "train/policy_randomness_mean": 0.172972008275489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2498954871876372, "train/post_ent_mag": 55.346236652798126, "train/post_ent_max": 55.346236652798126, "train/post_ent_mean": 39.73078023062812, "train/post_ent_min": 19.14902436733246, "train/post_ent_std": 5.813638806343079, "train/prior_ent_mag": 76.77581479814317, "train/prior_ent_max": 76.77581479814317, "train/prior_ent_mean": 45.423918300204804, "train/prior_ent_min": 27.064563486311172, "train/prior_ent_std": 7.999712202284071, "train/rep_loss_mean": 5.742445164256626, "train/rep_loss_std": 9.045236349105835, "train/reward_avg": 0.05273437502587007, "train/reward_loss_mean": 0.06707816731391682, "train/reward_loss_std": 0.23662105637292066, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0293593174881406, "train/reward_neg_acc": 0.9920753091573715, "train/reward_neg_loss": 0.027190539740129478, "train/reward_pos_acc": 0.9891471159127023, "train/reward_pos_loss": 0.7279651305741734, "train/reward_pred": 0.05217804625216457, "train/reward_rate": 0.056952582465277776, "stats/sum_log_reward": 11.350000321865082, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 10.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.125, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3599087819457054, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.68019194450006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4722430390127866e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13157892227173, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03250741958618164, "timer/logger.write_frac": 0.00010831056066446254, "timer/logger.write_avg": 0.03250741958618164, "timer/logger.write_min": 0.03250741958618164, "timer/logger.write_max": 0.03250741958618164, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2910330295562744, "timer/replay.add_frac": 0.0009696847982519238, "timer/replay.add_avg": 0.0002029519034562583, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0013592243194580078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.648189783096313, "timer/env.step_frac": 0.072128997091315, "timer/env.step_avg": 0.01509636665487888, "timer/env.step_min": 0.0027916431427001953, "timer/env.step_max": 1.9493012428283691, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.74924111366272, "timer/agent.policy_frac": 0.0424788393125554, "timer/agent.policy_avg": 0.008890684179681115, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 1.4539411067962646, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06546187400817871, "timer/dataset_frac": 0.00021811058417525625, "timer/dataset_avg": 9.129968480917533e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 717.0, "timer/agent.train_total": 264.66774439811707, "timer/agent.train_frac": 0.8818390432239751, "timer/agent.train_avg": 0.3691321400252679, "timer/agent.train_min": 0.36113810539245605, "timer/agent.train_max": 0.8787994384765625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20225095748901367, "timer/agent.report_frac": 0.0006738742994498181, "timer/agent.report_avg": 0.20225095748901367, "timer/agent.report_min": 0.20225095748901367, "timer/agent.report_max": 0.20225095748901367, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006008148193359375, "timer/checkpoint.save_frac": 2.0018380654690686e-06, "timer/checkpoint.save_avg": 0.0006008148193359375, "timer/checkpoint.save_min": 0.0006008148193359375, "timer/checkpoint.save_max": 0.0006008148193359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4652235507965088, "timer/agent.save_frac": 0.004881937302492163, "timer/agent.save_avg": 1.4652235507965088, "timer/agent.save_min": 1.4652235507965088, "timer/agent.save_max": 1.4652235507965088, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00012946128845214844, "timer/replay.save_frac": 4.3134844029750165e-07, "timer/replay.save_avg": 0.00012946128845214844, "timer/replay.save_min": 0.00012946128845214844, "timer/replay.save_max": 0.00012946128845214844, "fps": 4.777799804575315}
+{"step": 1387439, "episode/length": 294.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05084745762711865}
+{"step": 1387751, "episode/length": 311.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000055134296, "episode/reward_rate": 0.05448717948717949}
+{"step": 1387928, "episode/length": 176.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0847457627118644}
+{"step": 1388099, "episode/length": 170.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07017543859649122}
+{"step": 1388316, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07373271889400922}
+{"step": 1388661, "episode/length": 344.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04057971014492753}
+{"step": 1388763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494421056798987, "train/action_min": 0.0, "train/action_std": 3.432673254528561, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03460383392568376, "train/actor_opt_grad_steps": 693465.0, "train/actor_opt_loss": -12.065097010115513, "train/adv_mag": 0.38547275517437907, "train/adv_max": 0.3081071098914018, "train/adv_mean": 0.0016844084074782095, "train/adv_min": -0.350773503248756, "train/adv_std": 0.0395313959971473, "train/cont_avg": 0.995090793918919, "train/cont_loss_mean": 0.00017015874614247496, "train/cont_loss_std": 0.005379752005179964, "train/cont_neg_acc": 0.9906531540123192, "train/cont_neg_loss": 0.026371303691977824, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 5.642181632942317e-06, "train/cont_pred": 0.9951340451433852, "train/cont_rate": 0.995090793918919, "train/dyn_loss_mean": 5.598870786460671, "train/dyn_loss_std": 8.972495955389899, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8325243004270502, "train/extr_critic_critic_opt_grad_steps": 693465.0, "train/extr_critic_critic_opt_loss": 14909.485457136825, "train/extr_critic_mag": 12.689173247363117, "train/extr_critic_max": 12.689173247363117, "train/extr_critic_mean": 3.7249173538104907, "train/extr_critic_min": -0.38982395706950007, "train/extr_critic_std": 3.0788826990771936, "train/extr_return_normed_mag": 1.3851440001178432, "train/extr_return_normed_max": 1.3851440001178432, "train/extr_return_normed_mean": 0.3942245309417312, "train/extr_return_normed_min": -0.060168216936290264, "train/extr_return_normed_std": 0.31758961423828796, "train/extr_return_rate": 0.8285350292115599, "train/extr_return_raw_mag": 13.420800917857402, "train/extr_return_raw_max": 13.420800917857402, "train/extr_return_raw_mean": 3.7413639861184196, "train/extr_return_raw_min": -0.6974184633912267, "train/extr_return_raw_std": 3.1025142911318184, "train/extr_reward_mag": 1.0946957130689878, "train/extr_reward_max": 1.0946957130689878, "train/extr_reward_mean": 0.06585528268604665, "train/extr_reward_min": -0.6056921465976818, "train/extr_reward_std": 0.24615650885813944, "train/image_loss_mean": 3.470328115128182, "train/image_loss_std": 8.89892653516821, "train/model_loss_mean": 6.896996472332929, "train/model_loss_std": 12.997819243250666, "train/model_opt_grad_norm": 17.584314681388236, "train/model_opt_grad_steps": 692893.0, "train/model_opt_loss": 22387.88942409206, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3243.2432432432433, "train/policy_entropy_mag": 2.7276056296116598, "train/policy_entropy_max": 2.7276056296116598, "train/policy_entropy_mean": 0.47870737314224243, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7065342435160199, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48012177928073985, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.0985867872431472, "train/policy_randomness_mag": 0.9627250875975635, "train/policy_randomness_max": 0.9627250875975635, "train/policy_randomness_mean": 0.16896269681888657, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24937558194270004, "train/post_ent_mag": 55.247418996450065, "train/post_ent_max": 55.247418996450065, "train/post_ent_mean": 39.585861670004356, "train/post_ent_min": 19.818490982055664, "train/post_ent_std": 5.7522847974622575, "train/prior_ent_mag": 76.789461496714, "train/prior_ent_max": 76.789461496714, "train/prior_ent_mean": 45.13363791800834, "train/prior_ent_min": 27.277190698159707, "train/prior_ent_std": 8.058348984331698, "train/rep_loss_mean": 5.598870786460671, "train/rep_loss_std": 8.972495955389899, "train/reward_avg": 0.0531104832786966, "train/reward_loss_mean": 0.06717581281790862, "train/reward_loss_std": 0.23590029494182482, "train/reward_max_data": 1.0445946052267745, "train/reward_max_pred": 1.0439660162539095, "train/reward_neg_acc": 0.9913860696393091, "train/reward_neg_loss": 0.027255332047069394, "train/reward_pos_acc": 0.9883508593649477, "train/reward_pos_loss": 0.7229978377754623, "train/reward_pred": 0.05263357211810511, "train/reward_rate": 0.057353251689189186, "stats/sum_log_reward": 13.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 20.666666666666668, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.573720263938109, "replay/size": 1000000.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.62156851159022e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4441995154889338e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2342846393585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02372431755065918, "timer/logger.write_frac": 7.901934843702755e-05, "timer/logger.write_avg": 0.02372431755065918, "timer/logger.write_min": 0.02372431755065918, "timer/logger.write_max": 0.02372431755065918, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.29300951957702637, "timer/replay.add_frac": 0.0009759362423548311, "timer/replay.add_avg": 0.00019878529143624584, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0010213851928710938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1474.0, "timer/env.step_total": 16.677571535110474, "timer/env.step_frac": 0.05554852456355401, "timer/env.step_avg": 0.011314499006180782, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.4909405708312988, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.888166427612305, "timer/agent.policy_frac": 0.0362655665414467, "timer/agent.policy_avg": 0.007386815758217303, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.017572402954101562, "timer/dataset_count": 737.0, "timer/dataset_total": 0.06679224967956543, "timer/dataset_frac": 0.00022246709685336667, "timer/dataset_avg": 9.062720444988526e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00018215179443359375, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.61688923835754, "timer/agent.train_frac": 0.9046831195998278, "timer/agent.train_avg": 0.3685439474061839, "timer/agent.train_min": 0.36020350456237793, "timer/agent.train_max": 0.3849503993988037, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19959616661071777, "timer/agent.report_frac": 0.0006648013795308977, "timer/agent.report_avg": 0.19959616661071777, "timer/agent.report_min": 0.19959616661071777, "timer/agent.report_max": 0.19959616661071777, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.909393454131469}
+{"step": 1388935, "episode/length": 273.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.05474452554744526}
+{"step": 1389098, "episode/length": 162.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.09202453987730061}
+{"step": 1389633, "episode/length": 534.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.018691588785046728}
+{"step": 1389938, "episode/length": 304.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04918032786885246}
+{"step": 1390081, "episode/length": 142.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.07692307692307693}
+{"step": 1390228, "episode/length": 146.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.09523809523809523}
+{"step": 1390239, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.485628695101352, "train/action_min": 0.0, "train/action_std": 3.399745425662479, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03441093970291518, "train/actor_opt_grad_steps": 694205.0, "train/actor_opt_loss": -10.691146524371328, "train/adv_mag": 0.37446075355684433, "train/adv_max": 0.32663381462161606, "train/adv_mean": 0.0020141794704761342, "train/adv_min": -0.31817305108179916, "train/adv_std": 0.03928927749999472, "train/cont_avg": 0.995288745777027, "train/cont_loss_mean": 5.441019097467474e-05, "train/cont_loss_std": 0.0016925286011398055, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.0057637552642953675, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 1.1689765873176603e-05, "train/cont_pred": 0.9952937557890609, "train/cont_rate": 0.995288745777027, "train/dyn_loss_mean": 5.632641682753691, "train/dyn_loss_std": 8.950174280115077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8421556506607983, "train/extr_critic_critic_opt_grad_steps": 694205.0, "train/extr_critic_critic_opt_loss": 15056.285829286318, "train/extr_critic_mag": 12.591142834843817, "train/extr_critic_max": 12.591142834843817, "train/extr_critic_mean": 3.620825619310946, "train/extr_critic_min": -0.37252981115031886, "train/extr_critic_std": 3.0577564448923678, "train/extr_return_normed_mag": 1.370506763458252, "train/extr_return_normed_max": 1.370506763458252, "train/extr_return_normed_mean": 0.38209215652298284, "train/extr_return_normed_min": -0.05837560560856316, "train/extr_return_normed_std": 0.3143205304403563, "train/extr_return_rate": 0.8189699875341879, "train/extr_return_raw_mag": 13.325717049676019, "train/extr_return_raw_max": 13.325717049676019, "train/extr_return_raw_mean": 3.640559196472168, "train/extr_return_raw_min": -0.6749112384544836, "train/extr_return_raw_std": 3.0801185031194946, "train/extr_reward_mag": 1.0900930939493954, "train/extr_reward_max": 1.0900930939493954, "train/extr_reward_mean": 0.06515430779875936, "train/extr_reward_min": -0.5715991065308854, "train/extr_reward_std": 0.24478993947441513, "train/image_loss_mean": 3.5735767209852063, "train/image_loss_std": 9.252560364233481, "train/model_loss_mean": 7.018689432659665, "train/model_loss_std": 13.330557874731115, "train/model_opt_grad_norm": 20.044875183620967, "train/model_opt_grad_steps": 693632.4459459459, "train/model_opt_loss": 25378.475533150337, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3614.864864864865, "train/policy_entropy_mag": 2.742895203667718, "train/policy_entropy_max": 2.742895203667718, "train/policy_entropy_mean": 0.48950090641910965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.715681628198237, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49000491201877594, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.104418326874037, "train/policy_randomness_mag": 0.9681216381691597, "train/policy_randomness_max": 0.9681216381691597, "train/policy_randomness_mean": 0.17277234208744927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25260420787978816, "train/post_ent_mag": 55.034361298019824, "train/post_ent_max": 55.034361298019824, "train/post_ent_mean": 39.60958527229928, "train/post_ent_min": 19.703651144697858, "train/post_ent_std": 5.8106018465918465, "train/prior_ent_mag": 76.66031832308383, "train/prior_ent_max": 76.66031832308383, "train/prior_ent_mean": 45.23680604470743, "train/prior_ent_min": 26.951473055659115, "train/prior_ent_std": 8.072878947129121, "train/rep_loss_mean": 5.632641682753691, "train/rep_loss_std": 8.950174280115077, "train/reward_avg": 0.051200907627070275, "train/reward_loss_mean": 0.06547330561521891, "train/reward_loss_std": 0.22983914593587051, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.0308387923885036, "train/reward_neg_acc": 0.9921241861742895, "train/reward_neg_loss": 0.02739842648844461, "train/reward_pos_acc": 0.9933830797672272, "train/reward_pos_loss": 0.716200296137784, "train/reward_pred": 0.05091974204657851, "train/reward_rate": 0.05538692989864865, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.574265199402968, "replay/size": 1000000.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.6248992775190813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4513690620256956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22892785072327, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029293060302734375, "timer/logger.write_frac": 9.756908007645142e-05, "timer/logger.write_avg": 0.029293060302734375, "timer/logger.write_min": 0.029293060302734375, "timer/logger.write_max": 0.029293060302734375, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.29636192321777344, "timer/replay.add_frac": 0.000987119813335001, "timer/replay.add_avg": 0.00020078721085215002, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.005587100982666016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.66956377029419, "timer/env.step_frac": 0.05552284348356484, "timer/env.step_avg": 0.011293742391798232, "timer/env.step_min": 0.0027511119842529297, "timer/env.step_max": 1.457263469696045, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.80432415008545, "timer/agent.policy_frac": 0.03598695244802481, "timer/agent.policy_avg": 0.007320002811711009, "timer/agent.policy_min": 0.0055713653564453125, "timer/agent.policy_max": 0.014438152313232422, "timer/dataset_count": 738.0, "timer/dataset_total": 0.06604743003845215, "timer/dataset_frac": 0.00021999022716189285, "timer/dataset_avg": 8.94951626537292e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00032711029052734375, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.6943106651306, "timer/agent.train_frac": 0.9049571359100335, "timer/agent.train_avg": 0.36814947244597646, "timer/agent.train_min": 0.36121463775634766, "timer/agent.train_max": 0.3815345764160156, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20532965660095215, "timer/agent.report_frac": 0.0006839103016183838, "timer/agent.report_avg": 0.20532965660095215, "timer/agent.report_min": 0.20532965660095215, "timer/agent.report_max": 0.20532965660095215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.916160796555066}
+{"step": 1390436, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
+{"step": 1390550, "episode/length": 113.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.09649122807017543}
+{"step": 1390638, "episode/length": 87.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.09090909090909091}
+{"step": 1390894, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05859375}
+{"step": 1391311, "episode/length": 416.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03597122302158273}
+{"step": 1391517, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05825242718446602}
+{"step": 1391687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474932352701823, "train/action_min": 0.0, "train/action_std": 3.329292631811566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035040762197847165, "train/actor_opt_grad_steps": 694935.0, "train/actor_opt_loss": -11.112905989504522, "train/adv_mag": 0.3644138171027104, "train/adv_max": 0.30815389814476174, "train/adv_mean": 0.0018842050097494696, "train/adv_min": -0.3183244996600681, "train/adv_std": 0.03950386313307616, "train/cont_avg": 0.9953477647569444, "train/cont_loss_mean": 1.212094032994789e-05, "train/cont_loss_std": 0.00029998761657326313, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00029445556420876825, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0969125913757378e-05, "train/cont_pred": 0.9953383290105395, "train/cont_rate": 0.9953477647569444, "train/dyn_loss_mean": 5.73573715156979, "train/dyn_loss_std": 9.01621060901218, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8463850534624524, "train/extr_critic_critic_opt_grad_steps": 694935.0, "train/extr_critic_critic_opt_loss": 14838.631320529514, "train/extr_critic_mag": 12.861783332294888, "train/extr_critic_max": 12.861783332294888, "train/extr_critic_mean": 3.875306953986486, "train/extr_critic_min": -0.3618226448694865, "train/extr_critic_std": 3.0840298566553326, "train/extr_return_normed_mag": 1.383114531636238, "train/extr_return_normed_max": 1.383114531636238, "train/extr_return_normed_mean": 0.4053128022286627, "train/extr_return_normed_min": -0.05782350292429328, "train/extr_return_normed_std": 0.31655424895385903, "train/extr_return_rate": 0.8309860080480576, "train/extr_return_raw_mag": 13.512745261192322, "train/extr_return_raw_max": 13.512745261192322, "train/extr_return_raw_mean": 3.893806901242998, "train/extr_return_raw_min": -0.6620906641085943, "train/extr_return_raw_std": 3.1140657564004264, "train/extr_reward_mag": 1.0923738380273182, "train/extr_reward_max": 1.0923738380273182, "train/extr_reward_mean": 0.06731517581890027, "train/extr_reward_min": -0.5851889269219505, "train/extr_reward_std": 0.2480351212951872, "train/image_loss_mean": 3.6399627957079144, "train/image_loss_std": 8.965530925326878, "train/model_loss_mean": 7.149098780420092, "train/model_loss_std": 13.10959882206387, "train/model_opt_grad_norm": 17.429548237058853, "train/model_opt_grad_steps": 694362.0, "train/model_opt_loss": 21154.42500813802, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.7407979468504586, "train/policy_entropy_max": 2.7407979468504586, "train/policy_entropy_mean": 0.4712205260164208, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6887216977775097, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4700852504207028, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.082493647105164, "train/policy_randomness_mag": 0.9673814020223088, "train/policy_randomness_max": 0.9673814020223088, "train/policy_randomness_mean": 0.16632016810278097, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24308853492968613, "train/post_ent_mag": 55.237823751237656, "train/post_ent_max": 55.237823751237656, "train/post_ent_mean": 39.71423710717095, "train/post_ent_min": 19.290560338232254, "train/post_ent_std": 5.789586020840539, "train/prior_ent_mag": 76.7765056822035, "train/prior_ent_max": 76.7765056822035, "train/prior_ent_mean": 45.39463324016995, "train/prior_ent_min": 27.054241948657566, "train/prior_ent_std": 8.070927143096924, "train/rep_loss_mean": 5.73573715156979, "train/rep_loss_std": 9.01621060901218, "train/reward_avg": 0.05470648852901326, "train/reward_loss_mean": 0.06768153162880076, "train/reward_loss_std": 0.23460008224679363, "train/reward_max_data": 1.0444444550408258, "train/reward_max_pred": 1.0417323013146718, "train/reward_neg_acc": 0.9917296899689568, "train/reward_neg_loss": 0.02636647247709334, "train/reward_pos_acc": 0.9878479474120669, "train/reward_pos_loss": 0.7305794283747673, "train/reward_pred": 0.054159373614109226, "train/reward_rate": 0.05881076388888889, "stats/sum_log_reward": 11.766666809717814, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42358599851528805, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.6681554594092607e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4373446037756146e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13341879844666, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027365922927856445, "timer/logger.write_frac": 9.117919303159611e-05, "timer/logger.write_avg": 0.027365922927856445, "timer/logger.write_min": 0.027365922927856445, "timer/logger.write_max": 0.027365922927856445, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2902371883392334, "timer/replay.add_frac": 0.0009670272290942082, "timer/replay.add_avg": 0.00020044004719560316, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0010499954223632812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1448.0, "timer/env.step_total": 17.434927940368652, "timer/env.step_frac": 0.05809059187799745, "timer/env.step_avg": 0.012040696091414815, "timer/env.step_min": 0.002432584762573242, "timer/env.step_max": 1.4619672298431396, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 14.66306734085083, "timer/agent.policy_frac": 0.0488551638119904, "timer/agent.policy_avg": 0.010126427721582065, "timer/agent.policy_min": 0.00570225715637207, "timer/agent.policy_max": 2.614649534225464, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06592178344726562, "timer/dataset_frac": 0.00021964159709763985, "timer/dataset_avg": 9.10521870818586e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 266.99228048324585, "timer/agent.train_frac": 0.8895786465636584, "timer/agent.train_avg": 0.36877386807078155, "timer/agent.train_min": 0.360490083694458, "timer/agent.train_max": 0.45320773124694824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19968390464782715, "timer/agent.report_frac": 0.0006653171294527653, "timer/agent.report_avg": 0.19968390464782715, "timer/agent.report_min": 0.19968390464782715, "timer/agent.report_max": 0.19968390464782715, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002646446228027344, "timer/checkpoint.save_frac": 8.817565996556197e-07, "timer/checkpoint.save_avg": 0.0002646446228027344, "timer/checkpoint.save_min": 0.0002646446228027344, "timer/checkpoint.save_max": 0.0002646446228027344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.229431390762329, "timer/agent.save_frac": 0.004096282898732942, "timer/agent.save_avg": 1.229431390762329, "timer/agent.save_min": 1.229431390762329, "timer/agent.save_max": 1.229431390762329, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.391069698165239e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.824419804816231}
+{"step": 1391862, "episode/length": 344.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 19.300000071525574, "episode/reward_rate": 0.0463768115942029}
+{"step": 1392053, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07853403141361257}
+{"step": 1392257, "episode/length": 203.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06862745098039216}
+{"step": 1392438, "episode/length": 180.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.06077348066298342}
+{"step": 1392763, "episode/length": 324.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.046153846153846156}
+{"step": 1392960, "episode/length": 196.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06598984771573604}
+{"step": 1393139, "episode/length": 178.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.0670391061452514}
+{"step": 1393151, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510173640839041, "train/action_min": 0.0, "train/action_std": 3.407628885687214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034755002324507664, "train/actor_opt_grad_steps": 695660.0, "train/actor_opt_loss": -13.194035431701844, "train/adv_mag": 0.4151978149805983, "train/adv_max": 0.34873254372649, "train/adv_mean": 0.001240600163614607, "train/adv_min": -0.36942574524716154, "train/adv_std": 0.03906451308563964, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 5.619405011383269e-05, "train/cont_loss_std": 0.0017572341226471894, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.006875083653181843, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 1.6387830347195618e-05, "train/cont_pred": 0.9952387009581475, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.823937396480613, "train/dyn_loss_std": 9.044160803703413, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8331495311162244, "train/extr_critic_critic_opt_grad_steps": 695660.0, "train/extr_critic_critic_opt_loss": 14824.950516374143, "train/extr_critic_mag": 12.830586668563216, "train/extr_critic_max": 12.830586668563216, "train/extr_critic_mean": 3.7422837002636635, "train/extr_critic_min": -0.4031125682674042, "train/extr_critic_std": 3.137027962567055, "train/extr_return_normed_mag": 1.3739079220654213, "train/extr_return_normed_max": 1.3739079220654213, "train/extr_return_normed_mean": 0.3916529647699774, "train/extr_return_normed_min": -0.06170757484864699, "train/extr_return_normed_std": 0.3199940768823232, "train/extr_return_rate": 0.8133704784798296, "train/extr_return_raw_mag": 13.441052554404898, "train/extr_return_raw_max": 13.441052554404898, "train/extr_return_raw_mean": 3.7545353745760983, "train/extr_return_raw_min": -0.7163274569870675, "train/extr_return_raw_std": 3.155545175892033, "train/extr_reward_mag": 1.0831688397551236, "train/extr_reward_max": 1.0831688397551236, "train/extr_reward_mean": 0.06578454834549394, "train/extr_reward_min": -0.6224858793493819, "train/extr_reward_std": 0.2456575670879181, "train/image_loss_mean": 3.7283528341005927, "train/image_loss_std": 9.055642742000215, "train/model_loss_mean": 7.289360823696607, "train/model_loss_std": 13.167400660580151, "train/model_opt_grad_norm": 20.70963403623398, "train/model_opt_grad_steps": 695086.0547945206, "train/model_opt_loss": 19213.001805971748, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.7666388113204747, "train/policy_entropy_max": 2.7666388113204747, "train/policy_entropy_mean": 0.5195175176613951, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.742767334392626, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5201554759724499, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1246903399898582, "train/policy_randomness_mag": 0.9765020911007711, "train/policy_randomness_max": 0.9765020911007711, "train/policy_randomness_mean": 0.18336688808790624, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.262164273286519, "train/post_ent_mag": 55.14985447713774, "train/post_ent_max": 55.14985447713774, "train/post_ent_mean": 39.71401747612104, "train/post_ent_min": 19.054230180505204, "train/post_ent_std": 5.7681101054361426, "train/prior_ent_mag": 76.67471606110874, "train/prior_ent_max": 76.67471606110874, "train/prior_ent_mean": 45.50723517430972, "train/prior_ent_min": 27.330882085512762, "train/prior_ent_std": 7.97578149299099, "train/rep_loss_mean": 5.823937396480613, "train/rep_loss_std": 9.044160803703413, "train/reward_avg": 0.054369113726975164, "train/reward_loss_mean": 0.06658941507339478, "train/reward_loss_std": 0.2298661572475956, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0254410880885712, "train/reward_neg_acc": 0.9921818971633911, "train/reward_neg_loss": 0.026169957924787313, "train/reward_pos_acc": 0.9920693301174739, "train/reward_pos_loss": 0.7167052014233315, "train/reward_pred": 0.05405345941855483, "train/reward_rate": 0.0587007705479452, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 15.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 4.571428571428571, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5638104464326587, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.58051289626158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4456569171342694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13604521751404, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02328348159790039, "timer/logger.write_frac": 7.757642565399444e-05, "timer/logger.write_avg": 0.02328348159790039, "timer/logger.write_min": 0.02328348159790039, "timer/logger.write_max": 0.02328348159790039, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.3078124523162842, "timer/replay.add_frac": 0.0010255764251614861, "timer/replay.add_avg": 0.00021025440731986625, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0035707950592041016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1464.0, "timer/env.step_total": 18.596973657608032, "timer/env.step_frac": 0.061961813497377394, "timer/env.step_avg": 0.01270285085902188, "timer/env.step_min": 0.002751588821411133, "timer/env.step_max": 1.5224249362945557, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.842663288116455, "timer/agent.policy_frac": 0.036125828473079866, "timer/agent.policy_avg": 0.007406190770571349, "timer/agent.policy_min": 0.005594730377197266, "timer/agent.policy_max": 0.016330480575561523, "timer/dataset_count": 732.0, "timer/dataset_total": 0.06597256660461426, "timer/dataset_frac": 0.00021980887552777188, "timer/dataset_avg": 9.012645711012877e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 732.0, "timer/agent.train_total": 269.63603472709656, "timer/agent.train_frac": 0.8983793816956788, "timer/agent.train_avg": 0.36835523869821934, "timer/agent.train_min": 0.3581058979034424, "timer/agent.train_max": 0.38167786598205566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19723987579345703, "timer/agent.report_frac": 0.0006571682373255559, "timer/agent.report_avg": 0.19723987579345703, "timer/agent.report_min": 0.19723987579345703, "timer/agent.report_max": 0.19723987579345703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.877682280353369}
+{"step": 1393301, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08024691358024691}
+{"step": 1393666, "episode/length": 364.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.700000040233135, "episode/reward_rate": 0.04657534246575343}
+{"step": 1393800, "episode/length": 133.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.08955223880597014}
+{"step": 1393939, "episode/length": 138.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.06474820143884892}
+{"step": 1394184, "episode/length": 244.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.05714285714285714}
+{"step": 1394418, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0641025641025641}
+{"step": 1394617, "episode/length": 198.0, "episode/score": 13.10000005364418, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.08040201005025126}
+{"step": 1394618, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505603529002569, "train/action_min": 0.0, "train/action_std": 3.404192908169472, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03354380381842182, "train/actor_opt_grad_steps": 696390.0, "train/actor_opt_loss": -12.885039770848131, "train/adv_mag": 0.3910570883587615, "train/adv_max": 0.3142167821730653, "train/adv_mean": 0.0014556416331101465, "train/adv_min": -0.3563984673317165, "train/adv_std": 0.03831213824961283, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 0.00014366117293725624, "train/cont_loss_std": 0.0038524515809407207, "train/cont_neg_acc": 0.996086105908433, "train/cont_neg_loss": 0.01632055330986844, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 3.2512174610249914e-05, "train/cont_pred": 0.9953931733353497, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.686624533509555, "train/dyn_loss_std": 8.989954765528848, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8365278946210261, "train/extr_critic_critic_opt_grad_steps": 696390.0, "train/extr_critic_critic_opt_loss": 14893.216944028254, "train/extr_critic_mag": 12.65201670502963, "train/extr_critic_max": 12.65201670502963, "train/extr_critic_mean": 3.5358462105058646, "train/extr_critic_min": -0.3991962818250264, "train/extr_critic_std": 3.1000358241878145, "train/extr_return_normed_mag": 1.380444882667228, "train/extr_return_normed_max": 1.380444882667228, "train/extr_return_normed_mean": 0.3734403864978111, "train/extr_return_normed_min": -0.06584470397601389, "train/extr_return_normed_std": 0.3195861567781396, "train/extr_return_rate": 0.7930624354375552, "train/extr_return_raw_mag": 13.404857269705158, "train/extr_return_raw_max": 13.404857269705158, "train/extr_return_raw_mean": 3.5500992879475635, "train/extr_return_raw_min": -0.7494325686807501, "train/extr_return_raw_std": 3.1275935826236254, "train/extr_reward_mag": 1.0902730308166921, "train/extr_reward_max": 1.0902730308166921, "train/extr_reward_mean": 0.06309428790660754, "train/extr_reward_min": -0.6372503156531347, "train/extr_reward_std": 0.24172119939163939, "train/image_loss_mean": 3.791315931163422, "train/image_loss_std": 9.038576302463062, "train/model_loss_mean": 7.268647820982214, "train/model_loss_std": 13.108613941767445, "train/model_opt_grad_norm": 19.310827790874324, "train/model_opt_grad_steps": 695815.4520547945, "train/model_opt_loss": 18652.533524186645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.756617938002495, "train/policy_entropy_max": 2.756617938002495, "train/policy_entropy_mean": 0.5071394508832121, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7269612093494363, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5066313755838838, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.112706524052032, "train/policy_randomness_mag": 0.9729651588283174, "train/policy_randomness_max": 0.9729651588283174, "train/policy_randomness_mean": 0.1789979732608142, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25658540774698124, "train/post_ent_mag": 55.20552010732154, "train/post_ent_max": 55.20552010732154, "train/post_ent_mean": 39.85592771556279, "train/post_ent_min": 19.55841003052176, "train/post_ent_std": 5.823214818353522, "train/prior_ent_mag": 76.75480359221157, "train/prior_ent_max": 76.75480359221157, "train/prior_ent_mean": 45.50776233411815, "train/prior_ent_min": 27.17021126943092, "train/prior_ent_std": 8.06139326095581, "train/rep_loss_mean": 5.686624533509555, "train/rep_loss_std": 8.989954765528848, "train/reward_avg": 0.05243471729224675, "train/reward_loss_mean": 0.06521352263141984, "train/reward_loss_std": 0.2188692868572392, "train/reward_max_data": 1.04794521691048, "train/reward_max_pred": 1.0432202195468014, "train/reward_neg_acc": 0.9919316556355725, "train/reward_neg_loss": 0.026293527028740268, "train/reward_pos_acc": 0.9912194862757644, "train/reward_pos_loss": 0.7132429088631721, "train/reward_pred": 0.05227924684343273, "train/reward_rate": 0.05676102311643835, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5121005369084222, "replay/size": 1000000.0, "replay/inserts": 1467.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.6685907198770076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.436345899251441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.2845993041992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023644447326660156, "timer/logger.write_frac": 7.847877847479013e-05, "timer/logger.write_avg": 0.023644447326660156, "timer/logger.write_min": 0.023644447326660156, "timer/logger.write_max": 0.023644447326660156, "timer/replay.add_count": 1467.0, "timer/replay.add_total": 0.3047151565551758, "timer/replay.add_frac": 0.001011386434151959, "timer/replay.add_avg": 0.00020771312648614572, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0019197463989257812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1467.0, "timer/env.step_total": 18.46714997291565, "timer/env.step_frac": 0.06129470280115396, "timer/env.step_avg": 0.012588377622982719, "timer/env.step_min": 0.002811908721923828, "timer/env.step_max": 1.5098497867584229, "timer/agent.policy_count": 1467.0, "timer/agent.policy_total": 11.041324138641357, "timer/agent.policy_frac": 0.036647489331153034, "timer/agent.policy_avg": 0.007526464988848914, "timer/agent.policy_min": 0.005629777908325195, "timer/agent.policy_max": 0.01892876625061035, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06793594360351562, "timer/dataset_frac": 0.0002254876079308736, "timer/dataset_avg": 9.268205130083987e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0002574920654296875, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.7013432979584, "timer/agent.train_frac": 0.8984904768552019, "timer/agent.train_avg": 0.36930606179803327, "timer/agent.train_min": 0.3599379062652588, "timer/agent.train_max": 0.3837461471557617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20171594619750977, "timer/agent.report_frac": 0.0006695196059253013, "timer/agent.report_avg": 0.20171594619750977, "timer/agent.report_min": 0.20171594619750977, "timer/agent.report_max": 0.20171594619750977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.869059816178946}
+{"step": 1394798, "episode/length": 180.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07734806629834254}
+{"step": 1395146, "episode/length": 347.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04310344827586207}
+{"step": 1395360, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06542056074766354}
+{"step": 1395530, "episode/length": 169.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.08823529411764706}
+{"step": 1395696, "episode/length": 165.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.09036144578313253}
+{"step": 1395985, "episode/length": 288.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05190311418685121}
+{"step": 1396055, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500556945800781, "train/action_min": 0.0, "train/action_std": 3.3807154132260218, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0343547933217552, "train/actor_opt_grad_steps": 697115.0, "train/actor_opt_loss": -10.649082291457388, "train/adv_mag": 0.3745781340532833, "train/adv_max": 0.3239603506194221, "train/adv_mean": 0.0019406993543371856, "train/adv_min": -0.3310170241942008, "train/adv_std": 0.039067774855842195, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 5.867089035266954e-05, "train/cont_loss_std": 0.0017972707546686844, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008414999406115934, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 5.3092661797945105e-05, "train/cont_pred": 0.9952066962917646, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.719237930244869, "train/dyn_loss_std": 9.051564666959974, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8168802162011465, "train/extr_critic_critic_opt_grad_steps": 697115.0, "train/extr_critic_critic_opt_loss": 14811.107476128473, "train/extr_critic_mag": 12.700482143296135, "train/extr_critic_max": 12.700482143296135, "train/extr_critic_mean": 3.665873650047514, "train/extr_critic_min": -0.36812172167831, "train/extr_critic_std": 3.0841612882084317, "train/extr_return_normed_mag": 1.392441858847936, "train/extr_return_normed_max": 1.392441858847936, "train/extr_return_normed_mean": 0.38880931089321774, "train/extr_return_normed_min": -0.06292061467603263, "train/extr_return_normed_std": 0.3202392090525892, "train/extr_return_rate": 0.8103488923774825, "train/extr_return_raw_mag": 13.447577476501465, "train/extr_return_raw_max": 13.447577476501465, "train/extr_return_raw_mean": 3.684759192996555, "train/extr_return_raw_min": -0.7092000134289265, "train/extr_return_raw_std": 3.1149776015016766, "train/extr_reward_mag": 1.0851919419235654, "train/extr_reward_max": 1.0851919419235654, "train/extr_reward_mean": 0.06419907706893152, "train/extr_reward_min": -0.6074041343397565, "train/extr_reward_std": 0.2426766353762812, "train/image_loss_mean": 3.5735393365224204, "train/image_loss_std": 8.966979106267294, "train/model_loss_mean": 7.0713927083545265, "train/model_loss_std": 13.123398078812492, "train/model_opt_grad_norm": 18.5104232761595, "train/model_opt_grad_steps": 696539.8611111111, "train/model_opt_loss": 18248.828789605035, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.751213848590851, "train/policy_entropy_max": 2.751213848590851, "train/policy_entropy_mean": 0.49058427951402134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108031312624613, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49023737758398056, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.1029183202319675, "train/policy_randomness_mag": 0.9710577544238832, "train/policy_randomness_max": 0.9710577544238832, "train/policy_randomness_mean": 0.17315472414096197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2508823112067249, "train/post_ent_mag": 54.99077055189345, "train/post_ent_max": 54.99077055189345, "train/post_ent_mean": 39.70678477817111, "train/post_ent_min": 19.5047504901886, "train/post_ent_std": 5.7931498818927345, "train/prior_ent_mag": 76.81579356723361, "train/prior_ent_max": 76.81579356723361, "train/prior_ent_mean": 45.408127042982315, "train/prior_ent_min": 26.914011849297417, "train/prior_ent_std": 8.010609871811337, "train/rep_loss_mean": 5.719237930244869, "train/rep_loss_std": 9.051564666959974, "train/reward_avg": 0.052280001523387104, "train/reward_loss_mean": 0.06625198288303283, "train/reward_loss_std": 0.22942320547170109, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.022517705957095, "train/reward_neg_acc": 0.9918687128358417, "train/reward_neg_loss": 0.027023640409525897, "train/reward_pos_acc": 0.9916181961695353, "train/reward_pos_loss": 0.7205366823408339, "train/reward_pred": 0.05192951845108635, "train/reward_rate": 0.056477864583333336, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5551413695017496, "replay/size": 1000000.0, "replay/inserts": 1437.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.75364087236865e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4335580263416358e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2217655181885, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.04140353202819824, "timer/logger.write_frac": 0.00013790982794580187, "timer/logger.write_avg": 0.04140353202819824, "timer/logger.write_min": 0.04140353202819824, "timer/logger.write_max": 0.04140353202819824, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.29953742027282715, "timer/replay.add_frac": 0.0009977205342051728, "timer/replay.add_avg": 0.00020844636066306692, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0006659030914306641, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1437.0, "timer/env.step_total": 17.676757097244263, "timer/env.step_frac": 0.058878999218240705, "timer/env.step_avg": 0.012301153164401018, "timer/env.step_min": 0.002478361129760742, "timer/env.step_max": 1.5184686183929443, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 15.011876344680786, "timer/agent.policy_frac": 0.05000262495548916, "timer/agent.policy_avg": 0.01044667804083562, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 2.5498926639556885, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06831526756286621, "timer/dataset_frac": 0.0002275493498779236, "timer/dataset_avg": 9.501428033778332e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0002524852752685547, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.4078493118286, "timer/agent.train_frac": 0.887370203995715, "timer/agent.train_avg": 0.3705255206005961, "timer/agent.train_min": 0.3614654541015625, "timer/agent.train_max": 0.4465506076812744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.229522705078125, "timer/agent.report_frac": 0.0007645105433377371, "timer/agent.report_avg": 0.229522705078125, "timer/agent.report_min": 0.229522705078125, "timer/agent.report_max": 0.229522705078125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029850006103515625, "timer/checkpoint.save_frac": 9.94265224308236e-07, "timer/checkpoint.save_avg": 0.00029850006103515625, "timer/checkpoint.save_min": 0.00029850006103515625, "timer/checkpoint.save_max": 0.00029850006103515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5156898498535156, "timer/agent.save_frac": 0.00504856750554846, "timer/agent.save_avg": 1.5156898498535156, "timer/agent.save_min": 1.5156898498535156, "timer/agent.save_max": 1.5156898498535156, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.533311553948301e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "fps": 4.786376319191494}
+{"step": 1396257, "episode/length": 271.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.051470588235294115}
+{"step": 1396527, "episode/length": 269.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.04814814814814815}
+{"step": 1396786, "episode/length": 258.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.700000062584877, "episode/reward_rate": 0.06177606177606178}
+{"step": 1397031, "episode/length": 244.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000055134296, "episode/reward_rate": 0.053061224489795916}
+{"step": 1397259, "episode/length": 227.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.05701754385964912}
+{"step": 1397383, "episode/length": 123.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.299999982118607, "episode/reward_rate": 0.06451612903225806}
+{"step": 1397517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4885579984482025, "train/action_min": 0.0, "train/action_std": 3.367927512077436, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03425019775351433, "train/actor_opt_grad_steps": 697840.0, "train/actor_opt_loss": -11.95491066187212, "train/adv_mag": 0.3886207460540615, "train/adv_max": 0.32990728277866155, "train/adv_mean": 0.0015859778553158944, "train/adv_min": -0.34297845706547775, "train/adv_std": 0.03881098603038755, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 1.5481060017918935e-05, "train/cont_loss_std": 0.0003806456422885837, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00036078230921707597, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.4123339690909172e-05, "train/cont_pred": 0.9952254132048725, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.636631371223763, "train/dyn_loss_std": 8.989586007105162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8161882153929096, "train/extr_critic_critic_opt_grad_steps": 697840.0, "train/extr_critic_critic_opt_loss": 14767.467974101028, "train/extr_critic_mag": 12.648282573647695, "train/extr_critic_max": 12.648282573647695, "train/extr_critic_mean": 3.656988292524259, "train/extr_critic_min": -0.3681567972653533, "train/extr_critic_std": 3.029386072942655, "train/extr_return_normed_mag": 1.3931349189314124, "train/extr_return_normed_max": 1.3931349189314124, "train/extr_return_normed_mean": 0.385200658073164, "train/extr_return_normed_min": -0.05886507210359998, "train/extr_return_normed_std": 0.31290601765456266, "train/extr_return_rate": 0.8245764186937515, "train/extr_return_raw_mag": 13.504682240420825, "train/extr_return_raw_max": 13.504682240420825, "train/extr_return_raw_mean": 3.672462092687006, "train/extr_return_raw_min": -0.6592959528916502, "train/extr_return_raw_std": 3.052681001898361, "train/extr_reward_mag": 1.0955238766866187, "train/extr_reward_max": 1.0955238766866187, "train/extr_reward_mean": 0.06516918065409137, "train/extr_reward_min": -0.550299974337016, "train/extr_reward_std": 0.24446559748420976, "train/image_loss_mean": 3.59695468536795, "train/image_loss_std": 8.977754756195905, "train/model_loss_mean": 7.045389149286976, "train/model_loss_std": 13.102595825717874, "train/model_opt_grad_norm": 19.40994998200299, "train/model_opt_grad_steps": 697264.0, "train/model_opt_loss": 17613.47289704623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7573401503366965, "train/policy_entropy_max": 2.7573401503366965, "train/policy_entropy_mean": 0.4886066603333983, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7153021215576015, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4879730507119061, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0997618836899326, "train/policy_randomness_mag": 0.973220068297974, "train/policy_randomness_max": 0.973220068297974, "train/policy_randomness_mean": 0.17245671224512465, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2524702585723302, "train/post_ent_mag": 54.74102955648344, "train/post_ent_max": 54.74102955648344, "train/post_ent_mean": 39.61967379426303, "train/post_ent_min": 19.007548684943213, "train/post_ent_std": 5.711005210876465, "train/prior_ent_mag": 76.85321159885355, "train/prior_ent_max": 76.85321159885355, "train/prior_ent_mean": 45.286054846358624, "train/prior_ent_min": 27.001614191760755, "train/prior_ent_std": 7.99358138646165, "train/rep_loss_mean": 5.636631371223763, "train/rep_loss_std": 8.989586007105162, "train/reward_avg": 0.05281196447880301, "train/reward_loss_mean": 0.06644017550430886, "train/reward_loss_std": 0.2306380271911621, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0308617696370164, "train/reward_neg_acc": 0.991985606004114, "train/reward_neg_loss": 0.02626941821295513, "train/reward_pos_acc": 0.9882089479328835, "train/reward_pos_loss": 0.7305120090915732, "train/reward_pred": 0.05213608444757657, "train/reward_rate": 0.05702857448630137, "stats/sum_log_reward": 11.600000301996866, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5609319706757864, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7760480157980026e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4221537781805412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0346586704254, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03024888038635254, "timer/logger.write_frac": 0.00010081795390038447, "timer/logger.write_avg": 0.03024888038635254, "timer/logger.write_min": 0.03024888038635254, "timer/logger.write_max": 0.03024888038635254, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.3221099376678467, "timer/replay.add_frac": 0.0010735757631976444, "timer/replay.add_avg": 0.00022032143479332878, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0009644031524658203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.427887439727783, "timer/env.step_frac": 0.05808624749206569, "timer/env.step_avg": 0.01192057964413665, "timer/env.step_min": 0.0027418136596679688, "timer/env.step_max": 1.5202667713165283, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 11.128474950790405, "timer/agent.policy_frac": 0.037090631462728896, "timer/agent.policy_avg": 0.007611815971812863, "timer/agent.policy_min": 0.005746603012084961, "timer/agent.policy_max": 0.015334367752075195, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06873774528503418, "timer/dataset_frac": 0.00022909935002055713, "timer/dataset_avg": 9.403248329006043e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0003094673156738281, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.3598117828369, "timer/agent.train_frac": 0.901095270062833, "timer/agent.train_avg": 0.3698492637248111, "timer/agent.train_min": 0.3605220317840576, "timer/agent.train_max": 0.4343881607055664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2009270191192627, "timer/agent.report_frac": 0.0006696793630764238, "timer/agent.report_avg": 0.2009270191192627, "timer/agent.report_min": 0.2009270191192627, "timer/agent.report_max": 0.2009270191192627, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8726889706023915}
+{"step": 1397586, "episode/length": 202.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.06896551724137931}
+{"step": 1397841, "episode/length": 254.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.054901960784313725}
+{"step": 1398085, "episode/length": 243.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05737704918032787}
+{"step": 1398288, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
+{"step": 1398569, "episode/length": 280.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0498220640569395}
+{"step": 1398763, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07216494845360824}
+{"step": 1398923, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.075}
+{"step": 1398977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530774260220462, "train/action_min": 0.0, "train/action_std": 3.429098815134127, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03474842519690729, "train/actor_opt_grad_steps": 698570.0, "train/actor_opt_loss": -11.460400746293264, "train/adv_mag": 0.3829135006829484, "train/adv_max": 0.3259018826974581, "train/adv_mean": 0.0018853808311452094, "train/adv_min": -0.34171586044847146, "train/adv_std": 0.03944146117731316, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 0.00012092329718356805, "train/cont_loss_std": 0.003742440885697798, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.017631587588975782, "train/cont_pos_acc": 0.9999999738719365, "train/cont_pos_loss": 1.794998083516307e-05, "train/cont_pred": 0.9952620088237606, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.673052108451111, "train/dyn_loss_std": 8.969705620857134, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8546518871228989, "train/extr_critic_critic_opt_grad_steps": 698570.0, "train/extr_critic_critic_opt_loss": 14999.150898972603, "train/extr_critic_mag": 12.805140573684483, "train/extr_critic_max": 12.805140573684483, "train/extr_critic_mean": 3.578309872379042, "train/extr_critic_min": -0.37858563416624724, "train/extr_critic_std": 3.0191608161142427, "train/extr_return_normed_mag": 1.399190368717664, "train/extr_return_normed_max": 1.399190368717664, "train/extr_return_normed_mean": 0.3798797996076819, "train/extr_return_normed_min": -0.05894034036932743, "train/extr_return_normed_std": 0.3134190515704351, "train/extr_return_rate": 0.8230861588700177, "train/extr_return_raw_mag": 13.503670666315784, "train/extr_return_raw_max": 13.503670666315784, "train/extr_return_raw_mean": 3.5966349889154303, "train/extr_return_raw_min": -0.6677783809296073, "train/extr_return_raw_std": 3.0458632168704516, "train/extr_reward_mag": 1.093790936143431, "train/extr_reward_max": 1.093790936143431, "train/extr_reward_mean": 0.06534296182328708, "train/extr_reward_min": -0.6077000343636291, "train/extr_reward_std": 0.24504352799833637, "train/image_loss_mean": 3.6325845783703947, "train/image_loss_std": 8.796456604787748, "train/model_loss_mean": 7.101715290383117, "train/model_loss_std": 12.887579839523525, "train/model_opt_grad_norm": 19.771632697847153, "train/model_opt_grad_steps": 697993.3287671233, "train/model_opt_loss": 19655.652276862158, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.768070253607345, "train/policy_entropy_max": 2.768070253607345, "train/policy_entropy_mean": 0.4963724270258864, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7250732595789923, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4969807001825881, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.1094927346869692, "train/policy_randomness_mag": 0.9770073278309548, "train/policy_randomness_max": 0.9770073278309548, "train/policy_randomness_mean": 0.17519768796963234, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2559190423113026, "train/post_ent_mag": 55.95093165358452, "train/post_ent_max": 55.95093165358452, "train/post_ent_mean": 39.966437927664145, "train/post_ent_min": 19.553909040477176, "train/post_ent_std": 5.958804542071198, "train/prior_ent_mag": 76.84048054316273, "train/prior_ent_max": 76.84048054316273, "train/prior_ent_mean": 45.592859503341046, "train/prior_ent_min": 26.850136848345194, "train/prior_ent_std": 8.144451637790628, "train/rep_loss_mean": 5.673052108451111, "train/rep_loss_std": 8.969705620857134, "train/reward_avg": 0.05241197549214918, "train/reward_loss_mean": 0.06517855593398826, "train/reward_loss_std": 0.2196696359817296, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0257629074462473, "train/reward_neg_acc": 0.9921836167165677, "train/reward_neg_loss": 0.026492430471292096, "train/reward_pos_acc": 0.9925951761742161, "train/reward_pos_loss": 0.709816479519622, "train/reward_pred": 0.052206905915924945, "train/reward_rate": 0.0566138698630137, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4408359293426786, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7149207232749627e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.418794671150103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0298795700073, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02686619758605957, "timer/logger.write_frac": 8.954507339256775e-05, "timer/logger.write_avg": 0.02686619758605957, "timer/logger.write_min": 0.02686619758605957, "timer/logger.write_max": 0.02686619758605957, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.3117711544036865, "timer/replay.add_frac": 0.0010391336851199833, "timer/replay.add_avg": 0.00021354188657786747, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0010530948638916016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.091756582260132, "timer/env.step_frac": 0.060299849495618986, "timer/env.step_avg": 0.012391614097438447, "timer/env.step_min": 0.002802133560180664, "timer/env.step_max": 1.4690897464752197, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.094106435775757, "timer/agent.policy_frac": 0.03697667196239073, "timer/agent.policy_avg": 0.007598703038202573, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 0.015733957290649414, "timer/dataset_count": 730.0, "timer/dataset_total": 0.07049155235290527, "timer/dataset_frac": 0.00023494844064841602, "timer/dataset_avg": 9.656377034644559e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0019521713256835938, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.74514627456665, "timer/agent.train_frac": 0.8990609424006578, "timer/agent.train_avg": 0.3695138990062557, "timer/agent.train_min": 0.3602781295776367, "timer/agent.train_max": 0.3851795196533203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20049810409545898, "timer/agent.report_frac": 0.0006682604558679491, "timer/agent.report_avg": 0.20049810409545898, "timer/agent.report_min": 0.20049810409545898, "timer/agent.report_max": 0.20049810409545898, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.866098118506202}
+{"step": 1399099, "episode/length": 175.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.07386363636363637}
+{"step": 1399319, "episode/length": 219.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06363636363636363}
+{"step": 1399599, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05}
+{"step": 1399820, "episode/length": 220.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.07692307692307693}
+{"step": 1400028, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07692307692307693}
+{"step": 1400318, "episode/length": 289.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04827586206896552}
+{"step": 1400415, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4553070068359375, "train/action_min": 0.0, "train/action_std": 3.357291337516573, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03460450012547275, "train/actor_opt_grad_steps": 699295.0, "train/actor_opt_loss": -13.026672242416275, "train/adv_mag": 0.4033609657651848, "train/adv_max": 0.3196523115038872, "train/adv_mean": 0.0013878645984277682, "train/adv_min": -0.3711840125421683, "train/adv_std": 0.039072737770362034, "train/cont_avg": 0.9954698350694444, "train/cont_loss_mean": 5.19469055712602e-05, "train/cont_loss_std": 0.0015897377255219187, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.321197736227115e-05, "train/cont_pos_acc": 0.9999727350142267, "train/cont_pos_loss": 5.192374596182011e-05, "train/cont_pred": 0.9954367925723394, "train/cont_rate": 0.9954698350694444, "train/dyn_loss_mean": 5.870086921585931, "train/dyn_loss_std": 9.058779451582167, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8294618369804488, "train/extr_critic_critic_opt_grad_steps": 699295.0, "train/extr_critic_critic_opt_loss": 14809.101019965277, "train/extr_critic_mag": 12.671195877922905, "train/extr_critic_max": 12.671195877922905, "train/extr_critic_mean": 3.692026025719113, "train/extr_critic_min": -0.35512124829822117, "train/extr_critic_std": 3.0140603648291693, "train/extr_return_normed_mag": 1.3850699447923236, "train/extr_return_normed_max": 1.3850699447923236, "train/extr_return_normed_mean": 0.39280540578895146, "train/extr_return_normed_min": -0.06395982824162477, "train/extr_return_normed_std": 0.3129403711193138, "train/extr_return_rate": 0.8275526679224439, "train/extr_return_raw_mag": 13.344664613405863, "train/extr_return_raw_max": 13.344664613405863, "train/extr_return_raw_mean": 3.7055032120810614, "train/extr_return_raw_min": -0.7314402022295527, "train/extr_return_raw_std": 3.040001802974277, "train/extr_reward_mag": 1.0936087800396814, "train/extr_reward_max": 1.0936087800396814, "train/extr_reward_mean": 0.0636423650301165, "train/extr_reward_min": -0.625495390759574, "train/extr_reward_std": 0.242178060942226, "train/image_loss_mean": 3.4990391433238983, "train/image_loss_std": 9.193582620885637, "train/model_loss_mean": 7.087508406904009, "train/model_loss_std": 13.35151645872328, "train/model_opt_grad_norm": 20.246004117859734, "train/model_opt_grad_steps": 698718.0, "train/model_opt_loss": 22445.304321289062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3194.4444444444443, "train/policy_entropy_mag": 2.7485230465730033, "train/policy_entropy_max": 2.7485230465730033, "train/policy_entropy_mean": 0.48912134766578674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7096721111900277, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.488955393847492, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.1006265572375722, "train/policy_randomness_mag": 0.9701080140140321, "train/policy_randomness_max": 0.9701080140140321, "train/policy_randomness_mean": 0.17263837272508276, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25048311116794747, "train/post_ent_mag": 54.892830265892876, "train/post_ent_max": 54.892830265892876, "train/post_ent_mean": 39.467179987165665, "train/post_ent_min": 19.155240337053936, "train/post_ent_std": 5.809842864672343, "train/prior_ent_mag": 76.84024545881483, "train/prior_ent_max": 76.84024545881483, "train/prior_ent_mean": 45.30693891313341, "train/prior_ent_min": 27.05490893787808, "train/prior_ent_std": 8.0537475016382, "train/rep_loss_mean": 5.870086921585931, "train/rep_loss_std": 9.058779451582167, "train/reward_avg": 0.05357530389705466, "train/reward_loss_mean": 0.06636514281854033, "train/reward_loss_std": 0.23259846514297855, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.029820094505946, "train/reward_neg_acc": 0.9920196375913091, "train/reward_neg_loss": 0.026370798897308607, "train/reward_pos_acc": 0.990154984096686, "train/reward_pos_loss": 0.7225340174304115, "train/reward_pred": 0.05325865409233504, "train/reward_rate": 0.0576171875, "stats/sum_log_reward": 13.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.37732403973738354, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.867421262950659e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4149471184806133e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1601815223694, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03720712661743164, "timer/logger.write_frac": 0.00012395756968403481, "timer/logger.write_avg": 0.03720712661743164, "timer/logger.write_min": 0.03720712661743164, "timer/logger.write_max": 0.03720712661743164, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3190450668334961, "timer/replay.add_frac": 0.0010629160244218447, "timer/replay.add_avg": 0.00022186722311091524, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.0020172595977783203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.078256130218506, "timer/env.step_frac": 0.056897140865254145, "timer/env.step_avg": 0.011876395083601186, "timer/env.step_min": 0.002643108367919922, "timer/env.step_max": 1.4845128059387207, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 15.992776870727539, "timer/agent.policy_frac": 0.053280807566195056, "timer/agent.policy_avg": 0.011121541634720124, "timer/agent.policy_min": 0.005798816680908203, "timer/agent.policy_max": 3.294360399246216, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06936407089233398, "timer/dataset_frac": 0.00023109018171740624, "timer/dataset_avg": 9.647297759712655e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00016355514526367188, "timer/agent.train_count": 719.0, "timer/agent.train_total": 265.97354650497437, "timer/agent.train_frac": 0.8861053626633443, "timer/agent.train_avg": 0.3699214833170714, "timer/agent.train_min": 0.3607313632965088, "timer/agent.train_max": 0.38526153564453125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2033088207244873, "timer/agent.report_frac": 0.0006773344142228797, "timer/agent.report_avg": 0.2033088207244873, "timer/agent.report_min": 0.2033088207244873, "timer/agent.report_max": 0.2033088207244873, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002262592315673828, "timer/checkpoint.save_frac": 7.537949584779315e-07, "timer/checkpoint.save_avg": 0.0002262592315673828, "timer/checkpoint.save_min": 0.0002262592315673828, "timer/checkpoint.save_max": 0.0002262592315673828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5041344165802002, "timer/agent.save_frac": 0.0050111057667657525, "timer/agent.save_avg": 1.5041344165802002, "timer/agent.save_min": 1.5041344165802002, "timer/agent.save_max": 1.5041344165802002, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.335255192755657e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "fps": 4.7906844694863215}
+{"step": 1400503, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08108108108108109}
+{"step": 1400734, "episode/length": 230.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.047619047619047616}
+{"step": 1400936, "episode/length": 201.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07425742574257425}
+{"step": 1401181, "episode/length": 244.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0326530612244898}
+{"step": 1401418, "episode/length": 236.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05485232067510549}
+{"step": 1401666, "episode/length": 247.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 16.100000090897083, "episode/reward_rate": 0.056451612903225805}
+{"step": 1401728, "episode/length": 61.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.14516129032258066}
+{"step": 1401873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476481398491011, "train/action_min": 0.0, "train/action_std": 3.3994415916808665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03463173749512189, "train/actor_opt_grad_steps": 700020.0, "train/actor_opt_loss": -10.589845537909703, "train/adv_mag": 0.36437829349138967, "train/adv_max": 0.3086360605203942, "train/adv_mean": 0.002259560991860033, "train/adv_min": -0.32614281610266804, "train/adv_std": 0.03917379406829403, "train/cont_avg": 0.9957994434931506, "train/cont_loss_mean": 1.4691896662859344e-05, "train/cont_loss_std": 0.0003744116471159642, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009760334684843946, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 9.273478767308043e-06, "train/cont_pred": 0.9957953936433139, "train/cont_rate": 0.9957994434931506, "train/dyn_loss_mean": 5.693255574735876, "train/dyn_loss_std": 8.984410625614531, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8264100478120047, "train/extr_critic_critic_opt_grad_steps": 700020.0, "train/extr_critic_critic_opt_loss": 15092.093642979453, "train/extr_critic_mag": 12.603167716770956, "train/extr_critic_max": 12.603167716770956, "train/extr_critic_mean": 3.583174702239363, "train/extr_critic_min": -0.36594144122241296, "train/extr_critic_std": 2.976483015164937, "train/extr_return_normed_mag": 1.3744687168565515, "train/extr_return_normed_max": 1.3744687168565515, "train/extr_return_normed_mean": 0.3799833032774599, "train/extr_return_normed_min": -0.05419174446532988, "train/extr_return_normed_std": 0.30670273324398145, "train/extr_return_rate": 0.8179946574446273, "train/extr_return_raw_mag": 13.342882051859817, "train/extr_return_raw_max": 13.342882051859817, "train/extr_return_raw_mean": 3.605304375086745, "train/extr_return_raw_min": -0.6454402604331709, "train/extr_return_raw_std": 3.003398193071966, "train/extr_reward_mag": 1.0902875841480413, "train/extr_reward_max": 1.0902875841480413, "train/extr_reward_mean": 0.06614190084885245, "train/extr_reward_min": -0.5747839930939348, "train/extr_reward_std": 0.24569269198260896, "train/image_loss_mean": 3.556744497116298, "train/image_loss_std": 8.68739962251219, "train/model_loss_mean": 7.038747878923808, "train/model_loss_std": 12.778418292737987, "train/model_opt_grad_norm": 19.53607139848683, "train/model_opt_grad_steps": 699442.6301369863, "train/model_opt_loss": 28763.109589041094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 4075.3424657534247, "train/policy_entropy_mag": 2.7538155627577274, "train/policy_entropy_max": 2.7538155627577274, "train/policy_entropy_mean": 0.5011381110916399, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7259172891100792, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5005986151629931, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1109125818291756, "train/policy_randomness_mag": 0.9719760442433292, "train/policy_randomness_max": 0.9719760442433292, "train/policy_randomness_mean": 0.17687976288877122, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.256216945917639, "train/post_ent_mag": 55.34030726184584, "train/post_ent_max": 55.34030726184584, "train/post_ent_mean": 39.78711872884672, "train/post_ent_min": 19.66215464186995, "train/post_ent_std": 5.836979336934547, "train/prior_ent_mag": 76.86029930637308, "train/prior_ent_max": 76.86029930637308, "train/prior_ent_mean": 45.42525043226268, "train/prior_ent_min": 27.24087370258488, "train/prior_ent_std": 8.054511338064115, "train/rep_loss_mean": 5.693255574735876, "train/rep_loss_std": 8.984410625614531, "train/reward_avg": 0.05354104221683659, "train/reward_loss_mean": 0.06603538244962692, "train/reward_loss_std": 0.22501269493201007, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0340497624384213, "train/reward_neg_acc": 0.9910522438075444, "train/reward_neg_loss": 0.02644029900125445, "train/reward_pos_acc": 0.9921211020587242, "train/reward_pos_loss": 0.7157230973243713, "train/reward_pred": 0.0532900709914018, "train/reward_rate": 0.05744327910958904, "stats/sum_log_reward": 10.81428589139666, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4200259617396763, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.7643317496008017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4089875751071506e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2020583152771, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022064208984375, "timer/logger.write_frac": 7.34978604350634e-05, "timer/logger.write_avg": 0.022064208984375, "timer/logger.write_min": 0.022064208984375, "timer/logger.write_max": 0.022064208984375, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.3093736171722412, "timer/replay.add_frac": 0.0010305512857188073, "timer/replay.add_avg": 0.00021219040958315584, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.00201416015625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.378347158432007, "timer/env.step_frac": 0.06121992387917197, "timer/env.step_avg": 0.012605176377525382, "timer/env.step_min": 0.0027523040771484375, "timer/env.step_max": 1.6044952869415283, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.020987510681152, "timer/agent.policy_frac": 0.03671189855436211, "timer/agent.policy_avg": 0.007558976344774453, "timer/agent.policy_min": 0.0056455135345458984, "timer/agent.policy_max": 0.01804041862487793, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0688467025756836, "timer/dataset_frac": 0.00022933454541267556, "timer/dataset_avg": 9.443992122864691e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00019669532775878906, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.7077884674072, "timer/agent.train_frac": 0.8984208502133443, "timer/agent.train_avg": 0.3699695315053597, "timer/agent.train_min": 0.3611595630645752, "timer/agent.train_max": 0.38715124130249023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20247602462768555, "timer/agent.report_frac": 0.000674465810674229, "timer/agent.report_avg": 0.20247602462768555, "timer/agent.report_min": 0.20247602462768555, "timer/agent.report_max": 0.20247602462768555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8566168330465915}
+{"step": 1402162, "episode/length": 433.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.02304147465437788}
+{"step": 1402404, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05785123966942149}
+{"step": 1402604, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.065}
+{"step": 1402815, "episode/length": 210.0, "episode/score": 13.10000005364418, "episode/sum_abs_reward": 15.700000077486038, "episode/reward_rate": 0.07109004739336493}
+{"step": 1402992, "episode/length": 176.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0847457627118644}
+{"step": 1403313, "episode/length": 320.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.04672897196261682}
+{"step": 1403339, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495338233741554, "train/action_min": 0.0, "train/action_std": 3.4098532070984713, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035036598357397156, "train/actor_opt_grad_steps": 700755.0, "train/actor_opt_loss": -11.70414940569852, "train/adv_mag": 0.39308190688088135, "train/adv_max": 0.31798041893823725, "train/adv_mean": 0.0015482055253635957, "train/adv_min": -0.3705202723677094, "train/adv_std": 0.039621064791808255, "train/cont_avg": 0.9953415329391891, "train/cont_loss_mean": 3.353391565381854e-05, "train/cont_loss_std": 0.0009491705460735264, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004060277622100997, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 2.184222336404212e-05, "train/cont_pred": 0.9953309329780372, "train/cont_rate": 0.9953415329391891, "train/dyn_loss_mean": 5.618643419162647, "train/dyn_loss_std": 8.968066718127277, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8319994146759445, "train/extr_critic_critic_opt_grad_steps": 700755.0, "train/extr_critic_critic_opt_loss": 14981.79637352196, "train/extr_critic_mag": 12.773628892125311, "train/extr_critic_max": 12.773628892125311, "train/extr_critic_mean": 3.598953472601401, "train/extr_critic_min": -0.41250236936517665, "train/extr_critic_std": 3.05274620571652, "train/extr_return_normed_mag": 1.3954771032204498, "train/extr_return_normed_max": 1.3954771032204498, "train/extr_return_normed_mean": 0.37942806852830424, "train/extr_return_normed_min": -0.0655002449764996, "train/extr_return_normed_std": 0.3141767014120076, "train/extr_return_rate": 0.8145209123959413, "train/extr_return_raw_mag": 13.565712490597287, "train/extr_return_raw_max": 13.565712490597287, "train/extr_return_raw_mean": 3.6141093904907637, "train/extr_return_raw_min": -0.7424651460873114, "train/extr_return_raw_std": 3.076779726389292, "train/extr_reward_mag": 1.0944742093215118, "train/extr_reward_max": 1.0944742093215118, "train/extr_reward_mean": 0.06446246218842429, "train/extr_reward_min": -0.6182708820781192, "train/extr_reward_std": 0.24379258824361338, "train/image_loss_mean": 3.5682299813708744, "train/image_loss_std": 8.614141444902163, "train/model_loss_mean": 7.005106242927345, "train/model_loss_std": 12.68457233583605, "train/model_opt_grad_norm": 17.831130040658486, "train/model_opt_grad_steps": 700177.0, "train/model_opt_loss": 17713.537478885137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2533.7837837837837, "train/policy_entropy_mag": 2.7606843419977136, "train/policy_entropy_max": 2.7606843419977136, "train/policy_entropy_mean": 0.5117123533745069, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7359252882164877, "train/policy_logprob_mag": 7.438384326728615, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.51175780997083, "train/policy_logprob_min": -7.438384326728615, "train/policy_logprob_std": 1.1184858228709247, "train/policy_randomness_mag": 0.9744004244739944, "train/policy_randomness_max": 0.9744004244739944, "train/policy_randomness_mean": 0.1806120043872176, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2597493319898038, "train/post_ent_mag": 55.29826092075657, "train/post_ent_max": 55.29826092075657, "train/post_ent_mean": 39.84115451091045, "train/post_ent_min": 19.351062156058646, "train/post_ent_std": 5.8694705898697315, "train/prior_ent_mag": 76.81657358118005, "train/prior_ent_max": 76.81657358118005, "train/prior_ent_mean": 45.412664825851856, "train/prior_ent_min": 27.295295560682142, "train/prior_ent_std": 8.051699200192013, "train/rep_loss_mean": 5.618643419162647, "train/rep_loss_std": 8.968066718127277, "train/reward_avg": 0.05175517257806417, "train/reward_loss_mean": 0.06565668871877967, "train/reward_loss_std": 0.2299286821806753, "train/reward_max_data": 1.0405405502061587, "train/reward_max_pred": 1.0400235459611222, "train/reward_neg_acc": 0.9919460319183968, "train/reward_neg_loss": 0.0266471599681756, "train/reward_pos_acc": 0.9918713207180435, "train/reward_pos_loss": 0.7230487473913141, "train/reward_pred": 0.05126551694765284, "train/reward_rate": 0.055993982263513514, "stats/sum_log_reward": 12.600000063578287, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6039812937378883, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.7511081357281984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414248270032188e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0611095428467, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0403287410736084, "timer/logger.write_frac": 0.0001344017594784296, "timer/logger.write_avg": 0.0403287410736084, "timer/logger.write_min": 0.0403287410736084, "timer/logger.write_max": 0.0403287410736084, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.3084697723388672, "timer/replay.add_frac": 0.0010280231677101755, "timer/replay.add_avg": 0.0002104159429323787, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0012271404266357422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.14111638069153, "timer/env.step_frac": 0.057125418241659516, "timer/env.step_avg": 0.011692439550267072, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 1.483504056930542, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.114577293395996, "timer/agent.policy_frac": 0.0370410457734074, "timer/agent.policy_avg": 0.007581567048701225, "timer/agent.policy_min": 0.005613565444946289, "timer/agent.policy_max": 0.016368865966796875, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06888866424560547, "timer/dataset_frac": 0.00022958211529164742, "timer/dataset_avg": 9.398180661064866e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.70463037490845, "timer/agent.train_frac": 0.9021649982809707, "timer/agent.train_avg": 0.36931054621406334, "timer/agent.train_min": 0.3611884117126465, "timer/agent.train_max": 0.4355735778808594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20192790031433105, "timer/agent.report_frac": 0.0006729559209521524, "timer/agent.report_avg": 0.20192790031433105, "timer/agent.report_min": 0.20192790031433105, "timer/agent.report_max": 0.20192790031433105, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.885587702527787}
+{"step": 1403498, "episode/length": 184.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.08108108108108109}
+{"step": 1403531, "episode/length": 32.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.12121212121212122}
+{"step": 1403789, "episode/length": 257.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.06201550387596899}
+{"step": 1404011, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05855855855855856}
+{"step": 1404379, "episode/length": 367.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.035326086956521736}
+{"step": 1404780, "episode/length": 400.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0399002493765586}
+{"step": 1404793, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47273423936632, "train/action_min": 0.0, "train/action_std": 3.3966183927324085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03463223982705838, "train/actor_opt_grad_steps": 701485.0, "train/actor_opt_loss": -11.663472682651546, "train/adv_mag": 0.3813548628240824, "train/adv_max": 0.3036025139606661, "train/adv_mean": 0.0015083154340926638, "train/adv_min": -0.35294462988773984, "train/adv_std": 0.03877659343803922, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 1.3690282228257584e-05, "train/cont_loss_std": 0.00028820935884215574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016466065843613443, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.289310268810024e-05, "train/cont_pred": 0.9954311582777235, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.859489997227986, "train/dyn_loss_std": 9.10222578048706, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8313648377855619, "train/extr_critic_critic_opt_grad_steps": 701485.0, "train/extr_critic_critic_opt_loss": 14968.129421657986, "train/extr_critic_mag": 12.68480987019009, "train/extr_critic_max": 12.68480987019009, "train/extr_critic_mean": 3.467190408044391, "train/extr_critic_min": -0.4225946068763733, "train/extr_critic_std": 3.061356797814369, "train/extr_return_normed_mag": 1.3956943154335022, "train/extr_return_normed_max": 1.3956943154335022, "train/extr_return_normed_mean": 0.3690878471566571, "train/extr_return_normed_min": -0.061090747386010155, "train/extr_return_normed_std": 0.31671565274397534, "train/extr_return_rate": 0.7933160116275152, "train/extr_return_raw_mag": 13.480012403594124, "train/extr_return_raw_max": 13.480012403594124, "train/extr_return_raw_mean": 3.481901357571284, "train/extr_return_raw_min": -0.7079593067367872, "train/extr_return_raw_std": 3.0848838604158826, "train/extr_reward_mag": 1.0898770027690463, "train/extr_reward_max": 1.0898770027690463, "train/extr_reward_mean": 0.060994674606869616, "train/extr_reward_min": -0.5983258833487829, "train/extr_reward_std": 0.23812381881806585, "train/image_loss_mean": 3.803472191095352, "train/image_loss_std": 9.137794805897606, "train/model_loss_mean": 7.384548995229933, "train/model_loss_std": 13.28602061006758, "train/model_opt_grad_norm": 18.435555350612585, "train/model_opt_grad_steps": 700906.1388888889, "train/model_opt_loss": 21151.950439453125, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.7546794414520264, "train/policy_entropy_max": 2.7546794414520264, "train/policy_entropy_mean": 0.531632899824116, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7548398499687513, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5331432301965024, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.1371004581451416, "train/policy_randomness_mag": 0.9722809592882792, "train/policy_randomness_max": 0.9722809592882792, "train/policy_randomness_mean": 0.18764308291590875, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26642533929811585, "train/post_ent_mag": 55.676705837249756, "train/post_ent_max": 55.676705837249756, "train/post_ent_mean": 39.876613510979546, "train/post_ent_min": 19.706117471059162, "train/post_ent_std": 5.899965041213566, "train/prior_ent_mag": 76.85641066233318, "train/prior_ent_max": 76.85641066233318, "train/prior_ent_mean": 45.70671902762519, "train/prior_ent_min": 27.44490358564589, "train/prior_ent_std": 8.107607828246223, "train/rep_loss_mean": 5.859489997227986, "train/rep_loss_std": 9.10222578048706, "train/reward_avg": 0.050290255859080285, "train/reward_loss_mean": 0.065369153705736, "train/reward_loss_std": 0.22163296532299784, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0377339753839705, "train/reward_neg_acc": 0.9914707574579451, "train/reward_neg_loss": 0.027929583564400673, "train/reward_pos_acc": 0.9925375663571887, "train/reward_pos_loss": 0.7158010618554221, "train/reward_pred": 0.050043918295866914, "train/reward_rate": 0.05447048611111111, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 0.5, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5342740764220556, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.6520347962517195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.462732417383417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3354341983795, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0217287540435791, "timer/logger.write_frac": 7.234828651362757e-05, "timer/logger.write_avg": 0.0217287540435791, "timer/logger.write_min": 0.0217287540435791, "timer/logger.write_max": 0.0217287540435791, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2986116409301758, "timer/replay.add_frac": 0.0009942604399217673, "timer/replay.add_avg": 0.00020537251783368348, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0005970001220703125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.653230667114258, "timer/env.step_frac": 0.05544877084371722, "timer/env.step_avg": 0.011453391105305542, "timer/env.step_min": 0.002271890640258789, "timer/env.step_max": 1.5259559154510498, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.89117693901062, "timer/agent.policy_frac": 0.04958181833840693, "timer/agent.policy_avg": 0.010241524717338803, "timer/agent.policy_min": 0.005558013916015625, "timer/agent.policy_max": 2.9834837913513184, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06479620933532715, "timer/dataset_frac": 0.00021574613567750895, "timer/dataset_avg": 8.912821091516801e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0003063678741455078, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.74630308151245, "timer/agent.train_frac": 0.8914908884998861, "timer/agent.train_avg": 0.36828927521528537, "timer/agent.train_min": 0.3600435256958008, "timer/agent.train_max": 0.46117258071899414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20220685005187988, "timer/agent.report_frac": 0.0006732700408514465, "timer/agent.report_avg": 0.20220685005187988, "timer/agent.report_min": 0.20220685005187988, "timer/agent.report_max": 0.20220685005187988, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034880638122558594, "timer/checkpoint.save_frac": 1.1613893717089343e-06, "timer/checkpoint.save_avg": 0.00034880638122558594, "timer/checkpoint.save_min": 0.00034880638122558594, "timer/checkpoint.save_max": 0.00034880638122558594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.300800085067749, "timer/agent.save_frac": 0.0043311575556833435, "timer/agent.save_avg": 1.300800085067749, "timer/agent.save_min": 1.300800085067749, "timer/agent.save_max": 1.300800085067749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.511543273925781e-05, "timer/replay.save_frac": 2.8340123424476387e-07, "timer/replay.save_avg": 8.511543273925781e-05, "timer/replay.save_min": 8.511543273925781e-05, "timer/replay.save_max": 8.511543273925781e-05, "fps": 4.841162515331599}
+{"step": 1404990, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
+{"step": 1405250, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05384615384615385}
+{"step": 1405310, "episode/length": 59.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.11666666666666667}
+{"step": 1405480, "episode/length": 169.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.08235294117647059}
+{"step": 1405662, "episode/length": 181.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08241758241758242}
+{"step": 1405862, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.065}
+{"step": 1406047, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
+{"step": 1406247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480768073095034, "train/action_min": 0.0, "train/action_std": 3.3728754781696892, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03422071631640604, "train/actor_opt_grad_steps": 702210.0, "train/actor_opt_loss": -11.310362164288351, "train/adv_mag": 0.3931804756595664, "train/adv_max": 0.32108319581371464, "train/adv_mean": 0.0018907016623017302, "train/adv_min": -0.34976262282835296, "train/adv_std": 0.03958350047469139, "train/cont_avg": 0.995478381849315, "train/cont_loss_mean": 4.95818286027574e-06, "train/cont_loss_std": 0.00012617232121436383, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001304972046624917, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 4.356924938578425e-06, "train/cont_pred": 0.9954747590300155, "train/cont_rate": 0.995478381849315, "train/dyn_loss_mean": 5.695226022641953, "train/dyn_loss_std": 9.032100991026995, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8334387034586032, "train/extr_critic_critic_opt_grad_steps": 702210.0, "train/extr_critic_critic_opt_loss": 14951.802493578767, "train/extr_critic_mag": 12.577178968142157, "train/extr_critic_max": 12.577178968142157, "train/extr_critic_mean": 3.5372161799914217, "train/extr_critic_min": -0.4215870115854969, "train/extr_critic_std": 3.014038170853706, "train/extr_return_normed_mag": 1.3717422730302158, "train/extr_return_normed_max": 1.3717422730302158, "train/extr_return_normed_mean": 0.37850097719937154, "train/extr_return_normed_min": -0.05805895490291184, "train/extr_return_normed_std": 0.31269204902322323, "train/extr_return_rate": 0.8104523820419834, "train/extr_return_raw_mag": 13.224206937502508, "train/extr_return_raw_max": 13.224206937502508, "train/extr_return_raw_mean": 3.5556260853597563, "train/extr_return_raw_min": -0.694009492658589, "train/extr_return_raw_std": 3.0437662928071743, "train/extr_reward_mag": 1.0956063433869245, "train/extr_reward_max": 1.0956063433869245, "train/extr_reward_mean": 0.06480836041577875, "train/extr_reward_min": -0.6051431665681812, "train/extr_reward_std": 0.24405936835563347, "train/image_loss_mean": 3.711137533187866, "train/image_loss_std": 9.011182869950385, "train/model_loss_mean": 7.195733429634408, "train/model_loss_std": 13.177385839697433, "train/model_opt_grad_norm": 17.50842669238783, "train/model_opt_grad_steps": 701630.698630137, "train/model_opt_loss": 20950.290453767124, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.7568349870916915, "train/policy_entropy_max": 2.7568349870916915, "train/policy_entropy_mean": 0.5123883914457609, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7393142862679207, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5138066660051477, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.1224038674406809, "train/policy_randomness_mag": 0.9730417695763993, "train/policy_randomness_max": 0.9730417695763993, "train/policy_randomness_mean": 0.1808506197308841, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26094549996395633, "train/post_ent_mag": 55.572943282453984, "train/post_ent_max": 55.572943282453984, "train/post_ent_mean": 39.85672174741144, "train/post_ent_min": 19.464846271358123, "train/post_ent_std": 5.813543796539307, "train/prior_ent_mag": 76.87036362739458, "train/prior_ent_max": 76.87036362739458, "train/prior_ent_mean": 45.492903670219526, "train/prior_ent_min": 26.76326641971118, "train/prior_ent_std": 8.044362224944651, "train/rep_loss_mean": 5.695226022641953, "train/rep_loss_std": 9.032100991026995, "train/reward_avg": 0.053183860770643576, "train/reward_loss_mean": 0.06745531404875729, "train/reward_loss_std": 0.23382215712168444, "train/reward_max_data": 1.0438356268895816, "train/reward_max_pred": 1.0397919563397968, "train/reward_neg_acc": 0.9915717578914067, "train/reward_neg_loss": 0.027399329621702023, "train/reward_pos_acc": 0.9895001902972183, "train/reward_pos_loss": 0.7263039252529405, "train/reward_pred": 0.05256862879718003, "train/reward_rate": 0.05736301369863014, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 4.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4418242744037083, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.781902412928774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4819379029936442e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2737305164337, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03109455108642578, "timer/logger.write_frac": 0.00010355401730596611, "timer/logger.write_avg": 0.03109455108642578, "timer/logger.write_min": 0.03109455108642578, "timer/logger.write_max": 0.03109455108642578, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.3087317943572998, "timer/replay.add_frac": 0.0010281678448072007, "timer/replay.add_avg": 0.000212332733395667, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.00102996826171875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.35373282432556, "timer/env.step_frac": 0.06445363299360064, "timer/env.step_avg": 0.013310682822782367, "timer/env.step_min": 0.002901792526245117, "timer/env.step_max": 1.671816349029541, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.753511428833008, "timer/agent.policy_frac": 0.035812361641953484, "timer/agent.policy_avg": 0.007395812537024077, "timer/agent.policy_min": 0.005746603012084961, "timer/agent.policy_max": 0.016949176788330078, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0656437873840332, "timer/dataset_frac": 0.00021861315430801755, "timer/dataset_avg": 9.029406792851885e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.07660722732544, "timer/agent.train_frac": 0.8961043870356122, "timer/agent.train_avg": 0.37011912961117666, "timer/agent.train_min": 0.36376500129699707, "timer/agent.train_max": 0.3820834159851074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20268630981445312, "timer/agent.report_frac": 0.0006750051343680904, "timer/agent.report_avg": 0.20268630981445312, "timer/agent.report_min": 0.20268630981445312, "timer/agent.report_max": 0.20268630981445312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.84215168940641}
+{"step": 1406257, "episode/length": 209.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.047619047619047616}
+{"step": 1406531, "episode/length": 273.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05474452554744526}
+{"step": 1406721, "episode/length": 189.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08421052631578947}
+{"step": 1407172, "episode/length": 450.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03547671840354767}
+{"step": 1407377, "episode/length": 204.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.06341463414634146}
+{"step": 1407719, "stats/sum_log_reward": 13.1, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5173086792230606, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436996872360642, "train/action_min": 0.0, "train/action_std": 3.3520217167364583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03390259839392997, "train/actor_opt_grad_steps": 702945.0, "train/actor_opt_loss": -12.177785727019245, "train/adv_mag": 0.3654296692158725, "train/adv_max": 0.3022532354335527, "train/adv_mean": 0.0013840134910227593, "train/adv_min": -0.33460873909093236, "train/adv_std": 0.038496009753765284, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.914261552484882e-05, "train/cont_loss_std": 0.002790965664943514, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.006740693452521649, "train/cont_pos_acc": 0.9999867339391966, "train/cont_pos_loss": 5.653044787863266e-05, "train/cont_pred": 0.9951094960844195, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.6857354834273055, "train/dyn_loss_std": 9.040070276002627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8196189991525702, "train/extr_critic_critic_opt_grad_steps": 702945.0, "train/extr_critic_critic_opt_loss": 14885.57155299831, "train/extr_critic_mag": 12.678169894862819, "train/extr_critic_max": 12.678169894862819, "train/extr_critic_mean": 3.6520867573248372, "train/extr_critic_min": -0.4126259152953689, "train/extr_critic_std": 3.1229522131584786, "train/extr_return_normed_mag": 1.3824805407910734, "train/extr_return_normed_max": 1.3824805407910734, "train/extr_return_normed_mean": 0.3860472847481032, "train/extr_return_normed_min": -0.059548414387815704, "train/extr_return_normed_std": 0.3205578033183072, "train/extr_return_rate": 0.8093477672821766, "train/extr_return_raw_mag": 13.44659338770686, "train/extr_return_raw_max": 13.44659338770686, "train/extr_return_raw_mean": 3.6656770673958032, "train/extr_return_raw_min": -0.7082451501408139, "train/extr_return_raw_std": 3.1466165684364937, "train/extr_reward_mag": 1.089194655418396, "train/extr_reward_max": 1.089194655418396, "train/extr_reward_mean": 0.06459432860483995, "train/extr_reward_min": -0.5880550742149353, "train/extr_reward_std": 0.24377552842771685, "train/image_loss_mean": 3.5369847497424565, "train/image_loss_std": 8.839697844273335, "train/model_loss_mean": 7.0167263005230875, "train/model_loss_std": 12.980858467720651, "train/model_opt_grad_norm": 18.712680030513454, "train/model_opt_grad_steps": 702365.0, "train/model_opt_loss": 17541.815759607263, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7588765170123124, "train/policy_entropy_max": 2.7588765170123124, "train/policy_entropy_mean": 0.4850019220564816, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7099932778525997, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4854304883125666, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.1018327402101982, "train/policy_randomness_mag": 0.973762343058715, "train/policy_randomness_max": 0.973762343058715, "train/policy_randomness_mean": 0.1711843948106508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25059646831170934, "train/post_ent_mag": 55.390159039884, "train/post_ent_max": 55.390159039884, "train/post_ent_mean": 39.719738625191354, "train/post_ent_min": 19.39824139105307, "train/post_ent_std": 5.808095596932076, "train/prior_ent_mag": 76.82595165355785, "train/prior_ent_max": 76.82595165355785, "train/prior_ent_mean": 45.36224066244589, "train/prior_ent_min": 27.259897644455368, "train/prior_ent_std": 8.067645092268247, "train/rep_loss_mean": 5.6857354834273055, "train/rep_loss_std": 9.040070276002627, "train/reward_avg": 0.05399334823360314, "train/reward_loss_mean": 0.06821114212475918, "train/reward_loss_std": 0.23229460982052055, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0254244063351605, "train/reward_neg_acc": 0.9916314337704633, "train/reward_neg_loss": 0.027670385743919258, "train/reward_pos_acc": 0.9892541000971923, "train/reward_pos_loss": 0.7231955343001598, "train/reward_pred": 0.053645939289315325, "train/reward_rate": 0.05839579814189189, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.551821345868318e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4881522435209025e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0363562107086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0410923957824707, "timer/logger.write_frac": 0.0001369580550218803, "timer/logger.write_avg": 0.0410923957824707, "timer/logger.write_min": 0.0410923957824707, "timer/logger.write_max": 0.0410923957824707, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.3101012706756592, "timer/replay.add_frac": 0.0010335456495741543, "timer/replay.add_avg": 0.00021066662410031194, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.001172780990600586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.162567138671875, "timer/env.step_frac": 0.053868695590081346, "timer/env.step_avg": 0.01098000484964122, "timer/env.step_min": 0.0027294158935546875, "timer/env.step_max": 1.5772085189819336, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.864916563034058, "timer/agent.policy_frac": 0.036212000106426695, "timer/agent.policy_avg": 0.007381057447713354, "timer/agent.policy_min": 0.005706787109375, "timer/agent.policy_max": 0.016989469528198242, "timer/dataset_count": 736.0, "timer/dataset_total": 0.061568498611450195, "timer/dataset_frac": 0.00020520346063732377, "timer/dataset_avg": 8.365285137425299e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001780986785888672, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.9006793498993, "timer/agent.train_frac": 0.9062257747156138, "timer/agent.train_avg": 0.3694302708558414, "timer/agent.train_min": 0.3616361618041992, "timer/agent.train_max": 0.4277324676513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22655200958251953, "timer/agent.report_frac": 0.0007550818588911847, "timer/agent.report_avg": 0.22655200958251953, "timer/agent.report_min": 0.22655200958251953, "timer/agent.report_max": 0.22655200958251953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.905990303546654}
+{"step": 1407855, "episode/length": 477.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03138075313807531}
+{"step": 1408013, "episode/length": 157.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0949367088607595}
+{"step": 1408252, "episode/length": 238.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06276150627615062}
+{"step": 1408489, "episode/length": 236.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.700000025331974, "episode/reward_rate": 0.0759493670886076}
+{"step": 1408766, "episode/length": 276.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05776173285198556}
+{"step": 1409075, "episode/length": 308.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.045307443365695796}
+{"step": 1409163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426209343804254, "train/action_min": 0.0, "train/action_std": 3.3379107084539203, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03524554613977671, "train/actor_opt_grad_steps": 703675.0, "train/actor_opt_loss": -11.976511930012041, "train/adv_mag": 0.40350080529848736, "train/adv_max": 0.33646807571252185, "train/adv_mean": 0.001622133289351445, "train/adv_min": -0.3454623907390568, "train/adv_std": 0.03973542021897932, "train/cont_avg": 0.9953748914930556, "train/cont_loss_mean": 8.214191110441267e-05, "train/cont_loss_std": 0.002586370063070239, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.015989210098828095, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 4.711968089290666e-06, "train/cont_pred": 0.9953859150409698, "train/cont_rate": 0.9953748914930556, "train/dyn_loss_mean": 5.778855529096392, "train/dyn_loss_std": 9.038380834791395, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8519803144865565, "train/extr_critic_critic_opt_grad_steps": 703675.0, "train/extr_critic_critic_opt_loss": 14948.859185112848, "train/extr_critic_mag": 12.746407217449612, "train/extr_critic_max": 12.746407217449612, "train/extr_critic_mean": 3.649052527215746, "train/extr_critic_min": -0.407621325718032, "train/extr_critic_std": 3.0487355291843414, "train/extr_return_normed_mag": 1.389017128282123, "train/extr_return_normed_max": 1.389017128282123, "train/extr_return_normed_mean": 0.3871903357406457, "train/extr_return_normed_min": -0.06820079730823636, "train/extr_return_normed_std": 0.3144628202749623, "train/extr_return_rate": 0.8203405746155314, "train/extr_return_raw_mag": 13.447296738624573, "train/extr_return_raw_max": 13.447296738624573, "train/extr_return_raw_mean": 3.6648639142513275, "train/extr_return_raw_min": -0.7829951271414757, "train/extr_return_raw_std": 3.0710141393873425, "train/extr_reward_mag": 1.0866924557420943, "train/extr_reward_max": 1.0866924557420943, "train/extr_reward_mean": 0.06462992303487328, "train/extr_reward_min": -0.6058601985375086, "train/extr_reward_std": 0.24359891563653946, "train/image_loss_mean": 3.6277298629283905, "train/image_loss_std": 9.184766093889872, "train/model_loss_mean": 7.16305892335044, "train/model_loss_std": 13.309606883260939, "train/model_opt_grad_norm": 21.58406627178192, "train/model_opt_grad_steps": 703094.1527777778, "train/model_opt_loss": 19540.426879882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2743.0555555555557, "train/policy_entropy_mag": 2.737260162830353, "train/policy_entropy_max": 2.737260162830353, "train/policy_entropy_mean": 0.4796130326059129, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7047894228663709, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47958484043677646, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.096001148223877, "train/policy_randomness_mag": 0.9661327161722713, "train/policy_randomness_max": 0.9661327161722713, "train/policy_randomness_mean": 0.16928235534578562, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24875973910093307, "train/post_ent_mag": 54.97452635235257, "train/post_ent_max": 54.97452635235257, "train/post_ent_mean": 39.56981081432767, "train/post_ent_min": 19.7443282339308, "train/post_ent_std": 5.757928550243378, "train/prior_ent_mag": 76.81807475619846, "train/prior_ent_max": 76.81807475619846, "train/prior_ent_mean": 45.30944750044081, "train/prior_ent_min": 26.99871516227722, "train/prior_ent_std": 8.117689530054728, "train/rep_loss_mean": 5.778855529096392, "train/rep_loss_std": 9.038380834791395, "train/reward_avg": 0.05322401210044821, "train/reward_loss_mean": 0.06793357747503453, "train/reward_loss_std": 0.23687766016357475, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0323301156361897, "train/reward_neg_acc": 0.9911474560697874, "train/reward_neg_loss": 0.027822100686737232, "train/reward_pos_acc": 0.988220375445154, "train/reward_pos_loss": 0.7262336421344016, "train/reward_pred": 0.05274324677884579, "train/reward_rate": 0.057413736979166664, "stats/sum_log_reward": 14.59999974568685, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 5.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 16.166666666666668, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5602764238913854, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.639515747323921e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.45926122189889e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3491940498352, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034215688705444336, "timer/logger.write_frac": 0.00011391969541881682, "timer/logger.write_avg": 0.034215688705444336, "timer/logger.write_min": 0.034215688705444336, "timer/logger.write_max": 0.034215688705444336, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2929511070251465, "timer/replay.add_frac": 0.0009753683806341055, "timer/replay.add_avg": 0.00020287472785674964, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0011050701141357422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1444.0, "timer/env.step_total": 17.964307069778442, "timer/env.step_frac": 0.05981140427764134, "timer/env.step_avg": 0.012440655865497537, "timer/env.step_min": 0.002496480941772461, "timer/env.step_max": 1.5298511981964111, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 14.4224214553833, "timer/agent.policy_frac": 0.04801884520119695, "timer/agent.policy_avg": 0.009987826492647716, "timer/agent.policy_min": 0.0057260990142822266, "timer/agent.policy_max": 2.5597422122955322, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06035971641540527, "timer/dataset_frac": 0.00020096513528646305, "timer/dataset_avg": 8.3600715256794e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00022029876708984375, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.9033031463623, "timer/agent.train_frac": 0.8886433139623361, "timer/agent.train_avg": 0.3696721650226625, "timer/agent.train_min": 0.3616359233856201, "timer/agent.train_max": 0.4707033634185791, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1995246410369873, "timer/agent.report_frac": 0.000664308894412686, "timer/agent.report_avg": 0.1995246410369873, "timer/agent.report_min": 0.1995246410369873, "timer/agent.report_max": 0.1995246410369873, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004699230194091797, "timer/checkpoint.save_frac": 1.5645889142329714e-06, "timer/checkpoint.save_avg": 0.0004699230194091797, "timer/checkpoint.save_min": 0.0004699230194091797, "timer/checkpoint.save_max": 0.0004699230194091797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.270031213760376, "timer/agent.save_frac": 0.004228515471060818, "timer/agent.save_avg": 1.270031213760376, "timer/agent.save_min": 1.270031213760376, "timer/agent.save_max": 1.270031213760376, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010037422180175781, "timer/replay.save_frac": 3.3419174677426735e-07, "timer/replay.save_avg": 0.00010037422180175781, "timer/replay.save_min": 0.00010037422180175781, "timer/replay.save_max": 0.00010037422180175781, "fps": 4.8076324263917884}
+{"step": 1409266, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07853403141361257}
+{"step": 1409465, "episode/length": 198.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03015075376884422}
+{"step": 1409994, "episode/length": 528.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.030245746691871456}
+{"step": 1410402, "episode/length": 407.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.029411764705882353}
+{"step": 1410628, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06637168141592921}
+{"step": 1410633, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464225873555223, "train/action_min": 0.0, "train/action_std": 3.3908797910768693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033816956442921126, "train/actor_opt_grad_steps": 704400.0, "train/actor_opt_loss": -10.191700051092122, "train/adv_mag": 0.3705301778773739, "train/adv_max": 0.3035365134885866, "train/adv_mean": 0.0020016278088418127, "train/adv_min": -0.3351791701088213, "train/adv_std": 0.0387108382603077, "train/cont_avg": 0.9956255351027398, "train/cont_loss_mean": 1.1875583938812681e-06, "train/cont_loss_std": 3.309362270377061e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.38874111863266e-05, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 8.487916311784385e-07, "train/cont_pred": 0.9956250672471033, "train/cont_rate": 0.9956255351027398, "train/dyn_loss_mean": 5.645012953510023, "train/dyn_loss_std": 8.988636944391956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8264940046284297, "train/extr_critic_critic_opt_grad_steps": 704400.0, "train/extr_critic_critic_opt_loss": 14919.354264768835, "train/extr_critic_mag": 12.651337950196984, "train/extr_critic_max": 12.651337950196984, "train/extr_critic_mean": 3.5821501424867814, "train/extr_critic_min": -0.38149985221967303, "train/extr_critic_std": 2.9946123867818755, "train/extr_return_normed_mag": 1.3788316249847412, "train/extr_return_normed_max": 1.3788316249847412, "train/extr_return_normed_mean": 0.3768509701914983, "train/extr_return_normed_min": -0.05906128145958463, "train/extr_return_normed_std": 0.3079061181577918, "train/extr_return_rate": 0.8234651929711643, "train/extr_return_raw_mag": 13.43998916835001, "train/extr_return_raw_max": 13.43998916835001, "train/extr_return_raw_mean": 3.6018030578142977, "train/extr_return_raw_min": -0.6781651900239187, "train/extr_return_raw_std": 3.0232706233246684, "train/extr_reward_mag": 1.0932961032815176, "train/extr_reward_max": 1.0932961032815176, "train/extr_reward_mean": 0.06435600795770345, "train/extr_reward_min": -0.6104410021272424, "train/extr_reward_std": 0.24275174145012685, "train/image_loss_mean": 3.6491185181761443, "train/image_loss_std": 8.944364926586413, "train/model_loss_mean": 7.102443910624883, "train/model_loss_std": 13.05651206186373, "train/model_opt_grad_norm": 17.85903700737104, "train/model_opt_grad_steps": 703818.8904109589, "train/model_opt_loss": 24048.000227418663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3390.4109589041095, "train/policy_entropy_mag": 2.747942375810179, "train/policy_entropy_max": 2.747942375810179, "train/policy_entropy_mean": 0.48819949733067863, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7138433040004887, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48914832285005755, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.1039303949434462, "train/policy_randomness_mag": 0.9699030689997216, "train/policy_randomness_max": 0.9699030689997216, "train/policy_randomness_mean": 0.17231299830217883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2519553601741791, "train/post_ent_mag": 55.10334098502381, "train/post_ent_max": 55.10334098502381, "train/post_ent_mean": 39.741561053550406, "train/post_ent_min": 19.789974826655975, "train/post_ent_std": 5.799050213539437, "train/prior_ent_mag": 76.76529850371897, "train/prior_ent_max": 76.76529850371897, "train/prior_ent_mean": 45.35609284492388, "train/prior_ent_min": 26.528151368441648, "train/prior_ent_std": 8.052778387722904, "train/rep_loss_mean": 5.645012953510023, "train/rep_loss_std": 8.988636944391956, "train/reward_avg": 0.053653413633981795, "train/reward_loss_mean": 0.06631646116506563, "train/reward_loss_std": 0.23013936615970038, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0337142911675858, "train/reward_neg_acc": 0.9916422146640412, "train/reward_neg_loss": 0.02593179020316225, "train/reward_pos_acc": 0.9899260622181304, "train/reward_pos_loss": 0.7268633768983084, "train/reward_pred": 0.053125059155568685, "train/reward_rate": 0.05768407534246575, "stats/sum_log_reward": 11.700000095367432, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 18.2, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.7001086711883545, "replay/size": 1000000.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.66759138042424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4080887749081566e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19197249412537, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03459787368774414, "timer/logger.write_frac": 0.00011525249459634103, "timer/logger.write_avg": 0.03459787368774414, "timer/logger.write_min": 0.03459787368774414, "timer/logger.write_max": 0.03459787368774414, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.29778265953063965, "timer/replay.add_frac": 0.0009919740926332304, "timer/replay.add_avg": 0.00020257323777594534, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.0011169910430908203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1470.0, "timer/env.step_total": 16.456310033798218, "timer/env.step_frac": 0.054819287461526846, "timer/env.step_avg": 0.011194768730474978, "timer/env.step_min": 0.002970457077026367, "timer/env.step_max": 1.5784738063812256, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.759846925735474, "timer/agent.policy_frac": 0.03584322004462008, "timer/agent.policy_avg": 0.0073196237590037235, "timer/agent.policy_min": 0.00573420524597168, "timer/agent.policy_max": 0.018813610076904297, "timer/dataset_count": 735.0, "timer/dataset_total": 0.0606541633605957, "timer/dataset_frac": 0.0002020512502604735, "timer/dataset_avg": 8.252267123890572e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.9037606716156, "timer/agent.train_frac": 0.9057662615443077, "timer/agent.train_avg": 0.3699370893491369, "timer/agent.train_min": 0.3640005588531494, "timer/agent.train_max": 0.38479113578796387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20114445686340332, "timer/agent.report_frac": 0.0006700527505522808, "timer/agent.report_avg": 0.20114445686340332, "timer/agent.report_min": 0.20114445686340332, "timer/agent.report_max": 0.20114445686340332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.896781364311392}
+{"step": 1410879, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.055776892430278883}
+{"step": 1411044, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
+{"step": 1411233, "episode/length": 188.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07936507936507936}
+{"step": 1411434, "episode/length": 200.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.06965174129353234}
+{"step": 1411629, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05641025641025641}
+{"step": 1411819, "episode/length": 189.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.08421052631578947}
+{"step": 1412052, "episode/length": 232.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.06866952789699571}
+{"step": 1412089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.546150103007277, "train/action_min": 0.0, "train/action_std": 3.425481133265038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03340280821470365, "train/actor_opt_grad_steps": 705130.0, "train/actor_opt_loss": -11.779526615796025, "train/adv_mag": 0.3880217875519844, "train/adv_max": 0.3333064144196576, "train/adv_mean": 0.001208828743448029, "train/adv_min": -0.3377217511608176, "train/adv_std": 0.03793874400833698, "train/cont_avg": 0.9954917594178082, "train/cont_loss_mean": 5.407301836205236e-05, "train/cont_loss_std": 0.0017237410606024668, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.007411506837615991, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 1.1252501500145473e-05, "train/cont_pred": 0.9954971434318856, "train/cont_rate": 0.9954917594178082, "train/dyn_loss_mean": 5.626083537323834, "train/dyn_loss_std": 8.924028331286287, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8596052168166801, "train/extr_critic_critic_opt_grad_steps": 705130.0, "train/extr_critic_critic_opt_loss": 14756.204743685788, "train/extr_critic_mag": 12.67373872783086, "train/extr_critic_max": 12.67373872783086, "train/extr_critic_mean": 3.620026310829267, "train/extr_critic_min": -0.40378383577686466, "train/extr_critic_std": 3.0821592807769775, "train/extr_return_normed_mag": 1.3722178413443369, "train/extr_return_normed_max": 1.3722178413443369, "train/extr_return_normed_mean": 0.37897731118822753, "train/extr_return_normed_min": -0.06123061539375619, "train/extr_return_normed_std": 0.3147252985875901, "train/extr_return_rate": 0.816892342208183, "train/extr_return_raw_mag": 13.430131624822748, "train/extr_return_raw_max": 13.430131624822748, "train/extr_return_raw_mean": 3.631947442276837, "train/extr_return_raw_min": -0.7110795484830256, "train/extr_return_raw_std": 3.1050740986654204, "train/extr_reward_mag": 1.0905709821883947, "train/extr_reward_max": 1.0905709821883947, "train/extr_reward_mean": 0.06197783233572359, "train/extr_reward_min": -0.5759306117279889, "train/extr_reward_std": 0.2391829213050947, "train/image_loss_mean": 3.491948261652907, "train/image_loss_std": 8.594853205223606, "train/model_loss_mean": 6.933844625133357, "train/model_loss_std": 12.646966215682356, "train/model_opt_grad_norm": 19.805662168396843, "train/model_opt_grad_steps": 704547.698630137, "train/model_opt_loss": 14817.239839736729, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2123.2876712328766, "train/policy_entropy_mag": 2.763131510721494, "train/policy_entropy_max": 2.763131510721494, "train/policy_entropy_mean": 0.5239717613344324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7565018632640578, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.523191946826569, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.1257822864676175, "train/policy_randomness_mag": 0.9752641663159409, "train/policy_randomness_max": 0.9752641663159409, "train/policy_randomness_mean": 0.1849390396924868, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2670119594629497, "train/post_ent_mag": 55.050754494863014, "train/post_ent_max": 55.050754494863014, "train/post_ent_mean": 39.67440565971479, "train/post_ent_min": 19.437194693578434, "train/post_ent_std": 5.76252645988987, "train/prior_ent_mag": 76.74401395614834, "train/prior_ent_max": 76.74401395614834, "train/prior_ent_mean": 45.25911822384351, "train/prior_ent_min": 27.14287574977091, "train/prior_ent_std": 8.009544999632118, "train/rep_loss_mean": 5.626083537323834, "train/rep_loss_std": 8.924028331286287, "train/reward_avg": 0.05179928255918091, "train/reward_loss_mean": 0.06619218690958742, "train/reward_loss_std": 0.23165932256881505, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.032147613290238, "train/reward_neg_acc": 0.9916114766303807, "train/reward_neg_loss": 0.027491670293248678, "train/reward_pos_acc": 0.9907372936810532, "train/reward_pos_loss": 0.7188545179693666, "train/reward_pred": 0.05156620492367712, "train/reward_rate": 0.05593161386986301, "stats/sum_log_reward": 12.671428952898298, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.36357482203415464, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.5482776034009326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3935860696729724e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99910068511963, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028759002685546875, "timer/logger.write_frac": 9.586362965711837e-05, "timer/logger.write_avg": 0.028759002685546875, "timer/logger.write_min": 0.028759002685546875, "timer/logger.write_max": 0.028759002685546875, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2832503318786621, "timer/replay.add_frac": 0.0009441706032844509, "timer/replay.add_avg": 0.00019454006310347673, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0026895999908447266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.116344690322876, "timer/env.step_frac": 0.06372133998624041, "timer/env.step_avg": 0.013129357616979998, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.6248388290405273, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.593381643295288, "timer/agent.policy_frac": 0.035311377997809895, "timer/agent.policy_avg": 0.00727567420555995, "timer/agent.policy_min": 0.005602121353149414, "timer/agent.policy_max": 0.015607357025146484, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05836892127990723, "timer/dataset_frac": 0.00019456365417965535, "timer/dataset_avg": 8.017708967020223e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00018930435180664062, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.2530870437622, "timer/agent.train_frac": 0.8975129806351367, "timer/agent.train_avg": 0.3698531415436294, "timer/agent.train_min": 0.3630855083465576, "timer/agent.train_max": 0.38211989402770996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19872641563415527, "timer/agent.report_frac": 0.0006624233712045004, "timer/agent.report_avg": 0.19872641563415527, "timer/agent.report_min": 0.19872641563415527, "timer/agent.report_max": 0.19872641563415527, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.853256451319977}
+{"step": 1412350, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.050335570469798654}
+{"step": 1412590, "episode/length": 239.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.06666666666666667}
+{"step": 1412929, "episode/length": 338.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.04424778761061947}
+{"step": 1413173, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06147540983606557}
+{"step": 1413545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474828432684076, "train/action_min": 0.0, "train/action_std": 3.397112865970559, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033420124716342314, "train/actor_opt_grad_steps": 705860.0, "train/actor_opt_loss": -12.391350441599545, "train/adv_mag": 0.39780501674299373, "train/adv_max": 0.3256404377418022, "train/adv_mean": 0.0014500846468327425, "train/adv_min": -0.34992089622641265, "train/adv_std": 0.03834123307303207, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 2.405394816681932e-05, "train/cont_loss_std": 0.0006940010282645843, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001759152302200187, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.2837494239387561e-05, "train/cont_pred": 0.9952617156995486, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.75638356927323, "train/dyn_loss_std": 9.021986817660396, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8097041167625009, "train/extr_critic_critic_opt_grad_steps": 705860.0, "train/extr_critic_critic_opt_loss": 14742.43679098887, "train/extr_critic_mag": 12.815162188386264, "train/extr_critic_max": 12.815162188386264, "train/extr_critic_mean": 3.6553520045868337, "train/extr_critic_min": -0.39748403470810145, "train/extr_critic_std": 3.124888300895691, "train/extr_return_normed_mag": 1.3897488509138969, "train/extr_return_normed_max": 1.3897488509138969, "train/extr_return_normed_mean": 0.38170326735875376, "train/extr_return_normed_min": -0.05314663590939894, "train/extr_return_normed_std": 0.31730878393943995, "train/extr_return_rate": 0.8119007234704004, "train/extr_return_raw_mag": 13.683894301114018, "train/extr_return_raw_max": 13.683894301114018, "train/extr_return_raw_mean": 3.669746555694162, "train/extr_return_raw_min": -0.6504340249381654, "train/extr_return_raw_std": 3.1523615938343412, "train/extr_reward_mag": 1.0898728174706027, "train/extr_reward_max": 1.0898728174706027, "train/extr_reward_mean": 0.06406944525772579, "train/extr_reward_min": -0.5626835610768567, "train/extr_reward_std": 0.24306015751949728, "train/image_loss_mean": 3.656648968997067, "train/image_loss_std": 8.959281594785926, "train/model_loss_mean": 7.177237896070088, "train/model_loss_std": 13.056860152989218, "train/model_opt_grad_norm": 20.303332746845403, "train/model_opt_grad_steps": 705277.0, "train/model_opt_loss": 8971.547396725171, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.760725103012503, "train/policy_entropy_max": 2.760725103012503, "train/policy_entropy_mean": 0.5109762912743712, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7519032906179559, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5104522256002034, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.123663349510872, "train/policy_randomness_mag": 0.9744148099259154, "train/policy_randomness_max": 0.9744148099259154, "train/policy_randomness_mean": 0.1803522095696567, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26538886293156505, "train/post_ent_mag": 55.281537199673586, "train/post_ent_max": 55.281537199673586, "train/post_ent_mean": 39.71947609888364, "train/post_ent_min": 19.14969432517274, "train/post_ent_std": 5.7615456842396355, "train/prior_ent_mag": 76.75817965154778, "train/prior_ent_max": 76.75817965154778, "train/prior_ent_mean": 45.39757799122432, "train/prior_ent_min": 26.959363231920218, "train/prior_ent_std": 8.025895615146585, "train/rep_loss_mean": 5.75638356927323, "train/rep_loss_std": 9.021986817660396, "train/reward_avg": 0.052383882491147685, "train/reward_loss_mean": 0.06673477845240945, "train/reward_loss_std": 0.22711575051693067, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.0387725666777727, "train/reward_neg_acc": 0.9915968432818374, "train/reward_neg_loss": 0.027776728601080096, "train/reward_pos_acc": 0.9915150771402332, "train/reward_pos_loss": 0.7143452151180947, "train/reward_pred": 0.05207453632395562, "train/reward_rate": 0.0566941352739726, "stats/sum_log_reward": 14.350000143051147, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 17.25, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6769653409719467, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.610829730610271e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3919281108038767e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0780837535858, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03161907196044922, "timer/logger.write_frac": 0.00010536948105285074, "timer/logger.write_avg": 0.03161907196044922, "timer/logger.write_min": 0.03161907196044922, "timer/logger.write_max": 0.03161907196044922, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27681827545166016, "timer/replay.add_frac": 0.0009224874805551416, "timer/replay.add_avg": 0.00019012244193108527, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.00124359130859375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.76734447479248, "timer/env.step_frac": 0.05587660473252445, "timer/env.step_avg": 0.011516033293126704, "timer/env.step_min": 0.0028252601623535156, "timer/env.step_max": 1.8953070640563965, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 12.67586636543274, "timer/agent.policy_frac": 0.0422418931995105, "timer/agent.policy_avg": 0.008705952174060947, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 1.449254035949707, "timer/dataset_count": 728.0, "timer/dataset_total": 0.058489084243774414, "timer/dataset_frac": 0.00019491288238098625, "timer/dataset_avg": 8.034214868650332e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.61278438568115, "timer/agent.train_frac": 0.8984754268394963, "timer/agent.train_avg": 0.3703472312990126, "timer/agent.train_min": 0.36365652084350586, "timer/agent.train_max": 0.9017724990844727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19852590560913086, "timer/agent.report_frac": 0.0006615808229839063, "timer/agent.report_avg": 0.19852590560913086, "timer/agent.report_min": 0.19852590560913086, "timer/agent.report_max": 0.19852590560913086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022792816162109375, "timer/checkpoint.save_frac": 7.595628403447844e-07, "timer/checkpoint.save_avg": 0.00022792816162109375, "timer/checkpoint.save_min": 0.00022792816162109375, "timer/checkpoint.save_max": 0.00022792816162109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4610443115234375, "timer/agent.save_frac": 0.004868880436877218, "timer/agent.save_avg": 1.4610443115234375, "timer/agent.save_min": 1.4610443115234375, "timer/agent.save_max": 1.4610443115234375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.059906005859375e-05, "timer/replay.save_frac": 3.0191828381905657e-07, "timer/replay.save_avg": 9.059906005859375e-05, "timer/replay.save_min": 9.059906005859375e-05, "timer/replay.save_max": 9.059906005859375e-05, "fps": 4.851971922109337}
+{"step": 1413561, "episode/length": 387.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.03608247422680412}
+{"step": 1413736, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
+{"step": 1413921, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07567567567567568}
+{"step": 1414131, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06666666666666667}
+{"step": 1414331, "episode/length": 199.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.075}
+{"step": 1414531, "episode/length": 199.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04}
+{"step": 1414774, "episode/length": 242.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04938271604938271}
+{"step": 1414997, "episode/length": 222.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.07174887892376682}
+{"step": 1414998, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4469451904296875, "train/action_min": 0.0, "train/action_std": 3.4126096268494925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03258530348021951, "train/actor_opt_grad_steps": 706585.0, "train/actor_opt_loss": -12.769417110416624, "train/adv_mag": 0.3731388621446159, "train/adv_max": 0.3084580573356814, "train/adv_mean": 0.0012156702639458672, "train/adv_min": -0.33619683649804855, "train/adv_std": 0.03740991297591892, "train/cont_avg": 0.9956190321180556, "train/cont_loss_mean": 0.00016257332368674327, "train/cont_loss_std": 0.004331373140158313, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.02684085037052, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 3.178836808635942e-05, "train/cont_pred": 0.9956234676970376, "train/cont_rate": 0.9956190321180556, "train/dyn_loss_mean": 5.799621476067437, "train/dyn_loss_std": 9.015015072292751, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8117712628510263, "train/extr_critic_critic_opt_grad_steps": 706585.0, "train/extr_critic_critic_opt_loss": 14809.212280273438, "train/extr_critic_mag": 12.80897561709086, "train/extr_critic_max": 12.80897561709086, "train/extr_critic_mean": 3.5438230799304113, "train/extr_critic_min": -0.4374263965421253, "train/extr_critic_std": 3.0787661969661713, "train/extr_return_normed_mag": 1.3809973746538162, "train/extr_return_normed_max": 1.3809973746538162, "train/extr_return_normed_mean": 0.3719173088255856, "train/extr_return_normed_min": -0.06392330986758073, "train/extr_return_normed_std": 0.31359623186290264, "train/extr_return_rate": 0.8052517796556155, "train/extr_return_raw_mag": 13.538896653387281, "train/extr_return_raw_max": 13.538896653387281, "train/extr_return_raw_mean": 3.5558469461070166, "train/extr_return_raw_min": -0.7559187391565906, "train/extr_return_raw_std": 3.1026449269718595, "train/extr_reward_mag": 1.0884230501121945, "train/extr_reward_max": 1.0884230501121945, "train/extr_reward_mean": 0.06288235831177896, "train/extr_reward_min": -0.6201251099507014, "train/extr_reward_std": 0.24071691247324148, "train/image_loss_mean": 3.7166452639632754, "train/image_loss_std": 8.881655467881096, "train/model_loss_mean": 7.263510300053491, "train/model_loss_std": 13.007932172881233, "train/model_opt_grad_norm": 18.756456481085884, "train/model_opt_grad_steps": 706002.0, "train/model_opt_loss": 17379.509589301215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2395.8333333333335, "train/policy_entropy_mag": 2.7452733715375266, "train/policy_entropy_max": 2.7452733715375266, "train/policy_entropy_mean": 0.5128224343061447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7428238193194071, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5136322105924288, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.1233095584644213, "train/policy_randomness_mag": 0.9689610252777735, "train/policy_randomness_max": 0.9689610252777735, "train/policy_randomness_mean": 0.18100381559795803, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26218421053555274, "train/post_ent_mag": 55.48597526550293, "train/post_ent_max": 55.48597526550293, "train/post_ent_mean": 39.63533475663927, "train/post_ent_min": 18.973555697335136, "train/post_ent_std": 5.9156709048483105, "train/prior_ent_mag": 76.74006832970514, "train/prior_ent_max": 76.74006832970514, "train/prior_ent_mean": 45.4063507715861, "train/prior_ent_min": 26.95565170711941, "train/prior_ent_std": 8.11054958237542, "train/rep_loss_mean": 5.799621476067437, "train/rep_loss_std": 9.015015072292751, "train/reward_avg": 0.052560763718146414, "train/reward_loss_mean": 0.06692962203588751, "train/reward_loss_std": 0.23042498011555937, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0305523872375488, "train/reward_neg_acc": 0.9918628666136, "train/reward_neg_loss": 0.0272123569674376, "train/reward_pos_acc": 0.9888886933525404, "train/reward_pos_loss": 0.7264829037917985, "train/reward_pred": 0.05191916853396429, "train/reward_rate": 0.056708441840277776, "stats/sum_log_reward": 12.100000083446503, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 11.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5296859890222549, "replay/size": 1000000.0, "replay/inserts": 1453.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.6200899464134012e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3804920120344346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.67322158813477, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.037201642990112305, "timer/logger.write_frac": 0.00012372782249651582, "timer/logger.write_avg": 0.037201642990112305, "timer/logger.write_min": 0.037201642990112305, "timer/logger.write_max": 0.037201642990112305, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.2846674919128418, "timer/replay.add_frac": 0.0009467670263725122, "timer/replay.add_avg": 0.00019591706256905835, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0032591819763183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1453.0, "timer/env.step_total": 20.582474946975708, "timer/env.step_frac": 0.0684546327014442, "timer/env.step_avg": 0.014165502372316386, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.5840120315551758, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.519263505935669, "timer/agent.policy_frac": 0.03498570125524867, "timer/agent.policy_avg": 0.007239685826521451, "timer/agent.policy_min": 0.005629777908325195, "timer/agent.policy_max": 0.01678776741027832, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05805563926696777, "timer/dataset_frac": 0.00019308549980048766, "timer/dataset_avg": 7.996644527130548e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001327991485595703, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.51929545402527, "timer/agent.train_frac": 0.8930602267662058, "timer/agent.train_avg": 0.36986128850416705, "timer/agent.train_min": 0.36347031593322754, "timer/agent.train_max": 0.38259458541870117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20505213737487793, "timer/agent.report_frac": 0.0006819767197484598, "timer/agent.report_avg": 0.20505213737487793, "timer/agent.report_min": 0.20505213737487793, "timer/agent.report_max": 0.20505213737487793, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.832413369940983}
+{"step": 1415176, "episode/length": 178.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08379888268156424}
+{"step": 1415472, "episode/length": 295.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.0472972972972973}
+{"step": 1416048, "episode/length": 575.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.300000049173832, "episode/reward_rate": 0.024305555555555556}
+{"step": 1416264, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06944444444444445}
+{"step": 1416463, "episode/length": 198.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.03015075376884422}
+{"step": 1416473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.547674230627112, "train/action_min": 0.0, "train/action_std": 3.4611069737253963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03428106614061304, "train/actor_opt_grad_steps": 707315.0, "train/actor_opt_loss": -11.575062195996981, "train/adv_mag": 0.41122177525146586, "train/adv_max": 0.3270438313484192, "train/adv_mean": 0.0016382629390234895, "train/adv_min": -0.3618823537552679, "train/adv_std": 0.038419487609251124, "train/cont_avg": 0.995433910472973, "train/cont_loss_mean": 9.700276120224157e-06, "train/cont_loss_std": 0.0002432350041810632, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006735846429647629, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 5.78887647679411e-06, "train/cont_pred": 0.9954318895533278, "train/cont_rate": 0.995433910472973, "train/dyn_loss_mean": 5.801217530224775, "train/dyn_loss_std": 9.053687450048086, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.7885926373907037, "train/extr_critic_critic_opt_grad_steps": 707315.0, "train/extr_critic_critic_opt_loss": 14782.433013091217, "train/extr_critic_mag": 12.84567521069501, "train/extr_critic_max": 12.84567521069501, "train/extr_critic_mean": 3.602202315588255, "train/extr_critic_min": -0.40463906687659185, "train/extr_critic_std": 3.1166111198631494, "train/extr_return_normed_mag": 1.3810316614202551, "train/extr_return_normed_max": 1.3810316614202551, "train/extr_return_normed_mean": 0.37984565705866424, "train/extr_return_normed_min": -0.060892964260199585, "train/extr_return_normed_std": 0.3189882483031299, "train/extr_return_rate": 0.8042194964112462, "train/extr_return_raw_mag": 13.469486249459756, "train/extr_return_raw_max": 13.469486249459756, "train/extr_return_raw_mean": 3.6183378728660376, "train/extr_return_raw_min": -0.7179279126025535, "train/extr_return_raw_std": 3.1385571988853247, "train/extr_reward_mag": 1.0898723570076194, "train/extr_reward_max": 1.0898723570076194, "train/extr_reward_mean": 0.06350561085383634, "train/extr_reward_min": -0.6016377355601337, "train/extr_reward_std": 0.2422807500571818, "train/image_loss_mean": 3.7395369426624194, "train/image_loss_std": 9.19967793129586, "train/model_loss_mean": 7.287050144092457, "train/model_loss_std": 13.31815682230769, "train/model_opt_grad_norm": 18.87322032773817, "train/model_opt_grad_steps": 706731.6351351351, "train/model_opt_loss": 21355.70094752956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2939.189189189189, "train/policy_entropy_mag": 2.752488667900498, "train/policy_entropy_max": 2.752488667900498, "train/policy_entropy_mean": 0.5241057449901426, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7573398452352833, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.525764650589711, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.1331906697234593, "train/policy_randomness_mag": 0.9715077111849914, "train/policy_randomness_max": 0.9715077111849914, "train/policy_randomness_mean": 0.18498633046810692, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2673077325563173, "train/post_ent_mag": 55.45005153965305, "train/post_ent_max": 55.45005153965305, "train/post_ent_mean": 39.73731845134014, "train/post_ent_min": 19.771788249144684, "train/post_ent_std": 5.889625607310115, "train/prior_ent_mag": 76.80939947592246, "train/prior_ent_max": 76.80939947592246, "train/prior_ent_mean": 45.45302669422047, "train/prior_ent_min": 26.961988913046348, "train/prior_ent_std": 8.16998906393309, "train/rep_loss_mean": 5.801217530224775, "train/rep_loss_std": 9.053687450048086, "train/reward_avg": 0.051772328722919966, "train/reward_loss_mean": 0.06677300583671879, "train/reward_loss_std": 0.23574530111776815, "train/reward_max_data": 1.0459459569003131, "train/reward_max_pred": 1.0437233737997107, "train/reward_neg_acc": 0.9919084213875435, "train/reward_neg_loss": 0.027828585079594237, "train/reward_pos_acc": 0.989021696754404, "train/reward_pos_loss": 0.7225655542837607, "train/reward_pred": 0.05135126512598347, "train/reward_rate": 0.05615234375, "stats/sum_log_reward": 11.700000095367432, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 5.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 11.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 1.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6977902054786682, "replay/size": 1000000.0, "replay/inserts": 1475.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.5837141133971135e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3889982125300379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2195682525635, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028872251510620117, "timer/logger.write_frac": 9.617045177525196e-05, "timer/logger.write_avg": 0.028872251510620117, "timer/logger.write_min": 0.028872251510620117, "timer/logger.write_max": 0.028872251510620117, "timer/replay.add_count": 1475.0, "timer/replay.add_total": 0.27288389205932617, "timer/replay.add_frac": 0.0009089477199892553, "timer/replay.add_avg": 0.0001850060285147974, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0006349086761474609, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1475.0, "timer/env.step_total": 15.80110216140747, "timer/env.step_frac": 0.052631819615817296, "timer/env.step_avg": 0.010712611634852523, "timer/env.step_min": 0.0029463768005371094, "timer/env.step_max": 1.571242094039917, "timer/agent.policy_count": 1475.0, "timer/agent.policy_total": 10.614341259002686, "timer/agent.policy_frac": 0.03535526122025876, "timer/agent.policy_avg": 0.0071961635654255495, "timer/agent.policy_min": 0.005686759948730469, "timer/agent.policy_max": 0.015111923217773438, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05883526802062988, "timer/dataset_frac": 0.00019597412774617666, "timer/dataset_avg": 7.972258539380742e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 738.0, "timer/agent.train_total": 272.78119587898254, "timer/agent.train_frac": 0.9086056497473274, "timer/agent.train_avg": 0.36962221663818773, "timer/agent.train_min": 0.36310601234436035, "timer/agent.train_max": 0.38082242012023926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20081186294555664, "timer/agent.report_frac": 0.0006688833246759623, "timer/agent.report_avg": 0.20081186294555664, "timer/agent.report_min": 0.20081186294555664, "timer/agent.report_max": 0.20081186294555664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.91299652366136}
+{"step": 1416536, "episode/length": 72.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.1232876712328767}
+{"step": 1416690, "episode/length": 153.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.09740259740259741}
+{"step": 1416888, "episode/length": 197.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.299999982118607, "episode/reward_rate": 0.08080808080808081}
+{"step": 1417214, "episode/length": 325.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.049079754601226995}
+{"step": 1417387, "episode/length": 172.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07514450867052024}
+{"step": 1417595, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07211538461538461}
+{"step": 1417751, "episode/length": 155.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0641025641025641}
+{"step": 1417910, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4842885335286455, "train/action_min": 0.0, "train/action_std": 3.373305857181549, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0342526591848582, "train/actor_opt_grad_steps": 708045.0, "train/actor_opt_loss": -10.93322698606385, "train/adv_mag": 0.39538413989875054, "train/adv_max": 0.3285963262120883, "train/adv_mean": 0.00199513884975507, "train/adv_min": -0.34581568443940747, "train/adv_std": 0.039118995838281184, "train/cont_avg": 0.9951985677083334, "train/cont_loss_mean": 8.243667926214707e-06, "train/cont_loss_std": 0.00022427268794977806, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.2665049884956152e-05, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 8.164767132957786e-06, "train/cont_pred": 0.9951908671193652, "train/cont_rate": 0.9951985677083334, "train/dyn_loss_mean": 5.8138810528649225, "train/dyn_loss_std": 9.140029827753702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8240489794148339, "train/extr_critic_critic_opt_grad_steps": 708045.0, "train/extr_critic_critic_opt_loss": 14781.202162000867, "train/extr_critic_mag": 12.774037665790981, "train/extr_critic_max": 12.774037665790981, "train/extr_critic_mean": 3.6647216545210943, "train/extr_critic_min": -0.37802987959649825, "train/extr_critic_std": 3.127525101105372, "train/extr_return_normed_mag": 1.3877919945451949, "train/extr_return_normed_max": 1.3877919945451949, "train/extr_return_normed_mean": 0.38659626038538086, "train/extr_return_normed_min": -0.053534375296698675, "train/extr_return_normed_std": 0.3212037889493836, "train/extr_return_rate": 0.8099881104297109, "train/extr_return_raw_mag": 13.526217685805427, "train/extr_return_raw_max": 13.526217685805427, "train/extr_return_raw_mean": 3.684332092603048, "train/extr_return_raw_min": -0.6422006123595767, "train/extr_return_raw_std": 3.157542967134052, "train/extr_reward_mag": 1.0911097990141974, "train/extr_reward_max": 1.0911097990141974, "train/extr_reward_mean": 0.06476953092755543, "train/extr_reward_min": -0.5488298618131213, "train/extr_reward_std": 0.24395573056406444, "train/image_loss_mean": 3.750214354859458, "train/image_loss_std": 9.33450252479977, "train/model_loss_mean": 7.306750800874498, "train/model_loss_std": 13.44357795185513, "train/model_opt_grad_norm": 19.85651965936025, "train/model_opt_grad_steps": 707461.0, "train/model_opt_loss": 18266.876980251734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.756608350409402, "train/policy_entropy_max": 2.756608350409402, "train/policy_entropy_mean": 0.49213529502352077, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7180937425129943, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4920346380935775, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.1043601151969697, "train/policy_randomness_mag": 0.9729617792699072, "train/policy_randomness_max": 0.9729617792699072, "train/policy_randomness_mean": 0.1737021632078621, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2534555790738927, "train/post_ent_mag": 55.07474374771118, "train/post_ent_max": 55.07474374771118, "train/post_ent_mean": 39.778771294487846, "train/post_ent_min": 19.497868325975205, "train/post_ent_std": 5.819723520014021, "train/prior_ent_mag": 76.753203286065, "train/prior_ent_max": 76.753203286065, "train/prior_ent_mean": 45.505878607432045, "train/prior_ent_min": 27.046601004070705, "train/prior_ent_std": 8.071680492824978, "train/rep_loss_mean": 5.8138810528649225, "train/rep_loss_std": 9.140029827753702, "train/reward_avg": 0.0544894740709828, "train/reward_loss_mean": 0.0681995892793768, "train/reward_loss_std": 0.23850823587013614, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0290510455767314, "train/reward_neg_acc": 0.9921869478291936, "train/reward_neg_loss": 0.027224840492837958, "train/reward_pos_acc": 0.9874988694985708, "train/reward_pos_loss": 0.7297190237376425, "train/reward_pred": 0.05399748310446739, "train/reward_rate": 0.05859375, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.40961953146117075, "replay/size": 1000000.0, "replay/inserts": 1437.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.6366714233313487e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3882361746764118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34630846977234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022701501846313477, "timer/logger.write_frac": 7.558442107037988e-05, "timer/logger.write_avg": 0.022701501846313477, "timer/logger.write_min": 0.022701501846313477, "timer/logger.write_max": 0.022701501846313477, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.26897168159484863, "timer/replay.add_frac": 0.0008955384967613766, "timer/replay.add_avg": 0.00018717583966238596, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0007121562957763672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1437.0, "timer/env.step_total": 21.84335684776306, "timer/env.step_frac": 0.07272723596654905, "timer/env.step_avg": 0.015200665864831637, "timer/env.step_min": 0.002997875213623047, "timer/env.step_max": 2.533210277557373, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 12.17270803451538, "timer/agent.policy_frac": 0.040528908434179986, "timer/agent.policy_avg": 0.008470917212606389, "timer/agent.policy_min": 0.005723476409912109, "timer/agent.policy_max": 1.190816879272461, "timer/dataset_count": 718.0, "timer/dataset_total": 0.057309627532958984, "timer/dataset_frac": 0.00019081182593834602, "timer/dataset_avg": 7.981842274785373e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015163421630859375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 265.3219060897827, "timer/agent.train_frac": 0.8833866060867048, "timer/agent.train_avg": 0.369529117116689, "timer/agent.train_min": 0.36328983306884766, "timer/agent.train_max": 0.38480305671691895, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20476698875427246, "timer/agent.report_frac": 0.00068176962053416, "timer/agent.report_avg": 0.20476698875427246, "timer/agent.report_min": 0.20476698875427246, "timer/agent.report_max": 0.20476698875427246, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003535747528076172, "timer/checkpoint.save_frac": 1.1772235677176698e-06, "timer/checkpoint.save_avg": 0.0003535747528076172, "timer/checkpoint.save_min": 0.0003535747528076172, "timer/checkpoint.save_max": 0.0003535747528076172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2018218040466309, "timer/agent.save_frac": 0.004001453555962668, "timer/agent.save_avg": 1.2018218040466309, "timer/agent.save_min": 1.2018218040466309, "timer/agent.save_max": 1.2018218040466309, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.452879854516251e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "fps": 4.784394850028535}
+{"step": 1417961, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07142857142857142}
+{"step": 1418198, "episode/length": 236.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05907172995780591}
+{"step": 1418426, "episode/length": 227.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06140350877192982}
+{"step": 1418633, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07246376811594203}
+{"step": 1418817, "episode/length": 183.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.08695652173913043}
+{"step": 1419099, "episode/length": 281.0, "episode/score": 17.100000023841858, "episode/sum_abs_reward": 19.10000005364418, "episode/reward_rate": 0.06382978723404255}
+{"step": 1419304, "episode/length": 204.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07317073170731707}
+{"step": 1419367, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484454429312928, "train/action_min": 0.0, "train/action_std": 3.4232845600337196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03360679694642759, "train/actor_opt_grad_steps": 708770.0, "train/actor_opt_loss": -12.97055206192683, "train/adv_mag": 0.3822258919069212, "train/adv_max": 0.31447550348223074, "train/adv_mean": 0.0015055086010288008, "train/adv_min": -0.34142616921908236, "train/adv_std": 0.03835670910265348, "train/cont_avg": 0.9955051369863014, "train/cont_loss_mean": 5.111633074554684e-05, "train/cont_loss_std": 0.0015528618896745658, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.009845152275684017, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 9.089252674710858e-06, "train/cont_pred": 0.9955145675842076, "train/cont_rate": 0.9955051369863014, "train/dyn_loss_mean": 5.838578021689637, "train/dyn_loss_std": 9.090021486151707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8140815921025734, "train/extr_critic_critic_opt_grad_steps": 708770.0, "train/extr_critic_critic_opt_loss": 14979.570513163528, "train/extr_critic_mag": 12.687514305114746, "train/extr_critic_max": 12.687514305114746, "train/extr_critic_mean": 3.48932216592031, "train/extr_critic_min": -0.369234854227876, "train/extr_critic_std": 3.0769369373582816, "train/extr_return_normed_mag": 1.3777142403876945, "train/extr_return_normed_max": 1.3777142403876945, "train/extr_return_normed_mean": 0.36894913936314516, "train/extr_return_normed_min": -0.061254588708485644, "train/extr_return_normed_std": 0.31678379071901924, "train/extr_return_rate": 0.8030367501794475, "train/extr_return_raw_mag": 13.38151551599372, "train/extr_return_raw_max": 13.38151551599372, "train/extr_return_raw_mean": 3.504060637460996, "train/extr_return_raw_min": -0.7088043122258905, "train/extr_return_raw_std": 3.1017897227039075, "train/extr_reward_mag": 1.0888166296971988, "train/extr_reward_max": 1.0888166296971988, "train/extr_reward_mean": 0.06442477686764443, "train/extr_reward_min": -0.6045651729792765, "train/extr_reward_std": 0.24334795752616778, "train/image_loss_mean": 3.8658994583234394, "train/image_loss_std": 9.570819985376646, "train/model_loss_mean": 7.436361332462258, "train/model_loss_std": 13.69424412348499, "train/model_opt_grad_norm": 19.700697964184904, "train/model_opt_grad_steps": 708185.0410958905, "train/model_opt_loss": 19241.872819456337, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.749594459794972, "train/policy_entropy_max": 2.749594459794972, "train/policy_entropy_mean": 0.4943035873648238, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7201715691448891, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4947283043436808, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.1077579227212357, "train/policy_randomness_mag": 0.9704861804230572, "train/policy_randomness_max": 0.9704861804230572, "train/policy_randomness_mean": 0.1744674782026304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2541889587085541, "train/post_ent_mag": 55.41223991080506, "train/post_ent_max": 55.41223991080506, "train/post_ent_mean": 39.73934858139247, "train/post_ent_min": 19.44435192787484, "train/post_ent_std": 5.847287164975519, "train/prior_ent_mag": 76.90583581793798, "train/prior_ent_max": 76.90583581793798, "train/prior_ent_mean": 45.517110275895625, "train/prior_ent_min": 26.882527625724062, "train/prior_ent_std": 8.074661313670955, "train/rep_loss_mean": 5.838578021689637, "train/rep_loss_std": 9.090021486151707, "train/reward_avg": 0.05265812264525727, "train/reward_loss_mean": 0.06726398410862439, "train/reward_loss_std": 0.2370515039114103, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.030138469722173, "train/reward_neg_acc": 0.9911472601433323, "train/reward_neg_loss": 0.02770675293948144, "train/reward_pos_acc": 0.9894159819981824, "train/reward_pos_loss": 0.7221893953950438, "train/reward_pred": 0.05236021204762263, "train/reward_rate": 0.05690817636986301, "stats/sum_log_reward": 13.957143238612584, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4326059477669852, "stats/max_log_achievement_make_iron_pickaxe": 0.5, "stats/max_log_achievement_make_iron_sword": 0.5, "replay/size": 1000000.0, "replay/inserts": 1457.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.625696950688621e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3965801610541115e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15260434150696, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03369021415710449, "timer/logger.write_frac": 0.00011224361764581765, "timer/logger.write_avg": 0.03369021415710449, "timer/logger.write_min": 0.03369021415710449, "timer/logger.write_max": 0.03369021415710449, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.2801692485809326, "timer/replay.add_frac": 0.0009334226807579596, "timer/replay.add_avg": 0.0001922918658757259, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0016155242919921875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1457.0, "timer/env.step_total": 19.155736446380615, "timer/env.step_frac": 0.06381999079570086, "timer/env.step_avg": 0.01314738259875128, "timer/env.step_min": 0.0028557777404785156, "timer/env.step_max": 1.5656404495239258, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.452281713485718, "timer/agent.policy_frac": 0.03482322512715347, "timer/agent.policy_avg": 0.007173837826688893, "timer/agent.policy_min": 0.005731821060180664, "timer/agent.policy_max": 0.016798973083496094, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05797171592712402, "timer/dataset_frac": 0.0001931408060053515, "timer/dataset_avg": 7.952224407012898e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013113021850585938, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.5080976486206, "timer/agent.train_frac": 0.8979035788807626, "timer/agent.train_avg": 0.3696956071997539, "timer/agent.train_min": 0.362213134765625, "timer/agent.train_max": 0.45596909523010254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19945549964904785, "timer/agent.report_frac": 0.0006645136399420071, "timer/agent.report_avg": 0.19945549964904785, "timer/agent.report_min": 0.19945549964904785, "timer/agent.report_max": 0.19945549964904785, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.854101794268164}
+{"step": 1419508, "episode/length": 203.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.06862745098039216}
+{"step": 1419738, "episode/length": 229.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 17.900000013411045, "episode/reward_rate": 0.07391304347826087}
+{"step": 1419897, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06918238993710692}
+{"step": 1420108, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.061611374407582936}
+{"step": 1420700, "episode/length": 591.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.02702702702702703}
+{"step": 1420837, "episode/length": 136.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.0948905109489051}
+{"step": 1420838, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.487054694188784, "train/action_min": 0.0, "train/action_std": 3.4035102014672267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034090049131071734, "train/actor_opt_grad_steps": 709500.0, "train/actor_opt_loss": -11.555352951157582, "train/adv_mag": 0.3889192618327598, "train/adv_max": 0.30414828658103943, "train/adv_mean": 0.0018296792202207842, "train/adv_min": -0.35116972029209137, "train/adv_std": 0.03893581221569074, "train/cont_avg": 0.9953178510273972, "train/cont_loss_mean": 1.4762812924118407e-05, "train/cont_loss_std": 0.00043125131625470516, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013145738742430038, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.799182008064747e-06, "train/cont_pred": 0.9953168165193845, "train/cont_rate": 0.9953178510273972, "train/dyn_loss_mean": 5.7724719766068135, "train/dyn_loss_std": 9.067986553662443, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8222223414133673, "train/extr_critic_critic_opt_grad_steps": 709500.0, "train/extr_critic_critic_opt_loss": 14892.26828713613, "train/extr_critic_mag": 12.777777292957044, "train/extr_critic_max": 12.777777292957044, "train/extr_critic_mean": 3.6655276082966424, "train/extr_critic_min": -0.37736494573828294, "train/extr_critic_std": 3.0801956914875603, "train/extr_return_normed_mag": 1.3933190711557049, "train/extr_return_normed_max": 1.3933190711557049, "train/extr_return_normed_mean": 0.38746624654286527, "train/extr_return_normed_min": -0.059840309676038074, "train/extr_return_normed_std": 0.3165050698061512, "train/extr_return_rate": 0.8198808905196516, "train/extr_return_raw_mag": 13.534000266088198, "train/extr_return_raw_max": 13.534000266088198, "train/extr_return_raw_mean": 3.6835002735869526, "train/extr_return_raw_min": -0.6967948475112654, "train/extr_return_raw_std": 3.0996608570830464, "train/extr_reward_mag": 1.0929851531982422, "train/extr_reward_max": 1.0929851531982422, "train/extr_reward_mean": 0.06646429839199536, "train/extr_reward_min": -0.5827073561002131, "train/extr_reward_std": 0.24670695482868038, "train/image_loss_mean": 3.601299073598156, "train/image_loss_std": 9.045685990215981, "train/model_loss_mean": 7.132838824023939, "train/model_loss_std": 13.222079904112098, "train/model_opt_grad_norm": 18.440145823690628, "train/model_opt_grad_steps": 708914.4383561644, "train/model_opt_loss": 18577.019384096748, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.7497071697287363, "train/policy_entropy_max": 2.7497071697287363, "train/policy_entropy_mean": 0.481348795433567, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.713988480094361, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4820221923801997, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1028563976287842, "train/policy_randomness_mag": 0.9705259644821899, "train/policy_randomness_max": 0.9705259644821899, "train/policy_randomness_mean": 0.16989500085784964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2520066028180188, "train/post_ent_mag": 55.187593277186565, "train/post_ent_max": 55.187593277186565, "train/post_ent_mean": 39.63211848637829, "train/post_ent_min": 19.12428703046825, "train/post_ent_std": 5.848753543749248, "train/prior_ent_mag": 76.78373122541872, "train/prior_ent_max": 76.78373122541872, "train/prior_ent_mean": 45.34268308665654, "train/prior_ent_min": 27.10583156428925, "train/prior_ent_std": 8.084235798822691, "train/rep_loss_mean": 5.7724719766068135, "train/rep_loss_std": 9.067986553662443, "train/reward_avg": 0.054104237983079805, "train/reward_loss_mean": 0.0680418169661744, "train/reward_loss_std": 0.23476548023419838, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0354055280554784, "train/reward_neg_acc": 0.9915788753391945, "train/reward_neg_loss": 0.027417463148395493, "train/reward_pos_acc": 0.9892130102196784, "train/reward_pos_loss": 0.7227608855456522, "train/reward_pred": 0.053543929623006144, "train/reward_rate": 0.05837970890410959, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5484093204140663, "replay/size": 1000000.0, "replay/inserts": 1471.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.6845476265913122e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3930659715821143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.23798727989197, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025577545166015625, "timer/logger.write_frac": 8.490810006060269e-05, "timer/logger.write_avg": 0.025577545166015625, "timer/logger.write_min": 0.025577545166015625, "timer/logger.write_max": 0.025577545166015625, "timer/replay.add_count": 1471.0, "timer/replay.add_total": 0.2798888683319092, "timer/replay.add_frac": 0.0009291287292789323, "timer/replay.add_avg": 0.00019027115454242635, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0007777214050292969, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1471.0, "timer/env.step_total": 17.910598278045654, "timer/env.step_frac": 0.05945663905065273, "timer/env.step_avg": 0.012175797605741437, "timer/env.step_min": 0.0031464099884033203, "timer/env.step_max": 1.5849058628082275, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 10.63765835762024, "timer/agent.policy_frac": 0.03531313714341205, "timer/agent.policy_avg": 0.007231582839986567, "timer/agent.policy_min": 0.00574183464050293, "timer/agent.policy_max": 0.014560461044311523, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059607505798339844, "timer/dataset_frac": 0.0001978751296826193, "timer/dataset_avg": 8.109864734468006e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.64644980430603, "timer/agent.train_frac": 0.901766912789484, "timer/agent.train_avg": 0.3695870065364708, "timer/agent.train_min": 0.36356472969055176, "timer/agent.train_max": 0.38196778297424316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20684504508972168, "timer/agent.report_frac": 0.0006866499373385266, "timer/agent.report_avg": 0.20684504508972168, "timer/agent.report_min": 0.20684504508972168, "timer/agent.report_max": 0.20684504508972168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.883100739359919}
+{"step": 1420910, "episode/length": 72.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.099999971687794, "episode/reward_rate": 0.1232876712328767}
+{"step": 1421072, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08024691358024691}
+{"step": 1421211, "episode/length": 138.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.10071942446043165}
+{"step": 1421472, "episode/length": 260.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04980842911877394}
+{"step": 1421537, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.09230769230769231}
+{"step": 1421763, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06637168141592921}
+{"step": 1421976, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07042253521126761}
+{"step": 1422195, "episode/length": 218.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0684931506849315}
+{"step": 1422289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362583108144264, "train/action_min": 0.0, "train/action_std": 3.349370450189669, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034091341015819, "train/actor_opt_grad_steps": 710230.0, "train/actor_opt_loss": -11.301405805431001, "train/adv_mag": 0.3911479613552355, "train/adv_max": 0.3368072773087515, "train/adv_mean": 0.0018683234023365626, "train/adv_min": -0.32237880585128315, "train/adv_std": 0.039112559175246385, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 6.06492382053498e-06, "train/cont_loss_std": 0.00014746505642417466, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002566169105602743, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 4.95745656694889e-06, "train/cont_pred": 0.9952338884954584, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.858109781186875, "train/dyn_loss_std": 9.085686448502214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.823831415339692, "train/extr_critic_critic_opt_grad_steps": 710230.0, "train/extr_critic_critic_opt_loss": 14875.330078125, "train/extr_critic_mag": 12.678096614471853, "train/extr_critic_max": 12.678096614471853, "train/extr_critic_mean": 3.697393985643779, "train/extr_critic_min": -0.3897937209638831, "train/extr_critic_std": 3.047809747800435, "train/extr_return_normed_mag": 1.3768681026484868, "train/extr_return_normed_max": 1.3768681026484868, "train/extr_return_normed_mean": 0.39198627782194584, "train/extr_return_normed_min": -0.057775589267480866, "train/extr_return_normed_std": 0.31503219208488725, "train/extr_return_rate": 0.8197328464625633, "train/extr_return_raw_mag": 13.329171690222335, "train/extr_return_raw_max": 13.329171690222335, "train/extr_return_raw_mean": 3.715633941023317, "train/extr_return_raw_min": -0.6752333857425271, "train/extr_return_raw_std": 3.0752141638977886, "train/extr_reward_mag": 1.0935905436946922, "train/extr_reward_max": 1.0935905436946922, "train/extr_reward_mean": 0.06390993496122425, "train/extr_reward_min": -0.5909962523473452, "train/extr_reward_std": 0.24309200701648243, "train/image_loss_mean": 3.645641268116154, "train/image_loss_std": 9.038281819591784, "train/model_loss_mean": 7.2259695497277665, "train/model_loss_std": 13.169446474885287, "train/model_opt_grad_norm": 19.950130397326326, "train/model_opt_grad_steps": 709644.0, "train/model_opt_loss": 21381.865261130137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2945.205479452055, "train/policy_entropy_mag": 2.7528632830267084, "train/policy_entropy_max": 2.7528632830267084, "train/policy_entropy_mean": 0.48022522318036587, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7062821024901247, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48062601726349086, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0977921110309967, "train/policy_randomness_mag": 0.9716399295689309, "train/policy_randomness_max": 0.9716399295689309, "train/policy_randomness_mean": 0.16949842921266817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24928658731179695, "train/post_ent_mag": 55.432039809553594, "train/post_ent_max": 55.432039809553594, "train/post_ent_mean": 39.6003728370144, "train/post_ent_min": 18.943746684348746, "train/post_ent_std": 5.793825443476846, "train/prior_ent_mag": 76.74845583144932, "train/prior_ent_max": 76.74845583144932, "train/prior_ent_mean": 45.4207228046574, "train/prior_ent_min": 27.067219747255926, "train/prior_ent_std": 8.103675306659856, "train/rep_loss_mean": 5.858109781186875, "train/rep_loss_std": 9.085686448502214, "train/reward_avg": 0.05205078106628706, "train/reward_loss_mean": 0.06545642237753084, "train/reward_loss_std": 0.22693044437121038, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0332849613607746, "train/reward_neg_acc": 0.9924615637896812, "train/reward_neg_loss": 0.026686860427056272, "train/reward_pos_acc": 0.9913665015403539, "train/reward_pos_loss": 0.7148308468191591, "train/reward_pred": 0.05177563331919174, "train/reward_rate": 0.056346318493150686, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 11.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38914079777896404, "replay/size": 1000000.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.6395393019294346e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3910213449441368e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2671322822571, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03010725975036621, "timer/logger.write_frac": 0.00010026824954675621, "timer/logger.write_avg": 0.03010725975036621, "timer/logger.write_min": 0.03010725975036621, "timer/logger.write_max": 0.03010725975036621, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2720496654510498, "timer/replay.add_frac": 0.0009060254560106756, "timer/replay.add_avg": 0.00018749115468714666, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0004961490631103516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1451.0, "timer/env.step_total": 20.39706254005432, "timer/env.step_frac": 0.06792972106211304, "timer/env.step_avg": 0.014057245031050531, "timer/env.step_min": 0.0029103755950927734, "timer/env.step_max": 1.631667137145996, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.483025789260864, "timer/agent.policy_frac": 0.034912331927846874, "timer/agent.policy_avg": 0.007224690412998528, "timer/agent.policy_min": 0.0057675838470458984, "timer/agent.policy_max": 0.01625657081604004, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059252262115478516, "timer/dataset_frac": 0.00019733182804630183, "timer/dataset_avg": 8.161468610947454e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.363920211792, "timer/agent.train_frac": 0.8937505686087699, "timer/agent.train_avg": 0.36964727301899725, "timer/agent.train_min": 0.363201379776001, "timer/agent.train_max": 0.3812565803527832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2023022174835205, "timer/agent.report_frac": 0.0006737407985545098, "timer/agent.report_avg": 0.2023022174835205, "timer/agent.report_min": 0.2023022174835205, "timer/agent.report_max": 0.2023022174835205, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.832293968812947}
+{"step": 1422402, "episode/length": 206.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07729468599033816}
+{"step": 1422579, "episode/length": 176.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05084745762711865}
+{"step": 1422767, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06914893617021277}
+{"step": 1423027, "episode/length": 259.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.057692307692307696}
+{"step": 1423232, "episode/length": 204.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04390243902439024}
+{"step": 1423688, "episode/length": 455.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.900000043213367, "episode/reward_rate": 0.03289473684210526}
+{"step": 1423731, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506744384765625, "train/action_min": 0.0, "train/action_std": 3.437442875570721, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03347591403871775, "train/actor_opt_grad_steps": 710955.0, "train/actor_opt_loss": -11.33289407276445, "train/adv_mag": 0.400029173741738, "train/adv_max": 0.3175123826497131, "train/adv_mean": 0.001882216732459104, "train/adv_min": -0.35349117985202205, "train/adv_std": 0.038956141771955624, "train/cont_avg": 0.9952121310763888, "train/cont_loss_mean": 2.399069680309513e-05, "train/cont_loss_std": 0.0007423532059741925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00040457370848187877, "train/cont_pos_acc": 0.9999863025214937, "train/cont_pos_loss": 2.247268888271808e-05, "train/cont_pred": 0.9951979236470329, "train/cont_rate": 0.9952121310763888, "train/dyn_loss_mean": 5.6766148342026606, "train/dyn_loss_std": 8.94345047738817, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8229006752371788, "train/extr_critic_critic_opt_grad_steps": 710955.0, "train/extr_critic_critic_opt_loss": 14746.656507703992, "train/extr_critic_mag": 12.753407875696817, "train/extr_critic_max": 12.753407875696817, "train/extr_critic_mean": 3.7776067389382257, "train/extr_critic_min": -0.39520462188455796, "train/extr_critic_std": 3.1328513423601785, "train/extr_return_normed_mag": 1.3753697938389249, "train/extr_return_normed_max": 1.3753697938389249, "train/extr_return_normed_mean": 0.3953656628727913, "train/extr_return_normed_min": -0.058554798235288925, "train/extr_return_normed_std": 0.31931498356991345, "train/extr_return_rate": 0.8222521055075858, "train/extr_return_raw_mag": 13.508178737428453, "train/extr_return_raw_max": 13.508178737428453, "train/extr_return_raw_mean": 3.7962512506379023, "train/extr_return_raw_min": -0.7022865845097436, "train/extr_return_raw_std": 3.164702021413379, "train/extr_reward_mag": 1.0949888229370117, "train/extr_reward_max": 1.0949888229370117, "train/extr_reward_mean": 0.06651043648728067, "train/extr_reward_min": -0.5466111484501097, "train/extr_reward_std": 0.24709580652415752, "train/image_loss_mean": 3.5026320036914615, "train/image_loss_std": 8.632823116249508, "train/model_loss_mean": 6.975663284460704, "train/model_loss_std": 12.73639080259535, "train/model_opt_grad_norm": 18.6603913837009, "train/model_opt_grad_steps": 710368.0, "train/model_opt_loss": 17439.158230251734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7634776863786907, "train/policy_entropy_max": 2.7634776863786907, "train/policy_entropy_mean": 0.4987325684891807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7340785356031524, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4983758226864868, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1117013941208522, "train/policy_randomness_mag": 0.9753863505191274, "train/policy_randomness_max": 0.9753863505191274, "train/policy_randomness_mean": 0.1760307097186645, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2590975097070138, "train/post_ent_mag": 54.963955349392364, "train/post_ent_max": 54.963955349392364, "train/post_ent_mean": 39.48260445064969, "train/post_ent_min": 19.868792904747856, "train/post_ent_std": 5.739291999075148, "train/prior_ent_mag": 76.83695146772597, "train/prior_ent_max": 76.83695146772597, "train/prior_ent_mean": 45.15579001108805, "train/prior_ent_min": 27.456533432006836, "train/prior_ent_std": 8.049332055780622, "train/rep_loss_mean": 5.6766148342026606, "train/rep_loss_std": 8.94345047738817, "train/reward_avg": 0.05437011685636309, "train/reward_loss_mean": 0.06703841184369391, "train/reward_loss_std": 0.22974609976841343, "train/reward_max_data": 1.0458333442608516, "train/reward_max_pred": 1.043237441115909, "train/reward_neg_acc": 0.9922705805963941, "train/reward_neg_loss": 0.0266497448966321, "train/reward_pos_acc": 0.9899365959895982, "train/reward_pos_loss": 0.7163573412431611, "train/reward_pred": 0.05406325602800482, "train/reward_rate": 0.058675130208333336, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3551192134618759, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5848763051872943e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3747302900570937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08733463287354, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0339512825012207, "timer/logger.write_frac": 0.0001131380054501689, "timer/logger.write_avg": 0.0339512825012207, "timer/logger.write_min": 0.0339512825012207, "timer/logger.write_max": 0.0339512825012207, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2785966396331787, "timer/replay.add_frac": 0.0009283851981757693, "timer/replay.add_avg": 0.00019320155314367455, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0008955001831054688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.617943048477173, "timer/env.step_frac": 0.0687064753122658, "timer/env.step_avg": 0.014298157453867665, "timer/env.step_min": 0.002786874771118164, "timer/env.step_max": 3.25618839263916, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.770339965820312, "timer/agent.policy_frac": 0.039223048117709235, "timer/agent.policy_avg": 0.008162510378516168, "timer/agent.policy_min": 0.005822181701660156, "timer/agent.policy_max": 1.406264066696167, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05756497383117676, "timer/dataset_frac": 0.0001918274021847729, "timer/dataset_avg": 7.984046301134085e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016188621520996094, "timer/agent.train_count": 721.0, "timer/agent.train_total": 266.67127227783203, "timer/agent.train_frac": 0.8886455424854145, "timer/agent.train_avg": 0.3698630683465077, "timer/agent.train_min": 0.3638453483581543, "timer/agent.train_max": 0.4017820358276367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1993253231048584, "timer/agent.report_frac": 0.0006642243777089518, "timer/agent.report_avg": 0.1993253231048584, "timer/agent.report_min": 0.1993253231048584, "timer/agent.report_max": 0.1993253231048584, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002491474151611328, "timer/checkpoint.save_frac": 8.302496853655602e-07, "timer/checkpoint.save_avg": 0.0002491474151611328, "timer/checkpoint.save_min": 0.0002491474151611328, "timer/checkpoint.save_max": 0.0002491474151611328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4171147346496582, "timer/agent.save_frac": 0.004722341035763321, "timer/agent.save_avg": 1.4171147346496582, "timer/agent.save_min": 1.4171147346496582, "timer/agent.save_max": 1.4171147346496582, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.391436892775441e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.805168977093071}
+{"step": 1423904, "episode/length": 215.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.06944444444444445}
+{"step": 1424249, "episode/length": 344.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.500000059604645, "episode/reward_rate": 0.04927536231884058}
+{"step": 1424305, "episode/length": 55.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.03571428571428571}
+{"step": 1424538, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
+{"step": 1424809, "episode/length": 270.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.06273062730627306}
+{"step": 1425028, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
+{"step": 1425197, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428634016481165, "train/action_min": 0.0, "train/action_std": 3.384920508894202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03491028472270868, "train/actor_opt_grad_steps": 711680.0, "train/actor_opt_loss": -11.321924002203223, "train/adv_mag": 0.378301227541819, "train/adv_max": 0.3051283847387523, "train/adv_mean": 0.0016549357506809343, "train/adv_min": -0.3486915538980536, "train/adv_std": 0.03976925171605528, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 7.936614515326617e-05, "train/cont_loss_std": 0.0024425598149775073, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.009501384250444623, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.5057307652727702e-05, "train/cont_pred": 0.99539851734083, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.675748629112766, "train/dyn_loss_std": 8.931585338017712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8132855043019334, "train/extr_critic_critic_opt_grad_steps": 711680.0, "train/extr_critic_critic_opt_loss": 14821.890424336472, "train/extr_critic_mag": 12.77729274802012, "train/extr_critic_max": 12.77729274802012, "train/extr_critic_mean": 3.82759748746271, "train/extr_critic_min": -0.38930506575597473, "train/extr_critic_std": 3.129100646058174, "train/extr_return_normed_mag": 1.363691067042416, "train/extr_return_normed_max": 1.363691067042416, "train/extr_return_normed_mean": 0.39686134375938, "train/extr_return_normed_min": -0.05312346124842967, "train/extr_return_normed_std": 0.3164250319951201, "train/extr_return_rate": 0.8224377926081827, "train/extr_return_raw_mag": 13.482273088742609, "train/extr_return_raw_max": 13.482273088742609, "train/extr_return_raw_mean": 3.8441255811142594, "train/extr_return_raw_min": -0.6419138847148582, "train/extr_return_raw_std": 3.154746943957185, "train/extr_reward_mag": 1.0906616694306674, "train/extr_reward_max": 1.0906616694306674, "train/extr_reward_mean": 0.06562605949297343, "train/extr_reward_min": -0.5465420239592251, "train/extr_reward_std": 0.24580061394874364, "train/image_loss_mean": 3.462857344379164, "train/image_loss_std": 8.713447080899591, "train/model_loss_mean": 6.935159859591967, "train/model_loss_std": 12.758800389015512, "train/model_opt_grad_norm": 20.58707161472268, "train/model_opt_grad_steps": 711092.4109589041, "train/model_opt_loss": 17739.664490582192, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.752276463051365, "train/policy_entropy_max": 2.752276463051365, "train/policy_entropy_mean": 0.4849571544830113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.714595472567702, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48430496699189485, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0987558544498601, "train/policy_randomness_mag": 0.9714328140428622, "train/policy_randomness_max": 0.9714328140428622, "train/policy_randomness_mean": 0.171168594123566, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2522208435486441, "train/post_ent_mag": 55.8037035693861, "train/post_ent_max": 55.8037035693861, "train/post_ent_mean": 39.60366105380123, "train/post_ent_min": 19.398289393072258, "train/post_ent_std": 5.802684587975071, "train/prior_ent_mag": 76.86612795477043, "train/prior_ent_max": 76.86612795477043, "train/prior_ent_mean": 45.22058669834921, "train/prior_ent_min": 27.053900287575917, "train/prior_ent_std": 8.076284049308462, "train/rep_loss_mean": 5.675748629112766, "train/rep_loss_std": 8.931585338017712, "train/reward_avg": 0.05518648309046275, "train/reward_loss_mean": 0.06677403607188839, "train/reward_loss_std": 0.23162181001819976, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0326916322316209, "train/reward_neg_acc": 0.9916707113997577, "train/reward_neg_loss": 0.02580007345555988, "train/reward_pos_acc": 0.990956622443787, "train/reward_pos_loss": 0.716843165763437, "train/reward_pred": 0.054873770791782094, "train/reward_rate": 0.059209118150684935, "stats/sum_log_reward": 12.433333476384481, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6117791210611662, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.584410288812031e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3936753162420464e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2075424194336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03292965888977051, "timer/logger.write_frac": 0.0001096896454512225, "timer/logger.write_avg": 0.03292965888977051, "timer/logger.write_min": 0.03292965888977051, "timer/logger.write_max": 0.03292965888977051, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27904248237609863, "timer/replay.add_frac": 0.0009294985733111119, "timer/replay.add_avg": 0.00019034275741889402, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0006558895111083984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.76263117790222, "timer/env.step_frac": 0.05916783780563795, "timer/env.step_avg": 0.012116392345090193, "timer/env.step_min": 0.0028772354125976562, "timer/env.step_max": 1.6745140552520752, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.550606489181519, "timer/agent.policy_frac": 0.03514437513512165, "timer/agent.policy_avg": 0.007196866636549467, "timer/agent.policy_min": 0.005759239196777344, "timer/agent.policy_max": 0.015537023544311523, "timer/dataset_count": 733.0, "timer/dataset_total": 0.059261322021484375, "timer/dataset_frac": 0.00019740117634582175, "timer/dataset_avg": 8.084764259411238e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00017189979553222656, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.85998368263245, "timer/agent.train_frac": 0.9022424336834338, "timer/agent.train_avg": 0.3695224879708492, "timer/agent.train_min": 0.3633456230163574, "timer/agent.train_max": 0.3812239170074463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014930248260498, "timer/agent.report_frac": 0.0006711790889801654, "timer/agent.report_avg": 0.2014930248260498, "timer/agent.report_min": 0.2014930248260498, "timer/agent.report_max": 0.2014930248260498, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.883201723051067}
diff --git a/crafter/replay/20240802T051951F335640-3mpYQy9QPlv7uiC2L46V9f-1YbWQGET97SbUylmpKXoOO-1024.npz b/crafter/replay/20240802T051951F335640-3mpYQy9QPlv7uiC2L46V9f-1YbWQGET97SbUylmpKXoOO-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..2b94acdf30543da7b6f266eea151a2ca209fb1ff
--- /dev/null
+++ b/crafter/replay/20240802T051951F335640-3mpYQy9QPlv7uiC2L46V9f-1YbWQGET97SbUylmpKXoOO-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4b3c3c06249b4be32e1067363f0de6db4085d6b6f3f065acf0e42b5fd25b5d39
+size 1371202
diff --git a/crafter/replay/20240802T053153F021350-2TN5DyBtbPMiU28FSowA7R-6K8NjXIWEFwe52Lwr24FY2-1024.npz b/crafter/replay/20240802T053153F021350-2TN5DyBtbPMiU28FSowA7R-6K8NjXIWEFwe52Lwr24FY2-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4986ea2c4eb400de1dd18dc5597fc16e6d8a4445
--- /dev/null
+++ b/crafter/replay/20240802T053153F021350-2TN5DyBtbPMiU28FSowA7R-6K8NjXIWEFwe52Lwr24FY2-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:368be2d3c163136933164640f00fa88042f637bc015d8f97b8d77c2f67f735d6
+size 1392052
diff --git a/crafter/replay/20240802T071924F794080-67yd0QcRO73rjiYoM02gXp-0jyyzpLUdWrY6RrKGa1yeu-1024.npz b/crafter/replay/20240802T071924F794080-67yd0QcRO73rjiYoM02gXp-0jyyzpLUdWrY6RrKGa1yeu-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..eb40c67397834d81a6af076db1e448ad7d870ea2
--- /dev/null
+++ b/crafter/replay/20240802T071924F794080-67yd0QcRO73rjiYoM02gXp-0jyyzpLUdWrY6RrKGa1yeu-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fe2aae967607c2aa58eed36e9ba626d20b5ac2db4351b9ed115c22496e03419
+size 1237731
diff --git a/crafter/replay/20240802T073437F380652-5L0uQ2E254gGvJnEfvlDgL-1A1tkBTVJuAaBoUu2bmqoH-1024.npz b/crafter/replay/20240802T073437F380652-5L0uQ2E254gGvJnEfvlDgL-1A1tkBTVJuAaBoUu2bmqoH-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..aa016e2f310fdc0c937ba8c1f31263590d57e2e9
--- /dev/null
+++ b/crafter/replay/20240802T073437F380652-5L0uQ2E254gGvJnEfvlDgL-1A1tkBTVJuAaBoUu2bmqoH-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af4e70b3555b75a7132fb3bbe6a930a7b60d7eaef69f3ba0a732636b4332fae6
+size 1362641
diff --git a/crafter/replay/20240802T074255F479607-2n72tu1hzeyk8g4iIbShAt-2zGAgFG4sE9hTrcRh3ocsV-1024.npz b/crafter/replay/20240802T074255F479607-2n72tu1hzeyk8g4iIbShAt-2zGAgFG4sE9hTrcRh3ocsV-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..a1e762eed29d6297148382a6f726aa5825cc8e13
--- /dev/null
+++ b/crafter/replay/20240802T074255F479607-2n72tu1hzeyk8g4iIbShAt-2zGAgFG4sE9hTrcRh3ocsV-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b503fe370c9601758b8d8caf9112e5db8f5333b13676e657dd34caeedab2b525
+size 1520460
diff --git a/crafter/replay/20240802T075919F723924-0mQeCqT6IvW7YTTxvLySCD-4JCuDcuJcXlUjXzuXmqdUb-1024.npz b/crafter/replay/20240802T075919F723924-0mQeCqT6IvW7YTTxvLySCD-4JCuDcuJcXlUjXzuXmqdUb-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..59bf940b3c1ba6530138fd3f45623b21c48fef6b
--- /dev/null
+++ b/crafter/replay/20240802T075919F723924-0mQeCqT6IvW7YTTxvLySCD-4JCuDcuJcXlUjXzuXmqdUb-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6dbd75e152fff9881cf396f3a4d051b3e20ccf216840d3a1d4ec08c2d18880aa
+size 1797086
diff --git a/crafter/replay/20240802T080320F110869-4JCuDcuJcXlUjXzuXmqdUb-0000000000000000000000-820.npz b/crafter/replay/20240802T080320F110869-4JCuDcuJcXlUjXzuXmqdUb-0000000000000000000000-820.npz
new file mode 100644
index 0000000000000000000000000000000000000000..26683188ca2e79dc25cc0573da71b4b710b90750
--- /dev/null
+++ b/crafter/replay/20240802T080320F110869-4JCuDcuJcXlUjXzuXmqdUb-0000000000000000000000-820.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8168806ea99d12c6f7d3a8efb044ea7a4df61ec9ac3a246b28a359cd937c4e9
+size 467818
diff --git a/crafter/replay/20240802T081757F338440-2OhNnZe9eLc2NFNjab1rM6-7kLvd0LjRxjmGtiTx25FRC-1024.npz b/crafter/replay/20240802T081757F338440-2OhNnZe9eLc2NFNjab1rM6-7kLvd0LjRxjmGtiTx25FRC-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..fd9c6d58e85c746e2877be36323cb2ade3301218
--- /dev/null
+++ b/crafter/replay/20240802T081757F338440-2OhNnZe9eLc2NFNjab1rM6-7kLvd0LjRxjmGtiTx25FRC-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2dc0975f3d32701bc4627d1659d57cc47aee6473ee350a742d8fcb6c2706928b
+size 618205
diff --git a/crafter/replay/20240802T083542F655299-74l01Xh3wVDuq8ICFIE62v-1IoVUSu4sTIz2phB21EN3F-1024.npz b/crafter/replay/20240802T083542F655299-74l01Xh3wVDuq8ICFIE62v-1IoVUSu4sTIz2phB21EN3F-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..9d663d8a5f43bd3ec53bfb25a2d0bc7404a64eaa
--- /dev/null
+++ b/crafter/replay/20240802T083542F655299-74l01Xh3wVDuq8ICFIE62v-1IoVUSu4sTIz2phB21EN3F-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:054d142df80906e3ca35fa15847e625e06356347e7ccdcd26f598d264d39d2e1
+size 2047411
diff --git a/crafter/replay/20240802T103022F567101-5SaEBrWM3ZYBhbOZK2iZYP-1R8cS8TztWB9qjUEUOkc6m-1024.npz b/crafter/replay/20240802T103022F567101-5SaEBrWM3ZYBhbOZK2iZYP-1R8cS8TztWB9qjUEUOkc6m-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3a2ed7c226849aefc107a226dd501c6085df9888
--- /dev/null
+++ b/crafter/replay/20240802T103022F567101-5SaEBrWM3ZYBhbOZK2iZYP-1R8cS8TztWB9qjUEUOkc6m-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81420610e3a1ee39a065a4e2ca344f2f84e4449fe19a4e09c1894165542e22fc
+size 1237985
diff --git a/crafter/replay/20240802T103728F615379-5UDcxc89o7a2Sy9W9Brbh8-0000000000000000000000-188.npz b/crafter/replay/20240802T103728F615379-5UDcxc89o7a2Sy9W9Brbh8-0000000000000000000000-188.npz
new file mode 100644
index 0000000000000000000000000000000000000000..1dcc39e52250299f62045560162a39b71bd18f21
--- /dev/null
+++ b/crafter/replay/20240802T103728F615379-5UDcxc89o7a2Sy9W9Brbh8-0000000000000000000000-188.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0943b0e1dea3e34e6e60a59f2ec1a471cc55487b6cb1410917a152877cab9252
+size 4061958
diff --git a/crafter/replay/20240802T110612F447444-0sZkbtwRrqX0NGzq261W6j-0000000000000000000000-596.npz b/crafter/replay/20240802T110612F447444-0sZkbtwRrqX0NGzq261W6j-0000000000000000000000-596.npz
new file mode 100644
index 0000000000000000000000000000000000000000..0b7fb507fab8e9a493576220918e9e84725bd7ee
--- /dev/null
+++ b/crafter/replay/20240802T110612F447444-0sZkbtwRrqX0NGzq261W6j-0000000000000000000000-596.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f638ebf5878bcdd8d93e1d990d0b9cc37d85357af30e1e44cc115f2f3ad06e4
+size 3193505
diff --git a/crafter/replay/20240802T112407F574213-40fO2nV2vxJ9vk6i1twyBc-2EvbGThW6buWRyzsJE6iq4-1024.npz b/crafter/replay/20240802T112407F574213-40fO2nV2vxJ9vk6i1twyBc-2EvbGThW6buWRyzsJE6iq4-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..843d802eca0400e0ad2188d1028516a1fbbe360d
--- /dev/null
+++ b/crafter/replay/20240802T112407F574213-40fO2nV2vxJ9vk6i1twyBc-2EvbGThW6buWRyzsJE6iq4-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:021da4b508c1e67fc41985494028cc42a081ff4206c5eb1fe88682352ceca3c8
+size 1536285
diff --git a/crafter/replay/20240802T113450F525302-1xSlQQw6Hm2zfuczrRAQZt-0000000000000000000000-1004.npz b/crafter/replay/20240802T113450F525302-1xSlQQw6Hm2zfuczrRAQZt-0000000000000000000000-1004.npz
new file mode 100644
index 0000000000000000000000000000000000000000..5d3cc7254b36d723caeffaae2a91750e7f4707c3
--- /dev/null
+++ b/crafter/replay/20240802T113450F525302-1xSlQQw6Hm2zfuczrRAQZt-0000000000000000000000-1004.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ab7cc940e1191b9481d1e7731f6a69266e975074d8846a6f796432738d24ebd
+size 1523421
diff --git a/crafter/replay/20240802T140509F033729-7aG3cjkWOEZsLYw2reZQ8u-59JAt8mPhP5MghHmoYKhW3-1024.npz b/crafter/replay/20240802T140509F033729-7aG3cjkWOEZsLYw2reZQ8u-59JAt8mPhP5MghHmoYKhW3-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..5c5bfe42009e51058d55fa57308a9bcac8c49b69
--- /dev/null
+++ b/crafter/replay/20240802T140509F033729-7aG3cjkWOEZsLYw2reZQ8u-59JAt8mPhP5MghHmoYKhW3-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f1596077501e811d18f4f5f6b7ffecbe27a6ce5e88a259b06e4ef5ff008f36
+size 952111
diff --git a/crafter/replay/20240802T142301F311762-2UvYo9KWSpCTQuNk8huaqQ-0000000000000000000000-576.npz b/crafter/replay/20240802T142301F311762-2UvYo9KWSpCTQuNk8huaqQ-0000000000000000000000-576.npz
new file mode 100644
index 0000000000000000000000000000000000000000..edebb6cd38885a1447ca7619b99aa9499ca94d1d
--- /dev/null
+++ b/crafter/replay/20240802T142301F311762-2UvYo9KWSpCTQuNk8huaqQ-0000000000000000000000-576.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c609d2e3e1f0e90700e74c42b0030cbdaae86610ade4921ddcb6ed0f634764ec
+size 760836
diff --git a/crafter/replay/20240802T151306F213718-5kwNkLMS2yfVXCHMNQSnKF-6ZRLalmOZTzCFJnbOiu8eY-1024.npz b/crafter/replay/20240802T151306F213718-5kwNkLMS2yfVXCHMNQSnKF-6ZRLalmOZTzCFJnbOiu8eY-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..20a6a6e9c5aeb8c374cdb422d4fd8fcf0de5ade9
--- /dev/null
+++ b/crafter/replay/20240802T151306F213718-5kwNkLMS2yfVXCHMNQSnKF-6ZRLalmOZTzCFJnbOiu8eY-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ab011e16bc8a16535d2c263895391a7b143c73816a4805bc7d733636830df330
+size 1392112
diff --git a/crafter/replay/20240802T164238F134014-6M266cmeBWjuNf4wXBbhlC-3dUnlz3VVax8FdgoTHpHx1-1024.npz b/crafter/replay/20240802T164238F134014-6M266cmeBWjuNf4wXBbhlC-3dUnlz3VVax8FdgoTHpHx1-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3e135ad08e10d642e424bbcca92ffdcd3c3e641d
--- /dev/null
+++ b/crafter/replay/20240802T164238F134014-6M266cmeBWjuNf4wXBbhlC-3dUnlz3VVax8FdgoTHpHx1-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e1387981542786e1cbb9f694aac506f7a53e09dd0edd9f07058501199a7a83e
+size 932383
diff --git a/crafter/replay/20240802T164611F646617-3dUnlz3VVax8FdgoTHpHx1-2afveI1rJJWY3xNiygQtoK-1024.npz b/crafter/replay/20240802T164611F646617-3dUnlz3VVax8FdgoTHpHx1-2afveI1rJJWY3xNiygQtoK-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..bb06bed42fd7df43c10ceaca7a2550e1344781ec
--- /dev/null
+++ b/crafter/replay/20240802T164611F646617-3dUnlz3VVax8FdgoTHpHx1-2afveI1rJJWY3xNiygQtoK-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b564dc878f1903ae919563cc31f68a5a3c3094c7cc1397d04aeefc90d3abaff2
+size 1528524
diff --git a/crafter/replay/20240802T171107F006345-77dMXkBxFQtcw02n5JAR6Y-0000000000000000000000-149.npz b/crafter/replay/20240802T171107F006345-77dMXkBxFQtcw02n5JAR6Y-0000000000000000000000-149.npz
new file mode 100644
index 0000000000000000000000000000000000000000..c4f97fdc5126f8c864536d988357d604365378bb
--- /dev/null
+++ b/crafter/replay/20240802T171107F006345-77dMXkBxFQtcw02n5JAR6Y-0000000000000000000000-149.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c95c0bd741d72404e4329dd2b7dc746467ac83e25329cd37edcd6b8d8d37e582
+size 279814
diff --git a/crafter/replay/20240802T185101F845557-7l4wLsWu1qnPFPxHcvIYh5-4C8bxTTTaKZQSPgvzASvAS-1024.npz b/crafter/replay/20240802T185101F845557-7l4wLsWu1qnPFPxHcvIYh5-4C8bxTTTaKZQSPgvzASvAS-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..c69a41a8a2176679e762f411f0d4efbf538f44d8
--- /dev/null
+++ b/crafter/replay/20240802T185101F845557-7l4wLsWu1qnPFPxHcvIYh5-4C8bxTTTaKZQSPgvzASvAS-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a007c09b6b5b9349b804cdc4fdce28a55ffb6828c390fe572df5c094b164fd0
+size 2072291
diff --git a/crafter/replay/20240802T191929F155037-3hxjkldxH7xscO4hfryCyU-0vq35djO7f5Ivbf5BqNcIk-1024.npz b/crafter/replay/20240802T191929F155037-3hxjkldxH7xscO4hfryCyU-0vq35djO7f5Ivbf5BqNcIk-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f638973f0d6be6dd5ad6a264d20f5d4a96c6119e
--- /dev/null
+++ b/crafter/replay/20240802T191929F155037-3hxjkldxH7xscO4hfryCyU-0vq35djO7f5Ivbf5BqNcIk-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4555215fc3de2fb05bb21be03962badd8d857eda3adac46df32bda1fed424d0c
+size 1579082
diff --git a/crafter/replay/20240802T193716F990784-5vCirgOUSzb0FRHRHiL1in-4nlkmUw8mcY8eX8HZZEULs-1024.npz b/crafter/replay/20240802T193716F990784-5vCirgOUSzb0FRHRHiL1in-4nlkmUw8mcY8eX8HZZEULs-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d537d7d8ef54e252fc3e5b535fd2983fb0b99821
--- /dev/null
+++ b/crafter/replay/20240802T193716F990784-5vCirgOUSzb0FRHRHiL1in-4nlkmUw8mcY8eX8HZZEULs-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f69c827056c1944aa36b7145b6c29c3841e38e34228ab3daad456320f7faebc7
+size 1351796
diff --git a/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-0000000000000000000000-940.npz b/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-0000000000000000000000-940.npz
new file mode 100644
index 0000000000000000000000000000000000000000..a12087b41bf885c9960ddeba235325e94eba2789
--- /dev/null
+++ b/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-0000000000000000000000-940.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fc1374c79b8910c83b7444d1990e4db44834b9b355adaa7e9c113f8ccedc58b
+size 1196518
diff --git a/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-3nw49NkJqTGHFaSn6GqTff-1024.npz b/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-3nw49NkJqTGHFaSn6GqTff-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..5ca65545dcbcbb58cc5143334ada4210260fa0b4
--- /dev/null
+++ b/crafter/replay/20240802T194050F099551-4nlkmUw8mcY8eX8HZZEULs-3nw49NkJqTGHFaSn6GqTff-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cbdec05f37dcbd683ae3ae22d2862399bb89e6f0dcc5941715c9efdc8fb0f94e
+size 1228511
diff --git a/crafter/replay/20240802T195135F509399-4dUlY2UnQlLMnUhZPdaA3N-4MUG4Jh1NmuDCud8Ug0nBN-1024.npz b/crafter/replay/20240802T195135F509399-4dUlY2UnQlLMnUhZPdaA3N-4MUG4Jh1NmuDCud8Ug0nBN-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..c6008d526d10003bb0fb7ca78201fa44932214b7
--- /dev/null
+++ b/crafter/replay/20240802T195135F509399-4dUlY2UnQlLMnUhZPdaA3N-4MUG4Jh1NmuDCud8Ug0nBN-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c301de0a169de7b26373e0f2328d20b1bb9a5c31dd3564d5b1eb0620782a96af
+size 1736094
diff --git a/crafter/replay/20240802T200923F990649-0iPcaXcCJR6tiFQS7gq2ow-3jROs2fZQVgv1U9qGWjeb1-1024.npz b/crafter/replay/20240802T200923F990649-0iPcaXcCJR6tiFQS7gq2ow-3jROs2fZQVgv1U9qGWjeb1-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7d39046bedc6d84fe1c3ac9f4770cb1f17fc8a85
--- /dev/null
+++ b/crafter/replay/20240802T200923F990649-0iPcaXcCJR6tiFQS7gq2ow-3jROs2fZQVgv1U9qGWjeb1-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90d5d3dca9ba1bbd2dcba08fcd3609c91309554b063b66722df6fbabe3600efe
+size 1919152
diff --git a/crafter/replay/20240802T201257F661155-3jROs2fZQVgv1U9qGWjeb1-0000000000000000000000-524.npz b/crafter/replay/20240802T201257F661155-3jROs2fZQVgv1U9qGWjeb1-0000000000000000000000-524.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d2ec8d32cd5ae79b14f14e9636d44a60acaa04b8
--- /dev/null
+++ b/crafter/replay/20240802T201257F661155-3jROs2fZQVgv1U9qGWjeb1-0000000000000000000000-524.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68fac903e6ec086f6d9565a3af4b989c01182bced44453764884ed45338a93bb
+size 953489
diff --git a/crafter/replay/20240802T203754F473261-2DKfP7Boxi4ER2Gk3UEACh-0JLQwu2oZ07JTZZ9jiblF9-1024.npz b/crafter/replay/20240802T203754F473261-2DKfP7Boxi4ER2Gk3UEACh-0JLQwu2oZ07JTZZ9jiblF9-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..2bb382c27bffb25d821310c5bc1b4a4b01864c1b
--- /dev/null
+++ b/crafter/replay/20240802T203754F473261-2DKfP7Boxi4ER2Gk3UEACh-0JLQwu2oZ07JTZZ9jiblF9-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d219f3cd479a841696ab8fe5c1dbfba1e248992c42cdcdac1f4c924842ef36d3
+size 1941408
diff --git a/crafter/replay/20240802T212413F863379-5hkFyy3LbZDdozXFUWIVDP-0rgLqaebYzahClfRu2dUQ0-1024.npz b/crafter/replay/20240802T212413F863379-5hkFyy3LbZDdozXFUWIVDP-0rgLqaebYzahClfRu2dUQ0-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..410296091779be6429457601e017e86e67db7a2a
--- /dev/null
+++ b/crafter/replay/20240802T212413F863379-5hkFyy3LbZDdozXFUWIVDP-0rgLqaebYzahClfRu2dUQ0-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:763872a392b3d9141d6be879d6fda1baf39b8c0d275ef22103baaf564f5556a7
+size 1700969
diff --git a/crafter/replay/20240802T213459F130778-2y3IgzlcWsY4eqif5jVXKn-4dJd8vpv4OkOMGpQHaKX9x-1024.npz b/crafter/replay/20240802T213459F130778-2y3IgzlcWsY4eqif5jVXKn-4dJd8vpv4OkOMGpQHaKX9x-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..78dd20b4b85bf904a12a7f7ceaecfd0792134de2
--- /dev/null
+++ b/crafter/replay/20240802T213459F130778-2y3IgzlcWsY4eqif5jVXKn-4dJd8vpv4OkOMGpQHaKX9x-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16ba66bbda319287f89500ba43e71730f8fb7d83885169a7ada5e9d4ec0e40fd
+size 1979522
diff --git a/crafter/replay/20240802T214909F687277-1uO2NG7uIJnFonuCpEAOO8-7CVc8M7YiwKi4dEe0ljc6C-1024.npz b/crafter/replay/20240802T214909F687277-1uO2NG7uIJnFonuCpEAOO8-7CVc8M7YiwKi4dEe0ljc6C-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..008b8b911b8e30fde35fb72fdc57fe18d188385d
--- /dev/null
+++ b/crafter/replay/20240802T214909F687277-1uO2NG7uIJnFonuCpEAOO8-7CVc8M7YiwKi4dEe0ljc6C-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45dffd68e4b32f582b1f9f6c613fbd9460dcc3e529bbc888d51891c9caf1f2dd
+size 2236990
diff --git a/crafter/replay/20240802T222442F455952-71Fg8EBCN2q4I4tSQh5goq-68JoVZVKRubvFGHJyPKfPI-1024.npz b/crafter/replay/20240802T222442F455952-71Fg8EBCN2q4I4tSQh5goq-68JoVZVKRubvFGHJyPKfPI-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..520d229f0c08c0fe62fe7fa767e150464769dc0a
--- /dev/null
+++ b/crafter/replay/20240802T222442F455952-71Fg8EBCN2q4I4tSQh5goq-68JoVZVKRubvFGHJyPKfPI-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bca7fa282bce146eed9ef4c60ada6b1710c279c1d30c13543d2d14e3be30e214
+size 1978594
diff --git a/crafter/replay/20240802T230016F653707-2FUEJQVvx6BdAVAnZP7fyd-7JM20GJI13YI5O1U4jckE6-1024.npz b/crafter/replay/20240802T230016F653707-2FUEJQVvx6BdAVAnZP7fyd-7JM20GJI13YI5O1U4jckE6-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f2dff97cd1be9ff0d193ec75dcb1f9588ca890fb
--- /dev/null
+++ b/crafter/replay/20240802T230016F653707-2FUEJQVvx6BdAVAnZP7fyd-7JM20GJI13YI5O1U4jckE6-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e57395c1c49621c629c3ea93c442877179b86a93c2294f5c0798979f51748b7b
+size 1717928
diff --git a/crafter/replay/20240802T233224F573750-5hxW4NTOUbMUWYD2GoqjCx-0mtR5KVpUz3Gbb8WXSrto3-1024.npz b/crafter/replay/20240802T233224F573750-5hxW4NTOUbMUWYD2GoqjCx-0mtR5KVpUz3Gbb8WXSrto3-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7aaed7bab81010362e6e95a9e0bfbdd4b8ae91ba
--- /dev/null
+++ b/crafter/replay/20240802T233224F573750-5hxW4NTOUbMUWYD2GoqjCx-0mtR5KVpUz3Gbb8WXSrto3-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:751682f6cfa7f49772ef785324ea63f370dd3418bd8e4b54d6ae3e8e3a748c95
+size 2630046
diff --git a/crafter/replay/20240803T000100F118694-2xnoLr2ealLGUsgva5pNjl-0000000000000000000000-588.npz b/crafter/replay/20240803T000100F118694-2xnoLr2ealLGUsgva5pNjl-0000000000000000000000-588.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7683b70560d55bcde0c788c96975af5d60a26767
--- /dev/null
+++ b/crafter/replay/20240803T000100F118694-2xnoLr2ealLGUsgva5pNjl-0000000000000000000000-588.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61e0c4dfafe8de9047a0e201452e9b9007d030155c56af18511f4d2efceb9716
+size 3129287
diff --git a/crafter/replay/20240803T002940F566045-16AqrPHM9ll0zjiLj2YZ5h-0000000000000000000000-996.npz b/crafter/replay/20240803T002940F566045-16AqrPHM9ll0zjiLj2YZ5h-0000000000000000000000-996.npz
new file mode 100644
index 0000000000000000000000000000000000000000..c62c86fef49ad40cd9ae8cbaadb0175c1ac4800c
--- /dev/null
+++ b/crafter/replay/20240803T002940F566045-16AqrPHM9ll0zjiLj2YZ5h-0000000000000000000000-996.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fa5ec4e7b4d00dd65fc5ac3833e314692df031b3f3b99d6c16462bcce6066fd
+size 2158207
diff --git a/crafter/replay/20240803T005811F338681-4YTvsMZtTkhPrS0qfKvhHY-5XlMnRZGs0eNRjDEcDTxHo-1024.npz b/crafter/replay/20240803T005811F338681-4YTvsMZtTkhPrS0qfKvhHY-5XlMnRZGs0eNRjDEcDTxHo-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..348496552cb564b87a04811f2f75d074b9925977
--- /dev/null
+++ b/crafter/replay/20240803T005811F338681-4YTvsMZtTkhPrS0qfKvhHY-5XlMnRZGs0eNRjDEcDTxHo-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd594db602e3dea11f926a703127119dcfb191a5459651605559f863d59d26c8
+size 1336133
diff --git a/crafter/replay/20240803T024141F614254-50lup7hxDqpzyelNxuDMWc-2zsrcaRWlVd6BY4Bm4HBjT-1024.npz b/crafter/replay/20240803T024141F614254-50lup7hxDqpzyelNxuDMWc-2zsrcaRWlVd6BY4Bm4HBjT-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4a830ab299ab525294a402b44367ff7a879eb2dd
--- /dev/null
+++ b/crafter/replay/20240803T024141F614254-50lup7hxDqpzyelNxuDMWc-2zsrcaRWlVd6BY4Bm4HBjT-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88df6c85a52eb0d39cdaf9191a9dfeb6be7fd95ec51b24cd24c9c7d43519fae3
+size 2159160
diff --git a/crafter/replay/20240803T032052F526388-3W2Qo9Ik3JRqKxJ4zUf3MU-70ZovwX6X2EHUa8uJetB2B-1024.npz b/crafter/replay/20240803T032052F526388-3W2Qo9Ik3JRqKxJ4zUf3MU-70ZovwX6X2EHUa8uJetB2B-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..835d9444b1d8c28ca38204a5ba7199fb12df61a0
--- /dev/null
+++ b/crafter/replay/20240803T032052F526388-3W2Qo9Ik3JRqKxJ4zUf3MU-70ZovwX6X2EHUa8uJetB2B-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:944d80a9b317ce075156418cd4873d49757056973994ed6a29b70c354709a071
+size 2250253
diff --git a/crafter/replay/20240803T044800F737038-2uV5sh39KzhPXoBgm933RR-4j1qxIXRfIwOMeVoWjCnXB-1024.npz b/crafter/replay/20240803T044800F737038-2uV5sh39KzhPXoBgm933RR-4j1qxIXRfIwOMeVoWjCnXB-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d136cdeaa5fd0fb5038c31536e57fe553b3c7cd4
--- /dev/null
+++ b/crafter/replay/20240803T044800F737038-2uV5sh39KzhPXoBgm933RR-4j1qxIXRfIwOMeVoWjCnXB-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:afa9d59e451e50609ac61b762bfbed429539ac09a3592b92d48ca2c722cd5eeb
+size 1688384
diff --git a/crafter/replay/20240803T045516F265299-0TD7DVb074svqfJU4tYjDx-2rEmLZFFWD4EqAoQDzwDlC-1024.npz b/crafter/replay/20240803T045516F265299-0TD7DVb074svqfJU4tYjDx-2rEmLZFFWD4EqAoQDzwDlC-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f63f5dfacf312f0f8511263904f036d424396055
--- /dev/null
+++ b/crafter/replay/20240803T045516F265299-0TD7DVb074svqfJU4tYjDx-2rEmLZFFWD4EqAoQDzwDlC-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:785d4ed6ec0e4b73b123a9af9f95d6ba13dca084174434f08c1723c61db67c97
+size 2296811
diff --git a/crafter/replay/20240803T050549F998565-3S3DOFy2l8h75EIkFGFXOo-0000000000000000000000-249.npz b/crafter/replay/20240803T050549F998565-3S3DOFy2l8h75EIkFGFXOo-0000000000000000000000-249.npz
new file mode 100644
index 0000000000000000000000000000000000000000..71e8d3619074d18a3a0abf1e939e625b948ca575
--- /dev/null
+++ b/crafter/replay/20240803T050549F998565-3S3DOFy2l8h75EIkFGFXOo-0000000000000000000000-249.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e45d8fc788aa9275c2506749812decb9f64480cee4d4aba945a072f933f1ccc
+size 423929
diff --git a/crafter/replay/20240803T051303F150553-7fufZiVCbOoqXegpJ3EbLc-454B2tWqHKIit2NW8TlgbT-1024.npz b/crafter/replay/20240803T051303F150553-7fufZiVCbOoqXegpJ3EbLc-454B2tWqHKIit2NW8TlgbT-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..e3811c0c8760712d3aae0fa05563996d8a034c7b
--- /dev/null
+++ b/crafter/replay/20240803T051303F150553-7fufZiVCbOoqXegpJ3EbLc-454B2tWqHKIit2NW8TlgbT-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d643f32824aefe0913e65d64db6b203d842058fcef187df43b63000c945da14
+size 1703671
diff --git a/crafter/replay/20240803T051635F090360-454B2tWqHKIit2NW8TlgbT-4fedXpqUFE5EHCDv4BKgpt-1024.npz b/crafter/replay/20240803T051635F090360-454B2tWqHKIit2NW8TlgbT-4fedXpqUFE5EHCDv4BKgpt-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4adb22693bdfd3a56feafab70c127145a8e26dee
--- /dev/null
+++ b/crafter/replay/20240803T051635F090360-454B2tWqHKIit2NW8TlgbT-4fedXpqUFE5EHCDv4BKgpt-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc08592dfe7516488d7f5e6a03b915ff42048bcf6722e593dfef29610258e85c
+size 1553999
diff --git a/crafter/replay/20240803T052343F252285-39G3pQXMC50yoTr2YEgZws-6yxD2BBlTuyu7mi2REXLgv-1024.npz b/crafter/replay/20240803T052343F252285-39G3pQXMC50yoTr2YEgZws-6yxD2BBlTuyu7mi2REXLgv-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ff24bd077beafaaa8e71ab70df9e352c5d1eb5c2
--- /dev/null
+++ b/crafter/replay/20240803T052343F252285-39G3pQXMC50yoTr2YEgZws-6yxD2BBlTuyu7mi2REXLgv-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1dd6d84d7efad20b113cba2b2b862548bb6c6e13975576552940b86c354510e2
+size 1580325
diff --git a/crafter/replay/20240803T053423F000847-55rSet4x2PpiaoRiH6ZHGf-24e2o6u7LSZujOI3YnhCZW-1024.npz b/crafter/replay/20240803T053423F000847-55rSet4x2PpiaoRiH6ZHGf-24e2o6u7LSZujOI3YnhCZW-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..30e57b521c68c941463dca0b972d83c6bac31ecb
--- /dev/null
+++ b/crafter/replay/20240803T053423F000847-55rSet4x2PpiaoRiH6ZHGf-24e2o6u7LSZujOI3YnhCZW-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf57a34f34320d4a1501f46f465051d58011839b70d56830ef60aec741f66d48
+size 1781594
diff --git a/crafter/replay/20240803T055212F234853-4qM4m6oPLGyuTwGTFqZEUm-5KB6kxkyCBOuT0XmIzVPlw-1024.npz b/crafter/replay/20240803T055212F234853-4qM4m6oPLGyuTwGTFqZEUm-5KB6kxkyCBOuT0XmIzVPlw-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..9e7ae3b600e9778f8edb0574463d7b5a58ed9be5
--- /dev/null
+++ b/crafter/replay/20240803T055212F234853-4qM4m6oPLGyuTwGTFqZEUm-5KB6kxkyCBOuT0XmIzVPlw-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:940b4cdd521cbd9bea0b70d01fcbd8112341211a5c0eee38d77149de670e364e
+size 2164354
diff --git a/crafter/replay/20240803T062421F209478-1kQytfgT1R2LrnrR7ODXbx-3AmLXiAc3iLy2pxkCWqtwZ-1024.npz b/crafter/replay/20240803T062421F209478-1kQytfgT1R2LrnrR7ODXbx-3AmLXiAc3iLy2pxkCWqtwZ-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..24c37a950bbf6a6aa11d578c71f232e1fa166f39
--- /dev/null
+++ b/crafter/replay/20240803T062421F209478-1kQytfgT1R2LrnrR7ODXbx-3AmLXiAc3iLy2pxkCWqtwZ-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f490da11ff80ad81328e5463c7b6a6b0103699783a0169936de0b09674be448d
+size 1980053
diff --git a/crafter/replay/20240803T064538F158783-6avGTvRMJYu4lCgBUJ3Vhb-1sB2a74z8TihXlmTvrmH1S-1024.npz b/crafter/replay/20240803T064538F158783-6avGTvRMJYu4lCgBUJ3Vhb-1sB2a74z8TihXlmTvrmH1S-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..8397be92b70d0a3dc37f458f2c9c762054673280
--- /dev/null
+++ b/crafter/replay/20240803T064538F158783-6avGTvRMJYu4lCgBUJ3Vhb-1sB2a74z8TihXlmTvrmH1S-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30c3ecf47b83bc095addf7a2dd0b484ced14e39599f1f3602fd1cec1e82c28fc
+size 1497573
diff --git a/crafter/replay/20240803T070659F610945-6B1ERZq1P7upZNL8WPYn7Y-2hqQcG0Ab79g383KOd5xUV-1024.npz b/crafter/replay/20240803T070659F610945-6B1ERZq1P7upZNL8WPYn7Y-2hqQcG0Ab79g383KOd5xUV-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..22833ef1b1513a56d8b728851594c85026209f18
--- /dev/null
+++ b/crafter/replay/20240803T070659F610945-6B1ERZq1P7upZNL8WPYn7Y-2hqQcG0Ab79g383KOd5xUV-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93bb6eec1b3f0b68f905b5338f1c9d599df95f2b27b6f59b210964cb99960e9a
+size 1717564
diff --git a/crafter/replay/20240803T080731F394395-1wnFAZ2BXeqhIctJH7Suxf-0000000000000000000000-624.npz b/crafter/replay/20240803T080731F394395-1wnFAZ2BXeqhIctJH7Suxf-0000000000000000000000-624.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4b04e57eef8f0c51d523ce1258987dcf51d6f907
--- /dev/null
+++ b/crafter/replay/20240803T080731F394395-1wnFAZ2BXeqhIctJH7Suxf-0000000000000000000000-624.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c55d681477c3e7eade0bccb0045cfc88717e12f5a969f3f38cbf5c6010265324
+size 1199309
diff --git a/crafter/replay/20240803T083933F970625-4MTYkU9xIgZtJ9RXFU9LEl-0000000000000000000000-209.npz b/crafter/replay/20240803T083933F970625-4MTYkU9xIgZtJ9RXFU9LEl-0000000000000000000000-209.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3b0d97a349dfd2481cea59c9eaa435f9c4a2e259
--- /dev/null
+++ b/crafter/replay/20240803T083933F970625-4MTYkU9xIgZtJ9RXFU9LEl-0000000000000000000000-209.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:803f4ffa85a41652b655075121ea896e38f787ce999e81ddfadf5b8ba29aabfa
+size 392623
diff --git a/crafter/replay/20240803T090813F806926-55ZiJJlxaCQX4N9DkABs7f-0000000000000000000000-617.npz b/crafter/replay/20240803T090813F806926-55ZiJJlxaCQX4N9DkABs7f-0000000000000000000000-617.npz
new file mode 100644
index 0000000000000000000000000000000000000000..53be4fafdbf86fe23aab1bb4010ff9a3e1aa2b1c
--- /dev/null
+++ b/crafter/replay/20240803T090813F806926-55ZiJJlxaCQX4N9DkABs7f-0000000000000000000000-617.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33809327c5a8eac22ed28436b9d6e6e7ca7a399168394fcce55b4a3e4a899dbc
+size 1573149
diff --git a/crafter/replay/20240803T091857F691198-7vasIQfPLBYkYH0ra2ecUK-1SHQFww3aQy4wawNQRS1NC-1024.npz b/crafter/replay/20240803T091857F691198-7vasIQfPLBYkYH0ra2ecUK-1SHQFww3aQy4wawNQRS1NC-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..83a952b0c3f41005bf643e15ad5f12415e7ee734
--- /dev/null
+++ b/crafter/replay/20240803T091857F691198-7vasIQfPLBYkYH0ra2ecUK-1SHQFww3aQy4wawNQRS1NC-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:303ee83356abd2d85a32028a2469b286aaa81b202416edf11db048e24c36d7fe
+size 1530074
diff --git a/crafter/replay/20240803T092604F943294-5kzaAPWV0PtIDLY0Np0oZI-41dTJlevDHBkoke0wJaaiy-1024.npz b/crafter/replay/20240803T092604F943294-5kzaAPWV0PtIDLY0Np0oZI-41dTJlevDHBkoke0wJaaiy-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ebb3607910ef44c3e799403c3356c5356af21697
--- /dev/null
+++ b/crafter/replay/20240803T092604F943294-5kzaAPWV0PtIDLY0Np0oZI-41dTJlevDHBkoke0wJaaiy-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:626aff1f1da8cf6717b7125f8770130011d89b48a3f2bc4b366e554beead9149
+size 1216537
diff --git a/crafter/replay/20240803T100457F905852-1RKrmNH9OmYVJKLllDGFHX-0rHvJJyqarDDJdsEDLLMJ4-1024.npz b/crafter/replay/20240803T100457F905852-1RKrmNH9OmYVJKLllDGFHX-0rHvJJyqarDDJdsEDLLMJ4-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..9e6b110423c35aa9a9d47cbbc87fbf24a5d40fc3
--- /dev/null
+++ b/crafter/replay/20240803T100457F905852-1RKrmNH9OmYVJKLllDGFHX-0rHvJJyqarDDJdsEDLLMJ4-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0ae260d451391b6baf0fcda1e30c175fdf4932a64260d58af66d2aca0a3c414a
+size 2336023
diff --git a/crafter/replay/20240803T102600F041136-16wD2gvFDBLILQFRq7ClYq-4yGVip7Q2muNyULxNpn13t-1024.npz b/crafter/replay/20240803T102600F041136-16wD2gvFDBLILQFRq7ClYq-4yGVip7Q2muNyULxNpn13t-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..b0338b65868f94e7695e9495af0efba902ec38ca
--- /dev/null
+++ b/crafter/replay/20240803T102600F041136-16wD2gvFDBLILQFRq7ClYq-4yGVip7Q2muNyULxNpn13t-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:024f06ad620f3b0de812ad0d1d04dd40f4474ab4c8b300cf4337c5f7e41e6b8f
+size 2310518
diff --git a/crafter/replay/20240803T110447F880144-0rhfjCD7dc01r1II0yyjbH-4T6vUp9EaN8cjiWSWkVvgL-1024.npz b/crafter/replay/20240803T110447F880144-0rhfjCD7dc01r1II0yyjbH-4T6vUp9EaN8cjiWSWkVvgL-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3b3a6cb51a2f4709c5351eb2f0c432a591bce8e2
--- /dev/null
+++ b/crafter/replay/20240803T110447F880144-0rhfjCD7dc01r1II0yyjbH-4T6vUp9EaN8cjiWSWkVvgL-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7cb2e50101245fba2cbfa9878cb9ff7a6e6a7be4cd60661d1e63623c9509140
+size 2447058
diff --git a/crafter/replay/20240803T122146F116947-4qUHAI7dN1tdSgs7WQy9ZW-0y2bxNyHBZh0IMrc1dweo5-1024.npz b/crafter/replay/20240803T122146F116947-4qUHAI7dN1tdSgs7WQy9ZW-0y2bxNyHBZh0IMrc1dweo5-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f7660e427c47de86fcf42143e568dd3f215e5c0f
--- /dev/null
+++ b/crafter/replay/20240803T122146F116947-4qUHAI7dN1tdSgs7WQy9ZW-0y2bxNyHBZh0IMrc1dweo5-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0575ebb33a9fa6aab0757b8fe7994b9cdc3aa6ce8686f183a3f1ede3b33db139
+size 1783319
diff --git a/crafter/replay/20240803T135638F398055-6YF7ZAFIRityBw2B1RXmyf-7tbK1db183mR437eMHr1YN-1024.npz b/crafter/replay/20240803T135638F398055-6YF7ZAFIRityBw2B1RXmyf-7tbK1db183mR437eMHr1YN-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6e0740139c490d383e9be59e50c9dd98fd3e4cc8
--- /dev/null
+++ b/crafter/replay/20240803T135638F398055-6YF7ZAFIRityBw2B1RXmyf-7tbK1db183mR437eMHr1YN-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60949fa951f6c8b622f191679b2c4ea45e104ecaa57fa61752a92afded6437e7
+size 1884922
diff --git a/crafter/replay/20240803T155231F655639-3LkSMwA7EgKaw6JZDgWSo6-7eocImaxkX2R96nc0Bd6nS-1024.npz b/crafter/replay/20240803T155231F655639-3LkSMwA7EgKaw6JZDgWSo6-7eocImaxkX2R96nc0Bd6nS-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4bcaed586c02de21efd9fcb64af6f10bb833a2a1
--- /dev/null
+++ b/crafter/replay/20240803T155231F655639-3LkSMwA7EgKaw6JZDgWSo6-7eocImaxkX2R96nc0Bd6nS-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67da80fa70adfdfec84384ddc885466663085c6c3df13068d9484c66245799bd
+size 2523232
diff --git a/crafter/replay/20240803T164504F875008-2MDiRzCOMmeS841ACCyMko-04Qlz2NkTIPexb4DTSYrBB-1024.npz b/crafter/replay/20240803T164504F875008-2MDiRzCOMmeS841ACCyMko-04Qlz2NkTIPexb4DTSYrBB-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ad4cc01d5376a6922c15fee0dbcfb212dde50912
--- /dev/null
+++ b/crafter/replay/20240803T164504F875008-2MDiRzCOMmeS841ACCyMko-04Qlz2NkTIPexb4DTSYrBB-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09ad5d7fff8f165ff0166dd20041ccaa53066092e218894bc7b67d3e320049bf
+size 2191242
diff --git a/crafter/replay/20240803T170601F386129-4adnhUlfeNfWOrP9qLNbMj-5oju6kSRJxBAzEo4hTonFj-1024.npz b/crafter/replay/20240803T170601F386129-4adnhUlfeNfWOrP9qLNbMj-5oju6kSRJxBAzEo4hTonFj-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..9df332c89b600583a82e1b7f08756b7006cbc3b4
--- /dev/null
+++ b/crafter/replay/20240803T170601F386129-4adnhUlfeNfWOrP9qLNbMj-5oju6kSRJxBAzEo4hTonFj-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da09c527bfbba93df2add057b1503ea49f9a70fd8028a0ff6940b7201c445a01
+size 2019498
diff --git a/crafter/replay/20240803T174426F144747-2hdmaXwIemO95jtsY8WeUR-3NXO9WjyOwgGOii5nC5bQ7-1024.npz b/crafter/replay/20240803T174426F144747-2hdmaXwIemO95jtsY8WeUR-3NXO9WjyOwgGOii5nC5bQ7-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..66ca21f06b42fbbc20711cc2af302cdf66c99843
--- /dev/null
+++ b/crafter/replay/20240803T174426F144747-2hdmaXwIemO95jtsY8WeUR-3NXO9WjyOwgGOii5nC5bQ7-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eccdd68bc4f52ec24beeb723c6caf2017f9f8695244c4790314cfba4b360b0ef
+size 1830960
diff --git a/crafter/replay/20240803T183725F179797-7IMe9qvRraWk6PMhbYnXT3-1Y5bbmqssvCtthgZnc4bnr-1024.npz b/crafter/replay/20240803T183725F179797-7IMe9qvRraWk6PMhbYnXT3-1Y5bbmqssvCtthgZnc4bnr-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..152b942ba28121f7d09ee16bcd1348c91e664486
--- /dev/null
+++ b/crafter/replay/20240803T183725F179797-7IMe9qvRraWk6PMhbYnXT3-1Y5bbmqssvCtthgZnc4bnr-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dfab6b55bf23d54d7b4edc7dff973f62f3b5e91c1aad0572d0f3fb44ee20b993
+size 2123078
diff --git a/crafter/replay/20240803T184056F872583-1Y5bbmqssvCtthgZnc4bnr-36L7lnCazA2bo2xExjjG6l-1024.npz b/crafter/replay/20240803T184056F872583-1Y5bbmqssvCtthgZnc4bnr-36L7lnCazA2bo2xExjjG6l-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..208b0d9292c62ec4c1f9ff216ccfee51fb6d79d4
--- /dev/null
+++ b/crafter/replay/20240803T184056F872583-1Y5bbmqssvCtthgZnc4bnr-36L7lnCazA2bo2xExjjG6l-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:538ab7587be5371ce02ffeaf81281f434578dcac2b8fed53f4d9ba3900a30a44
+size 1700175
diff --git a/crafter/replay/20240803T195548F554873-1STFe5CgaGloMNY5pzVqzA-7hrV9lKFWfuLPtYGJFMSeU-1024.npz b/crafter/replay/20240803T195548F554873-1STFe5CgaGloMNY5pzVqzA-7hrV9lKFWfuLPtYGJFMSeU-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..49a5981bee5622086d9bd12c8f31e4babe655a29
--- /dev/null
+++ b/crafter/replay/20240803T195548F554873-1STFe5CgaGloMNY5pzVqzA-7hrV9lKFWfuLPtYGJFMSeU-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:903c3b5c8b89e3875bcb1cc7cd8751ee0a65c6f5eb4b6fdacf4d44f4b55c1469
+size 1795766
diff --git a/crafter/replay/20240803T200250F579627-6nORyF7F4jFbd425sZm9Xx-0000000000000000000000-52.npz b/crafter/replay/20240803T200250F579627-6nORyF7F4jFbd425sZm9Xx-0000000000000000000000-52.npz
new file mode 100644
index 0000000000000000000000000000000000000000..e04ca08ec98b865fa9f31d98a207dbef49cb71c8
--- /dev/null
+++ b/crafter/replay/20240803T200250F579627-6nORyF7F4jFbd425sZm9Xx-0000000000000000000000-52.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8cef4e417c5d3c1c7208dff4e8f76f629281c2edd604216b77f452febc4c
+size 160528
diff --git a/crafter/replay/20240803T202410F365416-7deFdeohXL95LRcSzS4vYa-5nSdwgIFOsikZSvxsSQR4C-1024.npz b/crafter/replay/20240803T202410F365416-7deFdeohXL95LRcSzS4vYa-5nSdwgIFOsikZSvxsSQR4C-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f055bf13b4e524672b345db646c4b497b47a1dc0
--- /dev/null
+++ b/crafter/replay/20240803T202410F365416-7deFdeohXL95LRcSzS4vYa-5nSdwgIFOsikZSvxsSQR4C-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:062e6cd1b06f17890afeb9c3e0e2fcfb6dc71638fe8bc5e818ac956761b29ca0
+size 2186677
diff --git a/crafter/replay/20240803T202744F515663-5nSdwgIFOsikZSvxsSQR4C-0Vz7vrNy0q6TzgVzGQDFWd-1024.npz b/crafter/replay/20240803T202744F515663-5nSdwgIFOsikZSvxsSQR4C-0Vz7vrNy0q6TzgVzGQDFWd-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..8fc4aae15e398dafcc90b1c99e2361e481236b00
--- /dev/null
+++ b/crafter/replay/20240803T202744F515663-5nSdwgIFOsikZSvxsSQR4C-0Vz7vrNy0q6TzgVzGQDFWd-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:27ad0be53a9edd2bdd9fd9c39deb048dd34a9a9560bfb069226aa0328445d60f
+size 1682697
diff --git a/crafter/replay/20240803T204535F744010-1JaDHEAjzj0vziJ4tsW7R3-0000000000000000000000-965.npz b/crafter/replay/20240803T204535F744010-1JaDHEAjzj0vziJ4tsW7R3-0000000000000000000000-965.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6cd55d32ee5e6495d1979e7ebb1c62b99a828ff4
--- /dev/null
+++ b/crafter/replay/20240803T204535F744010-1JaDHEAjzj0vziJ4tsW7R3-0000000000000000000000-965.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f20aa0d01dc56697f0d429597822f5cc05ee00f8f7f87e0d38bfe6fc59f2568b
+size 2134150
diff --git a/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-0000000000000000000000-652.npz b/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-0000000000000000000000-652.npz
new file mode 100644
index 0000000000000000000000000000000000000000..47c8d6d39b31667cf1dca7a0bdc66bdd61f8661e
--- /dev/null
+++ b/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-0000000000000000000000-652.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e0c26c11f56890ad920960e422a325b2ce4b9d945a8c3e5242731980a042e1f
+size 1560337
diff --git a/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-7veJDMG8MmmiyxlMkffvvX-1024.npz b/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-7veJDMG8MmmiyxlMkffvvX-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ee4c699252255ff170a59cf0f68a08448e3df9a6
--- /dev/null
+++ b/crafter/replay/20240803T213157F046529-6QY2tUtbplhcqY9CVrhfPA-7veJDMG8MmmiyxlMkffvvX-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6ba07d60c685cf6a2fd849ee8574397b14f780efe13daba155e7324185b21bb
+size 2458256
diff --git a/crafter/replay/20240803T214944F760846-5vmUK28AQjTJGTGEcq1rRz-2Yn0TyvCHj1xTrTETvvDYt-1024.npz b/crafter/replay/20240803T214944F760846-5vmUK28AQjTJGTGEcq1rRz-2Yn0TyvCHj1xTrTETvvDYt-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ad37412f22349315071985a29901a594193a93fc
--- /dev/null
+++ b/crafter/replay/20240803T214944F760846-5vmUK28AQjTJGTGEcq1rRz-2Yn0TyvCHj1xTrTETvvDYt-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:123677b48ae75f99fa7aefbc8c69277b6165ec26810d8b9e9eb2820d007f0d65
+size 2518681
diff --git a/crafter/replay/20240803T220732F779681-5Q7Q8qRfY7BJP18HUvpGmg-5DrR6qNGP5zB2IPLZcaQ0L-1024.npz b/crafter/replay/20240803T220732F779681-5Q7Q8qRfY7BJP18HUvpGmg-5DrR6qNGP5zB2IPLZcaQ0L-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d783512bd17b4feb46a9f4212e6a14a6d566c553
--- /dev/null
+++ b/crafter/replay/20240803T220732F779681-5Q7Q8qRfY7BJP18HUvpGmg-5DrR6qNGP5zB2IPLZcaQ0L-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83cdc00b45c4f34ad3297cb3499a50258d082cd0073501c6ea4ec0b55b692c13
+size 2369768
diff --git a/crafter/replay/20240803T233252F719678-3gxj19dL6m0RCc16jcry9A-5gjjaXvVT27DA4ZRKC3fwC-1024.npz b/crafter/replay/20240803T233252F719678-3gxj19dL6m0RCc16jcry9A-5gjjaXvVT27DA4ZRKC3fwC-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6cf972aab3d576956864caf42c119da1c2c3ab3a
--- /dev/null
+++ b/crafter/replay/20240803T233252F719678-3gxj19dL6m0RCc16jcry9A-5gjjaXvVT27DA4ZRKC3fwC-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8c668023e52a7d813a650ecc98a3da77270bd4a5768ef91a473e77b7f320c77
+size 1748706
diff --git a/crafter/replay/20240804T002619F013351-4a4jgIgVIW6kViG5WM8FTV-3ecvTHpP0yDpwcD9pfWhvb-1024.npz b/crafter/replay/20240804T002619F013351-4a4jgIgVIW6kViG5WM8FTV-3ecvTHpP0yDpwcD9pfWhvb-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..036516a36c6d94116b2acc3b4642dab4e06987b4
--- /dev/null
+++ b/crafter/replay/20240804T002619F013351-4a4jgIgVIW6kViG5WM8FTV-3ecvTHpP0yDpwcD9pfWhvb-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a8c554a438098b5c725573f5ea870cf37722602115aaf4b17b3fa9692b581c2
+size 2252600
diff --git a/crafter/replay/20240804T025923F597587-58a32NCWKd17aAsdTlo6TS-3ZByzTCMcnKDhxE1ynSn2h-1024.npz b/crafter/replay/20240804T025923F597587-58a32NCWKd17aAsdTlo6TS-3ZByzTCMcnKDhxE1ynSn2h-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..69ecd0eb2705e77b76d624b6a44621e0438ee156
--- /dev/null
+++ b/crafter/replay/20240804T025923F597587-58a32NCWKd17aAsdTlo6TS-3ZByzTCMcnKDhxE1ynSn2h-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d49447f5502bbcfb5d664fb00b5e5754d39392a38130641448629452605515e
+size 2278299
diff --git a/crafter/replay/20240804T032040F400661-1ixbzWhebxGAx6HZZhCEOK-4RKGOoBHPob4FBePFvi4ej-1024.npz b/crafter/replay/20240804T032040F400661-1ixbzWhebxGAx6HZZhCEOK-4RKGOoBHPob4FBePFvi4ej-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..dc2a68cbbe7622d7d46013c2ec36113c02a03802
--- /dev/null
+++ b/crafter/replay/20240804T032040F400661-1ixbzWhebxGAx6HZZhCEOK-4RKGOoBHPob4FBePFvi4ej-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:baa02c0f93cac12126a04151b800e1d2624a5b1f8e4e9a7377fe346f52c80b59
+size 1582043
diff --git a/crafter/replay/20240804T041021F341806-2YDHrPMAeHVRndvVCdscZr-25JgpEUDNZhUJf1Nmipoa0-1024.npz b/crafter/replay/20240804T041021F341806-2YDHrPMAeHVRndvVCdscZr-25JgpEUDNZhUJf1Nmipoa0-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..191587871e370b6bc1cc0dc5b33c2b517126ebc4
--- /dev/null
+++ b/crafter/replay/20240804T041021F341806-2YDHrPMAeHVRndvVCdscZr-25JgpEUDNZhUJf1Nmipoa0-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f18a7ba922cd8beebbe3bb39da8a78d0c7af083e6eca3fbb3f072c5363b8032
+size 1739676
diff --git a/crafter/replay/20240804T041359F454665-25JgpEUDNZhUJf1Nmipoa0-2PWsWseX56nsQ5YdxSy8CW-1024.npz b/crafter/replay/20240804T041359F454665-25JgpEUDNZhUJf1Nmipoa0-2PWsWseX56nsQ5YdxSy8CW-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6b6fb99a1397afee959e81479585c26c86232940
--- /dev/null
+++ b/crafter/replay/20240804T041359F454665-25JgpEUDNZhUJf1Nmipoa0-2PWsWseX56nsQ5YdxSy8CW-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a32015614558e44bf584e43119a1192d77cbe3589217bca2c9643ab95b663ecc
+size 1625371
diff --git a/crafter/replay/20240804T043520F705291-5LI2XTgnnj6qBRqzkUiJNT-4F012oqBscbH8QrYgMfy8f-1024.npz b/crafter/replay/20240804T043520F705291-5LI2XTgnnj6qBRqzkUiJNT-4F012oqBscbH8QrYgMfy8f-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..74deb5238cf67c791f9a2c54f9794c367b1e1f3b
--- /dev/null
+++ b/crafter/replay/20240804T043520F705291-5LI2XTgnnj6qBRqzkUiJNT-4F012oqBscbH8QrYgMfy8f-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2dd4a22c1baa4dfa916a101e12431e16bf4afab0eda323bda711dc7ad3821168
+size 1610491
diff --git a/crafter/replay/20240804T055702F841623-6iRbaZ9FTWj0wzlaShMLDj-0000000000000000000000-245.npz b/crafter/replay/20240804T055702F841623-6iRbaZ9FTWj0wzlaShMLDj-0000000000000000000000-245.npz
new file mode 100644
index 0000000000000000000000000000000000000000..a68f3603ec8233ee19cab0edacbe570d5e750d41
--- /dev/null
+++ b/crafter/replay/20240804T055702F841623-6iRbaZ9FTWj0wzlaShMLDj-0000000000000000000000-245.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d3f79590f7c4654c777de53eefc555ffef25b48d4fbb38d7d477b66ecbccddfd
+size 611806
diff --git a/crafter/replay/20240804T061119F712398-2GfGo9Bcb6rOjI4CVpzgJp-0000000000000000000000-548.npz b/crafter/replay/20240804T061119F712398-2GfGo9Bcb6rOjI4CVpzgJp-0000000000000000000000-548.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4490b2804038c111ca8091cb767f77de022fd070
--- /dev/null
+++ b/crafter/replay/20240804T061119F712398-2GfGo9Bcb6rOjI4CVpzgJp-0000000000000000000000-548.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6171982c7bf02efcac6b078e08892b5c54298677fe0080fb62b316301a969979
+size 1176716
diff --git a/crafter/replay/20240804T070807F296095-7cnGuD1v0syKGSYZpB0qKU-2AnO4xTI8j32Cuhz4KsGE7-1024.npz b/crafter/replay/20240804T070807F296095-7cnGuD1v0syKGSYZpB0qKU-2AnO4xTI8j32Cuhz4KsGE7-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..09eb8ae67e350dccd064c15ee483449abbe006df
--- /dev/null
+++ b/crafter/replay/20240804T070807F296095-7cnGuD1v0syKGSYZpB0qKU-2AnO4xTI8j32Cuhz4KsGE7-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:debf002ea564f7c048b994a7e02be1f1df991009acfe619383e965296d2037cf
+size 1505932
diff --git a/crafter/replay/20240804T072927F857188-6DayJaRJrAkHRT9ybnKT3T-0000000000000000000000-21.npz b/crafter/replay/20240804T072927F857188-6DayJaRJrAkHRT9ybnKT3T-0000000000000000000000-21.npz
new file mode 100644
index 0000000000000000000000000000000000000000..1ae1fe450e81c6d905130a20bc37390742ac18b3
--- /dev/null
+++ b/crafter/replay/20240804T072927F857188-6DayJaRJrAkHRT9ybnKT3T-0000000000000000000000-21.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f3df62b8f44fea13473915c3940b4a432ab135efd3dd1fd298418b82d176b70
+size 109763
diff --git a/crafter/replay/20240804T081201F273978-0wdeTT6imjN8rnQrE5nzKX-6lZQdzwew2tmLhcFdcqXUz-1024.npz b/crafter/replay/20240804T081201F273978-0wdeTT6imjN8rnQrE5nzKX-6lZQdzwew2tmLhcFdcqXUz-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..8f5871700a5b92be7e24de295bc380b8aef2b5ca
--- /dev/null
+++ b/crafter/replay/20240804T081201F273978-0wdeTT6imjN8rnQrE5nzKX-6lZQdzwew2tmLhcFdcqXUz-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f9109aaf8ed1cd99d50bb33202953efee7eb208f81c91bdc0b454481022ac73
+size 2492047
diff --git a/crafter/replay/20240804T081536F183449-6lZQdzwew2tmLhcFdcqXUz-4S47Mb5bCdYNd4EILo33Tz-1024.npz b/crafter/replay/20240804T081536F183449-6lZQdzwew2tmLhcFdcqXUz-4S47Mb5bCdYNd4EILo33Tz-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..62a7fc15d592cce4c85f59eb0ecbbd9c3cdc0128
--- /dev/null
+++ b/crafter/replay/20240804T081536F183449-6lZQdzwew2tmLhcFdcqXUz-4S47Mb5bCdYNd4EILo33Tz-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d7ceaf3dd6ca58eb5d7adc3139d13df2783688ac0d5d0bb9e514dbf7fc2b2d1
+size 1961968
diff --git a/crafter/replay/20240804T091543F260306-4dbFtiiA8xkGlQPlq9nVG8-0000000000000000000000-100.npz b/crafter/replay/20240804T091543F260306-4dbFtiiA8xkGlQPlq9nVG8-0000000000000000000000-100.npz
new file mode 100644
index 0000000000000000000000000000000000000000..597bd05ba3c9917f87f53de818e913b89e55781f
--- /dev/null
+++ b/crafter/replay/20240804T091543F260306-4dbFtiiA8xkGlQPlq9nVG8-0000000000000000000000-100.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d1bb65743bf445186c8ca175fbe75987923ee6941e35b0207d5d904d116cdf3
+size 648329
diff --git a/crafter/replay/20240804T094406F376748-0RTZOCXVnKwXRydKlWCc89-0000000000000000000000-708.npz b/crafter/replay/20240804T094406F376748-0RTZOCXVnKwXRydKlWCc89-0000000000000000000000-708.npz
new file mode 100644
index 0000000000000000000000000000000000000000..b09b478ac473224a9a193e4fb62ae86eb70a7bba
--- /dev/null
+++ b/crafter/replay/20240804T094406F376748-0RTZOCXVnKwXRydKlWCc89-0000000000000000000000-708.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e55549494a4cad6d676470c41d25975657249487bfd4725e965faec3d8fa2e2c
+size 1426805
diff --git a/crafter/replay/20240804T095116F929332-0SyOTXlo7r3EhUBd3WBpi1-0jRWuGYVDYe88xbi1I1wx9-1024.npz b/crafter/replay/20240804T095116F929332-0SyOTXlo7r3EhUBd3WBpi1-0jRWuGYVDYe88xbi1I1wx9-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7917e20a332be7616d093648f7b65401fb95ba36
--- /dev/null
+++ b/crafter/replay/20240804T095116F929332-0SyOTXlo7r3EhUBd3WBpi1-0jRWuGYVDYe88xbi1I1wx9-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67744f6ec387eb9a098783b6d67fd9aacb3a8e60b06b801216f620a06e6b5ef0
+size 1932487
diff --git a/crafter/replay/20240804T115206F440247-3RWR7CoJWxP3HuGsqgH08G-3Eit5qnYAOgnRfmkqvcDUf-1024.npz b/crafter/replay/20240804T115206F440247-3RWR7CoJWxP3HuGsqgH08G-3Eit5qnYAOgnRfmkqvcDUf-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..54ab89719d95949e4bde452e5734d68f517800db
--- /dev/null
+++ b/crafter/replay/20240804T115206F440247-3RWR7CoJWxP3HuGsqgH08G-3Eit5qnYAOgnRfmkqvcDUf-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a5800d08490b003897b0bce48d11421dfd1d05f7cfd89c2c418b4d5711c84fd
+size 1805232
diff --git a/crafter/replay/20240804T121655F027647-5JSOi2XV4w7zsP2DVQkL4y-0000000000000000000000-676.npz b/crafter/replay/20240804T121655F027647-5JSOi2XV4w7zsP2DVQkL4y-0000000000000000000000-676.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3e9ce929a4bfa95ca3c23205fcf0215a210f4263
--- /dev/null
+++ b/crafter/replay/20240804T121655F027647-5JSOi2XV4w7zsP2DVQkL4y-0000000000000000000000-676.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f46940d0e27b136b0bbe8d82cc3d58a6362065e83bd4eb097db24d3c27e93df
+size 1535236
diff --git a/crafter/replay/20240804T124846F511907-7qLsSzwvpOGELharPtbkda-0000000000000000000000-260.npz b/crafter/replay/20240804T124846F511907-7qLsSzwvpOGELharPtbkda-0000000000000000000000-260.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6d5936c8a92ba663565e311ba6ead0201e7373fe
--- /dev/null
+++ b/crafter/replay/20240804T124846F511907-7qLsSzwvpOGELharPtbkda-0000000000000000000000-260.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc3b16dfcf044c3ba65d932c1b236a055e7280126d15bf7b6eafda3cb1c6a6f2
+size 732603
diff --git a/crafter/replay/20240804T134147F494335-3wgv9dLC1rHyQapZ8DlLA9-036I92Qq9JhW7wT8bGgAhm-1024.npz b/crafter/replay/20240804T134147F494335-3wgv9dLC1rHyQapZ8DlLA9-036I92Qq9JhW7wT8bGgAhm-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..332d495481e46a9400d4c3c74db38a98c9b610d5
--- /dev/null
+++ b/crafter/replay/20240804T134147F494335-3wgv9dLC1rHyQapZ8DlLA9-036I92Qq9JhW7wT8bGgAhm-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7012a171485674fe868775a4c547d26b414bfb251f0196fbae37f9ca52375c4b
+size 2158422
diff --git a/crafter/replay/20240804T144857F575520-5mIyfiGlGVRVgI8E4r3RfM-1sKzUtKOkKxxnkYCQgZ5I8-1024.npz b/crafter/replay/20240804T144857F575520-5mIyfiGlGVRVgI8E4r3RfM-1sKzUtKOkKxxnkYCQgZ5I8-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f6789ba32b86519b533d1b17d710d71c6f7a162a
--- /dev/null
+++ b/crafter/replay/20240804T144857F575520-5mIyfiGlGVRVgI8E4r3RfM-1sKzUtKOkKxxnkYCQgZ5I8-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c33150fcbce8c423ff23bed7934ed9ccda1001e69909b6ea563aad7226bd1d09
+size 2143185
diff --git a/crafter/replay/20240804T145231F390954-1sKzUtKOkKxxnkYCQgZ5I8-6Bfj5fDHimZh69r6ZGKTZ2-1024.npz b/crafter/replay/20240804T145231F390954-1sKzUtKOkKxxnkYCQgZ5I8-6Bfj5fDHimZh69r6ZGKTZ2-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..62230c7c79c9deead495928c682575dfd840591b
--- /dev/null
+++ b/crafter/replay/20240804T145231F390954-1sKzUtKOkKxxnkYCQgZ5I8-6Bfj5fDHimZh69r6ZGKTZ2-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36fd3f26c7fe3f1fe73d09dc2103675cdb45aeb3922b6a4cee49ec41769c0d9f
+size 1590130
diff --git a/crafter/replay/20240804T154151F127570-4cvdXHLNWLcmB9tICwrIfe-2OwoXNvnUtabzIWXZ9SdeG-1024.npz b/crafter/replay/20240804T154151F127570-4cvdXHLNWLcmB9tICwrIfe-2OwoXNvnUtabzIWXZ9SdeG-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7d7ff08f35d8305c1d3e4c8110a0b6101f3b3f90
--- /dev/null
+++ b/crafter/replay/20240804T154151F127570-4cvdXHLNWLcmB9tICwrIfe-2OwoXNvnUtabzIWXZ9SdeG-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:806844e0e9f71e00d30f5471023557a385be56f022925611d05cd66abb7a6833
+size 1986372
diff --git a/crafter/replay/20240804T171344F652636-1RfHS4ksZurAzBlNHLPyTu-6xjFF78KtdFZhJTQW96ijB-1024.npz b/crafter/replay/20240804T171344F652636-1RfHS4ksZurAzBlNHLPyTu-6xjFF78KtdFZhJTQW96ijB-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..9946bd3f968e3810e3bfe299d8e8819900dfd90b
--- /dev/null
+++ b/crafter/replay/20240804T171344F652636-1RfHS4ksZurAzBlNHLPyTu-6xjFF78KtdFZhJTQW96ijB-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba71fdd99032dba0e88b7bc2bfe76033ac9ff895370d914adba172c1910708c2
+size 2092091
diff --git a/crafter/replay/20240804T183823F201677-4Bn3aN0tmfzDSYrUtGE8Ei-0000000000000000000000-85.npz b/crafter/replay/20240804T183823F201677-4Bn3aN0tmfzDSYrUtGE8Ei-0000000000000000000000-85.npz
new file mode 100644
index 0000000000000000000000000000000000000000..a947ba7c3f2de492992669bc3185d49af8aab4aa
--- /dev/null
+++ b/crafter/replay/20240804T183823F201677-4Bn3aN0tmfzDSYrUtGE8Ei-0000000000000000000000-85.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00383e548d9dc282713aba4b8436455bafa0a84d517c0e34688ad6677e1e0e90
+size 2317967
diff --git a/crafter/replay/20240804T184156F696694-1aWYb5YvejBSRR0ELbPW9P-3E9N4rAEM4ZD91ezt01TuZ-1024.npz b/crafter/replay/20240804T184156F696694-1aWYb5YvejBSRR0ELbPW9P-3E9N4rAEM4ZD91ezt01TuZ-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..1d20e1004ae895e042be59c36725c233512d99c5
--- /dev/null
+++ b/crafter/replay/20240804T184156F696694-1aWYb5YvejBSRR0ELbPW9P-3E9N4rAEM4ZD91ezt01TuZ-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ee054d5fbe811653c2e67ec5cfd8194206fc6e5ca01ee74e29f7d9daf4809cf
+size 2214227
diff --git a/crafter/replay/20240804T185227F354495-6pdTqZLuvOGZ4t2b4FokQT-0000000000000000000000-388.npz b/crafter/replay/20240804T185227F354495-6pdTqZLuvOGZ4t2b4FokQT-0000000000000000000000-388.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4e8149dcd11dfce85c60d4f27908aae3981149bb
--- /dev/null
+++ b/crafter/replay/20240804T185227F354495-6pdTqZLuvOGZ4t2b4FokQT-0000000000000000000000-388.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b262331a262a9f36d32397267dbaf152deaa0ff35d95a093eeccdb0d4e5d2669
+size 1992920
diff --git a/crafter/replay/20240804T195233F221166-4QkFCudQnLGsgIFXKNMACh-5A6Hqc6IPfNGS3C3uWOwSs-1024.npz b/crafter/replay/20240804T195233F221166-4QkFCudQnLGsgIFXKNMACh-5A6Hqc6IPfNGS3C3uWOwSs-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d14c32202876b9074825740629dab5a1bee63738
--- /dev/null
+++ b/crafter/replay/20240804T195233F221166-4QkFCudQnLGsgIFXKNMACh-5A6Hqc6IPfNGS3C3uWOwSs-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d30afd8228ed9194f6cb545aac4225067ea185bf7e2cc9ec1b3c86dae33a96f6
+size 2083308
diff --git a/crafter/replay/20240804T200641F805380-0mKBo9c7NpClRwnuOiJoqn-20OKFRbKiuxkhowF9lzi6m-1024.npz b/crafter/replay/20240804T200641F805380-0mKBo9c7NpClRwnuOiJoqn-20OKFRbKiuxkhowF9lzi6m-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..04e36ceab2313df77ce959ce1c137239cc242969
--- /dev/null
+++ b/crafter/replay/20240804T200641F805380-0mKBo9c7NpClRwnuOiJoqn-20OKFRbKiuxkhowF9lzi6m-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:613422abfd9af01839ebb25c95763a74c6fb2013829355c4739e5647ebe7ae24
+size 2032493
diff --git a/crafter/replay/20240804T203831F023172-0OfXS7jbzd3rEpfjNYO8MT-0000000000000000000000-468.npz b/crafter/replay/20240804T203831F023172-0OfXS7jbzd3rEpfjNYO8MT-0000000000000000000000-468.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3f5ce3c8705c547ac419c9f8027883c81b6e5b4b
--- /dev/null
+++ b/crafter/replay/20240804T203831F023172-0OfXS7jbzd3rEpfjNYO8MT-0000000000000000000000-468.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d510d8dbfeecdf397702b82b3f0f3eea8a0cb5fa391bbab0ca8e0ac2ecff52de
+size 1092194
diff --git a/crafter/replay/20240804T221355F087205-5IJB92EDt5bPEJYIfXfDq0-5dDdAnsRnii5ZWkvtkfj6R-1024.npz b/crafter/replay/20240804T221355F087205-5IJB92EDt5bPEJYIfXfDq0-5dDdAnsRnii5ZWkvtkfj6R-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4f022246cb7c13c545a844033dbf44c4c99dd63b
--- /dev/null
+++ b/crafter/replay/20240804T221355F087205-5IJB92EDt5bPEJYIfXfDq0-5dDdAnsRnii5ZWkvtkfj6R-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc12c5b8db3fe345806da63a3507f785aadd5b4c976f2c1a809094dae2b98d59
+size 2061200
diff --git a/crafter/replay/20240804T223503F804003-1N0NOOX8uefZp5BtkxffMi-1AiKBwhC9fj4hSFw7KHoy6-1024.npz b/crafter/replay/20240804T223503F804003-1N0NOOX8uefZp5BtkxffMi-1AiKBwhC9fj4hSFw7KHoy6-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..2bc2f262fb30a35b458f0f8326382e9ed711e953
--- /dev/null
+++ b/crafter/replay/20240804T223503F804003-1N0NOOX8uefZp5BtkxffMi-1AiKBwhC9fj4hSFw7KHoy6-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd8b7871127942ea352d33d31e179328b2efb5b53a1835f04575ef89a9d95e4
+size 2370767
diff --git a/crafter/replay/20240804T231016F105718-2IOc4t7WVxLPFYQvFGahaA-2CoTi0VvUXUcwYXGbC2TnP-1024.npz b/crafter/replay/20240804T231016F105718-2IOc4t7WVxLPFYQvFGahaA-2CoTi0VvUXUcwYXGbC2TnP-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..ce3e104162ed5be0b837c9075acceb1c86f2edbe
--- /dev/null
+++ b/crafter/replay/20240804T231016F105718-2IOc4t7WVxLPFYQvFGahaA-2CoTi0VvUXUcwYXGbC2TnP-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fffb207430628963f08eb7a352c8875f9f16234bf5a11b0866c0b12e44b2409c
+size 2292601
diff --git a/crafter/replay/20240804T232420F168365-3EV1jqgD6ZudGF2bgSH2Is-6Msk0yg1cVAkAWnH7fr6mL-1024.npz b/crafter/replay/20240804T232420F168365-3EV1jqgD6ZudGF2bgSH2Is-6Msk0yg1cVAkAWnH7fr6mL-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..96f9fb46d965b19680b01b3e1116533a4a066c01
--- /dev/null
+++ b/crafter/replay/20240804T232420F168365-3EV1jqgD6ZudGF2bgSH2Is-6Msk0yg1cVAkAWnH7fr6mL-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b333780c9219507c7a7705c1e0919bab52c61e3e09b08373b6662dc7b55f7625
+size 2386756
diff --git a/crafter/replay/20240804T235602F904104-1lUwPoQG5UAimicNzjYQw5-0000000000000000000000-324.npz b/crafter/replay/20240804T235602F904104-1lUwPoQG5UAimicNzjYQw5-0000000000000000000000-324.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f283059295d583b49bf6880c02070426c0dbaa7d
--- /dev/null
+++ b/crafter/replay/20240804T235602F904104-1lUwPoQG5UAimicNzjYQw5-0000000000000000000000-324.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dcd648841f4fa22d94dd7884828e9e9c9fa0b8a9cf3b3456129e844ea2aeb25f
+size 2028684
diff --git a/crafter/replay/20240805T004045F730326-0BS8DZADVjokXOpZhcubJq-7Erbr4BSX8mfei6gpNn3SK-1024.npz b/crafter/replay/20240805T004045F730326-0BS8DZADVjokXOpZhcubJq-7Erbr4BSX8mfei6gpNn3SK-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..603695c1d1f40414907879e98ae41fca8c0ec314
--- /dev/null
+++ b/crafter/replay/20240805T004045F730326-0BS8DZADVjokXOpZhcubJq-7Erbr4BSX8mfei6gpNn3SK-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8d4ba884810ee50e4849d8c19a9b5768a16ee93255cb43046802629b907dabe
+size 2505420
diff --git a/crafter/replay/20240805T013800F217193-4oML6nr1wd4f5Q6piihdby-4mO2OHvUFChYTsX3hG9Wyw-1024.npz b/crafter/replay/20240805T013800F217193-4oML6nr1wd4f5Q6piihdby-4mO2OHvUFChYTsX3hG9Wyw-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..8f7014e76b5e1dba2a53e84407021318f457bf9d
--- /dev/null
+++ b/crafter/replay/20240805T013800F217193-4oML6nr1wd4f5Q6piihdby-4mO2OHvUFChYTsX3hG9Wyw-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec09b4881bed6b0d3bd237264cc9d6e821c168ce7e3e462a098429a53b0643ce
+size 2418674
diff --git a/crafter/replay/20240805T014204F580301-4mO2OHvUFChYTsX3hG9Wyw-0000000000000000000000-300.npz b/crafter/replay/20240805T014204F580301-4mO2OHvUFChYTsX3hG9Wyw-0000000000000000000000-300.npz
new file mode 100644
index 0000000000000000000000000000000000000000..e5551f31a1253a863f2a11affb870806fc272fb3
--- /dev/null
+++ b/crafter/replay/20240805T014204F580301-4mO2OHvUFChYTsX3hG9Wyw-0000000000000000000000-300.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3bcba9d537e4055463886caa75a8ed735c7e75591dc0c3c1d9ce1a93a4df8b7c
+size 1887237
diff --git a/crafter/replay/20240805T025936F141134-62T7LckN4TH8V4ZbMKthM9-1RGYiEsJKYC8lApyFeLrZq-1024.npz b/crafter/replay/20240805T025936F141134-62T7LckN4TH8V4ZbMKthM9-1RGYiEsJKYC8lApyFeLrZq-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7015a6710ad54855c5321b2a1ff225d6f63889aa
--- /dev/null
+++ b/crafter/replay/20240805T025936F141134-62T7LckN4TH8V4ZbMKthM9-1RGYiEsJKYC8lApyFeLrZq-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf34a3c71cb4c09633b307e20444aa0f77e19c753c7780ba6f52d3b2c7ef9b4c
+size 2141369
diff --git a/crafter/replay/20240805T033612F734915-3CGQO877GgUjtms36gQDQP-0UgFOBoTNTE9T5S5elo3FF-1024.npz b/crafter/replay/20240805T033612F734915-3CGQO877GgUjtms36gQDQP-0UgFOBoTNTE9T5S5elo3FF-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..2b92cebfbe8b2f58dd918cc4dbc177244d4f5fc1
--- /dev/null
+++ b/crafter/replay/20240805T033612F734915-3CGQO877GgUjtms36gQDQP-0UgFOBoTNTE9T5S5elo3FF-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:994e7edfaec7a99f09ec21f6767d569e25c4cf3bfa927531c19d90d3a2893eb0
+size 1973330
diff --git a/crafter/replay/20240805T040044F830362-1TpSaqE14PL2JzOIEX76xL-4bRGAUi6FppBgKYDOBUyS7-1024.npz b/crafter/replay/20240805T040044F830362-1TpSaqE14PL2JzOIEX76xL-4bRGAUi6FppBgKYDOBUyS7-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..cccaf0189eba0342b6c03c9799672806ea4537c4
--- /dev/null
+++ b/crafter/replay/20240805T040044F830362-1TpSaqE14PL2JzOIEX76xL-4bRGAUi6FppBgKYDOBUyS7-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f5254a374b6220eb00d608a16e68d54c98a28bbad544c7cb557201c64342a13
+size 2332656
diff --git a/crafter/replay/20240805T040446F737064-4bRGAUi6FppBgKYDOBUyS7-7ksJBPsaG1EQvypl7tmG0E-1024.npz b/crafter/replay/20240805T040446F737064-4bRGAUi6FppBgKYDOBUyS7-7ksJBPsaG1EQvypl7tmG0E-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f9e4f70b1ee70c6b7c99390fdb6e309b35b9b6e9
--- /dev/null
+++ b/crafter/replay/20240805T040446F737064-4bRGAUi6FppBgKYDOBUyS7-7ksJBPsaG1EQvypl7tmG0E-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51cfaf798c414c33611d17d000883f00ec435a1b0a21dcb9e1a266754cc0a5a6
+size 2114989
diff --git a/crafter/replay/20240805T043320F465434-1Ul7vhewM8kS8p6ijYBFE5-61mt95SXPGR8eh7Pqwu1qm-1024.npz b/crafter/replay/20240805T043320F465434-1Ul7vhewM8kS8p6ijYBFE5-61mt95SXPGR8eh7Pqwu1qm-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..533b3f5fbab05064d9090aeea03648c05809a04a
--- /dev/null
+++ b/crafter/replay/20240805T043320F465434-1Ul7vhewM8kS8p6ijYBFE5-61mt95SXPGR8eh7Pqwu1qm-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5eae8d1eb3ef6f9763a2777f45497c8a2e07d25a8a86691d97fee581b3848cb
+size 2518073
diff --git a/crafter/replay/20240805T044150F895558-7GZUKWa9mrIOT6c6JeiGB2-5bHKbAA2ZXuCPqiPkJt474-1024.npz b/crafter/replay/20240805T044150F895558-7GZUKWa9mrIOT6c6JeiGB2-5bHKbAA2ZXuCPqiPkJt474-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..7cddad4a836ad44b633acac75d39a4f45c69224e
--- /dev/null
+++ b/crafter/replay/20240805T044150F895558-7GZUKWa9mrIOT6c6JeiGB2-5bHKbAA2ZXuCPqiPkJt474-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f6f0146600e5a18c4c85d95bd770a2809c89969b88e515581bed927dac3c9803
+size 2654168
diff --git a/crafter/replay/20240805T050254F855935-52ict8honCI9FRmWvXiSs8-3eunMAHD4rgbUGgc0uBpmZ-1024.npz b/crafter/replay/20240805T050254F855935-52ict8honCI9FRmWvXiSs8-3eunMAHD4rgbUGgc0uBpmZ-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..09010c16271d126085c646e2353fc906578908b8
--- /dev/null
+++ b/crafter/replay/20240805T050254F855935-52ict8honCI9FRmWvXiSs8-3eunMAHD4rgbUGgc0uBpmZ-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:227c7ca1785083152c9b22e995112fd0e9ce81c0214eb8da83984c0d010d2c92
+size 2100391
diff --git a/crafter/replay/20240805T052451F696019-0U2v7sGiFlTDd2I7Yxug5q-6tqny6h5eeO7qWfxdiJ0uU-1024.npz b/crafter/replay/20240805T052451F696019-0U2v7sGiFlTDd2I7Yxug5q-6tqny6h5eeO7qWfxdiJ0uU-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..22680a0e17eb70471f83a79bc659ac67ef1b4b4d
--- /dev/null
+++ b/crafter/replay/20240805T052451F696019-0U2v7sGiFlTDd2I7Yxug5q-6tqny6h5eeO7qWfxdiJ0uU-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc421ffaf1809265baa66ce69b33f2d114d5405951224386d4689b0afce9dbbe
+size 2417933
diff --git a/crafter/replay/20240805T054822F659037-3QOKCZ55nm0PnBV6W2TPzi-0000000000000000000000-321.npz b/crafter/replay/20240805T054822F659037-3QOKCZ55nm0PnBV6W2TPzi-0000000000000000000000-321.npz
new file mode 100644
index 0000000000000000000000000000000000000000..4a5d9ffe9ceb3836d84fa75f8f8d27cb9426be37
--- /dev/null
+++ b/crafter/replay/20240805T054822F659037-3QOKCZ55nm0PnBV6W2TPzi-0000000000000000000000-321.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e41d16503f73932401cf4aa256457eaf586d44e30c02b1bb14be6096d66a749
+size 480627
diff --git a/crafter/replay/20240805T075351F166868-4Uru2A84Lx7Wrx4s4HOmSx-57bGRNZb5h2J0xTpxyFcGt-1024.npz b/crafter/replay/20240805T075351F166868-4Uru2A84Lx7Wrx4s4HOmSx-57bGRNZb5h2J0xTpxyFcGt-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..684ad63f61107e8148b2b35d361fad1dfbd163ac
--- /dev/null
+++ b/crafter/replay/20240805T075351F166868-4Uru2A84Lx7Wrx4s4HOmSx-57bGRNZb5h2J0xTpxyFcGt-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8c1e22ffc8bc84a60186d97f12af54b8de45f366d202a1427747fa9385cf2df
+size 2304443
diff --git a/crafter/replay/20240805T082906F477999-7q5oSzp6yby2Ybsoona80U-3JJowGjKxaIhhTsyGA4ihu-1024.npz b/crafter/replay/20240805T082906F477999-7q5oSzp6yby2Ybsoona80U-3JJowGjKxaIhhTsyGA4ihu-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..f55e6e67d7504275b431d2158cdc47d9381779c1
--- /dev/null
+++ b/crafter/replay/20240805T082906F477999-7q5oSzp6yby2Ybsoona80U-3JJowGjKxaIhhTsyGA4ihu-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd45c43d3adbfa77ada5d494d327eaeaf882ee6ac6ee72cb23aa816c784a997b
+size 1993293
diff --git a/crafter/replay/20240805T083654F330709-0nwyXY7sSuAGosQoKz0RPf-02xUXkYe6nY7EaayycY9r7-1024.npz b/crafter/replay/20240805T083654F330709-0nwyXY7sSuAGosQoKz0RPf-02xUXkYe6nY7EaayycY9r7-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..1a9410a849e47a4e822fd0f0595948a57babdaea
--- /dev/null
+++ b/crafter/replay/20240805T083654F330709-0nwyXY7sSuAGosQoKz0RPf-02xUXkYe6nY7EaayycY9r7-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:101cc462c27cc6539a643c4b328187a55f108803f29925e252470c47595ee847
+size 2877892
diff --git a/crafter/replay/20240805T093150F620869-1dsfuoMqaX9Jycy9DemvUu-5fhBjU5ZkvBDvndnEWlrbE-1024.npz b/crafter/replay/20240805T093150F620869-1dsfuoMqaX9Jycy9DemvUu-5fhBjU5ZkvBDvndnEWlrbE-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6733b1283a582de545bec4f5519f3f2102876d35
--- /dev/null
+++ b/crafter/replay/20240805T093150F620869-1dsfuoMqaX9Jycy9DemvUu-5fhBjU5ZkvBDvndnEWlrbE-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24fde9f0fe11a38aa8bf6ae6c29bd65893f72b321b8ff36964eb971f75bf4235
+size 2785016
diff --git a/crafter/replay/20240805T095527F569164-2RbroqOvi23qEsKrL8ZiCI-2r2Fe7biz1zgTqMVwLqM2d-1024.npz b/crafter/replay/20240805T095527F569164-2RbroqOvi23qEsKrL8ZiCI-2r2Fe7biz1zgTqMVwLqM2d-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..d69ac5606161ec198224d55f3d6d1daea28aba1b
--- /dev/null
+++ b/crafter/replay/20240805T095527F569164-2RbroqOvi23qEsKrL8ZiCI-2r2Fe7biz1zgTqMVwLqM2d-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e661a438627dee467a8a8f00d3eb7c1ef8260c390de269df069afa6302f74b88
+size 2532796
diff --git a/crafter/replay/20240805T102250F907927-00NVupFKc7SLX4JzRDSeXG-5RBlm3ZUFK6dfqkiEqhwI7-1024.npz b/crafter/replay/20240805T102250F907927-00NVupFKc7SLX4JzRDSeXG-5RBlm3ZUFK6dfqkiEqhwI7-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..8a70ff23aa3ce1f7bc55f6a22b17e8c671fa4101
--- /dev/null
+++ b/crafter/replay/20240805T102250F907927-00NVupFKc7SLX4JzRDSeXG-5RBlm3ZUFK6dfqkiEqhwI7-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be91315c61526af987b4816d54e09a6a3b2a4abcccaa24778b5f083435f6c744
+size 2350284
diff --git a/crafter/replay/20240805T103434F455810-7ufYDYVs0VCgc5B2vazw85-4tb6l9JRrN24uCte0k0Ewh-1024.npz b/crafter/replay/20240805T103434F455810-7ufYDYVs0VCgc5B2vazw85-4tb6l9JRrN24uCte0k0Ewh-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..bb26935dcb3cea44e2d0b16690f626d58f3bd10d
--- /dev/null
+++ b/crafter/replay/20240805T103434F455810-7ufYDYVs0VCgc5B2vazw85-4tb6l9JRrN24uCte0k0Ewh-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9993eb5b44475f14afd6cb546943abfc7e7dc8112d1601d10f4f3b1f407d8e4
+size 2715461
diff --git a/crafter/replay/20240805T103825F186316-4tb6l9JRrN24uCte0k0Ewh-5QJivaHD4YE7rzAd4HGydE-1024.npz b/crafter/replay/20240805T103825F186316-4tb6l9JRrN24uCte0k0Ewh-5QJivaHD4YE7rzAd4HGydE-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..24449851712f12696ec7ae8be2825d9cbc5a62d5
--- /dev/null
+++ b/crafter/replay/20240805T103825F186316-4tb6l9JRrN24uCte0k0Ewh-5QJivaHD4YE7rzAd4HGydE-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91f99c0a1368422ecbe20ae9edd755ce03ef38761dd16eb9809ee199566339d5
+size 1333383
diff --git a/crafter/replay/20240805T112918F337450-0rFbA6fCIsz3Wmy3ElL3fg-77GSGfgkKL92j7fizTfcjE-1024.npz b/crafter/replay/20240805T112918F337450-0rFbA6fCIsz3Wmy3ElL3fg-77GSGfgkKL92j7fizTfcjE-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..045c0086f0d12e5e42b0dac4c8ab0c98fdef8aef
--- /dev/null
+++ b/crafter/replay/20240805T112918F337450-0rFbA6fCIsz3Wmy3ElL3fg-77GSGfgkKL92j7fizTfcjE-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91f490e25d725b031c6b8871f50c584c17ca1a603ba970fd0d35603ccb3479f2
+size 2202968
diff --git a/crafter/replay/20240805T131046F791728-3Op96HDqF6cXYVvsIrBlup-0UMuZXuueoo5D4yCR87Sm5-1024.npz b/crafter/replay/20240805T131046F791728-3Op96HDqF6cXYVvsIrBlup-0UMuZXuueoo5D4yCR87Sm5-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..681b3cfb43941aa2bc0c3fd8ea8c039701d60650
--- /dev/null
+++ b/crafter/replay/20240805T131046F791728-3Op96HDqF6cXYVvsIrBlup-0UMuZXuueoo5D4yCR87Sm5-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:428944cc50e1759084cc3e15f70bc16a39f029b62cf012f6b6c505776cabc162
+size 2339163
diff --git a/crafter/replay/20240805T135607F411955-2yGNgI6BgNeaZXwVQWYAgt-0000000000000000000000-720.npz b/crafter/replay/20240805T135607F411955-2yGNgI6BgNeaZXwVQWYAgt-0000000000000000000000-720.npz
new file mode 100644
index 0000000000000000000000000000000000000000..e96ac1791b3c956f0d6c303157aa57ba14e2d4a3
--- /dev/null
+++ b/crafter/replay/20240805T135607F411955-2yGNgI6BgNeaZXwVQWYAgt-0000000000000000000000-720.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3153c38e3b39dcc7561685c7a69414efbea87f64818b96cd65fe29c5dbb0f64
+size 1467350
diff --git a/crafter/replay/20240805T153813F937123-30Fouykqpkn8YCglCb6lyc-6t5X4DPbLuCI2o8PIJtcRG-1024.npz b/crafter/replay/20240805T153813F937123-30Fouykqpkn8YCglCb6lyc-6t5X4DPbLuCI2o8PIJtcRG-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..3b4875502680dcf92d54fbcd186da50a7558b38c
--- /dev/null
+++ b/crafter/replay/20240805T153813F937123-30Fouykqpkn8YCglCb6lyc-6t5X4DPbLuCI2o8PIJtcRG-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7fb2503f7aacd204b4735b781e3eece37deec890a599ee68d96ce84af5e14fa7
+size 2501821
diff --git a/crafter/replay/20240805T162401F805108-3esk8L7nvI9oiXawkJkUzL-7bwKcoGgzVmMXVONf4vtUb-1024.npz b/crafter/replay/20240805T162401F805108-3esk8L7nvI9oiXawkJkUzL-7bwKcoGgzVmMXVONf4vtUb-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..6d83c90d66f6cac47334165cacbb9566ae0e693d
--- /dev/null
+++ b/crafter/replay/20240805T162401F805108-3esk8L7nvI9oiXawkJkUzL-7bwKcoGgzVmMXVONf4vtUb-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08be227889acff8d43c7f4eae06c005cd428eddf03cb16d42dd9ebbe9e503aa7
+size 1902397
diff --git a/crafter/replay/20240805T165907F477914-3tJRjHm1uwPGajVqurmwiA-54wcEbFokrkihQOsx3SB1X-1024.npz b/crafter/replay/20240805T165907F477914-3tJRjHm1uwPGajVqurmwiA-54wcEbFokrkihQOsx3SB1X-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..5b0e5fc93989cbf8d4cabc64848bb8b3aa6cc479
--- /dev/null
+++ b/crafter/replay/20240805T165907F477914-3tJRjHm1uwPGajVqurmwiA-54wcEbFokrkihQOsx3SB1X-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b977fc3242d0d09123156d4f80a946b9469dd392d441ec63e345b49330f0e961
+size 2121145
diff --git a/crafter/replay/20240805T170242F864837-54wcEbFokrkihQOsx3SB1X-2wF5t3BaifWxjtTgEqcPOl-1024.npz b/crafter/replay/20240805T170242F864837-54wcEbFokrkihQOsx3SB1X-2wF5t3BaifWxjtTgEqcPOl-1024.npz
new file mode 100644
index 0000000000000000000000000000000000000000..36a39e90e98b64173a8da1deeea9dc75220b78e5
--- /dev/null
+++ b/crafter/replay/20240805T170242F864837-54wcEbFokrkihQOsx3SB1X-2wF5t3BaifWxjtTgEqcPOl-1024.npz
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78dfad2e1ae9b61d5753f631a31d069560dd21c66c88bc141a24a02a90b25bdf
+size 2100739
diff --git a/crafter/scores.jsonl b/crafter/scores.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..6e0526150ec924cc5818b531c4b1d05e2bd09b56
--- /dev/null
+++ b/crafter/scores.jsonl
@@ -0,0 +1,6951 @@
+{"step": 136, "episode/score": 0.09999998658895493}
+{"step": 315, "episode/score": 0.09999998658895493}
+{"step": 471, "episode/score": 1.099999986588955}
+{"step": 620, "episode/score": 1.1000000089406967}
+{"step": 765, "episode/score": 1.099999986588955}
+{"step": 914, "episode/score": 0.09999998658895493}
+{"step": 1116, "episode/score": 0.09999997168779373}
+{"step": 1337, "episode/score": 2.099999986588955}
+{"step": 1501, "episode/score": 3.099999986588955}
+{"step": 1636, "episode/score": 0.10000000149011612}
+{"step": 1815, "episode/score": 0.09999998658895493}
+{"step": 1983, "episode/score": 0.09999998658895493}
+{"step": 2154, "episode/score": 2.099999986588955}
+{"step": 2229, "episode/score": 0.09999998658895493}
+{"step": 2527, "episode/score": 2.099999986588955}
+{"step": 2708, "episode/score": 2.099999986588955}
+{"step": 2889, "episode/score": 1.0999999791383743}
+{"step": 3167, "episode/score": 3.0999999791383743}
+{"step": 3393, "episode/score": 3.099999986588955}
+{"step": 3547, "episode/score": 0.09999998658895493}
+{"step": 3655, "episode/score": 0.09999998658895493}
+{"step": 4019, "episode/score": 5.099999986588955}
+{"step": 4220, "episode/score": 3.099999986588955}
+{"step": 4434, "episode/score": 2.099999986588955}
+{"step": 4585, "episode/score": 3.099999986588955}
+{"step": 4651, "episode/score": 0.09999998658895493}
+{"step": 4799, "episode/score": 3.099999986588955}
+{"step": 4995, "episode/score": -0.8999999910593033}
+{"step": 5161, "episode/score": 0.10000000894069672}
+{"step": 5352, "episode/score": 2.099999986588955}
+{"step": 5524, "episode/score": 3.099999986588955}
+{"step": 5692, "episode/score": 2.1000000089406967}
+{"step": 5775, "episode/score": 2.099999986588955}
+{"step": 5995, "episode/score": 5.099999986588955}
+{"step": 6176, "episode/score": 3.099999986588955}
+{"step": 6355, "episode/score": 4.099999986588955}
+{"step": 6558, "episode/score": 2.099999986588955}
+{"step": 6591, "episode/score": -0.9000000134110451}
+{"step": 6646, "episode/score": 0.10000000149011612}
+{"step": 6851, "episode/score": 3.099999986588955}
+{"step": 6929, "episode/score": 3.099999986588955}
+{"step": 7110, "episode/score": 3.099999986588955}
+{"step": 7320, "episode/score": 5.100000008940697}
+{"step": 7499, "episode/score": 2.099999986588955}
+{"step": 7625, "episode/score": 2.099999986588955}
+{"step": 7780, "episode/score": 3.099999986588955}
+{"step": 7933, "episode/score": 2.099999986588955}
+{"step": 8112, "episode/score": 2.0999999791383743}
+{"step": 8286, "episode/score": 3.1000000089406967}
+{"step": 8489, "episode/score": 3.099999986588955}
+{"step": 8652, "episode/score": 0.09999998658895493}
+{"step": 8893, "episode/score": 3.099999986588955}
+{"step": 9045, "episode/score": 2.099999986588955}
+{"step": 9216, "episode/score": 2.099999986588955}
+{"step": 9432, "episode/score": 4.099999986588955}
+{"step": 9585, "episode/score": 0.09999998658895493}
+{"step": 9756, "episode/score": 0.09999998658895493}
+{"step": 9967, "episode/score": 3.099999986588955}
+{"step": 10025, "episode/score": 0.10000000894069672}
+{"step": 10191, "episode/score": 1.099999986588955}
+{"step": 10407, "episode/score": 3.099999986588955}
+{"step": 10600, "episode/score": 1.099999986588955}
+{"step": 10849, "episode/score": 5.099999986588955}
+{"step": 11030, "episode/score": 3.099999986588955}
+{"step": 11200, "episode/score": 3.099999986588955}
+{"step": 11402, "episode/score": 4.099999986588955}
+{"step": 11591, "episode/score": 4.099999986588955}
+{"step": 11792, "episode/score": 4.100000008940697}
+{"step": 11974, "episode/score": 5.099999986588955}
+{"step": 12120, "episode/score": 2.099999986588955}
+{"step": 12321, "episode/score": 4.099999986588955}
+{"step": 12512, "episode/score": 3.099999986588955}
+{"step": 12548, "episode/score": 2.100000023841858}
+{"step": 12963, "episode/score": 4.099999986588955}
+{"step": 13119, "episode/score": 3.099999986588955}
+{"step": 13283, "episode/score": 4.099999986588955}
+{"step": 13513, "episode/score": 5.099999986588955}
+{"step": 13699, "episode/score": 3.099999986588955}
+{"step": 13869, "episode/score": 3.099999986588955}
+{"step": 14120, "episode/score": 4.099999964237213}
+{"step": 14288, "episode/score": 2.099999986588955}
+{"step": 14447, "episode/score": 3.099999986588955}
+{"step": 14605, "episode/score": 3.099999986588955}
+{"step": 14781, "episode/score": 5.099999986588955}
+{"step": 14971, "episode/score": 2.099999986588955}
+{"step": 15179, "episode/score": 2.099999986588955}
+{"step": 15346, "episode/score": 4.099999986588955}
+{"step": 15511, "episode/score": 4.099999986588955}
+{"step": 15671, "episode/score": 5.099999986588955}
+{"step": 15836, "episode/score": 3.099999986588955}
+{"step": 15878, "episode/score": 1.1000000089406967}
+{"step": 16072, "episode/score": 3.099999986588955}
+{"step": 16245, "episode/score": 3.099999986588955}
+{"step": 16436, "episode/score": 4.099999986588955}
+{"step": 16605, "episode/score": 6.099999986588955}
+{"step": 16856, "episode/score": 4.099999986588955}
+{"step": 16885, "episode/score": 1.099999986588955}
+{"step": 17061, "episode/score": 4.099999986588955}
+{"step": 17276, "episode/score": 5.099999986588955}
+{"step": 17462, "episode/score": 2.0999999716877937}
+{"step": 17655, "episode/score": 4.099999986588955}
+{"step": 17807, "episode/score": 3.099999986588955}
+{"step": 18043, "episode/score": 5.099999986588955}
+{"step": 18097, "episode/score": 2.1000000089406967}
+{"step": 18257, "episode/score": 3.099999986588955}
+{"step": 18408, "episode/score": 4.099999986588955}
+{"step": 18578, "episode/score": 2.099999986588955}
+{"step": 18943, "episode/score": 5.099999986588955}
+{"step": 19115, "episode/score": 3.0999999940395355}
+{"step": 19158, "episode/score": 0.10000000894069672}
+{"step": 19333, "episode/score": 3.0999999940395355}
+{"step": 19594, "episode/score": 4.099999986588955}
+{"step": 19759, "episode/score": 4.099999986588955}
+{"step": 19910, "episode/score": 3.0999999716877937}
+{"step": 20081, "episode/score": 6.100000008940697}
+{"step": 20227, "episode/score": 2.1000000089406967}
+{"step": 20420, "episode/score": 4.100000001490116}
+{"step": 20633, "episode/score": 2.100000001490116}
+{"step": 20776, "episode/score": 4.100000008940697}
+{"step": 20972, "episode/score": 2.1000000089406967}
+{"step": 21203, "episode/score": 3.099999986588955}
+{"step": 21452, "episode/score": 4.099999986588955}
+{"step": 21595, "episode/score": 3.1000000089406967}
+{"step": 21731, "episode/score": 3.099999986588955}
+{"step": 21915, "episode/score": 2.0999999716877937}
+{"step": 22175, "episode/score": 5.100000008940697}
+{"step": 22317, "episode/score": 4.099999971687794}
+{"step": 22593, "episode/score": 4.099999979138374}
+{"step": 22821, "episode/score": 3.099999986588955}
+{"step": 23001, "episode/score": 4.099999986588955}
+{"step": 23194, "episode/score": 5.099999986588955}
+{"step": 23364, "episode/score": 4.1000000312924385}
+{"step": 23425, "episode/score": 3.099999986588955}
+{"step": 23619, "episode/score": 5.099999986588955}
+{"step": 23725, "episode/score": 3.099999986588955}
+{"step": 23905, "episode/score": 4.100000008940697}
+{"step": 24097, "episode/score": 5.099999979138374}
+{"step": 24135, "episode/score": 2.0999999716877937}
+{"step": 24283, "episode/score": 5.100000008940697}
+{"step": 24367, "episode/score": 4.099999986588955}
+{"step": 24403, "episode/score": 3.1000000089406967}
+{"step": 24597, "episode/score": 3.099999986588955}
+{"step": 24794, "episode/score": 6.099999986588955}
+{"step": 24920, "episode/score": 4.099999986588955}
+{"step": 25076, "episode/score": 3.1000000089406967}
+{"step": 25288, "episode/score": 3.0999999791383743}
+{"step": 25483, "episode/score": 4.099999986588955}
+{"step": 25660, "episode/score": 5.100000001490116}
+{"step": 25828, "episode/score": 3.099999986588955}
+{"step": 26039, "episode/score": 1.099999986588955}
+{"step": 26239, "episode/score": 4.099999986588955}
+{"step": 26490, "episode/score": 5.100000008940697}
+{"step": 26634, "episode/score": 2.099999986588955}
+{"step": 26774, "episode/score": 3.0999999716877937}
+{"step": 26918, "episode/score": 1.099999986588955}
+{"step": 27143, "episode/score": 5.100000008940697}
+{"step": 27330, "episode/score": 2.099999986588955}
+{"step": 27474, "episode/score": 3.1000000089406967}
+{"step": 27637, "episode/score": 4.099999986588955}
+{"step": 27814, "episode/score": 2.0999999716877937}
+{"step": 27985, "episode/score": 5.100000008940697}
+{"step": 28230, "episode/score": 3.1000000089406967}
+{"step": 28386, "episode/score": 5.0999999940395355}
+{"step": 28428, "episode/score": 0.10000000894069672}
+{"step": 28605, "episode/score": 5.099999986588955}
+{"step": 28761, "episode/score": 3.099999986588955}
+{"step": 28912, "episode/score": 3.100000001490116}
+{"step": 29106, "episode/score": 5.099999986588955}
+{"step": 29140, "episode/score": 3.1000000089406967}
+{"step": 29327, "episode/score": 4.099999986588955}
+{"step": 29410, "episode/score": 3.1000000089406967}
+{"step": 29647, "episode/score": 4.099999986588955}
+{"step": 29742, "episode/score": 4.099999971687794}
+{"step": 29920, "episode/score": 5.100000008940697}
+{"step": 30090, "episode/score": 4.099999986588955}
+{"step": 30243, "episode/score": 3.0999999940395355}
+{"step": 30389, "episode/score": 3.1000000089406967}
+{"step": 30576, "episode/score": 4.100000008940697}
+{"step": 30755, "episode/score": 4.099999971687794}
+{"step": 30796, "episode/score": 2.099999986588955}
+{"step": 30933, "episode/score": 2.099999986588955}
+{"step": 31133, "episode/score": 4.099999986588955}
+{"step": 31162, "episode/score": 1.099999986588955}
+{"step": 31338, "episode/score": 4.099999971687794}
+{"step": 31539, "episode/score": 5.099999986588955}
+{"step": 31585, "episode/score": 1.1000000089406967}
+{"step": 31837, "episode/score": 4.099999986588955}
+{"step": 32005, "episode/score": 3.0999999716877937}
+{"step": 32173, "episode/score": 3.099999986588955}
+{"step": 32343, "episode/score": 3.100000001490116}
+{"step": 32537, "episode/score": 4.100000001490116}
+{"step": 32712, "episode/score": 3.099999986588955}
+{"step": 32973, "episode/score": 5.099999979138374}
+{"step": 33141, "episode/score": 4.099999986588955}
+{"step": 33273, "episode/score": 3.1000000089406967}
+{"step": 33312, "episode/score": 2.1000000089406967}
+{"step": 33509, "episode/score": 4.099999986588955}
+{"step": 33674, "episode/score": 2.099999986588955}
+{"step": 33870, "episode/score": 5.099999986588955}
+{"step": 34036, "episode/score": 3.0999999716877937}
+{"step": 34283, "episode/score": 2.0999999940395355}
+{"step": 34451, "episode/score": 5.100000008940697}
+{"step": 34608, "episode/score": 2.099999986588955}
+{"step": 34747, "episode/score": 3.099999986588955}
+{"step": 34955, "episode/score": 4.099999986588955}
+{"step": 35120, "episode/score": 4.099999986588955}
+{"step": 35298, "episode/score": 1.1000000089406967}
+{"step": 35335, "episode/score": 2.1000000089406967}
+{"step": 35492, "episode/score": 4.099999986588955}
+{"step": 35658, "episode/score": 2.099999986588955}
+{"step": 36056, "episode/score": 5.099999986588955}
+{"step": 36258, "episode/score": 3.100000001490116}
+{"step": 36420, "episode/score": 5.099999986588955}
+{"step": 36646, "episode/score": 4.099999986588955}
+{"step": 36802, "episode/score": 2.099999986588955}
+{"step": 36955, "episode/score": 4.0999999940395355}
+{"step": 37133, "episode/score": 4.099999986588955}
+{"step": 37283, "episode/score": 3.099999986588955}
+{"step": 37384, "episode/score": 4.099999986588955}
+{"step": 37562, "episode/score": 4.100000008940697}
+{"step": 37882, "episode/score": 4.099999986588955}
+{"step": 38071, "episode/score": 3.099999986588955}
+{"step": 38232, "episode/score": 5.100000001490116}
+{"step": 38491, "episode/score": 5.099999979138374}
+{"step": 38688, "episode/score": 4.0999999940395355}
+{"step": 38838, "episode/score": 4.099999986588955}
+{"step": 39076, "episode/score": 4.099999986588955}
+{"step": 39270, "episode/score": 3.100000001490116}
+{"step": 39438, "episode/score": 2.099999986588955}
+{"step": 39584, "episode/score": 3.099999986588955}
+{"step": 39644, "episode/score": 3.1000000089406967}
+{"step": 39824, "episode/score": 4.099999971687794}
+{"step": 39986, "episode/score": 0.09999998658895493}
+{"step": 40176, "episode/score": 5.099999986588955}
+{"step": 40343, "episode/score": 5.100000008940697}
+{"step": 40523, "episode/score": 4.100000001490116}
+{"step": 40712, "episode/score": 5.099999986588955}
+{"step": 40876, "episode/score": 4.099999986588955}
+{"step": 41102, "episode/score": 5.100000008940697}
+{"step": 41269, "episode/score": 2.099999986588955}
+{"step": 41472, "episode/score": 4.099999986588955}
+{"step": 41613, "episode/score": 1.0999999940395355}
+{"step": 41774, "episode/score": 5.099999986588955}
+{"step": 41967, "episode/score": 4.099999979138374}
+{"step": 42139, "episode/score": 1.099999986588955}
+{"step": 42318, "episode/score": 3.099999986588955}
+{"step": 42484, "episode/score": 6.099999979138374}
+{"step": 42637, "episode/score": 5.100000001490116}
+{"step": 42801, "episode/score": 3.1000000089406967}
+{"step": 42955, "episode/score": 2.099999986588955}
+{"step": 43122, "episode/score": 5.099999986588955}
+{"step": 43298, "episode/score": 4.099999986588955}
+{"step": 43446, "episode/score": 3.099999986588955}
+{"step": 43628, "episode/score": 5.100000008940697}
+{"step": 43823, "episode/score": 5.0999999940395355}
+{"step": 44080, "episode/score": 5.100000008940697}
+{"step": 44300, "episode/score": 4.100000008940697}
+{"step": 44338, "episode/score": -0.8999999910593033}
+{"step": 44487, "episode/score": 5.100000008940697}
+{"step": 44593, "episode/score": 4.099999986588955}
+{"step": 44761, "episode/score": 3.1000000089406967}
+{"step": 44917, "episode/score": 4.0999999940395355}
+{"step": 45130, "episode/score": 5.099999979138374}
+{"step": 45325, "episode/score": 5.0999999940395355}
+{"step": 45466, "episode/score": 4.100000008940697}
+{"step": 45683, "episode/score": 4.099999986588955}
+{"step": 46143, "episode/score": 4.099999986588955}
+{"step": 46312, "episode/score": 5.100000008940697}
+{"step": 46460, "episode/score": 5.100000001490116}
+{"step": 46600, "episode/score": 3.1000000089406967}
+{"step": 46729, "episode/score": 4.100000008940697}
+{"step": 46869, "episode/score": 4.100000061094761}
+{"step": 47038, "episode/score": 5.099999986588955}
+{"step": 47196, "episode/score": 4.099999986588955}
+{"step": 47365, "episode/score": 3.1000000089406967}
+{"step": 47412, "episode/score": 3.100000001490116}
+{"step": 47451, "episode/score": 1.1000000089406967}
+{"step": 47667, "episode/score": 4.099999971687794}
+{"step": 47828, "episode/score": 4.099999986588955}
+{"step": 47965, "episode/score": 4.099999986588955}
+{"step": 48125, "episode/score": 5.099999971687794}
+{"step": 48360, "episode/score": 2.099999986588955}
+{"step": 48537, "episode/score": 3.099999986588955}
+{"step": 48695, "episode/score": 3.1000000089406967}
+{"step": 48849, "episode/score": 5.099999986588955}
+{"step": 49076, "episode/score": 5.099999986588955}
+{"step": 49250, "episode/score": 5.099999986588955}
+{"step": 49483, "episode/score": 5.099999986588955}
+{"step": 49683, "episode/score": 5.100000008940697}
+{"step": 49869, "episode/score": 5.099999986588955}
+{"step": 50147, "episode/score": 5.099999986588955}
+{"step": 50288, "episode/score": 3.1000000089406967}
+{"step": 50436, "episode/score": 5.099999971687794}
+{"step": 50587, "episode/score": 4.100000008940697}
+{"step": 50761, "episode/score": 5.100000008940697}
+{"step": 50902, "episode/score": 4.100000008940697}
+{"step": 51065, "episode/score": 5.099999986588955}
+{"step": 51274, "episode/score": 3.1000000089406967}
+{"step": 51447, "episode/score": 4.100000001490116}
+{"step": 51591, "episode/score": 5.099999986588955}
+{"step": 51707, "episode/score": 4.099999986588955}
+{"step": 51877, "episode/score": 6.099999986588955}
+{"step": 52096, "episode/score": 4.100000001490116}
+{"step": 52296, "episode/score": 3.099999986588955}
+{"step": 52474, "episode/score": 4.099999986588955}
+{"step": 52612, "episode/score": 3.099999986588955}
+{"step": 53012, "episode/score": 5.099999986588955}
+{"step": 53164, "episode/score": 5.099999986588955}
+{"step": 53325, "episode/score": 4.099999986588955}
+{"step": 53492, "episode/score": 5.099999986588955}
+{"step": 53670, "episode/score": 5.100000008940697}
+{"step": 53897, "episode/score": 5.100000008940697}
+{"step": 54087, "episode/score": 5.100000008940697}
+{"step": 54266, "episode/score": 5.100000008940697}
+{"step": 54698, "episode/score": 4.099999986588955}
+{"step": 54891, "episode/score": 4.099999986588955}
+{"step": 55331, "episode/score": 5.099999986588955}
+{"step": 55524, "episode/score": 4.099999964237213}
+{"step": 55773, "episode/score": 5.100000008940697}
+{"step": 56030, "episode/score": 5.099999986588955}
+{"step": 56243, "episode/score": 4.100000008940697}
+{"step": 56452, "episode/score": 5.100000008940697}
+{"step": 56643, "episode/score": 1.1000000089406967}
+{"step": 56795, "episode/score": 4.099999986588955}
+{"step": 57000, "episode/score": 4.099999986588955}
+{"step": 57152, "episode/score": 3.099999986588955}
+{"step": 57201, "episode/score": 3.1000000089406967}
+{"step": 57419, "episode/score": 5.099999971687794}
+{"step": 57774, "episode/score": 5.099999986588955}
+{"step": 57944, "episode/score": 3.099999986588955}
+{"step": 58117, "episode/score": 5.099999986588955}
+{"step": 58265, "episode/score": 4.100000008940697}
+{"step": 58433, "episode/score": 4.100000008940697}
+{"step": 58658, "episode/score": 5.099999986588955}
+{"step": 58861, "episode/score": 2.1000000089406967}
+{"step": 59050, "episode/score": 1.099999986588955}
+{"step": 59228, "episode/score": 2.099999986588955}
+{"step": 59389, "episode/score": 5.099999986588955}
+{"step": 59541, "episode/score": 6.100000008940697}
+{"step": 59708, "episode/score": 3.099999986588955}
+{"step": 59855, "episode/score": 5.100000008940697}
+{"step": 59920, "episode/score": 0.10000000894069672}
+{"step": 59960, "episode/score": 3.1000000089406967}
+{"step": 60042, "episode/score": 5.100000023841858}
+{"step": 60193, "episode/score": 4.099999986588955}
+{"step": 60240, "episode/score": 2.0999999940395355}
+{"step": 60418, "episode/score": 5.099999986588955}
+{"step": 60605, "episode/score": 4.099999986588955}
+{"step": 60837, "episode/score": 5.099999986588955}
+{"step": 60980, "episode/score": 5.100000008940697}
+{"step": 61163, "episode/score": 6.099999979138374}
+{"step": 61351, "episode/score": 3.099999986588955}
+{"step": 61531, "episode/score": 5.099999986588955}
+{"step": 61690, "episode/score": 4.0999999940395355}
+{"step": 61840, "episode/score": 5.099999986588955}
+{"step": 61995, "episode/score": 5.100000008940697}
+{"step": 62134, "episode/score": 3.1000000089406967}
+{"step": 62295, "episode/score": 4.100000008940697}
+{"step": 62464, "episode/score": 5.100000008940697}
+{"step": 62609, "episode/score": 4.100000008940697}
+{"step": 62803, "episode/score": 6.099999986588955}
+{"step": 63073, "episode/score": 5.100000008940697}
+{"step": 63243, "episode/score": 4.100000008940697}
+{"step": 63385, "episode/score": 5.100000008940697}
+{"step": 63554, "episode/score": 4.099999986588955}
+{"step": 63798, "episode/score": 5.100000008940697}
+{"step": 63954, "episode/score": 5.099999986588955}
+{"step": 64143, "episode/score": 3.1000000089406967}
+{"step": 64290, "episode/score": 5.099999986588955}
+{"step": 64477, "episode/score": 5.100000008940697}
+{"step": 64522, "episode/score": 1.1000000089406967}
+{"step": 64726, "episode/score": 5.099999979138374}
+{"step": 64921, "episode/score": 5.099999986588955}
+{"step": 65093, "episode/score": 5.099999986588955}
+{"step": 65280, "episode/score": 5.099999986588955}
+{"step": 65445, "episode/score": 4.0999999940395355}
+{"step": 65600, "episode/score": 4.099999986588955}
+{"step": 65772, "episode/score": 5.100000008940697}
+{"step": 65957, "episode/score": 5.099999986588955}
+{"step": 66114, "episode/score": 4.0999999940395355}
+{"step": 66151, "episode/score": 2.0999999716877937}
+{"step": 66327, "episode/score": 6.099999986588955}
+{"step": 66504, "episode/score": 5.100000008940697}
+{"step": 66663, "episode/score": 5.099999986588955}
+{"step": 66828, "episode/score": 4.099999986588955}
+{"step": 66996, "episode/score": 5.099999986588955}
+{"step": 67183, "episode/score": 6.099999986588955}
+{"step": 67354, "episode/score": 5.099999986588955}
+{"step": 67536, "episode/score": 4.099999986588955}
+{"step": 67693, "episode/score": 5.099999986588955}
+{"step": 67876, "episode/score": 5.0999999940395355}
+{"step": 68008, "episode/score": 4.099999986588955}
+{"step": 68174, "episode/score": 3.1000000089406967}
+{"step": 68336, "episode/score": 3.1000000089406967}
+{"step": 68521, "episode/score": 5.100000008940697}
+{"step": 68609, "episode/score": 4.099999986588955}
+{"step": 68875, "episode/score": 6.100000008940697}
+{"step": 68924, "episode/score": 3.0999999940395355}
+{"step": 69120, "episode/score": 5.099999986588955}
+{"step": 69320, "episode/score": 5.099999986588955}
+{"step": 69463, "episode/score": 5.099999986588955}
+{"step": 69614, "episode/score": 5.099999986588955}
+{"step": 69785, "episode/score": 6.099999986588955}
+{"step": 69954, "episode/score": 5.099999986588955}
+{"step": 70143, "episode/score": 4.099999971687794}
+{"step": 70306, "episode/score": 5.099999986588955}
+{"step": 70562, "episode/score": 5.0999999940395355}
+{"step": 70726, "episode/score": 3.0999999791383743}
+{"step": 70886, "episode/score": 5.099999986588955}
+{"step": 71049, "episode/score": 4.099999986588955}
+{"step": 71207, "episode/score": 5.099999986588955}
+{"step": 71479, "episode/score": 5.099999986588955}
+{"step": 71641, "episode/score": 4.099999986588955}
+{"step": 71818, "episode/score": 5.099999986588955}
+{"step": 72032, "episode/score": 5.100000008940697}
+{"step": 72206, "episode/score": 5.100000008940697}
+{"step": 72392, "episode/score": 5.100000008940697}
+{"step": 72549, "episode/score": 6.099999986588955}
+{"step": 72717, "episode/score": 1.099999986588955}
+{"step": 72883, "episode/score": 4.099999979138374}
+{"step": 73135, "episode/score": 5.100000008940697}
+{"step": 73303, "episode/score": 4.100000001490116}
+{"step": 73517, "episode/score": 5.100000008940697}
+{"step": 73674, "episode/score": 4.099999986588955}
+{"step": 73833, "episode/score": 5.099999986588955}
+{"step": 74026, "episode/score": 5.099999986588955}
+{"step": 74164, "episode/score": 4.099999986588955}
+{"step": 74337, "episode/score": 3.1000000089406967}
+{"step": 74570, "episode/score": 5.100000008940697}
+{"step": 74732, "episode/score": 5.099999986588955}
+{"step": 74902, "episode/score": 5.100000008940697}
+{"step": 75095, "episode/score": 5.099999986588955}
+{"step": 75288, "episode/score": 4.099999986588955}
+{"step": 75447, "episode/score": 5.099999986588955}
+{"step": 75635, "episode/score": 4.099999986588955}
+{"step": 76010, "episode/score": 5.099999986588955}
+{"step": 76224, "episode/score": 6.100000008940697}
+{"step": 76397, "episode/score": 4.099999971687794}
+{"step": 76552, "episode/score": 3.099999986588955}
+{"step": 76739, "episode/score": 6.099999986588955}
+{"step": 76908, "episode/score": 5.099999979138374}
+{"step": 77070, "episode/score": 5.099999971687794}
+{"step": 77245, "episode/score": 3.1000000089406967}
+{"step": 77282, "episode/score": -0.9000000283122063}
+{"step": 77334, "episode/score": 2.0999999716877937}
+{"step": 77516, "episode/score": 4.100000008940697}
+{"step": 77654, "episode/score": 4.099999986588955}
+{"step": 77824, "episode/score": 7.099999986588955}
+{"step": 77990, "episode/score": 4.100000008940697}
+{"step": 78221, "episode/score": 6.099999979138374}
+{"step": 78303, "episode/score": 4.100000008940697}
+{"step": 78460, "episode/score": 5.0999999940395355}
+{"step": 78595, "episode/score": 5.100000008940697}
+{"step": 78703, "episode/score": 2.100000001490116}
+{"step": 78895, "episode/score": 3.099999986588955}
+{"step": 79063, "episode/score": 3.099999986588955}
+{"step": 79102, "episode/score": 3.099999986588955}
+{"step": 79346, "episode/score": 5.100000008940697}
+{"step": 79569, "episode/score": 5.099999986588955}
+{"step": 79776, "episode/score": 5.099999986588955}
+{"step": 79943, "episode/score": 2.099999986588955}
+{"step": 80115, "episode/score": 5.100000008940697}
+{"step": 80270, "episode/score": 4.099999986588955}
+{"step": 80411, "episode/score": 5.099999979138374}
+{"step": 80624, "episode/score": 5.099999986588955}
+{"step": 80801, "episode/score": 3.099999986588955}
+{"step": 80872, "episode/score": 4.100000001490116}
+{"step": 81017, "episode/score": 5.100000008940697}
+{"step": 81209, "episode/score": 4.099999986588955}
+{"step": 81379, "episode/score": 5.099999986588955}
+{"step": 81564, "episode/score": 5.100000001490116}
+{"step": 81717, "episode/score": 6.099999986588955}
+{"step": 81762, "episode/score": 1.0999999940395355}
+{"step": 81943, "episode/score": 3.0999999791383743}
+{"step": 82130, "episode/score": 4.099999986588955}
+{"step": 82389, "episode/score": 6.099999986588955}
+{"step": 82572, "episode/score": 5.099999986588955}
+{"step": 82758, "episode/score": 4.099999986588955}
+{"step": 82962, "episode/score": 5.099999979138374}
+{"step": 83149, "episode/score": 5.099999986588955}
+{"step": 83182, "episode/score": 0.09999997168779373}
+{"step": 83476, "episode/score": 5.099999971687794}
+{"step": 83649, "episode/score": 5.099999986588955}
+{"step": 83829, "episode/score": 4.0999999940395355}
+{"step": 84076, "episode/score": 3.099999986588955}
+{"step": 84236, "episode/score": 4.099999986588955}
+{"step": 84412, "episode/score": 4.099999986588955}
+{"step": 84584, "episode/score": 5.099999986588955}
+{"step": 84751, "episode/score": 5.100000008940697}
+{"step": 84908, "episode/score": 4.099999986588955}
+{"step": 85144, "episode/score": 4.099999971687794}
+{"step": 85317, "episode/score": 5.099999986588955}
+{"step": 85513, "episode/score": 4.100000001490116}
+{"step": 85714, "episode/score": 6.100000008940697}
+{"step": 85927, "episode/score": 6.100000008940697}
+{"step": 86091, "episode/score": 5.099999971687794}
+{"step": 86294, "episode/score": 5.099999986588955}
+{"step": 86442, "episode/score": 2.099999986588955}
+{"step": 86628, "episode/score": 4.099999986588955}
+{"step": 86790, "episode/score": 4.099999986588955}
+{"step": 86946, "episode/score": 5.100000008940697}
+{"step": 87093, "episode/score": 4.099999986588955}
+{"step": 87259, "episode/score": 4.099999986588955}
+{"step": 87308, "episode/score": 2.099999986588955}
+{"step": 87472, "episode/score": 6.099999986588955}
+{"step": 87728, "episode/score": 5.099999979138374}
+{"step": 87918, "episode/score": 4.099999986588955}
+{"step": 88078, "episode/score": 3.1000000089406967}
+{"step": 88251, "episode/score": 5.099999971687794}
+{"step": 88414, "episode/score": 4.099999986588955}
+{"step": 88573, "episode/score": 6.099999986588955}
+{"step": 88731, "episode/score": 5.099999986588955}
+{"step": 88968, "episode/score": 6.099999986588955}
+{"step": 89176, "episode/score": 5.100000023841858}
+{"step": 89352, "episode/score": 3.1000000089406967}
+{"step": 89525, "episode/score": 5.099999986588955}
+{"step": 89710, "episode/score": 3.100000001490116}
+{"step": 89948, "episode/score": 5.099999986588955}
+{"step": 90123, "episode/score": 5.099999986588955}
+{"step": 90288, "episode/score": 6.100000001490116}
+{"step": 90440, "episode/score": 5.099999979138374}
+{"step": 90599, "episode/score": 4.100000001490116}
+{"step": 90800, "episode/score": 4.099999986588955}
+{"step": 90985, "episode/score": 5.100000001490116}
+{"step": 91150, "episode/score": 4.100000008940697}
+{"step": 91213, "episode/score": 4.099999986588955}
+{"step": 91410, "episode/score": 5.100000008940697}
+{"step": 91573, "episode/score": 6.099999971687794}
+{"step": 91723, "episode/score": 5.099999986588955}
+{"step": 91908, "episode/score": 5.099999986588955}
+{"step": 92062, "episode/score": 4.099999986588955}
+{"step": 92229, "episode/score": 3.0999999940395355}
+{"step": 92381, "episode/score": 5.099999986588955}
+{"step": 92539, "episode/score": 4.099999986588955}
+{"step": 92627, "episode/score": 2.0999999791383743}
+{"step": 92835, "episode/score": 5.100000008940697}
+{"step": 92967, "episode/score": 5.100000001490116}
+{"step": 93072, "episode/score": 4.099999986588955}
+{"step": 93233, "episode/score": 5.099999986588955}
+{"step": 93417, "episode/score": 6.099999986588955}
+{"step": 93605, "episode/score": 8.099999986588955}
+{"step": 93777, "episode/score": 6.099999986588955}
+{"step": 93826, "episode/score": 2.0999999716877937}
+{"step": 93934, "episode/score": 5.099999986588955}
+{"step": 94118, "episode/score": 4.100000008940697}
+{"step": 94296, "episode/score": 5.099999986588955}
+{"step": 94468, "episode/score": 3.099999986588955}
+{"step": 94678, "episode/score": 6.099999986588955}
+{"step": 94818, "episode/score": 5.099999986588955}
+{"step": 95012, "episode/score": 5.100000008940697}
+{"step": 95194, "episode/score": 5.099999986588955}
+{"step": 95488, "episode/score": 3.0999999791383743}
+{"step": 95665, "episode/score": 5.100000008940697}
+{"step": 95832, "episode/score": 5.099999971687794}
+{"step": 95961, "episode/score": 5.099999986588955}
+{"step": 96116, "episode/score": 3.099999986588955}
+{"step": 96290, "episode/score": 6.099999986588955}
+{"step": 96487, "episode/score": 4.100000008940697}
+{"step": 96647, "episode/score": 5.099999986588955}
+{"step": 96799, "episode/score": 5.099999986588955}
+{"step": 96907, "episode/score": 3.099999986588955}
+{"step": 97076, "episode/score": 4.100000008940697}
+{"step": 97248, "episode/score": 3.1000000312924385}
+{"step": 97412, "episode/score": 5.100000008940697}
+{"step": 97565, "episode/score": 4.099999986588955}
+{"step": 97726, "episode/score": 4.100000008940697}
+{"step": 97925, "episode/score": 6.099999986588955}
+{"step": 98098, "episode/score": 5.099999986588955}
+{"step": 98261, "episode/score": 5.099999986588955}
+{"step": 98419, "episode/score": 5.099999986588955}
+{"step": 98693, "episode/score": 5.099999986588955}
+{"step": 98924, "episode/score": 6.099999986588955}
+{"step": 99105, "episode/score": 6.099999986588955}
+{"step": 99264, "episode/score": 5.099999986588955}
+{"step": 99444, "episode/score": 7.099999986588955}
+{"step": 99625, "episode/score": 3.099999986588955}
+{"step": 99766, "episode/score": 6.099999986588955}
+{"step": 99973, "episode/score": 5.099999986588955}
+{"step": 100142, "episode/score": 6.099999986588955}
+{"step": 100298, "episode/score": 4.099999986588955}
+{"step": 100698, "episode/score": 5.099999986588955}
+{"step": 100842, "episode/score": 4.099999986588955}
+{"step": 101033, "episode/score": 4.099999986588955}
+{"step": 101169, "episode/score": 5.099999986588955}
+{"step": 101331, "episode/score": 6.099999986588955}
+{"step": 101511, "episode/score": 4.100000001490116}
+{"step": 101679, "episode/score": 5.099999986588955}
+{"step": 101891, "episode/score": 6.099999986588955}
+{"step": 102067, "episode/score": 5.099999971687794}
+{"step": 102206, "episode/score": 5.099999971687794}
+{"step": 102268, "episode/score": 3.099999986588955}
+{"step": 102436, "episode/score": 5.099999986588955}
+{"step": 102643, "episode/score": 6.099999986588955}
+{"step": 102792, "episode/score": 4.099999986588955}
+{"step": 103024, "episode/score": 6.099999986588955}
+{"step": 103199, "episode/score": 3.099999986588955}
+{"step": 103457, "episode/score": 6.099999986588955}
+{"step": 103638, "episode/score": 6.099999986588955}
+{"step": 103733, "episode/score": 5.100000008940697}
+{"step": 103937, "episode/score": 7.099999986588955}
+{"step": 104107, "episode/score": 4.099999986588955}
+{"step": 104297, "episode/score": 5.099999986588955}
+{"step": 104462, "episode/score": 5.1000000312924385}
+{"step": 104609, "episode/score": 5.100000008940697}
+{"step": 104788, "episode/score": 5.099999986588955}
+{"step": 104968, "episode/score": 6.099999986588955}
+{"step": 105163, "episode/score": 6.100000008940697}
+{"step": 105346, "episode/score": 5.099999986588955}
+{"step": 105509, "episode/score": 5.099999986588955}
+{"step": 105707, "episode/score": 4.099999986588955}
+{"step": 105871, "episode/score": 5.099999986588955}
+{"step": 106037, "episode/score": 4.099999986588955}
+{"step": 106207, "episode/score": 4.099999986588955}
+{"step": 106249, "episode/score": 0.10000000894069672}
+{"step": 106405, "episode/score": 4.099999986588955}
+{"step": 106569, "episode/score": 7.100000001490116}
+{"step": 106752, "episode/score": 5.099999986588955}
+{"step": 106932, "episode/score": 4.099999986588955}
+{"step": 107160, "episode/score": 7.099999986588955}
+{"step": 107341, "episode/score": 6.099999986588955}
+{"step": 107506, "episode/score": 5.099999986588955}
+{"step": 107549, "episode/score": 4.100000008940697}
+{"step": 107717, "episode/score": 4.099999986588955}
+{"step": 107764, "episode/score": 2.1000000089406967}
+{"step": 107920, "episode/score": 4.099999986588955}
+{"step": 108112, "episode/score": 4.099999986588955}
+{"step": 108303, "episode/score": 5.099999986588955}
+{"step": 108485, "episode/score": 5.099999986588955}
+{"step": 108651, "episode/score": 2.099999986588955}
+{"step": 108842, "episode/score": 7.099999986588955}
+{"step": 109023, "episode/score": 5.100000008940697}
+{"step": 109061, "episode/score": 2.099999986588955}
+{"step": 109239, "episode/score": 7.100000001490116}
+{"step": 109399, "episode/score": 3.099999986588955}
+{"step": 109577, "episode/score": 4.099999986588955}
+{"step": 109750, "episode/score": 4.099999986588955}
+{"step": 109913, "episode/score": 5.099999986588955}
+{"step": 110104, "episode/score": 3.099999986588955}
+{"step": 110142, "episode/score": 3.099999986588955}
+{"step": 110276, "episode/score": 4.0999999940395355}
+{"step": 110476, "episode/score": 4.099999986588955}
+{"step": 110614, "episode/score": 3.1000000089406967}
+{"step": 110767, "episode/score": 4.099999986588955}
+{"step": 110917, "episode/score": 4.100000008940697}
+{"step": 111091, "episode/score": 5.099999986588955}
+{"step": 111282, "episode/score": 5.100000008940697}
+{"step": 111455, "episode/score": 5.099999986588955}
+{"step": 111647, "episode/score": 4.100000008940697}
+{"step": 111819, "episode/score": 6.099999986588955}
+{"step": 112011, "episode/score": 5.099999986588955}
+{"step": 112171, "episode/score": 5.100000008940697}
+{"step": 112318, "episode/score": 5.100000008940697}
+{"step": 112461, "episode/score": 5.099999986588955}
+{"step": 112503, "episode/score": 2.0999999940395355}
+{"step": 112656, "episode/score": 5.099999986588955}
+{"step": 112710, "episode/score": 0.09999998658895493}
+{"step": 112913, "episode/score": 6.100000008940697}
+{"step": 113069, "episode/score": 5.099999986588955}
+{"step": 113363, "episode/score": 6.099999986588955}
+{"step": 113540, "episode/score": 5.099999986588955}
+{"step": 113728, "episode/score": 6.100000001490116}
+{"step": 113831, "episode/score": 1.099999986588955}
+{"step": 114027, "episode/score": 5.100000008940697}
+{"step": 114189, "episode/score": 5.099999986588955}
+{"step": 114372, "episode/score": 5.100000008940697}
+{"step": 114516, "episode/score": 5.100000008940697}
+{"step": 114724, "episode/score": 7.099999986588955}
+{"step": 114879, "episode/score": 5.100000001490116}
+{"step": 115091, "episode/score": 5.099999986588955}
+{"step": 115133, "episode/score": 3.1000000089406967}
+{"step": 115357, "episode/score": 4.099999986588955}
+{"step": 115413, "episode/score": 2.1000000089406967}
+{"step": 115568, "episode/score": 3.099999986588955}
+{"step": 115656, "episode/score": 5.0999999940395355}
+{"step": 115834, "episode/score": 4.100000008940697}
+{"step": 115890, "episode/score": 0.10000002384185791}
+{"step": 116096, "episode/score": 5.099999986588955}
+{"step": 116323, "episode/score": 5.099999971687794}
+{"step": 116502, "episode/score": 6.099999986588955}
+{"step": 116655, "episode/score": 6.100000001490116}
+{"step": 116834, "episode/score": 6.100000008940697}
+{"step": 117044, "episode/score": 5.100000008940697}
+{"step": 117230, "episode/score": 4.100000008940697}
+{"step": 117408, "episode/score": 6.099999986588955}
+{"step": 117452, "episode/score": 2.099999986588955}
+{"step": 117660, "episode/score": 5.100000008940697}
+{"step": 117812, "episode/score": 3.1000000089406967}
+{"step": 117986, "episode/score": 4.099999986588955}
+{"step": 118129, "episode/score": 5.0999999940395355}
+{"step": 118297, "episode/score": 5.099999986588955}
+{"step": 118546, "episode/score": 6.099999986588955}
+{"step": 118714, "episode/score": 5.100000008940697}
+{"step": 118872, "episode/score": 2.099999986588955}
+{"step": 119012, "episode/score": 5.100000008940697}
+{"step": 119187, "episode/score": 5.099999986588955}
+{"step": 119397, "episode/score": 5.099999986588955}
+{"step": 119564, "episode/score": 5.099999986588955}
+{"step": 119740, "episode/score": 6.099999986588955}
+{"step": 119962, "episode/score": 6.099999986588955}
+{"step": 120288, "episode/score": 6.099999986588955}
+{"step": 120450, "episode/score": 5.100000008940697}
+{"step": 120651, "episode/score": 5.099999986588955}
+{"step": 120875, "episode/score": 6.0999999940395355}
+{"step": 121069, "episode/score": 5.099999986588955}
+{"step": 121283, "episode/score": 5.100000008940697}
+{"step": 121480, "episode/score": 6.099999986588955}
+{"step": 121617, "episode/score": 3.099999986588955}
+{"step": 121825, "episode/score": 6.099999986588955}
+{"step": 121874, "episode/score": 1.1000000014901161}
+{"step": 122044, "episode/score": 5.099999986588955}
+{"step": 122208, "episode/score": 4.099999986588955}
+{"step": 122370, "episode/score": 5.099999986588955}
+{"step": 122546, "episode/score": 4.099999986588955}
+{"step": 122706, "episode/score": 3.099999986588955}
+{"step": 122873, "episode/score": 5.099999986588955}
+{"step": 123055, "episode/score": 4.099999986588955}
+{"step": 123208, "episode/score": 5.099999986588955}
+{"step": 123255, "episode/score": 2.1000000089406967}
+{"step": 123461, "episode/score": 4.100000008940697}
+{"step": 123626, "episode/score": 3.099999986588955}
+{"step": 123797, "episode/score": 3.0999999791383743}
+{"step": 123936, "episode/score": 3.099999986588955}
+{"step": 124135, "episode/score": 7.099999986588955}
+{"step": 124286, "episode/score": 5.099999986588955}
+{"step": 124486, "episode/score": 6.100000001490116}
+{"step": 124689, "episode/score": 5.099999986588955}
+{"step": 124868, "episode/score": 6.099999986588955}
+{"step": 125141, "episode/score": 5.099999986588955}
+{"step": 125287, "episode/score": 3.099999986588955}
+{"step": 125387, "episode/score": 3.100000001490116}
+{"step": 125555, "episode/score": 5.100000008940697}
+{"step": 125765, "episode/score": 7.100000001490116}
+{"step": 125918, "episode/score": 5.099999986588955}
+{"step": 126192, "episode/score": 5.100000001490116}
+{"step": 126347, "episode/score": 5.099999986588955}
+{"step": 126557, "episode/score": 4.100000001490116}
+{"step": 126741, "episode/score": 5.100000008940697}
+{"step": 126896, "episode/score": 3.099999986588955}
+{"step": 127053, "episode/score": 3.099999986588955}
+{"step": 127246, "episode/score": 6.099999986588955}
+{"step": 127414, "episode/score": 5.099999986588955}
+{"step": 127575, "episode/score": 6.099999986588955}
+{"step": 127738, "episode/score": 6.100000008940697}
+{"step": 127951, "episode/score": 7.099999986588955}
+{"step": 128129, "episode/score": 4.099999986588955}
+{"step": 128182, "episode/score": 2.1000000089406967}
+{"step": 128397, "episode/score": 6.100000001490116}
+{"step": 128574, "episode/score": 4.099999986588955}
+{"step": 128727, "episode/score": 4.099999986588955}
+{"step": 128881, "episode/score": 4.099999986588955}
+{"step": 129118, "episode/score": 6.100000008940697}
+{"step": 129369, "episode/score": 5.099999986588955}
+{"step": 129562, "episode/score": 2.1000000089406967}
+{"step": 129797, "episode/score": 4.100000008940697}
+{"step": 129966, "episode/score": 6.099999986588955}
+{"step": 130152, "episode/score": 3.0999999940395355}
+{"step": 130328, "episode/score": 5.099999986588955}
+{"step": 130498, "episode/score": 6.100000016391277}
+{"step": 130672, "episode/score": 6.099999986588955}
+{"step": 130853, "episode/score": 5.099999986588955}
+{"step": 131061, "episode/score": 5.099999986588955}
+{"step": 131226, "episode/score": 4.099999986588955}
+{"step": 131388, "episode/score": 5.100000023841858}
+{"step": 131549, "episode/score": 5.099999986588955}
+{"step": 131745, "episode/score": 5.099999986588955}
+{"step": 131934, "episode/score": 5.100000008940697}
+{"step": 132097, "episode/score": 5.1000000312924385}
+{"step": 132282, "episode/score": 7.099999986588955}
+{"step": 132483, "episode/score": 6.100000008940697}
+{"step": 132660, "episode/score": 2.0999999716877937}
+{"step": 132844, "episode/score": 7.099999986588955}
+{"step": 133046, "episode/score": 4.099999986588955}
+{"step": 133309, "episode/score": 9.100000001490116}
+{"step": 133503, "episode/score": 5.099999986588955}
+{"step": 133686, "episode/score": 4.099999986588955}
+{"step": 133886, "episode/score": 6.100000001490116}
+{"step": 134133, "episode/score": 6.100000008940697}
+{"step": 134342, "episode/score": 4.100000008940697}
+{"step": 134526, "episode/score": 5.100000008940697}
+{"step": 134693, "episode/score": 5.099999986588955}
+{"step": 134866, "episode/score": 4.099999986588955}
+{"step": 135029, "episode/score": 6.099999986588955}
+{"step": 135240, "episode/score": 7.099999986588955}
+{"step": 135404, "episode/score": 4.100000008940697}
+{"step": 135560, "episode/score": 4.099999986588955}
+{"step": 135752, "episode/score": 5.099999986588955}
+{"step": 135919, "episode/score": 5.099999986588955}
+{"step": 136040, "episode/score": 5.099999986588955}
+{"step": 136204, "episode/score": 5.099999986588955}
+{"step": 136438, "episode/score": 6.099999986588955}
+{"step": 136626, "episode/score": 5.099999986588955}
+{"step": 136886, "episode/score": 5.099999986588955}
+{"step": 137147, "episode/score": 6.099999986588955}
+{"step": 137331, "episode/score": 4.099999986588955}
+{"step": 137533, "episode/score": 7.099999986588955}
+{"step": 137705, "episode/score": 5.099999986588955}
+{"step": 137877, "episode/score": 6.100000001490116}
+{"step": 137926, "episode/score": 1.099999986588955}
+{"step": 138111, "episode/score": 4.100000023841858}
+{"step": 138381, "episode/score": 6.099999986588955}
+{"step": 138543, "episode/score": 7.099999986588955}
+{"step": 138689, "episode/score": 2.099999986588955}
+{"step": 138874, "episode/score": 6.100000008940697}
+{"step": 139098, "episode/score": 4.100000001490116}
+{"step": 139138, "episode/score": 3.099999986588955}
+{"step": 139329, "episode/score": 5.099999986588955}
+{"step": 139513, "episode/score": 8.100000001490116}
+{"step": 139690, "episode/score": 5.100000008940697}
+{"step": 139873, "episode/score": 6.100000001490116}
+{"step": 140065, "episode/score": 5.100000008940697}
+{"step": 140250, "episode/score": 4.099999986588955}
+{"step": 140442, "episode/score": 4.099999986588955}
+{"step": 140620, "episode/score": 5.099999986588955}
+{"step": 140771, "episode/score": 5.099999986588955}
+{"step": 140916, "episode/score": 4.100000008940697}
+{"step": 141080, "episode/score": 4.099999986588955}
+{"step": 141243, "episode/score": 5.099999986588955}
+{"step": 141398, "episode/score": 5.100000008940697}
+{"step": 141586, "episode/score": 5.099999971687794}
+{"step": 141766, "episode/score": 6.099999986588955}
+{"step": 141977, "episode/score": 6.099999971687794}
+{"step": 142143, "episode/score": 6.099999986588955}
+{"step": 142304, "episode/score": 6.099999986588955}
+{"step": 142487, "episode/score": 4.099999986588955}
+{"step": 142694, "episode/score": 4.099999986588955}
+{"step": 142866, "episode/score": 4.100000001490116}
+{"step": 143004, "episode/score": 5.099999986588955}
+{"step": 143220, "episode/score": 7.099999986588955}
+{"step": 143382, "episode/score": 4.099999979138374}
+{"step": 143603, "episode/score": 3.099999986588955}
+{"step": 143757, "episode/score": 4.099999971687794}
+{"step": 143924, "episode/score": 6.099999986588955}
+{"step": 144142, "episode/score": 4.099999986588955}
+{"step": 144187, "episode/score": 3.1000000089406967}
+{"step": 144378, "episode/score": 5.099999986588955}
+{"step": 144534, "episode/score": 7.099999986588955}
+{"step": 144681, "episode/score": 5.100000008940697}
+{"step": 144924, "episode/score": 7.099999986588955}
+{"step": 145114, "episode/score": 5.0999999940395355}
+{"step": 145258, "episode/score": 5.100000008940697}
+{"step": 145435, "episode/score": 5.099999986588955}
+{"step": 145585, "episode/score": 5.100000008940697}
+{"step": 145771, "episode/score": 5.100000008940697}
+{"step": 146222, "episode/score": 6.099999986588955}
+{"step": 146406, "episode/score": 6.100000001490116}
+{"step": 146557, "episode/score": 2.099999986588955}
+{"step": 146706, "episode/score": 5.100000008940697}
+{"step": 146890, "episode/score": 6.099999986588955}
+{"step": 147053, "episode/score": 6.100000001490116}
+{"step": 147246, "episode/score": 5.100000008940697}
+{"step": 147425, "episode/score": 6.100000008940697}
+{"step": 147603, "episode/score": 5.099999986588955}
+{"step": 147816, "episode/score": 5.100000008940697}
+{"step": 147998, "episode/score": 3.099999986588955}
+{"step": 148288, "episode/score": 5.099999979138374}
+{"step": 148468, "episode/score": 4.099999986588955}
+{"step": 148660, "episode/score": 6.099999986588955}
+{"step": 148823, "episode/score": 6.100000008940697}
+{"step": 149060, "episode/score": 5.099999986588955}
+{"step": 149224, "episode/score": 5.099999986588955}
+{"step": 149419, "episode/score": 5.100000001490116}
+{"step": 149596, "episode/score": 4.099999986588955}
+{"step": 149746, "episode/score": 5.100000008940697}
+{"step": 149885, "episode/score": 5.099999971687794}
+{"step": 150042, "episode/score": 5.100000008940697}
+{"step": 150200, "episode/score": 7.099999986588955}
+{"step": 150389, "episode/score": 6.099999986588955}
+{"step": 150558, "episode/score": 6.099999986588955}
+{"step": 150624, "episode/score": 4.099999986588955}
+{"step": 150806, "episode/score": 7.100000008940697}
+{"step": 150981, "episode/score": 6.099999986588955}
+{"step": 151168, "episode/score": 5.099999986588955}
+{"step": 151400, "episode/score": 2.1000000089406967}
+{"step": 151572, "episode/score": 6.099999986588955}
+{"step": 151765, "episode/score": 7.099999986588955}
+{"step": 151995, "episode/score": 5.100000008940697}
+{"step": 152179, "episode/score": 4.099999986588955}
+{"step": 152471, "episode/score": 6.100000001490116}
+{"step": 152716, "episode/score": 3.099999986588955}
+{"step": 152905, "episode/score": 5.100000001490116}
+{"step": 153085, "episode/score": 5.099999986588955}
+{"step": 153282, "episode/score": 5.099999986588955}
+{"step": 153504, "episode/score": 5.099999986588955}
+{"step": 153672, "episode/score": 4.099999986588955}
+{"step": 153889, "episode/score": 6.099999986588955}
+{"step": 154078, "episode/score": 6.099999986588955}
+{"step": 154240, "episode/score": 6.099999986588955}
+{"step": 154406, "episode/score": 7.100000008940697}
+{"step": 154566, "episode/score": 5.099999964237213}
+{"step": 154609, "episode/score": 3.0999999940395355}
+{"step": 154808, "episode/score": 5.100000008940697}
+{"step": 154843, "episode/score": 2.0999999716877937}
+{"step": 155020, "episode/score": 6.100000001490116}
+{"step": 155185, "episode/score": 5.100000008940697}
+{"step": 155373, "episode/score": 5.099999986588955}
+{"step": 155473, "episode/score": 3.099999986588955}
+{"step": 155621, "episode/score": 5.099999986588955}
+{"step": 155780, "episode/score": 5.099999986588955}
+{"step": 155984, "episode/score": 5.100000008940697}
+{"step": 156155, "episode/score": 5.099999986588955}
+{"step": 156369, "episode/score": 6.099999986588955}
+{"step": 156533, "episode/score": 5.099999986588955}
+{"step": 156706, "episode/score": 7.099999986588955}
+{"step": 156852, "episode/score": 4.100000008940697}
+{"step": 157066, "episode/score": 6.099999986588955}
+{"step": 157273, "episode/score": 5.099999986588955}
+{"step": 157427, "episode/score": 5.0999999940395355}
+{"step": 157587, "episode/score": 6.0999999940395355}
+{"step": 157755, "episode/score": 6.099999986588955}
+{"step": 157943, "episode/score": 5.099999986588955}
+{"step": 158156, "episode/score": 6.099999986588955}
+{"step": 158304, "episode/score": 6.100000008940697}
+{"step": 158486, "episode/score": 7.099999986588955}
+{"step": 158646, "episode/score": 6.099999986588955}
+{"step": 158844, "episode/score": 5.100000008940697}
+{"step": 159086, "episode/score": 6.099999986588955}
+{"step": 159266, "episode/score": 6.100000001490116}
+{"step": 159439, "episode/score": 6.099999986588955}
+{"step": 159674, "episode/score": 5.099999986588955}
+{"step": 159841, "episode/score": 5.099999986588955}
+{"step": 160052, "episode/score": 6.100000001490116}
+{"step": 160252, "episode/score": 4.099999986588955}
+{"step": 160690, "episode/score": 6.099999986588955}
+{"step": 160934, "episode/score": 6.100000008940697}
+{"step": 161108, "episode/score": 5.099999986588955}
+{"step": 161308, "episode/score": 5.099999979138374}
+{"step": 161453, "episode/score": 5.099999986588955}
+{"step": 161635, "episode/score": 5.100000008940697}
+{"step": 161799, "episode/score": 5.099999986588955}
+{"step": 161987, "episode/score": 8.099999986588955}
+{"step": 162066, "episode/score": 3.099999986588955}
+{"step": 162207, "episode/score": 7.099999986588955}
+{"step": 162386, "episode/score": 3.099999986588955}
+{"step": 162551, "episode/score": 4.100000008940697}
+{"step": 162710, "episode/score": 5.099999986588955}
+{"step": 162947, "episode/score": 6.099999986588955}
+{"step": 163137, "episode/score": 5.099999986588955}
+{"step": 163327, "episode/score": 6.099999986588955}
+{"step": 163551, "episode/score": 6.099999986588955}
+{"step": 163767, "episode/score": 7.100000008940697}
+{"step": 163972, "episode/score": 7.100000008940697}
+{"step": 164120, "episode/score": 6.099999986588955}
+{"step": 164331, "episode/score": 6.099999979138374}
+{"step": 164469, "episode/score": 5.100000001490116}
+{"step": 164637, "episode/score": 7.1000000312924385}
+{"step": 164785, "episode/score": 4.099999986588955}
+{"step": 164974, "episode/score": 5.100000008940697}
+{"step": 165213, "episode/score": 6.099999986588955}
+{"step": 165391, "episode/score": 5.099999986588955}
+{"step": 165538, "episode/score": 3.1000000089406967}
+{"step": 165700, "episode/score": 6.099999986588955}
+{"step": 165865, "episode/score": 4.100000008940697}
+{"step": 166043, "episode/score": 7.099999964237213}
+{"step": 166284, "episode/score": 7.099999971687794}
+{"step": 166402, "episode/score": 4.099999986588955}
+{"step": 166579, "episode/score": 6.100000008940697}
+{"step": 166761, "episode/score": 5.100000008940697}
+{"step": 166930, "episode/score": 7.099999986588955}
+{"step": 167082, "episode/score": 5.100000023841858}
+{"step": 167267, "episode/score": 6.099999986588955}
+{"step": 167429, "episode/score": 6.099999986588955}
+{"step": 167486, "episode/score": 2.099999986588955}
+{"step": 167637, "episode/score": 5.099999986588955}
+{"step": 167813, "episode/score": 6.099999986588955}
+{"step": 167981, "episode/score": 6.099999979138374}
+{"step": 168137, "episode/score": 6.099999986588955}
+{"step": 168217, "episode/score": 6.099999986588955}
+{"step": 168764, "episode/score": 6.099999986588955}
+{"step": 168974, "episode/score": 7.100000008940697}
+{"step": 169061, "episode/score": 4.100000008940697}
+{"step": 169242, "episode/score": 5.099999986588955}
+{"step": 169421, "episode/score": 8.099999964237213}
+{"step": 169649, "episode/score": 7.099999986588955}
+{"step": 169822, "episode/score": 6.100000008940697}
+{"step": 169999, "episode/score": 5.100000008940697}
+{"step": 170236, "episode/score": 7.099999986588955}
+{"step": 170276, "episode/score": -0.9000000134110451}
+{"step": 170477, "episode/score": 6.099999986588955}
+{"step": 170710, "episode/score": 6.100000008940697}
+{"step": 170862, "episode/score": 6.099999971687794}
+{"step": 171014, "episode/score": 5.100000008940697}
+{"step": 171221, "episode/score": 6.099999986588955}
+{"step": 171390, "episode/score": 6.099999986588955}
+{"step": 171567, "episode/score": 7.099999986588955}
+{"step": 171621, "episode/score": 2.0999999716877937}
+{"step": 171792, "episode/score": 3.100000023841858}
+{"step": 171945, "episode/score": 6.100000008940697}
+{"step": 172172, "episode/score": 8.099999986588955}
+{"step": 172384, "episode/score": 5.099999986588955}
+{"step": 172608, "episode/score": 6.099999986588955}
+{"step": 172759, "episode/score": 6.099999986588955}
+{"step": 172928, "episode/score": 6.099999986588955}
+{"step": 173137, "episode/score": 6.099999986588955}
+{"step": 173178, "episode/score": 3.0999999940395355}
+{"step": 173331, "episode/score": 6.099999986588955}
+{"step": 173516, "episode/score": 3.1000000089406967}
+{"step": 173668, "episode/score": 3.099999986588955}
+{"step": 173819, "episode/score": 6.099999986588955}
+{"step": 174052, "episode/score": 5.100000008940697}
+{"step": 174187, "episode/score": 3.099999986588955}
+{"step": 174385, "episode/score": 6.099999986588955}
+{"step": 174612, "episode/score": 6.099999971687794}
+{"step": 174751, "episode/score": 6.099999986588955}
+{"step": 174930, "episode/score": 4.099999986588955}
+{"step": 175119, "episode/score": 7.099999986588955}
+{"step": 175273, "episode/score": 3.1000000089406967}
+{"step": 175562, "episode/score": 7.099999986588955}
+{"step": 175620, "episode/score": 4.099999986588955}
+{"step": 175776, "episode/score": 8.100000008940697}
+{"step": 176058, "episode/score": 6.099999986588955}
+{"step": 176248, "episode/score": 6.100000008940697}
+{"step": 176455, "episode/score": 7.100000001490116}
+{"step": 176625, "episode/score": 6.100000008940697}
+{"step": 176799, "episode/score": 7.099999986588955}
+{"step": 177006, "episode/score": 6.099999986588955}
+{"step": 177248, "episode/score": 8.100000016391277}
+{"step": 177475, "episode/score": 5.099999979138374}
+{"step": 177641, "episode/score": 5.100000008940697}
+{"step": 177897, "episode/score": 6.099999986588955}
+{"step": 178054, "episode/score": 6.100000001490116}
+{"step": 178216, "episode/score": 5.099999986588955}
+{"step": 178414, "episode/score": 6.099999986588955}
+{"step": 178472, "episode/score": 3.099999986588955}
+{"step": 178689, "episode/score": 6.100000008940697}
+{"step": 178739, "episode/score": 2.099999986588955}
+{"step": 178873, "episode/score": 6.099999986588955}
+{"step": 179031, "episode/score": 5.099999986588955}
+{"step": 179242, "episode/score": 5.099999986588955}
+{"step": 179518, "episode/score": 7.099999986588955}
+{"step": 179722, "episode/score": 5.099999986588955}
+{"step": 179776, "episode/score": 3.099999986588955}
+{"step": 179957, "episode/score": 5.099999986588955}
+{"step": 180117, "episode/score": 7.100000001490116}
+{"step": 180315, "episode/score": 5.099999986588955}
+{"step": 180518, "episode/score": 8.100000001490116}
+{"step": 180711, "episode/score": 5.099999986588955}
+{"step": 180748, "episode/score": 3.099999986588955}
+{"step": 180912, "episode/score": 5.099999986588955}
+{"step": 181131, "episode/score": 7.100000001490116}
+{"step": 181313, "episode/score": 5.100000008940697}
+{"step": 181509, "episode/score": 6.099999986588955}
+{"step": 181754, "episode/score": 4.100000008940697}
+{"step": 181932, "episode/score": 6.100000023841858}
+{"step": 182121, "episode/score": 4.099999986588955}
+{"step": 182294, "episode/score": 5.100000008940697}
+{"step": 182482, "episode/score": 6.099999986588955}
+{"step": 182635, "episode/score": 6.099999971687794}
+{"step": 182675, "episode/score": 1.0999999716877937}
+{"step": 182875, "episode/score": 7.099999986588955}
+{"step": 183116, "episode/score": 7.099999986588955}
+{"step": 183269, "episode/score": 6.099999986588955}
+{"step": 183476, "episode/score": 7.099999986588955}
+{"step": 183635, "episode/score": 5.099999971687794}
+{"step": 183797, "episode/score": 4.099999986588955}
+{"step": 183914, "episode/score": 5.099999986588955}
+{"step": 184071, "episode/score": 4.099999986588955}
+{"step": 184301, "episode/score": 7.100000008940697}
+{"step": 184493, "episode/score": 6.100000008940697}
+{"step": 184643, "episode/score": 6.099999986588955}
+{"step": 184895, "episode/score": 7.099999986588955}
+{"step": 185179, "episode/score": 6.099999986588955}
+{"step": 185452, "episode/score": 7.099999986588955}
+{"step": 185650, "episode/score": 6.099999986588955}
+{"step": 185827, "episode/score": 6.099999986588955}
+{"step": 186003, "episode/score": 6.099999986588955}
+{"step": 186226, "episode/score": 7.100000008940697}
+{"step": 186398, "episode/score": 5.099999986588955}
+{"step": 186535, "episode/score": 5.100000008940697}
+{"step": 186678, "episode/score": 6.100000008940697}
+{"step": 186856, "episode/score": 7.100000001490116}
+{"step": 187059, "episode/score": 7.100000008940697}
+{"step": 187208, "episode/score": 4.099999971687794}
+{"step": 187361, "episode/score": 6.099999986588955}
+{"step": 187495, "episode/score": 6.099999986588955}
+{"step": 187675, "episode/score": 4.099999971687794}
+{"step": 187829, "episode/score": 4.099999986588955}
+{"step": 187968, "episode/score": 7.099999971687794}
+{"step": 188009, "episode/score": 2.099999986588955}
+{"step": 188171, "episode/score": 6.099999986588955}
+{"step": 188333, "episode/score": 6.099999986588955}
+{"step": 188385, "episode/score": 5.100000001490116}
+{"step": 188727, "episode/score": 6.099999986588955}
+{"step": 188947, "episode/score": 6.099999986588955}
+{"step": 189082, "episode/score": 5.100000008940697}
+{"step": 189267, "episode/score": 6.100000008940697}
+{"step": 189422, "episode/score": 6.099999986588955}
+{"step": 189566, "episode/score": 5.099999986588955}
+{"step": 189615, "episode/score": 3.100000001490116}
+{"step": 189775, "episode/score": 5.099999986588955}
+{"step": 189959, "episode/score": 7.099999986588955}
+{"step": 190193, "episode/score": 8.099999986588955}
+{"step": 190362, "episode/score": 6.100000008940697}
+{"step": 190520, "episode/score": 6.099999986588955}
+{"step": 190694, "episode/score": 6.099999986588955}
+{"step": 190873, "episode/score": 6.099999986588955}
+{"step": 191018, "episode/score": 5.100000008940697}
+{"step": 191236, "episode/score": 6.099999986588955}
+{"step": 191467, "episode/score": 5.099999986588955}
+{"step": 191524, "episode/score": 4.100000008940697}
+{"step": 191676, "episode/score": 5.100000023841858}
+{"step": 191839, "episode/score": 4.099999986588955}
+{"step": 192018, "episode/score": 7.099999986588955}
+{"step": 192453, "episode/score": 6.099999986588955}
+{"step": 192634, "episode/score": 6.099999986588955}
+{"step": 192695, "episode/score": 3.0999999716877937}
+{"step": 192889, "episode/score": 6.099999986588955}
+{"step": 193047, "episode/score": 7.099999986588955}
+{"step": 193213, "episode/score": 6.100000008940697}
+{"step": 193354, "episode/score": 6.099999986588955}
+{"step": 193741, "episode/score": 5.099999986588955}
+{"step": 194001, "episode/score": 6.099999986588955}
+{"step": 194140, "episode/score": 5.100000008940697}
+{"step": 194346, "episode/score": 7.100000008940697}
+{"step": 194549, "episode/score": 6.099999986588955}
+{"step": 194715, "episode/score": 5.099999986588955}
+{"step": 194776, "episode/score": 3.1000000089406967}
+{"step": 194929, "episode/score": 5.099999986588955}
+{"step": 195072, "episode/score": 5.099999986588955}
+{"step": 195236, "episode/score": 6.099999986588955}
+{"step": 195398, "episode/score": 5.099999971687794}
+{"step": 195688, "episode/score": 7.099999986588955}
+{"step": 195847, "episode/score": 6.099999986588955}
+{"step": 195886, "episode/score": 4.100000001490116}
+{"step": 196082, "episode/score": 4.099999986588955}
+{"step": 196246, "episode/score": 4.099999986588955}
+{"step": 196439, "episode/score": 7.099999986588955}
+{"step": 196613, "episode/score": 6.099999986588955}
+{"step": 196792, "episode/score": 4.099999986588955}
+{"step": 196966, "episode/score": 6.100000001490116}
+{"step": 197134, "episode/score": 5.099999971687794}
+{"step": 197298, "episode/score": 6.099999986588955}
+{"step": 197493, "episode/score": 6.0999999940395355}
+{"step": 197723, "episode/score": 7.099999986588955}
+{"step": 197879, "episode/score": 6.100000001490116}
+{"step": 198094, "episode/score": 7.100000001490116}
+{"step": 198397, "episode/score": 7.099999986588955}
+{"step": 198564, "episode/score": 6.099999986588955}
+{"step": 198793, "episode/score": 7.100000008940697}
+{"step": 198989, "episode/score": 6.099999986588955}
+{"step": 199139, "episode/score": 7.099999986588955}
+{"step": 199183, "episode/score": 3.1000000089406967}
+{"step": 199343, "episode/score": 3.1000000089406967}
+{"step": 199555, "episode/score": 6.100000008940697}
+{"step": 199740, "episode/score": 7.099999986588955}
+{"step": 199901, "episode/score": 6.100000008940697}
+{"step": 199945, "episode/score": 0.10000000894069672}
+{"step": 200099, "episode/score": 6.099999986588955}
+{"step": 200290, "episode/score": 7.100000001490116}
+{"step": 200474, "episode/score": 6.100000008940697}
+{"step": 200701, "episode/score": 5.099999986588955}
+{"step": 201146, "episode/score": 3.099999986588955}
+{"step": 201439, "episode/score": 6.099999986588955}
+{"step": 201697, "episode/score": 4.099999971687794}
+{"step": 201910, "episode/score": 5.099999979138374}
+{"step": 202181, "episode/score": 6.099999986588955}
+{"step": 202332, "episode/score": 6.099999986588955}
+{"step": 202476, "episode/score": 6.100000008940697}
+{"step": 202531, "episode/score": 3.100000001490116}
+{"step": 202689, "episode/score": 6.099999986588955}
+{"step": 202879, "episode/score": 5.1000000312924385}
+{"step": 203010, "episode/score": 3.099999986588955}
+{"step": 203190, "episode/score": 6.099999971687794}
+{"step": 203420, "episode/score": 6.099999986588955}
+{"step": 203565, "episode/score": 6.099999986588955}
+{"step": 203741, "episode/score": 5.100000008940697}
+{"step": 203910, "episode/score": 4.099999979138374}
+{"step": 204114, "episode/score": 7.100000008940697}
+{"step": 204307, "episode/score": 7.099999986588955}
+{"step": 204651, "episode/score": 4.099999986588955}
+{"step": 204820, "episode/score": 6.099999979138374}
+{"step": 204993, "episode/score": 7.099999986588955}
+{"step": 205164, "episode/score": 6.100000008940697}
+{"step": 205349, "episode/score": 5.099999986588955}
+{"step": 205542, "episode/score": 5.100000001490116}
+{"step": 205678, "episode/score": 6.099999986588955}
+{"step": 205874, "episode/score": 5.099999986588955}
+{"step": 206072, "episode/score": 7.099999964237213}
+{"step": 206218, "episode/score": 6.100000008940697}
+{"step": 206431, "episode/score": 3.099999986588955}
+{"step": 206582, "episode/score": 5.099999986588955}
+{"step": 206775, "episode/score": 7.100000001490116}
+{"step": 206975, "episode/score": 7.100000008940697}
+{"step": 207217, "episode/score": 6.099999986588955}
+{"step": 207383, "episode/score": 6.099999986588955}
+{"step": 207557, "episode/score": 5.099999986588955}
+{"step": 207728, "episode/score": 5.099999986588955}
+{"step": 207917, "episode/score": 6.099999986588955}
+{"step": 208087, "episode/score": 5.099999986588955}
+{"step": 208277, "episode/score": 6.100000008940697}
+{"step": 208442, "episode/score": 6.100000008940697}
+{"step": 208680, "episode/score": 6.100000001490116}
+{"step": 208915, "episode/score": 6.099999986588955}
+{"step": 209051, "episode/score": 5.100000008940697}
+{"step": 209210, "episode/score": 6.099999986588955}
+{"step": 209362, "episode/score": 5.099999986588955}
+{"step": 209533, "episode/score": 5.100000008940697}
+{"step": 209743, "episode/score": 6.099999986588955}
+{"step": 210016, "episode/score": 4.099999986588955}
+{"step": 210395, "episode/score": 6.099999986588955}
+{"step": 210611, "episode/score": 7.099999986588955}
+{"step": 210771, "episode/score": 7.100000008940697}
+{"step": 210994, "episode/score": 6.099999986588955}
+{"step": 211258, "episode/score": 6.099999986588955}
+{"step": 211436, "episode/score": 7.099999986588955}
+{"step": 211870, "episode/score": 6.099999986588955}
+{"step": 212016, "episode/score": 3.0999999716877937}
+{"step": 212204, "episode/score": 5.099999986588955}
+{"step": 212457, "episode/score": 6.100000001490116}
+{"step": 212607, "episode/score": 5.099999986588955}
+{"step": 212735, "episode/score": 5.099999986588955}
+{"step": 212957, "episode/score": 5.099999986588955}
+{"step": 213118, "episode/score": 3.1000000089406967}
+{"step": 213280, "episode/score": 7.099999986588955}
+{"step": 213459, "episode/score": 5.099999986588955}
+{"step": 213635, "episode/score": 6.0999999940395355}
+{"step": 213814, "episode/score": 6.099999986588955}
+{"step": 213986, "episode/score": 6.099999986588955}
+{"step": 214347, "episode/score": 6.099999986588955}
+{"step": 214776, "episode/score": 5.099999986588955}
+{"step": 214924, "episode/score": 5.099999986588955}
+{"step": 215112, "episode/score": 6.099999986588955}
+{"step": 215302, "episode/score": 6.099999986588955}
+{"step": 215536, "episode/score": 4.099999986588955}
+{"step": 215733, "episode/score": 7.100000001490116}
+{"step": 215887, "episode/score": 6.100000008940697}
+{"step": 216000, "episode/score": 4.099999986588955}
+{"step": 216190, "episode/score": 7.099999986588955}
+{"step": 216400, "episode/score": 5.099999986588955}
+{"step": 216671, "episode/score": 6.099999986588955}
+{"step": 216855, "episode/score": 6.099999986588955}
+{"step": 217017, "episode/score": 4.099999986588955}
+{"step": 217268, "episode/score": 4.099999986588955}
+{"step": 217452, "episode/score": 6.099999986588955}
+{"step": 217496, "episode/score": 3.1000000089406967}
+{"step": 217682, "episode/score": 6.099999986588955}
+{"step": 217943, "episode/score": 7.099999986588955}
+{"step": 218103, "episode/score": 6.099999986588955}
+{"step": 218342, "episode/score": 3.1000000089406967}
+{"step": 218490, "episode/score": 4.099999986588955}
+{"step": 218680, "episode/score": 6.100000008940697}
+{"step": 218838, "episode/score": 7.100000001490116}
+{"step": 219015, "episode/score": 3.099999986588955}
+{"step": 219200, "episode/score": 6.100000008940697}
+{"step": 219389, "episode/score": 5.099999986588955}
+{"step": 219624, "episode/score": 8.099999986588955}
+{"step": 219761, "episode/score": 5.100000008940697}
+{"step": 219929, "episode/score": 6.100000008940697}
+{"step": 220081, "episode/score": 6.099999986588955}
+{"step": 220300, "episode/score": 7.099999986588955}
+{"step": 220464, "episode/score": 6.100000008940697}
+{"step": 220658, "episode/score": 4.099999986588955}
+{"step": 220827, "episode/score": 5.099999986588955}
+{"step": 221027, "episode/score": 6.099999986588955}
+{"step": 221231, "episode/score": 5.099999986588955}
+{"step": 221421, "episode/score": 8.100000008940697}
+{"step": 221619, "episode/score": 6.100000008940697}
+{"step": 221779, "episode/score": 4.100000008940697}
+{"step": 222013, "episode/score": 3.099999986588955}
+{"step": 222169, "episode/score": 6.100000008940697}
+{"step": 222345, "episode/score": 5.099999986588955}
+{"step": 222505, "episode/score": 6.099999986588955}
+{"step": 222687, "episode/score": 6.099999986588955}
+{"step": 222740, "episode/score": 3.099999986588955}
+{"step": 223007, "episode/score": 7.100000001490116}
+{"step": 223181, "episode/score": 6.099999986588955}
+{"step": 223239, "episode/score": 5.100000023841858}
+{"step": 223433, "episode/score": 6.099999986588955}
+{"step": 223475, "episode/score": 4.100000008940697}
+{"step": 223637, "episode/score": 6.099999986588955}
+{"step": 223810, "episode/score": 6.099999986588955}
+{"step": 224057, "episode/score": 8.099999986588955}
+{"step": 224260, "episode/score": 6.099999986588955}
+{"step": 224421, "episode/score": 6.099999986588955}
+{"step": 224577, "episode/score": 6.099999986588955}
+{"step": 224758, "episode/score": 5.099999986588955}
+{"step": 224906, "episode/score": 6.099999979138374}
+{"step": 225066, "episode/score": 6.099999986588955}
+{"step": 225111, "episode/score": 5.099999986588955}
+{"step": 225265, "episode/score": 5.100000008940697}
+{"step": 225482, "episode/score": 5.0999999940395355}
+{"step": 225648, "episode/score": 6.099999986588955}
+{"step": 225851, "episode/score": 5.099999971687794}
+{"step": 225896, "episode/score": 0.10000000894069672}
+{"step": 226048, "episode/score": 5.099999986588955}
+{"step": 226232, "episode/score": 7.099999986588955}
+{"step": 226268, "episode/score": 4.099999971687794}
+{"step": 226795, "episode/score": 4.099999986588955}
+{"step": 226999, "episode/score": 6.100000008940697}
+{"step": 227283, "episode/score": 6.099999986588955}
+{"step": 227340, "episode/score": 4.100000008940697}
+{"step": 227508, "episode/score": 7.0999999940395355}
+{"step": 227692, "episode/score": 7.099999986588955}
+{"step": 227771, "episode/score": 4.099999971687794}
+{"step": 228045, "episode/score": 6.099999986588955}
+{"step": 228196, "episode/score": 5.100000023841858}
+{"step": 228355, "episode/score": 6.099999986588955}
+{"step": 228520, "episode/score": 5.099999986588955}
+{"step": 228676, "episode/score": 4.100000008940697}
+{"step": 228820, "episode/score": 5.099999986588955}
+{"step": 229011, "episode/score": 6.100000008940697}
+{"step": 229166, "episode/score": 6.100000008940697}
+{"step": 229346, "episode/score": 7.099999986588955}
+{"step": 229508, "episode/score": 7.100000008940697}
+{"step": 229680, "episode/score": 6.099999986588955}
+{"step": 229810, "episode/score": 6.099999986588955}
+{"step": 230025, "episode/score": 6.099999986588955}
+{"step": 230201, "episode/score": 5.100000016391277}
+{"step": 230356, "episode/score": 6.100000001490116}
+{"step": 230522, "episode/score": 6.100000008940697}
+{"step": 230730, "episode/score": 4.100000008940697}
+{"step": 230916, "episode/score": 5.099999986588955}
+{"step": 231096, "episode/score": 5.099999986588955}
+{"step": 231307, "episode/score": 7.100000001490116}
+{"step": 231507, "episode/score": 5.099999986588955}
+{"step": 231794, "episode/score": 6.099999986588955}
+{"step": 231954, "episode/score": 5.099999986588955}
+{"step": 232128, "episode/score": 5.099999986588955}
+{"step": 232364, "episode/score": 8.099999964237213}
+{"step": 232640, "episode/score": 5.100000008940697}
+{"step": 232814, "episode/score": 7.100000001490116}
+{"step": 232973, "episode/score": 6.099999986588955}
+{"step": 233123, "episode/score": 6.0999999940395355}
+{"step": 233289, "episode/score": 6.100000001490116}
+{"step": 233448, "episode/score": 5.099999986588955}
+{"step": 233622, "episode/score": 2.1000000089406967}
+{"step": 233800, "episode/score": 6.099999986588955}
+{"step": 234236, "episode/score": 7.099999986588955}
+{"step": 234448, "episode/score": 6.100000008940697}
+{"step": 234884, "episode/score": 7.099999986588955}
+{"step": 235085, "episode/score": 8.099999986588955}
+{"step": 235249, "episode/score": 6.099999986588955}
+{"step": 235437, "episode/score": 6.099999986588955}
+{"step": 235606, "episode/score": 5.099999986588955}
+{"step": 235787, "episode/score": 4.099999986588955}
+{"step": 235836, "episode/score": 3.100000001490116}
+{"step": 235997, "episode/score": 7.099999986588955}
+{"step": 236178, "episode/score": 5.099999986588955}
+{"step": 236376, "episode/score": 5.099999986588955}
+{"step": 236566, "episode/score": 7.099999986588955}
+{"step": 236747, "episode/score": 7.0999999940395355}
+{"step": 236909, "episode/score": 6.099999986588955}
+{"step": 237096, "episode/score": 5.099999986588955}
+{"step": 237295, "episode/score": 5.099999986588955}
+{"step": 237343, "episode/score": 4.100000008940697}
+{"step": 237491, "episode/score": 6.099999986588955}
+{"step": 237659, "episode/score": 5.100000001490116}
+{"step": 238073, "episode/score": 5.099999986588955}
+{"step": 238294, "episode/score": 7.099999986588955}
+{"step": 238437, "episode/score": 7.099999986588955}
+{"step": 238594, "episode/score": 6.099999986588955}
+{"step": 238992, "episode/score": 6.099999986588955}
+{"step": 239161, "episode/score": 6.100000008940697}
+{"step": 239324, "episode/score": 4.099999986588955}
+{"step": 239482, "episode/score": 5.0999999940395355}
+{"step": 239588, "episode/score": 3.099999986588955}
+{"step": 239773, "episode/score": 6.099999986588955}
+{"step": 239913, "episode/score": 6.0999999940395355}
+{"step": 240108, "episode/score": 4.099999986588955}
+{"step": 240351, "episode/score": 7.099999964237213}
+{"step": 240523, "episode/score": 6.099999986588955}
+{"step": 240566, "episode/score": 4.100000008940697}
+{"step": 240753, "episode/score": 7.100000023841858}
+{"step": 240908, "episode/score": 6.099999986588955}
+{"step": 241075, "episode/score": 4.099999986588955}
+{"step": 241253, "episode/score": 6.100000008940697}
+{"step": 241429, "episode/score": 7.099999986588955}
+{"step": 241584, "episode/score": 6.099999986588955}
+{"step": 241757, "episode/score": 5.099999986588955}
+{"step": 242129, "episode/score": 6.099999986588955}
+{"step": 242330, "episode/score": 7.099999986588955}
+{"step": 242507, "episode/score": 5.099999986588955}
+{"step": 242697, "episode/score": 6.099999986588955}
+{"step": 242912, "episode/score": 8.099999986588955}
+{"step": 243081, "episode/score": 8.099999986588955}
+{"step": 243265, "episode/score": 8.099999986588955}
+{"step": 243460, "episode/score": 7.099999986588955}
+{"step": 243675, "episode/score": 6.099999986588955}
+{"step": 243866, "episode/score": 6.099999986588955}
+{"step": 244024, "episode/score": 5.099999986588955}
+{"step": 244223, "episode/score": 8.100000008940697}
+{"step": 244401, "episode/score": 6.099999986588955}
+{"step": 244591, "episode/score": 7.099999986588955}
+{"step": 244765, "episode/score": 7.099999986588955}
+{"step": 244933, "episode/score": 6.099999986588955}
+{"step": 245058, "episode/score": 6.099999986588955}
+{"step": 245226, "episode/score": 8.099999986588955}
+{"step": 245389, "episode/score": 6.100000008940697}
+{"step": 245622, "episode/score": 7.100000001490116}
+{"step": 245791, "episode/score": 9.100000001490116}
+{"step": 245984, "episode/score": 6.099999986588955}
+{"step": 246148, "episode/score": 10.100000001490116}
+{"step": 246315, "episode/score": 7.099999986588955}
+{"step": 246455, "episode/score": 4.099999986588955}
+{"step": 246645, "episode/score": 6.099999986588955}
+{"step": 246742, "episode/score": 6.100000008940697}
+{"step": 246911, "episode/score": 5.099999986588955}
+{"step": 247081, "episode/score": 6.100000008940697}
+{"step": 247238, "episode/score": 7.099999986588955}
+{"step": 247418, "episode/score": 7.099999986588955}
+{"step": 247574, "episode/score": 7.099999986588955}
+{"step": 247769, "episode/score": 9.100000001490116}
+{"step": 247903, "episode/score": 6.100000001490116}
+{"step": 248132, "episode/score": 8.099999986588955}
+{"step": 248289, "episode/score": 6.099999986588955}
+{"step": 248550, "episode/score": 8.099999986588955}
+{"step": 248703, "episode/score": 6.099999986588955}
+{"step": 248882, "episode/score": 7.100000008940697}
+{"step": 249065, "episode/score": 5.099999986588955}
+{"step": 249236, "episode/score": 7.100000008940697}
+{"step": 249280, "episode/score": 4.100000008940697}
+{"step": 249525, "episode/score": 8.099999986588955}
+{"step": 249723, "episode/score": 8.100000001490116}
+{"step": 249808, "episode/score": 5.100000023841858}
+{"step": 249990, "episode/score": 6.099999986588955}
+{"step": 250179, "episode/score": 8.099999986588955}
+{"step": 250423, "episode/score": 7.099999986588955}
+{"step": 250592, "episode/score": 6.099999986588955}
+{"step": 250784, "episode/score": 7.099999986588955}
+{"step": 251010, "episode/score": 7.099999986588955}
+{"step": 251240, "episode/score": 8.100000001490116}
+{"step": 251415, "episode/score": 8.099999986588955}
+{"step": 251555, "episode/score": 4.100000001490116}
+{"step": 251804, "episode/score": 9.100000001490116}
+{"step": 251951, "episode/score": 5.100000001490116}
+{"step": 252272, "episode/score": 8.099999986588955}
+{"step": 252454, "episode/score": 8.100000038743019}
+{"step": 252624, "episode/score": 8.099999986588955}
+{"step": 252850, "episode/score": 8.099999986588955}
+{"step": 252897, "episode/score": 4.0999999940395355}
+{"step": 253114, "episode/score": 7.100000008940697}
+{"step": 253343, "episode/score": 8.100000001490116}
+{"step": 253590, "episode/score": 8.100000016391277}
+{"step": 253779, "episode/score": 7.099999986588955}
+{"step": 254005, "episode/score": 6.100000008940697}
+{"step": 254038, "episode/score": 1.0999999716877937}
+{"step": 254204, "episode/score": 7.099999986588955}
+{"step": 254422, "episode/score": 7.099999986588955}
+{"step": 254567, "episode/score": 7.099999986588955}
+{"step": 254769, "episode/score": 7.099999986588955}
+{"step": 254985, "episode/score": 7.099999986588955}
+{"step": 255239, "episode/score": 8.099999986588955}
+{"step": 255415, "episode/score": 7.100000008940697}
+{"step": 255581, "episode/score": 7.099999986588955}
+{"step": 255800, "episode/score": 8.099999986588955}
+{"step": 255968, "episode/score": 5.099999986588955}
+{"step": 256240, "episode/score": 7.099999986588955}
+{"step": 256426, "episode/score": 6.099999986588955}
+{"step": 256666, "episode/score": 6.0999999940395355}
+{"step": 256967, "episode/score": 10.100000001490116}
+{"step": 257154, "episode/score": 8.099999986588955}
+{"step": 257339, "episode/score": 6.099999986588955}
+{"step": 257610, "episode/score": 6.099999986588955}
+{"step": 257799, "episode/score": 7.099999986588955}
+{"step": 257956, "episode/score": 6.099999986588955}
+{"step": 258178, "episode/score": 9.099999986588955}
+{"step": 258330, "episode/score": 4.100000008940697}
+{"step": 258550, "episode/score": 9.099999986588955}
+{"step": 258757, "episode/score": 6.099999986588955}
+{"step": 258991, "episode/score": 8.100000008940697}
+{"step": 259167, "episode/score": 5.099999986588955}
+{"step": 259356, "episode/score": 8.100000001490116}
+{"step": 259529, "episode/score": 6.099999986588955}
+{"step": 259583, "episode/score": 4.099999986588955}
+{"step": 259744, "episode/score": 7.099999986588955}
+{"step": 259932, "episode/score": 6.099999986588955}
+{"step": 260061, "episode/score": 5.100000061094761}
+{"step": 260247, "episode/score": 9.099999986588955}
+{"step": 260406, "episode/score": 5.0999999940395355}
+{"step": 260605, "episode/score": 7.099999986588955}
+{"step": 260819, "episode/score": 9.099999986588955}
+{"step": 260994, "episode/score": 8.099999986588955}
+{"step": 261209, "episode/score": 8.099999979138374}
+{"step": 261386, "episode/score": 7.099999986588955}
+{"step": 261561, "episode/score": 6.099999986588955}
+{"step": 261719, "episode/score": 7.0999999940395355}
+{"step": 261970, "episode/score": 8.099999986588955}
+{"step": 262012, "episode/score": 2.0999999940395355}
+{"step": 262250, "episode/score": 6.099999986588955}
+{"step": 262417, "episode/score": 6.099999986588955}
+{"step": 262627, "episode/score": 5.099999986588955}
+{"step": 262864, "episode/score": 9.099999986588955}
+{"step": 263033, "episode/score": 7.099999986588955}
+{"step": 263226, "episode/score": 8.099999986588955}
+{"step": 263382, "episode/score": 8.100000008940697}
+{"step": 263623, "episode/score": 8.099999986588955}
+{"step": 263887, "episode/score": 8.099999986588955}
+{"step": 264073, "episode/score": 7.100000008940697}
+{"step": 264291, "episode/score": 5.0999999940395355}
+{"step": 264441, "episode/score": 6.100000001490116}
+{"step": 264606, "episode/score": 7.099999986588955}
+{"step": 264782, "episode/score": 8.099999986588955}
+{"step": 264956, "episode/score": 7.099999986588955}
+{"step": 265148, "episode/score": 10.099999986588955}
+{"step": 265182, "episode/score": 1.099999986588955}
+{"step": 265371, "episode/score": 10.099999964237213}
+{"step": 265532, "episode/score": 7.099999986588955}
+{"step": 265744, "episode/score": 8.100000008940697}
+{"step": 265908, "episode/score": 7.099999986588955}
+{"step": 266076, "episode/score": 7.099999986588955}
+{"step": 266254, "episode/score": 7.100000001490116}
+{"step": 266430, "episode/score": 6.099999986588955}
+{"step": 266586, "episode/score": 8.100000008940697}
+{"step": 266986, "episode/score": 10.099999964237213}
+{"step": 267171, "episode/score": 9.099999986588955}
+{"step": 267534, "episode/score": 10.099999986588955}
+{"step": 267740, "episode/score": 7.099999986588955}
+{"step": 267944, "episode/score": 4.099999986588955}
+{"step": 268198, "episode/score": 9.099999986588955}
+{"step": 268469, "episode/score": 7.099999986588955}
+{"step": 268619, "episode/score": 4.100000001490116}
+{"step": 268827, "episode/score": 7.099999986588955}
+{"step": 269163, "episode/score": 8.099999986588955}
+{"step": 269335, "episode/score": 6.099999986588955}
+{"step": 269491, "episode/score": 7.099999986588955}
+{"step": 269639, "episode/score": 7.099999979138374}
+{"step": 269801, "episode/score": 6.100000008940697}
+{"step": 269991, "episode/score": 7.099999986588955}
+{"step": 270166, "episode/score": 7.099999986588955}
+{"step": 270362, "episode/score": 8.099999979138374}
+{"step": 270562, "episode/score": 8.100000001490116}
+{"step": 270744, "episode/score": 5.099999986588955}
+{"step": 270798, "episode/score": 2.100000001490116}
+{"step": 270857, "episode/score": 4.099999971687794}
+{"step": 270907, "episode/score": 3.100000001490116}
+{"step": 271078, "episode/score": 8.099999986588955}
+{"step": 271237, "episode/score": 8.099999986588955}
+{"step": 271442, "episode/score": 8.100000008940697}
+{"step": 271587, "episode/score": 6.099999986588955}
+{"step": 271846, "episode/score": 8.100000031292439}
+{"step": 271991, "episode/score": 7.099999986588955}
+{"step": 272175, "episode/score": 7.099999986588955}
+{"step": 272389, "episode/score": 8.099999986588955}
+{"step": 272552, "episode/score": 8.099999986588955}
+{"step": 272719, "episode/score": 7.099999979138374}
+{"step": 272902, "episode/score": 9.099999986588955}
+{"step": 273151, "episode/score": 7.099999979138374}
+{"step": 273307, "episode/score": 4.099999986588955}
+{"step": 273465, "episode/score": 4.099999986588955}
+{"step": 273622, "episode/score": 9.099999986588955}
+{"step": 273798, "episode/score": 5.099999986588955}
+{"step": 274017, "episode/score": 8.100000001490116}
+{"step": 274218, "episode/score": 9.099999994039536}
+{"step": 274303, "episode/score": 7.100000008940697}
+{"step": 274475, "episode/score": 6.099999986588955}
+{"step": 274637, "episode/score": 8.099999986588955}
+{"step": 274817, "episode/score": 6.099999986588955}
+{"step": 275132, "episode/score": 10.099999986588955}
+{"step": 275339, "episode/score": 8.099999986588955}
+{"step": 275512, "episode/score": 8.099999986588955}
+{"step": 275642, "episode/score": 7.099999986588955}
+{"step": 275790, "episode/score": 7.099999986588955}
+{"step": 276091, "episode/score": 8.099999986588955}
+{"step": 276291, "episode/score": 8.099999986588955}
+{"step": 276439, "episode/score": 5.099999986588955}
+{"step": 276634, "episode/score": 7.099999986588955}
+{"step": 276714, "episode/score": 5.100000008940697}
+{"step": 276868, "episode/score": 7.099999986588955}
+{"step": 277266, "episode/score": 12.099999986588955}
+{"step": 277519, "episode/score": 10.099999986588955}
+{"step": 277694, "episode/score": 8.099999986588955}
+{"step": 277985, "episode/score": 7.099999986588955}
+{"step": 278035, "episode/score": 3.100000023841858}
+{"step": 278199, "episode/score": 7.099999986588955}
+{"step": 278256, "episode/score": 5.099999979138374}
+{"step": 278353, "episode/score": 2.099999986588955}
+{"step": 278520, "episode/score": 5.099999979138374}
+{"step": 279017, "episode/score": 11.099999986588955}
+{"step": 279208, "episode/score": 5.100000001490116}
+{"step": 279377, "episode/score": 9.100000023841858}
+{"step": 279585, "episode/score": 7.099999986588955}
+{"step": 279782, "episode/score": 9.100000001490116}
+{"step": 279965, "episode/score": 6.099999986588955}
+{"step": 280151, "episode/score": 7.099999986588955}
+{"step": 280318, "episode/score": 8.099999986588955}
+{"step": 280556, "episode/score": 9.099999986588955}
+{"step": 280834, "episode/score": 8.099999986588955}
+{"step": 281033, "episode/score": 6.100000008940697}
+{"step": 281204, "episode/score": 6.099999971687794}
+{"step": 281362, "episode/score": 6.099999986588955}
+{"step": 281517, "episode/score": 6.099999986588955}
+{"step": 281728, "episode/score": 7.099999986588955}
+{"step": 282096, "episode/score": 10.099999986588955}
+{"step": 282252, "episode/score": 7.099999986588955}
+{"step": 282306, "episode/score": 4.099999986588955}
+{"step": 282476, "episode/score": 9.099999986588955}
+{"step": 282630, "episode/score": 7.099999986588955}
+{"step": 282837, "episode/score": 8.099999986588955}
+{"step": 283168, "episode/score": 10.099999986588955}
+{"step": 283573, "episode/score": 10.099999964237213}
+{"step": 283862, "episode/score": 11.099999986588955}
+{"step": 284069, "episode/score": 9.100000008940697}
+{"step": 284246, "episode/score": 7.099999986588955}
+{"step": 284422, "episode/score": 8.099999986588955}
+{"step": 284688, "episode/score": 10.099999986588955}
+{"step": 284956, "episode/score": 8.099999986588955}
+{"step": 285200, "episode/score": 6.099999986588955}
+{"step": 285507, "episode/score": 5.099999986588955}
+{"step": 285768, "episode/score": 7.099999986588955}
+{"step": 286035, "episode/score": 8.100000008940697}
+{"step": 286351, "episode/score": 10.099999986588955}
+{"step": 286527, "episode/score": 8.099999986588955}
+{"step": 286588, "episode/score": 5.100000001490116}
+{"step": 286776, "episode/score": 7.099999986588955}
+{"step": 286975, "episode/score": 7.099999986588955}
+{"step": 287137, "episode/score": 6.099999986588955}
+{"step": 287347, "episode/score": 8.100000001490116}
+{"step": 287495, "episode/score": 7.099999986588955}
+{"step": 287766, "episode/score": 8.099999986588955}
+{"step": 287811, "episode/score": 4.099999971687794}
+{"step": 288013, "episode/score": 5.099999986588955}
+{"step": 288180, "episode/score": 7.099999986588955}
+{"step": 288360, "episode/score": 8.100000001490116}
+{"step": 288437, "episode/score": 7.100000023841858}
+{"step": 288590, "episode/score": 8.100000001490116}
+{"step": 288830, "episode/score": 6.099999986588955}
+{"step": 289001, "episode/score": 7.099999986588955}
+{"step": 289155, "episode/score": 8.099999986588955}
+{"step": 289428, "episode/score": 9.099999986588955}
+{"step": 289617, "episode/score": 9.099999986588955}
+{"step": 289896, "episode/score": 8.099999986588955}
+{"step": 290063, "episode/score": 7.099999986588955}
+{"step": 290103, "episode/score": 4.100000008940697}
+{"step": 290347, "episode/score": 9.099999986588955}
+{"step": 290426, "episode/score": 3.099999986588955}
+{"step": 290596, "episode/score": 10.099999986588955}
+{"step": 290752, "episode/score": 8.099999986588955}
+{"step": 290932, "episode/score": 7.100000001490116}
+{"step": 291094, "episode/score": 7.099999986588955}
+{"step": 291263, "episode/score": 9.099999986588955}
+{"step": 291457, "episode/score": 7.099999986588955}
+{"step": 291630, "episode/score": 8.100000001490116}
+{"step": 291824, "episode/score": 8.099999986588955}
+{"step": 292082, "episode/score": 9.099999986588955}
+{"step": 292296, "episode/score": 8.099999986588955}
+{"step": 292664, "episode/score": 9.099999986588955}
+{"step": 292752, "episode/score": 6.100000008940697}
+{"step": 292937, "episode/score": 5.099999986588955}
+{"step": 293190, "episode/score": 11.100000008940697}
+{"step": 293394, "episode/score": 8.100000001490116}
+{"step": 293560, "episode/score": 9.100000008940697}
+{"step": 293612, "episode/score": 4.100000001490116}
+{"step": 293832, "episode/score": 6.0999999940395355}
+{"step": 294010, "episode/score": 7.100000008940697}
+{"step": 294068, "episode/score": 2.099999986588955}
+{"step": 294227, "episode/score": 7.099999986588955}
+{"step": 294411, "episode/score": 8.100000001490116}
+{"step": 294661, "episode/score": 3.100000001490116}
+{"step": 295053, "episode/score": 8.099999986588955}
+{"step": 295231, "episode/score": 7.099999986588955}
+{"step": 295399, "episode/score": 9.099999986588955}
+{"step": 295689, "episode/score": 9.099999986588955}
+{"step": 296058, "episode/score": 11.100000001490116}
+{"step": 296267, "episode/score": 10.100000001490116}
+{"step": 296430, "episode/score": 5.099999986588955}
+{"step": 296642, "episode/score": 8.099999986588955}
+{"step": 296724, "episode/score": 6.099999986588955}
+{"step": 296970, "episode/score": 11.099999986588955}
+{"step": 297172, "episode/score": 8.100000001490116}
+{"step": 297296, "episode/score": 5.100000023841858}
+{"step": 297518, "episode/score": 7.099999986588955}
+{"step": 297695, "episode/score": 9.100000008940697}
+{"step": 297843, "episode/score": 5.099999979138374}
+{"step": 298148, "episode/score": 10.099999986588955}
+{"step": 298325, "episode/score": 7.099999986588955}
+{"step": 298473, "episode/score": 7.099999986588955}
+{"step": 298625, "episode/score": 7.0999999940395355}
+{"step": 298701, "episode/score": 3.099999986588955}
+{"step": 298918, "episode/score": 9.099999986588955}
+{"step": 299274, "episode/score": 5.099999986588955}
+{"step": 299433, "episode/score": 9.100000001490116}
+{"step": 299590, "episode/score": 6.100000001490116}
+{"step": 299863, "episode/score": 9.099999986588955}
+{"step": 300147, "episode/score": 11.099999986588955}
+{"step": 300330, "episode/score": 9.099999986588955}
+{"step": 300547, "episode/score": 1.1000000089406967}
+{"step": 300711, "episode/score": 7.099999986588955}
+{"step": 300924, "episode/score": 9.100000023841858}
+{"step": 300975, "episode/score": 4.100000008940697}
+{"step": 301168, "episode/score": 10.100000008940697}
+{"step": 301404, "episode/score": 9.099999986588955}
+{"step": 301663, "episode/score": 10.100000001490116}
+{"step": 301889, "episode/score": 7.099999986588955}
+{"step": 302080, "episode/score": 9.099999986588955}
+{"step": 302276, "episode/score": 8.099999986588955}
+{"step": 302455, "episode/score": 10.100000001490116}
+{"step": 302716, "episode/score": 9.099999986588955}
+{"step": 302971, "episode/score": 9.099999986588955}
+{"step": 303219, "episode/score": 12.099999986588955}
+{"step": 303396, "episode/score": 9.099999986588955}
+{"step": 303551, "episode/score": 9.099999986588955}
+{"step": 303790, "episode/score": 8.099999986588955}
+{"step": 303913, "episode/score": 4.099999986588955}
+{"step": 303992, "episode/score": 4.099999986588955}
+{"step": 304172, "episode/score": 9.099999986588955}
+{"step": 304391, "episode/score": 10.099999986588955}
+{"step": 304588, "episode/score": 9.100000001490116}
+{"step": 304648, "episode/score": 4.099999986588955}
+{"step": 304869, "episode/score": 10.100000008940697}
+{"step": 305057, "episode/score": 5.099999986588955}
+{"step": 305257, "episode/score": 9.099999986588955}
+{"step": 305320, "episode/score": 4.099999986588955}
+{"step": 305529, "episode/score": 11.100000001490116}
+{"step": 305793, "episode/score": 9.100000008940697}
+{"step": 305946, "episode/score": 7.099999986588955}
+{"step": 306143, "episode/score": 6.099999979138374}
+{"step": 306248, "episode/score": 9.100000023841858}
+{"step": 306406, "episode/score": 9.099999986588955}
+{"step": 306643, "episode/score": 9.099999986588955}
+{"step": 307043, "episode/score": 11.099999986588955}
+{"step": 307223, "episode/score": 9.099999986588955}
+{"step": 307428, "episode/score": 12.099999986588955}
+{"step": 307493, "episode/score": 3.1000000089406967}
+{"step": 307700, "episode/score": 7.099999986588955}
+{"step": 307940, "episode/score": 8.099999986588955}
+{"step": 308178, "episode/score": 10.100000023841858}
+{"step": 308428, "episode/score": 9.099999986588955}
+{"step": 308838, "episode/score": 7.099999986588955}
+{"step": 309172, "episode/score": 12.099999986588955}
+{"step": 309405, "episode/score": 11.099999986588955}
+{"step": 309663, "episode/score": 8.099999986588955}
+{"step": 309704, "episode/score": 3.100000001490116}
+{"step": 309959, "episode/score": 9.099999979138374}
+{"step": 310157, "episode/score": 10.099999986588955}
+{"step": 310452, "episode/score": 5.099999986588955}
+{"step": 310623, "episode/score": 7.099999986588955}
+{"step": 310670, "episode/score": 4.099999986588955}
+{"step": 310938, "episode/score": 12.099999986588955}
+{"step": 311301, "episode/score": 12.099999986588955}
+{"step": 311490, "episode/score": 7.099999986588955}
+{"step": 311645, "episode/score": 8.100000008940697}
+{"step": 311836, "episode/score": 11.099999986588955}
+{"step": 312024, "episode/score": 6.099999986588955}
+{"step": 312065, "episode/score": -0.9000000283122063}
+{"step": 312292, "episode/score": 9.099999986588955}
+{"step": 312489, "episode/score": 4.099999986588955}
+{"step": 312771, "episode/score": 11.099999986588955}
+{"step": 313038, "episode/score": 9.099999986588955}
+{"step": 313364, "episode/score": 11.099999979138374}
+{"step": 313515, "episode/score": 8.100000001490116}
+{"step": 313571, "episode/score": 4.099999986588955}
+{"step": 313628, "episode/score": 5.100000008940697}
+{"step": 314013, "episode/score": 11.099999986588955}
+{"step": 314123, "episode/score": 5.099999986588955}
+{"step": 314304, "episode/score": 8.099999986588955}
+{"step": 314495, "episode/score": 10.099999986588955}
+{"step": 314673, "episode/score": 9.099999986588955}
+{"step": 314874, "episode/score": 10.099999986588955}
+{"step": 315054, "episode/score": 9.099999986588955}
+{"step": 315439, "episode/score": 10.099999986588955}
+{"step": 315595, "episode/score": 9.099999986588955}
+{"step": 315705, "episode/score": 8.100000023841858}
+{"step": 315877, "episode/score": 7.100000008940697}
+{"step": 316061, "episode/score": 10.100000001490116}
+{"step": 316342, "episode/score": 10.100000008940697}
+{"step": 316543, "episode/score": 7.099999986588955}
+{"step": 316687, "episode/score": 8.100000008940697}
+{"step": 316900, "episode/score": 10.099999979138374}
+{"step": 317147, "episode/score": 9.099999986588955}
+{"step": 317346, "episode/score": 6.100000008940697}
+{"step": 317536, "episode/score": 10.100000008940697}
+{"step": 317735, "episode/score": 10.099999986588955}
+{"step": 317866, "episode/score": 8.099999986588955}
+{"step": 317976, "episode/score": 9.100000023841858}
+{"step": 318129, "episode/score": 3.099999986588955}
+{"step": 318290, "episode/score": 9.099999986588955}
+{"step": 318497, "episode/score": 10.099999986588955}
+{"step": 318875, "episode/score": 11.100000008940697}
+{"step": 319064, "episode/score": 7.099999986588955}
+{"step": 319136, "episode/score": 7.099999986588955}
+{"step": 319294, "episode/score": 5.099999986588955}
+{"step": 319502, "episode/score": 8.099999986588955}
+{"step": 319687, "episode/score": 5.099999986588955}
+{"step": 319877, "episode/score": 8.100000001490116}
+{"step": 320078, "episode/score": 9.099999986588955}
+{"step": 320274, "episode/score": 9.100000001490116}
+{"step": 320410, "episode/score": 9.100000023841858}
+{"step": 320837, "episode/score": 8.099999986588955}
+{"step": 321043, "episode/score": 9.099999986588955}
+{"step": 321236, "episode/score": 11.099999986588955}
+{"step": 321464, "episode/score": 12.099999986588955}
+{"step": 321628, "episode/score": 5.099999986588955}
+{"step": 321816, "episode/score": 10.099999986588955}
+{"step": 322036, "episode/score": 8.099999986588955}
+{"step": 322324, "episode/score": 11.099999986588955}
+{"step": 322595, "episode/score": 9.099999986588955}
+{"step": 322638, "episode/score": 5.099999986588955}
+{"step": 322929, "episode/score": 12.099999986588955}
+{"step": 323122, "episode/score": 5.099999986588955}
+{"step": 323434, "episode/score": 11.099999986588955}
+{"step": 323609, "episode/score": 8.099999986588955}
+{"step": 323806, "episode/score": 9.100000023841858}
+{"step": 324000, "episode/score": 10.099999979138374}
+{"step": 324226, "episode/score": 10.100000023841858}
+{"step": 324435, "episode/score": 9.100000001490116}
+{"step": 324481, "episode/score": 3.100000001490116}
+{"step": 324689, "episode/score": 6.099999986588955}
+{"step": 324855, "episode/score": 10.099999986588955}
+{"step": 324894, "episode/score": 2.1000000089406967}
+{"step": 325057, "episode/score": 6.099999986588955}
+{"step": 325216, "episode/score": 6.099999986588955}
+{"step": 325383, "episode/score": 7.099999986588955}
+{"step": 325549, "episode/score": 10.099999986588955}
+{"step": 325718, "episode/score": 7.100000001490116}
+{"step": 325884, "episode/score": 9.099999971687794}
+{"step": 326049, "episode/score": 9.100000001490116}
+{"step": 326244, "episode/score": 9.099999986588955}
+{"step": 326340, "episode/score": 3.099999986588955}
+{"step": 326493, "episode/score": 8.099999986588955}
+{"step": 326641, "episode/score": 8.100000023841858}
+{"step": 326785, "episode/score": 8.099999986588955}
+{"step": 326959, "episode/score": 10.100000023841858}
+{"step": 327120, "episode/score": 6.0999999940395355}
+{"step": 327316, "episode/score": 11.100000001490116}
+{"step": 327535, "episode/score": 8.099999986588955}
+{"step": 327722, "episode/score": 9.099999964237213}
+{"step": 327880, "episode/score": 7.099999986588955}
+{"step": 327978, "episode/score": 3.099999986588955}
+{"step": 328122, "episode/score": 9.100000023841858}
+{"step": 328407, "episode/score": 11.099999986588955}
+{"step": 328573, "episode/score": 7.099999986588955}
+{"step": 328639, "episode/score": 4.100000023841858}
+{"step": 328822, "episode/score": 7.099999986588955}
+{"step": 329122, "episode/score": 5.099999986588955}
+{"step": 329359, "episode/score": 8.099999986588955}
+{"step": 329509, "episode/score": 8.099999986588955}
+{"step": 329702, "episode/score": 7.099999986588955}
+{"step": 329951, "episode/score": 7.100000008940697}
+{"step": 330062, "episode/score": 7.099999986588955}
+{"step": 330309, "episode/score": 8.099999986588955}
+{"step": 330434, "episode/score": 9.099999986588955}
+{"step": 330618, "episode/score": 9.099999986588955}
+{"step": 330803, "episode/score": 4.099999986588955}
+{"step": 331222, "episode/score": 11.099999986588955}
+{"step": 331467, "episode/score": 10.100000008940697}
+{"step": 331629, "episode/score": 11.099999986588955}
+{"step": 331678, "episode/score": 3.0999999940395355}
+{"step": 331875, "episode/score": 7.099999986588955}
+{"step": 332087, "episode/score": 9.100000001490116}
+{"step": 332325, "episode/score": 11.099999986588955}
+{"step": 332448, "episode/score": 6.099999986588955}
+{"step": 332603, "episode/score": 6.099999986588955}
+{"step": 332778, "episode/score": 8.099999986588955}
+{"step": 332977, "episode/score": 11.100000001490116}
+{"step": 333131, "episode/score": 9.099999986588955}
+{"step": 333303, "episode/score": 10.099999986588955}
+{"step": 333499, "episode/score": 9.099999986588955}
+{"step": 333823, "episode/score": 9.099999986588955}
+{"step": 334080, "episode/score": 5.099999986588955}
+{"step": 334248, "episode/score": 7.099999986588955}
+{"step": 334457, "episode/score": 8.099999971687794}
+{"step": 334615, "episode/score": 8.099999986588955}
+{"step": 334787, "episode/score": 8.100000001490116}
+{"step": 334956, "episode/score": 10.099999994039536}
+{"step": 335186, "episode/score": 7.099999986588955}
+{"step": 335419, "episode/score": 9.099999986588955}
+{"step": 335659, "episode/score": 8.099999986588955}
+{"step": 335822, "episode/score": 10.099999986588955}
+{"step": 335932, "episode/score": 5.099999986588955}
+{"step": 336128, "episode/score": 5.099999986588955}
+{"step": 336548, "episode/score": 11.099999986588955}
+{"step": 336717, "episode/score": 7.099999986588955}
+{"step": 336840, "episode/score": 10.100000023841858}
+{"step": 337105, "episode/score": 11.099999986588955}
+{"step": 337152, "episode/score": 4.0999999940395355}
+{"step": 337302, "episode/score": 9.099999986588955}
+{"step": 337463, "episode/score": 8.100000001490116}
+{"step": 337627, "episode/score": 9.099999986588955}
+{"step": 337772, "episode/score": 9.099999986588955}
+{"step": 337927, "episode/score": 5.100000001490116}
+{"step": 338225, "episode/score": 10.099999986588955}
+{"step": 338524, "episode/score": 9.100000001490116}
+{"step": 338691, "episode/score": 8.100000008940697}
+{"step": 338884, "episode/score": 8.099999986588955}
+{"step": 339081, "episode/score": 8.100000016391277}
+{"step": 339297, "episode/score": 10.099999986588955}
+{"step": 339521, "episode/score": 10.099999986588955}
+{"step": 339615, "episode/score": 9.099999971687794}
+{"step": 339776, "episode/score": 9.099999986588955}
+{"step": 339974, "episode/score": 10.099999979138374}
+{"step": 340259, "episode/score": 11.099999986588955}
+{"step": 340400, "episode/score": 6.099999986588955}
+{"step": 340714, "episode/score": 8.099999979138374}
+{"step": 340862, "episode/score": 8.099999986588955}
+{"step": 341083, "episode/score": 11.100000001490116}
+{"step": 341334, "episode/score": 8.099999986588955}
+{"step": 341620, "episode/score": 10.099999986588955}
+{"step": 341780, "episode/score": 9.099999986588955}
+{"step": 341955, "episode/score": 7.100000008940697}
+{"step": 342169, "episode/score": 8.100000008940697}
+{"step": 342391, "episode/score": 7.099999986588955}
+{"step": 342663, "episode/score": 5.0999999940395355}
+{"step": 342848, "episode/score": 9.099999986588955}
+{"step": 343143, "episode/score": 10.099999986588955}
+{"step": 343410, "episode/score": 12.099999986588955}
+{"step": 343528, "episode/score": 9.099999986588955}
+{"step": 343685, "episode/score": 11.100000023841858}
+{"step": 343869, "episode/score": 6.100000008940697}
+{"step": 344126, "episode/score": 10.099999986588955}
+{"step": 344315, "episode/score": 9.099999986588955}
+{"step": 344442, "episode/score": 8.100000023841858}
+{"step": 344546, "episode/score": 9.100000023841858}
+{"step": 344721, "episode/score": 10.099999986588955}
+{"step": 344895, "episode/score": 9.099999986588955}
+{"step": 345124, "episode/score": 10.100000008940697}
+{"step": 345299, "episode/score": 11.100000023841858}
+{"step": 345491, "episode/score": 9.100000008940697}
+{"step": 345618, "episode/score": 8.100000023841858}
+{"step": 345817, "episode/score": 5.100000008940697}
+{"step": 346037, "episode/score": 12.099999986588955}
+{"step": 346201, "episode/score": 8.099999986588955}
+{"step": 346378, "episode/score": 11.099999986588955}
+{"step": 346528, "episode/score": 9.099999986588955}
+{"step": 346799, "episode/score": 10.099999986588955}
+{"step": 346990, "episode/score": 10.099999986588955}
+{"step": 347108, "episode/score": 8.099999986588955}
+{"step": 347500, "episode/score": 7.100000023841858}
+{"step": 347703, "episode/score": 7.099999986588955}
+{"step": 347885, "episode/score": 9.099999986588955}
+{"step": 348060, "episode/score": 10.100000008940697}
+{"step": 348163, "episode/score": 10.100000023841858}
+{"step": 348544, "episode/score": 11.099999986588955}
+{"step": 348727, "episode/score": 10.099999986588955}
+{"step": 348795, "episode/score": 7.100000023841858}
+{"step": 348949, "episode/score": 6.100000001490116}
+{"step": 349162, "episode/score": 10.100000001490116}
+{"step": 349356, "episode/score": 12.099999986588955}
+{"step": 349536, "episode/score": 10.100000001490116}
+{"step": 349822, "episode/score": 11.100000001490116}
+{"step": 349974, "episode/score": 11.100000023841858}
+{"step": 350411, "episode/score": 10.099999986588955}
+{"step": 350452, "episode/score": -0.9000000134110451}
+{"step": 350644, "episode/score": 11.099999986588955}
+{"step": 350800, "episode/score": 7.099999986588955}
+{"step": 350938, "episode/score": 6.100000023841858}
+{"step": 351085, "episode/score": 7.099999986588955}
+{"step": 351256, "episode/score": 10.099999971687794}
+{"step": 351313, "episode/score": 5.0999999940395355}
+{"step": 351482, "episode/score": 9.100000023841858}
+{"step": 351640, "episode/score": 9.099999986588955}
+{"step": 351836, "episode/score": 8.099999986588955}
+{"step": 352071, "episode/score": 10.099999986588955}
+{"step": 352248, "episode/score": 8.100000001490116}
+{"step": 352442, "episode/score": 11.099999986588955}
+{"step": 352710, "episode/score": 10.100000008940697}
+{"step": 352938, "episode/score": 11.100000016391277}
+{"step": 353226, "episode/score": 11.100000008940697}
+{"step": 353393, "episode/score": 9.099999986588955}
+{"step": 353600, "episode/score": 9.100000023841858}
+{"step": 353800, "episode/score": 10.100000023841858}
+{"step": 354207, "episode/score": 11.099999986588955}
+{"step": 354391, "episode/score": 10.099999986588955}
+{"step": 354478, "episode/score": 9.100000023841858}
+{"step": 354631, "episode/score": 8.099999986588955}
+{"step": 354881, "episode/score": 12.099999979138374}
+{"step": 355020, "episode/score": 8.099999986588955}
+{"step": 355342, "episode/score": 7.099999986588955}
+{"step": 355509, "episode/score": 7.099999986588955}
+{"step": 355676, "episode/score": 9.099999986588955}
+{"step": 355868, "episode/score": 8.100000008940697}
+{"step": 356097, "episode/score": 8.100000008940697}
+{"step": 356261, "episode/score": 10.099999986588955}
+{"step": 356539, "episode/score": 10.099999986588955}
+{"step": 356601, "episode/score": 4.099999986588955}
+{"step": 356825, "episode/score": 10.100000001490116}
+{"step": 357035, "episode/score": 7.100000008940697}
+{"step": 357189, "episode/score": 6.099999986588955}
+{"step": 357453, "episode/score": 8.100000008940697}
+{"step": 357607, "episode/score": 5.099999986588955}
+{"step": 357776, "episode/score": 9.099999986588955}
+{"step": 357920, "episode/score": 8.100000023841858}
+{"step": 358092, "episode/score": 10.099999971687794}
+{"step": 358562, "episode/score": 12.100000001490116}
+{"step": 358738, "episode/score": 9.099999986588955}
+{"step": 358917, "episode/score": 9.099999986588955}
+{"step": 359162, "episode/score": 11.099999986588955}
+{"step": 359331, "episode/score": 7.099999986588955}
+{"step": 359501, "episode/score": 10.100000023841858}
+{"step": 359672, "episode/score": 7.099999986588955}
+{"step": 359904, "episode/score": 11.099999986588955}
+{"step": 360064, "episode/score": 7.099999986588955}
+{"step": 360496, "episode/score": 11.099999986588955}
+{"step": 360679, "episode/score": 6.100000008940697}
+{"step": 360847, "episode/score": 9.099999986588955}
+{"step": 361018, "episode/score": 10.099999986588955}
+{"step": 361230, "episode/score": 11.099999986588955}
+{"step": 361351, "episode/score": 8.099999986588955}
+{"step": 361398, "episode/score": 3.1000000089406967}
+{"step": 361623, "episode/score": 11.099999986588955}
+{"step": 361800, "episode/score": 9.099999986588955}
+{"step": 361960, "episode/score": 10.100000008940697}
+{"step": 362081, "episode/score": 11.100000023841858}
+{"step": 362277, "episode/score": 9.099999986588955}
+{"step": 362482, "episode/score": 9.099999986588955}
+{"step": 362731, "episode/score": 10.100000008940697}
+{"step": 362915, "episode/score": 10.099999986588955}
+{"step": 363271, "episode/score": 9.099999979138374}
+{"step": 363472, "episode/score": 8.100000008940697}
+{"step": 363698, "episode/score": 9.099999986588955}
+{"step": 363953, "episode/score": 10.099999986588955}
+{"step": 364054, "episode/score": 8.100000023841858}
+{"step": 364192, "episode/score": 9.100000023841858}
+{"step": 364346, "episode/score": 10.099999986588955}
+{"step": 364573, "episode/score": 10.099999986588955}
+{"step": 364849, "episode/score": 9.099999986588955}
+{"step": 364996, "episode/score": 9.100000023841858}
+{"step": 365102, "episode/score": 10.099999986588955}
+{"step": 365346, "episode/score": 9.100000001490116}
+{"step": 365610, "episode/score": 10.099999986588955}
+{"step": 365786, "episode/score": 11.099999986588955}
+{"step": 365957, "episode/score": 6.099999986588955}
+{"step": 366108, "episode/score": 9.099999986588955}
+{"step": 366262, "episode/score": 10.100000016391277}
+{"step": 366471, "episode/score": 13.099999986588955}
+{"step": 366655, "episode/score": 10.099999986588955}
+{"step": 366905, "episode/score": 11.099999986588955}
+{"step": 366952, "episode/score": 4.099999986588955}
+{"step": 367148, "episode/score": 9.100000008940697}
+{"step": 367438, "episode/score": 11.100000001490116}
+{"step": 367676, "episode/score": 10.099999986588955}
+{"step": 367845, "episode/score": 8.099999986588955}
+{"step": 368091, "episode/score": 4.099999986588955}
+{"step": 368530, "episode/score": 10.099999986588955}
+{"step": 368731, "episode/score": 9.099999986588955}
+{"step": 368956, "episode/score": 10.099999986588955}
+{"step": 369139, "episode/score": 9.099999986588955}
+{"step": 369371, "episode/score": 8.099999986588955}
+{"step": 369676, "episode/score": 12.099999986588955}
+{"step": 369861, "episode/score": 8.099999986588955}
+{"step": 369962, "episode/score": 6.100000008940697}
+{"step": 370104, "episode/score": 10.100000023841858}
+{"step": 370535, "episode/score": 11.099999986588955}
+{"step": 370598, "episode/score": 6.099999971687794}
+{"step": 370871, "episode/score": 10.099999986588955}
+{"step": 371047, "episode/score": 10.099999986588955}
+{"step": 371320, "episode/score": 11.099999986588955}
+{"step": 371552, "episode/score": 10.099999994039536}
+{"step": 371767, "episode/score": 10.100000001490116}
+{"step": 371903, "episode/score": 9.100000001490116}
+{"step": 372117, "episode/score": 7.100000008940697}
+{"step": 372331, "episode/score": 9.099999986588955}
+{"step": 372544, "episode/score": 10.099999986588955}
+{"step": 372766, "episode/score": 11.099999986588955}
+{"step": 373013, "episode/score": 10.100000008940697}
+{"step": 373193, "episode/score": 10.100000001490116}
+{"step": 373478, "episode/score": 11.099999986588955}
+{"step": 373692, "episode/score": 8.100000008940697}
+{"step": 373845, "episode/score": 10.099999986588955}
+{"step": 373992, "episode/score": 8.099999986588955}
+{"step": 374243, "episode/score": 7.099999971687794}
+{"step": 374481, "episode/score": 9.100000008940697}
+{"step": 374618, "episode/score": 9.100000023841858}
+{"step": 374803, "episode/score": 10.099999986588955}
+{"step": 375161, "episode/score": 10.100000001490116}
+{"step": 375408, "episode/score": 11.099999979138374}
+{"step": 375629, "episode/score": 12.099999979138374}
+{"step": 375938, "episode/score": 12.099999986588955}
+{"step": 376118, "episode/score": 11.099999971687794}
+{"step": 376363, "episode/score": 10.100000008940697}
+{"step": 376515, "episode/score": 9.099999971687794}
+{"step": 376782, "episode/score": 12.099999986588955}
+{"step": 376976, "episode/score": 7.099999986588955}
+{"step": 377153, "episode/score": 11.100000001490116}
+{"step": 377353, "episode/score": 8.100000023841858}
+{"step": 377741, "episode/score": 10.099999986588955}
+{"step": 377831, "episode/score": 7.100000023841858}
+{"step": 377995, "episode/score": 6.099999986588955}
+{"step": 378277, "episode/score": 10.099999986588955}
+{"step": 378517, "episode/score": 10.099999994039536}
+{"step": 378770, "episode/score": 10.100000031292439}
+{"step": 379120, "episode/score": 11.099999986588955}
+{"step": 379399, "episode/score": 10.099999986588955}
+{"step": 379624, "episode/score": 13.099999986588955}
+{"step": 379723, "episode/score": 5.100000023841858}
+{"step": 379921, "episode/score": 8.100000008940697}
+{"step": 380086, "episode/score": 9.099999986588955}
+{"step": 380483, "episode/score": 12.099999986588955}
+{"step": 380678, "episode/score": 10.100000001490116}
+{"step": 380974, "episode/score": 10.099999986588955}
+{"step": 381194, "episode/score": 9.100000008940697}
+{"step": 381494, "episode/score": 12.099999986588955}
+{"step": 381735, "episode/score": 9.099999986588955}
+{"step": 381978, "episode/score": 8.100000008940697}
+{"step": 382218, "episode/score": 10.100000001490116}
+{"step": 382383, "episode/score": 9.100000008940697}
+{"step": 382654, "episode/score": 7.099999986588955}
+{"step": 383005, "episode/score": 11.099999986588955}
+{"step": 383201, "episode/score": 10.099999986588955}
+{"step": 383371, "episode/score": 8.100000023841858}
+{"step": 383577, "episode/score": 8.099999986588955}
+{"step": 383850, "episode/score": 11.099999986588955}
+{"step": 384021, "episode/score": 12.099999979138374}
+{"step": 384230, "episode/score": 10.099999986588955}
+{"step": 384432, "episode/score": 11.100000008940697}
+{"step": 384634, "episode/score": 5.100000008940697}
+{"step": 384816, "episode/score": 7.099999986588955}
+{"step": 385088, "episode/score": 11.100000008940697}
+{"step": 385259, "episode/score": 8.100000001490116}
+{"step": 385460, "episode/score": 8.100000008940697}
+{"step": 385661, "episode/score": 10.100000008940697}
+{"step": 385826, "episode/score": 9.099999986588955}
+{"step": 386014, "episode/score": 10.100000001490116}
+{"step": 386179, "episode/score": 7.100000008940697}
+{"step": 386240, "episode/score": 4.099999986588955}
+{"step": 386416, "episode/score": 7.099999986588955}
+{"step": 386598, "episode/score": 5.099999986588955}
+{"step": 386730, "episode/score": 10.099999986588955}
+{"step": 386885, "episode/score": 8.099999986588955}
+{"step": 387078, "episode/score": 11.100000008940697}
+{"step": 387278, "episode/score": 11.099999986588955}
+{"step": 387526, "episode/score": 10.099999986588955}
+{"step": 387585, "episode/score": 3.0999999716877937}
+{"step": 387765, "episode/score": 11.099999986588955}
+{"step": 387921, "episode/score": 7.100000023841858}
+{"step": 388088, "episode/score": 8.099999986588955}
+{"step": 388179, "episode/score": 7.100000008940697}
+{"step": 388364, "episode/score": 11.100000023841858}
+{"step": 388571, "episode/score": 10.099999986588955}
+{"step": 388712, "episode/score": 9.100000023841858}
+{"step": 388935, "episode/score": 9.100000023841858}
+{"step": 389148, "episode/score": 10.100000008940697}
+{"step": 389314, "episode/score": 7.099999986588955}
+{"step": 389518, "episode/score": 10.100000008940697}
+{"step": 389661, "episode/score": 3.099999986588955}
+{"step": 389833, "episode/score": 7.099999986588955}
+{"step": 390007, "episode/score": 9.099999986588955}
+{"step": 390181, "episode/score": 11.099999986588955}
+{"step": 390246, "episode/score": 3.0999999791383743}
+{"step": 390429, "episode/score": 10.099999986588955}
+{"step": 390599, "episode/score": 10.100000023841858}
+{"step": 390807, "episode/score": 11.099999994039536}
+{"step": 391178, "episode/score": 9.100000008940697}
+{"step": 391361, "episode/score": 10.099999986588955}
+{"step": 391511, "episode/score": 8.099999986588955}
+{"step": 391671, "episode/score": 9.099999986588955}
+{"step": 391905, "episode/score": 10.099999986588955}
+{"step": 392089, "episode/score": 11.100000023841858}
+{"step": 392258, "episode/score": 11.099999986588955}
+{"step": 392453, "episode/score": 5.100000008940697}
+{"step": 392750, "episode/score": 12.100000001490116}
+{"step": 392875, "episode/score": 8.100000008940697}
+{"step": 392966, "episode/score": 8.099999986588955}
+{"step": 393124, "episode/score": 10.100000023841858}
+{"step": 393386, "episode/score": 11.099999986588955}
+{"step": 393446, "episode/score": 4.099999971687794}
+{"step": 393589, "episode/score": 8.100000068545341}
+{"step": 393773, "episode/score": 7.099999986588955}
+{"step": 393833, "episode/score": 6.099999986588955}
+{"step": 394152, "episode/score": 11.099999986588955}
+{"step": 394352, "episode/score": 12.099999971687794}
+{"step": 394605, "episode/score": 10.100000001490116}
+{"step": 394782, "episode/score": 8.099999986588955}
+{"step": 394984, "episode/score": 10.100000008940697}
+{"step": 395234, "episode/score": 11.099999986588955}
+{"step": 395416, "episode/score": 10.099999986588955}
+{"step": 395808, "episode/score": 11.099999986588955}
+{"step": 395976, "episode/score": 10.100000008940697}
+{"step": 396153, "episode/score": 10.100000008940697}
+{"step": 396361, "episode/score": 10.099999986588955}
+{"step": 396491, "episode/score": 8.100000023841858}
+{"step": 396677, "episode/score": 9.100000023841858}
+{"step": 396787, "episode/score": 8.100000023841858}
+{"step": 396995, "episode/score": 8.100000008940697}
+{"step": 397271, "episode/score": 9.100000008940697}
+{"step": 397477, "episode/score": 10.099999986588955}
+{"step": 397669, "episode/score": 8.099999986588955}
+{"step": 397848, "episode/score": 10.100000023841858}
+{"step": 398048, "episode/score": 6.100000008940697}
+{"step": 398198, "episode/score": 11.100000001490116}
+{"step": 398419, "episode/score": 10.099999986588955}
+{"step": 398599, "episode/score": 10.099999986588955}
+{"step": 398812, "episode/score": 12.099999971687794}
+{"step": 398976, "episode/score": 9.099999986588955}
+{"step": 399404, "episode/score": 11.099999986588955}
+{"step": 399548, "episode/score": 9.100000023841858}
+{"step": 399734, "episode/score": 10.099999964237213}
+{"step": 399927, "episode/score": 10.100000008940697}
+{"step": 400098, "episode/score": 9.099999986588955}
+{"step": 400280, "episode/score": 9.099999986588955}
+{"step": 400439, "episode/score": 8.099999986588955}
+{"step": 400701, "episode/score": 11.100000023841858}
+{"step": 400877, "episode/score": 9.099999986588955}
+{"step": 401081, "episode/score": 7.100000001490116}
+{"step": 401292, "episode/score": 6.099999986588955}
+{"step": 401441, "episode/score": 7.099999986588955}
+{"step": 401669, "episode/score": 8.099999986588955}
+{"step": 402097, "episode/score": 8.099999986588955}
+{"step": 402249, "episode/score": 10.099999986588955}
+{"step": 402293, "episode/score": 4.100000001490116}
+{"step": 402439, "episode/score": 9.100000001490116}
+{"step": 402640, "episode/score": 11.099999986588955}
+{"step": 402795, "episode/score": 7.100000023841858}
+{"step": 403063, "episode/score": 8.099999986588955}
+{"step": 403215, "episode/score": 8.099999986588955}
+{"step": 403395, "episode/score": 10.100000008940697}
+{"step": 403570, "episode/score": 9.099999986588955}
+{"step": 403757, "episode/score": 11.099999986588955}
+{"step": 403986, "episode/score": 10.099999986588955}
+{"step": 404129, "episode/score": 9.099999949336052}
+{"step": 404425, "episode/score": 11.099999986588955}
+{"step": 404644, "episode/score": 11.099999986588955}
+{"step": 405260, "episode/score": 9.099999986588955}
+{"step": 405555, "episode/score": 10.099999986588955}
+{"step": 405949, "episode/score": 8.099999986588955}
+{"step": 406005, "episode/score": 5.099999986588955}
+{"step": 406305, "episode/score": 12.099999986588955}
+{"step": 406471, "episode/score": 9.099999986588955}
+{"step": 406641, "episode/score": 9.100000001490116}
+{"step": 406804, "episode/score": 10.099999994039536}
+{"step": 406968, "episode/score": 9.100000008940697}
+{"step": 407119, "episode/score": 8.099999986588955}
+{"step": 407314, "episode/score": 12.099999986588955}
+{"step": 407573, "episode/score": 11.099999979138374}
+{"step": 407754, "episode/score": 5.099999986588955}
+{"step": 407880, "episode/score": 7.100000023841858}
+{"step": 408048, "episode/score": 11.099999979138374}
+{"step": 408214, "episode/score": 10.100000023841858}
+{"step": 408369, "episode/score": 9.099999986588955}
+{"step": 408445, "episode/score": 4.100000001490116}
+{"step": 408704, "episode/score": 7.099999986588955}
+{"step": 408889, "episode/score": 8.100000031292439}
+{"step": 409039, "episode/score": 9.100000023841858}
+{"step": 409237, "episode/score": 7.099999971687794}
+{"step": 409405, "episode/score": 8.099999986588955}
+{"step": 409829, "episode/score": 11.099999986588955}
+{"step": 409882, "episode/score": 2.0999999940395355}
+{"step": 410045, "episode/score": 10.100000023841858}
+{"step": 410250, "episode/score": 10.099999986588955}
+{"step": 410426, "episode/score": 11.100000023841858}
+{"step": 410730, "episode/score": 10.099999979138374}
+{"step": 410898, "episode/score": 9.099999986588955}
+{"step": 411072, "episode/score": 11.099999986588955}
+{"step": 411243, "episode/score": 8.099999986588955}
+{"step": 411411, "episode/score": 10.099999986588955}
+{"step": 411617, "episode/score": 9.099999986588955}
+{"step": 411858, "episode/score": 11.099999986588955}
+{"step": 412313, "episode/score": 12.099999986588955}
+{"step": 412490, "episode/score": 9.100000001490116}
+{"step": 412693, "episode/score": 10.100000008940697}
+{"step": 412903, "episode/score": 11.099999986588955}
+{"step": 413049, "episode/score": 10.099999986588955}
+{"step": 413232, "episode/score": 8.099999986588955}
+{"step": 413442, "episode/score": 12.099999986588955}
+{"step": 413622, "episode/score": 9.100000008940697}
+{"step": 413799, "episode/score": 10.100000008940697}
+{"step": 413851, "episode/score": 3.099999986588955}
+{"step": 414030, "episode/score": 10.099999986588955}
+{"step": 414233, "episode/score": 11.099999986588955}
+{"step": 414417, "episode/score": 7.099999986588955}
+{"step": 414607, "episode/score": 11.100000008940697}
+{"step": 414811, "episode/score": 10.099999986588955}
+{"step": 414988, "episode/score": 11.099999986588955}
+{"step": 415195, "episode/score": 10.099999986588955}
+{"step": 415376, "episode/score": 9.099999986588955}
+{"step": 415688, "episode/score": 10.099999986588955}
+{"step": 415871, "episode/score": 9.099999986588955}
+{"step": 416028, "episode/score": 10.100000023841858}
+{"step": 416199, "episode/score": 6.099999986588955}
+{"step": 416467, "episode/score": 9.099999986588955}
+{"step": 416667, "episode/score": 11.100000008940697}
+{"step": 416851, "episode/score": 10.099999986588955}
+{"step": 417050, "episode/score": 11.099999964237213}
+{"step": 417232, "episode/score": 13.100000001490116}
+{"step": 417380, "episode/score": 10.100000023841858}
+{"step": 417532, "episode/score": 7.099999986588955}
+{"step": 417589, "episode/score": 6.099999986588955}
+{"step": 417796, "episode/score": 10.099999986588955}
+{"step": 417837, "episode/score": 3.0999999716877937}
+{"step": 418015, "episode/score": 9.100000031292439}
+{"step": 418244, "episode/score": 11.099999979138374}
+{"step": 418404, "episode/score": 11.100000001490116}
+{"step": 418684, "episode/score": 10.099999986588955}
+{"step": 419004, "episode/score": 11.099999986588955}
+{"step": 419062, "episode/score": 1.099999986588955}
+{"step": 419232, "episode/score": 9.099999986588955}
+{"step": 419384, "episode/score": 7.099999986588955}
+{"step": 419638, "episode/score": 12.100000001490116}
+{"step": 419806, "episode/score": 11.099999986588955}
+{"step": 420112, "episode/score": 12.099999986588955}
+{"step": 420351, "episode/score": 11.099999986588955}
+{"step": 420546, "episode/score": 10.100000008940697}
+{"step": 420716, "episode/score": 6.099999986588955}
+{"step": 420928, "episode/score": 8.099999986588955}
+{"step": 421162, "episode/score": 10.099999986588955}
+{"step": 421349, "episode/score": 8.100000008940697}
+{"step": 421595, "episode/score": 10.100000001490116}
+{"step": 421753, "episode/score": 9.099999986588955}
+{"step": 421940, "episode/score": 9.099999986588955}
+{"step": 422102, "episode/score": 8.100000001490116}
+{"step": 422270, "episode/score": 9.100000023841858}
+{"step": 422412, "episode/score": 9.100000008940697}
+{"step": 422582, "episode/score": 10.099999986588955}
+{"step": 422806, "episode/score": 11.099999986588955}
+{"step": 423028, "episode/score": 11.099999986588955}
+{"step": 423225, "episode/score": 11.100000008940697}
+{"step": 423380, "episode/score": 10.099999986588955}
+{"step": 423637, "episode/score": 10.099999986588955}
+{"step": 423835, "episode/score": 10.099999994039536}
+{"step": 423997, "episode/score": 11.100000008940697}
+{"step": 424166, "episode/score": 12.099999986588955}
+{"step": 424388, "episode/score": 11.099999994039536}
+{"step": 424558, "episode/score": 10.100000001490116}
+{"step": 424764, "episode/score": 11.099999986588955}
+{"step": 424932, "episode/score": 9.100000008940697}
+{"step": 425128, "episode/score": 10.099999986588955}
+{"step": 425321, "episode/score": 8.099999986588955}
+{"step": 425494, "episode/score": 11.099999986588955}
+{"step": 425542, "episode/score": 6.099999986588955}
+{"step": 425920, "episode/score": 11.099999979138374}
+{"step": 426076, "episode/score": 10.099999986588955}
+{"step": 426243, "episode/score": 11.100000023841858}
+{"step": 426566, "episode/score": 12.099999979138374}
+{"step": 426913, "episode/score": 11.099999986588955}
+{"step": 427101, "episode/score": 11.099999979138374}
+{"step": 427259, "episode/score": 5.099999986588955}
+{"step": 427320, "episode/score": 6.100000023841858}
+{"step": 427495, "episode/score": 7.099999986588955}
+{"step": 427747, "episode/score": 11.100000001490116}
+{"step": 427944, "episode/score": 11.099999986588955}
+{"step": 428146, "episode/score": 10.100000008940697}
+{"step": 428450, "episode/score": 12.099999986588955}
+{"step": 428590, "episode/score": 8.099999986588955}
+{"step": 428741, "episode/score": 8.099999986588955}
+{"step": 428919, "episode/score": 12.099999986588955}
+{"step": 429087, "episode/score": 9.100000023841858}
+{"step": 429499, "episode/score": 12.100000016391277}
+{"step": 429839, "episode/score": 11.099999986588955}
+{"step": 429969, "episode/score": 9.099999986588955}
+{"step": 430173, "episode/score": 11.099999986588955}
+{"step": 430305, "episode/score": 10.100000023841858}
+{"step": 430346, "episode/score": 4.100000023841858}
+{"step": 430688, "episode/score": 7.099999986588955}
+{"step": 431130, "episode/score": 11.099999986588955}
+{"step": 431338, "episode/score": 10.100000008940697}
+{"step": 431383, "episode/score": 6.099999986588955}
+{"step": 431554, "episode/score": 9.099999986588955}
+{"step": 431803, "episode/score": 9.099999986588955}
+{"step": 432013, "episode/score": 9.099999986588955}
+{"step": 432281, "episode/score": 11.099999986588955}
+{"step": 432336, "episode/score": 6.099999986588955}
+{"step": 432610, "episode/score": 10.099999986588955}
+{"step": 432813, "episode/score": 10.099999986588955}
+{"step": 432928, "episode/score": 9.100000023841858}
+{"step": 433442, "episode/score": 12.099999986588955}
+{"step": 433653, "episode/score": 8.100000008940697}
+{"step": 433817, "episode/score": 8.099999979138374}
+{"step": 433984, "episode/score": 10.100000001490116}
+{"step": 434148, "episode/score": 10.099999986588955}
+{"step": 434329, "episode/score": 9.099999986588955}
+{"step": 434504, "episode/score": 8.100000008940697}
+{"step": 434790, "episode/score": 10.099999986588955}
+{"step": 435076, "episode/score": 10.099999986588955}
+{"step": 435318, "episode/score": 11.100000008940697}
+{"step": 435628, "episode/score": 9.100000008940697}
+{"step": 435749, "episode/score": 9.100000023841858}
+{"step": 436047, "episode/score": 11.099999986588955}
+{"step": 436179, "episode/score": 10.100000023841858}
+{"step": 436351, "episode/score": 8.100000023841858}
+{"step": 436549, "episode/score": 8.099999979138374}
+{"step": 436754, "episode/score": 10.099999986588955}
+{"step": 436951, "episode/score": 7.0999999940395355}
+{"step": 437094, "episode/score": 9.099999986588955}
+{"step": 437344, "episode/score": 10.099999986588955}
+{"step": 437643, "episode/score": 8.099999986588955}
+{"step": 437959, "episode/score": 8.099999979138374}
+{"step": 438141, "episode/score": 10.100000001490116}
+{"step": 438462, "episode/score": 13.100000008940697}
+{"step": 438607, "episode/score": 9.099999986588955}
+{"step": 438768, "episode/score": 4.099999986588955}
+{"step": 438979, "episode/score": 8.099999986588955}
+{"step": 439128, "episode/score": 9.100000023841858}
+{"step": 439357, "episode/score": 12.099999986588955}
+{"step": 439796, "episode/score": 11.099999986588955}
+{"step": 439977, "episode/score": 10.099999964237213}
+{"step": 440264, "episode/score": 11.100000008940697}
+{"step": 440453, "episode/score": 7.099999986588955}
+{"step": 440673, "episode/score": 12.100000008940697}
+{"step": 440751, "episode/score": 8.100000023841858}
+{"step": 440960, "episode/score": 11.100000031292439}
+{"step": 441124, "episode/score": 9.099999986588955}
+{"step": 441227, "episode/score": 7.100000001490116}
+{"step": 441403, "episode/score": 9.099999979138374}
+{"step": 441626, "episode/score": 11.100000008940697}
+{"step": 441823, "episode/score": 10.099999986588955}
+{"step": 442076, "episode/score": 9.099999986588955}
+{"step": 442238, "episode/score": 10.099999986588955}
+{"step": 442530, "episode/score": 10.099999979138374}
+{"step": 442723, "episode/score": 6.100000008940697}
+{"step": 442908, "episode/score": 9.099999986588955}
+{"step": 443074, "episode/score": 8.100000001490116}
+{"step": 443243, "episode/score": 7.099999986588955}
+{"step": 443395, "episode/score": 9.099999986588955}
+{"step": 443525, "episode/score": 11.099999986588955}
+{"step": 443747, "episode/score": 12.100000023841858}
+{"step": 443885, "episode/score": 6.099999986588955}
+{"step": 444121, "episode/score": 12.099999986588955}
+{"step": 444357, "episode/score": 8.099999986588955}
+{"step": 444729, "episode/score": 10.099999986588955}
+{"step": 444876, "episode/score": 11.100000001490116}
+{"step": 445045, "episode/score": 5.099999986588955}
+{"step": 445161, "episode/score": 10.099999971687794}
+{"step": 445372, "episode/score": 8.099999986588955}
+{"step": 445587, "episode/score": 8.099999986588955}
+{"step": 445635, "episode/score": 2.0999999940395355}
+{"step": 445924, "episode/score": 8.099999986588955}
+{"step": 446185, "episode/score": 11.099999986588955}
+{"step": 446408, "episode/score": 11.099999986588955}
+{"step": 446537, "episode/score": 9.100000023841858}
+{"step": 446760, "episode/score": 11.100000008940697}
+{"step": 446802, "episode/score": 3.099999964237213}
+{"step": 446986, "episode/score": 10.099999986588955}
+{"step": 447140, "episode/score": 9.100000023841858}
+{"step": 447401, "episode/score": 11.099999986588955}
+{"step": 447602, "episode/score": 9.099999986588955}
+{"step": 447792, "episode/score": 10.099999986588955}
+{"step": 447971, "episode/score": 8.099999986588955}
+{"step": 448321, "episode/score": 11.099999979138374}
+{"step": 448525, "episode/score": 10.099999986588955}
+{"step": 448686, "episode/score": 6.099999986588955}
+{"step": 448814, "episode/score": 10.099999986588955}
+{"step": 448996, "episode/score": 10.099999986588955}
+{"step": 449157, "episode/score": 7.099999986588955}
+{"step": 449388, "episode/score": 13.099999986588955}
+{"step": 449546, "episode/score": 10.100000001490116}
+{"step": 449783, "episode/score": 9.099999986588955}
+{"step": 449951, "episode/score": 8.100000001490116}
+{"step": 450341, "episode/score": 11.100000001490116}
+{"step": 450539, "episode/score": 11.100000008940697}
+{"step": 450732, "episode/score": 11.099999986588955}
+{"step": 450909, "episode/score": 8.100000016391277}
+{"step": 451318, "episode/score": 10.099999986588955}
+{"step": 451535, "episode/score": 9.099999986588955}
+{"step": 451773, "episode/score": 11.100000001490116}
+{"step": 451869, "episode/score": 8.100000023841858}
+{"step": 452302, "episode/score": 11.099999986588955}
+{"step": 452480, "episode/score": 10.100000008940697}
+{"step": 452680, "episode/score": 10.099999986588955}
+{"step": 452866, "episode/score": 10.099999986588955}
+{"step": 453053, "episode/score": 10.100000023841858}
+{"step": 453254, "episode/score": 10.100000023841858}
+{"step": 453379, "episode/score": 12.100000023841858}
+{"step": 453534, "episode/score": 8.099999986588955}
+{"step": 453714, "episode/score": 8.099999986588955}
+{"step": 453893, "episode/score": 10.100000001490116}
+{"step": 454150, "episode/score": 9.099999986588955}
+{"step": 454358, "episode/score": 8.100000008940697}
+{"step": 454524, "episode/score": 12.099999964237213}
+{"step": 454666, "episode/score": 9.099999986588955}
+{"step": 454867, "episode/score": 10.099999986588955}
+{"step": 455037, "episode/score": 11.099999986588955}
+{"step": 455225, "episode/score": 11.100000008940697}
+{"step": 455467, "episode/score": 8.100000001490116}
+{"step": 455697, "episode/score": 11.099999986588955}
+{"step": 455904, "episode/score": 10.100000008940697}
+{"step": 456083, "episode/score": 9.099999986588955}
+{"step": 456250, "episode/score": 10.099999986588955}
+{"step": 456438, "episode/score": 10.100000008940697}
+{"step": 456614, "episode/score": 9.100000023841858}
+{"step": 456677, "episode/score": 4.100000008940697}
+{"step": 456889, "episode/score": 12.099999986588955}
+{"step": 457056, "episode/score": 10.100000001490116}
+{"step": 457231, "episode/score": 11.099999986588955}
+{"step": 457424, "episode/score": 8.099999986588955}
+{"step": 457690, "episode/score": 8.099999986588955}
+{"step": 457891, "episode/score": 8.100000008940697}
+{"step": 458064, "episode/score": 6.099999986588955}
+{"step": 458321, "episode/score": 12.100000008940697}
+{"step": 458506, "episode/score": 10.099999986588955}
+{"step": 458670, "episode/score": 5.099999986588955}
+{"step": 458819, "episode/score": 10.100000008940697}
+{"step": 459238, "episode/score": 8.099999986588955}
+{"step": 459558, "episode/score": 12.100000001490116}
+{"step": 459896, "episode/score": 11.099999986588955}
+{"step": 460048, "episode/score": 7.099999986588955}
+{"step": 460325, "episode/score": 11.100000031292439}
+{"step": 460562, "episode/score": 6.099999986588955}
+{"step": 460730, "episode/score": 10.099999986588955}
+{"step": 460906, "episode/score": 11.099999986588955}
+{"step": 461329, "episode/score": 12.099999986588955}
+{"step": 461562, "episode/score": 11.099999986588955}
+{"step": 461726, "episode/score": 10.099999986588955}
+{"step": 461892, "episode/score": 12.099999986588955}
+{"step": 462137, "episode/score": 10.099999986588955}
+{"step": 462362, "episode/score": 12.100000001490116}
+{"step": 462520, "episode/score": 8.099999994039536}
+{"step": 462678, "episode/score": 10.100000001490116}
+{"step": 462857, "episode/score": 11.099999971687794}
+{"step": 463018, "episode/score": 11.099999986588955}
+{"step": 463212, "episode/score": 10.099999986588955}
+{"step": 463445, "episode/score": 11.100000001490116}
+{"step": 463590, "episode/score": 10.099999964237213}
+{"step": 463808, "episode/score": 12.099999986588955}
+{"step": 464001, "episode/score": 11.099999986588955}
+{"step": 464392, "episode/score": 11.100000023841858}
+{"step": 464593, "episode/score": 10.099999986588955}
+{"step": 464795, "episode/score": 7.099999986588955}
+{"step": 464984, "episode/score": 9.099999986588955}
+{"step": 465044, "episode/score": 6.100000008940697}
+{"step": 465240, "episode/score": 13.099999986588955}
+{"step": 465421, "episode/score": 11.099999986588955}
+{"step": 465654, "episode/score": 10.100000008940697}
+{"step": 465824, "episode/score": 10.100000023841858}
+{"step": 466057, "episode/score": 11.099999986588955}
+{"step": 466279, "episode/score": 5.099999986588955}
+{"step": 466422, "episode/score": 10.099999986588955}
+{"step": 466479, "episode/score": 5.099999971687794}
+{"step": 466812, "episode/score": 10.099999986588955}
+{"step": 467031, "episode/score": 8.100000008940697}
+{"step": 467198, "episode/score": 12.099999986588955}
+{"step": 467358, "episode/score": 8.099999986588955}
+{"step": 467548, "episode/score": 10.099999986588955}
+{"step": 467682, "episode/score": 9.100000023841858}
+{"step": 467944, "episode/score": 12.100000001490116}
+{"step": 468003, "episode/score": 6.099999971687794}
+{"step": 468362, "episode/score": 11.099999986588955}
+{"step": 468556, "episode/score": 11.099999964237213}
+{"step": 468743, "episode/score": 11.099999986588955}
+{"step": 468995, "episode/score": 10.099999986588955}
+{"step": 469194, "episode/score": 11.099999986588955}
+{"step": 469313, "episode/score": 9.100000023841858}
+{"step": 469524, "episode/score": 11.099999971687794}
+{"step": 469585, "episode/score": 4.100000008940697}
+{"step": 469761, "episode/score": 10.100000001490116}
+{"step": 469915, "episode/score": 6.099999986588955}
+{"step": 469965, "episode/score": 3.099999986588955}
+{"step": 470142, "episode/score": 7.099999986588955}
+{"step": 470409, "episode/score": 10.100000016391277}
+{"step": 470565, "episode/score": 11.100000008940697}
+{"step": 470885, "episode/score": 10.099999986588955}
+{"step": 471088, "episode/score": 10.099999986588955}
+{"step": 471275, "episode/score": 12.099999971687794}
+{"step": 471404, "episode/score": 9.099999986588955}
+{"step": 471581, "episode/score": 12.100000016391277}
+{"step": 471745, "episode/score": 9.099999986588955}
+{"step": 471810, "episode/score": 2.099999986588955}
+{"step": 472050, "episode/score": 11.099999986588955}
+{"step": 472262, "episode/score": 12.099999986588955}
+{"step": 472434, "episode/score": 10.099999986588955}
+{"step": 472617, "episode/score": 11.099999986588955}
+{"step": 472954, "episode/score": 11.099999986588955}
+{"step": 473132, "episode/score": 10.099999994039536}
+{"step": 473419, "episode/score": 7.099999986588955}
+{"step": 473632, "episode/score": 11.099999986588955}
+{"step": 473691, "episode/score": 4.099999986588955}
+{"step": 473932, "episode/score": 11.100000001490116}
+{"step": 474110, "episode/score": 10.099999986588955}
+{"step": 474325, "episode/score": 8.099999986588955}
+{"step": 474391, "episode/score": 7.099999971687794}
+{"step": 474460, "episode/score": 5.100000008940697}
+{"step": 474682, "episode/score": 9.099999986588955}
+{"step": 474901, "episode/score": 10.100000001490116}
+{"step": 475180, "episode/score": 10.099999979138374}
+{"step": 475344, "episode/score": 10.100000008940697}
+{"step": 475508, "episode/score": 6.100000008940697}
+{"step": 475716, "episode/score": 10.1000000461936}
+{"step": 475771, "episode/score": 3.099999986588955}
+{"step": 476054, "episode/score": 8.099999986588955}
+{"step": 476262, "episode/score": 12.100000001490116}
+{"step": 476424, "episode/score": 9.100000023841858}
+{"step": 476491, "episode/score": 4.100000001490116}
+{"step": 476781, "episode/score": 13.100000001490116}
+{"step": 477022, "episode/score": 10.100000001490116}
+{"step": 477081, "episode/score": 4.099999971687794}
+{"step": 477289, "episode/score": 9.100000008940697}
+{"step": 477508, "episode/score": 8.100000008940697}
+{"step": 477822, "episode/score": 9.099999986588955}
+{"step": 478002, "episode/score": 7.099999986588955}
+{"step": 478164, "episode/score": 9.100000001490116}
+{"step": 478374, "episode/score": 11.099999986588955}
+{"step": 478632, "episode/score": 9.099999986588955}
+{"step": 478807, "episode/score": 10.099999986588955}
+{"step": 479040, "episode/score": 7.100000008940697}
+{"step": 479205, "episode/score": 9.099999986588955}
+{"step": 479377, "episode/score": 9.099999986588955}
+{"step": 479453, "episode/score": 5.100000008940697}
+{"step": 479664, "episode/score": 8.099999986588955}
+{"step": 479830, "episode/score": 9.099999986588955}
+{"step": 480045, "episode/score": 11.100000008940697}
+{"step": 480227, "episode/score": 12.100000001490116}
+{"step": 480394, "episode/score": 7.099999986588955}
+{"step": 480648, "episode/score": 8.100000008940697}
+{"step": 480810, "episode/score": 8.100000001490116}
+{"step": 481018, "episode/score": 11.099999986588955}
+{"step": 481154, "episode/score": 9.100000001490116}
+{"step": 481437, "episode/score": 11.100000001490116}
+{"step": 481642, "episode/score": 12.099999971687794}
+{"step": 481890, "episode/score": 12.099999986588955}
+{"step": 482061, "episode/score": 9.099999986588955}
+{"step": 482309, "episode/score": 11.099999986588955}
+{"step": 482441, "episode/score": 11.100000008940697}
+{"step": 482674, "episode/score": 7.100000008940697}
+{"step": 482832, "episode/score": 9.099999986588955}
+{"step": 482986, "episode/score": 11.099999986588955}
+{"step": 483173, "episode/score": 11.099999979138374}
+{"step": 483338, "episode/score": 11.100000016391277}
+{"step": 483648, "episode/score": 11.099999986588955}
+{"step": 483710, "episode/score": 4.099999971687794}
+{"step": 484124, "episode/score": 10.099999986588955}
+{"step": 484294, "episode/score": 11.099999986588955}
+{"step": 484477, "episode/score": 11.099999986588955}
+{"step": 484631, "episode/score": 9.099999986588955}
+{"step": 484807, "episode/score": 8.099999986588955}
+{"step": 485017, "episode/score": 11.099999986588955}
+{"step": 485430, "episode/score": 9.100000008940697}
+{"step": 485607, "episode/score": 10.100000001490116}
+{"step": 485812, "episode/score": 10.099999986588955}
+{"step": 485968, "episode/score": 9.099999986588955}
+{"step": 486130, "episode/score": 11.100000008940697}
+{"step": 486171, "episode/score": 6.100000001490116}
+{"step": 486470, "episode/score": 13.099999986588955}
+{"step": 486688, "episode/score": 6.100000008940697}
+{"step": 486898, "episode/score": 11.100000008940697}
+{"step": 487063, "episode/score": 10.099999971687794}
+{"step": 487340, "episode/score": 12.099999986588955}
+{"step": 487636, "episode/score": 8.099999986588955}
+{"step": 487800, "episode/score": 7.099999986588955}
+{"step": 487969, "episode/score": 12.099999986588955}
+{"step": 488188, "episode/score": 11.099999986588955}
+{"step": 488394, "episode/score": 10.100000016391277}
+{"step": 488582, "episode/score": 11.099999986588955}
+{"step": 489002, "episode/score": 11.099999986588955}
+{"step": 489050, "episode/score": 3.1000000163912773}
+{"step": 489271, "episode/score": 4.100000001490116}
+{"step": 489427, "episode/score": 10.100000001490116}
+{"step": 489867, "episode/score": 11.099999986588955}
+{"step": 490077, "episode/score": 11.099999971687794}
+{"step": 490230, "episode/score": 10.100000001490116}
+{"step": 490641, "episode/score": 12.099999986588955}
+{"step": 490770, "episode/score": 7.100000023841858}
+{"step": 490969, "episode/score": 10.099999971687794}
+{"step": 491028, "episode/score": 5.099999986588955}
+{"step": 491281, "episode/score": 9.100000023841858}
+{"step": 491538, "episode/score": 10.100000008940697}
+{"step": 491667, "episode/score": 7.100000023841858}
+{"step": 491863, "episode/score": 10.099999986588955}
+{"step": 492091, "episode/score": 11.099999986588955}
+{"step": 492260, "episode/score": 11.099999986588955}
+{"step": 492473, "episode/score": 11.099999986588955}
+{"step": 492833, "episode/score": 13.100000008940697}
+{"step": 493009, "episode/score": 10.099999986588955}
+{"step": 493166, "episode/score": 10.100000008940697}
+{"step": 493334, "episode/score": 9.099999986588955}
+{"step": 493466, "episode/score": 9.099999986588955}
+{"step": 493674, "episode/score": 9.099999994039536}
+{"step": 493932, "episode/score": 11.099999986588955}
+{"step": 494214, "episode/score": 12.099999986588955}
+{"step": 494416, "episode/score": 11.100000008940697}
+{"step": 494510, "episode/score": 9.100000023841858}
+{"step": 494713, "episode/score": 10.099999986588955}
+{"step": 494933, "episode/score": 10.099999986588955}
+{"step": 495032, "episode/score": 8.100000008940697}
+{"step": 495533, "episode/score": 11.099999986588955}
+{"step": 495701, "episode/score": 10.099999986588955}
+{"step": 495865, "episode/score": 7.099999986588955}
+{"step": 496088, "episode/score": 10.099999986588955}
+{"step": 496398, "episode/score": 13.099999986588955}
+{"step": 496542, "episode/score": 9.099999986588955}
+{"step": 496819, "episode/score": 12.099999986588955}
+{"step": 497030, "episode/score": 7.099999986588955}
+{"step": 497191, "episode/score": 10.099999986588955}
+{"step": 497382, "episode/score": 10.099999986588955}
+{"step": 497569, "episode/score": 9.099999986588955}
+{"step": 497724, "episode/score": 4.099999986588955}
+{"step": 497898, "episode/score": 5.099999986588955}
+{"step": 498104, "episode/score": 11.100000008940697}
+{"step": 498324, "episode/score": 11.100000008940697}
+{"step": 498387, "episode/score": 6.099999986588955}
+{"step": 498569, "episode/score": 9.100000001490116}
+{"step": 498820, "episode/score": 10.099999986588955}
+{"step": 498998, "episode/score": 5.100000008940697}
+{"step": 499316, "episode/score": 12.100000001490116}
+{"step": 499639, "episode/score": 12.100000001490116}
+{"step": 499874, "episode/score": 12.100000001490116}
+{"step": 500173, "episode/score": 11.099999986588955}
+{"step": 500383, "episode/score": 7.100000008940697}
+{"step": 500596, "episode/score": 11.100000001490116}
+{"step": 500743, "episode/score": 11.099999986588955}
+{"step": 500920, "episode/score": 10.099999986588955}
+{"step": 501094, "episode/score": 9.099999986588955}
+{"step": 501283, "episode/score": 12.100000008940697}
+{"step": 501370, "episode/score": 7.100000023841858}
+{"step": 501411, "episode/score": 3.099999986588955}
+{"step": 501641, "episode/score": 11.100000023841858}
+{"step": 501882, "episode/score": 10.100000001490116}
+{"step": 502092, "episode/score": 9.100000008940697}
+{"step": 502410, "episode/score": 10.099999986588955}
+{"step": 502572, "episode/score": 9.100000008940697}
+{"step": 502753, "episode/score": 10.099999986588955}
+{"step": 503090, "episode/score": 10.099999964237213}
+{"step": 503278, "episode/score": 10.099999986588955}
+{"step": 503565, "episode/score": 9.099999994039536}
+{"step": 503839, "episode/score": 9.099999986588955}
+{"step": 504132, "episode/score": 8.100000008940697}
+{"step": 504381, "episode/score": 8.099999986588955}
+{"step": 504578, "episode/score": 9.099999986588955}
+{"step": 504737, "episode/score": 9.099999986588955}
+{"step": 504906, "episode/score": 11.100000001490116}
+{"step": 505251, "episode/score": 12.099999986588955}
+{"step": 505456, "episode/score": 11.099999986588955}
+{"step": 505662, "episode/score": 12.099999986588955}
+{"step": 505939, "episode/score": 10.099999986588955}
+{"step": 506135, "episode/score": 11.100000001490116}
+{"step": 506317, "episode/score": 12.099999986588955}
+{"step": 506620, "episode/score": 12.099999986588955}
+{"step": 506700, "episode/score": 8.100000023841858}
+{"step": 506765, "episode/score": 7.100000008940697}
+{"step": 506987, "episode/score": 8.100000001490116}
+{"step": 507112, "episode/score": 8.099999986588955}
+{"step": 507417, "episode/score": 11.099999986588955}
+{"step": 507505, "episode/score": 8.100000023841858}
+{"step": 507830, "episode/score": 10.099999971687794}
+{"step": 508067, "episode/score": 8.100000023841858}
+{"step": 508247, "episode/score": 10.099999986588955}
+{"step": 508435, "episode/score": 9.099999986588955}
+{"step": 508617, "episode/score": 12.100000001490116}
+{"step": 508812, "episode/score": 11.099999986588955}
+{"step": 509079, "episode/score": 9.099999971687794}
+{"step": 509270, "episode/score": 11.099999986588955}
+{"step": 509480, "episode/score": 10.100000008940697}
+{"step": 509785, "episode/score": 13.099999986588955}
+{"step": 510040, "episode/score": 11.099999986588955}
+{"step": 510245, "episode/score": 11.099999986588955}
+{"step": 510503, "episode/score": 10.100000023841858}
+{"step": 510692, "episode/score": 12.099999986588955}
+{"step": 510863, "episode/score": 10.099999986588955}
+{"step": 511152, "episode/score": 11.099999986588955}
+{"step": 511418, "episode/score": 11.100000008940697}
+{"step": 511596, "episode/score": 12.099999986588955}
+{"step": 511783, "episode/score": 12.099999986588955}
+{"step": 512034, "episode/score": 10.099999986588955}
+{"step": 512216, "episode/score": 11.099999986588955}
+{"step": 512338, "episode/score": 9.099999986588955}
+{"step": 512507, "episode/score": 11.099999986588955}
+{"step": 512692, "episode/score": 11.100000008940697}
+{"step": 512832, "episode/score": 9.100000023841858}
+{"step": 512990, "episode/score": 10.100000008940697}
+{"step": 513160, "episode/score": 10.099999964237213}
+{"step": 513210, "episode/score": 3.0999999791383743}
+{"step": 513265, "episode/score": 3.100000001490116}
+{"step": 513455, "episode/score": 10.100000023841858}
+{"step": 513826, "episode/score": 11.099999986588955}
+{"step": 514186, "episode/score": 10.099999964237213}
+{"step": 514296, "episode/score": 10.099999971687794}
+{"step": 514697, "episode/score": 10.099999986588955}
+{"step": 514912, "episode/score": 11.099999986588955}
+{"step": 515092, "episode/score": 10.100000001490116}
+{"step": 515272, "episode/score": 8.099999971687794}
+{"step": 515511, "episode/score": 8.099999986588955}
+{"step": 515571, "episode/score": 5.099999986588955}
+{"step": 515752, "episode/score": 9.099999986588955}
+{"step": 515936, "episode/score": 10.099999986588955}
+{"step": 516141, "episode/score": 12.100000001490116}
+{"step": 516346, "episode/score": 11.100000008940697}
+{"step": 516733, "episode/score": 11.099999986588955}
+{"step": 516942, "episode/score": 8.099999986588955}
+{"step": 517196, "episode/score": 10.099999986588955}
+{"step": 517379, "episode/score": 11.099999986588955}
+{"step": 517595, "episode/score": 9.099999986588955}
+{"step": 517755, "episode/score": 7.099999986588955}
+{"step": 517992, "episode/score": 12.099999994039536}
+{"step": 518150, "episode/score": 5.099999986588955}
+{"step": 518289, "episode/score": 9.100000001490116}
+{"step": 518454, "episode/score": 4.099999986588955}
+{"step": 518647, "episode/score": 12.099999986588955}
+{"step": 518848, "episode/score": 12.099999986588955}
+{"step": 519211, "episode/score": 11.099999986588955}
+{"step": 519549, "episode/score": 11.099999964237213}
+{"step": 519812, "episode/score": 11.099999986588955}
+{"step": 519871, "episode/score": 6.099999971687794}
+{"step": 520026, "episode/score": 10.099999986588955}
+{"step": 520249, "episode/score": 11.100000008940697}
+{"step": 520415, "episode/score": 11.099999986588955}
+{"step": 520585, "episode/score": 10.099999986588955}
+{"step": 520777, "episode/score": 12.099999986588955}
+{"step": 521150, "episode/score": 13.099999986588955}
+{"step": 521342, "episode/score": 9.099999986588955}
+{"step": 521543, "episode/score": 11.099999986588955}
+{"step": 521733, "episode/score": 9.099999986588955}
+{"step": 521991, "episode/score": 11.099999986588955}
+{"step": 522162, "episode/score": 7.099999986588955}
+{"step": 522384, "episode/score": 11.099999986588955}
+{"step": 522540, "episode/score": 10.100000008940697}
+{"step": 522876, "episode/score": 10.099999986588955}
+{"step": 523057, "episode/score": 11.100000016391277}
+{"step": 523238, "episode/score": 7.099999986588955}
+{"step": 523592, "episode/score": 10.099999986588955}
+{"step": 523778, "episode/score": 8.099999986588955}
+{"step": 524017, "episode/score": 11.099999986588955}
+{"step": 524243, "episode/score": 10.100000008940697}
+{"step": 524950, "episode/score": 11.099999986588955}
+{"step": 525250, "episode/score": 10.099999986588955}
+{"step": 525485, "episode/score": 11.099999986588955}
+{"step": 525627, "episode/score": 8.100000008940697}
+{"step": 525763, "episode/score": 8.099999986588955}
+{"step": 525816, "episode/score": 6.100000001490116}
+{"step": 526050, "episode/score": 10.099999986588955}
+{"step": 526264, "episode/score": 10.099999986588955}
+{"step": 526470, "episode/score": 10.099999986588955}
+{"step": 526635, "episode/score": 8.100000008940697}
+{"step": 526881, "episode/score": 11.099999986588955}
+{"step": 527087, "episode/score": 11.100000008940697}
+{"step": 527247, "episode/score": 9.100000001490116}
+{"step": 527425, "episode/score": 12.099999986588955}
+{"step": 527618, "episode/score": 12.100000001490116}
+{"step": 527665, "episode/score": 5.100000023841858}
+{"step": 527982, "episode/score": 14.100000001490116}
+{"step": 528168, "episode/score": 10.100000001490116}
+{"step": 528332, "episode/score": 8.099999986588955}
+{"step": 528659, "episode/score": 10.100000001490116}
+{"step": 528866, "episode/score": 10.099999986588955}
+{"step": 529035, "episode/score": 11.099999986588955}
+{"step": 529217, "episode/score": 12.099999986588955}
+{"step": 529429, "episode/score": 11.099999986588955}
+{"step": 529607, "episode/score": 10.099999986588955}
+{"step": 529808, "episode/score": 9.100000008940697}
+{"step": 529982, "episode/score": 10.100000023841858}
+{"step": 530162, "episode/score": 6.099999986588955}
+{"step": 530322, "episode/score": 11.099999986588955}
+{"step": 530552, "episode/score": 12.100000008940697}
+{"step": 530819, "episode/score": 11.100000023841858}
+{"step": 530986, "episode/score": 12.099999986588955}
+{"step": 531283, "episode/score": 12.100000001490116}
+{"step": 531487, "episode/score": 9.099999986588955}
+{"step": 531747, "episode/score": 12.100000023841858}
+{"step": 531900, "episode/score": 10.100000023841858}
+{"step": 532184, "episode/score": 12.100000001490116}
+{"step": 532391, "episode/score": 10.099999986588955}
+{"step": 532558, "episode/score": 8.100000001490116}
+{"step": 532719, "episode/score": 11.099999986588955}
+{"step": 533040, "episode/score": 12.099999986588955}
+{"step": 533235, "episode/score": 11.099999986588955}
+{"step": 533434, "episode/score": 11.099999986588955}
+{"step": 533489, "episode/score": 2.099999986588955}
+{"step": 533697, "episode/score": 11.100000008940697}
+{"step": 533933, "episode/score": 9.099999986588955}
+{"step": 534087, "episode/score": 7.099999986588955}
+{"step": 534286, "episode/score": 10.099999979138374}
+{"step": 534469, "episode/score": 10.099999986588955}
+{"step": 534586, "episode/score": 10.099999986588955}
+{"step": 534712, "episode/score": 10.100000001490116}
+{"step": 534932, "episode/score": 12.099999986588955}
+{"step": 534983, "episode/score": 6.100000001490116}
+{"step": 535163, "episode/score": 10.099999986588955}
+{"step": 535424, "episode/score": 11.100000001490116}
+{"step": 535604, "episode/score": 7.100000001490116}
+{"step": 535785, "episode/score": 11.100000008940697}
+{"step": 535945, "episode/score": 9.099999986588955}
+{"step": 536250, "episode/score": 10.099999979138374}
+{"step": 536334, "episode/score": 7.100000023841858}
+{"step": 536543, "episode/score": 10.100000001490116}
+{"step": 536768, "episode/score": 12.099999979138374}
+{"step": 537025, "episode/score": 11.099999986588955}
+{"step": 537299, "episode/score": 10.100000008940697}
+{"step": 537484, "episode/score": 9.100000001490116}
+{"step": 537663, "episode/score": 9.100000001490116}
+{"step": 537875, "episode/score": 12.099999986588955}
+{"step": 538134, "episode/score": 11.100000001490116}
+{"step": 538323, "episode/score": 10.099999949336052}
+{"step": 538498, "episode/score": 12.099999986588955}
+{"step": 538890, "episode/score": 12.099999986588955}
+{"step": 539113, "episode/score": 10.099999986588955}
+{"step": 539309, "episode/score": 11.099999986588955}
+{"step": 539625, "episode/score": 12.100000001490116}
+{"step": 539774, "episode/score": 11.100000008940697}
+{"step": 539873, "episode/score": 8.099999986588955}
+{"step": 540098, "episode/score": 10.099999986588955}
+{"step": 540263, "episode/score": 11.100000001490116}
+{"step": 540656, "episode/score": 12.099999986588955}
+{"step": 540815, "episode/score": 9.099999986588955}
+{"step": 541046, "episode/score": 9.099999986588955}
+{"step": 541222, "episode/score": 7.100000023841858}
+{"step": 541460, "episode/score": 11.099999971687794}
+{"step": 541714, "episode/score": 10.100000023841858}
+{"step": 541887, "episode/score": 11.100000023841858}
+{"step": 542175, "episode/score": 9.099999964237213}
+{"step": 542360, "episode/score": 11.099999986588955}
+{"step": 542699, "episode/score": 13.100000008940697}
+{"step": 542940, "episode/score": 10.100000008940697}
+{"step": 543147, "episode/score": 13.099999986588955}
+{"step": 543415, "episode/score": 12.099999986588955}
+{"step": 543715, "episode/score": 12.099999986588955}
+{"step": 543901, "episode/score": 12.100000001490116}
+{"step": 544002, "episode/score": 8.100000023841858}
+{"step": 544197, "episode/score": 10.099999986588955}
+{"step": 544416, "episode/score": 11.100000023841858}
+{"step": 544548, "episode/score": 9.099999986588955}
+{"step": 544871, "episode/score": 11.099999986588955}
+{"step": 545086, "episode/score": 11.099999994039536}
+{"step": 545270, "episode/score": 13.099999964237213}
+{"step": 545465, "episode/score": 12.099999986588955}
+{"step": 545691, "episode/score": 11.100000023841858}
+{"step": 545898, "episode/score": 10.099999986588955}
+{"step": 545942, "episode/score": 3.1000000089406967}
+{"step": 546081, "episode/score": 6.100000023841858}
+{"step": 546279, "episode/score": 13.099999986588955}
+{"step": 546481, "episode/score": 11.099999986588955}
+{"step": 546666, "episode/score": 9.100000008940697}
+{"step": 546746, "episode/score": 8.100000023841858}
+{"step": 546920, "episode/score": 7.099999986588955}
+{"step": 547300, "episode/score": 11.099999986588955}
+{"step": 547460, "episode/score": 11.100000023841858}
+{"step": 547721, "episode/score": 7.099999986588955}
+{"step": 547893, "episode/score": 11.100000001490116}
+{"step": 548060, "episode/score": 8.099999986588955}
+{"step": 548455, "episode/score": 12.099999986588955}
+{"step": 548635, "episode/score": 10.099999986588955}
+{"step": 548759, "episode/score": 10.1000000461936}
+{"step": 549174, "episode/score": 10.099999986588955}
+{"step": 549377, "episode/score": 9.099999971687794}
+{"step": 549618, "episode/score": 8.099999994039536}
+{"step": 549765, "episode/score": 5.100000001490116}
+{"step": 549982, "episode/score": 10.099999986588955}
+{"step": 550130, "episode/score": 10.100000001490116}
+{"step": 550168, "episode/score": 3.0999999716877937}
+{"step": 550484, "episode/score": 12.100000001490116}
+{"step": 551045, "episode/score": 8.099999986588955}
+{"step": 551408, "episode/score": 11.099999986588955}
+{"step": 551607, "episode/score": 12.100000008940697}
+{"step": 551845, "episode/score": 11.099999986588955}
+{"step": 552000, "episode/score": 9.100000001490116}
+{"step": 552193, "episode/score": 6.099999986588955}
+{"step": 552481, "episode/score": 12.099999986588955}
+{"step": 552731, "episode/score": 8.099999994039536}
+{"step": 552951, "episode/score": 13.099999986588955}
+{"step": 553119, "episode/score": 10.100000001490116}
+{"step": 553357, "episode/score": 11.100000023841858}
+{"step": 553415, "episode/score": 4.099999986588955}
+{"step": 553575, "episode/score": 9.100000001490116}
+{"step": 553761, "episode/score": 9.100000001490116}
+{"step": 553924, "episode/score": 13.100000001490116}
+{"step": 554053, "episode/score": 9.099999986588955}
+{"step": 554146, "episode/score": 9.099999971687794}
+{"step": 554349, "episode/score": 12.100000001490116}
+{"step": 554519, "episode/score": 11.099999986588955}
+{"step": 554704, "episode/score": 10.099999986588955}
+{"step": 554866, "episode/score": 10.100000001490116}
+{"step": 555014, "episode/score": 11.099999986588955}
+{"step": 555255, "episode/score": 10.100000008940697}
+{"step": 555420, "episode/score": 8.100000008940697}
+{"step": 555722, "episode/score": 12.099999979138374}
+{"step": 555905, "episode/score": 9.099999986588955}
+{"step": 556197, "episode/score": 12.099999986588955}
+{"step": 556389, "episode/score": 11.099999986588955}
+{"step": 556534, "episode/score": 10.099999986588955}
+{"step": 556645, "episode/score": 10.099999986588955}
+{"step": 556830, "episode/score": 8.099999986588955}
+{"step": 557087, "episode/score": 8.099999986588955}
+{"step": 557271, "episode/score": 10.099999986588955}
+{"step": 557438, "episode/score": 11.099999986588955}
+{"step": 557583, "episode/score": 8.099999986588955}
+{"step": 557761, "episode/score": 11.099999986588955}
+{"step": 557945, "episode/score": 7.099999986588955}
+{"step": 558102, "episode/score": 10.099999986588955}
+{"step": 558311, "episode/score": 11.099999986588955}
+{"step": 558475, "episode/score": 10.099999986588955}
+{"step": 558665, "episode/score": 11.099999971687794}
+{"step": 559089, "episode/score": 10.099999986588955}
+{"step": 559284, "episode/score": 10.100000008940697}
+{"step": 559465, "episode/score": 12.099999986588955}
+{"step": 559654, "episode/score": 9.100000008940697}
+{"step": 559877, "episode/score": 11.099999994039536}
+{"step": 560044, "episode/score": 9.100000001490116}
+{"step": 560214, "episode/score": 11.099999986588955}
+{"step": 560448, "episode/score": 11.099999986588955}
+{"step": 560635, "episode/score": 11.100000008940697}
+{"step": 560674, "episode/score": 2.0999999716877937}
+{"step": 561023, "episode/score": 11.100000001490116}
+{"step": 561186, "episode/score": 11.099999971687794}
+{"step": 561332, "episode/score": 11.099999986588955}
+{"step": 561390, "episode/score": 7.0999999940395355}
+{"step": 561609, "episode/score": 6.099999986588955}
+{"step": 561803, "episode/score": 11.100000008940697}
+{"step": 561892, "episode/score": 10.100000023841858}
+{"step": 562163, "episode/score": 11.099999979138374}
+{"step": 562318, "episode/score": 7.100000008940697}
+{"step": 562518, "episode/score": 12.100000001490116}
+{"step": 562814, "episode/score": 11.100000023841858}
+{"step": 562963, "episode/score": 8.099999986588955}
+{"step": 563106, "episode/score": 11.099999986588955}
+{"step": 563320, "episode/score": 10.099999986588955}
+{"step": 563516, "episode/score": 11.099999986588955}
+{"step": 563746, "episode/score": 9.100000008940697}
+{"step": 563999, "episode/score": 9.100000008940697}
+{"step": 564223, "episode/score": 12.100000008940697}
+{"step": 564503, "episode/score": 12.099999994039536}
+{"step": 564687, "episode/score": 11.099999986588955}
+{"step": 564838, "episode/score": 9.100000008940697}
+{"step": 565028, "episode/score": 9.099999986588955}
+{"step": 565233, "episode/score": 11.099999986588955}
+{"step": 565289, "episode/score": 7.100000008940697}
+{"step": 565443, "episode/score": 9.100000001490116}
+{"step": 565605, "episode/score": 10.099999986588955}
+{"step": 565683, "episode/score": 8.100000008940697}
+{"step": 566008, "episode/score": 7.099999986588955}
+{"step": 566141, "episode/score": 10.099999979138374}
+{"step": 566532, "episode/score": 12.099999986588955}
+{"step": 566830, "episode/score": 13.099999986588955}
+{"step": 566949, "episode/score": 9.100000023841858}
+{"step": 567162, "episode/score": 11.099999994039536}
+{"step": 567399, "episode/score": 12.100000008940697}
+{"step": 567618, "episode/score": 10.099999986588955}
+{"step": 567816, "episode/score": 9.099999986588955}
+{"step": 568153, "episode/score": 11.099999986588955}
+{"step": 568370, "episode/score": 10.100000023841858}
+{"step": 568432, "episode/score": 6.100000008940697}
+{"step": 568603, "episode/score": 6.099999986588955}
+{"step": 568819, "episode/score": 11.100000031292439}
+{"step": 569036, "episode/score": 12.100000001490116}
+{"step": 569205, "episode/score": 6.099999986588955}
+{"step": 569394, "episode/score": 10.099999986588955}
+{"step": 569678, "episode/score": 11.099999986588955}
+{"step": 569949, "episode/score": 12.099999986588955}
+{"step": 570123, "episode/score": 10.099999986588955}
+{"step": 570310, "episode/score": 10.099999986588955}
+{"step": 570578, "episode/score": 11.100000031292439}
+{"step": 570894, "episode/score": 12.100000001490116}
+{"step": 571191, "episode/score": 11.099999986588955}
+{"step": 571365, "episode/score": 11.100000016391277}
+{"step": 571692, "episode/score": 10.099999986588955}
+{"step": 571744, "episode/score": 2.0999999791383743}
+{"step": 571924, "episode/score": 10.099999986588955}
+{"step": 572158, "episode/score": 10.099999986588955}
+{"step": 572464, "episode/score": 12.099999986588955}
+{"step": 572630, "episode/score": 11.099999986588955}
+{"step": 572992, "episode/score": 10.100000001490116}
+{"step": 573183, "episode/score": 11.099999986588955}
+{"step": 573459, "episode/score": 10.099999986588955}
+{"step": 573649, "episode/score": 7.100000008940697}
+{"step": 573935, "episode/score": 13.100000001490116}
+{"step": 574204, "episode/score": 9.099999986588955}
+{"step": 574423, "episode/score": 12.100000031292439}
+{"step": 574485, "episode/score": 7.100000001490116}
+{"step": 574668, "episode/score": 10.099999986588955}
+{"step": 574885, "episode/score": 10.099999986588955}
+{"step": 575213, "episode/score": 7.099999979138374}
+{"step": 575540, "episode/score": 12.099999979138374}
+{"step": 575822, "episode/score": 9.099999986588955}
+{"step": 576177, "episode/score": 10.099999986588955}
+{"step": 576492, "episode/score": 8.099999986588955}
+{"step": 576795, "episode/score": 15.099999986588955}
+{"step": 577055, "episode/score": 9.099999986588955}
+{"step": 577234, "episode/score": 11.100000008940697}
+{"step": 577508, "episode/score": 12.100000001490116}
+{"step": 577621, "episode/score": 9.100000023841858}
+{"step": 577803, "episode/score": 8.099999986588955}
+{"step": 578104, "episode/score": 7.099999986588955}
+{"step": 578401, "episode/score": 10.099999986588955}
+{"step": 578570, "episode/score": 11.099999986588955}
+{"step": 578759, "episode/score": 11.099999986588955}
+{"step": 578932, "episode/score": 9.099999986588955}
+{"step": 579134, "episode/score": 11.099999979138374}
+{"step": 579319, "episode/score": 11.100000001490116}
+{"step": 579522, "episode/score": 11.100000008940697}
+{"step": 579771, "episode/score": 11.099999986588955}
+{"step": 580081, "episode/score": 8.099999986588955}
+{"step": 580240, "episode/score": 10.099999986588955}
+{"step": 580531, "episode/score": 11.099999986588955}
+{"step": 580608, "episode/score": 7.100000023841858}
+{"step": 580823, "episode/score": 13.100000023841858}
+{"step": 580923, "episode/score": 7.100000001490116}
+{"step": 581143, "episode/score": 11.1000000461936}
+{"step": 581298, "episode/score": 10.099999986588955}
+{"step": 581552, "episode/score": 10.100000023841858}
+{"step": 581768, "episode/score": 11.099999986588955}
+{"step": 581847, "episode/score": 6.100000001490116}
+{"step": 581905, "episode/score": 4.099999971687794}
+{"step": 582125, "episode/score": 11.099999986588955}
+{"step": 582412, "episode/score": 11.099999986588955}
+{"step": 582701, "episode/score": 12.100000001490116}
+{"step": 582861, "episode/score": 11.099999986588955}
+{"step": 582956, "episode/score": 8.100000023841858}
+{"step": 583177, "episode/score": 10.099999986588955}
+{"step": 583393, "episode/score": 8.100000008940697}
+{"step": 583666, "episode/score": 11.099999986588955}
+{"step": 583885, "episode/score": 10.099999986588955}
+{"step": 584135, "episode/score": 10.099999986588955}
+{"step": 584292, "episode/score": 10.099999986588955}
+{"step": 584455, "episode/score": 10.099999986588955}
+{"step": 584681, "episode/score": 10.099999986588955}
+{"step": 584846, "episode/score": 9.099999986588955}
+{"step": 584962, "episode/score": 10.099999986588955}
+{"step": 585138, "episode/score": 12.100000001490116}
+{"step": 585444, "episode/score": 11.099999986588955}
+{"step": 585641, "episode/score": 12.100000001490116}
+{"step": 585794, "episode/score": 11.100000008940697}
+{"step": 585920, "episode/score": 7.100000023841858}
+{"step": 586135, "episode/score": 10.099999986588955}
+{"step": 586279, "episode/score": 9.100000008940697}
+{"step": 586532, "episode/score": 11.100000008940697}
+{"step": 586723, "episode/score": 12.099999986588955}
+{"step": 586888, "episode/score": 9.099999986588955}
+{"step": 587172, "episode/score": 13.099999986588955}
+{"step": 587393, "episode/score": 10.099999986588955}
+{"step": 587684, "episode/score": 12.099999986588955}
+{"step": 587884, "episode/score": 6.099999971687794}
+{"step": 588084, "episode/score": 12.100000008940697}
+{"step": 588271, "episode/score": 10.100000001490116}
+{"step": 588584, "episode/score": 12.099999994039536}
+{"step": 588775, "episode/score": 9.099999986588955}
+{"step": 588968, "episode/score": 9.100000001490116}
+{"step": 589295, "episode/score": 12.100000008940697}
+{"step": 589480, "episode/score": 10.100000001490116}
+{"step": 589807, "episode/score": 12.099999964237213}
+{"step": 589972, "episode/score": 11.099999986588955}
+{"step": 590154, "episode/score": 12.100000001490116}
+{"step": 590654, "episode/score": 11.099999986588955}
+{"step": 590904, "episode/score": 9.099999986588955}
+{"step": 591099, "episode/score": 10.099999994039536}
+{"step": 591286, "episode/score": 9.100000001490116}
+{"step": 591467, "episode/score": 8.100000023841858}
+{"step": 591857, "episode/score": 11.099999986588955}
+{"step": 592066, "episode/score": 12.099999986588955}
+{"step": 592099, "episode/score": 4.100000023841858}
+{"step": 592220, "episode/score": 10.100000023841858}
+{"step": 592405, "episode/score": 11.099999986588955}
+{"step": 592609, "episode/score": 11.099999986588955}
+{"step": 592660, "episode/score": 3.100000001490116}
+{"step": 592875, "episode/score": 10.099999986588955}
+{"step": 593088, "episode/score": 8.099999986588955}
+{"step": 593262, "episode/score": 12.099999986588955}
+{"step": 593396, "episode/score": 8.099999986588955}
+{"step": 593534, "episode/score": 7.099999986588955}
+{"step": 593732, "episode/score": 10.099999964237213}
+{"step": 593937, "episode/score": 12.099999986588955}
+{"step": 594206, "episode/score": 8.099999986588955}
+{"step": 594513, "episode/score": 12.099999986588955}
+{"step": 594678, "episode/score": 8.100000008940697}
+{"step": 594906, "episode/score": 7.099999986588955}
+{"step": 595146, "episode/score": 11.100000008940697}
+{"step": 595418, "episode/score": 9.099999986588955}
+{"step": 595584, "episode/score": 10.099999986588955}
+{"step": 595875, "episode/score": 12.099999986588955}
+{"step": 596080, "episode/score": 11.099999986588955}
+{"step": 596253, "episode/score": 10.100000008940697}
+{"step": 596409, "episode/score": 8.100000008940697}
+{"step": 596588, "episode/score": 10.099999986588955}
+{"step": 596863, "episode/score": 12.099999986588955}
+{"step": 597091, "episode/score": 9.099999986588955}
+{"step": 597235, "episode/score": 11.100000001490116}
+{"step": 597369, "episode/score": 10.100000008940697}
+{"step": 597526, "episode/score": 11.100000023841858}
+{"step": 597702, "episode/score": 11.100000008940697}
+{"step": 597880, "episode/score": 9.099999986588955}
+{"step": 598152, "episode/score": 12.099999986588955}
+{"step": 598292, "episode/score": 7.099999971687794}
+{"step": 598452, "episode/score": 10.099999986588955}
+{"step": 598657, "episode/score": 11.099999986588955}
+{"step": 598886, "episode/score": 7.099999986588955}
+{"step": 599121, "episode/score": 10.100000008940697}
+{"step": 599251, "episode/score": 8.100000023841858}
+{"step": 599427, "episode/score": 8.099999986588955}
+{"step": 599598, "episode/score": 12.099999986588955}
+{"step": 599759, "episode/score": 9.100000023841858}
+{"step": 599871, "episode/score": 8.100000038743019}
+{"step": 600069, "episode/score": 10.099999986588955}
+{"step": 600271, "episode/score": 10.100000001490116}
+{"step": 600426, "episode/score": 5.099999986588955}
+{"step": 600612, "episode/score": 10.099999986588955}
+{"step": 600722, "episode/score": 9.099999986588955}
+{"step": 600896, "episode/score": 10.099999986588955}
+{"step": 601141, "episode/score": 11.100000008940697}
+{"step": 601358, "episode/score": 12.100000001490116}
+{"step": 601602, "episode/score": 8.099999986588955}
+{"step": 601791, "episode/score": 10.099999986588955}
+{"step": 601993, "episode/score": 11.099999971687794}
+{"step": 602176, "episode/score": 11.099999986588955}
+{"step": 602389, "episode/score": 10.100000001490116}
+{"step": 602620, "episode/score": 10.100000008940697}
+{"step": 602742, "episode/score": 7.099999986588955}
+{"step": 602884, "episode/score": 9.099999986588955}
+{"step": 603051, "episode/score": 11.099999986588955}
+{"step": 603213, "episode/score": 8.099999986588955}
+{"step": 603337, "episode/score": 11.100000023841858}
+{"step": 603733, "episode/score": 12.100000008940697}
+{"step": 603955, "episode/score": 12.100000001490116}
+{"step": 604110, "episode/score": 9.099999986588955}
+{"step": 604313, "episode/score": 10.099999986588955}
+{"step": 604506, "episode/score": 11.099999986588955}
+{"step": 604641, "episode/score": 8.100000023841858}
+{"step": 604707, "episode/score": 3.1000000089406967}
+{"step": 604899, "episode/score": 9.100000001490116}
+{"step": 605074, "episode/score": 10.099999964237213}
+{"step": 605454, "episode/score": 11.099999986588955}
+{"step": 605647, "episode/score": 6.099999964237213}
+{"step": 605803, "episode/score": 11.100000001490116}
+{"step": 606044, "episode/score": 11.100000008940697}
+{"step": 606220, "episode/score": 8.099999986588955}
+{"step": 606627, "episode/score": 10.099999979138374}
+{"step": 606820, "episode/score": 11.099999986588955}
+{"step": 606945, "episode/score": 10.100000023841858}
+{"step": 607133, "episode/score": 9.099999986588955}
+{"step": 607326, "episode/score": 11.099999986588955}
+{"step": 607486, "episode/score": 8.100000001490116}
+{"step": 607703, "episode/score": 10.100000001490116}
+{"step": 608049, "episode/score": 12.099999994039536}
+{"step": 608260, "episode/score": 12.100000008940697}
+{"step": 608424, "episode/score": 10.099999986588955}
+{"step": 608589, "episode/score": 8.100000008940697}
+{"step": 608754, "episode/score": 7.099999986588955}
+{"step": 608963, "episode/score": 8.099999986588955}
+{"step": 609084, "episode/score": 8.099999986588955}
+{"step": 609353, "episode/score": 10.099999986588955}
+{"step": 609471, "episode/score": 9.100000023841858}
+{"step": 609675, "episode/score": 12.100000008940697}
+{"step": 609928, "episode/score": 9.100000001490116}
+{"step": 609986, "episode/score": 2.099999986588955}
+{"step": 610136, "episode/score": 10.099999986588955}
+{"step": 610202, "episode/score": 5.100000008940697}
+{"step": 610409, "episode/score": 10.100000008940697}
+{"step": 610595, "episode/score": 11.099999986588955}
+{"step": 610777, "episode/score": 10.100000023841858}
+{"step": 611065, "episode/score": 11.100000008940697}
+{"step": 611274, "episode/score": 12.099999986588955}
+{"step": 611503, "episode/score": 12.100000008940697}
+{"step": 611696, "episode/score": 9.099999986588955}
+{"step": 611842, "episode/score": 8.100000008940697}
+{"step": 612009, "episode/score": 12.099999986588955}
+{"step": 612209, "episode/score": 9.100000008940697}
+{"step": 612372, "episode/score": 7.100000001490116}
+{"step": 612532, "episode/score": 7.100000008940697}
+{"step": 612787, "episode/score": 9.100000008940697}
+{"step": 613054, "episode/score": 8.099999986588955}
+{"step": 613270, "episode/score": 12.099999986588955}
+{"step": 613515, "episode/score": 11.100000023841858}
+{"step": 613712, "episode/score": 10.099999971687794}
+{"step": 613776, "episode/score": 6.099999986588955}
+{"step": 614048, "episode/score": 11.099999986588955}
+{"step": 614232, "episode/score": 11.099999986588955}
+{"step": 614350, "episode/score": 7.099999971687794}
+{"step": 614560, "episode/score": 11.100000001490116}
+{"step": 614718, "episode/score": 10.099999986588955}
+{"step": 614878, "episode/score": 9.099999979138374}
+{"step": 615037, "episode/score": 8.100000008940697}
+{"step": 615250, "episode/score": 12.099999986588955}
+{"step": 615301, "episode/score": 5.100000038743019}
+{"step": 615524, "episode/score": 11.1000000461936}
+{"step": 615810, "episode/score": 9.100000001490116}
+{"step": 616056, "episode/score": 11.100000001490116}
+{"step": 616242, "episode/score": 11.100000001490116}
+{"step": 616668, "episode/score": 11.099999986588955}
+{"step": 616874, "episode/score": 9.100000001490116}
+{"step": 617080, "episode/score": 11.099999986588955}
+{"step": 617287, "episode/score": 12.099999986588955}
+{"step": 617564, "episode/score": 11.100000001490116}
+{"step": 617774, "episode/score": 11.100000008940697}
+{"step": 618022, "episode/score": 8.100000008940697}
+{"step": 618235, "episode/score": 12.100000001490116}
+{"step": 618496, "episode/score": 11.099999986588955}
+{"step": 618695, "episode/score": 12.099999986588955}
+{"step": 619172, "episode/score": 11.099999994039536}
+{"step": 619305, "episode/score": 10.100000008940697}
+{"step": 619492, "episode/score": 9.100000001490116}
+{"step": 619668, "episode/score": 10.099999986588955}
+{"step": 620092, "episode/score": 12.099999986588955}
+{"step": 620244, "episode/score": 9.099999986588955}
+{"step": 620437, "episode/score": 11.100000001490116}
+{"step": 620600, "episode/score": 11.099999986588955}
+{"step": 620706, "episode/score": 9.100000023841858}
+{"step": 620944, "episode/score": 10.099999986588955}
+{"step": 621059, "episode/score": 9.100000001490116}
+{"step": 621244, "episode/score": 12.099999986588955}
+{"step": 621651, "episode/score": 12.099999986588955}
+{"step": 621886, "episode/score": 11.099999986588955}
+{"step": 622085, "episode/score": 11.099999986588955}
+{"step": 622343, "episode/score": 11.099999986588955}
+{"step": 622553, "episode/score": 12.099999986588955}
+{"step": 622817, "episode/score": 7.100000008940697}
+{"step": 623047, "episode/score": 12.099999971687794}
+{"step": 623299, "episode/score": 12.099999986588955}
+{"step": 623491, "episode/score": 11.100000008940697}
+{"step": 623710, "episode/score": 10.099999986588955}
+{"step": 623939, "episode/score": 10.099999986588955}
+{"step": 623981, "episode/score": 4.100000008940697}
+{"step": 624167, "episode/score": 10.099999986588955}
+{"step": 624403, "episode/score": 11.099999986588955}
+{"step": 624828, "episode/score": 11.099999986588955}
+{"step": 624994, "episode/score": 10.100000001490116}
+{"step": 625045, "episode/score": 5.100000001490116}
+{"step": 625247, "episode/score": 12.100000001490116}
+{"step": 625329, "episode/score": 8.100000023841858}
+{"step": 625514, "episode/score": 10.099999986588955}
+{"step": 625682, "episode/score": 11.100000008940697}
+{"step": 625912, "episode/score": 11.100000008940697}
+{"step": 626123, "episode/score": 11.099999986588955}
+{"step": 626445, "episode/score": 13.100000001490116}
+{"step": 626681, "episode/score": 8.099999994039536}
+{"step": 626849, "episode/score": 10.099999986588955}
+{"step": 627160, "episode/score": 12.100000008940697}
+{"step": 627356, "episode/score": 10.099999986588955}
+{"step": 627604, "episode/score": 10.099999971687794}
+{"step": 627795, "episode/score": 10.100000023841858}
+{"step": 627950, "episode/score": 11.099999986588955}
+{"step": 628139, "episode/score": 10.099999986588955}
+{"step": 628259, "episode/score": 10.100000023841858}
+{"step": 628440, "episode/score": 12.100000001490116}
+{"step": 628976, "episode/score": 9.099999986588955}
+{"step": 629138, "episode/score": 11.099999986588955}
+{"step": 629342, "episode/score": 9.100000023841858}
+{"step": 629487, "episode/score": 10.099999986588955}
+{"step": 629665, "episode/score": 7.099999986588955}
+{"step": 629961, "episode/score": 11.099999994039536}
+{"step": 630178, "episode/score": 11.100000008940697}
+{"step": 630602, "episode/score": 11.099999986588955}
+{"step": 630769, "episode/score": 9.100000001490116}
+{"step": 631026, "episode/score": 13.099999986588955}
+{"step": 631307, "episode/score": 13.100000016391277}
+{"step": 631372, "episode/score": 7.099999986588955}
+{"step": 631533, "episode/score": 11.099999986588955}
+{"step": 631708, "episode/score": 9.099999986588955}
+{"step": 631885, "episode/score": 7.099999986588955}
+{"step": 632118, "episode/score": 11.099999986588955}
+{"step": 632179, "episode/score": 1.1000000089406967}
+{"step": 632425, "episode/score": 12.100000016391277}
+{"step": 632648, "episode/score": 10.099999986588955}
+{"step": 632860, "episode/score": 12.100000001490116}
+{"step": 633017, "episode/score": 12.100000001490116}
+{"step": 633190, "episode/score": 11.100000001490116}
+{"step": 633432, "episode/score": 11.100000023841858}
+{"step": 633612, "episode/score": 10.099999986588955}
+{"step": 633781, "episode/score": 9.099999986588955}
+{"step": 634032, "episode/score": 7.099999986588955}
+{"step": 634238, "episode/score": 11.100000023841858}
+{"step": 634447, "episode/score": 10.099999986588955}
+{"step": 634738, "episode/score": 11.099999986588955}
+{"step": 634908, "episode/score": 12.100000001490116}
+{"step": 635063, "episode/score": 11.099999986588955}
+{"step": 635148, "episode/score": 7.100000023841858}
+{"step": 635451, "episode/score": 12.099999986588955}
+{"step": 635525, "episode/score": 8.099999986588955}
+{"step": 635687, "episode/score": 11.099999986588955}
+{"step": 635842, "episode/score": 10.099999986588955}
+{"step": 636056, "episode/score": 12.099999986588955}
+{"step": 636192, "episode/score": 8.099999986588955}
+{"step": 636440, "episode/score": 12.100000023841858}
+{"step": 636765, "episode/score": 10.099999986588955}
+{"step": 636971, "episode/score": 8.099999986588955}
+{"step": 637015, "episode/score": 6.099999986588955}
+{"step": 637204, "episode/score": 10.100000001490116}
+{"step": 637596, "episode/score": 11.099999986588955}
+{"step": 637953, "episode/score": 8.099999986588955}
+{"step": 638144, "episode/score": 11.100000001490116}
+{"step": 638315, "episode/score": 5.100000008940697}
+{"step": 638459, "episode/score": 9.100000016391277}
+{"step": 638657, "episode/score": 11.099999971687794}
+{"step": 638865, "episode/score": 6.100000001490116}
+{"step": 639019, "episode/score": 10.099999986588955}
+{"step": 639206, "episode/score": 9.100000001490116}
+{"step": 639391, "episode/score": 9.099999986588955}
+{"step": 639573, "episode/score": 12.099999979138374}
+{"step": 639763, "episode/score": 11.100000001490116}
+{"step": 639913, "episode/score": 10.100000023841858}
+{"step": 640116, "episode/score": 12.099999986588955}
+{"step": 640470, "episode/score": 13.099999986588955}
+{"step": 640791, "episode/score": 13.100000001490116}
+{"step": 641013, "episode/score": 11.099999986588955}
+{"step": 641237, "episode/score": 11.100000008940697}
+{"step": 641506, "episode/score": 10.100000008940697}
+{"step": 641693, "episode/score": 6.099999986588955}
+{"step": 641868, "episode/score": 10.099999986588955}
+{"step": 642060, "episode/score": 13.100000001490116}
+{"step": 642417, "episode/score": 11.099999986588955}
+{"step": 642770, "episode/score": 11.100000008940697}
+{"step": 643060, "episode/score": 13.100000008940697}
+{"step": 643104, "episode/score": 6.100000008940697}
+{"step": 643272, "episode/score": 11.099999986588955}
+{"step": 643500, "episode/score": 9.099999986588955}
+{"step": 643768, "episode/score": 13.100000001490116}
+{"step": 644145, "episode/score": 11.100000008940697}
+{"step": 644184, "episode/score": 7.100000008940697}
+{"step": 644405, "episode/score": 10.099999986588955}
+{"step": 644644, "episode/score": 11.100000023841858}
+{"step": 644822, "episode/score": 12.099999986588955}
+{"step": 644991, "episode/score": 10.099999986588955}
+{"step": 645229, "episode/score": 9.099999979138374}
+{"step": 645390, "episode/score": 7.100000001490116}
+{"step": 645663, "episode/score": 12.100000001490116}
+{"step": 645832, "episode/score": 11.099999986588955}
+{"step": 646174, "episode/score": 13.099999986588955}
+{"step": 646370, "episode/score": 11.099999986588955}
+{"step": 646563, "episode/score": 10.100000001490116}
+{"step": 646717, "episode/score": 8.100000001490116}
+{"step": 646907, "episode/score": 11.1000000461936}
+{"step": 647182, "episode/score": 12.1000000461936}
+{"step": 647429, "episode/score": 5.099999986588955}
+{"step": 647728, "episode/score": 11.100000008940697}
+{"step": 647927, "episode/score": 10.100000001490116}
+{"step": 647984, "episode/score": 0.09999998658895493}
+{"step": 648133, "episode/score": 5.099999986588955}
+{"step": 648309, "episode/score": 8.100000008940697}
+{"step": 648707, "episode/score": 12.099999986588955}
+{"step": 649031, "episode/score": 12.099999986588955}
+{"step": 649209, "episode/score": 5.099999986588955}
+{"step": 649422, "episode/score": 11.100000001490116}
+{"step": 649610, "episode/score": 9.099999986588955}
+{"step": 649848, "episode/score": 11.100000001490116}
+{"step": 650065, "episode/score": 11.099999979138374}
+{"step": 650451, "episode/score": 13.100000001490116}
+{"step": 650652, "episode/score": 11.099999971687794}
+{"step": 650822, "episode/score": 12.099999986588955}
+{"step": 650975, "episode/score": 12.099999986588955}
+{"step": 651161, "episode/score": 9.100000001490116}
+{"step": 651217, "episode/score": 3.100000001490116}
+{"step": 651425, "episode/score": 12.099999986588955}
+{"step": 651658, "episode/score": 12.100000008940697}
+{"step": 651867, "episode/score": 11.099999994039536}
+{"step": 652173, "episode/score": 12.099999986588955}
+{"step": 652409, "episode/score": 12.099999986588955}
+{"step": 652578, "episode/score": 11.100000038743019}
+{"step": 652840, "episode/score": 12.100000008940697}
+{"step": 652972, "episode/score": 10.099999986588955}
+{"step": 653219, "episode/score": 7.099999986588955}
+{"step": 653270, "episode/score": 3.099999986588955}
+{"step": 653308, "episode/score": 4.100000001490116}
+{"step": 653491, "episode/score": 11.100000001490116}
+{"step": 653757, "episode/score": 8.099999986588955}
+{"step": 653944, "episode/score": 8.099999986588955}
+{"step": 654124, "episode/score": 10.099999986588955}
+{"step": 654279, "episode/score": 9.099999971687794}
+{"step": 654339, "episode/score": 4.100000001490116}
+{"step": 654723, "episode/score": 13.099999986588955}
+{"step": 654869, "episode/score": 10.100000001490116}
+{"step": 655029, "episode/score": 7.099999986588955}
+{"step": 655253, "episode/score": 12.100000001490116}
+{"step": 655478, "episode/score": 9.099999986588955}
+{"step": 655533, "episode/score": 5.100000001490116}
+{"step": 655730, "episode/score": 10.099999986588955}
+{"step": 655945, "episode/score": 11.099999986588955}
+{"step": 656133, "episode/score": 10.100000008940697}
+{"step": 656408, "episode/score": 12.100000008940697}
+{"step": 656597, "episode/score": 11.099999986588955}
+{"step": 656728, "episode/score": 10.100000023841858}
+{"step": 657008, "episode/score": 8.099999986588955}
+{"step": 657258, "episode/score": 12.100000008940697}
+{"step": 657489, "episode/score": 11.099999986588955}
+{"step": 657656, "episode/score": 11.100000001490116}
+{"step": 657906, "episode/score": 12.099999971687794}
+{"step": 658132, "episode/score": 9.099999986588955}
+{"step": 658303, "episode/score": 10.099999986588955}
+{"step": 658461, "episode/score": 11.099999986588955}
+{"step": 658665, "episode/score": 10.099999986588955}
+{"step": 658771, "episode/score": 9.099999971687794}
+{"step": 659098, "episode/score": 12.099999986588955}
+{"step": 659139, "episode/score": 3.099999986588955}
+{"step": 659358, "episode/score": 11.100000008940697}
+{"step": 659515, "episode/score": 11.100000001490116}
+{"step": 659764, "episode/score": 10.100000001490116}
+{"step": 659922, "episode/score": 10.100000016391277}
+{"step": 660104, "episode/score": 8.099999986588955}
+{"step": 660273, "episode/score": 11.099999986588955}
+{"step": 660528, "episode/score": 11.099999986588955}
+{"step": 660775, "episode/score": 12.100000016391277}
+{"step": 661003, "episode/score": 8.100000023841858}
+{"step": 661433, "episode/score": 7.099999986588955}
+{"step": 661590, "episode/score": 11.100000001490116}
+{"step": 661870, "episode/score": 11.099999986588955}
+{"step": 662091, "episode/score": 11.099999986588955}
+{"step": 662227, "episode/score": 9.099999986588955}
+{"step": 662386, "episode/score": 10.099999986588955}
+{"step": 662624, "episode/score": 13.100000008940697}
+{"step": 662929, "episode/score": 8.099999986588955}
+{"step": 663022, "episode/score": 8.100000023841858}
+{"step": 663088, "episode/score": 7.099999986588955}
+{"step": 663319, "episode/score": 11.099999994039536}
+{"step": 663468, "episode/score": 8.100000001490116}
+{"step": 663675, "episode/score": 10.100000001490116}
+{"step": 663899, "episode/score": 13.099999986588955}
+{"step": 664148, "episode/score": 12.099999979138374}
+{"step": 664366, "episode/score": 12.099999986588955}
+{"step": 664419, "episode/score": 5.100000023841858}
+{"step": 664720, "episode/score": 11.100000001490116}
+{"step": 664945, "episode/score": 14.100000023841858}
+{"step": 665116, "episode/score": 10.099999986588955}
+{"step": 665299, "episode/score": 10.099999986588955}
+{"step": 665502, "episode/score": 11.099999986588955}
+{"step": 665884, "episode/score": 12.099999986588955}
+{"step": 666179, "episode/score": 11.099999986588955}
+{"step": 666354, "episode/score": 10.099999986588955}
+{"step": 666508, "episode/score": 11.099999986588955}
+{"step": 666656, "episode/score": 11.099999986588955}
+{"step": 666849, "episode/score": 8.099999986588955}
+{"step": 667071, "episode/score": 12.099999986588955}
+{"step": 667531, "episode/score": 13.099999979138374}
+{"step": 667716, "episode/score": 13.100000023841858}
+{"step": 667909, "episode/score": 10.100000038743019}
+{"step": 668091, "episode/score": 10.099999986588955}
+{"step": 668237, "episode/score": 11.100000008940697}
+{"step": 668470, "episode/score": 13.100000001490116}
+{"step": 668698, "episode/score": 12.099999986588955}
+{"step": 668754, "episode/score": 5.099999986588955}
+{"step": 669122, "episode/score": 11.099999986588955}
+{"step": 669482, "episode/score": 7.099999986588955}
+{"step": 669543, "episode/score": 3.099999986588955}
+{"step": 669742, "episode/score": 13.099999986588955}
+{"step": 670006, "episode/score": 12.099999971687794}
+{"step": 670463, "episode/score": 14.099999986588955}
+{"step": 670677, "episode/score": 12.099999986588955}
+{"step": 670816, "episode/score": 9.100000023841858}
+{"step": 670970, "episode/score": 9.099999986588955}
+{"step": 671485, "episode/score": 14.099999986588955}
+{"step": 671662, "episode/score": 9.100000008940697}
+{"step": 671832, "episode/score": 12.099999986588955}
+{"step": 672021, "episode/score": 11.099999986588955}
+{"step": 672223, "episode/score": 9.100000023841858}
+{"step": 672556, "episode/score": 14.100000008940697}
+{"step": 672786, "episode/score": 11.099999986588955}
+{"step": 673096, "episode/score": 10.100000001490116}
+{"step": 673312, "episode/score": 10.099999986588955}
+{"step": 673650, "episode/score": 12.100000001490116}
+{"step": 673854, "episode/score": 10.099999986588955}
+{"step": 673897, "episode/score": 4.100000008940697}
+{"step": 674080, "episode/score": 12.100000001490116}
+{"step": 674167, "episode/score": 8.099999986588955}
+{"step": 674439, "episode/score": 11.099999986588955}
+{"step": 674690, "episode/score": 10.100000001490116}
+{"step": 674899, "episode/score": 9.099999986588955}
+{"step": 675074, "episode/score": 8.099999986588955}
+{"step": 675256, "episode/score": 9.099999986588955}
+{"step": 675307, "episode/score": 5.100000008940697}
+{"step": 675371, "episode/score": 6.100000008940697}
+{"step": 675515, "episode/score": 10.100000008940697}
+{"step": 675940, "episode/score": 12.099999986588955}
+{"step": 676133, "episode/score": 12.100000016391277}
+{"step": 676324, "episode/score": 11.099999986588955}
+{"step": 676455, "episode/score": 11.100000008940697}
+{"step": 676707, "episode/score": 10.099999986588955}
+{"step": 676807, "episode/score": 8.100000023841858}
+{"step": 677066, "episode/score": 12.099999986588955}
+{"step": 677115, "episode/score": 4.099999979138374}
+{"step": 677327, "episode/score": 11.099999986588955}
+{"step": 677547, "episode/score": 11.100000008940697}
+{"step": 677858, "episode/score": 13.100000001490116}
+{"step": 677922, "episode/score": 5.099999986588955}
+{"step": 678080, "episode/score": 9.100000008940697}
+{"step": 678135, "episode/score": 7.100000001490116}
+{"step": 678490, "episode/score": 11.099999986588955}
+{"step": 678749, "episode/score": 12.099999986588955}
+{"step": 678914, "episode/score": 10.099999986588955}
+{"step": 679099, "episode/score": 12.099999986588955}
+{"step": 679267, "episode/score": 11.099999986588955}
+{"step": 679587, "episode/score": 7.099999986588955}
+{"step": 679744, "episode/score": 11.099999971687794}
+{"step": 679943, "episode/score": 8.099999986588955}
+{"step": 680188, "episode/score": 9.099999986588955}
+{"step": 680411, "episode/score": 10.099999986588955}
+{"step": 680679, "episode/score": 13.100000001490116}
+{"step": 680742, "episode/score": 4.099999986588955}
+{"step": 680997, "episode/score": 12.100000008940697}
+{"step": 681204, "episode/score": 11.099999986588955}
+{"step": 681371, "episode/score": 8.099999986588955}
+{"step": 681595, "episode/score": 12.099999971687794}
+{"step": 682151, "episode/score": 10.099999986588955}
+{"step": 682336, "episode/score": 9.099999986588955}
+{"step": 682518, "episode/score": 11.099999986588955}
+{"step": 682825, "episode/score": 12.099999986588955}
+{"step": 683051, "episode/score": 12.099999986588955}
+{"step": 683289, "episode/score": 10.100000001490116}
+{"step": 683596, "episode/score": 14.099999986588955}
+{"step": 683807, "episode/score": 12.100000008940697}
+{"step": 683994, "episode/score": 12.099999986588955}
+{"step": 684302, "episode/score": 14.100000001490116}
+{"step": 684536, "episode/score": 13.099999986588955}
+{"step": 684730, "episode/score": 12.099999986588955}
+{"step": 684975, "episode/score": 11.099999986588955}
+{"step": 685272, "episode/score": 11.099999986588955}
+{"step": 685460, "episode/score": 12.099999986588955}
+{"step": 685618, "episode/score": 11.100000023841858}
+{"step": 685837, "episode/score": 10.099999971687794}
+{"step": 686032, "episode/score": 11.100000001490116}
+{"step": 686086, "episode/score": 5.100000001490116}
+{"step": 686375, "episode/score": 13.100000001490116}
+{"step": 686436, "episode/score": 6.099999971687794}
+{"step": 686636, "episode/score": 13.100000008940697}
+{"step": 686825, "episode/score": 11.099999986588955}
+{"step": 687076, "episode/score": 12.099999986588955}
+{"step": 687265, "episode/score": 12.100000001490116}
+{"step": 687437, "episode/score": 10.100000001490116}
+{"step": 687616, "episode/score": 12.100000001490116}
+{"step": 687803, "episode/score": 9.099999986588955}
+{"step": 687994, "episode/score": 12.099999986588955}
+{"step": 688235, "episode/score": 12.099999986588955}
+{"step": 688433, "episode/score": 10.100000008940697}
+{"step": 688618, "episode/score": 11.100000008940697}
+{"step": 688717, "episode/score": 5.100000008940697}
+{"step": 688874, "episode/score": 11.099999986588955}
+{"step": 689063, "episode/score": 10.099999986588955}
+{"step": 689491, "episode/score": 14.099999986588955}
+{"step": 689575, "episode/score": 8.100000023841858}
+{"step": 689735, "episode/score": 11.099999986588955}
+{"step": 689961, "episode/score": 8.099999986588955}
+{"step": 690137, "episode/score": 11.100000001490116}
+{"step": 690324, "episode/score": 11.099999986588955}
+{"step": 690528, "episode/score": 11.099999986588955}
+{"step": 690690, "episode/score": 8.099999986588955}
+{"step": 690874, "episode/score": 11.099999986588955}
+{"step": 690940, "episode/score": 7.099999971687794}
+{"step": 691163, "episode/score": 11.1000000461936}
+{"step": 691332, "episode/score": 9.100000008940697}
+{"step": 691381, "episode/score": 3.0999999716877937}
+{"step": 691549, "episode/score": 10.100000001490116}
+{"step": 691720, "episode/score": 8.100000001490116}
+{"step": 691926, "episode/score": 12.099999986588955}
+{"step": 692192, "episode/score": 13.100000001490116}
+{"step": 692346, "episode/score": 11.099999986588955}
+{"step": 692540, "episode/score": 10.100000001490116}
+{"step": 692685, "episode/score": 8.099999986588955}
+{"step": 692912, "episode/score": 13.099999994039536}
+{"step": 693147, "episode/score": 12.100000023841858}
+{"step": 693335, "episode/score": 12.100000001490116}
+{"step": 693614, "episode/score": 12.100000008940697}
+{"step": 693827, "episode/score": 11.099999986588955}
+{"step": 694258, "episode/score": 13.099999971687794}
+{"step": 694450, "episode/score": 12.100000001490116}
+{"step": 694611, "episode/score": 12.100000001490116}
+{"step": 694818, "episode/score": 13.100000001490116}
+{"step": 695013, "episode/score": 11.099999986588955}
+{"step": 695191, "episode/score": 7.100000008940697}
+{"step": 695496, "episode/score": 12.100000008940697}
+{"step": 695724, "episode/score": 12.099999986588955}
+{"step": 695890, "episode/score": 10.099999986588955}
+{"step": 696077, "episode/score": 9.100000008940697}
+{"step": 696250, "episode/score": 11.100000001490116}
+{"step": 696444, "episode/score": 11.099999986588955}
+{"step": 696628, "episode/score": 10.100000023841858}
+{"step": 696877, "episode/score": 12.099999986588955}
+{"step": 697082, "episode/score": 10.099999986588955}
+{"step": 697286, "episode/score": 11.099999986588955}
+{"step": 697491, "episode/score": 10.099999986588955}
+{"step": 697735, "episode/score": 14.099999986588955}
+{"step": 697961, "episode/score": 12.099999994039536}
+{"step": 698487, "episode/score": 13.1000000461936}
+{"step": 698744, "episode/score": 11.099999994039536}
+{"step": 698931, "episode/score": 10.100000001490116}
+{"step": 699141, "episode/score": 13.099999986588955}
+{"step": 699352, "episode/score": 11.099999986588955}
+{"step": 699417, "episode/score": 7.100000023841858}
+{"step": 699603, "episode/score": 9.100000016391277}
+{"step": 699806, "episode/score": 10.100000001490116}
+{"step": 699888, "episode/score": 7.100000023841858}
+{"step": 700103, "episode/score": 5.099999986588955}
+{"step": 700383, "episode/score": 11.100000023841858}
+{"step": 700576, "episode/score": 9.099999986588955}
+{"step": 700763, "episode/score": 9.099999986588955}
+{"step": 701044, "episode/score": 10.100000001490116}
+{"step": 701361, "episode/score": 14.100000001490116}
+{"step": 701580, "episode/score": 12.100000001490116}
+{"step": 701795, "episode/score": 10.100000008940697}
+{"step": 702021, "episode/score": 11.099999994039536}
+{"step": 702188, "episode/score": 11.099999986588955}
+{"step": 702272, "episode/score": 6.100000023841858}
+{"step": 702324, "episode/score": 4.099999979138374}
+{"step": 702625, "episode/score": 12.099999986588955}
+{"step": 702906, "episode/score": 11.100000001490116}
+{"step": 703062, "episode/score": 9.100000001490116}
+{"step": 703264, "episode/score": 11.099999986588955}
+{"step": 703617, "episode/score": 13.099999986588955}
+{"step": 703847, "episode/score": 12.099999986588955}
+{"step": 704039, "episode/score": 11.099999986588955}
+{"step": 704329, "episode/score": 11.099999986588955}
+{"step": 704511, "episode/score": 9.100000001490116}
+{"step": 704724, "episode/score": 10.100000001490116}
+{"step": 704882, "episode/score": 11.100000001490116}
+{"step": 705092, "episode/score": 10.099999986588955}
+{"step": 705314, "episode/score": 13.099999986588955}
+{"step": 705532, "episode/score": 11.100000023841858}
+{"step": 705740, "episode/score": 11.099999986588955}
+{"step": 705945, "episode/score": 11.100000001490116}
+{"step": 706196, "episode/score": 12.100000008940697}
+{"step": 706533, "episode/score": 10.099999986588955}
+{"step": 706727, "episode/score": 12.100000001490116}
+{"step": 706917, "episode/score": 12.099999986588955}
+{"step": 707325, "episode/score": 14.099999986588955}
+{"step": 707476, "episode/score": 11.099999986588955}
+{"step": 707644, "episode/score": 10.099999986588955}
+{"step": 708162, "episode/score": 15.100000008940697}
+{"step": 708350, "episode/score": 11.100000001490116}
+{"step": 708616, "episode/score": 13.099999986588955}
+{"step": 708811, "episode/score": 11.099999979138374}
+{"step": 709064, "episode/score": 12.099999986588955}
+{"step": 709210, "episode/score": 11.099999994039536}
+{"step": 709376, "episode/score": 10.099999986588955}
+{"step": 709544, "episode/score": 11.100000001490116}
+{"step": 709824, "episode/score": 10.099999971687794}
+{"step": 710064, "episode/score": 12.100000001490116}
+{"step": 710409, "episode/score": 12.099999986588955}
+{"step": 710473, "episode/score": 5.100000001490116}
+{"step": 710720, "episode/score": 12.099999986588955}
+{"step": 710929, "episode/score": 12.099999986588955}
+{"step": 711117, "episode/score": 11.100000001490116}
+{"step": 711169, "episode/score": 6.099999986588955}
+{"step": 711387, "episode/score": 11.100000008940697}
+{"step": 711583, "episode/score": 11.099999986588955}
+{"step": 711766, "episode/score": 11.099999986588955}
+{"step": 711936, "episode/score": 11.099999986588955}
+{"step": 712163, "episode/score": 13.099999971687794}
+{"step": 712517, "episode/score": 14.099999986588955}
+{"step": 712710, "episode/score": 11.099999986588955}
+{"step": 712966, "episode/score": 14.099999986588955}
+{"step": 713184, "episode/score": 13.100000001490116}
+{"step": 713378, "episode/score": 12.099999986588955}
+{"step": 713565, "episode/score": 11.100000001490116}
+{"step": 713749, "episode/score": 9.099999979138374}
+{"step": 713959, "episode/score": 11.100000001490116}
+{"step": 714172, "episode/score": 12.100000001490116}
+{"step": 714389, "episode/score": 11.099999986588955}
+{"step": 714613, "episode/score": 12.099999986588955}
+{"step": 714855, "episode/score": 13.099999986588955}
+{"step": 715077, "episode/score": 13.099999986588955}
+{"step": 715243, "episode/score": 11.100000023841858}
+{"step": 715308, "episode/score": 8.099999986588955}
+{"step": 715575, "episode/score": 11.099999986588955}
+{"step": 715783, "episode/score": 11.099999986588955}
+{"step": 715997, "episode/score": 12.099999994039536}
+{"step": 716189, "episode/score": 9.099999986588955}
+{"step": 716374, "episode/score": 11.099999986588955}
+{"step": 716583, "episode/score": 11.099999986588955}
+{"step": 716833, "episode/score": 13.100000008940697}
+{"step": 717051, "episode/score": 12.100000023841858}
+{"step": 717258, "episode/score": 11.100000001490116}
+{"step": 717476, "episode/score": 6.099999986588955}
+{"step": 717718, "episode/score": 12.099999986588955}
+{"step": 717971, "episode/score": 12.100000023841858}
+{"step": 718190, "episode/score": 13.099999986588955}
+{"step": 718388, "episode/score": 13.100000008940697}
+{"step": 718584, "episode/score": 12.099999979138374}
+{"step": 718834, "episode/score": 13.099999986588955}
+{"step": 719012, "episode/score": 11.099999986588955}
+{"step": 719164, "episode/score": 7.100000008940697}
+{"step": 719337, "episode/score": 10.099999986588955}
+{"step": 719547, "episode/score": 10.100000001490116}
+{"step": 719794, "episode/score": 14.099999986588955}
+{"step": 720035, "episode/score": 14.099999986588955}
+{"step": 720214, "episode/score": 13.100000001490116}
+{"step": 720322, "episode/score": 7.100000023841858}
+{"step": 720622, "episode/score": 11.100000001490116}
+{"step": 720823, "episode/score": 12.099999986588955}
+{"step": 721105, "episode/score": 10.099999986588955}
+{"step": 721303, "episode/score": 10.099999986588955}
+{"step": 721421, "episode/score": 7.100000023841858}
+{"step": 721617, "episode/score": 12.099999986588955}
+{"step": 722006, "episode/score": 11.099999986588955}
+{"step": 722280, "episode/score": 11.099999986588955}
+{"step": 722508, "episode/score": 14.099999994039536}
+{"step": 722715, "episode/score": 14.099999986588955}
+{"step": 722796, "episode/score": 9.099999986588955}
+{"step": 723001, "episode/score": 13.100000001490116}
+{"step": 723191, "episode/score": 12.100000023841858}
+{"step": 723444, "episode/score": 8.099999986588955}
+{"step": 723645, "episode/score": 13.099999986588955}
+{"step": 724031, "episode/score": 13.099999986588955}
+{"step": 724263, "episode/score": 9.099999986588955}
+{"step": 724442, "episode/score": 12.099999979138374}
+{"step": 724480, "episode/score": 3.0999999716877937}
+{"step": 724655, "episode/score": 12.099999986588955}
+{"step": 724904, "episode/score": 12.099999986588955}
+{"step": 725099, "episode/score": 13.099999986588955}
+{"step": 725332, "episode/score": 13.099999986588955}
+{"step": 725636, "episode/score": 13.100000001490116}
+{"step": 725818, "episode/score": 12.099999986588955}
+{"step": 725950, "episode/score": 9.100000023841858}
+{"step": 726137, "episode/score": 12.100000001490116}
+{"step": 726404, "episode/score": 7.100000008940697}
+{"step": 726770, "episode/score": 13.099999986588955}
+{"step": 726962, "episode/score": 8.100000001490116}
+{"step": 727191, "episode/score": 13.099999986588955}
+{"step": 727395, "episode/score": 10.100000008940697}
+{"step": 727577, "episode/score": 12.099999986588955}
+{"step": 727893, "episode/score": 15.100000001490116}
+{"step": 728308, "episode/score": 11.099999986588955}
+{"step": 728360, "episode/score": 6.099999979138374}
+{"step": 728553, "episode/score": 8.099999986588955}
+{"step": 728729, "episode/score": 12.099999986588955}
+{"step": 728899, "episode/score": 11.100000001490116}
+{"step": 729251, "episode/score": 14.100000001490116}
+{"step": 729539, "episode/score": 13.100000001490116}
+{"step": 729696, "episode/score": 9.099999986588955}
+{"step": 729862, "episode/score": 9.099999979138374}
+{"step": 730167, "episode/score": 13.099999979138374}
+{"step": 730363, "episode/score": 10.099999986588955}
+{"step": 730550, "episode/score": 9.099999986588955}
+{"step": 730781, "episode/score": 10.099999986588955}
+{"step": 730986, "episode/score": 9.099999986588955}
+{"step": 731119, "episode/score": 10.099999986588955}
+{"step": 731299, "episode/score": 12.100000001490116}
+{"step": 731474, "episode/score": 9.099999986588955}
+{"step": 731680, "episode/score": 13.100000001490116}
+{"step": 732009, "episode/score": 12.099999986588955}
+{"step": 732232, "episode/score": 10.099999986588955}
+{"step": 732431, "episode/score": 12.099999986588955}
+{"step": 732636, "episode/score": 13.099999986588955}
+{"step": 732920, "episode/score": 11.099999979138374}
+{"step": 733137, "episode/score": 10.099999986588955}
+{"step": 733323, "episode/score": 13.099999994039536}
+{"step": 733559, "episode/score": 15.1000000461936}
+{"step": 733886, "episode/score": 8.099999986588955}
+{"step": 734079, "episode/score": 12.099999986588955}
+{"step": 734135, "episode/score": 6.099999986588955}
+{"step": 734324, "episode/score": 9.099999986588955}
+{"step": 734633, "episode/score": 12.099999986588955}
+{"step": 734933, "episode/score": 11.099999964237213}
+{"step": 735098, "episode/score": 10.099999986588955}
+{"step": 735275, "episode/score": 10.100000001490116}
+{"step": 735458, "episode/score": 12.100000001490116}
+{"step": 735649, "episode/score": 8.099999986588955}
+{"step": 735816, "episode/score": 8.099999986588955}
+{"step": 736209, "episode/score": 8.099999964237213}
+{"step": 736416, "episode/score": 13.1000000461936}
+{"step": 736630, "episode/score": 12.099999986588955}
+{"step": 736855, "episode/score": 12.099999986588955}
+{"step": 737065, "episode/score": 8.099999986588955}
+{"step": 737434, "episode/score": 15.099999986588955}
+{"step": 737631, "episode/score": 10.099999986588955}
+{"step": 737861, "episode/score": 14.099999986588955}
+{"step": 738130, "episode/score": 14.099999964237213}
+{"step": 738313, "episode/score": 11.100000001490116}
+{"step": 738614, "episode/score": 8.099999986588955}
+{"step": 738806, "episode/score": 10.099999986588955}
+{"step": 738985, "episode/score": 8.100000001490116}
+{"step": 739149, "episode/score": 8.099999986588955}
+{"step": 739345, "episode/score": 12.099999986588955}
+{"step": 739534, "episode/score": 12.099999986588955}
+{"step": 739737, "episode/score": 13.099999986588955}
+{"step": 739924, "episode/score": 10.099999986588955}
+{"step": 740151, "episode/score": 14.100000001490116}
+{"step": 740350, "episode/score": 10.099999986588955}
+{"step": 740568, "episode/score": 10.100000001490116}
+{"step": 740779, "episode/score": 12.100000008940697}
+{"step": 741010, "episode/score": 12.099999986588955}
+{"step": 741196, "episode/score": 8.099999979138374}
+{"step": 741402, "episode/score": 11.099999986588955}
+{"step": 741617, "episode/score": 10.100000001490116}
+{"step": 741767, "episode/score": 6.099999986588955}
+{"step": 741924, "episode/score": 11.099999986588955}
+{"step": 742157, "episode/score": 15.100000001490116}
+{"step": 742378, "episode/score": 14.100000001490116}
+{"step": 742578, "episode/score": 10.099999986588955}
+{"step": 742730, "episode/score": 11.099999986588955}
+{"step": 742993, "episode/score": 12.100000031292439}
+{"step": 743194, "episode/score": 12.099999986588955}
+{"step": 743415, "episode/score": 11.100000001490116}
+{"step": 743649, "episode/score": 13.100000008940697}
+{"step": 743813, "episode/score": 11.099999986588955}
+{"step": 744037, "episode/score": 14.099999986588955}
+{"step": 744188, "episode/score": 6.099999986588955}
+{"step": 744447, "episode/score": 12.099999986588955}
+{"step": 744608, "episode/score": 11.099999986588955}
+{"step": 744662, "episode/score": 6.099999986588955}
+{"step": 744827, "episode/score": 9.100000001490116}
+{"step": 745014, "episode/score": 11.099999986588955}
+{"step": 745298, "episode/score": 13.099999986588955}
+{"step": 745479, "episode/score": 14.100000001490116}
+{"step": 745693, "episode/score": 13.100000008940697}
+{"step": 745851, "episode/score": 9.099999986588955}
+{"step": 746021, "episode/score": 10.099999986588955}
+{"step": 746202, "episode/score": 12.099999986588955}
+{"step": 746570, "episode/score": 8.099999986588955}
+{"step": 746635, "episode/score": 4.100000008940697}
+{"step": 746684, "episode/score": 5.100000001490116}
+{"step": 746930, "episode/score": 14.099999986588955}
+{"step": 747103, "episode/score": 9.099999986588955}
+{"step": 747266, "episode/score": 9.099999986588955}
+{"step": 747499, "episode/score": 12.099999986588955}
+{"step": 747679, "episode/score": 11.100000008940697}
+{"step": 747880, "episode/score": 12.099999986588955}
+{"step": 748074, "episode/score": 12.100000001490116}
+{"step": 748264, "episode/score": 11.099999979138374}
+{"step": 748462, "episode/score": 12.099999986588955}
+{"step": 748663, "episode/score": 10.099999986588955}
+{"step": 748862, "episode/score": 13.100000001490116}
+{"step": 749074, "episode/score": 13.100000001490116}
+{"step": 749340, "episode/score": 14.099999986588955}
+{"step": 749525, "episode/score": 10.099999986588955}
+{"step": 749798, "episode/score": 13.100000001490116}
+{"step": 750063, "episode/score": 13.100000008940697}
+{"step": 750325, "episode/score": 13.100000008940697}
+{"step": 750495, "episode/score": 9.099999986588955}
+{"step": 750782, "episode/score": 12.099999986588955}
+{"step": 751013, "episode/score": 13.100000001490116}
+{"step": 751221, "episode/score": 12.099999986588955}
+{"step": 751527, "episode/score": 9.100000008940697}
+{"step": 751820, "episode/score": 12.099999986588955}
+{"step": 752012, "episode/score": 9.099999964237213}
+{"step": 752205, "episode/score": 10.099999994039536}
+{"step": 752395, "episode/score": 10.099999979138374}
+{"step": 752580, "episode/score": 10.100000001490116}
+{"step": 752749, "episode/score": 11.099999986588955}
+{"step": 753055, "episode/score": 13.099999979138374}
+{"step": 753270, "episode/score": 14.100000001490116}
+{"step": 753508, "episode/score": 15.099999986588955}
+{"step": 753709, "episode/score": 12.100000001490116}
+{"step": 753886, "episode/score": 11.099999986588955}
+{"step": 754023, "episode/score": 8.100000001490116}
+{"step": 754186, "episode/score": 11.099999986588955}
+{"step": 754226, "episode/score": 4.100000023841858}
+{"step": 754378, "episode/score": 11.099999986588955}
+{"step": 754482, "episode/score": 9.099999986588955}
+{"step": 754726, "episode/score": 14.100000023841858}
+{"step": 755040, "episode/score": 13.100000001490116}
+{"step": 755192, "episode/score": 11.100000023841858}
+{"step": 755435, "episode/score": 13.099999986588955}
+{"step": 755610, "episode/score": 12.099999986588955}
+{"step": 755831, "episode/score": 13.100000023841858}
+{"step": 756012, "episode/score": 9.099999986588955}
+{"step": 756277, "episode/score": 8.100000031292439}
+{"step": 756530, "episode/score": 14.100000001490116}
+{"step": 756757, "episode/score": 10.099999986588955}
+{"step": 756921, "episode/score": 12.099999986588955}
+{"step": 757112, "episode/score": 8.099999986588955}
+{"step": 757314, "episode/score": 12.099999986588955}
+{"step": 757552, "episode/score": 11.099999986588955}
+{"step": 757729, "episode/score": 13.099999994039536}
+{"step": 757978, "episode/score": 12.099999986588955}
+{"step": 758287, "episode/score": 14.099999964237213}
+{"step": 758470, "episode/score": 12.099999986588955}
+{"step": 758662, "episode/score": 10.099999986588955}
+{"step": 758876, "episode/score": 14.099999986588955}
+{"step": 758964, "episode/score": 11.100000023841858}
+{"step": 759130, "episode/score": 11.099999986588955}
+{"step": 759362, "episode/score": 13.100000031292439}
+{"step": 759559, "episode/score": 12.099999964237213}
+{"step": 759789, "episode/score": 14.099999964237213}
+{"step": 759850, "episode/score": 6.099999986588955}
+{"step": 760110, "episode/score": 11.100000008940697}
+{"step": 760377, "episode/score": 12.099999986588955}
+{"step": 760617, "episode/score": 12.099999986588955}
+{"step": 760833, "episode/score": 15.099999986588955}
+{"step": 760949, "episode/score": 9.099999986588955}
+{"step": 761184, "episode/score": 12.099999986588955}
+{"step": 761412, "episode/score": 13.100000001490116}
+{"step": 761671, "episode/score": 13.099999986588955}
+{"step": 761835, "episode/score": 11.100000001490116}
+{"step": 762026, "episode/score": 13.099999986588955}
+{"step": 762271, "episode/score": 11.099999986588955}
+{"step": 762484, "episode/score": 11.099999986588955}
+{"step": 762669, "episode/score": 11.099999986588955}
+{"step": 762724, "episode/score": 7.100000016391277}
+{"step": 762975, "episode/score": 7.099999971687794}
+{"step": 763156, "episode/score": 13.099999964237213}
+{"step": 763326, "episode/score": 9.099999986588955}
+{"step": 763538, "episode/score": 14.100000016391277}
+{"step": 763599, "episode/score": 7.100000001490116}
+{"step": 763786, "episode/score": 13.100000008940697}
+{"step": 763991, "episode/score": 15.100000016391277}
+{"step": 764267, "episode/score": 12.100000008940697}
+{"step": 764449, "episode/score": 12.099999986588955}
+{"step": 764668, "episode/score": 12.100000016391277}
+{"step": 764869, "episode/score": 13.100000001490116}
+{"step": 765068, "episode/score": 12.100000001490116}
+{"step": 765425, "episode/score": 9.099999986588955}
+{"step": 765673, "episode/score": 10.099999986588955}
+{"step": 765831, "episode/score": 3.1000000089406967}
+{"step": 766026, "episode/score": 10.099999986588955}
+{"step": 766241, "episode/score": 11.099999986588955}
+{"step": 766535, "episode/score": 13.099999986588955}
+{"step": 766709, "episode/score": 10.099999986588955}
+{"step": 766935, "episode/score": 15.100000001490116}
+{"step": 767125, "episode/score": 13.099999986588955}
+{"step": 767326, "episode/score": 12.099999986588955}
+{"step": 767560, "episode/score": 15.100000001490116}
+{"step": 767943, "episode/score": 14.099999986588955}
+{"step": 768002, "episode/score": 4.099999971687794}
+{"step": 768222, "episode/score": 11.099999986588955}
+{"step": 768415, "episode/score": 11.099999986588955}
+{"step": 768612, "episode/score": 13.100000016391277}
+{"step": 768764, "episode/score": 9.099999986588955}
+{"step": 769023, "episode/score": 14.099999986588955}
+{"step": 769126, "episode/score": 8.100000023841858}
+{"step": 769434, "episode/score": 10.099999986588955}
+{"step": 769476, "episode/score": 4.100000001490116}
+{"step": 769669, "episode/score": 13.099999986588955}
+{"step": 769869, "episode/score": 13.099999986588955}
+{"step": 770079, "episode/score": 12.099999986588955}
+{"step": 770241, "episode/score": 9.100000023841858}
+{"step": 770665, "episode/score": 13.099999986588955}
+{"step": 770863, "episode/score": 10.099999986588955}
+{"step": 771047, "episode/score": 8.099999986588955}
+{"step": 771282, "episode/score": 13.099999986588955}
+{"step": 771483, "episode/score": 11.099999986588955}
+{"step": 771669, "episode/score": 11.100000031292439}
+{"step": 771822, "episode/score": 9.099999986588955}
+{"step": 772027, "episode/score": 10.099999986588955}
+{"step": 772307, "episode/score": 11.099999986588955}
+{"step": 772456, "episode/score": 10.099999986588955}
+{"step": 772651, "episode/score": 10.100000001490116}
+{"step": 772895, "episode/score": 14.100000023841858}
+{"step": 773125, "episode/score": 12.099999986588955}
+{"step": 773366, "episode/score": 14.100000008940697}
+{"step": 773547, "episode/score": 12.099999986588955}
+{"step": 773799, "episode/score": 12.099999986588955}
+{"step": 774149, "episode/score": 12.099999986588955}
+{"step": 774353, "episode/score": 10.099999986588955}
+{"step": 774578, "episode/score": 12.099999994039536}
+{"step": 774708, "episode/score": 10.100000008940697}
+{"step": 774911, "episode/score": 12.100000008940697}
+{"step": 775136, "episode/score": 14.099999986588955}
+{"step": 775369, "episode/score": 13.099999986588955}
+{"step": 775573, "episode/score": 14.100000008940697}
+{"step": 775761, "episode/score": 13.100000008940697}
+{"step": 775947, "episode/score": 14.100000001490116}
+{"step": 776171, "episode/score": 12.100000016391277}
+{"step": 776414, "episode/score": 10.099999986588955}
+{"step": 776656, "episode/score": 13.099999986588955}
+{"step": 776836, "episode/score": 10.099999986588955}
+{"step": 777006, "episode/score": 7.099999986588955}
+{"step": 777171, "episode/score": 10.099999986588955}
+{"step": 777447, "episode/score": 14.100000001490116}
+{"step": 777643, "episode/score": 14.100000001490116}
+{"step": 777846, "episode/score": 14.100000001490116}
+{"step": 778085, "episode/score": 10.099999994039536}
+{"step": 778338, "episode/score": 15.099999986588955}
+{"step": 778504, "episode/score": 12.099999986588955}
+{"step": 778788, "episode/score": 14.099999986588955}
+{"step": 778954, "episode/score": 9.100000023841858}
+{"step": 779015, "episode/score": 6.100000008940697}
+{"step": 779277, "episode/score": 14.099999986588955}
+{"step": 779546, "episode/score": 13.099999986588955}
+{"step": 779633, "episode/score": 8.100000023841858}
+{"step": 779851, "episode/score": 12.100000001490116}
+{"step": 780078, "episode/score": 14.100000001490116}
+{"step": 780322, "episode/score": 14.099999986588955}
+{"step": 780559, "episode/score": 15.099999986588955}
+{"step": 780795, "episode/score": 15.100000023841858}
+{"step": 780980, "episode/score": 10.099999986588955}
+{"step": 781150, "episode/score": 10.099999986588955}
+{"step": 781436, "episode/score": 11.099999986588955}
+{"step": 781630, "episode/score": 12.099999986588955}
+{"step": 781800, "episode/score": 12.099999986588955}
+{"step": 782018, "episode/score": 13.099999986588955}
+{"step": 782307, "episode/score": 12.099999986588955}
+{"step": 782520, "episode/score": 8.099999971687794}
+{"step": 782553, "episode/score": 4.100000023841858}
+{"step": 782784, "episode/score": 15.099999986588955}
+{"step": 783054, "episode/score": 14.099999986588955}
+{"step": 783279, "episode/score": 11.100000008940697}
+{"step": 783481, "episode/score": 12.100000008940697}
+{"step": 783754, "episode/score": 11.099999971687794}
+{"step": 784029, "episode/score": 8.099999986588955}
+{"step": 784214, "episode/score": 15.100000008940697}
+{"step": 784653, "episode/score": 13.099999964237213}
+{"step": 785099, "episode/score": 11.099999986588955}
+{"step": 785311, "episode/score": 12.099999986588955}
+{"step": 785545, "episode/score": 10.100000023841858}
+{"step": 785711, "episode/score": 10.099999986588955}
+{"step": 785991, "episode/score": 14.100000008940697}
+{"step": 786181, "episode/score": 13.100000001490116}
+{"step": 786337, "episode/score": 12.099999986588955}
+{"step": 786508, "episode/score": 12.099999986588955}
+{"step": 786714, "episode/score": 11.100000016391277}
+{"step": 786987, "episode/score": 13.099999986588955}
+{"step": 787255, "episode/score": 11.099999986588955}
+{"step": 787649, "episode/score": 14.099999986588955}
+{"step": 787916, "episode/score": 14.099999994039536}
+{"step": 788089, "episode/score": 8.099999986588955}
+{"step": 788396, "episode/score": 10.099999986588955}
+{"step": 788565, "episode/score": 10.099999986588955}
+{"step": 788770, "episode/score": 11.099999986588955}
+{"step": 788974, "episode/score": 14.099999986588955}
+{"step": 789025, "episode/score": 4.099999986588955}
+{"step": 789072, "episode/score": 6.100000001490116}
+{"step": 789287, "episode/score": 15.100000023841858}
+{"step": 789483, "episode/score": 9.100000001490116}
+{"step": 789668, "episode/score": 8.099999986588955}
+{"step": 789902, "episode/score": 14.099999986588955}
+{"step": 790224, "episode/score": 15.100000001490116}
+{"step": 790456, "episode/score": 13.099999986588955}
+{"step": 790645, "episode/score": 9.100000001490116}
+{"step": 790828, "episode/score": 14.099999986588955}
+{"step": 790916, "episode/score": 9.099999986588955}
+{"step": 791151, "episode/score": 9.100000001490116}
+{"step": 791385, "episode/score": 12.099999971687794}
+{"step": 791614, "episode/score": 14.099999986588955}
+{"step": 791852, "episode/score": 14.099999994039536}
+{"step": 792101, "episode/score": 12.099999986588955}
+{"step": 792269, "episode/score": 12.099999986588955}
+{"step": 792518, "episode/score": 13.099999979138374}
+{"step": 792695, "episode/score": 13.099999986588955}
+{"step": 793183, "episode/score": 14.100000023841858}
+{"step": 793369, "episode/score": 12.100000001490116}
+{"step": 793572, "episode/score": 15.100000016391277}
+{"step": 793720, "episode/score": 10.099999986588955}
+{"step": 793811, "episode/score": 6.100000001490116}
+{"step": 794025, "episode/score": 11.099999994039536}
+{"step": 794244, "episode/score": 13.099999986588955}
+{"step": 794400, "episode/score": 14.100000008940697}
+{"step": 794598, "episode/score": 14.100000001490116}
+{"step": 794819, "episode/score": 13.100000008940697}
+{"step": 795023, "episode/score": 13.099999964237213}
+{"step": 795224, "episode/score": 12.099999986588955}
+{"step": 795372, "episode/score": 12.100000008940697}
+{"step": 795539, "episode/score": 10.100000001490116}
+{"step": 795744, "episode/score": 8.099999986588955}
+{"step": 795997, "episode/score": 14.099999986588955}
+{"step": 796178, "episode/score": 6.099999979138374}
+{"step": 796410, "episode/score": 8.099999986588955}
+{"step": 796902, "episode/score": 16.100000001490116}
+{"step": 797118, "episode/score": 12.099999986588955}
+{"step": 797319, "episode/score": 13.100000023841858}
+{"step": 797499, "episode/score": 11.099999986588955}
+{"step": 797754, "episode/score": 15.100000001490116}
+{"step": 798042, "episode/score": 15.099999986588955}
+{"step": 798234, "episode/score": 13.100000001490116}
+{"step": 798427, "episode/score": 13.099999964237213}
+{"step": 798618, "episode/score": 15.100000001490116}
+{"step": 798663, "episode/score": 2.100000001490116}
+{"step": 798888, "episode/score": 12.099999986588955}
+{"step": 799072, "episode/score": 7.100000001490116}
+{"step": 799285, "episode/score": 14.099999986588955}
+{"step": 799539, "episode/score": 11.100000031292439}
+{"step": 799778, "episode/score": 13.100000001490116}
+{"step": 799949, "episode/score": 14.100000001490116}
+{"step": 800244, "episode/score": 8.100000001490116}
+{"step": 800580, "episode/score": 14.099999986588955}
+{"step": 800745, "episode/score": 9.099999986588955}
+{"step": 800939, "episode/score": 12.100000001490116}
+{"step": 801297, "episode/score": 10.099999986588955}
+{"step": 801665, "episode/score": 15.099999986588955}
+{"step": 801827, "episode/score": 12.100000023841858}
+{"step": 802035, "episode/score": 13.099999986588955}
+{"step": 802244, "episode/score": 14.099999986588955}
+{"step": 802432, "episode/score": 14.099999986588955}
+{"step": 802721, "episode/score": 15.100000001490116}
+{"step": 802899, "episode/score": 10.100000001490116}
+{"step": 803110, "episode/score": 14.099999986588955}
+{"step": 803374, "episode/score": 12.100000008940697}
+{"step": 803582, "episode/score": 9.099999986588955}
+{"step": 803807, "episode/score": 13.099999986588955}
+{"step": 804209, "episode/score": 14.099999986588955}
+{"step": 804454, "episode/score": 14.099999986588955}
+{"step": 804662, "episode/score": 13.099999986588955}
+{"step": 804896, "episode/score": 12.099999986588955}
+{"step": 805063, "episode/score": 12.100000001490116}
+{"step": 805259, "episode/score": 12.099999986588955}
+{"step": 805305, "episode/score": 1.1000000089406967}
+{"step": 805516, "episode/score": 8.099999986588955}
+{"step": 805736, "episode/score": 10.099999986588955}
+{"step": 805887, "episode/score": 8.099999986588955}
+{"step": 806040, "episode/score": 11.099999979138374}
+{"step": 806276, "episode/score": 14.100000001490116}
+{"step": 806472, "episode/score": 13.100000001490116}
+{"step": 806695, "episode/score": 15.099999986588955}
+{"step": 806876, "episode/score": 11.099999986588955}
+{"step": 807060, "episode/score": 11.100000008940697}
+{"step": 807246, "episode/score": 13.099999986588955}
+{"step": 807412, "episode/score": 5.100000008940697}
+{"step": 807666, "episode/score": 11.099999986588955}
+{"step": 807842, "episode/score": 12.100000008940697}
+{"step": 807982, "episode/score": 9.100000008940697}
+{"step": 808191, "episode/score": 11.099999986588955}
+{"step": 808341, "episode/score": 10.099999986588955}
+{"step": 808553, "episode/score": 14.099999964237213}
+{"step": 808764, "episode/score": 11.099999986588955}
+{"step": 808937, "episode/score": 10.099999986588955}
+{"step": 808979, "episode/score": 3.0999999940395355}
+{"step": 809236, "episode/score": 13.100000008940697}
+{"step": 809297, "episode/score": 6.100000023841858}
+{"step": 809475, "episode/score": 11.100000001490116}
+{"step": 809698, "episode/score": 6.100000008940697}
+{"step": 809875, "episode/score": 12.100000001490116}
+{"step": 810075, "episode/score": 10.100000001490116}
+{"step": 810271, "episode/score": 13.100000001490116}
+{"step": 810447, "episode/score": 11.099999986588955}
+{"step": 810861, "episode/score": 16.099999986588955}
+{"step": 811145, "episode/score": 12.100000008940697}
+{"step": 811258, "episode/score": 5.099999986588955}
+{"step": 811440, "episode/score": 11.099999986588955}
+{"step": 811654, "episode/score": 14.100000008940697}
+{"step": 811926, "episode/score": 13.099999986588955}
+{"step": 812103, "episode/score": 10.100000001490116}
+{"step": 812190, "episode/score": 6.100000001490116}
+{"step": 812397, "episode/score": 13.100000001490116}
+{"step": 812650, "episode/score": 14.100000008940697}
+{"step": 812821, "episode/score": 8.099999986588955}
+{"step": 812867, "episode/score": 4.100000001490116}
+{"step": 813020, "episode/score": 10.099999986588955}
+{"step": 813202, "episode/score": 14.100000008940697}
+{"step": 813525, "episode/score": 13.099999986588955}
+{"step": 813745, "episode/score": 14.099999986588955}
+{"step": 814015, "episode/score": 13.100000031292439}
+{"step": 814241, "episode/score": 13.100000001490116}
+{"step": 814387, "episode/score": 9.099999986588955}
+{"step": 814626, "episode/score": 14.099999986588955}
+{"step": 814833, "episode/score": 13.100000001490116}
+{"step": 814980, "episode/score": 9.099999986588955}
+{"step": 815139, "episode/score": 11.099999986588955}
+{"step": 815331, "episode/score": 10.100000016391277}
+{"step": 815471, "episode/score": 10.099999986588955}
+{"step": 815676, "episode/score": 14.099999986588955}
+{"step": 815903, "episode/score": 11.099999986588955}
+{"step": 816038, "episode/score": 10.099999986588955}
+{"step": 816369, "episode/score": 13.099999986588955}
+{"step": 816584, "episode/score": 5.099999986588955}
+{"step": 816731, "episode/score": 13.100000016391277}
+{"step": 816954, "episode/score": 12.100000008940697}
+{"step": 817186, "episode/score": 11.100000016391277}
+{"step": 817385, "episode/score": 12.100000001490116}
+{"step": 817764, "episode/score": 12.099999986588955}
+{"step": 817980, "episode/score": 14.100000016391277}
+{"step": 818190, "episode/score": 12.099999986588955}
+{"step": 818374, "episode/score": 10.099999986588955}
+{"step": 818409, "episode/score": 5.100000023841858}
+{"step": 818503, "episode/score": 6.099999986588955}
+{"step": 818714, "episode/score": 8.100000008940697}
+{"step": 818888, "episode/score": 12.100000008940697}
+{"step": 819177, "episode/score": 12.099999986588955}
+{"step": 819347, "episode/score": 15.100000001490116}
+{"step": 819604, "episode/score": 13.100000023841858}
+{"step": 819803, "episode/score": 14.100000008940697}
+{"step": 819979, "episode/score": 11.100000008940697}
+{"step": 820139, "episode/score": 8.099999986588955}
+{"step": 820338, "episode/score": 13.099999994039536}
+{"step": 820503, "episode/score": 12.099999986588955}
+{"step": 820694, "episode/score": 12.099999986588955}
+{"step": 820782, "episode/score": 3.099999986588955}
+{"step": 820969, "episode/score": 12.099999986588955}
+{"step": 821189, "episode/score": 12.099999986588955}
+{"step": 821380, "episode/score": 12.099999986588955}
+{"step": 821641, "episode/score": 14.099999986588955}
+{"step": 821889, "episode/score": 12.100000001490116}
+{"step": 822053, "episode/score": 12.100000001490116}
+{"step": 822237, "episode/score": 14.100000001490116}
+{"step": 822448, "episode/score": 14.100000001490116}
+{"step": 822574, "episode/score": 10.100000023841858}
+{"step": 822790, "episode/score": 14.100000001490116}
+{"step": 822960, "episode/score": 8.099999986588955}
+{"step": 823196, "episode/score": 11.099999986588955}
+{"step": 823334, "episode/score": 10.100000023841858}
+{"step": 823493, "episode/score": 12.099999986588955}
+{"step": 823645, "episode/score": 3.099999986588955}
+{"step": 824074, "episode/score": 13.100000001490116}
+{"step": 824270, "episode/score": 10.099999986588955}
+{"step": 824514, "episode/score": 14.099999986588955}
+{"step": 824765, "episode/score": 12.099999979138374}
+{"step": 824914, "episode/score": 7.099999986588955}
+{"step": 825158, "episode/score": 15.099999986588955}
+{"step": 825320, "episode/score": 13.100000001490116}
+{"step": 825537, "episode/score": 13.099999986588955}
+{"step": 825680, "episode/score": 10.099999986588955}
+{"step": 825872, "episode/score": 10.100000001490116}
+{"step": 826093, "episode/score": 15.099999994039536}
+{"step": 826272, "episode/score": 14.099999986588955}
+{"step": 826473, "episode/score": 11.100000008940697}
+{"step": 826692, "episode/score": 11.100000016391277}
+{"step": 826876, "episode/score": 4.099999986588955}
+{"step": 827140, "episode/score": 10.100000001490116}
+{"step": 827374, "episode/score": 12.100000001490116}
+{"step": 827590, "episode/score": 14.099999986588955}
+{"step": 827783, "episode/score": 8.100000001490116}
+{"step": 828001, "episode/score": 11.099999986588955}
+{"step": 828683, "episode/score": 15.100000023841858}
+{"step": 828886, "episode/score": 12.100000023841858}
+{"step": 829134, "episode/score": 15.099999986588955}
+{"step": 829384, "episode/score": 11.099999994039536}
+{"step": 829712, "episode/score": 14.100000001490116}
+{"step": 830097, "episode/score": 14.099999986588955}
+{"step": 830263, "episode/score": 5.100000001490116}
+{"step": 830460, "episode/score": 7.100000008940697}
+{"step": 830590, "episode/score": 11.100000023841858}
+{"step": 830826, "episode/score": 13.099999971687794}
+{"step": 830985, "episode/score": 12.100000016391277}
+{"step": 831351, "episode/score": 14.099999986588955}
+{"step": 831625, "episode/score": 13.100000001490116}
+{"step": 831841, "episode/score": 11.099999986588955}
+{"step": 832029, "episode/score": 14.099999986588955}
+{"step": 832251, "episode/score": 12.100000001490116}
+{"step": 832479, "episode/score": 13.100000001490116}
+{"step": 832694, "episode/score": 13.100000001490116}
+{"step": 832868, "episode/score": 14.100000023841858}
+{"step": 833134, "episode/score": 13.100000016391277}
+{"step": 833304, "episode/score": 11.099999986588955}
+{"step": 833771, "episode/score": 12.099999986588955}
+{"step": 833836, "episode/score": 7.100000008940697}
+{"step": 834055, "episode/score": 15.099999986588955}
+{"step": 834359, "episode/score": 11.099999986588955}
+{"step": 834604, "episode/score": 14.099999986588955}
+{"step": 834800, "episode/score": 12.100000001490116}
+{"step": 835005, "episode/score": 13.099999986588955}
+{"step": 835235, "episode/score": 14.100000001490116}
+{"step": 835410, "episode/score": 14.099999986588955}
+{"step": 835621, "episode/score": 14.100000001490116}
+{"step": 835844, "episode/score": 15.100000001490116}
+{"step": 836082, "episode/score": 13.100000001490116}
+{"step": 836281, "episode/score": 13.100000016391277}
+{"step": 836590, "episode/score": 13.100000016391277}
+{"step": 836729, "episode/score": 10.100000001490116}
+{"step": 836869, "episode/score": 10.100000001490116}
+{"step": 837078, "episode/score": 12.099999971687794}
+{"step": 837409, "episode/score": 10.099999986588955}
+{"step": 837629, "episode/score": 14.099999986588955}
+{"step": 837838, "episode/score": 12.100000068545341}
+{"step": 838070, "episode/score": 16.100000001490116}
+{"step": 838211, "episode/score": 10.100000001490116}
+{"step": 838464, "episode/score": 13.099999986588955}
+{"step": 838509, "episode/score": 4.099999986588955}
+{"step": 838692, "episode/score": 11.099999986588955}
+{"step": 838994, "episode/score": 8.099999994039536}
+{"step": 839201, "episode/score": 10.100000008940697}
+{"step": 839427, "episode/score": 10.099999986588955}
+{"step": 839542, "episode/score": 8.100000023841858}
+{"step": 839725, "episode/score": 14.099999986588955}
+{"step": 840058, "episode/score": 16.099999986588955}
+{"step": 840266, "episode/score": 5.099999986588955}
+{"step": 840350, "episode/score": 5.099999986588955}
+{"step": 840532, "episode/score": 11.099999986588955}
+{"step": 840734, "episode/score": 14.099999986588955}
+{"step": 840964, "episode/score": 14.099999986588955}
+{"step": 841129, "episode/score": 9.099999964237213}
+{"step": 841288, "episode/score": 10.099999979138374}
+{"step": 841544, "episode/score": 16.10000003129244}
+{"step": 841710, "episode/score": 12.099999979138374}
+{"step": 841846, "episode/score": 11.099999964237213}
+{"step": 842006, "episode/score": 11.099999986588955}
+{"step": 842184, "episode/score": 9.100000001490116}
+{"step": 842367, "episode/score": 10.100000001490116}
+{"step": 842576, "episode/score": 14.099999994039536}
+{"step": 842749, "episode/score": 5.099999986588955}
+{"step": 842945, "episode/score": 12.100000008940697}
+{"step": 843205, "episode/score": 14.100000023841858}
+{"step": 843373, "episode/score": 11.100000001490116}
+{"step": 843556, "episode/score": 8.099999986588955}
+{"step": 843710, "episode/score": 12.099999986588955}
+{"step": 843942, "episode/score": 14.099999986588955}
+{"step": 844160, "episode/score": 12.099999986588955}
+{"step": 844341, "episode/score": 10.100000001490116}
+{"step": 844590, "episode/score": 13.099999986588955}
+{"step": 844760, "episode/score": 11.099999986588955}
+{"step": 844960, "episode/score": 12.100000023841858}
+{"step": 845181, "episode/score": 11.099999986588955}
+{"step": 845421, "episode/score": 13.100000008940697}
+{"step": 845695, "episode/score": 13.099999986588955}
+{"step": 845833, "episode/score": 10.100000023841858}
+{"step": 846032, "episode/score": 8.099999986588955}
+{"step": 846354, "episode/score": 13.099999979138374}
+{"step": 846553, "episode/score": 12.100000001490116}
+{"step": 846783, "episode/score": 14.099999986588955}
+{"step": 847387, "episode/score": 13.099999986588955}
+{"step": 847449, "episode/score": 6.100000001490116}
+{"step": 847700, "episode/score": 14.100000001490116}
+{"step": 847874, "episode/score": 12.099999986588955}
+{"step": 848144, "episode/score": 14.099999986588955}
+{"step": 848205, "episode/score": 3.1000000089406967}
+{"step": 848428, "episode/score": 13.100000001490116}
+{"step": 848616, "episode/score": 13.099999986588955}
+{"step": 848806, "episode/score": 12.099999986588955}
+{"step": 849016, "episode/score": 14.099999986588955}
+{"step": 849277, "episode/score": 12.100000008940697}
+{"step": 849481, "episode/score": 11.099999986588955}
+{"step": 849722, "episode/score": 13.100000023841858}
+{"step": 849927, "episode/score": 13.099999986588955}
+{"step": 850224, "episode/score": 15.100000023841858}
+{"step": 850416, "episode/score": 12.099999986588955}
+{"step": 850615, "episode/score": 10.099999986588955}
+{"step": 850862, "episode/score": 14.100000031292439}
+{"step": 851124, "episode/score": 11.099999971687794}
+{"step": 851433, "episode/score": 8.100000008940697}
+{"step": 851630, "episode/score": 14.100000001490116}
+{"step": 851794, "episode/score": 11.100000001490116}
+{"step": 851845, "episode/score": 7.099999986588955}
+{"step": 851920, "episode/score": 6.099999986588955}
+{"step": 852259, "episode/score": 14.099999986588955}
+{"step": 852479, "episode/score": 14.100000023841858}
+{"step": 852692, "episode/score": 13.099999986588955}
+{"step": 852871, "episode/score": 11.100000016391277}
+{"step": 853184, "episode/score": 14.100000008940697}
+{"step": 853421, "episode/score": 9.099999986588955}
+{"step": 853463, "episode/score": 4.099999986588955}
+{"step": 853606, "episode/score": 12.099999986588955}
+{"step": 853825, "episode/score": 14.100000001490116}
+{"step": 854127, "episode/score": 14.099999986588955}
+{"step": 854331, "episode/score": 8.099999986588955}
+{"step": 854614, "episode/score": 13.099999986588955}
+{"step": 854858, "episode/score": 14.099999986588955}
+{"step": 855064, "episode/score": 13.099999979138374}
+{"step": 855287, "episode/score": 12.099999986588955}
+{"step": 855376, "episode/score": 9.100000023841858}
+{"step": 855476, "episode/score": 9.100000001490116}
+{"step": 855684, "episode/score": 13.099999986588955}
+{"step": 855879, "episode/score": 13.099999986588955}
+{"step": 856146, "episode/score": 9.100000008940697}
+{"step": 856261, "episode/score": 10.100000023841858}
+{"step": 856530, "episode/score": 12.100000008940697}
+{"step": 856811, "episode/score": 14.099999986588955}
+{"step": 857064, "episode/score": 13.099999986588955}
+{"step": 857358, "episode/score": 14.100000008940697}
+{"step": 857566, "episode/score": 14.100000023841858}
+{"step": 857755, "episode/score": 12.100000008940697}
+{"step": 857923, "episode/score": 14.099999979138374}
+{"step": 858092, "episode/score": 12.099999986588955}
+{"step": 858133, "episode/score": -0.9000000134110451}
+{"step": 858352, "episode/score": 14.099999986588955}
+{"step": 858446, "episode/score": 9.100000008940697}
+{"step": 858637, "episode/score": 10.100000001490116}
+{"step": 858862, "episode/score": 12.100000001490116}
+{"step": 859061, "episode/score": 13.100000001490116}
+{"step": 859240, "episode/score": 7.099999986588955}
+{"step": 859323, "episode/score": 7.099999971687794}
+{"step": 859514, "episode/score": 8.100000001490116}
+{"step": 859760, "episode/score": 15.099999986588955}
+{"step": 859879, "episode/score": 10.099999986588955}
+{"step": 860056, "episode/score": 13.099999986588955}
+{"step": 860329, "episode/score": 14.099999986588955}
+{"step": 860530, "episode/score": 15.099999979138374}
+{"step": 860769, "episode/score": 15.099999986588955}
+{"step": 860966, "episode/score": 13.100000023841858}
+{"step": 861142, "episode/score": 10.100000001490116}
+{"step": 861301, "episode/score": 11.099999986588955}
+{"step": 861488, "episode/score": 8.099999986588955}
+{"step": 861752, "episode/score": 12.100000001490116}
+{"step": 861842, "episode/score": 9.100000023841858}
+{"step": 861990, "episode/score": 10.099999986588955}
+{"step": 862146, "episode/score": 9.099999986588955}
+{"step": 862202, "episode/score": 6.100000008940697}
+{"step": 862416, "episode/score": 5.099999979138374}
+{"step": 862518, "episode/score": 7.099999986588955}
+{"step": 862772, "episode/score": 13.100000008940697}
+{"step": 862980, "episode/score": 14.099999964237213}
+{"step": 863200, "episode/score": 11.100000008940697}
+{"step": 863378, "episode/score": 9.100000001490116}
+{"step": 863874, "episode/score": 14.100000016391277}
+{"step": 864118, "episode/score": 14.100000001490116}
+{"step": 864284, "episode/score": 9.099999986588955}
+{"step": 864558, "episode/score": 13.099999986588955}
+{"step": 864621, "episode/score": 7.099999986588955}
+{"step": 864823, "episode/score": 14.100000001490116}
+{"step": 865024, "episode/score": 14.099999994039536}
+{"step": 865098, "episode/score": 7.100000008940697}
+{"step": 865364, "episode/score": 13.099999986588955}
+{"step": 865595, "episode/score": 11.099999986588955}
+{"step": 865678, "episode/score": 7.100000023841858}
+{"step": 865739, "episode/score": 6.099999979138374}
+{"step": 865965, "episode/score": 14.099999986588955}
+{"step": 866157, "episode/score": 12.099999986588955}
+{"step": 866323, "episode/score": 11.099999986588955}
+{"step": 866487, "episode/score": 11.100000001490116}
+{"step": 866670, "episode/score": 12.099999971687794}
+{"step": 866868, "episode/score": 14.099999986588955}
+{"step": 867058, "episode/score": 10.099999964237213}
+{"step": 867103, "episode/score": 4.100000008940697}
+{"step": 867345, "episode/score": 13.100000001490116}
+{"step": 867485, "episode/score": 12.099999986588955}
+{"step": 867607, "episode/score": 9.100000023841858}
+{"step": 867792, "episode/score": 9.099999986588955}
+{"step": 867879, "episode/score": 7.100000023841858}
+{"step": 868152, "episode/score": 12.100000001490116}
+{"step": 868424, "episode/score": 12.099999986588955}
+{"step": 868652, "episode/score": 9.099999986588955}
+{"step": 868972, "episode/score": 15.099999986588955}
+{"step": 869206, "episode/score": 6.099999986588955}
+{"step": 869375, "episode/score": 10.099999979138374}
+{"step": 869634, "episode/score": 6.099999986588955}
+{"step": 869823, "episode/score": 11.099999986588955}
+{"step": 870111, "episode/score": 13.100000001490116}
+{"step": 870377, "episode/score": 10.099999986588955}
+{"step": 870701, "episode/score": 14.100000001490116}
+{"step": 870866, "episode/score": 12.100000001490116}
+{"step": 871091, "episode/score": 14.100000023841858}
+{"step": 871371, "episode/score": 13.099999986588955}
+{"step": 871534, "episode/score": 11.099999986588955}
+{"step": 871760, "episode/score": 13.100000001490116}
+{"step": 871930, "episode/score": 11.099999986588955}
+{"step": 872233, "episode/score": 13.099999986588955}
+{"step": 872428, "episode/score": 10.099999986588955}
+{"step": 872586, "episode/score": 9.099999986588955}
+{"step": 872787, "episode/score": 12.099999994039536}
+{"step": 872978, "episode/score": 11.099999986588955}
+{"step": 873209, "episode/score": 11.099999986588955}
+{"step": 873296, "episode/score": 8.099999986588955}
+{"step": 873481, "episode/score": 11.099999986588955}
+{"step": 873730, "episode/score": 10.099999986588955}
+{"step": 873868, "episode/score": 8.100000008940697}
+{"step": 873981, "episode/score": 9.100000023841858}
+{"step": 874192, "episode/score": 11.099999986588955}
+{"step": 874349, "episode/score": 10.099999986588955}
+{"step": 874517, "episode/score": 11.099999986588955}
+{"step": 874765, "episode/score": 12.099999986588955}
+{"step": 874998, "episode/score": 14.100000023841858}
+{"step": 875234, "episode/score": 13.099999986588955}
+{"step": 875494, "episode/score": 13.099999986588955}
+{"step": 875587, "episode/score": 5.099999986588955}
+{"step": 875818, "episode/score": 12.099999986588955}
+{"step": 876014, "episode/score": 11.099999986588955}
+{"step": 876075, "episode/score": 7.099999986588955}
+{"step": 876313, "episode/score": 13.099999986588955}
+{"step": 876525, "episode/score": 13.100000031292439}
+{"step": 876712, "episode/score": 9.099999986588955}
+{"step": 876932, "episode/score": 14.100000001490116}
+{"step": 877159, "episode/score": 13.100000031292439}
+{"step": 877408, "episode/score": 13.100000023841858}
+{"step": 877652, "episode/score": 14.099999986588955}
+{"step": 877847, "episode/score": 13.100000001490116}
+{"step": 878063, "episode/score": 13.100000001490116}
+{"step": 878265, "episode/score": 8.099999971687794}
+{"step": 878600, "episode/score": 9.099999986588955}
+{"step": 878832, "episode/score": 14.099999986588955}
+{"step": 879044, "episode/score": 13.099999971687794}
+{"step": 879262, "episode/score": 13.100000023841858}
+{"step": 879476, "episode/score": 14.099999986588955}
+{"step": 879650, "episode/score": 10.099999964237213}
+{"step": 879818, "episode/score": 8.099999986588955}
+{"step": 879997, "episode/score": 10.099999986588955}
+{"step": 880205, "episode/score": 12.099999986588955}
+{"step": 880431, "episode/score": 14.099999986588955}
+{"step": 880661, "episode/score": 12.099999986588955}
+{"step": 880858, "episode/score": 13.100000008940697}
+{"step": 880879, "episode/score": 4.100000023841858}
+{"step": 880951, "episode/score": 7.100000023841858}
+{"step": 881098, "episode/score": 11.100000001490116}
+{"step": 881387, "episode/score": 13.099999986588955}
+{"step": 881568, "episode/score": 11.099999986588955}
+{"step": 881778, "episode/score": 6.100000008940697}
+{"step": 882020, "episode/score": 11.099999971687794}
+{"step": 882180, "episode/score": 6.099999986588955}
+{"step": 882684, "episode/score": 13.100000008940697}
+{"step": 882741, "episode/score": 5.099999986588955}
+{"step": 882988, "episode/score": 12.100000023841858}
+{"step": 883212, "episode/score": 11.099999986588955}
+{"step": 883446, "episode/score": 14.100000008940697}
+{"step": 883734, "episode/score": 13.099999986588955}
+{"step": 883995, "episode/score": 14.099999986588955}
+{"step": 884214, "episode/score": 12.099999986588955}
+{"step": 884434, "episode/score": 15.099999986588955}
+{"step": 884770, "episode/score": 14.100000001490116}
+{"step": 885199, "episode/score": 11.099999986588955}
+{"step": 885535, "episode/score": 14.099999986588955}
+{"step": 885726, "episode/score": 13.099999986588955}
+{"step": 885914, "episode/score": 13.100000001490116}
+{"step": 885973, "episode/score": 6.099999986588955}
+{"step": 886201, "episode/score": 15.099999986588955}
+{"step": 886391, "episode/score": 11.099999986588955}
+{"step": 886567, "episode/score": 6.100000008940697}
+{"step": 886744, "episode/score": 13.099999986588955}
+{"step": 887033, "episode/score": 12.099999986588955}
+{"step": 887445, "episode/score": 13.099999986588955}
+{"step": 887615, "episode/score": 14.100000001490116}
+{"step": 887775, "episode/score": 13.1000000461936}
+{"step": 887953, "episode/score": 13.099999986588955}
+{"step": 888289, "episode/score": 8.099999986588955}
+{"step": 888464, "episode/score": 13.099999986588955}
+{"step": 888704, "episode/score": 13.099999986588955}
+{"step": 888984, "episode/score": 13.099999986588955}
+{"step": 889220, "episode/score": 12.100000001490116}
+{"step": 889491, "episode/score": 14.100000001490116}
+{"step": 889722, "episode/score": 14.100000008940697}
+{"step": 889777, "episode/score": 6.099999986588955}
+{"step": 890049, "episode/score": 14.100000001490116}
+{"step": 890211, "episode/score": 11.099999986588955}
+{"step": 890598, "episode/score": 12.099999986588955}
+{"step": 890764, "episode/score": 12.099999986588955}
+{"step": 891020, "episode/score": 12.100000001490116}
+{"step": 891264, "episode/score": 14.100000008940697}
+{"step": 891518, "episode/score": 14.100000008940697}
+{"step": 891727, "episode/score": 13.099999986588955}
+{"step": 891885, "episode/score": 12.099999986588955}
+{"step": 892271, "episode/score": 11.099999986588955}
+{"step": 892498, "episode/score": 13.100000008940697}
+{"step": 892711, "episode/score": 8.099999971687794}
+{"step": 892898, "episode/score": 9.099999979138374}
+{"step": 892944, "episode/score": 4.100000008940697}
+{"step": 893161, "episode/score": 14.099999986588955}
+{"step": 893356, "episode/score": 11.100000001490116}
+{"step": 893545, "episode/score": 11.100000008940697}
+{"step": 893819, "episode/score": 13.099999986588955}
+{"step": 893999, "episode/score": 13.099999994039536}
+{"step": 894255, "episode/score": 12.099999986588955}
+{"step": 894402, "episode/score": 11.100000008940697}
+{"step": 894613, "episode/score": 15.099999971687794}
+{"step": 894835, "episode/score": 13.099999994039536}
+{"step": 895038, "episode/score": 12.099999979138374}
+{"step": 895263, "episode/score": 13.100000031292439}
+{"step": 895470, "episode/score": 14.099999986588955}
+{"step": 895638, "episode/score": 9.100000008940697}
+{"step": 895847, "episode/score": 13.099999986588955}
+{"step": 896100, "episode/score": 14.099999986588955}
+{"step": 896381, "episode/score": 11.099999986588955}
+{"step": 896554, "episode/score": 9.100000001490116}
+{"step": 896792, "episode/score": 14.100000001490116}
+{"step": 897003, "episode/score": 13.099999971687794}
+{"step": 897213, "episode/score": 16.100000023841858}
+{"step": 897427, "episode/score": 14.099999971687794}
+{"step": 897495, "episode/score": 8.099999979138374}
+{"step": 897913, "episode/score": 13.099999986588955}
+{"step": 897978, "episode/score": 4.100000008940697}
+{"step": 898235, "episode/score": 9.099999971687794}
+{"step": 898447, "episode/score": 13.100000001490116}
+{"step": 898642, "episode/score": 11.099999986588955}
+{"step": 898861, "episode/score": 13.099999986588955}
+{"step": 899147, "episode/score": 12.099999979138374}
+{"step": 899318, "episode/score": 14.099999986588955}
+{"step": 899489, "episode/score": 14.099999971687794}
+{"step": 899678, "episode/score": 13.099999994039536}
+{"step": 899900, "episode/score": 13.099999986588955}
+{"step": 900094, "episode/score": 14.100000023841858}
+{"step": 900295, "episode/score": 13.099999986588955}
+{"step": 900515, "episode/score": 15.100000001490116}
+{"step": 900714, "episode/score": 13.099999956786633}
+{"step": 900976, "episode/score": 15.099999986588955}
+{"step": 901129, "episode/score": 10.099999986588955}
+{"step": 901512, "episode/score": 15.100000001490116}
+{"step": 901668, "episode/score": 10.099999986588955}
+{"step": 901817, "episode/score": 13.099999986588955}
+{"step": 901971, "episode/score": 10.099999986588955}
+{"step": 902234, "episode/score": 12.100000001490116}
+{"step": 902496, "episode/score": 12.100000001490116}
+{"step": 902683, "episode/score": 13.099999986588955}
+{"step": 902969, "episode/score": 14.099999986588955}
+{"step": 903026, "episode/score": 8.099999971687794}
+{"step": 903289, "episode/score": 14.099999986588955}
+{"step": 903519, "episode/score": 12.100000001490116}
+{"step": 903585, "episode/score": 7.099999964237213}
+{"step": 903743, "episode/score": 11.099999986588955}
+{"step": 903927, "episode/score": 7.100000008940697}
+{"step": 903994, "episode/score": 8.099999986588955}
+{"step": 904223, "episode/score": 13.099999979138374}
+{"step": 904273, "episode/score": 4.100000008940697}
+{"step": 904376, "episode/score": 9.100000008940697}
+{"step": 904657, "episode/score": 13.099999986588955}
+{"step": 904863, "episode/score": 12.100000008940697}
+{"step": 905018, "episode/score": 13.100000001490116}
+{"step": 905285, "episode/score": 13.099999986588955}
+{"step": 905463, "episode/score": 11.099999986588955}
+{"step": 905510, "episode/score": 3.099999986588955}
+{"step": 905759, "episode/score": 12.100000008940697}
+{"step": 905916, "episode/score": 8.099999986588955}
+{"step": 906105, "episode/score": 10.099999986588955}
+{"step": 906338, "episode/score": 13.099999986588955}
+{"step": 906521, "episode/score": 13.099999986588955}
+{"step": 906718, "episode/score": 16.100000001490116}
+{"step": 906795, "episode/score": 4.100000008940697}
+{"step": 906965, "episode/score": 12.099999964237213}
+{"step": 907177, "episode/score": 15.100000008940697}
+{"step": 907326, "episode/score": 12.100000001490116}
+{"step": 907581, "episode/score": 13.100000001490116}
+{"step": 907753, "episode/score": 8.099999986588955}
+{"step": 908143, "episode/score": 13.099999986588955}
+{"step": 908316, "episode/score": 13.100000001490116}
+{"step": 908514, "episode/score": 10.099999986588955}
+{"step": 908736, "episode/score": 13.099999986588955}
+{"step": 908949, "episode/score": 12.100000008940697}
+{"step": 909131, "episode/score": 10.100000001490116}
+{"step": 909400, "episode/score": 14.099999986588955}
+{"step": 909582, "episode/score": 14.100000001490116}
+{"step": 909756, "episode/score": 14.099999986588955}
+{"step": 909967, "episode/score": 9.099999971687794}
+{"step": 910157, "episode/score": 14.100000001490116}
+{"step": 910413, "episode/score": 12.100000008940697}
+{"step": 910574, "episode/score": 11.099999964237213}
+{"step": 910792, "episode/score": 14.099999986588955}
+{"step": 910991, "episode/score": 14.100000001490116}
+{"step": 911191, "episode/score": 11.100000008940697}
+{"step": 911355, "episode/score": 12.099999964237213}
+{"step": 911510, "episode/score": 13.100000016391277}
+{"step": 911740, "episode/score": 14.099999986588955}
+{"step": 911964, "episode/score": 12.100000031292439}
+{"step": 912166, "episode/score": 10.100000001490116}
+{"step": 912375, "episode/score": 8.099999994039536}
+{"step": 912650, "episode/score": 13.100000001490116}
+{"step": 912846, "episode/score": 12.100000001490116}
+{"step": 913030, "episode/score": 14.100000001490116}
+{"step": 913199, "episode/score": 9.100000001490116}
+{"step": 913419, "episode/score": 14.099999986588955}
+{"step": 913654, "episode/score": 14.099999986588955}
+{"step": 913892, "episode/score": 15.100000001490116}
+{"step": 914140, "episode/score": 13.100000008940697}
+{"step": 914407, "episode/score": 13.099999986588955}
+{"step": 914628, "episode/score": 15.100000001490116}
+{"step": 914819, "episode/score": 10.099999986588955}
+{"step": 915013, "episode/score": 13.100000016391277}
+{"step": 915223, "episode/score": 13.099999994039536}
+{"step": 915520, "episode/score": 13.099999986588955}
+{"step": 915679, "episode/score": 8.100000008940697}
+{"step": 915835, "episode/score": 8.100000001490116}
+{"step": 916040, "episode/score": 14.099999986588955}
+{"step": 916407, "episode/score": 14.100000001490116}
+{"step": 916661, "episode/score": 13.099999971687794}
+{"step": 916953, "episode/score": 15.100000008940697}
+{"step": 917255, "episode/score": 14.100000001490116}
+{"step": 917519, "episode/score": 14.099999986588955}
+{"step": 917709, "episode/score": 10.100000008940697}
+{"step": 917896, "episode/score": 13.099999986588955}
+{"step": 918284, "episode/score": 13.099999986588955}
+{"step": 918550, "episode/score": 15.099999986588955}
+{"step": 918603, "episode/score": 4.099999971687794}
+{"step": 918642, "episode/score": 3.099999986588955}
+{"step": 918860, "episode/score": 8.099999986588955}
+{"step": 919080, "episode/score": 9.099999986588955}
+{"step": 919283, "episode/score": 11.099999971687794}
+{"step": 919506, "episode/score": 8.100000008940697}
+{"step": 919558, "episode/score": 4.100000008940697}
+{"step": 919754, "episode/score": 12.100000001490116}
+{"step": 919988, "episode/score": 15.100000023841858}
+{"step": 920288, "episode/score": 14.099999986588955}
+{"step": 920666, "episode/score": 14.099999986588955}
+{"step": 920864, "episode/score": 14.100000001490116}
+{"step": 921105, "episode/score": 12.099999971687794}
+{"step": 921239, "episode/score": 9.099999986588955}
+{"step": 921426, "episode/score": 13.099999986588955}
+{"step": 921745, "episode/score": 11.099999986588955}
+{"step": 922082, "episode/score": 13.099999986588955}
+{"step": 922309, "episode/score": 12.099999986588955}
+{"step": 922543, "episode/score": 11.099999986588955}
+{"step": 922781, "episode/score": 13.100000008940697}
+{"step": 923043, "episode/score": 13.099999986588955}
+{"step": 923283, "episode/score": 13.100000008940697}
+{"step": 923495, "episode/score": 12.099999986588955}
+{"step": 923743, "episode/score": 11.099999986588955}
+{"step": 923936, "episode/score": 11.099999986588955}
+{"step": 924365, "episode/score": 14.099999986588955}
+{"step": 924623, "episode/score": 12.099999986588955}
+{"step": 924764, "episode/score": 9.099999986588955}
+{"step": 925000, "episode/score": 12.099999986588955}
+{"step": 925105, "episode/score": 10.100000023841858}
+{"step": 925140, "episode/score": 6.100000016391277}
+{"step": 925446, "episode/score": 10.100000001490116}
+{"step": 925732, "episode/score": 11.099999986588955}
+{"step": 925910, "episode/score": 13.099999986588955}
+{"step": 926106, "episode/score": 10.099999986588955}
+{"step": 926312, "episode/score": 13.099999986588955}
+{"step": 926510, "episode/score": 13.099999964237213}
+{"step": 926699, "episode/score": 11.099999986588955}
+{"step": 926919, "episode/score": 14.099999986588955}
+{"step": 927122, "episode/score": 12.099999986588955}
+{"step": 927323, "episode/score": 10.099999986588955}
+{"step": 927375, "episode/score": 4.099999979138374}
+{"step": 927596, "episode/score": 13.100000001490116}
+{"step": 927802, "episode/score": 14.099999979138374}
+{"step": 927960, "episode/score": 12.099999986588955}
+{"step": 928131, "episode/score": 13.100000001490116}
+{"step": 928323, "episode/score": 10.099999986588955}
+{"step": 928503, "episode/score": 14.100000001490116}
+{"step": 928746, "episode/score": 12.099999986588955}
+{"step": 928772, "episode/score": 5.100000023841858}
+{"step": 929018, "episode/score": 13.099999986588955}
+{"step": 929253, "episode/score": 15.099999994039536}
+{"step": 929480, "episode/score": 13.100000023841858}
+{"step": 929716, "episode/score": 12.100000001490116}
+{"step": 929928, "episode/score": 13.099999986588955}
+{"step": 930239, "episode/score": 14.099999986588955}
+{"step": 930470, "episode/score": 14.100000008940697}
+{"step": 930724, "episode/score": 14.099999979138374}
+{"step": 930920, "episode/score": 15.099999986588955}
+{"step": 931135, "episode/score": 12.099999986588955}
+{"step": 931406, "episode/score": 14.099999986588955}
+{"step": 931620, "episode/score": 14.100000008940697}
+{"step": 931856, "episode/score": 14.099999994039536}
+{"step": 932019, "episode/score": 12.100000016391277}
+{"step": 932265, "episode/score": 14.099999986588955}
+{"step": 932694, "episode/score": 16.099999986588955}
+{"step": 932844, "episode/score": 5.099999986588955}
+{"step": 933094, "episode/score": 14.099999979138374}
+{"step": 933301, "episode/score": 12.100000001490116}
+{"step": 933467, "episode/score": 12.099999986588955}
+{"step": 933632, "episode/score": 12.099999986588955}
+{"step": 933829, "episode/score": 10.100000001490116}
+{"step": 934020, "episode/score": 12.099999986588955}
+{"step": 934431, "episode/score": 12.099999986588955}
+{"step": 934620, "episode/score": 14.099999979138374}
+{"step": 934675, "episode/score": 5.100000008940697}
+{"step": 934952, "episode/score": 13.099999986588955}
+{"step": 935163, "episode/score": 14.099999986588955}
+{"step": 935350, "episode/score": 9.100000008940697}
+{"step": 935529, "episode/score": 14.100000001490116}
+{"step": 935711, "episode/score": 15.100000001490116}
+{"step": 935774, "episode/score": 7.100000008940697}
+{"step": 936133, "episode/score": 17.099999986588955}
+{"step": 936521, "episode/score": 14.100000023841858}
+{"step": 936703, "episode/score": 13.099999986588955}
+{"step": 936862, "episode/score": 12.099999986588955}
+{"step": 937024, "episode/score": 12.100000008940697}
+{"step": 937320, "episode/score": 12.100000008940697}
+{"step": 937576, "episode/score": 15.099999986588955}
+{"step": 937743, "episode/score": 12.099999986588955}
+{"step": 937996, "episode/score": 14.100000001490116}
+{"step": 938191, "episode/score": 13.100000016391277}
+{"step": 938462, "episode/score": 14.100000001490116}
+{"step": 938661, "episode/score": 14.099999986588955}
+{"step": 938832, "episode/score": 14.100000001490116}
+{"step": 938932, "episode/score": 8.100000008940697}
+{"step": 939151, "episode/score": 8.099999986588955}
+{"step": 939300, "episode/score": 10.100000001490116}
+{"step": 939523, "episode/score": 12.100000001490116}
+{"step": 939685, "episode/score": 12.099999986588955}
+{"step": 939890, "episode/score": 10.099999979138374}
+{"step": 939936, "episode/score": 6.100000023841858}
+{"step": 940209, "episode/score": 15.099999986588955}
+{"step": 940393, "episode/score": 12.099999986588955}
+{"step": 940550, "episode/score": 9.100000001490116}
+{"step": 940750, "episode/score": 13.099999986588955}
+{"step": 940841, "episode/score": 8.100000023841858}
+{"step": 941232, "episode/score": 13.099999986588955}
+{"step": 941467, "episode/score": 11.099999986588955}
+{"step": 941528, "episode/score": 7.100000008940697}
+{"step": 941703, "episode/score": 13.100000001490116}
+{"step": 941927, "episode/score": 15.099999986588955}
+{"step": 941973, "episode/score": 3.1000000089406967}
+{"step": 942176, "episode/score": 13.099999986588955}
+{"step": 942354, "episode/score": 12.100000008940697}
+{"step": 942671, "episode/score": 11.099999986588955}
+{"step": 942702, "episode/score": 5.100000023841858}
+{"step": 942919, "episode/score": 11.099999986588955}
+{"step": 943100, "episode/score": 13.099999986588955}
+{"step": 943274, "episode/score": 13.099999986588955}
+{"step": 943496, "episode/score": 14.099999986588955}
+{"step": 943896, "episode/score": 12.099999986588955}
+{"step": 944132, "episode/score": 13.099999986588955}
+{"step": 944342, "episode/score": 11.100000008940697}
+{"step": 944394, "episode/score": 7.100000001490116}
+{"step": 944697, "episode/score": 11.099999979138374}
+{"step": 944955, "episode/score": 11.099999979138374}
+{"step": 945066, "episode/score": 9.100000008940697}
+{"step": 945302, "episode/score": 13.099999986588955}
+{"step": 945523, "episode/score": 13.099999986588955}
+{"step": 945833, "episode/score": 14.099999979138374}
+{"step": 946132, "episode/score": 13.100000008940697}
+{"step": 946345, "episode/score": 14.100000008940697}
+{"step": 946832, "episode/score": 14.099999971687794}
+{"step": 946896, "episode/score": 6.100000008940697}
+{"step": 947257, "episode/score": 15.100000008940697}
+{"step": 947590, "episode/score": 15.099999986588955}
+{"step": 947797, "episode/score": 15.100000016391277}
+{"step": 948001, "episode/score": 14.100000001490116}
+{"step": 948202, "episode/score": 15.099999986588955}
+{"step": 948550, "episode/score": 10.099999986588955}
+{"step": 948828, "episode/score": 15.100000001490116}
+{"step": 949047, "episode/score": 14.099999986588955}
+{"step": 949227, "episode/score": 8.100000001490116}
+{"step": 949473, "episode/score": 13.100000023841858}
+{"step": 949667, "episode/score": 14.099999986588955}
+{"step": 949869, "episode/score": 14.099999986588955}
+{"step": 950043, "episode/score": 7.100000001490116}
+{"step": 950270, "episode/score": 13.099999986588955}
+{"step": 950456, "episode/score": 10.099999986588955}
+{"step": 950624, "episode/score": 13.099999986588955}
+{"step": 950788, "episode/score": 14.099999986588955}
+{"step": 950842, "episode/score": 4.100000008940697}
+{"step": 951008, "episode/score": 12.100000008940697}
+{"step": 951315, "episode/score": 16.099999964237213}
+{"step": 951406, "episode/score": 5.100000008940697}
+{"step": 951570, "episode/score": 13.100000001490116}
+{"step": 951773, "episode/score": 13.100000016391277}
+{"step": 951978, "episode/score": 14.100000001490116}
+{"step": 952220, "episode/score": 12.100000023841858}
+{"step": 952717, "episode/score": 14.099999986588955}
+{"step": 953012, "episode/score": 14.099999979138374}
+{"step": 953209, "episode/score": 10.100000008940697}
+{"step": 953425, "episode/score": 14.099999986588955}
+{"step": 953710, "episode/score": 13.100000001490116}
+{"step": 953883, "episode/score": 13.099999986588955}
+{"step": 954230, "episode/score": 15.099999986588955}
+{"step": 954436, "episode/score": 11.099999986588955}
+{"step": 954559, "episode/score": 11.100000008940697}
+{"step": 954762, "episode/score": 12.099999986588955}
+{"step": 955057, "episode/score": 14.099999986588955}
+{"step": 955562, "episode/score": 11.099999979138374}
+{"step": 955753, "episode/score": 15.099999986588955}
+{"step": 955827, "episode/score": 4.099999986588955}
+{"step": 955997, "episode/score": 12.099999964237213}
+{"step": 956425, "episode/score": 12.099999986588955}
+{"step": 956634, "episode/score": 11.100000008940697}
+{"step": 956733, "episode/score": 9.100000023841858}
+{"step": 957040, "episode/score": 13.100000001490116}
+{"step": 957297, "episode/score": 12.100000023841858}
+{"step": 957532, "episode/score": 14.100000016391277}
+{"step": 957703, "episode/score": 11.099999986588955}
+{"step": 957902, "episode/score": 13.099999994039536}
+{"step": 958334, "episode/score": 15.100000001490116}
+{"step": 958379, "episode/score": 7.100000001490116}
+{"step": 958751, "episode/score": 16.099999986588955}
+{"step": 959133, "episode/score": 16.099999986588955}
+{"step": 959387, "episode/score": 13.099999986588955}
+{"step": 959715, "episode/score": 14.100000001490116}
+{"step": 959862, "episode/score": 11.100000016391277}
+{"step": 960056, "episode/score": 10.100000023841858}
+{"step": 960248, "episode/score": 14.100000023841858}
+{"step": 960298, "episode/score": 6.100000001490116}
+{"step": 960499, "episode/score": 15.100000008940697}
+{"step": 960760, "episode/score": 13.099999986588955}
+{"step": 960811, "episode/score": 3.099999986588955}
+{"step": 961007, "episode/score": 13.099999986588955}
+{"step": 961280, "episode/score": 14.099999986588955}
+{"step": 961477, "episode/score": 11.099999986588955}
+{"step": 961695, "episode/score": 11.099999986588955}
+{"step": 961882, "episode/score": 13.099999986588955}
+{"step": 962105, "episode/score": 12.099999986588955}
+{"step": 962349, "episode/score": 14.100000008940697}
+{"step": 962541, "episode/score": 11.099999986588955}
+{"step": 962625, "episode/score": 10.099999986588955}
+{"step": 962884, "episode/score": 14.099999986588955}
+{"step": 963116, "episode/score": 14.100000016391277}
+{"step": 963300, "episode/score": 12.100000008940697}
+{"step": 963490, "episode/score": 9.099999986588955}
+{"step": 963738, "episode/score": 13.099999986588955}
+{"step": 963941, "episode/score": 13.099999986588955}
+{"step": 964228, "episode/score": 11.100000008940697}
+{"step": 964430, "episode/score": 14.099999994039536}
+{"step": 964643, "episode/score": 11.099999986588955}
+{"step": 964805, "episode/score": 13.100000001490116}
+{"step": 964868, "episode/score": 3.099999986588955}
+{"step": 965143, "episode/score": 14.099999986588955}
+{"step": 965332, "episode/score": 12.100000001490116}
+{"step": 965682, "episode/score": 16.099999986588955}
+{"step": 965987, "episode/score": 14.099999986588955}
+{"step": 966155, "episode/score": 13.099999986588955}
+{"step": 966351, "episode/score": 13.099999986588955}
+{"step": 966649, "episode/score": 14.099999986588955}
+{"step": 966785, "episode/score": 9.099999986588955}
+{"step": 967034, "episode/score": 14.100000001490116}
+{"step": 967135, "episode/score": 8.099999986588955}
+{"step": 967453, "episode/score": 14.099999986588955}
+{"step": 967681, "episode/score": 11.100000068545341}
+{"step": 967861, "episode/score": 8.100000008940697}
+{"step": 968056, "episode/score": 14.099999986588955}
+{"step": 968284, "episode/score": 15.099999986588955}
+{"step": 968542, "episode/score": 12.099999986588955}
+{"step": 968863, "episode/score": 12.099999986588955}
+{"step": 969126, "episode/score": 14.100000008940697}
+{"step": 969373, "episode/score": 14.099999986588955}
+{"step": 969585, "episode/score": 14.099999986588955}
+{"step": 969806, "episode/score": 12.100000008940697}
+{"step": 970143, "episode/score": 12.100000001490116}
+{"step": 970200, "episode/score": 7.099999986588955}
+{"step": 970719, "episode/score": 15.100000008940697}
+{"step": 970846, "episode/score": 10.100000023841858}
+{"step": 971113, "episode/score": 12.099999986588955}
+{"step": 971187, "episode/score": 7.099999986588955}
+{"step": 971400, "episode/score": 14.099999986588955}
+{"step": 971557, "episode/score": 5.099999986588955}
+{"step": 971830, "episode/score": 14.100000001490116}
+{"step": 971984, "episode/score": 10.099999986588955}
+{"step": 972190, "episode/score": 14.099999986588955}
+{"step": 972328, "episode/score": 12.099999986588955}
+{"step": 972781, "episode/score": 5.100000008940697}
+{"step": 973044, "episode/score": 13.099999986588955}
+{"step": 973287, "episode/score": 14.099999986588955}
+{"step": 973489, "episode/score": 14.099999986588955}
+{"step": 973664, "episode/score": 13.099999994039536}
+{"step": 973906, "episode/score": 10.100000001490116}
+{"step": 974140, "episode/score": 13.100000001490116}
+{"step": 974351, "episode/score": 12.099999986588955}
+{"step": 974551, "episode/score": 11.099999986588955}
+{"step": 974850, "episode/score": 15.099999986588955}
+{"step": 975072, "episode/score": 15.100000001490116}
+{"step": 975149, "episode/score": 8.100000023841858}
+{"step": 975435, "episode/score": 9.100000001490116}
+{"step": 975639, "episode/score": 14.100000001490116}
+{"step": 975820, "episode/score": 12.100000008940697}
+{"step": 976108, "episode/score": 13.100000001490116}
+{"step": 976325, "episode/score": 14.099999986588955}
+{"step": 976487, "episode/score": 6.099999964237213}
+{"step": 976711, "episode/score": 13.099999986588955}
+{"step": 976988, "episode/score": 9.099999986588955}
+{"step": 977183, "episode/score": 11.100000001490116}
+{"step": 977421, "episode/score": 13.100000016391277}
+{"step": 977670, "episode/score": 13.099999986588955}
+{"step": 977904, "episode/score": 13.100000008940697}
+{"step": 978287, "episode/score": 16.100000008940697}
+{"step": 978534, "episode/score": 14.100000008940697}
+{"step": 978744, "episode/score": 14.100000016391277}
+{"step": 979134, "episode/score": 15.099999986588955}
+{"step": 979380, "episode/score": 12.099999986588955}
+{"step": 979557, "episode/score": 12.100000001490116}
+{"step": 979743, "episode/score": 15.100000023841858}
+{"step": 979966, "episode/score": 14.099999986588955}
+{"step": 980165, "episode/score": 13.100000016391277}
+{"step": 980408, "episode/score": 14.100000008940697}
+{"step": 980448, "episode/score": 1.1000000089406967}
+{"step": 980622, "episode/score": 12.100000008940697}
+{"step": 980859, "episode/score": 14.100000008940697}
+{"step": 981063, "episode/score": 8.100000008940697}
+{"step": 981277, "episode/score": 13.100000008940697}
+{"step": 981466, "episode/score": 13.099999986588955}
+{"step": 981624, "episode/score": 13.100000038743019}
+{"step": 981855, "episode/score": 12.099999986588955}
+{"step": 982097, "episode/score": 14.100000001490116}
+{"step": 982356, "episode/score": 16.100000001490116}
+{"step": 982557, "episode/score": 15.100000008940697}
+{"step": 982606, "episode/score": 3.099999986588955}
+{"step": 982811, "episode/score": 11.100000001490116}
+{"step": 983142, "episode/score": 14.099999979138374}
+{"step": 983345, "episode/score": 14.100000008940697}
+{"step": 983520, "episode/score": 12.099999986588955}
+{"step": 983677, "episode/score": 12.099999986588955}
+{"step": 983910, "episode/score": 12.100000031292439}
+{"step": 984209, "episode/score": 12.099999986588955}
+{"step": 984384, "episode/score": 13.100000008940697}
+{"step": 984631, "episode/score": 13.099999986588955}
+{"step": 984689, "episode/score": 5.099999986588955}
+{"step": 984729, "episode/score": 7.100000001490116}
+{"step": 984920, "episode/score": 13.099999986588955}
+{"step": 985109, "episode/score": 14.099999986588955}
+{"step": 985265, "episode/score": 12.100000031292439}
+{"step": 985469, "episode/score": 14.099999986588955}
+{"step": 985634, "episode/score": 10.099999979138374}
+{"step": 985842, "episode/score": 14.099999986588955}
+{"step": 985986, "episode/score": 12.099999979138374}
+{"step": 986154, "episode/score": 12.100000001490116}
+{"step": 986373, "episode/score": 13.100000001490116}
+{"step": 986680, "episode/score": 15.099999986588955}
+{"step": 986866, "episode/score": 13.100000038743019}
+{"step": 987085, "episode/score": 14.099999986588955}
+{"step": 987289, "episode/score": 14.099999986588955}
+{"step": 987593, "episode/score": 14.100000001490116}
+{"step": 987848, "episode/score": 13.100000001490116}
+{"step": 988066, "episode/score": 13.100000023841858}
+{"step": 988243, "episode/score": 14.099999986588955}
+{"step": 988417, "episode/score": 11.100000023841858}
+{"step": 988562, "episode/score": 6.100000023841858}
+{"step": 988810, "episode/score": 11.100000016391277}
+{"step": 989037, "episode/score": 9.100000008940697}
+{"step": 989222, "episode/score": 9.099999986588955}
+{"step": 989601, "episode/score": 12.099999986588955}
+{"step": 989842, "episode/score": 14.099999986588955}
+{"step": 990035, "episode/score": 9.099999986588955}
+{"step": 990244, "episode/score": 15.099999979138374}
+{"step": 990505, "episode/score": 14.100000008940697}
+{"step": 990707, "episode/score": 13.099999986588955}
+{"step": 991217, "episode/score": 14.100000008940697}
+{"step": 991442, "episode/score": 14.099999986588955}
+{"step": 991649, "episode/score": 13.100000008940697}
+{"step": 991828, "episode/score": 11.099999986588955}
+{"step": 992238, "episode/score": 14.099999986588955}
+{"step": 992428, "episode/score": 13.100000008940697}
+{"step": 992601, "episode/score": 10.099999986588955}
+{"step": 992814, "episode/score": 13.099999986588955}
+{"step": 993014, "episode/score": 15.100000001490116}
+{"step": 993354, "episode/score": 13.099999986588955}
+{"step": 993549, "episode/score": 12.099999986588955}
+{"step": 993724, "episode/score": 12.099999986588955}
+{"step": 994037, "episode/score": 14.099999986588955}
+{"step": 994202, "episode/score": 13.099999986588955}
+{"step": 994364, "episode/score": 13.099999986588955}
+{"step": 994591, "episode/score": 13.099999979138374}
+{"step": 994985, "episode/score": 13.100000001490116}
+{"step": 995506, "episode/score": 16.099999986588955}
+{"step": 995685, "episode/score": 11.099999986588955}
+{"step": 995905, "episode/score": 13.099999986588955}
+{"step": 996137, "episode/score": 12.100000008940697}
+{"step": 996406, "episode/score": 10.100000023841858}
+{"step": 996605, "episode/score": 12.100000001490116}
+{"step": 996862, "episode/score": 14.099999986588955}
+{"step": 997081, "episode/score": 11.100000008940697}
+{"step": 997301, "episode/score": 7.100000001490116}
+{"step": 997416, "episode/score": 7.100000023841858}
+{"step": 997728, "episode/score": 14.100000008940697}
+{"step": 997902, "episode/score": 13.099999986588955}
+{"step": 998112, "episode/score": 9.100000001490116}
+{"step": 998317, "episode/score": 13.099999986588955}
+{"step": 998566, "episode/score": 13.099999986588955}
+{"step": 998720, "episode/score": 7.099999986588955}
+{"step": 998906, "episode/score": 9.100000001490116}
+{"step": 999119, "episode/score": 14.100000001490116}
+{"step": 999304, "episode/score": 14.099999986588955}
+{"step": 999520, "episode/score": 15.100000008940697}
+{"step": 999704, "episode/score": 12.100000001490116}
+{"step": 999974, "episode/score": 12.100000008940697}
+{"step": 1000195, "episode/score": 14.099999986588955}
+{"step": 1000463, "episode/score": 13.099999986588955}
+{"step": 1000602, "episode/score": 10.100000023841858}
+{"step": 1000900, "episode/score": 14.099999986588955}
+{"step": 1001104, "episode/score": 14.100000008940697}
+{"step": 1001254, "episode/score": 8.099999986588955}
+{"step": 1001590, "episode/score": 15.100000001490116}
+{"step": 1001809, "episode/score": 11.099999979138374}
+{"step": 1002056, "episode/score": 15.099999986588955}
+{"step": 1002249, "episode/score": 9.099999986588955}
+{"step": 1002489, "episode/score": 14.100000008940697}
+{"step": 1002727, "episode/score": 14.099999986588955}
+{"step": 1002968, "episode/score": 13.099999986588955}
+{"step": 1003474, "episode/score": 12.100000016391277}
+{"step": 1003677, "episode/score": 12.099999986588955}
+{"step": 1004078, "episode/score": 13.099999964237213}
+{"step": 1004293, "episode/score": 11.099999986588955}
+{"step": 1004489, "episode/score": 12.100000008940697}
+{"step": 1004688, "episode/score": 11.099999986588955}
+{"step": 1004736, "episode/score": 5.0999999940395355}
+{"step": 1004966, "episode/score": 10.100000008940697}
+{"step": 1005285, "episode/score": 12.100000001490116}
+{"step": 1005458, "episode/score": 10.099999986588955}
+{"step": 1005688, "episode/score": 14.100000008940697}
+{"step": 1005990, "episode/score": 14.100000001490116}
+{"step": 1006247, "episode/score": 13.099999986588955}
+{"step": 1006473, "episode/score": 13.100000038743019}
+{"step": 1006729, "episode/score": 15.099999986588955}
+{"step": 1006928, "episode/score": 11.099999986588955}
+{"step": 1007094, "episode/score": 11.099999986588955}
+{"step": 1007343, "episode/score": 13.099999986588955}
+{"step": 1007564, "episode/score": 13.099999986588955}
+{"step": 1007702, "episode/score": 7.099999986588955}
+{"step": 1007920, "episode/score": 14.099999986588955}
+{"step": 1008141, "episode/score": 8.099999986588955}
+{"step": 1008456, "episode/score": 14.099999986588955}
+{"step": 1008632, "episode/score": 14.099999986588955}
+{"step": 1008840, "episode/score": 14.099999986588955}
+{"step": 1009074, "episode/score": 13.100000008940697}
+{"step": 1009391, "episode/score": 14.099999986588955}
+{"step": 1009599, "episode/score": 11.100000001490116}
+{"step": 1009799, "episode/score": 13.099999986588955}
+{"step": 1009974, "episode/score": 12.099999986588955}
+{"step": 1010095, "episode/score": 10.099999986588955}
+{"step": 1010300, "episode/score": 13.099999994039536}
+{"step": 1010513, "episode/score": 13.099999986588955}
+{"step": 1010693, "episode/score": 13.099999986588955}
+{"step": 1011014, "episode/score": 13.099999986588955}
+{"step": 1011240, "episode/score": 14.099999986588955}
+{"step": 1011284, "episode/score": 7.100000008940697}
+{"step": 1011490, "episode/score": 14.099999979138374}
+{"step": 1011754, "episode/score": 15.099999986588955}
+{"step": 1011798, "episode/score": 6.100000001490116}
+{"step": 1012037, "episode/score": 12.099999971687794}
+{"step": 1012252, "episode/score": 14.099999986588955}
+{"step": 1012696, "episode/score": 14.100000023841858}
+{"step": 1012881, "episode/score": 13.100000001490116}
+{"step": 1013160, "episode/score": 11.100000008940697}
+{"step": 1013372, "episode/score": 14.099999986588955}
+{"step": 1013609, "episode/score": 14.100000001490116}
+{"step": 1013777, "episode/score": 12.100000023841858}
+{"step": 1013998, "episode/score": 12.099999986588955}
+{"step": 1014137, "episode/score": 11.100000001490116}
+{"step": 1014548, "episode/score": 14.099999986588955}
+{"step": 1014763, "episode/score": 14.100000008940697}
+{"step": 1014967, "episode/score": 8.100000001490116}
+{"step": 1015126, "episode/score": 12.099999986588955}
+{"step": 1015178, "episode/score": 6.099999986588955}
+{"step": 1015358, "episode/score": 10.099999994039536}
+{"step": 1015585, "episode/score": 13.099999986588955}
+{"step": 1015786, "episode/score": 13.099999986588955}
+{"step": 1016023, "episode/score": 13.100000008940697}
+{"step": 1016226, "episode/score": 13.099999986588955}
+{"step": 1016467, "episode/score": 14.100000001490116}
+{"step": 1016725, "episode/score": 15.099999986588955}
+{"step": 1016824, "episode/score": 5.100000001490116}
+{"step": 1017020, "episode/score": 14.099999986588955}
+{"step": 1017186, "episode/score": 12.099999986588955}
+{"step": 1017443, "episode/score": 12.099999986588955}
+{"step": 1017647, "episode/score": 15.099999986588955}
+{"step": 1017881, "episode/score": 15.099999986588955}
+{"step": 1018153, "episode/score": 12.100000008940697}
+{"step": 1018370, "episode/score": 13.099999986588955}
+{"step": 1018738, "episode/score": 13.100000001490116}
+{"step": 1018903, "episode/score": 11.100000001490116}
+{"step": 1019101, "episode/score": 14.099999986588955}
+{"step": 1019342, "episode/score": 14.099999986588955}
+{"step": 1019505, "episode/score": 12.100000008940697}
+{"step": 1019715, "episode/score": 8.100000008940697}
+{"step": 1019975, "episode/score": 14.100000008940697}
+{"step": 1020246, "episode/score": 8.100000008940697}
+{"step": 1020285, "episode/score": 4.1000000312924385}
+{"step": 1020506, "episode/score": 12.100000008940697}
+{"step": 1020686, "episode/score": 12.099999986588955}
+{"step": 1020889, "episode/score": 14.100000023841858}
+{"step": 1021159, "episode/score": 15.099999986588955}
+{"step": 1021432, "episode/score": 8.099999986588955}
+{"step": 1021636, "episode/score": 13.099999986588955}
+{"step": 1021907, "episode/score": 13.099999986588955}
+{"step": 1022156, "episode/score": 13.099999986588955}
+{"step": 1022448, "episode/score": 15.099999986588955}
+{"step": 1022701, "episode/score": 15.1000000461936}
+{"step": 1022902, "episode/score": 10.100000001490116}
+{"step": 1023131, "episode/score": 11.100000023841858}
+{"step": 1023377, "episode/score": 14.099999986588955}
+{"step": 1023676, "episode/score": 14.099999986588955}
+{"step": 1023856, "episode/score": 12.099999986588955}
+{"step": 1024080, "episode/score": 15.100000001490116}
+{"step": 1024247, "episode/score": 10.100000001490116}
+{"step": 1024441, "episode/score": 13.100000001490116}
+{"step": 1024741, "episode/score": 15.099999986588955}
+{"step": 1024882, "episode/score": 12.099999986588955}
+{"step": 1025070, "episode/score": 12.100000001490116}
+{"step": 1025229, "episode/score": 13.100000001490116}
+{"step": 1025443, "episode/score": 13.099999986588955}
+{"step": 1025636, "episode/score": 12.099999986588955}
+{"step": 1025875, "episode/score": 12.099999986588955}
+{"step": 1026061, "episode/score": 9.100000008940697}
+{"step": 1026246, "episode/score": 14.099999986588955}
+{"step": 1026392, "episode/score": 12.099999986588955}
+{"step": 1026574, "episode/score": 13.100000001490116}
+{"step": 1026836, "episode/score": 14.099999979138374}
+{"step": 1027065, "episode/score": 14.099999986588955}
+{"step": 1027541, "episode/score": 15.100000023841858}
+{"step": 1027721, "episode/score": 13.100000023841858}
+{"step": 1027910, "episode/score": 11.099999979138374}
+{"step": 1027983, "episode/score": 9.100000001490116}
+{"step": 1028176, "episode/score": 14.100000001490116}
+{"step": 1028447, "episode/score": 9.100000008940697}
+{"step": 1028737, "episode/score": 10.099999986588955}
+{"step": 1028876, "episode/score": 8.099999986588955}
+{"step": 1029118, "episode/score": 12.099999986588955}
+{"step": 1029432, "episode/score": 15.100000001490116}
+{"step": 1029628, "episode/score": 13.099999986588955}
+{"step": 1029801, "episode/score": 10.099999986588955}
+{"step": 1030248, "episode/score": 12.099999986588955}
+{"step": 1030446, "episode/score": 10.099999986588955}
+{"step": 1030638, "episode/score": 15.100000008940697}
+{"step": 1030855, "episode/score": 13.099999994039536}
+{"step": 1031022, "episode/score": 12.099999986588955}
+{"step": 1031273, "episode/score": 13.099999986588955}
+{"step": 1031452, "episode/score": 13.099999986588955}
+{"step": 1031672, "episode/score": 14.099999994039536}
+{"step": 1031828, "episode/score": 9.099999986588955}
+{"step": 1032035, "episode/score": 13.099999994039536}
+{"step": 1032250, "episode/score": 12.099999986588955}
+{"step": 1032586, "episode/score": 7.100000001490116}
+{"step": 1032663, "episode/score": 4.100000008940697}
+{"step": 1032822, "episode/score": 12.100000001490116}
+{"step": 1033074, "episode/score": 14.100000001490116}
+{"step": 1033229, "episode/score": 13.100000023841858}
+{"step": 1033476, "episode/score": 13.099999986588955}
+{"step": 1033792, "episode/score": 14.100000001490116}
+{"step": 1034004, "episode/score": 10.099999986588955}
+{"step": 1034248, "episode/score": 16.099999979138374}
+{"step": 1034490, "episode/score": 13.100000001490116}
+{"step": 1034702, "episode/score": 15.100000001490116}
+{"step": 1034767, "episode/score": 7.100000023841858}
+{"step": 1034920, "episode/score": 8.100000016391277}
+{"step": 1035185, "episode/score": 12.099999986588955}
+{"step": 1035394, "episode/score": 12.099999986588955}
+{"step": 1035819, "episode/score": 5.099999986588955}
+{"step": 1036024, "episode/score": 11.100000001490116}
+{"step": 1036243, "episode/score": 13.099999986588955}
+{"step": 1036541, "episode/score": 13.099999986588955}
+{"step": 1036772, "episode/score": 15.099999971687794}
+{"step": 1037051, "episode/score": 16.099999986588955}
+{"step": 1037258, "episode/score": 14.099999986588955}
+{"step": 1037476, "episode/score": 14.100000016391277}
+{"step": 1037660, "episode/score": 13.099999986588955}
+{"step": 1037875, "episode/score": 13.099999986588955}
+{"step": 1038070, "episode/score": 15.099999986588955}
+{"step": 1038592, "episode/score": 16.099999986588955}
+{"step": 1038785, "episode/score": 12.099999986588955}
+{"step": 1038968, "episode/score": 12.099999986588955}
+{"step": 1039199, "episode/score": 14.100000001490116}
+{"step": 1039385, "episode/score": 10.099999986588955}
+{"step": 1039652, "episode/score": 14.099999986588955}
+{"step": 1039846, "episode/score": 13.100000001490116}
+{"step": 1040080, "episode/score": 14.099999986588955}
+{"step": 1040343, "episode/score": 14.100000038743019}
+{"step": 1040663, "episode/score": 12.099999986588955}
+{"step": 1041105, "episode/score": 14.099999986588955}
+{"step": 1041605, "episode/score": 16.099999986588955}
+{"step": 1041873, "episode/score": 12.099999986588955}
+{"step": 1042077, "episode/score": 14.099999986588955}
+{"step": 1042296, "episode/score": 14.100000016391277}
+{"step": 1042471, "episode/score": 14.100000008940697}
+{"step": 1042580, "episode/score": 7.100000008940697}
+{"step": 1042850, "episode/score": 14.099999986588955}
+{"step": 1043128, "episode/score": 15.100000001490116}
+{"step": 1043400, "episode/score": 11.099999986588955}
+{"step": 1043579, "episode/score": 10.099999986588955}
+{"step": 1044033, "episode/score": 16.099999986588955}
+{"step": 1044307, "episode/score": 15.100000008940697}
+{"step": 1044606, "episode/score": 14.099999986588955}
+{"step": 1044821, "episode/score": 13.100000023841858}
+{"step": 1045016, "episode/score": 4.099999986588955}
+{"step": 1045209, "episode/score": 9.100000008940697}
+{"step": 1045386, "episode/score": 11.099999986588955}
+{"step": 1045895, "episode/score": 15.099999986588955}
+{"step": 1046103, "episode/score": 12.099999986588955}
+{"step": 1046329, "episode/score": 11.100000001490116}
+{"step": 1046524, "episode/score": 12.099999986588955}
+{"step": 1046728, "episode/score": 13.100000001490116}
+{"step": 1046902, "episode/score": 4.0999999940395355}
+{"step": 1047054, "episode/score": 10.099999986588955}
+{"step": 1047293, "episode/score": 13.099999994039536}
+{"step": 1047587, "episode/score": 12.100000016391277}
+{"step": 1047800, "episode/score": 13.099999986588955}
+{"step": 1047974, "episode/score": 14.099999964237213}
+{"step": 1048200, "episode/score": 13.100000008940697}
+{"step": 1048451, "episode/score": 13.100000001490116}
+{"step": 1048675, "episode/score": 6.100000008940697}
+{"step": 1049000, "episode/score": 12.099999979138374}
+{"step": 1049264, "episode/score": 14.100000001490116}
+{"step": 1049497, "episode/score": 10.099999986588955}
+{"step": 1049655, "episode/score": 11.099999986588955}
+{"step": 1049878, "episode/score": 14.100000001490116}
+{"step": 1050043, "episode/score": 14.100000016391277}
+{"step": 1050444, "episode/score": 15.099999986588955}
+{"step": 1050636, "episode/score": 13.100000008940697}
+{"step": 1050773, "episode/score": 13.099999986588955}
+{"step": 1050979, "episode/score": 11.099999994039536}
+{"step": 1051187, "episode/score": 13.099999986588955}
+{"step": 1051399, "episode/score": 14.100000001490116}
+{"step": 1051616, "episode/score": 14.100000001490116}
+{"step": 1051783, "episode/score": 10.100000001490116}
+{"step": 1052024, "episode/score": 12.099999986588955}
+{"step": 1052281, "episode/score": 14.099999994039536}
+{"step": 1052464, "episode/score": 11.100000016391277}
+{"step": 1052654, "episode/score": 10.100000001490116}
+{"step": 1052725, "episode/score": 7.100000008940697}
+{"step": 1052811, "episode/score": 8.100000001490116}
+{"step": 1052993, "episode/score": 13.099999986588955}
+{"step": 1053204, "episode/score": 14.100000016391277}
+{"step": 1053389, "episode/score": 10.099999986588955}
+{"step": 1053694, "episode/score": 14.099999979138374}
+{"step": 1053892, "episode/score": 13.099999979138374}
+{"step": 1054110, "episode/score": 14.099999986588955}
+{"step": 1054340, "episode/score": 15.099999964237213}
+{"step": 1054605, "episode/score": 13.099999986588955}
+{"step": 1054826, "episode/score": 13.099999986588955}
+{"step": 1054992, "episode/score": 12.100000001490116}
+{"step": 1055242, "episode/score": 14.099999986588955}
+{"step": 1055313, "episode/score": 4.099999986588955}
+{"step": 1055611, "episode/score": 14.099999986588955}
+{"step": 1055905, "episode/score": 12.099999986588955}
+{"step": 1056101, "episode/score": 9.100000008940697}
+{"step": 1056330, "episode/score": 13.100000001490116}
+{"step": 1056796, "episode/score": 12.099999994039536}
+{"step": 1057094, "episode/score": 13.099999986588955}
+{"step": 1057256, "episode/score": 12.100000001490116}
+{"step": 1057466, "episode/score": 14.099999986588955}
+{"step": 1057528, "episode/score": 5.099999979138374}
+{"step": 1057752, "episode/score": 12.100000001490116}
+{"step": 1058029, "episode/score": 12.100000008940697}
+{"step": 1058270, "episode/score": 8.100000023841858}
+{"step": 1058498, "episode/score": 14.100000016391277}
+{"step": 1058631, "episode/score": 12.100000023841858}
+{"step": 1058688, "episode/score": 4.099999971687794}
+{"step": 1058847, "episode/score": 13.099999986588955}
+{"step": 1059079, "episode/score": 11.099999986588955}
+{"step": 1059604, "episode/score": 13.100000008940697}
+{"step": 1059719, "episode/score": 9.100000023841858}
+{"step": 1060030, "episode/score": 14.099999986588955}
+{"step": 1060568, "episode/score": 15.100000001490116}
+{"step": 1060733, "episode/score": 13.099999964237213}
+{"step": 1060898, "episode/score": 12.099999986588955}
+{"step": 1061184, "episode/score": 12.100000008940697}
+{"step": 1061527, "episode/score": 16.100000008940697}
+{"step": 1061794, "episode/score": 14.100000001490116}
+{"step": 1061983, "episode/score": 10.100000023841858}
+{"step": 1062298, "episode/score": 14.099999986588955}
+{"step": 1062513, "episode/score": 10.100000008940697}
+{"step": 1062664, "episode/score": 10.099999986588955}
+{"step": 1062886, "episode/score": 13.100000001490116}
+{"step": 1063101, "episode/score": 13.099999986588955}
+{"step": 1063343, "episode/score": 8.099999986588955}
+{"step": 1063552, "episode/score": 13.099999986588955}
+{"step": 1063711, "episode/score": 13.100000008940697}
+{"step": 1063801, "episode/score": 6.100000023841858}
+{"step": 1064030, "episode/score": 14.099999986588955}
+{"step": 1064213, "episode/score": 12.099999986588955}
+{"step": 1064491, "episode/score": 13.100000023841858}
+{"step": 1064682, "episode/score": 11.100000001490116}
+{"step": 1064919, "episode/score": 12.099999986588955}
+{"step": 1065130, "episode/score": 12.099999986588955}
+{"step": 1065304, "episode/score": 12.100000001490116}
+{"step": 1065673, "episode/score": 13.100000008940697}
+{"step": 1065861, "episode/score": 14.100000001490116}
+{"step": 1066033, "episode/score": 14.099999986588955}
+{"step": 1066264, "episode/score": 14.100000031292439}
+{"step": 1066804, "episode/score": 17.099999986588955}
+{"step": 1067289, "episode/score": 16.099999986588955}
+{"step": 1067551, "episode/score": 13.099999986588955}
+{"step": 1067781, "episode/score": 14.099999986588955}
+{"step": 1068040, "episode/score": 15.100000008940697}
+{"step": 1068332, "episode/score": 17.099999986588955}
+{"step": 1068537, "episode/score": 12.100000001490116}
+{"step": 1068758, "episode/score": 13.099999986588955}
+{"step": 1068926, "episode/score": 12.099999979138374}
+{"step": 1069087, "episode/score": 13.100000008940697}
+{"step": 1069333, "episode/score": 13.099999986588955}
+{"step": 1069530, "episode/score": 15.100000001490116}
+{"step": 1069788, "episode/score": 14.099999986588955}
+{"step": 1070029, "episode/score": 15.100000001490116}
+{"step": 1070203, "episode/score": 12.099999986588955}
+{"step": 1070388, "episode/score": 13.099999986588955}
+{"step": 1070601, "episode/score": 14.100000001490116}
+{"step": 1070780, "episode/score": 13.100000008940697}
+{"step": 1070938, "episode/score": 8.099999986588955}
+{"step": 1071153, "episode/score": 13.099999986588955}
+{"step": 1071374, "episode/score": 14.099999986588955}
+{"step": 1071673, "episode/score": 14.099999986588955}
+{"step": 1071906, "episode/score": 14.099999986588955}
+{"step": 1072050, "episode/score": 9.100000023841858}
+{"step": 1072219, "episode/score": 8.099999986588955}
+{"step": 1072552, "episode/score": 12.099999986588955}
+{"step": 1072768, "episode/score": 13.100000001490116}
+{"step": 1072983, "episode/score": 12.100000008940697}
+{"step": 1073202, "episode/score": 14.099999986588955}
+{"step": 1073290, "episode/score": 8.100000008940697}
+{"step": 1073526, "episode/score": 13.099999971687794}
+{"step": 1073776, "episode/score": 14.099999986588955}
+{"step": 1073983, "episode/score": 14.099999986588955}
+{"step": 1074191, "episode/score": 14.099999986588955}
+{"step": 1074371, "episode/score": 12.099999986588955}
+{"step": 1074657, "episode/score": 14.099999986588955}
+{"step": 1074872, "episode/score": 13.099999986588955}
+{"step": 1075092, "episode/score": 13.099999986588955}
+{"step": 1075257, "episode/score": 12.099999986588955}
+{"step": 1075468, "episode/score": 13.099999986588955}
+{"step": 1075623, "episode/score": 7.100000008940697}
+{"step": 1075787, "episode/score": 14.100000016391277}
+{"step": 1075990, "episode/score": 15.099999986588955}
+{"step": 1076338, "episode/score": 15.100000008940697}
+{"step": 1076482, "episode/score": 15.100000031292439}
+{"step": 1076670, "episode/score": 13.100000023841858}
+{"step": 1076922, "episode/score": 14.100000031292439}
+{"step": 1077105, "episode/score": 6.099999986588955}
+{"step": 1077334, "episode/score": 14.099999986588955}
+{"step": 1077536, "episode/score": 12.099999994039536}
+{"step": 1077608, "episode/score": 5.100000001490116}
+{"step": 1077786, "episode/score": 7.100000001490116}
+{"step": 1078035, "episode/score": 14.100000016391277}
+{"step": 1078216, "episode/score": 11.099999986588955}
+{"step": 1078440, "episode/score": 15.099999986588955}
+{"step": 1078624, "episode/score": 12.100000001490116}
+{"step": 1078773, "episode/score": 9.099999986588955}
+{"step": 1078943, "episode/score": 12.099999979138374}
+{"step": 1079145, "episode/score": 14.099999986588955}
+{"step": 1079446, "episode/score": 13.100000008940697}
+{"step": 1079632, "episode/score": 13.100000001490116}
+{"step": 1079866, "episode/score": 12.099999986588955}
+{"step": 1080087, "episode/score": 13.100000001490116}
+{"step": 1080294, "episode/score": 11.099999986588955}
+{"step": 1080458, "episode/score": 13.099999971687794}
+{"step": 1080669, "episode/score": 7.099999986588955}
+{"step": 1080895, "episode/score": 15.100000023841858}
+{"step": 1081083, "episode/score": 14.100000001490116}
+{"step": 1081311, "episode/score": 13.099999986588955}
+{"step": 1081482, "episode/score": 13.099999986588955}
+{"step": 1081688, "episode/score": 11.100000023841858}
+{"step": 1082152, "episode/score": 16.100000023841858}
+{"step": 1082356, "episode/score": 13.100000016391277}
+{"step": 1082561, "episode/score": 13.100000001490116}
+{"step": 1082807, "episode/score": 13.099999986588955}
+{"step": 1083050, "episode/score": 14.100000023841858}
+{"step": 1083236, "episode/score": 13.099999986588955}
+{"step": 1083529, "episode/score": 13.100000001490116}
+{"step": 1083791, "episode/score": 15.099999986588955}
+{"step": 1083974, "episode/score": 13.100000001490116}
+{"step": 1084362, "episode/score": 16.099999979138374}
+{"step": 1084550, "episode/score": 12.100000016391277}
+{"step": 1084715, "episode/score": 10.099999986588955}
+{"step": 1084971, "episode/score": 14.099999986588955}
+{"step": 1085189, "episode/score": 11.100000001490116}
+{"step": 1085369, "episode/score": 13.100000001490116}
+{"step": 1085535, "episode/score": 11.099999986588955}
+{"step": 1085681, "episode/score": 12.099999964237213}
+{"step": 1085854, "episode/score": 13.099999986588955}
+{"step": 1085945, "episode/score": 10.099999986588955}
+{"step": 1086137, "episode/score": 12.099999986588955}
+{"step": 1086414, "episode/score": 11.099999986588955}
+{"step": 1086474, "episode/score": 5.099999986588955}
+{"step": 1086686, "episode/score": 12.099999986588955}
+{"step": 1086910, "episode/score": 14.099999986588955}
+{"step": 1087065, "episode/score": 7.099999979138374}
+{"step": 1087326, "episode/score": 14.099999986588955}
+{"step": 1087513, "episode/score": 12.100000001490116}
+{"step": 1087743, "episode/score": 10.099999986588955}
+{"step": 1087967, "episode/score": 12.100000001490116}
+{"step": 1088146, "episode/score": 13.099999986588955}
+{"step": 1088377, "episode/score": 13.099999986588955}
+{"step": 1088613, "episode/score": 12.100000008940697}
+{"step": 1088999, "episode/score": 14.099999979138374}
+{"step": 1089237, "episode/score": 14.100000001490116}
+{"step": 1089488, "episode/score": 12.100000016391277}
+{"step": 1089760, "episode/score": 15.099999986588955}
+{"step": 1089961, "episode/score": 9.099999986588955}
+{"step": 1090208, "episode/score": 12.099999994039536}
+{"step": 1090408, "episode/score": 14.099999986588955}
+{"step": 1090547, "episode/score": 9.099999986588955}
+{"step": 1090729, "episode/score": 12.099999986588955}
+{"step": 1090867, "episode/score": 10.099999986588955}
+{"step": 1091140, "episode/score": 13.099999986588955}
+{"step": 1091334, "episode/score": 12.100000016391277}
+{"step": 1091577, "episode/score": 10.099999986588955}
+{"step": 1091783, "episode/score": 10.099999986588955}
+{"step": 1092007, "episode/score": 12.099999986588955}
+{"step": 1092276, "episode/score": 14.099999986588955}
+{"step": 1092543, "episode/score": 14.100000008940697}
+{"step": 1092844, "episode/score": 15.100000001490116}
+{"step": 1093027, "episode/score": 12.099999986588955}
+{"step": 1093162, "episode/score": 13.099999986588955}
+{"step": 1093392, "episode/score": 12.099999994039536}
+{"step": 1093629, "episode/score": 14.100000008940697}
+{"step": 1093842, "episode/score": 15.099999994039536}
+{"step": 1094101, "episode/score": 15.100000031292439}
+{"step": 1094299, "episode/score": 13.100000016391277}
+{"step": 1094545, "episode/score": 14.100000008940697}
+{"step": 1094773, "episode/score": 13.099999986588955}
+{"step": 1095169, "episode/score": 14.099999986588955}
+{"step": 1095416, "episode/score": 14.099999986588955}
+{"step": 1095640, "episode/score": 13.099999986588955}
+{"step": 1095868, "episode/score": 8.099999971687794}
+{"step": 1096032, "episode/score": 10.099999986588955}
+{"step": 1096199, "episode/score": 8.099999986588955}
+{"step": 1096242, "episode/score": 4.100000001490116}
+{"step": 1096669, "episode/score": 15.099999986588955}
+{"step": 1096851, "episode/score": 8.099999986588955}
+{"step": 1097097, "episode/score": 15.100000008940697}
+{"step": 1097278, "episode/score": 9.099999986588955}
+{"step": 1097465, "episode/score": 12.100000016391277}
+{"step": 1097577, "episode/score": 9.099999986588955}
+{"step": 1097737, "episode/score": 11.100000001490116}
+{"step": 1097918, "episode/score": 11.099999986588955}
+{"step": 1098164, "episode/score": 14.100000016391277}
+{"step": 1098379, "episode/score": 13.099999986588955}
+{"step": 1098650, "episode/score": 10.099999986588955}
+{"step": 1098869, "episode/score": 11.099999979138374}
+{"step": 1099366, "episode/score": 12.100000001490116}
+{"step": 1099686, "episode/score": 12.100000001490116}
+{"step": 1099896, "episode/score": 12.099999986588955}
+{"step": 1100091, "episode/score": 12.100000023841858}
+{"step": 1100256, "episode/score": 11.099999986588955}
+{"step": 1100522, "episode/score": 13.099999986588955}
+{"step": 1100560, "episode/score": 4.099999986588955}
+{"step": 1100783, "episode/score": 12.100000075995922}
+{"step": 1100985, "episode/score": 10.099999986588955}
+{"step": 1101209, "episode/score": 14.100000001490116}
+{"step": 1101405, "episode/score": 13.099999986588955}
+{"step": 1101641, "episode/score": 13.099999986588955}
+{"step": 1101812, "episode/score": 9.100000001490116}
+{"step": 1101840, "episode/score": 2.099999986588955}
+{"step": 1102027, "episode/score": 11.099999986588955}
+{"step": 1102238, "episode/score": 13.099999986588955}
+{"step": 1102409, "episode/score": 14.099999986588955}
+{"step": 1102639, "episode/score": 14.099999986588955}
+{"step": 1102853, "episode/score": 12.099999971687794}
+{"step": 1103277, "episode/score": 15.099999986588955}
+{"step": 1103429, "episode/score": 8.100000008940697}
+{"step": 1103643, "episode/score": 13.100000001490116}
+{"step": 1103848, "episode/score": 15.100000023841858}
+{"step": 1104029, "episode/score": 12.099999986588955}
+{"step": 1104259, "episode/score": 14.099999986588955}
+{"step": 1104413, "episode/score": 13.100000023841858}
+{"step": 1104591, "episode/score": 11.100000001490116}
+{"step": 1104819, "episode/score": 13.100000001490116}
+{"step": 1105001, "episode/score": 12.100000001490116}
+{"step": 1105289, "episode/score": 12.099999979138374}
+{"step": 1105717, "episode/score": 9.099999986588955}
+{"step": 1105778, "episode/score": 2.099999986588955}
+{"step": 1106031, "episode/score": 16.099999986588955}
+{"step": 1106311, "episode/score": 13.099999986588955}
+{"step": 1106532, "episode/score": 13.100000031292439}
+{"step": 1106623, "episode/score": 10.099999986588955}
+{"step": 1106792, "episode/score": 11.099999986588955}
+{"step": 1107043, "episode/score": 16.100000001490116}
+{"step": 1107202, "episode/score": 11.099999986588955}
+{"step": 1107563, "episode/score": 14.099999986588955}
+{"step": 1107750, "episode/score": 13.100000001490116}
+{"step": 1108030, "episode/score": 13.100000001490116}
+{"step": 1108257, "episode/score": 14.099999986588955}
+{"step": 1108471, "episode/score": 14.099999986588955}
+{"step": 1108735, "episode/score": 14.100000008940697}
+{"step": 1109058, "episode/score": 13.099999986588955}
+{"step": 1109285, "episode/score": 11.099999986588955}
+{"step": 1109583, "episode/score": 16.099999986588955}
+{"step": 1109831, "episode/score": 13.099999986588955}
+{"step": 1110048, "episode/score": 14.099999986588955}
+{"step": 1110225, "episode/score": 12.100000008940697}
+{"step": 1110427, "episode/score": 13.100000001490116}
+{"step": 1110651, "episode/score": 13.100000031292439}
+{"step": 1110901, "episode/score": 15.099999994039536}
+{"step": 1111135, "episode/score": 13.099999986588955}
+{"step": 1111195, "episode/score": 8.099999971687794}
+{"step": 1111260, "episode/score": 6.100000008940697}
+{"step": 1111596, "episode/score": 14.099999986588955}
+{"step": 1112147, "episode/score": 14.099999986588955}
+{"step": 1112324, "episode/score": 15.099999986588955}
+{"step": 1112378, "episode/score": 3.099999986588955}
+{"step": 1112605, "episode/score": 13.099999979138374}
+{"step": 1112870, "episode/score": 15.099999986588955}
+{"step": 1112937, "episode/score": 6.100000008940697}
+{"step": 1113105, "episode/score": 12.099999986588955}
+{"step": 1113335, "episode/score": 11.099999986588955}
+{"step": 1113553, "episode/score": 15.099999986588955}
+{"step": 1113842, "episode/score": 14.099999986588955}
+{"step": 1114066, "episode/score": 12.099999986588955}
+{"step": 1114248, "episode/score": 14.099999986588955}
+{"step": 1114308, "episode/score": 5.099999979138374}
+{"step": 1114498, "episode/score": 13.100000001490116}
+{"step": 1114658, "episode/score": 10.099999986588955}
+{"step": 1114886, "episode/score": 13.100000016391277}
+{"step": 1115107, "episode/score": 15.100000023841858}
+{"step": 1115325, "episode/score": 14.100000001490116}
+{"step": 1115580, "episode/score": 14.099999986588955}
+{"step": 1115741, "episode/score": 10.099999986588955}
+{"step": 1115925, "episode/score": 11.099999986588955}
+{"step": 1116216, "episode/score": 16.100000008940697}
+{"step": 1116426, "episode/score": 12.100000008940697}
+{"step": 1116620, "episode/score": 13.099999986588955}
+{"step": 1117024, "episode/score": 13.100000001490116}
+{"step": 1117261, "episode/score": 11.099999986588955}
+{"step": 1117668, "episode/score": 14.099999986588955}
+{"step": 1117732, "episode/score": 8.100000001490116}
+{"step": 1117936, "episode/score": 13.100000008940697}
+{"step": 1117996, "episode/score": 5.099999986588955}
+{"step": 1118437, "episode/score": 14.099999986588955}
+{"step": 1118654, "episode/score": 14.099999986588955}
+{"step": 1118813, "episode/score": 10.100000001490116}
+{"step": 1119008, "episode/score": 14.099999986588955}
+{"step": 1119580, "episode/score": 13.099999986588955}
+{"step": 1119746, "episode/score": 10.099999986588955}
+{"step": 1119992, "episode/score": 12.099999986588955}
+{"step": 1120153, "episode/score": 11.100000001490116}
+{"step": 1120510, "episode/score": 8.099999986588955}
+{"step": 1120693, "episode/score": 12.100000001490116}
+{"step": 1120931, "episode/score": 12.099999986588955}
+{"step": 1121121, "episode/score": 13.100000023841858}
+{"step": 1121256, "episode/score": 13.100000023841858}
+{"step": 1121498, "episode/score": 13.099999979138374}
+{"step": 1121723, "episode/score": 8.100000008940697}
+{"step": 1121894, "episode/score": 13.100000001490116}
+{"step": 1121932, "episode/score": 6.100000023841858}
+{"step": 1122188, "episode/score": 14.099999986588955}
+{"step": 1122370, "episode/score": 13.099999986588955}
+{"step": 1122548, "episode/score": 10.099999986588955}
+{"step": 1122785, "episode/score": 13.100000008940697}
+{"step": 1122951, "episode/score": 14.100000016391277}
+{"step": 1123257, "episode/score": 17.099999986588955}
+{"step": 1123452, "episode/score": 14.100000001490116}
+{"step": 1123695, "episode/score": 11.100000001490116}
+{"step": 1123759, "episode/score": 7.100000023841858}
+{"step": 1124007, "episode/score": 14.100000031292439}
+{"step": 1124329, "episode/score": 13.099999986588955}
+{"step": 1124486, "episode/score": 13.099999986588955}
+{"step": 1124794, "episode/score": 13.099999994039536}
+{"step": 1125112, "episode/score": 15.099999986588955}
+{"step": 1125316, "episode/score": 13.100000008940697}
+{"step": 1125616, "episode/score": 13.099999964237213}
+{"step": 1125933, "episode/score": 9.099999979138374}
+{"step": 1126179, "episode/score": 14.100000008940697}
+{"step": 1126382, "episode/score": 8.099999986588955}
+{"step": 1126620, "episode/score": 13.100000008940697}
+{"step": 1126825, "episode/score": 9.099999986588955}
+{"step": 1127061, "episode/score": 14.099999979138374}
+{"step": 1127311, "episode/score": 15.100000008940697}
+{"step": 1127523, "episode/score": 13.099999986588955}
+{"step": 1127781, "episode/score": 12.099999986588955}
+{"step": 1127994, "episode/score": 14.099999986588955}
+{"step": 1128227, "episode/score": 15.099999986588955}
+{"step": 1128372, "episode/score": 10.099999986588955}
+{"step": 1128433, "episode/score": 5.099999986588955}
+{"step": 1128659, "episode/score": 15.100000023841858}
+{"step": 1128854, "episode/score": 10.099999986588955}
+{"step": 1129132, "episode/score": 8.100000001490116}
+{"step": 1129407, "episode/score": 15.100000001490116}
+{"step": 1129730, "episode/score": 14.099999986588955}
+{"step": 1129915, "episode/score": 13.099999986588955}
+{"step": 1130062, "episode/score": 11.099999986588955}
+{"step": 1130340, "episode/score": 13.099999986588955}
+{"step": 1130496, "episode/score": 11.099999986588955}
+{"step": 1130688, "episode/score": 11.099999986588955}
+{"step": 1131026, "episode/score": 13.099999986588955}
+{"step": 1131578, "episode/score": 14.099999994039536}
+{"step": 1131836, "episode/score": 14.099999986588955}
+{"step": 1132027, "episode/score": 14.100000016391277}
+{"step": 1132239, "episode/score": 14.100000001490116}
+{"step": 1132451, "episode/score": 13.099999986588955}
+{"step": 1132625, "episode/score": 11.099999986588955}
+{"step": 1132858, "episode/score": 12.100000001490116}
+{"step": 1133021, "episode/score": 14.099999986588955}
+{"step": 1133083, "episode/score": 5.099999986588955}
+{"step": 1133229, "episode/score": 12.099999964237213}
+{"step": 1133446, "episode/score": 14.099999986588955}
+{"step": 1133505, "episode/score": 5.0999999940395355}
+{"step": 1133787, "episode/score": 14.099999994039536}
+{"step": 1134009, "episode/score": 14.100000008940697}
+{"step": 1134240, "episode/score": 13.100000001490116}
+{"step": 1134560, "episode/score": 13.099999994039536}
+{"step": 1134712, "episode/score": 8.099999986588955}
+{"step": 1134937, "episode/score": 14.099999964237213}
+{"step": 1135126, "episode/score": 13.099999986588955}
+{"step": 1135409, "episode/score": 13.099999986588955}
+{"step": 1135799, "episode/score": 15.099999986588955}
+{"step": 1136001, "episode/score": 14.099999986588955}
+{"step": 1136225, "episode/score": 11.100000001490116}
+{"step": 1136417, "episode/score": 12.099999986588955}
+{"step": 1136600, "episode/score": 14.099999986588955}
+{"step": 1136703, "episode/score": 8.100000016391277}
+{"step": 1136917, "episode/score": 14.099999964237213}
+{"step": 1137125, "episode/score": 12.099999986588955}
+{"step": 1137351, "episode/score": 14.100000038743019}
+{"step": 1137544, "episode/score": 12.099999986588955}
+{"step": 1137865, "episode/score": 14.099999986588955}
+{"step": 1138054, "episode/score": 7.099999986588955}
+{"step": 1138136, "episode/score": 8.099999986588955}
+{"step": 1138331, "episode/score": 14.099999986588955}
+{"step": 1138672, "episode/score": 9.100000008940697}
+{"step": 1138889, "episode/score": 14.100000001490116}
+{"step": 1139098, "episode/score": 11.099999986588955}
+{"step": 1139294, "episode/score": 10.099999979138374}
+{"step": 1139466, "episode/score": 12.100000001490116}
+{"step": 1139661, "episode/score": 12.099999986588955}
+{"step": 1139952, "episode/score": 15.099999986588955}
+{"step": 1140159, "episode/score": 13.099999986588955}
+{"step": 1140448, "episode/score": 9.100000001490116}
+{"step": 1140676, "episode/score": 12.099999986588955}
+{"step": 1140979, "episode/score": 13.099999964237213}
+{"step": 1141141, "episode/score": 12.099999986588955}
+{"step": 1141328, "episode/score": 9.099999986588955}
+{"step": 1141533, "episode/score": 14.099999986588955}
+{"step": 1141781, "episode/score": 14.099999986588955}
+{"step": 1142071, "episode/score": 15.100000001490116}
+{"step": 1142277, "episode/score": 14.100000001490116}
+{"step": 1142577, "episode/score": 12.100000031292439}
+{"step": 1142745, "episode/score": 10.099999986588955}
+{"step": 1142996, "episode/score": 13.100000008940697}
+{"step": 1143149, "episode/score": 10.100000016391277}
+{"step": 1143330, "episode/score": 9.099999986588955}
+{"step": 1143563, "episode/score": 14.099999986588955}
+{"step": 1143820, "episode/score": 14.100000008940697}
+{"step": 1144124, "episode/score": 13.100000008940697}
+{"step": 1144350, "episode/score": 13.100000008940697}
+{"step": 1144522, "episode/score": 10.099999986588955}
+{"step": 1144726, "episode/score": 13.099999986588955}
+{"step": 1144979, "episode/score": 14.099999986588955}
+{"step": 1145105, "episode/score": 10.100000023841858}
+{"step": 1145488, "episode/score": 7.099999986588955}
+{"step": 1145665, "episode/score": 9.099999986588955}
+{"step": 1145870, "episode/score": 11.099999986588955}
+{"step": 1146061, "episode/score": 14.099999986588955}
+{"step": 1146271, "episode/score": 11.100000001490116}
+{"step": 1146419, "episode/score": 12.100000016391277}
+{"step": 1146642, "episode/score": 13.099999986588955}
+{"step": 1146817, "episode/score": 12.100000023841858}
+{"step": 1147069, "episode/score": 15.099999986588955}
+{"step": 1147559, "episode/score": 16.099999986588955}
+{"step": 1147754, "episode/score": 11.100000008940697}
+{"step": 1147958, "episode/score": 13.099999986588955}
+{"step": 1148131, "episode/score": 10.099999979138374}
+{"step": 1148337, "episode/score": 14.099999986588955}
+{"step": 1148392, "episode/score": 6.100000008940697}
+{"step": 1148587, "episode/score": 11.099999986588955}
+{"step": 1148788, "episode/score": 13.099999986588955}
+{"step": 1149033, "episode/score": 13.099999986588955}
+{"step": 1149216, "episode/score": 13.099999986588955}
+{"step": 1149280, "episode/score": 6.099999986588955}
+{"step": 1149531, "episode/score": 13.099999986588955}
+{"step": 1149763, "episode/score": 14.100000001490116}
+{"step": 1149962, "episode/score": 13.100000008940697}
+{"step": 1150148, "episode/score": 12.099999986588955}
+{"step": 1150308, "episode/score": 10.100000001490116}
+{"step": 1150484, "episode/score": 12.099999986588955}
+{"step": 1150632, "episode/score": 12.100000001490116}
+{"step": 1150929, "episode/score": 15.100000008940697}
+{"step": 1151081, "episode/score": 10.100000001490116}
+{"step": 1151274, "episode/score": 14.099999986588955}
+{"step": 1151516, "episode/score": 15.100000008940697}
+{"step": 1151798, "episode/score": 10.099999986588955}
+{"step": 1151988, "episode/score": 11.099999986588955}
+{"step": 1152227, "episode/score": 12.100000008940697}
+{"step": 1152407, "episode/score": 10.100000008940697}
+{"step": 1152711, "episode/score": 12.100000023841858}
+{"step": 1152880, "episode/score": 11.099999986588955}
+{"step": 1153062, "episode/score": 15.099999986588955}
+{"step": 1153353, "episode/score": 14.099999986588955}
+{"step": 1153657, "episode/score": 14.099999986588955}
+{"step": 1153890, "episode/score": 15.099999986588955}
+{"step": 1154085, "episode/score": 13.099999986588955}
+{"step": 1154269, "episode/score": 14.100000016391277}
+{"step": 1154482, "episode/score": 13.099999986588955}
+{"step": 1154680, "episode/score": 13.100000008940697}
+{"step": 1154845, "episode/score": 10.099999986588955}
+{"step": 1155033, "episode/score": 10.099999986588955}
+{"step": 1155250, "episode/score": 13.099999986588955}
+{"step": 1155457, "episode/score": 13.100000016391277}
+{"step": 1155688, "episode/score": 14.099999986588955}
+{"step": 1155892, "episode/score": 14.099999986588955}
+{"step": 1156095, "episode/score": 15.100000001490116}
+{"step": 1156283, "episode/score": 12.099999986588955}
+{"step": 1156445, "episode/score": 10.100000001490116}
+{"step": 1156581, "episode/score": 11.100000023841858}
+{"step": 1156644, "episode/score": 6.100000008940697}
+{"step": 1156854, "episode/score": 6.099999971687794}
+{"step": 1157044, "episode/score": 13.099999986588955}
+{"step": 1157277, "episode/score": 11.099999986588955}
+{"step": 1157496, "episode/score": 9.099999986588955}
+{"step": 1157706, "episode/score": 11.100000008940697}
+{"step": 1158061, "episode/score": 4.099999986588955}
+{"step": 1158299, "episode/score": 14.100000001490116}
+{"step": 1158507, "episode/score": 15.099999986588955}
+{"step": 1158724, "episode/score": 13.099999986588955}
+{"step": 1158990, "episode/score": 15.100000001490116}
+{"step": 1159182, "episode/score": 12.100000001490116}
+{"step": 1159376, "episode/score": 14.1000000461936}
+{"step": 1159580, "episode/score": 14.100000031292439}
+{"step": 1159791, "episode/score": 12.099999986588955}
+{"step": 1159997, "episode/score": 12.100000001490116}
+{"step": 1160156, "episode/score": 12.099999986588955}
+{"step": 1160409, "episode/score": 9.099999994039536}
+{"step": 1160643, "episode/score": 14.099999986588955}
+{"step": 1160873, "episode/score": 13.099999986588955}
+{"step": 1161161, "episode/score": 13.099999986588955}
+{"step": 1161408, "episode/score": 11.100000001490116}
+{"step": 1161463, "episode/score": 7.100000023841858}
+{"step": 1161698, "episode/score": 14.099999986588955}
+{"step": 1162019, "episode/score": 15.100000008940697}
+{"step": 1162239, "episode/score": 11.099999971687794}
+{"step": 1162537, "episode/score": 13.099999986588955}
+{"step": 1162732, "episode/score": 13.100000001490116}
+{"step": 1162928, "episode/score": 14.100000001490116}
+{"step": 1163249, "episode/score": 14.100000023841858}
+{"step": 1163421, "episode/score": 11.100000001490116}
+{"step": 1163647, "episode/score": 13.099999986588955}
+{"step": 1163885, "episode/score": 15.100000008940697}
+{"step": 1164133, "episode/score": 14.100000016391277}
+{"step": 1164298, "episode/score": 9.099999979138374}
+{"step": 1164515, "episode/score": 14.100000031292439}
+{"step": 1164765, "episode/score": 15.099999986588955}
+{"step": 1164966, "episode/score": 15.100000016391277}
+{"step": 1165153, "episode/score": 11.100000001490116}
+{"step": 1165332, "episode/score": 9.099999986588955}
+{"step": 1165503, "episode/score": 12.099999986588955}
+{"step": 1165716, "episode/score": 12.099999986588955}
+{"step": 1166186, "episode/score": 15.100000023841858}
+{"step": 1166367, "episode/score": 12.100000001490116}
+{"step": 1166571, "episode/score": 14.099999986588955}
+{"step": 1166749, "episode/score": 14.100000001490116}
+{"step": 1166942, "episode/score": 14.100000001490116}
+{"step": 1167197, "episode/score": 15.099999986588955}
+{"step": 1167439, "episode/score": 12.100000008940697}
+{"step": 1167598, "episode/score": 7.099999986588955}
+{"step": 1167949, "episode/score": 14.100000001490116}
+{"step": 1167988, "episode/score": 6.100000001490116}
+{"step": 1168195, "episode/score": 12.100000001490116}
+{"step": 1168480, "episode/score": 16.100000001490116}
+{"step": 1168611, "episode/score": 11.099999986588955}
+{"step": 1168918, "episode/score": 14.100000001490116}
+{"step": 1169125, "episode/score": 12.099999986588955}
+{"step": 1169446, "episode/score": 14.099999979138374}
+{"step": 1169629, "episode/score": 15.099999986588955}
+{"step": 1169863, "episode/score": 14.099999986588955}
+{"step": 1169994, "episode/score": 10.100000001490116}
+{"step": 1170168, "episode/score": 8.100000016391277}
+{"step": 1170531, "episode/score": 15.099999986588955}
+{"step": 1170750, "episode/score": 15.100000001490116}
+{"step": 1171097, "episode/score": 14.099999986588955}
+{"step": 1171283, "episode/score": 10.099999986588955}
+{"step": 1171423, "episode/score": 11.099999986588955}
+{"step": 1171640, "episode/score": 11.099999986588955}
+{"step": 1171849, "episode/score": 14.100000008940697}
+{"step": 1172038, "episode/score": 15.100000001490116}
+{"step": 1172233, "episode/score": 11.099999986588955}
+{"step": 1172651, "episode/score": 15.099999986588955}
+{"step": 1172844, "episode/score": 15.100000001490116}
+{"step": 1173053, "episode/score": 15.099999986588955}
+{"step": 1173313, "episode/score": 13.099999986588955}
+{"step": 1173553, "episode/score": 15.100000001490116}
+{"step": 1173790, "episode/score": 13.100000001490116}
+{"step": 1173924, "episode/score": 10.100000001490116}
+{"step": 1174115, "episode/score": 13.099999986588955}
+{"step": 1174336, "episode/score": 12.100000001490116}
+{"step": 1174510, "episode/score": 12.099999986588955}
+{"step": 1174709, "episode/score": 9.099999986588955}
+{"step": 1174988, "episode/score": 14.100000008940697}
+{"step": 1175042, "episode/score": 4.099999986588955}
+{"step": 1175393, "episode/score": 13.100000023841858}
+{"step": 1175603, "episode/score": 14.099999986588955}
+{"step": 1175825, "episode/score": 14.099999986588955}
+{"step": 1176015, "episode/score": 13.099999986588955}
+{"step": 1176244, "episode/score": 13.099999986588955}
+{"step": 1176508, "episode/score": 13.099999986588955}
+{"step": 1176752, "episode/score": 12.099999986588955}
+{"step": 1176947, "episode/score": 14.100000008940697}
+{"step": 1177025, "episode/score": 9.100000023841858}
+{"step": 1177246, "episode/score": 15.099999986588955}
+{"step": 1177510, "episode/score": 12.099999979138374}
+{"step": 1177674, "episode/score": 12.100000023841858}
+{"step": 1177875, "episode/score": 12.100000023841858}
+{"step": 1178071, "episode/score": 13.099999986588955}
+{"step": 1178273, "episode/score": 14.100000016391277}
+{"step": 1178509, "episode/score": 15.099999986588955}
+{"step": 1178816, "episode/score": 12.099999994039536}
+{"step": 1178881, "episode/score": 5.099999986588955}
+{"step": 1179231, "episode/score": 11.099999986588955}
+{"step": 1179496, "episode/score": 12.099999986588955}
+{"step": 1179879, "episode/score": 14.099999979138374}
+{"step": 1180024, "episode/score": 12.099999986588955}
+{"step": 1180339, "episode/score": 15.099999994039536}
+{"step": 1180539, "episode/score": 13.099999986588955}
+{"step": 1180740, "episode/score": 14.100000001490116}
+{"step": 1180948, "episode/score": 14.099999986588955}
+{"step": 1181246, "episode/score": 14.099999986588955}
+{"step": 1181418, "episode/score": 12.100000038743019}
+{"step": 1181663, "episode/score": 12.099999986588955}
+{"step": 1181889, "episode/score": 12.100000008940697}
+{"step": 1182100, "episode/score": 10.100000023841858}
+{"step": 1182285, "episode/score": 13.099999979138374}
+{"step": 1182538, "episode/score": 15.099999986588955}
+{"step": 1182724, "episode/score": 11.099999986588955}
+{"step": 1182953, "episode/score": 13.100000008940697}
+{"step": 1182998, "episode/score": 3.1000000089406967}
+{"step": 1183200, "episode/score": 11.100000001490116}
+{"step": 1183274, "episode/score": 7.1000000312924385}
+{"step": 1183460, "episode/score": 12.099999986588955}
+{"step": 1183627, "episode/score": 13.099999986588955}
+{"step": 1183840, "episode/score": 13.100000023841858}
+{"step": 1184074, "episode/score": 15.099999986588955}
+{"step": 1184137, "episode/score": 5.100000001490116}
+{"step": 1184184, "episode/score": 6.100000023841858}
+{"step": 1184563, "episode/score": 12.099999986588955}
+{"step": 1184758, "episode/score": 13.099999986588955}
+{"step": 1184946, "episode/score": 14.100000008940697}
+{"step": 1185185, "episode/score": 13.099999986588955}
+{"step": 1185472, "episode/score": 13.100000001490116}
+{"step": 1185628, "episode/score": 15.099999986588955}
+{"step": 1185839, "episode/score": 11.100000001490116}
+{"step": 1186058, "episode/score": 14.099999986588955}
+{"step": 1186237, "episode/score": 12.100000023841858}
+{"step": 1186454, "episode/score": 14.100000008940697}
+{"step": 1186680, "episode/score": 13.099999986588955}
+{"step": 1186871, "episode/score": 12.099999986588955}
+{"step": 1187150, "episode/score": 15.099999986588955}
+{"step": 1187668, "episode/score": 16.099999986588955}
+{"step": 1187887, "episode/score": 13.100000001490116}
+{"step": 1188391, "episode/score": 9.099999986588955}
+{"step": 1188560, "episode/score": 11.099999986588955}
+{"step": 1188623, "episode/score": 7.099999979138374}
+{"step": 1188834, "episode/score": 13.099999986588955}
+{"step": 1189031, "episode/score": 13.100000001490116}
+{"step": 1189237, "episode/score": 13.099999986588955}
+{"step": 1189483, "episode/score": 8.099999994039536}
+{"step": 1189657, "episode/score": 12.099999986588955}
+{"step": 1189813, "episode/score": 12.100000008940697}
+{"step": 1189872, "episode/score": 4.099999986588955}
+{"step": 1190066, "episode/score": 11.099999986588955}
+{"step": 1190321, "episode/score": 14.099999986588955}
+{"step": 1190502, "episode/score": 12.099999986588955}
+{"step": 1190545, "episode/score": 4.099999986588955}
+{"step": 1190603, "episode/score": 6.099999986588955}
+{"step": 1190789, "episode/score": 13.099999986588955}
+{"step": 1191005, "episode/score": 12.100000008940697}
+{"step": 1191457, "episode/score": 13.099999986588955}
+{"step": 1191730, "episode/score": 14.100000023841858}
+{"step": 1192161, "episode/score": 14.099999986588955}
+{"step": 1192430, "episode/score": 13.100000001490116}
+{"step": 1192481, "episode/score": 6.100000023841858}
+{"step": 1192705, "episode/score": 12.099999986588955}
+{"step": 1192996, "episode/score": 13.099999986588955}
+{"step": 1193206, "episode/score": 12.099999986588955}
+{"step": 1193395, "episode/score": 10.099999986588955}
+{"step": 1193592, "episode/score": 12.099999986588955}
+{"step": 1193655, "episode/score": 3.0999999716877937}
+{"step": 1193836, "episode/score": 9.100000016391277}
+{"step": 1194040, "episode/score": 12.099999986588955}
+{"step": 1194250, "episode/score": 15.099999986588955}
+{"step": 1194511, "episode/score": 16.100000001490116}
+{"step": 1194737, "episode/score": 15.099999979138374}
+{"step": 1194989, "episode/score": 14.099999986588955}
+{"step": 1195184, "episode/score": 15.100000008940697}
+{"step": 1195392, "episode/score": 14.100000016391277}
+{"step": 1195627, "episode/score": 12.100000001490116}
+{"step": 1195917, "episode/score": 15.100000001490116}
+{"step": 1196145, "episode/score": 16.099999986588955}
+{"step": 1196244, "episode/score": 6.100000008940697}
+{"step": 1196499, "episode/score": 11.099999986588955}
+{"step": 1196699, "episode/score": 13.100000001490116}
+{"step": 1196901, "episode/score": 14.100000001490116}
+{"step": 1197157, "episode/score": 6.100000001490116}
+{"step": 1197346, "episode/score": 14.099999986588955}
+{"step": 1197525, "episode/score": 9.100000001490116}
+{"step": 1197778, "episode/score": 14.100000001490116}
+{"step": 1197957, "episode/score": 15.100000016391277}
+{"step": 1198128, "episode/score": 13.100000016391277}
+{"step": 1198184, "episode/score": 3.099999986588955}
+{"step": 1198457, "episode/score": 8.100000001490116}
+{"step": 1198688, "episode/score": 13.099999994039536}
+{"step": 1198935, "episode/score": 14.099999986588955}
+{"step": 1199111, "episode/score": 13.100000008940697}
+{"step": 1199175, "episode/score": 6.100000023841858}
+{"step": 1199447, "episode/score": 5.100000008940697}
+{"step": 1199682, "episode/score": 13.099999986588955}
+{"step": 1199853, "episode/score": 9.099999986588955}
+{"step": 1200039, "episode/score": 12.099999964237213}
+{"step": 1200259, "episode/score": 14.100000008940697}
+{"step": 1200787, "episode/score": 15.099999986588955}
+{"step": 1200949, "episode/score": 10.099999986588955}
+{"step": 1201177, "episode/score": 11.099999986588955}
+{"step": 1201477, "episode/score": 14.099999986588955}
+{"step": 1201749, "episode/score": 15.099999986588955}
+{"step": 1202034, "episode/score": 14.099999986588955}
+{"step": 1202239, "episode/score": 14.099999986588955}
+{"step": 1202464, "episode/score": 15.100000038743019}
+{"step": 1202664, "episode/score": 13.099999986588955}
+{"step": 1202883, "episode/score": 14.099999986588955}
+{"step": 1202943, "episode/score": 3.099999986588955}
+{"step": 1203259, "episode/score": 13.099999986588955}
+{"step": 1203622, "episode/score": 14.099999986588955}
+{"step": 1203931, "episode/score": 14.100000001490116}
+{"step": 1204154, "episode/score": 14.099999986588955}
+{"step": 1204454, "episode/score": 14.099999986588955}
+{"step": 1204634, "episode/score": 12.099999986588955}
+{"step": 1204817, "episode/score": 14.099999986588955}
+{"step": 1205087, "episode/score": 7.099999986588955}
+{"step": 1205263, "episode/score": 10.100000001490116}
+{"step": 1205373, "episode/score": 7.100000023841858}
+{"step": 1205589, "episode/score": 13.100000001490116}
+{"step": 1205824, "episode/score": 10.100000016391277}
+{"step": 1206007, "episode/score": 13.100000001490116}
+{"step": 1206273, "episode/score": 14.099999986588955}
+{"step": 1206657, "episode/score": 12.100000008940697}
+{"step": 1206752, "episode/score": 9.100000023841858}
+{"step": 1206982, "episode/score": 12.100000008940697}
+{"step": 1207182, "episode/score": 15.099999986588955}
+{"step": 1207379, "episode/score": 13.1000000461936}
+{"step": 1207596, "episode/score": 14.100000001490116}
+{"step": 1207829, "episode/score": 8.099999986588955}
+{"step": 1208029, "episode/score": 14.100000001490116}
+{"step": 1208073, "episode/score": 8.099999971687794}
+{"step": 1208275, "episode/score": 15.100000008940697}
+{"step": 1208341, "episode/score": 4.100000008940697}
+{"step": 1208521, "episode/score": 11.099999986588955}
+{"step": 1208722, "episode/score": 11.100000016391277}
+{"step": 1208983, "episode/score": 14.100000001490116}
+{"step": 1209244, "episode/score": 15.099999986588955}
+{"step": 1209405, "episode/score": 8.100000001490116}
+{"step": 1209888, "episode/score": 15.099999964237213}
+{"step": 1210104, "episode/score": 14.099999986588955}
+{"step": 1210165, "episode/score": 4.100000001490116}
+{"step": 1210383, "episode/score": 14.100000001490116}
+{"step": 1210644, "episode/score": 14.100000001490116}
+{"step": 1210811, "episode/score": 14.100000001490116}
+{"step": 1211052, "episode/score": 13.099999986588955}
+{"step": 1211273, "episode/score": 13.099999986588955}
+{"step": 1211493, "episode/score": 13.100000001490116}
+{"step": 1211708, "episode/score": 8.099999986588955}
+{"step": 1211877, "episode/score": 10.100000001490116}
+{"step": 1212130, "episode/score": 13.099999986588955}
+{"step": 1212312, "episode/score": 13.100000001490116}
+{"step": 1212508, "episode/score": 8.099999971687794}
+{"step": 1212804, "episode/score": 16.099999986588955}
+{"step": 1213004, "episode/score": 12.100000001490116}
+{"step": 1213245, "episode/score": 14.099999986588955}
+{"step": 1213449, "episode/score": 16.100000001490116}
+{"step": 1213601, "episode/score": 11.100000001490116}
+{"step": 1213870, "episode/score": 15.099999986588955}
+{"step": 1214030, "episode/score": 11.099999986588955}
+{"step": 1214222, "episode/score": 14.100000016391277}
+{"step": 1214483, "episode/score": 14.100000001490116}
+{"step": 1214740, "episode/score": 12.099999979138374}
+{"step": 1214988, "episode/score": 14.099999986588955}
+{"step": 1215045, "episode/score": 1.1000000089406967}
+{"step": 1215247, "episode/score": 14.100000008940697}
+{"step": 1215535, "episode/score": 12.099999986588955}
+{"step": 1215596, "episode/score": 4.099999986588955}
+{"step": 1215786, "episode/score": 12.099999971687794}
+{"step": 1216167, "episode/score": 12.099999986588955}
+{"step": 1216217, "episode/score": 4.099999964237213}
+{"step": 1216463, "episode/score": 15.099999986588955}
+{"step": 1216644, "episode/score": 13.099999986588955}
+{"step": 1216902, "episode/score": 14.099999986588955}
+{"step": 1217170, "episode/score": 14.099999986588955}
+{"step": 1217378, "episode/score": 13.100000008940697}
+{"step": 1217586, "episode/score": 13.099999986588955}
+{"step": 1217844, "episode/score": 15.099999986588955}
+{"step": 1218068, "episode/score": 14.100000008940697}
+{"step": 1218338, "episode/score": 14.100000001490116}
+{"step": 1218563, "episode/score": 14.099999986588955}
+{"step": 1218726, "episode/score": 12.099999986588955}
+{"step": 1219215, "episode/score": 15.099999979138374}
+{"step": 1219529, "episode/score": 14.099999964237213}
+{"step": 1219810, "episode/score": 15.099999986588955}
+{"step": 1219879, "episode/score": 9.099999986588955}
+{"step": 1220127, "episode/score": 15.099999986588955}
+{"step": 1220318, "episode/score": 11.099999986588955}
+{"step": 1220491, "episode/score": 12.099999986588955}
+{"step": 1220705, "episode/score": 12.099999986588955}
+{"step": 1220916, "episode/score": 12.100000008940697}
+{"step": 1221107, "episode/score": 8.100000008940697}
+{"step": 1221326, "episode/score": 13.100000001490116}
+{"step": 1221614, "episode/score": 9.099999979138374}
+{"step": 1221863, "episode/score": 15.099999986588955}
+{"step": 1222063, "episode/score": 13.099999986588955}
+{"step": 1222292, "episode/score": 14.099999971687794}
+{"step": 1222597, "episode/score": 13.099999964237213}
+{"step": 1222824, "episode/score": 14.099999986588955}
+{"step": 1223034, "episode/score": 15.100000001490116}
+{"step": 1223311, "episode/score": 10.100000023841858}
+{"step": 1223545, "episode/score": 12.100000001490116}
+{"step": 1223770, "episode/score": 13.100000008940697}
+{"step": 1224065, "episode/score": 13.099999986588955}
+{"step": 1224232, "episode/score": 13.099999986588955}
+{"step": 1224472, "episode/score": 13.100000023841858}
+{"step": 1224714, "episode/score": 13.100000008940697}
+{"step": 1224953, "episode/score": 15.099999986588955}
+{"step": 1225200, "episode/score": 14.100000001490116}
+{"step": 1225286, "episode/score": 6.100000008940697}
+{"step": 1225520, "episode/score": 14.099999986588955}
+{"step": 1225769, "episode/score": 15.100000008940697}
+{"step": 1225919, "episode/score": 8.099999986588955}
+{"step": 1226161, "episode/score": 14.100000023841858}
+{"step": 1226350, "episode/score": 12.100000001490116}
+{"step": 1226516, "episode/score": 12.099999986588955}
+{"step": 1226717, "episode/score": 11.100000001490116}
+{"step": 1227141, "episode/score": 8.099999986588955}
+{"step": 1227312, "episode/score": 6.0999999940395355}
+{"step": 1227529, "episode/score": 12.099999986588955}
+{"step": 1227765, "episode/score": 13.100000023841858}
+{"step": 1228055, "episode/score": 14.100000001490116}
+{"step": 1228237, "episode/score": 12.099999986588955}
+{"step": 1228456, "episode/score": 14.100000023841858}
+{"step": 1228524, "episode/score": 4.100000016391277}
+{"step": 1228797, "episode/score": 14.099999986588955}
+{"step": 1228948, "episode/score": 10.099999986588955}
+{"step": 1229377, "episode/score": 9.099999986588955}
+{"step": 1229631, "episode/score": 14.099999986588955}
+{"step": 1229886, "episode/score": 14.100000008940697}
+{"step": 1230094, "episode/score": 14.100000001490116}
+{"step": 1230395, "episode/score": 14.100000001490116}
+{"step": 1230585, "episode/score": 11.099999986588955}
+{"step": 1230800, "episode/score": 12.099999986588955}
+{"step": 1230951, "episode/score": 13.099999986588955}
+{"step": 1231227, "episode/score": 15.099999986588955}
+{"step": 1231448, "episode/score": 13.100000001490116}
+{"step": 1231639, "episode/score": 14.100000008940697}
+{"step": 1231851, "episode/score": 13.100000008940697}
+{"step": 1232009, "episode/score": 13.099999964237213}
+{"step": 1232228, "episode/score": 12.100000001490116}
+{"step": 1232525, "episode/score": 13.099999986588955}
+{"step": 1232680, "episode/score": 12.100000016391277}
+{"step": 1232908, "episode/score": 14.100000001490116}
+{"step": 1232978, "episode/score": 8.099999986588955}
+{"step": 1233203, "episode/score": 10.099999986588955}
+{"step": 1233470, "episode/score": 14.099999986588955}
+{"step": 1233659, "episode/score": 5.099999986588955}
+{"step": 1233869, "episode/score": 13.100000008940697}
+{"step": 1234139, "episode/score": 13.100000001490116}
+{"step": 1234346, "episode/score": 9.100000016391277}
+{"step": 1234529, "episode/score": 12.099999986588955}
+{"step": 1234778, "episode/score": 15.099999994039536}
+{"step": 1235007, "episode/score": 11.100000008940697}
+{"step": 1235181, "episode/score": 13.099999986588955}
+{"step": 1235369, "episode/score": 14.099999986588955}
+{"step": 1235586, "episode/score": 14.099999986588955}
+{"step": 1235808, "episode/score": 11.099999986588955}
+{"step": 1235890, "episode/score": 9.100000023841858}
+{"step": 1236160, "episode/score": 14.099999986588955}
+{"step": 1236402, "episode/score": 14.099999986588955}
+{"step": 1236591, "episode/score": 11.100000023841858}
+{"step": 1236660, "episode/score": 6.099999971687794}
+{"step": 1236927, "episode/score": 12.099999986588955}
+{"step": 1237323, "episode/score": 14.099999986588955}
+{"step": 1237582, "episode/score": 12.100000001490116}
+{"step": 1237832, "episode/score": 14.099999986588955}
+{"step": 1238083, "episode/score": 13.099999986588955}
+{"step": 1238346, "episode/score": 15.099999979138374}
+{"step": 1238513, "episode/score": 14.099999986588955}
+{"step": 1238683, "episode/score": 12.099999986588955}
+{"step": 1239020, "episode/score": 11.099999986588955}
+{"step": 1239201, "episode/score": 13.100000008940697}
+{"step": 1239427, "episode/score": 14.100000008940697}
+{"step": 1239617, "episode/score": 12.100000016391277}
+{"step": 1239930, "episode/score": 13.099999986588955}
+{"step": 1240134, "episode/score": 14.100000008940697}
+{"step": 1240455, "episode/score": 13.099999986588955}
+{"step": 1240670, "episode/score": 14.099999986588955}
+{"step": 1240874, "episode/score": 14.100000008940697}
+{"step": 1241057, "episode/score": 12.100000008940697}
+{"step": 1241242, "episode/score": 9.099999986588955}
+{"step": 1241450, "episode/score": 15.099999986588955}
+{"step": 1241517, "episode/score": 7.099999986588955}
+{"step": 1241738, "episode/score": 12.099999979138374}
+{"step": 1241905, "episode/score": 12.099999986588955}
+{"step": 1242120, "episode/score": 12.100000001490116}
+{"step": 1242376, "episode/score": 13.099999986588955}
+{"step": 1242512, "episode/score": 9.100000001490116}
+{"step": 1242726, "episode/score": 13.099999986588955}
+{"step": 1242922, "episode/score": 13.100000001490116}
+{"step": 1243282, "episode/score": 15.099999986588955}
+{"step": 1243530, "episode/score": 13.100000008940697}
+{"step": 1244050, "episode/score": 16.099999979138374}
+{"step": 1244238, "episode/score": 13.099999986588955}
+{"step": 1244299, "episode/score": 7.099999971687794}
+{"step": 1244469, "episode/score": 12.100000001490116}
+{"step": 1244683, "episode/score": 15.099999986588955}
+{"step": 1245068, "episode/score": 14.099999986588955}
+{"step": 1245213, "episode/score": 11.100000001490116}
+{"step": 1245540, "episode/score": 15.099999986588955}
+{"step": 1245604, "episode/score": 7.100000023841858}
+{"step": 1245975, "episode/score": 13.099999986588955}
+{"step": 1246306, "episode/score": 14.099999986588955}
+{"step": 1246672, "episode/score": 14.099999986588955}
+{"step": 1246911, "episode/score": 11.099999986588955}
+{"step": 1247140, "episode/score": 14.100000008940697}
+{"step": 1247371, "episode/score": 16.100000001490116}
+{"step": 1247745, "episode/score": 12.099999986588955}
+{"step": 1248025, "episode/score": 15.100000008940697}
+{"step": 1248274, "episode/score": 14.100000001490116}
+{"step": 1248467, "episode/score": 15.099999986588955}
+{"step": 1248648, "episode/score": 15.099999986588955}
+{"step": 1248894, "episode/score": 13.099999986588955}
+{"step": 1248987, "episode/score": 10.099999986588955}
+{"step": 1249255, "episode/score": 13.099999986588955}
+{"step": 1249446, "episode/score": 11.100000001490116}
+{"step": 1249675, "episode/score": 14.099999986588955}
+{"step": 1249983, "episode/score": 15.099999986588955}
+{"step": 1250250, "episode/score": 15.099999986588955}
+{"step": 1250569, "episode/score": 16.099999964237213}
+{"step": 1250786, "episode/score": 15.099999994039536}
+{"step": 1251031, "episode/score": 14.099999994039536}
+{"step": 1251280, "episode/score": 13.099999986588955}
+{"step": 1251394, "episode/score": 8.100000023841858}
+{"step": 1251621, "episode/score": 14.099999971687794}
+{"step": 1251828, "episode/score": 14.100000023841858}
+{"step": 1252019, "episode/score": 14.099999986588955}
+{"step": 1252079, "episode/score": 7.100000008940697}
+{"step": 1252147, "episode/score": 1.1000000089406967}
+{"step": 1252333, "episode/score": 8.100000008940697}
+{"step": 1252519, "episode/score": 14.100000023841858}
+{"step": 1252699, "episode/score": 12.100000008940697}
+{"step": 1252905, "episode/score": 10.099999986588955}
+{"step": 1253097, "episode/score": 12.100000008940697}
+{"step": 1253292, "episode/score": 13.100000001490116}
+{"step": 1253611, "episode/score": 11.099999986588955}
+{"step": 1253900, "episode/score": 11.099999986588955}
+{"step": 1254127, "episode/score": 12.100000008940697}
+{"step": 1254230, "episode/score": 12.100000001490116}
+{"step": 1254463, "episode/score": 15.100000001490116}
+{"step": 1254713, "episode/score": 12.100000023841858}
+{"step": 1255036, "episode/score": 14.099999986588955}
+{"step": 1255238, "episode/score": 14.099999986588955}
+{"step": 1255419, "episode/score": 13.099999986588955}
+{"step": 1255459, "episode/score": 4.100000008940697}
+{"step": 1255648, "episode/score": 14.100000008940697}
+{"step": 1255924, "episode/score": 14.099999986588955}
+{"step": 1256440, "episode/score": 15.099999986588955}
+{"step": 1256707, "episode/score": 14.100000001490116}
+{"step": 1256917, "episode/score": 14.099999986588955}
+{"step": 1257131, "episode/score": 14.100000023841858}
+{"step": 1257193, "episode/score": 3.1000000089406967}
+{"step": 1257351, "episode/score": 5.099999986588955}
+{"step": 1257544, "episode/score": 14.099999986588955}
+{"step": 1257602, "episode/score": 3.0999999716877937}
+{"step": 1258089, "episode/score": 7.099999986588955}
+{"step": 1258500, "episode/score": 15.099999986588955}
+{"step": 1258732, "episode/score": 12.099999986588955}
+{"step": 1258947, "episode/score": 11.099999971687794}
+{"step": 1259251, "episode/score": 14.099999986588955}
+{"step": 1259431, "episode/score": 14.099999994039536}
+{"step": 1259630, "episode/score": 12.099999986588955}
+{"step": 1260008, "episode/score": 14.099999986588955}
+{"step": 1260232, "episode/score": 14.099999986588955}
+{"step": 1260471, "episode/score": 13.099999986588955}
+{"step": 1260638, "episode/score": 10.099999986588955}
+{"step": 1261004, "episode/score": 13.100000001490116}
+{"step": 1261289, "episode/score": 13.099999986588955}
+{"step": 1261498, "episode/score": 14.099999964237213}
+{"step": 1262085, "episode/score": 15.099999986588955}
+{"step": 1262306, "episode/score": 11.099999986588955}
+{"step": 1262510, "episode/score": 13.099999986588955}
+{"step": 1262786, "episode/score": 15.099999986588955}
+{"step": 1263123, "episode/score": 13.099999986588955}
+{"step": 1263465, "episode/score": 12.099999986588955}
+{"step": 1263769, "episode/score": 13.099999986588955}
+{"step": 1263960, "episode/score": 11.100000008940697}
+{"step": 1264250, "episode/score": 14.099999986588955}
+{"step": 1264483, "episode/score": 13.099999986588955}
+{"step": 1264760, "episode/score": 15.100000023841858}
+{"step": 1265208, "episode/score": 14.099999979138374}
+{"step": 1265363, "episode/score": 10.099999986588955}
+{"step": 1265555, "episode/score": 8.100000001490116}
+{"step": 1265886, "episode/score": 14.099999986588955}
+{"step": 1266074, "episode/score": 12.099999979138374}
+{"step": 1266218, "episode/score": 12.099999986588955}
+{"step": 1266422, "episode/score": 12.100000001490116}
+{"step": 1266663, "episode/score": 9.099999994039536}
+{"step": 1266800, "episode/score": 10.100000023841858}
+{"step": 1266952, "episode/score": 11.099999986588955}
+{"step": 1267170, "episode/score": 13.099999994039536}
+{"step": 1267368, "episode/score": 12.100000001490116}
+{"step": 1267597, "episode/score": 13.099999971687794}
+{"step": 1267818, "episode/score": 13.100000008940697}
+{"step": 1268008, "episode/score": 12.099999986588955}
+{"step": 1268203, "episode/score": 10.100000001490116}
+{"step": 1268440, "episode/score": 10.100000008940697}
+{"step": 1268645, "episode/score": 15.099999986588955}
+{"step": 1268941, "episode/score": 15.099999986588955}
+{"step": 1269449, "episode/score": 15.099999979138374}
+{"step": 1269738, "episode/score": 14.100000001490116}
+{"step": 1270069, "episode/score": 13.099999986588955}
+{"step": 1270325, "episode/score": 8.100000008940697}
+{"step": 1270561, "episode/score": 14.100000001490116}
+{"step": 1270837, "episode/score": 16.099999986588955}
+{"step": 1271021, "episode/score": 16.100000023841858}
+{"step": 1271273, "episode/score": 14.099999986588955}
+{"step": 1271318, "episode/score": 1.099999986588955}
+{"step": 1271683, "episode/score": 15.099999979138374}
+{"step": 1271914, "episode/score": 13.099999986588955}
+{"step": 1272140, "episode/score": 10.099999994039536}
+{"step": 1272291, "episode/score": 11.099999986588955}
+{"step": 1272562, "episode/score": 14.099999986588955}
+{"step": 1272727, "episode/score": 8.100000001490116}
+{"step": 1272933, "episode/score": 11.099999986588955}
+{"step": 1273136, "episode/score": 14.100000001490116}
+{"step": 1273425, "episode/score": 13.099999986588955}
+{"step": 1273651, "episode/score": 9.100000023841858}
+{"step": 1273869, "episode/score": 9.099999994039536}
+{"step": 1274143, "episode/score": 10.099999986588955}
+{"step": 1274509, "episode/score": 14.099999986588955}
+{"step": 1274751, "episode/score": 15.100000001490116}
+{"step": 1275012, "episode/score": 11.099999986588955}
+{"step": 1275336, "episode/score": 14.099999986588955}
+{"step": 1275645, "episode/score": 13.100000008940697}
+{"step": 1275865, "episode/score": 13.100000008940697}
+{"step": 1275958, "episode/score": 10.100000023841858}
+{"step": 1276220, "episode/score": 12.100000008940697}
+{"step": 1276408, "episode/score": 15.099999986588955}
+{"step": 1276619, "episode/score": 12.100000023841858}
+{"step": 1276812, "episode/score": 13.099999986588955}
+{"step": 1276997, "episode/score": 10.100000008940697}
+{"step": 1277260, "episode/score": 11.099999986588955}
+{"step": 1277471, "episode/score": 12.100000023841858}
+{"step": 1277743, "episode/score": 14.100000008940697}
+{"step": 1277949, "episode/score": 13.100000001490116}
+{"step": 1278095, "episode/score": 12.100000008940697}
+{"step": 1278306, "episode/score": 9.099999986588955}
+{"step": 1278498, "episode/score": 8.099999986588955}
+{"step": 1278704, "episode/score": 15.100000001490116}
+{"step": 1278899, "episode/score": 13.100000001490116}
+{"step": 1279213, "episode/score": 8.099999986588955}
+{"step": 1279420, "episode/score": 14.099999986588955}
+{"step": 1279643, "episode/score": 13.099999986588955}
+{"step": 1280121, "episode/score": 14.099999986588955}
+{"step": 1280338, "episode/score": 14.100000001490116}
+{"step": 1280605, "episode/score": 12.099999986588955}
+{"step": 1280896, "episode/score": 14.099999971687794}
+{"step": 1281135, "episode/score": 13.099999994039536}
+{"step": 1281422, "episode/score": 12.099999986588955}
+{"step": 1281676, "episode/score": 10.100000008940697}
+{"step": 1281974, "episode/score": 15.099999986588955}
+{"step": 1282040, "episode/score": 7.100000001490116}
+{"step": 1282354, "episode/score": 12.099999986588955}
+{"step": 1282746, "episode/score": 14.099999986588955}
+{"step": 1283053, "episode/score": 11.099999986588955}
+{"step": 1283262, "episode/score": 13.099999986588955}
+{"step": 1283313, "episode/score": 8.099999986588955}
+{"step": 1283487, "episode/score": 11.099999986588955}
+{"step": 1283743, "episode/score": 14.099999986588955}
+{"step": 1283946, "episode/score": 14.099999986588955}
+{"step": 1284247, "episode/score": 12.099999986588955}
+{"step": 1284502, "episode/score": 14.100000008940697}
+{"step": 1284705, "episode/score": 8.099999979138374}
+{"step": 1284920, "episode/score": 15.099999986588955}
+{"step": 1285128, "episode/score": 11.099999986588955}
+{"step": 1285192, "episode/score": 7.099999971687794}
+{"step": 1285349, "episode/score": 10.100000001490116}
+{"step": 1285566, "episode/score": 12.099999986588955}
+{"step": 1285784, "episode/score": 9.099999986588955}
+{"step": 1286024, "episode/score": 15.099999986588955}
+{"step": 1286240, "episode/score": 14.100000016391277}
+{"step": 1286496, "episode/score": 13.099999994039536}
+{"step": 1286688, "episode/score": 12.100000001490116}
+{"step": 1286920, "episode/score": 13.100000008940697}
+{"step": 1287144, "episode/score": 15.099999986588955}
+{"step": 1287361, "episode/score": 14.099999986588955}
+{"step": 1287560, "episode/score": 12.100000008940697}
+{"step": 1287733, "episode/score": 11.099999986588955}
+{"step": 1288030, "episode/score": 16.100000008940697}
+{"step": 1288242, "episode/score": 11.100000008940697}
+{"step": 1288486, "episode/score": 11.100000008940697}
+{"step": 1288713, "episode/score": 14.099999986588955}
+{"step": 1288877, "episode/score": 9.099999971687794}
+{"step": 1289109, "episode/score": 15.100000023841858}
+{"step": 1289370, "episode/score": 12.100000008940697}
+{"step": 1289688, "episode/score": 13.099999986588955}
+{"step": 1289906, "episode/score": 12.100000061094761}
+{"step": 1290082, "episode/score": 11.099999986588955}
+{"step": 1290308, "episode/score": 15.099999986588955}
+{"step": 1290513, "episode/score": 14.099999986588955}
+{"step": 1290601, "episode/score": 7.099999986588955}
+{"step": 1290885, "episode/score": 13.099999964237213}
+{"step": 1291081, "episode/score": 14.100000008940697}
+{"step": 1291228, "episode/score": 11.100000008940697}
+{"step": 1291269, "episode/score": 4.099999986588955}
+{"step": 1291465, "episode/score": 8.099999986588955}
+{"step": 1291652, "episode/score": 11.099999986588955}
+{"step": 1291813, "episode/score": 13.099999986588955}
+{"step": 1292088, "episode/score": 13.099999979138374}
+{"step": 1292393, "episode/score": 14.100000008940697}
+{"step": 1292666, "episode/score": 14.099999986588955}
+{"step": 1292993, "episode/score": 16.1000000461936}
+{"step": 1293224, "episode/score": 11.100000001490116}
+{"step": 1293414, "episode/score": 12.099999979138374}
+{"step": 1293634, "episode/score": 16.099999986588955}
+{"step": 1293875, "episode/score": 15.099999979138374}
+{"step": 1294378, "episode/score": 17.099999986588955}
+{"step": 1294541, "episode/score": 11.100000001490116}
+{"step": 1294918, "episode/score": 8.099999986588955}
+{"step": 1295236, "episode/score": 15.099999986588955}
+{"step": 1295512, "episode/score": 13.099999986588955}
+{"step": 1295781, "episode/score": 14.099999986588955}
+{"step": 1295978, "episode/score": 12.100000001490116}
+{"step": 1296034, "episode/score": 6.100000023841858}
+{"step": 1296252, "episode/score": 13.099999986588955}
+{"step": 1296506, "episode/score": 11.099999979138374}
+{"step": 1296743, "episode/score": 13.100000001490116}
+{"step": 1296918, "episode/score": 13.099999986588955}
+{"step": 1297241, "episode/score": 14.100000008940697}
+{"step": 1297281, "episode/score": 3.099999986588955}
+{"step": 1297326, "episode/score": 2.099999986588955}
+{"step": 1297492, "episode/score": 9.100000001490116}
+{"step": 1297530, "episode/score": 2.099999986588955}
+{"step": 1297736, "episode/score": 14.100000001490116}
+{"step": 1297952, "episode/score": 13.099999986588955}
+{"step": 1298190, "episode/score": 14.099999986588955}
+{"step": 1298482, "episode/score": 15.100000001490116}
+{"step": 1298733, "episode/score": 14.099999986588955}
+{"step": 1299043, "episode/score": 15.100000001490116}
+{"step": 1299305, "episode/score": 13.099999986588955}
+{"step": 1299517, "episode/score": 15.099999986588955}
+{"step": 1300026, "episode/score": 15.099999964237213}
+{"step": 1300197, "episode/score": 12.099999986588955}
+{"step": 1300370, "episode/score": 10.099999979138374}
+{"step": 1300532, "episode/score": 12.100000001490116}
+{"step": 1300774, "episode/score": 9.099999971687794}
+{"step": 1300994, "episode/score": 13.099999986588955}
+{"step": 1301222, "episode/score": 14.099999986588955}
+{"step": 1301485, "episode/score": 15.099999986588955}
+{"step": 1301605, "episode/score": 9.100000023841858}
+{"step": 1301836, "episode/score": 15.099999986588955}
+{"step": 1302102, "episode/score": 13.099999986588955}
+{"step": 1302314, "episode/score": 14.100000001490116}
+{"step": 1302514, "episode/score": 14.099999986588955}
+{"step": 1302775, "episode/score": 14.099999979138374}
+{"step": 1302991, "episode/score": 13.099999986588955}
+{"step": 1303340, "episode/score": 14.099999986588955}
+{"step": 1303500, "episode/score": 12.099999986588955}
+{"step": 1303761, "episode/score": 12.100000001490116}
+{"step": 1304044, "episode/score": 12.099999986588955}
+{"step": 1304321, "episode/score": 13.100000008940697}
+{"step": 1304535, "episode/score": 15.099999986588955}
+{"step": 1304771, "episode/score": 14.100000008940697}
+{"step": 1305220, "episode/score": 13.099999986588955}
+{"step": 1305478, "episode/score": 12.100000008940697}
+{"step": 1305609, "episode/score": 12.099999986588955}
+{"step": 1305856, "episode/score": 13.100000001490116}
+{"step": 1306038, "episode/score": 12.100000008940697}
+{"step": 1306271, "episode/score": 13.100000001490116}
+{"step": 1306648, "episode/score": 15.099999986588955}
+{"step": 1306876, "episode/score": 7.099999986588955}
+{"step": 1307219, "episode/score": 16.100000008940697}
+{"step": 1307369, "episode/score": 11.099999986588955}
+{"step": 1307487, "episode/score": 12.099999986588955}
+{"step": 1307701, "episode/score": 16.099999986588955}
+{"step": 1307928, "episode/score": 16.100000001490116}
+{"step": 1308228, "episode/score": 12.099999986588955}
+{"step": 1308412, "episode/score": 9.100000008940697}
+{"step": 1308661, "episode/score": 10.099999971687794}
+{"step": 1308949, "episode/score": 12.099999986588955}
+{"step": 1309369, "episode/score": 15.100000008940697}
+{"step": 1309664, "episode/score": 14.100000001490116}
+{"step": 1309810, "episode/score": 12.100000016391277}
+{"step": 1310147, "episode/score": 16.100000008940697}
+{"step": 1310368, "episode/score": 16.100000001490116}
+{"step": 1310556, "episode/score": 14.099999986588955}
+{"step": 1310855, "episode/score": 13.099999986588955}
+{"step": 1311076, "episode/score": 14.099999986588955}
+{"step": 1311304, "episode/score": 13.100000008940697}
+{"step": 1311560, "episode/score": 15.100000001490116}
+{"step": 1311775, "episode/score": 14.100000001490116}
+{"step": 1312213, "episode/score": 7.099999986588955}
+{"step": 1312320, "episode/score": 2.100000001490116}
+{"step": 1312482, "episode/score": 14.100000031292439}
+{"step": 1312666, "episode/score": 13.100000001490116}
+{"step": 1312785, "episode/score": 7.100000023841858}
+{"step": 1313110, "episode/score": 14.100000008940697}
+{"step": 1313320, "episode/score": 9.100000001490116}
+{"step": 1313567, "episode/score": 13.099999994039536}
+{"step": 1313781, "episode/score": 13.099999986588955}
+{"step": 1314004, "episode/score": 13.099999986588955}
+{"step": 1314315, "episode/score": 13.100000008940697}
+{"step": 1314508, "episode/score": 14.100000001490116}
+{"step": 1314728, "episode/score": 15.099999986588955}
+{"step": 1315004, "episode/score": 14.100000008940697}
+{"step": 1315051, "episode/score": 5.100000016391277}
+{"step": 1315092, "episode/score": 4.099999971687794}
+{"step": 1315388, "episode/score": 14.099999986588955}
+{"step": 1315583, "episode/score": 13.099999986588955}
+{"step": 1315786, "episode/score": 12.099999986588955}
+{"step": 1316059, "episode/score": 13.099999986588955}
+{"step": 1316289, "episode/score": 8.099999971687794}
+{"step": 1316392, "episode/score": 5.099999986588955}
+{"step": 1316618, "episode/score": 13.099999986588955}
+{"step": 1317089, "episode/score": 14.099999986588955}
+{"step": 1317270, "episode/score": 11.099999986588955}
+{"step": 1317685, "episode/score": 11.099999986588955}
+{"step": 1317956, "episode/score": 14.099999986588955}
+{"step": 1318199, "episode/score": 12.099999986588955}
+{"step": 1318403, "episode/score": 12.099999986588955}
+{"step": 1318584, "episode/score": 11.099999986588955}
+{"step": 1318780, "episode/score": 11.099999986588955}
+{"step": 1319004, "episode/score": 14.099999986588955}
+{"step": 1319193, "episode/score": 15.100000001490116}
+{"step": 1319422, "episode/score": 13.099999986588955}
+{"step": 1319723, "episode/score": 14.099999986588955}
+{"step": 1319783, "episode/score": 4.099999986588955}
+{"step": 1320098, "episode/score": 15.099999986588955}
+{"step": 1320404, "episode/score": 13.100000001490116}
+{"step": 1320589, "episode/score": 12.099999986588955}
+{"step": 1320762, "episode/score": 13.099999986588955}
+{"step": 1320934, "episode/score": 14.099999986588955}
+{"step": 1321116, "episode/score": 13.099999986588955}
+{"step": 1321321, "episode/score": 13.099999986588955}
+{"step": 1321519, "episode/score": 11.099999964237213}
+{"step": 1321772, "episode/score": 15.099999986588955}
+{"step": 1322240, "episode/score": 15.099999986588955}
+{"step": 1322502, "episode/score": 10.099999971687794}
+{"step": 1322543, "episode/score": 6.100000008940697}
+{"step": 1322790, "episode/score": 15.100000008940697}
+{"step": 1322948, "episode/score": 10.099999986588955}
+{"step": 1323455, "episode/score": 15.100000001490116}
+{"step": 1323610, "episode/score": 11.100000016391277}
+{"step": 1323877, "episode/score": 12.099999986588955}
+{"step": 1324075, "episode/score": 12.099999986588955}
+{"step": 1324343, "episode/score": 13.100000001490116}
+{"step": 1324616, "episode/score": 12.099999979138374}
+{"step": 1324830, "episode/score": 14.099999986588955}
+{"step": 1325010, "episode/score": 13.100000001490116}
+{"step": 1325186, "episode/score": 12.099999986588955}
+{"step": 1325436, "episode/score": 13.100000008940697}
+{"step": 1325627, "episode/score": 11.099999986588955}
+{"step": 1325870, "episode/score": 15.099999986588955}
+{"step": 1326193, "episode/score": 13.100000023841858}
+{"step": 1326416, "episode/score": 14.099999986588955}
+{"step": 1326797, "episode/score": 15.099999986588955}
+{"step": 1327060, "episode/score": 12.099999986588955}
+{"step": 1327269, "episode/score": 15.100000001490116}
+{"step": 1327488, "episode/score": 16.099999986588955}
+{"step": 1327545, "episode/score": 3.1000000089406967}
+{"step": 1327733, "episode/score": 13.100000016391277}
+{"step": 1327911, "episode/score": 13.100000008940697}
+{"step": 1328086, "episode/score": 11.099999986588955}
+{"step": 1328404, "episode/score": 14.099999986588955}
+{"step": 1328536, "episode/score": 12.099999986588955}
+{"step": 1328761, "episode/score": 8.099999971687794}
+{"step": 1329037, "episode/score": 13.100000008940697}
+{"step": 1329469, "episode/score": 14.099999986588955}
+{"step": 1329680, "episode/score": 14.099999986588955}
+{"step": 1329736, "episode/score": 3.100000023841858}
+{"step": 1329920, "episode/score": 12.099999986588955}
+{"step": 1330119, "episode/score": 8.100000001490116}
+{"step": 1330458, "episode/score": 14.099999986588955}
+{"step": 1330541, "episode/score": 7.100000023841858}
+{"step": 1330692, "episode/score": 9.100000001490116}
+{"step": 1330921, "episode/score": 15.099999986588955}
+{"step": 1331064, "episode/score": 13.100000001490116}
+{"step": 1331288, "episode/score": 14.099999986588955}
+{"step": 1331531, "episode/score": 14.099999986588955}
+{"step": 1331713, "episode/score": 13.099999971687794}
+{"step": 1331923, "episode/score": 15.099999986588955}
+{"step": 1332156, "episode/score": 14.100000008940697}
+{"step": 1332416, "episode/score": 13.099999986588955}
+{"step": 1332632, "episode/score": 12.100000008940697}
+{"step": 1332842, "episode/score": 13.099999986588955}
+{"step": 1333110, "episode/score": 14.100000008940697}
+{"step": 1333304, "episode/score": 12.100000001490116}
+{"step": 1333577, "episode/score": 15.099999986588955}
+{"step": 1333828, "episode/score": 13.099999986588955}
+{"step": 1334067, "episode/score": 12.099999986588955}
+{"step": 1334338, "episode/score": 13.099999979138374}
+{"step": 1334526, "episode/score": 13.099999986588955}
+{"step": 1334692, "episode/score": 12.100000001490116}
+{"step": 1335062, "episode/score": 15.099999986588955}
+{"step": 1335122, "episode/score": 7.100000008940697}
+{"step": 1335342, "episode/score": 15.099999979138374}
+{"step": 1335516, "episode/score": 12.100000001490116}
+{"step": 1335696, "episode/score": 14.099999986588955}
+{"step": 1335955, "episode/score": 15.099999986588955}
+{"step": 1336120, "episode/score": 14.100000008940697}
+{"step": 1336208, "episode/score": 2.099999986588955}
+{"step": 1336495, "episode/score": 14.099999986588955}
+{"step": 1336695, "episode/score": 11.100000001490116}
+{"step": 1336921, "episode/score": 13.099999986588955}
+{"step": 1337208, "episode/score": 15.100000008940697}
+{"step": 1337410, "episode/score": 14.099999986588955}
+{"step": 1337596, "episode/score": 12.099999986588955}
+{"step": 1337825, "episode/score": 13.099999986588955}
+{"step": 1338040, "episode/score": 13.100000001490116}
+{"step": 1338385, "episode/score": 10.099999986588955}
+{"step": 1338641, "episode/score": 14.099999986588955}
+{"step": 1338754, "episode/score": 11.100000023841858}
+{"step": 1338976, "episode/score": 13.100000016391277}
+{"step": 1339200, "episode/score": 12.099999986588955}
+{"step": 1339469, "episode/score": 14.099999994039536}
+{"step": 1339681, "episode/score": 15.099999986588955}
+{"step": 1339866, "episode/score": 14.100000001490116}
+{"step": 1340074, "episode/score": 14.099999986588955}
+{"step": 1340277, "episode/score": 14.100000001490116}
+{"step": 1340457, "episode/score": 15.099999986588955}
+{"step": 1340689, "episode/score": 13.100000023841858}
+{"step": 1340879, "episode/score": 11.099999971687794}
+{"step": 1341265, "episode/score": 13.099999986588955}
+{"step": 1341452, "episode/score": 9.099999979138374}
+{"step": 1341625, "episode/score": 14.100000001490116}
+{"step": 1341841, "episode/score": 14.100000001490116}
+{"step": 1342145, "episode/score": 14.100000001490116}
+{"step": 1342353, "episode/score": 14.100000031292439}
+{"step": 1342576, "episode/score": 14.100000008940697}
+{"step": 1342757, "episode/score": 13.100000001490116}
+{"step": 1342936, "episode/score": 14.100000001490116}
+{"step": 1343143, "episode/score": 12.099999986588955}
+{"step": 1343503, "episode/score": 14.100000001490116}
+{"step": 1343726, "episode/score": 14.099999986588955}
+{"step": 1343927, "episode/score": 12.099999979138374}
+{"step": 1344118, "episode/score": 14.100000008940697}
+{"step": 1344297, "episode/score": 10.099999986588955}
+{"step": 1344504, "episode/score": 13.099999986588955}
+{"step": 1344902, "episode/score": 14.099999986588955}
+{"step": 1345079, "episode/score": 13.100000023841858}
+{"step": 1345200, "episode/score": 10.100000001490116}
+{"step": 1345439, "episode/score": 15.099999986588955}
+{"step": 1345656, "episode/score": 6.100000008940697}
+{"step": 1345948, "episode/score": 9.099999979138374}
+{"step": 1346166, "episode/score": 11.100000023841858}
+{"step": 1346411, "episode/score": 14.099999994039536}
+{"step": 1346629, "episode/score": 13.099999986588955}
+{"step": 1346824, "episode/score": 15.100000023841858}
+{"step": 1347076, "episode/score": 12.099999979138374}
+{"step": 1347397, "episode/score": 14.100000001490116}
+{"step": 1347550, "episode/score": 9.100000023841858}
+{"step": 1347646, "episode/score": 9.100000023841858}
+{"step": 1347874, "episode/score": 14.100000001490116}
+{"step": 1348136, "episode/score": 13.100000008940697}
+{"step": 1348320, "episode/score": 13.099999986588955}
+{"step": 1348550, "episode/score": 14.099999986588955}
+{"step": 1348829, "episode/score": 14.099999986588955}
+{"step": 1349016, "episode/score": 13.100000023841858}
+{"step": 1349330, "episode/score": 12.099999986588955}
+{"step": 1349700, "episode/score": 13.099999986588955}
+{"step": 1349889, "episode/score": 12.099999986588955}
+{"step": 1349950, "episode/score": 5.099999986588955}
+{"step": 1350185, "episode/score": 13.099999986588955}
+{"step": 1350379, "episode/score": 7.099999971687794}
+{"step": 1350722, "episode/score": 14.099999986588955}
+{"step": 1350918, "episode/score": 13.099999986588955}
+{"step": 1351147, "episode/score": 11.099999986588955}
+{"step": 1351338, "episode/score": 11.099999986588955}
+{"step": 1351530, "episode/score": 13.099999986588955}
+{"step": 1352012, "episode/score": 15.099999986588955}
+{"step": 1352195, "episode/score": 11.099999986588955}
+{"step": 1352416, "episode/score": 14.100000008940697}
+{"step": 1352670, "episode/score": 9.100000008940697}
+{"step": 1352892, "episode/score": 13.099999986588955}
+{"step": 1353414, "episode/score": 9.099999986588955}
+{"step": 1353674, "episode/score": 15.100000001490116}
+{"step": 1353843, "episode/score": 11.099999986588955}
+{"step": 1354065, "episode/score": 12.099999986588955}
+{"step": 1354243, "episode/score": 9.099999986588955}
+{"step": 1354327, "episode/score": 8.100000008940697}
+{"step": 1354598, "episode/score": 12.100000001490116}
+{"step": 1354936, "episode/score": 13.099999979138374}
+{"step": 1355146, "episode/score": 14.099999986588955}
+{"step": 1355378, "episode/score": 13.099999979138374}
+{"step": 1355629, "episode/score": 7.100000008940697}
+{"step": 1355839, "episode/score": 13.100000001490116}
+{"step": 1356107, "episode/score": 15.100000008940697}
+{"step": 1356170, "episode/score": 8.100000031292439}
+{"step": 1356384, "episode/score": 13.099999986588955}
+{"step": 1356628, "episode/score": 14.100000023841858}
+{"step": 1356832, "episode/score": 14.099999979138374}
+{"step": 1357016, "episode/score": 12.100000001490116}
+{"step": 1357277, "episode/score": 11.099999986588955}
+{"step": 1357433, "episode/score": 9.099999986588955}
+{"step": 1357624, "episode/score": 12.099999994039536}
+{"step": 1357770, "episode/score": 11.099999986588955}
+{"step": 1357976, "episode/score": 11.099999986588955}
+{"step": 1358066, "episode/score": 6.100000008940697}
+{"step": 1358215, "episode/score": 11.100000023841858}
+{"step": 1358270, "episode/score": 7.100000023841858}
+{"step": 1358539, "episode/score": 13.099999986588955}
+{"step": 1358751, "episode/score": 14.100000031292439}
+{"step": 1358980, "episode/score": 14.100000008940697}
+{"step": 1359204, "episode/score": 15.100000001490116}
+{"step": 1359498, "episode/score": 12.100000008940697}
+{"step": 1359662, "episode/score": 15.099999986588955}
+{"step": 1359727, "episode/score": 6.100000001490116}
+{"step": 1359773, "episode/score": 7.099999986588955}
+{"step": 1360026, "episode/score": 13.099999986588955}
+{"step": 1360195, "episode/score": 14.099999986588955}
+{"step": 1360490, "episode/score": 10.099999986588955}
+{"step": 1360705, "episode/score": 6.100000001490116}
+{"step": 1360902, "episode/score": 13.099999986588955}
+{"step": 1361118, "episode/score": 12.099999986588955}
+{"step": 1361403, "episode/score": 15.099999986588955}
+{"step": 1361640, "episode/score": 14.099999986588955}
+{"step": 1361936, "episode/score": 15.099999986588955}
+{"step": 1362098, "episode/score": 14.100000001490116}
+{"step": 1362344, "episode/score": 13.099999986588955}
+{"step": 1362614, "episode/score": 14.100000001490116}
+{"step": 1362915, "episode/score": 14.099999986588955}
+{"step": 1363091, "episode/score": 13.100000008940697}
+{"step": 1363338, "episode/score": 15.099999971687794}
+{"step": 1363545, "episode/score": 14.100000023841858}
+{"step": 1363767, "episode/score": 8.099999986588955}
+{"step": 1364054, "episode/score": 11.099999986588955}
+{"step": 1364217, "episode/score": 11.100000023841858}
+{"step": 1364273, "episode/score": 3.099999986588955}
+{"step": 1364436, "episode/score": 12.099999979138374}
+{"step": 1364997, "episode/score": 13.099999986588955}
+{"step": 1365161, "episode/score": 13.099999986588955}
+{"step": 1365420, "episode/score": 15.100000008940697}
+{"step": 1365605, "episode/score": 8.099999986588955}
+{"step": 1365760, "episode/score": 11.099999986588955}
+{"step": 1365924, "episode/score": 10.099999994039536}
+{"step": 1366142, "episode/score": 15.099999979138374}
+{"step": 1366317, "episode/score": 11.100000023841858}
+{"step": 1366492, "episode/score": 7.1000000312924385}
+{"step": 1366778, "episode/score": 13.099999986588955}
+{"step": 1366938, "episode/score": 9.099999986588955}
+{"step": 1367158, "episode/score": 10.099999986588955}
+{"step": 1367375, "episode/score": 12.100000001490116}
+{"step": 1367623, "episode/score": 13.099999979138374}
+{"step": 1367921, "episode/score": 11.099999986588955}
+{"step": 1368016, "episode/score": 9.100000023841858}
+{"step": 1368244, "episode/score": 15.099999986588955}
+{"step": 1368596, "episode/score": 14.100000001490116}
+{"step": 1368878, "episode/score": 13.100000008940697}
+{"step": 1369064, "episode/score": 14.099999986588955}
+{"step": 1369240, "episode/score": 9.099999986588955}
+{"step": 1369448, "episode/score": 13.099999986588955}
+{"step": 1369608, "episode/score": 12.099999986588955}
+{"step": 1369764, "episode/score": 12.100000001490116}
+{"step": 1369817, "episode/score": 6.100000008940697}
+{"step": 1369974, "episode/score": 12.100000001490116}
+{"step": 1370190, "episode/score": 12.100000023841858}
+{"step": 1370441, "episode/score": 14.099999986588955}
+{"step": 1370680, "episode/score": 13.099999986588955}
+{"step": 1370847, "episode/score": 11.099999986588955}
+{"step": 1371014, "episode/score": 12.100000001490116}
+{"step": 1371559, "episode/score": 15.099999986588955}
+{"step": 1371790, "episode/score": 14.099999971687794}
+{"step": 1371971, "episode/score": 14.099999986588955}
+{"step": 1372296, "episode/score": 14.099999986588955}
+{"step": 1372541, "episode/score": 13.100000001490116}
+{"step": 1372984, "episode/score": 15.100000016391277}
+{"step": 1373054, "episode/score": 3.099999986588955}
+{"step": 1373211, "episode/score": 13.099999986588955}
+{"step": 1373349, "episode/score": 10.100000001490116}
+{"step": 1373619, "episode/score": 11.099999986588955}
+{"step": 1373735, "episode/score": 11.099999986588955}
+{"step": 1373900, "episode/score": 10.099999986588955}
+{"step": 1374122, "episode/score": 14.099999986588955}
+{"step": 1374324, "episode/score": 14.100000001490116}
+{"step": 1374549, "episode/score": 15.099999986588955}
+{"step": 1374769, "episode/score": 9.100000008940697}
+{"step": 1375006, "episode/score": 13.099999986588955}
+{"step": 1375223, "episode/score": 13.099999986588955}
+{"step": 1375425, "episode/score": 13.100000001490116}
+{"step": 1375592, "episode/score": 13.100000001490116}
+{"step": 1375860, "episode/score": 12.100000008940697}
+{"step": 1376086, "episode/score": 14.099999986588955}
+{"step": 1376372, "episode/score": 15.100000001490116}
+{"step": 1376645, "episode/score": 13.099999986588955}
+{"step": 1376824, "episode/score": 13.099999986588955}
+{"step": 1376949, "episode/score": 11.099999986588955}
+{"step": 1377113, "episode/score": 13.099999986588955}
+{"step": 1377409, "episode/score": 11.099999986588955}
+{"step": 1377653, "episode/score": 13.099999986588955}
+{"step": 1377890, "episode/score": 15.100000001490116}
+{"step": 1378085, "episode/score": 14.099999986588955}
+{"step": 1378329, "episode/score": 8.099999986588955}
+{"step": 1378612, "episode/score": 13.100000001490116}
+{"step": 1378968, "episode/score": 14.100000001490116}
+{"step": 1379151, "episode/score": 13.099999986588955}
+{"step": 1379350, "episode/score": 14.100000023841858}
+{"step": 1379840, "episode/score": 14.099999986588955}
+{"step": 1380003, "episode/score": 10.100000023841858}
+{"step": 1380196, "episode/score": 13.099999986588955}
+{"step": 1380497, "episode/score": 14.099999986588955}
+{"step": 1380560, "episode/score": 8.099999994039536}
+{"step": 1380758, "episode/score": 14.099999986588955}
+{"step": 1380975, "episode/score": 13.099999986588955}
+{"step": 1381177, "episode/score": 14.099999986588955}
+{"step": 1381385, "episode/score": 13.100000001490116}
+{"step": 1381569, "episode/score": 8.100000001490116}
+{"step": 1381673, "episode/score": 9.100000023841858}
+{"step": 1381861, "episode/score": 11.100000001490116}
+{"step": 1382023, "episode/score": 12.100000008940697}
+{"step": 1382306, "episode/score": 15.100000001490116}
+{"step": 1382495, "episode/score": 10.100000016391277}
+{"step": 1382707, "episode/score": 14.100000008940697}
+{"step": 1382949, "episode/score": 9.099999986588955}
+{"step": 1383269, "episode/score": 11.100000001490116}
+{"step": 1383426, "episode/score": 13.1000000461936}
+{"step": 1383656, "episode/score": 14.099999994039536}
+{"step": 1383854, "episode/score": 8.099999994039536}
+{"step": 1384043, "episode/score": 12.100000001490116}
+{"step": 1384366, "episode/score": 12.100000001490116}
+{"step": 1384413, "episode/score": 5.100000008940697}
+{"step": 1384620, "episode/score": 10.100000001490116}
+{"step": 1384817, "episode/score": 9.100000001490116}
+{"step": 1385092, "episode/score": 11.100000001490116}
+{"step": 1385311, "episode/score": 12.100000001490116}
+{"step": 1385486, "episode/score": 12.099999986588955}
+{"step": 1385740, "episode/score": 14.100000031292439}
+{"step": 1385966, "episode/score": 16.100000008940697}
+{"step": 1386176, "episode/score": 13.099999986588955}
+{"step": 1386389, "episode/score": 13.100000023841858}
+{"step": 1386455, "episode/score": 6.100000008940697}
+{"step": 1386490, "episode/score": 4.100000001490116}
+{"step": 1386731, "episode/score": 13.099999994039536}
+{"step": 1386956, "episode/score": 11.100000001490116}
+{"step": 1387144, "episode/score": 14.099999986588955}
+{"step": 1387439, "episode/score": 14.100000001490116}
+{"step": 1387751, "episode/score": 15.100000001490116}
+{"step": 1387928, "episode/score": 14.100000001490116}
+{"step": 1388099, "episode/score": 11.100000016391277}
+{"step": 1388316, "episode/score": 14.099999986588955}
+{"step": 1388661, "episode/score": 13.099999986588955}
+{"step": 1388935, "episode/score": 13.100000008940697}
+{"step": 1389098, "episode/score": 14.099999986588955}
+{"step": 1389633, "episode/score": 9.099999986588955}
+{"step": 1389938, "episode/score": 14.099999986588955}
+{"step": 1390081, "episode/score": 9.100000008940697}
+{"step": 1390228, "episode/score": 13.100000001490116}
+{"step": 1390436, "episode/score": 14.099999986588955}
+{"step": 1390550, "episode/score": 10.099999986588955}
+{"step": 1390638, "episode/score": 7.099999986588955}
+{"step": 1390894, "episode/score": 14.099999986588955}
+{"step": 1391311, "episode/score": 14.099999986588955}
+{"step": 1391517, "episode/score": 11.099999986588955}
+{"step": 1391862, "episode/score": 15.100000008940697}
+{"step": 1392053, "episode/score": 14.099999986588955}
+{"step": 1392257, "episode/score": 13.100000001490116}
+{"step": 1392438, "episode/score": 10.099999994039536}
+{"step": 1392763, "episode/score": 14.099999986588955}
+{"step": 1392960, "episode/score": 12.099999986588955}
+{"step": 1393139, "episode/score": 11.099999964237213}
+{"step": 1393301, "episode/score": 12.100000001490116}
+{"step": 1393666, "episode/score": 16.099999986588955}
+{"step": 1393800, "episode/score": 11.100000008940697}
+{"step": 1393939, "episode/score": 8.100000001490116}
+{"step": 1394184, "episode/score": 13.100000016391277}
+{"step": 1394418, "episode/score": 14.099999986588955}
+{"step": 1394617, "episode/score": 13.10000005364418}
+{"step": 1394798, "episode/score": 12.100000008940697}
+{"step": 1395146, "episode/score": 14.099999986588955}
+{"step": 1395360, "episode/score": 13.099999986588955}
+{"step": 1395530, "episode/score": 13.100000023841858}
+{"step": 1395696, "episode/score": 14.099999986588955}
+{"step": 1395985, "episode/score": 14.099999986588955}
+{"step": 1396257, "episode/score": 13.099999986588955}
+{"step": 1396527, "episode/score": 11.100000023841858}
+{"step": 1396786, "episode/score": 15.100000023841858}
+{"step": 1397031, "episode/score": 12.100000001490116}
+{"step": 1397259, "episode/score": 12.099999994039536}
+{"step": 1397383, "episode/score": 6.100000023841858}
+{"step": 1397586, "episode/score": 12.100000008940697}
+{"step": 1397841, "episode/score": 13.099999986588955}
+{"step": 1398085, "episode/score": 12.099999971687794}
+{"step": 1398288, "episode/score": 13.099999986588955}
+{"step": 1398569, "episode/score": 13.099999986588955}
+{"step": 1398763, "episode/score": 13.100000001490116}
+{"step": 1398923, "episode/score": 11.100000001490116}
+{"step": 1399099, "episode/score": 12.100000008940697}
+{"step": 1399319, "episode/score": 13.100000001490116}
+{"step": 1399599, "episode/score": 13.099999986588955}
+{"step": 1399820, "episode/score": 15.100000008940697}
+{"step": 1400028, "episode/score": 15.099999986588955}
+{"step": 1400318, "episode/score": 13.099999986588955}
+{"step": 1400503, "episode/score": 14.099999986588955}
+{"step": 1400734, "episode/score": 10.100000001490116}
+{"step": 1400936, "episode/score": 13.100000016391277}
+{"step": 1401181, "episode/score": 6.100000008940697}
+{"step": 1401418, "episode/score": 12.100000001490116}
+{"step": 1401666, "episode/score": 13.100000031292439}
+{"step": 1401728, "episode/score": 7.100000008940697}
+{"step": 1402162, "episode/score": 9.099999986588955}
+{"step": 1402404, "episode/score": 13.100000001490116}
+{"step": 1402604, "episode/score": 12.100000001490116}
+{"step": 1402815, "episode/score": 13.10000005364418}
+{"step": 1402992, "episode/score": 14.099999986588955}
+{"step": 1403313, "episode/score": 14.099999986588955}
+{"step": 1403498, "episode/score": 14.100000001490116}
+{"step": 1403531, "episode/score": 2.1000000089406967}
+{"step": 1403789, "episode/score": 15.100000008940697}
+{"step": 1404011, "episode/score": 12.100000001490116}
+{"step": 1404379, "episode/score": 12.099999986588955}
+{"step": 1404780, "episode/score": 15.099999986588955}
+{"step": 1404990, "episode/score": 14.099999986588955}
+{"step": 1405250, "episode/score": 13.099999986588955}
+{"step": 1405310, "episode/score": 5.100000023841858}
+{"step": 1405480, "episode/score": 13.099999964237213}
+{"step": 1405662, "episode/score": 14.099999986588955}
+{"step": 1405862, "episode/score": 12.100000001490116}
+{"step": 1406047, "episode/score": 13.099999986588955}
+{"step": 1406257, "episode/score": 9.099999986588955}
+{"step": 1406531, "episode/score": 14.099999986588955}
+{"step": 1406721, "episode/score": 15.099999986588955}
+{"step": 1407172, "episode/score": 15.099999986588955}
+{"step": 1407377, "episode/score": 12.100000008940697}
+{"step": 1407855, "episode/score": 14.099999986588955}
+{"step": 1408013, "episode/score": 14.100000016391277}
+{"step": 1408252, "episode/score": 14.100000008940697}
+{"step": 1408489, "episode/score": 17.099999986588955}
+{"step": 1408766, "episode/score": 15.099999986588955}
+{"step": 1409075, "episode/score": 13.099999986588955}
+{"step": 1409266, "episode/score": 14.100000008940697}
+{"step": 1409465, "episode/score": 5.099999986588955}
+{"step": 1409994, "episode/score": 15.099999979138374}
+{"step": 1410402, "episode/score": 11.099999986588955}
+{"step": 1410628, "episode/score": 13.100000008940697}
+{"step": 1410879, "episode/score": 13.099999986588955}
+{"step": 1411044, "episode/score": 12.099999986588955}
+{"step": 1411233, "episode/score": 13.099999994039536}
+{"step": 1411434, "episode/score": 12.100000008940697}
+{"step": 1411629, "episode/score": 10.099999986588955}
+{"step": 1411819, "episode/score": 14.100000016391277}
+{"step": 1412052, "episode/score": 14.100000023841858}
+{"step": 1412350, "episode/score": 14.099999986588955}
+{"step": 1412590, "episode/score": 15.099999979138374}
+{"step": 1412929, "episode/score": 14.100000001490116}
+{"step": 1413173, "episode/score": 14.099999986588955}
+{"step": 1413561, "episode/score": 13.099999986588955}
+{"step": 1413736, "episode/score": 12.099999986588955}
+{"step": 1413921, "episode/score": 13.099999986588955}
+{"step": 1414131, "episode/score": 13.099999986588955}
+{"step": 1414331, "episode/score": 14.100000001490116}
+{"step": 1414531, "episode/score": 6.099999971687794}
+{"step": 1414774, "episode/score": 11.099999986588955}
+{"step": 1414997, "episode/score": 14.100000008940697}
+{"step": 1415176, "episode/score": 14.099999986588955}
+{"step": 1415472, "episode/score": 13.100000001490116}
+{"step": 1416048, "episode/score": 13.099999986588955}
+{"step": 1416264, "episode/score": 14.100000001490116}
+{"step": 1416463, "episode/score": 4.100000008940697}
+{"step": 1416536, "episode/score": 8.100000023841858}
+{"step": 1416690, "episode/score": 14.100000023841858}
+{"step": 1416888, "episode/score": 14.100000023841858}
+{"step": 1417214, "episode/score": 15.099999986588955}
+{"step": 1417387, "episode/score": 12.099999986588955}
+{"step": 1417595, "episode/score": 14.099999986588955}
+{"step": 1417751, "episode/score": 9.100000001490116}
+{"step": 1417961, "episode/score": 14.099999986588955}
+{"step": 1418198, "episode/score": 13.099999986588955}
+{"step": 1418426, "episode/score": 12.100000023841858}
+{"step": 1418633, "episode/score": 14.099999986588955}
+{"step": 1418817, "episode/score": 14.099999994039536}
+{"step": 1419099, "episode/score": 17.100000023841858}
+{"step": 1419304, "episode/score": 13.100000023841858}
+{"step": 1419508, "episode/score": 13.099999994039536}
+{"step": 1419738, "episode/score": 16.099999986588955}
+{"step": 1419897, "episode/score": 10.099999986588955}
+{"step": 1420108, "episode/score": 12.099999986588955}
+{"step": 1420700, "episode/score": 15.100000001490116}
+{"step": 1420837, "episode/score": 11.099999994039536}
+{"step": 1420910, "episode/score": 7.099999986588955}
+{"step": 1421072, "episode/score": 12.099999986588955}
+{"step": 1421211, "episode/score": 12.100000023841858}
+{"step": 1421472, "episode/score": 12.099999986588955}
+{"step": 1421537, "episode/score": 4.100000008940697}
+{"step": 1421763, "episode/score": 14.099999986588955}
+{"step": 1421976, "episode/score": 14.099999986588955}
+{"step": 1422195, "episode/score": 13.099999971687794}
+{"step": 1422402, "episode/score": 15.099999986588955}
+{"step": 1422579, "episode/score": 8.099999986588955}
+{"step": 1422767, "episode/score": 12.099999986588955}
+{"step": 1423027, "episode/score": 14.100000023841858}
+{"step": 1423232, "episode/score": 8.099999986588955}
+{"step": 1423688, "episode/score": 14.099999986588955}
+{"step": 1423904, "episode/score": 13.100000008940697}
+{"step": 1424249, "episode/score": 16.100000023841858}
+{"step": 1424305, "episode/score": 1.099999986588955}
+{"step": 1424538, "episode/score": 14.099999986588955}
+{"step": 1424809, "episode/score": 16.099999986588955}
+{"step": 1425028, "episode/score": 14.099999986588955}
diff --git a/dmc_cartpole_balance/config.yaml b/dmc_cartpole_balance/config.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..84024372856eb81898ef037cf7beb274e23fd698
--- /dev/null
+++ b/dmc_cartpole_balance/config.yaml
@@ -0,0 +1,188 @@
+actent: 0.0003
+actor:
+  act: silu
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  maxstd: 1.0
+  minstd: 0.1
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  symlog_inputs: false
+  unimix: 0.01
+  units: 512
+  winit: normal
+actor_dist_cont: normal
+actor_dist_disc: onehot
+actor_grad_cont: backprop
+actor_grad_disc: reinforce
+actor_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+batch_length: 64
+batch_size: 16
+cont_head:
+  act: silu
+  dist: binary
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 1.0
+  units: 512
+  winit: normal
+critic:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  symlog_inputs: false
+  units: 512
+  winit: normal
+critic_opt: {clip: 100.0, eps: 1e-05, lateclip: 0.0, lr: 3e-05, opt: adam, warmup: 0,
+  wd: 0.0}
+critic_slowreg: logprob
+critic_type: vfunction
+data_loaders: 8
+decoder:
+  act: silu
+  cnn: resnet
+  cnn_blocks: 0
+  cnn_depth: 32
+  cnn_keys: image
+  cnn_sigmoid: false
+  fan: avg
+  image_dist: mse
+  inputs: [deter, stoch]
+  minres: 4
+  mlp_keys: $^
+  mlp_layers: 5
+  mlp_units: 1024
+  norm: layer
+  outscale: 1.0
+  resize: stride
+  vector_dist: symlog_mse
+  winit: normal
+disag_head:
+  act: silu
+  dist: mse
+  fan: avg
+  inputs: [deter, stoch, action]
+  layers: 2
+  norm: layer
+  outscale: 1.0
+  units: 512
+  winit: normal
+disag_models: 8
+disag_target: [stoch]
+dyn_loss: {free: 1.0, impl: kl}
+encoder: {act: silu, cnn: resnet, cnn_blocks: 0, cnn_depth: 32, cnn_keys: image, fan: avg,
+  minres: 4, mlp_keys: $^, mlp_layers: 5, mlp_units: 1024, norm: layer, resize: stride,
+  symlog_inputs: true, winit: normal}
+env:
+  atari:
+    actions: all
+    gray: false
+    lives: unused
+    noops: 0
+    repeat: 4
+    resize: opencv
+    size: [64, 64]
+    sticky: true
+  dmc:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  dmlab:
+    episodic: true
+    repeat: 4
+    size: [64, 64]
+  loconav:
+    camera: -1
+    repeat: 2
+    size: [64, 64]
+  minecraft:
+    break_speed: 100.0
+    size: [64, 64]
+envs: {amount: 4, checks: false, discretize: 0, length: 0, parallel: process, reset: true,
+  restart: true}
+eval_dir: ''
+expl_behavior: None
+expl_opt: {clip: 100.0, eps: 1e-05, lr: 0.0001, opt: adam, warmup: 0, wd: 0.0}
+expl_rewards: {disag: 0.1, extr: 1.0}
+filter: .*
+grad_heads: [decoder, reward, cont]
+horizon: 333
+imag_horizon: 15
+imag_unroll: false
+jax:
+  debug: false
+  debug_nans: false
+  jit: true
+  logical_cpus: 0
+  metrics_every: 10
+  platform: gpu
+  policy_devices: [1]
+  prealloc: true
+  precision: float16
+  train_devices: [1]
+logdir: ./logdir/dmc_cartpole_balance
+loss_scales: {actor: 1.0, cont: 1.0, critic: 1.0, dyn: 0.5, image: 1.0, rep: 0.1,
+  reward: 1.0, slowreg: 1.0, vector: 1.0}
+method: name
+model_opt: {clip: 1000.0, eps: 1e-08, lateclip: 0.0, lr: 0.0001, opt: adam, warmup: 0,
+  wd: 0.0}
+rep_loss: {free: 1.0, impl: kl}
+replay: uniform
+replay_online: false
+replay_size: 1000000.0
+retnorm: {decay: 0.99, impl: perc_ema, max: 1.0, perchi: 95.0, perclo: 5.0}
+return_lambda: 0.95
+reward_head:
+  act: silu
+  bins: 255
+  dist: symlog_disc
+  fan: avg
+  inputs: [deter, stoch]
+  layers: 2
+  norm: layer
+  outnorm: false
+  outscale: 0.0
+  units: 512
+  winit: normal
+rssm: {act: silu, action_clip: 1.0, classes: 32, deter: 512, fan: avg, initial: learned,
+  norm: layer, stoch: 32, unimix: 0.01, units: 512, unroll: false, winit: normal}
+run:
+  actor_addr: ipc:///tmp/5551
+  actor_batch: 32
+  eval_eps: 1
+  eval_every: 1000000.0
+  eval_fill: 0
+  eval_initial: true
+  eval_samples: 1
+  expl_until: 0
+  from_checkpoint: ''
+  log_every: 300
+  log_keys_max: ^$
+  log_keys_mean: (log_entropy)
+  log_keys_sum: ^$
+  log_keys_video: [image]
+  log_zeros: false
+  save_every: 900
+  script: train
+  steps: 10000000000.0
+  sync_every: 10
+  train_fill: 0
+  train_ratio: 512.0
+seed: 0
+slow_critic_fraction: 0.02
+slow_critic_update: 1
+task: dmc_cartpole_balance
+task_behavior: Greedy
+wrapper: {checks: false, discretize: 0, length: 0, reset: true}
diff --git a/dmc_cartpole_balance/metrics.jsonl b/dmc_cartpole_balance/metrics.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..6d5de0d7bff921c624de9adac8a4286a76bb136f
--- /dev/null
+++ b/dmc_cartpole_balance/metrics.jsonl
@@ -0,0 +1,151 @@
+{"step": 2602, "train/action_mag": 3.8047823905944824, "train/action_max": 3.3256731033325195, "train/action_mean": -0.2912667989730835, "train/action_min": -3.8047823905944824, "train/action_std": 0.9552955627441406, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 7.870532135711983e-05, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": -0.3004482388496399, "train/adv_mag": 0.0, "train/adv_max": 0.0, "train/adv_mean": 0.0, "train/adv_min": 0.0, "train/adv_std": 0.0, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.145364761352539, "train/cont_loss_std": 0.4816156327724457, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 0.18359375, "train/cont_pos_loss": 1.145364761352539, "train/cont_pred": 0.3532599210739136, "train/cont_rate": 1.0, "train/dyn_loss_mean": 6.780643463134766, "train/dyn_loss_std": 0.29343461990356445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3193384408950806, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 9500.3134765625, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.0, "train/extr_return_normed_max": 0.0, "train/extr_return_normed_mean": 0.0, "train/extr_return_normed_min": 0.0, "train/extr_return_normed_std": 0.0, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.0, "train/extr_return_raw_max": 0.0, "train/extr_return_raw_mean": 0.0, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 0.0, "train/extr_reward_mag": 0.0, "train/extr_reward_max": 0.0, "train/extr_reward_mean": 0.0, "train/extr_reward_min": 0.0, "train/extr_reward_std": 0.0, "train/image_loss_mean": 2488.097412109375, "train/image_loss_std": 27.139936447143555, "train/model_loss_mean": 2498.8525390625, "train/model_loss_std": 27.130693435668945, "train/model_opt_grad_norm": NaN, "train/model_opt_grad_steps": 0.0, "train/model_opt_loss": 24988526.0, "train/model_opt_model_opt_grad_overflow": 1.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.4067323207855225, "train/policy_entropy_max": 1.4067323207855225, "train/policy_entropy_mean": 1.171035885810852, "train/policy_entropy_min": 0.046378254890441895, "train/policy_entropy_std": 0.14652259647846222, "train/policy_logprob_mag": 8.010584831237793, "train/policy_logprob_max": 0.1993904411792755, "train/policy_logprob_mean": -1.1734670400619507, "train/policy_logprob_min": -8.010584831237793, "train/policy_logprob_std": 0.7143044471740723, "train/policy_randomness_mag": 0.9946989417076111, "train/policy_randomness_max": 0.9946989417076111, "train/policy_randomness_mean": 0.8923372030258179, "train/policy_randomness_min": 0.40390464663505554, "train/policy_randomness_std": 0.06363395601511002, "train/post_ent_mag": 107.79847717285156, "train/post_ent_max": 107.79847717285156, "train/post_ent_mean": 107.51962280273438, "train/post_ent_min": 107.11404418945312, "train/post_ent_std": 0.09489116072654724, "train/prior_ent_mag": 108.0792007446289, "train/prior_ent_max": 108.0792007446289, "train/prior_ent_mean": 107.41801452636719, "train/prior_ent_min": 106.72450256347656, "train/prior_ent_std": 0.2232946902513504, "train/rep_loss_mean": 6.780643463134766, "train/rep_loss_std": 0.29343461990356445, "train/reward_avg": 0.8333278298377991, "train/reward_loss_mean": 5.541263580322266, "train/reward_loss_std": 2.4800473852337745e-07, "train/reward_max_data": 1.9831788539886475, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 1.0, "train/reward_neg_loss": 5.541264057159424, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541263103485107, "train/reward_pred": 0.0, "train/reward_rate": 0.857421875, "train/params_agent/wm/model_opt": 15685251.0, "train/params_agent/task_behavior/critic/critic_opt": 1181439.0, "train/params_agent/task_behavior/ac/actor_opt": 1051650.0, "replay/size": 1049.0, "replay/inserts": 1049.0, "replay/samples": 112.0, "replay/insert_wait_avg": 1.6323376883769512e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2261526925223215e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 80.60846638679504, "timer/env.step_count": 326.0, "timer/env.step_total": 7.4007568359375, "timer/env.step_frac": 0.0918111603863718, "timer/env.step_avg": 0.022701708085697853, "timer/env.step_min": 0.017157316207885742, "timer/env.step_max": 0.9997687339782715, "timer/replay.add_count": 1301.0, "timer/replay.add_total": 0.07742905616760254, "timer/replay.add_frac": 0.0009605573662208596, "timer/replay.add_avg": 5.9515031643045763e-05, "timer/replay.add_min": 2.3126602172851562e-05, "timer/replay.add_max": 0.001653909683227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 2.1457672119140625e-06, "timer/logger.write_frac": 2.6619625804784862e-08, "timer/logger.write_avg": 2.1457672119140625e-06, "timer/logger.write_min": 2.1457672119140625e-06, "timer/logger.write_max": 2.1457672119140625e-06, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0395963191986084, "timer/checkpoint.save_frac": 0.0004912178704480962, "timer/checkpoint.save_avg": 0.0395963191986084, "timer/checkpoint.save_min": 0.0395963191986084, "timer/checkpoint.save_max": 0.0395963191986084, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.23560881614685059, "timer/agent.save_frac": 0.002922879279408386, "timer/agent.save_avg": 0.23560881614685059, "timer/agent.save_min": 0.23560881614685059, "timer/agent.save_max": 0.23560881614685059, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00879979133605957, "timer/replay.save_frac": 0.00010916708542542272, "timer/replay.save_avg": 0.00879979133605957, "timer/replay.save_min": 0.00879979133605957, "timer/replay.save_max": 0.00879979133605957, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 7.634941339492798, "timer/agent.policy_frac": 0.0947163701497182, "timer/agent.policy_avg": 7.634941339492798, "timer/agent.policy_min": 7.634941339492798, "timer/agent.policy_max": 7.634941339492798, "timer/dataset_count": 1.0, "timer/dataset_total": 4.029273986816406e-05, "timer/dataset_frac": 4.998574178898491e-07, "timer/dataset_avg": 4.029273986816406e-05, "timer/dataset_min": 4.029273986816406e-05, "timer/dataset_max": 4.029273986816406e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 55.772509813308716, "timer/agent.train_frac": 0.6918939450564358, "timer/agent.train_avg": 55.772509813308716, "timer/agent.train_min": 55.772509813308716, "timer/agent.train_max": 55.772509813308716, "timer/agent.report_count": 1.0, "timer/agent.report_total": 9.523512601852417, "timer/agent.report_frac": 0.11814531436628994, "timer/agent.report_avg": 9.523512601852417, "timer/agent.report_min": 9.523512601852417, "timer/agent.report_max": 9.523512601852417}
+{"step": 4008, "episode/length": 500.0, "episode/score": 364.1353488473105, "episode/sum_abs_reward": 364.1353488473105, "episode/reward_rate": 0.5548902195608783}
+{"step": 4462, "train/action_mag": 4.431477748829385, "train/action_max": 4.383963869965595, "train/action_mean": 0.4000981862494803, "train/action_min": -3.643899337105129, "train/action_std": 1.008484009815299, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.00015388993597298395, "train/actor_opt_grad_steps": 235.0, "train/actor_opt_loss": -9392.157917017523, "train/adv_mag": 1.5934855365396843, "train/adv_max": 1.5934855365396843, "train/adv_mean": 0.9530034570172733, "train/adv_min": 0.14999592308278964, "train/adv_std": 0.4425785113923231, "train/cont_avg": 1.0, "train/cont_loss_mean": 0.023563555962344097, "train/cont_loss_std": 0.009835266457734495, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 0.9828889266304348, "train/cont_pos_loss": 0.023563555962344097, "train/cont_pred": 0.9862943615602411, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.5380343121031057, "train/dyn_loss_std": 0.0392943733635172, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 12.593756836393606, "train/extr_critic_critic_opt_grad_steps": 235.0, "train/extr_critic_critic_opt_loss": 70232.17047384511, "train/extr_critic_mag": 0.6805008157439854, "train/extr_critic_max": 0.6805008131524791, "train/extr_critic_mean": 0.6784781661187783, "train/extr_critic_min": 0.6526580401088881, "train/extr_critic_std": 0.0010524348218870132, "train/extr_return_normed_mag": 1.559159225490673, "train/extr_return_normed_max": 1.559159225490673, "train/extr_return_normed_mean": 0.9237615526856288, "train/extr_return_normed_min": 0.12087776660779997, "train/extr_return_normed_std": 0.44255520272671, "train/extr_return_rate": 0.9072463829880175, "train/extr_return_raw_mag": 5.879103243108029, "train/extr_return_raw_max": 5.879103243108029, "train/extr_return_raw_mean": 3.798902464309282, "train/extr_return_raw_min": 1.1695252757762438, "train/extr_return_raw_std": 1.4490543900186743, "train/extr_reward_mag": 0.4956711919411369, "train/extr_reward_max": 0.4956711919411369, "train/extr_reward_mean": 0.49525011038286204, "train/extr_reward_min": 0.4941976588705312, "train/extr_reward_std": 0.00011421717471935351, "train/image_loss_mean": 116.95095456164816, "train/image_loss_std": 12.094023092933323, "train/model_loss_mean": 120.292392772177, "train/model_loss_std": 12.163701244022535, "train/model_opt_grad_norm": 327.6223496976106, "train/model_opt_grad_steps": 226.0, "train/model_opt_loss": 2349.460788892663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 19.53125, "train/policy_entropy_mag": 1.41533007569935, "train/policy_entropy_max": 1.41533007569935, "train/policy_entropy_mean": 1.398812516875889, "train/policy_entropy_min": 1.3090314955815026, "train/policy_entropy_std": 0.008422767148737836, "train/policy_logprob_mag": 9.291761377583379, "train/policy_logprob_max": -0.8375720381736755, "train/policy_logprob_mean": -1.39889163038005, "train/policy_logprob_min": -9.291761377583379, "train/policy_logprob_std": 0.7079364786977353, "train/policy_randomness_mag": 0.9984328319197115, "train/policy_randomness_max": 0.9984328319197115, "train/policy_randomness_mean": 0.9912593792314115, "train/policy_randomness_min": 0.9522679636011953, "train/policy_randomness_std": 0.003657960920068233, "train/post_ent_mag": 78.02676648678987, "train/post_ent_max": 78.02676648678987, "train/post_ent_mean": 77.35167478478473, "train/post_ent_min": 77.2247256403384, "train/post_ent_std": 0.11223883440961009, "train/prior_ent_mag": 85.374767801036, "train/prior_ent_max": 85.374767801036, "train/prior_ent_mean": 83.85739882096, "train/prior_ent_min": 83.55445214976434, "train/prior_ent_std": 0.22368343984303268, "train/rep_loss_mean": 1.5380343121031057, "train/rep_loss_std": 0.0392943733635172, "train/reward_avg": 0.6944310626258021, "train/reward_loss_mean": 2.3950554262036863, "train/reward_loss_std": 0.19886504702456195, "train/reward_max_data": 1.9369941353797913, "train/reward_max_pred": 0.4944802937300309, "train/reward_neg_acc": 0.08695652173913043, "train/reward_neg_loss": 2.3888339840847514, "train/reward_pos_acc": 0.9130434704863507, "train/reward_pos_loss": 2.395794865877732, "train/reward_pred": 0.4939838679122698, "train/reward_rate": 0.8503736413043478, "stats/mean_log_entropy": 1.3844278156757355, "replay/size": 1979.0, "replay/inserts": 930.0, "replay/samples": 7440.0, "replay/insert_wait_avg": 2.2231891591061827e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0966293273433562e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 290.7188050746918, "timer/env.step_count": 232.0, "timer/env.step_total": 5.557117223739624, "timer/env.step_frac": 0.019115093783877806, "timer/env.step_avg": 0.02395309148163631, "timer/env.step_min": 0.019873380661010742, "timer/env.step_max": 0.03229808807373047, "timer/replay.add_count": 930.0, "timer/replay.add_total": 0.1773538589477539, "timer/replay.add_frac": 0.0006100529303640608, "timer/replay.add_avg": 0.0001907030741373698, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0034036636352539062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02292466163635254, "timer/logger.write_frac": 7.88551040943592e-05, "timer/logger.write_avg": 0.02292466163635254, "timer/logger.write_min": 0.02292466163635254, "timer/logger.write_max": 0.02292466163635254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.7007787227630615, "timer/agent.policy_frac": 0.0024105035881081607, "timer/agent.policy_avg": 0.003020597942944231, "timer/agent.policy_min": 0.0027370452880859375, "timer/agent.policy_max": 0.003826618194580078, "timer/dataset_count": 465.0, "timer/dataset_total": 0.03200340270996094, "timer/dataset_frac": 0.00011008370339764774, "timer/dataset_avg": 6.882452195690525e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 465.0, "timer/agent.train_total": 283.9735369682312, "timer/agent.train_frac": 0.9767979642571537, "timer/agent.train_avg": 0.6106957784263036, "timer/agent.train_min": 0.5543956756591797, "timer/agent.train_max": 0.6595625877380371, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1448683738708496, "timer/agent.report_frac": 0.000498310984160897, "timer/agent.report_avg": 0.1448683738708496, "timer/agent.report_min": 0.1448683738708496, "timer/agent.report_max": 0.1448683738708496, "fps": 6.397905979806929}
+{"step": 6362, "train/action_mag": 4.637438361843427, "train/action_max": 3.6218063284953437, "train/action_mean": -0.33382359985262156, "train/action_min": -4.288719768325488, "train/action_std": 1.0078396014869213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 7.63032005200633e-05, "train/actor_opt_grad_steps": 705.0, "train/actor_opt_loss": -6451.754628499349, "train/adv_mag": 1.1027397736907005, "train/adv_max": 1.1027397736907005, "train/adv_mean": 0.654494815816482, "train/adv_min": 0.1017114167722563, "train/adv_std": 0.30399949351946515, "train/cont_avg": 1.0, "train/cont_loss_mean": 8.364860084005462e-06, "train/cont_loss_std": 5.3053939742161065e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 8.364860084005462e-06, "train/cont_pred": 0.9999916416903337, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.0442847559849422, "train/dyn_loss_std": 0.0805129577576859, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 9.887932558854422, "train/extr_critic_critic_opt_grad_steps": 705.0, "train/extr_critic_critic_opt_loss": 44032.51066080729, "train/extr_critic_mag": 3.2267513424158096, "train/extr_critic_max": 3.2267513424158096, "train/extr_critic_mean": 3.219201954702536, "train/extr_critic_min": 3.1868301182985306, "train/extr_critic_std": 0.0020965049019044577, "train/extr_return_normed_mag": 1.1031415884693463, "train/extr_return_normed_max": 1.1031415884693463, "train/extr_return_normed_mean": 0.6602743032077948, "train/extr_return_normed_min": 0.10782038001343608, "train/extr_return_normed_std": 0.3040077692518632, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 8.952179590861002, "train/extr_return_raw_max": 8.952179590861002, "train/extr_return_raw_mean": 6.639113108317058, "train/extr_return_raw_min": 3.7524292965730033, "train/extr_return_raw_std": 1.5885136152307193, "train/extr_reward_mag": 0.5583405966560046, "train/extr_reward_max": 0.5583405966560046, "train/extr_reward_mean": 0.5502991999189059, "train/extr_reward_min": 0.5485832765698433, "train/extr_reward_std": 0.0009687668408939013, "train/image_loss_mean": 20.003908375898998, "train/image_loss_std": 11.031841476758322, "train/model_loss_mean": 22.633037010828655, "train/model_loss_std": 11.164097348848978, "train/model_opt_grad_norm": 32.73794496059418, "train/model_opt_grad_steps": 696.0, "train/model_opt_loss": 442.05150349934894, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 19.53125, "train/policy_entropy_mag": 1.4182970523834229, "train/policy_entropy_max": 1.4182970523834229, "train/policy_entropy_mean": 1.417344644665718, "train/policy_entropy_min": 1.402209994693597, "train/policy_entropy_std": 0.00046920301489687216, "train/policy_logprob_mag": 9.38289632399877, "train/policy_logprob_max": -0.9111257257560889, "train/policy_logprob_mean": -1.4172898083925247, "train/policy_logprob_min": -9.38289632399877, "train/policy_logprob_std": 0.7059688828885555, "train/policy_randomness_mag": 0.9997213743627071, "train/policy_randomness_max": 0.9997213743627071, "train/policy_randomness_mean": 0.9993077715237936, "train/policy_randomness_min": 0.9927348705629507, "train/policy_randomness_std": 0.00020377022216659194, "train/post_ent_mag": 57.22212942441305, "train/post_ent_max": 57.22212942441305, "train/post_ent_mean": 54.408065954844155, "train/post_ent_min": 52.44020438194275, "train/post_ent_std": 0.8713216787825028, "train/prior_ent_mag": 62.8676647345225, "train/prior_ent_max": 62.8676647345225, "train/prior_ent_mean": 61.350815216700234, "train/prior_ent_min": 60.96926991144816, "train/prior_ent_std": 0.24709698433677355, "train/rep_loss_mean": 1.0442847559849422, "train/rep_loss_std": 0.0805129577576859, "train/reward_avg": 0.6316957001884779, "train/reward_loss_mean": 2.0025498966375985, "train/reward_loss_std": 0.3146845828741789, "train/reward_max_data": 1.974690777560075, "train/reward_max_pred": 0.5600212986270586, "train/reward_neg_acc": 0.0, "train/reward_neg_loss": 1.9271374940872192, "train/reward_pos_acc": 1.0000000012417634, "train/reward_pos_loss": 2.016592929760615, "train/reward_pred": 0.5508680827915668, "train/reward_rate": 0.8343912760416666, "replay/size": 2929.0, "replay/inserts": 950.0, "replay/samples": 7600.0, "replay/insert_wait_avg": 2.238875941226357e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.068585797360069e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.45058965682983, "timer/env.step_count": 238.0, "timer/env.step_total": 5.584927558898926, "timer/env.step_frac": 0.018588505901346197, "timer/env.step_avg": 0.023466082180247587, "timer/env.step_min": 0.020043373107910156, "timer/env.step_max": 0.029758214950561523, "timer/replay.add_count": 950.0, "timer/replay.add_total": 0.18050503730773926, "timer/replay.add_frac": 0.0006007811051857458, "timer/replay.add_avg": 0.00019000530242919923, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0019114017486572266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.016131877899169922, "timer/logger.write_frac": 5.369228237360263e-05, "timer/logger.write_avg": 0.016131877899169922, "timer/logger.write_min": 0.016131877899169922, "timer/logger.write_max": 0.016131877899169922, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 238.0, "timer/agent.policy_total": 0.7230923175811768, "timer/agent.policy_frac": 0.0024066929554276526, "timer/agent.policy_avg": 0.0030382030150469612, "timer/agent.policy_min": 0.002761363983154297, "timer/agent.policy_max": 0.0043070316314697266, "timer/dataset_count": 475.0, "timer/dataset_total": 0.0333402156829834, "timer/dataset_frac": 0.00011096738309305398, "timer/dataset_avg": 7.018992775364926e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014400482177734375, "timer/agent.train_count": 475.0, "timer/agent.train_total": 293.6587748527527, "timer/agent.train_frac": 0.9773945698963857, "timer/agent.train_avg": 0.6182289996900057, "timer/agent.train_min": 0.5661501884460449, "timer/agent.train_max": 0.6605193614959717, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15617156028747559, "timer/agent.report_frac": 0.0005197911592247245, "timer/agent.report_avg": 0.15617156028747559, "timer/agent.report_min": 0.15617156028747559, "timer/agent.report_max": 0.15617156028747559, "fps": 6.323769930150927}
+{"step": 8016, "episode/length": 500.0, "episode/score": 243.19502317346632, "episode/sum_abs_reward": 243.19502317346632, "episode/reward_rate": 0.3373253493013972}
+{"step": 8258, "train/action_mag": 4.431445537729466, "train/action_max": 2.375204125617413, "train/action_mean": -0.8186814337968826, "train/action_min": -4.431445537729466, "train/action_std": 0.8953145327086144, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.002665398638318367, "train/actor_opt_grad_steps": 1180.0, "train/actor_opt_loss": -5374.415205285904, "train/adv_mag": 1.8385592115686296, "train/adv_max": 1.8385592115686296, "train/adv_mean": 0.5452485376215995, "train/adv_min": 0.05951730066791494, "train/adv_std": 0.33411691987768133, "train/cont_avg": 1.0, "train/cont_loss_mean": 7.266113524120226e-06, "train/cont_loss_std": 4.3704689029796774e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 7.266113524120226e-06, "train/cont_pred": 0.9999927333060731, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.706884909183421, "train/dyn_loss_std": 1.6701793886245566, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 4.1696168818372366, "train/extr_critic_critic_opt_grad_steps": 1180.0, "train/extr_critic_critic_opt_loss": 34514.684133976065, "train/extr_critic_mag": 6.137425564705057, "train/extr_critic_max": 6.137425564705057, "train/extr_critic_mean": 5.895757431679583, "train/extr_critic_min": 4.152814545529954, "train/extr_critic_std": 0.37763560967064125, "train/extr_return_normed_mag": 1.5909311543119715, "train/extr_return_normed_max": 1.5909311543119715, "train/extr_return_normed_mean": 0.5406160449728052, "train/extr_return_normed_min": -0.103592215398168, "train/extr_return_normed_std": 0.300845353527272, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 14.688054592051405, "train/extr_return_raw_max": 14.688054592051405, "train/extr_return_raw_mean": 8.898520611702128, "train/extr_return_raw_min": 5.331676655627311, "train/extr_return_raw_std": 1.6578058739925952, "train/extr_reward_mag": 0.992933100842415, "train/extr_reward_max": 0.992933100842415, "train/extr_reward_mean": 0.4909636397311028, "train/extr_reward_min": 0.36347134316221197, "train/extr_reward_std": 0.17003506057439965, "train/image_loss_mean": 14.397441965468387, "train/image_loss_std": 9.334549234268513, "train/model_loss_mean": 17.24713112445588, "train/model_loss_std": 9.731418579182726, "train/model_opt_grad_norm": 32.692606520145496, "train/model_opt_grad_steps": 1171.0, "train/model_opt_loss": 612.9856463493185, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 36.569148936170215, "train/policy_entropy_mag": 1.3692232611331534, "train/policy_entropy_max": 1.3692232611331534, "train/policy_entropy_mean": 1.0368485377824053, "train/policy_entropy_min": 0.33754304622082, "train/policy_entropy_std": 0.23739930656998656, "train/policy_logprob_mag": 9.271701802598669, "train/policy_logprob_max": 0.1329447478055954, "train/policy_logprob_mean": -1.0360599879888779, "train/policy_logprob_min": -9.271701802598669, "train/policy_logprob_std": 0.7712927587488865, "train/policy_randomness_mag": 0.9784089098585412, "train/policy_randomness_max": 0.9784089098585412, "train/policy_randomness_mean": 0.8340604330631013, "train/policy_randomness_min": 0.5303559060743515, "train/policy_randomness_std": 0.10310120375497524, "train/post_ent_mag": 67.51232147216797, "train/post_ent_max": 67.51232147216797, "train/post_ent_mean": 54.68257563164894, "train/post_ent_min": 44.60163822579891, "train/post_ent_std": 4.228294646486323, "train/prior_ent_mag": 67.64608212734791, "train/prior_ent_max": 67.64608212734791, "train/prior_ent_mean": 57.49161472726375, "train/prior_ent_min": 51.86688524611453, "train/prior_ent_std": 3.5300453419381, "train/rep_loss_mean": 1.706884909183421, "train/rep_loss_std": 1.6701793886245566, "train/reward_avg": 0.5436585646994571, "train/reward_loss_mean": 1.8255510558473302, "train/reward_loss_std": 0.34868729241350865, "train/reward_max_data": 1.9571168473426332, "train/reward_max_pred": 0.9962075263895886, "train/reward_neg_acc": 0.0, "train/reward_neg_loss": 1.6966027046771759, "train/reward_pos_acc": 0.9999999949272643, "train/reward_pos_loss": 1.8619124762555386, "train/reward_pred": 0.4922050738588293, "train/reward_rate": 0.7830161236702128, "stats/mean_log_entropy": 1.2701924741268158, "replay/size": 3877.0, "replay/inserts": 948.0, "replay/samples": 7584.0, "replay/insert_wait_avg": 2.227755035529157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.077316229856467e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.53737568855286, "timer/env.step_count": 237.0, "timer/env.step_total": 5.554759502410889, "timer/env.step_frac": 0.0184827577258387, "timer/env.step_avg": 0.02343780380764088, "timer/env.step_min": 0.019230365753173828, "timer/env.step_max": 0.029727458953857422, "timer/replay.add_count": 948.0, "timer/replay.add_total": 0.19122934341430664, "timer/replay.add_frac": 0.00063629138630823, "timer/replay.add_avg": 0.00020171871668175806, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.003160715103149414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02086925506591797, "timer/logger.write_frac": 6.94397993530921e-05, "timer/logger.write_avg": 0.02086925506591797, "timer/logger.write_min": 0.02086925506591797, "timer/logger.write_max": 0.02086925506591797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000179290771484375, "timer/checkpoint.save_frac": 5.965673023982687e-07, "timer/checkpoint.save_avg": 0.000179290771484375, "timer/checkpoint.save_min": 0.000179290771484375, "timer/checkpoint.save_max": 0.000179290771484375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.10628437995910645, "timer/agent.save_frac": 0.0003536477941074758, "timer/agent.save_avg": 0.10628437995910645, "timer/agent.save_min": 0.10628437995910645, "timer/agent.save_max": 0.10628437995910645, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.7738037109375e-05, "timer/replay.save_frac": 2.91937190535323e-07, "timer/replay.save_avg": 8.7738037109375e-05, "timer/replay.save_min": 8.7738037109375e-05, "timer/replay.save_max": 8.7738037109375e-05, "timer/agent.policy_count": 237.0, "timer/agent.policy_total": 0.7990033626556396, "timer/agent.policy_frac": 0.00265858235044831, "timer/agent.policy_avg": 0.0033713222052980576, "timer/agent.policy_min": 0.002794027328491211, "timer/agent.policy_max": 0.08132529258728027, "timer/dataset_count": 474.0, "timer/dataset_total": 0.03379964828491211, "timer/dataset_frac": 0.00011246404280823532, "timer/dataset_avg": 7.130727486268377e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 474.0, "timer/agent.train_total": 293.6665198802948, "timer/agent.train_frac": 0.9771380987389124, "timer/agent.train_avg": 0.619549620000622, "timer/agent.train_min": 0.5679430961608887, "timer/agent.train_max": 0.6613523960113525, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15350794792175293, "timer/agent.report_frac": 0.0005107782270676155, "timer/agent.report_avg": 0.15350794792175293, "timer/agent.report_min": 0.15350794792175293, "timer/agent.report_max": 0.15350794792175293, "fps": 6.308671801358634}
+{"step": 10150, "train/action_mag": 2.5175650145145174, "train/action_max": 2.1868223332344217, "train/action_mean": -0.02760959729710792, "train/action_min": -2.270649831345741, "train/action_std": 0.9074792329301226, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03139945980597367, "train/actor_opt_grad_steps": 1650.0, "train/actor_opt_loss": -4318.632609915226, "train/adv_mag": 2.192347653368686, "train/adv_max": 2.192347653368686, "train/adv_mean": 0.43839469234994116, "train/adv_min": 0.0030103576310137486, "train/adv_std": 0.3463965102713159, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.9863883953335935e-06, "train/cont_loss_std": 4.407769631839944e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.9863883953335935e-06, "train/cont_pred": 0.9999950211098854, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.992295632971094, "train/dyn_loss_std": 2.6718814220834286, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 2.618929901021592, "train/extr_critic_critic_opt_grad_steps": 1650.0, "train/extr_critic_critic_opt_loss": 29066.288397606382, "train/extr_critic_mag": 10.540759959119432, "train/extr_critic_max": 10.540759959119432, "train/extr_critic_mean": 9.544401686242287, "train/extr_critic_min": 6.86363263840371, "train/extr_critic_std": 0.43798858307777566, "train/extr_return_normed_mag": 2.0604590634082225, "train/extr_return_normed_max": 2.0604590634082225, "train/extr_return_normed_mean": 0.505624937884351, "train/extr_return_normed_min": -0.0720323127535905, "train/extr_return_normed_std": 0.3360655979907259, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 23.118441358525704, "train/extr_return_raw_max": 23.118441358525704, "train/extr_return_raw_mean": 12.517535534310849, "train/extr_return_raw_min": 8.449863839656748, "train/extr_return_raw_std": 2.3127223177159086, "train/extr_reward_mag": 1.4643340668779739, "train/extr_reward_max": 1.4643340668779739, "train/extr_reward_mean": 0.4974095992585446, "train/extr_reward_min": 0.1780278834890812, "train/extr_reward_std": 0.28638303913968677, "train/image_loss_mean": 9.88023406901258, "train/image_loss_std": 6.673924091014456, "train/model_loss_mean": 12.60308403664447, "train/model_loss_std": 7.124436266878818, "train/model_opt_grad_norm": 20.691078875927214, "train/model_opt_grad_steps": 1641.0, "train/model_opt_loss": 492.30796846430354, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 39.0625, "train/policy_entropy_mag": 0.9662606120109558, "train/policy_entropy_max": 0.8167008224953997, "train/policy_entropy_mean": 0.0018059624200488658, "train/policy_entropy_min": -0.7456139960187547, "train/policy_entropy_std": 0.29449503631033797, "train/policy_logprob_mag": 8.143900364003283, "train/policy_logprob_max": 1.2227811914809206, "train/policy_logprob_mean": 0.0011347866161389554, "train/policy_logprob_min": -8.143900364003283, "train/policy_logprob_std": 0.7742544742340737, "train/policy_randomness_mag": 0.7384514745245588, "train/policy_randomness_max": 0.7384514745245588, "train/policy_randomness_mean": 0.38454717080643835, "train/policy_randomness_min": 0.05994679854112737, "train/policy_randomness_std": 0.12789756448027936, "train/post_ent_mag": 53.231188429162856, "train/post_ent_max": 53.231188429162856, "train/post_ent_mean": 35.83784468630527, "train/post_ent_min": 24.457175478022148, "train/post_ent_std": 5.04498776476434, "train/prior_ent_mag": 58.09450547238614, "train/prior_ent_max": 58.09450547238614, "train/prior_ent_mean": 38.70164668306391, "train/prior_ent_min": 29.651591645910386, "train/prior_ent_std": 5.20413120756758, "train/rep_loss_mean": 1.992295632971094, "train/rep_loss_std": 2.6718814220834286, "train/reward_avg": 0.5281258650282596, "train/reward_loss_mean": 1.5274678975977796, "train/reward_loss_std": 0.4134896283454083, "train/reward_max_data": 1.968708893086048, "train/reward_max_pred": 1.4600753834907045, "train/reward_neg_acc": 0.047008029591450666, "train/reward_neg_loss": 1.3579772266935795, "train/reward_pos_acc": 0.9982260402212751, "train/reward_pos_loss": 1.5815854909572196, "train/reward_pred": 0.49676444238804757, "train/reward_rate": 0.7639627659574468, "replay/size": 4823.0, "replay/inserts": 946.0, "replay/samples": 7568.0, "replay/insert_wait_avg": 2.3350403122367616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0820511279600115e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4718544483185, "timer/env.step_count": 236.0, "timer/env.step_total": 5.810045003890991, "timer/env.step_frac": 0.019336403453024002, "timer/env.step_avg": 0.024618834762249964, "timer/env.step_min": 0.020565271377563477, "timer/env.step_max": 0.034339189529418945, "timer/replay.add_count": 946.0, "timer/replay.add_total": 0.18120980262756348, "timer/replay.add_frac": 0.0006030841156828943, "timer/replay.add_avg": 0.00019155370256613476, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0022041797637939453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017359018325805664, "timer/logger.write_frac": 5.777252700649017e-05, "timer/logger.write_avg": 0.017359018325805664, "timer/logger.write_min": 0.017359018325805664, "timer/logger.write_max": 0.017359018325805664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7212536334991455, "timer/agent.policy_frac": 0.00240040330840106, "timer/agent.policy_avg": 0.00305615946397943, "timer/agent.policy_min": 0.0027463436126708984, "timer/agent.policy_max": 0.0039844512939453125, "timer/dataset_count": 473.0, "timer/dataset_total": 0.03384661674499512, "timer/dataset_frac": 0.00011264488252032529, "timer/dataset_avg": 7.155732927060279e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 473.0, "timer/agent.train_total": 293.4628384113312, "timer/agent.train_frac": 0.9766733025632094, "timer/agent.train_avg": 0.6204288338505944, "timer/agent.train_min": 0.5700657367706299, "timer/agent.train_max": 0.6608326435089111, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14766407012939453, "timer/agent.report_frac": 0.0004914406056451218, "timer/agent.report_avg": 0.14766407012939453, "timer/agent.report_min": 0.14766407012939453, "timer/agent.report_max": 0.14766407012939453, "fps": 6.296699231830566}
+{"step": 12024, "episode/length": 500.0, "episode/score": 215.29590062703937, "episode/sum_abs_reward": 215.29590062703937, "episode/reward_rate": 0.3473053892215569}
+{"step": 12034, "train/action_mag": 2.174785555677211, "train/action_max": 2.117396633675758, "train/action_mean": -0.3245660834450354, "train/action_min": -1.904217925477535, "train/action_std": 0.8196861807336199, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.16599071679755728, "train/actor_opt_grad_steps": 2120.0, "train/actor_opt_loss": -3249.29852684508, "train/adv_mag": 2.5737486976258297, "train/adv_max": 2.5737486976258297, "train/adv_mean": 0.32998715689841734, "train/adv_min": -0.1872559961803416, "train/adv_std": 0.3398858771679249, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.959772516765874e-06, "train/cont_loss_std": 4.191163357740771e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.959772516765874e-06, "train/cont_pred": 0.9999960280479269, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6503009339596364, "train/dyn_loss_std": 3.249811010157808, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2772920448729332, "train/extr_critic_critic_opt_grad_steps": 2120.0, "train/extr_critic_critic_opt_loss": 23921.958901263297, "train/extr_critic_mag": 17.682097901689247, "train/extr_critic_max": 17.682097901689247, "train/extr_critic_mean": 16.033240440043997, "train/extr_critic_min": 5.149371299337833, "train/extr_critic_std": 1.207945817328514, "train/extr_return_normed_mag": 1.8717750158715756, "train/extr_return_normed_max": 1.8717750158715756, "train/extr_return_normed_mean": 0.5100770795598943, "train/extr_return_normed_min": -0.39993019980636046, "train/extr_return_normed_std": 0.3228740286319814, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 31.992531715555394, "train/extr_return_raw_max": 31.992531715555394, "train/extr_return_raw_mean": 19.137221458110403, "train/extr_return_raw_min": 10.532427026870403, "train/extr_return_raw_std": 3.0460654015236712, "train/extr_reward_mag": 1.6600831011508375, "train/extr_reward_max": 1.6600831011508375, "train/extr_reward_mean": 0.5115467094360514, "train/extr_reward_min": 0.02882277711908868, "train/extr_reward_std": 0.38389943571800883, "train/image_loss_mean": 9.480061733976324, "train/image_loss_std": 6.016968777839174, "train/model_loss_mean": 12.119728189833621, "train/model_loss_std": 6.463551196646183, "train/model_opt_grad_norm": 18.72959118701042, "train/model_opt_grad_steps": 2111.0, "train/model_opt_loss": 814.2641900245179, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 67.32047872340425, "train/policy_entropy_mag": 0.9612123091170128, "train/policy_entropy_max": 0.8314105678111949, "train/policy_entropy_mean": -0.47411858655036765, "train/policy_entropy_min": -0.8289550035557849, "train/policy_entropy_std": 0.2307954452773358, "train/policy_logprob_mag": 7.880701278118377, "train/policy_logprob_max": 1.3154135764913355, "train/policy_logprob_mean": 0.4740763173458424, "train/policy_logprob_min": -7.880701278118377, "train/policy_logprob_std": 0.748816523146122, "train/policy_randomness_mag": 0.7448398293332851, "train/policy_randomness_max": 0.7448398293332851, "train/policy_randomness_mean": 0.17785577285797038, "train/policy_randomness_min": 0.023752260715403456, "train/policy_randomness_std": 0.10023318318293449, "train/post_ent_mag": 42.060353867551115, "train/post_ent_max": 42.060353867551115, "train/post_ent_mean": 30.564731841391705, "train/post_ent_min": 19.498269182570436, "train/post_ent_std": 3.6303525833373373, "train/prior_ent_mag": 53.55405125719436, "train/prior_ent_max": 53.55405125719436, "train/prior_ent_mean": 34.006261703815866, "train/prior_ent_min": 23.909662003212787, "train/prior_ent_std": 4.200075849573663, "train/rep_loss_mean": 2.6503009339596364, "train/rep_loss_std": 3.249811010157808, "train/reward_avg": 0.5118556751849803, "train/reward_loss_mean": 1.0494819765395307, "train/reward_loss_std": 0.49367253323818777, "train/reward_max_data": 1.9457505916027313, "train/reward_max_pred": 1.650933194667735, "train/reward_neg_acc": 0.5929332239196655, "train/reward_neg_loss": 0.7990790389953776, "train/reward_pos_acc": 0.9740455252058963, "train/reward_pos_loss": 1.1233714273635378, "train/reward_pred": 0.49779564649500746, "train/reward_rate": 0.770029920212766, "stats/mean_log_entropy": -0.31932108849287033, "replay/size": 5765.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3320475454796145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0511171539371433e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4398970603943, "timer/env.step_count": 236.0, "timer/env.step_total": 5.810365200042725, "timer/env.step_frac": 0.019339525998022584, "timer/env.step_avg": 0.024620191525604764, "timer/env.step_min": 0.020000934600830078, "timer/env.step_max": 0.05556941032409668, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18471193313598633, "timer/replay.add_frac": 0.0006148049408326605, "timer/replay.add_avg": 0.000196084854709115, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.009322881698608398, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018705368041992188, "timer/logger.write_frac": 6.225993360073627e-05, "timer/logger.write_avg": 0.018705368041992188, "timer/logger.write_min": 0.018705368041992188, "timer/logger.write_max": 0.018705368041992188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7481606006622314, "timer/agent.policy_frac": 0.002490217204780351, "timer/agent.policy_avg": 0.0031701720367043706, "timer/agent.policy_min": 0.0027799606323242188, "timer/agent.policy_max": 0.007520437240600586, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03502941131591797, "timer/dataset_frac": 0.00011659374024108513, "timer/dataset_avg": 7.437242317604664e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.3844828605652, "timer/agent.train_frac": 0.976516387241303, "timer/agent.train_avg": 0.6228969912113911, "timer/agent.train_min": 0.5717816352844238, "timer/agent.train_max": 0.6936981678009033, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14174747467041016, "timer/agent.report_frac": 0.00047179977112665614, "timer/agent.report_avg": 0.14174747467041016, "timer/agent.report_min": 0.14174747467041016, "timer/agent.report_max": 0.14174747467041016, "fps": 6.2707705253913435}
+{"step": 13898, "train/action_mag": 3.239358404849438, "train/action_max": 2.345565007088032, "train/action_mean": -0.05402988151825489, "train/action_min": -3.22836523867668, "train/action_std": 0.9142495419116731, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.173140416437007, "train/actor_opt_grad_steps": 2590.0, "train/actor_opt_loss": -2695.4342378656916, "train/adv_mag": 2.7306723670756563, "train/adv_max": 2.7306723670756563, "train/adv_mean": 0.27375021513472214, "train/adv_min": -0.3888268161644327, "train/adv_std": 0.2963647851918606, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.814825398053607e-06, "train/cont_loss_std": 2.2355990630727473e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.814825398053607e-06, "train/cont_pred": 0.9999971795589366, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.8582706654325443, "train/dyn_loss_std": 3.680842678597633, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0459833531937701, "train/extr_critic_critic_opt_grad_steps": 2590.0, "train/extr_critic_critic_opt_loss": 20271.310629986703, "train/extr_critic_mag": 25.168777546984085, "train/extr_critic_max": 25.168777546984085, "train/extr_critic_mean": 23.0290270054594, "train/extr_critic_min": 6.377644975134667, "train/extr_critic_std": 1.722022254416283, "train/extr_return_normed_mag": 1.793520374501005, "train/extr_return_normed_max": 1.793520374501005, "train/extr_return_normed_mean": 0.5174026704849081, "train/extr_return_normed_min": -0.5344760966427783, "train/extr_return_normed_std": 0.3174285695273825, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 40.26509913992375, "train/extr_return_raw_max": 40.26509913992375, "train/extr_return_raw_mean": 26.066811987694273, "train/extr_return_raw_min": 14.291228842228017, "train/extr_return_raw_std": 3.5369779150536718, "train/extr_reward_mag": 1.7105091379043904, "train/extr_reward_max": 1.7105091379043904, "train/extr_reward_mean": 0.5166875536137439, "train/extr_reward_min": 0.008065992213310079, "train/extr_reward_std": 0.4065724934669251, "train/image_loss_mean": 8.730217243762727, "train/image_loss_std": 5.50635493055303, "train/model_loss_mean": 11.301468625981757, "train/model_loss_std": 6.165546518691043, "train/model_opt_grad_norm": 16.867995667964855, "train/model_opt_grad_steps": 2581.0, "train/model_opt_loss": 882.9272396006482, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 78.125, "train/policy_entropy_mag": 1.3379400791005884, "train/policy_entropy_max": 1.3379400791005884, "train/policy_entropy_mean": -0.46760115027427673, "train/policy_entropy_min": -0.8544144199249593, "train/policy_entropy_std": 0.4254083233944913, "train/policy_logprob_mag": 7.626353020363665, "train/policy_logprob_max": 1.3420693265630843, "train/policy_logprob_mean": 0.46838385627624834, "train/policy_logprob_min": -7.626353020363665, "train/policy_logprob_std": 0.8256819704745678, "train/policy_randomness_mag": 0.9648228008696373, "train/policy_randomness_max": 0.9648228008696373, "train/policy_randomness_mean": 0.18068625762107524, "train/policy_randomness_min": 0.012695377207103562, "train/policy_randomness_std": 0.18475247824445684, "train/post_ent_mag": 35.07054243696497, "train/post_ent_max": 35.07054243696497, "train/post_ent_mean": 26.598098349063953, "train/post_ent_min": 17.29644249855204, "train/post_ent_std": 2.7586523218357817, "train/prior_ent_mag": 49.74311520190949, "train/prior_ent_max": 49.74311520190949, "train/prior_ent_mean": 30.261240938876536, "train/prior_ent_min": 21.028017977450755, "train/prior_ent_std": 3.6232925729548677, "train/rep_loss_mean": 2.8582706654325443, "train/rep_loss_std": 3.680842678597633, "train/reward_avg": 0.5127632345290895, "train/reward_loss_mean": 0.8562861693666336, "train/reward_loss_std": 0.4580799227065228, "train/reward_max_data": 1.9445312555800094, "train/reward_max_pred": 1.7046888534058915, "train/reward_neg_acc": 0.7573541149179986, "train/reward_neg_loss": 0.6343360524228279, "train/reward_pos_acc": 0.9818098126573765, "train/reward_pos_loss": 0.9176513362438121, "train/reward_pred": 0.5037578287276816, "train/reward_rate": 0.783203125, "replay/size": 6697.0, "replay/inserts": 932.0, "replay/samples": 7456.0, "replay/insert_wait_avg": 2.3094881246018307e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0670958158795926e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1999771595001, "timer/env.step_count": 233.0, "timer/env.step_total": 5.805760622024536, "timer/env.step_frac": 0.019339643783316682, "timer/env.step_avg": 0.024917427562337065, "timer/env.step_min": 0.021417617797851562, "timer/env.step_max": 0.035562753677368164, "timer/replay.add_count": 932.0, "timer/replay.add_total": 0.17685246467590332, "timer/replay.add_frac": 0.0005891155167608135, "timer/replay.add_avg": 0.00018975586338616237, "timer/replay.add_min": 4.1484832763671875e-05, "timer/replay.add_max": 0.0024678707122802734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02162933349609375, "timer/logger.write_frac": 7.204975063872774e-05, "timer/logger.write_avg": 0.02162933349609375, "timer/logger.write_min": 0.02162933349609375, "timer/logger.write_max": 0.02162933349609375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018835067749023438, "timer/checkpoint.save_frac": 6.274173611617606e-07, "timer/checkpoint.save_avg": 0.00018835067749023438, "timer/checkpoint.save_min": 0.00018835067749023438, "timer/checkpoint.save_max": 0.00018835067749023438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07694745063781738, "timer/agent.save_frac": 0.00025632064121355414, "timer/agent.save_avg": 0.07694745063781738, "timer/agent.save_min": 0.07694745063781738, "timer/agent.save_max": 0.07694745063781738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010967254638671875, "timer/replay.save_frac": 3.6533162801824036e-07, "timer/replay.save_avg": 0.00010967254638671875, "timer/replay.save_min": 0.00010967254638671875, "timer/replay.save_max": 0.00010967254638671875, "timer/agent.policy_count": 233.0, "timer/agent.policy_total": 0.7601704597473145, "timer/agent.policy_frac": 0.0025322135828925335, "timer/agent.policy_avg": 0.0032625341620056416, "timer/agent.policy_min": 0.002779722213745117, "timer/agent.policy_max": 0.04716300964355469, "timer/dataset_count": 466.0, "timer/dataset_total": 0.03400850296020508, "timer/dataset_frac": 0.00011328616105169096, "timer/dataset_avg": 7.2979620086277e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 466.0, "timer/agent.train_total": 293.15280199050903, "timer/agent.train_frac": 0.97652506427325, "timer/agent.train_avg": 0.6290832660740537, "timer/agent.train_min": 0.583587646484375, "timer/agent.train_max": 0.6628317832946777, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1528635025024414, "timer/agent.report_frac": 0.0005092055767253542, "timer/agent.report_avg": 0.1528635025024414, "timer/agent.report_min": 0.1528635025024414, "timer/agent.report_max": 0.1528635025024414, "fps": 6.209167718999909}
+{"step": 15782, "train/action_mag": 1.9612736448328545, "train/action_max": 1.6582625267353464, "train/action_mean": -0.09116862828229019, "train/action_min": -1.935112770567549, "train/action_std": 0.8944320653347259, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.13087743164059965, "train/actor_opt_grad_steps": 3060.0, "train/actor_opt_loss": -2308.8553233045213, "train/adv_mag": 2.863689458116572, "train/adv_max": 2.863689458116572, "train/adv_mean": 0.23458370471254308, "train/adv_min": -0.4482271176703433, "train/adv_std": 0.26479767326344833, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.0920081677568884e-06, "train/cont_loss_std": 1.4239614691352008e-06, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.0920081677568884e-06, "train/cont_pred": 0.9999979049601453, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.811605215072632, "train/dyn_loss_std": 3.850666878071237, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8135467089237051, "train/extr_critic_critic_opt_grad_steps": 3060.0, "train/extr_critic_critic_opt_loss": 18140.274206283244, "train/extr_critic_mag": 32.71545690171262, "train/extr_critic_max": 32.71545690171262, "train/extr_critic_mean": 29.668682707116957, "train/extr_critic_min": 6.929850791363006, "train/extr_critic_std": 2.241287944164682, "train/extr_return_normed_mag": 1.7045640108433175, "train/extr_return_normed_max": 1.7045640108433175, "train/extr_return_normed_mean": 0.5199801883798965, "train/extr_return_normed_min": -0.45776975963343963, "train/extr_return_normed_std": 0.32052699809378765, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 48.242068838565906, "train/extr_return_raw_max": 48.242068838565906, "train/extr_return_raw_mean": 32.73812752581657, "train/extr_return_raw_min": 19.952804829211946, "train/extr_return_raw_std": 4.196093635356172, "train/extr_reward_mag": 1.749357598893186, "train/extr_reward_max": 1.749357598893186, "train/extr_reward_mean": 0.5304885868062365, "train/extr_reward_min": 0.006322011034539405, "train/extr_reward_std": 0.44053663979185387, "train/image_loss_mean": 8.404162467794215, "train/image_loss_std": 5.035409927368164, "train/model_loss_mean": 10.866421618360155, "train/model_loss_std": 5.845334428421994, "train/model_opt_grad_norm": 16.822354864566883, "train/model_opt_grad_steps": 3051.0, "train/model_opt_loss": 1346.1328982089428, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 124.66755319148936, "train/policy_entropy_mag": 0.9110541001279303, "train/policy_entropy_max": 0.8262211020956648, "train/policy_entropy_mean": -0.5666246712207794, "train/policy_entropy_min": -0.862792580685717, "train/policy_entropy_std": 0.22819452621835343, "train/policy_logprob_mag": 7.701507132104102, "train/policy_logprob_max": 1.3533819127590099, "train/policy_logprob_mean": 0.5664692470367919, "train/policy_logprob_min": -7.701507132104102, "train/policy_logprob_std": 0.747285321671912, "train/policy_randomness_mag": 0.7425860749914291, "train/policy_randomness_max": 0.7425860749914291, "train/policy_randomness_mean": 0.13768089023676325, "train/policy_randomness_min": 0.009056788393633162, "train/policy_randomness_std": 0.09910361849247142, "train/post_ent_mag": 31.80551914458579, "train/post_ent_max": 31.80551914458579, "train/post_ent_mean": 24.01077631686596, "train/post_ent_min": 15.618337205115784, "train/post_ent_std": 2.3615938856246625, "train/prior_ent_mag": 49.01745848960065, "train/prior_ent_max": 49.01745848960065, "train/prior_ent_mean": 27.68539655969498, "train/prior_ent_min": 18.79250116551176, "train/prior_ent_std": 3.6791806018098874, "train/rep_loss_mean": 2.811605215072632, "train/rep_loss_std": 3.850666878071237, "train/reward_avg": 0.5073944247783498, "train/reward_loss_mean": 0.7752941339573962, "train/reward_loss_std": 0.4324909784692399, "train/reward_max_data": 1.9266748935618299, "train/reward_max_pred": 1.7239352845131082, "train/reward_neg_acc": 0.8131633198007624, "train/reward_neg_loss": 0.5732643033595796, "train/reward_pos_acc": 0.9800931342104648, "train/reward_pos_loss": 0.8296061361089666, "train/reward_pred": 0.5013081627957364, "train/reward_rate": 0.7830992353723404, "replay/size": 7639.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3277448747314973e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.080223456056761e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.60477232933044, "timer/env.step_count": 235.0, "timer/env.step_total": 5.822974920272827, "timer/env.step_frac": 0.019370866520686543, "timer/env.step_avg": 0.02477861668201203, "timer/env.step_min": 0.021376848220825195, "timer/env.step_max": 0.03353524208068848, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.17813539505004883, "timer/replay.add_frac": 0.0005925900432974194, "timer/replay.add_avg": 0.00018910339177287562, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.002015829086303711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017027854919433594, "timer/logger.write_frac": 5.664532464833447e-05, "timer/logger.write_avg": 0.017027854919433594, "timer/logger.write_min": 0.017027854919433594, "timer/logger.write_max": 0.017027854919433594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7167537212371826, "timer/agent.policy_frac": 0.00238437239596428, "timer/agent.policy_avg": 0.0030500158350518407, "timer/agent.policy_min": 0.002755403518676758, "timer/agent.policy_max": 0.003950357437133789, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03438091278076172, "timer/dataset_frac": 0.00011437247823562621, "timer/dataset_avg": 7.299556853664909e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.58268117904663, "timer/agent.train_frac": 0.976640120860787, "timer/agent.train_avg": 0.6233177944353432, "timer/agent.train_min": 0.572068452835083, "timer/agent.train_max": 0.6618669033050537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15520977973937988, "timer/agent.report_frac": 0.0005163250687495351, "timer/agent.report_avg": 0.15520977973937988, "timer/agent.report_min": 0.15520977973937988, "timer/agent.report_max": 0.15520977973937988, "fps": 6.267338562662505}
+{"step": 16032, "episode/length": 500.0, "episode/score": 219.49177751297248, "episode/sum_abs_reward": 219.49177751297248, "episode/reward_rate": 0.437125748502994}
+{"step": 17666, "train/action_mag": 1.9399223784182935, "train/action_max": 1.9289395809173584, "train/action_mean": 0.0325721539656057, "train/action_min": -1.6847644384871139, "train/action_std": 0.8902169732337303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07768288742196053, "train/actor_opt_grad_steps": 3530.0, "train/actor_opt_loss": -1974.0716396899934, "train/adv_mag": 2.9797165520647737, "train/adv_max": 2.9797165520647737, "train/adv_mean": 0.20060210342102863, "train/adv_min": -0.3937033237294948, "train/adv_std": 0.23530810469008506, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.309673205062783e-06, "train/cont_loss_std": 8.233602985223734e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.309673205062783e-06, "train/cont_pred": 0.9999986886978149, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.819280796862663, "train/dyn_loss_std": 4.0101241761065545, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.5963801335781178, "train/extr_critic_critic_opt_grad_steps": 3530.0, "train/extr_critic_critic_opt_loss": 16122.944668384309, "train/extr_critic_mag": 40.60904555625104, "train/extr_critic_max": 40.60904555625104, "train/extr_critic_mean": 36.74656474336665, "train/extr_critic_min": 8.82624661668818, "train/extr_critic_std": 2.6219628136208715, "train/extr_return_normed_mag": 1.6667150487291051, "train/extr_return_normed_max": 1.6667150487291051, "train/extr_return_normed_mean": 0.5068037865009714, "train/extr_return_normed_min": -0.378161551886575, "train/extr_return_normed_std": 0.30855030709124626, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 56.336639485460644, "train/extr_return_raw_max": 56.336639485460644, "train/extr_return_raw_mean": 39.6388574153819, "train/extr_return_raw_min": 26.835780569847593, "train/extr_return_raw_std": 4.45669247749004, "train/extr_reward_mag": 1.7788688020503267, "train/extr_reward_max": 1.7788688020503267, "train/extr_reward_mean": 0.5129488313451727, "train/extr_reward_min": 0.005098789296251662, "train/extr_reward_std": 0.43699741236706996, "train/image_loss_mean": 7.943863919440736, "train/image_loss_std": 4.529335011827185, "train/model_loss_mean": 10.350041754702305, "train/model_loss_std": 5.508907936988993, "train/model_opt_grad_norm": 16.12511143785842, "train/model_opt_grad_steps": 3521.0, "train/model_opt_loss": 1617.1940268658577, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 156.25, "train/policy_entropy_mag": 0.8680733670579627, "train/policy_entropy_max": 0.735406443159631, "train/policy_entropy_mean": -0.5456223601990557, "train/policy_entropy_min": -0.8661087041205549, "train/policy_entropy_std": 0.232047549270569, "train/policy_logprob_mag": 7.565745302971373, "train/policy_logprob_max": 1.3574831358929897, "train/policy_logprob_mean": 0.5448780655860901, "train/policy_logprob_min": -7.565745302971373, "train/policy_logprob_std": 0.7468110931680557, "train/policy_randomness_mag": 0.7031457703164283, "train/policy_randomness_max": 0.7031457703164283, "train/policy_randomness_mean": 0.14680208186519908, "train/policy_randomness_min": 0.007616614288789161, "train/policy_randomness_std": 0.10077696626490736, "train/post_ent_mag": 30.109723882472263, "train/post_ent_max": 30.109723882472263, "train/post_ent_mean": 22.511755436024767, "train/post_ent_min": 15.560085174885202, "train/post_ent_std": 2.2334150075912476, "train/prior_ent_mag": 48.36625987925428, "train/prior_ent_max": 48.36625987925428, "train/prior_ent_mean": 26.04296574694045, "train/prior_ent_min": 18.385505270450672, "train/prior_ent_std": 3.7206714001107724, "train/rep_loss_mean": 2.819280796862663, "train/rep_loss_std": 4.0101241761065545, "train/reward_avg": 0.4976265886996655, "train/reward_loss_mean": 0.7146081620074333, "train/reward_loss_std": 0.3928310300441498, "train/reward_max_data": 1.9120019674301147, "train/reward_max_pred": 1.7332583944848243, "train/reward_neg_acc": 0.8518052126498933, "train/reward_neg_loss": 0.5329873847200516, "train/reward_pos_acc": 0.985172524097118, "train/reward_pos_loss": 0.7651453284507103, "train/reward_pred": 0.4915464786773032, "train/reward_rate": 0.7774684175531915, "stats/mean_log_entropy": -0.3452039286494255, "replay/size": 8581.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.2768721205919916e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0773128258447992e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3615005016327, "timer/env.step_count": 236.0, "timer/env.step_total": 5.7582972049713135, "timer/env.step_frac": 0.019171222661207916, "timer/env.step_avg": 0.02439956442784455, "timer/env.step_min": 0.020746231079101562, "timer/env.step_max": 0.02950739860534668, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.17818927764892578, "timer/replay.add_frac": 0.0005932493923200293, "timer/replay.add_avg": 0.00018916059198399764, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0015647411346435547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01450800895690918, "timer/logger.write_frac": 4.830182607517743e-05, "timer/logger.write_avg": 0.01450800895690918, "timer/logger.write_min": 0.01450800895690918, "timer/logger.write_max": 0.01450800895690918, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7214033603668213, "timer/agent.policy_frac": 0.0024017837144973907, "timer/agent.policy_avg": 0.003056793899859412, "timer/agent.policy_min": 0.002789735794067383, "timer/agent.policy_max": 0.0041713714599609375, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03412818908691406, "timer/dataset_frac": 0.00011362371352492478, "timer/dataset_avg": 7.245900018453092e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00013065338134765625, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.3833658695221, "timer/agent.train_frac": 0.9767675463717672, "timer/agent.train_avg": 0.622894619680514, "timer/agent.train_min": 0.5726017951965332, "timer/agent.train_max": 0.6604676246643066, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15705156326293945, "timer/agent.report_frac": 0.0005228751454518911, "timer/agent.report_avg": 0.15705156326293945, "timer/agent.report_min": 0.15705156326293945, "timer/agent.report_max": 0.15705156326293945, "fps": 6.272373352798954}
+{"step": 19554, "train/action_mag": 1.8641323865728174, "train/action_max": 1.8481248794717993, "train/action_mean": 0.10636597050433146, "train/action_min": -1.6696789137860562, "train/action_std": 0.9009069775013213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05700872628454198, "train/actor_opt_grad_steps": 4000.0, "train/actor_opt_loss": -1698.2320452750998, "train/adv_mag": 3.010512866872422, "train/adv_max": 3.010512866872422, "train/adv_mean": 0.17260558522762137, "train/adv_min": -0.4658131199948331, "train/adv_std": 0.21151210145747407, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.0027931464119706e-06, "train/cont_loss_std": 5.974120359071017e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.0027931464119706e-06, "train/cont_pred": 0.9999989955983264, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.9349845318084067, "train/dyn_loss_std": 4.1393943999676, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.632567788058139, "train/extr_critic_critic_opt_grad_steps": 4000.0, "train/extr_critic_critic_opt_loss": 15414.371426196809, "train/extr_critic_mag": 49.72218582477976, "train/extr_critic_max": 49.72218582477976, "train/extr_critic_mean": 44.20721386848612, "train/extr_critic_min": 6.935792385263646, "train/extr_critic_std": 3.582694297141217, "train/extr_return_normed_mag": 1.5359720777957997, "train/extr_return_normed_max": 1.5359720777957997, "train/extr_return_normed_mean": 0.5170052393953851, "train/extr_return_normed_min": -0.4359436481398471, "train/extr_return_normed_std": 0.3098592273098357, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 65.74690741681039, "train/extr_return_raw_max": 65.74690741681039, "train/extr_return_raw_mean": 47.325406825288816, "train/extr_return_raw_min": 30.02312786021131, "train/extr_return_raw_std": 5.620095668955052, "train/extr_reward_mag": 1.8122267621628783, "train/extr_reward_max": 1.8122267621628783, "train/extr_reward_mean": 0.5576520581194695, "train/extr_reward_min": 0.004275119051020196, "train/extr_reward_std": 0.47667712607282275, "train/image_loss_mean": 7.3467272697611055, "train/image_loss_std": 3.8865149325512824, "train/model_loss_mean": 9.80150262345659, "train/model_loss_std": 5.034569770731824, "train/model_opt_grad_norm": 16.77990176829886, "train/model_opt_grad_steps": 3991.0, "train/model_opt_loss": 2236.739208464927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 229.38829787234042, "train/policy_entropy_mag": 0.8688946759447138, "train/policy_entropy_max": 0.6347933196006937, "train/policy_entropy_mean": -0.5829665572085279, "train/policy_entropy_min": -0.8688946759447138, "train/policy_entropy_std": 0.21475116845141065, "train/policy_logprob_mag": 7.444586185698814, "train/policy_logprob_max": 1.3611220933021384, "train/policy_logprob_mean": 0.5824014658623553, "train/policy_logprob_min": -7.444586185698814, "train/policy_logprob_std": 0.7395723360650083, "train/policy_randomness_mag": 0.6594500478277815, "train/policy_randomness_max": 0.6594500478277815, "train/policy_randomness_mean": 0.1305837019326839, "train/policy_randomness_min": 0.006406682137241389, "train/policy_randomness_std": 0.09326524319166833, "train/post_ent_mag": 29.120122544308927, "train/post_ent_max": 29.120122544308927, "train/post_ent_mean": 21.62606612672197, "train/post_ent_min": 15.232986064667397, "train/post_ent_std": 2.1927554708846073, "train/prior_ent_mag": 48.32600824883644, "train/prior_ent_max": 48.32600824883644, "train/prior_ent_mean": 25.17268769284512, "train/prior_ent_min": 18.1343682471742, "train/prior_ent_std": 3.796695278045979, "train/rep_loss_mean": 2.9349845318084067, "train/rep_loss_std": 4.1393943999676, "train/reward_avg": 0.5407893727434442, "train/reward_loss_mean": 0.6937838222118135, "train/reward_loss_std": 0.36969388736055253, "train/reward_max_data": 1.9345104719730133, "train/reward_max_pred": 1.7718991218729223, "train/reward_neg_acc": 0.8662761779541664, "train/reward_neg_loss": 0.5150321176711549, "train/reward_pos_acc": 0.9897354359322406, "train/reward_pos_loss": 0.7420650682550796, "train/reward_pred": 0.5366945590110536, "train/reward_rate": 0.7869223736702128, "replay/size": 9525.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2841712175789527e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0731045977543976e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06441497802734, "timer/env.step_count": 236.0, "timer/env.step_total": 5.777978897094727, "timer/env.step_frac": 0.01925579511825095, "timer/env.step_avg": 0.024482961428367485, "timer/env.step_min": 0.020392894744873047, "timer/env.step_max": 0.029251575469970703, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18187236785888672, "timer/replay.add_frac": 0.0006061110840890766, "timer/replay.add_avg": 0.0001926614066301766, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0025238990783691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018222570419311523, "timer/logger.write_frac": 6.072886190335464e-05, "timer/logger.write_avg": 0.018222570419311523, "timer/logger.write_min": 0.018222570419311523, "timer/logger.write_max": 0.018222570419311523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7165248394012451, "timer/agent.policy_frac": 0.0023879034088521082, "timer/agent.policy_avg": 0.0030361222008527334, "timer/agent.policy_min": 0.0027441978454589844, "timer/agent.policy_max": 0.0034613609313964844, "timer/dataset_count": 472.0, "timer/dataset_total": 0.034569501876831055, "timer/dataset_frac": 0.0001152069360819158, "timer/dataset_avg": 7.324047007803189e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.0901389122009, "timer/agent.train_frac": 0.9767574036850151, "timer/agent.train_avg": 0.6209536841360189, "timer/agent.train_min": 0.5666327476501465, "timer/agent.train_max": 0.6615941524505615, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14831256866455078, "timer/agent.report_frac": 0.0004942691011042119, "timer/agent.report_avg": 0.14831256866455078, "timer/agent.report_min": 0.14831256866455078, "timer/agent.report_max": 0.14831256866455078, "fps": 6.2919558339045745}
+{"step": 20040, "episode/length": 500.0, "episode/score": 325.75830119635793, "episode/sum_abs_reward": 325.75830119635793, "episode/reward_rate": 0.5049900199600799}
+{"step": 21442, "train/action_mag": 1.945708620051543, "train/action_max": 1.9296745484073956, "train/action_mean": 0.23273485526442528, "train/action_min": -1.682452380657196, "train/action_std": 0.8570156941811243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.06161045120097697, "train/actor_opt_grad_steps": 4475.0, "train/actor_opt_loss": -1344.694056193034, "train/adv_mag": 2.867054507136345, "train/adv_max": 2.867054507136345, "train/adv_mean": 0.13668597939734659, "train/adv_min": -0.4202807918190956, "train/adv_std": 0.1785811766361197, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.368396157085954e-07, "train/cont_loss_std": 3.715761719054929e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.368396157085954e-07, "train/cont_pred": 0.999999380360047, "train/cont_rate": 1.0, "train/dyn_loss_mean": 3.044275109966596, "train/dyn_loss_std": 4.209619348247846, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4916842405994733, "train/extr_critic_critic_opt_grad_steps": 4475.0, "train/extr_critic_critic_opt_loss": 14277.939697265625, "train/extr_critic_mag": 59.69176093737284, "train/extr_critic_max": 59.69176093737284, "train/extr_critic_mean": 51.72409470876058, "train/extr_critic_min": 8.368120839198431, "train/extr_critic_std": 4.611289377013843, "train/extr_return_normed_mag": 1.447235256433487, "train/extr_return_normed_max": 1.447235256433487, "train/extr_return_normed_mean": 0.5026832763105631, "train/extr_return_normed_min": -0.3963871601348122, "train/extr_return_normed_std": 0.3020655003686746, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 75.37905406951904, "train/extr_return_raw_max": 75.37905406951904, "train/extr_return_raw_mean": 54.717730124791466, "train/extr_return_raw_min": 35.02791448434194, "train/extr_return_raw_std": 6.6181588272253675, "train/extr_reward_mag": 1.8246304790178935, "train/extr_reward_max": 1.8246304790178935, "train/extr_reward_mean": 0.5538141417006651, "train/extr_reward_min": 0.003615349531173706, "train/extr_reward_std": 0.48212477068106335, "train/image_loss_mean": 6.628788789113362, "train/image_loss_std": 3.265649984280268, "train/model_loss_mean": 9.126112073659897, "train/model_loss_std": 4.619792928298314, "train/model_opt_grad_norm": 18.439597765604656, "train/model_opt_grad_steps": 4466.0, "train/model_opt_loss": 2851.9100240071616, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 312.5, "train/policy_entropy_mag": 0.8739513282974561, "train/policy_entropy_max": 0.7537027734021345, "train/policy_entropy_mean": -0.5379612483084202, "train/policy_entropy_min": -0.8669451475143433, "train/policy_entropy_std": 0.2410678512727221, "train/policy_logprob_mag": 7.87015700340271, "train/policy_logprob_max": 1.3577218130230904, "train/policy_logprob_mean": 0.5367204149564108, "train/policy_logprob_min": -7.87015700340271, "train/policy_logprob_std": 0.7477672124902407, "train/policy_randomness_mag": 0.7110917729636034, "train/policy_randomness_max": 0.7110917729636034, "train/policy_randomness_mean": 0.1501292549073696, "train/policy_randomness_min": 0.007253351538868931, "train/policy_randomness_std": 0.10469443382074435, "train/post_ent_mag": 28.698355714480083, "train/post_ent_max": 28.698355714480083, "train/post_ent_mean": 20.964282671610516, "train/post_ent_min": 14.728619118531546, "train/post_ent_std": 2.203949679931005, "train/prior_ent_mag": 48.486202239990234, "train/prior_ent_max": 48.486202239990234, "train/prior_ent_mean": 24.65780472755432, "train/prior_ent_min": 18.02016492684682, "train/prior_ent_std": 3.9205056577920914, "train/rep_loss_mean": 3.044275109966596, "train/rep_loss_std": 4.209619348247846, "train/reward_avg": 0.5434823619822661, "train/reward_loss_mean": 0.6707575793067614, "train/reward_loss_std": 0.3491350747644901, "train/reward_max_data": 1.9493347058693569, "train/reward_max_pred": 1.784818505247434, "train/reward_neg_acc": 0.8682635550697645, "train/reward_neg_loss": 0.4998973837743203, "train/reward_pos_acc": 0.9898929595947266, "train/reward_pos_loss": 0.7187842838466167, "train/reward_pred": 0.5409944616258144, "train/reward_rate": 0.7749430338541666, "stats/mean_log_entropy": -0.5080869123339653, "replay/size": 10469.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3470591690580725e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0862378245693142e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.294634103775, "timer/env.step_count": 236.0, "timer/env.step_total": 5.847805500030518, "timer/env.step_frac": 0.019473559750686882, "timer/env.step_avg": 0.02477883686453609, "timer/env.step_min": 0.020252704620361328, "timer/env.step_max": 0.04105806350708008, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18761444091796875, "timer/replay.add_frac": 0.0006247678766485499, "timer/replay.add_avg": 0.00019874411114191606, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.003664731979370117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.016546010971069336, "timer/logger.write_frac": 5.5099256170363034e-05, "timer/logger.write_avg": 0.016546010971069336, "timer/logger.write_min": 0.016546010971069336, "timer/logger.write_max": 0.016546010971069336, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033593177795410156, "timer/checkpoint.save_frac": 1.1186739282128203e-06, "timer/checkpoint.save_avg": 0.00033593177795410156, "timer/checkpoint.save_min": 0.00033593177795410156, "timer/checkpoint.save_max": 0.00033593177795410156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08629369735717773, "timer/agent.save_frac": 0.00028736343429751923, "timer/agent.save_avg": 0.08629369735717773, "timer/agent.save_min": 0.08629369735717773, "timer/agent.save_max": 0.08629369735717773, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00013113021850585938, "timer/replay.save_frac": 4.3667186693900013e-07, "timer/replay.save_avg": 0.00013113021850585938, "timer/replay.save_min": 0.00013113021850585938, "timer/replay.save_max": 0.00013113021850585938, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7779190540313721, "timer/agent.policy_frac": 0.002590519328968565, "timer/agent.policy_avg": 0.003296267178099034, "timer/agent.policy_min": 0.002757549285888672, "timer/agent.policy_max": 0.05949211120605469, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0347440242767334, "timer/dataset_frac": 0.00011569978391530849, "timer/dataset_avg": 7.361022092528262e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014090538024902344, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.16056394577026, "timer/agent.train_frac": 0.9762430981182988, "timer/agent.train_avg": 0.621102889715615, "timer/agent.train_min": 0.5700039863586426, "timer/agent.train_max": 0.6619493961334229, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1569960117340088, "timer/agent.report_frac": 0.0005228065836159914, "timer/agent.report_avg": 0.1569960117340088, "timer/agent.report_min": 0.1569960117340088, "timer/agent.report_max": 0.1569960117340088, "fps": 6.287089529740913}
+{"step": 23330, "train/action_mag": 1.9574498166429235, "train/action_max": 1.9269817839277552, "train/action_mean": 0.26066843975097576, "train/action_min": -1.773980863550876, "train/action_std": 0.8371635104747529, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05783918230457509, "train/actor_opt_grad_steps": 4950.0, "train/actor_opt_loss": -1228.835663491107, "train/adv_mag": 2.776661583717833, "train/adv_max": 2.776661583717833, "train/adv_mean": 0.12491806786745152, "train/adv_min": -0.458137240498624, "train/adv_std": 0.16263833166436947, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.895824438432449e-07, "train/cont_loss_std": 2.800151973365536e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.895824438432449e-07, "train/cont_pred": 0.9999995510628883, "train/cont_rate": 1.0, "train/dyn_loss_mean": 3.1336064287956726, "train/dyn_loss_std": 4.4204165580424855, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.52089542657771, "train/extr_critic_critic_opt_grad_steps": 4950.0, "train/extr_critic_critic_opt_loss": 13504.63401761968, "train/extr_critic_mag": 70.18139064058344, "train/extr_critic_max": 70.18139064058344, "train/extr_critic_mean": 60.18559208322078, "train/extr_critic_min": 13.803835848544507, "train/extr_critic_std": 5.59341930835805, "train/extr_return_normed_mag": 1.4163751399263422, "train/extr_return_normed_max": 1.4163751399263422, "train/extr_return_normed_mean": 0.4926063932002859, "train/extr_return_normed_min": -0.3921565066309685, "train/extr_return_normed_std": 0.30615625990198014, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 85.94237291051986, "train/extr_return_raw_max": 85.94237291051986, "train/extr_return_raw_mean": 63.249998620215884, "train/extr_return_raw_min": 41.509664007957944, "train/extr_return_raw_std": 7.518791076984812, "train/extr_reward_mag": 1.835873192929207, "train/extr_reward_max": 1.835873192929207, "train/extr_reward_mean": 0.5734646713480036, "train/extr_reward_min": 0.0037330845569042447, "train/extr_reward_std": 0.49486202635663623, "train/image_loss_mean": 5.64068715115811, "train/image_loss_std": 2.8346819065986795, "train/model_loss_mean": 8.185084728484458, "train/model_loss_std": 4.473870049131677, "train/model_opt_grad_norm": 16.47616859192544, "train/model_opt_grad_steps": 4941.0, "train/model_opt_loss": 3441.5561990940823, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 425.531914893617, "train/policy_entropy_mag": 0.8687229803267945, "train/policy_entropy_max": 0.7431292229510368, "train/policy_entropy_mean": -0.5333198245535505, "train/policy_entropy_min": -0.8625879465265477, "train/policy_entropy_std": 0.24456814660670909, "train/policy_logprob_mag": 7.6292616255739905, "train/policy_logprob_max": 1.3533795361823224, "train/policy_logprob_mean": 0.5321541561725291, "train/policy_logprob_min": -7.6292616255739905, "train/policy_logprob_std": 0.7515701550118467, "train/policy_randomness_mag": 0.706499732555227, "train/policy_randomness_max": 0.706499732555227, "train/policy_randomness_mean": 0.15214500433587014, "train/policy_randomness_min": 0.009145659731423601, "train/policy_randomness_std": 0.106214591480316, "train/post_ent_mag": 28.569305703995077, "train/post_ent_max": 28.569305703995077, "train/post_ent_mean": 20.541135016908036, "train/post_ent_min": 14.62728025558147, "train/post_ent_std": 2.211399753042992, "train/prior_ent_mag": 48.59133659525121, "train/prior_ent_max": 48.59133659525121, "train/prior_ent_mean": 24.20484916200029, "train/prior_ent_min": 18.046975764822452, "train/prior_ent_std": 4.023146436569538, "train/rep_loss_mean": 3.1336064287956726, "train/rep_loss_std": 4.4204165580424855, "train/reward_avg": 0.5646369197267167, "train/reward_loss_mean": 0.6642333636892602, "train/reward_loss_std": 0.3399292788607009, "train/reward_max_data": 1.9694845093057511, "train/reward_max_pred": 1.8086211377001824, "train/reward_neg_acc": 0.8799107201555942, "train/reward_neg_loss": 0.4909642072434121, "train/reward_pos_acc": 0.9919666204046695, "train/reward_pos_loss": 0.7113171752462996, "train/reward_pred": 0.5604054350802239, "train/reward_rate": 0.781977227393617, "replay/size": 11413.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.290990393040544e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.091825760017007e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2065715789795, "timer/env.step_count": 236.0, "timer/env.step_total": 5.790724515914917, "timer/env.step_frac": 0.019289133097446107, "timer/env.step_avg": 0.02453696828777507, "timer/env.step_min": 0.020743370056152344, "timer/env.step_max": 0.030806779861450195, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1807389259338379, "timer/replay.add_frac": 0.0006020485327260346, "timer/replay.add_avg": 0.00019146072662482827, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0012218952178955078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025217294692993164, "timer/logger.write_frac": 8.399980906600142e-05, "timer/logger.write_avg": 0.025217294692993164, "timer/logger.write_min": 0.025217294692993164, "timer/logger.write_max": 0.025217294692993164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7176086902618408, "timer/agent.policy_frac": 0.002390383016892252, "timer/agent.policy_avg": 0.003040714789245088, "timer/agent.policy_min": 0.002727985382080078, "timer/agent.policy_max": 0.003805398941040039, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03436923027038574, "timer/dataset_frac": 0.00011448526955827732, "timer/dataset_avg": 7.281616582708843e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00015163421630859375, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.20767092704773, "timer/agent.train_frac": 0.9766863842616101, "timer/agent.train_avg": 0.6212026926420503, "timer/agent.train_min": 0.5703167915344238, "timer/agent.train_max": 0.660484790802002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1532447338104248, "timer/agent.report_frac": 0.0005104642879881416, "timer/agent.report_avg": 0.1532447338104248, "timer/agent.report_min": 0.1532447338104248, "timer/agent.report_max": 0.1532447338104248, "fps": 6.288944875608707}
+{"step": 24048, "episode/length": 500.0, "episode/score": 316.38762768462766, "episode/sum_abs_reward": 316.38762768462766, "episode/reward_rate": 0.5508982035928144}
+{"step": 25218, "train/action_mag": 1.9932210978041305, "train/action_max": 1.9339698984267863, "train/action_mean": 0.2796390659393782, "train/action_min": -1.8374492843100365, "train/action_std": 0.8311927673664499, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05659663855553942, "train/actor_opt_grad_steps": 5420.0, "train/actor_opt_loss": -1070.1346617353724, "train/adv_mag": 2.382562363401372, "train/adv_max": 2.382562363401372, "train/adv_mean": 0.10880699991545778, "train/adv_min": -0.5643619444776089, "train/adv_std": 0.14680427423817047, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.1376713592335556e-07, "train/cont_loss_std": 1.7135463793992847e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.1376713592335556e-07, "train/cont_pred": 0.999999776799628, "train/cont_rate": 1.0, "train/dyn_loss_mean": 3.13859353674219, "train/dyn_loss_std": 4.559293929566729, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.48988382296359284, "train/extr_critic_critic_opt_grad_steps": 5420.0, "train/extr_critic_critic_opt_loss": 12841.474671708776, "train/extr_critic_mag": 81.7079909304355, "train/extr_critic_max": 81.7079909304355, "train/extr_critic_mean": 68.88049933250915, "train/extr_critic_min": 27.279159342989008, "train/extr_critic_std": 6.945083009435775, "train/extr_return_normed_mag": 1.3965300346942657, "train/extr_return_normed_max": 1.3934933276886636, "train/extr_return_normed_mean": 0.4800568349817966, "train/extr_return_normed_min": -0.5346634664988898, "train/extr_return_normed_std": 0.3189116034736025, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 97.13930073190242, "train/extr_return_raw_max": 97.13930073190242, "train/extr_return_raw_mean": 71.88132574203166, "train/extr_return_raw_min": 43.82081267174254, "train/extr_return_raw_std": 8.832215217833824, "train/extr_reward_mag": 1.8408705731655688, "train/extr_reward_max": 1.8408705731655688, "train/extr_reward_mean": 0.5814194501714504, "train/extr_reward_min": 0.0034354519336781604, "train/extr_reward_std": 0.5114485450247501, "train/image_loss_mean": 4.780162471406003, "train/image_loss_std": 2.462761255020791, "train/model_loss_mean": 7.315321272992073, "train/model_loss_std": 4.331190078816515, "train/model_opt_grad_norm": 16.771355689840114, "train/model_opt_grad_steps": 5411.0, "train/model_opt_loss": 4572.075803066822, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 0.8768087270412039, "train/policy_entropy_max": 0.7874923602063605, "train/policy_entropy_mean": -0.5235684748659742, "train/policy_entropy_min": -0.8613571182210394, "train/policy_entropy_std": 0.25383330310912844, "train/policy_logprob_mag": 7.523734934786533, "train/policy_logprob_max": 1.3512027618732858, "train/policy_logprob_mean": 0.5230832518415248, "train/policy_logprob_min": -7.523734934786533, "train/policy_logprob_std": 0.7529915419030697, "train/policy_randomness_mag": 0.7257663975370691, "train/policy_randomness_max": 0.7257663975370691, "train/policy_randomness_mean": 0.15637995809950728, "train/policy_randomness_min": 0.00968020177505752, "train/policy_randomness_std": 0.11023839800915819, "train/post_ent_mag": 28.510565006986578, "train/post_ent_max": 28.510565006986578, "train/post_ent_mean": 20.27887571618912, "train/post_ent_min": 14.130588206839054, "train/post_ent_std": 2.192046746294549, "train/prior_ent_mag": 48.67902934297602, "train/prior_ent_max": 48.67902934297602, "train/prior_ent_mean": 23.93664384395518, "train/prior_ent_min": 17.715174776442506, "train/prior_ent_std": 4.103900021695076, "train/rep_loss_mean": 3.13859353674219, "train/rep_loss_std": 4.559293929566729, "train/reward_avg": 0.5740321088344493, "train/reward_loss_mean": 0.6520025184813966, "train/reward_loss_std": 0.32914894819259644, "train/reward_max_data": 1.9712089807429212, "train/reward_max_pred": 1.8146771167186981, "train/reward_neg_acc": 0.8814946869586376, "train/reward_neg_loss": 0.4954238026700121, "train/reward_pos_acc": 0.9911567327824045, "train/reward_pos_loss": 0.6960972496803771, "train/reward_pred": 0.5715468215181473, "train/reward_rate": 0.7730842752659575, "stats/mean_log_entropy": -0.5237559378147125, "replay/size": 12357.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3043761819095933e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0769877393366928e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02885246276855, "timer/env.step_count": 236.0, "timer/env.step_total": 5.709320068359375, "timer/env.step_frac": 0.01902923676004747, "timer/env.step_avg": 0.024192034187963455, "timer/env.step_min": 0.019980430603027344, "timer/env.step_max": 0.030052900314331055, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1799008846282959, "timer/replay.add_frac": 0.0005996119478229859, "timer/replay.add_avg": 0.00019057297100455074, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.001940011978149414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017894268035888672, "timer/logger.write_frac": 5.964182407460037e-05, "timer/logger.write_avg": 0.017894268035888672, "timer/logger.write_min": 0.017894268035888672, "timer/logger.write_max": 0.017894268035888672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7124185562133789, "timer/agent.policy_frac": 0.0023745001534536915, "timer/agent.policy_avg": 0.0030187226958194023, "timer/agent.policy_min": 0.0027472972869873047, "timer/agent.policy_max": 0.0035054683685302734, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03466391563415527, "timer/dataset_frac": 0.00011553527385655958, "timer/dataset_avg": 7.344049922490525e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.11895847320557, "timer/agent.train_frac": 0.9769692350157542, "timer/agent.train_avg": 0.621014742527978, "timer/agent.train_min": 0.569502592086792, "timer/agent.train_max": 0.6610927581787109, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14371609687805176, "timer/agent.report_frac": 0.0004790075877648664, "timer/agent.report_avg": 0.14371609687805176, "timer/agent.report_min": 0.14371609687805176, "timer/agent.report_max": 0.14371609687805176, "fps": 6.29266147962691}
+{"step": 27102, "train/action_mag": 2.0380186654151755, "train/action_max": 1.9466662762012887, "train/action_mean": 0.2616941056194458, "train/action_min": -1.890687331240228, "train/action_std": 0.8140657924591227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07015174421224188, "train/actor_opt_grad_steps": 5890.0, "train/actor_opt_loss": -1010.791154577377, "train/adv_mag": 2.152665561818062, "train/adv_max": 2.152665561818062, "train/adv_mean": 0.1027862141106991, "train/adv_min": -0.6896219643506598, "train/adv_std": 0.14229641141409569, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.489952586809987e-07, "train/cont_loss_std": 1.3281865502459038e-07, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.489952586809987e-07, "train/cont_pred": 0.9999998693770551, "train/cont_rate": 1.0, "train/dyn_loss_mean": 3.1057615280151367, "train/dyn_loss_std": 4.61749309174558, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.48337220543242515, "train/extr_critic_critic_opt_grad_steps": 5890.0, "train/extr_critic_critic_opt_loss": 12573.13746675532, "train/extr_critic_mag": 94.09305117992645, "train/extr_critic_max": 94.09305117992645, "train/extr_critic_mean": 79.29590265801612, "train/extr_critic_min": 31.861619908758936, "train/extr_critic_std": 7.714776515960693, "train/extr_return_normed_mag": 1.345559500633402, "train/extr_return_normed_max": 1.33795225366633, "train/extr_return_normed_mean": 0.4852612639995331, "train/extr_return_normed_min": -0.5859488803853697, "train/extr_return_normed_std": 0.31027592877124216, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 109.2559157026575, "train/extr_return_raw_max": 109.2559157026575, "train/extr_return_raw_mean": 82.50134959119431, "train/extr_return_raw_min": 48.8072501243429, "train/extr_return_raw_std": 9.719556625853194, "train/extr_reward_mag": 1.8640502564450527, "train/extr_reward_max": 1.8640502564450527, "train/extr_reward_mean": 0.6324822801224729, "train/extr_reward_min": 0.003242038665933812, "train/extr_reward_std": 0.5398026153128198, "train/image_loss_mean": 4.151187531491543, "train/image_loss_std": 2.152233768016734, "train/model_loss_mean": 6.6584700117719935, "train/model_loss_std": 4.176830088838618, "train/model_opt_grad_norm": 16.81350705978718, "train/model_opt_grad_steps": 5881.0, "train/model_opt_loss": 5116.42705909242, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 771.2765957446809, "train/policy_entropy_mag": 0.8828085584843413, "train/policy_entropy_max": 0.8109697344455313, "train/policy_entropy_mean": -0.5319103960027086, "train/policy_entropy_min": -0.8651834979970404, "train/policy_entropy_std": 0.26125342731780193, "train/policy_logprob_mag": 7.498356220570017, "train/policy_logprob_max": 1.3565922518993945, "train/policy_logprob_mean": 0.5322064598824116, "train/policy_logprob_min": -7.498356220570017, "train/policy_logprob_std": 0.7519088057761497, "train/policy_randomness_mag": 0.7359624936225566, "train/policy_randomness_max": 0.7359624936225566, "train/policy_randomness_mean": 0.15275710757742536, "train/policy_randomness_min": 0.008018426161180151, "train/policy_randomness_std": 0.11346091853177294, "train/post_ent_mag": 28.94271217508519, "train/post_ent_max": 28.94271217508519, "train/post_ent_mean": 20.294115107110205, "train/post_ent_min": 14.00813780439661, "train/post_ent_std": 2.2291288680218635, "train/prior_ent_mag": 48.52660986717711, "train/prior_ent_max": 48.52660986717711, "train/prior_ent_mean": 23.8179805836779, "train/prior_ent_min": 17.66620942379566, "train/prior_ent_std": 4.08588460658459, "train/rep_loss_mean": 3.1057615280151367, "train/rep_loss_std": 4.61749309174558, "train/reward_avg": 0.6219771136628821, "train/reward_loss_mean": 0.6438253965783627, "train/reward_loss_std": 0.3185236723499095, "train/reward_max_data": 1.9703967140076009, "train/reward_max_pred": 1.8323700783100534, "train/reward_neg_acc": 0.899330992647942, "train/reward_neg_loss": 0.4761394573018906, "train/reward_pos_acc": 0.992850808387107, "train/reward_pos_loss": 0.6860256651614575, "train/reward_pred": 0.6208565311228975, "train/reward_rate": 0.7959192154255319, "replay/size": 13299.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3315413489210125e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0773761004146243e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.059668302536, "timer/env.step_count": 235.0, "timer/env.step_total": 5.8210608959198, "timer/env.step_frac": 0.01939967783357908, "timer/env.step_avg": 0.024770471897531062, "timer/env.step_min": 0.02072739601135254, "timer/env.step_max": 0.03611469268798828, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.1810588836669922, "timer/replay.add_frac": 0.000603409597468591, "timer/replay.add_avg": 0.00019220688287366474, "timer/replay.add_min": 3.8623809814453125e-05, "timer/replay.add_max": 0.0019021034240722656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01710367202758789, "timer/logger.write_frac": 5.700090293488915e-05, "timer/logger.write_avg": 0.01710367202758789, "timer/logger.write_min": 0.01710367202758789, "timer/logger.write_max": 0.01710367202758789, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037026405334472656, "timer/checkpoint.save_frac": 1.2339680818796574e-06, "timer/checkpoint.save_avg": 0.00037026405334472656, "timer/checkpoint.save_min": 0.00037026405334472656, "timer/checkpoint.save_max": 0.00037026405334472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.160614013671875, "timer/agent.save_frac": 0.0005352735826860126, "timer/agent.save_avg": 0.160614013671875, "timer/agent.save_min": 0.160614013671875, "timer/agent.save_max": 0.160614013671875, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.058547973632812e-05, "timer/replay.save_frac": 2.685648497587406e-07, "timer/replay.save_avg": 8.058547973632812e-05, "timer/replay.save_min": 8.058547973632812e-05, "timer/replay.save_max": 8.058547973632812e-05, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.8556883335113525, "timer/agent.policy_frac": 0.002851727252622976, "timer/agent.policy_avg": 0.0036412269511121383, "timer/agent.policy_min": 0.0027778148651123047, "timer/agent.policy_max": 0.13196015357971191, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03506731986999512, "timer/dataset_frac": 0.00011686782188480723, "timer/dataset_avg": 7.445290842886437e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 471.0, "timer/agent.train_total": 292.9024124145508, "timer/agent.train_frac": 0.9761472245554544, "timer/agent.train_avg": 0.6218734870797257, "timer/agent.train_min": 0.5690767765045166, "timer/agent.train_max": 0.8349533081054688, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14984750747680664, "timer/agent.report_frac": 0.000499392365273571, "timer/agent.report_avg": 0.14984750747680664, "timer/agent.report_min": 0.14984750747680664, "timer/agent.report_max": 0.14984750747680664, "fps": 6.278681447715351}
+{"step": 28056, "episode/length": 500.0, "episode/score": 331.66844722552923, "episode/sum_abs_reward": 331.66844722552923, "episode/reward_rate": 0.5708582834331337}
+{"step": 28990, "train/action_mag": 1.8519366497689105, "train/action_max": 1.7944263219833374, "train/action_mean": 0.24267873021357872, "train/action_min": -1.7463951237658237, "train/action_std": 0.7791646630206006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07608561661649257, "train/actor_opt_grad_steps": 6360.0, "train/actor_opt_loss": -936.0889360143783, "train/adv_mag": 1.8840097797677873, "train/adv_max": 1.8840097797677873, "train/adv_mean": 0.09522807709080108, "train/adv_min": -0.6717843223125377, "train/adv_std": 0.13411510719897898, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.6789269080434563e-07, "train/cont_loss_std": 8.678507686483422e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.6789269080434563e-07, "train/cont_pred": 0.9999998871316301, "train/cont_rate": 1.0, "train/dyn_loss_mean": 3.005760243598451, "train/dyn_loss_std": 4.6628056688511625, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.45326365371967886, "train/extr_critic_critic_opt_grad_steps": 6360.0, "train/extr_critic_critic_opt_loss": 12185.97483793218, "train/extr_critic_mag": 105.20054577766581, "train/extr_critic_max": 105.20054577766581, "train/extr_critic_mean": 90.12138042044133, "train/extr_critic_min": 42.174299930004366, "train/extr_critic_std": 8.279506510876594, "train/extr_return_normed_mag": 1.2926554121869676, "train/extr_return_normed_max": 1.2926554121869676, "train/extr_return_normed_mean": 0.4977206245381781, "train/extr_return_normed_min": -0.6386547764327298, "train/extr_return_normed_std": 0.3052464561893585, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 120.35201036169174, "train/extr_return_raw_max": 120.35201036169174, "train/extr_return_raw_mean": 93.35483421163356, "train/extr_return_raw_min": 54.75780109649009, "train/extr_return_raw_std": 10.365723031632443, "train/extr_reward_mag": 1.8908211221086217, "train/extr_reward_max": 1.8908211221086217, "train/extr_reward_mean": 0.6745126304474283, "train/extr_reward_min": 0.003243055749446788, "train/extr_reward_std": 0.5638894330947957, "train/image_loss_mean": 3.521206429664125, "train/image_loss_std": 1.9590207566606237, "train/model_loss_mean": 5.970259220042127, "train/model_loss_std": 4.123456843355869, "train/model_opt_grad_norm": 16.97010774815336, "train/model_opt_grad_steps": 6351.0, "train/model_opt_loss": 7462.824021359707, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 0.873391790592924, "train/policy_entropy_max": 0.6652851738828294, "train/policy_entropy_mean": -0.6176658247379546, "train/policy_entropy_min": -0.871478631141338, "train/policy_entropy_std": 0.23072356461210453, "train/policy_logprob_mag": 7.0819385000999935, "train/policy_logprob_max": 1.3644964847158878, "train/policy_logprob_mean": 0.6178554638903192, "train/policy_logprob_min": -7.0819385000999935, "train/policy_logprob_std": 0.7413970650510585, "train/policy_randomness_mag": 0.6726924929213016, "train/policy_randomness_max": 0.6726924929213016, "train/policy_randomness_mean": 0.1155140017892452, "train/policy_randomness_min": 0.005284484674004798, "train/policy_randomness_std": 0.10020196786586275, "train/post_ent_mag": 28.92524479805155, "train/post_ent_max": 28.92524479805155, "train/post_ent_mean": 20.642681771136346, "train/post_ent_min": 13.845189906181172, "train/post_ent_std": 2.2722905595251857, "train/prior_ent_mag": 48.68805507903404, "train/prior_ent_max": 48.68805507903404, "train/prior_ent_mean": 23.93179946250104, "train/prior_ent_min": 17.717143484886655, "train/prior_ent_std": 4.069495530838662, "train/rep_loss_mean": 3.005760243598451, "train/rep_loss_std": 4.6628056688511625, "train/reward_avg": 0.6745587523947371, "train/reward_loss_mean": 0.6455966766844404, "train/reward_loss_std": 0.3143950922692076, "train/reward_max_data": 1.9851046394794545, "train/reward_max_pred": 1.8651739384265655, "train/reward_neg_acc": 0.8986630071984961, "train/reward_neg_loss": 0.4802581078194557, "train/reward_pos_acc": 0.994036392962679, "train/reward_pos_loss": 0.6818851257892365, "train/reward_pred": 0.6688116357681599, "train/reward_rate": 0.8164685837765957, "stats/mean_log_entropy": -0.5726071298122406, "replay/size": 14243.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2763417939008293e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0768298880528595e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2929835319519, "timer/env.step_count": 236.0, "timer/env.step_total": 5.848428010940552, "timer/env.step_frac": 0.019475739799688876, "timer/env.step_avg": 0.024781474622629456, "timer/env.step_min": 0.020774364471435547, "timer/env.step_max": 0.036261796951293945, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.17687749862670898, "timer/replay.add_frac": 0.0005890164217169888, "timer/replay.add_avg": 0.00018737023159609003, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.000659942626953125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01703190803527832, "timer/logger.write_frac": 5.671763567351578e-05, "timer/logger.write_avg": 0.01703190803527832, "timer/logger.write_min": 0.01703190803527832, "timer/logger.write_max": 0.01703190803527832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7214653491973877, "timer/agent.policy_frac": 0.0024025381502815633, "timer/agent.policy_avg": 0.0030570565643957106, "timer/agent.policy_min": 0.0027618408203125, "timer/agent.policy_max": 0.004853963851928711, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03456687927246094, "timer/dataset_frac": 0.00011511051262635624, "timer/dataset_avg": 7.323491371284097e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.0001456737518310547, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.224650144577, "timer/agent.train_frac": 0.9764618763174572, "timer/agent.train_avg": 0.6212386655605445, "timer/agent.train_min": 0.5715780258178711, "timer/agent.train_max": 0.6628284454345703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15761661529541016, "timer/agent.report_frac": 0.0005248761174556027, "timer/agent.report_avg": 0.15761661529541016, "timer/agent.report_min": 0.15761661529541016, "timer/agent.report_max": 0.15761661529541016, "fps": 6.287125539152146}
+{"step": 30878, "train/action_mag": 1.8385255162914593, "train/action_max": 1.789916289349397, "train/action_mean": 0.23032046670171744, "train/action_min": -1.682970757285754, "train/action_std": 0.7406823461254438, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08728331509822358, "train/actor_opt_grad_steps": 6835.0, "train/actor_opt_loss": -847.5630035400391, "train/adv_mag": 1.6691470245520275, "train/adv_max": 1.6691470245520275, "train/adv_mean": 0.08626398964164157, "train/adv_min": -0.5751541362454494, "train/adv_std": 0.12547853961586952, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.2650834039599582e-07, "train/cont_loss_std": 6.315760196310786e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.2650834039599582e-07, "train/cont_pred": 0.9999999267359575, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.947646756966909, "train/dyn_loss_std": 4.651920735836029, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4378647431731224, "train/extr_critic_critic_opt_grad_steps": 6835.0, "train/extr_critic_critic_opt_loss": 11551.858968098959, "train/extr_critic_mag": 120.22884702682495, "train/extr_critic_max": 120.22884702682495, "train/extr_critic_mean": 101.17471536000569, "train/extr_critic_min": 50.97958548863729, "train/extr_critic_std": 9.453877637783686, "train/extr_return_normed_mag": 1.3124278336763382, "train/extr_return_normed_max": 1.311451109747092, "train/extr_return_normed_mean": 0.46703480929136276, "train/extr_return_normed_min": -0.5565154277464899, "train/extr_return_normed_std": 0.31306214071810246, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 135.07175731658936, "train/extr_return_raw_max": 135.07175731658936, "train/extr_return_raw_mean": 104.313489596049, "train/extr_return_raw_min": 67.07604765892029, "train/extr_return_raw_std": 11.398058493932089, "train/extr_reward_mag": 1.9279465973377228, "train/extr_reward_max": 1.9279465973377228, "train/extr_reward_mean": 0.6838851508994898, "train/extr_reward_min": 0.003253549337387085, "train/extr_reward_std": 0.5771588260928789, "train/image_loss_mean": 3.0759587635596595, "train/image_loss_std": 1.8018137564261754, "train/model_loss_mean": 5.475285867849986, "train/model_loss_std": 4.038796290755272, "train/model_opt_grad_norm": 17.929152131080627, "train/model_opt_grad_steps": 6826.0, "train/model_opt_loss": 7673.476470947266, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1406.25, "train/policy_entropy_mag": 0.8794557377696037, "train/policy_entropy_max": 0.681533757597208, "train/policy_entropy_mean": -0.6729311533272266, "train/policy_entropy_min": -0.8763319353262583, "train/policy_entropy_std": 0.22649946374197802, "train/policy_logprob_mag": 7.169798086086909, "train/policy_logprob_max": 1.372152919570605, "train/policy_logprob_mean": 0.6733532423774401, "train/policy_logprob_min": -7.169798086086909, "train/policy_logprob_std": 0.7417785016198953, "train/policy_randomness_mag": 0.6797491572797298, "train/policy_randomness_max": 0.6797491572797298, "train/policy_randomness_mean": 0.09151257388293743, "train/policy_randomness_min": 0.003176721564765709, "train/policy_randomness_std": 0.09836746379733086, "train/post_ent_mag": 29.24666166305542, "train/post_ent_max": 29.24666166305542, "train/post_ent_mean": 20.9734369913737, "train/post_ent_min": 13.957282423973083, "train/post_ent_std": 2.3692166805267334, "train/prior_ent_mag": 48.98642794291178, "train/prior_ent_max": 48.98642794291178, "train/prior_ent_mean": 24.253235856691997, "train/prior_ent_min": 17.92834460735321, "train/prior_ent_std": 4.07213868200779, "train/rep_loss_mean": 2.947646756966909, "train/rep_loss_std": 4.651920735836029, "train/reward_avg": 0.680297240614891, "train/reward_loss_mean": 0.6307389885187149, "train/reward_loss_std": 0.31700043597569066, "train/reward_max_data": 1.984205496807893, "train/reward_max_pred": 1.903212731083234, "train/reward_neg_acc": 0.9051168411970139, "train/reward_neg_loss": 0.46485434224208194, "train/reward_pos_acc": 0.9929392486810684, "train/reward_pos_loss": 0.6683078271647295, "train/reward_pred": 0.6754669646422068, "train/reward_rate": 0.8111979166666666, "replay/size": 15187.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.298567254664534e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0761037721472271e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0606391429901, "timer/env.step_count": 236.0, "timer/env.step_total": 5.8277037143707275, "timer/env.step_frac": 0.01942175331964686, "timer/env.step_avg": 0.024693659806655624, "timer/env.step_min": 0.020827770233154297, "timer/env.step_max": 0.029512643814086914, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1774442195892334, "timer/replay.add_frac": 0.0005913611998429244, "timer/replay.add_avg": 0.0001879705715987642, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0004248619079589844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01989293098449707, "timer/logger.write_frac": 6.629636943157128e-05, "timer/logger.write_avg": 0.01989293098449707, "timer/logger.write_min": 0.01989293098449707, "timer/logger.write_max": 0.01989293098449707, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7198305130004883, "timer/agent.policy_frac": 0.0023989501423992573, "timer/agent.policy_avg": 0.00305012929237495, "timer/agent.policy_min": 0.002771139144897461, "timer/agent.policy_max": 0.004110813140869141, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03480219841003418, "timer/dataset_frac": 0.00011598388415566106, "timer/dataset_avg": 7.373347120769953e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.03994035720825, "timer/agent.train_frac": 0.976602400082084, "timer/agent.train_avg": 0.6208473312652717, "timer/agent.train_min": 0.5723707675933838, "timer/agent.train_max": 0.6623129844665527, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14353108406066895, "timer/agent.report_frac": 0.00047834025972420536, "timer/agent.report_avg": 0.14353108406066895, "timer/agent.report_min": 0.14353108406066895, "timer/agent.report_max": 0.14353108406066895, "fps": 6.29200204779848}
+{"step": 32064, "episode/length": 500.0, "episode/score": 510.6056216080324, "episode/sum_abs_reward": 510.6056216080324, "episode/reward_rate": 0.7105788423153693}
+{"step": 32766, "train/action_mag": 1.8946605667154839, "train/action_max": 1.8488432524052072, "train/action_mean": 0.25819219125712173, "train/action_min": -1.6947623110832053, "train/action_std": 0.7175800660823254, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09507386156536163, "train/actor_opt_grad_steps": 7310.0, "train/actor_opt_loss": -766.2538237876081, "train/adv_mag": 1.6477955338802743, "train/adv_max": 1.6382986497371754, "train/adv_mean": 0.07802817209603939, "train/adv_min": -0.6809934292067873, "train/adv_std": 0.12472070880392765, "train/cont_avg": 1.0, "train/cont_loss_mean": 9.028296249609528e-08, "train/cont_loss_std": 4.407591129898584e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.028296249609528e-08, "train/cont_pred": 0.9999999987318161, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.9221860652274274, "train/dyn_loss_std": 4.8243050270892205, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.414285069450419, "train/extr_critic_critic_opt_grad_steps": 7310.0, "train/extr_critic_critic_opt_loss": 11366.435671542553, "train/extr_critic_mag": 133.73087018601439, "train/extr_critic_max": 133.73087018601439, "train/extr_critic_mean": 111.76721645923371, "train/extr_critic_min": 48.19929514540003, "train/extr_critic_std": 10.627908940010883, "train/extr_return_normed_mag": 1.3752990326982864, "train/extr_return_normed_max": 1.3199517346443015, "train/extr_return_normed_mean": 0.45473111436722125, "train/extr_return_normed_min": -0.7093779247432471, "train/extr_return_normed_std": 0.3208921215635665, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 148.545522811565, "train/extr_return_raw_max": 148.545522811565, "train/extr_return_raw_mean": 114.79689204439204, "train/extr_return_raw_min": 69.05797305005662, "train/extr_return_raw_std": 12.503051798394386, "train/extr_reward_mag": 1.9626860872228096, "train/extr_reward_max": 1.9626860872228096, "train/extr_reward_mean": 0.6895455248812412, "train/extr_reward_min": 0.0031497148757285262, "train/extr_reward_std": 0.5825223035000741, "train/image_loss_mean": 2.7561737983784775, "train/image_loss_std": 1.7475260369321133, "train/model_loss_mean": 5.110891595799872, "train/model_loss_std": 4.143611847086156, "train/model_opt_grad_norm": 17.30664671228287, "train/model_opt_grad_steps": 7301.0, "train/model_opt_loss": 12777.228972739362, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 0.8794326414453223, "train/policy_entropy_max": 0.7305399217504136, "train/policy_entropy_mean": -0.7026453195734227, "train/policy_entropy_min": -0.8788863724850594, "train/policy_entropy_std": 0.22150523897181165, "train/policy_logprob_mag": 7.111243146531125, "train/policy_logprob_max": 1.3756588037977828, "train/policy_logprob_mean": 0.7032558968726624, "train/policy_logprob_min": -7.111243146531125, "train/policy_logprob_std": 0.7401926568213929, "train/policy_randomness_mag": 0.7010322682400967, "train/policy_randomness_max": 0.7010322682400967, "train/policy_randomness_mean": 0.07860787846940628, "train/policy_randomness_min": 0.002067343668734774, "train/policy_randomness_std": 0.09619849809306733, "train/post_ent_mag": 29.43350909618621, "train/post_ent_max": 29.43350909618621, "train/post_ent_mean": 21.215291287036653, "train/post_ent_min": 13.600689705382003, "train/post_ent_std": 2.477430110282086, "train/prior_ent_mag": 49.09855651855469, "train/prior_ent_max": 49.09855651855469, "train/prior_ent_mean": 24.4787866308334, "train/prior_ent_min": 17.90872825460231, "train/prior_ent_std": 4.118572351780344, "train/rep_loss_mean": 2.9221860652274274, "train/rep_loss_std": 4.8243050270892205, "train/reward_avg": 0.6747437588712002, "train/reward_loss_mean": 0.601406122775788, "train/reward_loss_std": 0.2896177258263243, "train/reward_max_data": 1.986705648138168, "train/reward_max_pred": 1.9448705429726458, "train/reward_neg_acc": 0.9057548388521722, "train/reward_neg_loss": 0.4672145184050215, "train/reward_pos_acc": 0.9943496483437558, "train/reward_pos_loss": 0.631138691242705, "train/reward_pred": 0.6730998602319271, "train/reward_rate": 0.8155959109042553, "stats/mean_log_entropy": -0.7014203667640686, "replay/size": 16131.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2841712175789527e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.082291542473486e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35439825057983, "timer/env.step_count": 236.0, "timer/env.step_total": 5.748335123062134, "timer/env.step_frac": 0.01913850823075482, "timer/env.step_avg": 0.024357352216364973, "timer/env.step_min": 0.018983840942382812, "timer/env.step_max": 0.03250932693481445, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18203020095825195, "timer/replay.add_frac": 0.0006060513913513186, "timer/replay.add_avg": 0.00019282860271001265, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0014834403991699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019400358200073242, "timer/logger.write_frac": 6.459155688437064e-05, "timer/logger.write_avg": 0.019400358200073242, "timer/logger.write_min": 0.019400358200073242, "timer/logger.write_max": 0.019400358200073242, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002911090850830078, "timer/checkpoint.save_frac": 9.692186522940181e-07, "timer/checkpoint.save_avg": 0.0002911090850830078, "timer/checkpoint.save_min": 0.0002911090850830078, "timer/checkpoint.save_max": 0.0002911090850830078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07685208320617676, "timer/agent.save_frac": 0.00025587134283301075, "timer/agent.save_avg": 0.07685208320617676, "timer/agent.save_min": 0.07685208320617676, "timer/agent.save_max": 0.07685208320617676, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010919570922851562, "timer/replay.save_frac": 3.635562184690093e-07, "timer/replay.save_avg": 0.00010919570922851562, "timer/replay.save_min": 0.00010919570922851562, "timer/replay.save_max": 0.00010919570922851562, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7658505439758301, "timer/agent.policy_frac": 0.002549822970585887, "timer/agent.policy_avg": 0.0032451294236263985, "timer/agent.policy_min": 0.0027265548706054688, "timer/agent.policy_max": 0.04620838165283203, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0348813533782959, "timer/dataset_frac": 0.00011613398565648791, "timer/dataset_avg": 7.390117241164385e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.34514117240906, "timer/agent.train_frac": 0.9766633779328808, "timer/agent.train_avg": 0.6214939431618836, "timer/agent.train_min": 0.5712447166442871, "timer/agent.train_max": 0.662522554397583, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14872121810913086, "timer/agent.report_frac": 0.0004951524564826104, "timer/agent.report_avg": 0.14872121810913086, "timer/agent.report_min": 0.14872121810913086, "timer/agent.report_max": 0.14872121810913086, "fps": 6.285870060571859}
+{"step": 34654, "train/action_mag": 1.9259200451221872, "train/action_max": 1.8656001649004348, "train/action_mean": 0.1879046133105108, "train/action_min": -1.7171138702554907, "train/action_std": 0.7177044127849822, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08469265612198952, "train/actor_opt_grad_steps": 7780.0, "train/actor_opt_loss": -693.624992208278, "train/adv_mag": 1.5478066231342071, "train/adv_max": 1.5390334687334426, "train/adv_mean": 0.07066622733118687, "train/adv_min": -0.7027392824913593, "train/adv_std": 0.11613928558344537, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.754352288821115e-08, "train/cont_loss_std": 3.188976814059022e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.754352288821115e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.8453354429691395, "train/dyn_loss_std": 4.7896383062322085, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3781931672958618, "train/extr_critic_critic_opt_grad_steps": 7780.0, "train/extr_critic_critic_opt_loss": 11231.84431100399, "train/extr_critic_mag": 145.99186057232797, "train/extr_critic_max": 145.99186057232797, "train/extr_critic_mean": 122.54799213815242, "train/extr_critic_min": 61.33287588078925, "train/extr_critic_std": 11.525883512294039, "train/extr_return_normed_mag": 1.2737460288595646, "train/extr_return_normed_max": 1.2487989106076829, "train/extr_return_normed_mean": 0.4322464218799104, "train/extr_return_normed_min": -0.6664724320054372, "train/extr_return_normed_std": 0.3139403392659857, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 160.79361383965676, "train/extr_return_raw_max": 160.79361383965676, "train/extr_return_raw_mean": 125.5935561809134, "train/extr_return_raw_min": 78.29522790300085, "train/extr_return_raw_std": 13.534627163663824, "train/extr_reward_mag": 1.9764230403494327, "train/extr_reward_max": 1.9764230403494327, "train/extr_reward_mean": 0.7163589241656851, "train/extr_reward_min": 0.00313195269158546, "train/extr_reward_std": 0.6017715036869049, "train/image_loss_mean": 2.4489469477470887, "train/image_loss_std": 1.688959464113763, "train/model_loss_mean": 4.7468976974487305, "train/model_loss_std": 4.121322428926509, "train/model_opt_grad_norm": 17.192586797348998, "train/model_opt_grad_steps": 7771.0, "train/model_opt_loss": 11867.24428607048, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 0.8902094769985118, "train/policy_entropy_max": 0.7313770639135483, "train/policy_entropy_mean": -0.7167746919266721, "train/policy_entropy_min": -0.878682073126448, "train/policy_entropy_std": 0.20773296882497502, "train/policy_logprob_mag": 7.5359271232118, "train/policy_logprob_max": 1.3758180116085297, "train/policy_logprob_mean": 0.716953178669544, "train/policy_logprob_min": -7.5359271232118, "train/policy_logprob_std": 0.7360914349555969, "train/policy_randomness_mag": 0.701395832477732, "train/policy_randomness_max": 0.701395832477732, "train/policy_randomness_mean": 0.0724715714917538, "train/policy_randomness_min": 0.0021560697375420245, "train/policy_randomness_std": 0.09021727796247665, "train/post_ent_mag": 29.941774043631046, "train/post_ent_max": 29.941774043631046, "train/post_ent_mean": 21.817473310105346, "train/post_ent_min": 13.637575332154618, "train/post_ent_std": 2.6727863524822477, "train/prior_ent_mag": 49.23960300202065, "train/prior_ent_max": 49.23960300202065, "train/prior_ent_mean": 24.923945690723176, "train/prior_ent_min": 18.305126920659493, "train/prior_ent_std": 4.106326037264885, "train/rep_loss_mean": 2.8453354429691395, "train/rep_loss_std": 4.7896383062322085, "train/reward_avg": 0.6967284273593983, "train/reward_loss_mean": 0.5907494590637532, "train/reward_loss_std": 0.29955230906922764, "train/reward_max_data": 1.9874567351442702, "train/reward_max_pred": 1.9671985240692789, "train/reward_neg_acc": 0.9003567746345033, "train/reward_neg_loss": 0.47168933964790183, "train/reward_pos_acc": 0.9948016024650411, "train/reward_pos_loss": 0.6161148269125756, "train/reward_pred": 0.6968111820677494, "train/reward_rate": 0.8211436170212766, "replay/size": 17075.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.295283947960805e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0686531915503033e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5571868419647, "timer/env.step_count": 236.0, "timer/env.step_total": 5.783981800079346, "timer/env.step_frac": 0.0192441972885533, "timer/env.step_avg": 0.024508397457963328, "timer/env.step_min": 0.019402503967285156, "timer/env.step_max": 0.031118154525756836, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18039464950561523, "timer/replay.add_frac": 0.0006002007518138907, "timer/replay.add_avg": 0.0001910960270186602, "timer/replay.add_min": 3.933906555175781e-05, "timer/replay.add_max": 0.002131223678588867, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019420862197875977, "timer/logger.write_frac": 6.461619634498247e-05, "timer/logger.write_avg": 0.019420862197875977, "timer/logger.write_min": 0.019420862197875977, "timer/logger.write_max": 0.019420862197875977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7209413051605225, "timer/agent.policy_frac": 0.0023986826358592416, "timer/agent.policy_avg": 0.003054836038815773, "timer/agent.policy_min": 0.0027332305908203125, "timer/agent.policy_max": 0.004991769790649414, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03453254699707031, "timer/dataset_frac": 0.00011489509653691226, "timer/dataset_avg": 7.316217584125066e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00013303756713867188, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.5655572414398, "timer/agent.train_frac": 0.9767377726881602, "timer/agent.train_avg": 0.6219609263589827, "timer/agent.train_min": 0.5709593296051025, "timer/agent.train_max": 0.6606030464172363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1566627025604248, "timer/agent.report_frac": 0.0005212409132735171, "timer/agent.report_avg": 0.1566627025604248, "timer/agent.report_min": 0.1566627025604248, "timer/agent.report_max": 0.1566627025604248, "fps": 6.28164009558426}
+{"step": 36072, "episode/length": 500.0, "episode/score": 577.0152615876577, "episode/sum_abs_reward": 577.0152615876577, "episode/reward_rate": 0.7485029940119761}
+{"step": 36542, "train/action_mag": 1.9239044240180483, "train/action_max": 1.898561695788769, "train/action_mean": 0.17213244247745643, "train/action_min": -1.6294632313099313, "train/action_std": 0.7092034804060104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.06898080842926148, "train/actor_opt_grad_steps": 8250.0, "train/actor_opt_loss": -612.8145498722157, "train/adv_mag": 1.4791478172261665, "train/adv_max": 1.4791478172261665, "train/adv_mean": 0.06244894798765791, "train/adv_min": -0.462016224861145, "train/adv_std": 0.09419797868170637, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.1593699638826676e-08, "train/cont_loss_std": 2.3633909467766318e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.1593699638826676e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.8650213302449976, "train/dyn_loss_std": 4.913605842184513, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.36068391736517563, "train/extr_critic_critic_opt_grad_steps": 8250.0, "train/extr_critic_critic_opt_loss": 10692.969061668882, "train/extr_critic_mag": 164.97536484738615, "train/extr_critic_max": 164.97536484738615, "train/extr_critic_mean": 134.99161984058136, "train/extr_critic_min": 78.38642217757854, "train/extr_critic_std": 13.279363490165547, "train/extr_return_normed_mag": 1.3000874519348145, "train/extr_return_normed_max": 1.2965200556085466, "train/extr_return_normed_mean": 0.47047219124246153, "train/extr_return_normed_min": -0.37913377791583697, "train/extr_return_normed_std": 0.309788481986269, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 178.61272738842254, "train/extr_return_raw_max": 178.61272738842254, "train/extr_return_raw_mean": 138.0368843890251, "train/extr_return_raw_min": 96.44486301503282, "train/extr_return_raw_std": 15.200838575971888, "train/extr_reward_mag": 1.9780090159558235, "train/extr_reward_max": 1.9780090159558235, "train/extr_reward_mean": 0.7446671280455082, "train/extr_reward_min": 0.0027488546168550534, "train/extr_reward_std": 0.6100126016647258, "train/image_loss_mean": 2.281689055422519, "train/image_loss_std": 1.6046391294357625, "train/model_loss_mean": 4.576011865697009, "train/model_loss_std": 4.160448840323915, "train/model_opt_grad_norm": 16.643474517984593, "train/model_opt_grad_steps": 8241.0, "train/model_opt_loss": 22880.059507978724, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.8850232312019836, "train/policy_entropy_max": 0.7158291694965768, "train/policy_entropy_mean": -0.715200718413008, "train/policy_entropy_min": -0.8789122332917884, "train/policy_entropy_std": 0.21513676040984214, "train/policy_logprob_mag": 7.3467441822620145, "train/policy_logprob_max": 1.3764624646369448, "train/policy_logprob_mean": 0.7151312016426249, "train/policy_logprob_min": -7.3467441822620145, "train/policy_logprob_std": 0.7403022596176635, "train/policy_randomness_mag": 0.6946434727374543, "train/policy_randomness_max": 0.6946434727374543, "train/policy_randomness_mean": 0.07315513626375098, "train/policy_randomness_min": 0.002056112438638477, "train/policy_randomness_std": 0.09343270267894928, "train/post_ent_mag": 30.68130740713566, "train/post_ent_max": 30.68130740713566, "train/post_ent_mean": 22.42998078528871, "train/post_ent_min": 13.652747620927526, "train/post_ent_std": 2.893715543949858, "train/prior_ent_mag": 49.404261893414436, "train/prior_ent_max": 49.404261893414436, "train/prior_ent_mean": 25.517328627566073, "train/prior_ent_min": 18.50138871213223, "train/prior_ent_std": 4.135234508108585, "train/rep_loss_mean": 2.8650213302449976, "train/rep_loss_std": 4.913605842184513, "train/reward_avg": 0.7240431549701285, "train/reward_loss_mean": 0.5753100324184337, "train/reward_loss_std": 0.2838020572002898, "train/reward_max_data": 1.9912942546479246, "train/reward_max_pred": 1.968310832977295, "train/reward_neg_acc": 0.91635196513318, "train/reward_neg_loss": 0.4614739386325187, "train/reward_pos_acc": 0.9947870107407265, "train/reward_pos_loss": 0.598885603407596, "train/reward_pred": 0.7232376882370483, "train/reward_rate": 0.8309507978723404, "stats/mean_log_entropy": -0.8010512888431549, "replay/size": 18019.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3250862703485e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0685900510367702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.128746509552, "timer/env.step_count": 236.0, "timer/env.step_total": 5.802320957183838, "timer/env.step_frac": 0.019332773100423993, "timer/env.step_avg": 0.024586105750778974, "timer/env.step_min": 0.02004218101501465, "timer/env.step_max": 0.03147172927856445, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.17806529998779297, "timer/replay.add_frac": 0.0005932963838308164, "timer/replay.add_avg": 0.00018862849574978067, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.000461578369140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020294666290283203, "timer/logger.write_frac": 6.761986822757513e-05, "timer/logger.write_avg": 0.020294666290283203, "timer/logger.write_min": 0.020294666290283203, "timer/logger.write_max": 0.020294666290283203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7198081016540527, "timer/agent.policy_frac": 0.002398331082994557, "timer/agent.policy_avg": 0.003050034329042596, "timer/agent.policy_min": 0.0027713775634765625, "timer/agent.policy_max": 0.004434823989868164, "timer/dataset_count": 472.0, "timer/dataset_total": 0.034777164459228516, "timer/dataset_frac": 0.00011587415355470352, "timer/dataset_avg": 7.36804331763316e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.1066327095032, "timer/agent.train_frac": 0.9766029949422877, "timer/agent.train_avg": 0.6209886286218288, "timer/agent.train_min": 0.5717732906341553, "timer/agent.train_max": 0.6612906455993652, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15487337112426758, "timer/agent.report_frac": 0.0005160231164972347, "timer/agent.report_avg": 0.15487337112426758, "timer/agent.report_min": 0.15487337112426758, "timer/agent.report_max": 0.15487337112426758, "fps": 6.290568223568236}
+{"step": 38430, "train/action_mag": 1.9096230040205286, "train/action_max": 1.835920587499091, "train/action_mean": 0.1800153384262577, "train/action_min": -1.6594241299527757, "train/action_std": 0.6943795820499988, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08017049967608553, "train/actor_opt_grad_steps": 8720.0, "train/actor_opt_loss": -574.5149516653507, "train/adv_mag": 1.9142981437926596, "train/adv_max": 1.9142981437926596, "train/adv_mean": 0.05855073898713639, "train/adv_min": -0.5197712522237858, "train/adv_std": 0.10211946656729312, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.796519267284372e-08, "train/cont_loss_std": 1.6147616085867353e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.796519267284372e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.771025581562773, "train/dyn_loss_std": 4.860259401037338, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3758029195856541, "train/extr_critic_critic_opt_grad_steps": 8720.0, "train/extr_critic_critic_opt_loss": 10746.46033494016, "train/extr_critic_mag": 174.42564619348406, "train/extr_critic_max": 174.42564619348406, "train/extr_critic_mean": 146.78178048641124, "train/extr_critic_min": 68.06945427427901, "train/extr_critic_std": 14.17500268652084, "train/extr_return_normed_mag": 1.2040574499901304, "train/extr_return_normed_max": 1.203660843220163, "train/extr_return_normed_mean": 0.48590538983649395, "train/extr_return_normed_min": -0.41158720906427565, "train/extr_return_normed_std": 0.29782963242936644, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 188.48700600482047, "train/extr_return_raw_max": 188.48700600482047, "train/extr_return_raw_mean": 149.92685975419715, "train/extr_return_raw_min": 101.70662664859853, "train/extr_return_raw_std": 16.000358682997682, "train/extr_reward_mag": 1.980144515950629, "train/extr_reward_max": 1.980144515950629, "train/extr_reward_mean": 0.7694701958209911, "train/extr_reward_min": 0.0024098360792119454, "train/extr_reward_std": 0.6281638747834145, "train/image_loss_mean": 2.066745986329748, "train/image_loss_std": 1.4926980125143172, "train/model_loss_mean": 4.294947193024006, "train/model_loss_std": 4.056021639641295, "train/model_opt_grad_norm": 18.033233439668695, "train/model_opt_grad_steps": 8711.0, "train/model_opt_loss": 21474.73587101064, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9072055334740496, "train/policy_entropy_max": 0.7648163032024464, "train/policy_entropy_mean": -0.728125699022983, "train/policy_entropy_min": -0.8789145515320149, "train/policy_entropy_std": 0.20587955003089092, "train/policy_logprob_mag": 7.234328756941125, "train/policy_logprob_max": 1.376869039332613, "train/policy_logprob_mean": 0.7278282464818752, "train/policy_logprob_min": -7.234328756941125, "train/policy_logprob_std": 0.7381655497753874, "train/policy_randomness_mag": 0.7159183114132983, "train/policy_randomness_max": 0.7159183114132983, "train/policy_randomness_mean": 0.06754189285826176, "train/policy_randomness_min": 0.0020551056541661, "train/policy_randomness_std": 0.08941234782972235, "train/post_ent_mag": 31.685290275736058, "train/post_ent_max": 31.685290275736058, "train/post_ent_mean": 23.154014019255943, "train/post_ent_min": 13.660433383698159, "train/post_ent_std": 3.094190577243237, "train/prior_ent_mag": 49.49096119657476, "train/prior_ent_max": 49.49096119657476, "train/prior_ent_mean": 26.081205165132562, "train/prior_ent_min": 18.749096241403134, "train/prior_ent_std": 4.182499236248909, "train/rep_loss_mean": 2.771025581562773, "train/rep_loss_std": 4.860259401037338, "train/reward_avg": 0.7499716966710193, "train/reward_loss_mean": 0.5655858884466455, "train/reward_loss_std": 0.2768834309375032, "train/reward_max_data": 1.981239564875339, "train/reward_max_pred": 1.9638715449799882, "train/reward_neg_acc": 0.9135904147269878, "train/reward_neg_loss": 0.46503813976937153, "train/reward_pos_acc": 0.9948832773147746, "train/reward_pos_loss": 0.5859286011533534, "train/reward_pred": 0.7491758085311727, "train/reward_rate": 0.8245927526595744, "replay/size": 18963.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.315994036399712e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0900893958948426e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18445324897766, "timer/env.step_count": 236.0, "timer/env.step_total": 5.762366771697998, "timer/env.step_frac": 0.019196086637167053, "timer/env.step_avg": 0.024416808354652535, "timer/env.step_min": 0.019836902618408203, "timer/env.step_max": 0.02888202667236328, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18145489692687988, "timer/replay.add_frac": 0.0006044779966548712, "timer/replay.add_avg": 0.0001922191704733897, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0025076866149902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0206911563873291, "timer/logger.write_frac": 6.892814122578005e-05, "timer/logger.write_avg": 0.0206911563873291, "timer/logger.write_min": 0.0206911563873291, "timer/logger.write_max": 0.0206911563873291, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024628639221191406, "timer/checkpoint.save_frac": 8.204501916947721e-07, "timer/checkpoint.save_avg": 0.00024628639221191406, "timer/checkpoint.save_min": 0.00024628639221191406, "timer/checkpoint.save_max": 0.00024628639221191406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07960629463195801, "timer/agent.save_frac": 0.0002651912641389569, "timer/agent.save_avg": 0.07960629463195801, "timer/agent.save_min": 0.07960629463195801, "timer/agent.save_max": 0.07960629463195801, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010514259338378906, "timer/replay.save_frac": 3.502599559897333e-07, "timer/replay.save_avg": 0.00010514259338378906, "timer/replay.save_min": 0.00010514259338378906, "timer/replay.save_max": 0.00010514259338378906, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7679464817047119, "timer/agent.policy_frac": 0.002558248681412442, "timer/agent.policy_avg": 0.0032540105156979317, "timer/agent.policy_min": 0.002753019332885742, "timer/agent.policy_max": 0.0527806282043457, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0346064567565918, "timer/dataset_frac": 0.00011528397417666618, "timer/dataset_avg": 7.331876431481313e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.1668071746826, "timer/agent.train_frac": 0.9766222201105315, "timer/agent.train_avg": 0.621116116895514, "timer/agent.train_min": 0.571265459060669, "timer/agent.train_max": 0.6653804779052734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15401220321655273, "timer/agent.report_frac": 0.0005130585596610248, "timer/agent.report_avg": 0.15401220321655273, "timer/agent.report_min": 0.15401220321655273, "timer/agent.report_max": 0.15401220321655273, "fps": 6.289434321633265}
+{"step": 40080, "episode/length": 500.0, "episode/score": 584.318119122705, "episode/sum_abs_reward": 584.318119122705, "episode/reward_rate": 0.7664670658682635}
+{"step": 40318, "train/action_mag": 2.0673104698459306, "train/action_max": 1.8650621473789215, "train/action_mean": 0.1249350497382693, "train/action_min": -1.9011100108424823, "train/action_std": 0.6954699717462063, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08383946632966399, "train/actor_opt_grad_steps": 9195.0, "train/actor_opt_loss": -527.359966913859, "train/adv_mag": 2.0368016933401427, "train/adv_max": 2.0368016933401427, "train/adv_mean": 0.053745700822522245, "train/adv_min": -0.4538905080407858, "train/adv_std": 0.0974233285523951, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.1078872031464755e-08, "train/cont_loss_std": 1.3500818981289816e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.1078872031464755e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.7542499949534736, "train/dyn_loss_std": 4.870255500078201, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4228737245624264, "train/extr_critic_critic_opt_grad_steps": 9195.0, "train/extr_critic_critic_opt_loss": 10465.803588867188, "train/extr_critic_mag": 193.80281035105386, "train/extr_critic_max": 193.80281035105386, "train/extr_critic_mean": 159.5757761001587, "train/extr_critic_min": 75.02204704284668, "train/extr_critic_std": 16.11767892042796, "train/extr_return_normed_mag": 1.2587214683492978, "train/extr_return_normed_max": 1.2587214683492978, "train/extr_return_normed_mean": 0.5124554870029291, "train/extr_return_normed_min": -0.29314480535686016, "train/extr_return_normed_std": 0.3015567023927967, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 206.59527715047201, "train/extr_return_raw_max": 206.59527715047201, "train/extr_return_raw_mean": 162.72733116149902, "train/extr_return_raw_min": 115.31073570251465, "train/extr_return_raw_std": 17.713019887606304, "train/extr_reward_mag": 1.982414240638415, "train/extr_reward_max": 1.982414240638415, "train/extr_reward_mean": 0.8028119926651319, "train/extr_reward_min": 0.002209194004535675, "train/extr_reward_std": 0.6358973371485869, "train/image_loss_mean": 1.9754084472854931, "train/image_loss_std": 1.497727024058501, "train/model_loss_mean": 4.188229079047839, "train/model_loss_std": 4.071660205721855, "train/model_opt_grad_norm": 17.376818617184956, "train/model_opt_grad_steps": 9185.208333333334, "train/model_opt_loss": 22737.524332682293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5416.666666666667, "train/policy_entropy_mag": 0.9631546288728714, "train/policy_entropy_max": 0.8884678656856219, "train/policy_entropy_mean": -0.7145274405678114, "train/policy_entropy_min": -0.8789362063010534, "train/policy_entropy_std": 0.23678984803458056, "train/policy_logprob_mag": 7.8604760865370435, "train/policy_logprob_max": 1.376523698369662, "train/policy_logprob_mean": 0.7145440715054671, "train/policy_logprob_min": -7.8604760865370435, "train/policy_logprob_std": 0.7491885734101137, "train/policy_randomness_mag": 0.7696195008854071, "train/policy_randomness_max": 0.7696195008854071, "train/policy_randomness_mean": 0.07344753846215706, "train/policy_randomness_min": 0.002045701109940031, "train/policy_randomness_std": 0.10283652087673545, "train/post_ent_mag": 32.71906820933024, "train/post_ent_max": 32.71906820933024, "train/post_ent_mean": 23.68292995293935, "train/post_ent_min": 13.809317370255789, "train/post_ent_std": 3.313975597421328, "train/prior_ent_mag": 49.78517246246338, "train/prior_ent_max": 49.78517246246338, "train/prior_ent_mean": 26.693482438723247, "train/prior_ent_min": 19.08141764005025, "train/prior_ent_std": 4.2041767835617065, "train/rep_loss_mean": 2.7542499949534736, "train/rep_loss_std": 4.870255500078201, "train/reward_avg": 0.7868057998518149, "train/reward_loss_mean": 0.5602706919113795, "train/reward_loss_std": 0.2653475080927213, "train/reward_max_data": 1.99082463234663, "train/reward_max_pred": 1.974075456460317, "train/reward_neg_acc": 0.923090269168218, "train/reward_neg_loss": 0.4552010657886664, "train/reward_pos_acc": 0.9961239844560623, "train/reward_pos_loss": 0.5793503349026045, "train/reward_pred": 0.7858869582414627, "train/reward_rate": 0.84478759765625, "stats/mean_log_entropy": -0.8216601610183716, "replay/size": 19907.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.33089519759356e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0794817896212562e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.54872488975525, "timer/env.step_count": 236.0, "timer/env.step_total": 5.789558172225952, "timer/env.step_frac": 0.01926329307951524, "timer/env.step_avg": 0.024532026153499798, "timer/env.step_min": 0.021214962005615234, "timer/env.step_max": 0.02972579002380371, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18145132064819336, "timer/replay.add_frac": 0.0006037334569120259, "timer/replay.add_avg": 0.00019221538204257772, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0013580322265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01795339584350586, "timer/logger.write_frac": 5.973539182404242e-05, "timer/logger.write_avg": 0.01795339584350586, "timer/logger.write_min": 0.01795339584350586, "timer/logger.write_max": 0.01795339584350586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7223827838897705, "timer/agent.policy_frac": 0.002403546327320966, "timer/agent.policy_avg": 0.003060943999532926, "timer/agent.policy_min": 0.002811431884765625, "timer/agent.policy_max": 0.0047032833099365234, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03506159782409668, "timer/dataset_frac": 0.0001166586144624559, "timer/dataset_avg": 7.428304623749297e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.5335531234741, "timer/agent.train_frac": 0.9766587871272641, "timer/agent.train_avg": 0.6218931210243096, "timer/agent.train_min": 0.5680999755859375, "timer/agent.train_max": 0.6615617275238037, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15679216384887695, "timer/agent.report_frac": 0.0005216863385675322, "timer/agent.report_avg": 0.15679216384887695, "timer/agent.report_min": 0.15679216384887695, "timer/agent.report_max": 0.15679216384887695, "fps": 6.281777986065636}
+{"step": 42206, "train/action_mag": 2.2369675610927824, "train/action_max": 2.163289227384202, "train/action_mean": 0.1536485511472726, "train/action_min": -1.7594534665980237, "train/action_std": 0.6928629862501267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09748939488162385, "train/actor_opt_grad_steps": 9670.0, "train/actor_opt_loss": -465.05449010970744, "train/adv_mag": 1.7356896704815803, "train/adv_max": 1.7356896704815803, "train/adv_mean": 0.04740866558982971, "train/adv_min": -0.5632183396435798, "train/adv_std": 0.09413398540717491, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.5448537083785266e-08, "train/cont_loss_std": 1.0867003958630807e-08, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.5448537083785266e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.705193651483414, "train/dyn_loss_std": 4.912975301133826, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4197149394040412, "train/extr_critic_critic_opt_grad_steps": 9670.0, "train/extr_critic_critic_opt_loss": 10521.88462017952, "train/extr_critic_mag": 204.81526606133644, "train/extr_critic_max": 204.81526606133644, "train/extr_critic_mean": 170.00093435733876, "train/extr_critic_min": 81.11806414989715, "train/extr_critic_std": 18.79941017069715, "train/extr_return_normed_mag": 1.1779644108833152, "train/extr_return_normed_max": 1.1779644108833152, "train/extr_return_normed_mean": 0.5129154876191565, "train/extr_return_normed_min": -0.39225015511855166, "train/extr_return_normed_std": 0.30799951515299206, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 217.491323592815, "train/extr_return_raw_max": 217.491323592815, "train/extr_return_raw_mean": 173.1593929858918, "train/extr_return_raw_min": 112.77058491808303, "train/extr_return_raw_std": 20.540930727694896, "train/extr_reward_mag": 1.9820964082758477, "train/extr_reward_max": 1.9820964082758477, "train/extr_reward_mean": 0.8162842595830877, "train/extr_reward_min": 0.0019579288807321103, "train/extr_reward_std": 0.6525245530808226, "train/image_loss_mean": 1.8024092582946127, "train/image_loss_std": 1.4494987650120512, "train/model_loss_mean": 3.9860653978713017, "train/model_loss_std": 4.073021001004158, "train/model_opt_grad_norm": 16.59555855203182, "train/model_opt_grad_steps": 9660.0, "train/model_opt_loss": 19930.326836768618, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0004881290679282, "train/policy_entropy_max": 0.9757308896551741, "train/policy_entropy_mean": -0.6875257752043136, "train/policy_entropy_min": -0.8786067937282805, "train/policy_entropy_std": 0.2828072211209764, "train/policy_logprob_mag": 7.414488599655476, "train/policy_logprob_max": 1.3766781979418816, "train/policy_logprob_mean": 0.6870583016821679, "train/policy_logprob_min": -7.414488599655476, "train/policy_logprob_std": 0.7648084163665771, "train/policy_randomness_mag": 0.807517353524553, "train/policy_randomness_max": 0.807517353524553, "train/policy_randomness_mean": 0.08517420894288003, "train/policy_randomness_min": 0.002188763145278109, "train/policy_randomness_std": 0.1228216103416808, "train/post_ent_mag": 33.6328310865037, "train/post_ent_max": 33.6328310865037, "train/post_ent_mean": 24.404828254212724, "train/post_ent_min": 13.800440991178473, "train/post_ent_std": 3.557366046499699, "train/prior_ent_mag": 49.795570860517785, "train/prior_ent_max": 49.795570860517785, "train/prior_ent_mean": 27.275385268191073, "train/prior_ent_min": 19.387978858136115, "train/prior_ent_std": 4.272280982200136, "train/rep_loss_mean": 2.705193651483414, "train/rep_loss_std": 4.912975301133826, "train/reward_avg": 0.8028223628693438, "train/reward_loss_mean": 0.5605399760794132, "train/reward_loss_std": 0.29293274023431415, "train/reward_max_data": 1.994323598577621, "train/reward_max_pred": 1.9764508440139446, "train/reward_neg_acc": 0.9090667798164043, "train/reward_neg_loss": 0.46987578906911487, "train/reward_pos_acc": 0.9952011653717528, "train/reward_pos_loss": 0.5774456046997233, "train/reward_pred": 0.8000115815629351, "train/reward_rate": 0.8366439494680851, "replay/size": 20851.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3273593288356973e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0765773259987266e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.61671710014343, "timer/env.step_count": 236.0, "timer/env.step_total": 5.729828834533691, "timer/env.step_frac": 0.019060246847898792, "timer/env.step_avg": 0.02427893573954954, "timer/env.step_min": 0.020546436309814453, "timer/env.step_max": 0.02907872200012207, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18253731727600098, "timer/replay.add_frac": 0.0006072094693762254, "timer/replay.add_avg": 0.00019336580219915357, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.002840757369995117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020349979400634766, "timer/logger.write_frac": 6.769410429645417e-05, "timer/logger.write_avg": 0.020349979400634766, "timer/logger.write_min": 0.020349979400634766, "timer/logger.write_max": 0.020349979400634766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7196450233459473, "timer/agent.policy_frac": 0.0023938955567338405, "timer/agent.policy_avg": 0.0030493433192624883, "timer/agent.policy_min": 0.002745389938354492, "timer/agent.policy_max": 0.004946231842041016, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03484988212585449, "timer/dataset_frac": 0.00011592795790609698, "timer/dataset_avg": 7.383449602935274e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.67736411094666, "timer/agent.train_frac": 0.9769162771247845, "timer/agent.train_avg": 0.6221978053198023, "timer/agent.train_min": 0.5694370269775391, "timer/agent.train_max": 0.6602649688720703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15636491775512695, "timer/agent.report_frac": 0.0005201471137848853, "timer/agent.report_avg": 0.15636491775512695, "timer/agent.report_min": 0.15636491775512695, "timer/agent.report_max": 0.15636491775512695, "fps": 6.280359979408362}
+{"step": 44088, "episode/length": 500.0, "episode/score": 564.0064082191675, "episode/sum_abs_reward": 564.0064082191675, "episode/reward_rate": 0.7405189620758483}
+{"step": 44090, "train/action_mag": 2.27128323088301, "train/action_max": 2.264386410408832, "train/action_mean": 0.14540338073361744, "train/action_min": -1.6965269864873682, "train/action_std": 0.7027648738090028, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09341331325629924, "train/actor_opt_grad_steps": 10140.0, "train/actor_opt_loss": -415.23546778902096, "train/adv_mag": 1.453838974871534, "train/adv_max": 1.4451775119659749, "train/adv_mean": 0.04236938994615636, "train/adv_min": -0.6083315496749067, "train/adv_std": 0.08088667429191002, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.1469867623699565e-08, "train/cont_loss_std": 9.319343330135547e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.1469867623699565e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6923009334726538, "train/dyn_loss_std": 4.892628720466127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4580342192599114, "train/extr_critic_critic_opt_grad_steps": 10140.0, "train/extr_critic_critic_opt_loss": 10178.195520279256, "train/extr_critic_mag": 220.5527846965384, "train/extr_critic_max": 220.5527846965384, "train/extr_critic_mean": 181.01032955088513, "train/extr_critic_min": 89.37394608842565, "train/extr_critic_std": 20.36471659071902, "train/extr_return_normed_mag": 1.2092949988994193, "train/extr_return_normed_max": 1.1957930960553758, "train/extr_return_normed_mean": 0.531933014063125, "train/extr_return_normed_min": -0.37942440168773556, "train/extr_return_normed_std": 0.30052353346601446, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 232.25995652219083, "train/extr_return_raw_max": 232.25995652219083, "train/extr_return_raw_mean": 184.08064984260722, "train/extr_return_raw_min": 117.9490394998104, "train/extr_return_raw_std": 21.793351782129164, "train/extr_reward_mag": 1.984511360209039, "train/extr_reward_max": 1.984511360209039, "train/extr_reward_mean": 0.823723814588912, "train/extr_reward_min": 0.0016624344156143513, "train/extr_reward_std": 0.6511197026739729, "train/image_loss_mean": 1.7223686664662463, "train/image_loss_std": 1.3929244102315699, "train/model_loss_mean": 3.8873283558703484, "train/model_loss_std": 4.032038653150518, "train/model_opt_grad_norm": 15.503242898494639, "train/model_opt_grad_steps": 10129.68085106383, "train/model_opt_loss": 26560.968666888297, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6808.510638297872, "train/policy_entropy_mag": 1.0297696412877833, "train/policy_entropy_max": 1.0186370776054707, "train/policy_entropy_mean": -0.6844990786085737, "train/policy_entropy_min": -0.8784598974471397, "train/policy_entropy_std": 0.30469474925639783, "train/policy_logprob_mag": 7.514540083864902, "train/policy_logprob_max": 1.3759630817048094, "train/policy_logprob_mean": 0.6839855364028443, "train/policy_logprob_min": -7.514540083864902, "train/policy_logprob_std": 0.7735320735484996, "train/policy_randomness_mag": 0.8261512695474827, "train/policy_randomness_max": 0.8261512695474827, "train/policy_randomness_mean": 0.08648869212954602, "train/policy_randomness_min": 0.0022525593905927655, "train/policy_randomness_std": 0.1323272427345844, "train/post_ent_mag": 34.43554119353599, "train/post_ent_max": 34.43554119353599, "train/post_ent_mean": 25.093133317663316, "train/post_ent_min": 13.747391173180114, "train/post_ent_std": 3.815198020732149, "train/prior_ent_mag": 50.0049337021848, "train/prior_ent_max": 50.0049337021848, "train/prior_ent_mean": 27.958914939393388, "train/prior_ent_min": 19.47823248518274, "train/prior_ent_std": 4.3320213226561854, "train/rep_loss_mean": 2.6923009334726538, "train/rep_loss_std": 4.892628720466127, "train/reward_avg": 0.8121019335503273, "train/reward_loss_mean": 0.5495791029422841, "train/reward_loss_std": 0.2604824745274605, "train/reward_max_data": 1.9902037864035749, "train/reward_max_pred": 1.9759772381883987, "train/reward_neg_acc": 0.9230672323957403, "train/reward_neg_loss": 0.4577658975377996, "train/reward_pos_acc": 0.9961851962069248, "train/reward_pos_loss": 0.566553700477519, "train/reward_pred": 0.813338373569732, "train/reward_rate": 0.8411943151595744, "stats/mean_log_entropy": -0.8324277698993683, "replay/size": 21793.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3087625037839204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.078356856246916e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03458547592163, "timer/env.step_count": 236.0, "timer/env.step_total": 5.827213764190674, "timer/env.step_frac": 0.01942180683919294, "timer/env.step_avg": 0.024691583746570652, "timer/env.step_min": 0.020524024963378906, "timer/env.step_max": 0.030913114547729492, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18144893646240234, "timer/replay.add_frac": 0.0006047600684920504, "timer/replay.add_avg": 0.00019262095165860122, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0014781951904296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027248382568359375, "timer/logger.write_frac": 9.081747200955976e-05, "timer/logger.write_avg": 0.027248382568359375, "timer/logger.write_min": 0.027248382568359375, "timer/logger.write_max": 0.027248382568359375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003490447998046875, "timer/checkpoint.save_frac": 1.163348549471471e-06, "timer/checkpoint.save_avg": 0.0003490447998046875, "timer/checkpoint.save_min": 0.0003490447998046875, "timer/checkpoint.save_max": 0.0003490447998046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1375432014465332, "timer/agent.save_frac": 0.00045842448872472174, "timer/agent.save_avg": 0.1375432014465332, "timer/agent.save_min": 0.1375432014465332, "timer/agent.save_max": 0.1375432014465332, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011992454528808594, "timer/replay.save_frac": 3.997024046339822e-07, "timer/replay.save_avg": 0.00011992454528808594, "timer/replay.save_min": 0.00011992454528808594, "timer/replay.save_max": 0.00011992454528808594, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.8282961845397949, "timer/agent.policy_frac": 0.0027606690182931173, "timer/agent.policy_avg": 0.0035097295955076055, "timer/agent.policy_min": 0.002775430679321289, "timer/agent.policy_max": 0.10997509956359863, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03502535820007324, "timer/dataset_frac": 0.00011673773589973045, "timer/dataset_avg": 7.436381783455041e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016450881958007812, "timer/agent.train_count": 471.0, "timer/agent.train_total": 292.87317967414856, "timer/agent.train_frac": 0.9761313990171717, "timer/agent.train_avg": 0.6218114218134789, "timer/agent.train_min": 0.5709116458892822, "timer/agent.train_max": 0.6665186882019043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15238022804260254, "timer/agent.report_frac": 0.0005078755430841201, "timer/agent.report_avg": 0.15238022804260254, "timer/agent.report_min": 0.15238022804260254, "timer/agent.report_max": 0.15238022804260254, "fps": 6.279202296697671}
+{"step": 45978, "train/action_mag": 2.135831186111937, "train/action_max": 2.135831186111937, "train/action_mean": 0.10477625590531116, "train/action_min": -1.5803995766538255, "train/action_std": 0.6890384440726423, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08239867799776665, "train/actor_opt_grad_steps": 10610.0, "train/actor_opt_loss": -360.1546465285281, "train/adv_mag": 1.4047069042286975, "train/adv_max": 1.396728922712042, "train/adv_mean": 0.03678461663583492, "train/adv_min": -0.5542514774393528, "train/adv_std": 0.07355865384352968, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.800965708479878e-08, "train/cont_loss_std": 7.797391819689863e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.800965708479878e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6189710180810155, "train/dyn_loss_std": 4.905820816121203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4142760818308972, "train/extr_critic_critic_opt_grad_steps": 10610.0, "train/extr_critic_critic_opt_loss": 10378.10374418218, "train/extr_critic_mag": 240.03198274653008, "train/extr_critic_max": 240.03198274653008, "train/extr_critic_mean": 194.0073862278715, "train/extr_critic_min": 105.05478725027531, "train/extr_critic_std": 21.674354269149454, "train/extr_return_normed_mag": 1.2061226215768368, "train/extr_return_normed_max": 1.2017615678462577, "train/extr_return_normed_mean": 0.520641343390688, "train/extr_return_normed_min": -0.37005699085111315, "train/extr_return_normed_std": 0.29028802127280134, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 250.88734955483295, "train/extr_return_raw_max": 250.88734955483295, "train/extr_return_raw_mean": 196.92673735922955, "train/extr_return_raw_min": 126.4701951209535, "train/extr_return_raw_std": 23.025619932945737, "train/extr_reward_mag": 1.983285832912364, "train/extr_reward_max": 1.983285832912364, "train/extr_reward_mean": 0.8335134019242957, "train/extr_reward_min": 0.0015516560128394593, "train/extr_reward_std": 0.6497238126206906, "train/image_loss_mean": 1.6174141422231147, "train/image_loss_std": 1.343871885157646, "train/model_loss_mean": 3.7381140830668995, "train/model_loss_std": 4.013502775354588, "train/model_opt_grad_norm": 15.938361208489601, "train/model_opt_grad_steps": 10599.0, "train/model_opt_loss": 18690.570437167553, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9602542126432378, "train/policy_entropy_max": 0.9146880697696766, "train/policy_entropy_mean": -0.7211767878938229, "train/policy_entropy_min": -0.8789392608277341, "train/policy_entropy_std": 0.2522121331793197, "train/policy_logprob_mag": 7.486321986989772, "train/policy_logprob_max": 1.3765824703460043, "train/policy_logprob_mean": 0.7208891967509655, "train/policy_logprob_min": -7.486321986989772, "train/policy_logprob_std": 0.7536049523252122, "train/policy_randomness_mag": 0.7810067876856378, "train/policy_randomness_max": 0.7810067876856378, "train/policy_randomness_mean": 0.07055976225974712, "train/policy_randomness_min": 0.0020443745418154496, "train/policy_randomness_std": 0.1095343328853871, "train/post_ent_mag": 35.11735778159284, "train/post_ent_max": 35.11735778159284, "train/post_ent_mean": 25.809472591318983, "train/post_ent_min": 13.84372272897274, "train/post_ent_std": 3.9281660090101527, "train/prior_ent_mag": 50.19605709644074, "train/prior_ent_max": 50.19605709644074, "train/prior_ent_mean": 28.6121831853339, "train/prior_ent_min": 19.907956671207508, "train/prior_ent_std": 4.302032146048038, "train/rep_loss_mean": 2.6189710180810155, "train/rep_loss_std": 4.905820816121203, "train/reward_avg": 0.8292328842142795, "train/reward_loss_mean": 0.5493173320242699, "train/reward_loss_std": 0.2776222974061966, "train/reward_max_data": 1.9938057990784341, "train/reward_max_pred": 1.9768711252415434, "train/reward_neg_acc": 0.9254027262647101, "train/reward_neg_loss": 0.4617289621779259, "train/reward_pos_acc": 0.996118204390749, "train/reward_pos_loss": 0.5649769027182396, "train/reward_pred": 0.8261232566326222, "train/reward_rate": 0.8427318816489362, "replay/size": 22737.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3005877510975983e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0786293926885574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19470167160034, "timer/env.step_count": 236.0, "timer/env.step_total": 5.707375764846802, "timer/env.step_frac": 0.01901224682869459, "timer/env.step_avg": 0.024183795613757636, "timer/env.step_min": 0.019997596740722656, "timer/env.step_max": 0.0306704044342041, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18289828300476074, "timer/replay.add_frac": 0.000609265526627593, "timer/replay.add_avg": 0.00019374818114911095, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0008444786071777344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01964259147644043, "timer/logger.write_frac": 6.54328386445959e-05, "timer/logger.write_avg": 0.01964259147644043, "timer/logger.write_min": 0.01964259147644043, "timer/logger.write_max": 0.01964259147644043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7270333766937256, "timer/agent.policy_frac": 0.002421872780050155, "timer/agent.policy_avg": 0.0030806499012445998, "timer/agent.policy_min": 0.0027513504028320312, "timer/agent.policy_max": 0.004471540451049805, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03507542610168457, "timer/dataset_frac": 0.0001168422557306009, "timer/dataset_avg": 7.431234343577239e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.26959204673767, "timer/agent.train_frac": 0.9769312729828309, "timer/agent.train_avg": 0.6213338814549527, "timer/agent.train_min": 0.5744504928588867, "timer/agent.train_max": 0.662543535232544, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1555476188659668, "timer/agent.report_frac": 0.0005181557769001831, "timer/agent.report_avg": 0.1555476188659668, "timer/agent.report_min": 0.1555476188659668, "timer/agent.report_max": 0.1555476188659668, "fps": 6.289191864279741}
+{"step": 47846, "train/action_mag": 2.1243101561323123, "train/action_max": 2.119003412571359, "train/action_mean": 0.10522396738660779, "train/action_min": -1.6414453678942742, "train/action_std": 0.6782341003417969, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07925725688642644, "train/actor_opt_grad_steps": 11080.0, "train/actor_opt_loss": -365.1108544532289, "train/adv_mag": 1.3067696348149727, "train/adv_max": 1.2791719081554007, "train/adv_mean": 0.03727960705440095, "train/adv_min": -0.6460256475083371, "train/adv_std": 0.07747595432273885, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.5600899881644152e-08, "train/cont_loss_std": 7.093137424936066e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.5600899881644152e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6352045637495976, "train/dyn_loss_std": 4.943130655491606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.42953976735155636, "train/extr_critic_critic_opt_grad_steps": 11080.0, "train/extr_critic_critic_opt_loss": 9713.511635638299, "train/extr_critic_mag": 247.17751198626578, "train/extr_critic_max": 247.17751198626578, "train/extr_critic_mean": 206.267987515064, "train/extr_critic_min": 100.19739678565492, "train/extr_critic_std": 23.672701206613095, "train/extr_return_normed_mag": 1.1403814199122977, "train/extr_return_normed_max": 1.1290918030637376, "train/extr_return_normed_mean": 0.5418437516435664, "train/extr_return_normed_min": -0.431046779485459, "train/extr_return_normed_std": 0.299404151262121, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 258.80540661101645, "train/extr_return_raw_max": 258.80540661101645, "train/extr_return_raw_mean": 209.4047948959026, "train/extr_return_raw_min": 127.61077450691386, "train/extr_return_raw_std": 25.198824253488095, "train/extr_reward_mag": 1.9863296518934535, "train/extr_reward_max": 1.9863296518934535, "train/extr_reward_mean": 0.8967369350981205, "train/extr_reward_min": 0.0014512031636339552, "train/extr_reward_std": 0.6698279659798805, "train/image_loss_mean": 1.555364875083274, "train/image_loss_std": 1.3304445084105148, "train/model_loss_mean": 3.6778645312532467, "train/model_loss_std": 4.044295052264599, "train/model_opt_grad_norm": 15.247695882269676, "train/model_opt_grad_steps": 11068.95744680851, "train/model_opt_loss": 21134.29151429521, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5744.68085106383, "train/policy_entropy_mag": 0.9725068351055713, "train/policy_entropy_max": 0.9266749810665211, "train/policy_entropy_mean": -0.7040063054003614, "train/policy_entropy_min": -0.8790023758056316, "train/policy_entropy_std": 0.2685688426519962, "train/policy_logprob_mag": 7.502579587571164, "train/policy_logprob_max": 1.3769769059850814, "train/policy_logprob_mean": 0.7038008278988778, "train/policy_logprob_min": -7.502579587571164, "train/policy_logprob_std": 0.7605296842595364, "train/policy_randomness_mag": 0.7862126421421132, "train/policy_randomness_max": 0.7862126421421132, "train/policy_randomness_mean": 0.07801681225921245, "train/policy_randomness_min": 0.0020169640489992625, "train/policy_randomness_std": 0.11663796094820854, "train/post_ent_mag": 35.82232714713888, "train/post_ent_max": 35.82232714713888, "train/post_ent_mean": 26.508222579956055, "train/post_ent_min": 13.619503589386635, "train/post_ent_std": 4.150894119384441, "train/prior_ent_mag": 50.18139900045192, "train/prior_ent_max": 50.18139900045192, "train/prior_ent_mean": 29.236646368148477, "train/prior_ent_min": 19.86794642184643, "train/prior_ent_std": 4.397111669499823, "train/rep_loss_mean": 2.6352045637495976, "train/rep_loss_std": 4.943130655491606, "train/reward_avg": 0.8833338846551612, "train/reward_loss_mean": 0.5413769065065587, "train/reward_loss_std": 0.26810232407235085, "train/reward_max_data": 1.9948226796819808, "train/reward_max_pred": 1.9812274993734156, "train/reward_neg_acc": 0.9287563004392259, "train/reward_neg_loss": 0.45850186779143964, "train/reward_pos_acc": 0.9969806506278667, "train/reward_pos_loss": 0.5547780502349773, "train/reward_pred": 0.8833017412652361, "train/reward_rate": 0.8579828789893617, "replay/size": 23671.0, "replay/inserts": 934.0, "replay/samples": 7472.0, "replay/insert_wait_avg": 2.4171151236752627e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0317538484005652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1157298088074, "timer/env.step_count": 233.0, "timer/env.step_total": 6.080291748046875, "timer/env.step_frac": 0.020259823608447327, "timer/env.step_avg": 0.026095672738398606, "timer/env.step_min": 0.02040553092956543, "timer/env.step_max": 0.03992056846618652, "timer/replay.add_count": 934.0, "timer/replay.add_total": 0.18491125106811523, "timer/replay.add_frac": 0.0006161331536534768, "timer/replay.add_avg": 0.0001979777848695024, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.007426738739013672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017868995666503906, "timer/logger.write_frac": 5.954035024384621e-05, "timer/logger.write_avg": 0.017868995666503906, "timer/logger.write_min": 0.017868995666503906, "timer/logger.write_max": 0.017868995666503906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 233.0, "timer/agent.policy_total": 0.7701947689056396, "timer/agent.policy_frac": 0.002566325895001579, "timer/agent.policy_avg": 0.003305556948092874, "timer/agent.policy_min": 0.0027894973754882812, "timer/agent.policy_max": 0.007569789886474609, "timer/dataset_count": 467.0, "timer/dataset_total": 0.037926435470581055, "timer/dataset_frac": 0.00012637270127341404, "timer/dataset_avg": 8.121292391987378e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001766681671142578, "timer/agent.train_count": 467.0, "timer/agent.train_total": 292.7806730270386, "timer/agent.train_frac": 0.9755592391427077, "timer/agent.train_avg": 0.6269393426703181, "timer/agent.train_min": 0.5740656852722168, "timer/agent.train_max": 0.6800243854522705, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.142988920211792, "timer/agent.report_frac": 0.0004764459373818391, "timer/agent.report_avg": 0.142988920211792, "timer/agent.report_min": 0.142988920211792, "timer/agent.report_max": 0.142988920211792, "fps": 6.224199728437768}
+{"step": 48096, "episode/length": 500.0, "episode/score": 730.1514266202867, "episode/sum_abs_reward": 730.1514266202867, "episode/reward_rate": 0.8542914171656687}
+{"step": 49706, "train/action_mag": 2.2030148946720622, "train/action_max": 2.191003734650819, "train/action_mean": 0.13301819553801222, "train/action_min": -1.6326275882513628, "train/action_std": 0.6804528378922007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07116891225071056, "train/actor_opt_grad_steps": 11545.0, "train/actor_opt_loss": -308.2958168361498, "train/adv_mag": 1.1591427002264105, "train/adv_max": 1.1406927173552306, "train/adv_mean": 0.03151993477798026, "train/adv_min": -0.5022574812173843, "train/adv_std": 0.06587880979413571, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.3034640555315244e-08, "train/cont_loss_std": 6.0291675516866835e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.3034640555315244e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6356417303499966, "train/dyn_loss_std": 4.958927050880764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4678375636753829, "train/extr_critic_critic_opt_grad_steps": 11545.0, "train/extr_critic_critic_opt_loss": 10285.391028362772, "train/extr_critic_mag": 271.27311640200406, "train/extr_critic_max": 271.27311640200406, "train/extr_critic_mean": 217.49937074080756, "train/extr_critic_min": 112.54050035062043, "train/extr_critic_std": 25.36771985758906, "train/extr_return_normed_mag": 1.1848948753398398, "train/extr_return_normed_max": 1.1809244985165803, "train/extr_return_normed_mean": 0.5449675386366637, "train/extr_return_normed_min": -0.28678504776452546, "train/extr_return_normed_std": 0.28508328128120175, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 279.99915479577106, "train/extr_return_raw_max": 279.99915479577106, "train/extr_return_raw_mean": 220.43806523862094, "train/extr_return_raw_min": 142.52587998431662, "train/extr_return_raw_std": 26.6574998523878, "train/extr_reward_mag": 1.9866316474002341, "train/extr_reward_max": 1.9866316474002341, "train/extr_reward_mean": 0.8706643101961716, "train/extr_reward_min": 0.001292531904966935, "train/extr_reward_std": 0.6673839468023052, "train/image_loss_mean": 1.521939808907716, "train/image_loss_std": 1.3174539545307988, "train/model_loss_mean": 3.643954759058745, "train/model_loss_std": 4.036271909008855, "train/model_opt_grad_norm": 15.737822491189707, "train/model_opt_grad_steps": 11533.0, "train/model_opt_loss": 18219.77388332201, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0303315325923588, "train/policy_entropy_max": 0.9849433173304019, "train/policy_entropy_mean": -0.7142597890418508, "train/policy_entropy_min": -0.8792151368182638, "train/policy_entropy_std": 0.2693973381234252, "train/policy_logprob_mag": 7.20367924026821, "train/policy_logprob_max": 1.3775441180104795, "train/policy_logprob_mean": 0.7143491312213566, "train/policy_logprob_min": -7.20367924026821, "train/policy_logprob_std": 0.7584396548893141, "train/policy_randomness_mag": 0.8115182506001514, "train/policy_randomness_max": 0.8115182506001514, "train/policy_randomness_mean": 0.0735637775581816, "train/policy_randomness_min": 0.001924563133481728, "train/policy_randomness_std": 0.11699777145100676, "train/post_ent_mag": 36.26831585427989, "train/post_ent_max": 36.26831585427989, "train/post_ent_mean": 27.02641022723654, "train/post_ent_min": 13.878604412078857, "train/post_ent_std": 4.359131958173669, "train/prior_ent_mag": 50.57125282287598, "train/prior_ent_max": 50.57125282287598, "train/prior_ent_mean": 29.76187983803127, "train/prior_ent_min": 20.34204565960428, "train/prior_ent_std": 4.477844901706861, "train/rep_loss_mean": 2.6356417303499966, "train/rep_loss_std": 4.958927050880764, "train/reward_avg": 0.8597978223925051, "train/reward_loss_mean": 0.5406299440757089, "train/reward_loss_std": 0.26517958096835925, "train/reward_max_data": 1.9950772446134817, "train/reward_max_pred": 1.981519077135169, "train/reward_neg_acc": 0.9244743015455164, "train/reward_neg_loss": 0.4554002712602201, "train/reward_pos_acc": 0.9966440239678258, "train/reward_pos_loss": 0.5563382830308832, "train/reward_pred": 0.8597639047581217, "train/reward_rate": 0.8449176290760869, "stats/mean_log_entropy": -0.8378605842590332, "replay/size": 24601.0, "replay/inserts": 930.0, "replay/samples": 7440.0, "replay/insert_wait_avg": 2.3716239519016717e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0052996297036448e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5656650066376, "timer/env.step_count": 233.0, "timer/env.step_total": 6.0384862422943115, "timer/env.step_frac": 0.020090406008819936, "timer/env.step_avg": 0.025916249966928376, "timer/env.step_min": 0.0214078426361084, "timer/env.step_max": 0.044263601303100586, "timer/replay.add_count": 930.0, "timer/replay.add_total": 0.17227816581726074, "timer/replay.add_frac": 0.0005731797935517891, "timer/replay.add_avg": 0.00018524533958845242, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0041429996490478516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022730112075805664, "timer/logger.write_frac": 7.562444657577139e-05, "timer/logger.write_avg": 0.022730112075805664, "timer/logger.write_min": 0.022730112075805664, "timer/logger.write_max": 0.022730112075805664, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002288818359375, "timer/checkpoint.save_frac": 7.615035999951807e-07, "timer/checkpoint.save_avg": 0.0002288818359375, "timer/checkpoint.save_min": 0.0002288818359375, "timer/checkpoint.save_max": 0.0002288818359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08673882484436035, "timer/agent.save_frac": 0.00028858527417775694, "timer/agent.save_avg": 0.08673882484436035, "timer/agent.save_min": 0.08673882484436035, "timer/agent.save_max": 0.08673882484436035, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.202957153320312e-05, "timer/replay.save_frac": 3.0618790583139554e-07, "timer/replay.save_avg": 9.202957153320312e-05, "timer/replay.save_min": 9.202957153320312e-05, "timer/replay.save_max": 9.202957153320312e-05, "timer/agent.policy_count": 233.0, "timer/agent.policy_total": 0.8082168102264404, "timer/agent.policy_frac": 0.0026889858168217323, "timer/agent.policy_avg": 0.00346874167479159, "timer/agent.policy_min": 0.0028913021087646484, "timer/agent.policy_max": 0.053914546966552734, "timer/dataset_count": 465.0, "timer/dataset_total": 0.03730201721191406, "timer/dataset_frac": 0.00012410604920921455, "timer/dataset_avg": 8.021939185357862e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019478797912597656, "timer/agent.train_count": 465.0, "timer/agent.train_total": 293.2209391593933, "timer/agent.train_frac": 0.9755636564572934, "timer/agent.train_avg": 0.6305826648589103, "timer/agent.train_min": 0.5742635726928711, "timer/agent.train_max": 0.6648883819580078, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14780712127685547, "timer/agent.report_frac": 0.0004917631602185544, "timer/agent.report_avg": 0.14780712127685547, "timer/agent.report_min": 0.14780712127685547, "timer/agent.report_max": 0.14780712127685547, "fps": 6.188304254309857}
+{"step": 51562, "train/action_mag": 2.270785339335178, "train/action_max": 2.2414649217686753, "train/action_mean": 0.0939956242268152, "train/action_min": -1.6105146382717377, "train/action_std": 0.6764615254199251, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08396130388087415, "train/actor_opt_grad_steps": 12010.0, "train/actor_opt_loss": -293.44345190169963, "train/adv_mag": 1.0862620878726879, "train/adv_max": 1.0737792976359104, "train/adv_mean": 0.030017808000458047, "train/adv_min": -0.6192331662837495, "train/adv_std": 0.07152419077589157, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.0991900647366764e-08, "train/cont_loss_std": 5.645889401385622e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.0991900647366764e-08, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6531399513812777, "train/dyn_loss_std": 5.1442286308775556, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.5557009343137133, "train/extr_critic_critic_opt_grad_steps": 12010.0, "train/extr_critic_critic_opt_loss": 10100.068816489362, "train/extr_critic_mag": 284.2891443130818, "train/extr_critic_max": 284.2891443130818, "train/extr_critic_mean": 228.5209934965093, "train/extr_critic_min": 95.66337151223041, "train/extr_critic_std": 30.121559832958464, "train/extr_return_normed_mag": 1.1573687944006412, "train/extr_return_normed_max": 1.1430342045236142, "train/extr_return_normed_mean": 0.5469693858572777, "train/extr_return_normed_min": -0.4893794669967858, "train/extr_return_normed_std": 0.29379999510785365, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 293.81096892661236, "train/extr_return_raw_max": 293.81096892661236, "train/extr_return_raw_mean": 231.65670808832695, "train/extr_return_raw_min": 123.37284116542085, "train/extr_return_raw_std": 30.69217649419257, "train/extr_reward_mag": 1.98551285520513, "train/extr_reward_max": 1.98551285520513, "train/extr_reward_mean": 0.9077783100148464, "train/extr_reward_min": 0.001260671209781728, "train/extr_reward_std": 0.6716102133405969, "train/image_loss_mean": 1.4919503217047834, "train/image_loss_std": 1.3336832016072375, "train/model_loss_mean": 3.6143945430187467, "train/model_loss_std": 4.172248693222695, "train/model_opt_grad_norm": 15.259341118183542, "train/model_opt_grad_steps": 11998.0, "train/model_opt_loss": 18071.972552360374, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0227020902836577, "train/policy_entropy_max": 0.9594970256724256, "train/policy_entropy_mean": -0.7169957370200055, "train/policy_entropy_min": -0.8797435481497582, "train/policy_entropy_std": 0.2745326099560616, "train/policy_logprob_mag": 7.344519797791826, "train/policy_logprob_max": 1.378077986392569, "train/policy_logprob_mean": 0.7171001726008476, "train/policy_logprob_min": -7.344519797791826, "train/policy_logprob_std": 0.7641973254528451, "train/policy_randomness_mag": 0.8004670688446532, "train/policy_randomness_max": 0.8004670688446532, "train/policy_randomness_mean": 0.07237556996814748, "train/policy_randomness_min": 0.0016950770167316845, "train/policy_randomness_std": 0.11922799209330945, "train/post_ent_mag": 36.76847336140085, "train/post_ent_max": 36.76847336140085, "train/post_ent_mean": 27.55400239660385, "train/post_ent_min": 13.958004687694793, "train/post_ent_std": 4.4828428309014505, "train/prior_ent_mag": 51.347308463238654, "train/prior_ent_max": 51.347308463238654, "train/prior_ent_mean": 30.396492288467734, "train/prior_ent_min": 20.344123312767515, "train/prior_ent_std": 4.57486968852104, "train/rep_loss_mean": 2.6531399513812777, "train/rep_loss_std": 5.1442286308775556, "train/reward_avg": 0.901953841777558, "train/reward_loss_mean": 0.5305602677324985, "train/reward_loss_std": 0.25272536087543407, "train/reward_max_data": 1.9966309983679589, "train/reward_max_pred": 1.9816233097238745, "train/reward_neg_acc": 0.9359307720306071, "train/reward_neg_loss": 0.44664620211783873, "train/reward_pos_acc": 0.9965457370940675, "train/reward_pos_loss": 0.5440333916785869, "train/reward_pred": 0.9000708486171479, "train/reward_rate": 0.861806017287234, "replay/size": 25529.0, "replay/inserts": 928.0, "replay/samples": 7424.0, "replay/insert_wait_avg": 2.4265770254463984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 9.960976654085619e-07, "replay/sample_wait_frac": 1.0, "timer/duration": 300.66433119773865, "timer/env.step_count": 232.0, "timer/env.step_total": 5.940835475921631, "timer/env.step_frac": 0.01975902978665769, "timer/env.step_avg": 0.025607049465179443, "timer/env.step_min": 0.021071910858154297, "timer/env.step_max": 0.03334951400756836, "timer/replay.add_count": 928.0, "timer/replay.add_total": 0.16799688339233398, "timer/replay.add_frac": 0.0005587522893822981, "timer/replay.add_avg": 0.00018103112434518748, "timer/replay.add_min": 3.9577484130859375e-05, "timer/replay.add_max": 0.0020258426666259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0274505615234375, "timer/logger.write_frac": 9.129969429391351e-05, "timer/logger.write_avg": 0.0274505615234375, "timer/logger.write_min": 0.0274505615234375, "timer/logger.write_max": 0.0274505615234375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.7783405780792236, "timer/agent.policy_frac": 0.0025887359999724425, "timer/agent.policy_avg": 0.0033549162848242396, "timer/agent.policy_min": 0.0028738975524902344, "timer/agent.policy_max": 0.021924257278442383, "timer/dataset_count": 464.0, "timer/dataset_total": 0.037935495376586914, "timer/dataset_frac": 0.0001261722507138294, "timer/dataset_avg": 8.175753313919594e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 464.0, "timer/agent.train_total": 293.46192145347595, "timer/agent.train_frac": 0.9760450143335231, "timer/agent.train_avg": 0.6324610376152499, "timer/agent.train_min": 0.5807106494903564, "timer/agent.train_max": 0.6651015281677246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14940714836120605, "timer/agent.report_frac": 0.0004969234220967338, "timer/agent.report_avg": 0.14940714836120605, "timer/agent.report_min": 0.14940714836120605, "timer/agent.report_max": 0.14940714836120605, "fps": 6.172956905926213}
+{"step": 52104, "episode/length": 500.0, "episode/score": 610.561992533796, "episode/sum_abs_reward": 610.561992533796, "episode/reward_rate": 0.7704590818363274}
+{"step": 53418, "train/action_mag": 2.1190014222393865, "train/action_max": 2.100539233373559, "train/action_mean": 0.1094727196690181, "train/action_min": -1.5211625332417695, "train/action_std": 0.6840402147044307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07224372353242792, "train/actor_opt_grad_steps": 12475.0, "train/actor_opt_loss": -273.68557109003484, "train/adv_mag": 1.0585067162047261, "train/adv_max": 1.0486337341692136, "train/adv_mean": 0.028028370610073856, "train/adv_min": -0.5980841187031373, "train/adv_std": 0.07107561332700045, "train/cont_avg": 1.0, "train/cont_loss_mean": 8.96302456409182e-09, "train/cont_loss_std": 4.8192297254284035e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 8.96302456409182e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.635175725688105, "train/dyn_loss_std": 5.137194768242214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.46339069047699805, "train/extr_critic_critic_opt_grad_steps": 12475.0, "train/extr_critic_critic_opt_loss": 9563.174910835598, "train/extr_critic_mag": 288.7627357814623, "train/extr_critic_max": 288.7627357814623, "train/extr_critic_mean": 238.04632402502972, "train/extr_critic_min": 107.38682431760041, "train/extr_critic_std": 28.982949339825176, "train/extr_return_normed_mag": 1.111628620520882, "train/extr_return_normed_max": 1.1105441736138386, "train/extr_return_normed_mean": 0.5474012053531149, "train/extr_return_normed_min": -0.494580319677682, "train/extr_return_normed_std": 0.2893959730863571, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 298.7993509043818, "train/extr_return_raw_max": 298.7993509043818, "train/extr_return_raw_mean": 240.92629440971044, "train/extr_return_raw_min": 133.8768940801206, "train/extr_return_raw_std": 29.733838413072668, "train/extr_reward_mag": 1.985814991204635, "train/extr_reward_max": 1.985814991204635, "train/extr_reward_mean": 0.8992886504401332, "train/extr_reward_min": 0.0010933383651401687, "train/extr_reward_std": 0.6761973655742147, "train/image_loss_mean": 1.423841199149256, "train/image_loss_std": 1.2753181314986686, "train/model_loss_mean": 3.545552347017371, "train/model_loss_std": 4.1068645560223125, "train/model_opt_grad_norm": 15.288270369819973, "train/model_opt_grad_steps": 12462.152173913044, "train/model_opt_loss": 18565.94229789402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5217.391304347826, "train/policy_entropy_mag": 0.9449711131012958, "train/policy_entropy_max": 0.8529130298158397, "train/policy_entropy_mean": -0.7344415058260378, "train/policy_entropy_min": -0.8797583890997845, "train/policy_entropy_std": 0.24211032688617706, "train/policy_logprob_mag": 7.106054513350777, "train/policy_logprob_max": 1.3780763563902483, "train/policy_logprob_mean": 0.7345717860304791, "train/policy_logprob_min": -7.106054513350777, "train/policy_logprob_std": 0.7517141622045765, "train/policy_randomness_mag": 0.7541782350643821, "train/policy_randomness_max": 0.7541782350643821, "train/policy_randomness_mean": 0.06479897078774545, "train/policy_randomness_min": 0.001688631674092587, "train/policy_randomness_std": 0.10514717370919559, "train/post_ent_mag": 37.56272274514903, "train/post_ent_max": 37.56272274514903, "train/post_ent_mean": 28.013437436974566, "train/post_ent_min": 14.037162200264309, "train/post_ent_std": 4.630475552185722, "train/prior_ent_mag": 51.79159355163574, "train/prior_ent_max": 51.79159355163574, "train/prior_ent_mean": 30.7615385470183, "train/prior_ent_min": 20.824752227119777, "train/prior_ent_std": 4.6792222831560215, "train/rep_loss_mean": 2.635175725688105, "train/rep_loss_std": 5.137194768242214, "train/reward_avg": 0.8931626729343248, "train/reward_loss_mean": 0.5406056810980258, "train/reward_loss_std": 0.2769477652466815, "train/reward_max_data": 1.996284474497256, "train/reward_max_pred": 1.9827830739643262, "train/reward_neg_acc": 0.9286119639873505, "train/reward_neg_loss": 0.45918894785901776, "train/reward_pos_acc": 0.9954457917939061, "train/reward_pos_loss": 0.5539547522430834, "train/reward_pred": 0.8918338456879491, "train/reward_rate": 0.8551715353260869, "stats/mean_log_entropy": -0.8277795165777206, "replay/size": 26457.0, "replay/inserts": 928.0, "replay/samples": 7424.0, "replay/insert_wait_avg": 2.3297194776863886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 9.781456199185602e-07, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0505974292755, "timer/env.step_count": 232.0, "timer/env.step_total": 6.038497447967529, "timer/env.step_frac": 0.02012493059405041, "timer/env.step_avg": 0.02602800624123935, "timer/env.step_min": 0.021100997924804688, "timer/env.step_max": 0.043703556060791016, "timer/replay.add_count": 928.0, "timer/replay.add_total": 0.16992998123168945, "timer/replay.add_frac": 0.000566337753324232, "timer/replay.add_avg": 0.00018311420391345847, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.006894111633300781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02494645118713379, "timer/logger.write_frac": 8.31408149187701e-05, "timer/logger.write_avg": 0.02494645118713379, "timer/logger.write_min": 0.02494645118713379, "timer/logger.write_max": 0.02494645118713379, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.7466096878051758, "timer/agent.policy_frac": 0.0024882792908991224, "timer/agent.policy_avg": 0.0032181452060567922, "timer/agent.policy_min": 0.002817869186401367, "timer/agent.policy_max": 0.007024526596069336, "timer/dataset_count": 464.0, "timer/dataset_total": 0.03665637969970703, "timer/dataset_frac": 0.00012216732782325906, "timer/dataset_avg": 7.900081831833412e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 464.0, "timer/agent.train_total": 292.7663629055023, "timer/agent.train_frac": 0.9757233127139827, "timer/agent.train_avg": 0.6309619890204792, "timer/agent.train_min": 0.5731892585754395, "timer/agent.train_max": 0.677971363067627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15375876426696777, "timer/agent.report_frac": 0.0005124427865977172, "timer/agent.report_avg": 0.15375876426696777, "timer/agent.report_min": 0.15375876426696777, "timer/agent.report_max": 0.15375876426696777, "fps": 6.185596471847602}
+{"step": 55278, "train/action_mag": 2.1706848372804357, "train/action_max": 2.1397502954970014, "train/action_mean": 0.08808090243528181, "train/action_min": -1.591713973816405, "train/action_std": 0.66849714390775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08919281314345116, "train/actor_opt_grad_steps": 12940.0, "train/actor_opt_loss": -264.0250581781915, "train/adv_mag": 1.1275393943837348, "train/adv_max": 1.1017774311786002, "train/adv_mean": 0.027044897522539534, "train/adv_min": -0.5888957859987908, "train/adv_std": 0.07009469749445611, "train/cont_avg": 1.0, "train/cont_loss_mean": 7.52859185867687e-09, "train/cont_loss_std": 4.208558324531632e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 7.52859185867687e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.59930308321689, "train/dyn_loss_std": 5.081965192835382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4711849201232829, "train/extr_critic_critic_opt_grad_steps": 12940.0, "train/extr_critic_critic_opt_loss": 9692.665890957447, "train/extr_critic_mag": 310.7910325070645, "train/extr_critic_max": 310.7910325070645, "train/extr_critic_mean": 250.53508060536487, "train/extr_critic_min": 122.26621408665434, "train/extr_critic_std": 29.05225623922145, "train/extr_return_normed_mag": 1.1581605951836769, "train/extr_return_normed_max": 1.1564227824515485, "train/extr_return_normed_mean": 0.5459300324003747, "train/extr_return_normed_min": -0.44785721151237473, "train/extr_return_normed_std": 0.28692740677519046, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 317.2302862938414, "train/extr_return_raw_max": 317.2302862938414, "train/extr_return_raw_mean": 253.36491036922374, "train/extr_return_raw_min": 149.6434423568401, "train/extr_return_raw_std": 29.988443131142475, "train/extr_reward_mag": 1.9853921291675973, "train/extr_reward_max": 1.9853921291675973, "train/extr_reward_mean": 0.9200010413819171, "train/extr_reward_min": 0.0010687341081335189, "train/extr_reward_std": 0.6767512077980853, "train/image_loss_mean": 1.3705796358433175, "train/image_loss_std": 1.2491412137417084, "train/model_loss_mean": 3.4691187929599843, "train/model_loss_std": 4.056982928134025, "train/model_opt_grad_norm": 15.860796055895216, "train/model_opt_grad_steps": 12927.0, "train/model_opt_loss": 17345.59412400266, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9806278474787449, "train/policy_entropy_max": 0.9094215403211877, "train/policy_entropy_mean": -0.7358562641955436, "train/policy_entropy_min": -0.880037802330991, "train/policy_entropy_std": 0.24844670787136605, "train/policy_logprob_mag": 7.102958273380361, "train/policy_logprob_max": 1.3783838444567742, "train/policy_logprob_mean": 0.7367570387556198, "train/policy_logprob_min": -7.102958273380361, "train/policy_logprob_std": 0.7520320580360738, "train/policy_randomness_mag": 0.7787195647016485, "train/policy_randomness_max": 0.7787195647016485, "train/policy_randomness_mean": 0.06418454643101135, "train/policy_randomness_min": 0.0015672840663489508, "train/policy_randomness_std": 0.10789903110646187, "train/post_ent_mag": 38.35418124909096, "train/post_ent_max": 38.35418124909096, "train/post_ent_mean": 28.821724181479595, "train/post_ent_min": 14.143317486377473, "train/post_ent_std": 4.794922980856388, "train/prior_ent_mag": 52.00392321322827, "train/prior_ent_max": 52.00392321322827, "train/prior_ent_mean": 31.494255106499853, "train/prior_ent_min": 20.850572829550885, "train/prior_ent_std": 4.723916297263288, "train/rep_loss_mean": 2.59930308321689, "train/rep_loss_std": 5.081965192835382, "train/reward_avg": 0.9079338388240084, "train/reward_loss_mean": 0.5389573180929144, "train/reward_loss_std": 0.2612577971625835, "train/reward_max_data": 1.993891771803511, "train/reward_max_pred": 1.979451666487024, "train/reward_neg_acc": 0.9176358136724918, "train/reward_neg_loss": 0.46239033151180187, "train/reward_pos_acc": 0.9965564075936663, "train/reward_pos_loss": 0.5510324620186015, "train/reward_pred": 0.9058833198344454, "train/reward_rate": 0.8570270944148937, "replay/size": 27387.0, "replay/inserts": 930.0, "replay/samples": 7440.0, "replay/insert_wait_avg": 2.3523966471354168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 9.956539318125734e-07, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3834776878357, "timer/env.step_count": 232.0, "timer/env.step_total": 5.982203722000122, "timer/env.step_frac": 0.019915222262047793, "timer/env.step_avg": 0.02578536087069018, "timer/env.step_min": 0.02081131935119629, "timer/env.step_max": 0.05104517936706543, "timer/replay.add_count": 930.0, "timer/replay.add_total": 0.16026616096496582, "timer/replay.add_frac": 0.0005335385361358573, "timer/replay.add_avg": 0.00017232920533867291, "timer/replay.add_min": 3.9577484130859375e-05, "timer/replay.add_max": 0.0017881393432617188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022062063217163086, "timer/logger.write_frac": 7.344632729796946e-05, "timer/logger.write_avg": 0.022062063217163086, "timer/logger.write_min": 0.022062063217163086, "timer/logger.write_max": 0.022062063217163086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00031828880310058594, "timer/checkpoint.save_frac": 1.0596082232970143e-06, "timer/checkpoint.save_avg": 0.00031828880310058594, "timer/checkpoint.save_min": 0.00031828880310058594, "timer/checkpoint.save_max": 0.00031828880310058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07744240760803223, "timer/agent.save_frac": 0.0002578118084394504, "timer/agent.save_avg": 0.07744240760803223, "timer/agent.save_min": 0.07744240760803223, "timer/agent.save_max": 0.07744240760803223, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011849403381347656, "timer/replay.save_frac": 3.9447587039596717e-07, "timer/replay.save_avg": 0.00011849403381347656, "timer/replay.save_min": 0.00011849403381347656, "timer/replay.save_max": 0.00011849403381347656, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.804736852645874, "timer/agent.policy_frac": 0.002679031679239602, "timer/agent.policy_avg": 0.0034686933303701467, "timer/agent.policy_min": 0.0028281211853027344, "timer/agent.policy_max": 0.05190873146057129, "timer/dataset_count": 465.0, "timer/dataset_total": 0.036801815032958984, "timer/dataset_frac": 0.00012251610946193298, "timer/dataset_avg": 7.914368824292254e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 465.0, "timer/agent.train_total": 293.1262686252594, "timer/agent.train_frac": 0.9758401856239306, "timer/agent.train_avg": 0.6303790723123858, "timer/agent.train_min": 0.5791914463043213, "timer/agent.train_max": 0.6663939952850342, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14859318733215332, "timer/agent.report_frac": 0.0004946782974747174, "timer/agent.report_avg": 0.14859318733215332, "timer/agent.report_min": 0.14859318733215332, "timer/agent.report_max": 0.14859318733215332, "fps": 6.192012916726458}
+{"step": 56112, "episode/length": 500.0, "episode/score": 678.4418709128513, "episode/sum_abs_reward": 678.4418709128513, "episode/reward_rate": 0.8303393213572854}
+{"step": 57130, "train/action_mag": 2.2057836237161057, "train/action_max": 2.16585475983827, "train/action_mean": 0.06733943714314829, "train/action_min": -1.6155221306759378, "train/action_std": 0.6593390845734141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10259796152620212, "train/actor_opt_grad_steps": 13405.0, "train/actor_opt_loss": -236.7111186151919, "train/adv_mag": 0.9682106058234754, "train/adv_max": 0.9520195638356002, "train/adv_mean": 0.024269886962745502, "train/adv_min": -0.49398862117010617, "train/adv_std": 0.060147116041701774, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.484221806833607e-09, "train/cont_loss_std": 3.854034545609122e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.484221806833607e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.595244894856992, "train/dyn_loss_std": 5.1468447809634, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.42001185080279474, "train/extr_critic_critic_opt_grad_steps": 13405.0, "train/extr_critic_critic_opt_loss": 10368.87353515625, "train/extr_critic_mag": 331.4483543064283, "train/extr_critic_max": 331.4483543064283, "train/extr_critic_mean": 265.164190541143, "train/extr_critic_min": 141.6955864947775, "train/extr_critic_std": 31.056405565013055, "train/extr_return_normed_mag": 1.1727004906405574, "train/extr_return_normed_max": 1.1727004906405574, "train/extr_return_normed_mean": 0.5450527991937555, "train/extr_return_normed_min": -0.24992392062331023, "train/extr_return_normed_std": 0.2814325716184533, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 338.65370708963144, "train/extr_return_raw_max": 338.65370708963144, "train/extr_return_raw_mean": 267.89430236816406, "train/extr_return_raw_min": 178.18309767349908, "train/extr_return_raw_std": 31.814784340236496, "train/extr_reward_mag": 1.9877019446829092, "train/extr_reward_max": 1.9877019446829092, "train/extr_reward_mean": 0.9600466813730157, "train/extr_reward_min": 0.0010063026262366254, "train/extr_reward_std": 0.6851208482099616, "train/image_loss_mean": 1.3470293490783027, "train/image_loss_std": 1.2437711811583976, "train/model_loss_mean": 3.432228145392045, "train/model_loss_std": 4.109163139177405, "train/model_opt_grad_norm": 15.394200884777566, "train/model_opt_grad_steps": 13391.369565217392, "train/model_opt_loss": 18262.14266304348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5326.086956521739, "train/policy_entropy_mag": 1.0377896013467207, "train/policy_entropy_max": 0.9640817810659823, "train/policy_entropy_mean": -0.7291320951088615, "train/policy_entropy_min": -0.8803193258202594, "train/policy_entropy_std": 0.2648734383932922, "train/policy_logprob_mag": 7.426392814387446, "train/policy_logprob_max": 1.3787485827570376, "train/policy_logprob_mean": 0.7301175451796987, "train/policy_logprob_min": -7.426392814387446, "train/policy_logprob_std": 0.7593045571575994, "train/policy_randomness_mag": 0.802458207892335, "train/policy_randomness_max": 0.802458207892335, "train/policy_randomness_mean": 0.06710481510052214, "train/policy_randomness_min": 0.0014450199643919325, "train/policy_randomness_std": 0.11503306776285172, "train/post_ent_mag": 39.210032670394234, "train/post_ent_max": 39.210032670394234, "train/post_ent_mean": 29.72351347881815, "train/post_ent_min": 14.036536672840947, "train/post_ent_std": 5.014827137408049, "train/prior_ent_mag": 52.53722472812819, "train/prior_ent_max": 52.53722472812819, "train/prior_ent_mean": 32.38014938520349, "train/prior_ent_min": 21.066882009091586, "train/prior_ent_std": 4.791947375173154, "train/rep_loss_mean": 2.595244894856992, "train/rep_loss_std": 5.1468447809634, "train/reward_avg": 0.9580944530341936, "train/reward_loss_mean": 0.5280518622502036, "train/reward_loss_std": 0.2478196718122648, "train/reward_max_data": 1.9965774235518083, "train/reward_max_pred": 1.9844858231751814, "train/reward_neg_acc": 0.94414491497952, "train/reward_neg_loss": 0.441084887670434, "train/reward_pos_acc": 0.996941565171532, "train/reward_pos_loss": 0.5412864957166754, "train/reward_pred": 0.9581829166930654, "train/reward_rate": 0.8670176630434783, "stats/mean_log_entropy": -0.8475618064403534, "replay/size": 28313.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.420231796495343e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0025617113381174e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14844369888306, "timer/env.step_count": 232.0, "timer/env.step_total": 5.961145877838135, "timer/env.step_frac": 0.019860658960532594, "timer/env.step_avg": 0.025694594301026445, "timer/env.step_min": 0.02093672752380371, "timer/env.step_max": 0.039835214614868164, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.17099499702453613, "timer/replay.add_frac": 0.000569701428124288, "timer/replay.add_avg": 0.00018465982400057897, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.00976252555847168, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02305769920349121, "timer/logger.write_frac": 7.682098537423472e-05, "timer/logger.write_avg": 0.02305769920349121, "timer/logger.write_min": 0.02305769920349121, "timer/logger.write_max": 0.02305769920349121, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.7617547512054443, "timer/agent.policy_frac": 0.002537926706592079, "timer/agent.policy_avg": 0.003283425651747605, "timer/agent.policy_min": 0.0028524398803710938, "timer/agent.policy_max": 0.00906682014465332, "timer/dataset_count": 463.0, "timer/dataset_total": 0.03744339942932129, "timer/dataset_frac": 0.00012474960378900218, "timer/dataset_avg": 8.087127306548875e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.92922353744507, "timer/agent.train_frac": 0.9759478341034461, "timer/agent.train_avg": 0.6326765087201838, "timer/agent.train_min": 0.5878667831420898, "timer/agent.train_max": 0.6643853187561035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15082335472106934, "timer/agent.report_frac": 0.0005024958745825761, "timer/agent.report_avg": 0.15082335472106934, "timer/agent.report_min": 0.15082335472106934, "timer/agent.report_max": 0.15082335472106934, "fps": 6.170234645616519}
+{"step": 58974, "train/action_mag": 2.1424340165179707, "train/action_max": 2.1150706099427263, "train/action_mean": 0.0590936377664785, "train/action_min": -1.6228323086448337, "train/action_std": 0.6597883208938267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08539657383833242, "train/actor_opt_grad_steps": 13865.0, "train/actor_opt_loss": -208.64442875074303, "train/adv_mag": 0.8743041552927183, "train/adv_max": 0.8547610199969747, "train/adv_mean": 0.021423196784504082, "train/adv_min": -0.501590362061625, "train/adv_std": 0.05597176086967406, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.667690152948338e-09, "train/cont_loss_std": 3.513644134099598e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.667690152948338e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.572195327800253, "train/dyn_loss_std": 5.15007846251778, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.37956763771565066, "train/extr_critic_critic_opt_grad_steps": 13865.0, "train/extr_critic_critic_opt_loss": 9618.036684782608, "train/extr_critic_mag": 335.2666393777599, "train/extr_critic_max": 335.2666393777599, "train/extr_critic_mean": 274.27479486880094, "train/extr_critic_min": 148.55751974686333, "train/extr_critic_std": 31.179020881652832, "train/extr_return_normed_mag": 1.1023918610552084, "train/extr_return_normed_max": 1.0945982427700707, "train/extr_return_normed_mean": 0.521743334505869, "train/extr_return_normed_min": -0.34091242704459507, "train/extr_return_normed_std": 0.27499162405729294, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 343.5115926991338, "train/extr_return_raw_max": 343.5115926991338, "train/extr_return_raw_mean": 276.76575635827106, "train/extr_return_raw_min": 176.4496965822966, "train/extr_return_raw_std": 32.03191695005997, "train/extr_reward_mag": 1.986518865046294, "train/extr_reward_max": 1.986518865046294, "train/extr_reward_mean": 0.9437398677286895, "train/extr_reward_min": 0.0009755440380262291, "train/extr_reward_std": 0.6799230329368425, "train/image_loss_mean": 1.3174431116684624, "train/image_loss_std": 1.2056593726510587, "train/model_loss_mean": 3.392733703488889, "train/model_loss_std": 4.076614960380223, "train/model_opt_grad_norm": 14.574490070343018, "train/model_opt_grad_steps": 13851.0, "train/model_opt_loss": 16963.66849949049, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9464800863162331, "train/policy_entropy_max": 0.8807815468829611, "train/policy_entropy_mean": -0.7336390018463135, "train/policy_entropy_min": -0.88015311697255, "train/policy_entropy_std": 0.24013773368104643, "train/policy_logprob_mag": 7.680708418721738, "train/policy_logprob_max": 1.3786170171654744, "train/policy_logprob_mean": 0.7342746892701024, "train/policy_logprob_min": -7.680708418721738, "train/policy_logprob_std": 0.749061195746712, "train/policy_randomness_mag": 0.7662813767142918, "train/policy_randomness_max": 0.7662813767142918, "train/policy_randomness_mean": 0.0651474947757695, "train/policy_randomness_min": 0.0015172035428290458, "train/policy_randomness_std": 0.10429048862146295, "train/post_ent_mag": 39.70714817876401, "train/post_ent_max": 39.70714817876401, "train/post_ent_mean": 29.86111827518629, "train/post_ent_min": 14.28281251243923, "train/post_ent_std": 5.10257861925208, "train/prior_ent_mag": 52.51303324492081, "train/prior_ent_max": 52.51303324492081, "train/prior_ent_mean": 32.47192333055579, "train/prior_ent_min": 21.55424341948136, "train/prior_ent_std": 4.8920435179834785, "train/rep_loss_mean": 2.572195327800253, "train/rep_loss_std": 5.15007846251778, "train/reward_avg": 0.9471818856571032, "train/reward_loss_mean": 0.5319733930670697, "train/reward_loss_std": 0.25337520727644797, "train/reward_max_data": 1.9952038189639216, "train/reward_max_pred": 1.9821493936621624, "train/reward_neg_acc": 0.9300802324129187, "train/reward_neg_loss": 0.45424057154551795, "train/reward_pos_acc": 0.9969011907992156, "train/reward_pos_loss": 0.5433239807253298, "train/reward_pred": 0.9465738327606864, "train/reward_rate": 0.8617739470108695, "replay/size": 29235.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.5662320813491393e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0186446721538287e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4828588962555, "timer/env.step_count": 230.0, "timer/env.step_total": 6.7096357345581055, "timer/env.step_frac": 0.022329512436097626, "timer/env.step_avg": 0.029172329280687415, "timer/env.step_min": 0.021130084991455078, "timer/env.step_max": 0.0921170711517334, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.19257044792175293, "timer/replay.add_frac": 0.0006408699938129904, "timer/replay.add_avg": 0.0002088616571819446, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0050694942474365234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01923346519470215, "timer/logger.write_frac": 6.40085270266371e-05, "timer/logger.write_avg": 0.01923346519470215, "timer/logger.write_min": 0.01923346519470215, "timer/logger.write_max": 0.01923346519470215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 230.0, "timer/agent.policy_total": 0.8242406845092773, "timer/agent.policy_frac": 0.002743053921734198, "timer/agent.policy_avg": 0.0035836551500403363, "timer/agent.policy_min": 0.0029320716857910156, "timer/agent.policy_max": 0.009472846984863281, "timer/dataset_count": 461.0, "timer/dataset_total": 0.040457725524902344, "timer/dataset_frac": 0.00013464237418904068, "timer/dataset_avg": 8.776079289566669e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00017261505126953125, "timer/agent.train_count": 461.0, "timer/agent.train_total": 292.4384329319, "timer/agent.train_frac": 0.9732283365716615, "timer/agent.train_avg": 0.6343566874878526, "timer/agent.train_min": 0.5753624439239502, "timer/agent.train_max": 0.7656686305999756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1447277069091797, "timer/agent.report_frac": 0.00048165045900055244, "timer/agent.report_avg": 0.1447277069091797, "timer/agent.report_min": 0.1447277069091797, "timer/agent.report_max": 0.1447277069091797, "fps": 6.1367330051027515}
+{"step": 60120, "episode/length": 500.0, "episode/score": 766.0856306317728, "episode/sum_abs_reward": 766.0856306317728, "episode/reward_rate": 0.9101796407185628}
+{"step": 60818, "train/action_mag": 2.085061443888623, "train/action_max": 2.0317923893099246, "train/action_mean": 0.050045289119462606, "train/action_min": -1.7454386845878933, "train/action_std": 0.6624283116796742, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09695224714991839, "train/actor_opt_grad_steps": 14325.0, "train/actor_opt_loss": -222.53192918196967, "train/adv_mag": 1.0125111095283343, "train/adv_max": 0.9378077938504841, "train/adv_mean": 0.022833496494137722, "train/adv_min": -0.5921182221044665, "train/adv_std": 0.06347245504350765, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.948210942439632e-09, "train/cont_loss_std": 3.2032494531271686e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.948210942439632e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.5884041941684224, "train/dyn_loss_std": 5.165583641632743, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4013991896872935, "train/extr_critic_critic_opt_grad_steps": 14325.0, "train/extr_critic_critic_opt_loss": 8705.715767238451, "train/extr_critic_mag": 343.12460061778194, "train/extr_critic_max": 343.12460061778194, "train/extr_critic_mean": 284.2960450545601, "train/extr_critic_min": 146.46317788828975, "train/extr_critic_std": 31.17265693001125, "train/extr_return_normed_mag": 1.1030935619188391, "train/extr_return_normed_max": 1.0940503348474917, "train/extr_return_normed_mean": 0.5362338151620782, "train/extr_return_normed_min": -0.4219306725198808, "train/extr_return_normed_std": 0.2780219753799231, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 351.2615960162619, "train/extr_return_raw_max": 351.2615960162619, "train/extr_return_raw_mean": 286.9264221191406, "train/extr_return_raw_min": 176.4092656011167, "train/extr_return_raw_std": 32.03746219303297, "train/extr_reward_mag": 1.9880457183589106, "train/extr_reward_max": 1.9880457183589106, "train/extr_reward_mean": 0.9445052613382754, "train/extr_reward_min": 0.0009024246879245924, "train/extr_reward_std": 0.6798866702162701, "train/image_loss_mean": 1.3135683303293975, "train/image_loss_std": 1.244790493146233, "train/model_loss_mean": 3.389363522114961, "train/model_loss_std": 4.12621652043384, "train/model_opt_grad_norm": 14.346207204072371, "train/model_opt_grad_steps": 14310.891304347826, "train/model_opt_loss": 22817.026834239132, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6739.130434782609, "train/policy_entropy_mag": 0.9533941421819769, "train/policy_entropy_max": 0.8960509598255157, "train/policy_entropy_mean": -0.7127625449844028, "train/policy_entropy_min": -0.880014207052148, "train/policy_entropy_std": 0.25468234734042833, "train/policy_logprob_mag": 7.381874022276505, "train/policy_logprob_max": 1.3780743687049202, "train/policy_logprob_mean": 0.7116181552410126, "train/policy_logprob_min": -7.381874022276505, "train/policy_logprob_std": 0.7547714425169904, "train/policy_randomness_mag": 0.7729127951290297, "train/policy_randomness_max": 0.7729127951290297, "train/policy_randomness_mean": 0.07421402224218068, "train/policy_randomness_min": 0.0015775313545220895, "train/policy_randomness_std": 0.11060713231563568, "train/post_ent_mag": 39.76899229961893, "train/post_ent_max": 39.76899229961893, "train/post_ent_mean": 30.183516004811164, "train/post_ent_min": 14.557849096215289, "train/post_ent_std": 5.050389621568763, "train/prior_ent_mag": 53.20950881294582, "train/prior_ent_max": 53.20950881294582, "train/prior_ent_mean": 32.883358623670496, "train/prior_ent_min": 21.54690701028575, "train/prior_ent_std": 4.8354860077733575, "train/rep_loss_mean": 2.5884041941684224, "train/rep_loss_std": 5.165583641632743, "train/reward_avg": 0.947226565817128, "train/reward_loss_mean": 0.5227526594763217, "train/reward_loss_std": 0.24928420425757117, "train/reward_max_data": 1.99585861745088, "train/reward_max_pred": 1.9839696832325147, "train/reward_neg_acc": 0.9513970159966013, "train/reward_neg_loss": 0.4360185505255409, "train/reward_pos_acc": 0.997703852860824, "train/reward_pos_loss": 0.5361297422129175, "train/reward_pred": 0.945147816253745, "train/reward_rate": 0.8635572350543478, "stats/mean_log_entropy": -0.836585521697998, "replay/size": 30157.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.649756160578862e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0390085150000847e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33989691734314, "timer/env.step_count": 231.0, "timer/env.step_total": 6.812955379486084, "timer/env.step_frac": 0.02268415035569212, "timer/env.step_avg": 0.02949331333110859, "timer/env.step_min": 0.02221226692199707, "timer/env.step_max": 0.08222317695617676, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.2201535701751709, "timer/replay.add_frac": 0.0007330147357537371, "timer/replay.add_avg": 0.00023877827567805955, "timer/replay.add_min": 4.1961669921875e-05, "timer/replay.add_max": 0.009962797164916992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01763772964477539, "timer/logger.write_frac": 5.8725896312168906e-05, "timer/logger.write_avg": 0.01763772964477539, "timer/logger.write_min": 0.01763772964477539, "timer/logger.write_max": 0.01763772964477539, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043392181396484375, "timer/checkpoint.save_frac": 1.4447691379619267e-06, "timer/checkpoint.save_avg": 0.00043392181396484375, "timer/checkpoint.save_min": 0.00043392181396484375, "timer/checkpoint.save_max": 0.00043392181396484375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08674502372741699, "timer/agent.save_frac": 0.0002888228457749327, "timer/agent.save_avg": 0.08674502372741699, "timer/agent.save_min": 0.08674502372741699, "timer/agent.save_max": 0.08674502372741699, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.699019268720083e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.9415574073791504, "timer/agent.policy_frac": 0.0031349727992957175, "timer/agent.policy_avg": 0.004076006092550434, "timer/agent.policy_min": 0.002971649169921875, "timer/agent.policy_max": 0.053006887435913086, "timer/dataset_count": 461.0, "timer/dataset_total": 0.040738821029663086, "timer/dataset_frac": 0.0001356423886663145, "timer/dataset_avg": 8.837054453289173e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016927719116210938, "timer/agent.train_count": 461.0, "timer/agent.train_total": 292.0440721511841, "timer/agent.train_frac": 0.9723785456034761, "timer/agent.train_avg": 0.6335012411088592, "timer/agent.train_min": 0.5797135829925537, "timer/agent.train_max": 0.6967525482177734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1391003131866455, "timer/agent.report_frac": 0.0004631429743912027, "timer/agent.report_avg": 0.1391003131866455, "timer/agent.report_min": 0.1391003131866455, "timer/agent.report_max": 0.1391003131866455, "fps": 6.139670979139083}
+{"step": 62670, "train/action_mag": 2.1620095864586206, "train/action_max": 2.107261706953463, "train/action_mean": 0.0740749812077569, "train/action_min": -1.6785722789557085, "train/action_std": 0.6570922188136888, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.12064742070177327, "train/actor_opt_grad_steps": 14785.0, "train/actor_opt_loss": -206.773355566937, "train/adv_mag": 1.0739453856063925, "train/adv_max": 1.0486754911101384, "train/adv_mean": 0.021229848123924887, "train/adv_min": -0.5714771818855534, "train/adv_std": 0.06383106889932053, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.279652381270531e-09, "train/cont_loss_std": 2.9548954684066116e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.279652381270531e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.613309005032415, "train/dyn_loss_std": 5.290837598883587, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.47975233715513477, "train/extr_critic_critic_opt_grad_steps": 14785.0, "train/extr_critic_critic_opt_loss": 9194.437627377718, "train/extr_critic_mag": 363.761894557787, "train/extr_critic_max": 363.761894557787, "train/extr_critic_mean": 294.538142328677, "train/extr_critic_min": 146.19239869325057, "train/extr_critic_std": 33.403245096621305, "train/extr_return_normed_mag": 1.1604712320410686, "train/extr_return_normed_max": 1.1468543747197026, "train/extr_return_normed_mean": 0.5436631784490917, "train/extr_return_normed_min": -0.357302385058416, "train/extr_return_normed_std": 0.2911795993214068, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 368.1565664540166, "train/extr_return_raw_max": 368.1565664540166, "train/extr_return_raw_mean": 297.04027988599694, "train/extr_return_raw_min": 190.74577713012695, "train/extr_return_raw_std": 34.3258814604386, "train/extr_reward_mag": 1.9875549388968425, "train/extr_reward_max": 1.9875549388968425, "train/extr_reward_mean": 0.9689488048138826, "train/extr_reward_min": 0.0008861500283946161, "train/extr_reward_std": 0.6825205631878065, "train/image_loss_mean": 1.2761029341946477, "train/image_loss_std": 1.206812604613926, "train/model_loss_mean": 3.365348411642987, "train/model_loss_std": 4.168001351149186, "train/model_opt_grad_norm": 14.632243301557457, "train/model_opt_grad_steps": 14770.0, "train/model_opt_loss": 16826.742038892662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.979754300221153, "train/policy_entropy_max": 0.9407808016175809, "train/policy_entropy_mean": -0.7097433662932852, "train/policy_entropy_min": -0.880272626876831, "train/policy_entropy_std": 0.27105062957043236, "train/policy_logprob_mag": 7.58637173279472, "train/policy_logprob_max": 1.3786939227062722, "train/policy_logprob_mean": 0.7103403249512548, "train/policy_logprob_min": -7.58637173279472, "train/policy_logprob_std": 0.7596564202204995, "train/policy_randomness_mag": 0.7923387237217115, "train/policy_randomness_max": 0.7923387237217115, "train/policy_randomness_mean": 0.07552523052562839, "train/policy_randomness_min": 0.001465301052161047, "train/policy_randomness_std": 0.11771578706153062, "train/post_ent_mag": 40.34735588405443, "train/post_ent_max": 40.34735588405443, "train/post_ent_mean": 30.72692825483239, "train/post_ent_min": 14.731227563775104, "train/post_ent_std": 5.140473479809969, "train/prior_ent_mag": 53.34637343365213, "train/prior_ent_max": 53.34637343365213, "train/prior_ent_mean": 33.341336001520574, "train/prior_ent_min": 21.604852261750594, "train/prior_ent_std": 4.869018860485243, "train/rep_loss_mean": 2.613309005032415, "train/rep_loss_std": 5.290837598883587, "train/reward_avg": 0.965562615705573, "train/reward_loss_mean": 0.5212600581024004, "train/reward_loss_std": 0.24858544799296753, "train/reward_max_data": 1.9965895828993425, "train/reward_max_pred": 1.9839866161346436, "train/reward_neg_acc": 0.9453794774801835, "train/reward_neg_loss": 0.43980267773503845, "train/reward_pos_acc": 0.9971810112828794, "train/reward_pos_loss": 0.5338206699360972, "train/reward_pred": 0.9632440287133922, "train/reward_rate": 0.8693953804347826, "replay/size": 31083.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.6843975223681326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3027412587571608e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5256721973419, "timer/env.step_count": 231.0, "timer/env.step_total": 6.602109432220459, "timer/env.step_frac": 0.0219685372765264, "timer/env.step_avg": 0.02858056031264268, "timer/env.step_min": 0.02130436897277832, "timer/env.step_max": 0.0431368350982666, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.20026636123657227, "timer/replay.add_frac": 0.0006663868672925426, "timer/replay.add_avg": 0.00021627036850601757, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.009385824203491211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02030038833618164, "timer/logger.write_frac": 6.754959796862637e-05, "timer/logger.write_avg": 0.02030038833618164, "timer/logger.write_min": 0.02030038833618164, "timer/logger.write_max": 0.02030038833618164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8333718776702881, "timer/agent.policy_frac": 0.0027730472128286252, "timer/agent.policy_avg": 0.003607670466105143, "timer/agent.policy_min": 0.0028324127197265625, "timer/agent.policy_max": 0.018044233322143555, "timer/dataset_count": 463.0, "timer/dataset_total": 0.04087328910827637, "timer/dataset_frac": 0.00013600598181654408, "timer/dataset_avg": 8.82792421345062e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.000202178955078125, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.566531419754, "timer/agent.train_frac": 0.973515937193008, "timer/agent.train_avg": 0.6318931564141556, "timer/agent.train_min": 0.5773231983184814, "timer/agent.train_max": 0.6698582172393799, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15195798873901367, "timer/agent.report_frac": 0.0005056406250685618, "timer/agent.report_avg": 0.15195798873901367, "timer/agent.report_min": 0.15195798873901367, "timer/agent.report_max": 0.15195798873901367, "fps": 6.162493801668172}
+{"step": 64128, "episode/length": 500.0, "episode/score": 645.9665882878471, "episode/sum_abs_reward": 645.9665882878471, "episode/reward_rate": 0.8143712574850299}
+{"step": 64522, "train/action_mag": 2.1215399655889957, "train/action_max": 2.106170692342393, "train/action_mean": 0.05594106809176663, "train/action_min": -1.6816076344632087, "train/action_std": 0.6453071414156163, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10828820330665466, "train/actor_opt_grad_steps": 15250.0, "train/actor_opt_loss": -185.2462744205556, "train/adv_mag": 0.9768161456635658, "train/adv_max": 0.9526712463257161, "train/adv_mean": 0.019047501001586305, "train/adv_min": -0.5288154238716085, "train/adv_std": 0.060659098577626205, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.000338868669988e-09, "train/cont_loss_std": 3.0945110847302685e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.000338868669988e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.604119229823985, "train/dyn_loss_std": 5.3159400351504065, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4312622933945757, "train/extr_critic_critic_opt_grad_steps": 15250.0, "train/extr_critic_critic_opt_loss": 10321.447743517287, "train/extr_critic_mag": 382.7648094664229, "train/extr_critic_max": 382.7648094664229, "train/extr_critic_mean": 305.30327849692486, "train/extr_critic_min": 168.08803542116854, "train/extr_critic_std": 33.4178835686217, "train/extr_return_normed_mag": 1.1783269402828622, "train/extr_return_normed_max": 1.1783269402828622, "train/extr_return_normed_mean": 0.5496289102320976, "train/extr_return_normed_min": -0.37308146404300596, "train/extr_return_normed_std": 0.27114224624126515, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 387.04808596347243, "train/extr_return_raw_max": 387.04808596347243, "train/extr_return_raw_mean": 307.7025906177277, "train/extr_return_raw_min": 191.4271337630901, "train/extr_return_raw_std": 34.19818042186981, "train/extr_reward_mag": 1.9873231624035126, "train/extr_reward_max": 1.9873231624035126, "train/extr_reward_mean": 0.9644019248637747, "train/extr_reward_min": 0.0007767474397699884, "train/extr_reward_std": 0.6762952195837143, "train/image_loss_mean": 1.2465728673529117, "train/image_loss_std": 1.2111953877388162, "train/model_loss_mean": 3.3334637550597495, "train/model_loss_std": 4.192141157515506, "train/model_opt_grad_norm": 13.911518563615514, "train/model_opt_grad_steps": 15235.0, "train/model_opt_loss": 16667.31881648936, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9600205459493272, "train/policy_entropy_max": 0.914946031063161, "train/policy_entropy_mean": -0.7345358780089845, "train/policy_entropy_min": -0.8806589283841721, "train/policy_entropy_std": 0.2461050712364785, "train/policy_logprob_mag": 7.444353813820697, "train/policy_logprob_max": 1.379115822467398, "train/policy_logprob_mean": 0.7351433774258228, "train/policy_logprob_min": -7.444353813820697, "train/policy_logprob_std": 0.7499773261394906, "train/policy_randomness_mag": 0.7811188177859529, "train/policy_randomness_max": 0.7811188177859529, "train/policy_randomness_mean": 0.06475798702461923, "train/policy_randomness_min": 0.0012975324433237472, "train/policy_randomness_std": 0.10688206918062047, "train/post_ent_mag": 40.754545008882566, "train/post_ent_max": 40.754545008882566, "train/post_ent_mean": 31.27535531875935, "train/post_ent_min": 14.79064710089501, "train/post_ent_std": 5.237263638922509, "train/prior_ent_mag": 53.82674440424493, "train/prior_ent_max": 53.82674440424493, "train/prior_ent_mean": 33.88814349884682, "train/prior_ent_min": 21.686312127620617, "train/prior_ent_std": 4.882683429312198, "train/rep_loss_mean": 2.604119229823985, "train/rep_loss_std": 5.3159400351504065, "train/reward_avg": 0.971245343380786, "train/reward_loss_mean": 0.524419331804235, "train/reward_loss_std": 0.2371992459322544, "train/reward_max_data": 1.9929573865647012, "train/reward_max_pred": 1.9806207697442237, "train/reward_neg_acc": 0.9503325743878142, "train/reward_neg_loss": 0.4398243211685343, "train/reward_pos_acc": 0.9972092407815, "train/reward_pos_loss": 0.53648412354449, "train/reward_pred": 0.9702046374057202, "train/reward_rate": 0.870345744680851, "stats/mean_log_entropy": -0.8337612301111221, "replay/size": 32009.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.6092158537961493e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.045849101847243e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3811776638031, "timer/env.step_count": 232.0, "timer/env.step_total": 6.518028020858765, "timer/env.step_frac": 0.021699189248648477, "timer/env.step_avg": 0.028094948365770537, "timer/env.step_min": 0.020763397216796875, "timer/env.step_max": 0.043172359466552734, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.18355488777160645, "timer/replay.add_frac": 0.000611073201054719, "timer/replay.add_avg": 0.00019822342091966138, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.003553628921508789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02138996124267578, "timer/logger.write_frac": 7.120939270907366e-05, "timer/logger.write_avg": 0.02138996124267578, "timer/logger.write_min": 0.02138996124267578, "timer/logger.write_max": 0.02138996124267578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.8376286029815674, "timer/agent.policy_frac": 0.0027885522305231454, "timer/agent.policy_avg": 0.0036104681162998594, "timer/agent.policy_min": 0.0029523372650146484, "timer/agent.policy_max": 0.009774446487426758, "timer/dataset_count": 463.0, "timer/dataset_total": 0.04054570198059082, "timer/dataset_frac": 0.0001349808343383318, "timer/dataset_avg": 8.757171054123287e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.5134971141815, "timer/agent.train_frac": 0.9738076779283842, "timer/agent.train_avg": 0.6317786114777139, "timer/agent.train_min": 0.5739841461181641, "timer/agent.train_max": 0.6749446392059326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14192891120910645, "timer/agent.report_frac": 0.00047249602093230405, "timer/agent.report_avg": 0.14192891120910645, "timer/agent.report_min": 0.14192891120910645, "timer/agent.report_max": 0.14192891120910645, "fps": 6.165450796156765}
+{"step": 66374, "train/action_mag": 2.1484737422155296, "train/action_max": 2.083221787991731, "train/action_mean": 0.0985161476444615, "train/action_min": -1.7212607238603674, "train/action_std": 0.6530876768671948, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10160258979253146, "train/actor_opt_grad_steps": 15715.0, "train/actor_opt_loss": -153.32471532407016, "train/adv_mag": 0.881495502979859, "train/adv_max": 0.8392941718516143, "train/adv_mean": 0.015800317040766062, "train/adv_min": -0.5169035627142243, "train/adv_std": 0.05274826693146125, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.6665604755246823e-09, "train/cont_loss_std": 2.8723364483997154e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.6665604755246823e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.6387309354284536, "train/dyn_loss_std": 5.453523148661074, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3828230114734691, "train/extr_critic_critic_opt_grad_steps": 15715.0, "train/extr_critic_critic_opt_loss": 10005.476668648098, "train/extr_critic_mag": 392.32491202976394, "train/extr_critic_max": 392.32491202976394, "train/extr_critic_mean": 313.8807724662449, "train/extr_critic_min": 186.2388803233271, "train/extr_critic_std": 37.1016205912051, "train/extr_return_normed_mag": 1.126524348621783, "train/extr_return_normed_max": 1.126524348621783, "train/extr_return_normed_mean": 0.5184175909861274, "train/extr_return_normed_min": -0.29813371695902036, "train/extr_return_normed_std": 0.28115394484737644, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 398.2116559899372, "train/extr_return_raw_max": 398.2116559899372, "train/extr_return_raw_mean": 316.0165677277938, "train/extr_return_raw_min": 205.60861454839292, "train/extr_return_raw_std": 38.029296045717984, "train/extr_reward_mag": 1.9872883195462434, "train/extr_reward_max": 1.9872883195462434, "train/extr_reward_mean": 0.9615877024505449, "train/extr_reward_min": 0.0007258057594299316, "train/extr_reward_std": 0.678730836381083, "train/image_loss_mean": 1.2445816138516301, "train/image_loss_std": 1.209679515465446, "train/model_loss_mean": 3.3503717028576396, "train/model_loss_std": 4.256729685741922, "train/model_opt_grad_norm": 15.117676195891008, "train/model_opt_grad_steps": 15699.04347826087, "train/model_opt_loss": 16751.85848335598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9736176483009172, "train/policy_entropy_max": 0.9234400521153989, "train/policy_entropy_mean": -0.7230262289876523, "train/policy_entropy_min": -0.8808753023976865, "train/policy_entropy_std": 0.26140120900843455, "train/policy_logprob_mag": 7.344587865083114, "train/policy_logprob_max": 1.3793936268143032, "train/policy_logprob_mean": 0.722863161045572, "train/policy_logprob_min": -7.344587865083114, "train/policy_logprob_std": 0.7561851662138234, "train/policy_randomness_mag": 0.7848077260929606, "train/policy_randomness_max": 0.7848077260929606, "train/policy_randomness_mean": 0.06975655974415333, "train/policy_randomness_min": 0.001203562417725587, "train/policy_randomness_std": 0.11352509802774242, "train/post_ent_mag": 41.164602279663086, "train/post_ent_max": 41.164602279663086, "train/post_ent_mean": 31.556207117827043, "train/post_ent_min": 14.966518567956012, "train/post_ent_std": 5.32007590584133, "train/prior_ent_mag": 54.13130453358526, "train/prior_ent_max": 54.13130453358526, "train/prior_ent_mean": 34.181746192600414, "train/prior_ent_min": 21.854670400204867, "train/prior_ent_std": 4.949084613634192, "train/rep_loss_mean": 2.6387309354284536, "train/rep_loss_std": 5.453523148661074, "train/reward_avg": 0.9709273447161135, "train/reward_loss_mean": 0.522551491856575, "train/reward_loss_std": 0.24570182646098343, "train/reward_max_data": 1.9971468992855237, "train/reward_max_pred": 1.9838406625001326, "train/reward_neg_acc": 0.9409970485645792, "train/reward_neg_loss": 0.44151004954524664, "train/reward_pos_acc": 0.9977311802947003, "train/reward_pos_loss": 0.5349399564058884, "train/reward_pred": 0.9697590250035991, "train/reward_rate": 0.8680154551630435, "replay/size": 32935.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.632388285890254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0159502276591554e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13099217414856, "timer/env.step_count": 231.0, "timer/env.step_total": 6.714813232421875, "timer/env.step_frac": 0.022372941840426992, "timer/env.step_avg": 0.029068455551609848, "timer/env.step_min": 0.022169828414916992, "timer/env.step_max": 0.05098915100097656, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.18255281448364258, "timer/replay.add_frac": 0.0006082437976872372, "timer/replay.add_avg": 0.00019714126834086671, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.005842685699462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019458532333374023, "timer/logger.write_frac": 6.48334655225588e-05, "timer/logger.write_avg": 0.019458532333374023, "timer/logger.write_min": 0.019458532333374023, "timer/logger.write_max": 0.019458532333374023, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017118453979492188, "timer/checkpoint.save_frac": 5.703660876701245e-07, "timer/checkpoint.save_avg": 0.00017118453979492188, "timer/checkpoint.save_min": 0.00017118453979492188, "timer/checkpoint.save_max": 0.00017118453979492188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.16071271896362305, "timer/agent.save_frac": 0.0005354752529867718, "timer/agent.save_avg": 0.16071271896362305, "timer/agent.save_min": 0.16071271896362305, "timer/agent.save_max": 0.16071271896362305, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3831452131063698e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.9736311435699463, "timer/agent.policy_frac": 0.0032440206741628495, "timer/agent.policy_avg": 0.0042148534353677325, "timer/agent.policy_min": 0.003000497817993164, "timer/agent.policy_max": 0.12342262268066406, "timer/dataset_count": 463.0, "timer/dataset_total": 0.04099869728088379, "timer/dataset_frac": 0.00013660267799699483, "timer/dataset_avg": 8.85501021185395e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0001850128173828125, "timer/agent.train_count": 463.0, "timer/agent.train_total": 291.94363617897034, "timer/agent.train_frac": 0.9727207245880573, "timer/agent.train_avg": 0.6305478103217502, "timer/agent.train_min": 0.5730545520782471, "timer/agent.train_max": 0.6659760475158691, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14814996719360352, "timer/agent.report_frac": 0.0004936176904637716, "timer/agent.report_avg": 0.14814996719360352, "timer/agent.report_min": 0.14814996719360352, "timer/agent.report_max": 0.14814996719360352, "fps": 6.170597213625459}
+{"step": 68136, "episode/length": 500.0, "episode/score": 641.7982254945673, "episode/sum_abs_reward": 641.7982254945673, "episode/reward_rate": 0.8163672654690619}
+{"step": 68222, "train/action_mag": 2.1543931883314382, "train/action_max": 2.107302857481915, "train/action_mean": 0.04322016609164522, "train/action_min": -1.669952664686286, "train/action_std": 0.6501813712327377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.1159881075601215, "train/actor_opt_grad_steps": 16175.0, "train/actor_opt_loss": -137.63702002815577, "train/adv_mag": 0.909049312705579, "train/adv_max": 0.87645624221667, "train/adv_mean": 0.01421304313344476, "train/adv_min": -0.5495987690013387, "train/adv_std": 0.05445593781769276, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.3517747273322748e-09, "train/cont_loss_std": 2.7471721588389207e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.3517747273322748e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.5417996644973755, "train/dyn_loss_std": 5.347434023152227, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.42019908875226974, "train/extr_critic_critic_opt_grad_steps": 16175.0, "train/extr_critic_critic_opt_loss": 9777.987453294836, "train/extr_critic_mag": 394.18006697944975, "train/extr_critic_max": 394.18006697944975, "train/extr_critic_mean": 323.825171429178, "train/extr_critic_min": 186.99734215114427, "train/extr_critic_std": 35.36353277123493, "train/extr_return_normed_mag": 1.0937754485918127, "train/extr_return_normed_max": 1.0937754485918127, "train/extr_return_normed_mean": 0.531612018528192, "train/extr_return_normed_min": -0.31127290833113797, "train/extr_return_normed_std": 0.27064728153788525, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 400.9574312956437, "train/extr_return_raw_max": 400.9574312956437, "train/extr_return_raw_mean": 325.7259229577106, "train/extr_return_raw_min": 212.92056257828423, "train/extr_return_raw_std": 36.22116934734842, "train/extr_reward_mag": 1.988106281861015, "train/extr_reward_max": 1.988106281861015, "train/extr_reward_mean": 1.0036587157975072, "train/extr_reward_min": 0.0007071261820585831, "train/extr_reward_std": 0.6724211871623993, "train/image_loss_mean": 1.1649255597073098, "train/image_loss_std": 1.1112518634485162, "train/model_loss_mean": 3.2114074644835098, "train/model_loss_std": 4.114260683888975, "train/model_opt_grad_norm": 14.321020105610723, "train/model_opt_grad_steps": 16159.0, "train/model_opt_loss": 16057.037364130434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9587749411230502, "train/policy_entropy_max": 0.924995535093805, "train/policy_entropy_mean": -0.7337439112041307, "train/policy_entropy_min": -0.8804915210475093, "train/policy_entropy_std": 0.23876840847989786, "train/policy_logprob_mag": 7.52237083600915, "train/policy_logprob_max": 1.3788148916285972, "train/policy_logprob_mean": 0.7335007709005604, "train/policy_logprob_min": -7.52237083600915, "train/policy_logprob_std": 0.7495718714983567, "train/policy_randomness_mag": 0.7854832682920538, "train/policy_randomness_max": 0.7854832682920538, "train/policy_randomness_mean": 0.065101928199115, "train/policy_randomness_min": 0.0013702365255955121, "train/policy_randomness_std": 0.10369579736953197, "train/post_ent_mag": 41.62042858289636, "train/post_ent_max": 41.62042858289636, "train/post_ent_mean": 32.334117143050484, "train/post_ent_min": 15.036947022313656, "train/post_ent_std": 5.334529285845549, "train/prior_ent_mag": 54.55297188136888, "train/prior_ent_max": 54.55297188136888, "train/prior_ent_mean": 34.84198578544285, "train/prior_ent_min": 22.233849442523457, "train/prior_ent_std": 4.955481606981029, "train/rep_loss_mean": 2.5417996644973755, "train/rep_loss_std": 5.347434023152227, "train/reward_avg": 1.0163633408753767, "train/reward_loss_mean": 0.5214020823654921, "train/reward_loss_std": 0.24188546220893445, "train/reward_max_data": 1.9967445186946704, "train/reward_max_pred": 1.9849899281626162, "train/reward_neg_acc": 0.9333439184271771, "train/reward_neg_loss": 0.44841882586479187, "train/reward_pos_acc": 0.9974526672259622, "train/reward_pos_loss": 0.5311224097790925, "train/reward_pred": 1.0157326239606608, "train/reward_rate": 0.8817934782608695, "stats/mean_log_entropy": -0.8377454280853271, "replay/size": 33859.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.621056197525619e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0056348590107707e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1282021999359, "timer/env.step_count": 231.0, "timer/env.step_total": 6.601624488830566, "timer/env.step_frac": 0.021996015170986073, "timer/env.step_avg": 0.028578460990608512, "timer/env.step_min": 0.022665739059448242, "timer/env.step_max": 0.05603623390197754, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.1883378028869629, "timer/replay.add_frac": 0.0006275245095477505, "timer/replay.add_avg": 0.0002038287910032066, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.012538671493530273, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025528907775878906, "timer/logger.write_frac": 8.506000965171662e-05, "timer/logger.write_avg": 0.025528907775878906, "timer/logger.write_min": 0.025528907775878906, "timer/logger.write_max": 0.025528907775878906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8386516571044922, "timer/agent.policy_frac": 0.002794311400785352, "timer/agent.policy_avg": 0.003630526654132001, "timer/agent.policy_min": 0.003000974655151367, "timer/agent.policy_max": 0.014160394668579102, "timer/dataset_count": 462.0, "timer/dataset_total": 0.040915489196777344, "timer/dataset_frac": 0.0001363267060438417, "timer/dataset_avg": 8.856166492808948e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.0002269744873046875, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.16036462783813, "timer/agent.train_frac": 0.9734518865148506, "timer/agent.train_avg": 0.6323817416186973, "timer/agent.train_min": 0.5834119319915771, "timer/agent.train_max": 0.6748518943786621, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14930081367492676, "timer/agent.report_frac": 0.0004974567953979456, "timer/agent.report_avg": 0.14930081367492676, "timer/agent.report_min": 0.14930081367492676, "timer/agent.report_max": 0.14930081367492676, "fps": 6.157324331975933}
+{"step": 70070, "train/action_mag": 2.0269107352132383, "train/action_max": 1.9836977953496187, "train/action_mean": 0.054948101822367826, "train/action_min": -1.6276205311650815, "train/action_std": 0.6603297643039537, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10184022638460864, "train/actor_opt_grad_steps": 16635.0, "train/actor_opt_loss": -168.58205728945524, "train/adv_mag": 0.9443127823912579, "train/adv_max": 0.920367124935855, "train/adv_mean": 0.01735711885292245, "train/adv_min": -0.544536587336789, "train/adv_std": 0.0571720645479534, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.056198651639897e-09, "train/cont_loss_std": 2.4122560495003884e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.056198651639897e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.5741514278494795, "train/dyn_loss_std": 5.492765965669052, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.40487769764402637, "train/extr_critic_critic_opt_grad_steps": 16635.0, "train/extr_critic_critic_opt_loss": 8977.614119819973, "train/extr_critic_mag": 399.34965382451594, "train/extr_critic_max": 399.34965382451594, "train/extr_critic_mean": 331.8265613058339, "train/extr_critic_min": 197.4971114448879, "train/extr_critic_std": 36.65190340125042, "train/extr_return_normed_mag": 1.0698750096818674, "train/extr_return_normed_max": 1.0698750096818674, "train/extr_return_normed_mean": 0.5232781165319941, "train/extr_return_normed_min": -0.29089319521723234, "train/extr_return_normed_std": 0.2868026844833208, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 405.9126268469769, "train/extr_return_raw_max": 405.9126268469769, "train/extr_return_raw_mean": 334.1064313805622, "train/extr_return_raw_min": 227.1605463442595, "train/extr_return_raw_std": 37.68407489942468, "train/extr_reward_mag": 1.9877208989599477, "train/extr_reward_max": 1.9877208989599477, "train/extr_reward_mean": 1.0126001109247622, "train/extr_reward_min": 0.0009087427802707838, "train/extr_reward_std": 0.6820178226284359, "train/image_loss_mean": 1.1653659162314043, "train/image_loss_std": 1.1568632074024365, "train/model_loss_mean": 3.229936604914458, "train/model_loss_std": 4.250952870949455, "train/model_opt_grad_norm": 14.464152460512908, "train/model_opt_grad_steps": 16618.304347826088, "train/model_opt_loss": 17554.754288383152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5434.782608695652, "train/policy_entropy_mag": 0.9041099042996116, "train/policy_entropy_max": 0.8277080603267836, "train/policy_entropy_mean": -0.7393424199975055, "train/policy_entropy_min": -0.8810731535372527, "train/policy_entropy_std": 0.22330607668213223, "train/policy_logprob_mag": 7.310293518978616, "train/policy_logprob_max": 1.3792850867561672, "train/policy_logprob_mean": 0.7383515096229055, "train/policy_logprob_min": -7.310293518978616, "train/policy_logprob_std": 0.7446247222630874, "train/policy_randomness_mag": 0.7432318563046663, "train/policy_randomness_max": 0.7432318563046663, "train/policy_randomness_mean": 0.06267053471959155, "train/policy_randomness_min": 0.0011176367558579407, "train/policy_randomness_std": 0.09698059191198452, "train/post_ent_mag": 42.07257080078125, "train/post_ent_max": 42.07257080078125, "train/post_ent_mean": 32.680148746656336, "train/post_ent_min": 14.928834583448326, "train/post_ent_std": 5.506564378738403, "train/prior_ent_mag": 54.5896288001019, "train/prior_ent_max": 54.5896288001019, "train/prior_ent_mean": 35.26206257032312, "train/prior_ent_min": 21.82266256083613, "train/prior_ent_std": 5.038091011669325, "train/rep_loss_mean": 2.5741514278494795, "train/rep_loss_std": 5.492765965669052, "train/reward_avg": 1.0224359152109728, "train/reward_loss_mean": 0.5200798440238704, "train/reward_loss_std": 0.2404577945885451, "train/reward_max_data": 1.996532230273537, "train/reward_max_pred": 1.9843808723532634, "train/reward_neg_acc": 0.9363787886889084, "train/reward_neg_loss": 0.4455659156260283, "train/reward_pos_acc": 0.997416817623636, "train/reward_pos_loss": 0.5303454885016317, "train/reward_pred": 1.0223547894021738, "train/reward_rate": 0.8755095108695652, "replay/size": 34783.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.6148635071593447e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.009731065659296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16905403137207, "timer/env.step_count": 231.0, "timer/env.step_total": 6.520147800445557, "timer/env.step_frac": 0.021721585596109136, "timer/env.step_avg": 0.02822574805387687, "timer/env.step_min": 0.022452831268310547, "timer/env.step_max": 0.05048704147338867, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.22883319854736328, "timer/replay.add_frac": 0.0007623477352980126, "timer/replay.add_avg": 0.0002476549767828607, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.028415203094482422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03293633460998535, "timer/logger.write_frac": 0.0001097259499859803, "timer/logger.write_avg": 0.03293633460998535, "timer/logger.write_min": 0.03293633460998535, "timer/logger.write_max": 0.03293633460998535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8446028232574463, "timer/agent.policy_frac": 0.002813757154224076, "timer/agent.policy_avg": 0.003656289278170763, "timer/agent.policy_min": 0.003003358840942383, "timer/agent.policy_max": 0.009294271469116211, "timer/dataset_count": 462.0, "timer/dataset_total": 0.041016578674316406, "timer/dataset_frac": 0.00013664492766142898, "timer/dataset_avg": 8.878047332103119e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.2384178638458, "timer/agent.train_frac": 0.9735794344519693, "timer/agent.train_avg": 0.6325506880169823, "timer/agent.train_min": 0.576714277267456, "timer/agent.train_max": 0.6858479976654053, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1553816795349121, "timer/agent.report_frac": 0.0005176472306124949, "timer/agent.report_avg": 0.1553816795349121, "timer/agent.report_min": 0.1553816795349121, "timer/agent.report_max": 0.1553816795349121, "fps": 6.156499758570764}
+{"step": 71922, "train/action_mag": 1.9978320700057008, "train/action_max": 1.9804582570461517, "train/action_mean": 0.035841254928605036, "train/action_min": -1.661119113577173, "train/action_std": 0.6577296637474223, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.12337814509234529, "train/actor_opt_grad_steps": 17100.0, "train/actor_opt_loss": -181.30770614299368, "train/adv_mag": 0.8942355234572228, "train/adv_max": 0.8580178992545351, "train/adv_mean": 0.018647007961222466, "train/adv_min": -0.5466456362541686, "train/adv_std": 0.055100158015464216, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.8477811173040834e-09, "train/cont_loss_std": 2.3020084207642115e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.8477811173040834e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.519229701224794, "train/dyn_loss_std": 5.396237211024507, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4521725095332937, "train/extr_critic_critic_opt_grad_steps": 17100.0, "train/extr_critic_critic_opt_loss": 8233.264336768618, "train/extr_critic_mag": 415.37069312562335, "train/extr_critic_max": 415.37069312562335, "train/extr_critic_mean": 342.88906535696475, "train/extr_critic_min": 193.1754176363032, "train/extr_critic_std": 37.89005356646599, "train/extr_return_normed_mag": 1.1005662654308563, "train/extr_return_normed_max": 1.098018265785055, "train/extr_return_normed_mean": 0.5518450324839734, "train/extr_return_normed_min": -0.40808462716163474, "train/extr_return_normed_std": 0.2918311300429892, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 418.14608310131314, "train/extr_return_raw_max": 418.14608310131314, "train/extr_return_raw_mean": 345.37102557243185, "train/extr_return_raw_min": 217.55088286704205, "train/extr_return_raw_std": 38.883908860226896, "train/extr_reward_mag": 1.9886583977557244, "train/extr_reward_max": 1.9886583977557244, "train/extr_reward_mean": 1.0462794684349221, "train/extr_reward_min": 0.0008207889313393451, "train/extr_reward_std": 0.688342829968067, "train/image_loss_mean": 1.1123281019799254, "train/image_loss_std": 1.1065126720895158, "train/model_loss_mean": 3.145882266633054, "train/model_loss_std": 4.157129967466314, "train/model_opt_grad_norm": 13.859753426085128, "train/model_opt_grad_steps": 17083.0, "train/model_opt_loss": 15729.41131981383, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9039228837540809, "train/policy_entropy_max": 0.8158745385230856, "train/policy_entropy_mean": -0.7344863820583263, "train/policy_entropy_min": -0.8813546135070476, "train/policy_entropy_std": 0.22957795953496973, "train/policy_logprob_mag": 7.26359287221381, "train/policy_logprob_max": 1.3797565546441586, "train/policy_logprob_mean": 0.7346430826694408, "train/policy_logprob_min": -7.26359287221381, "train/policy_logprob_std": 0.7457914555326421, "train/policy_randomness_mag": 0.7380926241265967, "train/policy_randomness_max": 0.7380926241265967, "train/policy_randomness_mean": 0.06477947913585826, "train/policy_randomness_min": 0.000995400250255269, "train/policy_randomness_std": 0.09970443664079016, "train/post_ent_mag": 42.505949304458944, "train/post_ent_max": 42.505949304458944, "train/post_ent_mean": 33.271956342331904, "train/post_ent_min": 15.363198828189931, "train/post_ent_std": 5.532724471802407, "train/prior_ent_mag": 54.97714420075112, "train/prior_ent_max": 54.97714420075112, "train/prior_ent_mean": 35.75786298386594, "train/prior_ent_min": 22.165025832805227, "train/prior_ent_std": 5.023013449729757, "train/rep_loss_mean": 2.519229701224794, "train/rep_loss_std": 5.396237211024507, "train/reward_avg": 1.061400057153499, "train/reward_loss_mean": 0.5220163705501151, "train/reward_loss_std": 0.23904721946158308, "train/reward_max_data": 1.9973069606943334, "train/reward_max_pred": 1.9859338466157304, "train/reward_neg_acc": 0.9472177371065668, "train/reward_neg_loss": 0.43926978238085485, "train/reward_pos_acc": 0.9978667231316262, "train/reward_pos_loss": 0.5323782810505401, "train/reward_pred": 1.0597994530454595, "train/reward_rate": 0.8855344082446809, "replay/size": 35709.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.5826962926217857e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0065847030211215e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.46619176864624, "timer/env.step_count": 232.0, "timer/env.step_total": 6.61085057258606, "timer/env.step_frac": 0.02200197810499858, "timer/env.step_avg": 0.028495045571491635, "timer/env.step_min": 0.022052288055419922, "timer/env.step_max": 0.052228450775146484, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.18460988998413086, "timer/replay.add_frac": 0.0006144115213011296, "timer/replay.add_avg": 0.00019936273216428817, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.008335351943969727, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02741074562072754, "timer/logger.write_frac": 9.122738721244665e-05, "timer/logger.write_avg": 0.02741074562072754, "timer/logger.write_min": 0.02741074562072754, "timer/logger.write_max": 0.02741074562072754, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004963874816894531, "timer/checkpoint.save_frac": 1.6520576866486958e-06, "timer/checkpoint.save_avg": 0.0004963874816894531, "timer/checkpoint.save_min": 0.0004963874816894531, "timer/checkpoint.save_max": 0.0004963874816894531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08876919746398926, "timer/agent.save_frac": 0.0002954382219891814, "timer/agent.save_avg": 0.08876919746398926, "timer/agent.save_min": 0.08876919746398926, "timer/agent.save_max": 0.08876919746398926, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.512901306152344e-05, "timer/replay.save_frac": 3.166047151646636e-07, "timer/replay.save_avg": 9.512901306152344e-05, "timer/replay.save_min": 9.512901306152344e-05, "timer/replay.save_max": 9.512901306152344e-05, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.8849928379058838, "timer/agent.policy_frac": 0.002945399057033721, "timer/agent.policy_avg": 0.0038146243013184645, "timer/agent.policy_min": 0.002965211868286133, "timer/agent.policy_max": 0.056482791900634766, "timer/dataset_count": 463.0, "timer/dataset_total": 0.039788007736206055, "timer/dataset_frac": 0.00013242091398702897, "timer/dataset_avg": 8.593522189245368e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.4682445526123, "timer/agent.train_frac": 0.9733815403025702, "timer/agent.train_avg": 0.6316808737637415, "timer/agent.train_min": 0.5733659267425537, "timer/agent.train_max": 0.6749799251556396, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14178228378295898, "timer/agent.report_frac": 0.0004718743328438392, "timer/agent.report_avg": 0.14178228378295898, "timer/agent.report_min": 0.14178228378295898, "timer/agent.report_max": 0.14178228378295898, "fps": 6.163725104686706}
+{"step": 72144, "episode/length": 500.0, "episode/score": 798.0030501183355, "episode/sum_abs_reward": 798.0030501183355, "episode/reward_rate": 0.906187624750499}
+{"step": 73770, "train/action_mag": 2.2186637572620227, "train/action_max": 2.1965166252592336, "train/action_mean": 0.059475995276285255, "train/action_min": -1.6765167842740598, "train/action_std": 0.654396098593007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.143773317175067, "train/actor_opt_grad_steps": 17565.0, "train/actor_opt_loss": -176.8000314132027, "train/adv_mag": 1.0105863414380862, "train/adv_max": 0.9690220466126567, "train/adv_mean": 0.018177437757992226, "train/adv_min": -0.5369482105192931, "train/adv_std": 0.05393806691079036, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.5452568072505182e-09, "train/cont_loss_std": 2.05487041874928e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.5452568072505182e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.551421414250913, "train/dyn_loss_std": 5.370494604110718, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.41654871501352475, "train/extr_critic_critic_opt_grad_steps": 17565.0, "train/extr_critic_critic_opt_loss": 9348.89213230299, "train/extr_critic_mag": 436.05899114194125, "train/extr_critic_max": 436.05899114194125, "train/extr_critic_mean": 352.5631216297979, "train/extr_critic_min": 192.16936526091203, "train/extr_critic_std": 39.40653643400773, "train/extr_return_normed_mag": 1.1366641340048418, "train/extr_return_normed_max": 1.1338491932205532, "train/extr_return_normed_mean": 0.565472208287405, "train/extr_return_normed_min": -0.3286464033602818, "train/extr_return_normed_std": 0.2832998277052589, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 435.85583960491675, "train/extr_return_raw_max": 435.85583960491675, "train/extr_return_raw_mean": 355.1443189538044, "train/extr_return_raw_min": 228.2959029156229, "train/extr_return_raw_std": 40.2261146877123, "train/extr_reward_mag": 1.9894071558247441, "train/extr_reward_max": 1.9894071558247441, "train/extr_reward_mean": 1.0322838309018507, "train/extr_reward_min": 0.0006725684456203295, "train/extr_reward_std": 0.6868820669858352, "train/image_loss_mean": 1.1314161653104036, "train/image_loss_std": 1.1163978706235471, "train/model_loss_mean": 3.181243062019348, "train/model_loss_std": 4.134624030279077, "train/model_opt_grad_norm": 13.387118982232135, "train/model_opt_grad_steps": 17548.0, "train/model_opt_loss": 24466.740467900814, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7717.391304347826, "train/policy_entropy_mag": 1.045074180416439, "train/policy_entropy_max": 1.0438289499801139, "train/policy_entropy_mean": -0.7133390968260558, "train/policy_entropy_min": -0.8811097559721573, "train/policy_entropy_std": 0.26903858748467074, "train/policy_logprob_mag": 7.536258448725161, "train/policy_logprob_max": 1.3794526872427568, "train/policy_logprob_mean": 0.7128862894099691, "train/policy_logprob_min": -7.536258448725161, "train/policy_logprob_std": 0.7608973928119825, "train/policy_randomness_mag": 0.8370919616326041, "train/policy_randomness_max": 0.8370919616326041, "train/policy_randomness_mean": 0.07396362811003042, "train/policy_randomness_min": 0.0011017405233123218, "train/policy_randomness_std": 0.11684196879682333, "train/post_ent_mag": 42.68304501409116, "train/post_ent_max": 42.68304501409116, "train/post_ent_mean": 33.373658843662426, "train/post_ent_min": 15.626198975936227, "train/post_ent_std": 5.510738030723903, "train/prior_ent_mag": 55.45668883945631, "train/prior_ent_max": 55.45668883945631, "train/prior_ent_mean": 35.87994865749193, "train/prior_ent_min": 22.412982235784117, "train/prior_ent_std": 5.048462131749028, "train/rep_loss_mean": 2.551421414250913, "train/rep_loss_std": 5.370494604110718, "train/reward_avg": 1.040705451498861, "train/reward_loss_mean": 0.5189740612455036, "train/reward_loss_std": 0.23617446714121362, "train/reward_max_data": 1.995814870233121, "train/reward_max_pred": 1.985078593958979, "train/reward_neg_acc": 0.9363008297008016, "train/reward_neg_loss": 0.4473288214724997, "train/reward_pos_acc": 0.9974349024503127, "train/reward_pos_loss": 0.528251246265743, "train/reward_pred": 1.0394783693811167, "train/reward_rate": 0.8812627377717391, "stats/mean_log_entropy": -0.8520759493112564, "replay/size": 36633.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.656406138366435e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0052800694585364e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26987528800964, "timer/env.step_count": 231.0, "timer/env.step_total": 6.556529760360718, "timer/env.step_frac": 0.021835456367615618, "timer/env.step_avg": 0.028383245715847265, "timer/env.step_min": 0.021721363067626953, "timer/env.step_max": 0.05780935287475586, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.23258161544799805, "timer/replay.add_frac": 0.0007745752557592163, "timer/replay.add_avg": 0.0002517117050303009, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.024271011352539062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0186765193939209, "timer/logger.write_frac": 6.219911130281369e-05, "timer/logger.write_avg": 0.0186765193939209, "timer/logger.write_min": 0.0186765193939209, "timer/logger.write_max": 0.0186765193939209, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8287053108215332, "timer/agent.policy_frac": 0.0027598683018956347, "timer/agent.policy_avg": 0.0035874688780152954, "timer/agent.policy_min": 0.0028939247131347656, "timer/agent.policy_max": 0.019289493560791016, "timer/dataset_count": 462.0, "timer/dataset_total": 0.041611671447753906, "timer/dataset_frac": 0.0001385809062858579, "timer/dataset_avg": 9.006855291721625e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00022840499877929688, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.3259189128876, "timer/agent.train_frac": 0.973543944867921, "timer/agent.train_avg": 0.6327400842270294, "timer/agent.train_min": 0.5769281387329102, "timer/agent.train_max": 0.7396359443664551, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14506793022155762, "timer/agent.report_frac": 0.00048312515560348143, "timer/agent.report_avg": 0.14506793022155762, "timer/agent.report_min": 0.14506793022155762, "timer/agent.report_max": 0.14506793022155762, "fps": 6.15441218213791}
+{"step": 75614, "train/action_mag": 2.21048048786495, "train/action_max": 2.1896889494813006, "train/action_mean": 0.07001319460054535, "train/action_min": -1.7839250227679377, "train/action_std": 0.6473378772320955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.13670929399845394, "train/actor_opt_grad_steps": 18025.0, "train/actor_opt_loss": -150.9451786538829, "train/adv_mag": 0.8682796773703202, "train/adv_max": 0.8298955488464107, "train/adv_mean": 0.015549745086742483, "train/adv_min": -0.48727981940559717, "train/adv_std": 0.050291892546026604, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.170671584507219e-09, "train/cont_loss_std": 1.87048298106379e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.170671584507219e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.541808175004047, "train/dyn_loss_std": 5.4197138703387715, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3539733786297881, "train/extr_critic_critic_opt_grad_steps": 18025.0, "train/extr_critic_critic_opt_loss": 10731.270125679348, "train/extr_critic_mag": 448.1735965894616, "train/extr_critic_max": 448.1735965894616, "train/extr_critic_mean": 362.7522251295007, "train/extr_critic_min": 211.8627173382303, "train/extr_critic_std": 41.133811909219496, "train/extr_return_normed_mag": 1.1380153142887612, "train/extr_return_normed_max": 1.1379181094791577, "train/extr_return_normed_mean": 0.5571052218260972, "train/extr_return_normed_min": -0.2936810978242885, "train/extr_return_normed_std": 0.2870060762633448, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 449.61717224121094, "train/extr_return_raw_max": 449.61717224121094, "train/extr_return_raw_mean": 365.0152813455333, "train/extr_return_raw_min": 241.09530540134597, "train/extr_return_raw_std": 41.799632404161535, "train/extr_reward_mag": 1.9897796485735022, "train/extr_reward_max": 1.9897796485735022, "train/extr_reward_mean": 1.0162342670171156, "train/extr_reward_min": 0.0007010439167851987, "train/extr_reward_std": 0.6849817128285117, "train/image_loss_mean": 1.1007543763388759, "train/image_loss_std": 1.078639003245727, "train/model_loss_mean": 3.1420667119648145, "train/model_loss_std": 4.1331335876298985, "train/model_opt_grad_norm": 14.016646219336469, "train/model_opt_grad_steps": 18007.108695652172, "train/model_opt_loss": 17474.64754585598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5543.478260869565, "train/policy_entropy_mag": 1.1369194362474524, "train/policy_entropy_max": 1.1369194362474524, "train/policy_entropy_mean": -0.7164605117362478, "train/policy_entropy_min": -0.8812066783075747, "train/policy_entropy_std": 0.26087409549433255, "train/policy_logprob_mag": 7.5043657033339795, "train/policy_logprob_max": 1.379752208357272, "train/policy_logprob_mean": 0.716878029315368, "train/policy_logprob_min": -7.5043657033339795, "train/policy_logprob_std": 0.7537996056287185, "train/policy_randomness_mag": 0.8775206376676974, "train/policy_randomness_max": 0.8775206376676974, "train/policy_randomness_mean": 0.07260801116733448, "train/policy_randomness_min": 0.001059647690018882, "train/policy_randomness_std": 0.11329617529459622, "train/post_ent_mag": 42.87895103122877, "train/post_ent_max": 42.87895103122877, "train/post_ent_mean": 33.71458111638608, "train/post_ent_min": 15.660368774248207, "train/post_ent_std": 5.624000684074733, "train/prior_ent_mag": 55.634631447170094, "train/prior_ent_max": 55.634631447170094, "train/prior_ent_mean": 36.18493884542714, "train/prior_ent_min": 22.5948836699776, "train/prior_ent_std": 5.128314256668091, "train/rep_loss_mean": 2.541808175004047, "train/rep_loss_std": 5.4197138703387715, "train/reward_avg": 1.0244984860005586, "train/reward_loss_mean": 0.5162273962860522, "train/reward_loss_std": 0.2373265073351238, "train/reward_max_data": 1.9950548695481343, "train/reward_max_pred": 1.9854189209316089, "train/reward_neg_acc": 0.9491099132143933, "train/reward_neg_loss": 0.4410205697235854, "train/reward_pos_acc": 0.9971503615379333, "train/reward_pos_loss": 0.5268240149902261, "train/reward_pred": 1.0231075986571934, "train/reward_rate": 0.8794369904891305, "replay/size": 37555.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.8574027104905268e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0231699705641078e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0607838630676, "timer/env.step_count": 230.0, "timer/env.step_total": 6.574294328689575, "timer/env.step_frac": 0.021909875206117393, "timer/env.step_avg": 0.02858388838560685, "timer/env.step_min": 0.02225351333618164, "timer/env.step_max": 0.07653975486755371, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.19335627555847168, "timer/replay.add_frac": 0.0006443903567442175, "timer/replay.add_avg": 0.00020971396481396062, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.007742881774902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025220394134521484, "timer/logger.write_frac": 8.405095064348956e-05, "timer/logger.write_avg": 0.025220394134521484, "timer/logger.write_min": 0.025220394134521484, "timer/logger.write_max": 0.025220394134521484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 230.0, "timer/agent.policy_total": 0.828850269317627, "timer/agent.policy_frac": 0.00276227455866366, "timer/agent.policy_avg": 0.003603696823120117, "timer/agent.policy_min": 0.0030083656311035156, "timer/agent.policy_max": 0.012228965759277344, "timer/dataset_count": 461.0, "timer/dataset_total": 0.0409998893737793, "timer/dataset_frac": 0.00013663861317008872, "timer/dataset_avg": 8.893685330537809e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.000324249267578125, "timer/agent.train_count": 461.0, "timer/agent.train_total": 292.14333415031433, "timer/agent.train_frac": 0.9736138471318317, "timer/agent.train_avg": 0.6337165599789899, "timer/agent.train_min": 0.5839307308197021, "timer/agent.train_max": 0.7096476554870605, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14858102798461914, "timer/agent.report_frac": 0.0004951697655113235, "timer/agent.report_avg": 0.14858102798461914, "timer/agent.report_min": 0.14858102798461914, "timer/agent.report_max": 0.14858102798461914, "fps": 6.145359072799114}
+{"step": 76152, "episode/length": 500.0, "episode/score": 847.3777811066248, "episode/sum_abs_reward": 847.3777811066248, "episode/reward_rate": 0.9520958083832335}
+{"step": 77462, "train/action_mag": 2.5555922622266025, "train/action_max": 2.533334791660309, "train/action_mean": 0.061624238677525325, "train/action_min": -1.774220435515694, "train/action_std": 0.6324535971102507, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.14427729493573957, "train/actor_opt_grad_steps": 18485.0, "train/actor_opt_loss": -151.64059307264245, "train/adv_mag": 1.160469137456106, "train/adv_max": 1.1458002853652705, "train/adv_mean": 0.015616518637651334, "train/adv_min": -0.4427242505809535, "train/adv_std": 0.055722130867450134, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.1119401276113183e-09, "train/cont_loss_std": 1.7842225016280768e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.1119401276113183e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4726965582889058, "train/dyn_loss_std": 5.289116061252097, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.33071560801371286, "train/extr_critic_critic_opt_grad_steps": 18485.0, "train/extr_critic_critic_opt_loss": 10877.916737432066, "train/extr_critic_mag": 456.18142899222994, "train/extr_critic_max": 456.18142899222994, "train/extr_critic_mean": 374.9963086998981, "train/extr_critic_min": 184.46209136299464, "train/extr_critic_std": 42.70184852765954, "train/extr_return_normed_mag": 1.1118791466173918, "train/extr_return_normed_max": 1.1118791466173918, "train/extr_return_normed_mean": 0.5670232202695764, "train/extr_return_normed_min": -0.2794076736672255, "train/extr_return_normed_std": 0.28981863318578055, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 458.7056639298149, "train/extr_return_raw_max": 458.7056639298149, "train/extr_return_raw_mean": 377.32454581882644, "train/extr_return_raw_min": 250.8847835374915, "train/extr_return_raw_std": 43.30750005141549, "train/extr_reward_mag": 1.9901721943979678, "train/extr_reward_max": 1.9901721943979678, "train/extr_reward_mean": 1.0799476076727328, "train/extr_reward_min": 0.0006705729857735012, "train/extr_reward_std": 0.686167924300484, "train/image_loss_mean": 1.064588927704355, "train/image_loss_std": 1.0348798114320505, "train/model_loss_mean": 3.0676615911981333, "train/model_loss_std": 4.013139735097471, "train/model_opt_grad_norm": 14.063336890676748, "train/model_opt_grad_steps": 18467.0, "train/model_opt_loss": 15338.307893172554, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.2693000617234602, "train/policy_entropy_max": 1.2693000617234602, "train/policy_entropy_mean": -0.7184773851995883, "train/policy_entropy_min": -0.8809363893840624, "train/policy_entropy_std": 0.2675996225165284, "train/policy_logprob_mag": 7.179574634717858, "train/policy_logprob_max": 1.3794448583022407, "train/policy_logprob_mean": 0.7189085198485333, "train/policy_logprob_min": -7.179574634717858, "train/policy_logprob_std": 0.7584729946177938, "train/policy_randomness_mag": 0.9350128018337748, "train/policy_randomness_max": 0.9350128018337748, "train/policy_randomness_mean": 0.07173209847963374, "train/policy_randomness_min": 0.0011770326704920633, "train/policy_randomness_std": 0.11621703353265057, "train/post_ent_mag": 43.11624634784201, "train/post_ent_max": 43.11624634784201, "train/post_ent_mean": 34.460523439490274, "train/post_ent_min": 15.994358954222307, "train/post_ent_std": 5.573792903319649, "train/prior_ent_mag": 55.753532990165375, "train/prior_ent_max": 55.753532990165375, "train/prior_ent_mean": 36.940224357273266, "train/prior_ent_min": 23.026024528171707, "train/prior_ent_std": 5.002502337745998, "train/rep_loss_mean": 2.4726965582889058, "train/rep_loss_std": 5.289116061252097, "train/reward_avg": 1.0944383118463599, "train/reward_loss_mean": 0.5194547318893931, "train/reward_loss_std": 0.23812907642644385, "train/reward_max_data": 1.9961262163908586, "train/reward_max_pred": 1.9861121074013088, "train/reward_neg_acc": 0.9317761750324912, "train/reward_neg_loss": 0.44729727053123974, "train/reward_pos_acc": 0.9974776921064957, "train/reward_pos_loss": 0.5288727646288665, "train/reward_pred": 1.093776671782784, "train/reward_rate": 0.8826002038043478, "stats/mean_log_entropy": -0.846651166677475, "replay/size": 38479.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.5872544292763716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0334697120633477e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30357694625854, "timer/env.step_count": 231.0, "timer/env.step_total": 6.613576650619507, "timer/env.step_frac": 0.022022969948849638, "timer/env.step_avg": 0.028630201950733795, "timer/env.step_min": 0.0211637020111084, "timer/env.step_max": 0.0763559341430664, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.187239408493042, "timer/replay.add_frac": 0.0006235004271246153, "timer/replay.add_avg": 0.00020264005248164717, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.007726430892944336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024214744567871094, "timer/logger.write_frac": 8.063421959241096e-05, "timer/logger.write_avg": 0.024214744567871094, "timer/logger.write_min": 0.024214744567871094, "timer/logger.write_max": 0.024214744567871094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001773834228515625, "timer/checkpoint.save_frac": 5.906803530458997e-07, "timer/checkpoint.save_avg": 0.0001773834228515625, "timer/checkpoint.save_min": 0.0001773834228515625, "timer/checkpoint.save_max": 0.0001773834228515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08226275444030762, "timer/agent.save_frac": 0.0002739319833510645, "timer/agent.save_avg": 0.08226275444030762, "timer/agent.save_min": 0.08226275444030762, "timer/agent.save_max": 0.08226275444030762, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011038780212402344, "timer/replay.save_frac": 3.675873702422736e-07, "timer/replay.save_avg": 0.00011038780212402344, "timer/replay.save_min": 0.00011038780212402344, "timer/replay.save_max": 0.00011038780212402344, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8826315402984619, "timer/agent.policy_frac": 0.0029391309596569176, "timer/agent.policy_avg": 0.0038209157588678004, "timer/agent.policy_min": 0.002971649169921875, "timer/agent.policy_max": 0.05241537094116211, "timer/dataset_count": 462.0, "timer/dataset_total": 0.04163169860839844, "timer/dataset_frac": 0.00013863204371970808, "timer/dataset_avg": 9.011190174978017e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.001743316650390625, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.2788646221161, "timer/agent.train_frac": 0.9732779995305266, "timer/agent.train_avg": 0.6326382351128054, "timer/agent.train_min": 0.5779166221618652, "timer/agent.train_max": 0.678656816482544, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.150986909866333, "timer/agent.report_frac": 0.0005027809238960653, "timer/agent.report_avg": 0.150986909866333, "timer/agent.report_min": 0.150986909866333, "timer/agent.report_max": 0.150986909866333, "fps": 6.153744000335353}
+{"step": 79306, "train/action_mag": 2.7291222499764483, "train/action_max": 2.712538962778838, "train/action_mean": 0.05531993083169927, "train/action_min": -1.9616759445356287, "train/action_std": 0.646634922079418, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10903825870026713, "train/actor_opt_grad_steps": 18945.0, "train/actor_opt_loss": -147.63471570222273, "train/adv_mag": 1.0580372933460318, "train/adv_max": 1.0459301400443781, "train/adv_mean": 0.015211850313631736, "train/adv_min": -0.4752655145914658, "train/adv_std": 0.05259504007256549, "train/cont_avg": 1.0, "train/cont_loss_mean": 2.0028335753160013e-09, "train/cont_loss_std": 1.8545399129420582e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 2.0028335753160013e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4815733069958896, "train/dyn_loss_std": 5.398431477339371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.36140056084031646, "train/extr_critic_critic_opt_grad_steps": 18945.0, "train/extr_critic_critic_opt_loss": 9938.498386548914, "train/extr_critic_mag": 461.6078404965608, "train/extr_critic_max": 461.6078404965608, "train/extr_critic_mean": 384.7907960311226, "train/extr_critic_min": 191.56746076500934, "train/extr_critic_std": 45.151954153309696, "train/extr_return_normed_mag": 1.0613635286040928, "train/extr_return_normed_max": 1.0613635286040928, "train/extr_return_normed_mean": 0.5618218811957733, "train/extr_return_normed_min": -0.3060617672694523, "train/extr_return_normed_std": 0.29016660574985587, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 465.9875256082286, "train/extr_return_raw_max": 465.9875256082286, "train/extr_return_raw_mean": 387.1880884585173, "train/extr_return_raw_min": 250.3518706611965, "train/extr_return_raw_std": 45.762953633847445, "train/extr_reward_mag": 1.990393182505732, "train/extr_reward_max": 1.990393182505732, "train/extr_reward_mean": 1.0897563657034999, "train/extr_reward_min": 0.0007378070250801418, "train/extr_reward_std": 0.6846547178600145, "train/image_loss_mean": 1.0547810093216274, "train/image_loss_std": 1.0865125409934833, "train/model_loss_mean": 3.0632979196050893, "train/model_loss_std": 4.13619369527568, "train/model_opt_grad_norm": 14.685540696848994, "train/model_opt_grad_steps": 18926.434782608696, "train/model_opt_loss": 17336.842348845108, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5760.869565217391, "train/policy_entropy_mag": 1.3568149260852649, "train/policy_entropy_max": 1.3568149260852649, "train/policy_entropy_mean": -0.7003308612367382, "train/policy_entropy_min": -0.881073174269303, "train/policy_entropy_std": 0.28696546055700467, "train/policy_logprob_mag": 7.780484811119411, "train/policy_logprob_max": 1.3797249612600908, "train/policy_logprob_mean": 0.6988342067469722, "train/policy_logprob_min": -7.780484811119411, "train/policy_logprob_std": 0.767543199269668, "train/policy_randomness_mag": 0.9730200404706209, "train/policy_randomness_max": 0.9730200404706209, "train/policy_randomness_mean": 0.07961303254832393, "train/policy_randomness_min": 0.0011176277615089455, "train/policy_randomness_std": 0.12462751000471738, "train/post_ent_mag": 43.32818089360776, "train/post_ent_max": 43.32818089360776, "train/post_ent_mean": 34.733824854311734, "train/post_ent_min": 15.902918919273045, "train/post_ent_std": 5.624300324398538, "train/prior_ent_mag": 55.95597615449325, "train/prior_ent_max": 55.95597615449325, "train/prior_ent_mean": 37.17796217876932, "train/prior_ent_min": 22.90005634142005, "train/prior_ent_std": 5.008589153704436, "train/rep_loss_mean": 2.4815733069958896, "train/rep_loss_std": 5.398431477339371, "train/reward_avg": 1.1040730009908262, "train/reward_loss_mean": 0.5195729149424512, "train/reward_loss_std": 0.24078693532425424, "train/reward_max_data": 1.9965104719866877, "train/reward_max_pred": 1.9870887217314348, "train/reward_neg_acc": 0.9412214328413424, "train/reward_neg_loss": 0.43882865426333056, "train/reward_pos_acc": 0.997358166653177, "train/reward_pos_loss": 0.5291534539150156, "train/reward_pred": 1.1022154416726984, "train/reward_rate": 0.892578125, "replay/size": 39401.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.6055375303984204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0667098059830076e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16120529174805, "timer/env.step_count": 231.0, "timer/env.step_total": 6.456600189208984, "timer/env.step_frac": 0.021510441973783236, "timer/env.step_avg": 0.027950650169735865, "timer/env.step_min": 0.021744489669799805, "timer/env.step_max": 0.058741092681884766, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.19259428977966309, "timer/replay.add_frac": 0.0006416361821057687, "timer/replay.add_avg": 0.00020888751603000334, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.011159420013427734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.016132116317749023, "timer/logger.write_frac": 5.374484121646923e-05, "timer/logger.write_avg": 0.016132116317749023, "timer/logger.write_min": 0.016132116317749023, "timer/logger.write_max": 0.016132116317749023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8319008350372314, "timer/agent.policy_frac": 0.002771513507978647, "timer/agent.policy_avg": 0.003601302316178491, "timer/agent.policy_min": 0.00304412841796875, "timer/agent.policy_max": 0.009060859680175781, "timer/dataset_count": 461.0, "timer/dataset_total": 0.04055356979370117, "timer/dataset_frac": 0.0001351059666564314, "timer/dataset_avg": 8.796869803405894e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 461.0, "timer/agent.train_total": 292.36700224876404, "timer/agent.train_frac": 0.9740332764342139, "timer/agent.train_avg": 0.6342017402359307, "timer/agent.train_min": 0.5977981090545654, "timer/agent.train_max": 0.6730914115905762, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1510157585144043, "timer/agent.report_frac": 0.0005031155121049748, "timer/agent.report_avg": 0.1510157585144043, "timer/agent.report_min": 0.1510157585144043, "timer/agent.report_max": 0.1510157585144043, "fps": 6.143315414139933}
+{"step": 80160, "episode/length": 500.0, "episode/score": 961.132110118866, "episode/sum_abs_reward": 961.132110118866, "episode/reward_rate": 0.998003992015968}
+{"step": 81158, "train/action_mag": 2.970794566134189, "train/action_max": 2.9612518929420633, "train/action_mean": 0.04621305611935702, "train/action_min": -2.0046794997884874, "train/action_std": 0.6643132465950986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.18378013863842538, "train/actor_opt_grad_steps": 19410.0, "train/actor_opt_loss": -195.36562444808635, "train/adv_mag": 1.5743412223268063, "train/adv_max": 1.5723629593849182, "train/adv_mean": 0.020068196678890825, "train/adv_min": -0.5878593236842053, "train/adv_std": 0.07687057451681888, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.8845630517120977e-09, "train/cont_loss_std": 1.7452620530799864e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.8845630517120977e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.487136790092955, "train/dyn_loss_std": 5.31673323854487, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.4209045726568141, "train/extr_critic_critic_opt_grad_steps": 19410.0, "train/extr_critic_critic_opt_loss": 8827.335760887632, "train/extr_critic_mag": 462.2576995200299, "train/extr_critic_max": 462.2576995200299, "train/extr_critic_mean": 393.58761142162564, "train/extr_critic_min": 160.21987541685712, "train/extr_critic_std": 47.65773140115941, "train/extr_return_normed_mag": 1.0298708220745654, "train/extr_return_normed_max": 1.0298708220745654, "train/extr_return_normed_mean": 0.5814724589915986, "train/extr_return_normed_min": -0.3272593973917847, "train/extr_return_normed_std": 0.30481800088222993, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 466.82531998005317, "train/extr_return_raw_max": 466.82531998005317, "train/extr_return_raw_mean": 396.7273124532497, "train/extr_return_raw_min": 254.57263118662732, "train/extr_return_raw_std": 47.67469584688227, "train/extr_reward_mag": 1.9904762734758092, "train/extr_reward_max": 1.9904762734758092, "train/extr_reward_mean": 1.1103531591435696, "train/extr_reward_min": 0.0007551274401076297, "train/extr_reward_std": 0.6867991952185936, "train/image_loss_mean": 1.0342643565319953, "train/image_loss_std": 1.0757995793159971, "train/model_loss_mean": 3.040851095889477, "train/model_loss_std": 4.075212331528359, "train/model_opt_grad_norm": 13.152694823894095, "train/model_opt_grad_steps": 19391.0, "train/model_opt_loss": 15204.25548537234, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.3822781659187156, "train/policy_entropy_max": 1.3822781659187156, "train/policy_entropy_mean": -0.6933319327679086, "train/policy_entropy_min": -0.8814926984462332, "train/policy_entropy_std": 0.31211088249023927, "train/policy_logprob_mag": 7.430943560093008, "train/policy_logprob_max": 1.3802850931248767, "train/policy_logprob_mean": 0.6935145829586272, "train/policy_logprob_min": -7.430943560093008, "train/policy_logprob_std": 0.7752100000990197, "train/policy_randomness_mag": 0.9840785924424517, "train/policy_randomness_max": 0.9840785924424517, "train/policy_randomness_mean": 0.08265263238485823, "train/policy_randomness_min": 0.0009354307295189814, "train/policy_randomness_std": 0.13554802758896606, "train/post_ent_mag": 43.709830669646564, "train/post_ent_max": 43.709830669646564, "train/post_ent_mean": 35.23904548807347, "train/post_ent_min": 15.884370073359063, "train/post_ent_std": 5.654725815387482, "train/prior_ent_mag": 56.138895643518325, "train/prior_ent_max": 56.138895643518325, "train/prior_ent_mean": 37.655035221830325, "train/prior_ent_min": 23.545054050202065, "train/prior_ent_std": 4.996319963576946, "train/rep_loss_mean": 2.487136790092955, "train/rep_loss_std": 5.31673323854487, "train/reward_avg": 1.1382428230123316, "train/reward_loss_mean": 0.5143046322021079, "train/reward_loss_std": 0.23449030962396175, "train/reward_max_data": 1.9966812311334814, "train/reward_max_pred": 1.9892611807965217, "train/reward_neg_acc": 0.9333793115108571, "train/reward_neg_loss": 0.4444312916157093, "train/reward_pos_acc": 0.9975428885601937, "train/reward_pos_loss": 0.5225451220857337, "train/reward_pred": 1.138264459498385, "train/reward_rate": 0.8906665558510638, "stats/mean_log_entropy": -0.8335635513067245, "replay/size": 40327.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.5700801907038845e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0295640315144418e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4054353237152, "timer/env.step_count": 231.0, "timer/env.step_total": 6.5789079666137695, "timer/env.step_frac": 0.02190009631325204, "timer/env.step_avg": 0.028480121067592075, "timer/env.step_min": 0.021978139877319336, "timer/env.step_max": 0.060744285583496094, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.2210993766784668, "timer/replay.add_frac": 0.0007360032498753272, "timer/replay.add_avg": 0.00023876822535471575, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.02380990982055664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01887345314025879, "timer/logger.write_frac": 6.28266033865894e-05, "timer/logger.write_avg": 0.01887345314025879, "timer/logger.write_min": 0.01887345314025879, "timer/logger.write_max": 0.01887345314025879, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8451666831970215, "timer/agent.policy_frac": 0.0028134200777235425, "timer/agent.policy_avg": 0.003658730230290136, "timer/agent.policy_min": 0.0029549598693847656, "timer/agent.policy_max": 0.008807659149169922, "timer/dataset_count": 463.0, "timer/dataset_total": 0.04090166091918945, "timer/dataset_frac": 0.00013615486309398515, "timer/dataset_avg": 8.834052034382171e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.42709016799927, "timer/agent.train_frac": 0.9734414087843699, "timer/agent.train_avg": 0.6315919874038861, "timer/agent.train_min": 0.5828843116760254, "timer/agent.train_max": 0.6713008880615234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14420795440673828, "timer/agent.report_frac": 0.0004800444247999062, "timer/agent.report_avg": 0.14420795440673828, "timer/agent.report_min": 0.14420795440673828, "timer/agent.report_max": 0.14420795440673828, "fps": 6.164955290109722}
+{"step": 83006, "train/action_mag": 2.728752506815869, "train/action_max": 2.6454009206398674, "train/action_mean": 0.06965339672751725, "train/action_min": -2.2184651468111123, "train/action_std": 0.6516183705433555, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.15877179129292135, "train/actor_opt_grad_steps": 19875.0, "train/actor_opt_loss": -196.00969430674678, "train/adv_mag": 1.15519438619199, "train/adv_max": 1.1174134806446407, "train/adv_mean": 0.02014595233713803, "train/adv_min": -0.617731683280157, "train/adv_std": 0.06121055668462878, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.7544614384489914e-09, "train/cont_loss_std": 1.899803278461514e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.7544614384489914e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.46669340133667, "train/dyn_loss_std": 5.346187187277752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.42357107996940613, "train/extr_critic_critic_opt_grad_steps": 19875.0, "train/extr_critic_critic_opt_loss": 7274.792289402174, "train/extr_critic_mag": 467.55633146866506, "train/extr_critic_max": 467.55633146866506, "train/extr_critic_mean": 406.96556290336275, "train/extr_critic_min": 219.7814764769181, "train/extr_critic_std": 44.07287688877272, "train/extr_return_normed_mag": 1.0409279802571172, "train/extr_return_normed_max": 1.0348145495290342, "train/extr_return_normed_mean": 0.6151074216417645, "train/extr_return_normed_min": -0.38141192301459936, "train/extr_return_normed_std": 0.30211293956507806, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 472.0428871486498, "train/extr_return_raw_max": 472.0428871486498, "train/extr_return_raw_mean": 409.9478401515795, "train/extr_return_raw_min": 262.48870750095534, "train/extr_return_raw_std": 44.7132742923239, "train/extr_reward_mag": 1.9904349109400874, "train/extr_reward_max": 1.9904349109400874, "train/extr_reward_mean": 1.116470561079357, "train/extr_reward_min": 0.0007827670677848484, "train/extr_reward_std": 0.6945342926875405, "train/image_loss_mean": 1.011597172073696, "train/image_loss_std": 1.0138202996357628, "train/model_loss_mean": 3.0012919591820757, "train/model_loss_std": 4.0347409352012304, "train/model_opt_grad_norm": 13.864985973938651, "train/model_opt_grad_steps": 19856.0, "train/model_opt_loss": 20881.11710258152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7065.217391304348, "train/policy_entropy_mag": 1.3212453826614048, "train/policy_entropy_max": 1.3212453826614048, "train/policy_entropy_mean": -0.7517650334731393, "train/policy_entropy_min": -0.8819736916085948, "train/policy_entropy_std": 0.25135337464187457, "train/policy_logprob_mag": 7.219503879547119, "train/policy_logprob_max": 1.3811495718748674, "train/policy_logprob_mean": 0.7520723718663921, "train/policy_logprob_min": -7.219503879547119, "train/policy_logprob_std": 0.7512819339399752, "train/policy_randomness_mag": 0.957572375950606, "train/policy_randomness_max": 0.957572375950606, "train/policy_randomness_mean": 0.05727545536406662, "train/policy_randomness_min": 0.0007265380662157322, "train/policy_randomness_std": 0.10916137857281644, "train/post_ent_mag": 43.86259460449219, "train/post_ent_max": 43.86259460449219, "train/post_ent_mean": 35.36455378325089, "train/post_ent_min": 16.07355376948481, "train/post_ent_std": 5.788829948591149, "train/prior_ent_mag": 56.40441372083581, "train/prior_ent_max": 56.40441372083581, "train/prior_ent_mean": 37.768017893252164, "train/prior_ent_min": 22.736627164094344, "train/prior_ent_std": 5.145120413407035, "train/rep_loss_mean": 2.46669340133667, "train/rep_loss_std": 5.346187187277752, "train/reward_avg": 1.138552963733673, "train/reward_loss_mean": 0.5096787888070812, "train/reward_loss_std": 0.22803018954784973, "train/reward_max_data": 1.9976141582364622, "train/reward_max_pred": 1.9890993418900862, "train/reward_neg_acc": 0.9417550421279409, "train/reward_neg_loss": 0.4449655504330345, "train/reward_pos_acc": 0.9980393920255743, "train/reward_pos_loss": 0.5172349117372347, "train/reward_pred": 1.1388256744198177, "train/reward_rate": 0.8918775475543478, "replay/size": 41251.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.6491813329391148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0173751678301658e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0461571216583, "timer/env.step_count": 231.0, "timer/env.step_total": 6.603996753692627, "timer/env.step_frac": 0.02200993612797692, "timer/env.step_avg": 0.028588730535465918, "timer/env.step_min": 0.0207669734954834, "timer/env.step_max": 0.04823017120361328, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.17351722717285156, "timer/replay.add_frac": 0.0005783017814239038, "timer/replay.add_avg": 0.0001877892068970255, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0016319751739501953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023236513137817383, "timer/logger.write_frac": 7.74431286196936e-05, "timer/logger.write_avg": 0.023236513137817383, "timer/logger.write_min": 0.023236513137817383, "timer/logger.write_max": 0.023236513137817383, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002562999725341797, "timer/checkpoint.save_frac": 8.542018167900045e-07, "timer/checkpoint.save_avg": 0.0002562999725341797, "timer/checkpoint.save_min": 0.0002562999725341797, "timer/checkpoint.save_max": 0.0002562999725341797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08878922462463379, "timer/agent.save_frac": 0.00029591855291995233, "timer/agent.save_avg": 0.08878922462463379, "timer/agent.save_min": 0.08878922462463379, "timer/agent.save_max": 0.08878922462463379, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.417533874511719e-05, "timer/replay.save_frac": 3.1386950477400165e-07, "timer/replay.save_avg": 9.417533874511719e-05, "timer/replay.save_min": 9.417533874511719e-05, "timer/replay.save_max": 9.417533874511719e-05, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.894200325012207, "timer/agent.policy_frac": 0.0029802092237749935, "timer/agent.policy_avg": 0.0038709970779749222, "timer/agent.policy_min": 0.0028984546661376953, "timer/agent.policy_max": 0.05890202522277832, "timer/dataset_count": 462.0, "timer/dataset_total": 0.040662527084350586, "timer/dataset_frac": 0.00013552090609800192, "timer/dataset_avg": 8.801412788820473e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00017547607421875, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.0532546043396, "timer/agent.train_frac": 0.9733610901936068, "timer/agent.train_avg": 0.6321499017409948, "timer/agent.train_min": 0.5766313076019287, "timer/agent.train_max": 0.6695213317871094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14227700233459473, "timer/agent.report_frac": 0.0004741837179301261, "timer/agent.report_avg": 0.14227700233459473, "timer/agent.report_min": 0.14227700233459473, "timer/agent.report_max": 0.14227700233459473, "fps": 6.1589924203636395}
+{"step": 84168, "episode/length": 500.0, "episode/score": 955.353518486023, "episode/sum_abs_reward": 955.353518486023, "episode/reward_rate": 0.998003992015968}
+{"step": 84862, "train/action_mag": 1.956194465575011, "train/action_max": 1.9325821995735168, "train/action_mean": 0.06655419034296242, "train/action_min": -1.5605778538662454, "train/action_std": 0.6162590656591498, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.17423795746720355, "train/actor_opt_grad_steps": 20335.0, "train/actor_opt_loss": -224.64103400188944, "train/adv_mag": 1.5405331020769866, "train/adv_max": 1.5348286667595739, "train/adv_mean": 0.02305150092781886, "train/adv_min": -0.6127252403808676, "train/adv_std": 0.0731389359773501, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.5811276442712558e-09, "train/cont_loss_std": 1.5371714770627482e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.5811276442712558e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4115905709888623, "train/dyn_loss_std": 5.210385592087455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3770334066256233, "train/extr_critic_critic_opt_grad_steps": 20335.0, "train/extr_critic_critic_opt_loss": 9092.214164402174, "train/extr_critic_mag": 486.3351347550102, "train/extr_critic_max": 486.3351347550102, "train/extr_critic_mean": 421.98994578485906, "train/extr_critic_min": 201.20098122306493, "train/extr_critic_std": 43.257718086242676, "train/extr_return_normed_mag": 1.0697164354117021, "train/extr_return_normed_max": 1.0691205263137817, "train/extr_return_normed_mean": 0.645879776581474, "train/extr_return_normed_min": -0.3641657988520582, "train/extr_return_normed_std": 0.29926774002935574, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 486.73768018639606, "train/extr_return_raw_max": 486.73768018639606, "train/extr_return_raw_mean": 425.33205247961956, "train/extr_return_raw_min": 278.9658677474312, "train/extr_return_raw_std": 43.408581692239515, "train/extr_reward_mag": 1.9916805236235908, "train/extr_reward_max": 1.9916805236235908, "train/extr_reward_mean": 1.174312289642251, "train/extr_reward_min": 0.0007182100544805112, "train/extr_reward_std": 0.6947641735491545, "train/image_loss_mean": 0.9807398733885392, "train/image_loss_std": 0.9972249360188193, "train/model_loss_mean": 2.9346225261688232, "train/model_loss_std": 3.9329466301461924, "train/model_opt_grad_norm": 14.11901977787847, "train/model_opt_grad_steps": 20315.021739130436, "train/model_opt_loss": 14973.417692764946, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5108.695652173913, "train/policy_entropy_mag": 0.981558005446973, "train/policy_entropy_max": 0.8719532515691675, "train/policy_entropy_mean": -0.7964229195014291, "train/policy_entropy_min": -0.8822543310082477, "train/policy_entropy_std": 0.173395450996316, "train/policy_logprob_mag": 7.443917813508407, "train/policy_logprob_max": 1.3814540816389995, "train/policy_logprob_mean": 0.7979862962080084, "train/policy_logprob_min": -7.443917813508407, "train/policy_logprob_std": 0.7282016264355701, "train/policy_randomness_mag": 0.7624472949815833, "train/policy_randomness_max": 0.7624472949815833, "train/policy_randomness_mean": 0.03788078738295514, "train/policy_randomness_min": 0.00060465792573624, "train/policy_randomness_std": 0.07530468382427226, "train/post_ent_mag": 44.136585981949516, "train/post_ent_max": 44.136585981949516, "train/post_ent_mean": 36.05073190772015, "train/post_ent_min": 15.876799459042756, "train/post_ent_std": 5.562592527140742, "train/prior_ent_mag": 56.72168905838676, "train/prior_ent_max": 56.72168905838676, "train/prior_ent_mean": 38.38024786244268, "train/prior_ent_min": 23.93402787913447, "train/prior_ent_std": 4.85763955116272, "train/rep_loss_mean": 2.4115905709888623, "train/rep_loss_std": 5.210385592087455, "train/reward_avg": 1.201869029065837, "train/reward_loss_mean": 0.5069282987843389, "train/reward_loss_std": 0.2369669517097266, "train/reward_max_data": 1.9975015806115193, "train/reward_max_pred": 1.9884245965791785, "train/reward_neg_acc": 0.9404780268669128, "train/reward_neg_loss": 0.4403062974629195, "train/reward_pos_acc": 0.9980112767737844, "train/reward_pos_loss": 0.5144343110530273, "train/reward_pred": 1.1985681730767954, "train/reward_rate": 0.9044667119565217, "stats/mean_log_entropy": -0.7825340926647186, "replay/size": 42179.0, "replay/inserts": 928.0, "replay/samples": 7424.0, "replay/insert_wait_avg": 2.591260548295646e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2539134457193573e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.38787269592285, "timer/env.step_count": 232.0, "timer/env.step_total": 6.466299533843994, "timer/env.step_frac": 0.02152649997421737, "timer/env.step_avg": 0.02787198074932756, "timer/env.step_min": 0.022407054901123047, "timer/env.step_max": 0.03941154479980469, "timer/replay.add_count": 928.0, "timer/replay.add_total": 0.20856356620788574, "timer/replay.add_frac": 0.0006943142022880891, "timer/replay.add_avg": 0.00022474522220677343, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.010426044464111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02447986602783203, "timer/logger.write_frac": 8.149418885699341e-05, "timer/logger.write_avg": 0.02447986602783203, "timer/logger.write_min": 0.02447986602783203, "timer/logger.write_max": 0.02447986602783203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 232.0, "timer/agent.policy_total": 0.8340404033660889, "timer/agent.policy_frac": 0.0027765448580887708, "timer/agent.policy_avg": 0.003595001738646935, "timer/agent.policy_min": 0.0030221939086914062, "timer/agent.policy_max": 0.011264562606811523, "timer/dataset_count": 464.0, "timer/dataset_total": 0.04038047790527344, "timer/dataset_frac": 0.0001344277901197092, "timer/dataset_avg": 8.702689203722724e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.00016951560974121094, "timer/agent.train_count": 464.0, "timer/agent.train_total": 292.5413317680359, "timer/agent.train_frac": 0.9738786361198081, "timer/agent.train_avg": 0.630477008120767, "timer/agent.train_min": 0.5717782974243164, "timer/agent.train_max": 0.6644494533538818, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1503443717956543, "timer/agent.report_frac": 0.0005005008039983197, "timer/agent.report_avg": 0.1503443717956543, "timer/agent.report_min": 0.1503443717956543, "timer/agent.report_max": 0.1503443717956543, "fps": 6.178653373991031}
+{"step": 86710, "train/action_mag": 1.8543162967847742, "train/action_max": 1.8324178897816201, "train/action_mean": 0.0650077472521883, "train/action_min": -1.4693021022755166, "train/action_std": 0.5999000513035319, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.1205325702448254, "train/actor_opt_grad_steps": 20795.0, "train/actor_opt_loss": -167.5581986800484, "train/adv_mag": 0.9357581767051116, "train/adv_max": 0.8827774680179098, "train/adv_mean": 0.017254871923638428, "train/adv_min": -0.4836279114951258, "train/adv_std": 0.05194896135641181, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.4731215812408718e-09, "train/cont_loss_std": 1.4033320882156847e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.4731215812408718e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4525478715481968, "train/dyn_loss_std": 5.427259123843649, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.2739076160866281, "train/extr_critic_critic_opt_grad_steps": 20795.0, "train/extr_critic_critic_opt_loss": 10688.567701256794, "train/extr_critic_mag": 506.5055057691491, "train/extr_critic_max": 506.5055057691491, "train/extr_critic_mean": 432.6651783818784, "train/extr_critic_min": 274.5993360436481, "train/extr_critic_std": 44.04576421820599, "train/extr_return_normed_mag": 1.0997129575065945, "train/extr_return_normed_max": 1.0997129575065945, "train/extr_return_normed_mean": 0.6285342755525009, "train/extr_return_normed_min": -0.28181485934992845, "train/extr_return_normed_std": 0.29834665455248044, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 505.9602156929348, "train/extr_return_raw_max": 505.9602156929348, "train/extr_return_raw_mean": 435.2527638310971, "train/extr_return_raw_min": 298.65771816087806, "train/extr_return_raw_std": 44.776138927625574, "train/extr_reward_mag": 1.9943809250126714, "train/extr_reward_max": 1.9943809250126714, "train/extr_reward_mean": 1.1481283397778221, "train/extr_reward_min": 0.0006758130115011464, "train/extr_reward_std": 0.6991377874560978, "train/image_loss_mean": 0.9824969315010569, "train/image_loss_std": 1.0605300755604454, "train/model_loss_mean": 2.9638233962266343, "train/model_loss_std": 4.131877386051675, "train/model_opt_grad_norm": 13.621902268865835, "train/model_opt_grad_steps": 20775.0, "train/model_opt_loss": 14819.116996433424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9185923985812975, "train/policy_entropy_max": 0.7448949645394864, "train/policy_entropy_mean": -0.8004129386466482, "train/policy_entropy_min": -0.8822398755861365, "train/policy_entropy_std": 0.1694083111765592, "train/policy_logprob_mag": 7.364569187164307, "train/policy_logprob_max": 1.381357325159985, "train/policy_logprob_mean": 0.8009792721789816, "train/policy_logprob_min": -7.364569187164307, "train/policy_logprob_std": 0.7287086170652638, "train/policy_randomness_mag": 0.7072665918132534, "train/policy_randomness_max": 0.7072665918132534, "train/policy_randomness_mean": 0.03614793746205776, "train/policy_randomness_min": 0.0006109358370810261, "train/policy_randomness_std": 0.07357309118885061, "train/post_ent_mag": 44.34952503701915, "train/post_ent_max": 44.34952503701915, "train/post_ent_mean": 36.101634730463445, "train/post_ent_min": 16.080216863880988, "train/post_ent_std": 5.667137477708899, "train/prior_ent_mag": 56.975383841473125, "train/prior_ent_max": 56.975383841473125, "train/prior_ent_mean": 38.4414763243302, "train/prior_ent_min": 23.695880848428477, "train/prior_ent_std": 4.992378343706545, "train/rep_loss_mean": 2.4525478715481968, "train/rep_loss_std": 5.427259123843649, "train/reward_avg": 1.1622492917205975, "train/reward_loss_mean": 0.5097977292278538, "train/reward_loss_std": 0.23514436152966126, "train/reward_max_data": 1.9979563796001931, "train/reward_max_pred": 1.9907611867655879, "train/reward_neg_acc": 0.9314084597255873, "train/reward_neg_loss": 0.45204438333925995, "train/reward_pos_acc": 0.9976477156514707, "train/reward_pos_loss": 0.5163844305536022, "train/reward_pred": 1.1617334847864897, "train/reward_rate": 0.8985224184782609, "replay/size": 43103.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.591898947051077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0435973410998589e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22804713249207, "timer/env.step_count": 231.0, "timer/env.step_total": 6.612835884094238, "timer/env.step_frac": 0.022026043027139175, "timer/env.step_avg": 0.02862699516923913, "timer/env.step_min": 0.02235579490661621, "timer/env.step_max": 0.043692827224731445, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.1886582374572754, "timer/replay.add_frac": 0.000628383121627606, "timer/replay.add_avg": 0.00020417558166371797, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.008403778076171875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01566147804260254, "timer/logger.write_frac": 5.216527300559316e-05, "timer/logger.write_avg": 0.01566147804260254, "timer/logger.write_min": 0.01566147804260254, "timer/logger.write_max": 0.01566147804260254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8376338481903076, "timer/agent.policy_frac": 0.002789991995053866, "timer/agent.policy_avg": 0.003626120554936397, "timer/agent.policy_min": 0.0029442310333251953, "timer/agent.policy_max": 0.010785341262817383, "timer/dataset_count": 462.0, "timer/dataset_total": 0.04068875312805176, "timer/dataset_frac": 0.00013552615592271969, "timer/dataset_avg": 8.807089421656225e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.26592445373535, "timer/agent.train_frac": 0.973479750626886, "timer/agent.train_avg": 0.6326102260903362, "timer/agent.train_min": 0.5756077766418457, "timer/agent.train_max": 0.6786608695983887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1594104766845703, "timer/agent.report_frac": 0.0005309646390705853, "timer/agent.report_avg": 0.1594104766845703, "timer/agent.report_min": 0.1594104766845703, "timer/agent.report_max": 0.1594104766845703, "fps": 6.155279376934295}
+{"step": 88176, "episode/length": 500.0, "episode/score": 806.7806607902749, "episode/sum_abs_reward": 806.7806607902749, "episode/reward_rate": 0.906187624750499}
+{"step": 88554, "train/action_mag": 2.1085962938225786, "train/action_max": 2.1065145627312036, "train/action_mean": 0.06379542732105145, "train/action_min": -1.4899355276771213, "train/action_std": 0.6135752123335133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.13765642136011436, "train/actor_opt_grad_steps": 21255.0, "train/actor_opt_loss": -122.82715059363323, "train/adv_mag": 0.9670629721620808, "train/adv_max": 0.9611669921356699, "train/adv_mean": 0.012707915926433128, "train/adv_min": -0.38096048423777457, "train/adv_std": 0.0432383280409419, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.3350964826439895e-09, "train/cont_loss_std": 1.3616450141331325e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.3350964826439895e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4594351675199424, "train/dyn_loss_std": 5.44488413437553, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.26429301014413004, "train/extr_critic_critic_opt_grad_steps": 21255.0, "train/extr_critic_critic_opt_loss": 10886.324027683424, "train/extr_critic_mag": 521.7699273150901, "train/extr_critic_max": 521.7699273150901, "train/extr_critic_mean": 443.7522788669752, "train/extr_critic_min": 246.489816085152, "train/extr_critic_std": 50.523910439532735, "train/extr_return_normed_mag": 1.0739765815112903, "train/extr_return_normed_max": 1.0739765815112903, "train/extr_return_normed_mean": 0.6049843080665754, "train/extr_return_normed_min": -0.2969372708188451, "train/extr_return_normed_std": 0.316409757927708, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 521.9271313211192, "train/extr_return_raw_max": 521.9271313211192, "train/extr_return_raw_mean": 445.8133551556131, "train/extr_return_raw_min": 299.4891012440557, "train/extr_return_raw_std": 51.31367343405019, "train/extr_reward_mag": 1.993799681248872, "train/extr_reward_max": 1.993799681248872, "train/extr_reward_mean": 1.1563594509725985, "train/extr_reward_min": 0.0006819678389507791, "train/extr_reward_std": 0.6932076150956361, "train/image_loss_mean": 0.9787539489891218, "train/image_loss_std": 1.044767501561538, "train/model_loss_mean": 2.960195702055226, "train/model_loss_std": 4.119768609171328, "train/model_opt_grad_norm": 12.752961874008179, "train/model_opt_grad_steps": 21235.0, "train/model_opt_loss": 26635.21870754076, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 9021.739130434782, "train/policy_entropy_mag": 0.9706280088942983, "train/policy_entropy_max": 0.9343976546888766, "train/policy_entropy_mean": -0.7745830183443816, "train/policy_entropy_min": -0.8820227799208268, "train/policy_entropy_std": 0.21295966288965681, "train/policy_logprob_mag": 7.474988222122192, "train/policy_logprob_max": 1.381058729213217, "train/policy_logprob_mean": 0.7753556085669476, "train/policy_logprob_min": -7.474988222122192, "train/policy_logprob_std": 0.7410093001697374, "train/policy_randomness_mag": 0.7895665570445682, "train/policy_randomness_max": 0.7895665570445682, "train/policy_randomness_mean": 0.04736572771292666, "train/policy_randomness_min": 0.0007052192851678346, "train/policy_randomness_std": 0.09248720295727253, "train/post_ent_mag": 44.65151919489322, "train/post_ent_max": 44.65151919489322, "train/post_ent_mean": 36.29613959270975, "train/post_ent_min": 16.14034646490346, "train/post_ent_std": 5.780445897060892, "train/prior_ent_mag": 57.17860910166865, "train/prior_ent_max": 57.17860910166865, "train/prior_ent_mean": 38.62067927484927, "train/prior_ent_min": 23.73773715807044, "train/prior_ent_std": 5.117836775987045, "train/rep_loss_mean": 2.4594351675199424, "train/rep_loss_std": 5.44488413437553, "train/reward_avg": 1.165933917398038, "train/reward_loss_mean": 0.5057806359684985, "train/reward_loss_std": 0.23628787048484967, "train/reward_max_data": 1.9976028281709421, "train/reward_max_pred": 1.9912641048431396, "train/reward_neg_acc": 0.9483383181302444, "train/reward_neg_loss": 0.44276573606159375, "train/reward_pos_acc": 0.9973764328852944, "train/reward_pos_loss": 0.5126548422419507, "train/reward_pred": 1.1648011376028475, "train/reward_rate": 0.9008364470108695, "stats/mean_log_entropy": -0.857268214225769, "replay/size": 44025.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.6717361814287893e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.035808482552816e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2811779975891, "timer/env.step_count": 231.0, "timer/env.step_total": 6.698794603347778, "timer/env.step_frac": 0.022308406567532385, "timer/env.step_avg": 0.02899911083700337, "timer/env.step_min": 0.022782564163208008, "timer/env.step_max": 0.0482175350189209, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.22050738334655762, "timer/replay.add_frac": 0.0007343363470764325, "timer/replay.add_avg": 0.0002391620209832512, "timer/replay.add_min": 4.172325134277344e-05, "timer/replay.add_max": 0.009871482849121094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03266787528991699, "timer/logger.write_frac": 0.00010879095222604753, "timer/logger.write_avg": 0.03266787528991699, "timer/logger.write_min": 0.03266787528991699, "timer/logger.write_max": 0.03266787528991699, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021767616271972656, "timer/checkpoint.save_frac": 7.249077820038199e-07, "timer/checkpoint.save_avg": 0.00021767616271972656, "timer/checkpoint.save_min": 0.00021767616271972656, "timer/checkpoint.save_max": 0.00021767616271972656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15244150161743164, "timer/agent.save_frac": 0.0005076625269488438, "timer/agent.save_avg": 0.15244150161743164, "timer/agent.save_min": 0.15244150161743164, "timer/agent.save_max": 0.15244150161743164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.177757263183594e-05, "timer/replay.save_frac": 2.723366585184121e-07, "timer/replay.save_avg": 8.177757263183594e-05, "timer/replay.save_min": 8.177757263183594e-05, "timer/replay.save_max": 8.177757263183594e-05, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.9752726554870605, "timer/agent.policy_frac": 0.0032478647579266217, "timer/agent.policy_avg": 0.004221959547563033, "timer/agent.policy_min": 0.0029976367950439453, "timer/agent.policy_max": 0.11768889427185059, "timer/dataset_count": 461.0, "timer/dataset_total": 0.04213595390319824, "timer/dataset_frac": 0.00014032166179771862, "timer/dataset_avg": 9.14012015253758e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00017833709716796875, "timer/agent.train_count": 461.0, "timer/agent.train_total": 291.93436789512634, "timer/agent.train_frac": 0.972203352344216, "timer/agent.train_avg": 0.6332632709221829, "timer/agent.train_min": 0.574547529220581, "timer/agent.train_max": 0.6681196689605713, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24672961235046387, "timer/agent.report_frac": 0.0008216619303140099, "timer/agent.report_avg": 0.24672961235046387, "timer/agent.report_min": 0.24672961235046387, "timer/agent.report_max": 0.24672961235046387, "fps": 6.1408719328694}
+{"step": 90386, "train/action_mag": 2.0793037906936975, "train/action_max": 2.0747520716294, "train/action_mean": 0.049280600915865405, "train/action_min": -1.533208914425062, "train/action_std": 0.6126461042010266, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.18393076689023038, "train/actor_opt_grad_steps": 21715.0, "train/actor_opt_loss": -127.2136752916419, "train/adv_mag": 1.3236833720103554, "train/adv_max": 1.2967188125071318, "train/adv_mean": 0.01314009124737071, "train/adv_min": -0.4500570491604183, "train/adv_std": 0.05265260714551677, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.2240912052102035e-09, "train/cont_loss_std": 1.3771265468555936e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.2240912052102035e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.424739816914434, "train/dyn_loss_std": 5.346553076868472, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3180557625449222, "train/extr_critic_critic_opt_grad_steps": 21715.0, "train/extr_critic_critic_opt_loss": 10522.971509850544, "train/extr_critic_mag": 533.091148044752, "train/extr_critic_max": 533.091148044752, "train/extr_critic_mean": 455.51716746454656, "train/extr_critic_min": 213.92557185629138, "train/extr_critic_std": 53.18321078756581, "train/extr_return_normed_mag": 1.0497886875401372, "train/extr_return_normed_max": 1.0497886875401372, "train/extr_return_normed_mean": 0.6018909714792086, "train/extr_return_normed_min": -0.2532111131079981, "train/extr_return_normed_std": 0.3136186094387718, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 534.6528147821841, "train/extr_return_raw_max": 534.6528147821841, "train/extr_return_raw_mean": 457.7726354184358, "train/extr_return_raw_min": 310.96443839695144, "train/extr_return_raw_std": 53.86314387943434, "train/extr_reward_mag": 1.9933457944704138, "train/extr_reward_max": 1.9933457944704138, "train/extr_reward_mean": 1.1944040591302125, "train/extr_reward_min": 0.0007185132607169774, "train/extr_reward_std": 0.6861497098984926, "train/image_loss_mean": 0.9395090160162552, "train/image_loss_std": 0.9903831468976062, "train/model_loss_mean": 2.8927899961886197, "train/model_loss_std": 4.026206617769987, "train/model_opt_grad_norm": 13.126511376837026, "train/model_opt_grad_steps": 21694.32608695652, "train/model_opt_loss": 19249.029084578804, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6630.434782608696, "train/policy_entropy_mag": 1.03777433089588, "train/policy_entropy_max": 1.0287933414397032, "train/policy_entropy_mean": -0.7689122920450957, "train/policy_entropy_min": -0.8820190999818884, "train/policy_entropy_std": 0.21859922000895377, "train/policy_logprob_mag": 7.242312586825827, "train/policy_logprob_max": 1.3810889669086621, "train/policy_logprob_mean": 0.7693161770053532, "train/policy_logprob_min": -7.242312586825827, "train/policy_logprob_std": 0.7418274464814559, "train/policy_randomness_mag": 0.8305620836175006, "train/policy_randomness_max": 0.8305620836175006, "train/policy_randomness_mean": 0.04982849481799032, "train/policy_randomness_min": 0.0007068174574827856, "train/policy_randomness_std": 0.09493642988736214, "train/post_ent_mag": 45.015727830969766, "train/post_ent_max": 45.015727830969766, "train/post_ent_mean": 36.735286961431086, "train/post_ent_min": 16.127366024514902, "train/post_ent_std": 5.74587955682174, "train/prior_ent_mag": 57.45112593277641, "train/prior_ent_max": 57.45112593277641, "train/prior_ent_mean": 39.03338448897652, "train/prior_ent_min": 23.76470951412035, "train/prior_ent_std": 5.072784351265949, "train/rep_loss_mean": 2.424739816914434, "train/rep_loss_std": 5.346553076868472, "train/reward_avg": 1.21734895395196, "train/reward_loss_mean": 0.49843711438386334, "train/reward_loss_std": 0.21892128139734268, "train/reward_max_data": 1.998167986455171, "train/reward_max_pred": 1.9917037901671037, "train/reward_neg_acc": 0.9500586364580237, "train/reward_neg_loss": 0.4375150598909544, "train/reward_pos_acc": 0.9978653801524121, "train/reward_pos_loss": 0.5045390453027643, "train/reward_pred": 1.215493276067402, "train/reward_rate": 0.9080120584239131, "replay/size": 44941.0, "replay/inserts": 916.0, "replay/samples": 7328.0, "replay/insert_wait_avg": 2.767841888827528e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1561088686947218e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.96493458747864, "timer/env.step_count": 229.0, "timer/env.step_total": 7.001713514328003, "timer/env.step_frac": 0.023341773344130984, "timer/env.step_avg": 0.03057516818483844, "timer/env.step_min": 0.021218538284301758, "timer/env.step_max": 0.08495354652404785, "timer/replay.add_count": 916.0, "timer/replay.add_total": 0.23311591148376465, "timer/replay.add_frac": 0.0007771438745143765, "timer/replay.add_avg": 0.00025449335314821467, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.021168231964111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03511691093444824, "timer/logger.write_frac": 0.00011707005348055812, "timer/logger.write_avg": 0.03511691093444824, "timer/logger.write_min": 0.03511691093444824, "timer/logger.write_max": 0.03511691093444824, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 229.0, "timer/agent.policy_total": 0.9052839279174805, "timer/agent.policy_frac": 0.0030179658471162834, "timer/agent.policy_avg": 0.003953204925403845, "timer/agent.policy_min": 0.003014802932739258, "timer/agent.policy_max": 0.017902612686157227, "timer/dataset_count": 458.0, "timer/dataset_total": 0.042587995529174805, "timer/dataset_frac": 0.00014197657998840155, "timer/dataset_avg": 9.298688980169171e-05, "timer/dataset_min": 6.866455078125e-05, "timer/dataset_max": 0.0001990795135498047, "timer/agent.train_count": 458.0, "timer/agent.train_total": 291.4245722293854, "timer/agent.train_frac": 0.9715287976248349, "timer/agent.train_avg": 0.6362981926405794, "timer/agent.train_min": 0.5784671306610107, "timer/agent.train_max": 0.7280874252319336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20125317573547363, "timer/agent.report_frac": 0.0006709223396802811, "timer/agent.report_avg": 0.20125317573547363, "timer/agent.report_min": 0.20125317573547363, "timer/agent.report_max": 0.20125317573547363, "fps": 6.107341017350822}
+{"step": 92184, "episode/length": 500.0, "episode/score": 968.2904243469238, "episode/sum_abs_reward": 968.2904243469238, "episode/reward_rate": 0.998003992015968}
+{"step": 92226, "train/action_mag": 2.156701603661413, "train/action_max": 2.148238594117372, "train/action_mean": 0.05096087939834789, "train/action_min": -1.533709704875946, "train/action_std": 0.6265504165836002, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.20777985332128796, "train/actor_opt_grad_steps": 22175.0, "train/actor_opt_loss": -128.9289790443752, "train/adv_mag": 1.4164838441040204, "train/adv_max": 1.4010273749413698, "train/adv_mean": 0.0133163537779499, "train/adv_min": -0.5047226114117581, "train/adv_std": 0.060265212279299034, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.1474207646824095e-09, "train/cont_loss_std": 1.2800226108524424e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.1474207646824095e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.417164787002232, "train/dyn_loss_std": 5.36226020688596, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.3262222525866135, "train/extr_critic_critic_opt_grad_steps": 22175.0, "train/extr_critic_critic_opt_loss": 8877.123312245245, "train/extr_critic_mag": 540.559706978176, "train/extr_critic_max": 540.559706978176, "train/extr_critic_mean": 465.1350376295007, "train/extr_critic_min": 211.90181898034137, "train/extr_critic_std": 55.021272576373555, "train/extr_return_normed_mag": 1.03744310658911, "train/extr_return_normed_max": 1.0292555041935132, "train/extr_return_normed_mean": 0.5939946245888005, "train/extr_return_normed_min": -0.2649659742499985, "train/extr_return_normed_std": 0.3179440582576005, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 543.4215260381284, "train/extr_return_raw_max": 543.4215260381284, "train/extr_return_raw_mean": 467.45892533012056, "train/extr_return_raw_min": 317.56980199399203, "train/extr_return_raw_std": 55.4965065665867, "train/extr_reward_mag": 1.9954356421595034, "train/extr_reward_max": 1.9954356421595034, "train/extr_reward_mean": 1.2024098284866498, "train/extr_reward_min": 0.0008719744889632515, "train/extr_reward_std": 0.6846019392428191, "train/image_loss_mean": 0.9188902572445248, "train/image_loss_std": 0.9514364820459614, "train/model_loss_mean": 2.868787273116734, "train/model_loss_std": 3.992830665215202, "train/model_opt_grad_norm": 13.229165325994076, "train/model_opt_grad_steps": 22154.0, "train/model_opt_loss": 14343.936374830164, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0977270486562147, "train/policy_entropy_max": 1.091427770645722, "train/policy_entropy_mean": -0.764395674933558, "train/policy_entropy_min": -0.8820001042407491, "train/policy_entropy_std": 0.21560133442930554, "train/policy_logprob_mag": 7.528608767882638, "train/policy_logprob_max": 1.3810737495837004, "train/policy_logprob_mean": 0.7624748543552731, "train/policy_logprob_min": -7.528608767882638, "train/policy_logprob_std": 0.7434020431145377, "train/policy_randomness_mag": 0.8577638644239177, "train/policy_randomness_max": 0.8577638644239177, "train/policy_randomness_mean": 0.051790037070927414, "train/policy_randomness_min": 0.0007150672039563727, "train/policy_randomness_std": 0.09363446546637494, "train/post_ent_mag": 45.23056021980617, "train/post_ent_max": 45.23056021980617, "train/post_ent_mean": 37.018502028092094, "train/post_ent_min": 16.156797471253768, "train/post_ent_std": 5.7103724790656045, "train/prior_ent_mag": 57.59403510715651, "train/prior_ent_max": 57.59403510715651, "train/prior_ent_mean": 39.28896505936332, "train/prior_ent_min": 23.982040197952934, "train/prior_ent_std": 5.0146195059237275, "train/rep_loss_mean": 2.417164787002232, "train/rep_loss_std": 5.36226020688596, "train/reward_avg": 1.2242584837519603, "train/reward_loss_mean": 0.499598138358282, "train/reward_loss_std": 0.23160506784915924, "train/reward_max_data": 1.997755283894746, "train/reward_max_pred": 1.9934970866078916, "train/reward_neg_acc": 0.935951371555743, "train/reward_neg_loss": 0.4418106701063073, "train/reward_pos_acc": 0.9980561279732248, "train/reward_pos_loss": 0.5055167253898538, "train/reward_pred": 1.223240534896436, "train/reward_rate": 0.9092433763586957, "stats/mean_log_entropy": -0.8182610720396042, "replay/size": 45861.0, "replay/inserts": 920.0, "replay/samples": 7360.0, "replay/insert_wait_avg": 2.664068470830503e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0402630204739777e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3618767261505, "timer/env.step_count": 230.0, "timer/env.step_total": 6.841311931610107, "timer/env.step_frac": 0.022776898340689054, "timer/env.step_avg": 0.029744834485261336, "timer/env.step_min": 0.022608280181884766, "timer/env.step_max": 0.08765912055969238, "timer/replay.add_count": 920.0, "timer/replay.add_total": 0.19930195808410645, "timer/replay.add_frac": 0.000663539461986437, "timer/replay.add_avg": 0.0002166325631348983, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.008060932159423828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025175094604492188, "timer/logger.write_frac": 8.381587862911485e-05, "timer/logger.write_avg": 0.025175094604492188, "timer/logger.write_min": 0.025175094604492188, "timer/logger.write_max": 0.025175094604492188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 230.0, "timer/agent.policy_total": 0.8589811325073242, "timer/agent.policy_frac": 0.0028598207664366298, "timer/agent.policy_avg": 0.0037347005761188008, "timer/agent.policy_min": 0.003000020980834961, "timer/agent.policy_max": 0.011691093444824219, "timer/dataset_count": 460.0, "timer/dataset_total": 0.0417940616607666, "timer/dataset_frac": 0.00013914569357572493, "timer/dataset_avg": 9.085665578427522e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.00023031234741210938, "timer/agent.train_count": 460.0, "timer/agent.train_total": 292.11234974861145, "timer/agent.train_frac": 0.9725347069093578, "timer/agent.train_avg": 0.6350268472795901, "timer/agent.train_min": 0.5907199382781982, "timer/agent.train_max": 0.6875813007354736, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1504511833190918, "timer/agent.report_frac": 0.0005008997312141012, "timer/agent.report_avg": 0.1504511833190918, "timer/agent.report_min": 0.1504511833190918, "timer/agent.report_max": 0.1504511833190918, "fps": 6.125882537232437}
+{"step": 94070, "train/action_mag": 1.9090578685636106, "train/action_max": 1.898759567219278, "train/action_mean": 0.05485702626933546, "train/action_min": -1.4907305940337803, "train/action_std": 0.6267934299033621, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.3002630007331786, "train/actor_opt_grad_steps": 22635.0, "train/actor_opt_loss": -160.30448134049126, "train/adv_mag": 1.3267849994742351, "train/adv_max": 1.323729693889618, "train/adv_mean": 0.01652535855891588, "train/adv_min": -0.5872519327246625, "train/adv_std": 0.0666196706664303, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.1024278832811488e-09, "train/cont_loss_std": 1.5422518129731592e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.1024278832811488e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.406640410423279, "train/dyn_loss_std": 5.367406648138295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.36721487440492795, "train/extr_critic_critic_opt_grad_steps": 22635.0, "train/extr_critic_critic_opt_loss": 7956.408341117527, "train/extr_critic_mag": 542.1723261294158, "train/extr_critic_max": 542.1723261294158, "train/extr_critic_mean": 470.7859868588655, "train/extr_critic_min": 243.32188913096553, "train/extr_critic_std": 54.576482026473336, "train/extr_return_normed_mag": 1.0226876554281816, "train/extr_return_normed_max": 1.0136197390763655, "train/extr_return_normed_mean": 0.5874716412761937, "train/extr_return_normed_min": -0.3660227921993836, "train/extr_return_normed_std": 0.327627789715062, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 545.1534437096637, "train/extr_return_raw_max": 545.1534437096637, "train/extr_return_raw_mean": 473.5571103303329, "train/extr_return_raw_min": 313.8139787756878, "train/extr_return_raw_std": 55.01001051197881, "train/extr_reward_mag": 1.994845167450283, "train/extr_reward_max": 1.994845167450283, "train/extr_reward_mean": 1.1754533207934836, "train/extr_reward_min": 0.0006909422252489173, "train/extr_reward_std": 0.6940186697503795, "train/image_loss_mean": 0.9315926678802656, "train/image_loss_std": 0.9438941854497661, "train/model_loss_mean": 2.8749625475510308, "train/model_loss_std": 3.9860712600790937, "train/model_opt_grad_norm": 13.383376411769701, "train/model_opt_grad_steps": 22613.695652173912, "train/model_opt_loss": 16814.405400815216, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5978.260869565217, "train/policy_entropy_mag": 0.9559427214705426, "train/policy_entropy_max": 0.8641304917957472, "train/policy_entropy_mean": -0.7788745696130006, "train/policy_entropy_min": -0.8818410531334255, "train/policy_entropy_std": 0.18711651651107747, "train/policy_logprob_mag": 6.994339414264845, "train/policy_logprob_max": 1.3808447692705237, "train/policy_logprob_mean": 0.7796224886956422, "train/policy_logprob_min": -6.994339414264845, "train/policy_logprob_std": 0.732428076474563, "train/policy_randomness_mag": 0.7590499170448469, "train/policy_randomness_max": 0.7590499170448469, "train/policy_randomness_mean": 0.045501934971822346, "train/policy_randomness_min": 0.0007841422237739291, "train/policy_randomness_std": 0.08126366721547168, "train/post_ent_mag": 45.64306002077849, "train/post_ent_max": 45.64306002077849, "train/post_ent_mean": 37.00145514115043, "train/post_ent_min": 16.66814493096393, "train/post_ent_std": 5.731599247973898, "train/prior_ent_mag": 57.674828073252804, "train/prior_ent_max": 57.674828073252804, "train/prior_ent_mean": 39.32783806842306, "train/prior_ent_min": 24.232461224431578, "train/prior_ent_std": 5.044083533079728, "train/rep_loss_mean": 2.406640410423279, "train/rep_loss_std": 5.367406648138295, "train/reward_avg": 1.1993742351946624, "train/reward_loss_mean": 0.499385606335557, "train/reward_loss_std": 0.23755048053420108, "train/reward_max_data": 1.9984363161999246, "train/reward_max_pred": 1.9930013107216877, "train/reward_neg_acc": 0.9281082179235376, "train/reward_neg_loss": 0.4531946661679641, "train/reward_pos_acc": 0.997997381117033, "train/reward_pos_loss": 0.5043693469918292, "train/reward_pred": 1.1982840558756953, "train/reward_rate": 0.8995414402173914, "replay/size": 46783.0, "replay/inserts": 922.0, "replay/samples": 7376.0, "replay/insert_wait_avg": 2.7141446922451194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0550086772364288e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.49940633773804, "timer/env.step_count": 230.0, "timer/env.step_total": 6.821296215057373, "timer/env.step_frac": 0.022699865860602617, "timer/env.step_avg": 0.02965780963068423, "timer/env.step_min": 0.02108001708984375, "timer/env.step_max": 0.06017017364501953, "timer/replay.add_count": 922.0, "timer/replay.add_total": 0.21837973594665527, "timer/replay.add_frac": 0.0007267226867703471, "timer/replay.add_avg": 0.00023685437738248945, "timer/replay.add_min": 4.220008850097656e-05, "timer/replay.add_max": 0.012936592102050781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019930124282836914, "timer/logger.write_frac": 6.632333995507799e-05, "timer/logger.write_avg": 0.019930124282836914, "timer/logger.write_min": 0.019930124282836914, "timer/logger.write_max": 0.019930124282836914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017452239990234375, "timer/checkpoint.save_frac": 5.807745247462956e-07, "timer/checkpoint.save_avg": 0.00017452239990234375, "timer/checkpoint.save_min": 0.00017452239990234375, "timer/checkpoint.save_max": 0.00017452239990234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.09263110160827637, "timer/agent.save_frac": 0.000308257186718586, "timer/agent.save_avg": 0.09263110160827637, "timer/agent.save_min": 0.09263110160827637, "timer/agent.save_max": 0.09263110160827637, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 2.673784355730896e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 230.0, "timer/agent.policy_total": 0.9593627452850342, "timer/agent.policy_frac": 0.0031925611999605243, "timer/agent.policy_avg": 0.0041711423708044966, "timer/agent.policy_min": 0.0029685497283935547, "timer/agent.policy_max": 0.054198265075683594, "timer/dataset_count": 461.0, "timer/dataset_total": 0.04197096824645996, "timer/dataset_frac": 0.00013967071934673924, "timer/dataset_avg": 9.104331506824286e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00020170211791992188, "timer/agent.train_count": 461.0, "timer/agent.train_total": 292.17966651916504, "timer/agent.train_frac": 0.9723136231117134, "timer/agent.train_avg": 0.6337953720589263, "timer/agent.train_min": 0.571070671081543, "timer/agent.train_max": 0.693474292755127, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14433574676513672, "timer/agent.report_frac": 0.000480319573752883, "timer/agent.report_avg": 0.14433574676513672, "timer/agent.report_min": 0.14433574676513672, "timer/agent.report_max": 0.14433574676513672, "fps": 6.136421794210758}
+{"step": 95918, "train/action_mag": 1.8165513835054763, "train/action_max": 1.8068041623906885, "train/action_mean": 0.06621768181905785, "train/action_min": -1.4628638739281512, "train/action_std": 0.6139696037515681, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.16479215889852097, "train/actor_opt_grad_steps": 23100.0, "train/actor_opt_loss": -153.05786173394387, "train/adv_mag": 0.9470365776660594, "train/adv_max": 0.8975086757477294, "train/adv_mean": 0.015795142459187735, "train/adv_min": -0.59854955812718, "train/adv_std": 0.053861602031170054, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.058300317356679e-09, "train/cont_loss_std": 1.337711053039925e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.058300317356679e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4278973543897586, "train/dyn_loss_std": 5.402355346273868, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.32270684013975426, "train/extr_critic_critic_opt_grad_steps": 23100.0, "train/extr_critic_critic_opt_loss": 6694.914259890293, "train/extr_critic_mag": 544.637484936004, "train/extr_critic_max": 544.637484936004, "train/extr_critic_mean": 483.176877934882, "train/extr_critic_min": 283.7232471222573, "train/extr_critic_std": 52.43308290522149, "train/extr_return_normed_mag": 1.0195743061126548, "train/extr_return_normed_max": 1.0140918683498463, "train/extr_return_normed_mean": 0.6297315853707334, "train/extr_return_normed_min": -0.41405822088250094, "train/extr_return_normed_std": 0.3284500850007889, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 547.5051892869016, "train/extr_return_raw_max": 547.5051892869016, "train/extr_return_raw_mean": 485.71662610642454, "train/extr_return_raw_min": 318.0252756970994, "train/extr_return_raw_std": 52.77598133492977, "train/extr_reward_mag": 1.995499829028515, "train/extr_reward_max": 1.995499829028515, "train/extr_reward_mean": 1.18220118005225, "train/extr_reward_min": 0.0006697127159605634, "train/extr_reward_std": 0.6888278545217311, "train/image_loss_mean": 0.9190989821515185, "train/image_loss_std": 0.9909764972138912, "train/model_loss_mean": 2.8756954010496747, "train/model_loss_std": 4.044981276735347, "train/model_opt_grad_norm": 13.161196465187885, "train/model_opt_grad_steps": 23078.0, "train/model_opt_loss": 14378.476998836437, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9152059517008193, "train/policy_entropy_max": 0.7768646580107669, "train/policy_entropy_mean": -0.7920403556620821, "train/policy_entropy_min": -0.8819620786829198, "train/policy_entropy_std": 0.17149582299146246, "train/policy_logprob_mag": 7.5324976494971745, "train/policy_logprob_max": 1.3809594550031297, "train/policy_logprob_mean": 0.7914780860251569, "train/policy_logprob_min": -7.5324976494971745, "train/policy_logprob_std": 0.7293128865830442, "train/policy_randomness_mag": 0.7211508395824027, "train/policy_randomness_max": 0.7211508395824027, "train/policy_randomness_mean": 0.039784107753571045, "train/policy_randomness_min": 0.00073158149941864, "train/policy_randomness_std": 0.07447968613594136, "train/post_ent_mag": 46.096274842607215, "train/post_ent_max": 46.096274842607215, "train/post_ent_mean": 37.284677951893904, "train/post_ent_min": 16.555869427133114, "train/post_ent_std": 5.840743633026772, "train/prior_ent_mag": 57.8973837507532, "train/prior_ent_max": 57.8973837507532, "train/prior_ent_mean": 39.60694885253906, "train/prior_ent_min": 23.911613099118497, "train/prior_ent_std": 5.172379179203764, "train/rep_loss_mean": 2.4278973543897586, "train/rep_loss_std": 5.402355346273868, "train/reward_avg": 1.2030224432336523, "train/reward_loss_mean": 0.49985799510428247, "train/reward_loss_std": 0.22965661674103838, "train/reward_max_data": 1.9981640171497426, "train/reward_max_pred": 1.993737464255475, "train/reward_neg_acc": 0.9387681572995288, "train/reward_neg_loss": 0.44233853258985156, "train/reward_pos_acc": 0.9971074461936951, "train/reward_pos_loss": 0.5065854978054127, "train/reward_pred": 1.2011872834347663, "train/reward_rate": 0.9013048537234043, "replay/size": 47707.0, "replay/inserts": 924.0, "replay/samples": 7392.0, "replay/insert_wait_avg": 2.682209014892578e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.21644436022936e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3761456012726, "timer/env.step_count": 231.0, "timer/env.step_total": 6.647761106491089, "timer/env.step_frac": 0.022131454856989564, "timer/env.step_avg": 0.028778186608186533, "timer/env.step_min": 0.02201104164123535, "timer/env.step_max": 0.048340559005737305, "timer/replay.add_count": 924.0, "timer/replay.add_total": 0.19586801528930664, "timer/replay.add_frac": 0.0006520757994854463, "timer/replay.add_avg": 0.00021197837152522363, "timer/replay.add_min": 4.100799560546875e-05, "timer/replay.add_max": 0.004436969757080078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017159700393676758, "timer/logger.write_frac": 5.712737394418466e-05, "timer/logger.write_avg": 0.017159700393676758, "timer/logger.write_min": 0.017159700393676758, "timer/logger.write_max": 0.017159700393676758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8451809883117676, "timer/agent.policy_frac": 0.002813742038735938, "timer/agent.policy_avg": 0.003658792157193799, "timer/agent.policy_min": 0.0029735565185546875, "timer/agent.policy_max": 0.008903264999389648, "timer/dataset_count": 462.0, "timer/dataset_total": 0.04149341583251953, "timer/dataset_frac": 0.00013813818587178695, "timer/dataset_avg": 8.98125883820769e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002868175506591797, "timer/agent.train_count": 462.0, "timer/agent.train_total": 292.37139916419983, "timer/agent.train_frac": 0.9733509249842414, "timer/agent.train_avg": 0.6328385263294368, "timer/agent.train_min": 0.5826399326324463, "timer/agent.train_max": 0.6742680072784424, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14651751518249512, "timer/agent.report_frac": 0.0004877801294413919, "timer/agent.report_avg": 0.14651751518249512, "timer/agent.report_min": 0.14651751518249512, "timer/agent.report_max": 0.14651751518249512, "fps": 6.152244172412434}
+{"step": 96192, "episode/length": 500.0, "episode/score": 889.8416714978521, "episode/sum_abs_reward": 889.8416714978521, "episode/reward_rate": 0.9540918163672655}
+{"step": 97754, "train/action_mag": 1.8045580466588338, "train/action_max": 1.7913690646489462, "train/action_mean": 0.06120451936860465, "train/action_min": -1.4690815952089098, "train/action_std": 0.6007309595743815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.1449885807931423, "train/actor_opt_grad_steps": 23560.0, "train/actor_opt_loss": -151.13482191297743, "train/adv_mag": 1.0059102144506242, "train/adv_max": 0.9549754407670763, "train/adv_mean": 0.015601768603341446, "train/adv_min": -0.5262791772683462, "train/adv_std": 0.05222106816040145, "train/cont_avg": 1.0, "train/cont_loss_mean": 1.0579337369106175e-09, "train/cont_loss_std": 1.4845641506234921e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 1.0579337369106175e-09, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.380922963884142, "train/dyn_loss_std": 5.362590259975857, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.2800408320294486, "train/extr_critic_critic_opt_grad_steps": 23560.0, "train/extr_critic_critic_opt_loss": 7711.577115885417, "train/extr_critic_mag": 556.2722357855903, "train/extr_critic_max": 556.2722357855903, "train/extr_critic_mean": 498.3040052625868, "train/extr_critic_min": 304.9526158650716, "train/extr_critic_std": 48.28957256740994, "train/extr_return_normed_mag": 1.044641417927212, "train/extr_return_normed_max": 1.0392010370890299, "train/extr_return_normed_mean": 0.6801368064350553, "train/extr_return_normed_min": -0.2662827086272753, "train/extr_return_normed_std": 0.3088034080134498, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 556.9698716905382, "train/extr_return_raw_max": 556.9698716905382, "train/extr_return_raw_mean": 500.7426255967882, "train/extr_return_raw_min": 352.4526217990451, "train/extr_return_raw_std": 48.32433369954427, "train/extr_reward_mag": 1.996769486533271, "train/extr_reward_max": 1.996769486533271, "train/extr_reward_mean": 1.2113907443152534, "train/extr_reward_min": 0.0006525490019056533, "train/extr_reward_std": 0.6910616795221964, "train/image_loss_mean": 0.8855092300309075, "train/image_loss_std": 0.9432543185022142, "train/model_loss_mean": 2.8146836545732286, "train/model_loss_std": 3.9733157422807484, "train/model_opt_grad_norm": 11.527563614315456, "train/model_opt_grad_steps": 23538.0, "train/model_opt_loss": 15902.871701388889, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5666.666666666667, "train/policy_entropy_mag": 0.8971127443843417, "train/policy_entropy_max": 0.6799850543340047, "train/policy_entropy_mean": -0.8015591581662496, "train/policy_entropy_min": -0.881949437989129, "train/policy_entropy_std": 0.16121952947643067, "train/policy_logprob_mag": 6.914961295657688, "train/policy_logprob_max": 1.3810030645794338, "train/policy_logprob_mean": 0.8025402559174432, "train/policy_logprob_min": -6.914961295657688, "train/policy_logprob_std": 0.7253912276691861, "train/policy_randomness_mag": 0.6790765649742551, "train/policy_randomness_max": 0.6790765649742551, "train/policy_randomness_mean": 0.035650144062108466, "train/policy_randomness_min": 0.0007370712791776492, "train/policy_randomness_std": 0.07001674849953916, "train/post_ent_mag": 46.59755232069227, "train/post_ent_max": 46.59755232069227, "train/post_ent_mean": 37.73851301405165, "train/post_ent_min": 16.96474471622043, "train/post_ent_std": 5.888471274905735, "train/prior_ent_mag": 58.31291673448351, "train/prior_ent_max": 58.31291673448351, "train/prior_ent_mean": 39.991662682427304, "train/prior_ent_min": 24.211813481648765, "train/prior_ent_std": 5.220062351226806, "train/rep_loss_mean": 2.380922963884142, "train/rep_loss_std": 5.362590259975857, "train/reward_avg": 1.2266910288068984, "train/reward_loss_mean": 0.5006206611792247, "train/reward_loss_std": 0.23218321899573008, "train/reward_max_data": 1.9982882473203871, "train/reward_max_pred": 1.9944850179884168, "train/reward_neg_acc": 0.9362222009234958, "train/reward_neg_loss": 0.4482885592513614, "train/reward_pos_acc": 0.9980450815624661, "train/reward_pos_loss": 0.5061962299876743, "train/reward_pred": 1.2244815005196465, "train/reward_rate": 0.9091362847222222, "stats/mean_log_entropy": -0.8465584367513657, "replay/size": 48625.0, "replay/inserts": 918.0, "replay/samples": 7344.0, "replay/insert_wait_avg": 2.705713243006621e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0966475492988536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27190685272217, "timer/env.step_count": 230.0, "timer/env.step_total": 7.814965486526489, "timer/env.step_frac": 0.026026295861102937, "timer/env.step_avg": 0.03397811081098474, "timer/env.step_min": 0.02281665802001953, "timer/env.step_max": 0.657433032989502, "timer/replay.add_count": 918.0, "timer/replay.add_total": 0.18329405784606934, "timer/replay.add_frac": 0.0006104269286036528, "timer/replay.add_avg": 0.00019966672967981408, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0037496089935302734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02156686782836914, "timer/logger.write_frac": 7.18244608842055e-05, "timer/logger.write_avg": 0.02156686782836914, "timer/logger.write_min": 0.02156686782836914, "timer/logger.write_max": 0.02156686782836914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 230.0, "timer/agent.policy_total": 0.8859505653381348, "timer/agent.policy_frac": 0.0029504943523493764, "timer/agent.policy_avg": 0.0038519589797310206, "timer/agent.policy_min": 0.0029990673065185547, "timer/agent.policy_max": 0.016556978225708008, "timer/dataset_count": 459.0, "timer/dataset_total": 0.04250741004943848, "timer/dataset_frac": 0.00014156306027752233, "timer/dataset_avg": 9.260873649115137e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00022721290588378906, "timer/agent.train_count": 459.0, "timer/agent.train_total": 291.04368567466736, "timer/agent.train_frac": 0.9692671176775086, "timer/agent.train_avg": 0.6340821038663776, "timer/agent.train_min": 0.5745580196380615, "timer/agent.train_max": 0.7005462646484375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1472773551940918, "timer/agent.report_frac": 0.0004904799677657778, "timer/agent.report_avg": 0.1472773551940918, "timer/agent.report_min": 0.1472773551940918, "timer/agent.report_max": 0.1472773551940918, "fps": 6.114418244947515}
+{"step": 99606, "train/action_mag": 1.839224320776919, "train/action_max": 1.8191902916482154, "train/action_mean": 0.08147014711706087, "train/action_min": -1.4853891514717263, "train/action_std": 0.6066271282256918, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.2071979657766667, "train/actor_opt_grad_steps": 24020.0, "train/actor_opt_loss": -139.92136691478973, "train/adv_mag": 0.9864988612367752, "train/adv_max": 0.9641433174305774, "train/adv_mean": 0.01446945563037979, "train/adv_min": -0.5007606392845194, "train/adv_std": 0.056327066324809764, "train/cont_avg": 1.0, "train/cont_loss_mean": 9.43540822305673e-10, "train/cont_loss_std": 1.4721003954838865e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.43540822305673e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.4509484818641174, "train/dyn_loss_std": 5.5361849500777875, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.2361170638431894, "train/extr_critic_critic_opt_grad_steps": 24020.0, "train/extr_critic_critic_opt_loss": 9447.58679978391, "train/extr_critic_mag": 575.6043324571975, "train/extr_critic_max": 575.6043324571975, "train/extr_critic_mean": 507.3015902904754, "train/extr_critic_min": 315.76352967607215, "train/extr_critic_std": 50.024337971464114, "train/extr_return_normed_mag": 1.0615456408642707, "train/extr_return_normed_max": 1.0615456408642707, "train/extr_return_normed_mean": 0.669135367616694, "train/extr_return_normed_min": -0.2984462388731698, "train/extr_return_normed_std": 0.30834370692993734, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 573.4770871426197, "train/extr_return_raw_max": 573.4770871426197, "train/extr_return_raw_mean": 509.6459532392786, "train/extr_return_raw_min": 352.5016472999086, "train/extr_return_raw_std": 50.13268478880537, "train/extr_reward_mag": 1.9972753829144416, "train/extr_reward_max": 1.9972753829144416, "train/extr_reward_mean": 1.2170340964134703, "train/extr_reward_min": 0.0007141904628023188, "train/extr_reward_std": 0.6809281782901033, "train/image_loss_mean": 0.9197729204563384, "train/image_loss_std": 0.9804730643617346, "train/model_loss_mean": 2.8821011756328825, "train/model_loss_std": 4.121114421398081, "train/model_opt_grad_norm": 13.17419608095859, "train/model_opt_grad_steps": 23997.14893617021, "train/model_opt_loss": 16531.610912566488, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5744.68085106383, "train/policy_entropy_mag": 0.9126689789143014, "train/policy_entropy_max": 0.7764557511248487, "train/policy_entropy_mean": -0.7900607509815947, "train/policy_entropy_min": -0.881839541678733, "train/policy_entropy_std": 0.17584491489415474, "train/policy_logprob_mag": 7.509312873191022, "train/policy_logprob_max": 1.3809173538329753, "train/policy_logprob_mean": 0.790439596835603, "train/policy_logprob_min": -7.509312873191022, "train/policy_logprob_std": 0.7299898013155511, "train/policy_randomness_mag": 0.7209732614933176, "train/policy_randomness_max": 0.7209732614933176, "train/policy_randomness_mean": 0.04064383841258414, "train/policy_randomness_min": 0.0007847986404506609, "train/policy_randomness_std": 0.07636847347021103, "train/post_ent_mag": 46.540043688834984, "train/post_ent_max": 46.540043688834984, "train/post_ent_mean": 37.77787594085044, "train/post_ent_min": 16.836728055426416, "train/post_ent_std": 5.815323251359006, "train/prior_ent_mag": 58.38923442110102, "train/prior_ent_max": 58.38923442110102, "train/prior_ent_mean": 40.061810189105096, "train/prior_ent_min": 24.2356548715145, "train/prior_ent_std": 5.113117045544564, "train/rep_loss_mean": 2.4509484818641174, "train/rep_loss_std": 5.5361849500777875, "train/reward_avg": 1.2345373402250575, "train/reward_loss_mean": 0.49175915692714933, "train/reward_loss_std": 0.22644253709214798, "train/reward_max_data": 1.998352991773727, "train/reward_max_pred": 1.9939456290387092, "train/reward_neg_acc": 0.9278922512176189, "train/reward_neg_loss": 0.4563747416151331, "train/reward_pos_acc": 0.9978499831037319, "train/reward_pos_loss": 0.49565464194784775, "train/reward_pred": 1.233270987551263, "train/reward_rate": 0.9054604388297872, "replay/size": 49551.0, "replay/inserts": 926.0, "replay/samples": 7408.0, "replay/insert_wait_avg": 2.434392727219518e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.067026130066577e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36486554145813, "timer/env.step_count": 231.0, "timer/env.step_total": 6.188630104064941, "timer/env.step_frac": 0.02060370840280835, "timer/env.step_avg": 0.026790606511103644, "timer/env.step_min": 0.02002882957458496, "timer/env.step_max": 0.11660027503967285, "timer/replay.add_count": 926.0, "timer/replay.add_total": 0.1973426342010498, "timer/replay.add_frac": 0.0006570097133208524, "timer/replay.add_avg": 0.000213112995897462, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.01463460922241211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.015170097351074219, "timer/logger.write_frac": 5.0505565368731024e-05, "timer/logger.write_avg": 0.015170097351074219, "timer/logger.write_min": 0.015170097351074219, "timer/logger.write_max": 0.015170097351074219, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017642974853515625, "timer/checkpoint.save_frac": 5.873847735723418e-07, "timer/checkpoint.save_avg": 0.00017642974853515625, "timer/checkpoint.save_min": 0.00017642974853515625, "timer/checkpoint.save_max": 0.00017642974853515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07533836364746094, "timer/agent.save_frac": 0.0002508228234738803, "timer/agent.save_avg": 0.07533836364746094, "timer/agent.save_min": 0.07533836364746094, "timer/agent.save_max": 0.07533836364746094, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.96453857421875e-05, "timer/replay.save_frac": 2.98454966031352e-07, "timer/replay.save_avg": 8.96453857421875e-05, "timer/replay.save_min": 8.96453857421875e-05, "timer/replay.save_max": 8.96453857421875e-05, "timer/agent.policy_count": 231.0, "timer/agent.policy_total": 0.8257622718811035, "timer/agent.policy_frac": 0.0027491972817544033, "timer/agent.policy_avg": 0.003574728449701747, "timer/agent.policy_min": 0.0027697086334228516, "timer/agent.policy_max": 0.04663228988647461, "timer/dataset_count": 463.0, "timer/dataset_total": 0.03717517852783203, "timer/dataset_frac": 0.00012376673437093758, "timer/dataset_avg": 8.029196226313614e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 463.0, "timer/agent.train_total": 292.8471415042877, "timer/agent.train_frac": 0.9749713601701768, "timer/agent.train_avg": 0.6324992257112045, "timer/agent.train_min": 0.5916132926940918, "timer/agent.train_max": 0.723433256149292, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15300679206848145, "timer/agent.report_frac": 0.0005094030947749531, "timer/agent.report_avg": 0.15300679206848145, "timer/agent.report_min": 0.15300679206848145, "timer/agent.report_max": 0.15300679206848145, "fps": 6.165793548524237}
+{"step": 100200, "episode/length": 500.0, "episode/score": 956.506257891655, "episode/sum_abs_reward": 956.506257891655, "episode/reward_rate": 0.998003992015968}
+{"step": 101470, "train/action_mag": 1.9730725106985674, "train/action_max": 1.962554211201875, "train/action_mean": 0.0714643485236751, "train/action_min": -1.5047648756400398, "train/action_std": 0.5831959292940472, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.17710374101348544, "train/actor_opt_grad_steps": 24485.0, "train/actor_opt_loss": -83.52331816631815, "train/adv_mag": 0.7830035867898361, "train/adv_max": 0.6871426597885464, "train/adv_mean": 0.008717348743432565, "train/adv_min": -0.4863903690939364, "train/adv_std": 0.03797609707259614, "train/cont_avg": 1.0, "train/cont_loss_mean": 9.70074083863336e-10, "train/cont_loss_std": 1.5953790607433095e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.70074083863336e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.359081877314526, "train/dyn_loss_std": 5.290803411732549, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.22399056978199794, "train/extr_critic_critic_opt_grad_steps": 24485.0, "train/extr_critic_critic_opt_loss": 10554.928031589674, "train/extr_critic_mag": 588.7272537894871, "train/extr_critic_max": 588.7272537894871, "train/extr_critic_mean": 520.4757431693699, "train/extr_critic_min": 300.43757861593497, "train/extr_critic_std": 55.1980909679247, "train/extr_return_normed_mag": 1.0624964392703513, "train/extr_return_normed_max": 1.0497735609178958, "train/extr_return_normed_mean": 0.6781512706176095, "train/extr_return_normed_min": -0.38338019703919796, "train/extr_return_normed_std": 0.32318577947823895, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 586.0403322966202, "train/extr_return_raw_max": 586.0403322966202, "train/extr_return_raw_mean": 521.9758665665337, "train/extr_return_raw_min": 338.8184210735819, "train/extr_return_raw_std": 55.73212034805961, "train/extr_reward_mag": 1.997025313584701, "train/extr_reward_max": 1.997025313584701, "train/extr_reward_mean": 1.2851213177909022, "train/extr_reward_min": 0.00074101271836654, "train/extr_reward_std": 0.6770985865074656, "train/image_loss_mean": 0.8530322378096373, "train/image_loss_std": 0.9613305019295734, "train/model_loss_mean": 2.7606958513674527, "train/model_loss_std": 3.965599028960518, "train/model_opt_grad_norm": 12.787225951319156, "train/model_opt_grad_steps": 24462.0, "train/model_opt_loss": 13803.479258661684, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9258124621018119, "train/policy_entropy_max": 0.8337731115196062, "train/policy_entropy_mean": -0.7833991465361222, "train/policy_entropy_min": -0.881820357364157, "train/policy_entropy_std": 0.20253734436372053, "train/policy_logprob_mag": 7.117456156274547, "train/policy_logprob_max": 1.3807302428328472, "train/policy_logprob_mean": 0.7837741141733916, "train/policy_logprob_min": -7.117456156274547, "train/policy_logprob_std": 0.7371823062067446, "train/policy_randomness_mag": 0.7458658684854922, "train/policy_randomness_max": 0.7458658684854922, "train/policy_randomness_mean": 0.043536936459334, "train/policy_randomness_min": 0.0007931302774839265, "train/policy_randomness_std": 0.08796084761295629, "train/post_ent_mag": 46.891141725623086, "train/post_ent_max": 46.891141725623086, "train/post_ent_mean": 38.51197192979895, "train/post_ent_min": 16.456539879674498, "train/post_ent_std": 5.787207178447558, "train/prior_ent_mag": 58.60112024390179, "train/prior_ent_max": 58.60112024390179, "train/prior_ent_mean": 40.71250882356063, "train/prior_ent_min": 24.708625130031418, "train/prior_ent_std": 5.0286455672720205, "train/rep_loss_mean": 2.359081877314526, "train/rep_loss_std": 5.290803411732549, "train/reward_avg": 1.3026654849881711, "train/reward_loss_mean": 0.492214467862378, "train/reward_loss_std": 0.22928326123434564, "train/reward_max_data": 1.9984413229900857, "train/reward_max_pred": 1.9948255756626958, "train/reward_neg_acc": 0.9374416535315306, "train/reward_neg_loss": 0.4466087662655374, "train/reward_pos_acc": 0.9987172510312952, "train/reward_pos_loss": 0.49626080627026764, "train/reward_pred": 1.300689642843993, "train/reward_rate": 0.9200492527173914, "stats/mean_log_entropy": -0.8693481683731079, "replay/size": 50483.0, "replay/inserts": 932.0, "replay/samples": 7456.0, "replay/insert_wait_avg": 2.3578369566299375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0659126764714974e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1414201259613, "timer/env.step_count": 233.0, "timer/env.step_total": 5.7965216636657715, "timer/env.step_frac": 0.019312634894687732, "timer/env.step_avg": 0.024877775380539792, "timer/env.step_min": 0.02110910415649414, "timer/env.step_max": 0.051125288009643555, "timer/replay.add_count": 932.0, "timer/replay.add_total": 0.17889809608459473, "timer/replay.add_frac": 0.0005960460106089856, "timer/replay.add_avg": 0.00019195074687188276, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0019195079803466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0183560848236084, "timer/logger.write_frac": 6.11581194488413e-05, "timer/logger.write_avg": 0.0183560848236084, "timer/logger.write_min": 0.0183560848236084, "timer/logger.write_max": 0.0183560848236084, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 233.0, "timer/agent.policy_total": 0.7285306453704834, "timer/agent.policy_frac": 0.0024272912584498954, "timer/agent.policy_avg": 0.0031267409672552935, "timer/agent.policy_min": 0.0027794837951660156, "timer/agent.policy_max": 0.00871133804321289, "timer/dataset_count": 466.0, "timer/dataset_total": 0.0354769229888916, "timer/dataset_frac": 0.00011820069010802604, "timer/dataset_avg": 7.613073602766439e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014829635620117188, "timer/agent.train_count": 466.0, "timer/agent.train_total": 293.1281487941742, "timer/agent.train_frac": 0.9766334438984002, "timer/agent.train_avg": 0.6290303622192579, "timer/agent.train_min": 0.5860276222229004, "timer/agent.train_max": 0.6724109649658203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1440141201019287, "timer/agent.report_frac": 0.00047982087924249126, "timer/agent.report_avg": 0.1440141201019287, "timer/agent.report_min": 0.1440141201019287, "timer/agent.report_max": 0.1440141201019287, "fps": 6.210348095898578}
+{"step": 103346, "train/action_mag": 2.0117743066016662, "train/action_max": 2.0004391010771405, "train/action_mean": 0.058106389510980315, "train/action_min": -1.496243880150166, "train/action_std": 0.5823243336474642, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.23589244722685915, "train/actor_opt_grad_steps": 24950.0, "train/actor_opt_loss": -97.01238924391727, "train/adv_mag": 1.13304676971537, "train/adv_max": 1.0867917696212201, "train/adv_mean": 0.010077511634122818, "train/adv_min": -0.48126472310816987, "train/adv_std": 0.04801060647723523, "train/cont_avg": 1.0, "train/cont_loss_mean": 9.095651666834306e-10, "train/cont_loss_std": 1.4902903025113167e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 9.095651666834306e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.367274705399858, "train/dyn_loss_std": 5.3866286987954, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.25830765116087934, "train/extr_critic_critic_opt_grad_steps": 24950.0, "train/extr_critic_critic_opt_loss": 11185.704226230053, "train/extr_critic_mag": 596.205810546875, "train/extr_critic_max": 596.205810546875, "train/extr_critic_mean": 527.371969020113, "train/extr_critic_min": 289.61449026554186, "train/extr_critic_std": 53.925905187079245, "train/extr_return_normed_mag": 1.0381960539107626, "train/extr_return_normed_max": 1.034928080883432, "train/extr_return_normed_mean": 0.6652878053644871, "train/extr_return_normed_min": -0.33029231443466184, "train/extr_return_normed_std": 0.31173580092318515, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 593.255202273105, "train/extr_return_raw_max": 593.255202273105, "train/extr_return_raw_mean": 529.1234013983544, "train/extr_return_raw_min": 356.1562662327543, "train/extr_return_raw_std": 54.11675213752909, "train/extr_reward_mag": 1.9981135155292267, "train/extr_reward_max": 1.9981135155292267, "train/extr_reward_mean": 1.2816773817894307, "train/extr_reward_min": 0.0007185479427905793, "train/extr_reward_std": 0.6776922636843742, "train/image_loss_mean": 0.8489960153052147, "train/image_loss_std": 0.9456952505923332, "train/model_loss_mean": 2.757058595089202, "train/model_loss_std": 4.010390088913288, "train/model_opt_grad_norm": 12.84269750879166, "train/model_opt_grad_steps": 24926.63829787234, "train/model_opt_loss": 18561.066427027927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6702.127659574468, "train/policy_entropy_mag": 0.9595612312885041, "train/policy_entropy_max": 0.8866126790959784, "train/policy_entropy_mean": -0.7849120345521481, "train/policy_entropy_min": -0.8819146942585072, "train/policy_entropy_std": 0.19601523464030407, "train/policy_logprob_mag": 7.226176332920156, "train/policy_logprob_max": 1.380977749824524, "train/policy_logprob_mean": 0.7847158566434332, "train/policy_logprob_min": -7.226176332920156, "train/policy_logprob_std": 0.7359806540164542, "train/policy_randomness_mag": 0.7688138091817815, "train/policy_randomness_max": 0.7688138091817815, "train/policy_randomness_mean": 0.04287989524767754, "train/policy_randomness_min": 0.0007521602897310353, "train/policy_randomness_std": 0.08512833064540903, "train/post_ent_mag": 47.107297532101896, "train/post_ent_max": 47.107297532101896, "train/post_ent_mean": 38.649957535114694, "train/post_ent_min": 16.447313329006764, "train/post_ent_std": 5.741332764321185, "train/prior_ent_mag": 58.709678568738575, "train/prior_ent_max": 58.709678568738575, "train/prior_ent_mean": 40.80455601468999, "train/prior_ent_min": 24.622059111899517, "train/prior_ent_std": 5.000075806962683, "train/rep_loss_mean": 2.367274705399858, "train/rep_loss_std": 5.3866286987954, "train/reward_avg": 1.3051196146518627, "train/reward_loss_mean": 0.48769775096406326, "train/reward_loss_std": 0.2255816085541502, "train/reward_max_data": 1.9987643678137597, "train/reward_max_pred": 1.9958100014544549, "train/reward_neg_acc": 0.9317755318702535, "train/reward_neg_loss": 0.45786188955002644, "train/reward_pos_acc": 0.9982628479916998, "train/reward_pos_loss": 0.49012253259090666, "train/reward_pred": 1.3041446982546057, "train/reward_rate": 0.9195270944148937, "replay/size": 51421.0, "replay/inserts": 938.0, "replay/samples": 7504.0, "replay/insert_wait_avg": 2.425616738130289e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0480377465677159e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19734621047974, "timer/env.step_count": 235.0, "timer/env.step_total": 5.7785444259643555, "timer/env.step_frac": 0.019249152262368098, "timer/env.step_avg": 0.02458955074878449, "timer/env.step_min": 0.02051997184753418, "timer/env.step_max": 0.038869619369506836, "timer/replay.add_count": 938.0, "timer/replay.add_total": 0.1784343719482422, "timer/replay.add_frac": 0.0005943902376243362, "timer/replay.add_avg": 0.00019022854152264625, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0015022754669189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02111339569091797, "timer/logger.write_frac": 7.033171997501459e-05, "timer/logger.write_avg": 0.02111339569091797, "timer/logger.write_min": 0.02111339569091797, "timer/logger.write_max": 0.02111339569091797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7240591049194336, "timer/agent.policy_frac": 0.0024119437232192195, "timer/agent.policy_avg": 0.003081102574125249, "timer/agent.policy_min": 0.002745389938354492, "timer/agent.policy_max": 0.004114866256713867, "timer/dataset_count": 469.0, "timer/dataset_total": 0.03551077842712402, "timer/dataset_frac": 0.00011829144686117935, "timer/dataset_avg": 7.571594547361199e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 469.0, "timer/agent.train_total": 293.1945323944092, "timer/agent.train_frac": 0.9766726325050168, "timer/agent.train_avg": 0.6251482567044971, "timer/agent.train_min": 0.5709962844848633, "timer/agent.train_max": 0.6620829105377197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1679069995880127, "timer/agent.report_frac": 0.0005593220649934951, "timer/agent.report_avg": 0.1679069995880127, "timer/agent.report_min": 0.1679069995880127, "timer/agent.report_max": 0.1679069995880127, "fps": 6.249158217839573}
+{"step": 104208, "episode/length": 500.0, "episode/score": 981.6496714353561, "episode/sum_abs_reward": 981.6496714353561, "episode/reward_rate": 0.998003992015968}
+{"step": 105226, "train/action_mag": 1.9289731497460223, "train/action_max": 1.8887251387251185, "train/action_mean": 0.04892290459371152, "train/action_min": -1.572838324181577, "train/action_std": 0.5787327987082461, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.22140989103849898, "train/actor_opt_grad_steps": 25420.0, "train/actor_opt_loss": -85.27100688853163, "train/adv_mag": 1.12228875971855, "train/adv_max": 1.0969072123791308, "train/adv_mean": 0.008894884859786388, "train/adv_min": -0.4013614407245149, "train/adv_std": 0.042375872981675125, "train/cont_avg": 1.0, "train/cont_loss_mean": 8.399267345467819e-10, "train/cont_loss_std": 1.8539198970317214e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 8.399267345467819e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.352460906860676, "train/dyn_loss_std": 5.383382939277811, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.21822471964232465, "train/extr_critic_critic_opt_grad_steps": 25420.0, "train/extr_critic_critic_opt_loss": 11433.310193650266, "train/extr_critic_mag": 601.7178435629987, "train/extr_critic_max": 601.7178435629987, "train/extr_critic_mean": 532.745763251122, "train/extr_critic_min": 299.56441514035487, "train/extr_critic_std": 53.33729894110497, "train/extr_return_normed_mag": 1.0244791304811518, "train/extr_return_normed_max": 1.0244791304811518, "train/extr_return_normed_mean": 0.6500112414360046, "train/extr_return_normed_min": -0.23151465574715366, "train/extr_return_normed_std": 0.31198785850342287, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 598.6942281520113, "train/extr_return_raw_max": 598.6942281520113, "train/extr_return_raw_mean": 534.275462049119, "train/extr_return_raw_min": 382.5989600648271, "train/extr_return_raw_std": 53.64471386848612, "train/extr_reward_mag": 1.9987021202736712, "train/extr_reward_max": 1.9987021202736712, "train/extr_reward_mean": 1.262470543384552, "train/extr_reward_min": 0.0008241521551253948, "train/extr_reward_std": 0.6787861991435924, "train/image_loss_mean": 0.8502616210186735, "train/image_loss_std": 0.9294848695714423, "train/model_loss_mean": 2.7494642075071942, "train/model_loss_std": 3.994009687545452, "train/model_opt_grad_norm": 12.760507086490064, "train/model_opt_grad_steps": 25396.0, "train/model_opt_loss": 13747.32106050532, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9153088356586213, "train/policy_entropy_max": 0.7970884734011711, "train/policy_entropy_mean": -0.7867678695536674, "train/policy_entropy_min": -0.8817098368989661, "train/policy_entropy_std": 0.18351942712956287, "train/policy_logprob_mag": 7.515683640824988, "train/policy_logprob_max": 1.380790297021257, "train/policy_logprob_mean": 0.7860082996652481, "train/policy_logprob_min": -7.515683640824988, "train/policy_logprob_std": 0.7351454965611721, "train/policy_randomness_mag": 0.7299339327406376, "train/policy_randomness_max": 0.7299339327406376, "train/policy_randomness_mean": 0.04207391894244133, "train/policy_randomness_min": 0.0008411287067537296, "train/policy_randomness_std": 0.07970147080560948, "train/post_ent_mag": 46.96682219809674, "train/post_ent_max": 46.96682219809674, "train/post_ent_mean": 38.76219615530461, "train/post_ent_min": 16.68293871778123, "train/post_ent_std": 5.5871758460998535, "train/prior_ent_mag": 58.84138123532559, "train/prior_ent_max": 58.84138123532559, "train/prior_ent_mean": 40.93133553038252, "train/prior_ent_min": 24.934487687780504, "train/prior_ent_std": 4.863656541134449, "train/rep_loss_mean": 2.352460906860676, "train/rep_loss_std": 5.383382939277811, "train/reward_avg": 1.2832701459844063, "train/reward_loss_mean": 0.48772608599764233, "train/reward_loss_std": 0.2301982305151351, "train/reward_max_data": 1.998848002007667, "train/reward_max_pred": 1.9963353694753443, "train/reward_neg_acc": 0.9325343928438552, "train/reward_neg_loss": 0.4568464001442524, "train/reward_pos_acc": 0.99815563572214, "train/reward_pos_loss": 0.49112185518792334, "train/reward_pred": 1.2816834868268763, "train/reward_rate": 0.9148936170212766, "stats/mean_log_entropy": -0.8514595925807953, "replay/size": 52361.0, "replay/inserts": 940.0, "replay/samples": 7520.0, "replay/insert_wait_avg": 2.408788559284616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.059979834455125e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.45302534103394, "timer/env.step_count": 235.0, "timer/env.step_total": 5.7394163608551025, "timer/env.step_frac": 0.019102541418381417, "timer/env.step_avg": 0.024423048344064266, "timer/env.step_min": 0.019497394561767578, "timer/env.step_max": 0.029541969299316406, "timer/replay.add_count": 940.0, "timer/replay.add_total": 0.1804203987121582, "timer/replay.add_frac": 0.0006004945315740096, "timer/replay.add_avg": 0.0001919365943746364, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.002588510513305664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02247905731201172, "timer/logger.write_frac": 7.481721073201547e-05, "timer/logger.write_avg": 0.02247905731201172, "timer/logger.write_min": 0.02247905731201172, "timer/logger.write_max": 0.02247905731201172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030350685119628906, "timer/checkpoint.save_frac": 1.0101640709118799e-06, "timer/checkpoint.save_avg": 0.00030350685119628906, "timer/checkpoint.save_min": 0.00030350685119628906, "timer/checkpoint.save_max": 0.00030350685119628906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1466069221496582, "timer/agent.save_frac": 0.0004879528904168953, "timer/agent.save_avg": 0.1466069221496582, "timer/agent.save_min": 0.1466069221496582, "timer/agent.save_max": 0.1466069221496582, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011587142944335938, "timer/replay.save_frac": 3.8565572542276016e-07, "timer/replay.save_avg": 0.00011587142944335938, "timer/replay.save_min": 0.00011587142944335938, "timer/replay.save_max": 0.00011587142944335938, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.8298282623291016, "timer/agent.policy_frac": 0.0027619234700239476, "timer/agent.policy_avg": 0.0035311840950174533, "timer/agent.policy_min": 0.0027532577514648438, "timer/agent.policy_max": 0.12110090255737305, "timer/dataset_count": 470.0, "timer/dataset_total": 0.0355987548828125, "timer/dataset_frac": 0.00011848359603770198, "timer/dataset_avg": 7.574203166555852e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 470.0, "timer/agent.train_total": 293.36749744415283, "timer/agent.train_frac": 0.9764171857186708, "timer/agent.train_avg": 0.6241861647747933, "timer/agent.train_min": 0.5689775943756104, "timer/agent.train_max": 0.6611506938934326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.16197657585144043, "timer/agent.report_frac": 0.0005391078211563567, "timer/agent.report_avg": 0.16197657585144043, "timer/agent.report_min": 0.16197657585144043, "timer/agent.report_max": 0.16197657585144043, "fps": 6.2571500681014225}
+{"step": 107110, "train/action_mag": 1.9890018016734021, "train/action_max": 1.9809879140650972, "train/action_mean": 0.08867898558642953, "train/action_min": -1.5791734330197598, "train/action_std": 0.5821502126277761, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.2763703796774783, "train/actor_opt_grad_steps": 25890.0, "train/actor_opt_loss": -86.31115738889004, "train/adv_mag": 1.0726848942168214, "train/adv_max": 1.0512207670414702, "train/adv_mean": 0.008997641657380031, "train/adv_min": -0.4528337108327987, "train/adv_std": 0.04423435551530503, "train/cont_avg": 1.0, "train/cont_loss_mean": 7.805760730455198e-10, "train/cont_loss_std": 1.3960676598208524e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 7.805760730455198e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.359374208653227, "train/dyn_loss_std": 5.374428079483357, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.2380953218708647, "train/extr_critic_critic_opt_grad_steps": 25890.0, "train/extr_critic_critic_opt_loss": 11501.725274268618, "train/extr_critic_mag": 606.5499968833112, "train/extr_critic_max": 606.5499968833112, "train/extr_critic_mean": 538.8607775099734, "train/extr_critic_min": 317.2127873846825, "train/extr_critic_std": 54.29842441640002, "train/extr_return_normed_mag": 1.0336958905483813, "train/extr_return_normed_max": 1.0323265943121402, "train/extr_return_normed_mean": 0.6637587255619942, "train/extr_return_normed_min": -0.2637444139715839, "train/extr_return_normed_std": 0.3170964074261645, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 603.5871789810506, "train/extr_return_raw_max": 603.5871789810506, "train/extr_return_raw_mean": 540.4037767775516, "train/extr_return_raw_min": 381.4017723570479, "train/extr_return_raw_std": 54.37246006093127, "train/extr_reward_mag": 1.9987666454721005, "train/extr_reward_max": 1.9987666454721005, "train/extr_reward_mean": 1.2624363379275545, "train/extr_reward_min": 0.000889618346031676, "train/extr_reward_std": 0.6860502108614496, "train/image_loss_mean": 0.8519528356004269, "train/image_loss_std": 0.9542641094390382, "train/model_loss_mean": 2.7505402514275086, "train/model_loss_std": 4.006265016312295, "train/model_opt_grad_norm": 12.335969853908457, "train/model_opt_grad_steps": 25865.787234042553, "train/model_opt_loss": 14010.149081615691, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5106.382978723404, "train/policy_entropy_mag": 1.0186349889065356, "train/policy_entropy_max": 0.969437468559184, "train/policy_entropy_mean": -0.7760381406926095, "train/policy_entropy_min": -0.8814493113375724, "train/policy_entropy_std": 0.19758967008996517, "train/policy_logprob_mag": 7.146159537295078, "train/policy_logprob_max": 1.3804240734019178, "train/policy_logprob_mean": 0.778580386587914, "train/policy_logprob_min": -7.146159537295078, "train/policy_logprob_std": 0.7324677743810288, "train/policy_randomness_mag": 0.8047841559065149, "train/policy_randomness_max": 0.8047841559065149, "train/policy_randomness_mean": 0.04673377868342907, "train/policy_randomness_min": 0.000954273498636928, "train/policy_randomness_std": 0.08581209824757373, "train/post_ent_mag": 47.062784316691946, "train/post_ent_max": 47.062784316691946, "train/post_ent_mean": 38.87052373683199, "train/post_ent_min": 16.824549188005165, "train/post_ent_std": 5.587642588513963, "train/prior_ent_mag": 58.77654453034096, "train/prior_ent_max": 58.77654453034096, "train/prior_ent_mean": 41.005577087402344, "train/prior_ent_min": 25.56928415501371, "train/prior_ent_std": 4.81412022671801, "train/rep_loss_mean": 2.359374208653227, "train/rep_loss_std": 5.374428079483357, "train/reward_avg": 1.2795279165531726, "train/reward_loss_mean": 0.4829628588037288, "train/reward_loss_std": 0.23144204407296282, "train/reward_max_data": 1.999057635347894, "train/reward_max_pred": 1.996786340754083, "train/reward_neg_acc": 0.9308264128705288, "train/reward_neg_loss": 0.4555778351235897, "train/reward_pos_acc": 0.9986179534425127, "train/reward_pos_loss": 0.485246664032023, "train/reward_pred": 1.2780891948557915, "train/reward_rate": 0.912608045212766, "replay/size": 53303.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.315343059045747e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0683594742145255e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.53180146217346, "timer/env.step_count": 235.0, "timer/env.step_total": 5.716029644012451, "timer/env.step_frac": 0.019019716436671018, "timer/env.step_avg": 0.024323530400052983, "timer/env.step_min": 0.020512104034423828, "timer/env.step_max": 0.029433727264404297, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.1837162971496582, "timer/replay.add_frac": 0.0006113040159338403, "timer/replay.add_avg": 0.00019502791629475393, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0016486644744873047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02100849151611328, "timer/logger.write_frac": 6.990438753536545e-05, "timer/logger.write_avg": 0.02100849151611328, "timer/logger.write_min": 0.02100849151611328, "timer/logger.write_max": 0.02100849151611328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7084693908691406, "timer/agent.policy_frac": 0.002357385765573672, "timer/agent.policy_avg": 0.0030147633654005984, "timer/agent.policy_min": 0.002758502960205078, "timer/agent.policy_max": 0.003415346145629883, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03510642051696777, "timer/dataset_frac": 0.00011681432828793812, "timer/dataset_avg": 7.45359246644751e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00013947486877441406, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.61744236946106, "timer/agent.train_frac": 0.9769929203529475, "timer/agent.train_avg": 0.6233915973873908, "timer/agent.train_min": 0.5739133358001709, "timer/agent.train_max": 0.6613192558288574, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15324997901916504, "timer/agent.report_frac": 0.0005099293261929683, "timer/agent.report_avg": 0.15324997901916504, "timer/agent.report_min": 0.15324997901916504, "timer/agent.report_max": 0.15324997901916504, "fps": 6.268825519908717}
+{"step": 108216, "episode/length": 500.0, "episode/score": 982.630043387413, "episode/sum_abs_reward": 982.630043387413, "episode/reward_rate": 0.998003992015968}
+{"step": 108990, "train/action_mag": 1.9747385877244017, "train/action_max": 1.9414244509757834, "train/action_mean": 0.050273976189658995, "train/action_min": -1.6392811435334227, "train/action_std": 0.589011920259354, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.23254415725773953, "train/actor_opt_grad_steps": 26360.0, "train/actor_opt_loss": -88.70855303013579, "train/adv_mag": 1.0288388291572004, "train/adv_max": 1.0067739302807666, "train/adv_mean": 0.009241387614623663, "train/adv_min": -0.43693680078425307, "train/adv_std": 0.04666808810322843, "train/cont_avg": 1.0, "train/cont_loss_mean": 7.478917048312471e-10, "train/cont_loss_std": 1.5231113320933907e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 7.478917048312471e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.296865021928828, "train/dyn_loss_std": 5.2510066844047385, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.25626789001708333, "train/extr_critic_critic_opt_grad_steps": 26360.0, "train/extr_critic_critic_opt_loss": 11296.767889793882, "train/extr_critic_mag": 610.4957548100898, "train/extr_critic_max": 610.4957548100898, "train/extr_critic_mean": 545.5542842783826, "train/extr_critic_min": 325.25951012144697, "train/extr_critic_std": 53.1470575535551, "train/extr_return_normed_mag": 1.0547424199733328, "train/extr_return_normed_max": 1.0411022926898712, "train/extr_return_normed_mean": 0.6732692775574136, "train/extr_return_normed_min": -0.2753085788101592, "train/extr_return_normed_std": 0.3203938001013817, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 608.1244948366855, "train/extr_return_raw_max": 608.1244948366855, "train/extr_return_raw_mean": 547.087530257854, "train/extr_return_raw_min": 389.60949284979637, "train/extr_return_raw_std": 53.197595312240274, "train/extr_reward_mag": 1.9994988187830498, "train/extr_reward_max": 1.9994988187830498, "train/extr_reward_mean": 1.2833182164963255, "train/extr_reward_min": 0.0008270410781211041, "train/extr_reward_std": 0.688966673739413, "train/image_loss_mean": 0.815438909733549, "train/image_loss_std": 0.8831339110719397, "train/model_loss_mean": 2.673558864187687, "train/model_loss_std": 3.8582374491590135, "train/model_opt_grad_norm": 12.098934853330572, "train/model_opt_grad_steps": 26335.0, "train/model_opt_loss": 13367.794340093085, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0357294348960226, "train/policy_entropy_max": 0.974068911785775, "train/policy_entropy_mean": -0.7736759921337696, "train/policy_entropy_min": -0.8810503863273783, "train/policy_entropy_std": 0.1877703218066946, "train/policy_logprob_mag": 7.2407236200697875, "train/policy_logprob_max": 1.3798504078641851, "train/policy_logprob_mean": 0.7751050134922596, "train/policy_logprob_min": -7.2407236200697875, "train/policy_logprob_std": 0.7318241076266512, "train/policy_randomness_mag": 0.8067955564945302, "train/policy_randomness_max": 0.8067955564945302, "train/policy_randomness_mean": 0.04775964702538987, "train/policy_randomness_min": 0.0011275244314481127, "train/policy_randomness_std": 0.08154761077875787, "train/post_ent_mag": 47.2886748618268, "train/post_ent_max": 47.2886748618268, "train/post_ent_mean": 38.858199342768245, "train/post_ent_min": 16.924911113495522, "train/post_ent_std": 5.688636373966299, "train/prior_ent_mag": 58.82825161548371, "train/prior_ent_max": 58.82825161548371, "train/prior_ent_mean": 41.020366019391, "train/prior_ent_min": 25.302283956649454, "train/prior_ent_std": 4.986754792801877, "train/rep_loss_mean": 2.296865021928828, "train/rep_loss_std": 5.2510066844047385, "train/reward_avg": 1.3051195246108034, "train/reward_loss_mean": 0.48000095562731965, "train/reward_loss_std": 0.22948670767723245, "train/reward_max_data": 1.9988788264863036, "train/reward_max_pred": 1.9963628941393914, "train/reward_neg_acc": 0.9305057804635231, "train/reward_neg_loss": 0.4562098719972245, "train/reward_pos_acc": 0.9987033859212348, "train/reward_pos_loss": 0.4816600179418604, "train/reward_pred": 1.3027020388461175, "train/reward_rate": 0.9151429521276596, "stats/mean_log_entropy": -0.8257018476724625, "replay/size": 54243.0, "replay/inserts": 940.0, "replay/samples": 7520.0, "replay/insert_wait_avg": 2.3332047969736953e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0581409677546076e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00669956207275, "timer/env.step_count": 235.0, "timer/env.step_total": 5.774631023406982, "timer/env.step_frac": 0.019248340226522793, "timer/env.step_avg": 0.024572897971944604, "timer/env.step_min": 0.020135879516601562, "timer/env.step_max": 0.05038595199584961, "timer/replay.add_count": 940.0, "timer/replay.add_total": 0.181013822555542, "timer/replay.add_frac": 0.0006033659342267102, "timer/replay.add_avg": 0.00019256789633568296, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0013680458068847656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01793217658996582, "timer/logger.write_frac": 5.977258713269359e-05, "timer/logger.write_avg": 0.01793217658996582, "timer/logger.write_min": 0.01793217658996582, "timer/logger.write_max": 0.01793217658996582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7362093925476074, "timer/agent.policy_frac": 0.0024539765065989213, "timer/agent.policy_avg": 0.0031328059257344997, "timer/agent.policy_min": 0.0027306079864501953, "timer/agent.policy_max": 0.0186767578125, "timer/dataset_count": 470.0, "timer/dataset_total": 0.03591752052307129, "timer/dataset_frac": 0.0001197223947848531, "timer/dataset_avg": 7.642025643206657e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 470.0, "timer/agent.train_total": 292.99329018592834, "timer/agent.train_frac": 0.976622490809765, "timer/agent.train_avg": 0.6233899791189965, "timer/agent.train_min": 0.5722513198852539, "timer/agent.train_max": 0.6656639575958252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15328168869018555, "timer/agent.report_frac": 0.0005109275523311135, "timer/agent.report_avg": 0.15328168869018555, "timer/agent.report_min": 0.15328168869018555, "timer/agent.report_max": 0.15328168869018555, "fps": 6.266465254899419}
+{"step": 110874, "train/action_mag": 2.0002279611344034, "train/action_max": 1.905873473654402, "train/action_mean": 0.05221768617233698, "train/action_min": -1.7719724939224568, "train/action_std": 0.5597830237226283, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.29788920584511247, "train/actor_opt_grad_steps": 26830.0, "train/actor_opt_loss": -94.34170272502493, "train/adv_mag": 1.1878075720147883, "train/adv_max": 1.1712605693238847, "train/adv_mean": 0.009811230697371859, "train/adv_min": -0.472085528551264, "train/adv_std": 0.048642524141580504, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.957284228631281e-10, "train/cont_loss_std": 1.24916252755392e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.957284228631281e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2737726150675024, "train/dyn_loss_std": 5.194677149995845, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.24219579075245148, "train/extr_critic_critic_opt_grad_steps": 26830.0, "train/extr_critic_critic_opt_loss": 11090.8564453125, "train/extr_critic_mag": 613.2654276097074, "train/extr_critic_max": 613.2654276097074, "train/extr_critic_mean": 555.5412104180518, "train/extr_critic_min": 322.7579014554937, "train/extr_critic_std": 50.79612934843023, "train/extr_return_normed_mag": 1.0445775579898915, "train/extr_return_normed_max": 1.0445775579898915, "train/extr_return_normed_mean": 0.6998792455551472, "train/extr_return_normed_min": -0.345202777679004, "train/extr_return_normed_std": 0.3221027340660704, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 611.3914768949468, "train/extr_return_raw_max": 611.3914768949468, "train/extr_return_raw_mean": 557.0860063268783, "train/extr_return_raw_min": 392.34425840986535, "train/extr_return_raw_std": 50.77842834148001, "train/extr_reward_mag": 1.9999079957921455, "train/extr_reward_max": 1.9999079957921455, "train/extr_reward_mean": 1.3264171138722847, "train/extr_reward_min": 0.0007729276697686378, "train/extr_reward_std": 0.6814251795728156, "train/image_loss_mean": 0.8162644416727918, "train/image_loss_std": 0.8893385922655146, "train/model_loss_mean": 2.6526301921682154, "train/model_loss_std": 3.8434420443595725, "train/model_opt_grad_norm": 12.360432269725393, "train/model_opt_grad_steps": 26804.957446808512, "train/model_opt_loss": 13826.586436170213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5212.765957446809, "train/policy_entropy_mag": 1.041043681033114, "train/policy_entropy_max": 0.9989706949984773, "train/policy_entropy_mean": -0.777223362567577, "train/policy_entropy_min": -0.8810038642680391, "train/policy_entropy_std": 0.19034966556949817, "train/policy_logprob_mag": 7.347347847958829, "train/policy_logprob_max": 1.3796452664314431, "train/policy_logprob_mean": 0.7777784961335202, "train/policy_logprob_min": -7.347347847958829, "train/policy_logprob_std": 0.7337130396924121, "train/policy_randomness_mag": 0.8176102714335665, "train/policy_randomness_max": 0.8176102714335665, "train/policy_randomness_mean": 0.0462190439884967, "train/policy_randomness_min": 0.0011477287080971167, "train/policy_randomness_std": 0.08266780644338181, "train/post_ent_mag": 47.267274734821726, "train/post_ent_max": 47.267274734821726, "train/post_ent_mean": 39.23894460150536, "train/post_ent_min": 16.981932924148886, "train/post_ent_std": 5.495784333411684, "train/prior_ent_mag": 58.744459760949965, "train/prior_ent_max": 58.744459760949965, "train/prior_ent_mean": 41.352052161034116, "train/prior_ent_min": 25.46225888678368, "train/prior_ent_std": 4.751013329688539, "train/rep_loss_mean": 2.2737726150675024, "train/rep_loss_std": 5.194677149995845, "train/reward_avg": 1.3495769805096565, "train/reward_loss_mean": 0.47210219502449036, "train/reward_loss_std": 0.2240811729050697, "train/reward_max_data": 1.9990504827905209, "train/reward_max_pred": 1.9971867672940518, "train/reward_neg_acc": 0.9255311438377868, "train/reward_neg_loss": 0.46123815216916675, "train/reward_pos_acc": 0.998657633649542, "train/reward_pos_loss": 0.47309454514625227, "train/reward_pred": 1.3475260557012354, "train/reward_rate": 0.9259266954787234, "replay/size": 55185.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.32597318677639e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0705108095885842e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3598966598511, "timer/env.step_count": 236.0, "timer/env.step_total": 5.705502986907959, "timer/env.step_frac": 0.018995555166837992, "timer/env.step_avg": 0.024175860114016776, "timer/env.step_min": 0.020251989364624023, "timer/env.step_max": 0.0320582389831543, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18309926986694336, "timer/replay.add_frac": 0.0006095995900354767, "timer/replay.add_avg": 0.0001943728979479229, "timer/replay.add_min": 3.933906555175781e-05, "timer/replay.add_max": 0.0023355484008789062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01871037483215332, "timer/logger.write_frac": 6.229318574224401e-05, "timer/logger.write_avg": 0.01871037483215332, "timer/logger.write_min": 0.01871037483215332, "timer/logger.write_max": 0.01871037483215332, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016045570373535156, "timer/checkpoint.save_frac": 5.34211476031579e-07, "timer/checkpoint.save_avg": 0.00016045570373535156, "timer/checkpoint.save_min": 0.00016045570373535156, "timer/checkpoint.save_max": 0.00016045570373535156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08104991912841797, "timer/agent.save_frac": 0.00026984267883207015, "timer/agent.save_avg": 0.08104991912841797, "timer/agent.save_min": 0.08104991912841797, "timer/agent.save_max": 0.08104991912841797, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.9052214001123014e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7580206394195557, "timer/agent.policy_frac": 0.0025237078846048217, "timer/agent.policy_avg": 0.00321195186194727, "timer/agent.policy_min": 0.0027337074279785156, "timer/agent.policy_max": 0.050443172454833984, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03524279594421387, "timer/dataset_frac": 0.0001173352246292897, "timer/dataset_avg": 7.482546909599548e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.41339087486267, "timer/agent.train_frac": 0.9768727254795432, "timer/agent.train_avg": 0.622958367037925, "timer/agent.train_min": 0.5663051605224609, "timer/agent.train_max": 0.6616480350494385, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14957070350646973, "timer/agent.report_frac": 0.0004979716172823638, "timer/agent.report_avg": 0.14957070350646973, "timer/agent.report_min": 0.14957070350646973, "timer/agent.report_max": 0.14957070350646973, "fps": 6.272409553722506}
+{"step": 112224, "episode/length": 500.0, "episode/score": 965.9279071092606, "episode/sum_abs_reward": 965.9279071092606, "episode/reward_rate": 0.998003992015968}
+{"step": 112758, "train/action_mag": 1.8647130181392033, "train/action_max": 1.777576190729936, "train/action_mean": 0.06812125367772144, "train/action_min": -1.6981399804353714, "train/action_std": 0.5450899495432774, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.22069581349690756, "train/actor_opt_grad_steps": 27305.0, "train/actor_opt_loss": -85.36939175923665, "train/adv_mag": 0.8717893585562706, "train/adv_max": 0.8303043538083633, "train/adv_mean": 0.008911065252808234, "train/adv_min": -0.5071777822449803, "train/adv_std": 0.04382444289512932, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.695467664093643e-10, "train/cont_loss_std": 1.5698943106138656e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.695467664093643e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2851263682047525, "train/dyn_loss_std": 5.225565473238627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.22002296661958098, "train/extr_critic_critic_opt_grad_steps": 27305.0, "train/extr_critic_critic_opt_loss": 10589.942036946615, "train/extr_critic_mag": 617.1662940979004, "train/extr_critic_max": 617.1662940979004, "train/extr_critic_mean": 562.8569183349609, "train/extr_critic_min": 348.2436879475911, "train/extr_critic_std": 51.681745847066246, "train/extr_return_normed_mag": 1.0507439350088437, "train/extr_return_normed_max": 1.039912114540736, "train/extr_return_normed_mean": 0.716644453505675, "train/extr_return_normed_min": -0.4154840780732532, "train/extr_return_normed_std": 0.3273046463727951, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 615.3303565979004, "train/extr_return_raw_max": 615.3303565979004, "train/extr_return_raw_mean": 564.2631696065267, "train/extr_return_raw_min": 385.46532249450684, "train/extr_return_raw_std": 51.70974047978719, "train/extr_reward_mag": 1.999906023343404, "train/extr_reward_max": 1.999906023343404, "train/extr_reward_mean": 1.344128745297591, "train/extr_reward_min": 0.0007065559426943461, "train/extr_reward_std": 0.6824461823950211, "train/image_loss_mean": 0.8074360713362694, "train/image_loss_std": 0.9107074060787758, "train/model_loss_mean": 2.645534416039785, "train/model_loss_std": 3.880409985780716, "train/model_opt_grad_norm": 12.505096713701883, "train/model_opt_grad_steps": 27279.0, "train/model_opt_loss": 13227.672159830729, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9658709640304247, "train/policy_entropy_max": 0.9041746084888777, "train/policy_entropy_mean": -0.7905395378669103, "train/policy_entropy_min": -0.8812383711338043, "train/policy_entropy_std": 0.1692358454068502, "train/policy_logprob_mag": 7.553514818350474, "train/policy_logprob_max": 1.3801411216457684, "train/policy_logprob_mean": 0.7913866763313612, "train/policy_logprob_min": -7.553514818350474, "train/policy_logprob_std": 0.7274060634275278, "train/policy_randomness_mag": 0.7764408538738886, "train/policy_randomness_max": 0.7764408538738886, "train/policy_randomness_mean": 0.040435898078915976, "train/policy_randomness_min": 0.0010458836671508227, "train/policy_randomness_std": 0.07349819084629416, "train/post_ent_mag": 47.39039206504822, "train/post_ent_max": 47.39039206504822, "train/post_ent_mean": 39.29216186205546, "train/post_ent_min": 16.887842794259388, "train/post_ent_std": 5.531208013494809, "train/prior_ent_mag": 58.68223865826925, "train/prior_ent_max": 58.68223865826925, "train/prior_ent_mean": 41.36631361643473, "train/prior_ent_min": 25.15622353553772, "train/prior_ent_std": 4.836753398180008, "train/rep_loss_mean": 2.2851263682047525, "train/rep_loss_std": 5.225565473238627, "train/reward_avg": 1.3629253481825192, "train/reward_loss_mean": 0.4670225108663241, "train/reward_loss_std": 0.2264891086767117, "train/reward_max_data": 1.9988608633478482, "train/reward_max_pred": 1.9970072954893112, "train/reward_neg_acc": 0.932028109828631, "train/reward_neg_loss": 0.46326999242107075, "train/reward_pos_acc": 0.9985762611031532, "train/reward_pos_loss": 0.4680056491245826, "train/reward_pred": 1.3610358461737633, "train/reward_rate": 0.9227701822916666, "stats/mean_log_entropy": -0.8064307570457458, "replay/size": 56127.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3745680564021863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0744971074875753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4609615802765, "timer/env.step_count": 235.0, "timer/env.step_total": 5.784824371337891, "timer/env.step_frac": 0.01925316467374852, "timer/env.step_avg": 0.024616273920586768, "timer/env.step_min": 0.01943206787109375, "timer/env.step_max": 0.060048580169677734, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.1839737892150879, "timer/replay.add_frac": 0.0006123051335770094, "timer/replay.add_avg": 0.00019530126243639905, "timer/replay.add_min": 3.9577484130859375e-05, "timer/replay.add_max": 0.002350330352783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02597808837890625, "timer/logger.write_frac": 8.646077760742799e-05, "timer/logger.write_avg": 0.02597808837890625, "timer/logger.write_min": 0.02597808837890625, "timer/logger.write_max": 0.02597808837890625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.721381664276123, "timer/agent.policy_frac": 0.002400916446788998, "timer/agent.policy_avg": 0.00306970920968563, "timer/agent.policy_min": 0.0027315616607666016, "timer/agent.policy_max": 0.008165836334228516, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03566884994506836, "timer/dataset_frac": 0.00011871375821160858, "timer/dataset_avg": 7.573004234621732e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.4443316459656, "timer/agent.train_frac": 0.9766471161597603, "timer/agent.train_avg": 0.6230240586963176, "timer/agent.train_min": 0.5679762363433838, "timer/agent.train_max": 0.6637301445007324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1557626724243164, "timer/agent.report_frac": 0.0005184123474979297, "timer/agent.report_avg": 0.1557626724243164, "timer/agent.report_min": 0.1557626724243164, "timer/agent.report_max": 0.1557626724243164, "fps": 6.270303177162359}
+{"step": 114646, "train/action_mag": 1.8822745059398895, "train/action_max": 1.8122191632047613, "train/action_mean": 0.0649715412675621, "train/action_min": -1.6571501442726622, "train/action_std": 0.5505654868927408, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.1837210384138087, "train/actor_opt_grad_steps": 27780.0, "train/actor_opt_loss": -79.32666748128038, "train/adv_mag": 0.7457093444276364, "train/adv_max": 0.6988655404841646, "train/adv_mean": 0.008302268723243886, "train/adv_min": -0.45713785671173257, "train/adv_std": 0.04147367444919779, "train/cont_avg": 1.0, "train/cont_loss_mean": 6.328578884344604e-10, "train/cont_loss_std": 1.3216718428907673e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 6.328578884344604e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.276802884771469, "train/dyn_loss_std": 5.26001752691066, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.1983096311067013, "train/extr_critic_critic_opt_grad_steps": 27780.0, "train/extr_critic_critic_opt_loss": 10066.100315824468, "train/extr_critic_mag": 619.5909423828125, "train/extr_critic_max": 619.5909423828125, "train/extr_critic_mean": 568.8367348528923, "train/extr_critic_min": 371.9777724895072, "train/extr_critic_std": 50.707336669272564, "train/extr_return_normed_mag": 1.0334492110191507, "train/extr_return_normed_max": 1.0266547532791788, "train/extr_return_normed_mean": 0.7133676536539768, "train/extr_return_normed_min": -0.3720447360835177, "train/extr_return_normed_std": 0.3279349518583176, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 618.5088150349069, "train/extr_return_raw_max": 618.5088150349069, "train/extr_return_raw_mean": 570.1173121675532, "train/extr_return_raw_min": 402.47310816988033, "train/extr_return_raw_std": 50.681230179806974, "train/extr_reward_mag": 2.000120578928197, "train/extr_reward_max": 2.000120578928197, "train/extr_reward_mean": 1.3243777828013643, "train/extr_reward_min": 0.0007031141443455473, "train/extr_reward_std": 0.6862988199325318, "train/image_loss_mean": 0.7808213982176273, "train/image_loss_std": 0.892887958186738, "train/model_loss_mean": 2.6168458816852977, "train/model_loss_std": 3.872912868540338, "train/model_opt_grad_norm": 11.66917351458935, "train/model_opt_grad_steps": 27754.0, "train/model_opt_loss": 13084.229429853724, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.970105805295579, "train/policy_entropy_max": 0.890699212855481, "train/policy_entropy_mean": -0.7922894992726914, "train/policy_entropy_min": -0.8813453557643485, "train/policy_entropy_std": 0.16975934327916897, "train/policy_logprob_mag": 7.460614133388438, "train/policy_logprob_max": 1.380315567584748, "train/policy_logprob_mean": 0.7928617178125584, "train/policy_logprob_min": -7.460614133388438, "train/policy_logprob_std": 0.7269616482105661, "train/policy_randomness_mag": 0.7705885577709117, "train/policy_randomness_max": 0.7705885577709117, "train/policy_randomness_mean": 0.03967591137328046, "train/policy_randomness_min": 0.0009994208342098492, "train/policy_randomness_std": 0.07372554296508749, "train/post_ent_mag": 47.73088138661486, "train/post_ent_max": 47.73088138661486, "train/post_ent_mean": 39.173475468412356, "train/post_ent_min": 17.478492330997547, "train/post_ent_std": 5.587330067411382, "train/prior_ent_mag": 58.73088195476126, "train/prior_ent_max": 58.73088195476126, "train/prior_ent_mean": 41.253957383176115, "train/prior_ent_min": 25.421185189105096, "train/prior_ent_std": 4.923559579443424, "train/rep_loss_mean": 2.276802884771469, "train/rep_loss_std": 5.26001752691066, "train/reward_avg": 1.3430289968531182, "train/reward_loss_mean": 0.46994274474204856, "train/reward_loss_std": 0.23445803053835604, "train/reward_max_data": 1.9992975148748844, "train/reward_max_pred": 1.997865413097625, "train/reward_neg_acc": 0.9204535712587073, "train/reward_neg_loss": 0.4634597681938334, "train/reward_pos_acc": 0.998400977317323, "train/reward_pos_loss": 0.47123050309242087, "train/reward_pred": 1.3417694365724604, "train/reward_rate": 0.9194855385638298, "replay/size": 57071.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3341785042972886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.067169389482272e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4903998374939, "timer/env.step_count": 236.0, "timer/env.step_total": 5.7008185386657715, "timer/env.step_frac": 0.018971716040674814, "timer/env.step_avg": 0.024156010757058352, "timer/env.step_min": 0.02068185806274414, "timer/env.step_max": 0.03014850616455078, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18844866752624512, "timer/replay.add_frac": 0.0006271370653710026, "timer/replay.add_avg": 0.00019962782576932745, "timer/replay.add_min": 3.910064697265625e-05, "timer/replay.add_max": 0.001592397689819336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019641876220703125, "timer/logger.write_frac": 6.536606903689938e-05, "timer/logger.write_avg": 0.019641876220703125, "timer/logger.write_min": 0.019641876220703125, "timer/logger.write_max": 0.019641876220703125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7099874019622803, "timer/agent.policy_frac": 0.002362762345639806, "timer/agent.policy_avg": 0.0030084211947554247, "timer/agent.policy_min": 0.002750396728515625, "timer/agent.policy_max": 0.004557132720947266, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035225629806518555, "timer/dataset_frac": 0.00011722713878902181, "timer/dataset_avg": 7.463057162397998e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.5895206928253, "timer/agent.train_frac": 0.9770346102624223, "timer/agent.train_avg": 0.6220116963831045, "timer/agent.train_min": 0.5673618316650391, "timer/agent.train_max": 0.6616706848144531, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15032124519348145, "timer/agent.report_frac": 0.0005002530705632381, "timer/agent.report_avg": 0.15032124519348145, "timer/agent.report_min": 0.15032124519348145, "timer/agent.report_max": 0.15032124519348145, "fps": 6.283001062311195}
+{"step": 116232, "episode/length": 500.0, "episode/score": 981.6243200302124, "episode/sum_abs_reward": 981.6243200302124, "episode/reward_rate": 0.998003992015968}
+{"step": 116530, "train/action_mag": 1.8811204205168055, "train/action_max": 1.8160377385768485, "train/action_mean": 0.04781283587316408, "train/action_min": -1.6231371088230864, "train/action_std": 0.5317469036325495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.13931844716376446, "train/actor_opt_grad_steps": 28250.0, "train/actor_opt_loss": -69.70044383596867, "train/adv_mag": 0.6212490999952276, "train/adv_max": 0.556279571766549, "train/adv_mean": 0.0073258394593412575, "train/adv_min": -0.404919130370972, "train/adv_std": 0.03783904404399243, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.909858731231673e-10, "train/cont_loss_std": 1.2339077242232214e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.909858731231673e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2581740237296897, "train/dyn_loss_std": 5.178261645296787, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.16591381471841893, "train/extr_critic_critic_opt_grad_steps": 28250.0, "train/extr_critic_critic_opt_loss": 9715.252534906915, "train/extr_critic_mag": 623.9272629758145, "train/extr_critic_max": 623.9272629758145, "train/extr_critic_mean": 579.4135469477227, "train/extr_critic_min": 396.46138901406147, "train/extr_critic_std": 48.15606068550272, "train/extr_return_normed_mag": 1.0173229334202218, "train/extr_return_normed_max": 1.0173229334202218, "train/extr_return_normed_mean": 0.7369221410852798, "train/extr_return_normed_min": -0.2678009078254616, "train/extr_return_normed_std": 0.30860292657892757, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 624.1641780772107, "train/extr_return_raw_max": 624.1641780772107, "train/extr_return_raw_mean": 580.5562679209607, "train/extr_return_raw_min": 424.1384751340176, "train/extr_return_raw_std": 47.994057188642785, "train/extr_reward_mag": 2.00020047958861, "train/extr_reward_max": 2.00020047958861, "train/extr_reward_mean": 1.3469767266131463, "train/extr_reward_min": 0.0006700906347721181, "train/extr_reward_std": 0.6845886161986817, "train/image_loss_mean": 0.7715324556573908, "train/image_loss_std": 0.8588726457129133, "train/model_loss_mean": 2.595337411190601, "train/model_loss_std": 3.8022116346562163, "train/model_opt_grad_norm": 11.531744754060785, "train/model_opt_grad_steps": 28224.0, "train/model_opt_loss": 24871.867291389626, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 9680.851063829787, "train/policy_entropy_mag": 0.9648444373556908, "train/policy_entropy_max": 0.9096118959974735, "train/policy_entropy_mean": -0.8032790181484628, "train/policy_entropy_min": -0.8816757633330974, "train/policy_entropy_std": 0.1617189327135999, "train/policy_logprob_mag": 6.824916768581309, "train/policy_logprob_max": 1.3808494020015636, "train/policy_logprob_mean": 0.8045764578149673, "train/policy_logprob_min": -6.824916768581309, "train/policy_logprob_std": 0.7236540913581848, "train/policy_randomness_mag": 0.7788022388803199, "train/policy_randomness_max": 0.7788022388803199, "train/policy_randomness_mean": 0.03490321702779608, "train/policy_randomness_min": 0.0008559266645263167, "train/policy_randomness_std": 0.07023363711034998, "train/post_ent_mag": 47.597761844066866, "train/post_ent_max": 47.597761844066866, "train/post_ent_mean": 39.54660164041722, "train/post_ent_min": 17.58855417941479, "train/post_ent_std": 5.392058747880002, "train/prior_ent_mag": 58.80859902564516, "train/prior_ent_max": 58.80859902564516, "train/prior_ent_mean": 41.60498752999813, "train/prior_ent_min": 25.70211998959805, "train/prior_ent_std": 4.702835559844971, "train/rep_loss_mean": 2.2581740237296897, "train/rep_loss_std": 5.178261645296787, "train/reward_avg": 1.3580332284278058, "train/reward_loss_mean": 0.4689005372372079, "train/reward_loss_std": 0.23756663152512084, "train/reward_max_data": 1.999068706593615, "train/reward_max_pred": 1.9980498932777566, "train/reward_neg_acc": 0.930171456742794, "train/reward_neg_loss": 0.46166123861962177, "train/reward_pos_acc": 0.9986835642063872, "train/reward_pos_loss": 0.469745472390601, "train/reward_pred": 1.356621080256523, "train/reward_rate": 0.9250748005319149, "stats/mean_log_entropy": -0.8480768203735352, "replay/size": 58013.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3049660295944052e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0744971074875753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2796993255615, "timer/env.step_count": 236.0, "timer/env.step_total": 5.727409601211548, "timer/env.step_frac": 0.01907358244355348, "timer/env.step_avg": 0.02426868475089639, "timer/env.step_min": 0.02044987678527832, "timer/env.step_max": 0.031639814376831055, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18569374084472656, "timer/replay.add_frac": 0.0006184025802003967, "timer/replay.add_avg": 0.00019712711342327662, "timer/replay.add_min": 3.9577484130859375e-05, "timer/replay.add_max": 0.001687765121459961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.016896963119506836, "timer/logger.write_frac": 5.627074743133816e-05, "timer/logger.write_avg": 0.016896963119506836, "timer/logger.write_min": 0.016896963119506836, "timer/logger.write_max": 0.016896963119506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017547607421875, "timer/checkpoint.save_frac": 5.843754160300389e-07, "timer/checkpoint.save_avg": 0.00017547607421875, "timer/checkpoint.save_min": 0.00017547607421875, "timer/checkpoint.save_max": 0.00017547607421875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07840323448181152, "timer/agent.save_frac": 0.00026110068265656274, "timer/agent.save_avg": 0.07840323448181152, "timer/agent.save_min": 0.07840323448181152, "timer/agent.save_max": 0.07840323448181152, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010752677917480469, "timer/replay.save_frac": 3.5808873998579826e-07, "timer/replay.save_avg": 0.00010752677917480469, "timer/replay.save_min": 0.00010752677917480469, "timer/replay.save_max": 0.00010752677917480469, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.762498140335083, "timer/agent.policy_frac": 0.0025392930059796913, "timer/agent.policy_avg": 0.0032309243234537417, "timer/agent.policy_min": 0.0027437210083007812, "timer/agent.policy_max": 0.05116987228393555, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03524303436279297, "timer/dataset_frac": 0.00011736735597494612, "timer/dataset_avg": 7.482597529255408e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00014257431030273438, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.28670287132263, "timer/agent.train_frac": 0.9767117242026504, "timer/agent.train_avg": 0.6226893903849737, "timer/agent.train_min": 0.5708558559417725, "timer/agent.train_max": 0.661823034286499, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15380644798278809, "timer/agent.report_frac": 0.0005122106100686881, "timer/agent.report_avg": 0.15380644798278809, "timer/agent.report_min": 0.15380644798278809, "timer/agent.report_max": 0.15380644798278809, "fps": 6.274123060676558}
+{"step": 118418, "train/action_mag": 1.7595242109704525, "train/action_max": 1.7131846077898716, "train/action_mean": 0.048434212427348536, "train/action_min": -1.5583093064896605, "train/action_std": 0.5181523827796287, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10909874895785718, "train/actor_opt_grad_steps": 28720.0, "train/actor_opt_loss": -44.32485924375818, "train/adv_mag": 0.549755205499365, "train/adv_max": 0.4250450261095737, "train/adv_mean": 0.004750975267713929, "train/adv_min": -0.45821765065193176, "train/adv_std": 0.034393152975021525, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.453880178443549e-10, "train/cont_loss_std": 1.5449292046611012e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.453880178443549e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2639372272694365, "train/dyn_loss_std": 5.181597882128776, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.14913300559558768, "train/extr_critic_critic_opt_grad_steps": 28720.0, "train/extr_critic_critic_opt_loss": 9143.34742769282, "train/extr_critic_mag": 629.0246997589761, "train/extr_critic_max": 629.0246997589761, "train/extr_critic_mean": 586.0372197577294, "train/extr_critic_min": 416.50134537067817, "train/extr_critic_std": 47.11755862134568, "train/extr_return_normed_mag": 1.0135908431195197, "train/extr_return_normed_max": 1.0135908431195197, "train/extr_return_normed_mean": 0.7367349324074197, "train/extr_return_normed_min": -0.28327456236559345, "train/extr_return_normed_std": 0.3053368291956313, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 629.4070590404754, "train/extr_return_raw_max": 629.4070590404754, "train/extr_return_raw_mean": 586.7711324488863, "train/extr_return_raw_min": 429.4502323231799, "train/extr_return_raw_std": 47.03530279118964, "train/extr_reward_mag": 1.9999923148053758, "train/extr_reward_max": 1.9999923148053758, "train/extr_reward_mean": 1.3574799502149542, "train/extr_reward_min": 0.0006868154444593064, "train/extr_reward_std": 0.6887372123434189, "train/image_loss_mean": 0.7766884438535, "train/image_loss_std": 0.8810626433250752, "train/model_loss_mean": 2.5969181872428733, "train/model_loss_std": 3.8297917335591416, "train/model_opt_grad_norm": 12.110426466515724, "train/model_opt_grad_steps": 28693.55319148936, "train/model_opt_loss": 20211.496987200797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7765.95744680851, "train/policy_entropy_mag": 0.9319046406035728, "train/policy_entropy_max": 0.8196000545582873, "train/policy_entropy_mean": -0.8092733000187163, "train/policy_entropy_min": -0.8820121770209455, "train/policy_entropy_std": 0.15588051984284787, "train/policy_logprob_mag": 7.2374339610972305, "train/policy_logprob_max": 1.381253589975073, "train/policy_logprob_mean": 0.8081775675428674, "train/policy_logprob_min": -7.2374339610972305, "train/policy_logprob_std": 0.7274689052967315, "train/policy_randomness_mag": 0.7397105871362889, "train/policy_randomness_max": 0.7397105871362889, "train/policy_randomness_mean": 0.03229993338042751, "train/policy_randomness_min": 0.0007098240597034864, "train/policy_randomness_std": 0.06769804608948687, "train/post_ent_mag": 47.57169764092628, "train/post_ent_max": 47.57169764092628, "train/post_ent_mean": 39.77540369236723, "train/post_ent_min": 17.06844445492359, "train/post_ent_std": 5.2431390437674015, "train/prior_ent_mag": 58.94676857806267, "train/prior_ent_max": 58.94676857806267, "train/prior_ent_mean": 41.80253179022606, "train/prior_ent_min": 25.475559112873484, "train/prior_ent_std": 4.559253581026767, "train/rep_loss_mean": 2.2639372272694365, "train/rep_loss_std": 5.181597882128776, "train/reward_avg": 1.36684187929681, "train/reward_loss_mean": 0.4618673933313248, "train/reward_loss_std": 0.2263092947133044, "train/reward_max_data": 1.9991973968262369, "train/reward_max_pred": 1.9981159555151107, "train/reward_neg_acc": 0.9515819093014332, "train/reward_neg_loss": 0.4451346942718993, "train/reward_pos_acc": 0.9985626859867827, "train/reward_pos_loss": 0.46354067579228825, "train/reward_pred": 1.3656887526207782, "train/reward_rate": 0.9245137965425532, "replay/size": 58957.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3260965185650323e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0689057536044364e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6091709136963, "timer/env.step_count": 236.0, "timer/env.step_total": 5.681649208068848, "timer/env.step_frac": 0.01890045200816587, "timer/env.step_avg": 0.024074784779952743, "timer/env.step_min": 0.019576549530029297, "timer/env.step_max": 0.030248403549194336, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18497490882873535, "timer/replay.add_frac": 0.0006153335517559474, "timer/replay.add_avg": 0.00019594799664060948, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0015630722045898438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022620201110839844, "timer/logger.write_frac": 7.524787431496565e-05, "timer/logger.write_avg": 0.022620201110839844, "timer/logger.write_min": 0.022620201110839844, "timer/logger.write_max": 0.022620201110839844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7081084251403809, "timer/agent.policy_frac": 0.0023555782512825465, "timer/agent.policy_avg": 0.003000459428560936, "timer/agent.policy_min": 0.0027523040771484375, "timer/agent.policy_max": 0.0035462379455566406, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03512692451477051, "timer/dataset_frac": 0.00011685247129354983, "timer/dataset_avg": 7.442145024315786e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.7243673801422, "timer/agent.train_frac": 0.9770971606999619, "timer/agent.train_avg": 0.6222973885172505, "timer/agent.train_min": 0.5698118209838867, "timer/agent.train_max": 0.6641428470611572, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15569829940795898, "timer/agent.report_frac": 0.0005179426127776367, "timer/agent.report_avg": 0.15569829940795898, "timer/agent.report_min": 0.15569829940795898, "timer/agent.report_max": 0.15569829940795898, "fps": 6.280516876464968}
+{"step": 120240, "episode/length": 500.0, "episode/score": 976.5901197195053, "episode/sum_abs_reward": 976.5901197195053, "episode/reward_rate": 0.998003992015968}
+{"step": 120306, "train/action_mag": 1.8026093980099291, "train/action_max": 1.7731381908376167, "train/action_mean": 0.05109421699555551, "train/action_min": -1.5460215375778523, "train/action_std": 0.5165320818728589, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09768689946925387, "train/actor_opt_grad_steps": 29190.0, "train/actor_opt_loss": -33.53649031355026, "train/adv_mag": 0.5867183487466041, "train/adv_max": 0.4529480645631222, "train/adv_mean": 0.003655140600982277, "train/adv_min": -0.45893791698394937, "train/adv_std": 0.03242552335909073, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.096239500141883e-10, "train/cont_loss_std": 9.786006225223454e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.096239500141883e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.267505057314609, "train/dyn_loss_std": 5.203756246160953, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.13956312201124557, "train/extr_critic_critic_opt_grad_steps": 29190.0, "train/extr_critic_critic_opt_loss": 8156.038345661569, "train/extr_critic_mag": 632.767270351978, "train/extr_critic_max": 632.767270351978, "train/extr_critic_mean": 591.4572182513298, "train/extr_critic_min": 405.6659855944045, "train/extr_critic_std": 47.26999940263464, "train/extr_return_normed_mag": 1.010220504821615, "train/extr_return_normed_max": 1.010220504821615, "train/extr_return_normed_mean": 0.7449247063474452, "train/extr_return_normed_min": -0.3448291844787433, "train/extr_return_normed_std": 0.3044686390364424, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 633.1664909200465, "train/extr_return_raw_max": 633.1664909200465, "train/extr_return_raw_mean": 592.0233115338265, "train/extr_return_raw_min": 423.09757638484876, "train/extr_return_raw_std": 47.225147531387655, "train/extr_reward_mag": 2.0004808801285763, "train/extr_reward_max": 2.0004808801285763, "train/extr_reward_mean": 1.3939478143732598, "train/extr_reward_min": 0.0007700032376228495, "train/extr_reward_std": 0.6824940202083993, "train/image_loss_mean": 0.7693161913689147, "train/image_loss_std": 0.8650294859358605, "train/model_loss_mean": 2.5859429785545838, "train/model_loss_std": 3.8305133961616677, "train/model_opt_grad_norm": 12.328972329484655, "train/model_opt_grad_steps": 29162.255319148935, "train/model_opt_loss": 8180.510575964096, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3138.2978723404253, "train/policy_entropy_mag": 0.9423057994943984, "train/policy_entropy_max": 0.865362583322728, "train/policy_entropy_mean": -0.8117070743378173, "train/policy_entropy_min": -0.8821661446956878, "train/policy_entropy_std": 0.159349927718335, "train/policy_logprob_mag": 7.208010876432378, "train/policy_logprob_max": 1.381407897523109, "train/policy_logprob_mean": 0.8112066755903528, "train/policy_logprob_min": -7.208010876432378, "train/policy_logprob_std": 0.7265779921349059, "train/policy_randomness_mag": 0.7595850115126752, "train/policy_randomness_max": 0.7595850115126752, "train/policy_randomness_mean": 0.031242957913336603, "train/policy_randomness_min": 0.0006429567552875094, "train/policy_randomness_std": 0.06920479119141051, "train/post_ent_mag": 47.4191182724973, "train/post_ent_max": 47.4191182724973, "train/post_ent_mean": 39.88000325953707, "train/post_ent_min": 17.386582942719155, "train/post_ent_std": 5.190426268476121, "train/prior_ent_mag": 58.613308196372174, "train/prior_ent_max": 58.613308196372174, "train/prior_ent_mean": 41.922922824291476, "train/prior_ent_min": 26.17726999648074, "train/prior_ent_std": 4.431874199116484, "train/rep_loss_mean": 2.267505057314609, "train/rep_loss_std": 5.203756246160953, "train/reward_avg": 1.397849516665682, "train/reward_loss_mean": 0.4561237287014089, "train/reward_loss_std": 0.2337536000190897, "train/reward_max_data": 1.9990941007086571, "train/reward_max_pred": 1.998405578288626, "train/reward_neg_acc": 0.9307656389601687, "train/reward_neg_loss": 0.4609146086459464, "train/reward_pos_acc": 0.998843677500461, "train/reward_pos_loss": 0.4559628278651136, "train/reward_pred": 1.3964419846839093, "train/reward_rate": 0.9274642619680851, "stats/mean_log_entropy": -0.8595538437366486, "replay/size": 59901.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2796251006045585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0774928634449588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29997396469116, "timer/env.step_count": 236.0, "timer/env.step_total": 5.6710193157196045, "timer/env.step_frac": 0.018884514843102832, "timer/env.step_avg": 0.024029742863218663, "timer/env.step_min": 0.020062923431396484, "timer/env.step_max": 0.030493736267089844, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18461275100708008, "timer/replay.add_frac": 0.0006147611289130068, "timer/replay.add_avg": 0.00019556435488038144, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.001270294189453125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024332523345947266, "timer/logger.write_frac": 8.102739079427375e-05, "timer/logger.write_avg": 0.024332523345947266, "timer/logger.write_min": 0.024332523345947266, "timer/logger.write_max": 0.024332523345947266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7089791297912598, "timer/agent.policy_frac": 0.0023609030677925417, "timer/agent.policy_avg": 0.003004148855047711, "timer/agent.policy_min": 0.0027456283569335938, "timer/agent.policy_max": 0.0040318965911865234, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03502511978149414, "timer/dataset_frac": 0.00011663377561801702, "timer/dataset_avg": 7.420576224892827e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00014448165893554688, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.40850162506104, "timer/agent.train_frac": 0.9770513721708134, "timer/agent.train_avg": 0.6216281814090276, "timer/agent.train_min": 0.5714073181152344, "timer/agent.train_max": 0.6619546413421631, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15753173828125, "timer/agent.report_frac": 0.0005245812585377459, "timer/agent.report_avg": 0.15753173828125, "timer/agent.report_min": 0.15753173828125, "timer/agent.report_max": 0.15753173828125, "fps": 6.286985487122698}
+{"step": 122194, "train/action_mag": 1.7795756142190162, "train/action_max": 1.7582689168605399, "train/action_mean": 0.04291074153313294, "train/action_min": -1.5270484914170934, "train/action_std": 0.5105646791610312, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10065139497214175, "train/actor_opt_grad_steps": 29660.0, "train/actor_opt_loss": -33.60179450664114, "train/adv_mag": 0.731446421526848, "train/adv_max": 0.6350500754853512, "train/adv_mean": 0.0036654012300014653, "train/adv_min": -0.5156551085888071, "train/adv_std": 0.0349675779567754, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.46550547137044e-10, "train/cont_loss_std": 1.761231950470302e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.46550547137044e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.235309235593106, "train/dyn_loss_std": 5.1162304979689575, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.14054211950365533, "train/extr_critic_critic_opt_grad_steps": 29660.0, "train/extr_critic_critic_opt_loss": 7158.129612699468, "train/extr_critic_mag": 634.9906875935006, "train/extr_critic_max": 634.9906875935006, "train/extr_critic_mean": 595.7664950756316, "train/extr_critic_min": 387.08409118652344, "train/extr_critic_std": 46.7912354570754, "train/extr_return_normed_mag": 1.025044692323563, "train/extr_return_normed_max": 1.0072590873596516, "train/extr_return_normed_mean": 0.7465417258282925, "train/extr_return_normed_min": -0.39545496806819386, "train/extr_return_normed_std": 0.3092173198436169, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 635.5760640895113, "train/extr_return_raw_max": 635.5760640895113, "train/extr_return_raw_mean": 596.3167672664562, "train/extr_return_raw_min": 424.321078686004, "train/extr_return_raw_std": 46.572087592266975, "train/extr_reward_mag": 2.0002021738823426, "train/extr_reward_max": 2.0002021738823426, "train/extr_reward_mean": 1.3974042547510026, "train/extr_reward_min": 0.0007193697259781208, "train/extr_reward_std": 0.6872640594523004, "train/image_loss_mean": 0.7523978809092907, "train/image_loss_std": 0.8588081864600486, "train/model_loss_mean": 2.54165876672623, "train/model_loss_std": 3.757720155918852, "train/model_opt_grad_norm": 11.733496767409305, "train/model_opt_grad_steps": 29632.0, "train/model_opt_loss": 6354.14685837766, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 0.9453427931095691, "train/policy_entropy_max": 0.8430303360553498, "train/policy_entropy_mean": -0.814068891900651, "train/policy_entropy_min": -0.882286880878692, "train/policy_entropy_std": 0.1534267877961727, "train/policy_logprob_mag": 7.451582025974355, "train/policy_logprob_max": 1.381650168844994, "train/policy_logprob_mean": 0.8126001839942121, "train/policy_logprob_min": -7.451582025974355, "train/policy_logprob_std": 0.7266888478969006, "train/policy_randomness_mag": 0.7498862350240667, "train/policy_randomness_max": 0.7498862350240667, "train/policy_randomness_mean": 0.030217229507546475, "train/policy_randomness_min": 0.0005905216985798262, "train/policy_randomness_std": 0.06663240488380828, "train/post_ent_mag": 47.70097302375956, "train/post_ent_max": 47.70097302375956, "train/post_ent_mean": 39.79440973160115, "train/post_ent_min": 17.560861039668957, "train/post_ent_std": 5.191379516682726, "train/prior_ent_mag": 58.91332691273791, "train/prior_ent_max": 58.91332691273791, "train/prior_ent_mean": 41.80672990514877, "train/prior_ent_min": 26.148360069761885, "train/prior_ent_std": 4.509763834324289, "train/rep_loss_mean": 2.235309235593106, "train/rep_loss_std": 5.1162304979689575, "train/reward_avg": 1.4036882963586361, "train/reward_loss_mean": 0.44807532366285935, "train/reward_loss_std": 0.21434979013940123, "train/reward_max_data": 1.9992343009786402, "train/reward_max_pred": 1.9979589949262904, "train/reward_neg_acc": 0.9378287855615007, "train/reward_neg_loss": 0.44714448997314943, "train/reward_pos_acc": 0.9985486763588926, "train/reward_pos_loss": 0.4486274972875067, "train/reward_pred": 1.4014660170737734, "train/reward_rate": 0.9261760305851063, "replay/size": 60845.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.312963291750116e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0845014604471497e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5849952697754, "timer/env.step_count": 236.0, "timer/env.step_total": 5.666205406188965, "timer/env.step_frac": 0.01885059299484839, "timer/env.step_avg": 0.024009344941478664, "timer/env.step_min": 0.020326614379882812, "timer/env.step_max": 0.028362035751342773, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18350434303283691, "timer/replay.add_frac": 0.0006104906962110386, "timer/replay.add_avg": 0.00019439019389071708, "timer/replay.add_min": 4.100799560546875e-05, "timer/replay.add_max": 0.0021800994873046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01846766471862793, "timer/logger.write_frac": 6.143907716369268e-05, "timer/logger.write_avg": 0.01846766471862793, "timer/logger.write_min": 0.01846766471862793, "timer/logger.write_max": 0.01846766471862793, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7116410732269287, "timer/agent.policy_frac": 0.002367520283533215, "timer/agent.policy_avg": 0.003015428276385291, "timer/agent.policy_min": 0.0027313232421875, "timer/agent.policy_max": 0.0035889148712158203, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03490805625915527, "timer/dataset_frac": 0.00011613372859089407, "timer/dataset_avg": 7.395774631176965e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00014519691467285156, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.720272064209, "timer/agent.train_frac": 0.9771621228151948, "timer/agent.train_avg": 0.6222887120004428, "timer/agent.train_min": 0.5720605850219727, "timer/agent.train_max": 0.6647341251373291, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1541757583618164, "timer/agent.report_frac": 0.0005129190105562104, "timer/agent.report_avg": 0.1541757583618164, "timer/agent.report_min": 0.1541757583618164, "timer/agent.report_max": 0.1541757583618164, "fps": 6.281058054381457}
+{"step": 124082, "train/action_mag": 1.933643954495589, "train/action_max": 1.9050698727369308, "train/action_mean": 0.051553328725276515, "train/action_min": -1.5542887300252914, "train/action_std": 0.5189617077509562, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09350559945839147, "train/actor_opt_grad_steps": 30135.0, "train/actor_opt_loss": -39.97909482071797, "train/adv_mag": 0.9288174919784069, "train/adv_max": 0.8747376650571823, "train/adv_mean": 0.004307011836014378, "train/adv_min": -0.4639661566664775, "train/adv_std": 0.03680389180469016, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.221321349816824e-10, "train/cont_loss_std": 1.4630328337705834e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.221321349816824e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2321149731675782, "train/dyn_loss_std": 5.102723593513171, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.16299505267913142, "train/extr_critic_critic_opt_grad_steps": 30135.0, "train/extr_critic_critic_opt_loss": 6355.487040201823, "train/extr_critic_mag": 635.573792775472, "train/extr_critic_max": 635.573792775472, "train/extr_critic_mean": 598.902525583903, "train/extr_critic_min": 372.0700381596883, "train/extr_critic_std": 47.04777765274048, "train/extr_return_normed_mag": 1.0063766464591026, "train/extr_return_normed_max": 1.0032935986916225, "train/extr_return_normed_mean": 0.7636886226634184, "train/extr_return_normed_min": -0.3588622859994454, "train/extr_return_normed_std": 0.30567898508161306, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 636.2865931193033, "train/extr_return_raw_max": 636.2865931193033, "train/extr_return_raw_mean": 599.5620040893555, "train/extr_return_raw_min": 427.60483741760254, "train/extr_return_raw_std": 46.85548977057139, "train/extr_reward_mag": 2.0003981987635293, "train/extr_reward_max": 2.0003981987635293, "train/extr_reward_mean": 1.404784565170606, "train/extr_reward_min": 0.0007642408212025961, "train/extr_reward_std": 0.6777959807465473, "train/image_loss_mean": 0.7378041967749596, "train/image_loss_std": 0.8369258058567842, "train/model_loss_mean": 2.529832368095716, "train/model_loss_std": 3.748916139205297, "train/model_opt_grad_norm": 11.032275875409445, "train/model_opt_grad_steps": 30107.0, "train/model_opt_loss": 10208.317209879557, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 4062.5, "train/policy_entropy_mag": 1.0042741894721985, "train/policy_entropy_max": 0.9556178823113441, "train/policy_entropy_mean": -0.8070571584006151, "train/policy_entropy_min": -0.882345030705134, "train/policy_entropy_std": 0.17642407895376286, "train/policy_logprob_mag": 7.385810037453969, "train/policy_logprob_max": 1.38164667536815, "train/policy_logprob_mean": 0.808754832794269, "train/policy_logprob_min": -7.385810037453969, "train/policy_logprob_std": 0.7271312524875005, "train/policy_randomness_mag": 0.7987823834021887, "train/policy_randomness_max": 0.7987823834021887, "train/policy_randomness_mean": 0.03326239289405445, "train/policy_randomness_min": 0.0005652675523985332, "train/policy_randomness_std": 0.07662000010410945, "train/post_ent_mag": 47.50330956776937, "train/post_ent_max": 47.50330956776937, "train/post_ent_mean": 39.81240518887838, "train/post_ent_min": 17.43151432275772, "train/post_ent_std": 5.08892826239268, "train/prior_ent_mag": 58.777511994043984, "train/prior_ent_max": 58.777511994043984, "train/prior_ent_mean": 41.833760579427086, "train/prior_ent_min": 26.240759412447613, "train/prior_ent_std": 4.380082696676254, "train/rep_loss_mean": 2.2321149731675782, "train/rep_loss_std": 5.102723593513171, "train/reward_avg": 1.4023988197247188, "train/reward_loss_mean": 0.4527591597288847, "train/reward_loss_std": 0.23333327627430359, "train/reward_max_data": 1.9992278541127841, "train/reward_max_pred": 1.9981453915437062, "train/reward_neg_acc": 0.9264697730541229, "train/reward_neg_loss": 0.4596416000276804, "train/reward_pos_acc": 0.9986049073437849, "train/reward_pos_loss": 0.45243148505687714, "train/reward_pred": 1.4008490641911824, "train/reward_rate": 0.9263509114583334, "replay/size": 61789.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.338724621271683e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.075535507525428e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.39164662361145, "timer/env.step_count": 236.0, "timer/env.step_total": 5.697121858596802, "timer/env.step_frac": 0.018965646756932804, "timer/env.step_avg": 0.024140346858461025, "timer/env.step_min": 0.020368337631225586, "timer/env.step_max": 0.031456947326660156, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.19063735008239746, "timer/replay.add_frac": 0.0006346293321573775, "timer/replay.add_avg": 0.0002019463454262685, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.001916646957397461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01384592056274414, "timer/logger.write_frac": 4.6092894787094325e-05, "timer/logger.write_avg": 0.01384592056274414, "timer/logger.write_min": 0.01384592056274414, "timer/logger.write_max": 0.01384592056274414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 8.988380432128906e-05, "timer/checkpoint.save_frac": 2.9922205005225333e-07, "timer/checkpoint.save_avg": 8.988380432128906e-05, "timer/checkpoint.save_min": 8.988380432128906e-05, "timer/checkpoint.save_max": 8.988380432128906e-05, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07171225547790527, "timer/agent.save_frac": 0.00023872919331794937, "timer/agent.save_avg": 0.07171225547790527, "timer/agent.save_min": 0.07171225547790527, "timer/agent.save_max": 0.07171225547790527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010037422180175781, "timer/replay.save_frac": 3.341445174323572e-07, "timer/replay.save_avg": 0.00010037422180175781, "timer/replay.save_min": 0.00010037422180175781, "timer/replay.save_max": 0.00010037422180175781, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7487704753875732, "timer/agent.policy_frac": 0.002492647461418184, "timer/agent.policy_avg": 0.0031727562516422596, "timer/agent.policy_min": 0.0027208328247070312, "timer/agent.policy_max": 0.042200326919555664, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035085201263427734, "timer/dataset_frac": 0.00011679819215275729, "timer/dataset_avg": 7.43330535242113e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00014352798461914062, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.4558975696564, "timer/agent.train_frac": 0.9769109789439467, "timer/agent.train_avg": 0.6217285965458822, "timer/agent.train_min": 0.5764155387878418, "timer/agent.train_max": 0.6618549823760986, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15357017517089844, "timer/agent.report_frac": 0.0005112331747471019, "timer/agent.report_avg": 0.15357017517089844, "timer/agent.report_min": 0.15357017517089844, "timer/agent.report_max": 0.15357017517089844, "fps": 6.285060955471236}
+{"step": 124248, "episode/length": 500.0, "episode/score": 984.1260552406311, "episode/sum_abs_reward": 984.1260552406311, "episode/reward_rate": 0.998003992015968}
+{"step": 125970, "train/action_mag": 1.9774900624092588, "train/action_max": 1.953117494887494, "train/action_mean": 0.030599465504526458, "train/action_min": -1.5473679684578103, "train/action_std": 0.5301672378753094, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.15165102351060572, "train/actor_opt_grad_steps": 30610.0, "train/actor_opt_loss": -41.94609865419408, "train/adv_mag": 1.1303589800570875, "train/adv_max": 1.09837754292691, "train/adv_mean": 0.004518880803593772, "train/adv_min": -0.5200614104879663, "train/adv_std": 0.051617090927159534, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.934999359517299e-10, "train/cont_loss_std": 1.0733459670709657e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.934999359517299e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.213442642638024, "train/dyn_loss_std": 5.043227033412203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.1688831272594472, "train/extr_critic_critic_opt_grad_steps": 30610.0, "train/extr_critic_critic_opt_loss": 6550.891663896276, "train/extr_critic_mag": 635.5156003262134, "train/extr_critic_max": 635.5156003262134, "train/extr_critic_mean": 601.3499898707613, "train/extr_critic_min": 387.6485329485954, "train/extr_critic_std": 41.892079130132146, "train/extr_return_normed_mag": 1.0139036546362208, "train/extr_return_normed_max": 1.0025909213309592, "train/extr_return_normed_mean": 0.7604751713732456, "train/extr_return_normed_min": -0.33637439388226953, "train/extr_return_normed_std": 0.2931126143704069, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 636.1647455743018, "train/extr_return_raw_max": 636.1647455743018, "train/extr_return_raw_mean": 601.9852970204455, "train/extr_return_raw_min": 446.955284605635, "train/extr_return_raw_std": 41.417936568564556, "train/extr_reward_mag": 2.000239428053511, "train/extr_reward_max": 2.000239428053511, "train/extr_reward_mean": 1.3898793002392382, "train/extr_reward_min": 0.0007893963063016851, "train/extr_reward_std": 0.6661464077361087, "train/image_loss_mean": 0.7180985415235479, "train/image_loss_std": 0.8127684999019542, "train/model_loss_mean": 2.49221245785977, "train/model_loss_std": 3.697925009626023, "train/model_opt_grad_norm": 11.322915016336644, "train/model_opt_grad_steps": 30582.0, "train/model_opt_loss": 12461.062292220744, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 1.0372429198407112, "train/policy_entropy_max": 0.9936941722606091, "train/policy_entropy_mean": -0.8057957684740107, "train/policy_entropy_min": -0.8825254262761867, "train/policy_entropy_std": 0.18017020869128247, "train/policy_logprob_mag": 6.825616116219378, "train/policy_logprob_max": 1.381968876148792, "train/policy_logprob_mean": 0.8053134083747864, "train/policy_logprob_min": -6.825616116219378, "train/policy_logprob_std": 0.7316916458150173, "train/policy_randomness_mag": 0.8153187036514282, "train/policy_randomness_max": 0.8153187036514282, "train/policy_randomness_mean": 0.03381020817509357, "train/policy_randomness_min": 0.00048692274945193626, "train/policy_randomness_std": 0.07824692308427171, "train/post_ent_mag": 47.74317363982505, "train/post_ent_max": 47.74317363982505, "train/post_ent_mean": 40.1485361139825, "train/post_ent_min": 18.319833917820706, "train/post_ent_std": 4.796711531091244, "train/prior_ent_mag": 58.787310498826045, "train/prior_ent_max": 58.787310498826045, "train/prior_ent_mean": 42.097792686300075, "train/prior_ent_min": 27.221308769063747, "train/prior_ent_std": 4.119203526922997, "train/rep_loss_mean": 2.213442642638024, "train/rep_loss_std": 5.043227033412203, "train/reward_avg": 1.4048288832319544, "train/reward_loss_mean": 0.446048304121545, "train/reward_loss_std": 0.22585869628064176, "train/reward_max_data": 1.9990041332041963, "train/reward_max_pred": 1.9981783248008567, "train/reward_neg_acc": 0.9381883981380057, "train/reward_neg_loss": 0.4547192441656234, "train/reward_pos_acc": 0.9992344239924816, "train/reward_pos_loss": 0.44559527584846986, "train/reward_pred": 1.4034896911458765, "train/reward_rate": 0.931412067819149, "stats/mean_log_entropy": -0.8663893789052963, "replay/size": 62733.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3147312261290468e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.078566252175024e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5864737033844, "timer/env.step_count": 236.0, "timer/env.step_total": 5.69914984703064, "timer/env.step_frac": 0.01896010082161748, "timer/env.step_avg": 0.024148940029790848, "timer/env.step_min": 0.01981353759765625, "timer/env.step_max": 0.03072381019592285, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18247103691101074, "timer/replay.add_frac": 0.0006070500600471838, "timer/replay.add_avg": 0.0001932955899481046, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0020058155059814453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01973867416381836, "timer/logger.write_frac": 6.566720691263134e-05, "timer/logger.write_avg": 0.01973867416381836, "timer/logger.write_min": 0.01973867416381836, "timer/logger.write_max": 0.01973867416381836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7138073444366455, "timer/agent.policy_frac": 0.002374715454232392, "timer/agent.policy_avg": 0.0030246073916807012, "timer/agent.policy_min": 0.002743244171142578, "timer/agent.policy_max": 0.004723072052001953, "timer/dataset_count": 472.0, "timer/dataset_total": 0.034868717193603516, "timer/dataset_frac": 0.00011600228301693842, "timer/dataset_avg": 7.387440083390576e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.67033195495605, "timer/agent.train_frac": 0.9769911744090882, "timer/agent.train_avg": 0.6221829066842289, "timer/agent.train_min": 0.5715529918670654, "timer/agent.train_max": 0.660783052444458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15487027168273926, "timer/agent.report_frac": 0.0005152270152899948, "timer/agent.report_avg": 0.15487027168273926, "timer/agent.report_min": 0.15487027168273926, "timer/agent.report_max": 0.15487027168273926, "fps": 6.280991530440455}
+{"step": 127858, "train/action_mag": 1.7685179837206577, "train/action_max": 1.7451436798623268, "train/action_mean": 0.03178323688916862, "train/action_min": -1.494704190720903, "train/action_std": 0.5160690742604276, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0711320606159403, "train/actor_opt_grad_steps": 31080.0, "train/actor_opt_loss": -31.93070295262844, "train/adv_mag": 0.5620402002588232, "train/adv_max": 0.5235971269455362, "train/adv_mean": 0.0034952587506887406, "train/adv_min": -0.4337876337639829, "train/adv_std": 0.03262683840349634, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.958794385750384e-10, "train/cont_loss_std": 1.0366659433953494e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.958794385750384e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.219309745950902, "train/dyn_loss_std": 5.172868880819767, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11092324388471056, "train/extr_critic_critic_opt_grad_steps": 31080.0, "train/extr_critic_critic_opt_loss": 6128.273821891622, "train/extr_critic_mag": 635.7996137903092, "train/extr_critic_max": 635.7996137903092, "train/extr_critic_mean": 601.4329015853557, "train/extr_critic_min": 437.86691803627826, "train/extr_critic_std": 43.44001810601417, "train/extr_return_normed_mag": 1.0035051538589153, "train/extr_return_normed_max": 1.0035051538589153, "train/extr_return_normed_mean": 0.7523353657823928, "train/extr_return_normed_min": -0.33880984009382253, "train/extr_return_normed_std": 0.31522136134036044, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 636.5448907081117, "train/extr_return_raw_max": 636.5448907081117, "train/extr_return_raw_mean": 601.9124716900765, "train/extr_return_raw_min": 451.5130381482713, "train/extr_return_raw_std": 43.5060769344898, "train/extr_reward_mag": 2.000569404439723, "train/extr_reward_max": 2.000569404439723, "train/extr_reward_mean": 1.3913236450641713, "train/extr_reward_min": 0.000766031285549732, "train/extr_reward_std": 0.6794671961601745, "train/image_loss_mean": 0.7297232696350585, "train/image_loss_std": 0.8471928834915161, "train/model_loss_mean": 2.5109301983041967, "train/model_loss_std": 3.8021313078860017, "train/model_opt_grad_norm": 12.720779155163054, "train/model_opt_grad_steps": 31051.489361702126, "train/model_opt_loss": 12554.65099318484, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9109813266612113, "train/policy_entropy_max": 0.7208772758220104, "train/policy_entropy_mean": -0.824630562295305, "train/policy_entropy_min": -0.882764144146696, "train/policy_entropy_std": 0.14299330170801344, "train/policy_logprob_mag": 7.343914478383166, "train/policy_logprob_max": 1.382312039111523, "train/policy_logprob_mean": 0.8237126431566604, "train/policy_logprob_min": -7.343914478383166, "train/policy_logprob_std": 0.7236979426221645, "train/policy_randomness_mag": 0.6968358336610997, "train/policy_randomness_max": 0.6968358336610997, "train/policy_randomness_mean": 0.025630359478453373, "train/policy_randomness_min": 0.00038324890068752016, "train/policy_randomness_std": 0.06210119879626213, "train/post_ent_mag": 47.697595149912736, "train/post_ent_max": 47.697595149912736, "train/post_ent_mean": 40.11776903842358, "train/post_ent_min": 17.51913853909107, "train/post_ent_std": 4.943939066947775, "train/prior_ent_mag": 58.912866714152884, "train/prior_ent_max": 58.912866714152884, "train/prior_ent_mean": 42.087557041898684, "train/prior_ent_min": 26.922395503267328, "train/prior_ent_std": 4.273580921457169, "train/rep_loss_mean": 2.219309745950902, "train/rep_loss_std": 5.172868880819767, "train/reward_avg": 1.4021046846470935, "train/reward_loss_mean": 0.44962107627949816, "train/reward_loss_std": 0.23317838793105267, "train/reward_max_data": 1.999296213718171, "train/reward_max_pred": 1.9986628167172695, "train/reward_neg_acc": 0.9393088766869079, "train/reward_neg_loss": 0.4604000797931184, "train/reward_pos_acc": 0.9986979644349281, "train/reward_pos_loss": 0.44925450834822145, "train/reward_pred": 1.4001682793840449, "train/reward_rate": 0.9325132978723404, "replay/size": 63677.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.228860127723823e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0682427782123371e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2991187572479, "timer/env.step_count": 236.0, "timer/env.step_total": 5.7069315910339355, "timer/env.step_frac": 0.01900415697072769, "timer/env.step_avg": 0.024181913521330235, "timer/env.step_min": 0.02027583122253418, "timer/env.step_max": 0.029269933700561523, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18043160438537598, "timer/replay.add_frac": 0.0006008396066297852, "timer/replay.add_avg": 0.00019113517413705083, "timer/replay.add_min": 3.933906555175781e-05, "timer/replay.add_max": 0.0017833709716796875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018236875534057617, "timer/logger.write_frac": 6.0729034469127816e-05, "timer/logger.write_avg": 0.018236875534057617, "timer/logger.write_min": 0.018236875534057617, "timer/logger.write_max": 0.018236875534057617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7115035057067871, "timer/agent.policy_frac": 0.0023693159961682853, "timer/agent.policy_avg": 0.0030148453631643523, "timer/agent.policy_min": 0.0027735233306884766, "timer/agent.policy_max": 0.0034744739532470703, "timer/dataset_count": 472.0, "timer/dataset_total": 0.034628868103027344, "timer/dataset_frac": 0.00011531458449273771, "timer/dataset_avg": 7.336624598099014e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00013327598571777344, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.39748430252075, "timer/agent.train_frac": 0.9770174668401, "timer/agent.train_avg": 0.6216048396239846, "timer/agent.train_min": 0.571636438369751, "timer/agent.train_max": 0.6616649627685547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15598583221435547, "timer/agent.report_frac": 0.0005194348650102079, "timer/agent.report_avg": 0.15598583221435547, "timer/agent.report_min": 0.15598583221435547, "timer/agent.report_max": 0.15598583221435547, "fps": 6.286996987346451}
+{"step": 128256, "episode/length": 500.0, "episode/score": 969.3790756464005, "episode/sum_abs_reward": 969.3790756464005, "episode/reward_rate": 0.998003992015968}
+{"step": 129742, "train/action_mag": 1.7783282817678248, "train/action_max": 1.7521679376034027, "train/action_mean": 0.04009788945946406, "train/action_min": -1.4830547875546394, "train/action_std": 0.49381373790984456, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07428177874139015, "train/actor_opt_grad_steps": 31550.0, "train/actor_opt_loss": -27.512874300809617, "train/adv_mag": 0.6671027648956218, "train/adv_max": 0.6016518029760807, "train/adv_mean": 0.003043606185646569, "train/adv_min": -0.4365489876016657, "train/adv_std": 0.033559433204379485, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.382872475180157e-10, "train/cont_loss_std": 2.6219625229838253e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.382872475180157e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.178168131950054, "train/dyn_loss_std": 4.910963459217802, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.12224935185401997, "train/extr_critic_critic_opt_grad_steps": 31550.0, "train/extr_critic_critic_opt_loss": 5379.026569772274, "train/extr_critic_mag": 636.2808798932015, "train/extr_critic_max": 636.2808798932015, "train/extr_critic_mean": 604.712094570728, "train/extr_critic_min": 436.35444543716756, "train/extr_critic_std": 44.161124614959064, "train/extr_return_normed_mag": 1.005451387547432, "train/extr_return_normed_max": 1.0030853925867285, "train/extr_return_normed_mean": 0.7656293891845866, "train/extr_return_normed_min": -0.34487344986422264, "train/extr_return_normed_std": 0.3283612804209932, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 637.004360767121, "train/extr_return_raw_max": 637.004360767121, "train/extr_return_raw_mean": 605.1191120553524, "train/extr_return_raw_min": 456.09292797332114, "train/extr_return_raw_std": 44.087380713604865, "train/extr_reward_mag": 2.000625417587605, "train/extr_reward_max": 2.000625417587605, "train/extr_reward_mean": 1.4489507599079863, "train/extr_reward_min": 0.0007562332964958029, "train/extr_reward_std": 0.6660297081825581, "train/image_loss_mean": 0.6895532874350853, "train/image_loss_std": 0.7728991869916307, "train/model_loss_mean": 2.437519798887537, "train/model_loss_std": 3.5876247933570373, "train/model_opt_grad_norm": 11.907610264230282, "train/model_opt_grad_steps": 31521.0, "train/model_opt_loss": 12187.599069148937, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9145628251927964, "train/policy_entropy_max": 0.7347301422281468, "train/policy_entropy_mean": -0.8248117033471453, "train/policy_entropy_min": -0.8827343722607227, "train/policy_entropy_std": 0.14497331537781877, "train/policy_logprob_mag": 7.231208405596145, "train/policy_logprob_max": 1.3822647434599855, "train/policy_logprob_mean": 0.8234862875431141, "train/policy_logprob_min": -7.231208405596145, "train/policy_logprob_std": 0.7252855288221481, "train/policy_randomness_mag": 0.7028520576497341, "train/policy_randomness_max": 0.7028520576497341, "train/policy_randomness_mean": 0.025551693434727952, "train/policy_randomness_min": 0.0003961786674830983, "train/policy_randomness_std": 0.06296110787290207, "train/post_ent_mag": 47.52124356208964, "train/post_ent_max": 47.52124356208964, "train/post_ent_mean": 40.23554627438809, "train/post_ent_min": 18.190738515650974, "train/post_ent_std": 4.804973932022744, "train/prior_ent_mag": 58.88811314359624, "train/prior_ent_max": 58.88811314359624, "train/prior_ent_mean": 42.1664190089449, "train/prior_ent_min": 27.017779735808677, "train/prior_ent_std": 4.166703224182129, "train/rep_loss_mean": 2.178168131950054, "train/rep_loss_std": 4.910963459217802, "train/reward_avg": 1.4551890555848466, "train/reward_loss_mean": 0.4410656386233391, "train/reward_loss_std": 0.22448321098976948, "train/reward_max_data": 1.9993344672182773, "train/reward_max_pred": 1.998418447819162, "train/reward_neg_acc": 0.9264047259980059, "train/reward_neg_loss": 0.4596685012604328, "train/reward_pos_acc": 0.9988391830566081, "train/reward_pos_loss": 0.440034197365984, "train/reward_pred": 1.4540116825002305, "train/reward_rate": 0.9361909906914894, "stats/mean_log_entropy": -0.8575218468904495, "replay/size": 64619.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3181271401180583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0806031034757123e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1151101589203, "timer/env.step_count": 235.0, "timer/env.step_total": 5.652763605117798, "timer/env.step_frac": 0.01883531822881055, "timer/env.step_avg": 0.024054313213267224, "timer/env.step_min": 0.019516944885253906, "timer/env.step_max": 0.0304868221282959, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18342375755310059, "timer/replay.add_frac": 0.0006111780158485589, "timer/replay.add_avg": 0.00019471736470605159, "timer/replay.add_min": 4.100799560546875e-05, "timer/replay.add_max": 0.0013382434844970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018265485763549805, "timer/logger.write_frac": 6.086159991703737e-05, "timer/logger.write_avg": 0.018265485763549805, "timer/logger.write_min": 0.018265485763549805, "timer/logger.write_max": 0.018265485763549805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026726722717285156, "timer/checkpoint.save_frac": 8.9054905309941e-07, "timer/checkpoint.save_avg": 0.00026726722717285156, "timer/checkpoint.save_min": 0.00026726722717285156, "timer/checkpoint.save_max": 0.00026726722717285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.152360200881958, "timer/agent.save_frac": 0.0005076725420498772, "timer/agent.save_avg": 0.152360200881958, "timer/agent.save_min": 0.152360200881958, "timer/agent.save_max": 0.152360200881958, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011205673217773438, "timer/replay.save_frac": 3.733791748052834e-07, "timer/replay.save_avg": 0.00011205673217773438, "timer/replay.save_min": 0.00011205673217773438, "timer/replay.save_max": 0.00011205673217773438, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.8290824890136719, "timer/agent.policy_frac": 0.0027625483054640166, "timer/agent.policy_avg": 0.00352801059154754, "timer/agent.policy_min": 0.002718687057495117, "timer/agent.policy_max": 0.13001728057861328, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03463029861450195, "timer/dataset_frac": 0.00011539005349035619, "timer/dataset_avg": 7.352505013694682e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00015974044799804688, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.13705110549927, "timer/agent.train_frac": 0.9767487246819198, "timer/agent.train_avg": 0.6223716583980876, "timer/agent.train_min": 0.5729637145996094, "timer/agent.train_max": 0.6603949069976807, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1493387222290039, "timer/agent.report_frac": 0.0004976048095343297, "timer/agent.report_avg": 0.1493387222290039, "timer/agent.report_min": 0.1493387222290039, "timer/agent.report_max": 0.1493387222290039, "fps": 6.277523990127385}
+{"step": 131626, "train/action_mag": 1.7858305611508958, "train/action_max": 1.7353318295580276, "train/action_mean": 0.04024420082172815, "train/action_min": -1.4860980054165454, "train/action_std": 0.4984098362161758, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07889424351618644, "train/actor_opt_grad_steps": 32020.0, "train/actor_opt_loss": -19.72980880230031, "train/adv_mag": 0.6747215047795722, "train/adv_max": 0.5943953895822485, "train/adv_mean": 0.0022509687993814177, "train/adv_min": -0.47414976802278075, "train/adv_std": 0.03496745985714679, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.024047738117287e-10, "train/cont_loss_std": 1.5964929721013642e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.024047738117287e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.2205157077058835, "train/dyn_loss_std": 5.065510272979736, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11607200248127288, "train/extr_critic_critic_opt_grad_steps": 32020.0, "train/extr_critic_critic_opt_loss": 5663.761313580452, "train/extr_critic_mag": 637.1779979949301, "train/extr_critic_max": 637.1779979949301, "train/extr_critic_mean": 604.3191073803191, "train/extr_critic_min": 425.7044538132688, "train/extr_critic_std": 43.5438741318723, "train/extr_return_normed_mag": 1.0299590648488794, "train/extr_return_normed_max": 1.0044806206479986, "train/extr_return_normed_mean": 0.7630035065590067, "train/extr_return_normed_min": -0.3814680276319702, "train/extr_return_normed_std": 0.31879493086896044, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 637.6157161631482, "train/extr_return_raw_max": 637.6157161631482, "train/extr_return_raw_mean": 604.6267375540226, "train/extr_return_raw_min": 448.3910957498753, "train/extr_return_raw_std": 43.601876766123674, "train/extr_reward_mag": 2.0008578452658146, "train/extr_reward_max": 2.0008578452658146, "train/extr_reward_mean": 1.4165264406102769, "train/extr_reward_min": 0.0008096060854323367, "train/extr_reward_std": 0.6753799864586364, "train/image_loss_mean": 0.7378680756751527, "train/image_loss_std": 0.8707390002747799, "train/model_loss_mean": 2.520533840707008, "train/model_loss_std": 3.7549750703446407, "train/model_opt_grad_norm": 12.22979757633615, "train/model_opt_grad_steps": 31991.0, "train/model_opt_loss": 17416.584877825797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6914.893617021276, "train/policy_entropy_mag": 0.9246451753251096, "train/policy_entropy_max": 0.7625749656494628, "train/policy_entropy_mean": -0.8229890199417763, "train/policy_entropy_min": -0.882754642912682, "train/policy_entropy_std": 0.15374265040488952, "train/policy_logprob_mag": 7.159409228791582, "train/policy_logprob_max": 1.382315458135402, "train/policy_logprob_mean": 0.8237335022459639, "train/policy_logprob_min": -7.159409228791582, "train/policy_logprob_std": 0.7234186377931149, "train/policy_randomness_mag": 0.7149449111299312, "train/policy_randomness_max": 0.7149449111299312, "train/policy_randomness_mean": 0.02634327151277598, "train/policy_randomness_min": 0.0003873752368158324, "train/policy_randomness_std": 0.06676958184292976, "train/post_ent_mag": 47.60413685250789, "train/post_ent_max": 47.60413685250789, "train/post_ent_mean": 40.28206853663668, "train/post_ent_min": 17.733982897819356, "train/post_ent_std": 4.78959832292922, "train/prior_ent_mag": 58.972825801118894, "train/prior_ent_max": 58.972825801118894, "train/prior_ent_mean": 42.26237893611827, "train/prior_ent_min": 27.28568089261968, "train/prior_ent_std": 4.068388446848443, "train/rep_loss_mean": 2.2205157077058835, "train/rep_loss_std": 5.065510272979736, "train/reward_avg": 1.421058659857892, "train/reward_loss_mean": 0.4503562938659749, "train/reward_loss_std": 0.22547669613614996, "train/reward_max_data": 1.9990708371426196, "train/reward_max_pred": 1.9981563598551648, "train/reward_neg_acc": 0.9398272595507033, "train/reward_neg_loss": 0.45612438118204157, "train/reward_pos_acc": 0.9992150169737796, "train/reward_pos_loss": 0.45020840776727555, "train/reward_pred": 1.4195209082136764, "train/reward_rate": 0.9341131981382979, "replay/size": 65561.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3077501106667164e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0652273830081752e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1020174026489, "timer/env.step_count": 236.0, "timer/env.step_total": 5.710214376449585, "timer/env.step_frac": 0.01902757744140104, "timer/env.step_avg": 0.024195823629023665, "timer/env.step_min": 0.02028059959411621, "timer/env.step_max": 0.029574871063232422, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18714046478271484, "timer/replay.add_frac": 0.00062358949267451, "timer/replay.add_avg": 0.0001986629137820752, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.002588510513305664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021596908569335938, "timer/logger.write_frac": 7.196522288072198e-05, "timer/logger.write_avg": 0.021596908569335938, "timer/logger.write_min": 0.021596908569335938, "timer/logger.write_max": 0.021596908569335938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7128417491912842, "timer/agent.policy_frac": 0.0023753314135001617, "timer/agent.policy_avg": 0.0030205158864037465, "timer/agent.policy_min": 0.002749919891357422, "timer/agent.policy_max": 0.003986358642578125, "timer/dataset_count": 471.0, "timer/dataset_total": 0.035268306732177734, "timer/dataset_frac": 0.0001175210584634558, "timer/dataset_avg": 7.487963212776589e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.1852512359619, "timer/agent.train_frac": 0.9769519504515468, "timer/agent.train_avg": 0.6224739941315539, "timer/agent.train_min": 0.5722451210021973, "timer/agent.train_max": 0.660759687423706, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15401244163513184, "timer/agent.report_frac": 0.0005132002875825133, "timer/agent.report_avg": 0.15401244163513184, "timer/agent.report_min": 0.15401244163513184, "timer/agent.report_max": 0.15401244163513184, "fps": 6.277803631452822}
+{"step": 132264, "episode/length": 500.0, "episode/score": 983.8243455886841, "episode/sum_abs_reward": 983.8243455886841, "episode/reward_rate": 0.998003992015968}
+{"step": 133514, "train/action_mag": 1.7422148166818823, "train/action_max": 1.708882915212753, "train/action_mean": 0.019575702442609248, "train/action_min": -1.4820880712346827, "train/action_std": 0.4848102140933909, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0885975921249136, "train/actor_opt_grad_steps": 32490.0, "train/actor_opt_loss": -26.896526302428956, "train/adv_mag": 0.6928087396824614, "train/adv_max": 0.648274707667371, "train/adv_mean": 0.002981361515381611, "train/adv_min": -0.4680641972004099, "train/adv_std": 0.032922072098293204, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.671490393097115e-10, "train/cont_loss_std": 8.43079205738675e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.671490393097115e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1576428565573185, "train/dyn_loss_std": 4.973208173792413, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11087601338612273, "train/extr_critic_critic_opt_grad_steps": 32490.0, "train/extr_critic_critic_opt_loss": 5445.425485164561, "train/extr_critic_mag": 638.637830369016, "train/extr_critic_max": 638.637830369016, "train/extr_critic_mean": 609.3886433053524, "train/extr_critic_min": 435.00541816873755, "train/extr_critic_std": 37.730239340599546, "train/extr_return_normed_mag": 1.0157195710121316, "train/extr_return_normed_max": 1.0074474202825667, "train/extr_return_normed_mean": 0.7890650604633574, "train/extr_return_normed_min": -0.27330238714893446, "train/extr_return_normed_std": 0.28561634681326276, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 638.6790654608544, "train/extr_return_raw_max": 638.6790654608544, "train/extr_return_raw_mean": 609.7825070644947, "train/extr_return_raw_min": 469.2759866917387, "train/extr_return_raw_std": 37.791609581480635, "train/extr_reward_mag": 2.0011169301702623, "train/extr_reward_max": 2.0011169301702623, "train/extr_reward_mean": 1.4603975326456922, "train/extr_reward_min": 0.0007987681855546667, "train/extr_reward_std": 0.6606812997067228, "train/image_loss_mean": 0.6899816863080288, "train/image_loss_std": 0.8176013548323449, "train/model_loss_mean": 2.4268945278005396, "train/model_loss_std": 3.660945603188048, "train/model_opt_grad_norm": 11.763281842495532, "train/model_opt_grad_steps": 32460.55319148936, "train/model_opt_loss": 18900.385347406915, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7765.95744680851, "train/policy_entropy_mag": 0.9031003891153538, "train/policy_entropy_max": 0.7328695528050686, "train/policy_entropy_mean": -0.8331079914214763, "train/policy_entropy_min": -0.882827877998352, "train/policy_entropy_std": 0.133818563470181, "train/policy_logprob_mag": 7.350698400051035, "train/policy_logprob_max": 1.382386694563196, "train/policy_logprob_mean": 0.8341949239690253, "train/policy_logprob_min": -7.350698400051035, "train/policy_logprob_std": 0.720079703533903, "train/policy_randomness_mag": 0.7020440152350892, "train/policy_randomness_max": 0.7020440152350892, "train/policy_randomness_mean": 0.021948660595065103, "train/policy_randomness_min": 0.00035556964390475224, "train/policy_randomness_std": 0.058116660552456026, "train/post_ent_mag": 47.819785990613575, "train/post_ent_max": 47.819785990613575, "train/post_ent_mean": 40.60903411215924, "train/post_ent_min": 18.036416195808574, "train/post_ent_std": 4.682727636174953, "train/prior_ent_mag": 59.01638980621987, "train/prior_ent_max": 59.01638980621987, "train/prior_ent_mean": 42.49726883908536, "train/prior_ent_min": 26.911955082670172, "train/prior_ent_std": 4.010304395188677, "train/rep_loss_mean": 2.1576428565573185, "train/rep_loss_std": 4.973208173792413, "train/reward_avg": 1.4646664274499772, "train/reward_loss_mean": 0.44232715824817087, "train/reward_loss_std": 0.2249281162277181, "train/reward_max_data": 1.999294085705534, "train/reward_max_pred": 1.998394859598038, "train/reward_neg_acc": 0.9194087665131752, "train/reward_neg_loss": 0.464872048890337, "train/reward_pos_acc": 0.998854119726952, "train/reward_pos_loss": 0.4406518042087555, "train/reward_pred": 1.463300332109979, "train/reward_rate": 0.9359832114361702, "stats/mean_log_entropy": -0.8678962737321854, "replay/size": 66505.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.298314692610401e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0678639351311375e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6095802783966, "timer/env.step_count": 236.0, "timer/env.step_total": 5.65928316116333, "timer/env.step_frac": 0.018826023960787374, "timer/env.step_avg": 0.023980013394759872, "timer/env.step_min": 0.0196075439453125, "timer/env.step_max": 0.030131101608276367, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1831972599029541, "timer/replay.add_frac": 0.0006094192331904188, "timer/replay.add_avg": 0.00019406489396499375, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0014069080352783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02008795738220215, "timer/logger.write_frac": 6.682407581155115e-05, "timer/logger.write_avg": 0.02008795738220215, "timer/logger.write_min": 0.02008795738220215, "timer/logger.write_max": 0.02008795738220215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7075483798980713, "timer/agent.policy_frac": 0.0023537120115826177, "timer/agent.policy_avg": 0.002998086355500302, "timer/agent.policy_min": 0.0027098655700683594, "timer/agent.policy_max": 0.0035529136657714844, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035088300704956055, "timer/dataset_frac": 0.00011672382720624052, "timer/dataset_avg": 7.433962013761875e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.7401530742645, "timer/agent.train_frac": 0.9771483423855944, "timer/agent.train_avg": 0.6223308327844588, "timer/agent.train_min": 0.5701344013214111, "timer/agent.train_max": 0.963709831237793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15549612045288086, "timer/agent.report_frac": 0.0005172693442067776, "timer/agent.report_avg": 0.15549612045288086, "timer/agent.report_min": 0.15549612045288086, "timer/agent.report_max": 0.15549612045288086, "fps": 6.280546220506669}
+{"step": 135402, "train/action_mag": 1.8497561464707057, "train/action_max": 1.8245977039138477, "train/action_mean": 0.02429815539896178, "train/action_min": -1.4883123114705086, "train/action_std": 0.5010066206256548, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.06963357635928939, "train/actor_opt_grad_steps": 32965.0, "train/actor_opt_loss": -28.50007284618914, "train/adv_mag": 0.7532362776498, "train/adv_max": 0.6856589186936617, "train/adv_mean": 0.003141746742282218, "train/adv_min": -0.47310561686754227, "train/adv_std": 0.03852212448449185, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.4061785354580313e-10, "train/cont_loss_std": 1.0735477836559815e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.4061785354580313e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1594210043549538, "train/dyn_loss_std": 4.8968288252751035, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.12072915902050833, "train/extr_critic_critic_opt_grad_steps": 32965.0, "train/extr_critic_critic_opt_loss": 5895.581680297852, "train/extr_critic_mag": 640.7602246602377, "train/extr_critic_max": 640.7602246602377, "train/extr_critic_mean": 607.9922574361166, "train/extr_critic_min": 421.80680624643963, "train/extr_critic_std": 40.13929998874664, "train/extr_return_normed_mag": 1.0240295256177585, "train/extr_return_normed_max": 1.0101734151442845, "train/extr_return_normed_mean": 0.7649817168712616, "train/extr_return_normed_min": -0.40149325686221954, "train/extr_return_normed_std": 0.3094799071550369, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 640.1445744832357, "train/extr_return_raw_max": 640.1445744832357, "train/extr_return_raw_mean": 608.3980954488119, "train/extr_return_raw_min": 457.48532740275067, "train/extr_return_raw_std": 40.06749025980631, "train/extr_reward_mag": 2.0012851655483246, "train/extr_reward_max": 2.0012851655483246, "train/extr_reward_mean": 1.431708072622617, "train/extr_reward_min": 0.000729036827882131, "train/extr_reward_std": 0.6761124680439631, "train/image_loss_mean": 0.6843976738552252, "train/image_loss_std": 0.7582236745705208, "train/model_loss_mean": 2.415289814273516, "train/model_loss_std": 3.5585402896006904, "train/model_opt_grad_norm": 10.496973156929016, "train/model_opt_grad_steps": 32935.0, "train/model_opt_loss": 12076.449035644531, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.934368334710598, "train/policy_entropy_max": 0.7974006508787473, "train/policy_entropy_mean": -0.8254192247986794, "train/policy_entropy_min": -0.8828961898883184, "train/policy_entropy_std": 0.15048735891468823, "train/policy_logprob_mag": 7.1529243389765425, "train/policy_logprob_max": 1.3824557935198147, "train/policy_logprob_mean": 0.8257169698675474, "train/policy_logprob_min": -7.1529243389765425, "train/policy_logprob_std": 0.724907323718071, "train/policy_randomness_mag": 0.7300695106387138, "train/policy_randomness_max": 0.7300695106387138, "train/policy_randomness_mean": 0.02528785033306728, "train/policy_randomness_min": 0.0003259021674845523, "train/policy_randomness_std": 0.06535582679013412, "train/post_ent_mag": 47.94402289390564, "train/post_ent_max": 47.94402289390564, "train/post_ent_mean": 40.31065511703491, "train/post_ent_min": 18.36676436662674, "train/post_ent_std": 4.676371157169342, "train/prior_ent_mag": 58.67989389101664, "train/prior_ent_max": 58.67989389101664, "train/prior_ent_mean": 42.22711674372355, "train/prior_ent_min": 26.263510823249817, "train/prior_ent_std": 4.07485556602478, "train/rep_loss_mean": 2.1594210043549538, "train/rep_loss_std": 4.8968288252751035, "train/reward_avg": 1.4342720657587051, "train/reward_loss_mean": 0.4352395335833232, "train/reward_loss_std": 0.2254654256006082, "train/reward_max_data": 1.9989946708083153, "train/reward_max_pred": 1.9988744457562764, "train/reward_neg_acc": 0.9352216546734174, "train/reward_neg_loss": 0.4552227643628915, "train/reward_pos_acc": 0.998770950982968, "train/reward_pos_loss": 0.4341391573349635, "train/reward_pred": 1.4326221843560536, "train/reward_rate": 0.9304402669270834, "replay/size": 67449.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.343270738246077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0664117033198727e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06027603149414, "timer/env.step_count": 236.0, "timer/env.step_total": 5.635788679122925, "timer/env.step_frac": 0.01878218854444897, "timer/env.step_avg": 0.023880460504758155, "timer/env.step_min": 0.019709110260009766, "timer/env.step_max": 0.029003620147705078, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1872694492340088, "timer/replay.add_frac": 0.0006241061019831665, "timer/replay.add_avg": 0.0001983786538495856, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.002622842788696289, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017177104949951172, "timer/logger.write_frac": 5.724551472500903e-05, "timer/logger.write_avg": 0.017177104949951172, "timer/logger.write_min": 0.017177104949951172, "timer/logger.write_max": 0.017177104949951172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018906593322753906, "timer/checkpoint.save_frac": 6.300931790374505e-07, "timer/checkpoint.save_avg": 0.00018906593322753906, "timer/checkpoint.save_min": 0.00018906593322753906, "timer/checkpoint.save_max": 0.00018906593322753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07161116600036621, "timer/agent.save_frac": 0.0002386559358921937, "timer/agent.save_avg": 0.07161116600036621, "timer/agent.save_min": 0.07161116600036621, "timer/agent.save_max": 0.07161116600036621, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001347064971923828, "timer/replay.save_frac": 4.489314579522819e-07, "timer/replay.save_avg": 0.0001347064971923828, "timer/replay.save_min": 0.0001347064971923828, "timer/replay.save_max": 0.0001347064971923828, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7552549839019775, "timer/agent.policy_frac": 0.002517010894913349, "timer/agent.policy_avg": 0.003200232982635498, "timer/agent.policy_min": 0.0027146339416503906, "timer/agent.policy_max": 0.04529213905334473, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03531002998352051, "timer/dataset_frac": 0.00011767645637909894, "timer/dataset_avg": 7.480938555830616e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.17672657966614, "timer/agent.train_frac": 0.9770594443794169, "timer/agent.train_avg": 0.6211371325840385, "timer/agent.train_min": 0.5692057609558105, "timer/agent.train_max": 0.6605713367462158, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1555650234222412, "timer/agent.report_frac": 0.0005184459118670983, "timer/agent.report_avg": 0.1555650234222412, "timer/agent.report_min": 0.1555650234222412, "timer/agent.report_max": 0.1555650234222412, "fps": 6.292039463352249}
+{"step": 136272, "episode/length": 500.0, "episode/score": 989.4816675186157, "episode/sum_abs_reward": 989.4816675186157, "episode/reward_rate": 0.998003992015968}
+{"step": 137290, "train/action_mag": 1.7735912038924846, "train/action_max": 1.7517434612233589, "train/action_mean": 0.04059550369733033, "train/action_min": -1.4391132948246408, "train/action_std": 0.5117940972460077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08598460768290023, "train/actor_opt_grad_steps": 33440.0, "train/actor_opt_loss": -24.528404012639474, "train/adv_mag": 0.6928822062116988, "train/adv_max": 0.648808091561845, "train/adv_mean": 0.0027330081003960815, "train/adv_min": -0.3874194213050477, "train/adv_std": 0.03491705017996595, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.547179217086933e-10, "train/cont_loss_std": 8.80355622916251e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.547179217086933e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1894740982258574, "train/dyn_loss_std": 5.065649083320131, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11891917892275973, "train/extr_critic_critic_opt_grad_steps": 33440.0, "train/extr_critic_critic_opt_loss": 6195.39351832613, "train/extr_critic_mag": 643.0678451213431, "train/extr_critic_max": 643.0678451213431, "train/extr_critic_mean": 607.4121145694813, "train/extr_critic_min": 431.5791473388672, "train/extr_critic_std": 41.18285459153196, "train/extr_return_normed_mag": 1.017557291274375, "train/extr_return_normed_max": 1.0124920175430623, "train/extr_return_normed_mean": 0.7452520157428498, "train/extr_return_normed_min": -0.35186476485328155, "train/extr_return_normed_std": 0.3218507620882481, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 641.9484071122839, "train/extr_return_raw_max": 641.9484071122839, "train/extr_return_raw_mean": 607.7594734354223, "train/extr_return_raw_min": 467.18286392536567, "train/extr_return_raw_std": 41.22474471558916, "train/extr_reward_mag": 2.00124450947376, "train/extr_reward_max": 2.00124450947376, "train/extr_reward_mean": 1.4156270052524322, "train/extr_reward_min": 0.000755660077358814, "train/extr_reward_std": 0.6795621704547963, "train/image_loss_mean": 0.6954675608492912, "train/image_loss_std": 0.8229043572507007, "train/model_loss_mean": 2.4507799351468997, "train/model_loss_std": 3.7152891260512333, "train/model_opt_grad_norm": 11.667329778062536, "train/model_opt_grad_steps": 33409.89361702128, "train/model_opt_loss": 15082.473965259309, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 6170.212765957447, "train/policy_entropy_mag": 0.9033610782724746, "train/policy_entropy_max": 0.669826328754425, "train/policy_entropy_mean": -0.8245305964287292, "train/policy_entropy_min": -0.8829453067576631, "train/policy_entropy_std": 0.14614753052592278, "train/policy_logprob_mag": 7.262545747959868, "train/policy_logprob_max": 1.3825455472824422, "train/policy_logprob_mean": 0.825620875713673, "train/policy_logprob_min": -7.262545747959868, "train/policy_logprob_std": 0.7239259303884303, "train/policy_randomness_mag": 0.6746646952121815, "train/policy_randomness_max": 0.6746646952121815, "train/policy_randomness_mean": 0.025673776260636588, "train/policy_randomness_min": 0.0003045709801223525, "train/policy_randomness_std": 0.06347106405078097, "train/post_ent_mag": 47.87296717217628, "train/post_ent_max": 47.87296717217628, "train/post_ent_mean": 40.25681434793675, "train/post_ent_min": 18.238171151343813, "train/post_ent_std": 4.7519271982477065, "train/prior_ent_mag": 58.827671213352936, "train/prior_ent_max": 58.827671213352936, "train/prior_ent_mean": 42.184153455369014, "train/prior_ent_min": 26.68745191046532, "train/prior_ent_std": 4.102445059634269, "train/rep_loss_mean": 2.1894740982258574, "train/rep_loss_std": 5.065649083320131, "train/reward_avg": 1.4183671094001609, "train/reward_loss_mean": 0.4416279266489313, "train/reward_loss_std": 0.2287452312860083, "train/reward_max_data": 1.9992044504652633, "train/reward_max_pred": 1.9988347976765735, "train/reward_neg_acc": 0.9300330014939003, "train/reward_neg_loss": 0.457472434069248, "train/reward_pos_acc": 0.9987112588070809, "train/reward_pos_loss": 0.4406718782922055, "train/reward_pred": 1.4166437565012182, "train/reward_rate": 0.929936835106383, "stats/mean_log_entropy": -0.8710806369781494, "replay/size": 68393.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3329156940266236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0685900510367702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19332790374756, "timer/env.step_count": 236.0, "timer/env.step_total": 5.71338677406311, "timer/env.step_frac": 0.01903235762753202, "timer/env.step_avg": 0.02420926599179284, "timer/env.step_min": 0.020067453384399414, "timer/env.step_max": 0.028978586196899414, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18430423736572266, "timer/replay.add_frac": 0.0006139518111635613, "timer/replay.add_avg": 0.0001952375395823333, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0007207393646240234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02015995979309082, "timer/logger.write_frac": 6.715658850204295e-05, "timer/logger.write_avg": 0.02015995979309082, "timer/logger.write_min": 0.02015995979309082, "timer/logger.write_max": 0.02015995979309082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7132344245910645, "timer/agent.policy_frac": 0.002375916978473793, "timer/agent.policy_avg": 0.003022179765216375, "timer/agent.policy_min": 0.0027170181274414062, "timer/agent.policy_max": 0.0045621395111083984, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03532218933105469, "timer/dataset_frac": 0.00011766480480332399, "timer/dataset_avg": 7.483514688782773e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.2639150619507, "timer/agent.train_frac": 0.9769168325952311, "timer/agent.train_avg": 0.6213218539448108, "timer/agent.train_min": 0.5695478916168213, "timer/agent.train_max": 0.6611096858978271, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1444864273071289, "timer/agent.report_frac": 0.0004813112547040229, "timer/agent.report_avg": 0.1444864273071289, "timer/agent.report_min": 0.1444864273071289, "timer/agent.report_max": 0.1444864273071289, "fps": 6.289210994848781}
+{"step": 139178, "train/action_mag": 1.728601316188244, "train/action_max": 1.7071368770396456, "train/action_mean": 0.026099901149752847, "train/action_min": -1.4463570625224011, "train/action_std": 0.4934869795403582, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10467654664782768, "train/actor_opt_grad_steps": 33910.0, "train/actor_opt_loss": -24.439860582351685, "train/adv_mag": 0.880362683154167, "train/adv_max": 0.8358288261484592, "train/adv_mean": 0.002726686689129565, "train/adv_min": -0.44015251258586313, "train/adv_std": 0.031582706905108816, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.5946290389363874e-10, "train/cont_loss_std": 8.509704926533737e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.5946290389363874e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1421031216357616, "train/dyn_loss_std": 4.9056269919618645, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10404982540677203, "train/extr_critic_critic_opt_grad_steps": 33910.0, "train/extr_critic_critic_opt_loss": 6236.072260430518, "train/extr_critic_mag": 645.3597477040393, "train/extr_critic_max": 645.3597477040393, "train/extr_critic_mean": 610.2014653631982, "train/extr_critic_min": 427.5541820120304, "train/extr_critic_std": 42.31219129359469, "train/extr_return_normed_mag": 1.0254254797671705, "train/extr_return_normed_max": 1.0141611276788915, "train/extr_return_normed_mean": 0.7649600759465643, "train/extr_return_normed_min": -0.38073933909231045, "train/extr_return_normed_std": 0.31739347190298933, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 643.96495672997, "train/extr_return_raw_max": 643.96495672997, "train/extr_return_raw_mean": 610.5695008622839, "train/extr_return_raw_min": 457.1014845827793, "train/extr_return_raw_std": 42.46937731479077, "train/extr_reward_mag": 2.001180577785411, "train/extr_reward_max": 2.001180577785411, "train/extr_reward_mean": 1.4751972213704536, "train/extr_reward_min": 0.0007223575673204788, "train/extr_reward_std": 0.6488398237431303, "train/image_loss_mean": 0.6747456345152347, "train/image_loss_std": 0.799507033317647, "train/model_loss_mean": 2.388195808897627, "train/model_loss_std": 3.596897617299506, "train/model_opt_grad_norm": 11.82914504599064, "train/model_opt_grad_steps": 33879.0, "train/model_opt_loss": 11940.979014295213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.8976714433507716, "train/policy_entropy_max": 0.6784383819458333, "train/policy_entropy_mean": -0.8311814488248622, "train/policy_entropy_min": -0.8829518860958993, "train/policy_entropy_std": 0.13593392430784854, "train/policy_logprob_mag": 6.994081669665397, "train/policy_logprob_max": 1.3826197461879, "train/policy_logprob_mean": 0.8313967357290551, "train/policy_logprob_min": -6.994081669665397, "train/policy_logprob_std": 0.7217877862301278, "train/policy_randomness_mag": 0.678404856235423, "train/policy_randomness_max": 0.678404856235423, "train/policy_randomness_mean": 0.0227853503434899, "train/policy_randomness_min": 0.00030171361434808434, "train/policy_randomness_std": 0.0590353510639769, "train/post_ent_mag": 48.13219963236058, "train/post_ent_max": 48.13219963236058, "train/post_ent_mean": 40.54567742854991, "train/post_ent_min": 18.058053199281083, "train/post_ent_std": 4.487223888965363, "train/prior_ent_mag": 58.67088780504592, "train/prior_ent_max": 58.67088780504592, "train/prior_ent_mean": 42.428501778460564, "train/prior_ent_min": 27.49570558426228, "train/prior_ent_std": 3.8349116761633693, "train/rep_loss_mean": 2.1421031216357616, "train/rep_loss_std": 4.9056269919618645, "train/reward_avg": 1.4800395737303065, "train/reward_loss_mean": 0.4281882814904477, "train/reward_loss_std": 0.22477644998976526, "train/reward_max_data": 1.9993490995244776, "train/reward_max_pred": 1.9991239841948165, "train/reward_neg_acc": 0.9189580602848784, "train/reward_neg_loss": 0.47366541433841625, "train/reward_pos_acc": 0.9991721269932199, "train/reward_pos_loss": 0.4257977097592455, "train/reward_pred": 1.4783561686252027, "train/reward_rate": 0.940679022606383, "replay/size": 69337.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.317004284616244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0776822849855584e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.576801776886, "timer/env.step_count": 236.0, "timer/env.step_total": 5.673704385757446, "timer/env.step_frac": 0.018876055478057017, "timer/env.step_avg": 0.024041120278633248, "timer/env.step_min": 0.019249916076660156, "timer/env.step_max": 0.028438806533813477, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18308472633361816, "timer/replay.add_frac": 0.0006091112995124602, "timer/replay.add_avg": 0.00019394568467544297, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0009913444519042969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0187528133392334, "timer/logger.write_frac": 6.238942336326192e-05, "timer/logger.write_avg": 0.0187528133392334, "timer/logger.write_min": 0.0187528133392334, "timer/logger.write_max": 0.0187528133392334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.711024284362793, "timer/agent.policy_frac": 0.0023655328027961933, "timer/agent.policy_avg": 0.0030128147642491227, "timer/agent.policy_min": 0.0026903152465820312, "timer/agent.policy_max": 0.003778219223022461, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03516197204589844, "timer/dataset_frac": 0.00011698165606272797, "timer/dataset_avg": 7.449570348707295e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00015401840209960938, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.71035599708557, "timer/agent.train_frac": 0.9771557693767157, "timer/agent.train_avg": 0.6222677033836559, "timer/agent.train_min": 0.5738413333892822, "timer/agent.train_max": 0.6619293689727783, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1493685245513916, "timer/agent.report_frac": 0.00049693962963338, "timer/agent.report_avg": 0.1493685245513916, "timer/agent.report_min": 0.1493685245513916, "timer/agent.report_max": 0.1493685245513916, "fps": 6.2811951520489755}
+{"step": 140280, "episode/length": 500.0, "episode/score": 993.9220321178436, "episode/sum_abs_reward": 993.9220321178436, "episode/reward_rate": 0.998003992015968}
+{"step": 141066, "train/action_mag": 1.7748218343612996, "train/action_max": 1.7491583037883678, "train/action_mean": 0.035440076878195274, "train/action_min": -1.458199511183069, "train/action_std": 0.5084963878418537, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.15416207687651856, "train/actor_opt_grad_steps": 34380.0, "train/actor_opt_loss": -32.517611523892015, "train/adv_mag": 1.2461031269519887, "train/adv_max": 1.2202725156824639, "train/adv_mean": 0.0035484624231491794, "train/adv_min": -0.5246794356944713, "train/adv_std": 0.03700987812369428, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.627144813878929e-10, "train/cont_loss_std": 1.001259098090974e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.627144813878929e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.157462368620203, "train/dyn_loss_std": 4.966407299041748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11550584934810375, "train/extr_critic_critic_opt_grad_steps": 34380.0, "train/extr_critic_critic_opt_loss": 6878.165703956117, "train/extr_critic_mag": 648.0927734375, "train/extr_critic_max": 648.0927734375, "train/extr_critic_mean": 611.6078932741855, "train/extr_critic_min": 405.01219404504656, "train/extr_critic_std": 40.2778523221929, "train/extr_return_normed_mag": 1.0760769438236317, "train/extr_return_normed_max": 1.0147869155762044, "train/extr_return_normed_mean": 0.7528488813562596, "train/extr_return_normed_min": -0.45401338871291025, "train/extr_return_normed_std": 0.31073092621691684, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 646.0720305747175, "train/extr_return_raw_max": 646.0720305747175, "train/extr_return_raw_mean": 612.068055497839, "train/extr_return_raw_min": 455.1337072494182, "train/extr_return_raw_std": 40.32657132250198, "train/extr_reward_mag": 2.001003752363489, "train/extr_reward_max": 2.001003752363489, "train/extr_reward_mean": 1.452744116174414, "train/extr_reward_min": 0.0007055236938151907, "train/extr_reward_std": 0.6549146448044066, "train/image_loss_mean": 0.6819929956121648, "train/image_loss_std": 0.7962796104715225, "train/model_loss_mean": 2.408920562013667, "train/model_loss_std": 3.6311574438784984, "train/model_opt_grad_norm": 10.76151593188022, "train/model_opt_grad_steps": 34349.0, "train/model_opt_loss": 12044.602809175532, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9147666426415139, "train/policy_entropy_max": 0.7742248469210685, "train/policy_entropy_mean": -0.8278431182212018, "train/policy_entropy_min": -0.8829676065039127, "train/policy_entropy_std": 0.14330017812391546, "train/policy_logprob_mag": 6.966602173257382, "train/policy_logprob_max": 1.3825154989323718, "train/policy_logprob_mean": 0.8272956216588934, "train/policy_logprob_min": -6.966602173257382, "train/policy_logprob_std": 0.7244159046639788, "train/policy_randomness_mag": 0.7200043911629534, "train/policy_randomness_max": 0.7200043911629534, "train/policy_randomness_mean": 0.024235165103318843, "train/policy_randomness_min": 0.00029488632788614153, "train/policy_randomness_std": 0.062234473910103456, "train/post_ent_mag": 47.91628525104929, "train/post_ent_max": 47.91628525104929, "train/post_ent_mean": 40.5887988476043, "train/post_ent_min": 18.657139067954205, "train/post_ent_std": 4.469627765899009, "train/prior_ent_mag": 58.839051672752866, "train/prior_ent_max": 58.839051672752866, "train/prior_ent_mean": 42.47605327849693, "train/prior_ent_min": 27.63530430895217, "train/prior_ent_std": 3.829801706557578, "train/rep_loss_mean": 2.157462368620203, "train/rep_loss_std": 4.966407299041748, "train/reward_avg": 1.4620726362187813, "train/reward_loss_mean": 0.43245018416262687, "train/reward_loss_std": 0.22128350303528158, "train/reward_max_data": 1.9993965296035117, "train/reward_max_pred": 1.9993739229567506, "train/reward_neg_acc": 0.9367200947822408, "train/reward_neg_loss": 0.4616600902790719, "train/reward_pos_acc": 0.9989462139758658, "train/reward_pos_loss": 0.4310892788653678, "train/reward_pred": 1.4607364015376314, "train/reward_rate": 0.9385181183510638, "stats/mean_log_entropy": -0.8716076165437698, "replay/size": 70281.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.333673380189023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0807445998919212e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16840267181396, "timer/env.step_count": 236.0, "timer/env.step_total": 5.697761297225952, "timer/env.step_frac": 0.01898188232508783, "timer/env.step_avg": 0.024143056344177762, "timer/env.step_min": 0.020285844802856445, "timer/env.step_max": 0.030168533325195312, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1893784999847412, "timer/replay.add_frac": 0.0006309075115804119, "timer/replay.add_avg": 0.0002006128177804462, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.001988649368286133, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02852630615234375, "timer/logger.write_frac": 9.503434038502945e-05, "timer/logger.write_avg": 0.02852630615234375, "timer/logger.write_min": 0.02852630615234375, "timer/logger.write_max": 0.02852630615234375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00015425682067871094, "timer/checkpoint.save_frac": 5.139009279646467e-07, "timer/checkpoint.save_avg": 0.00015425682067871094, "timer/checkpoint.save_min": 0.00015425682067871094, "timer/checkpoint.save_max": 0.00015425682067871094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07599973678588867, "timer/agent.save_frac": 0.00025319032952639655, "timer/agent.save_avg": 0.07599973678588867, "timer/agent.save_min": 0.07599973678588867, "timer/agent.save_max": 0.07599973678588867, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.34600830078125e-05, "timer/replay.save_frac": 3.113588311625062e-07, "timer/replay.save_avg": 9.34600830078125e-05, "timer/replay.save_min": 9.34600830078125e-05, "timer/replay.save_max": 9.34600830078125e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7546250820159912, "timer/agent.policy_frac": 0.0025140057224512496, "timer/agent.policy_avg": 0.0031975639068474206, "timer/agent.policy_min": 0.0027132034301757812, "timer/agent.policy_max": 0.048375606536865234, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035149574279785156, "timer/dataset_frac": 0.0001170995146954744, "timer/dataset_avg": 7.446943703344313e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.2020597457886, "timer/agent.train_frac": 0.9767918846087142, "timer/agent.train_avg": 0.6211908045461623, "timer/agent.train_min": 0.569857120513916, "timer/agent.train_max": 0.6679568290710449, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15238380432128906, "timer/agent.report_frac": 0.0005076610428176757, "timer/agent.report_avg": 0.15238380432128906, "timer/agent.report_min": 0.15238380432128906, "timer/agent.report_max": 0.15238380432128906, "fps": 6.289733309341387}
+{"step": 142954, "train/action_mag": 1.8391810833139624, "train/action_max": 1.822850136046714, "train/action_mean": 0.04464291579070243, "train/action_min": -1.4844464697736375, "train/action_std": 0.5272226574573111, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.14319051659487664, "train/actor_opt_grad_steps": 34850.0, "train/actor_opt_loss": -37.39065139851672, "train/adv_mag": 1.5254926998564537, "train/adv_max": 1.5122518488701353, "train/adv_mean": 0.004037353825047018, "train/adv_min": -0.4779877485112941, "train/adv_std": 0.03858006040149547, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.6162112725725626e-10, "train/cont_loss_std": 1.066667376766065e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.6162112725725626e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1775191388231643, "train/dyn_loss_std": 5.027254337960101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.12420204773228219, "train/extr_critic_critic_opt_grad_steps": 34850.0, "train/extr_critic_critic_opt_loss": 7504.912285987367, "train/extr_critic_mag": 649.9411906790226, "train/extr_critic_max": 649.9411906790226, "train/extr_critic_mean": 610.7505363302027, "train/extr_critic_min": 377.7639137430394, "train/extr_critic_std": 44.489052305830285, "train/extr_return_normed_mag": 1.057281032521674, "train/extr_return_normed_max": 1.0139719171726957, "train/extr_return_normed_mean": 0.7370811041365278, "train/extr_return_normed_min": -0.5151935697711528, "train/extr_return_normed_std": 0.336314154432175, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 647.8906379862035, "train/extr_return_raw_max": 647.8906379862035, "train/extr_return_raw_mean": 611.2831628677693, "train/extr_return_raw_min": 445.9934919641373, "train/extr_return_raw_std": 44.448804206036506, "train/extr_reward_mag": 2.0008162944874863, "train/extr_reward_max": 2.0008162944874863, "train/extr_reward_mean": 1.4307688461973311, "train/extr_reward_min": 0.0007103580109616543, "train/extr_reward_std": 0.6684773183883504, "train/image_loss_mean": 0.6775693183249616, "train/image_loss_std": 0.828552745758219, "train/model_loss_mean": 2.4172151595988174, "train/model_loss_std": 3.708151939067435, "train/model_opt_grad_norm": 10.994162742127763, "train/model_opt_grad_steps": 34818.04255319149, "train/model_opt_loss": 12427.250020777925, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5106.382978723404, "train/policy_entropy_mag": 0.9204593097909968, "train/policy_entropy_max": 0.8356760930507741, "train/policy_entropy_mean": -0.8175873718363174, "train/policy_entropy_min": -0.8829862031530826, "train/policy_entropy_std": 0.1630791874325022, "train/policy_logprob_mag": 7.3819669155364345, "train/policy_logprob_max": 1.3825179389182558, "train/policy_logprob_mean": 0.8162169951073667, "train/policy_logprob_min": -7.3819669155364345, "train/policy_logprob_std": 0.7284886722869062, "train/policy_randomness_mag": 0.7466923290110649, "train/policy_randomness_max": 0.7466923290110649, "train/policy_randomness_mean": 0.028689178420191117, "train/policy_randomness_min": 0.00028680990378253477, "train/policy_randomness_std": 0.0708243884542521, "train/post_ent_mag": 47.72722771827211, "train/post_ent_max": 47.72722771827211, "train/post_ent_mean": 40.480151318489234, "train/post_ent_min": 18.004560572035768, "train/post_ent_std": 4.509804578537636, "train/prior_ent_mag": 58.85697433796335, "train/prior_ent_max": 58.85697433796335, "train/prior_ent_mean": 42.390730675230635, "train/prior_ent_min": 27.25961985486619, "train/prior_ent_std": 3.8605113384571483, "train/rep_loss_mean": 2.1775191388231643, "train/rep_loss_std": 5.027254337960101, "train/reward_avg": 1.444614922746699, "train/reward_loss_mean": 0.4331343376890142, "train/reward_loss_std": 0.23229473004949855, "train/reward_max_data": 1.999374082747926, "train/reward_max_pred": 1.9989974143657279, "train/reward_neg_acc": 0.9321585855585464, "train/reward_neg_loss": 0.46005714890804694, "train/reward_pos_acc": 0.9988551317377293, "train/reward_pos_loss": 0.43160255792293145, "train/reward_pred": 1.4433783635180046, "train/reward_rate": 0.9353806515957447, "replay/size": 71225.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.295789072069071e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.071904927997266e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33526253700256, "timer/env.step_count": 236.0, "timer/env.step_total": 5.687469482421875, "timer/env.step_frac": 0.01893706864248468, "timer/env.step_avg": 0.024099446959414725, "timer/env.step_min": 0.020355224609375, "timer/env.step_max": 0.033652544021606445, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18336272239685059, "timer/replay.add_frac": 0.000610526785459498, "timer/replay.add_avg": 0.00019424017203056206, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0025262832641601562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020177125930786133, "timer/logger.write_frac": 6.718200773477348e-05, "timer/logger.write_avg": 0.020177125930786133, "timer/logger.write_min": 0.020177125930786133, "timer/logger.write_max": 0.020177125930786133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7072362899780273, "timer/agent.policy_frac": 0.00235482268716579, "timer/agent.policy_avg": 0.0029967639405848617, "timer/agent.policy_min": 0.0027115345001220703, "timer/agent.policy_max": 0.00448298454284668, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035066843032836914, "timer/dataset_frac": 0.00011675899372128017, "timer/dataset_avg": 7.429415896787482e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00015425682067871094, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.4521918296814, "timer/agent.train_frac": 0.977082042750564, "timer/agent.train_avg": 0.6217207454018674, "timer/agent.train_min": 0.5703537464141846, "timer/agent.train_max": 0.66233229637146, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15372443199157715, "timer/agent.report_frac": 0.0005118427676225253, "timer/agent.report_avg": 0.15372443199157715, "timer/agent.report_min": 0.15372443199157715, "timer/agent.report_max": 0.15372443199157715, "fps": 6.286245682889983}
+{"step": 144288, "episode/length": 500.0, "episode/score": 991.2055585384369, "episode/sum_abs_reward": 991.2055585384369, "episode/reward_rate": 0.998003992015968}
+{"step": 144838, "train/action_mag": 1.8605336844921112, "train/action_max": 1.8401140098770459, "train/action_mean": 0.048579330493036345, "train/action_min": -1.4416149308284123, "train/action_std": 0.5225313349316517, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.15761751805742583, "train/actor_opt_grad_steps": 35325.0, "train/actor_opt_loss": -29.47242557009061, "train/adv_mag": 1.0933705052981775, "train/adv_max": 1.0848813882718484, "train/adv_mean": 0.0032341367163060872, "train/adv_min": -0.36961783561855555, "train/adv_std": 0.032279353317183755, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.563460882326768e-10, "train/cont_loss_std": 8.49502784089351e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.563460882326768e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.1271400401989617, "train/dyn_loss_std": 4.915837585926056, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11568446853198111, "train/extr_critic_critic_opt_grad_steps": 35325.0, "train/extr_critic_critic_opt_loss": 7794.8439534505205, "train/extr_critic_mag": 652.5195248921713, "train/extr_critic_max": 652.5195248921713, "train/extr_critic_mean": 613.6755460103353, "train/extr_critic_min": 415.0644241968791, "train/extr_critic_std": 45.081600745519005, "train/extr_return_normed_mag": 1.0163614153862, "train/extr_return_normed_max": 1.0162639617919922, "train/extr_return_normed_mean": 0.7544416412711143, "train/extr_return_normed_min": -0.379842525968949, "train/extr_return_normed_std": 0.329663432824115, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 650.0019709269205, "train/extr_return_raw_max": 650.0019709269205, "train/extr_return_raw_mean": 614.1159159342448, "train/extr_return_raw_min": 458.64393107096356, "train/extr_return_raw_std": 45.21550099054972, "train/extr_reward_mag": 2.000941271583239, "train/extr_reward_max": 2.000941271583239, "train/extr_reward_mean": 1.4493114203214645, "train/extr_reward_min": 0.000645016630490621, "train/extr_reward_std": 0.6718201873203119, "train/image_loss_mean": 0.6633346180121104, "train/image_loss_std": 0.7843746319413185, "train/model_loss_mean": 2.368266982336839, "train/model_loss_std": 3.591587165991465, "train/model_opt_grad_norm": 10.775529404481253, "train/model_opt_grad_steps": 35293.0, "train/model_opt_loss": 11841.334879557291, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9262940051654974, "train/policy_entropy_max": 0.8456870354712009, "train/policy_entropy_mean": -0.8216158275802931, "train/policy_entropy_min": -0.8830528606971105, "train/policy_entropy_std": 0.1571763463628789, "train/policy_logprob_mag": 7.3384338319301605, "train/policy_logprob_max": 1.3825871671239536, "train/policy_logprob_mean": 0.8215572858850161, "train/policy_logprob_min": -7.3384338319301605, "train/policy_logprob_std": 0.7272248963514963, "train/policy_randomness_mag": 0.7510400215784708, "train/policy_randomness_max": 0.7510400215784708, "train/policy_randomness_mean": 0.02693964368275677, "train/policy_randomness_min": 0.0002578609031237041, "train/policy_randomness_std": 0.06826081763332088, "train/post_ent_mag": 48.022154092788696, "train/post_ent_max": 48.022154092788696, "train/post_ent_mean": 40.49871373176575, "train/post_ent_min": 18.460646629333496, "train/post_ent_std": 4.499500731627147, "train/prior_ent_mag": 58.80668576558431, "train/prior_ent_max": 58.80668576558431, "train/prior_ent_mean": 42.33909376462301, "train/prior_ent_min": 27.735632578531902, "train/prior_ent_std": 3.923864702383677, "train/rep_loss_mean": 2.1271400401989617, "train/rep_loss_std": 4.915837585926056, "train/reward_avg": 1.4575581178069115, "train/reward_loss_mean": 0.42864832654595375, "train/reward_loss_std": 0.22427086314807335, "train/reward_max_data": 1.9990810304880142, "train/reward_max_pred": 1.9991160929203033, "train/reward_neg_acc": 0.9203490341703097, "train/reward_neg_loss": 0.47544337436556816, "train/reward_pos_acc": 0.9990257521470388, "train/reward_pos_loss": 0.42573465531071025, "train/reward_pred": 1.4561543837189674, "train/reward_rate": 0.9326171875, "stats/mean_log_entropy": -0.8705097585916519, "replay/size": 72167.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.289273936277742e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.08370355739715e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17544746398926, "timer/env.step_count": 235.0, "timer/env.step_total": 5.654293775558472, "timer/env.step_frac": 0.01883662978877309, "timer/env.step_avg": 0.02406082457684456, "timer/env.step_min": 0.02074885368347168, "timer/env.step_max": 0.02905750274658203, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18032288551330566, "timer/replay.add_frac": 0.000600724966138139, "timer/replay.add_avg": 0.00019142556848546248, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0014946460723876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020441055297851562, "timer/logger.write_frac": 6.809702615768996e-05, "timer/logger.write_avg": 0.020441055297851562, "timer/logger.write_min": 0.020441055297851562, "timer/logger.write_max": 0.020441055297851562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.704460620880127, "timer/agent.policy_frac": 0.0023468295852699214, "timer/agent.policy_avg": 0.002997704769702668, "timer/agent.policy_min": 0.0027472972869873047, "timer/agent.policy_max": 0.0034847259521484375, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03485393524169922, "timer/dataset_frac": 0.00011611187902328519, "timer/dataset_avg": 7.399986250891553e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.31865310668945, "timer/agent.train_frac": 0.9771573777428203, "timer/agent.train_avg": 0.6227572252795954, "timer/agent.train_min": 0.5707743167877197, "timer/agent.train_max": 0.6659688949584961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15157794952392578, "timer/agent.report_frac": 0.000504964515934002, "timer/agent.report_avg": 0.15157794952392578, "timer/agent.report_min": 0.15157794952392578, "timer/agent.report_max": 0.15157794952392578, "fps": 6.276266944286101}
+{"step": 146726, "train/action_mag": 1.7977680145426, "train/action_max": 1.7918847241300218, "train/action_mean": 0.03026090070922324, "train/action_min": -1.4311103998346533, "train/action_std": 0.5071012555284703, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.18763582963258663, "train/actor_opt_grad_steps": 35800.0, "train/actor_opt_loss": -24.25244247089041, "train/adv_mag": 0.931687352505136, "train/adv_max": 0.9170412960204672, "train/adv_mean": 0.0027083635395683814, "train/adv_min": -0.3955465143031262, "train/adv_std": 0.0328613013583929, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.511472779280451e-10, "train/cont_loss_std": 9.78580058593535e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.511472779280451e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0987546139575066, "train/dyn_loss_std": 4.846622664877709, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10630142799717315, "train/extr_critic_critic_opt_grad_steps": 35800.0, "train/extr_critic_critic_opt_loss": 8104.740878490691, "train/extr_critic_mag": 654.4464137300532, "train/extr_critic_max": 654.4464137300532, "train/extr_critic_mean": 617.7402876184342, "train/extr_critic_min": 419.8698227253366, "train/extr_critic_std": 41.19844075466724, "train/extr_return_normed_mag": 1.0423004043863175, "train/extr_return_normed_max": 1.0181979118509497, "train/extr_return_normed_mean": 0.7705050237635349, "train/extr_return_normed_min": -0.35596568811130014, "train/extr_return_normed_std": 0.3063344476704902, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 651.5443972323803, "train/extr_return_raw_max": 651.5443972323803, "train/extr_return_raw_mean": 618.1051843521443, "train/extr_return_raw_min": 466.2976314463514, "train/extr_return_raw_std": 41.32895575178431, "train/extr_reward_mag": 2.001205028371608, "train/extr_reward_max": 2.001205028371608, "train/extr_reward_mean": 1.485173763112819, "train/extr_reward_min": 0.0006732763128077731, "train/extr_reward_std": 0.6462390752548867, "train/image_loss_mean": 0.648809922502396, "train/image_loss_std": 0.7400212224493635, "train/model_loss_mean": 2.3267782089558056, "train/model_loss_std": 3.5114157960769976, "train/model_opt_grad_norm": 11.99420865038608, "train/model_opt_grad_steps": 35767.765957446805, "train/model_opt_loss": 18922.424368351065, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 8085.106382978724, "train/policy_entropy_mag": 0.948316513223851, "train/policy_entropy_max": 0.8480158663810567, "train/policy_entropy_mean": -0.8297046258094463, "train/policy_entropy_min": -0.8830616448787932, "train/policy_entropy_std": 0.1426952376644662, "train/policy_logprob_mag": 7.16132515034777, "train/policy_logprob_max": 1.3825780660548108, "train/policy_logprob_mean": 0.8298284246566447, "train/policy_logprob_min": -7.16132515034777, "train/policy_logprob_std": 0.7227383179867521, "train/policy_randomness_mag": 0.7520514219365222, "train/policy_randomness_max": 0.7520514219365222, "train/policy_randomness_mean": 0.023426720307783245, "train/policy_randomness_min": 0.0002540459805614057, "train/policy_randomness_std": 0.061971751378571735, "train/post_ent_mag": 48.00352624122133, "train/post_ent_max": 48.00352624122133, "train/post_ent_mean": 40.50581051440949, "train/post_ent_min": 18.47672939300537, "train/post_ent_std": 4.371890930419273, "train/prior_ent_mag": 58.91634263383581, "train/prior_ent_max": 58.91634263383581, "train/prior_ent_mean": 42.33348448733066, "train/prior_ent_min": 27.4192935050802, "train/prior_ent_std": 3.8994414451274464, "train/rep_loss_mean": 2.0987546139575066, "train/rep_loss_std": 4.846622664877709, "train/reward_avg": 1.4943265306188704, "train/reward_loss_mean": 0.4187155137670801, "train/reward_loss_std": 0.22858894537103938, "train/reward_max_data": 1.9993746813307418, "train/reward_max_pred": 1.9995204692191266, "train/reward_neg_acc": 0.9220845065218337, "train/reward_neg_loss": 0.47252112753847814, "train/reward_pos_acc": 0.9988523544149196, "train/reward_pos_loss": 0.4162091460633785, "train/reward_pred": 1.4924839075575485, "train/reward_rate": 0.9400972406914894, "replay/size": 73111.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3099325471005196e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.077966417296458e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.48491191864014, "timer/env.step_count": 236.0, "timer/env.step_total": 5.67449951171875, "timer/env.step_frac": 0.0188844740173017, "timer/env.step_avg": 0.02404448945643538, "timer/env.step_min": 0.020256519317626953, "timer/env.step_max": 0.030681371688842773, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18618345260620117, "timer/replay.add_frac": 0.0006196099877940379, "timer/replay.add_avg": 0.00019722823369300972, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.002599477767944336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018850088119506836, "timer/logger.write_frac": 6.273222838094021e-05, "timer/logger.write_avg": 0.018850088119506836, "timer/logger.write_min": 0.018850088119506836, "timer/logger.write_max": 0.018850088119506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002167224884033203, "timer/checkpoint.save_frac": 7.212424977331324e-07, "timer/checkpoint.save_avg": 0.0002167224884033203, "timer/checkpoint.save_min": 0.0002167224884033203, "timer/checkpoint.save_max": 0.0002167224884033203, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1542365550994873, "timer/agent.save_frac": 0.0005132921786810004, "timer/agent.save_avg": 0.1542365550994873, "timer/agent.save_min": 0.1542365550994873, "timer/agent.save_max": 0.1542365550994873, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00014257431030273438, "timer/replay.save_frac": 4.7448076308516303e-07, "timer/replay.save_avg": 0.00014257431030273438, "timer/replay.save_min": 0.00014257431030273438, "timer/replay.save_max": 0.00014257431030273438, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.8319723606109619, "timer/agent.policy_frac": 0.0027687658435117312, "timer/agent.policy_avg": 0.003525306612758313, "timer/agent.policy_min": 0.0027074813842773438, "timer/agent.policy_max": 0.12413573265075684, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03534698486328125, "timer/dataset_frac": 0.00011763314383269889, "timer/dataset_avg": 7.48876797950874e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00018906593322753906, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.4874424934387, "timer/agent.train_frac": 0.9767127428112062, "timer/agent.train_avg": 0.6217954290115227, "timer/agent.train_min": 0.572786808013916, "timer/agent.train_max": 0.6617393493652344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1544020175933838, "timer/agent.report_frac": 0.0005138428302689287, "timer/agent.report_avg": 0.1544020175933838, "timer/agent.report_min": 0.1544020175933838, "timer/agent.report_max": 0.1544020175933838, "fps": 6.283111309350651}
+{"step": 148296, "episode/length": 500.0, "episode/score": 991.2203917503357, "episode/sum_abs_reward": 991.2203917503357, "episode/reward_rate": 0.998003992015968}
+{"step": 148610, "train/action_mag": 1.8027267608236759, "train/action_max": 1.780924157893404, "train/action_mean": 0.04182220496574139, "train/action_min": -1.4724633592240355, "train/action_std": 0.49825180971876104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.19682017507705282, "train/actor_opt_grad_steps": 36270.0, "train/actor_opt_loss": -22.584604618397165, "train/adv_mag": 0.8501905145797324, "train/adv_max": 0.8033386151841346, "train/adv_mean": 0.00253885399511188, "train/adv_min": -0.42229300134993614, "train/adv_std": 0.032273070331900675, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.681494441514206e-10, "train/cont_loss_std": 1.0720399727511843e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.681494441514206e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.083742468915087, "train/dyn_loss_std": 4.78569494409764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.09961003818093463, "train/extr_critic_critic_opt_grad_steps": 36270.0, "train/extr_critic_critic_opt_loss": 8307.073283743352, "train/extr_critic_mag": 656.6243377036237, "train/extr_critic_max": 656.6243377036237, "train/extr_critic_mean": 619.3553051238364, "train/extr_critic_min": 432.23528143700133, "train/extr_critic_std": 40.921899004185455, "train/extr_return_normed_mag": 1.036245696088101, "train/extr_return_normed_max": 1.0241039484105212, "train/extr_return_normed_mean": 0.7696218249645639, "train/extr_return_normed_min": -0.3161999300280784, "train/extr_return_normed_std": 0.3076585832428425, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 653.6247389773105, "train/extr_return_raw_max": 653.6247389773105, "train/extr_return_raw_mean": 619.693784023853, "train/extr_return_raw_min": 474.81271492166724, "train/extr_return_raw_std": 41.02158753415372, "train/extr_reward_mag": 2.001253199070058, "train/extr_reward_max": 2.001253199070058, "train/extr_reward_mean": 1.499673031746073, "train/extr_reward_min": 0.0006218210179755029, "train/extr_reward_std": 0.6378944928341723, "train/image_loss_mean": 0.6355233173421089, "train/image_loss_std": 0.7321123785160958, "train/model_loss_mean": 2.3035549255127603, "train/model_loss_std": 3.4748412954046373, "train/model_opt_grad_norm": 11.807257063845372, "train/model_opt_grad_steps": 36237.0, "train/model_opt_loss": 11517.774580285904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9398710791100847, "train/policy_entropy_max": 0.8333585604708246, "train/policy_entropy_mean": -0.8273741247806143, "train/policy_entropy_min": -0.8830566533068394, "train/policy_entropy_std": 0.14498969857045946, "train/policy_logprob_mag": 7.346912384033203, "train/policy_logprob_max": 1.3826116881472, "train/policy_logprob_mean": 0.8271292650953253, "train/policy_logprob_min": -7.346912384033203, "train/policy_logprob_std": 0.7259750416938294, "train/policy_randomness_mag": 0.7456858341998243, "train/policy_randomness_max": 0.7456858341998243, "train/policy_randomness_mean": 0.024438844805464467, "train/policy_randomness_min": 0.00025621379454412123, "train/policy_randomness_std": 0.06296822321700289, "train/post_ent_mag": 48.36659654657891, "train/post_ent_max": 48.36659654657891, "train/post_ent_mean": 40.593896906426615, "train/post_ent_min": 18.746910237251445, "train/post_ent_std": 4.288403318283406, "train/prior_ent_mag": 58.95846817341257, "train/prior_ent_max": 58.95846817341257, "train/prior_ent_mean": 42.37746323930456, "train/prior_ent_min": 27.914862937115608, "train/prior_ent_std": 3.8342482079850866, "train/rep_loss_mean": 2.083742468915087, "train/rep_loss_std": 4.78569494409764, "train/reward_avg": 1.5042432013978349, "train/reward_loss_mean": 0.4177861169297644, "train/reward_loss_std": 0.22066389182780652, "train/reward_max_data": 1.999400704465014, "train/reward_max_pred": 1.9993098035771797, "train/reward_neg_acc": 0.916692556218898, "train/reward_neg_loss": 0.4789338707923889, "train/reward_pos_acc": 0.9989415052089285, "train/reward_pos_loss": 0.4138719838984469, "train/reward_pred": 1.5033247623037784, "train/reward_rate": 0.9397855718085106, "stats/mean_log_entropy": -0.8716497272253036, "replay/size": 74053.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.33837500246214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0795590730735956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01783633232117, "timer/env.step_count": 236.0, "timer/env.step_total": 5.7081451416015625, "timer/env.step_frac": 0.019026019290662485, "timer/env.step_avg": 0.024187055684752382, "timer/env.step_min": 0.020439624786376953, "timer/env.step_max": 0.029998302459716797, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.1828935146331787, "timer/replay.add_frac": 0.0006096088048264997, "timer/replay.add_avg": 0.0001941544741328861, "timer/replay.add_min": 3.933906555175781e-05, "timer/replay.add_max": 0.001413106918334961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017744064331054688, "timer/logger.write_frac": 5.9143364767820325e-05, "timer/logger.write_avg": 0.017744064331054688, "timer/logger.write_min": 0.017744064331054688, "timer/logger.write_max": 0.017744064331054688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7122509479522705, "timer/agent.policy_frac": 0.002374028679959316, "timer/agent.policy_avg": 0.00301801249132318, "timer/agent.policy_min": 0.002694845199584961, "timer/agent.policy_max": 0.004503488540649414, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03512263298034668, "timer/dataset_frac": 0.00011706848302659694, "timer/dataset_avg": 7.457034603046004e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001857280731201172, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.09482884407043, "timer/agent.train_frac": 0.9769246803027327, "timer/agent.train_avg": 0.6222820145309351, "timer/agent.train_min": 0.5713636875152588, "timer/agent.train_max": 0.6613888740539551, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15447092056274414, "timer/agent.report_frac": 0.0005148724570883216, "timer/agent.report_avg": 0.15447092056274414, "timer/agent.report_min": 0.15447092056274414, "timer/agent.report_max": 0.15447092056274414, "fps": 6.279563172305397}
+{"step": 150498, "train/action_mag": 1.7733350332747115, "train/action_max": 1.7536629717400734, "train/action_mean": 0.018126537795475822, "train/action_min": -1.4362092246400548, "train/action_std": 0.4900836830443524, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.17371678249316014, "train/actor_opt_grad_steps": 36740.0, "train/actor_opt_loss": -16.32899467127913, "train/adv_mag": 0.7425156489331671, "train/adv_max": 0.6673887761983466, "train/adv_mean": 0.001904855512932161, "train/adv_min": -0.41506014098512367, "train/adv_std": 0.029683541110221374, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.648594742001042e-10, "train/cont_loss_std": 8.436361833705397e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.648594742001042e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.056074243910769, "train/dyn_loss_std": 4.75684422127744, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10547303392532024, "train/extr_critic_critic_opt_grad_steps": 36740.0, "train/extr_critic_critic_opt_loss": 8440.122714428191, "train/extr_critic_mag": 657.6190237491688, "train/extr_critic_max": 657.6190237491688, "train/extr_critic_mean": 621.2543958298703, "train/extr_critic_min": 442.9766170420545, "train/extr_critic_std": 41.90044374668852, "train/extr_return_normed_mag": 1.029487335935552, "train/extr_return_normed_max": 1.020765943730131, "train/extr_return_normed_mean": 0.7801074575870595, "train/extr_return_normed_min": -0.3285514375766457, "train/extr_return_normed_std": 0.3099825734153707, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 654.184671604887, "train/extr_return_raw_max": 654.184671604887, "train/extr_return_raw_mean": 621.5128173828125, "train/extr_return_raw_min": 471.0984399673787, "train/extr_return_raw_std": 42.08566779278694, "train/extr_reward_mag": 2.0012609451375107, "train/extr_reward_max": 2.0012609451375107, "train/extr_reward_mean": 1.5221548790627337, "train/extr_reward_min": 0.0006700145437362347, "train/extr_reward_std": 0.6384397053972204, "train/image_loss_mean": 0.6143960629371886, "train/image_loss_std": 0.7500061284988484, "train/model_loss_mean": 2.2581376446054335, "train/model_loss_std": 3.480289804174545, "train/model_opt_grad_norm": 10.09120573896043, "train/model_opt_grad_steps": 36707.0, "train/model_opt_loss": 12457.771048038563, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5531.914893617021, "train/policy_entropy_mag": 0.9361808160518078, "train/policy_entropy_max": 0.8405683611301665, "train/policy_entropy_mean": -0.832637718383302, "train/policy_entropy_min": -0.8830645464836283, "train/policy_entropy_std": 0.1416835550298082, "train/policy_logprob_mag": 7.202540133861786, "train/policy_logprob_max": 1.3825697214045423, "train/policy_logprob_mean": 0.8321738915240511, "train/policy_logprob_min": -7.202540133861786, "train/policy_logprob_std": 0.7236236511392796, "train/policy_randomness_mag": 0.7488170152014875, "train/policy_randomness_max": 0.7488170152014875, "train/policy_randomness_mean": 0.022152899368170727, "train/policy_randomness_min": 0.00025278583207375744, "train/policy_randomness_std": 0.06153238334871353, "train/post_ent_mag": 48.15695255360705, "train/post_ent_max": 48.15695255360705, "train/post_ent_mean": 40.504125473347116, "train/post_ent_min": 18.49969746204133, "train/post_ent_std": 4.2238578289113144, "train/prior_ent_mag": 59.023719787597656, "train/prior_ent_max": 59.023719787597656, "train/prior_ent_mean": 42.25523814749211, "train/prior_ent_min": 28.19137512369359, "train/prior_ent_std": 3.7894992473277638, "train/rep_loss_mean": 2.056074243910769, "train/rep_loss_std": 4.75684422127744, "train/reward_avg": 1.5279709506542125, "train/reward_loss_mean": 0.410097027078588, "train/reward_loss_std": 0.22507487554499445, "train/reward_max_data": 1.999429923422793, "train/reward_max_pred": 1.9996759739327938, "train/reward_neg_acc": 0.9343472884056416, "train/reward_neg_loss": 0.45954707201491013, "train/reward_pos_acc": 0.999244324704434, "train/reward_pos_loss": 0.407643179944221, "train/reward_pred": 1.525237613535942, "train/reward_rate": 0.9459773936170213, "replay/size": 74997.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3339259422431557e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0693793074559357e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4073443412781, "timer/env.step_count": 236.0, "timer/env.step_total": 5.719310760498047, "timer/env.step_frac": 0.019038518425836547, "timer/env.step_avg": 0.024234367629229012, "timer/env.step_min": 0.0207822322845459, "timer/env.step_max": 0.035856008529663086, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18370723724365234, "timer/replay.add_frac": 0.0006115271171098652, "timer/replay.add_avg": 0.00019460512419878427, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0031571388244628906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019352197647094727, "timer/logger.write_frac": 6.441985527860345e-05, "timer/logger.write_avg": 0.019352197647094727, "timer/logger.write_min": 0.019352197647094727, "timer/logger.write_max": 0.019352197647094727, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7102823257446289, "timer/agent.policy_frac": 0.0023643973395594217, "timer/agent.policy_avg": 0.003009670871799275, "timer/agent.policy_min": 0.002712249755859375, "timer/agent.policy_max": 0.003772258758544922, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035268545150756836, "timer/dataset_frac": 0.00011740240648274553, "timer/dataset_avg": 7.472149396346787e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.49349999427795, "timer/agent.train_frac": 0.9769851021380301, "timer/agent.train_avg": 0.6218082626997414, "timer/agent.train_min": 0.5685081481933594, "timer/agent.train_max": 0.6613364219665527, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14976286888122559, "timer/agent.report_frac": 0.0004985326480936076, "timer/agent.report_avg": 0.14976286888122559, "timer/agent.report_min": 0.14976286888122559, "timer/agent.report_max": 0.14976286888122559, "fps": 6.284733172990447}
+{"step": 152304, "episode/length": 500.0, "episode/score": 990.1324824094772, "episode/sum_abs_reward": 990.1324824094772, "episode/reward_rate": 0.998003992015968}
+{"step": 152386, "train/action_mag": 1.8152165007083974, "train/action_max": 1.80185810555803, "train/action_mean": 0.028461635687408296, "train/action_min": -1.411970463204891, "train/action_std": 0.4966426352237133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.17053400891575407, "train/actor_opt_grad_steps": 37210.0, "train/actor_opt_loss": -23.639292760098233, "train/adv_mag": 0.8900071889796155, "train/adv_max": 0.8439064120992701, "train/adv_mean": 0.002646724939930867, "train/adv_min": -0.42509351448809846, "train/adv_std": 0.03340525952900978, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.948797341187057e-10, "train/cont_loss_std": 1.5555401216524973e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.948797341187057e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0679744355222014, "train/dyn_loss_std": 4.770932801226352, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.1069920060640954, "train/extr_critic_critic_opt_grad_steps": 37210.0, "train/extr_critic_critic_opt_loss": 8699.559123587102, "train/extr_critic_mag": 657.2260534408244, "train/extr_critic_max": 657.2260534408244, "train/extr_critic_mean": 621.0320512487533, "train/extr_critic_min": 432.16347714687913, "train/extr_critic_std": 40.07460245173028, "train/extr_return_normed_mag": 1.0242814637245017, "train/extr_return_normed_max": 1.0157429334965158, "train/extr_return_normed_mean": 0.7720268914040099, "train/extr_return_normed_min": -0.353073222047471, "train/extr_return_normed_std": 0.2981775758114267, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 654.1993758830619, "train/extr_return_raw_max": 654.1993758830619, "train/extr_return_raw_mean": 621.3888952376994, "train/extr_return_raw_min": 469.65555393949467, "train/extr_return_raw_std": 40.18942970925189, "train/extr_reward_mag": 2.00137308303346, "train/extr_reward_max": 2.00137308303346, "train/extr_reward_mean": 1.496713676351182, "train/extr_reward_min": 0.0006466596684557327, "train/extr_reward_std": 0.6484696110512348, "train/image_loss_mean": 0.6273279659291531, "train/image_loss_std": 0.7411167253839209, "train/model_loss_mean": 2.2853809595108032, "train/model_loss_std": 3.4812415153422256, "train/model_opt_grad_norm": 11.715586804329082, "train/model_opt_grad_steps": 37176.085106382976, "train/model_opt_loss": 12368.134183843085, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5425.531914893617, "train/policy_entropy_mag": 0.943694162876048, "train/policy_entropy_max": 0.8158743736591745, "train/policy_entropy_mean": -0.8355677888748494, "train/policy_entropy_min": -0.8831099018137506, "train/policy_entropy_std": 0.13634333704063234, "train/policy_logprob_mag": 7.318025660007558, "train/policy_logprob_max": 1.3826906731788149, "train/policy_logprob_mean": 0.8349420200002954, "train/policy_logprob_min": -7.318025660007558, "train/policy_logprob_std": 0.7216893713525001, "train/policy_randomness_mag": 0.7380925512060206, "train/policy_randomness_max": 0.7380925512060206, "train/policy_randomness_mean": 0.02088037981314862, "train/policy_randomness_min": 0.00023308826394953785, "train/policy_randomness_std": 0.0592131561183549, "train/post_ent_mag": 48.32155057217212, "train/post_ent_max": 48.32155057217212, "train/post_ent_mean": 40.68186577330244, "train/post_ent_min": 18.17782882933921, "train/post_ent_std": 4.151417001764825, "train/prior_ent_mag": 59.106943820385226, "train/prior_ent_max": 59.106943820385226, "train/prior_ent_mean": 42.46019046864611, "train/prior_ent_min": 28.559628182269158, "train/prior_ent_std": 3.716420371481713, "train/rep_loss_mean": 2.0679744355222014, "train/rep_loss_std": 4.770932801226352, "train/reward_avg": 1.5041667197613007, "train/reward_loss_mean": 0.4172683003100943, "train/reward_loss_std": 0.22036207166123897, "train/reward_max_data": 1.999394784582422, "train/reward_max_pred": 1.9996999679727758, "train/reward_neg_acc": 0.9418395478674706, "train/reward_neg_loss": 0.45218941949783487, "train/reward_pos_acc": 0.9988851686741443, "train/reward_pos_loss": 0.41600317206788573, "train/reward_pred": 1.5019631208257471, "train/reward_rate": 0.9434217087765957, "stats/mean_log_entropy": -0.8704302310943604, "replay/size": 75941.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2879596483909477e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0904682389760422e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.61667585372925, "timer/env.step_count": 236.0, "timer/env.step_total": 5.672450542449951, "timer/env.step_frac": 0.018869380836377785, "timer/env.step_avg": 0.024035807383262504, "timer/env.step_min": 0.02031850814819336, "timer/env.step_max": 0.02911233901977539, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18218660354614258, "timer/replay.add_frac": 0.000606042905067545, "timer/replay.add_avg": 0.00019299428341752392, "timer/replay.add_min": 3.8623809814453125e-05, "timer/replay.add_max": 0.0012662410736083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0255739688873291, "timer/logger.write_frac": 8.507169076599264e-05, "timer/logger.write_avg": 0.0255739688873291, "timer/logger.write_min": 0.0255739688873291, "timer/logger.write_max": 0.0255739688873291, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025582313537597656, "timer/checkpoint.save_frac": 8.509944920702009e-07, "timer/checkpoint.save_avg": 0.00025582313537597656, "timer/checkpoint.save_min": 0.00025582313537597656, "timer/checkpoint.save_max": 0.00025582313537597656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.0796661376953125, "timer/agent.save_frac": 0.0002650090433907784, "timer/agent.save_avg": 0.0796661376953125, "timer/agent.save_min": 0.0796661376953125, "timer/agent.save_max": 0.0796661376953125, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.393692016601562e-05, "timer/replay.save_frac": 3.124807361376134e-07, "timer/replay.save_avg": 9.393692016601562e-05, "timer/replay.save_min": 9.393692016601562e-05, "timer/replay.save_max": 9.393692016601562e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7636058330535889, "timer/agent.policy_frac": 0.002540131318014892, "timer/agent.policy_avg": 0.0032356179366677495, "timer/agent.policy_min": 0.0027709007263183594, "timer/agent.policy_max": 0.052295684814453125, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035012006759643555, "timer/dataset_frac": 0.00011646728066635701, "timer/dataset_avg": 7.417798042297363e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0001342296600341797, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.66971921920776, "timer/agent.train_frac": 0.9768909804660948, "timer/agent.train_avg": 0.6221816085152707, "timer/agent.train_min": 0.57100510597229, "timer/agent.train_max": 0.6624183654785156, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15379786491394043, "timer/agent.report_frac": 0.000511607895593835, "timer/agent.report_avg": 0.15379786491394043, "timer/agent.report_min": 0.15379786491394043, "timer/agent.report_max": 0.15379786491394043, "fps": 6.280380894246182}
+{"step": 154274, "train/action_mag": 1.8528236860924578, "train/action_max": 1.8285876360345394, "train/action_mean": 0.035259893064961786, "train/action_min": -1.419555590507832, "train/action_std": 0.49613742498641317, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.16113697198477198, "train/actor_opt_grad_steps": 37680.0, "train/actor_opt_loss": -22.165394894620206, "train/adv_mag": 0.8651799439115727, "train/adv_max": 0.8300086431046749, "train/adv_mean": 0.0024962620410270632, "train/adv_min": -0.44319985077736224, "train/adv_std": 0.03567102896247772, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.741471606592617e-10, "train/cont_loss_std": 8.868156941648739e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.741471606592617e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0940618565742004, "train/dyn_loss_std": 4.883407384791273, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11077244302376787, "train/extr_critic_critic_opt_grad_steps": 37680.0, "train/extr_critic_critic_opt_loss": 8867.34251371343, "train/extr_critic_mag": 658.225484645113, "train/extr_critic_max": 658.225484645113, "train/extr_critic_mean": 620.3838799659242, "train/extr_critic_min": 420.174891045753, "train/extr_critic_std": 43.98807265910696, "train/extr_return_normed_mag": 1.0448444219345743, "train/extr_return_normed_max": 1.0125630180886451, "train/extr_return_normed_mean": 0.7656573310811469, "train/extr_return_normed_min": -0.3653294005173635, "train/extr_return_normed_std": 0.3190498412289518, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 654.7169643970246, "train/extr_return_raw_max": 654.7169643970246, "train/extr_return_raw_mean": 620.7273481653092, "train/extr_return_raw_min": 465.19149423152845, "train/extr_return_raw_std": 43.92112504675033, "train/extr_reward_mag": 2.0011938582075404, "train/extr_reward_max": 2.0011938582075404, "train/extr_reward_mean": 1.4988637985067164, "train/extr_reward_min": 0.0006060549553404463, "train/extr_reward_std": 0.6588579352865828, "train/image_loss_mean": 0.6249210752071218, "train/image_loss_std": 0.7321523643554525, "train/model_loss_mean": 2.2901987217842263, "train/model_loss_std": 3.5373825266006147, "train/model_opt_grad_norm": 10.786711327573085, "train/model_opt_grad_steps": 37646.0, "train/model_opt_loss": 11450.99353806516, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9330908047392014, "train/policy_entropy_max": 0.7808857788430884, "train/policy_entropy_mean": -0.8328230203466213, "train/policy_entropy_min": -0.883069264127853, "train/policy_entropy_std": 0.14216092831276833, "train/policy_logprob_mag": 6.726556818535987, "train/policy_logprob_max": 1.3825880339805117, "train/policy_logprob_mean": 0.8322646174025028, "train/policy_logprob_min": -6.726556818535987, "train/policy_logprob_std": 0.724300981836116, "train/policy_randomness_mag": 0.7228971986060447, "train/policy_randomness_max": 0.7228971986060447, "train/policy_randomness_mean": 0.02207241936566982, "train/policy_randomness_min": 0.00025073698154610995, "train/policy_randomness_std": 0.06173970419517223, "train/post_ent_mag": 48.42619794480344, "train/post_ent_max": 48.42619794480344, "train/post_ent_mean": 40.489369575013505, "train/post_ent_min": 18.62641186409808, "train/post_ent_std": 4.272980197947076, "train/prior_ent_mag": 59.21970886879779, "train/prior_ent_max": 59.21970886879779, "train/prior_ent_mean": 42.28510024699759, "train/prior_ent_min": 28.155017081727372, "train/prior_ent_std": 3.8690669232226433, "train/rep_loss_mean": 2.0940618565742004, "train/rep_loss_std": 4.883407384791273, "train/reward_avg": 1.4971314186745501, "train/reward_loss_mean": 0.4088405040984458, "train/reward_loss_std": 0.2237426663966889, "train/reward_max_data": 1.9993810019594558, "train/reward_max_pred": 1.9995444835500513, "train/reward_neg_acc": 0.9352702079935277, "train/reward_neg_loss": 0.4571175410392437, "train/reward_pos_acc": 0.9990251064300537, "train/reward_pos_loss": 0.4065296003159056, "train/reward_pred": 1.495467226556007, "train/reward_rate": 0.941655585106383, "replay/size": 76885.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.270785428709903e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.080334186553955e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5472342967987, "timer/env.step_count": 236.0, "timer/env.step_total": 5.681744337081909, "timer/env.step_frac": 0.018904663522776022, "timer/env.step_avg": 0.02407518786899114, "timer/env.step_min": 0.019674301147460938, "timer/env.step_max": 0.02940964698791504, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18108201026916504, "timer/replay.add_frac": 0.0006025076580486565, "timer/replay.add_avg": 0.00019182416342072568, "timer/replay.add_min": 4.124641418457031e-05, "timer/replay.add_max": 0.0025031566619873047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02107858657836914, "timer/logger.write_frac": 7.013402278576103e-05, "timer/logger.write_avg": 0.02107858657836914, "timer/logger.write_min": 0.02107858657836914, "timer/logger.write_max": 0.02107858657836914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7120943069458008, "timer/agent.policy_frac": 0.002369325768749507, "timer/agent.policy_avg": 0.0030173487582449187, "timer/agent.policy_min": 0.002727031707763672, "timer/agent.policy_max": 0.0035371780395507812, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03478598594665527, "timer/dataset_frac": 0.00011574215955786554, "timer/dataset_avg": 7.369912276833745e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00014591217041015625, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.66702461242676, "timer/agent.train_frac": 0.9771077258439266, "timer/agent.train_avg": 0.6221758996025991, "timer/agent.train_min": 0.5682463645935059, "timer/agent.train_max": 0.6613879203796387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15363025665283203, "timer/agent.report_frac": 0.0005111684258625315, "timer/agent.report_avg": 0.15363025665283203, "timer/agent.report_min": 0.15363025665283203, "timer/agent.report_max": 0.15363025665283203, "fps": 6.281806026331411}
+{"step": 156158, "train/action_mag": 1.727219467361768, "train/action_max": 1.7102920413017273, "train/action_mean": 0.03695121532170257, "train/action_min": -1.4076176931460698, "train/action_std": 0.47582690852383774, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.1717791857275491, "train/actor_opt_grad_steps": 38155.0, "train/actor_opt_loss": -25.798518071571987, "train/adv_mag": 0.8023511096835136, "train/adv_max": 0.7652450936535994, "train/adv_mean": 0.00286779812624142, "train/adv_min": -0.4058277392759919, "train/adv_std": 0.035507116350345314, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.173082506341556e-10, "train/cont_loss_std": 1.1009119703827193e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.173082506341556e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0853174179792404, "train/dyn_loss_std": 4.865026031931241, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11585189766871433, "train/extr_critic_critic_opt_grad_steps": 38155.0, "train/extr_critic_critic_opt_loss": 8711.844451904297, "train/extr_critic_mag": 658.3668225606283, "train/extr_critic_max": 658.3668225606283, "train/extr_critic_mean": 622.5829709370931, "train/extr_critic_min": 429.8125178019206, "train/extr_critic_std": 42.75572935740153, "train/extr_return_normed_mag": 1.0168795535961788, "train/extr_return_normed_max": 1.0141900951663654, "train/extr_return_normed_mean": 0.7746590251723925, "train/extr_return_normed_min": -0.39341302863128175, "train/extr_return_normed_std": 0.3158897568161289, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 655.2944577534994, "train/extr_return_raw_max": 655.2944577534994, "train/extr_return_raw_mean": 622.9689038594564, "train/extr_return_raw_min": 465.5123882293701, "train/extr_return_raw_std": 42.59559794267019, "train/extr_reward_mag": 2.0010102540254593, "train/extr_reward_max": 2.0010102540254593, "train/extr_reward_mean": 1.5289771258831024, "train/extr_reward_min": 0.0006354128321011862, "train/extr_reward_std": 0.6336089167743921, "train/image_loss_mean": 0.6190647110342979, "train/image_loss_std": 0.7609088228394588, "train/model_loss_mean": 2.282612013320128, "train/model_loss_std": 3.546769013007482, "train/model_opt_grad_norm": 10.281229277451834, "train/model_opt_grad_steps": 38120.333333333336, "train/model_opt_loss": 12882.453755696615, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5625.0, "train/policy_entropy_mag": 0.9369685227672259, "train/policy_entropy_max": 0.7165420254071554, "train/policy_entropy_mean": -0.8351289990047613, "train/policy_entropy_min": -0.8830417295296987, "train/policy_entropy_std": 0.13648409893115362, "train/policy_logprob_mag": 7.545143812894821, "train/policy_logprob_max": 1.3826724961400032, "train/policy_logprob_mean": 0.8353303273518881, "train/policy_logprob_min": -7.545143812894821, "train/policy_logprob_std": 0.7233449121316274, "train/policy_randomness_mag": 0.6949530597776175, "train/policy_randomness_max": 0.6949530597776175, "train/policy_randomness_mean": 0.021070948656415567, "train/policy_randomness_min": 0.0002626951072670636, "train/policy_randomness_std": 0.059274288398834564, "train/post_ent_mag": 48.15058946609497, "train/post_ent_max": 48.15058946609497, "train/post_ent_mean": 40.63427519798279, "train/post_ent_min": 18.51619525750478, "train/post_ent_std": 4.133168175816536, "train/prior_ent_mag": 59.35427769025167, "train/prior_ent_max": 59.35427769025167, "train/prior_ent_mean": 42.40775601069132, "train/prior_ent_min": 28.56205399831136, "train/prior_ent_std": 3.7330951591332755, "train/rep_loss_mean": 2.0853174179792404, "train/rep_loss_std": 4.865026031931241, "train/reward_avg": 1.5296928857763608, "train/reward_loss_mean": 0.41235684665540856, "train/reward_loss_std": 0.22134951750437418, "train/reward_max_data": 1.9992768863836925, "train/reward_max_pred": 1.998942439754804, "train/reward_neg_acc": 0.9313928534587225, "train/reward_neg_loss": 0.4667566915353139, "train/reward_pos_acc": 0.999217671652635, "train/reward_pos_loss": 0.410262668505311, "train/reward_pred": 1.527383419374625, "train/reward_rate": 0.9462687174479166, "replay/size": 77827.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3181271401180583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0694351419015547e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17052698135376, "timer/env.step_count": 235.0, "timer/env.step_total": 5.673179864883423, "timer/env.step_frac": 0.018899856431393858, "timer/env.step_avg": 0.024141190914397544, "timer/env.step_min": 0.02008676528930664, "timer/env.step_max": 0.029345989227294922, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.19100737571716309, "timer/replay.add_frac": 0.0006363295478673969, "timer/replay.add_avg": 0.00020276791477405847, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0019865036010742188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019373655319213867, "timer/logger.write_frac": 6.454216379617222e-05, "timer/logger.write_avg": 0.019373655319213867, "timer/logger.write_min": 0.019373655319213867, "timer/logger.write_max": 0.019373655319213867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7081928253173828, "timer/agent.policy_frac": 0.0023593016690855026, "timer/agent.policy_avg": 0.0030135864907122672, "timer/agent.policy_min": 0.0027251243591308594, "timer/agent.policy_max": 0.0034291744232177734, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03501772880554199, "timer/dataset_frac": 0.0001166594507385372, "timer/dataset_avg": 7.434761954467514e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00017023086547851562, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.29443097114563, "timer/agent.train_frac": 0.9770927010077999, "timer/agent.train_avg": 0.6227057982402243, "timer/agent.train_min": 0.5695528984069824, "timer/agent.train_max": 0.6609647274017334, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1532607078552246, "timer/agent.report_frac": 0.0005105788013116458, "timer/agent.report_avg": 0.1532607078552246, "timer/agent.report_min": 0.1532607078552246, "timer/agent.report_max": 0.1532607078552246, "fps": 6.276371485703659}
+{"step": 156312, "episode/length": 500.0, "episode/score": 991.3019013404846, "episode/sum_abs_reward": 991.3019013404846, "episode/reward_rate": 0.998003992015968}
+{"step": 158042, "train/action_mag": 1.8432757778370634, "train/action_max": 1.8122435935000156, "train/action_mean": 0.03994568093541138, "train/action_min": -1.4414448763461822, "train/action_std": 0.4705062831969971, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.12496284110114929, "train/actor_opt_grad_steps": 38630.0, "train/actor_opt_loss": -12.734656870365143, "train/adv_mag": 0.7273213838009124, "train/adv_max": 0.6238523598047013, "train/adv_mean": 0.0015428035964779408, "train/adv_min": -0.437300757841861, "train/adv_std": 0.03278536484279531, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.147152491458848e-10, "train/cont_loss_std": 1.0633463193889708e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.147152491458848e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0426080556626016, "train/dyn_loss_std": 4.618302822113037, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10310762807568337, "train/extr_critic_critic_opt_grad_steps": 38630.0, "train/extr_critic_critic_opt_loss": 8892.329423620346, "train/extr_critic_mag": 659.3163088534741, "train/extr_critic_max": 659.3163088534741, "train/extr_critic_mean": 623.2350282060339, "train/extr_critic_min": 445.0747356008976, "train/extr_critic_std": 43.73466037182098, "train/extr_return_normed_mag": 1.0467685182043847, "train/extr_return_normed_max": 1.01596200466156, "train/extr_return_normed_mean": 0.7723593153852097, "train/extr_return_normed_min": -0.3913606256048413, "train/extr_return_normed_std": 0.3273988467581729, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 655.9523055705619, "train/extr_return_raw_max": 655.9523055705619, "train/extr_return_raw_mean": 623.4427243496509, "train/extr_return_raw_min": 468.04784539405335, "train/extr_return_raw_std": 43.74552292519427, "train/extr_reward_mag": 2.0011256857121245, "train/extr_reward_max": 2.0011256857121245, "train/extr_reward_mean": 1.5415838779287134, "train/extr_reward_min": 0.000549630915864985, "train/extr_reward_std": 0.641715480292097, "train/image_loss_mean": 0.597587951954375, "train/image_loss_std": 0.7363631395583458, "train/model_loss_mean": 2.2222300463534417, "train/model_loss_std": 3.382752256190523, "train/model_opt_grad_norm": 11.872671431683479, "train/model_opt_grad_steps": 38595.0, "train/model_opt_loss": 11111.150265957447, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9758905134302505, "train/policy_entropy_max": 0.8263693287017497, "train/policy_entropy_mean": -0.8333134232683385, "train/policy_entropy_min": -0.8830289155878919, "train/policy_entropy_std": 0.14266236958668588, "train/policy_logprob_mag": 7.2117645892691105, "train/policy_logprob_max": 1.3826283546204263, "train/policy_logprob_mean": 0.8329382272476845, "train/policy_logprob_min": -7.2117645892691105, "train/policy_logprob_std": 0.7247767651334722, "train/policy_randomness_mag": 0.7426504505441544, "train/policy_randomness_max": 0.7426504505441544, "train/policy_randomness_mean": 0.021859441299308488, "train/policy_randomness_min": 0.0002682601322142526, "train/policy_randomness_std": 0.061957476620978495, "train/post_ent_mag": 47.91287336958216, "train/post_ent_max": 47.91287336958216, "train/post_ent_mean": 40.27648690406313, "train/post_ent_min": 19.02596009031255, "train/post_ent_std": 4.073414579350898, "train/prior_ent_mag": 59.19236390134122, "train/prior_ent_max": 59.19236390134122, "train/prior_ent_mean": 42.018453070457944, "train/prior_ent_min": 28.31341589258072, "train/prior_ent_std": 3.820888539578052, "train/rep_loss_mean": 2.0426080556626016, "train/rep_loss_std": 4.618302822113037, "train/reward_avg": 1.5449801531243832, "train/reward_loss_mean": 0.39907725313876535, "train/reward_loss_std": 0.2228591261391944, "train/reward_max_data": 1.9994839886401563, "train/reward_max_pred": 1.9995274188670706, "train/reward_neg_acc": 0.9221255436856696, "train/reward_neg_loss": 0.4726273258949848, "train/reward_pos_acc": 0.9993305853072633, "train/reward_pos_loss": 0.3957268297672272, "train/reward_pred": 1.5426326736490776, "train/reward_rate": 0.9459773936170213, "stats/mean_log_entropy": -0.8722712099552155, "replay/size": 78769.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3674813045817576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0698464266054189e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3204357624054, "timer/env.step_count": 236.0, "timer/env.step_total": 5.706622838973999, "timer/env.step_frac": 0.01900177996374752, "timer/env.step_avg": 0.024180605249889825, "timer/env.step_min": 0.020057201385498047, "timer/env.step_max": 0.02898573875427246, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18682122230529785, "timer/replay.add_frac": 0.000622072959607381, "timer/replay.add_avg": 0.00019832401518609115, "timer/replay.add_min": 3.910064697265625e-05, "timer/replay.add_max": 0.00218963623046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020598649978637695, "timer/logger.write_frac": 6.85889054680716e-05, "timer/logger.write_avg": 0.020598649978637695, "timer/logger.write_min": 0.020598649978637695, "timer/logger.write_max": 0.020598649978637695, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001366138458251953, "timer/checkpoint.save_frac": 4.5489360548635983e-07, "timer/checkpoint.save_avg": 0.0001366138458251953, "timer/checkpoint.save_min": 0.0001366138458251953, "timer/checkpoint.save_max": 0.0001366138458251953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07800030708312988, "timer/agent.save_frac": 0.00025972360783612747, "timer/agent.save_avg": 0.07800030708312988, "timer/agent.save_min": 0.07800030708312988, "timer/agent.save_max": 0.07800030708312988, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.179115295410156e-05, "timer/replay.save_frac": 3.056440455711144e-07, "timer/replay.save_avg": 9.179115295410156e-05, "timer/replay.save_min": 9.179115295410156e-05, "timer/replay.save_max": 9.179115295410156e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7668077945709229, "timer/agent.policy_frac": 0.0025532987544596296, "timer/agent.policy_avg": 0.0032491855702157747, "timer/agent.policy_min": 0.0027761459350585938, "timer/agent.policy_max": 0.05255913734436035, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03540301322937012, "timer/dataset_frac": 0.00011788412979454635, "timer/dataset_avg": 7.516563318337604e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.3505074977875, "timer/agent.train_frac": 0.9767916950209407, "timer/agent.train_avg": 0.6228248566832005, "timer/agent.train_min": 0.5725395679473877, "timer/agent.train_max": 0.6630196571350098, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14336490631103516, "timer/agent.report_frac": 0.0004773731296276369, "timer/agent.report_avg": 0.14336490631103516, "timer/agent.report_min": 0.14336490631103516, "timer/agent.report_max": 0.14336490631103516, "fps": 6.273272031968824}
+{"step": 159930, "train/action_mag": 1.7524303273951753, "train/action_max": 1.738425592158703, "train/action_mean": 0.03716376184565114, "train/action_min": -1.3907193148389776, "train/action_std": 0.46024517936909454, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.12527014969035666, "train/actor_opt_grad_steps": 39100.0, "train/actor_opt_loss": -19.880420370304837, "train/adv_mag": 0.9361703288047871, "train/adv_max": 0.8518228844759312, "train/adv_mean": 0.0022672504877691417, "train/adv_min": -0.4826683890312276, "train/adv_std": 0.03217400808600669, "train/cont_avg": 1.0, "train/cont_loss_mean": 5.076386840436591e-10, "train/cont_loss_std": 1.264644358501183e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 5.076386840436591e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0342896999196802, "train/dyn_loss_std": 4.686847407767114, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10829820012317058, "train/extr_critic_critic_opt_grad_steps": 39100.0, "train/extr_critic_critic_opt_loss": 8960.579070395612, "train/extr_critic_mag": 660.1909764066655, "train/extr_critic_max": 660.1909764066655, "train/extr_critic_mean": 625.1802666846742, "train/extr_critic_min": 436.1089594414894, "train/extr_critic_std": 42.01859802895404, "train/extr_return_normed_mag": 1.0357843916466896, "train/extr_return_normed_max": 1.0239760723519833, "train/extr_return_normed_mean": 0.781771422700679, "train/extr_return_normed_min": -0.38346492503076157, "train/extr_return_normed_std": 0.31966070577185207, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 657.3996439183012, "train/extr_return_raw_max": 657.3996439183012, "train/extr_return_raw_mean": 625.4782533036902, "train/extr_return_raw_min": 472.143363140999, "train/extr_return_raw_std": 42.105173800853976, "train/extr_reward_mag": 2.001492236522918, "train/extr_reward_max": 2.001492236522918, "train/extr_reward_mean": 1.5555824447185436, "train/extr_reward_min": 0.000630497932434082, "train/extr_reward_std": 0.6343480614905662, "train/image_loss_mean": 0.5962162708982508, "train/image_loss_std": 0.7023793820371019, "train/model_loss_mean": 2.2145045158710888, "train/model_loss_std": 3.400031105000922, "train/model_opt_grad_norm": 11.668593427409297, "train/model_opt_grad_steps": 39064.44680851064, "train/model_opt_loss": 11277.888401761968, "train/model_opt_model_opt_grad_overflow": 0.02127659574468085, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.956763116603202, "train/policy_entropy_max": 0.725961185516195, "train/policy_entropy_mean": -0.8365487773367699, "train/policy_entropy_min": -0.8830652414484227, "train/policy_entropy_std": 0.13150846038727051, "train/policy_logprob_mag": 7.714980825464776, "train/policy_logprob_max": 1.3826740472874743, "train/policy_logprob_mean": 0.83708430351095, "train/policy_logprob_min": -7.714980825464776, "train/policy_logprob_std": 0.7223248887569347, "train/policy_randomness_mag": 0.6990437501288475, "train/policy_randomness_max": 0.6990437501288475, "train/policy_randomness_mean": 0.020454351562372547, "train/policy_randomness_min": 0.00025248401141923636, "train/policy_randomness_std": 0.05711339643978058, "train/post_ent_mag": 48.50826141682077, "train/post_ent_max": 48.50826141682077, "train/post_ent_mean": 40.178604856450505, "train/post_ent_min": 19.075180540693566, "train/post_ent_std": 4.029877632222277, "train/prior_ent_mag": 59.194997503402384, "train/prior_ent_max": 59.194997503402384, "train/prior_ent_mean": 41.90810483567258, "train/prior_ent_min": 28.85802195934539, "train/prior_ent_std": 3.832201556956514, "train/rep_loss_mean": 2.0342896999196802, "train/rep_loss_std": 4.686847407767114, "train/reward_avg": 1.5550436415570847, "train/reward_loss_mean": 0.39771439547234394, "train/reward_loss_std": 0.22947878247879921, "train/reward_max_data": 1.9994155726534255, "train/reward_max_pred": 1.999560645286073, "train/reward_neg_acc": 0.9238717505272399, "train/reward_neg_loss": 0.47032494494255556, "train/reward_pos_acc": 0.9990879246529113, "train/reward_pos_loss": 0.3938593306439988, "train/reward_pred": 1.5527492837702974, "train/reward_rate": 0.9456241688829787, "replay/size": 79713.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.270280304601637e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0758512100930942e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4685490131378, "timer/env.step_count": 236.0, "timer/env.step_total": 5.664275169372559, "timer/env.step_frac": 0.018851474432104012, "timer/env.step_avg": 0.02400116597191762, "timer/env.step_min": 0.019977092742919922, "timer/env.step_max": 0.029478073120117188, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1807844638824463, "timer/replay.add_frac": 0.0006016751652584497, "timer/replay.add_avg": 0.00019150896597716768, "timer/replay.add_min": 3.933906555175781e-05, "timer/replay.add_max": 0.0019121170043945312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01613163948059082, "timer/logger.write_frac": 5.368827963383773e-05, "timer/logger.write_avg": 0.01613163948059082, "timer/logger.write_min": 0.01613163948059082, "timer/logger.write_max": 0.01613163948059082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7122702598571777, "timer/agent.policy_frac": 0.002370531831689426, "timer/agent.policy_avg": 0.0030180943214287194, "timer/agent.policy_min": 0.0027074813842773438, "timer/agent.policy_max": 0.003672361373901367, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03507733345031738, "timer/dataset_frac": 0.00011674211349416024, "timer/dataset_avg": 7.431638442863852e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001571178436279297, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.60748982429504, "timer/agent.train_frac": 0.9771654663645253, "timer/agent.train_avg": 0.6220497665768963, "timer/agent.train_min": 0.5715374946594238, "timer/agent.train_max": 0.6634321212768555, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15686821937561035, "timer/agent.report_frac": 0.0005220786664389003, "timer/agent.report_avg": 0.15686821937561035, "timer/agent.report_min": 0.15686821937561035, "timer/agent.report_max": 0.15686821937561035, "fps": 6.283412418389242}
+{"step": 160320, "episode/length": 500.0, "episode/score": 994.1646664142609, "episode/sum_abs_reward": 994.1646664142609, "episode/reward_rate": 0.998003992015968}
+{"step": 161818, "train/action_mag": 1.8497852924022269, "train/action_max": 1.8179150946596836, "train/action_mean": 0.015758139779791236, "train/action_min": -1.4289369963585061, "train/action_std": 0.46647694580098414, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10994207026793602, "train/actor_opt_grad_steps": 39570.0, "train/actor_opt_loss": -23.280590724437793, "train/adv_mag": 0.8281363515143699, "train/adv_max": 0.7946855692153282, "train/adv_mean": 0.0026154057026786253, "train/adv_min": -0.4097053972964591, "train/adv_std": 0.031889379381182345, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.872950612762003e-10, "train/cont_loss_std": 9.956509316774424e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.872950612762003e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0122084845887853, "train/dyn_loss_std": 4.663184505827884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.09742137948249249, "train/extr_critic_critic_opt_grad_steps": 39570.0, "train/extr_critic_critic_opt_loss": 9113.614756482713, "train/extr_critic_mag": 661.5041309113199, "train/extr_critic_max": 661.5041309113199, "train/extr_critic_mean": 625.4441801030586, "train/extr_critic_min": 445.4277941115359, "train/extr_critic_std": 40.723235231764775, "train/extr_return_normed_mag": 1.0368299585707643, "train/extr_return_normed_max": 1.023593859469637, "train/extr_return_normed_mean": 0.7837447777707526, "train/extr_return_normed_min": -0.2825105694070597, "train/extr_return_normed_std": 0.3043547145863797, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 657.8684913148271, "train/extr_return_raw_max": 657.8684913148271, "train/extr_return_raw_mean": 625.7941660779587, "train/extr_return_raw_min": 483.35678879758143, "train/extr_return_raw_std": 40.6827567080234, "train/extr_reward_mag": 2.0013618773602424, "train/extr_reward_max": 2.0013618773602424, "train/extr_reward_mean": 1.5371671940418, "train/extr_reward_min": 0.0005767396155824053, "train/extr_reward_std": 0.6367752254009247, "train/image_loss_mean": 0.5948044492843303, "train/image_loss_std": 0.7139867506128676, "train/model_loss_mean": 2.200205310862115, "train/model_loss_std": 3.3762420441241976, "train/model_opt_grad_norm": 11.805386320073554, "train/model_opt_grad_steps": 39534.0, "train/model_opt_loss": 11001.02651263298, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9681109507033165, "train/policy_entropy_max": 0.7592279035994347, "train/policy_entropy_mean": -0.8407464319087089, "train/policy_entropy_min": -0.8830787197072455, "train/policy_entropy_std": 0.1299684710325079, "train/policy_logprob_mag": 7.164152206258571, "train/policy_logprob_max": 1.3827292437249041, "train/policy_logprob_mean": 0.8393856616730385, "train/policy_logprob_min": -7.164152206258571, "train/policy_logprob_std": 0.7242623301262551, "train/policy_randomness_mag": 0.7134912984168276, "train/policy_randomness_max": 0.7134912984168276, "train/policy_randomness_mean": 0.018631328878171267, "train/policy_randomness_min": 0.0002466304809167149, "train/policy_randomness_std": 0.05644458827582446, "train/post_ent_mag": 48.624378123181934, "train/post_ent_max": 48.624378123181934, "train/post_ent_mean": 40.13252704701525, "train/post_ent_min": 19.041373536941855, "train/post_ent_std": 3.979076943498977, "train/prior_ent_mag": 59.38570744940575, "train/prior_ent_max": 59.38570744940575, "train/prior_ent_mean": 41.835666494166595, "train/prior_ent_min": 28.62873264069253, "train/prior_ent_std": 3.8676221319969666, "train/rep_loss_mean": 2.0122084845887853, "train/rep_loss_std": 4.663184505827884, "train/reward_avg": 1.5389434149924746, "train/reward_loss_mean": 0.3980757695563296, "train/reward_loss_std": 0.22850471481363824, "train/reward_max_data": 1.9995105596298868, "train/reward_max_pred": 1.9994744087787384, "train/reward_neg_acc": 0.901026448036762, "train/reward_neg_loss": 0.4838568815525542, "train/reward_pos_acc": 0.9990087405164191, "train/reward_pos_loss": 0.3938283768106014, "train/reward_pred": 1.5371492669937459, "train/reward_rate": 0.9436710438829787, "stats/mean_log_entropy": -0.874598503112793, "replay/size": 80657.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3500899137076684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0722522008216987e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21598529815674, "timer/env.step_count": 236.0, "timer/env.step_total": 5.678124189376831, "timer/env.step_frac": 0.018913463864149854, "timer/env.step_avg": 0.024059848260071317, "timer/env.step_min": 0.021123647689819336, "timer/env.step_max": 0.028309106826782227, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18346214294433594, "timer/replay.add_frac": 0.0006111005140586774, "timer/replay.add_avg": 0.00019434549040713554, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.0011525154113769531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018117904663085938, "timer/logger.write_frac": 6.034956681301399e-05, "timer/logger.write_avg": 0.018117904663085938, "timer/logger.write_min": 0.018117904663085938, "timer/logger.write_max": 0.018117904663085938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7125244140625, "timer/agent.policy_frac": 0.002373372668197075, "timer/agent.policy_avg": 0.0030191712460275423, "timer/agent.policy_min": 0.0026578903198242188, "timer/agent.policy_max": 0.003917217254638672, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03575301170349121, "timer/dataset_frac": 0.00011909096601895945, "timer/dataset_avg": 7.574790615146443e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00015091896057128906, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.3241798877716, "timer/agent.train_frac": 0.9770438426070464, "timer/agent.train_avg": 0.621449533660533, "timer/agent.train_min": 0.5657980442047119, "timer/agent.train_max": 0.6618061065673828, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15384793281555176, "timer/agent.report_frac": 0.0005124574984332, "timer/agent.report_avg": 0.15384793281555176, "timer/agent.report_min": 0.15384793281555176, "timer/agent.report_max": 0.15384793281555176, "fps": 6.288739068199442}
+{"step": 163706, "train/action_mag": 1.7119417824643723, "train/action_max": 1.6888638963090612, "train/action_mean": 0.021965060685265887, "train/action_min": -1.4008646543989791, "train/action_std": 0.45961876118436773, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09532910244579011, "train/actor_opt_grad_steps": 40040.0, "train/actor_opt_loss": -21.42161936962858, "train/adv_mag": 0.9366821107712198, "train/adv_max": 0.870251586462589, "train/adv_mean": 0.00242495923451683, "train/adv_min": -0.47430877926501824, "train/adv_std": 0.032306253077818994, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.765582432221793e-10, "train/cont_loss_std": 9.63636567704383e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.765582432221793e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0305058093781168, "train/dyn_loss_std": 4.703654918264835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10557302872234202, "train/extr_critic_critic_opt_grad_steps": 40040.0, "train/extr_critic_critic_opt_loss": 9116.85084566157, "train/extr_critic_mag": 661.9875644115691, "train/extr_critic_max": 661.9875644115691, "train/extr_critic_mean": 626.5229557118518, "train/extr_critic_min": 420.5314921926945, "train/extr_critic_std": 43.2340085049893, "train/extr_return_normed_mag": 1.0629210852562112, "train/extr_return_normed_max": 1.0283664033768025, "train/extr_return_normed_mean": 0.783450370139264, "train/extr_return_normed_min": -0.45441363189131656, "train/extr_return_normed_std": 0.32956741750240326, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 658.9812102622175, "train/extr_return_raw_max": 658.9812102622175, "train/extr_return_raw_mean": 626.8410657517453, "train/extr_return_raw_min": 464.47982203706783, "train/extr_return_raw_std": 43.23458760849973, "train/extr_reward_mag": 2.0012634307780166, "train/extr_reward_max": 2.0012634307780166, "train/extr_reward_mean": 1.5566467883739066, "train/extr_reward_min": 0.0006208825618662732, "train/extr_reward_std": 0.6374575368901516, "train/image_loss_mean": 0.5921241545930822, "train/image_loss_std": 0.7628543643241233, "train/model_loss_mean": 2.207537460834422, "train/model_loss_std": 3.463452866736879, "train/model_opt_grad_norm": 10.740645976776772, "train/model_opt_grad_steps": 40003.617021276594, "train/model_opt_loss": 11237.240213597075, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5106.382978723404, "train/policy_entropy_mag": 0.9090839928769051, "train/policy_entropy_max": 0.6442618775875011, "train/policy_entropy_mean": -0.8405203717820188, "train/policy_entropy_min": -0.8831077306828601, "train/policy_entropy_std": 0.1279138406699008, "train/policy_logprob_mag": 7.083044599979482, "train/policy_logprob_max": 1.3828039524403024, "train/policy_logprob_mean": 0.8407698222931396, "train/policy_logprob_min": -7.083044599979482, "train/policy_logprob_std": 0.7201999121523918, "train/policy_randomness_mag": 0.6635621950981465, "train/policy_randomness_max": 0.6635621950981465, "train/policy_randomness_mean": 0.018729503038636547, "train/policy_randomness_min": 0.00023403117108713596, "train/policy_randomness_std": 0.05555227254220146, "train/post_ent_mag": 48.24158128778985, "train/post_ent_max": 48.24158128778985, "train/post_ent_mean": 39.94866626820666, "train/post_ent_min": 18.464289726094997, "train/post_ent_std": 3.9847580777837877, "train/prior_ent_mag": 59.16931347136802, "train/prior_ent_max": 59.16931347136802, "train/prior_ent_mean": 41.66853470497943, "train/prior_ent_min": 29.183091021598653, "train/prior_ent_std": 3.836631272701507, "train/rep_loss_mean": 2.0305058093781168, "train/rep_loss_std": 4.703654918264835, "train/reward_avg": 1.5595323253185192, "train/reward_loss_mean": 0.397109846485422, "train/reward_loss_std": 0.22115864937609814, "train/reward_max_data": 1.9993640159038788, "train/reward_max_pred": 1.9997175551475364, "train/reward_neg_acc": 0.9300631969533069, "train/reward_neg_loss": 0.4656796157360077, "train/reward_pos_acc": 0.9990332367572379, "train/reward_pos_loss": 0.3938891773528241, "train/reward_pred": 1.5578894361536553, "train/reward_rate": 0.9461851728723404, "replay/size": 81601.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3351887525138207e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0711156715781002e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.58158898353577, "timer/env.step_count": 236.0, "timer/env.step_total": 5.665001392364502, "timer/env.step_frac": 0.018846801001756633, "timer/env.step_avg": 0.024004243187985178, "timer/env.step_min": 0.020689725875854492, "timer/env.step_max": 0.029130220413208008, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18749189376831055, "timer/replay.add_frac": 0.0006237637321778225, "timer/replay.add_avg": 0.0001986142942460917, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.001523733139038086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019455432891845703, "timer/logger.write_frac": 6.47259632821735e-05, "timer/logger.write_avg": 0.019455432891845703, "timer/logger.write_min": 0.019455432891845703, "timer/logger.write_max": 0.019455432891845703, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020599365234375, "timer/checkpoint.save_frac": 6.853169318864476e-07, "timer/checkpoint.save_avg": 0.00020599365234375, "timer/checkpoint.save_min": 0.00020599365234375, "timer/checkpoint.save_max": 0.00020599365234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07322406768798828, "timer/agent.save_frac": 0.00024360795994061733, "timer/agent.save_avg": 0.07322406768798828, "timer/agent.save_min": 0.07322406768798828, "timer/agent.save_max": 0.07322406768798828, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001380443572998047, "timer/replay.save_frac": 4.5925752727112643e-07, "timer/replay.save_avg": 0.0001380443572998047, "timer/replay.save_min": 0.0001380443572998047, "timer/replay.save_max": 0.0001380443572998047, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7511091232299805, "timer/agent.policy_frac": 0.002498852726708828, "timer/agent.policy_avg": 0.0031826657763982225, "timer/agent.policy_min": 0.0026938915252685547, "timer/agent.policy_max": 0.045479774475097656, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03552842140197754, "timer/dataset_frac": 0.00011819892735986432, "timer/dataset_avg": 7.527207924147783e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.67234992980957, "timer/agent.train_frac": 0.9770137649578243, "timer/agent.train_avg": 0.6221871820546813, "timer/agent.train_min": 0.5674276351928711, "timer/agent.train_max": 0.661236047744751, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1536417007446289, "timer/agent.report_frac": 0.0005111480755165099, "timer/agent.report_avg": 0.1536417007446289, "timer/agent.report_min": 0.1536417007446289, "timer/agent.report_max": 0.1536417007446289, "fps": 6.28109884726213}
+{"step": 164328, "episode/length": 500.0, "episode/score": 993.6592413187027, "episode/sum_abs_reward": 993.6592413187027, "episode/reward_rate": 0.998003992015968}
+{"step": 165594, "train/action_mag": 1.8416526495142187, "train/action_max": 1.8159674101687493, "train/action_mean": 0.021484444428116402, "train/action_min": -1.4224402397236926, "train/action_std": 0.4637352120369039, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10191898697868307, "train/actor_opt_grad_steps": 40510.0, "train/actor_opt_loss": -17.88066416344744, "train/adv_mag": 0.7163471573210777, "train/adv_max": 0.6542331652438387, "train/adv_mean": 0.002065569371049431, "train/adv_min": -0.413181131824534, "train/adv_std": 0.030816550564734226, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.5129666197927337e-10, "train/cont_loss_std": 7.695736931872733e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.5129666197927337e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.058764335956979, "train/dyn_loss_std": 4.732976274287447, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11946706339082819, "train/extr_critic_critic_opt_grad_steps": 40510.0, "train/extr_critic_critic_opt_loss": 9282.96214261968, "train/extr_critic_mag": 662.9497550802027, "train/extr_critic_max": 662.9497550802027, "train/extr_critic_mean": 626.110291825964, "train/extr_critic_min": 446.54617699156415, "train/extr_critic_std": 42.825573941494554, "train/extr_return_normed_mag": 1.0374145888267678, "train/extr_return_normed_max": 1.0284302843377946, "train/extr_return_normed_mean": 0.7777694108638358, "train/extr_return_normed_min": -0.3928504143544334, "train/extr_return_normed_std": 0.3239937459534787, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 659.5131524268617, "train/extr_return_raw_max": 659.5131524268617, "train/extr_return_raw_mean": 626.3812061066324, "train/extr_return_raw_min": 471.8106949177194, "train/extr_return_raw_std": 42.86734163000229, "train/extr_reward_mag": 2.0012460972400423, "train/extr_reward_max": 2.0012460972400423, "train/extr_reward_mean": 1.560455507420479, "train/extr_reward_min": 0.0006935495011349942, "train/extr_reward_std": 0.6209053530337962, "train/image_loss_mean": 0.5958868271492898, "train/image_loss_std": 0.7623142879059974, "train/model_loss_mean": 2.223524623728813, "train/model_loss_std": 3.4807871351850794, "train/model_opt_grad_norm": 11.656719116454429, "train/model_opt_grad_steps": 40473.0, "train/model_opt_loss": 11117.623088430852, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9615814508275783, "train/policy_entropy_max": 0.7290279649673624, "train/policy_entropy_mean": -0.8367571691249279, "train/policy_entropy_min": -0.8831656156702244, "train/policy_entropy_std": 0.13759427470095614, "train/policy_logprob_mag": 7.302163783540117, "train/policy_logprob_max": 1.382843238242129, "train/policy_logprob_mean": 0.8355763110708683, "train/policy_logprob_min": -7.302163783540117, "train/policy_logprob_std": 0.7251902590406701, "train/policy_randomness_mag": 0.7003756343050206, "train/policy_randomness_max": 0.7003756343050206, "train/policy_randomness_mean": 0.02036384137426602, "train/policy_randomness_min": 0.00020889204244396866, "train/policy_randomness_std": 0.05975643111432486, "train/post_ent_mag": 48.36240281449987, "train/post_ent_max": 48.36240281449987, "train/post_ent_mean": 39.89308791464948, "train/post_ent_min": 18.731098296794485, "train/post_ent_std": 4.042087402749569, "train/prior_ent_mag": 59.52651117203084, "train/prior_ent_max": 59.52651117203084, "train/prior_ent_mean": 41.63605791457156, "train/prior_ent_min": 29.16557969438269, "train/prior_ent_std": 3.9697821393926094, "train/rep_loss_mean": 2.058764335956979, "train/rep_loss_std": 4.732976274287447, "train/reward_avg": 1.5599032767275547, "train/reward_loss_mean": 0.39237916469573975, "train/reward_loss_std": 0.2221915991382396, "train/reward_max_data": 1.999418443821846, "train/reward_max_pred": 1.9996002532066184, "train/reward_neg_acc": 0.9247085236488505, "train/reward_neg_loss": 0.47022256191740647, "train/reward_pos_acc": 0.9992256722551711, "train/reward_pos_loss": 0.38881471182437655, "train/reward_pred": 1.5581928136500907, "train/reward_rate": 0.9513588763297872, "stats/mean_log_entropy": -0.8759153932332993, "replay/size": 82545.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3263490806191656e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0742095567412296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2233693599701, "timer/env.step_count": 236.0, "timer/env.step_total": 5.721453428268433, "timer/env.step_frac": 0.019057322021485832, "timer/env.step_avg": 0.024243446729950987, "timer/env.step_min": 0.019472360610961914, "timer/env.step_max": 0.030065298080444336, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.182297945022583, "timer/replay.add_frac": 0.0006072077114157173, "timer/replay.add_avg": 0.00019311222989680404, "timer/replay.add_min": 3.886222839355469e-05, "timer/replay.add_max": 0.00199127197265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01839590072631836, "timer/logger.write_frac": 6.127404660581747e-05, "timer/logger.write_avg": 0.01839590072631836, "timer/logger.write_min": 0.01839590072631836, "timer/logger.write_max": 0.01839590072631836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7125980854034424, "timer/agent.policy_frac": 0.0023735596829873424, "timer/agent.policy_avg": 0.0030194834127264506, "timer/agent.policy_min": 0.0026950836181640625, "timer/agent.policy_max": 0.003519773483276367, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0352938175201416, "timer/dataset_frac": 0.00011755852848957953, "timer/dataset_avg": 7.477503711894407e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00013756752014160156, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.2997796535492, "timer/agent.train_frac": 0.9769385383916618, "timer/agent.train_avg": 0.6213978382490449, "timer/agent.train_min": 0.5706067085266113, "timer/agent.train_max": 0.6636300086975098, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14598846435546875, "timer/agent.report_frac": 0.00048626615798328304, "timer/agent.report_avg": 0.14598846435546875, "timer/agent.report_min": 0.14598846435546875, "timer/agent.report_max": 0.14598846435546875, "fps": 6.288588307138163}
+{"step": 167482, "train/action_mag": 1.8794927696386974, "train/action_max": 1.8647774035731952, "train/action_mean": 0.023437030700733885, "train/action_min": -1.4475354154904683, "train/action_std": 0.48865533123413724, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09933071172175308, "train/actor_opt_grad_steps": 40985.0, "train/actor_opt_loss": -22.419266590227682, "train/adv_mag": 0.871084051206708, "train/adv_max": 0.8314066634823879, "train/adv_mean": 0.0025245772985726944, "train/adv_min": -0.4127818526079257, "train/adv_std": 0.03290354765097921, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.3851321994877363e-10, "train/cont_loss_std": 1.0834473677020136e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.3851321994877363e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.102808649341265, "train/dyn_loss_std": 4.948175465067227, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10835561947897077, "train/extr_critic_critic_opt_grad_steps": 40985.0, "train/extr_critic_critic_opt_loss": 9394.147338867188, "train/extr_critic_mag": 663.238161722819, "train/extr_critic_max": 663.238161722819, "train/extr_critic_mean": 625.3357543945312, "train/extr_critic_min": 436.17992846171063, "train/extr_critic_std": 42.120030879974365, "train/extr_return_normed_mag": 1.0339318638046582, "train/extr_return_normed_max": 1.0285135582089424, "train/extr_return_normed_mean": 0.7697953035434087, "train/extr_return_normed_min": -0.38577107650538284, "train/extr_return_normed_std": 0.314818580634892, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 660.2242228190104, "train/extr_return_raw_max": 660.2242228190104, "train/extr_return_raw_mean": 625.671957651774, "train/extr_return_raw_min": 471.35644086201984, "train/extr_return_raw_std": 42.067081371943154, "train/extr_reward_mag": 2.0013370911280313, "train/extr_reward_max": 2.0013370911280313, "train/extr_reward_mean": 1.497167021036148, "train/extr_reward_min": 0.0005605444312095642, "train/extr_reward_std": 0.6574966032058001, "train/image_loss_mean": 0.6164638654639324, "train/image_loss_std": 0.7911714414755503, "train/model_loss_mean": 2.282699796060721, "train/model_loss_std": 3.6325684785842896, "train/model_opt_grad_norm": 12.031459043423334, "train/model_opt_grad_steps": 40947.791666666664, "train/model_opt_loss": 12174.345642089844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5312.5, "train/policy_entropy_mag": 0.9706938527524471, "train/policy_entropy_max": 0.7907073820630709, "train/policy_entropy_mean": -0.8311121004323164, "train/policy_entropy_min": -0.8831653545300165, "train/policy_entropy_std": 0.1501419028112044, "train/policy_logprob_mag": 7.2217045823733015, "train/policy_logprob_max": 1.3828433627883594, "train/policy_logprob_mean": 0.8306708013017973, "train/policy_logprob_min": -7.2217045823733015, "train/policy_logprob_std": 0.7249352398018042, "train/policy_randomness_mag": 0.7271626653770605, "train/policy_randomness_max": 0.7271626653770605, "train/policy_randomness_mean": 0.022815466353980202, "train/policy_randomness_min": 0.00020900545465944256, "train/policy_randomness_std": 0.06520579689337562, "train/post_ent_mag": 48.91610519091288, "train/post_ent_max": 48.91610519091288, "train/post_ent_mean": 39.77984046936035, "train/post_ent_min": 18.81043114264806, "train/post_ent_std": 4.227581222852071, "train/prior_ent_mag": 59.905708154042564, "train/prior_ent_max": 59.905708154042564, "train/prior_ent_mean": 41.57051134109497, "train/prior_ent_min": 28.563510576883953, "train/prior_ent_std": 4.151494984825452, "train/rep_loss_mean": 2.102808649341265, "train/rep_loss_std": 4.948175465067227, "train/reward_avg": 1.4979375675320625, "train/reward_loss_mean": 0.40455075229207677, "train/reward_loss_std": 0.22972331009805202, "train/reward_max_data": 1.9994736090302467, "train/reward_max_pred": 1.9997750868399937, "train/reward_neg_acc": 0.9200364301602045, "train/reward_neg_loss": 0.47943268343806267, "train/reward_pos_acc": 0.9991933504740397, "train/reward_pos_loss": 0.40068501854936284, "train/reward_pred": 1.4974674731492996, "train/reward_rate": 0.94085693359375, "replay/size": 83489.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.292253203311209e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0705158366995342e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.5878987312317, "timer/env.step_count": 236.0, "timer/env.step_total": 5.695801734924316, "timer/env.step_frac": 0.018948872389627277, "timer/env.step_avg": 0.024134753114086086, "timer/env.step_min": 0.02057790756225586, "timer/env.step_max": 0.029898881912231445, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.17847132682800293, "timer/replay.add_frac": 0.0005937408910382706, "timer/replay.add_avg": 0.0001890586089279692, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0008182525634765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01792454719543457, "timer/logger.write_frac": 5.9631632780605263e-05, "timer/logger.write_avg": 0.01792454719543457, "timer/logger.write_min": 0.01792454719543457, "timer/logger.write_max": 0.01792454719543457, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7182323932647705, "timer/agent.policy_frac": 0.002389425510129975, "timer/agent.policy_avg": 0.003043357598579536, "timer/agent.policy_min": 0.0027396678924560547, "timer/agent.policy_max": 0.005883932113647461, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03521156311035156, "timer/dataset_frac": 0.00011714231763480175, "timer/dataset_avg": 7.460076930159229e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.6955108642578, "timer/agent.train_frac": 0.9770703082324127, "timer/agent.train_avg": 0.6222362518310547, "timer/agent.train_min": 0.5714805126190186, "timer/agent.train_max": 0.6603598594665527, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15033769607543945, "timer/agent.report_frac": 0.0005001455371623683, "timer/agent.report_avg": 0.15033769607543945, "timer/agent.report_min": 0.15033769607543945, "timer/agent.report_max": 0.15033769607543945, "fps": 6.280978607432871}
+{"step": 168336, "episode/length": 500.0, "episode/score": 991.8576265573502, "episode/sum_abs_reward": 991.8576265573502, "episode/reward_rate": 0.998003992015968}
+{"step": 169366, "train/action_mag": 1.7534013251040845, "train/action_max": 1.7218613599209076, "train/action_mean": 0.025123606807492833, "train/action_min": -1.3950373264069253, "train/action_std": 0.44510622734719135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.12531768276970437, "train/actor_opt_grad_steps": 41460.0, "train/actor_opt_loss": -21.49257309132434, "train/adv_mag": 0.9304849283492311, "train/adv_max": 0.8649905409584654, "train/adv_mean": 0.002433545056617809, "train/adv_min": -0.46601321405552804, "train/adv_std": 0.03346907329606883, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.4382637517877755e-10, "train/cont_loss_std": 8.822458331268265e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.4382637517877755e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9780909710742058, "train/dyn_loss_std": 4.510920062978217, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.09995962810167607, "train/extr_critic_critic_opt_grad_steps": 41460.0, "train/extr_critic_critic_opt_loss": 9604.336872506648, "train/extr_critic_mag": 664.2727570229388, "train/extr_critic_max": 664.2727570229388, "train/extr_critic_mean": 631.0290709150598, "train/extr_critic_min": 433.90539258591673, "train/extr_critic_std": 39.94497619791234, "train/extr_return_normed_mag": 1.070852852882223, "train/extr_return_normed_max": 1.030601866701816, "train/extr_return_normed_mean": 0.7915368384503304, "train/extr_return_normed_min": -0.4331278412285796, "train/extr_return_normed_std": 0.3208958684129918, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.0476515749667, "train/extr_return_raw_max": 661.0476515749667, "train/extr_return_raw_mean": 631.3317390604223, "train/extr_return_raw_min": 479.1726820925449, "train/extr_return_raw_std": 39.8581741617081, "train/extr_reward_mag": 2.001370227083247, "train/extr_reward_max": 2.001370227083247, "train/extr_reward_mean": 1.5834764926991565, "train/extr_reward_min": 0.0006386498187450653, "train/extr_reward_std": 0.6149490456631843, "train/image_loss_mean": 0.5639808723267089, "train/image_loss_std": 0.6995091647543805, "train/model_loss_mean": 2.1345490217208862, "train/model_loss_std": 3.294711371685596, "train/model_opt_grad_norm": 12.241649201575745, "train/model_opt_grad_steps": 41422.0, "train/model_opt_loss": 10672.745096409575, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9443981317763633, "train/policy_entropy_max": 0.6622975849090739, "train/policy_entropy_mean": -0.8428901522717578, "train/policy_entropy_min": -0.8831458370736305, "train/policy_entropy_std": 0.12480660008781767, "train/policy_logprob_mag": 6.921504690292034, "train/policy_logprob_max": 1.3828174205536539, "train/policy_logprob_mean": 0.8432595146463272, "train/policy_logprob_min": -6.921504690292034, "train/policy_logprob_std": 0.7208616175550095, "train/policy_randomness_mag": 0.6713950025274399, "train/policy_randomness_max": 0.6713950025274399, "train/policy_randomness_mean": 0.01770032078344771, "train/policy_randomness_min": 0.00021748177885533648, "train/policy_randomness_std": 0.05420281557722929, "train/post_ent_mag": 48.52300822481196, "train/post_ent_max": 48.52300822481196, "train/post_ent_mean": 39.75252208303898, "train/post_ent_min": 19.179972648620605, "train/post_ent_std": 3.907816836174498, "train/prior_ent_mag": 59.75881065206325, "train/prior_ent_max": 59.75881065206325, "train/prior_ent_mean": 41.43611599536652, "train/prior_ent_min": 29.9446832778606, "train/prior_ent_std": 3.9746176638501756, "train/rep_loss_mean": 1.9780909710742058, "train/rep_loss_std": 4.510920062978217, "train/reward_avg": 1.5849921703338623, "train/reward_loss_mean": 0.3837135522923571, "train/reward_loss_std": 0.22676900568160605, "train/reward_max_data": 1.9995794169446255, "train/reward_max_pred": 1.9998732069705396, "train/reward_neg_acc": 0.9276717749047787, "train/reward_neg_loss": 0.4644332008158907, "train/reward_pos_acc": 0.9992049006705589, "train/reward_pos_loss": 0.3803668909884514, "train/reward_pred": 1.5827061521246077, "train/reward_rate": 0.950693982712766, "stats/mean_log_entropy": -0.8764040321111679, "replay/size": 84431.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.334578528272625e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0780404833977896e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23301243782043, "timer/env.step_count": 235.0, "timer/env.step_total": 5.666412353515625, "timer/env.step_frac": 0.018873382069165907, "timer/env.step_avg": 0.02411239299368351, "timer/env.step_min": 0.01946282386779785, "timer/env.step_max": 0.03011918067932129, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18480420112609863, "timer/replay.add_frac": 0.000615535912008918, "timer/replay.add_avg": 0.0001961828037432045, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0019600391387939453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02384662628173828, "timer/logger.write_frac": 7.942706262748845e-05, "timer/logger.write_avg": 0.02384662628173828, "timer/logger.write_min": 0.02384662628173828, "timer/logger.write_max": 0.02384662628173828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003120899200439453, "timer/checkpoint.save_frac": 1.039492351323559e-06, "timer/checkpoint.save_avg": 0.0003120899200439453, "timer/checkpoint.save_min": 0.0003120899200439453, "timer/checkpoint.save_max": 0.0003120899200439453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.1492018699645996, "timer/agent.save_frac": 0.000496953578665837, "timer/agent.save_avg": 0.1492018699645996, "timer/agent.save_min": 0.1492018699645996, "timer/agent.save_max": 0.1492018699645996, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001049041748046875, "timer/replay.save_frac": 3.4940919372220474e-07, "timer/replay.save_avg": 0.0001049041748046875, "timer/replay.save_min": 0.0001049041748046875, "timer/replay.save_max": 0.0001049041748046875, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.8253693580627441, "timer/agent.policy_frac": 0.002749095948380033, "timer/agent.policy_avg": 0.0035122100343095495, "timer/agent.policy_min": 0.002718210220336914, "timer/agent.policy_max": 0.12127685546875, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03516221046447754, "timer/dataset_frac": 0.00011711640295305563, "timer/dataset_avg": 7.465437465918799e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.2341537475586, "timer/agent.train_frac": 0.9766885772039764, "timer/agent.train_avg": 0.622577821120082, "timer/agent.train_min": 0.579442024230957, "timer/agent.train_max": 0.6619174480438232, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1524977684020996, "timer/agent.report_frac": 0.0005079313802431455, "timer/agent.report_avg": 0.1524977684020996, "timer/agent.report_min": 0.1524977684020996, "timer/agent.report_max": 0.1524977684020996, "fps": 6.275061148735912}
+{"step": 171254, "train/action_mag": 1.8252856782142153, "train/action_max": 1.790210652858653, "train/action_mean": 0.018821741756487716, "train/action_min": -1.428473987477891, "train/action_std": 0.4462866466096107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.09731346495608066, "train/actor_opt_grad_steps": 41930.0, "train/actor_opt_loss": -19.328293123143784, "train/adv_mag": 0.9293113642550529, "train/adv_max": 0.8710543155036075, "train/adv_mean": 0.002213535644609402, "train/adv_min": -0.4183623435649466, "train/adv_std": 0.03188731755189439, "train/cont_avg": 1.0, "train/cont_loss_mean": 4.354764474555321e-10, "train/cont_loss_std": 8.760266495662509e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 4.354764474555321e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9814089283030083, "train/dyn_loss_std": 4.524919951215703, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.1011357992253405, "train/extr_critic_critic_opt_grad_steps": 41930.0, "train/extr_critic_critic_opt_loss": 9661.713534740691, "train/extr_critic_mag": 664.275033504405, "train/extr_critic_max": 664.275033504405, "train/extr_critic_mean": 632.190640063996, "train/extr_critic_min": 436.22762834264876, "train/extr_critic_std": 42.29433222019926, "train/extr_return_normed_mag": 1.0692689900702619, "train/extr_return_normed_max": 1.0275987158430384, "train/extr_return_normed_mean": 0.7966157743271362, "train/extr_return_normed_min": -0.5183865280742658, "train/extr_return_normed_std": 0.3425201894120967, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.0331304022607, "train/extr_return_raw_max": 661.0331304022607, "train/extr_return_raw_mean": 632.464287940492, "train/extr_return_raw_min": 470.181310126122, "train/extr_return_raw_std": 42.34187113985102, "train/extr_reward_mag": 2.0013027799890395, "train/extr_reward_max": 2.0013027799890395, "train/extr_reward_mean": 1.597177081919731, "train/extr_reward_min": 0.0006220594365546044, "train/extr_reward_std": 0.6093871193997403, "train/image_loss_mean": 0.5692417919635773, "train/image_loss_std": 0.6986781288968756, "train/model_loss_mean": 2.1358242694367755, "train/model_loss_std": 3.2993056571229977, "train/model_opt_grad_norm": 10.496158183889186, "train/model_opt_grad_steps": 41892.0, "train/model_opt_loss": 11579.7021484375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5425.531914893617, "train/policy_entropy_mag": 0.9451234518213475, "train/policy_entropy_max": 0.6496304818924438, "train/policy_entropy_mean": -0.8418110799282155, "train/policy_entropy_min": -0.8832075012491104, "train/policy_entropy_std": 0.13460890869510936, "train/policy_logprob_mag": 7.200067844796688, "train/policy_logprob_max": 1.3829277550920527, "train/policy_logprob_mean": 0.8416432687576781, "train/policy_logprob_min": -7.200067844796688, "train/policy_logprob_std": 0.7226342939315958, "train/policy_randomness_mag": 0.6658937461832737, "train/policy_randomness_max": 0.6658937461832737, "train/policy_randomness_mean": 0.018168956506997347, "train/policy_randomness_min": 0.0001907013681781617, "train/policy_randomness_std": 0.058459903054097866, "train/post_ent_mag": 48.4912618271848, "train/post_ent_max": 48.4912618271848, "train/post_ent_mean": 39.436859617842, "train/post_ent_min": 19.181716431962684, "train/post_ent_std": 3.9920284748077393, "train/prior_ent_mag": 59.30063896990837, "train/prior_ent_max": 59.30063896990837, "train/prior_ent_mean": 41.09337932505506, "train/prior_ent_min": 29.18372231341423, "train/prior_ent_std": 4.069877031001639, "train/rep_loss_mean": 1.9814089283030083, "train/rep_loss_std": 4.524919951215703, "train/reward_avg": 1.5951876893956611, "train/reward_loss_mean": 0.37773712645185753, "train/reward_loss_std": 0.2151913360712376, "train/reward_max_data": 1.9994087193874603, "train/reward_max_pred": 1.9999012135444802, "train/reward_neg_acc": 0.9251950433913697, "train/reward_neg_loss": 0.4661597279792136, "train/reward_pos_acc": 0.9992790577259469, "train/reward_pos_loss": 0.3740890806025647, "train/reward_pred": 1.5937440648992012, "train/reward_rate": 0.9534990026595744, "replay/size": 85375.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3000826269893325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0852907168663154e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4380691051483, "timer/env.step_count": 236.0, "timer/env.step_total": 5.690648317337036, "timer/env.step_frac": 0.0189411692542379, "timer/env.step_avg": 0.024112916598885745, "timer/env.step_min": 0.02017068862915039, "timer/env.step_max": 0.03092360496520996, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.17935895919799805, "timer/replay.add_frac": 0.000596991452289042, "timer/replay.add_avg": 0.0001899988974555064, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.0004596710205078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018880128860473633, "timer/logger.write_frac": 6.284199907391198e-05, "timer/logger.write_avg": 0.018880128860473633, "timer/logger.write_min": 0.018880128860473633, "timer/logger.write_max": 0.018880128860473633, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7122526168823242, "timer/agent.policy_frac": 0.002370713601654282, "timer/agent.policy_avg": 0.003018019563060696, "timer/agent.policy_min": 0.0027494430541992188, "timer/agent.policy_max": 0.00376129150390625, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03484344482421875, "timer/dataset_frac": 0.00011597546518655106, "timer/dataset_avg": 7.382085767842956e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001399517059326172, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.5494878292084, "timer/agent.train_frac": 0.9770715432419815, "timer/agent.train_avg": 0.6219268809940856, "timer/agent.train_min": 0.5735518932342529, "timer/agent.train_max": 0.6632111072540283, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15589570999145508, "timer/agent.report_frac": 0.0005188946609056197, "timer/agent.report_avg": 0.15589570999145508, "timer/agent.report_min": 0.15589570999145508, "timer/agent.report_max": 0.15589570999145508, "fps": 6.284131683093065}
+{"step": 172344, "episode/length": 500.0, "episode/score": 993.3806048631668, "episode/sum_abs_reward": 993.3806048631668, "episode/reward_rate": 0.998003992015968}
+{"step": 173142, "train/action_mag": 1.718259111363837, "train/action_max": 1.7042756917628836, "train/action_mean": 0.022922128621003332, "train/action_min": -1.3691447542068806, "train/action_std": 0.4589317390259276, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.10223135855445202, "train/actor_opt_grad_steps": 42400.0, "train/actor_opt_loss": -20.895833135919368, "train/adv_mag": 0.9179608238504288, "train/adv_max": 0.8425049220627927, "train/adv_mean": 0.002377832950379401, "train/adv_min": -0.466916486937949, "train/adv_std": 0.03515830180270875, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.9991979940411774e-10, "train/cont_loss_std": 8.533445132552261e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.9991979940411774e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.0053892186347473, "train/dyn_loss_std": 4.594186067581177, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10883587444240743, "train/extr_critic_critic_opt_grad_steps": 42400.0, "train/extr_critic_critic_opt_loss": 9817.845370678191, "train/extr_critic_mag": 664.5734876267453, "train/extr_critic_max": 664.5734876267453, "train/extr_critic_mean": 631.7372579371676, "train/extr_critic_min": 447.37856568681434, "train/extr_critic_std": 37.28968712624083, "train/extr_return_normed_mag": 1.054942988334818, "train/extr_return_normed_max": 1.0271583186819198, "train/extr_return_normed_mean": 0.7933445103625034, "train/extr_return_normed_min": -0.35077341996192773, "train/extr_return_normed_std": 0.29720579222478766, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.2779138443318, "train/extr_return_raw_max": 661.2779138443318, "train/extr_return_raw_mean": 632.0344121405419, "train/extr_return_raw_min": 488.9097705597573, "train/extr_return_raw_std": 37.174647189201195, "train/extr_reward_mag": 2.0011754999769495, "train/extr_reward_max": 2.0011754999769495, "train/extr_reward_mean": 1.5544833553598283, "train/extr_reward_min": 0.0006107370904151429, "train/extr_reward_std": 0.6097448537958429, "train/image_loss_mean": 0.5788971952935482, "train/image_loss_std": 0.7100489913149083, "train/model_loss_mean": 2.179223669336197, "train/model_loss_std": 3.344583622952725, "train/model_opt_grad_norm": 11.924833652820993, "train/model_opt_grad_steps": 42361.425531914894, "train/model_opt_loss": 15442.215425531915, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7127.659574468085, "train/policy_entropy_mag": 0.9408244883760493, "train/policy_entropy_max": 0.5628391846697381, "train/policy_entropy_mean": -0.8490307774949581, "train/policy_entropy_min": -0.8832515376679441, "train/policy_entropy_std": 0.10678025929534689, "train/policy_logprob_mag": 7.399931116307036, "train/policy_logprob_max": 1.3829743380242205, "train/policy_logprob_mean": 0.8490087123627358, "train/policy_logprob_min": -7.399931116307036, "train/policy_logprob_std": 0.7198528748877505, "train/policy_randomness_mag": 0.6282007725948983, "train/policy_randomness_max": 0.6282007725948983, "train/policy_randomness_mean": 0.015033483520110554, "train/policy_randomness_min": 0.00017157659656615888, "train/policy_randomness_std": 0.046374075293065385, "train/post_ent_mag": 48.714575097915976, "train/post_ent_max": 48.714575097915976, "train/post_ent_mean": 39.664536334098656, "train/post_ent_min": 19.18360549845594, "train/post_ent_std": 4.106766786981137, "train/prior_ent_mag": 59.78451408223903, "train/prior_ent_max": 59.78451408223903, "train/prior_ent_mean": 41.35886366823886, "train/prior_ent_min": 30.14157303343428, "train/prior_ent_std": 4.208469964088278, "train/rep_loss_mean": 2.0053892186347473, "train/rep_loss_std": 4.594186067581177, "train/reward_avg": 1.556567245341362, "train/reward_loss_mean": 0.39709295110499604, "train/reward_loss_std": 0.22728194232950819, "train/reward_max_data": 1.9993790235925228, "train/reward_max_pred": 1.99965238571167, "train/reward_neg_acc": 0.9068322612884196, "train/reward_neg_loss": 0.4913775299457794, "train/reward_pos_acc": 0.9990416689121977, "train/reward_pos_loss": 0.39290243133585506, "train/reward_pred": 1.5554968803486926, "train/reward_rate": 0.9479512965425532, "stats/mean_log_entropy": -0.8777911514043808, "replay/size": 86319.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.344533548516742e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0689688941179695e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4936430454254, "timer/env.step_count": 236.0, "timer/env.step_total": 5.678825378417969, "timer/env.step_frac": 0.01889832117865969, "timer/env.step_avg": 0.024062819400076138, "timer/env.step_min": 0.020650148391723633, "timer/env.step_max": 0.028773784637451172, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18516278266906738, "timer/replay.add_frac": 0.0006161953404154924, "timer/replay.add_avg": 0.0001961470155392663, "timer/replay.add_min": 4.076957702636719e-05, "timer/replay.add_max": 0.0009748935699462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.014486312866210938, "timer/logger.write_frac": 4.820838377609556e-05, "timer/logger.write_avg": 0.014486312866210938, "timer/logger.write_min": 0.014486312866210938, "timer/logger.write_max": 0.014486312866210938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7122633457183838, "timer/agent.policy_frac": 0.0023703108608214766, "timer/agent.policy_avg": 0.0030180650242304396, "timer/agent.policy_min": 0.0027446746826171875, "timer/agent.policy_max": 0.004042148590087891, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0355381965637207, "timer/dataset_frac": 0.00011826605116684089, "timer/dataset_avg": 7.529278932991675e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00018358230590820312, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.6040005683899, "timer/agent.train_frac": 0.9770722521541195, "timer/agent.train_avg": 0.6220423740855718, "timer/agent.train_min": 0.5661239624023438, "timer/agent.train_max": 0.6607794761657715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15265178680419922, "timer/agent.report_frac": 0.000508003381559466, "timer/agent.report_avg": 0.15265178680419922, "timer/agent.report_min": 0.15265178680419922, "timer/agent.report_max": 0.15265178680419922, "fps": 6.282967034320642}
+{"step": 175030, "train/action_mag": 1.7232125845361264, "train/action_max": 1.7101089472466326, "train/action_mean": 0.020199986987132976, "train/action_min": -1.3865596842258534, "train/action_std": 0.4422408678430192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08726117724275335, "train/actor_opt_grad_steps": 42870.0, "train/actor_opt_loss": -17.966544884792032, "train/adv_mag": 0.9796854124424306, "train/adv_max": 0.9294171992768633, "train/adv_mean": 0.0020789589203133725, "train/adv_min": -0.44600072661612894, "train/adv_std": 0.030292165822329672, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.7767795156071616e-10, "train/cont_loss_std": 9.298632762123213e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.7767795156071616e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.968335544809382, "train/dyn_loss_std": 4.5122171919396585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.08981440588831902, "train/extr_critic_critic_opt_grad_steps": 42870.0, "train/extr_critic_critic_opt_loss": 9842.98129986702, "train/extr_critic_mag": 664.6133552713598, "train/extr_critic_max": 664.6133552713598, "train/extr_critic_mean": 633.771627223238, "train/extr_critic_min": 434.9052929168052, "train/extr_critic_std": 40.39427428549909, "train/extr_return_normed_mag": 1.0485511155838663, "train/extr_return_normed_max": 1.0215487023617358, "train/extr_return_normed_mean": 0.8101821833468498, "train/extr_return_normed_min": -0.4084025586043742, "train/extr_return_normed_std": 0.316265751072701, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.0346419963431, "train/extr_return_raw_max": 661.0346419963431, "train/extr_return_raw_mean": 634.036305529006, "train/extr_return_raw_min": 478.3610093137051, "train/extr_return_raw_std": 40.40621173128169, "train/extr_reward_mag": 2.001611461030676, "train/extr_reward_max": 2.001611461030676, "train/extr_reward_mean": 1.5908015560596547, "train/extr_reward_min": 0.0007029467440666037, "train/extr_reward_std": 0.6113014449464514, "train/image_loss_mean": 0.5659723560860817, "train/image_loss_std": 0.7256446842183458, "train/model_loss_mean": 2.125149536640086, "train/model_loss_std": 3.3159747630991836, "train/model_opt_grad_norm": 11.580047171166603, "train/model_opt_grad_steps": 42831.0, "train/model_opt_loss": 10625.747589760638, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9328823761737093, "train/policy_entropy_max": 0.646468886669646, "train/policy_entropy_mean": -0.8504222022726181, "train/policy_entropy_min": -0.8832787579678475, "train/policy_entropy_std": 0.11142054239803172, "train/policy_logprob_mag": 6.963332632754711, "train/policy_logprob_max": 1.383034660461101, "train/policy_logprob_mean": 0.8503469469699454, "train/policy_logprob_min": -6.963332632754711, "train/policy_logprob_std": 0.71667447242331, "train/policy_randomness_mag": 0.664520688513492, "train/policy_randomness_max": 0.664520688513492, "train/policy_randomness_mean": 0.014429200247445323, "train/policy_randomness_min": 0.00015975497142867523, "train/policy_randomness_std": 0.048389324244666604, "train/post_ent_mag": 48.764186534475776, "train/post_ent_max": 48.764186534475776, "train/post_ent_mean": 39.56691522801176, "train/post_ent_min": 19.375755411513307, "train/post_ent_std": 4.0583112138382935, "train/prior_ent_mag": 59.606667051924035, "train/prior_ent_max": 59.606667051924035, "train/prior_ent_mean": 41.20861313190866, "train/prior_ent_min": 30.163877081363758, "train/prior_ent_std": 4.178790275086748, "train/rep_loss_mean": 1.968335544809382, "train/rep_loss_std": 4.5122171919396585, "train/reward_avg": 1.5878018140792847, "train/reward_loss_mean": 0.37817584136699106, "train/reward_loss_std": 0.2216120149860991, "train/reward_max_data": 1.9995684547627226, "train/reward_max_pred": 2.0001599890120487, "train/reward_neg_acc": 0.9227841433058394, "train/reward_neg_loss": 0.47759085449766603, "train/reward_pos_acc": 0.999197264935108, "train/reward_pos_loss": 0.37358366555355965, "train/reward_pred": 1.585903175333713, "train/reward_rate": 0.9498628656914894, "replay/size": 87263.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3571616512233926e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0781242685802913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00384974479675, "timer/env.step_count": 236.0, "timer/env.step_total": 5.669116735458374, "timer/env.step_frac": 0.018896813291832428, "timer/env.step_avg": 0.024021681082450737, "timer/env.step_min": 0.01960897445678711, "timer/env.step_max": 0.031831979751586914, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18437504768371582, "timer/replay.add_frac": 0.0006145756057482513, "timer/replay.add_avg": 0.00019531255051241083, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0020859241485595703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.015082836151123047, "timer/logger.write_frac": 5.0275475344578114e-05, "timer/logger.write_avg": 0.015082836151123047, "timer/logger.write_min": 0.015082836151123047, "timer/logger.write_max": 0.015082836151123047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020456314086914062, "timer/checkpoint.save_frac": 6.818683861662297e-07, "timer/checkpoint.save_avg": 0.00020456314086914062, "timer/checkpoint.save_min": 0.00020456314086914062, "timer/checkpoint.save_max": 0.00020456314086914062, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07627606391906738, "timer/agent.save_frac": 0.000254250283734535, "timer/agent.save_avg": 0.07627606391906738, "timer/agent.save_min": 0.07627606391906738, "timer/agent.save_max": 0.07627606391906738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00011706352233886719, "timer/replay.save_frac": 3.902067338084135e-07, "timer/replay.save_avg": 0.00011706352233886719, "timer/replay.save_min": 0.00011706352233886719, "timer/replay.save_max": 0.00011706352233886719, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7548682689666748, "timer/agent.policy_frac": 0.0025161952741900345, "timer/agent.policy_avg": 0.003198594360028283, "timer/agent.policy_min": 0.002733469009399414, "timer/agent.policy_max": 0.04512596130371094, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03514432907104492, "timer/dataset_frac": 0.00011714626029279633, "timer/dataset_avg": 7.445832430306128e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001404285430908203, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.1058416366577, "timer/agent.train_frac": 0.9770069346976482, "timer/agent.train_avg": 0.6209869526200376, "timer/agent.train_min": 0.5727472305297852, "timer/agent.train_max": 0.659916877746582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.14385008811950684, "timer/agent.report_frac": 0.0004794941406314462, "timer/agent.report_avg": 0.14385008811950684, "timer/agent.report_min": 0.14385008811950684, "timer/agent.report_max": 0.14385008811950684, "fps": 6.293225322966516}
+{"step": 176352, "episode/length": 500.0, "episode/score": 993.7669841051102, "episode/sum_abs_reward": 993.7669841051102, "episode/reward_rate": 0.998003992015968}
+{"step": 176918, "train/action_mag": 1.6763572245836258, "train/action_max": 1.6328374668955803, "train/action_mean": 0.005009407645654089, "train/action_min": -1.414573905368646, "train/action_std": 0.44779682407776517, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08464410109445453, "train/actor_opt_grad_steps": 43345.0, "train/actor_opt_loss": -19.092171860625967, "train/adv_mag": 0.8500822130590677, "train/adv_max": 0.7706575142219663, "train/adv_mean": 0.0021946816023046267, "train/adv_min": -0.4317823213835557, "train/adv_std": 0.03154628295063352, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.6144998626086444e-10, "train/cont_loss_std": 8.432380696477004e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.6144998626086444e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.998571328818798, "train/dyn_loss_std": 4.61422095199426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.09960297875416775, "train/extr_critic_critic_opt_grad_steps": 43345.0, "train/extr_critic_critic_opt_loss": 10024.163716634115, "train/extr_critic_mag": 664.7715199788412, "train/extr_critic_max": 664.7715199788412, "train/extr_critic_mean": 634.6796696980795, "train/extr_critic_min": 450.4767901102702, "train/extr_critic_std": 36.86248026291529, "train/extr_return_normed_mag": 1.0339638118942578, "train/extr_return_normed_max": 1.0180701836943626, "train/extr_return_normed_mean": 0.8095982273419698, "train/extr_return_normed_min": -0.3640530731063336, "train/extr_return_normed_std": 0.29526118841022253, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 660.8287442525228, "train/extr_return_raw_max": 660.8287442525228, "train/extr_return_raw_mean": 634.9540150960287, "train/extr_return_raw_min": 489.3411947886149, "train/extr_return_raw_std": 36.66351763407389, "train/extr_reward_mag": 2.0014219532410302, "train/extr_reward_max": 2.0014219532410302, "train/extr_reward_mean": 1.5734336872895558, "train/extr_reward_min": 0.006718665361404419, "train/extr_reward_std": 0.6203782334923744, "train/image_loss_mean": 0.5581329483538866, "train/image_loss_std": 0.6990468725562096, "train/model_loss_mean": 2.135892301797867, "train/model_loss_std": 3.3569724212090173, "train/model_opt_grad_norm": 10.683596869309744, "train/model_opt_grad_steps": 43305.604166666664, "train/model_opt_loss": 11336.80892944336, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5312.5, "train/policy_entropy_mag": 0.9207131899893284, "train/policy_entropy_max": 0.520366999010245, "train/policy_entropy_mean": -0.8516282228132089, "train/policy_entropy_min": -0.8832845191160837, "train/policy_entropy_std": 0.10537615263213714, "train/policy_logprob_mag": 7.442064821720123, "train/policy_logprob_max": 1.3830646052956581, "train/policy_logprob_mean": 0.8513806499540806, "train/policy_logprob_min": -7.442064821720123, "train/policy_logprob_std": 0.7175638141731421, "train/policy_randomness_mag": 0.6097553341339031, "train/policy_randomness_max": 0.6097553341339031, "train/policy_randomness_mean": 0.013905430595817355, "train/policy_randomness_min": 0.0001572529361813698, "train/policy_randomness_std": 0.04576427883390958, "train/post_ent_mag": 48.95885125796, "train/post_ent_max": 48.95885125796, "train/post_ent_mean": 39.41821893056234, "train/post_ent_min": 19.27709350983302, "train/post_ent_std": 4.071194087465604, "train/prior_ent_mag": 59.931795279184975, "train/prior_ent_max": 59.931795279184975, "train/prior_ent_mean": 41.090126037597656, "train/prior_ent_min": 29.674384514490765, "train/prior_ent_std": 4.259576027592023, "train/rep_loss_mean": 1.998571328818798, "train/rep_loss_std": 4.61422095199426, "train/reward_avg": 1.573138068119685, "train/reward_loss_mean": 0.3786165453493595, "train/reward_loss_std": 0.21987430130441984, "train/reward_max_data": 1.9995834107200305, "train/reward_max_pred": 1.9997101128101349, "train/reward_neg_acc": 0.9267893496980059, "train/reward_neg_loss": 0.4648499140079985, "train/reward_pos_acc": 0.9990899687012037, "train/reward_pos_loss": 0.37470874066154164, "train/reward_pred": 1.572004127005736, "train/reward_rate": 0.9508260091145834, "stats/mean_log_entropy": -0.8791835457086563, "replay/size": 88207.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.315994036399712e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0775875742152585e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03322196006775, "timer/env.step_count": 236.0, "timer/env.step_total": 5.713138580322266, "timer/env.step_frac": 0.01904168659390207, "timer/env.step_avg": 0.02420821432339943, "timer/env.step_min": 0.020543575286865234, "timer/env.step_max": 0.0305328369140625, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18059515953063965, "timer/replay.add_frac": 0.0006019172088705415, "timer/replay.add_avg": 0.00019130843170618608, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.003099203109741211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02199411392211914, "timer/logger.write_frac": 7.330559522187312e-05, "timer/logger.write_avg": 0.02199411392211914, "timer/logger.write_min": 0.02199411392211914, "timer/logger.write_max": 0.02199411392211914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7114038467407227, "timer/agent.policy_frac": 0.0023710835823221115, "timer/agent.policy_avg": 0.0030144230794098416, "timer/agent.policy_min": 0.0027251243591308594, "timer/agent.policy_max": 0.0044727325439453125, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03484630584716797, "timer/dataset_frac": 0.00011614149133060258, "timer/dataset_avg": 7.382691916772874e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00014853477478027344, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.10692834854126, "timer/agent.train_frac": 0.9769149110679206, "timer/agent.train_avg": 0.620989254975723, "timer/agent.train_min": 0.5708420276641846, "timer/agent.train_max": 0.662222146987915, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15390968322753906, "timer/agent.report_frac": 0.000512975470589798, "timer/agent.report_avg": 0.15390968322753906, "timer/agent.report_min": 0.15390968322753906, "timer/agent.report_max": 0.15390968322753906, "fps": 6.2926085705839}
+{"step": 178806, "train/action_mag": 1.827017144953951, "train/action_max": 1.8107428373174463, "train/action_mean": 0.02765094047967107, "train/action_min": -1.3864772243702665, "train/action_std": 0.47593077827007213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.11418424614090869, "train/actor_opt_grad_steps": 43820.0, "train/actor_opt_loss": -20.769135497431172, "train/adv_mag": 0.9150798847066596, "train/adv_max": 0.8335796261721469, "train/adv_mean": 0.0023656525582408266, "train/adv_min": -0.4867621102231614, "train/adv_std": 0.03442099397169783, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.417062283246767e-10, "train/cont_loss_std": 7.50886103295656e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.417062283246767e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.020040920440187, "train/dyn_loss_std": 4.665073562175669, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.10306856448345995, "train/extr_critic_critic_opt_grad_steps": 43820.0, "train/extr_critic_critic_opt_loss": 9977.883394281915, "train/extr_critic_mag": 664.2626940138797, "train/extr_critic_max": 664.2626940138797, "train/extr_critic_mean": 632.027061949385, "train/extr_critic_min": 442.4552673989154, "train/extr_critic_std": 42.61424076810796, "train/extr_return_normed_mag": 1.0587301736182355, "train/extr_return_normed_max": 1.0226675652443094, "train/extr_return_normed_mean": 0.7779644321888051, "train/extr_return_normed_min": -0.5261706230329707, "train/extr_return_normed_std": 0.3567149689856996, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.5605066177693, "train/extr_return_raw_max": 661.5605066177693, "train/extr_return_raw_mean": 632.3077678274601, "train/extr_return_raw_min": 476.7019276720412, "train/extr_return_raw_std": 42.61961640702917, "train/extr_reward_mag": 2.0012856899423803, "train/extr_reward_max": 2.0012856899423803, "train/extr_reward_mean": 1.555425058019922, "train/extr_reward_min": 0.0006068082565956927, "train/extr_reward_std": 0.6329315837393416, "train/image_loss_mean": 0.5776517543386905, "train/image_loss_std": 0.7322060072675665, "train/model_loss_mean": 2.1771123104907097, "train/model_loss_std": 3.4023900590044387, "train/model_opt_grad_norm": 11.255908113844852, "train/model_opt_grad_steps": 43780.0, "train/model_opt_loss": 10885.5615234375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.962722307824074, "train/policy_entropy_max": 0.681600460346709, "train/policy_entropy_mean": -0.8448694931699875, "train/policy_entropy_min": -0.8833108176576331, "train/policy_entropy_std": 0.12764024203445049, "train/policy_logprob_mag": 7.2797243037122366, "train/policy_logprob_max": 1.3830717193319442, "train/policy_logprob_mean": 0.8442273266772007, "train/policy_logprob_min": -7.2797243037122366, "train/policy_logprob_std": 0.7214520091706134, "train/policy_randomness_mag": 0.6797781326669328, "train/policy_randomness_max": 0.6797781326669328, "train/policy_randomness_mean": 0.016840707282832962, "train/policy_randomness_min": 0.00014583162555936724, "train/policy_randomness_std": 0.05543345048468798, "train/post_ent_mag": 49.2459991130423, "train/post_ent_max": 49.2459991130423, "train/post_ent_mean": 39.364576542631106, "train/post_ent_min": 18.865959066025756, "train/post_ent_std": 4.226366139472799, "train/prior_ent_mag": 59.7603688341506, "train/prior_ent_max": 59.7603688341506, "train/prior_ent_mean": 41.04528394658515, "train/prior_ent_min": 28.806103117922518, "train/prior_ent_std": 4.36444696974247, "train/rep_loss_mean": 2.020040920440187, "train/rep_loss_std": 4.665073562175669, "train/reward_avg": 1.56184532287273, "train/reward_loss_mean": 0.38743597142239833, "train/reward_loss_std": 0.2341674344336733, "train/reward_max_data": 1.9994059851829042, "train/reward_max_pred": 2.0000071018300156, "train/reward_neg_acc": 0.9018057026761643, "train/reward_neg_loss": 0.49167613463198884, "train/reward_pos_acc": 0.9994479164164117, "train/reward_pos_loss": 0.3822715288781105, "train/reward_pred": 1.5605657024586455, "train/reward_rate": 0.9473487367021277, "replay/size": 89151.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.313720977912515e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0667274058875392e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0707674026489, "timer/env.step_count": 236.0, "timer/env.step_total": 5.669186353683472, "timer/env.step_frac": 0.01889283119030483, "timer/env.step_avg": 0.024021976074929965, "timer/env.step_min": 0.019131183624267578, "timer/env.step_max": 0.03108501434326172, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18290400505065918, "timer/replay.add_frac": 0.0006095362325155455, "timer/replay.add_avg": 0.00019375424263841015, "timer/replay.add_min": 3.981590270996094e-05, "timer/replay.add_max": 0.002475261688232422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.014545202255249023, "timer/logger.write_frac": 4.847257325713302e-05, "timer/logger.write_avg": 0.014545202255249023, "timer/logger.write_min": 0.014545202255249023, "timer/logger.write_max": 0.014545202255249023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.71559739112854, "timer/agent.policy_frac": 0.002384762092364426, "timer/agent.policy_avg": 0.003032192335290424, "timer/agent.policy_min": 0.002773284912109375, "timer/agent.policy_max": 0.0037364959716796875, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03538155555725098, "timer/dataset_frac": 0.00011791070440985129, "timer/dataset_avg": 7.496092279078596e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00021386146545410156, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.20315289497375, "timer/agent.train_frac": 0.9771133504035737, "timer/agent.train_avg": 0.6211931205401986, "timer/agent.train_min": 0.5707886219024658, "timer/agent.train_max": 0.6611380577087402, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15414977073669434, "timer/agent.report_frac": 0.0005137113890532662, "timer/agent.report_avg": 0.15414977073669434, "timer/agent.report_min": 0.15414977073669434, "timer/agent.report_max": 0.15414977073669434, "fps": 6.29178338268418}
+{"step": 180360, "episode/length": 500.0, "episode/score": 994.6114200353622, "episode/sum_abs_reward": 994.6114200353622, "episode/reward_rate": 0.998003992015968}
+{"step": 180694, "train/action_mag": 1.8128174391198666, "train/action_max": 1.7966002352694248, "train/action_mean": 0.03356097031761199, "train/action_min": -1.379188157142477, "train/action_std": 0.46391590288344847, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07957311802880561, "train/actor_opt_grad_steps": 44290.0, "train/actor_opt_loss": -15.9323753277038, "train/adv_mag": 0.7705291389150822, "train/adv_max": 0.7162534645263184, "train/adv_mean": 0.001872957536568023, "train/adv_min": -0.4217866519664196, "train/adv_std": 0.03129409955061497, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.446004953020593e-10, "train/cont_loss_std": 9.345477423842624e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.446004953020593e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9960117137178461, "train/dyn_loss_std": 4.591979123176412, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.11080418059483488, "train/extr_critic_critic_opt_grad_steps": 44290.0, "train/extr_critic_critic_opt_loss": 10032.037815824468, "train/extr_critic_mag": 665.0437063663563, "train/extr_critic_max": 665.0437063663563, "train/extr_critic_mean": 634.1169927069482, "train/extr_critic_min": 459.1185107941323, "train/extr_critic_std": 40.28380207305259, "train/extr_return_normed_mag": 1.0410932936566941, "train/extr_return_normed_max": 1.0269974622320621, "train/extr_return_normed_mean": 0.7953178946008074, "train/extr_return_normed_min": -0.4038785714012115, "train/extr_return_normed_std": 0.33007385629288694, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 662.6486193068484, "train/extr_return_raw_max": 662.6486193068484, "train/extr_return_raw_mean": 634.344895383145, "train/extr_return_raw_min": 487.9178181100399, "train/extr_return_raw_std": 40.31507585403767, "train/extr_reward_mag": 2.001536414978352, "train/extr_reward_max": 2.001536414978352, "train/extr_reward_mean": 1.5704592440990692, "train/extr_reward_min": 0.0005956964289888422, "train/extr_reward_std": 0.6267709700351066, "train/image_loss_mean": 0.5533237267047801, "train/image_loss_std": 0.6872963106378596, "train/model_loss_mean": 2.130581652864497, "train/model_loss_std": 3.326517810212805, "train/model_opt_grad_norm": 10.505970295439376, "train/model_opt_grad_steps": 44249.89361702128, "train/model_opt_loss": 12356.567673703457, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5851.063829787234, "train/policy_entropy_mag": 0.9569278067730843, "train/policy_entropy_max": 0.6238930288781511, "train/policy_entropy_mean": -0.8427597728181393, "train/policy_entropy_min": -0.8833339949871631, "train/policy_entropy_std": 0.13484095809783073, "train/policy_logprob_mag": 7.298969147053171, "train/policy_logprob_max": 1.383091206246234, "train/policy_logprob_mean": 0.8431430294158611, "train/policy_logprob_min": -7.298969147053171, "train/policy_logprob_std": 0.7223416604894273, "train/policy_randomness_mag": 0.6547161144144992, "train/policy_randomness_max": 0.6547161144144992, "train/policy_randomness_mean": 0.017756945671553306, "train/policy_randomness_min": 0.00013576584024121985, "train/policy_randomness_std": 0.05856068077635892, "train/post_ent_mag": 48.72530007869639, "train/post_ent_max": 48.72530007869639, "train/post_ent_mean": 39.304471766695066, "train/post_ent_min": 19.21829073479835, "train/post_ent_std": 4.14068229655002, "train/prior_ent_mag": 59.83020254906187, "train/prior_ent_max": 59.83020254906187, "train/prior_ent_mean": 40.94807214939848, "train/prior_ent_min": 28.66226277452834, "train/prior_ent_std": 4.321095324577169, "train/rep_loss_mean": 1.9960117137178461, "train/rep_loss_std": 4.591979123176412, "train/reward_avg": 1.5763437342136464, "train/reward_loss_mean": 0.3796508978021906, "train/reward_loss_std": 0.2176406849571999, "train/reward_max_data": 1.9996226011438574, "train/reward_max_pred": 2.000158614300667, "train/reward_neg_acc": 0.9148279935755628, "train/reward_neg_loss": 0.48295294287356927, "train/reward_pos_acc": 0.9992027701215541, "train/reward_pos_loss": 0.374477522804382, "train/reward_pred": 1.5748162776865857, "train/reward_rate": 0.9484499667553191, "stats/mean_log_entropy": -0.8798846006393433, "replay/size": 90095.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.315741474345579e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0732940192949974e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4445848464966, "timer/env.step_count": 236.0, "timer/env.step_total": 5.683240175247192, "timer/env.step_frac": 0.018916101210979985, "timer/env.step_avg": 0.024081526166301662, "timer/env.step_min": 0.020514249801635742, "timer/env.step_max": 0.029056549072265625, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18154287338256836, "timer/replay.add_frac": 0.0006042474470802075, "timer/replay.add_avg": 0.0001923123658713648, "timer/replay.add_min": 3.9577484130859375e-05, "timer/replay.add_max": 0.0008742809295654297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020191431045532227, "timer/logger.write_frac": 6.72051754763643e-05, "timer/logger.write_avg": 0.020191431045532227, "timer/logger.write_min": 0.020191431045532227, "timer/logger.write_max": 0.020191431045532227, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00014853477478027344, "timer/checkpoint.save_frac": 4.943832649077798e-07, "timer/checkpoint.save_avg": 0.00014853477478027344, "timer/checkpoint.save_min": 0.00014853477478027344, "timer/checkpoint.save_max": 0.00014853477478027344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.08861351013183594, "timer/agent.save_frac": 0.00029494127902857835, "timer/agent.save_avg": 0.08861351013183594, "timer/agent.save_min": 0.08861351013183594, "timer/agent.save_max": 0.08861351013183594, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.0076880581327172e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7722978591918945, "timer/agent.policy_frac": 0.0025705168212183877, "timer/agent.policy_avg": 0.003272448555897858, "timer/agent.policy_min": 0.0027294158935546875, "timer/agent.policy_max": 0.06231403350830078, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035338401794433594, "timer/dataset_frac": 0.00011762036520807563, "timer/dataset_avg": 7.486949532718982e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00017547607421875, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.48579812049866, "timer/agent.train_frac": 0.9768383686144541, "timer/agent.train_avg": 0.621791945170548, "timer/agent.train_min": 0.571157693862915, "timer/agent.train_max": 0.6584479808807373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1563558578491211, "timer/agent.report_frac": 0.0005204149641405804, "timer/agent.report_avg": 0.1563558578491211, "timer/agent.report_min": 0.1563558578491211, "timer/agent.report_max": 0.1563558578491211, "fps": 6.283989296019433}
+{"step": 182582, "train/action_mag": 1.7286904061094244, "train/action_max": 1.7112228261663558, "train/action_mean": 0.029785692387141606, "train/action_min": -1.3781972946004664, "train/action_std": 0.45140874322424546, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08956583807284528, "train/actor_opt_grad_steps": 44760.0, "train/actor_opt_loss": -8.16399956764059, "train/adv_mag": 0.8123229000162571, "train/adv_max": 0.7021286836329926, "train/adv_mean": 0.0010848682332892923, "train/adv_min": -0.4727719312018536, "train/adv_std": 0.031588601186237436, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.2402813174942207e-10, "train/cont_loss_std": 7.057815921530723e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.2402813174942207e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9326693453687303, "train/dyn_loss_std": 4.377812415995496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.08851376857529296, "train/extr_critic_critic_opt_grad_steps": 44760.0, "train/extr_critic_critic_opt_loss": 10184.464178856382, "train/extr_critic_mag": 665.3789958548039, "train/extr_critic_max": 665.3789958548039, "train/extr_critic_mean": 636.3511677194149, "train/extr_critic_min": 479.5861335916722, "train/extr_critic_std": 35.61458597791956, "train/extr_return_normed_mag": 1.0414408901904493, "train/extr_return_normed_max": 1.0139198201767943, "train/extr_return_normed_mean": 0.8030817800379814, "train/extr_return_normed_min": -0.33716082917476825, "train/extr_return_normed_std": 0.3017350825223517, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.3818450278425, "train/extr_return_raw_max": 661.3818450278425, "train/extr_return_raw_mean": 636.4804960210273, "train/extr_return_raw_min": 501.2033522585605, "train/extr_return_raw_std": 35.67648954594389, "train/extr_reward_mag": 2.001660022329777, "train/extr_reward_max": 2.001660022329777, "train/extr_reward_mean": 1.5840926094258085, "train/extr_reward_min": 0.0040531970084981715, "train/extr_reward_std": 0.6048810412275031, "train/image_loss_mean": 0.5441269709708842, "train/image_loss_std": 0.6592433198969415, "train/model_loss_mean": 2.0815756041952906, "train/model_loss_std": 3.180393198703198, "train/model_opt_grad_norm": 11.330865362857251, "train/model_opt_grad_steps": 44719.0, "train/model_opt_loss": 10407.878012799201, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9453374007914929, "train/policy_entropy_max": 0.6000311197118556, "train/policy_entropy_mean": -0.8532764619969307, "train/policy_entropy_min": -0.8833542859300654, "train/policy_entropy_std": 0.10623372155935207, "train/policy_logprob_mag": 6.9912561457207865, "train/policy_logprob_max": 1.3831597490513579, "train/policy_logprob_mean": 0.8517905486390945, "train/policy_logprob_min": -6.9912561457207865, "train/policy_logprob_std": 0.7195441849688267, "train/policy_randomness_mag": 0.6443530149916386, "train/policy_randomness_max": 0.6443530149916386, "train/policy_randomness_mean": 0.013189610059155112, "train/policy_randomness_min": 0.00012695359544793858, "train/policy_randomness_std": 0.04613671705443809, "train/post_ent_mag": 49.00645463010098, "train/post_ent_max": 49.00645463010098, "train/post_ent_mean": 39.39111401172394, "train/post_ent_min": 19.419729395115628, "train/post_ent_std": 4.116892713181516, "train/prior_ent_mag": 60.08601606653092, "train/prior_ent_max": 60.08601606653092, "train/prior_ent_mean": 41.006000194143745, "train/prior_ent_min": 30.13423923735923, "train/prior_ent_std": 4.347202245225298, "train/rep_loss_mean": 1.9326693453687303, "train/rep_loss_std": 4.377812415995496, "train/reward_avg": 1.590122215291287, "train/reward_loss_mean": 0.37784701585769653, "train/reward_loss_std": 0.22785283815353474, "train/reward_max_data": 1.9996010267988165, "train/reward_max_pred": 2.0002859754765288, "train/reward_neg_acc": 0.9061546693456933, "train/reward_neg_loss": 0.49685651444374246, "train/reward_pos_acc": 0.9994068614980007, "train/reward_pos_loss": 0.3740497979711979, "train/reward_pred": 1.5882196680028389, "train/reward_rate": 0.9517952127659575, "replay/size": 91039.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.3023556854765296e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0699160018209683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.54446148872375, "timer/env.step_count": 236.0, "timer/env.step_total": 5.703969955444336, "timer/env.step_frac": 0.018978789118888305, "timer/env.step_avg": 0.024169364217984473, "timer/env.step_min": 0.02023458480834961, "timer/env.step_max": 0.029649972915649414, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1785132884979248, "timer/replay.add_frac": 0.0005939663223659921, "timer/replay.add_avg": 0.00018910305984949662, "timer/replay.add_min": 3.838539123535156e-05, "timer/replay.add_max": 0.0011854171752929688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017777204513549805, "timer/logger.write_frac": 5.914999872395517e-05, "timer/logger.write_avg": 0.017777204513549805, "timer/logger.write_min": 0.017777204513549805, "timer/logger.write_max": 0.017777204513549805, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7155802249908447, "timer/agent.policy_frac": 0.0023809463047373206, "timer/agent.policy_avg": 0.0030321195974188334, "timer/agent.policy_min": 0.0027027130126953125, "timer/agent.policy_max": 0.004922151565551758, "timer/dataset_count": 472.0, "timer/dataset_total": 0.0350492000579834, "timer/dataset_frac": 0.00011661901831219879, "timer/dataset_avg": 7.425677978386313e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001323223114013672, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.6421413421631, "timer/agent.train_frac": 0.9770339466168481, "timer/agent.train_avg": 0.6221231808096676, "timer/agent.train_min": 0.568882942199707, "timer/agent.train_max": 0.6607730388641357, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15808820724487305, "timer/agent.report_frac": 0.0005260060573460424, "timer/agent.report_avg": 0.15808820724487305, "timer/agent.report_min": 0.15808820724487305, "timer/agent.report_max": 0.15808820724487305, "fps": 6.281866552698904}
+{"step": 184368, "episode/length": 500.0, "episode/score": 995.6119270324707, "episode/sum_abs_reward": 995.6119270324707, "episode/reward_rate": 0.998003992015968}
+{"step": 184470, "train/action_mag": 1.7181464408306366, "train/action_max": 1.6922408646725593, "train/action_mean": 0.02428232161130043, "train/action_min": -1.3844052172721701, "train/action_std": 0.43082105859797054, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08721058887053043, "train/actor_opt_grad_steps": 45230.0, "train/actor_opt_loss": -6.909707028815087, "train/adv_mag": 0.8492916917547266, "train/adv_max": 0.748768261455475, "train/adv_mean": 0.0009606102179764383, "train/adv_min": -0.49876831947488987, "train/adv_std": 0.030575678426217525, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.365124745052204e-10, "train/cont_loss_std": 9.303696140917473e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.365124745052204e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.893755631243929, "train/dyn_loss_std": 4.259203692700001, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.09226963066674293, "train/extr_critic_critic_opt_grad_steps": 45230.0, "train/extr_critic_critic_opt_loss": 10144.397066156915, "train/extr_critic_mag": 665.1448065575133, "train/extr_critic_max": 665.1448065575133, "train/extr_critic_mean": 639.6787239237035, "train/extr_critic_min": 469.8973531520113, "train/extr_critic_std": 33.54820608585439, "train/extr_return_normed_mag": 1.0209958781587316, "train/extr_return_normed_max": 1.0125257081173835, "train/extr_return_normed_mean": 0.8236349288453447, "train/extr_return_normed_min": -0.39073810116090674, "train/extr_return_normed_std": 0.2935983744707513, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.390448387633, "train/extr_return_raw_max": 661.390448387633, "train/extr_return_raw_mean": 639.7905091630652, "train/extr_return_raw_min": 500.74486135929186, "train/extr_return_raw_std": 33.59851922380163, "train/extr_reward_mag": 2.001594442002317, "train/extr_reward_max": 2.001594442002317, "train/extr_reward_mean": 1.6242172743411774, "train/extr_reward_min": 0.0005702110047036029, "train/extr_reward_std": 0.5968656730144581, "train/image_loss_mean": 0.5208958920012129, "train/image_loss_std": 0.6201038696664445, "train/model_loss_mean": 2.029596095389508, "train/model_loss_std": 3.0654518604278564, "train/model_opt_grad_norm": 11.065582985573627, "train/model_opt_grad_steps": 45189.0, "train/model_opt_loss": 10147.980447972075, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9661632598714626, "train/policy_entropy_max": 0.5638931938942443, "train/policy_entropy_mean": -0.8584950046336397, "train/policy_entropy_min": -0.8833629653808919, "train/policy_entropy_std": 0.09836649530111476, "train/policy_logprob_mag": 7.115155980942097, "train/policy_logprob_max": 1.3831516428196684, "train/policy_logprob_mean": 0.8599962782352528, "train/policy_logprob_min": -7.115155980942097, "train/policy_logprob_std": 0.7135063815624156, "train/policy_randomness_mag": 0.6286585204144741, "train/policy_randomness_max": 0.6286585204144741, "train/policy_randomness_mean": 0.010923223480820022, "train/policy_randomness_min": 0.00012318415680598031, "train/policy_randomness_std": 0.0427200248306419, "train/post_ent_mag": 49.29392664483253, "train/post_ent_max": 49.29392664483253, "train/post_ent_mean": 39.47121819029463, "train/post_ent_min": 19.585571370226273, "train/post_ent_std": 3.920975811938022, "train/prior_ent_mag": 59.88152767749543, "train/prior_ent_max": 59.88152767749543, "train/prior_ent_mean": 41.02984408114819, "train/prior_ent_min": 30.37544640074385, "train/prior_ent_std": 4.237194406225326, "train/rep_loss_mean": 1.893755631243929, "train/rep_loss_std": 4.259203692700001, "train/reward_avg": 1.6302151299537497, "train/reward_loss_mean": 0.3724468058728157, "train/reward_loss_std": 0.223853940342335, "train/reward_max_data": 1.999613698492659, "train/reward_max_pred": 2.0002040406490895, "train/reward_neg_acc": 0.9263360310108104, "train/reward_neg_loss": 0.4694042554561128, "train/reward_pos_acc": 0.9993433204103024, "train/reward_pos_loss": 0.36831817982044623, "train/reward_pred": 1.6277374485705762, "train/reward_rate": 0.9574468085106383, "stats/mean_log_entropy": -0.8801319152116776, "replay/size": 91983.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2965467582314703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0793870788509563e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4495015144348, "timer/env.step_count": 236.0, "timer/env.step_total": 5.709881067276001, "timer/env.step_frac": 0.019004461776421604, "timer/env.step_avg": 0.024194411302016952, "timer/env.step_min": 0.019814491271972656, "timer/env.step_max": 0.0430757999420166, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1805710792541504, "timer/replay.add_frac": 0.0006010030915144488, "timer/replay.add_avg": 0.00019128292293871864, "timer/replay.add_min": 3.790855407714844e-05, "timer/replay.add_max": 0.002234935760498047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.016585111618041992, "timer/logger.write_frac": 5.520099562303709e-05, "timer/logger.write_avg": 0.016585111618041992, "timer/logger.write_min": 0.016585111618041992, "timer/logger.write_max": 0.016585111618041992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.71175217628479, "timer/agent.policy_frac": 0.0023689577539558492, "timer/agent.policy_avg": 0.003015899052054195, "timer/agent.policy_min": 0.002702951431274414, "timer/agent.policy_max": 0.0038933753967285156, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035108327865600586, "timer/dataset_frac": 0.00011685267470451715, "timer/dataset_avg": 7.438205056271311e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.54063534736633, "timer/agent.train_frac": 0.9770049005498631, "timer/agent.train_avg": 0.6219081257359457, "timer/agent.train_min": 0.5683093070983887, "timer/agent.train_max": 0.6625320911407471, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1459949016571045, "timer/agent.report_frac": 0.00048592159721087206, "timer/agent.report_avg": 0.1459949016571045, "timer/agent.report_min": 0.1459949016571045, "timer/agent.report_max": 0.1459949016571045, "fps": 6.283827877284848}
+{"step": 186354, "train/action_mag": 1.7745850745667802, "train/action_max": 1.7586914427736973, "train/action_mean": 0.0391709212550616, "train/action_min": -1.4234375268854993, "train/action_std": 0.46754776290122496, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0741016899255362, "train/actor_opt_grad_steps": 45700.0, "train/actor_opt_loss": -20.479936813737485, "train/adv_mag": 0.8040314278704055, "train/adv_max": 0.740455261570342, "train/adv_mean": 0.0023367882101236782, "train/adv_min": -0.47366615495783215, "train/adv_std": 0.0342270748174571, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.1597602784851814e-10, "train/cont_loss_std": 7.069674066020704e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.1597602784851814e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 2.020978750066554, "train/dyn_loss_std": 4.713337806945152, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.0953532874267152, "train/extr_critic_critic_opt_grad_steps": 45700.0, "train/extr_critic_critic_opt_loss": 10165.282808344415, "train/extr_critic_mag": 665.2793176529256, "train/extr_critic_max": 665.2793176529256, "train/extr_critic_mean": 634.8906418820645, "train/extr_critic_min": 467.4282937557139, "train/extr_critic_std": 37.72481021475285, "train/extr_return_normed_mag": 1.0169477006222338, "train/extr_return_normed_max": 1.0075260426135773, "train/extr_return_normed_mean": 0.7779597817583287, "train/extr_return_normed_min": -0.5057852851781757, "train/extr_return_normed_std": 0.3317235752623132, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.1699322639628, "train/extr_return_raw_max": 661.1699322639628, "train/extr_return_raw_mean": 635.155096825133, "train/extr_return_raw_min": 489.6611841080037, "train/extr_return_raw_std": 37.578800282579785, "train/extr_reward_mag": 2.0015283645467554, "train/extr_reward_max": 2.0015283645467554, "train/extr_reward_mean": 1.5504233025489969, "train/extr_reward_min": 0.0006114777098310755, "train/extr_reward_std": 0.63169981888, "train/image_loss_mean": 0.5814733651090176, "train/image_loss_std": 0.7281377055543534, "train/model_loss_mean": 2.186810813051589, "train/model_loss_std": 3.4233355420701046, "train/model_opt_grad_norm": 11.65454332879249, "train/model_opt_grad_steps": 45658.51063829787, "train/model_opt_loss": 16191.075257646276, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 7446.808510638298, "train/policy_entropy_mag": 0.9638171195983887, "train/policy_entropy_max": 0.6106978921180076, "train/policy_entropy_mean": -0.8512682559642386, "train/policy_entropy_min": -0.8833767480038582, "train/policy_entropy_std": 0.11093333153490056, "train/policy_logprob_mag": 6.877015935613754, "train/policy_logprob_max": 1.3831946925914034, "train/policy_logprob_mean": 0.8519224194770164, "train/policy_logprob_min": -6.877015935613754, "train/policy_logprob_std": 0.7163495586273518, "train/policy_randomness_mag": 0.6489855393450311, "train/policy_randomness_max": 0.6489855393450311, "train/policy_randomness_mean": 0.014061760731992569, "train/policy_randomness_min": 0.00011719844073052221, "train/policy_randomness_std": 0.04817773159989651, "train/post_ent_mag": 49.33761320722864, "train/post_ent_max": 49.33761320722864, "train/post_ent_mean": 39.459950710864774, "train/post_ent_min": 19.227689053149934, "train/post_ent_std": 4.1848170047110695, "train/prior_ent_mag": 60.156268424176154, "train/prior_ent_max": 60.156268424176154, "train/prior_ent_mean": 41.15056447779879, "train/prior_ent_min": 28.987265647725856, "train/prior_ent_std": 4.36196867963101, "train/rep_loss_mean": 2.020978750066554, "train/rep_loss_std": 4.713337806945152, "train/reward_avg": 1.5520313090466438, "train/reward_loss_mean": 0.39275021438902996, "train/reward_loss_std": 0.22383407931378546, "train/reward_max_data": 1.999539831851391, "train/reward_max_pred": 2.0001856519820844, "train/reward_neg_acc": 0.9257417245114103, "train/reward_neg_loss": 0.477366659235447, "train/reward_pos_acc": 0.9989588983515476, "train/reward_pos_loss": 0.3889992719000958, "train/reward_pred": 1.5500583039953353, "train/reward_rate": 0.9463721742021277, "replay/size": 92925.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3677344028610584e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0713017417113998e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10587882995605, "timer/env.step_count": 236.0, "timer/env.step_total": 5.701829433441162, "timer/env.step_frac": 0.01899939266658583, "timer/env.step_avg": 0.02416029420949645, "timer/env.step_min": 0.020578384399414062, "timer/env.step_max": 0.028492212295532227, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18285369873046875, "timer/replay.add_frac": 0.000609297290154306, "timer/replay.add_avg": 0.00019411220672024284, "timer/replay.add_min": 4.00543212890625e-05, "timer/replay.add_max": 0.002121448516845703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021672725677490234, "timer/logger.write_frac": 7.221693144428633e-05, "timer/logger.write_avg": 0.021672725677490234, "timer/logger.write_min": 0.021672725677490234, "timer/logger.write_max": 0.021672725677490234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025534629821777344, "timer/checkpoint.save_frac": 8.50854035959942e-07, "timer/checkpoint.save_avg": 0.00025534629821777344, "timer/checkpoint.save_min": 0.00025534629821777344, "timer/checkpoint.save_max": 0.00025534629821777344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.15109872817993164, "timer/agent.save_frac": 0.000503484732685114, "timer/agent.save_avg": 0.15109872817993164, "timer/agent.save_min": 0.15109872817993164, "timer/agent.save_max": 0.15109872817993164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00014090538024902344, "timer/replay.save_frac": 4.6951889379302125e-07, "timer/replay.save_avg": 0.00014090538024902344, "timer/replay.save_min": 0.00014090538024902344, "timer/replay.save_max": 0.00014090538024902344, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.8344216346740723, "timer/agent.policy_frac": 0.0027804241553923926, "timer/agent.policy_avg": 0.003535684892686747, "timer/agent.policy_min": 0.002719879150390625, "timer/agent.policy_max": 0.12272906303405762, "timer/dataset_count": 471.0, "timer/dataset_total": 0.035726070404052734, "timer/dataset_frac": 0.0001190448869023842, "timer/dataset_avg": 7.585152952028182e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001614093780517578, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.07575821876526, "timer/agent.train_frac": 0.9765745321664486, "timer/agent.train_avg": 0.6222415248806057, "timer/agent.train_min": 0.5697484016418457, "timer/agent.train_max": 0.6590793132781982, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15691161155700684, "timer/agent.report_frac": 0.0005228541745625551, "timer/agent.report_avg": 0.15691161155700684, "timer/agent.report_min": 0.15691161155700684, "timer/agent.report_max": 0.15691161155700684, "fps": 6.277725973527643}
+{"step": 188242, "train/action_mag": 1.6732219085097313, "train/action_max": 1.656373197833697, "train/action_mean": 0.03985088726039976, "train/action_min": -1.361410232881705, "train/action_std": 0.4496833421289921, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08593288622796535, "train/actor_opt_grad_steps": 46175.0, "train/actor_opt_loss": -8.757604009161392, "train/adv_mag": 0.9054125236968199, "train/adv_max": 0.8238508477807045, "train/adv_mean": 0.0011474884387704758, "train/adv_min": -0.4647242321322362, "train/adv_std": 0.030848002429896344, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.192572942123384e-10, "train/cont_loss_std": 8.545878778937199e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.192572942123384e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.978973999619484, "train/dyn_loss_std": 4.544549003243446, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.08460310481799145, "train/extr_critic_critic_opt_grad_steps": 46175.0, "train/extr_critic_critic_opt_loss": 10225.045817057291, "train/extr_critic_mag": 665.2420298258463, "train/extr_critic_max": 665.2420298258463, "train/extr_critic_mean": 637.4022750854492, "train/extr_critic_min": 472.7111161549886, "train/extr_critic_std": 35.52313347657522, "train/extr_return_normed_mag": 1.0228588407238324, "train/extr_return_normed_max": 1.0069700206319492, "train/extr_return_normed_mean": 0.7921855933964252, "train/extr_return_normed_min": -0.37651561714786413, "train/extr_return_normed_std": 0.3194352217639486, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.4178759256998, "train/extr_return_raw_max": 661.4178759256998, "train/extr_return_raw_mean": 637.5304641723633, "train/extr_return_raw_min": 507.25645128885907, "train/extr_return_raw_std": 35.553580502669014, "train/extr_reward_mag": 2.0013547192017236, "train/extr_reward_max": 2.0013547192017236, "train/extr_reward_mean": 1.58421757320563, "train/extr_reward_min": 0.0020826185743014016, "train/extr_reward_std": 0.611933053471148, "train/image_loss_mean": 0.5468137084196011, "train/image_loss_std": 0.7113166910906633, "train/model_loss_mean": 2.110730188588301, "train/model_loss_std": 3.3226007421811423, "train/model_opt_grad_norm": 10.605433662732443, "train/model_opt_grad_steps": 46132.479166666664, "train/model_opt_loss": 7824.570297241211, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3697.9166666666665, "train/policy_entropy_mag": 0.933232806622982, "train/policy_entropy_max": 0.5582453869283199, "train/policy_entropy_mean": -0.8567188444236914, "train/policy_entropy_min": -0.8833859960238138, "train/policy_entropy_std": 0.0992812473171701, "train/policy_logprob_mag": 7.003207455078761, "train/policy_logprob_max": 1.3832018077373505, "train/policy_logprob_mean": 0.8564500498274962, "train/policy_logprob_min": -7.003207455078761, "train/policy_logprob_std": 0.7165689033766588, "train/policy_randomness_mag": 0.6262057063480219, "train/policy_randomness_max": 0.6262057063480219, "train/policy_randomness_mean": 0.011694604715254778, "train/policy_randomness_min": 0.00011318207756024397, "train/policy_randomness_std": 0.04311729544618478, "train/post_ent_mag": 49.42843453089396, "train/post_ent_max": 49.42843453089396, "train/post_ent_mean": 39.505648136138916, "train/post_ent_min": 19.046414335568745, "train/post_ent_std": 4.180293942491214, "train/prior_ent_mag": 60.3091774781545, "train/prior_ent_max": 60.3091774781545, "train/prior_ent_mean": 41.144046465555824, "train/prior_ent_min": 29.67006015777588, "train/prior_ent_std": 4.397657538453738, "train/rep_loss_mean": 1.978973999619484, "train/rep_loss_std": 4.544549003243446, "train/reward_avg": 1.5894443492094676, "train/reward_loss_mean": 0.37653206909696263, "train/reward_loss_std": 0.22587091010063887, "train/reward_max_data": 1.9996034031112988, "train/reward_max_pred": 1.9999864896138508, "train/reward_neg_acc": 0.9035253040492535, "train/reward_neg_loss": 0.4922430260727803, "train/reward_pos_acc": 0.9992410664757093, "train/reward_pos_loss": 0.3719685450196266, "train/reward_pred": 1.588007313509782, "train/reward_rate": 0.9509684244791666, "replay/size": 93869.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.2879596483909477e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0611079001830796e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4243290424347, "timer/env.step_count": 236.0, "timer/env.step_total": 5.6870856285095215, "timer/env.step_frac": 0.018930176682548986, "timer/env.step_avg": 0.024097820459786107, "timer/env.step_min": 0.0202639102935791, "timer/env.step_max": 0.030782222747802734, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.1778240203857422, "timer/replay.add_frac": 0.0005919095199531084, "timer/replay.add_avg": 0.0001883729029509981, "timer/replay.add_min": 3.8623809814453125e-05, "timer/replay.add_max": 0.0010721683502197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02107977867126465, "timer/logger.write_frac": 7.016668303280839e-05, "timer/logger.write_avg": 0.02107977867126465, "timer/logger.write_min": 0.02107977867126465, "timer/logger.write_max": 0.02107977867126465, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7100205421447754, "timer/agent.policy_frac": 0.002363392287195507, "timer/agent.policy_avg": 0.0030085616192575227, "timer/agent.policy_min": 0.0027608871459960938, "timer/agent.policy_max": 0.0037789344787597656, "timer/dataset_count": 472.0, "timer/dataset_total": 0.03496837615966797, "timer/dataset_frac": 0.00011639661897931281, "timer/dataset_avg": 7.408554271116096e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.5410852432251, "timer/agent.train_frac": 0.9770882610567889, "timer/agent.train_avg": 0.6219090789051379, "timer/agent.train_min": 0.5701718330383301, "timer/agent.train_max": 0.6610584259033203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.156280517578125, "timer/agent.report_frac": 0.0005201992730623707, "timer/agent.report_avg": 0.156280517578125, "timer/agent.report_min": 0.156280517578125, "timer/agent.report_max": 0.156280517578125, "fps": 6.284406871017984}
+{"step": 188376, "episode/length": 500.0, "episode/score": 994.9171780347824, "episode/sum_abs_reward": 994.9171780347824, "episode/reward_rate": 0.998003992015968}
+{"step": 190126, "train/action_mag": 1.6543659352241677, "train/action_max": 1.6370634246379772, "train/action_mean": 0.025977204306090764, "train/action_min": -1.360300969570241, "train/action_std": 0.42456868481128773, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.07609254335786433, "train/actor_opt_grad_steps": 46650.0, "train/actor_opt_loss": -9.934882798093431, "train/adv_mag": 0.7182354984131265, "train/adv_max": 0.6410881103353298, "train/adv_mean": 0.0012678847756723507, "train/adv_min": -0.433667316715768, "train/adv_std": 0.028434223990808142, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.188783448286455e-10, "train/cont_loss_std": 9.979274481232454e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.188783448286455e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9062251182312662, "train/dyn_loss_std": 4.386444167887911, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.07144989806445355, "train/extr_critic_critic_opt_grad_steps": 46650.0, "train/extr_critic_critic_opt_loss": 10277.90932513298, "train/extr_critic_mag": 665.1291568837268, "train/extr_critic_max": 665.1291568837268, "train/extr_critic_mean": 640.6991862844914, "train/extr_critic_min": 486.84189102497504, "train/extr_critic_std": 32.57224395427298, "train/extr_return_normed_mag": 1.0279785648305366, "train/extr_return_normed_max": 1.0075790374837024, "train/extr_return_normed_mean": 0.8147112904710972, "train/extr_return_normed_min": -0.36071283421776396, "train/extr_return_normed_std": 0.2993140550369912, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 661.8336506295711, "train/extr_return_raw_max": 661.8336506295711, "train/extr_return_raw_mean": 640.836846534242, "train/extr_return_raw_min": 512.7812863613697, "train/extr_return_raw_std": 32.592750163788494, "train/extr_reward_mag": 2.0013731540517603, "train/extr_reward_max": 2.0013731540517603, "train/extr_reward_mean": 1.6293499875575939, "train/extr_reward_min": 0.0144527516466506, "train/extr_reward_std": 0.5689247006431539, "train/image_loss_mean": 0.5324343855076648, "train/image_loss_std": 0.6522203969194534, "train/model_loss_mean": 2.0416802396165563, "train/model_loss_std": 3.173199197079273, "train/model_opt_grad_norm": 11.680228344937587, "train/model_opt_grad_steps": 46607.0, "train/model_opt_loss": 5104.200600482048, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 0.9154826897255918, "train/policy_entropy_max": 0.49451967756798926, "train/policy_entropy_mean": -0.8599996795045569, "train/policy_entropy_min": -0.8833875326400108, "train/policy_entropy_std": 0.08744315977426285, "train/policy_logprob_mag": 7.178596770509761, "train/policy_logprob_max": 1.3831946215731032, "train/policy_logprob_mean": 0.8597301954918719, "train/policy_logprob_min": -7.178596770509761, "train/policy_logprob_std": 0.7142109858228806, "train/policy_randomness_mag": 0.5985299925854866, "train/policy_randomness_max": 0.5985299925854866, "train/policy_randomness_mean": 0.010269754125360162, "train/policy_randomness_min": 0.00011251473327494285, "train/policy_randomness_std": 0.0379760807102665, "train/post_ent_mag": 49.34915006921646, "train/post_ent_max": 49.34915006921646, "train/post_ent_mean": 39.37814258007293, "train/post_ent_min": 19.149654104354532, "train/post_ent_std": 3.949384166839275, "train/prior_ent_mag": 59.98433936910426, "train/prior_ent_max": 59.98433936910426, "train/prior_ent_mean": 40.92187021133748, "train/prior_ent_min": 31.54925691320541, "train/prior_ent_std": 4.270173701834171, "train/rep_loss_mean": 1.9062251182312662, "train/rep_loss_std": 4.386444167887911, "train/reward_avg": 1.6309959812367216, "train/reward_loss_mean": 0.365510770615111, "train/reward_loss_std": 0.22217797377008072, "train/reward_max_data": 1.999651033827599, "train/reward_max_pred": 2.000157188861928, "train/reward_neg_acc": 0.860626332303311, "train/reward_neg_loss": 0.5308000172706361, "train/reward_pos_acc": 0.9994721273158459, "train/reward_pos_loss": 0.36118244490724927, "train/reward_pred": 1.629720058846981, "train/reward_rate": 0.9590882646276596, "stats/mean_log_entropy": -0.8800211101770401, "replay/size": 94811.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.339134297300043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0742440092082743e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23112893104553, "timer/env.step_count": 235.0, "timer/env.step_total": 5.659464359283447, "timer/env.step_frac": 0.01885035832038344, "timer/env.step_avg": 0.024082827060780628, "timer/env.step_min": 0.02017664909362793, "timer/env.step_max": 0.029807567596435547, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18423867225646973, "timer/replay.add_frac": 0.0006136561285714782, "timer/replay.add_avg": 0.00019558245462470247, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.0021638870239257812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.014722108840942383, "timer/logger.write_frac": 4.90359174058984e-05, "timer/logger.write_avg": 0.014722108840942383, "timer/logger.write_min": 0.014722108840942383, "timer/logger.write_max": 0.014722108840942383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 235.0, "timer/agent.policy_total": 0.7038247585296631, "timer/agent.policy_frac": 0.0023442764280825505, "timer/agent.policy_avg": 0.0029949989724666515, "timer/agent.policy_min": 0.002766847610473633, "timer/agent.policy_max": 0.0034935474395751953, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03490734100341797, "timer/dataset_frac": 0.00011626822684144516, "timer/dataset_avg": 7.411325053804239e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00014519691467285156, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.37061643600464, "timer/agent.train_frac": 0.9771492299300631, "timer/agent.train_avg": 0.6228675508195427, "timer/agent.train_min": 0.5723161697387695, "timer/agent.train_max": 0.6617798805236816, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1469130516052246, "timer/agent.report_frac": 0.0004893331751717402, "timer/agent.report_avg": 0.1469130516052246, "timer/agent.report_min": 0.1469130516052246, "timer/agent.report_max": 0.1469130516052246, "fps": 6.275096653157951}
+{"step": 192010, "train/action_mag": 1.7017634549039475, "train/action_max": 1.6931402277439198, "train/action_mean": 0.03196897522169859, "train/action_min": -1.3532767803110974, "train/action_std": 0.44381574240136656, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0756430013620473, "train/actor_opt_grad_steps": 47120.0, "train/actor_opt_loss": -15.743682823282606, "train/adv_mag": 0.6492447123882619, "train/adv_max": 0.5648252520155399, "train/adv_mean": 0.0018548562638511128, "train/adv_min": -0.43579552275069217, "train/adv_std": 0.030101992427668672, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.2241670739849235e-10, "train/cont_loss_std": 1.0375903883131283e-09, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.2241670739849235e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9418512379869501, "train/dyn_loss_std": 4.429073764922771, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.07879357004260763, "train/extr_critic_critic_opt_grad_steps": 47120.0, "train/extr_critic_critic_opt_loss": 10388.558988530585, "train/extr_critic_mag": 665.3732247859874, "train/extr_critic_max": 665.3732247859874, "train/extr_critic_mean": 638.250833714262, "train/extr_critic_min": 484.76559967690326, "train/extr_critic_std": 36.94963438967441, "train/extr_return_normed_mag": 1.0409928687075352, "train/extr_return_normed_max": 1.0069909324037267, "train/extr_return_normed_mean": 0.787326305470568, "train/extr_return_normed_min": -0.5060765498932055, "train/extr_return_normed_std": 0.3433283069666396, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 662.1059544340093, "train/extr_return_raw_max": 662.1059544340093, "train/extr_return_raw_mean": 638.4497394967586, "train/extr_return_raw_min": 499.45031803212265, "train/extr_return_raw_std": 36.934593119519825, "train/extr_reward_mag": 2.0015694384879255, "train/extr_reward_max": 2.0015694384879255, "train/extr_reward_mean": 1.591195398188652, "train/extr_reward_min": 0.0008187877370956097, "train/extr_reward_std": 0.6113889451990736, "train/image_loss_mean": 0.5455966705971576, "train/image_loss_std": 0.6868763052402659, "train/model_loss_mean": 2.081265244078129, "train/model_loss_std": 3.229944979890864, "train/model_opt_grad_norm": 10.608657857205005, "train/model_opt_grad_steps": 47077.0, "train/model_opt_loss": 7289.81805809508, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3510.6382978723404, "train/policy_entropy_mag": 0.9352157192027315, "train/policy_entropy_max": 0.5212596654891968, "train/policy_entropy_mean": -0.8557073486612198, "train/policy_entropy_min": -0.8833926966849793, "train/policy_entropy_std": 0.10233540902350177, "train/policy_logprob_mag": 7.209444837367281, "train/policy_logprob_max": 1.3832188870044464, "train/policy_logprob_mean": 0.8558075009508336, "train/policy_logprob_min": -7.209444837367281, "train/policy_logprob_std": 0.7173976568465538, "train/policy_randomness_mag": 0.6101430131399885, "train/policy_randomness_max": 0.6101430131399885, "train/policy_randomness_mean": 0.012133887186250154, "train/policy_randomness_min": 0.00011027201733358719, "train/policy_randomness_std": 0.04444370123537931, "train/post_ent_mag": 49.31165086462143, "train/post_ent_max": 49.31165086462143, "train/post_ent_mean": 39.131564850502826, "train/post_ent_min": 19.12749795710787, "train/post_ent_std": 4.074277857516674, "train/prior_ent_mag": 60.25081415379301, "train/prior_ent_max": 60.25081415379301, "train/prior_ent_mean": 40.75895755848986, "train/prior_ent_min": 29.8115440125161, "train/prior_ent_std": 4.401879056971124, "train/rep_loss_mean": 1.9418512379869501, "train/rep_loss_std": 4.429073764922771, "train/reward_avg": 1.5922871675897152, "train/reward_loss_mean": 0.37055779517965115, "train/reward_loss_std": 0.22427326884675533, "train/reward_max_data": 1.9995928977398163, "train/reward_max_pred": 2.00012965405241, "train/reward_neg_acc": 0.9086099863052368, "train/reward_neg_loss": 0.48489128021483724, "train/reward_pos_acc": 0.9991175646477557, "train/reward_pos_loss": 0.3655536415729117, "train/reward_pred": 1.5910561592020886, "train/reward_rate": 0.9512965425531915, "replay/size": 95753.0, "replay/inserts": 942.0, "replay/samples": 7536.0, "replay/insert_wait_avg": 2.3343254299933236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.0705424468734968e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1027121543884, "timer/env.step_count": 236.0, "timer/env.step_total": 5.660727262496948, "timer/env.step_frac": 0.018862632802814444, "timer/env.step_avg": 0.023986132468207407, "timer/env.step_min": 0.020430326461791992, "timer/env.step_max": 0.02913045883178711, "timer/replay.add_count": 942.0, "timer/replay.add_total": 0.18312358856201172, "timer/replay.add_frac": 0.0006102030443090545, "timer/replay.add_avg": 0.00019439871397241158, "timer/replay.add_min": 4.029273986816406e-05, "timer/replay.add_max": 0.002555370330810547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.017652511596679688, "timer/logger.write_frac": 5.8821566356249115e-05, "timer/logger.write_avg": 0.017652511596679688, "timer/logger.write_min": 0.017652511596679688, "timer/logger.write_max": 0.017652511596679688, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019216537475585938, "timer/checkpoint.save_frac": 6.403320162498216e-07, "timer/checkpoint.save_avg": 0.00019216537475585938, "timer/checkpoint.save_min": 0.00019216537475585938, "timer/checkpoint.save_max": 0.00019216537475585938, "timer/agent.save_count": 1.0, "timer/agent.save_total": 0.07667374610900879, "timer/agent.save_frac": 0.000255491680027083, "timer/agent.save_avg": 0.07667374610900879, "timer/agent.save_min": 0.07667374610900879, "timer/agent.save_max": 0.07667374610900879, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.416175842285156e-05, "timer/replay.save_frac": 2.8044317833273823e-07, "timer/replay.save_avg": 8.416175842285156e-05, "timer/replay.save_min": 8.416175842285156e-05, "timer/replay.save_max": 8.416175842285156e-05, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7578938007354736, "timer/agent.policy_frac": 0.0025254480217612083, "timer/agent.policy_avg": 0.0032114144098960747, "timer/agent.policy_min": 0.002745389938354492, "timer/agent.policy_max": 0.0501253604888916, "timer/dataset_count": 471.0, "timer/dataset_total": 0.03530740737915039, "timer/dataset_frac": 0.00011765107727845667, "timer/dataset_avg": 7.496264836337662e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00015425682067871094, "timer/agent.train_count": 471.0, "timer/agent.train_total": 293.19809007644653, "timer/agent.train_frac": 0.9769924702500196, "timer/agent.train_avg": 0.6225012528162347, "timer/agent.train_min": 0.575329065322876, "timer/agent.train_max": 0.6597483158111572, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15347075462341309, "timer/agent.report_frac": 0.0005113940941142169, "timer/agent.report_avg": 0.15347075462341309, "timer/agent.report_min": 0.15347075462341309, "timer/agent.report_max": 0.15347075462341309, "fps": 6.27778248492615}
+{"step": 192384, "episode/length": 500.0, "episode/score": 994.733414888382, "episode/sum_abs_reward": 994.733414888382, "episode/reward_rate": 0.998003992015968}
+{"step": 193898, "train/action_mag": 1.7039032515059127, "train/action_max": 1.6756802442226004, "train/action_mean": 0.033308732182163986, "train/action_min": -1.3872585524903966, "train/action_std": 0.44223627987060143, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.08328397064766985, "train/actor_opt_grad_steps": 47590.0, "train/actor_opt_loss": -7.612885181891158, "train/adv_mag": 0.7966898927029143, "train/adv_max": 0.7157470644154447, "train/adv_mean": 0.001032589702632283, "train/adv_min": -0.4442260829692191, "train/adv_std": 0.029736062888293825, "train/cont_avg": 1.0, "train/cont_loss_mean": 3.0633354688589145e-10, "train/cont_loss_std": 7.742058507289737e-10, "train/cont_neg_acc": NaN, "train/cont_neg_loss": NaN, "train/cont_pos_acc": 1.0, "train/cont_pos_loss": 3.0633354688589145e-10, "train/cont_pred": 1.0, "train/cont_rate": 1.0, "train/dyn_loss_mean": 1.9345928506648287, "train/dyn_loss_std": 4.452402530832494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.07694870296944963, "train/extr_critic_critic_opt_grad_steps": 47590.0, "train/extr_critic_critic_opt_loss": 10405.495324966756, "train/extr_critic_mag": 665.6306308178191, "train/extr_critic_max": 665.6306308178191, "train/extr_critic_mean": 639.6543903756649, "train/extr_critic_min": 476.4369143222241, "train/extr_critic_std": 35.92335165307877, "train/extr_return_normed_mag": 1.0280743659810816, "train/extr_return_normed_max": 1.0068010548327833, "train/extr_return_normed_mean": 0.801741473218228, "train/extr_return_normed_min": -0.4365623820569376, "train/extr_return_normed_std": 0.32704516151484025, "train/extr_return_rate": 1.0, "train/extr_return_raw_mag": 662.3334688227227, "train/extr_return_raw_max": 662.3334688227227, "train/extr_return_raw_mean": 639.7657159034242, "train/extr_return_raw_min": 503.4656456480635, "train/extr_return_raw_std": 35.96904456361811, "train/extr_reward_mag": 2.0016444084492138, "train/extr_reward_max": 2.0016444084492138, "train/extr_reward_mean": 1.6090095728001697, "train/extr_reward_min": 0.0006880709465513838, "train/extr_reward_std": 0.5973987408140873, "train/image_loss_mean": 0.5276782081482259, "train/image_loss_std": 0.6899391419075905, "train/model_loss_mean": 2.0502680032811265, "train/model_loss_std": 3.2576606831652053, "train/model_opt_grad_norm": 11.081977194928108, "train/model_opt_grad_steps": 47547.0, "train/model_opt_loss": 10251.340009973404, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 0.9461492160533337, "train/policy_entropy_max": 0.5619477109706148, "train/policy_entropy_mean": -0.8549886168317592, "train/policy_entropy_min": -0.8834053024332574, "train/policy_entropy_std": 0.10360281419088231, "train/policy_logprob_mag": 7.043412025938642, "train/policy_logprob_max": 1.383241412487436, "train/policy_logprob_mean": 0.8558990346624497, "train/policy_logprob_min": -7.043412025938642, "train/policy_logprob_std": 0.7143106866390148, "train/policy_randomness_mag": 0.6278136074542999, "train/policy_randomness_max": 0.6278136074542999, "train/policy_randomness_mean": 0.012446029525388903, "train/policy_randomness_min": 0.00010479741049880915, "train/policy_randomness_std": 0.0449941286500147, "train/post_ent_mag": 49.36968223084795, "train/post_ent_max": 49.36968223084795, "train/post_ent_mean": 39.234173957337724, "train/post_ent_min": 19.55618976024871, "train/post_ent_std": 4.120348524540029, "train/prior_ent_mag": 60.468725650868514, "train/prior_ent_max": 60.468725650868514, "train/prior_ent_mean": 40.83064058993725, "train/prior_ent_min": 30.226820600793715, "train/prior_ent_std": 4.456555407097999, "train/rep_loss_mean": 1.9345928506648287, "train/rep_loss_std": 4.452402530832494, "train/reward_avg": 1.6103209307853212, "train/reward_loss_mean": 0.3618340980499349, "train/reward_loss_std": 0.22066215790332633, "train/reward_max_data": 1.9996516780650362, "train/reward_max_pred": 2.000271406579525, "train/reward_neg_acc": 0.9040182930357913, "train/reward_neg_loss": 0.5012742959438486, "train/reward_pos_acc": 0.9993355185427564, "train/reward_pos_loss": 0.3557152050606748, "train/reward_pred": 1.608896757694001, "train/reward_rate": 0.9534158909574468, "stats/mean_log_entropy": -0.8800267726182938, "replay/size": 96697.0, "replay/inserts": 944.0, "replay/samples": 7552.0, "replay/insert_wait_avg": 2.33594643867622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.08169170759492e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.60478949546814, "timer/env.step_count": 236.0, "timer/env.step_total": 5.648868560791016, "timer/env.step_frac": 0.018791678503433083, "timer/env.step_avg": 0.02393588373216532, "timer/env.step_min": 0.020543813705444336, "timer/env.step_max": 0.02839374542236328, "timer/replay.add_count": 944.0, "timer/replay.add_total": 0.18083834648132324, "timer/replay.add_frac": 0.0006015817205868223, "timer/replay.add_avg": 0.00019156604500140175, "timer/replay.add_min": 4.0531158447265625e-05, "timer/replay.add_max": 0.0019893646240234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019761323928833008, "timer/logger.write_frac": 6.573855314148588e-05, "timer/logger.write_avg": 0.019761323928833008, "timer/logger.write_min": 0.019761323928833008, "timer/logger.write_max": 0.019761323928833008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 236.0, "timer/agent.policy_total": 0.7158849239349365, "timer/agent.policy_frac": 0.0023814820952669123, "timer/agent.policy_avg": 0.0030334106946395614, "timer/agent.policy_min": 0.0027539730072021484, "timer/agent.policy_max": 0.004583120346069336, "timer/dataset_count": 472.0, "timer/dataset_total": 0.035130977630615234, "timer/dataset_frac": 0.00011686765766300228, "timer/dataset_avg": 7.443003735299838e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 472.0, "timer/agent.train_total": 293.73476934432983, "timer/agent.train_frac": 0.9771460056818493, "timer/agent.train_avg": 0.62231942657697, "timer/agent.train_min": 0.5723831653594971, "timer/agent.train_max": 0.6615946292877197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.15334796905517578, "timer/agent.report_frac": 0.0005101314896298005, "timer/agent.report_avg": 0.15334796905517578, "timer/agent.report_min": 0.15334796905517578, "timer/agent.report_max": 0.15334796905517578, "fps": 6.280645153440931}
diff --git a/dmc_cartpole_balance/scores.jsonl b/dmc_cartpole_balance/scores.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..469b45fd410f95d130eb1b81b33e992ce242e64e
--- /dev/null
+++ b/dmc_cartpole_balance/scores.jsonl
@@ -0,0 +1,48 @@
+{"step": 4008, "episode/score": 364.1353488473105}
+{"step": 8016, "episode/score": 243.19502317346632}
+{"step": 12024, "episode/score": 215.29590062703937}
+{"step": 16032, "episode/score": 219.49177751297248}
+{"step": 20040, "episode/score": 325.75830119635793}
+{"step": 24048, "episode/score": 316.38762768462766}
+{"step": 28056, "episode/score": 331.66844722552923}
+{"step": 32064, "episode/score": 510.6056216080324}
+{"step": 36072, "episode/score": 577.0152615876577}
+{"step": 40080, "episode/score": 584.318119122705}
+{"step": 44088, "episode/score": 564.0064082191675}
+{"step": 48096, "episode/score": 730.1514266202867}
+{"step": 52104, "episode/score": 610.561992533796}
+{"step": 56112, "episode/score": 678.4418709128513}
+{"step": 60120, "episode/score": 766.0856306317728}
+{"step": 64128, "episode/score": 645.9665882878471}
+{"step": 68136, "episode/score": 641.7982254945673}
+{"step": 72144, "episode/score": 798.0030501183355}
+{"step": 76152, "episode/score": 847.3777811066248}
+{"step": 80160, "episode/score": 961.132110118866}
+{"step": 84168, "episode/score": 955.353518486023}
+{"step": 88176, "episode/score": 806.7806607902749}
+{"step": 92184, "episode/score": 968.2904243469238}
+{"step": 96192, "episode/score": 889.8416714978521}
+{"step": 100200, "episode/score": 956.506257891655}
+{"step": 104208, "episode/score": 981.6496714353561}
+{"step": 108216, "episode/score": 982.630043387413}
+{"step": 112224, "episode/score": 965.9279071092606}
+{"step": 116232, "episode/score": 981.6243200302124}
+{"step": 120240, "episode/score": 976.5901197195053}
+{"step": 124248, "episode/score": 984.1260552406311}
+{"step": 128256, "episode/score": 969.3790756464005}
+{"step": 132264, "episode/score": 983.8243455886841}
+{"step": 136272, "episode/score": 989.4816675186157}
+{"step": 140280, "episode/score": 993.9220321178436}
+{"step": 144288, "episode/score": 991.2055585384369}
+{"step": 148296, "episode/score": 991.2203917503357}
+{"step": 152304, "episode/score": 990.1324824094772}
+{"step": 156312, "episode/score": 991.3019013404846}
+{"step": 160320, "episode/score": 994.1646664142609}
+{"step": 164328, "episode/score": 993.6592413187027}
+{"step": 168336, "episode/score": 991.8576265573502}
+{"step": 172344, "episode/score": 993.3806048631668}
+{"step": 176352, "episode/score": 993.7669841051102}
+{"step": 180360, "episode/score": 994.6114200353622}
+{"step": 184368, "episode/score": 995.6119270324707}
+{"step": 188376, "episode/score": 994.9171780347824}
+{"step": 192384, "episode/score": 994.733414888382}